CN112102833A - 语音识别方法、装置、设备及存储介质 - Google Patents

语音识别方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN112102833A
CN112102833A CN202011003399.0A CN202011003399A CN112102833A CN 112102833 A CN112102833 A CN 112102833A CN 202011003399 A CN202011003399 A CN 202011003399A CN 112102833 A CN112102833 A CN 112102833A
Authority
CN
China
Prior art keywords
voice
preset
user
mapping relation
text information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011003399.0A
Other languages
English (en)
Other versions
CN112102833B (zh
Inventor
潘璠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Apollo Zhilian Beijing Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN202011003399.0A priority Critical patent/CN112102833B/zh
Publication of CN112102833A publication Critical patent/CN112102833A/zh
Application granted granted Critical
Publication of CN112102833B publication Critical patent/CN112102833B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Abstract

本申请公开了语音识别方法、装置、设备及存储介质,涉及语音技术领域。具体实现方案为:获取目标用户的语音数据;对所述语音数据进行识别,得到初始语音识别结果;获取针对所述目标用户的识别结果调整策略,并确定所述识别结果调整策略包含自定义调整模式后,获取针对所述目标用户的自定义词库;基于所述目标用户的自定义词库对所述初始语音识别结果进行调整。如此,能够基于用户的自定义词库来对初始语音识别结果进行调整,进而提升语音识别结果与目标用户所输入的语音数据的匹配程度,提升用户体验。

Description

语音识别方法、装置、设备及存储介质
技术领域
本申请涉及数据处理领域,尤其涉及语音技术领域。
背景技术
在语音识别场景中,不同用户的口音或发音可能不同,此时,针对同一语义内容,不同的用户可能会有不同的口音,导致针对同一语义内容的语音识别结果不同,如此,降低了语音识别的使用效果,也降低了用户体验。
发明内容
本申请提供了一种语音识别方法、装置、设备及存储介质。
根据本申请的一方面,提供了一种语音识别方法,包括:
获取目标用户的语音数据;
对所述语音数据进行识别,得到初始语音识别结果;
获取针对所述目标用户的识别结果调整策略,并确定所述识别结果调整策略包含自定义调整模式后,获取针对所述目标用户的自定义词库;
基于所述目标用户的自定义词库对所述初始语音识别结果进行调整,得到针对所述目标用户的目标语音识别结果。
根据本申请的另一方面,提供了一种语音识别装置,包括:
语音获取单元,用于获取目标用户的语音数据;
语音识别单元,用于对所述语音数据进行识别,得到初始语音识别结果;
策略处理单元,用于获取针对所述目标用户的识别结果调整策略,并确定所述识别结果调整策略包含自定义调整模式后,获取针对所述目标用户的自定义词库;
结果调整单元,用于基于所述目标用户的自定义词库对所述初始语音识别结果进行调整,得到针对所述目标用户的目标语音识别结果。
根据本申请的另一方面,提供了一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行以上所述的方法。
根据本申请的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行以上所述的方法。
根据本申请的技术能够基于用户的自定义词库来对初始语音识别结果进行调整,进而提升最终的语音识别结果与目标用户所输入的语音数据的匹配程度,提升用户体验。
应当理解,本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征,也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本申请的限定。其中:
图1是根据本申请实施例语音识别方法的实现流程示意图;
图2是根据本申请实施例语音识别方法在一具体示例中的实现流程示意图;
图3是根据本申请实施例语音识别装置的结构示意图;
图4是用来实现本申请实施例的语音识别方法的电子设备的框图。
具体实施方式
以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
本申请方案提供了一种语音识别方法,具体地,图1是根据本申请实施例语音识别方法的实现流程示意图,如图1所示,该方法包括:
步骤S101:获取目标用户的语音数据。
步骤S102:对所述语音数据进行识别,得到初始语音识别结果。
步骤S103:获取针对所述目标用户的识别结果调整策略,并确定所述识别结果调整策略包含自定义调整模式后,获取针对所述目标用户的自定义词库。
步骤S104:基于所述目标用户的自定义词库对所述初始语音识别结果进行调整,得到针对所述目标用户的目标语音识别结果。
这样,本申请方案能够基于用户的自定义词库来对初始语音识别结果进行调整,进而提升最终的语音识别结果与目标用户所输入的语音数据的匹配程度,避免了由于用户口音或发音不同而导致识别结果不准确的问题,提升了用户体验。
这里,由于本申请方案的用户能够个性化设置符合自身需求的自定义词库,而且,还能够在确定识别结果调整策略包含自定义调整模式后,优先选择自定义词库对用户的初始语音识别结果进行调整,比如纠正、纠偏等,如此,来提升最终的目标语音识别结果的准确率,进而提升了用户体验。
实际应用中,可以采用语音识别模型对获取到的所述语音数据进行识别,以得到初始语音识别结果。
在一具体示例中,所述识别结果调整策略可以包括多种模式,比如,普通模式,即该模式下,采用预设调整策略对初始语音识别结果进行调整等,需要说明的是,本申请方案对识别结果调整策略所包含的模式,以及对应模式下调整方式(比如词库)的种类和数量不作限制,可根据实际场景的实际需求而设置,而且,不同模式下,不同的调整方式可以设置不同的优先级,比如,自定义调整模式下,优先使用自定义词库对初始语音识别结果进行调整,如此,来提升最终的识别结果,也即目标语音识别结果与目标用户所输入的语音数据的匹配程度。
在另一具体示例中,本申请方案还可以应用于车载场景中,如本申请方案应用于车载语音系统中,如此,来提升车载场景中语音识别的准确率,避免由于口音而导致识别结果不准确,进而由于识别结果不准确使得用户反复进行语音输入而带来的行驶安全问题。
在本申请方案的一具体示例中,可以采用如下方式来对所述初始语音识别结果进行调整,具体地,上述示例中的基于所述目标用户的自定义词库对所述初始语音识别结果进行调整,可以具体包括:获取所述初始语音识别结果中文本信息与所述语音数据中语音片段之间的第一映射关系;获取针对所述目标用户的预设语音与所述自定义词库中预设文本信息之间的第二映射关系;基于所述第二映射关系,对所述第一映射关系所对应的文本信息进行调整,以使所述语音片段与调整后的文本信息的对应关系、与所述第二映射关系中所述预设语音与所述预设文本信息之间的对应关系相匹配。如此,通过该过程来实现对初始语音识别结果中的至少部分文本信息进行调整,比如,对初始语音识别结果中部分词语或词句进行纠偏、或纠正,这样,提升了目标语音识别结果与目标用户输入的语音数据之间匹配程度;而且,由于该示例中,能够对初始语音识别结果中的部分文本信息进行调整,所以,本示例灵活性较强,进而为提升调整效率奠定了基础。
本示例中,所述预设语音为目标用户基于自身需求而预先输入的。
这里,实际应用中,所述第一映射关系可以通过第一映射表来表征,此时,该第一映射表中可以记录初始语音识别结果中各文本信息(比如,字符或字符串)与语音数据中的各语音片段之间的映射关系。同理,所述第二映射关系可以通过第二映射表来表征,此时,所述第二映射表中可以记录目标用户预先输入的预设语音与预设文本信息之间的映射关系,这里,该预设文本信息存储于自定义词库中。如此,以第二映射关系,也即第二映射表为基准,对第一映射关系中的文本信息进行调整,使得调整的语音片段与文本信息之间的对应关系,与第二映射关系中相应映射关系相匹配,比如,相一致,实现利用用户的自定义词库对初始语音识别结果进行纠正、纠偏的目的。
在本申请方案的一具体示例中,上述示例中,基于所述第二映射关系,对所述第一映射关系所对应的文本信息进行调整,具体包括:确定所述第一映射关系中存在与所述第二映射关系不匹配的目标对应关系,其中,所述目标对应关系所指示的第一语音片段与所述第二映射关系所指示的第一预设语音相匹配,所述目标对应关系所指示的所述第一语音片段对应的第一文本信息(也即对第一语音片段识别后得到的文本信息)与所述第二映射关系所指示的所述第一预设语音对应的第一预设文本信息(即目标用户预先设置的与自身输入的第一预设语音相匹配的文本)不匹配,也就是说,若存在目标对应关系,则说明初始语音识别结果中存在识别不准确的问题,此时,基于所述第二映射关系中所述第一预设文本信息,对所述第一映射关系所对应的第一文本信息进行调整,比如,直接将第一预设文本信息替换掉所述第一文本信息,如此,来实现纠正、纠偏的目的,进而来提升最终的语音识别结果与目标用户所输入的语音数据的匹配程度,避免了由于用户口音或发音不同而导致识别结果不准确的问题,提升了用户体验。
这里,实际应用中,可以通过判断步骤来确定所述第一映射关系中是否存在与所述第二映射关系不匹配的目标对应关系,进而在确定存在与所述第二映射关系不匹配的目标对应关系后,进行调整;不存在与所述第二映射关系不匹配的目标对应关系后,可以直接将初始语音识别结果作为最终的结果即目标语音识别结果进行输出;或者,在确定不存在与所述第二映射关系不匹配的目标对应关系后,即所述第一映射关系所指示的对应关系均对应与所述第二映射关系所指示的对应关系相匹配,或者所述第二映射关系中不存在与语音数据各语音片段相匹配的预设语音,无需利用自定义词库进行纠偏,此时,还可以利用其它调整方式,比如,获取所述识别结果调整策略所对应的预设调整策略,并利用所述识别结果调整策略所对应的预设调整策略对所述第一映射关系所对应的文本信息进行调整,如此,来确保最终的目标语音识别结果的准确性。
在本申请方案的一具体示例中,考虑到发音特征,包括发音方式(如前后鼻音等)、口音等对识别结果的影响,还可以预先检测到所述第二映射关系所指示的预设语音中是否存在预设发音特征,进而在检测到所述第二映射关系所指示的预设语音中存在预设发音特征后,对存在所述预设发音特征的预设语音进行模糊化处理,以去除掉用户发音特征的影响,如此,便于提升语音片段与模糊化处理后的所述预设语音之间的匹配成功率。也就是说,本示例,可以将带有一些地域性偏差的发音特征,比如,前后鼻音,拼音字母n和l,翘舌音、平舌音等进行模糊化处理,如此,来提升语音片段与模糊化处理后的预设语音之间的匹配成功率,进而为后续提升目标语音识别结果的准确率奠定了基础。
本示例中,若检测到所述第二映射关系所指示的预设语音中未存在预设发音特征,则可直接按照本申请方案的上述方式进行调整。
这里,实际应用中,可以将模糊化处理后的预设语音替换掉对应于第二映射关系中的原有预设语音,使得第二映射关系记录模糊化处理后的预设语音与对应的预设文本信息之间的映射关系。
在本申请方案的一具体示例中,考虑到发音特征,包括发音方式(如前后鼻音等)、口音等对识别结果的影响,还可以预先检测到所述语音数据的语音片段中是否存在预设发音特征,进而在检测到所述语音数据的语音片段中存在预设发音特征后,对存在所述预设发音特征的语音片段进行模糊化处理,以去除掉用户发音特征的影响,以便于提升所述预设语音与模糊化处理后的所述语音片段之间的匹配成功率。
本示例中,若检测到所述语音数据的所有语音片段中均未存在预设发音特征,则可直接按照本申请方案的上述方式进行调整。
这里,实际应用中,可以将模糊化处理后的语音片段替换掉对应于第一映射关系中的原有语音片段,使得第一映射关系记录模糊化处理后的语音片段与对应的文本信息之间的映射关系。
在一具体示例中,在既对存在预设发音特征的语音数据中的语音片段进行模糊化处理,又对存在预设发音特征的预设语音进行模糊化处理,这样,一方面能够提升模糊化处理后的语音片段与预设语音之间的匹配成功率,另一方面也能够提升匹配效率。
在本申请方案的一具体示例中,可以采用如下方式来确定识别结果调整策略,具体地,上述示例中的获取针对所述目标用户的识别结果调整策略,具体包括:获取所述语音数据所对应的环境特征;基于所述环境特征确定针对所述目标用户的识别结果调整策略。也就是说,在确定识别结果调整策略的过程中,考虑环境因素,比如,不同的环境特征可以采用不同的调整策略,不同的调整方式,如此,来丰富用户体验,进而为满足不同用户的不同需求奠定了基础。
在本申请方案的一具体示例中,还可以将本申请方案应用于车载环境中,比如,启动车载采集设备,以利用所述车载采集设备在车载环境中对所述目标用户的语音数据进行采集,如此,来提升车载环境中语音识别的准确率,避免由于口音而导致识别结果不准确,进而由于识别结果不准确使得用户反复进行语音输入而带来的行驶安全问题。这里,实际场景中,对用户来说,因口音或发音问题,在使用车载语音系统时,不可避免会出现识别问题,尤其在车载语音系统量产以后,对于那些尚未被发现的识别问题,会成为用户使用过程中的一个较难优化并会降低用户体验的问题。而本申请方案,由于能够进行个性化设置,比如预先设置自定义词库,进而利用自定义词库来进行纠正,所以,能够在不增加成本的基础上,解决上述问题,进而实现优化现有纠正方案的目的,提升了用户使用语音识别的效果,同时,也提升了用户体验。
这样,本申请方案能够基于用户的自定义词库来对初始语音识别结果进行调整,进而提升最终的语音识别结果与目标用户所输入的语音数据的匹配程度,避免了由于用户口音或发音不同而导致识别结果不准确的问题,提升了用户体验。
这里,由于本申请方案的用户能够个性化设置符合自身需求的自定义词库,而且,还能够在确定识别结果调整策略包含自定义调整模式后,优先选择自定义词库对用户的初始语音识别结果进行调整,比如纠正、纠偏等,如此,来提升最终的目标语音识别结果的准确率,进而提升了用户体验。
以下结合具体示例对本申请方案做进一步想象说明,具体地,本示例提供了一种灵活的方案,可以在实际场景中作为一种备用方案,来为用户提供一个入口,使用户可以自定义需要的一些常用的个人词库,进而来基于用户的自定义词库对识别结果进行调整优化,如此,来提升最终识别结果与用户输入语音之间的匹配程度。
本示例中用户能够自行添加词语或词句,所以,纠正的范围具有可扩展性,比如,可纠正识别结果中的整个语句,也可纠正识别结果中整句的某个词语,再比如,在语音识别到结果后,会优先进行词句纠正,若没有词句纠正,再进去词语纠正。相较于只能纠正整个语句的方式,本申请方案纠正范围广,且可扩展性强,进一步提升了识别结果的准确率,为进一步提升用户体验奠定了基础。
而且,本示例中,还加入了模糊化处理流程,比如,对口音有误或发音有误的用户预先输出的预设语音进行模糊化处理,进而添加与之匹配的自定义个人词句,如此,来进行有效的纠正。
实际应用中,用户可以根据自己的需求,通过帐号去添加自定义词库,而且,还可以设置不同纠正方案的优先级,比如,可以基于用户选择来设置不同纠正方案的优先级,还可以基于环境特征,比如是否处于车载环境中,或者是否处于网络正常连接状态等,来自动选择纠正方案,如此,来丰富使用场景,满足用户的不同需求。举例来说,在车载语音系统使用本申请方案时,自定义词库的纠正级别会优先于其他的纠正方案,当使用了自定义词库进行语音识别结果的纠正后,会自动跳过其他方式的纠正,从而不影响用户对自定义词库的使用。
这里,考虑到隐私、私有化问题,还可以根据账号对用户设置的自定义词库进行管理,并将不同用户的自定义词库进行隔离。
如图2所示,本示例的实现流程包括:用户语音输入,得到语音数据;采用语音引擎对语音数据进行识别,得到语音引擎识别结果;确定处于自定义调整模式后,获取用户预设设置的自定义个人词库(也即自定义词库),并将自定义个人词语与语音引擎识别结果进行匹配,确定是否有匹配词句,进而判断是否有需要进行纠正的词句;确定存在需要进行纠正的词句后,以自定义个人词库为基准,对语音引擎识别结果进行纠正,并在纠正结束后结束识别流程。否则,获取语音内置固定的badcase文本(即预设调整策略中对应的其他文本),并判断语音引擎识别结果与badcase文本是否匹配,也即判断是否存在需要进行纠正的词句,确定存在后,以badcase文本为基准,对语音引擎识别结果进行纠正,进而在纠正结束后结束识别流程。若语音引擎识别结果中与badcase文本不匹配,则结束识别流程。
这样,本申请方案中用户可以根据自己的口音和发音特点,在自定义词库里添加匹配自身特征的词句或词语,进而对识别结果进行有效纠正,如此,来提高识别率,也提升本申请方案的灵活性。而且,相对于其他方案,本申请方案对不同的用户更具有针对性,而且,能够有效降低对现有纠正方案进行升级优化而带来的人力、时间成本。
本申请方案还提供一种语音识别装置,如图3所示,包括:
语音获取单元301,用于获取目标用户的语音数据;
语音识别单元302,用于对所述语音数据进行识别,得到初始语音识别结果;
策略处理单元303,用于获取针对所述目标用户的识别结果调整策略,并确定所述识别结果调整策略包含自定义调整模式后,获取针对所述目标用户的自定义词库;
结果调整单元304,用于基于所述目标用户的自定义词库对所述初始语音识别结果进行调整,得到针对所述目标用户的目标语音识别结果。
在本申请方案的一具体示例中,所述结果调整单元304,包括:
第一映射关系获取子单元,用于获取所述初始语音识别结果中文本信息与所述语音数据中语音片段之间的第一映射关系;
第二映射关系获取子单元,用于获取针对所述目标用户的预设语音与所述自定义词库中预设文本信息之间的第二映射关系;
调整子单元,用于基于所述第二映射关系,对所述第一映射关系所对应的文本信息进行调整,以使所述语音片段与调整后的文本信息的对应关系、与所述第二映射关系中所述预设语音与所述预设文本信息之间的对应关系相匹配。
在本申请方案的一具体示例中,所述调整子单元,还用于:
确定所述第一映射关系中存在与所述第二映射关系不匹配的目标对应关系,基于所述第二映射关系中第一预设文本信息,对所述第一映射关系所对应的第一文本信息进行调整;
其中,所述目标对应关系所指示的第一语音片段与所述第二映射关系所指示的第一预设语音相匹配,所述目标对应关系所指示的所述第一语音片段对应的第一文本信息与所述第二映射关系所指示的所述第一预设语音对应的第一预设文本信息不匹配。
在本申请方案的一具体示例中,还包括:
第一模糊处理单元,用于检测到所述第二映射关系所指示的预设语音中存在预设发音特征后,对存在所述预设发音特征的预设语音进行模糊化处理,以便于提升语音片段与模糊化处理后的所述预设语音之间的匹配成功率。
在本申请方案的一具体示例中,还包括:
第二模糊处理单元,用于检测到所述语音数据的语音片段中存在预设发音特征后,对存在所述预设发音特征的语音片段进行模糊化处理,以便于提升所述预设语音与模糊化处理后的所述语音片段之间的匹配成功率。
在本申请方案的一具体示例中,所述策略处理单元303,包括:
特征获取子单元,用于获取所述语音数据所对应的环境特征;
策略处理子单元,用于基于所述环境特征确定所述目标用户的识别结果调整策略。
在本申请方案的一具体示例中,还包括:
控制单元,用于启动车载采集设备,以利用所述车载采集设备在车载环境中对所述目标用户的语音数据进行采集。
这样,本申请方案能够基于用户的自定义词库来对初始语音识别结果进行调整,进而提升最终的语音识别结果与目标用户所输入的语音数据的匹配程度,避免了由于用户口音或发音不同而导致识别结果不准确的问题,提升了用户体验。
这里,由于本申请方案的用户能够个性化设置符合自身需求的自定义词库,而且,还能够在确定识别结果调整策略包含自定义调整模式后,优先选择自定义词库对用户的初始语音识别结果进行调整,比如纠正、纠偏等,如此,来提升最终的目标语音识别结果的准确率,进而提升了用户体验。
根据本申请的实施例,本申请还提供了一种电子设备和一种可读存储介质。
如图4所示,是根据本申请实施例的语音识别方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本申请的实现。
如图4所示,该电子设备包括:一个或多个处理器401、存储器402,以及用于连接各部件的接口,包括高速接口和低速接口。各个部件利用不同的总线互相连接,并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理,包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如,耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中,若需要,可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样,可以连接多个电子设备,各个设备提供部分必要的操作(例如,作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图4中以一个处理器401为例。
存储器402即为本申请所提供的非瞬时计算机可读存储介质。其中,所述存储器存储有可由至少一个处理器执行的指令,以使所述至少一个处理器执行本申请所提供的语音识别方法。本申请的非瞬时计算机可读存储介质存储计算机指令,该计算机指令用于使计算机执行本申请所提供的语音识别方法。
存储器402作为一种非瞬时计算机可读存储介质,可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块,如本申请实施例中的语音识别方法对应的程序指令/模块(例如,附图3所示的语音获取单元301、语音识别单元302、策略处理单元303、结果调整单元304,以及语音识别装置所包含的其他单元(图3中未示出),如第一模糊处理单元、第二模糊处理单元和控制单元)。处理器401通过运行存储在存储器402中的非瞬时软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例中的语音识别方法。
存储器402可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据语音识别方法的电子设备的使用所创建的数据等。此外,存储器402可以包括高速随机存取存储器,还可以包括非瞬时存储器,例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中,存储器402可选包括相对于处理器401远程设置的存储器,这些远程存储器可以通过网络连接至语音识别方法的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
语音识别方法的电子设备还可以包括:输入装置403和输出装置404。处理器401、存储器402、输入装置403和输出装置404可以通过总线或者其他方式连接,图4中以通过总线连接为例。
输入装置403可接收输入的数字或字符信息,以及产生与语音识别方法的电子设备的用户设置以及功能控制有关的键信号输入,例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置404可以包括显示设备、辅助照明装置(例如,LED)和触觉反馈装置(例如,振动电机)等。该显示设备可以包括但不限于,液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中,显示设备可以是触摸屏。
此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令,并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(PLD)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与虚拟专用服务器(VPS)服务中,存在的管理难度大,业务扩展性弱的缺陷。
根据本申请实施例的技术方案,能够基于用户的自定义词库来对初始语音识别结果进行调整,进而提升最终的语音识别结果与目标用户所输入的语音数据的匹配程度,避免了由于用户口音或发音不同而导致识别结果不准确的问题,提升了用户体验。
这里,由于本申请方案的用户能够个性化设置符合自身需求的自定义词库,而且,还能够在确定识别结果调整策略包含自定义调整模式后,优先选择自定义词库对用户的初始语音识别结果进行调整,比如纠正、纠偏等,如此,来提升最终的目标语音识别结果的准确率,进而提升了用户体验。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本申请公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本申请保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等,均应包含在本申请保护范围之内。

Claims (16)

1.一种语音识别方法,包括:
获取目标用户的语音数据;
对所述语音数据进行识别,得到初始语音识别结果;
获取针对所述目标用户的识别结果调整策略,并确定所述识别结果调整策略包含自定义调整模式后,获取针对所述目标用户的自定义词库;
基于所述目标用户的自定义词库对所述初始语音识别结果进行调整,得到针对所述目标用户的目标语音识别结果。
2.根据权利要求1所述的方法,其中,所述基于所述目标用户的自定义词库对所述初始语音识别结果进行调整,包括:
获取所述初始语音识别结果中文本信息与所述语音数据中语音片段之间的第一映射关系;
获取针对所述目标用户的预设语音与所述自定义词库中预设文本信息之间的第二映射关系;
基于所述第二映射关系,对所述第一映射关系所对应的文本信息进行调整,以使所述语音片段与调整后的文本信息的对应关系、与所述第二映射关系中所述预设语音与所述预设文本信息之间的对应关系相匹配。
3.根据权利要求2所述的方法,其中,所述基于所述第二映射关系,对所述第一映射关系所对应的文本信息进行调整,包括:
确定所述第一映射关系中存在与所述第二映射关系不匹配的目标对应关系,其中,所述目标对应关系所指示的第一语音片段与所述第二映射关系所指示的第一预设语音相匹配,所述目标对应关系所指示的所述第一语音片段对应的第一文本信息与所述第二映射关系所指示的所述第一预设语音对应的第一预设文本信息不匹配;
基于所述第二映射关系中所述第一预设文本信息,对所述第一映射关系所对应的第一文本信息进行调整。
4.根据权利要求2所述的方法,其中,还包括:
检测到所述第二映射关系所指示的预设语音中存在预设发音特征后,对存在所述预设发音特征的预设语音进行模糊化处理,以便于提升语音片段与模糊化处理后的所述预设语音之间的匹配成功率。
5.根据权利要求2或5所述的方法,其中,还包括:
检测到所述语音数据的语音片段中存在预设发音特征后,对存在所述预设发音特征的语音片段进行模糊化处理,以便于提升所述预设语音与模糊化处理后的所述语音片段之间的匹配成功率。
6.根据权利要求1所述的方法,其中,所述获取针对所述目标用户的识别结果调整策略,包括:
获取所述语音数据所对应的环境特征;
基于所述环境特征确定针对所述目标用户的识别结果调整策略。
7.根据权利要求1所述的方法,还包括:
启动车载采集设备,以利用所述车载采集设备在车载环境中对所述目标用户的语音数据进行采集。
8.一种语音识别装置,包括:
语音获取单元,用于获取目标用户的语音数据;
语音识别单元,用于对所述语音数据进行识别,得到初始语音识别结果;
策略处理单元,用于获取针对所述目标用户的识别结果调整策略,并确定所述识别结果调整策略包含自定义调整模式后,获取针对所述目标用户的自定义词库;
结果调整单元,用于基于所述目标用户的自定义词库对所述初始语音识别结果进行调整,得到针对所述目标用户的目标语音识别结果。
9.根据权利要求8所述的装置,其中,所述结果调整单元,包括:
第一映射关系获取子单元,用于获取所述初始语音识别结果中文本信息与所述语音数据中语音片段之间的第一映射关系;
第二映射关系获取子单元,用于获取针对所述目标用户的预设语音与所述自定义词库中预设文本信息之间的第二映射关系;
调整子单元,用于基于所述第二映射关系,对所述第一映射关系所对应的文本信息进行调整,以使所述语音片段与调整后的文本信息的对应关系、与所述第二映射关系中所述预设语音与所述预设文本信息之间的对应关系相匹配。
10.根据权利要求9所述的装置,其中,所述调整子单元,还用于:
确定所述第一映射关系中存在与所述第二映射关系不匹配的目标对应关系,基于所述第二映射关系中第一预设文本信息,对所述第一映射关系所对应的第一文本信息进行调整;
其中,所述目标对应关系所指示的第一语音片段与所述第二映射关系所指示的第一预设语音相匹配,所述目标对应关系所指示的所述第一语音片段对应的第一文本信息与所述第二映射关系所指示的所述第一预设语音对应的第一预设文本信息不匹配。
11.根据权利要求9所述的装置,还包括:
第一模糊处理单元,用于检测到所述第二映射关系所指示的预设语音中存在预设发音特征后,对存在所述预设发音特征的预设语音进行模糊化处理,以便于提升语音片段与模糊化处理后的所述预设语音之间的匹配成功率。
12.根据权利要求9或11所述的装置,还包括:
第二模糊处理单元,用于检测到所述语音数据的语音片段中存在预设发音特征后,对存在所述预设发音特征的语音片段进行模糊化处理,以便于提升所述预设语音与模糊化处理后的所述语音片段之间的匹配成功率。
13.根据权利要求8所述的装置,其中,所述策略处理单元,包括:
特征获取子单元,用于获取所述语音数据所对应的环境特征;
策略处理子单元,用于基于所述环境特征确定所述目标用户的识别结果调整策略。
14.根据权利要求8所述的装置,还包括:
控制单元,用于启动车载采集设备,以利用所述车载采集设备在车载环境中对所述目标用户的语音数据进行采集。
15.一种电子设备,其特征在于,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-7中任一项所述的方法。
16.一种存储有计算机指令的非瞬时计算机可读存储介质,其特征在于,所述计算机指令用于使所述计算机执行权利要求1-7中任一项所述的方法。
CN202011003399.0A 2020-09-22 2020-09-22 语音识别方法、装置、设备及存储介质 Active CN112102833B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011003399.0A CN112102833B (zh) 2020-09-22 2020-09-22 语音识别方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011003399.0A CN112102833B (zh) 2020-09-22 2020-09-22 语音识别方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN112102833A true CN112102833A (zh) 2020-12-18
CN112102833B CN112102833B (zh) 2023-12-12

Family

ID=73754936

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011003399.0A Active CN112102833B (zh) 2020-09-22 2020-09-22 语音识别方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN112102833B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112800269A (zh) * 2021-01-20 2021-05-14 上海明略人工智能(集团)有限公司 会议记录的生成方法及装置
CN112908304A (zh) * 2021-01-29 2021-06-04 深圳通联金融网络科技服务有限公司 一种提高语音识别精准性的方法和装置
CN113360705A (zh) * 2021-08-09 2021-09-07 武汉华信数据系统有限公司 数据管理方法和数据管理装置

Citations (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR970002856A (ko) * 1995-06-29 1997-01-28 김광호 선형예측분석합성을 이용한 음성인식방법
US6424935B1 (en) * 2000-07-31 2002-07-23 Micron Technology, Inc. Two-way speech recognition and dialect system
CN102074231A (zh) * 2010-12-30 2011-05-25 万音达有限公司 语音识别方法和语音识别系统
US20140025380A1 (en) * 2012-07-18 2014-01-23 International Business Machines Corporation System, method and program product for providing automatic speech recognition (asr) in a shared resource environment
CN105096940A (zh) * 2015-06-30 2015-11-25 百度在线网络技术(北京)有限公司 用于进行语音识别的方法和装置
US20170148432A1 (en) * 2015-11-24 2017-05-25 International Business Machines Corporation System and method for supporting automatic speech recognition of regional accents based on statistical information and user corrections
WO2018056779A1 (en) * 2016-09-26 2018-03-29 Samsung Electronics Co., Ltd. Method of translating speech signal and electronic device employing the same
US20180130465A1 (en) * 2016-11-10 2018-05-10 Linearhub Apparatus and method for correcting pronunciation by contextual recognition
CN108984529A (zh) * 2018-07-16 2018-12-11 北京华宇信息技术有限公司 实时庭审语音识别自动纠错方法、存储介质及计算装置
CN109213856A (zh) * 2018-10-22 2019-01-15 广东小天才科技有限公司 一种语义识别方法及系统
CN109346059A (zh) * 2018-12-20 2019-02-15 广东小天才科技有限公司 一种方言语音的识别方法及电子设备
CN109493848A (zh) * 2018-12-17 2019-03-19 深圳市沃特沃德股份有限公司 语音识别方法、系统及电子装置
CN110047467A (zh) * 2019-05-08 2019-07-23 广州小鹏汽车科技有限公司 语音识别方法、装置、存储介质及控制终端
KR20190099167A (ko) * 2019-08-06 2019-08-26 엘지전자 주식회사 음성 인식을 수행하는 인공 지능 기기
CN110544477A (zh) * 2019-09-29 2019-12-06 北京声智科技有限公司 一种语音识别方法、装置、设备及介质
CN111354349A (zh) * 2019-04-16 2020-06-30 深圳市鸿合创新信息技术有限责任公司 一种语音识别方法及装置、电子设备
CN111540353A (zh) * 2020-04-16 2020-08-14 重庆农村商业银行股份有限公司 一种语义理解方法、装置、设备及存储介质

Patent Citations (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR970002856A (ko) * 1995-06-29 1997-01-28 김광호 선형예측분석합성을 이용한 음성인식방법
US6424935B1 (en) * 2000-07-31 2002-07-23 Micron Technology, Inc. Two-way speech recognition and dialect system
CN102074231A (zh) * 2010-12-30 2011-05-25 万音达有限公司 语音识别方法和语音识别系统
US20140025380A1 (en) * 2012-07-18 2014-01-23 International Business Machines Corporation System, method and program product for providing automatic speech recognition (asr) in a shared resource environment
CN105096940A (zh) * 2015-06-30 2015-11-25 百度在线网络技术(北京)有限公司 用于进行语音识别的方法和装置
US20170148432A1 (en) * 2015-11-24 2017-05-25 International Business Machines Corporation System and method for supporting automatic speech recognition of regional accents based on statistical information and user corrections
WO2018056779A1 (en) * 2016-09-26 2018-03-29 Samsung Electronics Co., Ltd. Method of translating speech signal and electronic device employing the same
US20180130465A1 (en) * 2016-11-10 2018-05-10 Linearhub Apparatus and method for correcting pronunciation by contextual recognition
CN108984529A (zh) * 2018-07-16 2018-12-11 北京华宇信息技术有限公司 实时庭审语音识别自动纠错方法、存储介质及计算装置
CN109213856A (zh) * 2018-10-22 2019-01-15 广东小天才科技有限公司 一种语义识别方法及系统
CN109493848A (zh) * 2018-12-17 2019-03-19 深圳市沃特沃德股份有限公司 语音识别方法、系统及电子装置
CN109346059A (zh) * 2018-12-20 2019-02-15 广东小天才科技有限公司 一种方言语音的识别方法及电子设备
CN111354349A (zh) * 2019-04-16 2020-06-30 深圳市鸿合创新信息技术有限责任公司 一种语音识别方法及装置、电子设备
CN110047467A (zh) * 2019-05-08 2019-07-23 广州小鹏汽车科技有限公司 语音识别方法、装置、存储介质及控制终端
KR20190099167A (ko) * 2019-08-06 2019-08-26 엘지전자 주식회사 음성 인식을 수행하는 인공 지능 기기
CN110544477A (zh) * 2019-09-29 2019-12-06 北京声智科技有限公司 一种语音识别方法、装置、设备及介质
CN111540353A (zh) * 2020-04-16 2020-08-14 重庆农村商业银行股份有限公司 一种语义理解方法、装置、设备及存储介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112800269A (zh) * 2021-01-20 2021-05-14 上海明略人工智能(集团)有限公司 会议记录的生成方法及装置
CN112908304A (zh) * 2021-01-29 2021-06-04 深圳通联金融网络科技服务有限公司 一种提高语音识别精准性的方法和装置
CN112908304B (zh) * 2021-01-29 2024-03-26 深圳通联金融网络科技服务有限公司 一种提高语音识别精准性的方法和装置
CN113360705A (zh) * 2021-08-09 2021-09-07 武汉华信数据系统有限公司 数据管理方法和数据管理装置

Also Published As

Publication number Publication date
CN112102833B (zh) 2023-12-12

Similar Documents

Publication Publication Date Title
CN112102833B (zh) 语音识别方法、装置、设备及存储介质
CN108255290B (zh) 移动装置上的模态学习
CN110705267B (zh) 语义解析方法、装置及存储介质
US9542932B2 (en) Word-level correction of speech input
US10628474B2 (en) Probabalistic generation of diverse summaries
CN111145756B (zh) 一种语音识别方法、装置和用于语音识别的装置
US10102191B2 (en) Propagation of changes in master content to variant content
CN110738997B (zh) 一种信息修正方法、装置、电子设备及存储介质
CN112365880A (zh) 语音合成方法、装置、电子设备及存储介质
CN110580904A (zh) 通过语音控制小程序的方法、装置、电子设备及存储介质
US20220139373A1 (en) Identification and utilization of misrecognitions in automatic speech recognition
EP2940551B1 (en) Method and device for implementing voice input
CN111770375B (zh) 视频处理方法、装置、电子设备及存储介质
CN111859997A (zh) 机器翻译中的模型训练方法、装置、电子设备及存储介质
CN111160013B (zh) 文本纠错方法及装置
CN111310440A (zh) 文本的纠错方法、装置和系统
JP7281521B2 (ja) 音声制御方法及び音声制御装置、電子機器並びに記憶媒体
CN103400576A (zh) 基于用户行为日志的语音模型更新方法及装置
WO2014036827A1 (zh) 一种文本校正方法及用户设备
CN110706701B (zh) 语音技能推荐方法、装置、设备及存储介质
CN110491394B (zh) 唤醒语料的获取方法和装置
CN110675867A (zh) 智能对话方法、装置、计算机设备及存储介质
CN113160822B (zh) 语音识别处理方法、装置、电子设备以及存储介质
US11545144B2 (en) System and method supporting context-specific language model
CN112652304B (zh) 智能设备的语音交互方法、装置和电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20211011

Address after: 100176 101, floor 1, building 1, yard 7, Ruihe West 2nd Road, economic and Technological Development Zone, Daxing District, Beijing

Applicant after: Apollo Zhilian (Beijing) Technology Co.,Ltd.

Address before: 2 / F, baidu building, No. 10, Shangdi 10th Street, Haidian District, Beijing 100085

Applicant before: BEIJING BAIDU NETCOM SCIENCE AND TECHNOLOGY Co.,Ltd.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant