CN112420034A

CN112420034A - 语音识别的方法、系统、电子装置和存储介质

Info

Publication number: CN112420034A
Application number: CN202010963272.7A
Authority: CN
Inventors: 余锋; 金凌琳; 胡文涛
Original assignee: Dangqu Network Technology Hangzhou Co Ltd
Current assignee: Dangqu Network Technology Hangzhou Co Ltd
Priority date: 2020-09-14
Filing date: 2020-09-14
Publication date: 2021-02-26
Anticipated expiration: 2040-09-14
Also published as: CN112420034B

Abstract

本申请涉及一种语音识别的方法、系统、电子装置和存储介质，其中，该语音识别的方法包括：获取用户的第一语音，将该第一语音转化成第一词条，判断该第一词条是否匹配到目标资源，若匹配不到，则监测用户操作，用户操作包括以下至少之一：输入第二语音操作、搜索操作和遥控器操作，判断用户操作的目标资源与第一词条是否相关，若相关，则将第一词条上传至词库。通过本申请，解决了智能设备语音识别的系统词库更新速度慢，语音识别的匹配度低的问题，提高了系统词库的更新速度以及语音识别的匹配度。

Description

语音识别的方法、系统、电子装置和存储介质

技术领域

本申请涉及语音识别领域，特别是涉及语音识别的方法、系统、电子装置和存储介质。

背景技术

智能设备集成语音系统后，用户可以通过语音进行操作。例如，用户说出歌名，智能音箱播放对应的歌曲；用户说出电影名，智能电视播放对应的电影。为提升语音识别的匹配度，语音系统需要不断更新系统词库，并将近义词的说法更新到词库里，例如歌曲《慢慢喜欢你》的近义词说法有《莫文蔚的喜欢你》和《莫文蔚的慢慢》等。更新系统词库需通过采集数据库中的资源，依据7日播放量、30日播放量等筛选出流行的数据集，针对数据集进行数据清洗，如英文汉字转换和版本号去重等，最后由运营人员添加近义词，导致系统词库更新速度慢，时效性差，且近义词数量少，语音识别的匹配度低。

目前针对相关技术中智能设备语音识别的系统词库更新速度慢，语音识别的匹配度低的问题，尚未提出有效的解决方案。

发明内容

本申请实施例提供了一种语音识别的方法、系统、电子装置和存储介质，以至少解决相关技术中智能设备语音识别的系统词库更新速度慢，语音识别的匹配度低的问题。

第一方面，本申请实施例提供了一种语音识别的方法，所述方法包括：

获取用户的第一语音，将所述第一语音转化成第一词条，判断所述第一词条是否匹配到目标资源；

若匹配不到，则监测用户操作，所述用户操作包括以下至少之一：输入第二语音操作、搜索操作和遥控器操作；

判断所述用户操作的所述目标资源与所述第一词条是否相关，若相关，则将所述第一词条上传至词库。

在其中一些实施例中，所述第一词条上传至词库后，所述方法还包括：根据所述第一词条出现的次数，为所述第一词条分配权重值，若所述权重值大于预设阈值，则将所述第一词条上传至通用词库。

在其中一些实施例中，将所述第一词条上传至所述通用词库后，所述方法还包括，所述通用词库的词条数量大于预设数值后，将所述通用词库中的词条更新到系统词库。

在其中一些实施例中，判断所述用户操作后选择的所述目标资源与所述第一词条是否相关，若相关，则所述方法还包括：将所述第一词条存入所述用户的个性化词库。

第二方面，本申请实施例提供了一种语音识别的系统，所述系统包括：语音输入模块、语音识别模块、匹配模块、用户内容监测模块和统计分析模块，

所述语音输入模块，用于获取用户的第一语音；

所述语音识别模块，用于将所述第一语音转化成第一词条；

所述匹配模块，用于判断所述第一词条是否匹配到目标资源，若匹配不到，则监测用户操作；

所述用户内容监测模块，用于监测所述用户操作，所述用户操作包括以下至少之一：输入第二语音操作、搜索操作和遥控器操作；

所述统计分析模块，判断所述用户操作的所述目标资源与所述第一词条是否相关，若相关，则将所述第一词条上传至词库。

在其中一些实施例中，所述系统还包括词库建立模块，所述词库建立模块用于所述第一词条上传至词库后，根据所述第一词条出现的次数，为所述第一词条分配权重值，若所述权重值大于预设阈值，则将所述第一词条上传至通用词库。

在其中一些实施例中，所述系统还包括词库分发模块，所述词库分发模块用于所述通用词库的词条数量大于预设数值后，将所述通用词库中的词条更新到系统词库。

在其中一些实施例中，所述统计分析模块还用于在所述目标资源与所述第一词条相关时，将所述第一词条存入所述用户的个性化词库。

第三方面，本申请实施例提供了一种电子装置，包括存储器、处理器以及存储器在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述第一方面所述的语音识别的方法。

第四方面，本申请实施例提供了一种存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述第一方面所述的语音识别的方法。

相比于相关技术，本申请实施例提供的语音识别的方法，通过获取用户的第一语音，将该第一语音转化成第一词条，判断该第一词条是否匹配到目标资源，若匹配不到，则监测用户操作，用户操作包括以下至少之一：输入第二语音操作、搜索操作和遥控器操作，判断用户操作的目标资源与第一词条是否相关，若相关，则将第一词条上传至词库，解决了智能设备语音识别的系统词库更新速度慢，语音识别的匹配度低的问题，提高了系统词库的更新速度以及语音识别的匹配度。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请实施例的语音识别的方法的流程图；

图2是根据本申请实施例的另一种语音识别的方法的流程图；

图3是根据本申请实施例的语音识别的方法更新系统词库的流程图；

图4是根据本申请实施例的语音识别的系统的结构框图；

图5是根据本申请实施例的另一种语音识别的系统的结构框图；

图6是根据本申请实施例的语音识别的系统更新系统词库的结构框图；

图7是根据本申请实施例的电子设备的内部结构示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行描述和说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。基于本申请提供的实施例，本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。此外，还可以理解的是，虽然这种开发过程中所作出的努力可能是复杂并且冗长的，然而对于与本申请公开的内容相关的本领域的普通技术人员而言，在本申请揭露的技术内容的基础上进行的一些设计，制造或者生产等变更只是常规的技术手段，不应当理解为本申请公开的内容不充分。

在本申请中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域普通技术人员显式地和隐式地理解的是，本申请所描述的实施例在不冲突的情况下，可以与其它实施例相结合。

除非另作定义，本申请所涉及的技术术语或者科学术语应当为本申请所属技术领域内具有一般技能的人士所理解的通常意义。本申请所涉及的“一”、“一个”、“一种”、“该”等类似词语并不表示数量限制，可表示单数或复数。本申请所涉及的术语“包括”、“包含”、“具有”以及它们任何变形，意图在于覆盖不排他的包含；例如包含了一系列步骤或模块(单元)的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可以还包括没有列出的步骤或单元，或可以还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。本申请所涉及的“连接”、“相连”、“耦接”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电气的连接，不管是直接的还是间接的。本申请所涉及的“多个”是指大于或者等于两个。“和/或”描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。本申请所涉及的术语“第一”、“第二”、“第三”等仅仅是区别类似的对象，不代表针对对象的特定排序。

本实施例提供了一种语音识别的方法，图1是根据本申请实施例的语音识别的方法的流程图，如图1所示，该流程包括如下步骤：

步骤S101，获取用户的第一语音，将该第一语音转化成第一词条，判断第一词条是否匹配到目标资源。本实施例通过获取用户的语音输入，并识别用户的语音，将用户的语音转化为文字，即第一词条，根据该第一词条判断是否能匹配到目标资源，若匹配到目标资源，则根据该语音进行相应的操作；

步骤S102，若匹配不到，则监测用户操作，该用户操作包括以下至少之一：输入第二语音操作、搜索操作和遥控器操作；其中，根据用户的第一次语音输入没有匹配到目标资源时，监测用户接下来的具体操作，用户操作包括以下至少之一：用户更换语音输入、用户直接搜索目标资源和用户使用遥控器对目标资源进行选择；

步骤S103，判断用户操作的目标资源与第一词条是否相关，若相关，则将第一词条上传至词库。例如，若用户的第一语音为听《莫文蔚的慢慢》，则将该语音转化为文字“听莫文蔚的慢慢”，再转化成第一词条《莫文蔚的慢慢》，根据该第一词条没有匹配到目标资源，但在用户的操作下选择了目标资源《慢慢喜欢你》，则判断《慢慢喜欢你》和《莫文蔚的慢慢》是否相关，若相关，则将第一词条上传至词库。

通过上述步骤S101至步骤S103，相对于现有技术更新系统词库需通过采集数据库中的资源，依据7日播放量、30日播放量等筛选出流行的数据集，针对数据集进行数据清洗，如英文汉字转换和版本号去重等，最后由运营人员添加近义词，导致系统词库更新速度慢，时效性差，且近义词数量少，语音识别的匹配度低的问题，该系统在输入的语音匹配不到目标资源时，判断该语音对应的词条与目标资源是否相关，若相关，则将该词条作为目标资源的近义词存入词库中，该词库可以为系统词库，再输入相同的语音，识别出该语音为该词条时，就能匹配到对应的目标资源，提高了系统词库的更新速度以及语音识别的匹配度。

在其中一些实施例中，图2是根据本申请实施例的另一种语音识别的方法的流程图，如图2所示，该流程包括如下步骤：

步骤S201，根据第一词条出现的次数，为该第一词条分配权重值，若权重值大于预设阈值，则将第一词条上传至通用词库。例如，若有其他用户在语音输入《莫文蔚的慢慢》时选择的目标资源也是《慢慢喜欢你》时，则该第一词条的权重值加1，当权重值大于预设阈值时，说明该第一词条《莫文蔚的慢慢》被普遍认为是《慢慢喜欢你》的近义词说法，则将该第一词条上传到通用词库。

通过上述步骤S201，针对单个用户认为某一词条与该目标资源存在相关性则更新系统词库不够有普遍性的问题，需统计一定数量的用户都认为该词条与该目标资源存在相关性时，才更新系统词库。

在其中一些实施例中，图3是根据本申请实施例的语音识别的方法更新系统词库的流程图，如图3所示，该流程包括如下步骤：

步骤S301，将第一词条上传至通用词库后，通用词库的词条数量大于预设数值后，将通用词库中的词条更新到系统词库。其中，通用词库中的词条包括一定数量的用户认为的目标资源的近义词说法，在通用词库中的词条大于预设数值后，将通用词库中的词条更新到系统词库之后，用户语音输入的内容为目标资源的近义词说法，且该近义词说法已更新到系统词库中时，就能匹配到目标资源。

通过上述步骤S301，在一定数量的用户认为某一词条与对应的目标资源相关时，就将该词条上传至系统词库中会导致对系统词库的频繁操作，故先将被认为与目标资源相关的词条上传至通用词库，在通用词库中的词条到达一定数量时，再将通用词库中的词条更新至系统词库，减少对系统词库的频繁操作。

在其中一些实施例中，判断用户操作后选择的目标资源与第一词条是否相关，若相关，还包括：将第一词条存入用户的个性化词库。其中，只有统计到一定数量的用户都认为第一词条与目标资源相关时，该第一词条才能更新到系统词库中，若该第一词条没有更新到系统词库，则认为第一词条与目标资源相关的用户继续使用该第一词条时匹配不目标资源，该实施例的目的是，在单个用户认为该第一词条与目标资源相关时，将该第一词条存入该用户的个性化词库，之后识别到该用户语音输入的内容为该第一词条时，能匹配到目标资源，使用户可以根据自己对近义词说法的喜好建立自己的个性化词库。

需要说明的是，在上述流程中或者附图的流程图中示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

本实施例还提供了一种语音识别的系统，该系统用于实现上述实施例及优选实施方式，已经进行过说明的不再赘述。如以下所使用的，术语“模块”、“单元”、“子单元”等可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

图4是根据本申请实施例的语音识别的系统的结构框图，如图4所示，该系统包括：语音输入模块41、语音识别模块42、匹配模块43、用户内容监测模块44和统计分析模块45，

语音输入模块41，用于获取用户的第一语音；语音识别模块42，用于将该第一语音转化成第一词条；匹配模块43，用于判断该第一词条是否匹配到目标资源，若匹配不到，则监测用户操作；用户内容监测模块44，用于监测该用户操作，该用户操作包括以下至少之一：输入第二语音操作、搜索操作和遥控器操作；统计分析模块45，判断该用户操作的该目标资源与该第一词条是否相关，若相关，则将该第一词条上传至词库。本实施例通过语音输入模块41获取用户的语音输入，语音识别模块42识别该语音，匹配模块43判断该语音是否能匹配到目标资源，用户内容监测模块44在没有匹配到该目标资源时，监测该用户操作，统计分析模块45判断该用户操作的该目标资源与该第一词条是否相关，若相关，则将该第一词条上传至词库。

由所有用户语音输入的习惯作为系统词库更新的资源，而不用依赖于采集数据库中的资源，依据7日播放量、30日播放量等筛选出流行的数据集，针对数据集进行数据清洗后更新系统词库，使系统词库更新速度快，不用依赖于运营人员添加近义词，使近义词数量少，语音识别的匹配度低，而是由所有用户的语音输入习惯来增加近义词，近义词数量多，语音识别的匹配度高。

在其中一些实施例中，在统计分析模块45判断出该第一词条与目标资源相关时，还要为该第一词条分配对应的权重值，图5是根据本申请实施例的另一种语音识别的系统的结构框图，如图5所示，该系统包括词库建立模块51，词库建立模块51用于该第一词条上传至词库后，根据该第一词条出现的次数，为该第一词条分配权重值，若权重值大于预设阈值，则将该第一词条上传至通用词库。其中，

在其中一些实施例中，将词条上传到通用词库，使通用词库中的词条数量达到一定数值后，还需要将通用词库中的词条更新到系统词库中，图6是根据本申请实施例的语音识别的系统更新系统词库的结构框图，如图6所示，该系统包括词库分发模块61，词库分发模块61用于在通用词库的词条数量大于预设数值后，将通用词库中的词条更新到系统词库。其中，识别用户语音输入的内容为该系统词库中的词条时，就能为用户匹配到目标资源。

在其中一些实施例中，统计分析模块45还用于在目标资源与第一词条相关时，将该第一词条存入用户的个性化词库。其中，存入个性化词库中的词条，在识别出用户的语音输入为该个性化词库中的词条时，能匹配到该词条对应的目标资源。

需要说明的是，上述各个模块可以是功能模块也可以是程序模块，既可以通过软件来实现，也可以通过硬件来实现。对于通过硬件来实现的模块而言，上述各个模块可以位于同一处理器中；或者上述各个模块还可以按照任意组合的形式分别位于不同的处理器中。

本实施例还提供了一种电子装置，包括存储器和处理器，该存储器存储有计算机程序，该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。

本实施例还提供了一种存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述任一项方法实施例中的步骤。

在一个实施例中，图7是根据本申请实施例的电子设备的内部结构示意图，如图7所示，提供了一种电子设备，该电子设备可以是服务器，其内部结构图可以如图7所示。该电子设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该电子设备的处理器用于提供计算和控制能力。该电子设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该电子设备的数据库用于存储数据。该电子设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种机器阅读理解方法。

本领域技术人员可以理解，图7中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的电子设备的限定，具体的电子设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，该计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

本领域的技术人员应该明白，以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种语音识别的方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述第一词条上传至词库后，所述方法还包括：根据所述第一词条出现的次数，为所述第一词条分配权重值，若所述权重值大于预设阈值，则将所述第一词条上传至通用词库。

3.根据权利要求2所述的方法，其特征在于，将所述第一词条上传至所述通用词库后，所述方法还包括，所述通用词库的词条数量大于预设数值后，将所述通用词库中的词条更新到系统词库。

4.根据权利要求1所述的方法，其特征在于，判断所述用户操作后选择的所述目标资源与所述第一词条是否相关，若相关，则所述方法还包括：将所述第一词条存入所述用户的个性化词库。

5.一种语音识别的系统，其特征在于，所述系统包括：语音输入模块、语音识别模块、匹配模块、用户内容监测模块和统计分析模块，

所述语音输入模块，用于获取用户的第一语音；

所述语音识别模块，用于将所述第一语音转化成第一词条；

6.根据权利要求5所述的系统，其特征在于，所述系统还包括词库建立模块，所述词库建立模块用于所述第一词条上传至词库后，根据所述第一词条出现的次数，为所述第一词条分配权重值，若所述权重值大于预设阈值，则将所述第一词条上传至通用词库。

7.根据权利要求6所述的系统，其特征在于，所述系统还包括词库分发模块，所述词库分发模块用于所述通用词库的词条数量大于预设数值后，将所述通用词库中的词条更新到系统词库。

8.根据权利要求5所述的系统，其特征在于，所述统计分析模块还用于在所述目标资源与所述第一词条相关时，将所述第一词条存入所述用户的个性化词库。

9.一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行权利要求1至4中任一项所述的语音识别的方法。

10.一种存储介质，其特征在于，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行权利要求1至4中任一项所述的语音识别的方法。