CN112687261B - 语音识别训练和应用方法及装置 - Google Patents

语音识别训练和应用方法及装置 Download PDF

Info

Publication number
CN112687261B
CN112687261B CN202011479654.9A CN202011479654A CN112687261B CN 112687261 B CN112687261 B CN 112687261B CN 202011479654 A CN202011479654 A CN 202011479654A CN 112687261 B CN112687261 B CN 112687261B
Authority
CN
China
Prior art keywords
scene
resources
server
speech recognition
scenes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011479654.9A
Other languages
English (en)
Other versions
CN112687261A (zh
Inventor
陆沁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sipic Technology Co Ltd
Original Assignee
Sipic Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sipic Technology Co Ltd filed Critical Sipic Technology Co Ltd
Priority to CN202011479654.9A priority Critical patent/CN112687261B/zh
Publication of CN112687261A publication Critical patent/CN112687261A/zh
Application granted granted Critical
Publication of CN112687261B publication Critical patent/CN112687261B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Telephonic Communication Services (AREA)

Abstract

本发明公开语音识别训练和应用方法及装置,其中,一种语音识别训练方法,包括:获取经由开发者预设的多个场景,以及与所述多个场景对应的第一语音识别资源和与所述多个场景中每一个场景对应的多个第二语音识别资源,其中,所述第一语音识别资源为所述多个场景能够通用的部分,所述第二语音识别资源为所述每一个场景所独有的部分;训练与所述第一语音识别资源对应的第一模型和与所述多个第二语音识别资源对应的多个第二模型;将训练后的所述第一模型和所述第一语音识别资源存储到每个服务器中,将训练后的所述多个第二模型和所述多个第二语音识别资源存储到至少一个服务器中;从而可以实现减少语音识别资源更新时的重复性工作,降低了维护成本。

Description

语音识别训练和应用方法及装置
技术领域
本发明属于语音识别技术领域,尤其涉及语音识别训练和应用方法及装置。
背景技术
近年来,随着语音识别技术的不断发展,语音交互已广泛应用于我们的生活及工作中,特别是智能家居、智能车载、智能手机、儿童机器人、智能客服等领域。
为支持不同场景的语音交互,目前大部分的语音识别系统针对每个场景提供一个专用系统。为保证识别的准确率,每个场景的专用语音识别系统,均需支持该场景下可能用到的交互指令,这会导致每个场景的语音识别系统都较大,且不同场景间存在一定程度的重复,从而导致资源维护成本高。另外,由于各场景语音识别资源较大,加载至识别服务器耗时较长,通常将场景语音识别资源存储于固定的识别服务器上。为支撑各个场景的语音识别服务,固定的识别服务器分配方式通常会分配冗余的识别服务器给每个场景,且无法根据实际调用量调整,从而导致服务器资源浪费、利用率低等问题。
发明内容
本发明实施例提供一种语音识别训练和应用方法及装置,用于至少解决上述技术问题之一。
第一方面,本发明实施例提供一种语音识别训练方法,包括:获取经由开发者预设的多个场景,以及与所述多个场景对应的第一语音识别资源和与所述多个场景中每一个场景对应的多个第二语音识别资源,其中,所述第一语音识别资源为所述多个场景能够通用的部分,所述第二语音识别资源为所述每一个场景所独有的部分;训练与所述第一语音识别资源对应的第一模型和与所述多个第二语音识别资源对应的多个第二模型;将训练后的所述第一模型和所述第一语音识别资源存储到每个服务器中,将训练后的所述多个第二模型和所述多个第二语音识别资源存储到至少一个服务器中。
第二方面,本发明实施例提供一种语音识别应用方法,包括:响应于用户的语音输入,获取与所述用户的语音输入对应的场景;基于所述场景将所述用户的语音输入送入支持所述场景所独有的部分资源的服务器进行语音识别,其中,每个服务器均支持多个场景能够通用的部分资源以及至少一个服务器支持每个场景所独有的部分资源;获取支持所述场景所独有的部分的服务器返回的语音识别结果,将所述语音识别结果反馈给所述用户。
第三方面,本发明实施例提供一种语音识别训练装置,包括:第一获取模块,配置为获取经由开发者预设的多个场景,以及与所述多个场景对应的第一语音识别资源和与所述多个场景中每一个场景对应的多个第二语音识别资源,其中,所述第一语音识别资源为所述多个场景能够通用的部分,所述第二语音识别资源为所述每一个场景所独有的部分;训练模块,配置为训练与所述第一语音识别资源对应的第一模型和与所述多个第二语音识别资源对应的多个第二模型;存储模块,配置为将训练后的所述第一模型和所述第一语音识别资源存储到每个服务器中,将训练后的所述多个第二模型和所述多个第二语音识别资源存储到至少一个服务器中。
第四方面,本发明实施例提供一种语音识别应用装置,包括:第二获取模块,配置为响应于用户的语音输入,获取与所述用户的语音输入对应的场景;送入模块,配置为基于所述场景将所述用户的语音输入送入支持所述场景所独有的部分资源的服务器进行语音识别,其中,每个服务器均支持多个场景能够通用的部分资源以及至少一个服务器支持每个场景所独有的部分资源;获取反馈模块,配置为获取支持所述场景所独有的部分的服务器返回的语音识别结果,将所述语音识别结果反馈给所述用户。
第五方面,提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明任一实施例的语音识别训练和应用方法的步骤。
第六方面,本发明实施例还提供一种计算机程序产品,所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,使所述计算机执行本发明任一实施例的语音识别训练和应用方法的步骤。
本申请的方法和装置可以将各个场景间的重复语音识别资源合并到一个通用的语音识别资源,从而可以实现减少语音识别资源更新时的重复性工作,降低了维护成本,进一步的,将训练后的多个第二模型和多个第二语音识别资源分散式和/或交叉式地存储到至少一个服务器中,从而可以实现对多个第二语音识别资源进行动态加载和卸载。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一实施例提供的一种语音识别训练方法的流程图;
图2为本发明一实施例提供的一种语音识别应用方法的流程图;
图3为本发明一实施例提供的又一种语音识别应用方法的流程图;
图4为本发明一实施例提供的再一种语音识别应用方法的流程图;
图5为本发明一实施例提供的语音识别训练和应用方法的一个具体实施的流程图;
图6为本发明一实施例提供的语音识别训练和应用方法的一个具体实施例的多场景下的语音识别过程的流程图;
图7为本发明一实施例提供的语音识别训练和应用方法的一个具体具体实施例的语音识别服务器的动态分配的流程图;
图8为本发明一实施例提供的一种语音识别训练装置的框图;
图9为本发明一实施例提供的一种语音识别应用装置的框图;
图10是本发明一实施例提供的电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参考图1,其示出了本申请的语音识别训练方法一实施例的流程图。
如图1所示,在步骤101中,获取经由开发者预设的多个场景,以及与所述多个场景对应的第一语音识别资源和与所述多个场景中每一个场景对应的多个第二语音识别资源,其中,所述第一语音识别资源为所述多个场景能够通用的部分,所述第二语音识别资源为所述每一个场景所独有的部分;
在步骤102中,训练与所述第一语音识别资源对应的第一模型和与所述多个第二语音识别资源对应的多个第二模型;
在步骤103中,将训练后的所述第一模型和所述第一语音识别资源存储到每个服务器中,将训练后的所述多个第二模型和所述多个第二语音识别资源存储到至少一个服务器中。
在本实施例中,对于步骤101,语音识别训练装置在获取到开发者预设的多个场景以及与多个场景对应的第一语音识别资源和与多个场景中每一个场景对应的多个第二语音识别资源,其中,第一语音识别资源为多个场景能够通用的部分,第二语音识别资源为每一个场景所独有的部分,例如,多个场景中通用的部分比较多,例如音乐搜索、天气查询和问答等常用交互领域,而多个场景中每一个场景所独有的部分比较少,例如智能家居场景的家居控制或车载场景中特有的车载设备控制等。
之后,对于步骤102,语音识别训练装置训练与第一语音识别资源对应的第一模型和与多个第二语音识别资源对应的多个第二模型。
最后,对于步骤103,语音识别训练装置将训练后的第一模型和第一语音识别资源存储到每个服务器中,将训练后的多个第二模型和多个第二语音识别资源存储到至少一个服务器中,例如,每个场景都需要用到第一语音识别资源,其中,第一语音识别资源较大并且加载耗时,可以预先将第一模型和第一语音识别资源存储到每一个服务器中,之后,再将多个第二模型和多个第二语音识别资源存储到至少一个服务器中。
本实施例的方法通过将各个场景间的重复语音识别资源合并到一个通用的语音识别资源,从而可以实现减少语音识别资源更新时的重复性工作,进一步的降低了维护成本。
在上述实施例所述的方法中,所述将训练后的所述多个第二模型和所述多个第二语音识别资源存储到至少一个服务器中,包括:
将训练后的多个第二模型和多个第二语音识别资源分散式和/或交叉式地存储到至少一个服务器中,例如,可以将多个第二语音识别资源中的A场景语音识别资源和B场景语音识别资源存储到服务器1中,将C场景语音识别资源和D场景语音识别资源存储到服务器2中,A场景语音识别资源在存储到服务器1中的同时,还可以存储到服务器3中,其中,单个场景语音识别资源通常较小,存储和调用时所占空间较小,从而能够将场景语音识别资源进行动态加载和卸载。
本实施例的方法通过将训练后的多个第二模型和多个第二语音识别资源分散式和/或交叉式地存储到至少一个服务器中,从而可以实现对多个第二语音识别资源进行动态加载和卸载。
在上述实施例所述的方法中,每一个所述第二语音识别资源具有预设用户调用量阈值,在所述将训练后的所述多个第二模型和所述多个第二语音识别资源分散式和/或交叉式地存储到至少一个服务器中之前,所述方法还包括:
基于与每一个第二语音识别资源对应的用户调用量阈值以及各服务器可承载的用户调用量将训练后的每一个第二模型和每一个第二语音识别资源存储至一个服务器或多个服务器。
本实施例的方法通过基于用户调用量阈值与各服务器可承载的用户调用量分配服务器,从而可以实现提高服务器的利用率。
请参考图2,其示出了本申请的语音识别应用方法一实施例的流程图。
如图2所示,在步骤201中,响应于用户的语音输入,获取与所述用户的语音输入对应的场景;
在步骤202中,基于所述场景将所述用户的语音输入送入支持所述场景所独有的部分资源的服务器进行语音识别,其中,每个服务器均支持多个场景能够通用的部分资源以及至少一个服务器支持每个场景所独有的部分资源;
在步骤203中,获取支持所述场景所独有的部分的服务器返回的语音识别结果,将所述语音识别结果反馈给所述用户。
在本实施例中,对于步骤201,语音识别应用装置获取与用户的语音输入对应的场景,例如,车载场景或家居控制场景。
之后,对于步骤202,语音识别应用装置基于与用户的语音输入对应的场景将用户的语音输入送入支持所述场景所独有的部分资源的服务器进行语音识别,其中,每个服务器均支持多个场景能够通用的部分资源以及至少一个服务器支持每个场景所独有的部分资源,例如,可以根据得到的场景信息将用户分配到每一个服务器,进一步的,每一个服务器接收分配到自身的用户的语音输入。
最后,对于步骤203,语音识别应用装置获取支持与用户的语音输入对应的场景所独有的部分的服务器返回的语音识别结果,将语音识别结果反馈给用户,例如,可以通过服务器的第一语音识别资源和第二语音识别资源来识别用户的语音输入,之后,融合第一语音识别资源和第二语音识别资源的识别结果将识别结果反馈给用户。
本实施例的方法通过基于与用户的语音输入对应的场景将用户的语音输入送入支持所述场景所独有的部分资源的服务器进行语音识别,从而可以实现准确的识别用户的语音输入。
进一步参考图3,其示出了本申请一实施例提供的另一种语音识别应用方法的流程图。该流程图主要是对流程图2的附加流程进一步限定的步骤的流程图。
如图3所示,在步骤301中,统计一个预设时间段内所述场景所独有的部分资源的服务器的用户调用量,判断所述场景所独有的部分资源的服务器的用户调用量是否达到预设调用量阈值;
在步骤302中,若达到预设调用量阈值,将服务器内的所述场景所独有的部分资源动态加载到没有达到预设阈值的服务器。
在本实施例中,对于步骤301,语音识别应用装置统计一个预设时间段内的场景所独有的部分资源的服务器的用户调用量,判断场景所独有的部分资源的服务器的用户调用量是否达到预设调用量阈值;之后,对于步骤302,若达到预设调用量阈值,将服务器内场景所独有的部分资源动态加载到没有达到预设阈值的服务器,例如,可以基于服务器中场景的用户调用量来调节服务器的分配,例如,服务器1中的A场景的用户调用量达到或超过预设阈值,而服务器2中的B场景没有达到预设阈值,可以将服务器1中的A场景加载到服务器2中,由服务器2分担一部分A场景的用户调用量。
本实施例的方法通过将服务器内场景所独有的部分资源动态加载到没有达到预设阈值的服务器,从而可以实现更加高效的支持每一个场景的语音识别服务。
进一步参考图4,其示出了本申请一实施例提供的再一种语音识别应用方法的流程图。该流程图主要是对流程图3的附加流程进一步限定的步骤的流程图。
如图4所示,在步骤401中,当所述场景所独有的部分资源分散在N个服务器时,统计所述N个服务器的用户调用量阈值,判断所述N个服务器的用户调用量阈值是否能由N-M个服务器完成,其中,N和M均为不为0的自然数,M小于N;
在步骤402中,若所述N个服务器的用户调用量阈值能够由N-M个服务器完成,删除M个服务器内的所述场景所独有的部分资源。
在本实施例中,对于步骤401,当场景所独有的部分资源分散在N个服务器时,统计N个服务器的用户调用量阈值,判断N个服务器的用户调用量阈值是否能由N-M个服务器完成,其中,N和M均为不为0的自然数,M小于N;之后,对于步骤402,若N个服务器的用户调用量阈值能够由N-M个服务器完成,删除M个服务器内的场景所独有的部分资源,例如,服务器1中加载了A场景语音识别资源和B场景语音识别资源,服务器2中加载了B场景语音识别资源和C场景语音识别资源,服务器3中加载了C场景语音识别资源和D场景语音识别资源,当B场景语音识别资源的用户调用量达到预设阈值时,C场景语音识别资源的用户调用量没有达到预设阈值,说明这个时段的服务器3比较空闲,可以将服务器2中的C场景语音识别资源卸载,只支持B场景语音识别资源,而服务器3分担C场景和D场景的语音识别资源。
本实施例的方法通过统计N个服务器的用户调用量阈值,判断N个服务器的用户调用量阈值是否能由N-M个服务器完成,从而可以实现对多个第二语音识别资源进行卸载,进一步的提高了服务器的利用率。
需要说明的是,上述方法步骤并不用于限制各步骤的执行顺序,实际上,某些步骤可能会同时执行或者以与步骤限定的相反的顺序执行,本申请在此没有限制。
在一些实施例中,本申请实施例还公开一种语音识别资源配置训练方法,应用于训练分发平台,包括:训练支持多个场景通用交互指令的通用语音识别资源;训练支持多种特定场景交互指令的多个特定场景语音识别资源;将所述通用语音识别资源和所述多个特定场景语音识别资源分发至多个识别服务器,其中,每个识别服务器均具有通用语音识别资源和至少一个特定场景语音识别资源;以及生成对应各个场景的识别服务所需的识别服务器群组。
在本实施例中,训练分发平台首先对支持多个场景通用交互指令的通用语音识别资源进行训练,支持多个场景通用交互指令的通用语音识别资源例如可以是多个场景中都可能会用到的一些语音识别资源,例如音乐搜索、天气查询、问答等常用交互领域。
之后,训练分发平台对支持多种特定场景交互指令的多个特定场景语音识别资源进行训练。特定场景语音识别资源例如可以是
家具场景包含特有的家具控制、车载场景包含特有的车载设备控制等。需要说明的是,训练出来的通用语音识别资源通常可能较大,而各个场景语音识别资源可能较小。
然后,将所述通用语音识别资源和所述多个特定场景语音识别资源分发至多个识别服务器,其中,每个识别服务器均具有通用语音识别资源和至少一个特定场景语音识别资源
在传统语音识别中,通常会训练多个场景语音识别资源,每个场景语音识别资源均覆盖了其常用的语音交互指令,因而每个场景语音识别资源大小均与本发明中的通用语音识别资源相当。在需要更新识别资源以解决误识别情况或提升个别交互领域的识别率时,传统语音识别方式下,通常需要更新每个场景语音识别资源;而本发明中,若需要更新的为多场景通用部分,则只需要更新一个通用识别资源,若需要更新的为特定场景部分,则只需要更新该场景识别资源,而场景识别资源较小,更新时所需资源、时间都较小,因而本发明的多场景识别资源实现方式,能大幅减小识别资源的更新、维护成本。
在一些可选的实施例中,上述方法还包括:根据各个场景的用户实际调用量,确定对应于第一场景的第一识别服务器群组空闲、对应于第二场景的第二识别服务器群组忙碌;以及从所述第一识别服务器群组中选择至少部分的识别服务器加载对应于第二场景的特定场景语音识别资源,并入所述第二识别服务器群组中。通过服务器的空闲和忙碌对服务器进行动态调整,可以使得各服务器的资源得到更加充分地利用。
在另一些可选的实施例中,在所述根据各个场景的用户实际调用量,确定对应于第一场景的第一识别服务器群组空闲、对应于第二场景的第二识别服务器群组忙碌之后,所述方法还包括:从所述第一识别服务器群组中选择至少部分的识别服务器卸载已预先分发的特定场景语音识别资源。通过卸载的方式可以确保每个识别服务器上冗余的资源尽可能地少,提高服务器的可用空间。
在另一些可选的实施例中,还包括:将所述通用语音识别资源预先存储于后备服务器上;根据各个场景的用户实际调用量,确定是否需要补充至少部分所述后备服务器加载对应的特定场景语音识别资源,以增加识别服务器。从而当需要补充后备服务器来增加识别服务器时,后备服务器上由于已经预存由通用语音识别资源,所以只需要加载特定场景语音识别资源,可以更快成为识别服务器。
在另一些可选地实施例中,每一个识别服务器具有预设用户调用量阈值,所述根据各个场景的用户实际调用量,确定对应于第一场景的第一识别服务器群组空闲、对应于第二场景的第二识别服务器群组忙碌包括:根据各个场景的用户实际调用量,以及各个识别服务器的预设用户调用量阈值,判断各个识别服务器的用户实际调用量是否超过预设用户调用量阈值;若存在对应于第一场景的第一识别服务器群组的用户实际调用量阈值小于预设用户调用量阈值,确定所述第一识别服务器群组空闲;以及若存在对应于第二场景的第二识别服务器群组的用户实际调用量阈值大于等于预设用户调用量阈值,确定所述第二识别服务器群组忙碌。
进一步可选的,各个场景具有先验调用量,所述方法还包括:根据各个场景的先验调用量和每一个识别服务器的预设用户调用量阈值确定各个场景的语音识别资源需要分发的识别服务器的数量。
下面对通过描述发明人在实现本发明的过程中遇到的一些问题和对最终确定的方案的一个具体实施例进行说明,以使本领域技术人员更好地理解本申请的方案。
本申请的方案主要从以下几个方面入手进行设计和优化:
为提高利用率、降低维护成本,本发明提供一个通用与场景结合的语音识别方法,其实现方式如下:
1、训练一个支持多个场景通用交互指令的通用语音识别资源。
2、根据不同场景的特殊性,训练多个支持特定场景交互指令的场景语音识别资源。
3、将通用语音识别资源存储于每个识别服务器上。
4、根据各个场景的先验知识,将各个场景语音识别资源存储于某个或某几个语音识别服务器上,存储特定场景的语音识别服务器用于支持该场景的语音识别。
5、获取用户的服务请求,根据请求中的场景信息,分配到支持该场景的识别服务器,通过服务器上存储的语音识别资源进行语音识别。
6、统计某一时间段内用户请求信息,根据各个场景的请求总量,动态分配各个场景的识别服务器数量,动态管理场景语音识别资源在各个服务器上的存储。
由于各个场景的特定交互指令有限,单个场景语音识别资源通常较小,存储和调用时所占空间较小。这使得场景语音识别资源动态加载、卸载到识别服务器成为可能。语音识别服务器的动态分配,能够提高识别服务器的利用率。
通过将各个场景间的重复合并至一个通用语音识别资源,减少了语音识别资源更新时的重复性工作,从而降低维护成本。
请参考图5,其示出了本发明一实施例提供的语音识别训练和应用方法的一个具体实施的流程图。
步骤1:根据预设场景,训练通用语音识别资源及场景语音识别资源。将多个场景通用的部分组合生成一个通用语音识别资源。将各个场景特有的部分生成各自的场景语音识别资源。通常多个场景通用的部分较多,如音乐搜索、天气查询、问答等常用交互领域,而各个场景特有的部分较少,如家具场景包含特有的家具控制、车载场景包含特有的车载设备控制等,因而训练出来的通用语音识别资源通常较大,而各个场景语音识别资源较小。在传统语音识别中,通常会训练多个场景语音识别资源,每个场景语音识别资源均覆盖了其常用的语音交互指令,因而每个场景语音识别资源大小均与本发明中的通用语音识别资源相当。在需要更新识别资源以解决误识别情况或提升个别交互领域的识别率时,传统语音识别方式下,通常需要更新每个场景语音识别资源;而本发明中,若需要更新的为多场景通用部分,则只需要更新一个通用识别资源,若需要更新的为特定场景部分,则只需要更新该场景识别资源,而场景识别资源较小,更新时所需资源、时间都较小,因而本发明的多场景识别资源实现方式,能大幅减小识别资源的更新、维护成本。
步骤2:将通用语音识别资源存储到每个服务器。每个场景都需要用到通用识别资源,且通用识别资源较大,加载耗时,因而预先将通用语音识别资源存储。
步骤3:预估各个场景的用户调用量。
步骤4:根据各个场景的用户调用量,将各个场景语音识别资源存储到一个或多个服务器。本发明中,首先根据步骤3预估的调用用分配识别服务器。再通过步骤6中实时统计的用户调用量,按需调整识别服务器的分配。由于本发明中的各个场景语音识别资源较小,动态加载速度较快,且一个服务器能同时存储多个场景识别资源,使得服务器使用率大幅提升。而传统语音识别中,会根据步骤3预估的各个场景调用量,预先分配好识别服务器,将每个场景识别资源存储于特定的一个或多个服务器上,一旦分配即固定。当某个场景的用户调用量激增时,可能导致该场景的识别服务器奔溃,而某个场景的用户调用量在某个时间段较小时,会导致该场景的识别服务器空闲,即资源浪费。
步骤5:总服务器接收用户请求,解析用户请求信息,根据得到的场景信息,将用户分配至各个语音识别服务器,各个语音识别服务器接收分配到自身的用户语音。
步骤6:总服务器统计某一时间段内接收到各个场景的用户量。
步骤7:各个语音识别服务器利用通用识别资源及场景识别资源,识别用户语音,融合两个识别资源的识别结果,返回最终识别结果。
请参考图6,其示出了本发明一实施例提供的语音识别训练和应用方法的一个具体多场景下的语音识别过程的流程图。
用户发起语音识别请求后,总服务器接收用户请求,解析用户信息,根据场景信息,将用户分配至相应的服务器。相应的服务器接收到用户语音,利用预先存储的通用识别资源及场景识别资源进行语音识别,融合两个识别资源的识别结果,将最终识别结果返回到客户端。传统语音识别服务中,通常语音识别服务器的分配是固定的。而本发明中,语音识别服务器会根据总服务器中统计的各个场景的调用量,动态加载、卸载场景识别资源,并支持所加载的场景的语音识别服务。
请参考图7,其示出了本发明一实施例提供的语音识别训练和应用方法的一个具体语音识别服务器的动态分配的流程图。
本实施例中假设有4个场景,四台语音识别服务器。如图所示,时间点1时,前一时间段内,场景1、2、3、4的用户调用量都为200,因而服务器1、2、3、4平均分配,识别服务器1加载场景1、2的语音识别资源,接收场景1、2的用户所发出的语音信息,对音频进行解码,返回识别结果到相应客户端;识别服务器2加载场景2、3的语音识别资源,接收场景2、3的用户所发出的语音信息,对音频进行解码,返回识别结果到相应客户端;识别服务器3加载场景3、4的语音识别资源,接收场景3、4的用户所发出的语音信息,对音频进行解码,返回识别结果到相应客户端;识别服务器4加载场景4、1的语音识别资源,接收场景4、1的用户所发出的语音信息,对音频进行解码,返回识别结果到相应客户端。到时间点2时,场景2的用户调用量明显增加,增至600,同时场景3、4的用户调用量明显减少,分别减至80、20。此时若按传统语音识别中固定的识别服务器分配方式,将导致识别服务器1、2承担过多的识别服务,负载过高,而识别服务器3接收到的识别服务较少,服务器空闲,导致资源浪费。本发明中,识别服务器将根据时间点1到时间点2时间段内的用户调用量,调节识别服务器的分配。在本示例中,服务器3空闲,而场景2的用户调用量增大,因而将识别服务器3中预存的场景3识别资源卸载,加载场景2的语音识别资源,服务器3仅存储了场景2的识别资源,用于支持场景2的语音识别服务,分担了识别服务器1、2的识别任务,从而降低了识别服务器1、2的负载,从而能更高效的支持各个场景的识别服务,提高服务器利用率。
请参考图8,其示出了本发明一实施例提供的语音识别训练装置的框图。
如图8所示,语音识别训练装置800,包括第一获取模块810、训练模块820和存储模块830。
其中,第一获取模块810,配置为获取经由开发者预设的多个场景,以及与所述多个场景对应的第一语音识别资源和与所述多个场景中每一个场景对应的多个第二语音识别资源,其中,所述第一语音识别资源为所述多个场景能够通用的部分,所述第二语音识别资源为所述每一个场景所独有的部分;训练模块820,配置为训练与所述第一语音识别资源对应的第一模型和与所述多个第二语音识别资源对应的多个第二模型;存储模块830,配置为将训练后的所述第一模型和所述第一语音识别资源存储到每个服务器中,将训练后的所述多个第二模型和所述多个第二语音识别资源存储到至少一个服务器中。
如图9所示,语音识别应用装置900,包括第二获取模块910、送入模块920和获取反馈模块930。
其中,第二获取模块910,配置为响应于用户的语音输入,获取与所述用户的语音输入对应的场景;送入模块920,配置为基于所述场景将所述用户的语音输入送入支持所述场景所独有的部分资源的服务器进行语音识别,其中,每个服务器均支持多个场景能够通用的部分资源以及至少一个服务器支持每个场景所独有的部分资源;获取反馈模块930,配置为获取支持所述场景所独有的部分的服务器返回的语音识别结果,将所述语音识别结果反馈给所述用户。
应当理解,图8和图9中记载的诸模块与参考图1、图2、图3和图4中描述的方法中的各个步骤相对应。由此,上文针对方法描述的操作和特征以及相应的技术效果同样适用于图8和图9中的诸模块,在此不再赘述。
值得注意的是,本公开的实施例中的模块并不用于限制本公开的方案,例如第一获取模块可以描述为获取经由开发者预设的多个场景,以及与所述多个场景对应的第一语音识别资源和与所述多个场景中每一个场景对应的多个第二语音识别资源,其中,所述第一语音识别资源为所述多个场景能够通用的部分,所述第二语音识别资源为所述每一个场景所独有的部分的模块。另外,还可以通过硬件处理器来实现相关功能模块,例如第一获取模块也可以用处理器实现,在此不再赘述。
在另一些实施例中,本发明实施例还提供了一种非易失性计算机存储介质,计算机存储介质存储有计算机可执行指令,该计算机可执行指令可执行上述任意方法实施例中的语音识别训练和应用方法;
作为一种实施方式,本发明的非易失性计算机存储介质存储有计算机可执行指令,计算机可执行指令设置为:
获取经由开发者预设的多个场景,以及与所述多个场景对应的第一语音识别资源和与所述多个场景中每一个场景对应的多个第二语音识别资源,其中,所述第一语音识别资源为所述多个场景能够通用的部分,所述第二语音识别资源为所述每一个场景所独有的部分;
训练与所述第一语音识别资源对应的第一模型和与所述多个第二语音识别资源对应的多个第二模型;
将训练后的所述第一模型和所述第一语音识别资源存储到每个服务器中,将训练后的所述多个第二模型和所述多个第二语音识别资源存储到至少一个服务器中。
作为另一种实施方式,本发明的非易失性计算机存储介质存储有计算机可执行指令,计算机可执行指令设置为:
响应于用户的语音输入,获取与所述用户的语音输入对应的场景;
基于所述场景将所述用户的语音输入送入支持所述场景所独有的部分资源的服务器进行语音识别,其中,每个服务器均支持多个场景能够通用的部分资源以及至少一个服务器支持每个场景所独有的部分资源;
获取支持所述场景所独有的部分的服务器返回的语音识别结果,将所述语音识别结果反馈给所述用户。
非易失性计算机可读存储介质可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据语音识别训练和应用装置的使用所创建的数据等。此外,非易失性计算机可读存储介质可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,非易失性计算机可读存储介质可选包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至语音识别训练和应用装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
本发明实施例还提供一种计算机程序产品,计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序,计算机程序包括程序指令,当程序指令被计算机执行时,使计算机执行上述任一项语音识别训练和应用方法。
图10是本发明实施例提供的电子设备的结构示意图,如图10所示,该设备包括:一个或多个处理器1010以及存储器1020,图10中以一个处理器1010为例。语音识别训练和应用方法的设备还可以包括:输入装置1030和输出装置1040。处理器1010、存储器1020、输入装置1030和输出装置1040可以通过总线或者其他方式连接,图10中以通过总线连接为例。存储器1020为上述的非易失性计算机可读存储介质。处理器1010通过运行存储在存储器1020中的非易失性软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例语音识别训练和应用方法。输入装置1030可接收输入的数字或字符信息,以及产生与通讯补偿装置的用户设置以及功能控制有关的键信号输入。输出装置1040可包括显示屏等显示设备。
上述产品可执行本发明实施例所提供的方法,具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本发明实施例所提供的方法。
作为一种实施方式,上述电子设备应用于语音识别训练和应用装置中,用于客户端,包括:至少一个处理器;以及,与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够:
获取经由开发者预设的多个场景,以及与所述多个场景对应的第一语音识别资源和与所述多个场景中每一个场景对应的多个第二语音识别资源,其中,所述第一语音识别资源为所述多个场景能够通用的部分,所述第二语音识别资源为所述每一个场景所独有的部分;
训练与所述第一语音识别资源对应的第一模型和与所述多个第二语音识别资源对应的多个第二模型;
将训练后的所述第一模型和所述第一语音识别资源存储到每个服务器中,将训练后的所述多个第二模型和所述多个第二语音识别资源存储到至少一个服务器中。
作为另一种实施方式,上述电子设备应用于语音识别训练和应用装置中,用于客户端,包括:至少一个处理器;以及,与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够:
响应于用户的语音输入,获取与所述用户的语音输入对应的场景;
基于所述场景将所述用户的语音输入送入支持所述场景所独有的部分资源的服务器进行语音识别,其中,每个服务器均支持多个场景能够通用的部分资源以及至少一个服务器支持每个场景所独有的部分资源;
获取支持所述场景所独有的部分的服务器返回的语音识别结果,将所述语音识别结果反馈给所述用户。
本申请实施例的电子设备以多种形式存在,包括但不限于:
(1)移动通信设备:这类设备的特点是具备移动通信功能,并且以提供话音、数据通信为主要目标。这类终端包括:智能手机、多媒体手机、功能性手机,以及低端手机等。
(2)超移动个人计算机设备:这类设备属于个人计算机的范畴,有计算和处理功能,一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等。
(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器,掌上游戏机,电子书,以及智能玩具和便携式车载导航设备。
(4)服务器:提供计算服务的设备,服务器的构成包括处理器、硬盘、内存、系统总线等,服务器和通用的计算机架构类似,但是由于需要提供高可靠的服务,因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。
(5)其他具有数据交互功能的电子装置。
以上所描述的装置实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种语音识别训练方法,包括:
获取经由开发者预设的多个场景,以及与所述多个场景对应的第一语音识别资源和与所述多个场景中每一个场景对应的多个第二语音识别资源,其中,所述第一语音识别资源为所述多个场景能够通用的部分,所述第二语音识别资源为所述每一个场景所独有的部分;
训练与所述第一语音识别资源对应的第一模型和与所述多个第二语音识别资源对应的多个第二模型;
将训练后的所述第一模型和所述第一语音识别资源存储到每个服务器中,将训练后的所述多个第二模型和所述多个第二语音识别资源存储到至少一个服务器中。
2.根据权利要求1所述的方法,其特征在于,所述将训练后的所述多个第二模型和所述多个第二语音识别资源存储到至少一个服务器中,包括:
将训练后的所述多个第二模型和所述多个第二语音识别资源分散式和/或交叉式地存储到至少一个服务器中。
3.根据权利要求2所述的方法,其中,每一个所述第二语音识别资源具有预设用户调用量阈值,在所述将训练后的所述多个第二模型和所述多个第二语音识别资源分散式和/或交叉式地存储到至少一个服务器中之前,所述方法还包括:
基于与每一个所述第二语音识别资源对应的用户调用量阈值以及各服务器可承载的用户调用量将训练后的每一个所述第二模型和每一个所述第二语音识别资源存储至一个服务器或多个服务器。
4.一种语音识别应用方法,包括:
响应于用户的语音输入,获取与所述用户的语音输入对应的场景;
基于所述场景将所述用户的语音输入送入支持所述场景所独有的部分资源的服务器进行语音识别,其中,每个服务器均支持多个场景能够通用的部分资源以及至少一个服务器支持每个场景所独有的部分资源;
获取支持所述场景所独有的部分的服务器返回的语音识别结果,将所述语音识别结果反馈给所述用户。
5.根据权利要求4所述的方法,其中,在所述基于所述场景将所述用户的语音输入送入支持所述场景所独有的部分资源的服务器进行语音识别之后,所述方法还包括:
统计一个预设时间段内所述场景所独有的部分资源的服务器的用户调用量,判断所述场景所独有的部分资源的服务器的用户调用量是否达到预设调用量阈值;
若达到预设调用量阈值,将服务器内的所述场景所独有的部分资源动态加载到没有达到预设阈值的服务器。
6.根据权利要求5所述的方法,还包括:
当所述场景所独有的部分资源分散在N个服务器时,统计所述N个服务器的用户调用量阈值,判断所述N个服务器的用户调用量阈值是否能由N-M个服务器完成,其中,N和M均为不为0的自然数,M小于N;
若所述N个服务器的用户调用量阈值能够由N-M个服务器完成,删除M个服务器内的所述场景所独有的部分资源。
7.一种语音识别训练装置,包括:
第一获取模块,配置为获取经由开发者预设的多个场景,以及与所述多个场景对应的第一语音识别资源和与所述多个场景中每一个场景对应的多个第二语音识别资源,其中,所述第一语音识别资源为所述多个场景能够通用的部分,所述第二语音识别资源为所述每一个场景所独有的部分;
训练模块,配置为训练与所述第一语音识别资源对应的第一模型和与所述多个第二语音识别资源对应的多个第二模型;
存储模块,配置为将训练后的所述第一模型和所述第一语音识别资源存储到每个服务器中,将训练后的所述多个第二模型和所述多个第二语音识别资源存储到至少一个服务器中。
8.一种语音识别应用装置,包括:
第二获取模块,配置为响应于用户的语音输入,获取与所述用户的语音输入对应的场景;
送入模块,配置为基于所述场景将所述用户的语音输入送入支持所述场景所独有的部分资源的服务器进行语音识别,其中,每个服务器均支持多个场景能够通用的部分资源以及至少一个服务器支持每个场景所独有的部分资源;
获取反馈模块,配置为获取支持所述场景所独有的部分的服务器返回的语音识别结果,将所述语音识别结果反馈给所述用户。
9.一种电子设备,包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1至6任一项所述方法的步骤。
10.一种存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现权利要求1至6任一项所述方法的步骤。
CN202011479654.9A 2020-12-15 2020-12-15 语音识别训练和应用方法及装置 Active CN112687261B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011479654.9A CN112687261B (zh) 2020-12-15 2020-12-15 语音识别训练和应用方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011479654.9A CN112687261B (zh) 2020-12-15 2020-12-15 语音识别训练和应用方法及装置

Publications (2)

Publication Number Publication Date
CN112687261A CN112687261A (zh) 2021-04-20
CN112687261B true CN112687261B (zh) 2022-05-03

Family

ID=75448094

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011479654.9A Active CN112687261B (zh) 2020-12-15 2020-12-15 语音识别训练和应用方法及装置

Country Status (1)

Country Link
CN (1) CN112687261B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114255743A (zh) * 2021-12-13 2022-03-29 北京声智科技有限公司 语音识别模型的训练方法、语音识别方法及装置

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10348574B2 (en) * 2015-08-17 2019-07-09 Vmware, Inc. Hardware management systems for disaggregated rack architectures in virtual server rack deployments
CN105719649B (zh) * 2016-01-19 2019-07-05 百度在线网络技术(北京)有限公司 语音识别方法及装置
CN106557461B (zh) * 2016-10-31 2019-03-12 百度在线网络技术(北京)有限公司 基于人工智能的语义解析处理方法和装置
CN109360565A (zh) * 2018-12-11 2019-02-19 江苏电力信息技术有限公司 一种通过建立资源库提高语音识别精度的方法
CN109671421B (zh) * 2018-12-25 2020-07-10 苏州思必驰信息科技有限公司 离线导航的定制和实现方法及装置
CN111049996B (zh) * 2019-12-26 2021-06-15 思必驰科技股份有限公司 多场景语音识别方法及装置、和应用其的智能客服系统
CN111508479B (zh) * 2020-04-16 2022-11-22 重庆农村商业银行股份有限公司 一种语音识别方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN112687261A (zh) 2021-04-20

Similar Documents

Publication Publication Date Title
CN110839084B (zh) 会话管理方法、装置、设备和介质
CN110457078B (zh) 智能服务方法、装置及设备
EP3779690A1 (en) Processor core scheduling method and apparatus, terminal, and storage medium
CN103731448A (zh) 一种压缩图片的方法和系统
US20170177255A1 (en) Method and electronic device for allocating dynamic memory resources
CN112687261B (zh) 语音识别训练和应用方法及装置
CN107181825B (zh) 终端设备数据的在线处理方法
CN101667139A (zh) 基于集合类型对象的服务程序调用方法、装置及系统
US20170168871A1 (en) Method and electronic device for triggering background task
CN107342929B (zh) 一种新消息通知的发送方法、装置及系统
CN110457077B (zh) 智能服务方法、装置及设备
CN110442698B (zh) 对话内容生成方法及系统
CN111475230A (zh) 应用的功能配置方法、装置和电子设备
CN114116220B (zh) 一种gpu共享控制方法、gpu共享控制装置及存储介质
CN111477229B (zh) 语音识别请求处理方法和装置
CN113144606B (zh) 虚拟对象的技能触发方法及相关设备
CN112604267B (zh) 游戏处理方法、系统、装置、设备和介质
CN116805972A (zh) 直播间消息读取的方法和装置
CN111479137B (zh) 线路地址的提供方法、装置、服务器及存储介质
CN114125159A (zh) 一种语音播报方法、装置及计算机可读存储介质
US20170310766A1 (en) Service state determining method for service processing device and scheduling device
CN112311689A (zh) 突发流量的分流方法、计算机设备及可读存储介质
CN115580580B (zh) 流量控制方法、流量控制装置、计算机可读存储介质
CN113014945B (zh) 一种数据处理方法、装置、存储介质及计算机设备
CN114928608B (zh) 一种多媒体资源的处理方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 215123 building 14, Tengfei Innovation Park, 388 Xinping street, Suzhou Industrial Park, Suzhou City, Jiangsu Province

Applicant after: Sipic Technology Co.,Ltd.

Address before: 215123 building 14, Tengfei Innovation Park, 388 Xinping street, Suzhou Industrial Park, Suzhou City, Jiangsu Province

Applicant before: AI SPEECH Ltd.

GR01 Patent grant
GR01 Patent grant