CN112802471B - 语音音区切换方法、装置、设备及存储介质 - Google Patents
语音音区切换方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN112802471B CN112802471B CN202011631703.6A CN202011631703A CN112802471B CN 112802471 B CN112802471 B CN 112802471B CN 202011631703 A CN202011631703 A CN 202011631703A CN 112802471 B CN112802471 B CN 112802471B
- Authority
- CN
- China
- Prior art keywords
- scene
- voice
- engine
- target
- key
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 70
- 230000007613 environmental effect Effects 0.000 claims description 67
- 238000001514 detection method Methods 0.000 claims description 17
- 230000004044 response Effects 0.000 claims description 12
- 230000008569 process Effects 0.000 description 22
- 238000004590 computer program Methods 0.000 description 8
- 230000003993 interaction Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 4
- 230000001960 triggered effect Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Lock And Its Accessories (AREA)
- Telephone Function (AREA)
Abstract
本申请公开了一种语音音区切换方法、装置、设备及存储介质,属于语音识别领域,该方法包括:接收目标对象发出的语音指令;响应于语音指令,基于目标语音引擎在至少一个关键场景下分别对应的资源占用数据,确定目标语音引擎对应的空闲资源量;根据目标语音引擎对应的空闲资源量与资源量阈值的关系进行语音音区切换。该方法能够针对不同用户和不同场景进行语音单双音区的动态自动切换,优化语音引擎的场景化体验,避免语音引擎的卡顿对系统造成的负担,增强语音类产品的可使用性和流畅度。
Description
技术领域
本申请实施例涉及语音识别领域,特别涉及一种语音音区切换方法、装置、设备及存储介质。
背景技术
语音助手通过智能对话与即时问答的智能交互,解放了人们的双手,提升了人机交互的体验。目前,语音助手在智能家居、教育、手机等产业已经取得了一定的成绩;在汽车产业中语音助手也已初露锋芒,语音技术应用不断深化,功能日益丰富。
但是,当前语音助手区分单音区或者双音区独立版本,用户手动切换单双音区导致语音助手使用的灵活度、性能和体验感较差,还会造成不必要的性能损耗和功能冗余或缺。
发明内容
本申请实施例提供了一种语音音区切换方法、装置、设备及存储介质,能够解决相关技术中的问题。所述技术方案如下:
一方面,本申请实施例提供一种语音音区切换方法,所述方法包括:
接收目标对象发出的语音指令;
响应于所述语音指令,基于目标语音引擎在至少一个关键场景下分别对应的资源占用数据,确定所述目标语音引擎对应的空闲资源量,所述目标语音引擎为所述目标对象的语音客户端对应的语音引擎;
根据所述目标语音引擎对应的空闲资源量与资源量阈值的关系进行语音音区切换。
在一种可能的实施方式中,所述响应于所述语音指令,基于目标语音引擎在至少一个关键场景下分别对应的资源占用数据,确定所述目标语音引擎对应的空闲资源量,包括:
响应于所述语音指令,获取所述目标语音引擎在至少一个关键场景下分别对应的资源未占用数据;
对于所述至少一个关键场景中的任一关键场景,根据所述目标语音引擎在所述任一关键场景下对应的使用权重和所述目标语音引擎在所述任一关键场景下对应的资源未占用数据,获取所述任一关键场景对应的子参数;
基于所述至少一个关键场景分别对应的子参数,确定所述目标语音引擎对应的空闲资源量。
在一种可能的实施方式中,所述响应于所述语音指令,获取所述目标语音引擎在至少一个关键场景下分别对应的资源未占用数据,包括:
响应于所述语音指令,触发对所述语音指令的语音端点检测;
根据所述语音端点检测的结果获取所述目标语音引擎在所述至少一个关键场景下对应的资源占用数据;
基于所述目标语音引擎在所述至少一个关键场景下对应的资源占用数据,获取目标语音引擎在所述至少一个关键场景下对应的资源未占用数据。
在一种可能的实施方式中,所述对于所述至少一个关键场景中的任一关键场景,将所述目标语音引擎在所述任一关键场景下对应的使用权重和所述目标语音引擎在所述任一关键场景下对应的资源未占用数据的乘积作为所述任一关键场景对应的子参数之前,所述方法还包括:
获取所述目标语音引擎的历史记录信息,所述历史记录信息包括所述目标语音引擎在所述至少一个关键场景下产生的至少一条历史记录;
基于所述历史记录信息,确定所述目标语音引擎在所述至少一个关键场景下对应的使用权重。
在一种可能的实施方式中,所述基于所述历史记录信息,确定所述目标语音引擎在所述至少一个关键场景下对应的使用权重,包括:
基于所述至少一条历史记录,确定所述目标语音引擎在所述至少一个关键场景下对应的使用次数;
基于所述目标语音引擎在所述至少一个关键场景下对应的使用次数,确定所述目标语音引擎在所述至少一个关键场景下对应的使用权重;
所述至少一个关键场景包括安静环境场景、嘈杂环境场景、唤醒瞬间识别场景和特定语料识别场景中的至少一个,所述至少一条历史记录包括语音指令音频和环境音频。
在一种可能的实施方式中,所述基于所述至少一条历史记录,确定所述目标语音引擎在所述至少一个关键场景下对应的使用次数,包括:
对于所述至少一条历史记录中的任一条历史记录信息,对所述任一条历史记录信息中的环境音频进行识别处理,确定所述环境音频对应的环境场景;对所述任一条历史记录信息中的语音指令音频进行识别处理,确定所述语音指令音频对应的识别场景;
响应于所述环境音频对应的环境场景为安静环境场景,获取更新后的安静环境场景次数;响应于所述环境音频对应的环境场景为嘈杂环境场景,获取更新后的嘈杂环境场景次数;响应于所述语音指令音频对应的识别场景为唤醒瞬间识别场景,获取更新后的唤醒瞬间识别场景次数;响应于所述语音指令音频对应的识别场景为特定语料识别场景,获取更新后的特定语料识别场景次数;
将遍历所述至少一条历史记录后得到的安静环境场景次数作为所述目标语音引擎在安静环境场景下对应的使用次数;将遍历所述至少一条历史记录后得到的嘈杂环境场景次数作为所述目标语音引擎在嘈杂环境场景下对应的使用次数;将遍历所述至少一条历史记录后得到的唤醒瞬间识别场景次数作为所述目标语音引擎在唤醒瞬间识别场景下对应的使用次数;将遍历所述至少一条历史记录后得到的特定语料识别场景次数作为所述目标语音引擎在特定语料识别场景下对应的使用次数。
在一种可能的实施方式中,所述基于目标语音引擎在所述至少一个关键场景下对应的使用次数,确定所述目标语音引擎在所述至少一个关键场景下对应的使用权重,包括:
基于所述目标语音引擎在安静环境场景下、嘈杂环境场景下、唤醒瞬间识别场景下和特定语料识别场景下对应的使用次数,确定所述目标语音引擎对应的总使用次数;
将所述目标语音引擎在安静环境场景下对应的使用次数和所述总使用次数的比值作为所述目标语音引擎在安静环境场景下对应的使用权重;将所述目标语音引擎在嘈杂环境场景下对应的使用次数和所述总使用次数的比值作为所述目标语音引擎在嘈杂环境场景下对应的使用权重;将所述目标语音引擎在唤醒瞬间识别场景下对应的使用次数和所述总使用次数的比值作为所述目标语音引擎在唤醒瞬间识别场景下对应的使用权重;将所述目标语音引擎在特定语料识别场景下对应的使用次数和所述总使用次数的比值作为所述目标语音引擎在特定语料识别场景下对应的使用权重。
在一种可能的实施方式中,所述基于所述至少一个关键场景分别对应的子参数,确定所述目标语音引擎对应的空闲资源量,包括:
将所述至少一个关键场景分别对应的子参数进行加和运算,得到所述目标语音引擎对应的空闲资源量。
在一种可能的实施方式中,所述资源量阈值为预先存储的固定数值;
所述根据所述目标语音引擎对应的空闲资源量与资源量阈值的关系进行语音音区切换,包括:
若所述目标语音引擎对应的空闲资源量大于所述资源量阈值,且所述语音客户端的工作模式为单音区模式,则切换所述语音客户端的工作模式为双音区模式;
若所述目标语音引擎对应的空闲资源量大于所述资源量阈值,且所述语音客户端的工作模式为双音区模式,则保持所述语音客户端的工作模式为双音区模式不变;
若所述目标语音引擎对应的空闲资源量小于或等于所述资源量阈值,且所述语音客户端的工作模式为单音区模式,则保持所述语音客户端的工作模式为单音区模式不变;
若所述目标语音引擎对应的空闲资源量小于或等于所述资源量阈值,且所述语音客户端的工作模式为双音区模式,则切换所述语音客户端的工作模式为单音区模式。
另一方面,提供了一种语音音区切换装置,所述装置包括:
接收模块,用于接收目标对象发出的语音指令;
第一确定模块,用于响应于所述语音指令,基于目标语音引擎在至少一个关键场景下分别对应的资源占用数据,确定所述目标语音引擎对应的空闲资源量,所述目标语音引擎为所述目标对象的语音客户端对应的语音引擎;
切换模块,用于根据所述目标语音引擎对应的空闲资源量与资源量阈值的关系进行语音音区切换。
在一种可能的实施方式中,所述第一确定模块用于响应于所述语音指令,获取所述目标语音引擎在至少一个关键场景下分别对应的资源未占用数据;
对于所述至少一个关键场景中的任一关键场景,根据所述目标语音引擎在所述任一关键场景下对应的使用权重和所述目标语音引擎在所述任一关键场景下对应的资源未占用数据,获取所述任一关键场景对应的子参数;
基于所述至少一个关键场景分别对应的子参数,确定所述目标语音引擎对应的空闲资源量。
在一种可能的实施方式中,所述第一确定模块用于响应于所述语音指令,触发对所述语音指令的语音端点检测;
根据所述语音端点检测的结果获取所述目标语音引擎在所述至少一个关键场景下对应的资源占用数据;
基于所述目标语音引擎在所述至少一个关键场景下对应的资源占用数据,获取目标语音引擎在所述至少一个关键场景下对应的资源未占用数据。
在一种可能的实施方式中,所述装置还包括:
获取模块,用于获取所述目标语音引擎的历史记录信息,所述历史记录信息包括所述目标语音引擎在所述至少一个关键场景下产生的至少一条历史记录;
第二确定模块,用于基于所述历史记录信息,确定所述目标语音引擎在所述至少一个关键场景下对应的使用权重。
在一种可能的实施方式中,所述第二确定模块用于基于所述至少一条历史记录,确定所述目标语音引擎在所述至少一个关键场景下对应的使用次数;
基于所述目标语音引擎在所述至少一个关键场景下对应的使用次数,确定所述目标语音引擎在所述至少一个关键场景下对应的使用权重;
所述至少一个关键场景包括安静环境场景、嘈杂环境场景、唤醒瞬间识别场景和特定语料识别场景中的至少一个,所述至少一条历史记录包括语音指令音频和环境音频。
在一种可能的实施方式中,第二确定模块用于对于所述至少一条历史记录中的任一条历史记录信息,对所述任一条历史记录信息中的环境音频进行识别处理,确定所述环境音频对应的环境场景;对所述任一条历史记录信息中的语音指令音频进行识别处理,确定所述语音指令音频对应的识别场景;
响应于所述环境音频对应的环境场景为安静环境场景,获取更新后的安静环境场景次数;响应于所述环境音频对应的环境场景为嘈杂环境场景,获取更新后的嘈杂环境场景次数;响应于所述语音指令音频对应的识别场景为唤醒瞬间识别场景,获取更新后的唤醒瞬间识别场景次数;响应于所述语音指令音频对应的识别场景为特定语料识别场景,获取更新后的特定语料识别场景次数;
将遍历所述至少一条历史记录后得到的安静环境场景次数作为所述目标语音引擎在安静环境场景下对应的使用次数;将遍历所述至少一条历史记录后得到的嘈杂环境场景次数作为所述目标语音引擎在嘈杂环境场景下对应的使用次数;将遍历所述至少一条历史记录后得到的唤醒瞬间识别场景次数作为所述目标语音引擎在唤醒瞬间识别场景下对应的使用次数;将遍历所述至少一条历史记录后得到的特定语料识别场景次数作为所述目标语音引擎在特定语料识别场景下对应的使用次数。
在一种可能的实施方式中,所述第二确定模块用于基于所述目标语音引擎在安静环境场景下、嘈杂环境场景下、唤醒瞬间识别场景下和特定语料识别场景下对应的使用次数,确定所述目标语音引擎对应的总使用次数;
将所述目标语音引擎在安静环境场景下对应的使用次数和所述总使用次数的比值作为所述目标语音引擎在安静环境场景下对应的使用权重;将所述目标语音引擎在嘈杂环境场景下对应的使用次数和所述总使用次数的比值作为所述目标语音引擎在嘈杂环境场景下对应的使用权重;将所述目标语音引擎在唤醒瞬间识别场景下对应的使用次数和所述总使用次数的比值作为所述目标语音引擎在唤醒瞬间识别场景下对应的使用权重;将所述目标语音引擎在特定语料识别场景下对应的使用次数和所述总使用次数的比值作为所述目标语音引擎在特定语料识别场景下对应的使用权重。
在一种可能的实施方式中,所述第一确定模块用于将所述至少一个关键场景分别对应的子参数进行加和运算,得到所述目标语音引擎对应的空闲资源量。
在一种可能的实施方式中,所述资源量阈值为预先存储的固定数值;所述切换模块用于,若所述目标语音引擎对应的空闲资源量大于所述资源量阈值,且所述语音客户端的工作模式为单音区模式,则切换所述语音客户端的工作模式为双音区模式;
若所述目标语音引擎对应的空闲资源量大于所述资源量阈值,且所述语音客户端的工作模式为双音区模式,则保持所述语音客户端的工作模式为双音区模式不变;
若所述目标语音引擎对应的空闲资源量小于或等于所述资源量阈值,且所述语音客户端的工作模式为单音区模式,则保持所述语音客户端的工作模式为单音区模式不变;
若所述目标语音引擎对应的空闲资源量小于或等于所述资源量阈值,且所述语音客户端的工作模式为双音区模式,则切换所述语音客户端的工作模式为单音区模式。
另一方面,还提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条程序代码,所述至少一条程序代码由所述处理器加载并执行,以实现上述任一项所述的语音音区切换方法。
另一方面,还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一条程序代码,所述至少一条程序代码由处理器加载并执行,以实现上述任一项所述的语音音区切换方法。
另一方面,还提供了一种计算机程序产品或计算机程序,所述计算机程序产品或计算机程序包括计算机指令,所述计算机指令存储在计算机可读存储介质中。计算机设备的处理器从所述计算机可读存储介质读取所述计算机指令,处理器执行所述计算机指令,使得所述计算机设备执行上述任一所述的语音音区切换方法。
本申请实施例提供的技术方案可以带来如下有益效果:
该方法能够针对不同用户和不同场景进行语音单双音区的动态自动切换,优化了语音引擎的场景化体验,避免了语音引擎的卡顿对系统造成的负担,增强了语音产品类的可使用性和流畅度。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种语音音区切换方法的实施环境的示意图;
图2是本申请实施例提供的一种语音音区切换方法的流程图;
图3是本申请实施例提供的一种语音音区切换装置的示意图;
图4是本申请实施例提供的一种语音音区切换装置的示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
本申请实施例提供了一种语音音区动态切换方法,请参考图1,其示出了本申请实施例提供的语音音区动态切换方法的实施环境的示意图。该实施环境包括:终端11和服务器12。
其中,终端11安装有能够为目标对象提供语音音区切换的语音引擎,终端11包括至少一个语音客户端,当该语音客户端需要为目标对象提供语音音区切换服务时,可应用本申请实施例提供的方法进行语音音区切换。服务器12可以对语音引擎在历史使用过程中产生的相关信息进行存储,从而为语音音区切换服务过程提供数据支持。终端11可以从服务器12上获取语音引擎的音区切换过程所需要的信息。当然,终端11上也可以对语音引擎在历史使用过程中产生的相关信息进行存储。
在一种可能的实施方式中,终端11可以是任何一种可与用户通过键盘、触摸板、触摸屏、遥控器、语音交互或手写设备等一种或多种方式进行人机交互的电子产品,例如PC(Personal Computer,个人计算机)、手机、智能手机、PDA(Personal Digital Assistant,个人数字助手)、可穿戴设备、掌上电脑PPC(Pocket PC)、平板电脑、智能车机、智能电视、智能音箱等。服务器12可以是一台服务器,也可以是由多台服务器组成的服务器集群,或者是一个云计算服务中心。终端11与服务器12通过有线或无线网络建立通信连接。
本领域技术人员应能理解上述终端11和服务器12仅为举例,其他现有的或今后可能出现的终端或服务器如可适用于本申请,也应包含在本申请保护范围以内,并在此以引用方式包含于此。
基于上述图1所示的实施环境,本申请实施例提供一种语音音区切换方法,该方法可以应用于图1所示的终端11中的语音客户端。如图2所示,本申请实施例提供的方法包括如下步骤201至步骤203。
步骤201,接收目标对象发出的语音指令。
接收目标对象发出的语音指令的是目标对象的终端中安装的多个语音客户端中的任一客户端,目标对象的终端是指属于目标对象的终端,属于目标对象的终端包括但不限于安装有目标对象的SIM(Subscriber Identity Module,用户身份识别模块)卡的终端和目标对象驾驶的车辆中安装的车载终端。
语音客户端能够利用目标对象的终端中安装的语音引擎为目标对象提供语音交互服务,也就是说,语音客户端能够识别目标对象发出的语音指令,进而利用安装的语音引擎执行与语音指令匹配的操作。例如,当目标对象说出“打开导航”的语音指令时,语音客户端能够识别目标对象的打开导航语音指令,进而利用安装的语音引擎执行打开导航的操作。
步骤202,响应于语音指令,基于目标语音引擎在至少一个关键场景下对应的资源占用数据,确定目标语音引擎对应的空闲资源量。
其中,目标语音引擎为目标对象的终端中安装的至少一个语音引擎,资源占用数据用于指示资源占用情况。
关键场景是指对CPU(Central Processing Unit,中央处理器)波动和语音引擎的性能有较大影响的针对性场景。本申请实施例对关键场景的类型以及数量不加以限定。在一种可能的实施方式中,至少一个关键场景包括安静环境场景、嘈杂环境场景、唤醒瞬间识别场景和特定语料识别场景中的至少一个。
在一种可能的实施方式中,安静环境场景和嘈杂环境场景用于指示检测到语音指令之前的场景。安静环境场景是指检测到语音指令之前处于声音干扰较小的场景(例如,车内无人说话且关窗的场景、深夜场景等),嘈杂唤醒环境是指检测到语音指令之前处于声音干扰较大的场景(例如,车内有人说话或开窗的场景、播放音乐的场景等)。
在一种可能的实施方式中,唤醒瞬间识别场景用于指示检测到语音指令后触发了孤立词识别模型或固定唤醒模型的场景。孤立词识别模型的场景用于从连续语音信号中对事先已知的孤立的词进行识别,例如,叮当叮当。固定唤醒模型的场景用于唤醒(启动)语音引擎,唤醒词与语音引擎的设置有关。不同的语音引擎通常对应不同的唤醒词,例如,AA语音引擎的唤醒词为“AA你好”,BB语音引擎的唤醒词为“BB你好””。
在一种可能的实施方式中,特定语料识别场景用于指示检测到语音指令后触发了连续识别模式的场景。特定语料预先注册到语言引擎中,特定语料由开发人员设定,也可以灵活添加和删除,示例性地,特定语料包括“打开音乐”、“打开导航”等。
资源占用数据用于指示资源占用情况,资源占用数据越大,占用的资源数量越多,剩余可供占用的资源数量越少,资源占用情况越差。资源占用数据用于表示语音引擎对终端资源的占用情况,示例性地,资源占用数据用于表示语音引擎对CPU资源的占用情况。
目标语音引擎在任一关键场景下对应的资源占用数据用于衡量目标语音引擎在任一关键场景下占用的资源数量的多少。在一种可能的实施方式中,目标语音引擎在任一关键场景下对应的资源占用数据可以用目标语音引擎在任一关键场景下对总资源的占用比率来表示。
在一种可能的实施方式中,响应于语音指令,基于目标语音引擎在至少一个关键场景下分别对应的资源占用数据,确定目标语音引擎对应的空闲资源量的过程为:响应于语音指令,获取目标语音引擎在至少一个关键场景下对应的资源未占用数据;对于至少一个关键场景中的任一关键场景,将目标语音引擎在任一关键场景下对应的使用权重和目标语音引擎在任一关键场景下对应的资源未占用数据的乘积作为任一关键场景对应的子参数;基于至少一个关键场景分别对应的子参数,确定目标语音引擎对应的空闲资源量。
在得到至少一个关键场景分别对应的子参数后,将至少一个关键场景分别对应的子参数进行加和运算,得到目标语音引擎对应的空闲资源量。
示例性地,假设至少一个关键场景包括安静环境场景、嘈杂环境场景、唤醒瞬间识别场景和特定语料识别场景,目标语音引擎对应的空闲资源量可以基于下述公式1确定:
F=x1*(1-yl)+x2*(1-y2)+x3*(1-y3)+x4*(1-y4) (公式1)
其中,F表示目标语音引擎对应的空闲资源量;x1、x2、x3和x4表示目标语音引擎在安静环境场景下、嘈杂环境场景下、唤醒瞬间识别场景下和特定语料识别场景下分别对应的使用权重;y1、y2、y3和y4表示目标语音引擎在安静环境场景下、嘈杂环境场景下、唤醒瞬间识别场景下和特定语料识别场景下分别对应的资源占用比率;(1-y1)、(1-y2)、(1-y3)和(1-y4)表示目标语音引擎在安静环境场景下、嘈杂环境场景下、唤醒瞬间识别场景下和特定语料识别场景下分别对应的资源未占用数据(用比率表示)。
在一种可能的实施方式中,响应于语音指令,获取目标语音引擎在至少一个关键场景下对应的资源未占用数据的过程为:响应于语音指令,触发对语音指令的语音端点检测;根据语音端点检测的结果获取目标语音引擎在所属关键场景下对应的资源占用数据;基于目标语音引擎在所属关键场景下对应的资源占用数据,获取目标语音引擎在所属关键场景下对应的资源未占用数据。
在一种可能的实施方式中,目标语音引擎在检测到语音指令之后会触发VAD(Voice Activity Detection,语音端点检测)技术对语音指令进行识别处理,VAD能够从一段语音信号中准确地找出语音信号的起始点和结束点。示例性地,通过VAD检测出语音指令音频的起始位置和结束位置可以分别记为vadStart(起始位置)和vadEnd(结束位置),将位于vadStart和vadEnd之间的音频作为语音指令音频,将位于vadStart之前的一段时间的音频作为环境音频,位于vadStart之前的一段时间的时长可根据经验设置,例如,vadStart之前的5秒音频作为环境音频。
在一种可能的实施方式中,环境音频用于判断在目标对象在发出语音指令之前所处的环境是安静环境还是嘈杂环境。示例性地,至少一个关键场景包括安静环境场景、嘈杂环境场景、唤醒瞬间识别场景和特定语料识别场景。VAD技术能够根据环境音频的信噪比和能量幅值来判断环境场景是安静还是嘈杂,若环境音频中的信噪比和能量幅值低于设定阈值,则确定环境音频对应的环境场景为安静环境场景;若环境音频中的信噪比和能量幅值等于或超过设定阈值,则确定环境音频对应的环境场景为嘈杂环境场景。
其中,信噪比表示信号音与噪声的比值,信噪比越大,混在信号里的噪声越小;能量幅值表示信号的最大音量。可选地,设定阈值可以根据经验设置,也可以根据应用场景灵活调整。
在一种可能的实施方式中,语音指令音频用于判断目标对象发出语音指令之后所触发的识别场景。示例性地,至少一个关键场景包括安静环境场景、嘈杂环境场景、唤醒瞬间识别场景和特定语料识别场景。VAD技术能够根据语音指令音频来触发不同的应用场景,若语音指令音频触发了孤立词识别模型或固定唤醒模型,则确定语音指令音频对应的识别场景为唤醒瞬间识别场景;若语音指令音频触发了连续识别模型,则确定语音指令音频对应的识别场景为特定语料识别场景。
在一种可能的实施方式中,在VAD检测之后,目标语音引擎根据VAD检测结果判断出该语音指令所属关键场景,并记录对应所属关键场景下的CPU占用情况,将该CPU占用情况作为目标语音引擎在所属关键场景下对应的资源占用数据。示例性地,目标语音引擎在关键场景下的CPU占用情况用比率表示,当检测到该语音指令的指令环境场景为安静环境场景,则此时记录的CPU占用情况为安静环境场景下的资源占用数据,即y1;当检测到该语音指令的指令环境场景为嘈杂环境场景,则此时记录的CPU占用情况为嘈杂环境场景下的资源占用数据,即y2;当检测到该语音指令的识别环境场景为唤醒瞬间环境场景,则此时记录的CPU占用情况为唤醒瞬间场景下的资源占用数据,即y3;当检测到该语音指令的识别环境场景为特定语料识别场景,则此时记录的CPU占用情况为特定语料识别场景下的资源占用数据,即y4。
根据目标语音引擎在任一关键场景下对应的资源占用数据,能够确定目标语音引擎在任一关键场景下对应的资源未占用数据。
在一种可能的实施方式中,对于目标语音引擎在任一关键场景下对应的资源占用数据用目标语音引擎在任一关键场景下对总资源的占用比率来表示的情况,基于目标语音引擎在任一关键场景下对应的资源占用数据,确定目标语音引擎在任一关键场景下对应的资源未占用数据的方式为:将数值1与目标语音引擎在任一关键场景下对总资源的占用比率的差值,作为目标语音引擎在任一关键场景下对应的资源未占用数据。此时,目标语音引擎在任一关键场景下对应的资源未占用数据同样用比率的形式进行表示。
确定目标语音引擎对应的空闲资源量之前,需要先获取目标语音引擎在至少一个关键场景下对应的使用权重。
目标语音引擎在任一关键场景下对应的使用权重用于衡量目标语音引擎在任一关键场景下被使用的频率的高低。使用权重越大,说明目标语音引擎在任一关键场景下的被使用的频率越高。示例性地,每个用户的习惯不同,相对来说自身的车机CPU环境也不同,比如用户A喜欢导航的时候听音乐并使用语音助手,此时多个应用在后台的CPU占比会比较大,那么用户A在嘈杂环境下使用语音助手的权重比例较高;用户B很少听音乐或使用导航,且不经常使用语音助手,那么用户B在安静环境下使用语音助手的权重比例较高。也就是说,用户B的车机CPU资源环境会相对好一点,相应的其偶尔在嘈杂环境下使用语音助手的权重比例就会低一些,与其对应的其嘈杂环境下的CPU占比对结果比重的影响较低。
目标语音引擎在任一关键场景下对应的使用权重越大说明目标对象越倾向于在任一关键场景下使用该目标语音引擎,目标语音引擎在任一关键场景下对应的资源未占用数据越大,说明该目标语音引擎在该任一关键场景下越能够保持终端性能的稳定和流畅。因此,将目标语音引擎在任一关键场景下对应的使用权重和目标语音引擎在任一关键场景下对应的资源未占用数据的乘积作为任一关键场景对应的子参数。
目标语音引擎在至少一个关键场景下对应的使用权重的确定过程由目标对象的终端执行时,目标对象的终端实时确定目标语音引擎在至少一个关键场景下对应的使用权重,或者从本地提取预先确定的目标语音引擎在至少一个关键场景下对应的使用权重。本申请实施例以目标语音引擎在至少一个关键场景下对应的使用权重的确定过程由目标对象的终端执行为例进行说明。
在一种可能的实施方式中,确定目标语音引擎在至少一个关键场景下对应的使用权重包括以下步骤2021至步骤2022。
步骤2021,获取目标语音引擎的历史记录信息。
目标语音引擎的历史记录信息是指目标语音引擎在历史为目标对象提供语音交互服务的过程中产生的相关信息。目标语音引擎的历史记录信息可以存储在服务器中,以节省目标对象的终端的存储,目标对象的终端在需要使用目标语音引擎的历史记录信息时,再从服务器获取目标语音引擎的历史记录信息。
步骤2022:基于历史记录信息,确定目标语音引擎在至少一个关键场景下对应的使用权重。
在一种可能的实施方式中,任一条历史记录信息包括语音指令音频和环境音频。语音指令音频是指目标对象使用语音助手发出的指令音频,根据语音识别的结果可触发孤立词识别模型、固定唤醒模型或连续识别模型等场景。环境音频是指在语音指令音频之前的一段时间内采集的音频。
在一种可能的实施方式中,基于历史记录信息,确定目标语音引擎在至少一个关键场景下分别对应的使用权重过程包括以下步骤2022A至步骤2022B。
步骤2022A:基于至少一条历史记录,确定目标语音引擎在至少一个关键场景下对应的使用次数。
在一种可能的实施方式中,至少一个关键场景包括安静环境场景、嘈杂环境场景、唤醒瞬间识别场景和特定语料识别场景。基于至少一条历史记录,确定目标语音引擎在至少一个关键场景下分别对应的使用次数的过程包括以下步骤a至步骤c。
步骤a:对于至少一条历史记录中的任一条历史记录信息,对任一条历史记录信息中的环境音频进行识别处理,确定环境音频对应的环境场景;对任一条历史记录信息中的语音指令音频进行识别处理,确定语音指令音频对应的识别场景。
在一种可能的实施方式中,对任一条历史记录信息中的环境音频进行识别处理,确定环境音频对应的环境场景的方式为:根据环境音频的信噪比和能量幅值来判断环境场景是安静还是嘈杂,若环境音频中的信噪比和能量幅值低于设定阈值,则确定环境音频对应的环境场景为安静环境场景;若环境音频中的信噪比和能量幅值等于或超过设定阈值,则确定环境音频对应的环境场景为嘈杂环境场景。
其中,信噪比表示信号音与噪声的比值,信噪比越大,混在信号里的噪声越小;能量幅值表示信号的最大音量。可选地,设定阈值可以根据经验设置,也可以根据应用场景灵活调整。
在一种可能的实施方式中,对任一条历史记录信息中的语音指令音频进行识别处理,确定语音指令音频对应的识别场景的方式为:根据语音指令音频VAD检测后的触发条件来判断识别场景是唤醒瞬间识别场景还是特定语料识别场景,若语音指令音频触发了孤立词识别模型或固定唤醒模型,则确定语音指令音频对应的识别场景为唤醒瞬间识别场景;若语音指令音频触发了连续识别模型,则确定语音指令音频对应的识别场景为特定语料识别场景。
步骤b:响应于环境音频对应的环境场景为安静环境场景,获取更新后的安静环境场景次数;响应于环境音频对应的环境场景为嘈杂环境场景,获取更新后的嘈杂环境场景次数;响应于语音指令音频对应的识别场景为唤醒瞬间识别场景,获取更新后的唤醒瞬间识别场景次数;响应于语音指令音频对应的识别场景为特定语料识别场景,获取更新后的特定语料识别场景次数。
在一种可能的实施方式中,获取更新后的安静环境场景次数:将当前的安静环境场景次数增加1。也就是说,每有一条历史记录信息中的环境音频对应的环境场景为安静环境场景,则将安静环境场景次数增加1。
在一种可能的实施方式中,获取更新后的嘈杂环境场景次数:将当前的嘈杂环境场景次数增加1。也就是说,每有一条历史记录信息中的环境音频对应的环境场景为嘈杂环境场景,则将嘈杂环境场景次数增加1。
在一种可能的实施方式中,获取更新后的唤醒瞬间识别场景次数:将当前的唤醒瞬间识别场景次数增加1。也就是说,每有一条历史记录信息中的语音指令音频对应的识别场景为唤醒瞬间识别场景,则将唤醒瞬间识别场景次数增加1。
在一种可能的实施方式中,获取更新后的特定语料识别场景次数:将当前的特定语料识别场景次数增加1。也就是说,每有一条历史记录信息中的语音指令音频对应的识别场景为特定语料识别场景,则将特定语料识别场景次数增加1。
需要说明的是,在未考虑任何历史记录信息之前,安静环境场景次数、嘈杂环境场景次数、唤醒瞬间识别场景次数和特定语料识别场景次数均具有初始值,初始值根据经验设置,示例性地,安静环境场景次数、嘈杂环境场景次数、唤醒瞬间识别场景次数和特定语料识别场景次数的初始值均为0。
步骤c:将遍历至少一条历史记录后得到的安静环境场景次数作为目标语音引擎在安静环境场景下对应的使用次数;将遍历至少一条历史记录后得到的嘈杂环境场景次数作为目标语音引擎在嘈杂环境场景下对应的使用次数;将遍历至少一条历史记录后得到的唤醒瞬间识别场景次数作为目标语音引擎在唤醒瞬间识别场景下对应的使用次数;将遍历至少一条历史记录后得到的特定语料识别场景次数作为目标语音引擎在特定语料识别场景下对应的使用次数。
以上步骤a至步骤c介绍了根据任一条历史记录信息,更新安静环境场景次数、嘈杂环境场景次数、唤醒瞬间识别场景和特定语料识别场景次数中的一个或多个的过程,根据步骤a至步骤c的方式遍历至少一条历史记录,即可得到最终的安静环境场景次数、嘈杂环境场景次数、唤醒瞬间识别场景和特定语料识别场景次数。由此,得到目标语音引擎在安静环境场景下、嘈杂环境场景下、唤醒瞬间识别场景下和特定语料识别场景下分别对应的使用次数。
步骤2022B:基于目标语音引擎在至少一个关键场景下对应的使用次数,确定目标语音引擎在至少一个关键场景下对应的使用权重。
在一种可能的实施方式中,对于至少一个关键场景包括安静环境场景、嘈杂环境场景、唤醒瞬间识别场景和特定语料识别场景的情况,基于目标语音引擎在至少一个关键场景下对应的使用次数,确定目标语音引擎在至少一个关键场景下对应的使用权重的实现过程包括以下两个步骤:
1、基于目标语音引擎在安静环境场景下、嘈杂环境场景下、唤醒瞬间识别场景下和特定语料识别场景下对应的使用次数,确定目标语音引擎对应的总使用次数。
统计目标语音引擎在安静环境场景下对应的使用次数、目标语音引擎在嘈杂环境场景下对应的使用次数、目标语音引擎在唤醒瞬间识别场景下对应的使用次数以及目标语音引擎在特定语料识别场景下对应的使用次数的总和,将该总和作为目标语音引擎对应的总使用次数。
2、将目标语音引擎在安静环境场景下对应的使用次数和总使用次数的比值作为目标语音引擎在安静环境场景下对应的使用权重;将目标语音引擎在嘈杂环境场景下对应的使用次数和总使用次数的比值作为目标语音引擎在嘈杂环境场景下对应的使用权重;将目标语音引擎在唤醒瞬间识别场景下对应的使用次数和总使用次数的比值作为目标语音引擎在唤醒瞬间识别场景下对应的使用权重;将目标语音引擎在特定语料识别场景下对应的使用次数和总使用次数的比值作为目标语音引擎在特定语料识别场景下对应的使用权重。由此,得到目标语音引擎在至少一个关键场景下对应的使用权重。
上述过程介绍了目标对象的终端确定目标语音引擎在至少一个关键场景下对应的使用权重的实现过程,该确定过程可以在需要确定目标语音引擎对应的空闲资源量的过程中实时执行,也可以在确定目标语音引擎对应的空闲资源量之前执行,本申请实施例对此不加以限定。无论确定时机为哪种,目标对象的终端均能够获取目标语音引擎在至少一个关键场景下对应的使用权重,进而确定该目标语音引擎对应的空闲资源量。
步骤203,根据目标语音引擎对应的空闲资源量与资源量阈值的关系进行语音音区切换。
在本公开实施例中,语音引擎的工作模式可以分为单音区模式和双音区模式。其中,该语音引擎在单音区模式下,对终端中资源量的消耗较少;该语音引擎在双音区模式下,具有根据声源定位做信号增强和抑制处理能力,此时对终端中资源量的消耗较大。
需要说明的是,在语音客户端初次启动时,默认为单音区工作模式,进行单通道的音频采集;在语音客户端非初次启动时,保持上次根据空闲资源量切换的语音音区模式进行工作。
在一种可能的实施方式中,在确定了目标语音引擎对应的空闲资源量的情况下,可以检测目标语音引擎对应的空闲资源量是否大于资源量阈值。若检测到该目标语音引擎对应的空闲资源量大于资源量阈值,说明在综合考虑目标对象在各个关键场景的使用情况下,终端当前的空闲资源量较多,具备体验双音区的性能条件,此时切换语音引擎的工作模式为双音区模式不会导致终端卡顿。若检测到该目标语音引擎对应的空闲资源量小于或等于资源量阈值,可以确定终端当前的空闲资源量较少,此时切换语音引擎的工作模式为单音区模式防止终端卡顿对系统造成的负担。
其中,该资源量阈值可以为预先存储的固定数值。在一种可能的实施方式中,资源量阈值可根据经验设定,当目标语音引擎在任一关键场景下对应的资源未占用数据用比率的形式进行表示时,示例性地,可设定资源量阈值为30%。
在一种可能的实施方式中,根据目标语音引擎对应的空闲资源量与资源量阈值的关系进行语音音区切换的过程为:若检测到目标语音引擎对应的空闲资源量大于资源量阈值,且此时语音客户端的工作模式为单音区模式,则切换为双音区模式;若检测到目标语音引擎对应的空闲资源量大于资源量阈值,且此时语音客户端的工作模式为双音区模式,则保持为双音区模式不变;若检测到目标语音引擎对应的空闲资源量小于或等于资源量阈值,且此时语音客户端的工作模式为单音区模式,则保持为单音区模式不变;若检测到目标语音引擎对应的空闲资源量小于或等于资源量阈值,且此时语音客户端的工作模式为双音区模式,则切换为单音区模式。
在本申请实施例中,目标语音引擎的单双音区动态切换既考虑目标对象的使用习惯,又考虑语音引擎的资源占用情况,此种方式在综合考虑多方面信息的情况下确定的最优的语音引擎工作模式,能够增强语音引擎的可使用性和流畅度。此外,优化语音引擎的场景化体验,能够避免资源紧张状态下,语音引擎的卡顿对终端系统造成的负担。
在不同的应用时刻,目标语音引擎在至少一个关键场景下对应的数据不同,目标语音引擎对应的空闲资源量也不同。因此,在不同的应用时刻,最终选择的目标语音引擎工作模式也不同。也就是说,目标语音引擎切换工作模式的过程为动态的过程,有利于及时调整目标语音引擎的单双音区工作模式,以做出当前综合性能最优的语音引擎工作模式为目标对象提供语音交互服务。
在本申请实施例中,在目标语音引擎工作模式切换的过程中,考虑目标语音引擎在至少一个关键场景下的资源占用数据,根据目标对象在至少一个关键场景下的使用权重,确定目标语音引擎对应的空闲资源量,进而将该空闲资源量与资源量阈值进行比较,动态切换目标语音引擎的单双音区工作模式。在上述过程中,由于能够根据资源占用数据以及其当前的工作模式动态调整其单双音区工作模式,因此提高了语音模式控制的灵活性,从而增强了产品的可使用性和流畅度。
参见图3,本申请实施例提供了一种语音音区切换装置,该装置包括:
接收模块301,用于接收目标对象发出的语音指令;
第一确定模块302,用于响应于语音指令,基于目标语音引擎在至少一个关键场景下分别对应的资源占用数据,确定目标语音引擎对应的空闲资源量,目标语音引擎为目标对象的语音客户端对应的语音引擎;
切换模块303,用于根据目标语音引擎对应的空闲资源量与资源量阈值的关系进行语音音区切换。
在一种可能的实施方式中,第一确定模块302,用于响应于语音指令,获取目标语音引擎在至少一个关键场景下分别对应的资源未占用数据;
对于至少一个关键场景中的任一关键场景,根据目标语音引擎在任一关键场景下对应的使用权重和目标语音引擎在任一关键场景下对应的资源未占用数据,获取任一关键场景对应的子参数;
基于至少一个关键场景分别对应的子参数,确定目标语音引擎对应的空闲资源量。
在一种可能的实施方式中,第一确定模块302,用于响应于语音指令,触发对语音指令的语音端点检测;
根据语音端点检测的结果获取目标语音引擎在至少一个关键场景下对应的资源占用数据;
基于目标语音引擎在至少一个关键场景下对应的资源占用数据,获取目标语音引擎在至少一个关键场景下对应的资源未占用数据。
在一种可能的实施方式中,参见图4,该装置还包括:
获取模块304,用于获取目标语音引擎的历史记录信息,历史记录信息包括目标语音引擎在至少一个关键场景下产生的至少一条历史记录;
第二确定模块305,用于基于历史记录信息,确定目标语音引擎在至少一个关键场景下对应的使用权重。
在一种可能的实施方式中,至少一个关键场景包括安静环境场景、嘈杂环境场景、唤醒瞬间识别场景和特定语料识别场景中的至少一个,至少一条历史记录包括语音指令音频和环境音频,第二确定模块305,用于基于至少一条历史记录,确定目标语音引擎在至少一个关键场景下对应的使用次数;
基于目标语音引擎在至少一个关键场景下对应的使用次数,确定目标语音引擎在至少一个关键场景下对应的使用权重。
在一种可能的实施方式中,第二确定模块305,用于对于至少一条历史记录中的任一条历史记录信息,对任一条历史记录信息中的环境音频进行识别处理,确定环境音频对应的环境场景;对任一条历史记录信息中的语音指令音频进行识别处理,确定语音指令音频对应的识别场景;
响应于环境音频对应的环境场景为安静环境场景,获取更新后的安静环境场景次数;响应于环境音频对应的环境场景为嘈杂环境场景,获取更新后的嘈杂环境场景次数;响应于语音指令音频对应的识别场景为唤醒瞬间识别场景,获取更新后的唤醒瞬间识别场景次数;响应于语音指令音频对应的识别场景为特定语料识别场景,获取更新后的特定语料识别场景次数;
将遍历至少一条历史记录后得到的安静环境场景次数作为目标语音引擎在安静环境场景下对应的使用次数;将遍历至少一条历史记录后得到的嘈杂环境场景次数作为目标语音引擎在嘈杂环境场景下对应的使用次数;将遍历至少一条历史记录后得到的唤醒瞬间识别场景次数作为目标语音引擎在唤醒瞬间识别场景下对应的使用次数;将遍历至少一条历史记录后得到的特定语料识别场景次数作为目标语音引擎在特定语料识别场景下对应的使用次数。
在一种可能的实施方式中,第二确定模块305,用于基于目标语音引擎在安静环境场景下、嘈杂环境场景下、唤醒瞬间识别场景下和特定语料识别场景下对应的使用次数,确定目标语音引擎对应的总使用次数;
将目标语音引擎在安静环境场景下对应的使用次数和总使用次数的比值作为目标语音引擎在安静环境场景下对应的使用权重;将目标语音引擎在嘈杂环境场景下对应的使用次数和总使用次数的比值作为目标语音引擎在嘈杂环境场景下对应的使用权重;将目标语音引擎在唤醒瞬间识别场景下对应的使用次数和总使用次数的比值作为目标语音引擎在唤醒瞬间识别场景下对应的使用权重;将目标语音引擎在特定语料识别场景下对应的使用次数和总使用次数的比值作为目标语音引擎在特定语料识别场景下对应的使用权重。
在一种可能的实施方式中,第一确定模块302,用于将至少一个关键场景分别对应的子参数进行加和运算,得到目标语音引擎对应的空闲资源量。
在一种可能的实施方式中,资源量阈值为预先存储的固定数值;切换模块303,用于若目标语音引擎对应的空闲资源量大于资源量阈值,且语音客户端的工作模式为单音区模式,则切换语音客户端的工作模式为双音区模式;
若目标语音引擎对应的空闲资源量大于资源量阈值,且语音客户端的工作模式为双音区模式,则保持语音客户端的工作模式为双音区模式不变;
若目标语音引擎对应的空闲资源量小于或等于资源量阈值,且语音客户端的工作模式为单音区模式,则保持语音客户端的工作模式为单音区模式不变;
若目标语音引擎对应的空闲资源量小于或等于资源量阈值,且语音客户端的工作模式为双音区模式,则切换语音客户端的工作模式为单音区模式。
在本申请实施例中,在目标语音引擎工作模式切换的过程中,考虑目标语音引擎在至少一个关键场景下的资源占用数据,根据目标对象在至少一个关键场景下的使用权重,确定目标语音引擎对应的空闲资源量,进而将该空闲资源量与资源量阈值进行比较,动态切换目标语音引擎的单双音区工作模式。在上述过程中,由于能够根据资源占用数据以及其当前的工作模式动态调整其单双音区工作模式,因此提高了语音模式控制的灵活性,从而增强了产品的可使用性和流畅度。
应理解的是,上述实施例提供的装置在实现其功能时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的装置与方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
在示例性实施例中,还提供了一种计算机设备,该计算机设备包括处理器和存储器,该存储器中存储有至少一条程序代码。该至少一条程序代码由一个或者一个以上处理器加载并执行,以实现上述任一种语音音区切换方法。
在示例性实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有至少一条程序代码,该至少一条程序代码由计算机设备的处理器加载并执行,以实现上述任一种语音音区切换方法。
可选地,上述计算机可读存储介质可以是只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、只读光盘(Compact Disc Read-OnlyMemory,CD-ROM)、磁带、软盘和光数据存储设备等。
在示例性实施例中,还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述任一种语音音区切换方法。
以上所述仅为本申请的可选实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (18)
1.一种语音音区切换方法,其特征在于,所述方法包括:
接收目标对象发出的语音指令;
响应于所述语音指令,获取目标语音引擎在至少一个关键场景下分别对应的资源未占用数据,所述目标语音引擎为所述目标对象的语音客户端对应的语音引擎,所述至少一个关键场景包括安静环境场景、嘈杂环境场景、唤醒瞬间识别场景和特定语料识别场景中的至少一个;
对于所述至少一个关键场景中的任一关键场景,根据所述目标语音引擎在所述任一关键场景下对应的使用权重和所述目标语音引擎在所述任一关键场景下对应的资源未占用数据,获取所述任一关键场景对应的子参数;
基于所述至少一个关键场景分别对应的子参数,确定所述目标语音引擎对应的空闲资源量;
根据所述目标语音引擎对应的空闲资源量与资源量阈值的关系进行语音音区切换。
2.根据权利要求1所述的方法,其特征在于,所述响应于所述语音指令,获取所述目标语音引擎在至少一个关键场景下分别对应的资源未占用数据,包括:
响应于所述语音指令,触发对所述语音指令的语音端点检测;
根据所述语音端点检测的结果获取所述目标语音引擎在所述至少一个关键场景下对应的资源占用数据;
基于所述目标语音引擎在所述至少一个关键场景下对应的资源占用数据,获取目标语音引擎在所述至少一个关键场景下对应的资源未占用数据。
3.根据权利要求1所述的方法,其特征在于,所述对于所述至少一个关键场景中的任一关键场景,将所述目标语音引擎在所述任一关键场景下对应的使用权重和所述目标语音引擎在所述任一关键场景下对应的资源未占用数据的乘积作为所述任一关键场景对应的子参数之前,所述方法还包括:
获取所述目标语音引擎的历史记录信息,所述历史记录信息包括所述目标语音引擎在所述至少一个关键场景下产生的至少一条历史记录;
基于所述历史记录信息,确定所述目标语音引擎在所述至少一个关键场景下对应的使用权重。
4.根据权利要求3所述的方法,其特征在于,所述基于所述历史记录信息,确定所述目标语音引擎在所述至少一个关键场景下对应的使用权重,包括:
基于所述至少一条历史记录,确定所述目标语音引擎在所述至少一个关键场景下对应的使用次数;
基于所述目标语音引擎在所述至少一个关键场景下对应的使用次数,确定所述目标语音引擎在所述至少一个关键场景下对应的使用权重;
所述至少一条历史记录包括语音指令音频和环境音频。
5.根据权利要求4所述的方法,其特征在于,所述基于所述至少一条历史记录,确定所述目标语音引擎在所述至少一个关键场景下对应的使用次数,包括:
对于所述至少一条历史记录中的任一条历史记录信息,对所述任一条历史记录信息中的环境音频进行识别处理,确定所述环境音频对应的环境场景;对所述任一条历史记录信息中的语音指令音频进行识别处理,确定所述语音指令音频对应的识别场景;
响应于所述环境音频对应的环境场景为安静环境场景,获取更新后的安静环境场景次数;响应于所述环境音频对应的环境场景为嘈杂环境场景,获取更新后的嘈杂环境场景次数;响应于所述语音指令音频对应的识别场景为唤醒瞬间识别场景,获取更新后的唤醒瞬间识别场景次数;响应于所述语音指令音频对应的识别场景为特定语料识别场景,获取更新后的特定语料识别场景次数;
将遍历所述至少一条历史记录后得到的安静环境场景次数作为所述目标语音引擎在安静环境场景下对应的使用次数;将遍历所述至少一条历史记录后得到的嘈杂环境场景次数作为所述目标语音引擎在嘈杂环境场景下对应的使用次数;将遍历所述至少一条历史记录后得到的唤醒瞬间识别场景次数作为所述目标语音引擎在唤醒瞬间识别场景下对应的使用次数;将遍历所述至少一条历史记录后得到的特定语料识别场景次数作为所述目标语音引擎在特定语料识别场景下对应的使用次数。
6.根据权利要求4所述的方法,其特征在于,所述基于目标语音引擎在所述至少一个关键场景下对应的使用次数,确定所述目标语音引擎在所述至少一个关键场景下对应的使用权重,包括:
基于所述目标语音引擎在安静环境场景下、嘈杂环境场景下、唤醒瞬间识别场景下和特定语料识别场景下对应的使用次数,确定所述目标语音引擎对应的总使用次数;
将所述目标语音引擎在安静环境场景下对应的使用次数和所述总使用次数的比值作为所述目标语音引擎在安静环境场景下对应的使用权重;将所述目标语音引擎在嘈杂环境场景下对应的使用次数和所述总使用次数的比值作为所述目标语音引擎在嘈杂环境场景下对应的使用权重;将所述目标语音引擎在唤醒瞬间识别场景下对应的使用次数和所述总使用次数的比值作为所述目标语音引擎在唤醒瞬间识别场景下对应的使用权重;将所述目标语音引擎在特定语料识别场景下对应的使用次数和所述总使用次数的比值作为所述目标语音引擎在特定语料识别场景下对应的使用权重。
7.根据权利要求1所述的方法,其特征在于,所述基于所述至少一个关键场景分别对应的子参数,确定所述目标语音引擎对应的空闲资源量,包括:
将所述至少一个关键场景分别对应的子参数进行加和运算,得到所述目标语音引擎对应的空闲资源量。
8.根据权利要求1-7任一项所述的方法,其特征在于,所述资源量阈值为预先存储的固定数值;
所述根据所述目标语音引擎对应的空闲资源量与资源量阈值的关系进行语音音区切换,包括:
若所述目标语音引擎对应的空闲资源量大于所述资源量阈值,且所述语音客户端的工作模式为单音区模式,则切换所述语音客户端的工作模式为双音区模式;
若所述目标语音引擎对应的空闲资源量大于所述资源量阈值,且所述语音客户端的工作模式为双音区模式,则保持所述语音客户端的工作模式为双音区模式不变;
若所述目标语音引擎对应的空闲资源量小于或等于所述资源量阈值,且所述语音客户端的工作模式为单音区模式,则保持所述语音客户端的工作模式为单音区模式不变;
若所述目标语音引擎对应的空闲资源量小于或等于所述资源量阈值,且所述语音客户端的工作模式为双音区模式,则切换所述语音客户端的工作模式为单音区模式。
9.一种语音音区切换装置,其特征在于,所述装置包括:
接收模块,用于接收目标对象发出的语音指令;
第一确定模块,用于响应于所述语音指令,获取目标语音引擎在至少一个关键场景下分别对应的资源未占用数据,所述目标语音引擎为所述目标对象的语音客户端对应的语音引擎,所述至少一个关键场景包括安静环境场景、嘈杂环境场景、唤醒瞬间识别场景和特定语料识别场景中的至少一个;对于所述至少一个关键场景中的任一关键场景,根据所述目标语音引擎在所述任一关键场景下对应的使用权重和所述目标语音引擎在所述任一关键场景下对应的资源未占用数据,获取所述任一关键场景对应的子参数;基于所述至少一个关键场景分别对应的子参数,确定所述目标语音引擎对应的空闲资源量;
切换模块,用于根据所述目标语音引擎对应的空闲资源量与资源量阈值的关系进行语音音区切换。
10.根据权利要求9所述的装置,其特征在于,所述第一确定模块,用于响应于所述语音指令,触发对所述语音指令的语音端点检测;根据所述语音端点检测的结果获取所述目标语音引擎在所述至少一个关键场景下对应的资源占用数据;基于所述目标语音引擎在所述至少一个关键场景下对应的资源占用数据,获取目标语音引擎在所述至少一个关键场景下对应的资源未占用数据。
11.根据权利要求9所述的装置,其特征在于,所述装置还包括:
获取模块,用于获取所述目标语音引擎的历史记录信息,所述历史记录信息包括所述目标语音引擎在所述至少一个关键场景下产生的至少一条历史记录;
第二确定模块,用于基于所述历史记录信息,确定所述目标语音引擎在所述至少一个关键场景下对应的使用权重。
12.根据权利要求11所述的装置,其特征在于,所述第二确定模块用于基于所述至少一条历史记录,确定所述目标语音引擎在所述至少一个关键场景下对应的使用次数;基于所述目标语音引擎在所述至少一个关键场景下对应的使用次数,确定所述目标语音引擎在所述至少一个关键场景下对应的使用权重;所述至少一条历史记录包括语音指令音频和环境音频。
13.根据权利要求12所述的装置,其特征在于,所述第二确定模块用于对于所述至少一条历史记录中的任一条历史记录信息,对所述任一条历史记录信息中的环境音频进行识别处理,确定所述环境音频对应的环境场景;对所述任一条历史记录信息中的语音指令音频进行识别处理,确定所述语音指令音频对应的识别场景;响应于所述环境音频对应的环境场景为安静环境场景,获取更新后的安静环境场景次数;响应于所述环境音频对应的环境场景为嘈杂环境场景,获取更新后的嘈杂环境场景次数;响应于所述语音指令音频对应的识别场景为唤醒瞬间识别场景,获取更新后的唤醒瞬间识别场景次数;响应于所述语音指令音频对应的识别场景为特定语料识别场景,获取更新后的特定语料识别场景次数;将遍历所述至少一条历史记录后得到的安静环境场景次数作为所述目标语音引擎在安静环境场景下对应的使用次数;将遍历所述至少一条历史记录后得到的嘈杂环境场景次数作为所述目标语音引擎在嘈杂环境场景下对应的使用次数;将遍历所述至少一条历史记录后得到的唤醒瞬间识别场景次数作为所述目标语音引擎在唤醒瞬间识别场景下对应的使用次数;将遍历所述至少一条历史记录后得到的特定语料识别场景次数作为所述目标语音引擎在特定语料识别场景下对应的使用次数。
14.根据权利要求12所述的装置,其特征在于,所述第二确定模块用于基于所述目标语音引擎在安静环境场景下、嘈杂环境场景下、唤醒瞬间识别场景下和特定语料识别场景下对应的使用次数,确定所述目标语音引擎对应的总使用次数;将所述目标语音引擎在安静环境场景下对应的使用次数和所述总使用次数的比值作为所述目标语音引擎在安静环境场景下对应的使用权重;将所述目标语音引擎在嘈杂环境场景下对应的使用次数和所述总使用次数的比值作为所述目标语音引擎在嘈杂环境场景下对应的使用权重;将所述目标语音引擎在唤醒瞬间识别场景下对应的使用次数和所述总使用次数的比值作为所述目标语音引擎在唤醒瞬间识别场景下对应的使用权重;将所述目标语音引擎在特定语料识别场景下对应的使用次数和所述总使用次数的比值作为所述目标语音引擎在特定语料识别场景下对应的使用权重。
15.根据权利要求9所述的装置,其特征在于,所述第一确定模块用于将所述至少一个关键场景分别对应的子参数进行加和运算,得到所述目标语音引擎对应的空闲资源量。
16.根据权利要求9-15任一所述的装置,其特征在于,所述资源量阈值为预先存储的固定数值;所述切换模块用于,若所述目标语音引擎对应的空闲资源量大于所述资源量阈值,且所述语音客户端的工作模式为单音区模式,则切换所述语音客户端的工作模式为双音区模式;若所述目标语音引擎对应的空闲资源量大于所述资源量阈值,且所述语音客户端的工作模式为双音区模式,则保持所述语音客户端的工作模式为双音区模式不变;若所述目标语音引擎对应的空闲资源量小于或等于所述资源量阈值,且所述语音客户端的工作模式为单音区模式,则保持所述语音客户端的工作模式为单音区模式不变;若所述目标语音引擎对应的空闲资源量小于或等于所述资源量阈值,且所述语音客户端的工作模式为双音区模式,则切换所述语音客户端的工作模式为单音区模式。
17.一种计算机设备,其特征在于,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条程序代码,所述至少一条程序代码由所述处理器加载并执行,以实现如权利要求1至8任一所述的语音音区切换方法。
18.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有至少一条程序代码,所述至少一条程序代码由处理器加载并执行,以实现如权利要求1至8任一所述的语音音区切换方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011631703.6A CN112802471B (zh) | 2020-12-31 | 2020-12-31 | 语音音区切换方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011631703.6A CN112802471B (zh) | 2020-12-31 | 2020-12-31 | 语音音区切换方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112802471A CN112802471A (zh) | 2021-05-14 |
CN112802471B true CN112802471B (zh) | 2024-01-23 |
Family
ID=75808332
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011631703.6A Active CN112802471B (zh) | 2020-12-31 | 2020-12-31 | 语音音区切换方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112802471B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR970025051A (ko) * | 1995-10-27 | 1997-05-30 | 배순훈 | 음성다중 방송텔레비젼 수상기의 무음성구간중 주, 부음성자동전환장치 및 그 방법 |
CN101383150A (zh) * | 2008-08-19 | 2009-03-11 | 南京师范大学 | 语音软开关的控制方法及其在地理信息系统中的应用 |
EP3160150A1 (en) * | 2015-10-22 | 2017-04-26 | Samsung Electronics Co., Ltd. | Electronic device and method for executing function using speech recognition thereof |
WO2019016938A1 (ja) * | 2017-07-21 | 2019-01-24 | 三菱電機株式会社 | 音声認識装置及び音声認識方法 |
CN110310633A (zh) * | 2019-05-23 | 2019-10-08 | 北京百度网讯科技有限公司 | 多音区语音识别方法、终端设备和存储介质 |
US10573312B1 (en) * | 2018-12-04 | 2020-02-25 | Sorenson Ip Holdings, Llc | Transcription generation from multiple speech recognition systems |
CN111862972A (zh) * | 2020-07-08 | 2020-10-30 | 北京梧桐车联科技有限责任公司 | 语音交互服务方法、装置、设备及存储介质 |
-
2020
- 2020-12-31 CN CN202011631703.6A patent/CN112802471B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR970025051A (ko) * | 1995-10-27 | 1997-05-30 | 배순훈 | 음성다중 방송텔레비젼 수상기의 무음성구간중 주, 부음성자동전환장치 및 그 방법 |
CN101383150A (zh) * | 2008-08-19 | 2009-03-11 | 南京师范大学 | 语音软开关的控制方法及其在地理信息系统中的应用 |
EP3160150A1 (en) * | 2015-10-22 | 2017-04-26 | Samsung Electronics Co., Ltd. | Electronic device and method for executing function using speech recognition thereof |
WO2019016938A1 (ja) * | 2017-07-21 | 2019-01-24 | 三菱電機株式会社 | 音声認識装置及び音声認識方法 |
US10573312B1 (en) * | 2018-12-04 | 2020-02-25 | Sorenson Ip Holdings, Llc | Transcription generation from multiple speech recognition systems |
CN110310633A (zh) * | 2019-05-23 | 2019-10-08 | 北京百度网讯科技有限公司 | 多音区语音识别方法、终端设备和存储介质 |
CN111862972A (zh) * | 2020-07-08 | 2020-10-30 | 北京梧桐车联科技有限责任公司 | 语音交互服务方法、装置、设备及存储介质 |
Non-Patent Citations (1)
Title |
---|
蜂窝状无线网集成语音数据业务的资源分配模型;郑羽;陈广柱;;安庆师范大学学报(自然科学版)(04);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN112802471A (zh) | 2021-05-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107147618B (zh) | 一种用户注册方法、装置及电子设备 | |
CN112863547B (zh) | 虚拟资源转移处理方法、装置、存储介质及计算机设备 | |
CN108108142A (zh) | 语音信息处理方法、装置、终端设备及存储介质 | |
CN109903773B (zh) | 音频处理方法、装置及存储介质 | |
CN107220532B (zh) | 用于通过声音识别用户身份的方法及设备 | |
CN109947497B (zh) | 应用程序预加载方法、装置、存储介质及移动终端 | |
CN109712624A (zh) | 一种多语音助手协调方法、装置和系统 | |
CN108449493B (zh) | 语音通话数据处理方法、装置、存储介质及移动终端 | |
CN112201246B (zh) | 基于语音的智能控制方法、装置、电子设备及存储介质 | |
CN110070857B (zh) | 语音唤醒模型的模型参数调整方法及装置、语音设备 | |
CN108922553A (zh) | 用于音箱设备的波达方向估计方法及系统 | |
CN109309751A (zh) | 语音记录方法、电子设备及存储介质 | |
CN110544468B (zh) | 应用唤醒方法、装置、存储介质及电子设备 | |
CN111722696B (zh) | 用于低功耗设备的语音数据处理方法和装置 | |
CN109360551B (zh) | 一种语音识别方法及装置 | |
JP7436077B2 (ja) | スキルの音声ウェイクアップ方法および装置 | |
CN108600559B (zh) | 静音模式的控制方法、装置、存储介质及电子设备 | |
CN117059068A (zh) | 语音处理方法、装置、存储介质及计算机设备 | |
CN113889091A (zh) | 语音识别方法、装置、计算机可读存储介质及电子设备 | |
CN113225624A (zh) | 一种语音识别耗时确定方法和装置 | |
CN112802471B (zh) | 语音音区切换方法、装置、设备及存储介质 | |
CN112233676A (zh) | 智能设备唤醒方法、装置、电子设备及存储介质 | |
CN112420043A (zh) | 基于语音的智能唤醒方法、装置、电子设备及存储介质 | |
CN115118820A (zh) | 一种通话处理方法、装置、计算机设备及存储介质 | |
CN107154996B (zh) | 来电拦截方法、装置、存储介质及终端 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |