CN111862972A - 语音交互服务方法、装置、设备及存储介质 - Google Patents
语音交互服务方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN111862972A CN111862972A CN202010652021.7A CN202010652021A CN111862972A CN 111862972 A CN111862972 A CN 111862972A CN 202010652021 A CN202010652021 A CN 202010652021A CN 111862972 A CN111862972 A CN 111862972A
- Authority
- CN
- China
- Prior art keywords
- target
- awakening
- candidate
- scene
- engine
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 112
- 230000003993 interaction Effects 0.000 title claims abstract description 87
- 238000012545 processing Methods 0.000 claims description 18
- 230000008569 process Effects 0.000 abstract description 68
- 230000000694 effects Effects 0.000 abstract description 11
- 230000002093 peripheral effect Effects 0.000 description 10
- 230000001133 acceleration Effects 0.000 description 9
- 238000010586 diagram Methods 0.000 description 8
- 238000004891 communication Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 7
- 238000004590 computer program Methods 0.000 description 6
- 230000003287 optical effect Effects 0.000 description 5
- 230000002618 waking effect Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 239000000463 material Substances 0.000 description 4
- 239000000284 extract Substances 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 239000000919 ceramic Substances 0.000 description 2
- 230000000903 blocking effect Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000006641 stabilisation Effects 0.000 description 1
- 238000011105 stabilization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/225—Feedback of the input speech
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了语音交互服务方法、装置、设备及存储介质,属于计算机技术领域。方法包括:对于至少一个候选语音引擎中的任一候选语音引擎,基于任一候选语音引擎在至少一个目标应用场景下分别对应的目标资源数据,确定任一候选语音引擎对应的目标参数;在至少一个候选语音引擎分别对应的目标参数中确定满足资源占用性能条件的目标参数,将满足资源占用性能条件的目标参数对应的候选语音引擎作为目标语音引擎;调用目标语音引擎为目标对象提供语音交互服务。在选择语音引擎的过程中,考虑语音引擎在至少一个目标应用场景下的资源数据,有利于选择出资源占用性能较优的语音引擎,从而提高调用目标语音引擎为目标对象提供语音交互服务的服务效果。
Description
技术领域
本申请实施例涉及计算机技术领域,特别涉及一种语音交互服务方法、装置、设备及存储介质。
背景技术
语音助手是一类可以通过语音交互来实现查询与操作的应用程序,通过此类应用程序,可以大大提高操作终端的便利性。语音引擎是语音助手类应用程序的核心部分,语音助手通过语音引擎来完成与用户之间的语音交互。在终端安装了多个语音引擎的情况下,终端需要选择合适的语音引擎为用户提供语音交互服务,以提高用户的语音交互体验。
相关技术中,终端根据用户对安装的各个语音引擎的历史使用次数,从各个语音引擎中筛选出用户使用次数最多的语音引擎,调用该语音引擎为用户提供语音交互服务。在选择语音引擎的过程中仅考虑用户对各个语音引擎的历史使用次数,考虑的信息较局限,语音引擎的选择效果不佳,调用选择的语音引擎为用户提供语音交互服务的服务效果较差。
发明内容
本申请实施例提供了一种语音交互服务方法、装置、设备及存储介质,可用于提高语音交互服务的服务效果。所述技术方案如下:
一方面,本申请实施例提供了一种语音交互服务方法,所述方法包括:
对于至少一个候选语音引擎中的任一候选语音引擎,基于所述任一候选语音引擎在至少一个目标应用场景下分别对应的目标资源数据,确定所述任一候选语音引擎对应的目标参数,所述至少一个候选语音引擎为目标对象的终端中安装的至少一个语音引擎,所述目标资源数据用于指示资源占用性能;
在所述至少一个候选语音引擎分别对应的目标参数中确定满足资源占用性能条件的目标参数,将所述满足资源占用性能条件的目标参数对应的候选语音引擎作为所述目标对象对应的目标语音引擎;
调用所述目标语音引擎为所述目标对象提供语音交互服务。
在一种可能实现方式中,所述目标资源数据包括资源未占用数据,所述基于所述任一候选语音引擎在至少一个目标应用场景下分别对应的目标资源数据,确定所述任一候选语音引擎对应的目标参数,包括:
对于所述至少一个目标应用场景中的任一目标应用场景,将所述任一候选语音引擎在所述任一目标应用场景下对应的使用权重和所述任一候选语音引擎在所述任一目标应用场景下对应的资源未占用数据的乘积作为所述任一目标应用场景对应的子参数;
基于所述至少一个目标应用场景分别对应的子参数,确定所述任一候选语音引擎对应的目标参数;
所述在所述至少一个候选语音引擎分别对应的目标参数中确定满足资源占用性能条件的目标参数,包括:
在所述至少一个候选语音引擎分别对应的目标参数中确定最大的目标参数。
在一种可能实现方式中,所述将所述任一候选语音引擎在所述任一目标应用场景下对应的使用权重和所述任一候选语音引擎在所述任一目标应用场景下对应的资源未占用数据的乘积作为所述任一目标应用场景对应的子参数之前,所述方法还包括:
获取所述任一候选语音引擎的历史记录信息;
基于所述历史记录信息,确定所述任一候选语音引擎在至少一个目标应用场景下分别对应的使用权重以及所述任一候选语音引擎在至少一个目标应用场景下分别对应的资源占用数据;
基于所述任一候选语音引擎在所述至少一个目标应用场景下分别对应的资源占用数据,确定所述任一候选语音引擎在所述至少一个目标应用场景下分别对应的资源未占用数据。
在一种可能实现方式中,所述至少一个目标应用场景包括目标服务场景,所述历史记录信息包括所述任一候选语音引擎在所述目标服务场景下产生的至少一条服务记录信息;
所述基于所述历史记录信息,确定所述任一候选语音引擎在至少一个目标应用场景下分别对应的使用权重以及所述任一候选语音引擎在至少一个目标应用场景下分别对应的资源占用数据,包括:
基于所述至少一条服务记录信息,确定所述任一候选语音引擎在所述目标服务场景下对应的使用次数,确定所述任一候选语音引擎在所述目标服务场景下对应的资源占用数据;
基于所述任一候选语音引擎在所述目标服务场景下对应的使用次数,确定所述任一候选语音引擎在所述目标服务场景下对应的使用权重。
在一种可能实现方式中,所述至少一个目标应用场景包括至少一个目标唤醒场景,所述历史记录信息包括所述任一候选语音引擎在所述至少一个目标唤醒场景下产生的至少一条唤醒记录信息;
所述基于所述历史记录信息,确定所述任一候选语音引擎在至少一个目标应用场景下分别对应的使用权重以及所述任一候选语音引擎在至少一个目标应用场景下分别对应的资源占用数据,包括:
基于所述至少一条唤醒记录信息,确定所述任一候选语音引擎在所述至少一个目标唤醒场景下分别对应的使用次数,确定所述任一候选语音引擎在所述至少一个目标唤醒场景下分别对应的资源占用数据;
基于所述任一候选语音引擎在所述至少一个目标唤醒场景下分别对应的使用次数,确定所述任一候选语音引擎在所述至少一个目标唤醒场景下分别对应的使用权重。
在一种可能实现方式中,所述至少一个目标应用场景包括目标服务场景和至少一个目标唤醒场景,所述历史记录信息包括所述任一候选语音引擎在所述至少一个目标唤醒场景下产生的至少一条唤醒记录信息以及所述任一候选语音引擎在所述目标服务场景下产生的至少一条服务记录信息;
所述基于所述历史记录信息,确定所述任一候选语音引擎在至少一个目标应用场景下分别对应的使用权重以及所述任一候选语音引擎在至少一个目标应用场景下分别对应的资源占用数据,包括:
基于所述至少一条唤醒记录信息,确定所述任一候选语音引擎在所述至少一个目标唤醒场景下分别对应的使用次数,确定所述任一候选语音引擎在所述至少一个目标唤醒场景下分别对应的资源占用数据;
基于所述至少一条服务记录信息,确定所述任一候选语音引擎在所述目标服务场景下对应的使用次数,确定所述任一候选语音引擎在所述目标服务场景下对应的资源占用数据;
基于所述任一候选语音引擎在所述至少一个目标唤醒场景下分别对应的使用次数以及所述任一候选语音引擎在所述目标服务场景下对应的使用次数,确定所述任一候选语音引擎在所述至少一个目标唤醒场景下分别对应的使用权重;基于所述任一候选语音引擎在所述至少一个目标唤醒场景下分别对应的使用次数以及所述任一候选语音引擎在所述目标服务场景下对应的使用次数,确定所述任一候选语音引擎在所述目标服务场景下对应的使用权重。
在一种可能实现方式中,所述至少一个目标唤醒场景包括安静唤醒场景、嘈杂唤醒场景和首次唤醒场景,任一条唤醒记录信息包括唤醒环境音频和唤醒标志位;所述基于所述至少一条唤醒记录信息,确定所述任一候选语音引擎在所述至少一个目标唤醒场景下分别对应的使用次数,包括:
对于所述至少一条唤醒记录信息中的任一条唤醒记录信息,对所述任一条唤醒记录信息中的唤醒环境音频进行识别处理,确定所述唤醒环境音频对应的唤醒环境;
响应于所述唤醒环境音频对应的唤醒环境为安静环境且所述任一条唤醒记录信息中的唤醒标志位为指定标志位,获取更新后的安静唤醒次数和更新后的首次唤醒次数;
响应于所述唤醒环境音频对应的唤醒环境为嘈杂环境且所述任一条唤醒记录信息中的唤醒标志位为指定标志位,获取更新后的嘈杂唤醒次数和更新后的首次唤醒次数;
响应于所述唤醒环境音频对应的唤醒环境为安静环境且所述任一条唤醒记录信息中的唤醒标志位为非指定标志位,获取更新后的安静唤醒次数;
响应于所述唤醒环境音频对应的唤醒环境为嘈杂环境且所述任一条唤醒记录信息中的唤醒标志位为非指定标志位,获取更新后的嘈杂唤醒次数;
将遍历所述至少一条唤醒记录信息后得到的安静唤醒次数作为所述任一候选语音引擎在所述安静唤醒场景下对应的使用次数;将遍历所述至少一条唤醒记录信息后得到的嘈杂唤醒次数作为所述任一候选语音引擎在所述嘈杂唤醒场景下对应的使用次数;将遍历所述至少一条唤醒记录信息后得到的首次唤醒次数作为所述任一候选语音引擎在所述首次唤醒场景下对应的使用次数。
在一种可能实现方式中,所述任一条唤醒记录信息还包括第一回调信息和第二回调信息;所述确定所述任一候选语音引擎在所述至少一个目标唤醒场景下分别对应的资源占用数据,包括:
对于所述至少一条唤醒记录信息中的任一条唤醒记录信息,从所述任一条唤醒记录信息中的第一回调信息中解析出第一资源占用数据;
响应于所述任一条唤醒记录信息中的唤醒环境音频对应的唤醒环境为安静环境且所述任一条唤醒记录信息中的唤醒标志位为指定标志位,从所述任一条唤醒记录信息中的第二回调信息中解析出第二资源占用数据,将所述第一资源占用数据添加至安静唤醒数据集中,将所述第二资源占用数据添加至首次唤醒数据集中;
响应于所述任一条唤醒记录信息中的唤醒环境音频对应的唤醒环境为嘈杂环境且所述任一条唤醒记录信息中的唤醒标志位为指定标志位,从所述任一条唤醒记录信息中的第二回调信息中解析出第二资源占用数据,将所述第一资源占用数据添加至嘈杂唤醒数据集中,将所述第二资源占用数据添加至首次唤醒数据集中;
响应于所述任一条唤醒记录信息中的唤醒环境音频对应的唤醒环境为安静环境且所述任一条唤醒记录信息中的唤醒标志位为非指定标志位,将所述第一资源占用数据添加至安静唤醒数据集中;
响应于所述任一条唤醒记录信息中的唤醒环境音频对应的唤醒环境为嘈杂环境且所述任一条唤醒记录信息中的唤醒标志位为非指定标志位,将所述第一资源占用数据添加至嘈杂唤醒数据集中;
将遍历所述至少一条唤醒记录信息后得到的安静唤醒数据集中的各个资源占用数据的平均数据作为所述任一候选语音引擎在所述安静唤醒场景下对应的资源占用数据;将遍历所述至少一条唤醒记录信息后得到的嘈杂唤醒数据集中的各个资源占用数据的平均数据作为所述任一候选语音引擎在所述嘈杂唤醒场景下对应的资源占用数据;将遍历所述至少一条唤醒记录信息后得到的首次唤醒数据集中的各个资源占用数据的平均数据作为所述任一候选语音引擎在所述首次唤醒场景下对应的资源占用数据。
在一种可能实现方式中,任一条服务记录信息包括第三回调信息,所述基于所述至少一条服务记录信息,确定所述任一候选语音引擎在所述目标服务场景下对应的使用次数,确定所述任一候选语音引擎在所述目标服务场景下对应的资源占用数据,包括:
将所述至少一条服务记录信息的数量作为所述任一候选语音引擎在所述目标服务场景下对应的使用次数;
对于所述至少一条服务记录信息中的任一条服务记录信息,从所述任一条服务记录信息中的第三回调信息中解析出第三资源占用数据,将所述第三资源占用数据添加至目标服务数据集中;
将遍历所述至少一条服务记录信息后得到的目标服务数据集中的各个资源占用数据的平均数据作为所述任一候选语音引擎在所述目标服务场景下对应的资源占用数据。
在一种可能实现方式中,所述目标资源数据包括资源占用数据,所述任一候选语音引擎对应的目标参数基于所述任一候选语音引擎在至少一个目标应用场景下分别对应的资源占用数据确定;
所述在所述至少一个候选语音引擎分别对应的目标参数中确定满足资源占用性能条件的目标参数,包括:
在所述至少一个候选语音引擎分别对应的目标参数中确定最小的目标参数。
另一方面,提供了一种语音交互服务装置,所述装置包括:
第一确定模块,用于对于至少一个候选语音引擎中的任一候选语音引擎,基于所述任一候选语音引擎在至少一个目标应用场景下分别对应的目标资源数据,确定所述任一候选语音引擎对应的目标参数,所述至少一个候选语音引擎为目标对象的终端中安装的至少一个语音引擎,所述目标资源数据用于指示资源占用性能;
第二确定模块,用于在所述至少一个候选语音引擎分别对应的目标参数中确定满足资源占用性能条件的目标参数,将所述满足资源占用性能条件的目标参数对应的候选语音引擎作为所述目标对象对应的目标语音引擎;
服务模块,用于调用所述目标语音引擎为所述目标对象提供语音交互服务。
在一种可能实现方式中,所述目标资源数据包括资源未占用数据,所述第一确定模块,用于对于所述至少一个目标应用场景中的任一目标应用场景,将所述任一候选语音引擎在所述任一目标应用场景下对应的使用权重和所述任一候选语音引擎在所述任一目标应用场景下对应的资源未占用数据的乘积作为所述任一目标应用场景对应的子参数;基于所述至少一个目标应用场景分别对应的子参数,确定所述任一候选语音引擎对应的目标参数。
所述第二确定模块,用于在所述至少一个候选语音引擎分别对应的目标参数中确定最大的目标参数。
在一种可能实现方式中,所述装置还包括:
获取模块,用于获取所述任一候选语音引擎的历史记录信息;
第三确定模块,用于基于所述历史记录信息,确定所述任一候选语音引擎在至少一个目标应用场景下分别对应的使用权重以及所述任一候选语音引擎在至少一个目标应用场景下分别对应的资源占用数据;
第四确定模块,用于基于所述任一候选语音引擎在所述至少一个目标应用场景下分别对应的资源占用数据,确定所述任一候选语音引擎在所述至少一个目标应用场景下分别对应的资源未占用数据。
在一种可能实现方式中,所述至少一个目标应用场景包括目标服务场景,所述历史记录信息包括所述任一候选语音引擎在所述目标服务场景下产生的至少一条服务记录信息;所述第三确定模块,用于基于所述至少一条服务记录信息,确定所述任一候选语音引擎在所述目标服务场景下对应的使用次数,确定所述任一候选语音引擎在所述目标服务场景下对应的资源占用数据;
基于所述任一候选语音引擎在所述目标服务场景下对应的使用次数,确定所述任一候选语音引擎在所述目标服务场景下对应的使用权重。
在一种可能实现方式中,所述至少一个目标应用场景包括至少一个目标唤醒场景,所述历史记录信息包括所述任一候选语音引擎在所述至少一个目标唤醒场景下产生的至少一条唤醒记录信息;所述第三确定模块,用于基于所述至少一条唤醒记录信息,确定所述任一候选语音引擎在所述至少一个目标唤醒场景下分别对应的使用次数,确定所述任一候选语音引擎在所述至少一个目标唤醒场景下分别对应的资源占用数据;
基于所述任一候选语音引擎在所述至少一个目标唤醒场景下分别对应的使用次数,确定所述任一候选语音引擎在所述至少一个目标唤醒场景下分别对应的使用权重。
在一种可能实现方式中,所述至少一个目标应用场景包括目标服务场景和至少一个目标唤醒场景,所述历史记录信息包括所述任一候选语音引擎在所述至少一个目标唤醒场景下产生的至少一条唤醒记录信息以及所述任一候选语音引擎在所述目标服务场景下产生的至少一条服务记录信息;
所述第三确定模块,用于基于所述至少一条唤醒记录信息,确定所述任一候选语音引擎在所述至少一个目标唤醒场景下分别对应的使用次数,确定所述任一候选语音引擎在所述至少一个目标唤醒场景下分别对应的资源占用数据;基于所述至少一条服务记录信息,确定所述任一候选语音引擎在所述目标服务场景下对应的使用次数,确定所述任一候选语音引擎在所述目标服务场景下对应的资源占用数据;基于所述任一候选语音引擎在所述至少一个目标唤醒场景下分别对应的使用次数以及所述任一候选语音引擎在所述目标服务场景下对应的使用次数,确定所述任一候选语音引擎在所述至少一个目标唤醒场景下分别对应的使用权重;基于所述任一候选语音引擎在所述至少一个目标唤醒场景下分别对应的使用次数以及所述任一候选语音引擎在所述目标服务场景下对应的使用次数,确定所述任一候选语音引擎在所述目标服务场景下对应的使用权重。
在一种可能实现方式中,所述至少一个目标唤醒场景包括安静唤醒场景、嘈杂唤醒场景和首次唤醒场景,任一条唤醒记录信息包括唤醒环境音频和唤醒标志位;所述第三确定模块,还用于对于所述至少一条唤醒记录信息中的任一条唤醒记录信息,对所述任一条唤醒记录信息中的唤醒环境音频进行识别处理,确定所述唤醒环境音频对应的唤醒环境;响应于所述唤醒环境音频对应的唤醒环境为安静环境且所述任一条唤醒记录信息中的唤醒标志位为指定标志位,获取更新后的安静唤醒次数和更新后的首次唤醒次数;响应于所述唤醒环境音频对应的唤醒环境为嘈杂环境且所述任一条唤醒记录信息中的唤醒标志位为指定标志位,获取更新后的嘈杂唤醒次数和更新后的首次唤醒次数;响应于所述唤醒环境音频对应的唤醒环境为安静环境且所述任一条唤醒记录信息中的唤醒标志位为非指定标志位,获取更新后的安静唤醒次数;响应于所述唤醒环境音频对应的唤醒环境为嘈杂环境且所述任一条唤醒记录信息中的唤醒标志位为非指定标志位,获取更新后的嘈杂唤醒次数;将遍历所述至少一条唤醒记录信息后得到的安静唤醒次数作为所述任一候选语音引擎在所述安静唤醒场景下对应的使用次数;将遍历所述至少一条唤醒记录信息后得到的嘈杂唤醒次数作为所述任一候选语音引擎在所述嘈杂唤醒场景下对应的使用次数;将遍历所述至少一条唤醒记录信息后得到的首次唤醒次数作为所述任一候选语音引擎在所述首次唤醒场景下对应的使用次数。
在一种可能实现方式中,所述任一条唤醒记录信息还包括第一回调信息和第二回调信息;所述第三确定模块,还用于对于所述至少一条唤醒记录信息中的任一条唤醒记录信息,从所述任一条唤醒记录信息中的第一回调信息中解析出第一资源占用数据;响应于所述任一条唤醒记录信息中的唤醒环境音频对应的唤醒环境为安静环境且所述任一条唤醒记录信息中的唤醒标志位为指定标志位,从所述任一条唤醒记录信息中的第二回调信息中解析出第二资源占用数据,将所述第一资源占用数据添加至安静唤醒数据集中,将所述第二资源占用数据添加至首次唤醒数据集中;响应于所述任一条唤醒记录信息中的唤醒环境音频对应的唤醒环境为嘈杂环境且所述任一条唤醒记录信息中的唤醒标志位为指定标志位,从所述任一条唤醒记录信息中的第二回调信息中解析出第二资源占用数据,将所述第一资源占用数据添加至嘈杂唤醒数据集中,将所述第二资源占用数据添加至首次唤醒数据集中;响应于所述任一条唤醒记录信息中的唤醒环境音频对应的唤醒环境为安静环境且所述任一条唤醒记录信息中的唤醒标志位为非指定标志位,将所述第一资源占用数据添加至安静唤醒数据集中;响应于所述任一条唤醒记录信息中的唤醒环境音频对应的唤醒环境为嘈杂环境且所述任一条唤醒记录信息中的唤醒标志位为非指定标志位,将所述第一资源占用数据添加至嘈杂唤醒数据集中;将遍历所述至少一条唤醒记录信息后得到的安静唤醒数据集中的各个资源占用数据的平均数据作为所述任一候选语音引擎在所述安静唤醒场景下对应的资源占用数据;将遍历所述至少一条唤醒记录信息后得到的嘈杂唤醒数据集中的各个资源占用数据的平均数据作为所述任一候选语音引擎在所述嘈杂唤醒场景下对应的资源占用数据;将遍历所述至少一条唤醒记录信息后得到的首次唤醒数据集中的各个资源占用数据的平均数据作为所述任一候选语音引擎在所述首次唤醒场景下对应的资源占用数据。
在一种可能实现方式中,任一条服务记录信息包括第三回调信息,所述第三确定模块,还用于将所述至少一条服务记录信息的数量作为所述任一候选语音引擎在所述目标服务场景下对应的使用次数;对于所述至少一条服务记录信息中的任一条服务记录信息,从所述任一条服务记录信息中的第三回调信息中解析出第三资源占用数据,将所述第三资源占用数据添加至目标服务数据集中;将遍历所述至少一条服务记录信息后得到的目标服务数据集中的各个资源占用数据的平均数据作为所述任一候选语音引擎在所述目标服务场景下对应的资源占用数据。
在一种可能实现方式中,所述目标资源数据包括资源占用数据,所述任一候选语音引擎对应的目标参数基于所述任一候选语音引擎在至少一个目标应用场景下分别对应的资源占用数据确定;
所述第二确定模块,用于在所述至少一个候选语音引擎分别对应的目标参数中确定最小的目标参数。
另一方面,提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条程序代码,所述至少一条程序代码由所述处理器加载并执行,以实现上述任一所述的语音交互服务方法。
另一方面,还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一条程序代码,所述至少一条程序代码由处理器加载并执行,以实现上述任一所述的语音交互服务方法。
另一方面,还提供了一种计算机程序产品或计算机程序,所述计算机程序产品或计算机程序包括计算机指令,所述计算机指令存储在计算机可读存储介质中。计算机设备的处理器从所述计算机可读存储介质读取所述计算机指令,处理器执行所述计算机指令,使得所述计算机设备执行上述任一所述的语音交互服务方法。
本申请实施例提供的技术方案至少带来如下有益效果:
在选择目标语音引擎的过程中,考虑语音引擎在至少一个目标应用场景下的目标资源数据,根据候选语音引擎在至少一个目标应用场景下分别对应的目标资源数据,确定候选语音引擎对应的目标参数,进而将满足资源占用性能的目标参数对应的候选语音引擎作为目标语音引擎。在上述过程中,由于目标资源数据用于指示资源占用性能,所以根据目标资源数据确定的目标参数能够从资源占用性能角度衡量语音引擎,满足资源占用性能条件的目标参数对应的语音引擎为资源占用性能较优的语音引擎,语音引擎的选择效果较好,从而能够提高调用选择的目标语音引擎为目标对象提供语音交互服务的服务效果。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种语音交互服务方法的实施环境的示意图;
图2是本申请实施例提供的一种语音交互服务方法的流程图;
图3是本申请实施例提供的一种目标语音引擎的选择过程的示意图;
图4是本申请实施例提供的一种语音交互服务的实现过程的示意图;
图5是本申请实施例提供的一种语音交互服务装置的示意图;
图6是本申请实施例提供的一种语音交互服务装置的示意图;
图7是本申请实施例提供的一种语音交互服务设备的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
需要说明的是,本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
本申请实施例提供了一种语音交互服务方法,请参考图1,其示出了本申请实施例提供的语音交互服务方法的实施环境的示意图。该实施环境包括:终端11和服务器12。
其中,终端11安装有能够为目标对象提供语音交互服务的至少一个语音引擎,当需要在为目标对象提供语音交互服务时,可应用本申请实施例提供的方法进行语音交互服务。服务器12可以对语音引擎在历史使用过程中产生的相关信息进行存储,从而为语音交互服务过程提供数据支持。终端11可以从服务器12上获取语音引擎的选择过程所需要的信息。当然,终端11上也可以对语音引擎在历史使用过程中产生的相关信息进行存储。
在一种可能实现方式中,终端11可以是任何一种可与用户通过键盘、触摸板、触摸屏、遥控器、语音交互或手写设备等一种或多种方式进行人机交互的电子产品,例如PC(Personal Computer,个人计算机)、手机、智能手机、PDA(Personal Digital Assistant,个人数字助手)、可穿戴设备、掌上电脑PPC(PocketPC)、平板电脑、智能车机、智能电视、智能音箱等。服务器12可以是一台服务器,也可以是由多台服务器组成的服务器集群,或者是一个云计算服务中心。终端11与服务器12通过有线或无线网络建立通信连接。
本领域技术人员应能理解上述终端11和服务器12仅为举例,其他现有的或今后可能出现的终端或服务器如可适用于本申请,也应包含在本申请保护范围以内,并在此以引用方式包含于此。
基于上述图1所示的实施环境,本申请实施例提供一种语音交互服务方法,以该方法应用于终端11为例。如图2所示,本申请实施例提供的方法包括如下步骤:
在步骤201中,对于至少一个候选语音引擎中的任一候选语音引擎,基于任一候选语音引擎在至少一个目标应用场景下分别对应的目标资源数据,确定任一候选语音引擎对应的目标参数。
其中,至少一个候选语音引擎为目标对象的终端中安装的至少一个语音引擎,目标资源数据用于指示资源占用性能。
目标对象的终端是指属于目标对象的终端,属于目标对象的终端包括但不限于安装有目标对象的SIM(Subscriber Identity Module,用户身份识别模块)卡的终端和目标对象驾驶的车辆中安装的车载终端。
目标对象的终端能够利用安装的语音引擎为目标对象提供语音交互服务,也就是说,目标对象的终端能够识别目标对象的语音指令,进而利用安装的语音引擎执行与语音指令匹配的操作。例如,当目标对象说出“打开导航”的语音消息时,目标对象的终端能够识别目标对象的打开导航语音指令,进而利用安装的语音引擎执行打开导航的操作。
目标对象的终端中可能安装有一个或多个语音引擎,在目标对象没有明确指示利用哪个语音引擎提供语音交互服务的情况下,目标对象的终端需要选择出一个合适的语音引擎为目标对象提供语音交互服务,以提高目标对象的语音交互体验。
将目标对象的终端中安装的至少一个语音引擎作为至少一个候选语音引擎,进而在至少一个候选语音引擎中选择出合适的语音引擎为目标对象提供语音交互服务。需要说明的是,本申请实施例对目标对象的终端中安装的语音引擎的类型和数量不加以限定。不同目标对象的终端中可能安装有相同的语音引擎,也可能安装有不同的语音引擎,本申请实施例对此不加以限定。
在从至少一个候选语音引擎中选择合适的语音引擎的过程中,需要先获取各个候选语音引擎分别对应的目标参数,进而根据各个候选语音引擎分别对应的目标参数从各个候选语音引擎中选择出合适的语音引擎。目标参数用于从资源占用性能角度衡量语音引擎被选择用来为目标对象提供语音交互服务的合适程度。
在确定各个候选语音引擎分别对应的目标参数的过程中,每个候选语音引擎对应的目标参数均可以根据相同的方式进行获取。因此,在本申请实施例中,从任一候选语音引擎的角度说明确定该任一候选语音引擎对应的目标参数的过程。
对于至少一个候选语音引擎中的任一候选语音引擎,确定该任一候选语音引擎对应的目标参数的过程为:基于任一候选语音引擎在至少一个目标应用场景下分别对应的目标资源数据,确定任一候选语音引擎对应的目标参数。
目标应用场景是对语音引擎的资源占用情况有较大影响的应用场景。本申请实施例对目标应用场景的类型以及数量不加以限定。在一种可能实现方式中,至少一个目标应用场景包括以下任一种情况:
情况1:至少一个目标应用场景包括目标服务场景和至少一个目标唤醒场景。
情况2:至少一个目标应用场景包括目标服务场景。
此种情况下,目标应用场景即为目标服务场景,目标应用场景的数量为一个。
情况3:至少一个目标应用场景包括至少一个目标唤醒场景。
目标服务场景以及至少一个目标唤醒场景分别对应语音引擎的两种使用方式。目标服务场景对应的使用方式为:直接通过特定语料音频调用。至少一个目标唤醒场景对应的使用方式为:在利用唤醒词进行唤醒后使用。
特定语料音频是指能够在免唤醒的情况下直接调用语言引擎的音频。特定语料音频是指特定语料对应的音频。特定语料预先注册到语言引擎中,当终端检测到特定语料音频时,无论语言引擎是否处于唤醒状态均能够直接调用语音引擎。特定语料由开发人员设定,也可以灵活添加和删除,示例性地,特定语料包括“打开音乐”、“打开导航”等。目标服务场景即是指调用语音引擎为特定语料音频提供服务的场景。
唤醒词用于唤醒(启动)语音引擎,唤醒词与语音引擎的设置有关。不同的语音引擎通常对应不同的唤醒词,例如,AA语音引擎的唤醒词为“AA你好”,BB语音引擎的唤醒词为“BB你好”。在唤醒之前,仅能通过特定语料音频调用语音引擎,在唤醒之后,能够通过任何语音引擎能够识别的音频调用语音引擎。至少一个目标唤醒场景是指与利用唤醒词唤醒语音引擎相关的场景。
在一种可能实现方式中,至少一个目标唤醒场景包括安静唤醒场景、嘈杂唤醒场景、首次唤醒场景中的至少一个。安静唤醒场景和嘈杂唤醒场景用于指示目标对象说出唤醒词之前的场景。目标对象说出唤醒词之前的场景为安静唤醒场景或者嘈杂唤醒场景。安静唤醒场景是指目标对象说出唤醒词之前处于声音干扰较小的场景(例如,车内无人说话且关窗的场景、深夜场景等),嘈杂唤醒环境是指目标对象说出唤醒词之前处于声音干扰较大的场景(例如,车内有人说话或开窗的场景、播放音乐的场景等)。首次唤醒场景用于指示目标对象在一段时间内首次通过唤醒词唤醒语音引擎的场景。一段时间可以是指语音引擎在后台程序中默认存留的时间。
目标资源数据用于指示资源占用性能,目标资源数据为资源占用数据或者资源未占用数据,本申请实施例对此不加以限定。当目标资源数据为资源占用数据时,资源占用数据越大,占用的资源数量越多,资源占用性能越差;当目标资源数据为资源未占用数据时,资源未占用数据越大,剩余可供占用的资源数量越多,占用的资源数量越少,资源占用性能越好。
在一种可能实现方式中,根据目标资源数据的不同,基于任一候选语音引擎在至少一个目标应用场景下分别对应的目标资源数据,确定任一候选语音引擎对应的目标参数的实现过程包括以下两种:
实现过程一、基于任一候选语音引擎在至少一个目标应用场景下分别对应的资源占用数据,确定任一候选语音引擎对应的目标参数。
此种实现过程一发生在目标资源数据包括资源占用数据的情况下。资源占用数据用于表示语音引擎对终端资源的占用情况,示例性地,资源占用数据用于表示语音引擎对CPU(Central Processing Unit,中央处理器)资源的占用情况。
任一候选语音引擎在任一目标应用场景下对应的资源占用数据用于衡量任一候选语音引擎在任一目标应用场景下占用的资源数量的多少。在一种可能实现方式中,任一候选语音引擎在任一目标应用场景下对应的资源占用数据可以用任一候选语音引擎在任一目标应用场景下对总资源的占用比率来表示。当然,任一候选语音引擎在任一目标应用场景下对应的资源占用数据也可以用任一候选语音引擎在任一目标应用场景下具体占用的资源数量值来表示,本申请实施例对此不加以限定。
在一种可能实现方式中,基于任一候选语音引擎在至少一个目标应用场景下分别对应的资源占用数据,确定任一候选语音引擎对应的目标参数的过程包括:将任一候选语音引擎在至少一个目标应用场景下分别对应的资源占用数据的平均数据作为任一候选语音引擎对应的目标参数。在示例性实施例中,还可以将任一候选语音引擎在至少一个目标应用场景下分别对应的资源占用数据的加权平均数据作为任一候选语音引擎对应的目标参数,各个资源占用数据的加权值根据经验设置。
在利用实现过程一确定任一候选语音引擎对应的目标参数的情况下,由于资源占用数据的平均数据越大,终端的性能越不稳定,所以任一候选语音引擎对应的目标参数越小,说明该任一候选语音引擎的资源占用性能越优,也说明调用该任一候选语音引擎为目标对象提供语音交互服务的合适程度越高。
在利用实现过程一确定任一候选语音引擎对应的目标参数之前,需要先获取任一候选语音引擎在至少一个目标应用场景下分别对应的资源占用数据。任一候选语音引擎在至少一个目标应用场景下分别对应的资源占用数据的确定过程可以由服务器执行,也可以由目标对象的终端执行。本申请实施例以任一候选语音引擎在至少一个目标应用场景下分别对应的资源占用数据的确定过程由目标对象的终端执行为例进行说明。在此种情况下,目标对象的终端获取任一候选语音引擎在至少一个目标应用场景下分别对应的资源占用数据的方式为:目标对象的终端实时确定任一候选语音引擎在至少一个目标应用场景下分别对应的资源占用数据,或者从本地提取预先确定的任一候选语音引擎在至少一个目标应用场景下分别对应的资源占用数据。
目标对象的终端确定任一候选语音引擎在至少一个目标应用场景下分别对应的资源占用数据的方式可以参见后续步骤2001至步骤2002中涉及的确定任一候选语音引擎在至少一个目标应用场景下分别对应的资源占用数据的部分,此处暂不赘述。
实现过程二、基于任一候选语音引擎在至少一个目标应用场景下分别对应的资源未占用数据,确定任一候选语音引擎对应的目标参数。
此种实现过程二发生在目标资源数据包括资源未占用数据的情况下。
资源未占用数据用于衡量在所述任一候选语音引擎占用后,还剩余的可供其他程序占用的资源数量的多少。任一候选语音引擎在任一目标应用场景下对应的资源未占用数据越大,说明剩余的可供其他程序占用的资源数量越多,也说明任一候选语音引擎在任一目标应用场景下占用的资源数量越少,还说明任一候选语音引擎在任一目标应用场景的使用稳定性以及流畅性越高。在一种可能实现方式中,任一候选语音引擎在至少一个目标应用场景下分别对应的资源未占用数据基于任一候选语音引擎在至少一个目标应用场景下分别对应的资源占用数据确定。
在一种可能实现方式中,基于任一候选语音引擎在至少一个目标应用场景下分别对应的资源未占用数据,确定任一候选语音引擎对应的目标参数的方式包括但不限于以下两种:
方式1:将任一候选语音引擎在至少一个目标应用场景下分别对应的资源未占用数据的平均数据作为任一候选语音引擎对应的目标参数。
在基于此种方式1确定任一候选语音引擎对应的目标参数的情况下,当任一候选语音引擎对应的目标参数越大时,说明在该任一候选语音引擎的资源占用性能越优,也说明该任一候选语音引擎被选择用来为目标对象提供语音交互服务的合适程度越大。
在利用方式1确定任一候选语音引擎对应的目标参数之前,需要先获取任一候选语音引擎在至少一个目标应用场景下分别对应的资源未占用数据。任一候选语音引擎在至少一个目标应用场景下分别对应的资源未占用数据的确定过程可以由服务器执行,也可以由目标对象的终端执行。本申请实施例以任一候选语音引擎在至少一个目标应用场景下分别对应的资源未占用数据的确定过程由目标对象的终端执行为例进行说明。在此种情况下,目标对象的终端获取任一候选语音引擎在至少一个目标应用场景下分别对应的资源未占用数据的方式为:目标对象的终端实时确定任一候选语音引擎在至少一个目标应用场景下分别对应的资源未占用数据,或者从本地提取预先确定的任一候选语音引擎在至少一个目标应用场景下分别对应的资源未占用数据。
目标对象的终端确定任一候选语音引擎在至少一个目标应用场景下分别对应的资源未占用数据的方式可以参见后续步骤2001至步骤2003中涉及的确定任一候选语音引擎在至少一个目标应用场景下分别对应的资源未占用数据的部分,此处暂不赘述。
方式2:对于至少一个目标应用场景中的任一目标应用场景,将任一候选语音引擎在任一目标应用场景下对应的使用权重和任一候选语音引擎在任一目标应用场景下对应的资源未占用数据的乘积作为任一目标应用场景对应的子参数;基于至少一个目标应用场景分别对应的子参数,确定任一候选语音引擎对应的目标参数。
任一候选语音引擎在任一目标应用场景下对应的使用权重用于衡量任一候选语音引擎在任一目标应用场景下被使用的频率的高低。使用权重越大,说明任一候选语音引擎在任一目标应用场景下的被使用的频率越高。
任一候选语音引擎在任一目标应用场景下对应的使用权重越大说明目标对象越倾向于在任一目标应用场景下使用该任一候选语音引擎,任一候选语音引擎在任一目标应用场景下对应的资源未占用数据越大,说明该任一候选语音引擎在该任一目标应用场景下越能够保持终端性能的稳定和流畅。因此,将任一候选语音引擎在任一目标应用场景下对应的使用权重和任一候选语音引擎在任一目标应用场景下对应的资源未占用数据的乘积作为任一目标应用场景对应的子参数。
在得到至少一个目标应用场景分别对应的子参数后,基于至少一个目标应用场景分别对应的子参数,确定任一候选语音引擎对应的目标参数。
在一种可能实现方式中,基于至少一个目标应用场景分别对应的子参数,确定任一候选语音引擎对应的目标参数的方式为:将至少一个目标应用场景分别对应的子参数的和作为任一候选语音引擎对应的目标参数。
在另一种可能实现方式中,基于至少一个目标应用场景分别对应的子参数,确定任一候选语音引擎对应的目标参数的方式为:为至少一个目标应用场景分别设置权值,将任一目标应用场景对应的子参数和权值的乘积作为该任一目标应用场景对应的子乘积;将各个目标应用场景分别对应的子乘积的和作为任一候选语音引擎对应的目标参数。
示例性地,假设至少一个目标应用场景包括安静唤醒场景、嘈杂唤醒场景、首次唤醒场景和目标服务场景,任一候选语音引擎对应的目标参数可以基于下述公式1确定:
F=x1*(1-y1)+x2*(1-y2)+x3*(1-y3)+x4*(1-y4) (公式1)
其中,F表示任一候选语音引擎对应的目标参数;x1、x2、x3和x4表示任一候选语音引擎在安静唤醒场景下、嘈杂唤醒场景下、首次唤醒场景下和目标服务场景下分别对应的使用权重;y1、y2、y3和y4表示任一候选语音引擎在安静唤醒场景下、嘈杂唤醒场景下、首次唤醒场景下和目标服务场景下分别对应的资源占用比率;(1-y1)、(1-y2)、(1-y3)和(1-y4)表示任一候选语音引擎在安静唤醒场景下、嘈杂唤醒场景下、首次唤醒场景下和目标服务场景下分别对应的资源未占用数据(用比率表示)。
在基于此种方式2确定任一候选语音引擎对应的目标参数的情况下,当任一候选语音引擎对应的目标参数越大时,说明在综合考虑目标对象在各个目标应用场景下使用该任一候选语音引擎的频率以及任一候选语音引擎在各个目标应用场景下剩余的可用资源的情况下,该任一候选语音引擎的综合性能(资源占用性能和使用性能)越优,该任一候选语音引擎被选择用来为目标对象提供语音交互服务的合适程度越大。
在利用方式2确定任一候选语音引擎对应的目标参数之前,需要先获取任一候选语音引擎在至少一个目标应用场景下分别对应的使用权重以及任一候选语音引擎在至少一个目标应用场景下分别对应的资源未占用数据。
任一候选语音引擎在至少一个目标应用场景下分别对应的使用权重以及任一候选语音引擎在至少一个目标应用场景下分别对应的资源未占用数据的确定过程可以由服务器执行,也可以由目标对象的终端执行,本申请实施例对此不加以限定。当任一候选语音引擎在至少一个目标应用场景下分别对应的使用权重以及任一候选语音引擎在至少一个目标应用场景下分别对应的资源未占用数据的确定过程由服务器执行时,目标对象的终端从服务器获取任一候选语音引擎在至少一个目标应用场景下分别对应的使用权重以及任一候选语音引擎在至少一个目标应用场景下分别对应的资源未占用数据。
当任一候选语音引擎在至少一个目标应用场景下分别对应的使用权重以及任一候选语音引擎在至少一个目标应用场景下分别对应的资源未占用数据的确定过程由目标对象的终端执行时,目标对象的终端实时确定任一候选语音引擎在至少一个目标应用场景下分别对应的使用权重以及任一候选语音引擎在至少一个目标应用场景下分别对应的资源未占用数据,或者从本地提取预先确定的任一候选语音引擎在至少一个目标应用场景下分别对应的使用权重以及任一候选语音引擎在至少一个目标应用场景下分别对应的资源未占用数据。本申请实施例以任一候选语音引擎在至少一个目标应用场景下分别对应的使用权重以及任一候选语音引擎在至少一个目标应用场景下分别对应的资源未占用数据的确定过程由目标对象的终端执行为例进行说明。
在一种可能实现方式中,确定任一候选语音引擎在至少一个目标应用场景下分别对应的使用权重以及任一候选语音引擎在至少一个目标应用场景下分别对应的资源未占用数据的过程包括以下步骤2001至步骤2003:
步骤2001:获取任一候选语音引擎的历史记录信息。
任一候选语音引擎的历史记录信息是指任一候选语音引擎在历史为目标对象提供语音交互服务的过程中产生的相关信息。任一候选语音引擎的历史记录信息可以存储在服务器中,以节省目标对象的终端的存储,目标对象的终端在需要使用任一候选语音引擎的历史记录信息时,再从服务器获取任一候选语音引擎的历史记录信息。
步骤2002:基于历史记录信息,确定任一候选语音引擎在至少一个目标应用场景下分别对应的使用权重以及任一候选语音引擎在至少一个目标应用场景下分别对应的资源占用数据。
对应于至少一个目标应用场景的三种情况,步骤2002的实现过程也具三种情况,接下来在至少一个目标应用场景的三种情况下,分别介绍实现步骤2002的过程。
(1)至少一个目标应用场景的情况为:至少一个目标应用场景包括目标服务场景和至少一个目标唤醒场景。
在一种可能实现方式中,在至少一个目标应用场景包括目标服务场景和至少一个目标唤醒场景的情况下,历史记录信息包括任一候选语音引擎在至少一个目标唤醒场景下产生的至少一条唤醒记录信息以及任一候选语音引擎在目标服务场景下产生的至少一条服务记录信息。每一条唤醒记录信息均对应一次目标对象用唤醒词唤醒该任一候选语音引擎的情况;每一条服务记录信息均对应一次目标对象直接利用特定语料音频调用该任一候选语音引擎的情况。在此种情况下,基于历史记录信息,确定任一候选语音引擎在至少一个目标应用场景下分别对应的使用权重以及任一候选语音引擎在至少一个目标应用场景下分别对应的资源占用数据的过程包括以下步骤2002A至步骤2002C:
步骤2002A:基于至少一条唤醒记录信息,确定任一候选语音引擎在至少一个目标唤醒场景下分别对应的使用次数,确定任一候选语音引擎在至少一个目标唤醒场景下分别对应的资源占用数据。
在一种可能实现方式中,任一条唤醒记录信息包括唤醒环境音频和唤醒标志位。唤醒环境音频是指在唤醒词音频之前的一段时间内采集的音频。唤醒词音频是指唤醒词对应的音频,唤醒词音频之前的一段时间的时长根据经验设置,例如,一段时间的时长为5秒,也就是说,将在唤醒词音频之前的5秒内采集的音频作为唤醒环境音频。语音引擎在每次唤醒之后会将唤醒环境音频和唤醒词音频进行存储。示例性地,唤醒词音频的起始位置可以分别记为vadStart和vadEnd,则唤醒环境音频是指位于vadStart之前的5秒音频。唤醒环境音频用于判断在目标对象说出唤醒词音频之前所处的环境时安静环境还是嘈杂环境。
唤醒标志位用于判断与该任一条唤醒记录信息对应的一次唤醒词唤醒是否为首次唤醒。首次唤醒和非首次唤醒对应不同的标志位,示例性地,首次唤醒对应的标志为0,非首次唤醒的标志为1。在一种可能实现方式中,默认标志位为0,在首次唤醒之后将标志位归为1,然后可以根据标志位快递确定是否为首次唤醒。
在一种可能实现方式中,至少一个目标唤醒场景包括安静唤醒场景、嘈杂唤醒场景和首次唤醒场景。基于至少一条唤醒记录信息,确定任一候选语音引擎在至少一个目标唤醒场景下分别对应的使用次数的过程包括以下步骤a至步骤c:
步骤a:对于至少一条唤醒记录信息中的任一条唤醒记录信息,对任一条唤醒记录信息中的唤醒环境音频进行识别处理,确定唤醒环境音频对应的唤醒环境。
唤醒环境音频对应的唤醒环境用于指示产生该唤醒环境音频的环境。唤醒环境音频对应的唤醒环境为安静环境或者嘈杂环境。在一种可能实现方式中,对任一条唤醒记录信息中的唤醒环境音频进行识别处理,确定唤醒环境音频对应的唤醒环境的方式为:利用VAD(Voice Activity Detection,语音端点检测)技术对任一条唤醒记录信息中的唤醒环境音频进行识别处理,根据识别处理结果确定唤醒环境音频对应的唤醒环境。VAD技术能够识别出唤醒环境音频中的参考声音是否满足嘈杂条件,若唤醒环境音频中的参考声音不满足嘈杂条件,则确定唤醒环境音频对应的唤醒环境为安静环境;若唤醒环境音频中的参考声音满足嘈杂条件,则确定唤醒环境音频对应的唤醒环境为嘈杂环境。
嘈杂条件可以根据经验设置,也可以根据应用场景灵活调整,示例性地,满足嘈杂条件是指参考声音的音量超过音量阈值,或者参考声音中人声的比例超过阈值等。
唤醒环境音频对应的唤醒环境为安静环境或者嘈杂环境。此外,任一条唤醒记录信息中的唤醒标志位为指定标志位或者非指定标志位。其中,指定标志位是指首次唤醒对应的标志位,非指定标志位是指非首次唤醒对应的标志位。示例性地,指定标志位为0,非指定标志位为1。当任一条唤醒记录信息中的唤醒标志位为指定标志位时,说明该任一条唤醒记录信息对应首次唤醒情况,当任一条唤醒记录信息中的唤醒标志位为非指定标志位时,说明该任一条唤醒记录信息对应非首次唤醒情况。对于任一条唤醒记录而言,可能出现步骤b中的任一种情况。
步骤b:响应于唤醒环境音频对应的唤醒环境为安静环境且任一条唤醒记录信息中的唤醒标志位为指定标志位,获取更新后的安静唤醒次数和更新后的首次唤醒次数;响应于唤醒环境音频对应的唤醒环境为嘈杂环境且任一条唤醒记录信息中的唤醒标志位为指定标志位,获取更新后的嘈杂唤醒次数和更新后的首次唤醒次数;响应于唤醒环境音频对应的唤醒环境为安静环境且任一条唤醒记录信息中的唤醒标志位为非指定标志位,获取更新后的安静唤醒次数;响应于唤醒环境音频对应的唤醒环境为嘈杂环境且任一条唤醒记录信息中的唤醒标志位为非指定标志位,获取更新后的嘈杂唤醒次数。
当唤醒环境音频对应的唤醒环境为安静环境且任一条唤醒记录信息中的唤醒标志位为指定标志位时,说明该任一条唤醒记录信息既对应安静唤醒情况,又对应首次唤醒情况,此时,对当前的安静唤醒次数和当前的首次唤醒次数进行更新,以获取更新后的安静唤醒次数和更新后的首次唤醒次数。
在一种可能实现方式中,获取更新后的安静唤醒次数和更新后的首次唤醒次数的方式为:将当前的安静唤醒次数和当前的首次唤醒次数分别增加1。也就是说,每有一条唤醒记录信息中的唤醒环境音频对应的唤醒环境为安静环境且该条唤醒记录信息中的唤醒标志位为指定标志位,则将安静唤醒次数和首次唤醒次数分别增加1。
当唤醒环境音频对应的唤醒环境为嘈杂环境且任一条唤醒记录信息中的唤醒标志位为指定标志位时,说明该任一条唤醒记录信息既对应嘈杂唤醒情况,又对应首次唤醒情况,此时,对当前的嘈杂唤醒次数和当前的首次唤醒次数进行更新,以获取更新后的嘈杂唤醒次数和更新后的首次唤醒次数。
在一种可能实现方式中,获取更新后的嘈杂唤醒次数和更新后的首次唤醒次数的方式为:将当前的嘈杂唤醒次数和当前的首次唤醒次数分别增加1。也就是说,每有一条唤醒记录信息中的唤醒环境音频对应的唤醒环境为嘈杂环境且该条唤醒记录信息中的唤醒标志位为指定标志位,则将嘈杂唤醒次数和首次唤醒次数分别增加1。
当唤醒环境音频对应的唤醒环境为安静环境且任一条唤醒记录信息中的唤醒标志位为非指定标志位时,说明该任一条唤醒记录信息仅对应安静唤醒情况,此时,对当前的安静唤醒次数进行更新,以获取更新后的安静唤醒次数。
在一种可能实现方式中,获取更新后的安静唤醒次数的方式为:将当前的安静唤醒次数增加1。也就是说,每有一条唤醒记录信息中的唤醒环境音频对应的唤醒环境为安静环境且该条唤醒记录信息中的唤醒标志位为非指定标志位,则将安静唤醒次数增加1。
当唤醒环境音频对应的唤醒环境为嘈杂环境且任一条唤醒记录信息中的唤醒标志位为非指定标志位时,说明该任一条唤醒记录信息仅对应嘈杂唤醒情况,此时,对当前的嘈杂唤醒次数进行更新,以获取更新后的嘈杂唤醒次数。
在一种可能实现方式中,获取更新后的嘈杂唤醒次数的方式为:将当前的嘈杂唤醒次数增加1。也就是说,每有一条唤醒记录信息中的唤醒环境音频对应的唤醒环境为嘈杂环境且该条唤醒记录信息中的唤醒标志位为非指定标志位,则将嘈杂唤醒次数增加1。
需要说明的是,在未考虑任何唤醒记录信息之前,安静唤醒次数、嘈杂唤醒次数和首次唤醒次数均具有初始值,初始值根据经验设置,示例性地,安静唤醒次数、嘈杂唤醒次数和首次唤醒次数的初始值均为0。
步骤c:将遍历至少一条唤醒记录信息后得到的安静唤醒次数作为任一候选语音引擎在安静唤醒场景下对应的使用次数;将遍历至少一条唤醒记录信息后得到的嘈杂唤醒次数作为任一候选语音引擎在嘈杂唤醒场景下对应的使用次数;将遍历至少一条唤醒记录信息后得到的首次唤醒次数作为任一候选语音引擎在首次唤醒场景下对应的使用次数。
以上步骤a和步骤b介绍了根据任一条唤醒记录信息,更新安静唤醒次数、嘈杂唤醒次数和首次唤醒次数中的一个或多个的过程,根据步骤a和步骤b的方式遍历至少一条唤醒记录信息,即可得到最终的安静唤醒次数、最终的嘈杂唤醒次数和最终的首次唤醒次数,将最终的安静唤醒次数作为任一候选语音引擎在安静唤醒场景下对应的使用次数;将最终的嘈杂唤醒次数作为任一候选语音引擎在嘈杂唤醒场景下对应的使用次数;将最终的首次唤醒次数作为任一候选语音引擎在首次唤醒场景下对应的使用次数。由此,得到任一候选语音引擎在安静唤醒场景下、嘈杂唤醒场景下和首次唤醒场景下分别对应的使用次数。
在一种可能实现方式中,任一条唤醒记录信息还包括第一回调信息和第二回调信息。第一回调信息用于指示任一候选语音引擎在唤醒前所处的状态,第二回调信息用于指示任一候选语音引擎在唤醒瞬间所处的状态。在此种情况下,确定任一候选语音引擎在至少一个目标唤醒场景下分别对应的资源占用数据的过程包括以下步骤Ⅰ至步骤Ⅲ:
步骤Ⅰ:对于至少一条唤醒记录信息中的任一条唤醒记录信息,从任一条唤醒记录信息中的第一回调信息中解析出第一资源占用数据。
任一条唤醒记录信息中的第一回调信息中携带资源占用数据,该资源占用数据用于指示任一候选语音引擎在唤醒前占用的资源数据。将从任一条唤醒记录信息中的第一回调信息中解析出的第一资源占用数据作为第一资源占用数据。
需要说明的是,由于在安静唤醒场景和嘈杂唤醒场景下对语音引擎的数据处理和信号提取工作量是不一样的,所以在第一回调信息能够体现安静唤醒场景和嘈杂唤醒场景下任一候选语音引擎的资源占用情况的区别。
步骤Ⅱ:响应于任一条唤醒记录信息中的唤醒环境音频对应的唤醒环境为安静环境且任一条唤醒记录信息中的唤醒标志位为指定标志位,从任一条唤醒记录信息中的第二回调信息中解析出第二资源占用数据,将第一资源占用数据添加至安静唤醒数据集中,将第二资源占用数据添加至首次唤醒数据集中;响应于任一条唤醒记录信息中的唤醒环境音频对应的唤醒环境为嘈杂环境且任一条唤醒记录信息中的唤醒标志位为指定标志位,从任一条唤醒记录信息中的第二回调信息中解析出第二资源占用数据,将第一资源占用数据添加至嘈杂唤醒数据集中,将第二资源占用数据添加至首次唤醒数据集中;响应于任一条唤醒记录信息中的唤醒环境音频对应的唤醒环境为安静环境且任一条唤醒记录信息中的唤醒标志位为非指定标志位,将第一资源占用数据添加至安静唤醒数据集中;响应于任一条唤醒记录信息中的唤醒环境音频对应的唤醒环境为嘈杂环境且任一条唤醒记录信息中的唤醒标志位为非指定标志位,将第一资源占用数据添加至嘈杂唤醒数据集中。
首次唤醒数据集用于统计任一候选语音引擎在安静唤醒场景下对应的候选资源占用数据,首次唤醒数据集用于统计任一候选语音引擎在首次唤醒场景下对应的候选资源占用数据。当任一条唤醒记录信息中的唤醒环境音频对应的唤醒环境为安静环境且任一条唤醒记录信息中的唤醒标志位为指定标志位时,说明该任一条唤醒记录信息既对应安静唤醒情况,又对应首次唤醒情况,此时,从任一条唤醒记录信息中的第二回调信息中解析出第二资源占用数据。
任一条唤醒记录信息中的第二回调信息中同样携带资源占用数据,该资源占用数据用于指示任一候选语音引擎在唤醒瞬间占用的资源数据。将从任一条唤醒记录信息中的第二回调信息中解析出的第一资源占用数据作为第二资源占用数据。
当任一条唤醒记录信息中的唤醒环境音频对应的唤醒环境为安静环境且任一条唤醒记录信息中的唤醒标志位为指定标志位时,说明步骤Ⅰ中解析出的第一资源占用数据为任一候选语音引擎在安静唤醒场景下对应的一个候选资源占用数据,第二资源占用数据为任一候选语音引擎在安静唤醒场景下对应的一个候选资源占用数据,将第一资源占用数据添加至安静唤醒数据集中,将第二资源占用数据添加至首次唤醒数据集中。
嘈杂唤醒数据集用于统计任一候选语音引擎在嘈杂唤醒场景下对应的候选资源占用数据。当任一条唤醒记录信息中的唤醒环境音频对应的唤醒环境为嘈杂环境且任一条唤醒记录信息中的唤醒标志位为指定标志位时,说明该任一条唤醒记录信息既对应嘈杂唤醒情况,又对应首次唤醒情况。此时,说明步骤Ⅰ中解析出的第一资源占用数据为任一候选语音引擎在嘈杂唤醒场景下对应的一个候选资源占用数据,从任一条唤醒记录信息中的第二回调信息中解析出的第二资源占用数据为任一候选语音引擎在安静唤醒场景下对应的一个候选资源占用数据,将第一资源占用数据添加至嘈杂唤醒数据集中,将第二资源占用数据添加至首次唤醒数据集中。
当任一条唤醒记录信息中的唤醒环境音频对应的唤醒环境为安静环境且任一条唤醒记录信息中的唤醒标志位为非指定标志位时,说明任一唤醒记录信息仅对应安静唤醒情况。此时,只需将第一资源占用数据添加至安静唤醒数据集中,无需对任一条唤醒记录信息中的第二回调信息进行解析。
当任一条唤醒记录信息中的唤醒环境音频对应的唤醒环境为嘈杂环境且任一条唤醒记录信息中的唤醒标志位为非指定标志位时,说明任一唤醒记录信息仅对应嘈杂唤醒情况。此时,只需将第一资源占用数据添加至嘈杂唤醒数据集中,无需对任一条唤醒记录信息中的第二回调信息进行解析。
步骤Ⅲ:将遍历至少一条唤醒记录信息后得到的安静唤醒数据集中的各个资源占用数据的平均数据作为任一候选语音引擎在安静唤醒场景下对应的资源占用数据;将遍历至少一条唤醒记录信息后得到的嘈杂唤醒数据集中的各个资源占用数据的平均数据作为任一候选语音引擎在嘈杂唤醒场景下对应的资源占用数据;将遍历至少一条唤醒记录信息后得到的首次唤醒数据集中的各个资源占用数据的平均数据作为任一候选语音引擎在首次唤醒场景下对应的资源占用数据。
以上步骤Ⅰ和步骤Ⅱ介绍了根据任一条唤醒记录信息,更新安静唤醒数据集、嘈杂唤醒数据集和首次唤醒数据集中的一个或多个的过程,根据步骤Ⅰ和步骤Ⅱ的方式遍历至少一条唤醒记录信息,即可得到最终的安静唤醒数据集、最终的嘈杂唤醒数据集和最终的首次唤醒数据集。将最终的安静唤醒数据集中的各个资源占用数据的平均数据作为任一候选语音引擎在安静唤醒场景下对应的资源占用数据,将最终的嘈杂唤醒数据集中的各个资源占用数据的平均数据作为任一候选语音引擎在嘈杂唤醒场景下对应的资源占用数据,将最终的首次唤醒数据集中的各个资源占用数据的平均数据作为任一候选语音引擎在首次唤醒场景下对应的资源占用数据。由此,得到任一候选语音引擎在安静唤醒场景下、嘈杂唤醒场景下和首次唤醒场景下分别对应的资源占用数据。
需要说明的是,以上步骤a至步骤c以及步骤Ⅰ至步骤Ⅲ介绍的为在至少一个目标唤醒场景包括安静唤醒场景、嘈杂唤醒场景和首次唤醒场景的情况下,基于至少一条唤醒记录信息,确定任一候选语音引擎在至少一个目标唤醒场景下分别对应的使用次数,确定任一候选语音引擎在至少一个目标唤醒场景下分别对应的资源占用数据的实现过程。至少一个目标唤醒场景的情况不局限于此,除同时包括安静唤醒场景、嘈杂唤醒场景和首次唤醒场景外,至少一个目标唤醒场景还可以包括安静唤醒场景、嘈杂唤醒场景和首次唤醒场景中的任一个或任两个。对于至少一个目标唤醒场景包括安静唤醒场景、嘈杂唤醒场景和首次唤醒场景中的任一个或任两个的情况,基于至少一条唤醒记录信息,确定任一候选语音引擎在至少一个目标唤醒场景下分别对应的使用次数,确定任一候选语音引擎在至少一个目标唤醒场景下分别对应的资源占用数据的过程均可以参照上述步骤a至步骤c以及步骤Ⅰ至步骤Ⅲ实现,此处不再赘述。
步骤2002B:基于至少一条服务记录信息,确定任一候选语音引擎在目标服务场景下对应的使用次数,确定任一候选语音引擎在目标服务场景下对应的资源占用数据。
每条服务记录信息均对应一次目标对象直接利用特定语料音频调用任一候选语音引擎的情况。特定语料音频的识别过程不走线上识别,走离线识别引擎。
在一种可能实现方式中,基于至少一条服务记录信息,确定任一候选语音引擎在目标服务场景下对应的使用次数的方式为:将至少一条服务记录信息的数量作为任一候选语音引擎在目标服务场景下对应的使用次数。
任一条服务记录信息包括第三回调信息,第三回调信息用于指示任一候选语音引擎为所述目标对象的特定语料音频提供服务时的状态,由于特定语料音频的识别过程走离线识别引擎,所以第三回调信息是指离线识别引擎反馈的回调信息。第三回调信息携带资源占用数据,该资源占用数据用于指示任一候选语音引擎为所述目标对象的特定语料音频提供服务时占用的资源数据。
在一种可能实现方式中,确定任一候选语音引擎在目标服务场景下对应的资源占用数据的方式为:对于至少一条服务记录信息中的任一条服务记录信息,从任一条服务记录信息中的第三回调信息中解析出第三资源占用数据,将第三资源占用数据添加至目标服务数据集中;将遍历至少一条服务记录信息后得到的目标服务数据集中的各个资源占用数据的平均数据作为任一候选语音引擎在目标服务场景下对应的资源占用数据。
目标服务数据集用于统计任一候选语音引擎在在目标服务场景下对应的候选资源占用数据。从每条服务记录信息中解析出的第三资源占用数据均为任一候选语音引擎在目标服务场景下对应的一个候选资源占用数据,将第三资源占用数据添加至目标服务数据集中,以在遍历各条服务记录信息后,得到最终的目标服务数据集。然后将最终的目标服务数据集中的各个资源占用数据的平均数据作为任一候选语音引擎在目标服务场景下对应的资源占用数据。
需要说明的是,任一条服务记录信息中除包括第三回调信息外,还可能包括时间戳等信息,本申请实施例对此不加以限定。
根据上述步骤2002A和步骤2002B,即可确定任一候选语音引擎在至少一个目标应用场景下分别对应的资源占用数据。
步骤2002C:基于任一候选语音引擎在至少一个目标唤醒场景下分别对应的使用次数以及任一候选语音引擎在目标服务场景下对应的使用次数,确定任一候选语音引擎在至少一个目标唤醒场景下分别对应的使用权重;基于任一候选语音引擎在至少一个目标唤醒场景下分别对应的使用次数以及任一候选语音引擎在目标服务场景下对应的使用次数,确定任一候选语音引擎在目标服务场景下对应的使用权重。
在一种可能实现方式中,对于至少一个目标唤醒场景包括安静唤醒场景、嘈杂唤醒场景和首次唤醒场景的情况,基于任一候选语音引擎在至少一个目标唤醒场景下分别对应的使用次数以及任一候选语音引擎在目标服务场景下对应的使用次数,确定任一候选语音引擎在至少一个目标唤醒场景下分别对应的使用权重的实现过程包括以下两个步骤:
1、基于任一候选语音引擎在安静唤醒场景下、嘈杂唤醒场景下和首次唤醒场景下分别对应的使用次数以及任一候选语音引擎在目标服务场景下对应的使用次数,确定任一候选语音引擎对应的总使用次数。
统计任一候选语音引擎在安静唤醒场景下对应的使用次数、任一候选语音引擎在嘈杂唤醒场景下对应的使用次数、任一候选语音引擎在首次唤醒场景下对应的使用次数以及任一候选语音引擎在目标服务场景下对应的使用次数的总和,将该总和作为任一候选语音引擎对应的总使用次数。
2、将任一候选语音引擎在安静唤醒场景下对应的使用次数和总使用次数的比值作为任一候选语音引擎在安静唤醒场景下对应的使用权重;将任一候选语音引擎在嘈杂唤醒场景下对应的使用次数和总使用次数的比值作为任一候选语音引擎在嘈杂唤醒场景下对应的使用权重;将任一候选语音引擎在首次唤醒场景下对应的使用次数和总使用次数的比值作为任一候选语音引擎在首次唤醒场景下对应的使用权重。由此,得到任一候选语音引擎在至少一个目标唤醒场景下分别对应的使用权重。
在一种可能实现方式中,对于至少一个目标唤醒场景包括安静唤醒场景、嘈杂唤醒场景和首次唤醒场景的情况,基于任一候选语音引擎在至少一个目标唤醒场景下分别对应的使用次数以及任一候选语音引擎在目标服务场景下对应的使用次数,确定任一候选语音引擎在目标服务场景下对应的使用权重的实现过程包括以下两个步骤:
1、基于任一候选语音引擎在安静唤醒场景下、嘈杂唤醒场景下和首次唤醒场景下分别对应的使用次数以及任一候选语音引擎在目标服务场景下对应的使用次数,确定任一候选语音引擎对应的总使用次数。
2、将任一候选语音引擎在目标服务场景下对应的使用次数和总使用次数的比值作为任一候选语音引擎在目标服务场景下对应的使用权重。
需要说明的是,上述步骤介绍了至少一个目标唤醒场景包括安静唤醒场景、嘈杂唤醒场景和首次唤醒场景的情况下,确定任一候选语音引擎在至少一个目标唤醒场景下分别对应的使用权重以及任一候选语音引擎在目标服务场景下对应的使用权重的实现过程。至少一个目标唤醒场景的情况不局限于此,除同时包括安静唤醒场景、嘈杂唤醒场景和首次唤醒场景外,至少一个目标唤醒场景还可以包括安静唤醒场景、嘈杂唤醒场景和首次唤醒场景中的任一个或任两个。对于至少一个目标唤醒场景包括安静唤醒场景、嘈杂唤醒场景和首次唤醒场景中的任一个或任两个的情况,确定任一候选语音引擎在至少一个目标唤醒场景下分别对应的使用权重以及任一候选语音引擎在目标服务场景下对应的使用权重的过程均可以参照上述步骤实现,此处不再赘述。
(2)至少一个目标应用场景的情况为:至少一个目标应用场景包括目标服务场景。
在至少一个目标应用场景包括目标服务场景的情况下,目标应用场景的数量为1。确定任一候选语音引擎在至少一个目标应用场景下分别对应的使用权重以及任一候选语音引擎在至少一个目标应用场景下分别对应的资源占用数据的过程即为确定任一候选语音引擎在目标服务场景下对应的使用权重以及任一候选语音引擎在目标服务场景下对应的资源占用数据的过程。
在一种可能实现方式中,历史记录信息包括任一候选语音引擎在目标服务场景下产生的至少一条服务记录信息。基于历史记录信息,确定任一候选语音引擎在至少一个目标应用场景下分别对应的使用权重以及任一候选语音引擎在至少一个目标应用场景下分别对应的资源占用数据的过程包括以下两个步骤:
步骤1:基于至少一条服务记录信息,确定任一候选语音引擎在目标服务场景下对应的使用次数,确定任一候选语音引擎在目标服务场景下对应的资源占用数据。
该步骤1的实现方式详见步骤2002B,此处不再赘述。
步骤2:基于任一候选语音引擎在目标服务场景下对应的使用次数,确定任一候选语音引擎在目标服务场景下对应的使用权重。
在一种可能实现方式中,预先设置使用次数和使用权重的对应关系,基于任一候选语音引擎在目标服务场景下对应的使用次数,确定任一候选语音引擎在目标服务场景下对应的使用权重的方式为:基于任一候选语音引擎在目标服务场景下对应的使用次数,从使用次数和使用权重的对应关系中查询与该任一候选语音引擎在目标服务场景下对应的使用次数对应的使用权重。由此,得到任一候选语音引擎在目标服务场景下对应的使用权重。
需要说明的是,本申请实施例对使用次数和使用权重的对应关系的设置方式不加以限定,只需使用次数和使用权重呈正相关关系即可。
(3)至少一个目标应用场景的情况为:至少一个目标应用场景包括至少一个目标唤醒场景。
在至少一个目标应用场景包括至少一个目标唤醒场景的情况下,至少一个目标应用场景是指至少一个目标唤醒场景。确定任一候选语音引擎在至少一个目标应用场景下分别对应的使用权重以及任一候选语音引擎在至少一个目标应用场景下分别对应的资源占用数据的过程即为确定任一候选语音引擎在至少一个目标唤醒场景下分别对应的使用权重以及任一候选语音引擎在至少一个目标唤醒场景下分别对应的资源占用数据的过程。
在一种可能实现方式中,历史记录信息包括任一候选语音引擎在至少一个目标唤醒场景下产生的至少一条唤醒记录信息。在此种情况下,基于历史记录信息,确定任一候选语音引擎在至少一个目标应用场景下分别对应的使用权重以及任一候选语音引擎在至少一个目标应用场景下分别对应的资源占用数据的过程包括以下两个步骤:
1、基于至少一条唤醒记录信息,确定任一候选语音引擎在至少一个目标唤醒场景下分别对应的使用次数,确定任一候选语音引擎在至少一个目标唤醒场景下分别对应的资源占用数据。
该步骤1的实现方式详见步骤2002A,此处不再赘述。
2、基于任一候选语音引擎在至少一个目标唤醒场景下分别对应的使用次数,确定任一候选语音引擎在至少一个目标唤醒场景下分别对应的使用权重。
在一种可能实现方式中,至少一个目标唤醒场景包括安静唤醒场景、嘈杂唤醒场景和首次唤醒场景。基于任一候选语音引擎在至少一个目标唤醒场景下分别对应的使用次数,确定任一候选语音引擎在至少一个目标唤醒场景下分别对应的使用权重的实现过程包括以下步骤2-1和步骤2-2:
步骤2-1:基于任一候选语音引擎在安静唤醒场景下、嘈杂唤醒场景下和首次唤醒场景下分别对应的使用次数,确定任一候选语音引擎对应的参考总次数。
统计任一候选语音引擎在安静唤醒场景下对应的使用次数、任一候选语音引擎在嘈杂唤醒场景下对应的使用次数以及任一候选语音引擎在首次唤醒场景下对应的使用次数的总和,将该总和作为任一候选语音引擎对应的参考总次数。
步骤2-2:将任一候选语音引擎在安静唤醒场景下对应的使用次数和参考总次数的比值作为任一候选语音引擎在安静唤醒场景下对应的使用权重;将任一候选语音引擎在嘈杂唤醒场景下对应的使用次数和参考总次数的比值作为任一候选语音引擎在嘈杂唤醒场景下对应的使用权重;将任一候选语音引擎在首次唤醒场景下对应的使用次数和参考总次数的比值作为任一候选语音引擎在首次唤醒场景下对应的使用权重。由此,得到任一候选语音引擎在至少一个目标唤醒场景下分别对应的使用权重。
需要说明的是,上述步骤2-1和步骤2-2介绍了至少一个目标唤醒场景包括安静唤醒场景、嘈杂唤醒场景和首次唤醒场景的情况下,基于任一候选语音引擎在至少一个目标唤醒场景下分别对应的使用次数,确定任一候选语音引擎在至少一个目标唤醒场景下分别对应的使用权重的实现过程。对于至少一个目标唤醒场景包括安静唤醒场景、嘈杂唤醒场景和首次唤醒场景中的任一个或任两个的情况,基于任一候选语音引擎在至少一个目标唤醒场景下分别对应的使用次数,确定任一候选语音引擎在至少一个目标唤醒场景下分别对应的使用权重的过程均可以参照上述步骤2-1和步骤2-2实现,此处不再赘述。
无论至少一个目标应用场景为哪种情况,均能够基于历史记录信息,确定任一候选语音引擎在至少一个目标应用场景下分别对应的资源占用数据,进而执行步骤2003。
步骤2003:基于任一候选语音引擎在至少一个目标应用场景下分别对应的资源占用数据,确定任一候选语音引擎在至少一个目标应用场景下分别对应的资源未占用数据。
根据任一候选语音引擎在任一目标应用场景下对应的资源占用数据,能够确定任一候选语音引擎在任一目标应用场景下对应的资源未占用数据。
在一种可能实现方式中,对于任一候选语音引擎在任一目标应用场景下对应的资源占用数据用任一候选语音引擎在任一目标应用场景下对总资源的占用比率来表示的情况,基于任一候选语音引擎在任一目标应用场景下对应的资源占用数据,确定任一候选语音引擎在任一目标应用场景下对应的资源未占用数据的方式为:将数值1与任一候选语音引擎在任一目标应用场景下对总资源的占用比率的差值,作为任一候选语音引擎在任一目标应用场景下对应的资源未占用数据。此时,任一候选语音引擎在任一目标应用场景下对应的资源未占用数据同样用比率的形式进行表示。
在一种可能实现方式中,对于任一候选语音引擎在任一目标应用场景下对应的资源占用数据用任一候选语音引擎在任一目标应用场景下具体占用的资源数量值来表示的情况,基于任一候选语音引擎在任一目标应用场景下对应的资源占用数据,确定任一候选语音引擎在任一目标应用场景下对应的资源未占用数据的方式为:将资源总值和任一候选语音引擎在任一目标应用场景下具体占用的资源数量值的差值作为任一候选语音引擎在任一目标应用场景下对应的资源未占用数据。此时,任一候选语音引擎在任一目标应用场景下对应的资源未占用数据同样用资源数量值的形式进行表示。
上述过程介绍了目标对象的终端确定任一候选语音引擎在至少一个目标应用场景下分别对应的使用权重以及任一候选语音引擎在至少一个目标应用场景下分别对应的资源未占用数据的实现过程,该确定过程可以在需要确定任一候选语音引擎对应的目标参数的过程中实时执行,也可以在确定任一候选语音引擎对应的目标参数之前执行,本申请实施例对此不加以限定。无论确定时机为哪种,目标对象的终端均能够获取任一候选语音引擎在至少一个目标应用场景下分别对应的使用权重以及任一候选语音引擎在至少一个目标应用场景下分别对应的资源未占用数据,进而确定该任一候选语音引擎对应的目标参数。
上述过程从任一候选语音引擎的角度说明了确定该任一候选语音引擎对应的目标参数的过程。参照上述过程,能够确定至少一个候选语音引擎分别对应的目标参数,然后执行步骤202。
在步骤202中,在至少一个候选语音引擎分别对应的目标参数中确定满足资源占用性能条件的目标参数,将满足资源占用性能条件的目标参数对应的候选语音引擎作为目标对象对应的目标语音引擎。
任一候选语音引擎对应的目标参数用于从资源占用性能角度衡量该任一候选语音引擎被选择用来为目标对象提供语音交互服务的合适程度。满足资源占用性能条件的目标参数对应的候选语音引擎为资源占用性能较优的语音引擎。
根据目标参数的确定方式不同,在至少一个候选语音引擎分别对应的目标参数中确定满足资源占用性能条件的目标参数的方式也不同:
对于至少一个候选语音引擎分别对应的目标参数基于任一候选语音引擎在至少一个目标应用场景下分别对应的资源占用数据确定的情况,由于资源占用数据的平均数据越大,终端的性能越不稳定,所以任一候选语音引擎对应的目标参数越小,说明该任一候选语音引擎的资源占用性能越优,也说明调用该任一候选语音引擎为目标对象提供语音交互服务的合适程度越高。因此,在此种情况下,在至少一个候选语音引擎分别对应的目标参数中确定满足资源占用性能条件的目标参数的方式为:在至少一个候选语音引擎分别对应的目标参数中确定最小的目标参数。
对于至少一个候选语音引擎分别对应的目标参数基于任一候选语音引擎在至少一个目标应用场景下分别对应的资源未占用数据确定的情况,由于任一候选语音引擎对应的目标参数越大时,说明该任一候选语音引擎的资源占用性能越优,该任一候选语音引擎被选择用来为目标对象提供语音交互服务的合适程度越大。因此,在此种情况下,在至少一个候选语音引擎分别对应的目标参数中确定满足资源占用性能条件的目标参数的方式为:在至少一个候选语音引擎分别对应的目标参数中确定最大的目标参数。
在确定满足资源占用性能条件的目标参数后,将满足资源占用性能条件的目标参数对应的候选语音引擎作为目标对象对应的目标语音引擎。该目标语音引擎即为各个候选语音引擎中资源占用性能最优的候选语音引擎,也为各个候选语音引擎中被选择用来为目标对象提供语音交互服务的合适程度最高的候选语音引擎。
示例性地,目标语音引擎的选择过程如图3所示。假设目标对象的终端中安装了两个语音引擎,分别为A语音引擎和B语音引擎,假设至少一个目标应用场景包括安静唤醒场景、嘈杂唤醒场景和首次唤醒场景和目标服务场景这四个场景。如图3所示,A语音引擎在安静唤醒场景、嘈杂唤醒场景和首次唤醒场景和目标服务场景这四个场景下分别对应的使用权重为40%、10%、10%和40%,A语音引擎在安静唤醒场景、嘈杂唤醒场景和首次唤醒场景和目标服务场景这四个场景下分别对应的资源占用比率为5%、25%、30%和22%,将这些数据代入公式1,能够得到A语音引擎对应的目标参数F(A);B语音引擎在安静唤醒场景、嘈杂唤醒场景和首次唤醒场景和目标服务场景这四个场景下分别对应的使用权重为20%、20%、30%和30%,B语音引擎在安静唤醒场景、嘈杂唤醒场景和首次唤醒场景和目标服务场景这四个场景下分别对应的资源占用比率为8%、15%、30%和12%,将这些数据代入公式1,能够得到B语音引擎对应的目标参数F(B)。根据A语音引擎对应的目标参数F(A)和B语音引擎对应的目标参数F(B),从A语音引擎和B语音引擎中选择目标语音引擎。
在步骤203中,调用目标语音引擎为目标对象提供语音交互服务。
在将满足资源占用性能条件的目标参数对应的候选语音引擎作为目标对象对应的目标语音引擎之后,调用目标语音引擎为目标对象提供语音交互服务。调用目标语音引擎为目标对象提供语音交互服务是指:根据识别出的目标对象的语音交互指令,调用目标语音引擎执行语音交互指令对应的操作。示例性地,根据识别出的目标对象的拨打电话指令,调用目标语音引擎执行拨打电话的操作等。目标对象的语音交互指令可以是指调用目标语音引擎识别出的,也可以是指调用离线识别引擎识别出的(如,从特定语料音频中识别出语音交互指令),本申请实施例对此不加以限定。
需要说明的是,本申请实施例对调用目标语音引擎为目标对象提供语音交互服务的时机不加以限定。示例性地,对于目标对象的终端为车载终端的情况,在目标对象触发车辆方控中的语音交互服务按钮时,调用目标语音引擎为目标对象提供语音交互服务。车辆方控是是专门为驾车场景所设计的车载小硬件,可以控制导航、音乐、电话、语音等,让车辆驾驶过程更加专注,保障享受服务过程中的行车安全。车辆方控与车载终端连接,当目标对象触发车辆方控中的语音交互服务按钮时,车载终端获取到语音交互服务请求,进而调用合适的目标语音引擎为目标对象提供语音交互服务。
示例性地,语音交互服务的实现过程如图4所示,假设目标对象的终端为车载终端,该车载终端接入IOT(Internet of Things,物联网),该IOT能够根据车载终端记录的信息确定各个语音引擎(A语音引擎和B语音引擎)在至少一个目标应用场景下分别对应的使用权重以及分别对应的资源未占用数据,并且将各个语音引擎(A语音引擎和B语音引擎)在至少一个目标应用场景下分别对应的使用权重以及分别对应的资源未占用数据上传至云端。当车载终端检测到目标对象触发方控中的语音交互服务按钮时,车载终端通过IOT获取各个语音引擎在至少一个目标应用场景下分别对应的使用权重以及分别对应的资源未占用数据,进而通过根据各个语音引擎在至少一个目标应用场景下分别对应的使用权重以及分别对应的资源未占用数据确定各个语音引擎分别对应的目标参数,在目标对象的驾车行驶过程中,选择较优的语音引擎为目标对象提供语音交互服务,避免因资源紧张造成的卡顿。
在本申请实施例中,目标语音引擎的选择过程既考虑目标对象的使用习惯,又考虑语音引擎的资源占用性能,此种方式选择的目标语音引擎为综合考虑多方面信息的情况下确定的最优的语音引擎,能够增强语音引擎的可使用性和流畅度。此外,优化语音引擎的场景化体验,能够避免资源紧张状态下,语音引擎的卡顿对终端系统造成的负担。
在不同的应用时刻,任一候选语音引擎在至少一个目标应用场景下分别对应的数据可能不同,任一候选语音引擎对应的目标参数可能也不同。因此,在不同的选择时刻,最终选择的目标语音引擎可能也不同。也就是说,选择目标语音引擎的过程为动态的过程,有利于及时调整选择的目标语音引擎,以选择出当前综合性能最优的语音引擎为目标对象提供语音交互服务。
在本申请实施例中,在选择目标语音引擎的过程中,考虑语音引擎在至少一个目标应用场景下的目标资源数据,根据候选语音引擎在至少一个目标应用场景下分别对应的目标资源数据,确定候选语音引擎对应的目标参数,进而将满足资源占用性能的目标参数对应的候选语音引擎作为目标语音引擎。在上述过程中,由于目标资源数据用于指示资源占用性能,所以根据目标资源数据确定的目标参数能够从资源占用性能角度衡量语音引擎,满足资源占用性能条件的目标参数对应的语音引擎为资源占用性能较优的语音引擎,语音引擎的选择效果较好,从而能够提高调用选择的目标语音引擎为目标对象提供语音交互服务的服务效果。
参见图5,本申请实施例提供了一种语音交互服务装置,该装置包括:
第一确定模块501,用于对于至少一个候选语音引擎中的任一候选语音引擎,基于任一候选语音引擎在至少一个目标应用场景下分别对应的目标资源数据,确定任一候选语音引擎对应的目标参数,至少一个候选语音引擎为目标对象的终端中安装的至少一个语音引擎,目标资源数据用于指示资源占用性能;
第二确定模块502,用于在至少一个候选语音引擎分别对应的目标参数中确定满足资源占用性能条件的目标参数,将满足资源占用性能条件的目标参数对应的候选语音引擎作为目标对象对应的目标语音引擎;
服务模块503,用于调用目标语音引擎为目标对象提供语音交互服务。
在一种可能实现方式中,目标资源数据包括资源未占用数据,第一确定模块501,用于对于至少一个目标应用场景中的任一目标应用场景,将任一候选语音引擎在任一目标应用场景下对应的使用权重和任一候选语音引擎在任一目标应用场景下对应的资源未占用数据的乘积作为任一目标应用场景对应的子参数;基于至少一个目标应用场景分别对应的子参数,确定任一候选语音引擎对应的目标参数。
第二确定模块502,用于在至少一个候选语音引擎分别对应的目标参数中确定最大的目标参数。
在一种可能实现方式中,参见图6,该装置还包括:
获取模块504,用于获取任一候选语音引擎的历史记录信息;
第三确定模块505,用于基于历史记录信息,确定任一候选语音引擎在至少一个目标应用场景下分别对应的使用权重以及任一候选语音引擎在至少一个目标应用场景下分别对应的资源占用数据;
第四确定模块506,用于基于任一候选语音引擎在至少一个目标应用场景下分别对应的资源占用数据,确定任一候选语音引擎在至少一个目标应用场景下分别对应的资源未占用数据。
在一种可能实现方式中,至少一个目标应用场景包括目标服务场景,历史记录信息包括任一候选语音引擎在目标服务场景下产生的至少一条服务记录信息;第三确定模块505,用于基于至少一条服务记录信息,确定任一候选语音引擎在目标服务场景下对应的使用次数,确定任一候选语音引擎在目标服务场景下对应的资源占用数据;
基于任一候选语音引擎在目标服务场景下对应的使用次数,确定任一候选语音引擎在目标服务场景下对应的使用权重。
在一种可能实现方式中,至少一个目标应用场景包括至少一个目标唤醒场景,历史记录信息包括任一候选语音引擎在至少一个目标唤醒场景下产生的至少一条唤醒记录信息;第三确定模块505,用于基于至少一条唤醒记录信息,确定任一候选语音引擎在至少一个目标唤醒场景下分别对应的使用次数,确定任一候选语音引擎在至少一个目标唤醒场景下分别对应的资源占用数据;
基于任一候选语音引擎在至少一个目标唤醒场景下分别对应的使用次数,确定任一候选语音引擎在至少一个目标唤醒场景下分别对应的使用权重。
在一种可能实现方式中,至少一个目标应用场景包括目标服务场景和至少一个目标唤醒场景,历史记录信息包括任一候选语音引擎在至少一个目标唤醒场景下产生的至少一条唤醒记录信息以及任一候选语音引擎在目标服务场景下产生的至少一条服务记录信息;
第三确定模块505,用于基于至少一条唤醒记录信息,确定任一候选语音引擎在至少一个目标唤醒场景下分别对应的使用次数,确定任一候选语音引擎在至少一个目标唤醒场景下分别对应的资源占用数据;基于至少一条服务记录信息,确定任一候选语音引擎在目标服务场景下对应的使用次数,确定任一候选语音引擎在目标服务场景下对应的资源占用数据;基于任一候选语音引擎在至少一个目标唤醒场景下分别对应的使用次数以及任一候选语音引擎在目标服务场景下对应的使用次数,确定任一候选语音引擎在至少一个目标唤醒场景下分别对应的使用权重;基于任一候选语音引擎在至少一个目标唤醒场景下分别对应的使用次数以及任一候选语音引擎在目标服务场景下对应的使用次数,确定任一候选语音引擎在目标服务场景下对应的使用权重。
在一种可能实现方式中,至少一个目标唤醒场景包括安静唤醒场景、嘈杂唤醒场景和首次唤醒场景,任一条唤醒记录信息包括唤醒环境音频和唤醒标志位;第三确定模块505,还用于对于至少一条唤醒记录信息中的任一条唤醒记录信息,对任一条唤醒记录信息中的唤醒环境音频进行识别处理,确定唤醒环境音频对应的唤醒环境;响应于唤醒环境音频对应的唤醒环境为安静环境且任一条唤醒记录信息中的唤醒标志位为指定标志位,获取更新后的安静唤醒次数和更新后的首次唤醒次数;响应于唤醒环境音频对应的唤醒环境为嘈杂环境且任一条唤醒记录信息中的唤醒标志位为指定标志位,获取更新后的嘈杂唤醒次数和更新后的首次唤醒次数;响应于唤醒环境音频对应的唤醒环境为安静环境且任一条唤醒记录信息中的唤醒标志位为非指定标志位,获取更新后的安静唤醒次数;响应于唤醒环境音频对应的唤醒环境为嘈杂环境且任一条唤醒记录信息中的唤醒标志位为非指定标志位,获取更新后的嘈杂唤醒次数;将遍历至少一条唤醒记录信息后得到的安静唤醒次数作为任一候选语音引擎在安静唤醒场景下对应的使用次数;将遍历至少一条唤醒记录信息后得到的嘈杂唤醒次数作为任一候选语音引擎在嘈杂唤醒场景下对应的使用次数;将遍历至少一条唤醒记录信息后得到的首次唤醒次数作为任一候选语音引擎在首次唤醒场景下对应的使用次数。
在一种可能实现方式中,任一条唤醒记录信息还包括第一回调信息和第二回调信息;第三确定模块505,还用于对于至少一条唤醒记录信息中的任一条唤醒记录信息,从任一条唤醒记录信息中的第一回调信息中解析出第一资源占用数据;响应于任一条唤醒记录信息中的唤醒环境音频对应的唤醒环境为安静环境且任一条唤醒记录信息中的唤醒标志位为指定标志位,从任一条唤醒记录信息中的第二回调信息中解析出第二资源占用数据,将第一资源占用数据添加至安静唤醒数据集中,将第二资源占用数据添加至首次唤醒数据集中;响应于任一条唤醒记录信息中的唤醒环境音频对应的唤醒环境为嘈杂环境且任一条唤醒记录信息中的唤醒标志位为指定标志位,从任一条唤醒记录信息中的第二回调信息中解析出第二资源占用数据,将第一资源占用数据添加至嘈杂唤醒数据集中,将第二资源占用数据添加至首次唤醒数据集中;响应于任一条唤醒记录信息中的唤醒环境音频对应的唤醒环境为安静环境且任一条唤醒记录信息中的唤醒标志位为非指定标志位,将第一资源占用数据添加至安静唤醒数据集中;响应于任一条唤醒记录信息中的唤醒环境音频对应的唤醒环境为嘈杂环境且任一条唤醒记录信息中的唤醒标志位为非指定标志位,将第一资源占用数据添加至嘈杂唤醒数据集中;将遍历至少一条唤醒记录信息后得到的安静唤醒数据集中的各个资源占用数据的平均数据作为任一候选语音引擎在安静唤醒场景下对应的资源占用数据;将遍历至少一条唤醒记录信息后得到的嘈杂唤醒数据集中的各个资源占用数据的平均数据作为任一候选语音引擎在嘈杂唤醒场景下对应的资源占用数据;将遍历至少一条唤醒记录信息后得到的首次唤醒数据集中的各个资源占用数据的平均数据作为任一候选语音引擎在首次唤醒场景下对应的资源占用数据。
在一种可能实现方式中,任一条服务记录信息包括第三回调信息,第三确定模块505,还用于将至少一条服务记录信息的数量作为任一候选语音引擎在目标服务场景下对应的使用次数;对于至少一条服务记录信息中的任一条服务记录信息,从任一条服务记录信息中的第三回调信息中解析出第三资源占用数据,将第三资源占用数据添加至目标服务数据集中;将遍历至少一条服务记录信息后得到的目标服务数据集中的各个资源占用数据的平均数据作为任一候选语音引擎在目标服务场景下对应的资源占用数据。
在一种可能实现方式中,目标资源数据包括资源占用数据,任一候选语音引擎对应的目标参数基于任一候选语音引擎在至少一个目标应用场景下分别对应的资源占用数据确定;
第二确定模块502,用于在至少一个候选语音引擎分别对应的目标参数中确定最小的目标参数。
在本申请实施例中,在选择目标语音引擎的过程中,考虑语音引擎在至少一个目标应用场景下的目标资源数据,根据候选语音引擎在至少一个目标应用场景下分别对应的目标资源数据,确定候选语音引擎对应的目标参数,进而将满足资源占用性能的目标参数对应的候选语音引擎作为目标语音引擎。在上述过程中,由于目标资源数据用于指示资源占用性能,所以根据目标资源数据确定的目标参数能够从资源占用性能角度衡量语音引擎,满足资源占用性能条件的目标参数对应的语音引擎为资源占用性能较优的语音引擎,语音引擎的选择效果较好,从而能够提高调用选择的目标语音引擎为目标对象提供语音交互服务的服务效果。
需要说明的是,上述实施例提供的装置在实现其功能时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的装置与方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
图7是本申请实施例提供的一种语音交互服务设备的结构示意图。该设备可以为终端,例如可以是:智能手机、平板电脑、车载终端、笔记本电脑或台式电脑。终端还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。
通常,终端包括有:处理器701和存储器702。
处理器701可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器701可以采用DSP(Digital Signal Processing,数字信号处理)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)、PLA(Programmable Logic Array,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器701也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称CPU(Central ProcessingUnit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器701可以集成有GPU(Graphics Processing Unit,图像处理器),GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器701还可以包括AI(Artificial Intelligence,人工智能)处理器,该AI处理器用于处理有关机器学习的计算操作。
存储器702可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器702还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中,存储器702中的非暂态的计算机可读存储介质用于存储至少一个指令,该至少一个指令用于被处理器701所执行以实现本申请中方法实施例提供的语音交互服务方法。
在一些实施例中,终端还可选包括有:外围设备接口703和至少一个外围设备。处理器701、存储器702和外围设备接口703之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口703相连。具体地,外围设备包括:射频电路704、触摸显示屏705、摄像头组件706、音频电路707、定位组件708和电源709中的至少一种。
外围设备接口703可被用于将I/O(Input/Output,输入/输出)相关的至少一个外围设备连接到处理器701和存储器702。在一些实施例中,处理器701、存储器702和外围设备接口703被集成在同一芯片或电路板上;在一些其他实施例中,处理器701、存储器702和外围设备接口703中的任意一个或两个可以在单独的芯片或电路板上实现,本实施例对此不加以限定。
射频电路704用于接收和发射RF(Radio Frequency,射频)信号,也称电磁信号。射频电路704通过电磁信号与通信网络以及其他通信设备进行通信。射频电路704将电信号转换为电磁信号进行发送,或者,将接收到的电磁信号转换为电信号。可选地,射频电路704包括:天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路704可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于:城域网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity,无线保真)网络。在一些实施例中,射频电路704还可以包括NFC(Near Field Communication,近距离无线通信)有关的电路,本申请对此不加以限定。
显示屏705用于显示UI(User Interface,用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏705是触摸显示屏时,显示屏705还具有采集在显示屏705的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器701进行处理。此时,显示屏705还可以用于提供虚拟按钮和/或虚拟键盘,也称软按钮和/或软键盘。在一些实施例中,显示屏705可以为一个,设置在终端的前面板;在另一些实施例中,显示屏705可以为至少两个,分别设置在终端的不同表面或呈折叠设计;在再一些实施例中,显示屏705可以是柔性显示屏,设置在终端的弯曲表面上或折叠面上。甚至,显示屏705还可以设置成非矩形的不规则图形,也即异形屏。显示屏705可以采用LCD(LiquidCrystal Display,液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。
摄像头组件706用于采集图像或视频。可选地,摄像头组件706包括前置摄像头和后置摄像头。通常,前置摄像头设置在终端的前面板,后置摄像头设置在终端的背面。在一些实施例中,后置摄像头为至少两个,分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种,以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality,虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中,摄像头组件706还可以包括闪光灯。闪光灯可以是单色温闪光灯,也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合,可以用于不同色温下的光线补偿。
音频电路707可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波,并将声波转换为电信号输入至处理器701进行处理,或者输入至射频电路704以实现语音通信。出于立体声采集或降噪的目的,麦克风可以为多个,分别设置在终端的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器701或射频电路704的电信号转换为声波。扬声器可以是传统的薄膜扬声器,也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时,不仅可以将电信号转换为人类可听见的声波,也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中,音频电路707还可以包括耳机插孔。
定位组件708用于定位终端的当前地理位置,以实现导航或LBS(Location BasedService,基于位置的服务)。定位组件708可以是基于美国的GPS(Global PositioningSystem,全球定位系统)、中国的北斗系统、俄罗斯的格雷纳斯系统或欧盟的伽利略系统的定位组件。
电源709用于为终端中的各个组件进行供电。电源709可以是交流电、直流电、一次性电池或可充电电池。当电源709包括可充电电池时,该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。
在一些实施例中,终端还包括有一个或多个传感器710。该一个或多个传感器710包括但不限于:加速度传感器711、陀螺仪传感器712、压力传感器713、指纹传感器714、光学传感器715以及接近传感器716。
加速度传感器711可以检测以终端建立的坐标系的三个坐标轴上的加速度大小。比如,加速度传感器711可以用于检测重力加速度在三个坐标轴上的分量。处理器701可以根据加速度传感器711采集的重力加速度信号,控制触摸显示屏705以横向视图或纵向视图进行用户界面的显示。加速度传感器711还可以用于游戏或者用户的运动数据的采集。
陀螺仪传感器712可以检测终端的机体方向及转动角度,陀螺仪传感器712可以与加速度传感器711协同采集用户对终端的3D动作。处理器701根据陀螺仪传感器712采集的数据,可以实现如下功能:动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。
压力传感器713可以设置在终端的侧边框和/或触摸显示屏705的下层。当压力传感器713设置在终端的侧边框时,可以检测用户对终端的握持信号,由处理器701根据压力传感器713采集的握持信号进行左右手识别或快捷操作。当压力传感器713设置在触摸显示屏705的下层时,由处理器701根据用户对触摸显示屏705的压力操作,实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。
指纹传感器714用于采集用户的指纹,由处理器701根据指纹传感器714采集到的指纹识别用户的身份,或者,由指纹传感器714根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时,由处理器701授权该用户执行相关的敏感操作,该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器714可以被设置在终端的正面、背面或侧面。当终端上设置有物理按键或厂商Logo时,指纹传感器714可以与物理按键或厂商Logo集成在一起。
光学传感器715用于采集环境光强度。在一个实施例中,处理器701可以根据光学传感器715采集的环境光强度,控制触摸显示屏705的显示亮度。具体地,当环境光强度较高时,调高触摸显示屏705的显示亮度;当环境光强度较低时,调低触摸显示屏705的显示亮度。在另一个实施例中,处理器701还可以根据光学传感器715采集的环境光强度,动态调整摄像头组件706的拍摄参数。
接近传感器716,也称距离传感器,通常设置在终端的前面板。接近传感器716用于采集用户与终端的正面之间的距离。在一个实施例中,当接近传感器716检测到用户与终端的正面之间的距离逐渐变小时,由处理器701控制触摸显示屏705从亮屏状态切换为息屏状态;当接近传感器716检测到用户与终端的正面之间的距离逐渐变大时,由处理器701控制触摸显示屏705从息屏状态切换为亮屏状态。
本领域技术人员可以理解,图7中示出的结构并不构成对终端的限定,可以包括比图示更多或更少的组件,或者组合某些组件,或者采用不同的组件布置。
在示例性实施例中,还提供了一种计算机设备,该计算机设备包括处理器和存储器,该存储器中存储有至少一条程序代码。该至少一条程序代码由一个或者一个以上处理器加载并执行,以实现上述任一种语音交互服务方法。
在示例性实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有至少一条程序代码,该至少一条程序代码由计算机设备的处理器加载并执行,以实现上述任一种语音交互服务方法。
在一种可能实现方式中,上述计算机可读存储介质可以是只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、只读光盘(Compact DiscRead-Only Memory,CD-ROM)、磁带、软盘和光数据存储设备等。
在示例性实施例中,还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述任一种语音交互服务方法。
应当理解的是,在本文中提及的“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
以上所述仅为本申请的示例性实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (13)
1.一种语音交互服务方法,其特征在于,所述方法包括:
对于至少一个候选语音引擎中的任一候选语音引擎,基于所述任一候选语音引擎在至少一个目标应用场景下分别对应的目标资源数据,确定所述任一候选语音引擎对应的目标参数,所述至少一个候选语音引擎为目标对象的终端中安装的至少一个语音引擎,所述目标资源数据用于指示资源占用性能;
在所述至少一个候选语音引擎分别对应的目标参数中确定满足资源占用性能条件的目标参数,将所述满足资源占用性能条件的目标参数对应的候选语音引擎作为所述目标对象对应的目标语音引擎;
调用所述目标语音引擎为所述目标对象提供语音交互服务。
2.根据权利要求1所述的方法,其特征在于,所述目标资源数据包括资源未占用数据,所述基于所述任一候选语音引擎在至少一个目标应用场景下分别对应的目标资源数据,确定所述任一候选语音引擎对应的目标参数,包括:
对于所述至少一个目标应用场景中的任一目标应用场景,将所述任一候选语音引擎在所述任一目标应用场景下对应的使用权重和所述任一候选语音引擎在所述任一目标应用场景下对应的资源未占用数据的乘积作为所述任一目标应用场景对应的子参数;
基于所述至少一个目标应用场景分别对应的子参数,确定所述任一候选语音引擎对应的目标参数;
所述在所述至少一个候选语音引擎分别对应的目标参数中确定满足资源占用性能条件的目标参数,包括:
在所述至少一个候选语音引擎分别对应的目标参数中确定最大的目标参数。
3.根据权利要求2所述的方法,其特征在于,所述将所述任一候选语音引擎在所述任一目标应用场景下对应的使用权重和所述任一候选语音引擎在所述任一目标应用场景下对应的资源未占用数据的乘积作为所述任一目标应用场景对应的子参数之前,所述方法还包括:
获取所述任一候选语音引擎的历史记录信息;
基于所述历史记录信息,确定所述任一候选语音引擎在至少一个目标应用场景下分别对应的使用权重以及所述任一候选语音引擎在至少一个目标应用场景下分别对应的资源占用数据;
基于所述任一候选语音引擎在所述至少一个目标应用场景下分别对应的资源占用数据,确定所述任一候选语音引擎在所述至少一个目标应用场景下分别对应的资源未占用数据。
4.根据权利要求3所述的方法,其特征在于,所述至少一个目标应用场景包括目标服务场景,所述历史记录信息包括所述任一候选语音引擎在所述目标服务场景下产生的至少一条服务记录信息;
所述基于所述历史记录信息,确定所述任一候选语音引擎在至少一个目标应用场景下分别对应的使用权重以及所述任一候选语音引擎在至少一个目标应用场景下分别对应的资源占用数据,包括:
基于所述至少一条服务记录信息,确定所述任一候选语音引擎在所述目标服务场景下对应的使用次数,确定所述任一候选语音引擎在所述目标服务场景下对应的资源占用数据;
基于所述任一候选语音引擎在所述目标服务场景下对应的使用次数,确定所述任一候选语音引擎在所述目标服务场景下对应的使用权重。
5.根据权利要求3所述的方法,其特征在于,所述至少一个目标应用场景包括至少一个目标唤醒场景,所述历史记录信息包括所述任一候选语音引擎在所述至少一个目标唤醒场景下产生的至少一条唤醒记录信息;
所述基于所述历史记录信息,确定所述任一候选语音引擎在至少一个目标应用场景下分别对应的使用权重以及所述任一候选语音引擎在至少一个目标应用场景下分别对应的资源占用数据,包括:
基于所述至少一条唤醒记录信息,确定所述任一候选语音引擎在所述至少一个目标唤醒场景下分别对应的使用次数,确定所述任一候选语音引擎在所述至少一个目标唤醒场景下分别对应的资源占用数据;
基于所述任一候选语音引擎在所述至少一个目标唤醒场景下分别对应的使用次数,确定所述任一候选语音引擎在所述至少一个目标唤醒场景下分别对应的使用权重。
6.根据权利要求3所述的方法,其特征在于,所述至少一个目标应用场景包括目标服务场景和至少一个目标唤醒场景,所述历史记录信息包括所述任一候选语音引擎在所述至少一个目标唤醒场景下产生的至少一条唤醒记录信息以及所述任一候选语音引擎在所述目标服务场景下产生的至少一条服务记录信息;
所述基于所述历史记录信息,确定所述任一候选语音引擎在至少一个目标应用场景下分别对应的使用权重以及所述任一候选语音引擎在至少一个目标应用场景下分别对应的资源占用数据,包括:
基于所述至少一条唤醒记录信息,确定所述任一候选语音引擎在所述至少一个目标唤醒场景下分别对应的使用次数,确定所述任一候选语音引擎在所述至少一个目标唤醒场景下分别对应的资源占用数据;
基于所述至少一条服务记录信息,确定所述任一候选语音引擎在所述目标服务场景下对应的使用次数,确定所述任一候选语音引擎在所述目标服务场景下对应的资源占用数据;
基于所述任一候选语音引擎在所述至少一个目标唤醒场景下分别对应的使用次数以及所述任一候选语音引擎在所述目标服务场景下对应的使用次数,确定所述任一候选语音引擎在所述至少一个目标唤醒场景下分别对应的使用权重;基于所述任一候选语音引擎在所述至少一个目标唤醒场景下分别对应的使用次数以及所述任一候选语音引擎在所述目标服务场景下对应的使用次数,确定所述任一候选语音引擎在所述目标服务场景下对应的使用权重。
7.根据权利要求5或6所述的方法,其特征在于,所述至少一个目标唤醒场景包括安静唤醒场景、嘈杂唤醒场景和首次唤醒场景,任一条唤醒记录信息包括唤醒环境音频和唤醒标志位;所述基于所述至少一条唤醒记录信息,确定所述任一候选语音引擎在所述至少一个目标唤醒场景下分别对应的使用次数,包括:
对于所述至少一条唤醒记录信息中的任一条唤醒记录信息,对所述任一条唤醒记录信息中的唤醒环境音频进行识别处理,确定所述唤醒环境音频对应的唤醒环境;
响应于所述唤醒环境音频对应的唤醒环境为安静环境且所述任一条唤醒记录信息中的唤醒标志位为指定标志位,获取更新后的安静唤醒次数和更新后的首次唤醒次数;
响应于所述唤醒环境音频对应的唤醒环境为嘈杂环境且所述任一条唤醒记录信息中的唤醒标志位为指定标志位,获取更新后的嘈杂唤醒次数和更新后的首次唤醒次数;
响应于所述唤醒环境音频对应的唤醒环境为安静环境且所述任一条唤醒记录信息中的唤醒标志位为非指定标志位,获取更新后的安静唤醒次数;
响应于所述唤醒环境音频对应的唤醒环境为嘈杂环境且所述任一条唤醒记录信息中的唤醒标志位为非指定标志位,获取更新后的嘈杂唤醒次数;
将遍历所述至少一条唤醒记录信息后得到的安静唤醒次数作为所述任一候选语音引擎在所述安静唤醒场景下对应的使用次数;将遍历所述至少一条唤醒记录信息后得到的嘈杂唤醒次数作为所述任一候选语音引擎在所述嘈杂唤醒场景下对应的使用次数;将遍历所述至少一条唤醒记录信息后得到的首次唤醒次数作为所述任一候选语音引擎在所述首次唤醒场景下对应的使用次数。
8.根据权利要求7所述的方法,其特征在于,所述任一条唤醒记录信息还包括第一回调信息和第二回调信息;所述确定所述任一候选语音引擎在所述至少一个目标唤醒场景下分别对应的资源占用数据,包括:
对于所述至少一条唤醒记录信息中的任一条唤醒记录信息,从所述任一条唤醒记录信息中的第一回调信息中解析出第一资源占用数据;
响应于所述任一条唤醒记录信息中的唤醒环境音频对应的唤醒环境为安静环境且所述任一条唤醒记录信息中的唤醒标志位为指定标志位,从所述任一条唤醒记录信息中的第二回调信息中解析出第二资源占用数据,将所述第一资源占用数据添加至安静唤醒数据集中,将所述第二资源占用数据添加至首次唤醒数据集中;
响应于所述任一条唤醒记录信息中的唤醒环境音频对应的唤醒环境为嘈杂环境且所述任一条唤醒记录信息中的唤醒标志位为指定标志位,从所述任一条唤醒记录信息中的第二回调信息中解析出第二资源占用数据,将所述第一资源占用数据添加至嘈杂唤醒数据集中,将所述第二资源占用数据添加至首次唤醒数据集中;
响应于所述任一条唤醒记录信息中的唤醒环境音频对应的唤醒环境为安静环境且所述任一条唤醒记录信息中的唤醒标志位为非指定标志位,将所述第一资源占用数据添加至安静唤醒数据集中;
响应于所述任一条唤醒记录信息中的唤醒环境音频对应的唤醒环境为嘈杂环境且所述任一条唤醒记录信息中的唤醒标志位为非指定标志位,将所述第一资源占用数据添加至嘈杂唤醒数据集中;
将遍历所述至少一条唤醒记录信息后得到的安静唤醒数据集中的各个资源占用数据的平均数据作为所述任一候选语音引擎在所述安静唤醒场景下对应的资源占用数据;将遍历所述至少一条唤醒记录信息后得到的嘈杂唤醒数据集中的各个资源占用数据的平均数据作为所述任一候选语音引擎在所述嘈杂唤醒场景下对应的资源占用数据;将遍历所述至少一条唤醒记录信息后得到的首次唤醒数据集中的各个资源占用数据的平均数据作为所述任一候选语音引擎在所述首次唤醒场景下对应的资源占用数据。
9.根据权利要求4或6所述的方法,其特征在于,任一条服务记录信息包括第三回调信息,所述基于所述至少一条服务记录信息,确定所述任一候选语音引擎在所述目标服务场景下对应的使用次数,确定所述任一候选语音引擎在所述目标服务场景下对应的资源占用数据,包括:
将所述至少一条服务记录信息的数量作为所述任一候选语音引擎在所述目标服务场景下对应的使用次数;
对于所述至少一条服务记录信息中的任一条服务记录信息,从所述任一条服务记录信息中的第三回调信息中解析出第三资源占用数据,将所述第三资源占用数据添加至目标服务数据集中;
将遍历所述至少一条服务记录信息后得到的目标服务数据集中的各个资源占用数据的平均数据作为所述任一候选语音引擎在所述目标服务场景下对应的资源占用数据。
10.根据权利要求1所述的方法,其特征在于,所述目标资源数据包括资源占用数据,所述任一候选语音引擎对应的目标参数基于所述任一候选语音引擎在至少一个目标应用场景下分别对应的资源占用数据确定;
所述在所述至少一个候选语音引擎分别对应的目标参数中确定满足资源占用性能条件的目标参数,包括:
在所述至少一个候选语音引擎分别对应的目标参数中确定最小的目标参数。
11.一种语音交互服务装置,其特征在于,所述装置包括:
第一确定模块,用于对于至少一个候选语音引擎中的任一候选语音引擎,基于所述任一候选语音引擎在至少一个目标应用场景下分别对应的目标资源数据,确定所述任一候选语音引擎对应的目标参数,所述至少一个候选语音引擎为目标对象的终端中安装的至少一个语音引擎,所述目标资源数据用于指示资源占用性能;
第二确定模块,用于在所述至少一个候选语音引擎分别对应的目标参数中确定满足资源占用性能条件的目标参数,将所述满足资源占用性能条件的目标参数对应的候选语音引擎作为所述目标对象对应的目标语音引擎;
服务模块,用于调用所述目标语音引擎为所述目标对象提供语音交互服务。
12.一种计算机设备,其特征在于,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条程序代码,所述至少一条程序代码由所述处理器加载并执行,以实现如权利要求1至10任一所述的语音交互服务方法。
13.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有至少一条程序代码,所述至少一条程序代码由处理器加载并执行,以实现如权利要求1至10任一所述的语音交互服务方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010652021.7A CN111862972B (zh) | 2020-07-08 | 2020-07-08 | 语音交互服务方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010652021.7A CN111862972B (zh) | 2020-07-08 | 2020-07-08 | 语音交互服务方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111862972A true CN111862972A (zh) | 2020-10-30 |
CN111862972B CN111862972B (zh) | 2023-11-14 |
Family
ID=73152451
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010652021.7A Active CN111862972B (zh) | 2020-07-08 | 2020-07-08 | 语音交互服务方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111862972B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112509569A (zh) * | 2020-11-24 | 2021-03-16 | 北京百度网讯科技有限公司 | 语音数据的处理方法、装置、电子设备及存储介质 |
CN112802471A (zh) * | 2020-12-31 | 2021-05-14 | 北京梧桐车联科技有限责任公司 | 语音音区切换方法、装置、设备及存储介质 |
CN113920995A (zh) * | 2021-10-14 | 2022-01-11 | 上海仙塔智能科技有限公司 | 语音引擎的处理方法、装置、电子设备与存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050065790A1 (en) * | 2003-09-23 | 2005-03-24 | Sherif Yacoub | System and method using multiple automated speech recognition engines |
CN101329868A (zh) * | 2008-07-31 | 2008-12-24 | 林超 | 一种针对地区语言使用偏好的语音识别优化系统及其方法 |
CN107171874A (zh) * | 2017-07-21 | 2017-09-15 | 维沃移动通信有限公司 | 一种语音引擎切换方法、移动终端及服务器 |
JP2017187559A (ja) * | 2016-04-01 | 2017-10-12 | アルパイン株式会社 | 音声認識装置及びコンピュータプログラム |
CN109036431A (zh) * | 2018-07-11 | 2018-12-18 | 北京智能管家科技有限公司 | 一种语音识别系统和方法 |
CN111179934A (zh) * | 2018-11-12 | 2020-05-19 | 奇酷互联网络科技(深圳)有限公司 | 选择语音引擎的方法、移动终端和计算机可读存储介质 |
-
2020
- 2020-07-08 CN CN202010652021.7A patent/CN111862972B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050065790A1 (en) * | 2003-09-23 | 2005-03-24 | Sherif Yacoub | System and method using multiple automated speech recognition engines |
CN101329868A (zh) * | 2008-07-31 | 2008-12-24 | 林超 | 一种针对地区语言使用偏好的语音识别优化系统及其方法 |
JP2017187559A (ja) * | 2016-04-01 | 2017-10-12 | アルパイン株式会社 | 音声認識装置及びコンピュータプログラム |
CN107171874A (zh) * | 2017-07-21 | 2017-09-15 | 维沃移动通信有限公司 | 一种语音引擎切换方法、移动终端及服务器 |
CN109036431A (zh) * | 2018-07-11 | 2018-12-18 | 北京智能管家科技有限公司 | 一种语音识别系统和方法 |
CN111179934A (zh) * | 2018-11-12 | 2020-05-19 | 奇酷互联网络科技(深圳)有限公司 | 选择语音引擎的方法、移动终端和计算机可读存储介质 |
Non-Patent Citations (1)
Title |
---|
朱俊;聂龙生;徐云;罗准辰;: "航天三维可视化系统中语音控制技术的研究与应用", 现代电子技术, no. 08 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112509569A (zh) * | 2020-11-24 | 2021-03-16 | 北京百度网讯科技有限公司 | 语音数据的处理方法、装置、电子设备及存储介质 |
CN112509569B (zh) * | 2020-11-24 | 2022-05-17 | 北京百度网讯科技有限公司 | 语音数据的处理方法、装置、电子设备及存储介质 |
CN112802471A (zh) * | 2020-12-31 | 2021-05-14 | 北京梧桐车联科技有限责任公司 | 语音音区切换方法、装置、设备及存储介质 |
CN112802471B (zh) * | 2020-12-31 | 2024-01-23 | 北京梧桐车联科技有限责任公司 | 语音音区切换方法、装置、设备及存储介质 |
CN113920995A (zh) * | 2021-10-14 | 2022-01-11 | 上海仙塔智能科技有限公司 | 语音引擎的处理方法、装置、电子设备与存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111862972B (zh) | 2023-11-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2021063237A1 (zh) | 电子设备的控制方法及电子设备 | |
CN110543287A (zh) | 一种屏幕显示方法及电子设备 | |
CN111862972B (zh) | 语音交互服务方法、装置、设备及存储介质 | |
CN111031170A (zh) | 选择通信模式的方法、装置、电子设备及介质 | |
CN111681655A (zh) | 语音控制方法、装置、电子设备及存储介质 | |
CN111613213B (zh) | 音频分类的方法、装置、设备以及存储介质 | |
CN110890969B (zh) | 群发消息的方法、装置、电子设备及存储介质 | |
CN109218169B (zh) | 即时通讯方法、装置及存储介质 | |
CN113099378B (zh) | 定位方法、装置、设备及存储介质 | |
CN111341317B (zh) | 唤醒音频数据的评价方法、装置、电子设备及介质 | |
CN112015612B (zh) | 一种获取卡顿信息的方法及装置 | |
CN111986700A (zh) | 无接触式操作触发的方法、装置、设备及存储介质 | |
CN110992954A (zh) | 语音识别的方法、装置、设备及存储介质 | |
CN112860046A (zh) | 选择运行模式的方法、装置、电子设备及介质 | |
CN113380240B (zh) | 语音交互方法和电子设备 | |
CN113162837B (zh) | 语音消息的处理方法、装置、设备及存储介质 | |
CN110336881B (zh) | 执行业务处理请求的方法和装置 | |
CN111294470B (zh) | 呼叫处理方法、装置、设备及存储介质 | |
CN115035187A (zh) | 声源方向确定方法、装置、终端、存储介质及产品 | |
CN111028846B (zh) | 免唤醒词注册的方法和装置 | |
CN114388001A (zh) | 多媒体文件的播放方法、装置、设备及存储介质 | |
CN115706916A (zh) | 一种基于位置信息的Wi-Fi连接方法及装置 | |
CN113495770A (zh) | 展示应用页面的方法、装置、终端及存储介质 | |
CN111445286A (zh) | 资源调度方法、装置、电子设备及可读存储介质 | |
CN113539291B (zh) | 音频信号的降噪方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |