CN113037918B

CN113037918B - Android客户端非入侵式变声方法

Info

Publication number: CN113037918B
Application number: CN202110232019.9A
Authority: CN
Inventors: 马智伟; 覃艳君
Original assignee: Sichuan Subao Network Technology Co ltd
Current assignee: Sichuan Subao Network Technology Co ltd
Priority date: 2021-03-02
Filing date: 2021-03-02
Publication date: 2022-06-17
Anticipated expiration: 2041-03-02
Also published as: CN113037918A

Abstract

本发明提供了一种Android客户端非入侵式变声方法，包括：在Android系统的客户端内部署变声专用APP；当所述变声专用APP接收到客户的变声指令时，根据所述变声指令，确定需要变声的目标APP，并通过所述变声专用APP启动所述目标APP；在所述目标APP启动后，将所述目标APP的原应用程序接口通过所述变声专用APP进行hook；将所述hook后的原应用程序接口转换为所述变声专用APP的变声应用程序接口；根据所述变声应用程序接口，获取用户语音，并基于所述变声专用APP内预设的变声策略进行变声。本发明不需要对需要进行变声的APP与变声APP的适配性有要求，本发明可以实现多人同时变声和单人单向变声。本发明在变声后对变声的稳定性进行检测，还能实现语音传输的正确和错误检测。

Description

Android客户端非入侵式变声方法

技术领域

本发明涉及语音变音技术领域，特别涉及一种Android客户端非入侵式变声方法。

背景技术

目前，随着手机应用的日益丰富多样，以及语音通话、视频直播、游戏互动等等应用场景的广泛存在，为语音交互过程增加类似“变声”这样的趣味功能，变得越来越有实用价值。

基于AI技术的语音变声技术本身已经比较成熟，但现有的技术在支持语音变声APP方面缺乏灵活性。一种方案是将变声的实现功能放在手机ROM中，给上层应用提供变声的功能API，这种方案只能通过与手机厂商合作，作为手机的固有特性进行部署，APP厂商必须针对不同手机厂商采用的不同技术进行不同的适配，现实中这样很难实现。另一种方案是将变声功能嵌入到手机APP中，这样固然可行，这样同样将变声功能与APP绑定，成为APP的固有特性，如果APP本身不支持，那就无法实现。

因此，提供一种支持第三方、灵活部署、非侵入式的变声方案，将非常具有价值。

发明内容

本发明提供一种Android客户端非入侵式变声方法，用以解决变声时，APP厂商必须针对不同手机厂商采用的不同技术进行不同的适配的情况。

一种Android客户端非入侵式变声方法，包括：

在Android系统的客户端内部署变声专用APP；

当所述变声专用APP接收到客户的变声指令时，根据所述变声指令，确定需要变声的目标APP，并通过所述变声专用APP启动所述目标APP；

在所述目标APP启动后，将所述目标APP的原应用程序接口通过所述变声专用APP进行hook；

将所述hook后的原应用程序接口转换为所述变声专用APP的变声应用程序接口；

根据所述变声应用程序接口，获取用户语音，并基于所述变声专用APP内预设的变声策略进行变声。

作为本发明的一种实施例：所述变声专用APP包括APK安装包，所述APK安装包内设置有变声的SDK，所述SDK用于接收所述变声策略的变声参数，并执行变声。

作为本发明的一种实施例：所述当所述变声专用APP接收到客户的变声指令时，根据所述变声指令，确定需要变声的目标APP，并通过所述变声专用APP启动所述目标APP，包括：

获取所述变声指令，将所述变声指令导入所述变声专用APP，并对所述变声指令进行解析，获取解析信息；

根据所述解析信息，确定所述解析信息中的APP的唯一识别码；

根据所述唯一识别码，确定目标APP；

将所述变声专用APP作为所述目标APP的运行容器，并将所述目标APP导入所述变声专用APP进行启动。

作为本发明的一种实施例：所述在所述目标APP启动后，将所述目标APP的原应用程序接口通过所述变声专用APP进行hook，包括：

获取所述目标APP的语音接收接口信息，语音采集接口信息，语音播放接口信息；

根据所述语音接收接口信息，语音采集接口信息和语音播放接口信息，分别将所述语音接收接口，语音采集接口和语音播放接口进行hook。

作为本发明的一种实施例：所述将所述hook后的原应用程序接口转换为所述变声专用APP的变声应用程序接口，包括：

获取所述hook的hook信息；

根据所述hook信息，将所述目标APP的语音接收接口，语音采集接口和语音播放接口通过所述变声专用APP的语音接收接口，语音采集接口和语音播放接口进行替换。

作为本发明的一种实施例：所述根据所述变声应用程序接口，获取用户语音，并基于所述变声专用APP内预设的变声策略进行变声，包括：

获取用户和所述目标APP的语音交互信息；

根据所述语音交互信息，确定语音数据；

通过所述变声专用APP，在所述Android系统的客户端上生成变声策略，并推送给用户进行选择；

在所述用户变声策略选中之后，获取所述变声策略对应的变声参数，并导入所述变声专用APP中；

根据所述语音参数，通过所述变声专用APP将所述语音数据转换为变声语音流，根据所述变声语音流，输出变声后的语音。

作为本发明的一种实施例：所述方法还包括：

将所述目标APP与所述变声专用APP通过Binder机制进行连通；

在所述目标APP与所述变声专用APP连通后，通过所述Binder机制将所述变声策略变化为变声参数；其中，

所述Binder机制与所述目标APP的音频管理器联通，所述音频管理器根据所述变声参数，将语音流传入所述SDK，进行变声。

作为本发明的一种实施例：所述方法还包括：

基于语音识别技术，对用户的语音标记；

根据所述语音标记，确定单人语音变声或多人语音变声；

根据语音标记进行单人变声或多人变声。

作为本发明的一种实施例：所述基于所述变声专用APP内预设的变声策略进行变声，还包括以下步骤：

步骤1：获取所述变声专用APP内语音数据包，确定语音数据，并构建变声数据模型：

其中，

表示变声专用APP内语音数据包的第

个数据包的内容特征；

表示变声专用APP内语音数据包的第

个数据包的时间特征；

表示变声专用APP内语音数据包的变化量；

表示变声专用APP内数据包的预期量。

；

表示专用APP内语音数据包的总数；

步骤2：获取所述目标APP接收的客户的语音数据包，确定语音数据，并构建用户数据模型：

其中，

表示客户的语音数据包的第

个数据包的内容特征；

表示客户的语音数据包的第

个数据包的时间特征；

表示客户的语音数据包的变化量；

表示客户的语音数据包的预期量。

；

表示客户的语音数据包的总数；

步骤3：根据所述变声语义特征和用户数据模型之间的相关性，判断变声策略是否实行：

其中，当

时，表示变声语义特征和用户数据模型之间的不具有相关性；当

时，表示变声语义特征和用户数据模型之间具有相关性。

步骤1：根据变声后语音传输的传输参数，确定变声后的语音状态：

其中，

为所述变声后的语音状态；

为变声后的第

语音信息的有效值；

为变声后第

语音信息的频谱响应；

为变声后的第

语音信息的信号强度；

为变声后语音的占用空间；

；

表示变声后语音的总个数；

步骤2：根据所述语音状态和预设的状态检测系数，判断变声后语音传输是否稳定：

其中，

表示变声后语音传输的连续性检测阀值；

表示变声后语音的占用空间的变化阀值；

表示变声后语音的状态检测系数；当

时表示语音传输不稳定；当

时表示语音传输稳定。

本发明有益效果在于：本发明不需要对需要进行变声的APP与变声APP的适配性有要求，本发明在进行变声的时候，因为是将本发明的预设的变声专用APP作为其他APP的目标运行容器，因此，能够适合所有的APP进行变声。而且本发明的语音识别技术可以实现多人同时变声和单人单向变声。本发明还具有在变声后对变声的稳定性进行检测，还能实现语音传输的正确和错误检测。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1为本发明实施例中一种Android客户端非入侵式变声方法的方法流程图；

图2为本发明实施例中一种语音流处理逻辑图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

如附图1所示，本发明是一种Android客户端非入侵式变声方法，包括：

在Android系统的客户端内部署变声专用APP；即，在Android手机内部安装一个变声专用的应用程序，这个应用程序是在其它软件需要变声的时候，通过这个预先部署的应用程序进行控制应用程序进行变声。

当所述变声专用APP接收到客户的变声指令时，根据所述变声指令，确定需要变声的目标APP，并通过所述变声专用APP启动所述目标APP；本步骤是一种通过变声APP启动需要进行变声的目标APP的过程。例如：需要变声的APP是微信，就通过所述专用变声APP启动微信，就可以变换微信语音时的声音。

在所述目标APP启动后，将所述目标APP的原应用程序接口通过所述变声专用APP进行hook；hook是一种钩子函数，用于将目标APP控制消息的控制权转换到变声专用APP进行控制。

根据所述变声应用程序接口，获取用户语音，并基于所述变声专用APP内预设的变声策略进行变声。在这个时候，用户的语音就是通过变声专用APP的程序接口进行传输，此时，声音就可以通过变声专业APP控制进行语音变换。

上述技术方案的原理在于：本发明是通过在android系统的客户端内部署一个变声专用APP，该APP实现了变声的相关技术；当用户需要为某个APP进行变声时，在变声APP中选择需要变声的APP，并通过变声APP启动目标APP；变声APP作为目标APP的运行容器，提供目标APP运行所需的虚拟环境；用户可以在变声APP上自由选择，对发送语音流进行变声或者接收到的语音流进行变声，也可以双向变声，同时也支持用户对不同的语音流设置不同的变声策略，比如男声变女声，成人变童声等等。

上述技术方案的有益效果在于：本发明不需要对需要进行变声的APP与变声APP的适配性有要求，本发明在进行变声的时候，因为是将本发明的预设的变声专用APP作为其他APP的目标运行容器，因此，能够适合所有的APP进行变声。而且本发明的语音识别技术可以实现多人同时变声和单人单向变声。本发明还具有在变声后对变声的稳定性进行检测，还能实现语音传输的正确和错误检测。

作为本发明的一种实施例：如附图2所示，所述变声专用APP包括APK安装包，所述APK安装包内设置有变声的SDK，所述SDK用于接收所述变声策略的变声参数，并执行变声。SDK是一系列程序接口的集合。而本发明中设置SDK，就是需要将语音接受、语音发送、语音播放和语音采集的功能进行集成到变声专用APP上。

获取所述变声指令，将所述变声指令导入所述变声专用APP，并对所述变声指令进行解析，获取解析信息；解析的信息中是要采用什么APP，然后就可以通过变声专用APP启动目标APP。

根据所述唯一识别码，确定目标APP；

上述技术方案中。解析的作用是为了明确目标APP是用户终端设备中那个APP。而唯一识别码就将APP进行精准定位，然后变声专用APP给目标APP提供运行的虚拟环境，进而实现运行。

获取所述目标APP的语音接收接口信息，语音采集接口信息，语音播放接口信息；这三个接口控制用户要使用的目标APP，语音输入、语音解析和语音传输等三个接口。采集接口在进行语音采集的时候，就会解析出具体的信息内容，然后才能够进行变声。变声后的声音存在两种状况，传输至需要播放的播放器和直接播放。

上述技术方案中：Hook技术又叫做钩子函数，在系统没有调用该函数之前，钩子程序就先捕获该消息，钩子函数先得到控制权，这时钩子函数既可以加工处理（改变）该函数的执行行为，还可以强制结束消息的传递。简单来说，就是把系统的程序拉出来变成我们自己执行代码片段。因此在本发明中，hook就是为了将目标APP中的语音信息进行先行捕获，然后将捕获的消息通过变声专用APP进行处理。实现变声。

获取所述hook的hook信息；hook信息就是将目标APP接口控制权进行控制的信息。包括那个接口，接口存在的协议等

本发明中hook是以接口替换的形式，实现了语音采集、播放、接收由目标APP实现，转换为变声专用APP实现。

获取用户和所述目标APP的语音交互信息；语音交互信息就是用户需要进行变声的信息。

根据所述语音交互信息，确定语音数据；

在所述用户变声策略选中之后，获取所述变声策略对应的变声参数，并导入所述变声专用APP中；变声参数是将声音变为老人声音、小孩声音、女士声音等，声音变换的参数，通过这个参数调取相应语音流变换程序进行语音变换。

上述技术方案中，本发明的变声策略是根据用户的选择，然后将变声策略以参数的形式传输至变声专用APP用以实现变声，将语音流转换为变声后的语音。

作为本发明的一种实施例：所述方法还包括：

将所述目标APP与所述变声专用APP通过Binder机制进行连通；Binder机制是一种程序进程间进行通信的方式。即：将目标APP的进程和变声专用APP的进程进行连通。

所述Binder机制与所述目标APP的音频管理器连通，所述音频管理器根据所述变声参数，将语音流传入所述SDK（变声专用APP），进行变声。

上述技术方案中：Android系统中，涉及到多进程间的通信底层都是依赖于BinderIPC机制。例如当进程A中的Activity要向进程B中的Service通信，这便需要依赖于BinderIPC。不仅于此，整个Android系统架构中，大量采用了Binder机制作为IPC（进程间通信）方案。最后将语音流传输至目标专用APP实现变声。

作为本发明的一种实施例：所述方法还包括：

基于语音识别技术，对用户的语音标记；语音标记的目的是为了在变声的时候声音不存在偏差，能够精确对某一个和多个用户的语音进行变声。

根据所述语音标记，确定单人语音变声或多人语音变声；

根据语音标记进行单人变声或多人变声。

本发明进行变声的时候存在多个人变声和单个人变声两种情况，因此，本发明基于语音识别技术，实现单人语音变声和多人语音变声。

其中，

表示变声专用APP内语音数据包的第

个数据包的内容特征（其表示在进行变声的时候，用户语音的数据包内语音的内容特征）；

表示变声专用APP内语音数据包的第

个数据包的时间特征（语音的持续时间、每个字间隔的时间和采集到语音的时间，综合性语音特征，用于变声时，变声的更加符合语音用户的发音规律）；

表示变声专用APP内语音数据包的变化量（语音变换为别的语音的时候，本发明通过参数变化值，控制语音变化的程度）；

表示数据包的预期量（变换时，数据包中数据容量的预期量，防止数据丢包）。

；

表示专用APP内语音数据包的总数；

其中，

表示客户的语音数据包包的第

个数据包的内容特征；

表示客户的语音数据包的第

个数据包的时间特征；

表示客户的语音数据包的变化量；

表示客户的语音数据包的预期量。

；

表示客户的语音数据包的总数；

其中，当

时，表示变声语义特征和用户数据模型之间的不具有相关性，不能实行变声；当

时，表示变声语义特征和用户数据模型之间具有相关性，能够实行变声。

上述技术方案是基于已经进行变声的过程实现，本发明基于变声专用APP内语音数据包，就是在变声过程中的数据包，确定传输的语音数据，然后构建变声数据模型，此时，本发明基于每个语音数据包产生的时间和数据包的内容在预期变化量和预期量的分布函数中共同产生的作用实现变声数据建模。因为需要以变声专用APP和目标APP中的语音数据包进行对比，因此，本发明还会对目标APP中的用户数据进行加墨计算建模计算的方式与变声专用APP建模方式相同。最后基于对比判断的方式，在D大于1时，表示变声语义特征和用户数据模型之间的不具有相关性；在D等于1时，表示变声语义特征和用户数据模型之间具有相关性。进而也能确定数据是否传输错误。

其中，

为所述变声后的语音状态；

为变声后的第

语音信息的有效值；

为变声后第

语音信息的频谱响应；

为变声后的第

语音信息的信号强度；

为变声后语音的占用空间；

；

表示变声后语音的总个数；

其中，

表示变声后语音传输的连续性检测阀值；

表示阈值的含义；

表示变声后语音的占用空间的变化阀值；

具有占用空间的含义；

表示变声后语音的状态检测系数；当

时表示语音传输不稳定；当

时表示语音传输稳定。

上述技术方案中：本发明根据变声后语音传输的实时传输参数，实现对变声后语音状态的确定，此时本发明引入变声后的语音的有效值、变声后的语音的频谱响应和变声后的语音的信号强度，实现对语音状态的确定。本发明根据语音状态和预设的状态检测系数，判断语音传输是否稳定，此时本发明通过连续性检测、占用空间的变化检测和语音的状态检测系数，实现了当W＞1时表示语音传输不稳定；当W≤1时表示语音传输稳定的判断，进而能够根据语音传输的稳定情况，确定云隐传输是不是处于正常、稳定的状态。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。