CN113037918B - Android客户端非入侵式变声方法 - Google Patents

Android客户端非入侵式变声方法 Download PDF

Info

Publication number
CN113037918B
CN113037918B CN202110232019.9A CN202110232019A CN113037918B CN 113037918 B CN113037918 B CN 113037918B CN 202110232019 A CN202110232019 A CN 202110232019A CN 113037918 B CN113037918 B CN 113037918B
Authority
CN
China
Prior art keywords
voice
sound
app
changing
change
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110232019.9A
Other languages
English (en)
Other versions
CN113037918A (zh
Inventor
马智伟
覃艳君
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan Subao Network Technology Co ltd
Original Assignee
Sichuan Subao Network Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan Subao Network Technology Co ltd filed Critical Sichuan Subao Network Technology Co ltd
Priority to CN202110232019.9A priority Critical patent/CN113037918B/zh
Publication of CN113037918A publication Critical patent/CN113037918A/zh
Application granted granted Critical
Publication of CN113037918B publication Critical patent/CN113037918B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Telephonic Communication Services (AREA)

Abstract

本发明提供了一种Android客户端非入侵式变声方法,包括:在Android系统的客户端内部署变声专用APP;当所述变声专用APP接收到客户的变声指令时,根据所述变声指令,确定需要变声的目标APP,并通过所述变声专用APP启动所述目标APP;在所述目标APP启动后,将所述目标APP的原应用程序接口通过所述变声专用APP进行hook;将所述hook后的原应用程序接口转换为所述变声专用APP的变声应用程序接口;根据所述变声应用程序接口,获取用户语音,并基于所述变声专用APP内预设的变声策略进行变声。本发明不需要对需要进行变声的APP与变声APP的适配性有要求,本发明可以实现多人同时变声和单人单向变声。本发明在变声后对变声的稳定性进行检测,还能实现语音传输的正确和错误检测。

Description

Android客户端非入侵式变声方法
技术领域
本发明涉及语音变音技术领域,特别涉及一种Android客户端非入侵式变声方法。
背景技术
目前,随着手机应用的日益丰富多样,以及语音通话、视频直播、游戏互动等等应用场景的广泛存在,为语音交互过程增加类似“变声”这样的趣味功能,变得越来越有实用价值。
基于AI技术的语音变声技术本身已经比较成熟,但现有的技术在支持语音变声APP方面缺乏灵活性。一种方案是将变声的实现功能放在手机ROM中,给上层应用提供变声的功能API,这种方案只能通过与手机厂商合作,作为手机的固有特性进行部署,APP厂商必须针对不同手机厂商采用的不同技术进行不同的适配,现实中这样很难实现。另一种方案是将变声功能嵌入到手机APP中,这样固然可行,这样同样将变声功能与APP绑定,成为APP的固有特性,如果APP本身不支持,那就无法实现。
因此,提供一种支持第三方、灵活部署、非侵入式的变声方案,将非常具有价值。
发明内容
本发明提供一种Android客户端非入侵式变声方法,用以解决变声时,APP厂商必须针对不同手机厂商采用的不同技术进行不同的适配的情况。
一种Android客户端非入侵式变声方法,包括:
在Android系统的客户端内部署变声专用APP;
当所述变声专用APP接收到客户的变声指令时,根据所述变声指令,确定需要变声的目标APP,并通过所述变声专用APP启动所述目标APP;
在所述目标APP启动后,将所述目标APP的原应用程序接口通过所述变声专用APP进行hook;
将所述hook后的原应用程序接口转换为所述变声专用APP的变声应用程序接口;
根据所述变声应用程序接口,获取用户语音,并基于所述变声专用APP内预设的变声策略进行变声。
作为本发明的一种实施例:所述变声专用APP包括APK安装包,所述APK安装包内设置有变声的SDK,所述SDK用于接收所述变声策略的变声参数,并执行变声。
作为本发明的一种实施例:所述当所述变声专用APP接收到客户的变声指令时,根据所述变声指令,确定需要变声的目标APP,并通过所述变声专用APP启动所述目标APP,包括:
获取所述变声指令,将所述变声指令导入所述变声专用APP,并对所述变声指令进行解析,获取解析信息;
根据所述解析信息,确定所述解析信息中的APP的唯一识别码;
根据所述唯一识别码,确定目标APP;
将所述变声专用APP作为所述目标APP的运行容器,并将所述目标APP导入所述变声专用APP进行启动。
作为本发明的一种实施例:所述在所述目标APP启动后,将所述目标APP的原应用程序接口通过所述变声专用APP进行hook,包括:
获取所述目标APP的语音接收接口信息,语音采集接口信息,语音播放接口信息;
根据所述语音接收接口信息,语音采集接口信息和语音播放接口信息,分别将所述语音接收接口,语音采集接口和语音播放接口进行hook。
作为本发明的一种实施例:所述将所述hook后的原应用程序接口转换为所述变声专用APP的变声应用程序接口,包括:
获取所述hook的hook信息;
根据所述hook信息,将所述目标APP的语音接收接口,语音采集接口和语音播放接口通过所述变声专用APP的语音接收接口,语音采集接口和语音播放接口进行替换。
作为本发明的一种实施例:所述根据所述变声应用程序接口,获取用户语音,并基于所述变声专用APP内预设的变声策略进行变声,包括:
获取用户和所述目标APP的语音交互信息;
根据所述语音交互信息,确定语音数据;
通过所述变声专用APP,在所述Android系统的客户端上生成变声策略,并推送给用户进行选择;
在所述用户变声策略选中之后,获取所述变声策略对应的变声参数,并导入所述变声专用APP中;
根据所述语音参数,通过所述变声专用APP将所述语音数据转换为变声语音流,根据所述变声语音流,输出变声后的语音。
作为本发明的一种实施例:所述方法还包括:
将所述目标APP与所述变声专用APP通过Binder机制进行连通;
在所述目标APP与所述变声专用APP连通后,通过所述Binder机制将所述变声策略变化为变声参数;其中,
所述Binder机制与所述目标APP的音频管理器联通,所述音频管理器根据所述变声参数,将语音流传入所述SDK,进行变声。
作为本发明的一种实施例:所述方法还包括:
基于语音识别技术,对用户的语音标记;
根据所述语音标记,确定单人语音变声或多人语音变声;
根据语音标记进行单人变声或多人变声。
作为本发明的一种实施例:所述基于所述变声专用APP内预设的变声策略进行变声,还包括以下步骤:
步骤1:获取所述变声专用APP内语音数据包,确定语音数据,并构建变声数据模型:
Figure 825019DEST_PATH_IMAGE001
其中,
Figure 971092DEST_PATH_IMAGE002
表示变声专用APP内语音数据包的第
Figure 161902DEST_PATH_IMAGE003
个数据包的内容特征;
Figure 651789DEST_PATH_IMAGE004
表示变 声专用APP内语音数据包的第
Figure 244444DEST_PATH_IMAGE003
个数据包的时间特征;
Figure 794374DEST_PATH_IMAGE005
表示变声专用APP内语音数据包的变 化量;
Figure 472480DEST_PATH_IMAGE006
表示变声专用APP内数据包的预期量。
Figure 766058DEST_PATH_IMAGE007
Figure 213220DEST_PATH_IMAGE008
表示专用APP内语音 数据包的总数;
步骤2:获取所述目标APP接收的客户的语音数据包,确定语音数据,并构建用户数据模型:
Figure 934051DEST_PATH_IMAGE009
其中,
Figure 99454DEST_PATH_IMAGE010
表示客户的语音数据包的第
Figure 931143DEST_PATH_IMAGE011
个数据包的内容特征;
Figure 232812DEST_PATH_IMAGE012
表示客户的语 音数据包的第
Figure 124544DEST_PATH_IMAGE011
个数据包的时间特征;
Figure 511663DEST_PATH_IMAGE013
表示客户的语音数据包的变化量;
Figure 147044DEST_PATH_IMAGE014
表示客户的语 音数据包的预期量。
Figure 332912DEST_PATH_IMAGE015
Figure 395546DEST_PATH_IMAGE016
表示客户的语音数据包的总数;
步骤3:根据所述变声语义特征和用户数据模型之间的相关性,判断变声策略是否实行:
Figure 269961DEST_PATH_IMAGE017
其中,当
Figure 443454DEST_PATH_IMAGE018
时,表示变声语义特征和用户数据模型之间的不具有相关性;当
Figure 719714DEST_PATH_IMAGE019
时,表示变声语义特征和用户数据模型之间具有相关性。
作为本发明的一种实施例:所述基于所述变声专用APP内预设的变声策略进行变声,还包括以下步骤:
步骤1:根据变声后语音传输的传输参数,确定变声后的语音状态:
Figure 953250DEST_PATH_IMAGE020
其中,
Figure 314961DEST_PATH_IMAGE021
为所述变声后的语音状态;
Figure 292144DEST_PATH_IMAGE022
为变声后的第
Figure 688490DEST_PATH_IMAGE023
语音信息的有效值;
Figure 92927DEST_PATH_IMAGE024
为 变声后第
Figure 676355DEST_PATH_IMAGE023
语音信息的频谱响应;
Figure 457229DEST_PATH_IMAGE025
为变声后的第
Figure 708082DEST_PATH_IMAGE023
语音信息的信号强度;
Figure 548999DEST_PATH_IMAGE026
为变声后语音 的占用空间;
Figure 121188DEST_PATH_IMAGE027
Figure 440174DEST_PATH_IMAGE028
表示变声后语音的总个数;
步骤2:根据所述语音状态和预设的状态检测系数,判断变声后语音传输是否稳定:
Figure 545533DEST_PATH_IMAGE029
其中,
Figure 291772DEST_PATH_IMAGE030
表示变声后语音传输的连续性检测阀值;
Figure 115372DEST_PATH_IMAGE031
表示变声后语音的占用空间 的变化阀值;
Figure 972469DEST_PATH_IMAGE032
表示变声后语音的状态检测系数;当
Figure 463494DEST_PATH_IMAGE033
时表示语音传输不稳定;当
Figure 380634DEST_PATH_IMAGE034
时表示语音传输稳定。
本发明有益效果在于:本发明不需要对需要进行变声的APP与变声APP的适配性有要求,本发明在进行变声的时候,因为是将本发明的预设的变声专用APP作为其他APP的目标运行容器,因此,能够适合所有的APP进行变声。而且本发明的语音识别技术可以实现多人同时变声和单人单向变声。本发明还具有在变声后对变声的稳定性进行检测,还能实现语音传输的正确和错误检测。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明实施例中一种Android客户端非入侵式变声方法的方法流程图;
图2为本发明实施例中一种语音流处理逻辑图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
如附图1所示,本发明是一种Android客户端非入侵式变声方法,包括:
在Android系统的客户端内部署变声专用APP;即,在Android手机内部安装一个变声专用的应用程序,这个应用程序是在其它软件需要变声的时候,通过这个预先部署的应用程序进行控制应用程序进行变声。
当所述变声专用APP接收到客户的变声指令时,根据所述变声指令,确定需要变声的目标APP,并通过所述变声专用APP启动所述目标APP;本步骤是一种通过变声APP启动需要进行变声的目标APP的过程。例如:需要变声的APP是微信,就通过所述专用变声APP启动微信,就可以变换微信语音时的声音。
在所述目标APP启动后,将所述目标APP的原应用程序接口通过所述变声专用APP进行hook;hook是一种钩子函数,用于将目标APP控制消息的控制权转换到变声专用APP进行控制。
将所述hook后的原应用程序接口转换为所述变声专用APP的变声应用程序接口;
根据所述变声应用程序接口,获取用户语音,并基于所述变声专用APP内预设的变声策略进行变声。在这个时候,用户的语音就是通过变声专用APP的程序接口进行传输,此时,声音就可以通过变声专业APP控制进行语音变换。
上述技术方案的原理在于:本发明是通过在android系统的客户端内部署一个变声专用APP,该APP实现了变声的相关技术;当用户需要为某个APP进行变声时,在变声APP中选择需要变声的APP,并通过变声APP启动目标APP;变声APP作为目标APP的运行容器,提供目标APP运行所需的虚拟环境;用户可以在变声APP上自由选择,对发送语音流进行变声或者接收到的语音流进行变声,也可以双向变声,同时也支持用户对不同的语音流设置不同的变声策略,比如男声变女声,成人变童声等等。
上述技术方案的有益效果在于:本发明不需要对需要进行变声的APP与变声APP的适配性有要求,本发明在进行变声的时候,因为是将本发明的预设的变声专用APP作为其他APP的目标运行容器,因此,能够适合所有的APP进行变声。而且本发明的语音识别技术可以实现多人同时变声和单人单向变声。本发明还具有在变声后对变声的稳定性进行检测,还能实现语音传输的正确和错误检测。
作为本发明的一种实施例:如附图2所示,所述变声专用APP包括APK安装包,所述APK安装包内设置有变声的SDK,所述SDK用于接收所述变声策略的变声参数,并执行变声。SDK是一系列程序接口的集合。而本发明中设置SDK,就是需要将语音接受、语音发送、语音播放和语音采集的功能进行集成到变声专用APP上。
作为本发明的一种实施例:所述当所述变声专用APP接收到客户的变声指令时,根据所述变声指令,确定需要变声的目标APP,并通过所述变声专用APP启动所述目标APP,包括:
获取所述变声指令,将所述变声指令导入所述变声专用APP,并对所述变声指令进行解析,获取解析信息;解析的信息中是要采用什么APP,然后就可以通过变声专用APP启动目标APP。
根据所述解析信息,确定所述解析信息中的APP的唯一识别码;
根据所述唯一识别码,确定目标APP;
将所述变声专用APP作为所述目标APP的运行容器,并将所述目标APP导入所述变声专用APP进行启动。
上述技术方案中。解析的作用是为了明确目标APP是用户终端设备中那个APP。而唯一识别码就将APP进行精准定位,然后变声专用APP给目标APP提供运行的虚拟环境,进而实现运行。
作为本发明的一种实施例:所述在所述目标APP启动后,将所述目标APP的原应用程序接口通过所述变声专用APP进行hook,包括:
获取所述目标APP的语音接收接口信息,语音采集接口信息,语音播放接口信息;这三个接口控制用户要使用的目标APP,语音输入、语音解析和语音传输等三个接口。采集接口在进行语音采集的时候,就会解析出具体的信息内容,然后才能够进行变声。变声后的声音存在两种状况,传输至需要播放的播放器和直接播放。
根据所述语音接收接口信息,语音采集接口信息和语音播放接口信息,分别将所述语音接收接口,语音采集接口和语音播放接口进行hook。
上述技术方案中:Hook技术又叫做钩子函数,在系统没有调用该函数之前,钩子程序就先捕获该消息,钩子函数先得到控制权,这时钩子函数既可以加工处理(改变)该函数的执行行为,还可以强制结束消息的传递。简单来说,就是把系统的程序拉出来变成我们自己执行代码片段。因此在本发明中,hook就是为了将目标APP中的语音信息进行先行捕获,然后将捕获的消息通过变声专用APP进行处理。实现变声。
作为本发明的一种实施例:所述将所述hook后的原应用程序接口转换为所述变声专用APP的变声应用程序接口,包括:
获取所述hook的hook信息;hook信息就是将目标APP接口控制权进行控制的信息。包括那个接口,接口存在的协议等
根据所述hook信息,将所述目标APP的语音接收接口,语音采集接口和语音播放接口通过所述变声专用APP的语音接收接口,语音采集接口和语音播放接口进行替换。
本发明中hook是以接口替换的形式,实现了语音采集、播放、接收由目标APP实现,转换为变声专用APP实现。
作为本发明的一种实施例:所述根据所述变声应用程序接口,获取用户语音,并基于所述变声专用APP内预设的变声策略进行变声,包括:
获取用户和所述目标APP的语音交互信息;语音交互信息就是用户需要进行变声的信息。
根据所述语音交互信息,确定语音数据;
通过所述变声专用APP,在所述Android系统的客户端上生成变声策略,并推送给用户进行选择;
在所述用户变声策略选中之后,获取所述变声策略对应的变声参数,并导入所述变声专用APP中;变声参数是将声音变为老人声音、小孩声音、女士声音等,声音变换的参数,通过这个参数调取相应语音流变换程序进行语音变换。
根据所述语音参数,通过所述变声专用APP将所述语音数据转换为变声语音流,根据所述变声语音流,输出变声后的语音。
上述技术方案中,本发明的变声策略是根据用户的选择,然后将变声策略以参数的形式传输至变声专用APP用以实现变声,将语音流转换为变声后的语音。
作为本发明的一种实施例:所述方法还包括:
将所述目标APP与所述变声专用APP通过Binder机制进行连通;Binder机制是一种程序进程间进行通信的方式。即:将目标APP的进程和变声专用APP的进程进行连通。
在所述目标APP与所述变声专用APP连通后,通过所述Binder机制将所述变声策略变化为变声参数;其中,
所述Binder机制与所述目标APP的音频管理器连通,所述音频管理器根据所述变声参数,将语音流传入所述SDK(变声专用APP),进行变声。
上述技术方案中:Android系统中,涉及到多进程间的通信底层都是依赖于BinderIPC机制。例如当进程A中的Activity要向进程B中的Service通信,这便需要依赖于BinderIPC。不仅于此,整个Android系统架构中,大量采用了Binder机制作为IPC(进程间通信)方案。最后将语音流传输至目标专用APP实现变声。
作为本发明的一种实施例:所述方法还包括:
基于语音识别技术,对用户的语音标记;语音标记的目的是为了在变声的时候声音不存在偏差,能够精确对某一个和多个用户的语音进行变声。
根据所述语音标记,确定单人语音变声或多人语音变声;
根据语音标记进行单人变声或多人变声。
本发明进行变声的时候存在多个人变声和单个人变声两种情况,因此,本发明基于语音识别技术,实现单人语音变声和多人语音变声。
作为本发明的一种实施例:所述基于所述变声专用APP内预设的变声策略进行变声,还包括以下步骤:
步骤1:获取所述变声专用APP内语音数据包,确定语音数据,并构建变声数据模型:
Figure 425950DEST_PATH_IMAGE035
其中,
Figure 86739DEST_PATH_IMAGE036
表示变声专用APP内语音数据包的第
Figure 166690DEST_PATH_IMAGE003
个数据包的内容特征(其表示在进 行变声的时候,用户语音的数据包内语音的内容特征);
Figure 254732DEST_PATH_IMAGE004
表示变声专用APP内语音数据包 的第
Figure 787345DEST_PATH_IMAGE003
个数据包的时间特征(语音的持续时间、每个字间隔的时间和采集到语音的时间,综 合性语音特征,用于变声时,变声的更加符合语音用户的发音规律);
Figure 251824DEST_PATH_IMAGE005
表示变声专用APP内 语音数据包的变化量(语音变换为别的语音的时候,本发明通过参数变化值,控制语音变化 的程度);
Figure 186282DEST_PATH_IMAGE006
表示数据包的预期量(变换时,数据包中数据容量的预期量,防止数据丢包)。
Figure 943760DEST_PATH_IMAGE007
Figure 963669DEST_PATH_IMAGE008
表示专用APP内语音数据包的总数;
步骤2:获取所述目标APP接收的客户的语音数据包,确定语音数据,并构建用户数据模型:
Figure 231839DEST_PATH_IMAGE037
其中,
Figure 20803DEST_PATH_IMAGE038
表示客户的语音数据包包的第
Figure 450648DEST_PATH_IMAGE003
个数据包的内容特征;
Figure 957852DEST_PATH_IMAGE039
表示客户的语音 数据包的第
Figure 29714DEST_PATH_IMAGE011
个数据包的时间特征;
Figure 673185DEST_PATH_IMAGE013
表示客户的语音数据包的变化量;
Figure 539509DEST_PATH_IMAGE040
表示客户的语音 数据包的预期量。
Figure 268431DEST_PATH_IMAGE015
Figure 878404DEST_PATH_IMAGE016
表示客户的语音数据包的总数;
步骤3:根据所述变声语义特征和用户数据模型之间的相关性,判断变声策略是否实行:
Figure 376381DEST_PATH_IMAGE041
其中,当
Figure 413607DEST_PATH_IMAGE018
时,表示变声语义特征和用户数据模型之间的不具有相关性,不 能实行变声;当
Figure 629825DEST_PATH_IMAGE019
时,表示变声语义特征和用户数据模型之间具有相关性,能够实 行变声。
上述技术方案是基于已经进行变声的过程实现,本发明基于变声专用APP内语音数据包,就是在变声过程中的数据包,确定传输的语音数据,然后构建变声数据模型,此时,本发明基于每个语音数据包产生的时间和数据包的内容在预期变化量和预期量的分布函数中共同产生的作用实现变声数据建模。因为需要以变声专用APP和目标APP中的语音数据包进行对比,因此,本发明还会对目标APP中的用户数据进行加墨计算建模计算的方式与变声专用APP建模方式相同。最后基于对比判断的方式,在D大于1时,表示变声语义特征和用户数据模型之间的不具有相关性;在D等于1时,表示变声语义特征和用户数据模型之间具有相关性。进而也能确定数据是否传输错误。
作为本发明的一种实施例:所述基于所述变声专用APP内预设的变声策略进行变声,还包括以下步骤:
步骤1:根据变声后语音传输的传输参数,确定变声后的语音状态:
Figure 777910DEST_PATH_IMAGE020
其中,
Figure 897438DEST_PATH_IMAGE021
为所述变声后的语音状态;
Figure 105565DEST_PATH_IMAGE022
为变声后的第
Figure 809079DEST_PATH_IMAGE023
语音信息的有效值;
Figure 760854DEST_PATH_IMAGE024
为 变声后第
Figure 233424DEST_PATH_IMAGE023
语音信息的频谱响应;
Figure 878032DEST_PATH_IMAGE025
为变声后的第
Figure 68842DEST_PATH_IMAGE023
语音信息的信号强度;
Figure 558729DEST_PATH_IMAGE026
为变声后语音 的占用空间;
Figure 151385DEST_PATH_IMAGE027
Figure 435735DEST_PATH_IMAGE028
表示变声后语音的总个数;
步骤2:根据所述语音状态和预设的状态检测系数,判断变声后语音传输是否稳定:
Figure 113841DEST_PATH_IMAGE042
其中,
Figure 407419DEST_PATH_IMAGE030
表示变声后语音传输的连续性检测阀值;
Figure 854581DEST_PATH_IMAGE043
表示阈值的含义;
Figure 575413DEST_PATH_IMAGE031
表示变声 后语音的占用空间的变化阀值;
Figure 475236DEST_PATH_IMAGE044
具有占用空间的含义;
Figure 805460DEST_PATH_IMAGE032
表示变声后语音的状态检测系数; 当
Figure 372708DEST_PATH_IMAGE033
时表示语音传输不稳定;当
Figure 264441DEST_PATH_IMAGE034
时表示语音传输稳定。
上述技术方案中:本发明根据变声后语音传输的实时传输参数,实现对变声后语音状态的确定,此时本发明引入变声后的语音的有效值、变声后的语音的频谱响应和变声后的语音的信号强度,实现对语音状态的确定。本发明根据语音状态和预设的状态检测系数,判断语音传输是否稳定,此时本发明通过连续性检测、占用空间的变化检测和语音的状态检测系数,实现了当W>1时表示语音传输不稳定;当W≤1时表示语音传输稳定的判断,进而能够根据语音传输的稳定情况,确定云隐传输是不是处于正常、稳定的状态。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (10)

1.一种Android客户端非入侵式变声方法,其特征在于,包括:
在Android系统的客户端内部署变声专用APP;
当所述变声专用APP接收到客户的变声指令时,根据所述变声指令,确定需要变声的目标APP,并通过所述变声专用APP启动所述目标APP;
在所述目标APP启动后,将所述目标APP的原应用程序接口通过所述变声专用APP进行hook;
将所述hook后的原应用程序接口转换为所述变声专用APP的变声应用程序接口;
根据所述变声应用程序接口,获取用户语音,并基于所述变声专用APP内预设的变声策略进行变声。
2.如权利要求1所述的一种Android客户端非入侵式变声方法,其特征在于,所述变声专用APP包括APK安装包,所述APK安装包内设置有变声的SDK,所述SDK用于接收所述变声策略的变声参数,并执行变声。
3.如权利要求1所述的一种Android客户端非入侵式变声方法,其特征在于,所述当所述变声专用APP接收到客户的变声指令时,根据所述变声指令,确定需要变声的目标APP,并通过所述变声专用APP启动所述目标APP,包括:
获取所述变声指令,将所述变声指令导入所述变声专用APP,并对所述变声指令进行解析,获取解析信息;
根据所述解析信息,确定所述解析信息中的APP的唯一识别码;
根据所述唯一识别码,确定目标APP;
将所述变声专用APP作为所述目标APP的运行容器,并将所述目标APP导入所述变声专用APP进行启动。
4.如权利要求1所述的一种Android客户端非入侵式变声方法,其特征在于,所述在所述目标APP启动后,将所述目标APP的原应用程序接口通过所述变声专用APP进行hook,包括:
获取所述目标APP的语音接收接口信息,语音采集接口信息,语音播放接口信息;
根据所述语音接收接口信息,语音采集接口信息和语音播放接口信息,分别将所述语音接收接口,语音采集接口和语音播放接口进行hook。
5.如权利要求1所述的一种Android客户端非入侵式变声方法,其特征在于,所述将所述hook后的原应用程序接口转换为所述变声专用APP的变声应用程序接口,包括:
获取所述hook的hook信息;
根据所述hook信息,将所述目标APP的语音接收接口,语音采集接口和语音播放接口通过所述变声专用APP的语音接收接口,语音采集接口和语音播放接口进行替换。
6.如权利要求1所述的一种Android客户端非入侵式变声方法,其特征在于,所述根据所述变声应用程序接口,获取用户语音,并基于所述变声专用APP内预设的变声策略进行变声,包括:
获取用户和所述目标APP的语音交互信息;
根据所述语音交互信息,确定语音数据;
通过所述变声专用APP,在所述Android系统的客户端上生成变声策略,并推送给用户进行选择;
在所述用户变声策略选中之后,获取所述变声策略对应的变声参数,并导入所述变声专用APP中;
根据所述语音参数,通过所述变声专用APP将所述语音数据转换为变声语音流,根据所述变声语音流,输出变声后的语音。
7.如权利要求2所述的一种Android客户端非入侵式变声方法,其特征在于,所述方法还包括:
将所述目标APP与所述变声专用APP通过Binder机制进行连通;
在所述目标APP与所述变声专用APP连通后,通过所述Binder机制将所述变声策略变化为变声参数;其中,
所述Binder机制与所述目标APP的音频管理器连通,所述音频管理器根据所述变声参数,将语音流传入所述SDK,进行变声。
8.如权利要求1所述的一种Android客户端非入侵式变声方法,其特征在于,所述方法还包括:
基于语音识别技术,对用户的语音标记;
根据所述语音标记,确定单人语音变声或多人语音变声;
根据语音标记进行单人变声或多人变声。
9.如权利要求1所述的一种Android客户端非入侵式变声方法,其特征在于,所述基于所述变声专用APP内预设的变声策略进行变声,还包括以下步骤:
步骤1:获取所述变声专用APP内语音数据包,确定语音数据,并构建变声数据模型:
Figure 157777DEST_PATH_IMAGE001
其中,
Figure 466530DEST_PATH_IMAGE002
表示变声专用APP内语音数据包的第
Figure 854786DEST_PATH_IMAGE003
个数据包的内容特征;
Figure 876969DEST_PATH_IMAGE004
表示变声专用APP内语音数据包的第
Figure 810421DEST_PATH_IMAGE003
个数据包的时间特征;
Figure 121316DEST_PATH_IMAGE005
表示变声专用APP内语音数据包的变化量;
Figure 47684DEST_PATH_IMAGE006
表示变声专用APP内数据包的预期量,
Figure 675106DEST_PATH_IMAGE007
Figure 294306DEST_PATH_IMAGE008
表示专用APP内语音数据包的总数;
步骤2:获取所述目标APP接收的客户的语音数据包,确定语音数据,并构建用户数据模型:
Figure 92497DEST_PATH_IMAGE009
其中,
Figure 556977DEST_PATH_IMAGE010
表示客户的语音数据包的第
Figure 242167DEST_PATH_IMAGE011
个数据包的内容特征;
Figure 32269DEST_PATH_IMAGE012
表示客户的语音数据包的第
Figure 114494DEST_PATH_IMAGE011
个数据包的时间特征;
Figure 867818DEST_PATH_IMAGE013
表示客户的语音数据包的变化量;
Figure 922361DEST_PATH_IMAGE014
表示客户的语音数据包的预期量;
Figure 883364DEST_PATH_IMAGE015
Figure 938039DEST_PATH_IMAGE016
表示客户的语音数据包的总数;
步骤3:根据所述变声语义特征和用户数据模型之间的相关性,判断变声策略是否实行:
Figure 9900DEST_PATH_IMAGE017
其中,当
Figure 184529DEST_PATH_IMAGE018
时,表示变声语义特征和用户数据模型之间的不具有相关性,不能够实行变声;当
Figure 785275DEST_PATH_IMAGE019
时,表示变声语义特征和用户数据模型之间具有相关性,能够实行变声。
10.如权利要求1所述的一种Android客户端非入侵式变声方法,其特征在于,所述基于所述变声专用APP内预设的变声策略进行变声,还包括以下步骤:
步骤1:根据变声后语音传输的传输参数,确定变声后的语音状态:
Figure 796088DEST_PATH_IMAGE020
其中,
Figure 202798DEST_PATH_IMAGE021
为所述变声后的语音状态;
Figure 966355DEST_PATH_IMAGE022
为变声后的第
Figure 754313DEST_PATH_IMAGE023
语音信息的有效值;
Figure 298427DEST_PATH_IMAGE024
为变声后第
Figure 712091DEST_PATH_IMAGE023
语音信息的频谱响应;
Figure 346466DEST_PATH_IMAGE025
为变声后的第
Figure 554593DEST_PATH_IMAGE023
语音信息的信号强度;
Figure 523686DEST_PATH_IMAGE026
为变声后语音的占用空间;
Figure 475462DEST_PATH_IMAGE027
Figure 26660DEST_PATH_IMAGE028
表示变声后语音的总个数;
步骤2:根据所述语音状态和预设的状态检测系数,判断变声后语音传输是否稳定:
Figure 140109DEST_PATH_IMAGE029
其中,
Figure 596499DEST_PATH_IMAGE030
表示变声后语音传输的连续性检测阀值;
Figure 102697DEST_PATH_IMAGE031
表示变声后语音的占用空间的变化阀值;
Figure 757670DEST_PATH_IMAGE032
表示变声后语音的状态检测系数;当
Figure 573179DEST_PATH_IMAGE033
时表示语音传输不稳定;当
Figure 2017DEST_PATH_IMAGE034
时表示语音传输稳定。
CN202110232019.9A 2021-03-02 2021-03-02 Android客户端非入侵式变声方法 Active CN113037918B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110232019.9A CN113037918B (zh) 2021-03-02 2021-03-02 Android客户端非入侵式变声方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110232019.9A CN113037918B (zh) 2021-03-02 2021-03-02 Android客户端非入侵式变声方法

Publications (2)

Publication Number Publication Date
CN113037918A CN113037918A (zh) 2021-06-25
CN113037918B true CN113037918B (zh) 2022-06-17

Family

ID=76465729

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110232019.9A Active CN113037918B (zh) 2021-03-02 2021-03-02 Android客户端非入侵式变声方法

Country Status (1)

Country Link
CN (1) CN113037918B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115695637A (zh) * 2021-07-30 2023-02-03 北京小米移动软件有限公司 音频处理方法、音频处理装置及计算机存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014118420A1 (es) * 2013-02-04 2014-08-07 Telefonica, S.A. Método y sistema para obtener información relevante de una comunicación por voz
CN107395352A (zh) * 2016-05-16 2017-11-24 腾讯科技(深圳)有限公司 基于声纹的身份识别方法及装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106658322A (zh) * 2016-12-01 2017-05-10 贾文波 定制式蓝牙助听器
IL268145B2 (en) * 2017-01-23 2023-09-01 Syed Kamran Hasan Universal connections bchain e3a
CN109257493B (zh) * 2018-09-15 2021-04-16 深圳市创成微电子有限公司 一种基于app的音频处理装置控制系统
CN111968626A (zh) * 2020-08-31 2020-11-20 腾讯科技(深圳)有限公司 变声处理方法、装置、设备及可读存储介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014118420A1 (es) * 2013-02-04 2014-08-07 Telefonica, S.A. Método y sistema para obtener información relevante de una comunicación por voz
CN107395352A (zh) * 2016-05-16 2017-11-24 腾讯科技(深圳)有限公司 基于声纹的身份识别方法及装置

Also Published As

Publication number Publication date
CN113037918A (zh) 2021-06-25

Similar Documents

Publication Publication Date Title
CN109395376A (zh) 基于游戏直播的交互方法、装置和系统
US7260538B2 (en) Method and apparatus for voice control of a television control device
CN108305628B (zh) 语音识别方法、装置、计算机设备和存储介质
EP1640863A3 (en) Method of selectively transmitting saved data when using an application program on a portable terminal
US7689424B2 (en) Distributed speech recognition method
US20110295926A1 (en) Monitor device for collecting audience research data
CN109271533A (zh) 一种多媒体文件检索方法
CN112566152B (zh) 一种卡顿预测的方法、数据处理的方法以及相关装置
CN110010125A (zh) 一种智能机器人的控制方法、装置、终端设备及介质
CN113037918B (zh) Android客户端非入侵式变声方法
CN111724789B (zh) 语音交互的方法和终端设备
CN110992955A (zh) 一种智能设备的语音操作方法、装置、设备及存储介质
CN109065051A (zh) 一种语音识别处理方法及装置
US20200195564A1 (en) Data transmission boosting device
CN106027801A (zh) 一种通信消息的处理方法及装置、移动设备
CN110019848A (zh) 对话交互方法、装置及机器人
CN108597499B (zh) 语音处理方法以及语音处理装置
CN110418181A (zh) 对智能电视的业务处理方法、装置、智能设备及存储介质
CN107071575A (zh) 贴片媒体文件播放方法和装置
CN109102816A (zh) 编码控制方法、装置以及电子设备
CN104426915B (zh) 实现在线音乐分段下载的方法、服务器和系统
CN110262278A (zh) 智能家电设备的控制方法及装置、智能电器设备
RU2006106907A (ru) Аудио/видеоустройство, устройство и способ для управления аудио/видеоустройством
CN112820273B (zh) 唤醒判别方法和装置、存储介质及电子设备
CN114999496A (zh) 音频传输方法、控制设备及终端设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant