CN112527234B - 音频帧的输出方法和装置 - Google Patents
音频帧的输出方法和装置 Download PDFInfo
- Publication number
- CN112527234B CN112527234B CN202011225036.1A CN202011225036A CN112527234B CN 112527234 B CN112527234 B CN 112527234B CN 202011225036 A CN202011225036 A CN 202011225036A CN 112527234 B CN112527234 B CN 112527234B
- Authority
- CN
- China
- Prior art keywords
- audio
- value
- memory
- generation model
- time interval
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 51
- 230000015654 memory Effects 0.000 claims abstract description 203
- 230000004622 sleep time Effects 0.000 claims abstract description 41
- 230000007958 sleep Effects 0.000 claims abstract description 36
- 230000005059 dormancy Effects 0.000 claims abstract description 6
- 238000004590 computer program Methods 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000004422 calculation algorithm Methods 0.000 claims description 4
- 238000005516 engineering process Methods 0.000 abstract description 7
- 238000013473 artificial intelligence Methods 0.000 abstract description 5
- 238000013135 deep learning Methods 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 8
- 230000008569 process Effects 0.000 description 6
- 208000003028 Stuttering Diseases 0.000 description 4
- 238000004891 communication Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 206010010904 Convulsion Diseases 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 230000004617 sleep duration Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/165—Management of the audio stream, e.g. setting of volume, audio stream path
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Telephone Function (AREA)
Abstract
本申请公开了一种音频帧的输出方法和装置,涉及语音技术和深度学习技术等人工智能技术领域,其中,方法包括:根据终端设备的内存占用标准值,确定终端设备对应的音频生成模型是否满足预设的休眠条件;在音频生成模型满足休眠条件的情况下,根据内存占用标准值确定音频生成模型的休眠时间间隔;根据音频生成模型的休眠时间间隔控制相邻音视频的生成时间间隔。由此,根据终端设备的内存占用要求,适配音频生成模型在音频输出时的内存占用率,兼顾了音频输出效率和内存占用率。
Description
技术领域
本申请涉及语音技术和深度学习技术等人工智能技术领域,尤其涉及一种音频帧的输出方法和装置。
背景技术
随着人工智能技术的进步,音频生成模型作为根据输入的文本输出音频,成为终端设备在语音技术技术领域中的常用模型。比如,终端设备中的音频生成模型,根据系统生成的反馈文本,转换为语音进行播放,为用户提供“对话式”的人工智能服务。
相关技术中,如图1所示,音频生成模型连续生成音频帧,直至文本对应的音频帧输出完毕。
然而,音频生成模型在生成音频帧时,若是内存占用较大,当终端设备的内存无法匹配时,则会导致音频输出卡顿等。
发明内容
本申请提提供了一种用于避免音频帧输出卡顿的音频帧的输出方法和装置。
根据第一方面,提供了一种音频帧的输出方法,包括:根据终端设备的内存占用标准值,确定所述终端设备对应的音频生成模型是否满足预设的休眠条件;在所述音频生成模型满足所述休眠条件的情况下,根据所述内存占用标准值确定所述音频生成模型的休眠时间间隔;根据所述音频生成模型的休眠时间间隔控制相邻音频的生成时间间隔。
根据第二方面,提供了一种音频帧的输出装置,包括:第一确定模块,用于根据终端设备的内存占用标准值,确定所述终端设备对应的音频生成模型是否满足预设的休眠条件;第二确定模块,用于在所述音频生成模型满足所述休眠条件的情况下,根据所述内存占用标准值确定所述音频生成模型的休眠时间间隔;输出控制模块,用于根据所述音频生成模型的休眠时间间隔控制相邻音频的生成时间间隔。
根据第三方面,提供了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述第一方面所述的音频帧的输出方法。
根据第四方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质所述计算机指令用于使所述计算机执行上述第一方面所述的音频帧的输出方法。
根据第五方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据第一方面所述的音频帧的输出方法。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本申请的限定。其中:
图1是根据本申请第一实施例的音频生成模型输出音频帧过程示意图;
图2是根据本申请第二实施例的音频生成模型输出音频帧过程示意图;
图3是根据本申请第三实施例的音频帧的输出方法的流程图;
图4是根据本申请第四实施例的音频帧的输出方法的流程图;
图5是根据本申请第五实施例的音频帧的输出方法的流程图;
图6是根据本申请第六实施例的音频帧的输出方法的流程图;
图7是根据本申请第七实施例的音频帧的输出装置的框图;
图8是根据本申请第八实施例的音频帧的输出装置的框图;
图9是根据本申请第九实施例的音频帧的输出装置的框图;
图10是用来实现本申请实施例的音频帧的输出的方法的电子设备的框图。
具体实施方式
以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
针对背景技术中提到的,音频帧输出时,内存占用率与终端设备的内存不适配时,比如,终端设备的空闲内存小于内存占用率,则会导致音频帧输出卡顿等。
为了解决上述技术问题,本申请提出一种适配于终端设备的内存来调整音频帧输出内存占用率的方案,在该方案中,参照图2,主要思想是在音频生成模型输出音频帧之间加入休眠时间间隔,从而,降低内存占用率,避免音频帧的输出卡顿等。其中,音频生成模型可以理解为语音合成引擎等。
下面参照附图,具体描述本申请实施例的音频帧的输出方法和装置。
图3是根据本申请一个实施例的音频帧的输出方法的流程图,如图3所示,该方法包括:
步骤101,根据终端设备的内存占用标准值,确定终端设备对应的音频生成模型是否满足预设的休眠条件。
其中,内存占用标准值可以理解为终端设备可提供给音频生成的空闲内存,该内存占用标准值可以是终端设备预先标定的,也可以是,用户根据个人需求标定的,其中,内存占用标准值指的可以是CPU占用峰值等。
另外,内存占用标准值也可以根据终端设备的内存占用参数计算得到的,其中,内存占用参数包括已经安装的应用程序数量、后台运行的应用程序的内存占用值等,在实际执行过程中,可以预先根据大量样本数据训练得到深度学习模型,该深度学习模型的输入为内存占用参数,输出为内存占用标准值。
在获取到内存占用标准值后,根据终端设备的内存占用标准值,确定终端设备对应的音频生成模型是否满足预设的休眠条件,其中,此处终端设备对应的音频生成模型,可以理解为音频帧之间没有音频生成休眠时间间隔或者是休眠时间间隔较短的音频生成模型,确定终端设备对应的音频生成模型是否满足预设的休眠条件,以判断该音频生成模型是否需要音频帧输出时的休眠时间间隔。
需要说明的是,在不同的应用场景下,确定终端设备对应的音频生成模型是否满足预设的休眠条件的方式不同,示例如下:
示例一:
在本示例中,如图4所示,确定终端设备对应的音频生成模型是否满足预设的休眠条件,包括:
步骤201,获取音频生成模型在生成音频帧时的内存占用均值。
其中,内存占用均值可以理解为音频生成模型在生成音频帧时,在预设时间内占用的内存均值。
在本申请的一个实施例中,可以根据预设时间,统计音频帧生成时,在预设时间内占用的内存值,根据多个预设时间内的多个内存占用的内存值的均值,确定内存占用均值。
在本申请的另一个实施例中,也可以统计与音频生成模型历史生成音频时,在预设时间内的历史内存占用值,根据历史内存占用值确定内存占用均值。
步骤202,判断内存占用均值是否大于等于内存占用标准值,其中,若内存占用均值大于等于内存占用标准值,则确定终端设备的音频生成模型满足预设的休眠条件。
在本实施例中,判断内存占用均值是否大于等于内存占用标准值,其中,若内存占用均值大于等于内存占用标准值,则表明音频帧输出有卡顿风险,需要降低音频帧输出时的内存占用值,从而,确定终端设备的音频生成模型满足预设的休眠条件。
示例二:
在本示例中,如图5所示,确定终端设备对应的音频生成模型是否满足预设的休眠条件,包括:
步骤301,确定内存占用标准值是否小于预设的内存占用阈值。
不难理解的是,当终端设备的内存占用标准值较高的时候,显然终端设备的提供给音频生成模型的空闲内存较大,因此,音频生成模型输出音频帧时的卡顿风险较低,输出音频帧时不需要休眠。
反之,当终端设备的内存占用标准值较低的时候,显然终端设备的提供给音频生成模型的空闲内存较小,因此,音频生成模型输出音频帧时的卡顿风险较高,输出音频帧时需要休眠。
在一些可能的实施例中,通过内存占用阈值判断终端设备的内存占用标准值,其中,内存占用阈值可以根据音频生成模型的历史占用内存确定,比如,获取音频生成模型在多种终端设备下的多个时间内的历史占用内存,将历史占用内存中的最大值确定为内存占用阈值。
在本实施例中,确定内存占用标准值是否小于预设的内存占用阈值,以判断内存占用标准值是否足够大。
步骤302,在小于内存占用阈值的情况下,计算内存占用阈值与内存占用标准值的差值。
在本实施例中,在内存占用标准值小于内存占用阈值的情况下,计算内存占用阈值与内存占用标准值的差值,该差值可以理解为内存占用标准值距离输出音频帧时不需要休眠的内存差距值。
步骤303,确定差值是否小于等于预设差值阈值,其中,在差值大于预设差值阈值的情况下,确定音频生成模型满足预设的休眠条件。
正如以上描述的,内存占用阈值是较为理想的值,若是内存占用标准值大于等于内存占用阈值,则输出音频帧时不需要休眠,当内存占用标准值小于内存占用阈值时,若是距离内存占用阈值的差距较小,也认为是不需要休眠的一种较为理想的状态,因此,确定差值是否小于等于预设差值阈值,其中,在差值大于预设差值阈值的情况下,确定音频生成模型满足预设的休眠条件,其中,预设差值阈值是根据实验数据标定的一个较小的值。
步骤102,在音频生成模型满足休眠条件的情况下,根据内存占用标准值确定音频生成模型的休眠时间间隔。
在本实施例中,若是音频生成模型满足休眠条件,则为了避免音频帧输出的卡顿等,根据内存占用标准值确定音频生成模型的休眠时间间隔,从而保证了休眠时间间隔与终端设备的空闲内存适配。
需要说明的是,在不同的应用场景中,根据内存占用标准值确定音频生成模型的休眠时间间隔的方式不同,示例如下:
示例一:
在本示例中,当休眠条件是根据上述实施例中提到的判断内存占用均值是否大于等于内存占用标准值确定时,计算内存占用均值与内存占用标准值的第一内存差值,查询预设对应关系确定与第一内存差值对应的休眠时间间隔,其中,第一内存差值可以和休眠时间间隔成正比关系。
示例二:
在本示例中,根据预设算法对内存占用标准值计算,根据计算结果得到休眠时间间隔,比如,确定内存占用标准值与音频生成模型生成音频帧时的内存占用值的比值(这里的音频生成模型可以理解为没有休眠时间间隔),查询预设的对应关系,确定与该比值对应的休眠时间间隔。
又比如,计算内存占用标准值与预设常数的差值,该预设常数可以根据实验数据标定,将该常数的首个非0的数字作为休眠时间间隔。
步骤103,根据音频生成模型的休眠时间间隔控制相邻音频的生成时间间隔。
在本实施例中,根据音频生成模型的休眠时间间隔控制相邻音频帧的生成时间间隔,比如,直接将休眠时间间隔作为相邻音频帧的生成时间间隔,又不如,直接将休眠时间间隔的N倍作为生成时间间隔,其中,N为大于1小于2的正数。
由此,继续参照图2所示,本实施例中的音频生成模型在加入休眠时间间隔后,可以控制相邻音频帧的间隔输出,从而降低了内存占用峰值等,避免了音频帧输出的卡顿,其中,在实际操作过程中,可以通过在音频帧的输出事件之间增加休眠标志等来进行休眠,比如,控制音频帧输出模型在输入一帧音频帧后,查询是否具有与该音频生成模型对应的休眠标志位,若是有,则查询该标志位对应的生成时间间隔,从而,在生成时间间隔后才进行下一个音频帧的输出。
综上,本申请实施例的音频帧的输出方法,根据终端设备的内存占用标准值,确定终端设备对应的音频生成模型是否满足预设的休眠条件,进而,在音频生成模型满足休眠条件的情况下,根据内存占用标准值确定音频生成模型的休眠时间间隔,最后,根据音频生成模型的休眠时间间隔控制相邻音频的生成时间间隔。由此,根据终端设备的内存占用要求,适配音频生成模型在音频输出时的内存占用率,兼顾了音频输出效率和内存占用率。
基于以上实施例,在终端设备适配的音频帧生成模型生成后,该音频帧生成模型根据与终端设备对应的休眠时间间隔控制相邻音频的生成时间间隔。
如图6所示,该方法还包括:
步骤401,响应终端设备发送的文本信息,生成与文本信息对应的音频数据流。
其中,文本信息可以是用户在基于人工智能的交互界面上输入的,也可以是根据用户输入的问询信息匹配得到的答案文本。
在本实施例中,生成与文本信息对应的数据流的方式,可以是查询与每个文本信息中的每个文字对应的音频后,根据文本字在文本信息中的顺序拼接生成的等。
步骤402,控制音频生成模型根据预设的音频帧输出周期,在音频数据流中截取音频帧并输出。
其中,预设的音频帧输出周期可以是10ms等,具体数值可以根据场景标定,在此不作限制。
在本实施例中,控制音频生成模型根据预设的音频帧输出周期,在音频数据流中截取出对应时长的音频帧进行输出。
步骤403,确定音频数据流是否全部输出。
在一些可能的实施例中,可以根据上一个音频帧输出周期输出的音频数据流是否包含音频数据流的最后一个字节判断音频数据流是否全部输出。
步骤404,在没有全部输出的情况下,在生成时间间隔后控制音频生成模型根据预设的音频帧输出周期,在剩余的音频数据流中截取音频帧并输出。
在本实施例中,在没有全部输出的情况下,在生成时间间隔后控制音频生成模型根据预设的音频帧输出周期,在剩余的音频数据流中截取音频帧并输出,以保证音频数据流的完整输出。
当然,在实际执行过程中,也可能确定生成时间间隔的内存占用标准值,与在使用音频帧输出模型时的实时内存空闲值差距较大,因此,为了进一步避免音频帧输出时的卡顿,在本申请的一个实施例中,在生成时间间隔后控制音频生成模型根据预设的音频帧输出周期,在剩余的音频数据流中截取音频帧并输出之前,获取终端设备的实时内存空闲值,进而,计算实时内存空闲值与内存占用标准值的第二内存差值,在第二内存差值大于预设差值阈值的情况下,认为音频帧输出具有卡顿风险,从而,确定与第二内存差值对应的调整时间间隔。
比如,预先根据实验数据构建第二内存差值与调整时间间隔的对应关系,进而,根据查询该对应关系,确定与第二内存差值对应的调整时间间隔。
进一步的,根据调整时间间隔和生成时间间隔之和更新音频生成模型中的生成时间间隔,也即是说进一步提高休眠时长,以降低音频帧输出时的内存占用率。
由于休眠时间间隔增加后,音频帧输出耗时会进一步增长,因此,在本申请的一个实施例中,还可以弹窗提醒用户是否接受增大生成时间间隔,若是用户不接受,则根据第二内存差值结束终端设备的当前运行的一部分进程等。
综上,本申请实施例的音频帧的输出方法,根据与终端设备适配的生成时间间隔,控制音频帧生成模型在输出音频帧的时间间隔,避免音频帧的输出卡顿。
为了实现上述实施例,本申请还提出了一种音频帧的输出装置。图7是根据本申请一个实施例的音频帧的输出装置的结构示意图,如图7所示,该音频帧的输出装置包括:第一确定模块710、第二确定模块720,和输出控制模块730,其中,
第一确定模块710,用于根据终端设备的内存占用标准值,确定终端设备对应的音频生成模型是否满足预设的休眠条件;
第二确定模块720,用于在音频生成模型满足休眠条件的情况下,根据内存占用标准值确定音频生成模型的休眠时间间隔;
输出控制模块730,用于根据音频生成模型的休眠时间间隔控制相邻音频的生成时间间隔。
在本申请的一个实施例中,第一确定模块710,具体用于:
获取音频生成模型在生成音频帧时的内存占用均值;
判断内存占用均值是否大于等于内存占用标准值,其中,若内存占用均值大于等于内存占用标准值,则确定终端设备的音频生成模型满足预设的休眠条件。
在本申请的一个实施例中,第一确定模块710,具体用于:
确定内存占用标准值是否小于预设的内存占用阈值;
在小于内存占用阈值的情况下,计算内存占用阈值与内存占用标准值的差值;
确定差值是否小于等于预设差值阈值,其中,在差值大于预设差值阈值的情况下,确定音频生成模型满足预设的休眠条件。
在本申请的一个实施例中,第二确定模块720,具体用于:
计算内存占用均值与内存占用标准值的第一内存差值;
查询预设对应关系确定与第一内存差值对应的休眠时间间隔。
在本申请的一个实施例中,第二确定模块720,具体用于:
根据预设算法对内存占用标准值计算,根据计算结果得到休眠时间间隔。
需要说明的是,前述对音频帧的输出方法的解释说明,也适用于本申请实施例的音频帧的输出装置,其实现原理和技术效果与本申请类似,在此不再赘述。
在本申请的一个实施例中,如图8所示,除了第一确定模块810、第二确定模块820,和输出控制模块830之外,该装置还包括:生成模块840、输出模块850、第三确定模块860,其中,第一确定模块810、第二确定模块820,和输出控制模块830可以参照上述实施例中描述的第一确定模块710、第二确定模块720,和输出控制模块730,
生成模块840,用于响应终端设备发送的文本信息,生成与文本信息对应的音频数据流;
输出模块850,用于控制音频生成模型根据预设的音频帧输出周期,在音频数据流中截取音频帧并输出;
第三确定模块860,用于确定音频数据流是否全部输出;
生成模块840,还用于在没有全部输出的情况下,在生成时间间隔后控制音频生成模型根据预设的音频帧输出周期,在剩余的音频数据流中截取音频帧并输出。
在本申请的一个实施例中,如图9所示,除了包括第一确定模块910、第二确定模块920,和输出控制模块930、生成模块940、输出模块950、第三确定模块960之外,该装置还包括:获取模块970、计算模块980、第四确定模块990和更新模块9100,其中,第一确定模块910、第二确定模块920,和输出控制模块930、生成模块940、输出模块950、第三确定模块960参照上述实施例中描述的第一确定模块810、第二确定模块820,和输出控制模块830、生成模块840、输出模块850、第三确定模块860,
获取模块970,用于获取终端设备的实时内存空闲值;
计算模块980,用于计算实时内存空闲值与内存占用标准值的第二内存差值;
第四确定模块990,用于在第二内存差值大于预设差值阈值的情况下,确定第二内存差值对应的调整时间间隔;
更新模块9100,用于根据调整时间间隔和生成时间间隔之和更新音频生成模型中的生成时间间隔。
需要说明的是,前述对音频帧的输出方法的解释说明,也适用于本申请实施例的音频帧的输出装置,其实现原理和技术效果与本申请类似,在此不再赘述。
根据本申请的实施例,本申请还提供了一种电子设备和一种可读存储介质。
如图10所示,是根据本申请实施例的音频帧的输出的方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本申请的实现。
如图10所示,该电子设备包括:一个或多个处理器1001、存储器1002,以及用于连接各部件的接口,包括高速接口和低速接口。各个部件利用不同的总线互相连接,并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理,包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如,耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中,若需要,可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样,可以连接多个电子设备,各个设备提供部分必要的操作(例如,作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图10中以一个处理器1001为例。
存储器1002即为本申请所提供的非瞬时计算机可读存储介质。其中,所述存储器存储有可由至少一个处理器执行的指令,以使所述至少一个处理器执行本申请所提供的音频帧的输出的方法。本申请的非瞬时计算机可读存储介质存储计算机指令,该计算机指令用于使计算机执行本申请所提供的音频帧的输出的方法。
存储器1002作为一种非瞬时计算机可读存储介质,可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块,如本申请实施例中的音频帧的输出的方法对应的程序指令/模块。处理器1001通过运行存储在存储器1002中的非瞬时软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例中的音频帧的输出的方法。
存储器1002可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据音频帧的输出的电子设备的使用所创建的数据等。此外,存储器1002可以包括高速随机存取存储器,还可以包括非瞬时存储器,例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中,存储器1002可选包括相对于处理器1001远程设置的存储器,这些远程存储器可以通过网络连接至音频帧的输出的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
音频帧的输出的方法的电子设备还可以包括:输入装置1003和输出装置1004。处理器1001、存储器1002、输入装置1003和输出装置1004可以通过总线或者其他方式连接,图10中以通过总线连接为例。
输入装置1003可接收输入的数字或字符信息,以及产生与音频帧的输出的电子设备的用户设置以及功能控制有关的键信号输入,例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置1004可以包括显示设备、辅助照明装置(例如,LED)和触觉反馈装置(例如,振动电机)等。该显示设备可以包括但不限于,液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中,显示设备可以是触摸屏。
此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,即本申请还提出了一种计算机程序,该计算机程序在被处理器执行时,实现上述实施例所描述的音频帧的输出方法,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令,并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(PLD)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)、互联网和区块链网络。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务("Virtual Private Server",或简称 "VPS")中,存在的管理难度大,业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器,或者是,结合了区块链的服务器。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本申请公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本申请保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等,均应包含在本申请保护范围之内。
Claims (17)
1.一种音频帧的输出方法,包括:
根据终端设备的内存占用标准值,确定所述终端设备对应的音频生成模型是否满足预设的休眠条件;
在所述音频生成模型满足所述休眠条件的情况下,根据所述内存占用标准值确定所述音频生成模型的休眠时间间隔;
根据所述音频生成模型的休眠时间间隔控制相邻音频的生成时间间隔。
2.如权利要求1所述的方法,其中,所述确定所述终端设备对应的音频生成模型是否满足预设的休眠条件,包括:
获取所述音频生成模型在生成音频帧时的内存占用均值;
判断所述内存占用均值是否大于等于所述内存占用标准值,其中,若所述内存占用均值大于等于所述内存占用标准值,则确定所述终端设备的音频生成模型满足预设的休眠条件。
3.如权利要求1所述的方法,其中,所述确定所述终端设备对应的音频生成模型是否满足预设的休眠条件,包括:
确定所述内存占用标准值是否小于预设的内存占用阈值;
在小于所述内存占用阈值的情况下,计算所述内存占用阈值与所述内存占用标准值的差值;
确定所述差值是否小于等于预设差值阈值,其中,在所述差值大于所述预设差值阈值的情况下,确定所述音频生成模型满足预设的休眠条件。
4.如权利要求2所述的方法,其中,所述根据所述内存占用标准值确定所述音频生成模型的休眠时间间隔,包括:
计算所述内存占用均值与所述内存占用标准值的第一内存差值;
查询预设对应关系确定与所述第一内存差值对应的休眠时间间隔。
5.如权利要求1所述的方法,其中,所述根据所述内存占用标准值确定所述音频生成模型的休眠时间间隔,包括:
根据预设算法对所述内存占用标准值计算,根据计算结果得到所述休眠时间间隔。
6.如权利要求1所述的方法,其中,还包括:
响应所述终端设备发送的文本信息,生成与所述文本信息对应的音频数据流;
控制所述音频生成模型根据预设的音频帧输出周期,在所述音频数据流中截取音频帧并输出;
确定所述音频数据流是否全部输出;
在没有全部输出的情况下,在所述生成时间间隔后控制所述音频生成模型根据预设的音频帧输出周期,在剩余的音频数据流中截取音频帧并输出。
7.如权利要求6所述的方法,在所述在所述休眠时间间隔后控制所述音频生成模型根据预设的音频帧输出周期,在剩余的音频数据流中截取音频帧并输出之前,还包括:
获取所述终端设备的实时内存空闲值;
计算所述实时内存空闲值与所述内存占用标准值的第二内存差值;
在所述第二内存差值大于预设差值阈值的情况下,确定所述第二内存差值对应的调整时间间隔;
根据所述调整时间间隔和所述生成时间间隔之和更新所述音频生成模型中的生成时间间隔。
8.一种音频帧的输出装置,包括:
第一确定模块,用于根据终端设备的内存占用标准值,确定所述终端设备对应的音频生成模型是否满足预设的休眠条件;
第二确定模块,用于在所述音频生成模型满足所述休眠条件的情况下,根据所述内存占用标准值确定所述音频生成模型的休眠时间间隔;
输出控制模块,用于根据所述音频生成模型的休眠时间间隔控制相邻音频的生成时间间隔。
9.如权利要求8所述的装置,其中,所述第一确定模块,具体用于:
获取所述音频生成模型在生成音频帧时的内存占用均值;
判断所述内存占用均值是否大于等于所述内存占用标准值,其中,若所述内存占用均值大于等于所述内存占用标准值,则确定所述终端设备的音频生成模型满足预设的休眠条件。
10.如权利要求8所述的装置,其中,所述第一确定模块,具体用于:
确定所述内存占用标准值是否小于预设的内存占用阈值;
在小于所述内存占用阈值的情况下,计算所述内存占用阈值与所述内存占用标准值的差值;
确定所述差值是否小于等于预设差值阈值,其中,在所述差值大于所述预设差值阈值的情况下,确定所述音频生成模型满足预设的休眠条件。
11.如权利要求9所述的装置,其中,所述第二确定模块,具体用于:
计算所述内存占用均值与所述内存占用标准值的第一内存差值;
查询预设对应关系确定与所述第一内存差值对应的休眠时间间隔。
12.如权利要求8所述的装置,其中,所述第二确定模块,具体用于:
根据预设算法对所述内存占用标准值计算,根据计算结果得到所述休眠时间间隔。
13.如权利要求8所述的装置,还包括:
生成模块,用于响应所述终端设备发送的文本信息,生成与所述文本信息对应的音频数据流;
输出模块,用于控制所述音频生成模型根据预设的音频帧输出周期,在所述音频数据流中截取音频帧并输出;
第三确定模块,用于确定所述音频数据流是否全部输出;
所述生成模块,还用于在没有全部输出的情况下,在所述生成时间间隔后控制所述音频生成模型根据预设的音频帧输出周期,在剩余的音频数据流中截取音频帧并输出。
14.如权利要求13所述的装置,还包括:
获取模块,用于获取所述终端设备的实时内存空闲值;
计算模块,用于计算所述实时内存空闲值与所述内存占用标准值的第二内存差值;
第四确定模块,用于在所述第二内存差值大于预设差值阈值的情况下,确定所述第二内存差值对应的调整时间间隔;
更新模块,用于根据所述调整时间间隔和所述生成时间间隔之和更新所述音频生成模型中的生成时间间隔。
15.一种电子设备,其特征在于,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-7中任一项所述的方法。
16.一种存储有计算机指令的非瞬时计算机可读存储介质,其特征在于,所述计算机指令用于使所述计算机执行权利要求1-7中任一项所述的方法。
17.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1-7中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011225036.1A CN112527234B (zh) | 2020-11-05 | 2020-11-05 | 音频帧的输出方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011225036.1A CN112527234B (zh) | 2020-11-05 | 2020-11-05 | 音频帧的输出方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112527234A CN112527234A (zh) | 2021-03-19 |
CN112527234B true CN112527234B (zh) | 2021-08-17 |
Family
ID=74980671
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011225036.1A Active CN112527234B (zh) | 2020-11-05 | 2020-11-05 | 音频帧的输出方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112527234B (zh) |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105824702A (zh) * | 2016-03-22 | 2016-08-03 | 乐视云计算有限公司 | 一种管理程序内存占用量的方法和终端 |
US9971516B2 (en) * | 2016-10-17 | 2018-05-15 | International Business Machines Corporation | Load stall interrupt |
US10108707B1 (en) * | 2017-09-22 | 2018-10-23 | Amazon Technologies, Inc. | Data ingestion pipeline |
CN107749931A (zh) * | 2017-09-29 | 2018-03-02 | 携程旅游信息技术(上海)有限公司 | 互动式语音应答的方法、系统、设备及存储介质 |
CN109377734A (zh) * | 2018-10-15 | 2019-02-22 | 深圳市道通智能航空技术有限公司 | 语音提示方法、语音提示系统、移动控制终端及语音提示设备 |
CN111580975B (zh) * | 2020-05-07 | 2022-07-08 | 思必驰科技股份有限公司 | 用于语音合成的内存优化方法及系统 |
-
2020
- 2020-11-05 CN CN202011225036.1A patent/CN112527234B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN112527234A (zh) | 2021-03-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111461290B (zh) | 模型参数更新方法及装置 | |
CN111880914A (zh) | 资源调度方法、资源调度装置、电子设备和存储介质 | |
US20210409712A1 (en) | Method for coding video and related device | |
CN111354360A (zh) | 语音交互处理方法、装置和电子设备 | |
CN111309283A (zh) | 用户界面的语音控制方法、装置、电子设备及存储介质 | |
JP7257434B2 (ja) | 音声対話方法、音声対話デバイス、電子デバイス、記憶媒体及びコンピュータプログラム製品 | |
CN111935502A (zh) | 视频处理方法、装置、电子设备以及存储介质 | |
CN112561332B (zh) | 模型管理方法、装置、电子设备、存储介质和程序产品 | |
CN111865720B (zh) | 用于处理请求的方法、装置、设备以及存储介质 | |
CN110659330A (zh) | 数据处理方法、装置及存储介质 | |
CN112133307A (zh) | 人机交互方法、装置、电子设备及存储介质 | |
CN110958137B (zh) | 流量管理方法、装置及电子设备 | |
CN112382279A (zh) | 语音识别方法、装置、电子设备和存储介质 | |
CN111783949A (zh) | 基于迁移学习的深度神经网络的训练方法和装置 | |
CN114217996A (zh) | 混音方法和装置 | |
CN112527234B (zh) | 音频帧的输出方法和装置 | |
CN113961289A (zh) | 一种数据处理方法、装置、设备以及存储介质 | |
CN111160552A (zh) | 负采样处理方法、装置、设备和计算机存储介质 | |
CN111882483A (zh) | 视频渲染方法及装置 | |
CN111669647A (zh) | 实时视频的处理方法、装置、设备及存储介质 | |
US11954449B2 (en) | Method for generating conversation reply information using a set of historical conversations, electronic device, and storage medium | |
CN112584280A (zh) | 智能设备的控制方法、装置、设备和介质 | |
CN113742581B (zh) | 榜单的生成方法、装置、电子设备及可读存储介质 | |
CN111986682A (zh) | 语音交互方法、装置、设备以及存储介质 | |
CN111783872A (zh) | 训练模型的方法、装置、电子设备及计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |