CN111147655B - 模型生成方法和装置 - Google Patents
模型生成方法和装置 Download PDFInfo
- Publication number
- CN111147655B CN111147655B CN201811302016.2A CN201811302016A CN111147655B CN 111147655 B CN111147655 B CN 111147655B CN 201811302016 A CN201811302016 A CN 201811302016A CN 111147655 B CN111147655 B CN 111147655B
- Authority
- CN
- China
- Prior art keywords
- mode
- audio processing
- processing mode
- information
- selectable audio
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M1/00—Substation equipment, e.g. for use by subscribers
- H04M1/72—Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
- H04M1/724—User interfaces specially adapted for cordless or mobile telephones
- H04M1/72403—User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality
- H04M1/72442—User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality for playing music files
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B20/00—Signal processing not specific to the method of recording or reproducing; Circuits therefor
- G11B20/10—Digital recording or reproducing
- G11B20/10527—Audio or video recording; Data buffering arrangements
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M9/00—Arrangements for interconnection not involving centralised switching
- H04M9/08—Two-way loud-speaking telephone systems with means for conditioning the signal, e.g. for suppressing echoes for one or both directions of traffic
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B20/00—Signal processing not specific to the method of recording or reproducing; Circuits therefor
- G11B20/10—Digital recording or reproducing
- G11B20/10527—Audio or video recording; Data buffering arrangements
- G11B2020/10537—Audio or video recording
- G11B2020/10546—Audio or video recording specifically adapted for audio data
- G11B2020/10555—Audio or video recording specifically adapted for audio data wherein the frequency, the amplitude, or other characteristics of the audio signal is taken into account
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing For Digital Recording And Reproducing (AREA)
Abstract
本公开实施例公开了模型生成方法和装置。该方法的具体实施方式包括:获取第一电子设备所关联的第一信息;基于该第一信息,从预先设置的可选音频处理方式集合中,选取可选音频处理方式作为目标可选音频处理方式;利用该目标可选音频处理方式,生成音频处理模型;其中:该第一电子设备用于采集录音数据。该实施方式提供了新的用于音频处理的模型生成方式。
Description
技术领域
本公开实施例涉及计算机技术领域,具体涉及模型生成方法和装置。
背景技术
录音,也可以称为拾音,指把声音收集起来的过程。电子设备(例如终端)可以录音。录音可以得到录音数据,可以将录音数据直接作为放音数据。放音数据可以由采集录音数据的电子设备播放,也可以由其它电子设备播放。
现有技术中,用于处理录音数据的音频处理模型,通常是固定的,难以适配各种终端设备以及各种录音场景。
发明内容
本公开实施例提出了模型生成方法和装置。
第一方面,本公开实施例提供了一种模型生成方法,该方法包括:获取第一电子设备所关联的第一信息;基于上述第一信息,从预先设置的可选音频处理方式集合中,选取可选音频处理方式作为目标可选音频处理方式;利用上述目标可选音频处理方式,生成音频处理模型;其中:上述第一电子设备用于采集录音数据。
第二方面,本公开实施例提供了一种模型生成装置,该装置包括:第一获取单元,被配置成获取第一电子设备所关联的第一信息;选取单元,被配置成基于上述第一信息,从预先设置的可选音频处理方式集合中,选取可选音频处理方式作为目标可选音频处理方式;生成单元,被配置成利用上述目标可选音频处理方式,生成音频处理模型;其中:上述第一电子设备用于采集录音数据。
第三方面,本公开实施例提供了一种电子设备,该电子设备包括:一个或多个处理器;存储装置,其上存储有一个或多个程序,当上述一个或多个程序被上述一个或多个处理器执行时,使得上述一个或多个处理器实现如第一方面中任一实现方式描述的方法。
第四方面,本公开实施例提供了一种计算机可读介质,其上存储有计算机程序,其中,该计算机程序被处理器执行时实现如第一方面中任一实现方式描述的方法。
本公开实施例提供的模型生成方法和装置,通过获取第一电子设备所关联的第一信息,然后基于上述第一信息,从预先设置的可选音频处理方式集合中,选取出可选音频处理方式作为目标可选音频处理方式,再利用目标可选音频处理方式,生成音频处理模型,技术效果至少可以包括:提供了一种新的生成音频处理模型的方式。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本公开的其它特征、目的和优点将会变得更明显:
图1是本公开的一些实施例可以应用于其中的示例性系统架构图;
图2是根据本公开的模型生成方法的一个实施例的流程图;
图3是根据本公开的模型生成方法的一个应用场景的示意图;
图4是根据本公开的模型生成方法的一个应用场景的示意图;
图5是根据本公开的一个音频处理模型的示意图;
图6是根据本公开的另一个音频处理模型的示意图;
图7是根据本公开的模型生成装置的一个实施例的结构示意图;
图8是适于用来实现本公开实施例的电子设备的计算机系统的结构示意图。
具体实施方式
下面结合附图和实施例对本公开作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本公开。
图1示出了可以应用本公开的模型生成方法或模型生成装置的实施例的示例性系统架构100。
如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104可以是用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如录音类应用、通话类应用、直播类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。
终端设备101、102、103可以是硬件,也可以是软件。当终端设备101、102、103为硬件时,可以是具有通信功能的各种电子设备,包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器(Moving Picture Experts Group Audio Layer III,动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Audio Layer IV,动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。当终端设备101、102、103为软件时,可以安装在上述所列举的电子设备中。其可以实现成多个软件或软件模块(例如用来提供分布式服务),也可以实现成单个软件或软件模块。在此不做具体限定。
服务器105可以是提供各种服务的服务器,例如对终端设备101、102、103上的拾音功能支持的后台服务器。终端设备可以将音频处理模型请求(包括终端设备所关联的第一信息)发送至后台服务器。后台服务器可以对接收到的音频处理请求等数据进行分析等处理,并将处理结果(例如音频处理模型)反馈给终端设备。再例如,服务器可以将拾音得到的原始音频数据进行打包得到音频处理请求,然后将音频处理请求发送至后台服务器。后台服务器可以对接收到的音频处理请求等数据进行分析等处理,并将处理结果(例如放音数据)反馈给终端设备。
需要说明的是,本公开实施例所提供的模型生成方法一般由终端设备101、102、103执行,相应地,模型生成装置一般设置于终端设备101、102、103中。可选的,本公开实施例所提供的模型生成方法也可以由服务器执行,服务器可以接收终端设备发送的模型生成请求,然后执行本公开所示方法,生成音频处理模型。
需要说明的是,服务器可以是硬件,也可以是软件。当服务器为硬件时,可以实现成多个服务器组成的分布式服务器集群,也可以实现成单个服务器。当服务器为软件时,可以实现成多个软件或软件模块(例如用来提供分布式服务),也可以实现成单个软件或软件模块。在此不做具体限定。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
请参考图2,其示出了模型生成方法的一个实施例的流程200。本实施例主要以该方法应用于有一定运算能力的电子设备中来举例说明,该电子设备可以是图1示出的终端设备。该模型生成方法,包括以下步骤:
步骤201,获取第一电子设备所关联的第一信息。
在本实施例中,模型生成方法的执行主体(例如图1所示的终端设备)可以获取第一电子设备所关联的第一信息。
在本实施例中,上述第一电子设备可以用于采集录音数据。第一电子设备可以与上述执行主体相同,也可以不同。
在本实施例中,第一信息可以指示第一电子设备的特征。
可选的,此处的特征可以包括但不限于以下至少一项:第一电子设备的硬件的硬件特性、第一电子设备所处于的环境的环境状况和第一电子设备上调用模型生成方法的应用的应用设置等。
作为示例,上述硬件特性可以指音频采样率。上述环境状况可以指环境嘈杂程度。上述应用设置可以指应用需要的放音数据对应音质的等级信息。
步骤202,基于第一信息,从预先设置的可选音频处理方式集合中,选取可选音频处理方式作为目标可选音频处理方式。
在本实施例中,上述执行主体可以基于上述第一信息,从预先设置的可选音频处理方式集合中,选取可选音频处理方式作为目标可选音频处理方式。
在本实施例中,可选音频处理方式,不是音频处理的必须的方式;即可以根据实际情况确定,可以用还是不用这种可选音频处理方式。
可选的,可选音频处理方式可以是音频处理函数调用接口,也可以是打包好的音频处理函数。
在这里,目标可选处理方式可以理解为是针对上述第一电子设备的。
步骤203,基于目标可选音频处理方式,生成音频处理模型。
在本实施例中,上述执行主体可以基于上述目标可选音频处理方式,生成音频处理模型。
在本实施例中,上述音频处理模型可以用于表征录音数据和待放音数据之间的对应关系。
在本实施例的一些可选的实现方式中,上述步骤203可以包括:利用目标可选音频处理方式和预先设置的必选音频处理方式,生成音频处理模型。
需要说明的是,音频处理模型可以根据实际需求,自适应配置,由此,生成的音频处理模型可以适应不同的场景需求而进行音频处理,从而可以提高音频处理的针对性,并且可以提高处理得到的待放音数据的音质。
继续参见图3,图3是根据图2所示实施例的模型生成方法的应用场景的一个示意图。在图3的应用场景中:
首先,终端301可以获取第一电子设备所关联的第一信息。在本应用场景中,第一电子设备可以是终端301,即终端301可以获取自身所关联的第一信息。
然后,终端301可以基于第一信息,从预先设置的可选音频处理方式集合中,选取可选音频处理方式作为目标可选音频处理方式。
然后,终端301可以利用目标可选音频处理方式,生成音频处理模型。
最后,终端301可以利用上述音频处理模型,对终端301采集的录音数据进行处理,生成待放音数据。
继续参见图4,图4是根据图2所示实施例的模型生成方法的另一个应用场景的一个示意图。在图4的应用场景中:
首先,终端401可以将终端401所关联的第一信息发送给服务器402。
然后,服务器402可以获取第一电子设备所关联的第一信息。在本应用场景中,第一电子设备可以是终端401,即服务器402可以获取终端401所关联的第一信息。
然后,服务器402可以基于第一信息,从预先设置的可选音频处理方式集合中,选取可选音频处理方式作为目标可选音频处理方式。
然后,服务器402可以利用目标可选音频处理方式,生成音频处理模型。
最后,服务器402可以利用上述音频处理模型,对终端401采集的录音数据进行处理,生成待放音数据。
本公开的上述实施例提供的方法,通过获取第一电子设备所关联的第一信息,然后基于上述第一信息,从预先设置的可选音频处理方式集合中,选取出可选音频处理方式作为目标可选音频处理方式,再利用目标可选音频处理方式,生成音频处理模型,技术效果至少可以包括:提供了一种新的生成音频处理模型的方式。
在一些实现方式中,本公开所示方法还可以包括:获取上述第一电子设备采集的录音数据;利用上述音频处理模型,处理上述录音数据,得到待放音数据。在这里,上述执行主体可以将上述录音数据导入上述音频处理模型,得到待放音数据。
需要说明的是,通过利用上述针对第一电子设备的音频处理模型,处理第一电子设备采集的录音数据,可以根据第一电子设备的实际应用场景,对录音数据进行处理,提高音频处理的针对性,并且可以提高处理得到的待放音数据而产生的声音的音质。
在一些实施例中,上述第一信息可以包括音质要求信息,上述步骤202可以包括:根据上述音质要求信息,从上述可选音频处理方式集合中,选取可选音频处理方式作为目标可选音频处理方式。
在这里,音质要求信息可以用于指示对待放音数据的音质要求。作为示例,音质要求可以包括但不限于以下至少一项:高音质、中等音质、低音质等。高音质可以指待放音数据中的噪音较少、音量适中等。中等音质可以指待放音数据中的噪音中等。低音质可以指对待放音数据中的噪音情况无要求。
在一些实施例中,上述可选音频处理方式集合可以包括但不限于以下至少一种:空间录音处理方式、声场扩展处理方式、声场压缩处理方式、去噪处理方式、自动增益控制方式、回音消除处理方式、音量限制处理方式和能量补偿处理方式等。
在一些实施例中,上述第一信息还可以包括:录音通道数量。空间录音处理方式包括第一空间录音处理子方式和第二空间录音处理子方式。
在一些实施例中,上述步骤203可以包括:响应于确定空间录音处理方式为目标可选音频处理方式,根据录音通道数量,从空间录音处理方式中,选取第一空间录音处理子方式或第二空间录音处理子方式,以生成上述音频处理模型。
作为示例,录音通道数量为两个,可以选择第一空间录音处理子方式;录音通道数量为三个,可以选择第二空间录音处理子方式。
可选的,第一拾音设备组合可以包括左录音设备和右录音设备,第一空间录音处理子方式处理原理如下:可以根据做左录音设备采集的音频数据和右录音设备采集的音频数据以及预设的方向重配矩阵,生成第二录音数据。
可选的,拾音设备组合可以包括左录音设备、右录音设备和环向录音设备。由此拾音设备组合采集的第一录音数据可以包括左录音设备录音数据(记为left_mic)、右录音设备录音数据(记为right_mic)和环向录音设备录音数据(记为sorround_mic)。
可选的,第二空间录音处理子方式处理原理如下:可以利用根据上述左录音设备录音数据、上述右录音设备录音数据和上述环向录音设备录音数据以及预设的方向重配矩阵,生成第二录音数据。
作为示例,可以利用以下公式计算生成第二录音数据。
W=A00*left_mic+A11*right_mic+A22*sorround_mic
X=A01*left_mic+A10*right_mic+A20*sorround_mic
Y=A02*left_mic+A12*right_mic+A21*surround_mic
其中:W表示全方向数据,X表示第一方向数据,Y表示第二方向数据;*表示乘以;A00、A11、A22、A01、A10、A20、A02、A12和A21,为以下示出的矩阵(1)中的元素。矩阵(1)如下:
可选的,矩阵(1)中的元素的取值可以根据实际情况设定。作为示例,矩阵(1)的取值可以如矩阵(2)所示,矩阵(2)可以如下:
需要说明的是,第二录音数据作为音频处理的中间形式,具有的清晰的方向对应性,从而可以在后续的音频处理(例如降噪等)中,通过对各个方向的第二录音数据分别处理,提高音频处理效果,得到更高音质的待放音数据。
在一些实施例中,上述第一信息还可以包括:噪音程度信息。去噪处理方式包括第一去噪处理子方式、第二去噪处理子方式和第三去噪处理子方式。
在一些实施例中,上述步骤203可以包括:响应于确定去噪处理方式为目标可选音频处理方式,根据上述噪音程度信息,确定从去噪处理方式中,选取第一去噪处理子方式、第二去噪处理子方式或第三去噪处理子方式,以生成音频处理模型。
在这里,第一去噪处理子方式可以用于高噪声场景的噪声去除。第二去噪处理子方式可以用于中等噪声场景的噪声去除。第三去噪处理子方式可以用于低噪声场景的噪声去除。可以理解,高噪声场景、中等噪声和低噪声场景可以是预定义的,可以根据实时采集的音频的判断当前属于何种噪声场景,也可以由终端使用者自动设置经常使用的场所属于何种噪声场景。
作为示例,噪音程度信息可以包括高噪声场景标签、中等噪声场景标签和低噪声场景标签。
作为示例,可以在高噪声场景标签的情况下,选取第一去噪处理子方式以生成音频处理模型。可以在中等噪声场景标签的情况下,选取第二去噪处理子方式以生成音频处理模型。可以在低噪声场景标签的情况下,选取第三去噪处理子方式以生成音频处理模型。
在一些实施例中,可以根据音质要求信息,确定是否将声场扩展处理方式确定为目标可选音频处理方式。
在这里,声场扩展处理方式可以用于扩展出对应更多方向(相对于第一电子设备采集的录音数据)的数据。
需要说明的是,通过声场扩展处理方式,可以扩展出对应更多方向的音频数据,提升音频的空间分辨率,从而可以提高音频的空间环绕感,也可以为之后利用空间排布的多个放音设备做放音准备。
作为示例,第一电子设备采集的录音数据对应第一方向和第二方向,经声场扩展处理方式处理后的数据可以对应第一方向、第二方向和第三方向。第三方向可以指向第一方向和第二方向的角平分线。
作为示例,第一电子设备采集的录音数据对应第一方向和第二方向,经声场扩展处理方式处理后的数据可以对应第一方向、第二方向、第四方向和第五方向。第四方向和第五方向可以分别指向30度方向和60度方向,即第四方向和第五方向将第一方向和第二方向之间的夹角进行了三等分。
在一些实施例中,可以根据音质要求信息,确定是否将自动增益控制方式确定为目标可选音频处理方式。
需要说明的是,经过自动增益控制方式,可以避免音量忽大忽小的情况出现。
在一些实施例中,步骤202可以包括:根据上述第一信息和第二电子设备所关联的第二信息,从预先设置的可选音频处理方式集合中,选取可选音频处理方式作为目标可选音频处理方式。在这里,其中,上述第二电子设备用于读取上述待放音数据进行放音。
在一些实施例中,上述第二信息可以包括放音通道数量。上述执行主体可以根据第二设备的放音通道数量,确定是否选取确定是否选取上述声场压缩处理方式作为上述目标可选音频处理方式。
在本实施例中,声场压缩处理方式可以用于压缩到对应更少方向(相对于第一电子设备采集的录音数据)的数据。
例如,第一电子设备采集的录音数据可以包括对应三个方向的音频数据。方向压缩之后录音数据可以包括对应一个方向的音频数据。
需要说明的是,将第一电子设备采集的录音数据经方向压缩后,可以适配较少声道的放音需求。
可选的,声场压缩处理方式可以通过以下方式实现:对第一电子设备采集的录音数据中的第一方向数据、第二方向数据和全方向数据取平均或者加权平均,作为对应单通道的声场压缩结果。
可选的,声场压缩处理方式还可以通过以下方式实现:确定第一电子设备采集的录音数据中音频帧的语音能量值;根据语音能量值,选取第一电子设备采集的录音数据中的音频帧;提取选取出的音频帧对应的全方向数据,生成上述单通道的声场压缩结果。
在一些实施例中,公放指示信息用于第二信息包括用于指示电子设备处于声音公放状态,可选音频处理方式集合包括回音消除方式。
在一些实施例中,上述执行主体可以响应于确定第一信息包括公放指示信息以及响应于确定上述第二信息包括公放指示信息,将回音消除方式确定为目标可选音频处理方式。
作为示例,终端设备甲可以作为第一端,终端设备乙可以作为第二端。用户甲发出声音,终端设备甲采集得到第二端录音数据。终端设备甲或者服务器基于上述第二端录音数据,生成上述第一端放音数据。终端设备乙接收上述第一端放音数据,以及读取上述第一端放音数据进行放音。终端设备乙可以采集所在空间的声音,得到第一端录音数据。可以理解,由于终端设备乙基于第一端放音数据进行放音时,声音传递到终端设备乙所在的空间,终端设备乙采集到的第一端录音数据包括基于第一端放音数据的声音。
在这里,基于上述第一端放音而产生的声音在空间中进行传播,采集传播后的声音而形成的音频数据可以称为回音数据。可以理解,上述回音数据与上述第一端放音数据,具有一定程度的相似性但是不相同;例如,语义相同但是语音大小不同。
在一些实施例中,回音消除方式原理如下:获取第一端放音数据和第一端录音数据;从上述第一端录音数据中,确定与上述第一端放音数据匹配的目标数据段;根据上述目标数据段的采集开始时间,确定上述第一端放音数据相对于上述第一端录音数据的延迟时间;根据上述延迟时间,消除上述第一端录音数据中的上述回音数据;其中,上述第一端放音数据基于第二端录音数据生成,第一端录音数据包括基于上述第一端放音数据而产生的声音的回音数据。
上述执行主体可以根据上述延迟时间,消除上述第一端录音数据中的上述回音数据。在这里,消除上述第一端录音数据中的上述回音数据的实现原理如下:采集第一端录音数据的时间向后推移上述延迟时间,可以确定采集回音数据的回音数据采集开始时间。在第一端录音数据中,找到回音数据采集开始时间的位置。从此位置之后的第一端录音数据中,减去回音数据,可以消除第一端录音数据中的上述回音数据。作为示例,可以预先生成以回音数据为自变量、以第一端录音数据为因变量的函数。利用此函数求取回音数据。
需要说明的是,确定与第一端放音数据匹配的目标数据段,可以准确地确定第一端录音数据从哪里开始混入了上述回音数据。以目标数据段的采集开始时间为基础,可以确定较为准确的第一端放音数据相对于第一端录音数据的延迟时间。延迟时间较为准确,则可以准确消除第一端录音数据中的回音数据,提高消除回音之后的音频数据的音质。
在一些实施例中,上述执行主体可以响应于将回音消除方式确定为目标可选音频处理方式,将去噪处理方式确定为目标可选音频处理方式;然后,在上述回音消除方式后配置去噪处理方式,以生成上述音频处理模型。
需要说明的是,在回音消除方式之后,可能还会有一些噪音不能去除,因此,在回音消除方式之后,再设置一致去噪处理方式,可以进一步去除噪声,提高音质。
在一些实施例中,上述必选音频处理方式,包括:第一变换方式和第二变换方式,其中,上述第一变换方式用于将时域形式的数据变换为频域形式的数据,上述第二变换方式用于将频域形式的数据变换为时域形式的数据。
在这里,将时域形式的数据变换为频域形式的数据可以通过各种方式实现,例如,可以通过快速傅里叶变换实现,也可以通过离散余弦变换实现。将频域形式的数据变换为时域形式的数据,可以利用相应的反变换实现。
在一些实施例中,上述第一信息可以包括音频采样率。第一变换方式可以包括至少一种第一变换子方式。上述执行主体可以根据上述音频采样率,从上述至少一种第一变换子方式中,选取第一变换音频子方式,以生成音频处理模型。
在这里,不同第一变换子方式之间的区别可以体现在以下方面但不限于:变换时的频段长度、频段个数、时域中变换单元中的采样点数量等。
作为示例,音频采样率可以是以下任意一种但不限于:16KHz、44.1KHz、48KHz等。
需要说明的是,预先设置时频变换以及时频反变换所需要的处理方式,可以提高变换效率。并且,根据采样率的不同,选择不同的变换子方式,可以针对当前设备灵活给出适合的变换子方式,提高了对不同设备的适配度。
作为示例,音频处理模型500的结构可以如图5所示,音频处理模型500可以包括:空间录音方式、第一变换方式、能量补偿处理方式、去噪处理方式、自动增益控制方式、第二变换方式和音量限制处理方式。
作为示例,音频处理模型600的结构可以如图6所示,音频处理模型600可以包括:空间录音方式、声场扩展处理方式、第一变换方式、能量补偿处理方式、去噪处理方式、自动增益控制方式、回音消除处理方式、之后的第二变换方式和音量限制处理方式。需要说明的是,能量补偿处理方式和自动增益控制方式之间的去噪处理方式,与,回音消除处理方式之后的去噪处理方式,两者处理逻辑可以相同,但是两次应用去噪处理方式,尤其是在回音消除处理方式之后再次应用去噪处理方式,可以提高去噪效果,从而提升通过此音频处理模型所得到的待放音数据对应的音质。
进一步参考图7,作为对上述各图所示方法的实现,本公开提供了一种模型生成装置的一个实施例,该装置实施例与图2所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。
如图7所示,本实施例的模型生成装置700包括:第一获取单元701、选取单元702和生成单元703。其中,第一获取单元,被配置成获取第一电子设备所关联的第一信息;选取单元,被配置成基于上述第一信息,从预先设置的可选音频处理方式集合中,选取可选音频处理方式作为目标可选音频处理方式;生成单元,被配置成利用上述目标可选音频处理方式,生成音频处理模型;其中:上述第一电子设备用于采集录音数据。
在本实施例中,模型生成装置700的第一获取单元701、选取单元702和生成单元703的具体处理及其所带来的技术效果可分别参考图2对应实施例中步骤201、步骤202和步骤203的相关说明,在此不再赘述。
在本实施例的一些可选的实现方式中,上述装置还包括:第二获取单元(未示出),被配置成获取上述第一电子设备采集的录音数据;处理单元(未示出),被配置成利用上述音频处理模型,处理上述录音数据,得到待放音数据。
在本实施例的一些可选的实现方式中,上述第一信息包括音质要求信息;以及上述选取单元,还被配置成:根据上述音质要求信息,从上述可选音频处理方式集合中,选取可选音频处理方式作为目标可选音频处理方式。
在本实施例的一些可选的实现方式中,上述可选音频处理方式集合包括:空间录音处理方式、声场扩展处理方式、声场压缩处理方式、去噪处理方式、自动增益控制方式、音量限制处理方式和能量补偿处理方式。
在本实施例的一些可选的实现方式中,上述第一信息包括录音通道数量,空间录音处理方式包括第一空间录音处理子方式和第二空间录音处理子方式;以及上述生成单元,还被配置成:响应于确定空间录音处理方式为目标可选音频处理方式,根据录音通道数量,从空间录音处理方式中,选取第一空间录音处理子方式或第二空间录音处理子方式,以生成上述音频处理模型。
在本实施例的一些可选的实现方式中,上述第一信息包括噪音程度信息,去噪处理方式包括第一去噪处理子方式、第二去噪处理子方式和第三去噪处理子方式;上述生成单元,还被配置成:响应于确定去噪处理方式为目标可选音频处理方式,根据上述噪音程度信息,确定从去噪处理方式中,选取第一去噪处理子方式、第二去噪处理子方式或第三去噪处理子方式,以生成音频处理模型。
在本实施例的一些可选的实现方式中,上述选取单元,还被配置成:根据上述第一信息和第二电子设备所关联的第二信息,从上述可选音频处理方式集合中,选取可选音频处理方式作为目标可选音频处理方式;其中,上述第二电子设备用于读取上述待放音数据进行放音。
在本实施例的一些可选的实现方式中,上述第二信息包括放音通道数量;以及上述选取单元,还被配置成:根据第二电子设备的放音通道数量,确定是否选取上述声场压缩处理方式作为上述目标可选音频处理方式。
在本实施例的一些可选的实现方式中,公放指示信息用于第二信息包括用于指示电子设备处于声音公放状态,可选音频处理方式集合包括回音消除方式;以及上述选取单元,还被配置成:响应于确定第一信息包括公放指示信息以及响应于确定上述第二信息包括公放指示信息,将回音消除方式确定为目标可选音频处理方式。
在本实施例的一些可选的实现方式中,上述选取单元,还被配置成:响应于将回音消除方式确定为目标可选音频处理方式,将去噪处理方式确定为目标可选音频处理方式;以及上述生成单元,还被配置成:在上述回音消除方式后配置去噪处理方式,以生成上述音频处理模型。
在本实施例的一些可选的实现方式中,上述生成单元,被配置成:根据上述目标可选音频处理方式和预先设置的必选音频处理方式,生成音频处理模型;其中,必选音频处理方式包括第一变换方式和第二变换方式,其中,上述第一变换方式用于将时域形式的数据变换为频域形式的数据,上述第二变换方式用于将频域形式的数据变换为时域形式的数据。
在本实施例的一些可选的实现方式中,其中,上述第一信息包括音频采样率,上述第一变换方式包括至少一种第一变换子方式;以及上述生成单元,被配置成:根据上述音频采样率,从上述至少一种第一变换子方式中,选取第一变换子方式,以生成音频处理模型。
需要说明的是,本公开实施例提供的模型生成装置中各单元的实现细节和技术效果可以参考本公开中其它实施例的说明,在此不再赘述。
下面参考图8,其示出了适于用来实现本公开实施例的电子设备(例如图1中的终端或服务器)800的结构示意图。图8示出的电子设备仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图8所示,电子设备800可以包括处理装置(例如中央处理器、图形处理器等)801,其可以根据存储在只读存储器(ROM)802中的程序或者从存储装置808加载到随机访问存储器(RAM)803中的程序而执行各种适当的动作和处理。在RAM 803中,还存储有电子设备800操作所需的各种程序和数据。处理装置801、ROM 802以及RAM803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。
通常,以下装置可以连接至I/O接口805:包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置806;包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置807;包括例如磁带、硬盘等的存储装置808;以及通信装置809。通信装置809可以允许电子设备800与其他设备进行无线或有线通信以交换数据。虽然图8示出了具有各种装置的电子设备800,但是应理解的是,并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信装置809从网络上被下载和安装,或者从存储装置808被安装,或者从ROM 802被安装。在该计算机程序被处理装置801执行时,执行本公开实施例的方法中限定的上述功能。
需要说明的是,本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、RF(射频)等等,或者上述的任意合适的组合。
上述计算机可读介质可以是上述电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。
上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备:获取第一电子设备所关联的第一信息;基于上述第一信息,从预先设置的可选音频处理方式集合中,选取可选音频处理方式作为目标可选音频处理方式;利用上述目标可选音频处理方式,生成音频处理模型;其中:上述第一电子设备用于采集录音数据。
可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码,上述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本公开实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。其中,单元的名称在某种情况下并不构成对该单元本身的限定,例如,第一获取单元还可以被描述为“获取第一电子设备所关联的第一信息的单元”。
以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本公开中所涉及的公开范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述公开构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
Claims (26)
1.一种模型生成方法,包括:
获取第一电子设备所关联的第一信息,其中,所述第一信息包括录音通道数量;
基于所述第一信息,从预先设置的可选音频处理方式集合中,选取可选音频处理方式作为目标可选音频处理方式;
利用所述目标可选音频处理方式,生成音频处理模型;
其中:所述第一电子设备用于采集录音数据;
所述方法还包括:根据所述第一电子设备的各通道分别对应的录音设备所采集的音频数据和预设的方向重配矩阵,生成第二录音数据,其中,所述第二录音数据是利用所述音频处理模型进行音频处理的中间处理结果且具有方向性。
2.根据权利要求1所述的方法,其中,所述方法还包括:
获取所述第一电子设备采集的录音数据;
利用所述音频处理模型,处理所述录音数据,得到待放音数据。
3.根据权利要求1所述的方法,其中,所述第一信息包括音质要求信息;以及
所述基于所述第一信息,从预先设置的可选音频处理方式集合中,选取可选音频处理方式作为目标可选音频处理方式,包括:
根据所述音质要求信息,从所述可选音频处理方式集合中,选取可选音频处理方式作为目标可选音频处理方式。
4.根据权利要求3所述的方法,其中,所述可选音频处理方式集合包括:空间录音处理方式、声场扩展处理方式、声场压缩处理方式、去噪处理方式、自动增益控制方式、音量限制处理方式和能量补偿处理方式。
5.根据权利要求4所述的方法,其中,空间录音处理方式包括第一空间录音处理子方式和第二空间录音处理子方式;以及
所述利用所述目标可选音频处理方式,生成音频处理模型,包括:
响应于确定空间录音处理方式为目标可选音频处理方式,根据录音通道数量,从空间录音处理方式中,选取第一空间录音处理子方式或第二空间录音处理子方式,以生成所述音频处理模型。
6.根据权利要求4所述的方法,其中,所述第一信息包括噪音程度信息,去噪处理方式包括第一去噪处理子方式、第二去噪处理子方式和第三去噪处理子方式;
所述利用所述目标可选音频处理方式,生成音频处理模型,还包括:
响应于确定去噪处理方式为目标可选音频处理方式,根据所述噪音程度信息,确定从去噪处理方式中,选取第一去噪处理子方式、第二去噪处理子方式或第三去噪处理子方式,以生成音频处理模型。
7.根据权利要求2所述的方法,其中,所述基于所述第一信息,从预先设置的可选音频处理方式集合中,选取可选音频处理方式作为目标可选音频处理方式,包括:
根据所述第一信息和第二电子设备所关联的第二信息,从所述可选音频处理方式集合中,选取可选音频处理方式作为目标可选音频处理方式;
其中,所述第二电子设备用于读取所述待放音数据进行放音。
8.根据权利要求7所述的方法,其中,所述第二信息包括放音通道数量;以及
所述根据所述第一信息和第二电子设备所关联的第二信息,从所述可选音频处理方式集合中,选取可选音频处理方式作为目标可选音频处理方式,包括:
根据第二电子设备的放音通道数量,确定是否选取声场压缩处理方式作为所述目标可选音频处理方式。
9.根据权利要求8所述的方法,其中,公放指示信息用于第二信息包括用于指示电子设备处于声音公放状态,可选音频处理方式集合包括回音消除方式;以及
所述根据所述第一信息和第二电子设备所关联的第二信息,从所述可选音频处理方式集合中,选取可选音频处理方式作为目标可选音频处理方式,包括:
响应于确定第一信息包括公放指示信息以及响应于确定所述第二信息包括公放指示信息,将回音消除方式确定为目标可选音频处理方式。
10.根据权利要求9所述的方法,其中,所述根据所述第一信息和第二电子设备所关联的第二信息,从所述可选音频处理方式集合中,选取可选音频处理方式作为目标可选音频处理方式,还包括:
响应于将回音消除方式确定为目标可选音频处理方式,将去噪处理方式确定为目标可选音频处理方式;以及
所述利用所述目标可选音频处理方式,生成音频处理模型,包括:
在所述回音消除方式后配置去噪处理方式,以生成所述音频处理模型。
11.根据权利要求1-10中任一项所述的方法,其中,所述利用所述目标可选音频处理方式,生成音频处理模型,包括:
根据所述目标可选音频处理方式和预先设置的必选音频处理方式,生成音频处理模型;
其中,必选音频处理方式包括第一变换方式和第二变换方式,所述第一变换方式用于将时域形式的数据变换为频域形式的数据,所述第二变换方式用于将频域形式的数据变换为时域形式的数据。
12.根据权利要求11所述的方法,其中,所述第一信息包括音频采样率,所述第一变换方式包括至少一种第一变换子方式;以及
所述利用所述目标可选音频处理方式,生成音频处理模型,包括:
根据所述音频采样率,从所述至少一种第一变换子方式中,选取第一变换子方式,以生成音频处理模型。
13.一种模型生成装置,包括:
第一获取单元,被配置成获取第一电子设备所关联的第一信息,其中,所述第一信息包括录音通道数量;
选取单元,被配置成基于所述第一信息,从预先设置的可选音频处理方式集合中,选取可选音频处理方式作为目标可选音频处理方式;
生成单元,被配置成利用所述目标可选音频处理方式,生成音频处理模型;
其中:所述第一电子设备用于采集录音数据;
所述装置还包括:处理单元,被配置成根据所述第一电子设备的各通道分别对应的录音设备所采集的音频数据和预设的方向重配矩阵,生成第二录音数据,其中,所述第二录音数据是利用所述音频处理模型进行音频处理的中间处理结果且具有方向性。
14.根据权利要求13所述的装置,其中,所述装置还包括:
第二获取单元,被配置成获取所述第一电子设备采集的录音数据;
处理单元,被配置成利用所述音频处理模型,处理所述录音数据,得到待放音数据。
15.根据权利要求13所述的装置,其中,所述第一信息包括音质要求信息;以及
所述选取单元,还被配置成:
根据所述音质要求信息,从所述可选音频处理方式集合中,选取可选音频处理方式作为目标可选音频处理方式。
16.根据权利要求15所述的装置,其中,所述可选音频处理方式集合包括:空间录音处理方式、声场扩展处理方式、声场压缩处理方式、去噪处理方式、自动增益控制方式、音量限制处理方式和能量补偿处理方式。
17.根据权利要求16所述的装置,其中,空间录音处理方式包括第一空间录音处理子方式和第二空间录音处理子方式;以及
所述生成单元,还被配置成:
响应于确定空间录音处理方式为目标可选音频处理方式,根据录音通道数量,从空间录音处理方式中,选取第一空间录音处理子方式或第二空间录音处理子方式,以生成所述音频处理模型。
18.根据权利要求16所述的装置,其中,所述第一信息包括噪音程度信息,去噪处理方式包括第一去噪处理子方式、第二去噪处理子方式和第三去噪处理子方式;
所述生成单元,还被配置成:
响应于确定去噪处理方式为目标可选音频处理方式,根据所述噪音程度信息,确定从去噪处理方式中,选取第一去噪处理子方式、第二去噪处理子方式或第三去噪处理子方式,以生成音频处理模型。
19.根据权利要求14所述的装置,其中,所述选取单元,还被配置成:
根据所述第一信息和第二电子设备所关联的第二信息,从所述可选音频处理方式集合中,选取可选音频处理方式作为目标可选音频处理方式;
其中,所述第二电子设备用于读取所述待放音数据进行放音。
20.根据权利要求19所述的装置,其中,所述第二信息包括放音通道数量;以及
所述选取单元,还被配置成:
根据第二电子设备的放音通道数量,确定是否选取声场压缩处理方式作为所述目标可选音频处理方式。
21.根据权利要求20所述的装置,其中,公放指示信息用于第二信息包括用于指示电子设备处于声音公放状态,可选音频处理方式集合包括回音消除方式;以及
所述选取单元,还被配置成:
响应于确定第一信息包括公放指示信息以及响应于确定所述第二信息包括公放指示信息,将回音消除方式确定为目标可选音频处理方式。
22.根据权利要求21所述的装置,其中,所述选取单元,还被配置成:
响应于将回音消除方式确定为目标可选音频处理方式,将去噪处理方式确定为目标可选音频处理方式;以及
所述生成单元,还被配置成:
在所述回音消除方式后配置去噪处理方式,以生成所述音频处理模型。
23.根据权利要求13-22中任一项所述的装置,其中,所述生成单元,被配置成:
根据所述目标可选音频处理方式和预先设置的必选音频处理方式,生成音频处理模型;
其中,必选音频处理方式包括第一变换方式和第二变换方式,所述第一变换方式用于将时域形式的数据变换为频域形式的数据,所述第二变换方式用于将频域形式的数据变换为时域形式的数据。
24.根据权利要求23所述的装置,其中,所述第一信息包括音频采样率,所述第一变换方式包括至少一种第一变换子方式;以及
所述生成单元,被配置成:根据所述音频采样率,从所述至少一种第一变换子方式中,选取第一变换子方式,以生成音频处理模型。
25.一种电子设备,包括:
一个或多个处理器;
存储装置,其上存储有一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-12中任一所述的方法。
26.一种计算机可读介质,其上存储有计算机程序,其中,所述程序被处理器执行时实现如权利要求1-12中任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811302016.2A CN111147655B (zh) | 2018-11-02 | 2018-11-02 | 模型生成方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811302016.2A CN111147655B (zh) | 2018-11-02 | 2018-11-02 | 模型生成方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111147655A CN111147655A (zh) | 2020-05-12 |
CN111147655B true CN111147655B (zh) | 2022-06-24 |
Family
ID=70516239
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811302016.2A Active CN111147655B (zh) | 2018-11-02 | 2018-11-02 | 模型生成方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111147655B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111884729B (zh) * | 2020-07-17 | 2022-03-01 | 上海动听网络科技有限公司 | 录音通道选择方法、装置及电子设备 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104991754B (zh) * | 2015-06-29 | 2018-03-16 | 小米科技有限责任公司 | 录音方法及装置 |
CN105827849A (zh) * | 2016-04-28 | 2016-08-03 | 维沃移动通信有限公司 | 一种音效调节方法及移动终端 |
-
2018
- 2018-11-02 CN CN201811302016.2A patent/CN111147655B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN111147655A (zh) | 2020-05-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20190355354A1 (en) | Method, apparatus and system for speech interaction | |
CN110537221A (zh) | 用于空间音频处理的两阶段音频聚焦 | |
JP6996501B2 (ja) | 情報処理装置および方法 | |
CN110534085B (zh) | 用于生成信息的方法和装置 | |
US7116788B1 (en) | Efficient head related transfer function filter generation | |
CN111654806B (zh) | 音频播放方法、装置、存储介质及电子设备 | |
CN110890100B (zh) | 语音增强、多媒体数据采集、播放方法、装置及监控系统 | |
CN110096250B (zh) | 一种音频数据处理方法、装置、电子设备及存储介质 | |
CN111147655B (zh) | 模型生成方法和装置 | |
TW202143750A (zh) | 使用自我調整網路來對全景聲係數進行變換 | |
CN112309418A (zh) | 一种抑制风噪声的方法及装置 | |
CN111383629A (zh) | 语音处理方法和装置、电子设备以及存储介质 | |
CN112307161B (zh) | 用于播放音频的方法和装置 | |
CN111145770B (zh) | 音频处理方法和装置 | |
CN106293607B (zh) | 自动切换音频输出模式的方法及系统 | |
CN111145793B (zh) | 音频处理方法和装置 | |
CN114121050A (zh) | 音频播放方法、装置、电子设备和存储介质 | |
CN109375892B (zh) | 用于播放音频的方法和装置 | |
CN111145792B (zh) | 音频处理方法和装置 | |
CN111210837B (zh) | 音频处理方法和装置 | |
CN111145776B (zh) | 音频处理方法和装置 | |
CN111145769A (zh) | 音频处理方法和装置 | |
CN111048107B (zh) | 音频处理方法和装置 | |
CN110138991B (zh) | 回音消除方法和装置 | |
CN111048108B (zh) | 音频处理方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |