CN109215688B - 同场景音频处理方法、装置、计算机可读存储介质及系统 - Google Patents
同场景音频处理方法、装置、计算机可读存储介质及系统 Download PDFInfo
- Publication number
- CN109215688B CN109215688B CN201811176305.2A CN201811176305A CN109215688B CN 109215688 B CN109215688 B CN 109215688B CN 201811176305 A CN201811176305 A CN 201811176305A CN 109215688 B CN109215688 B CN 109215688B
- Authority
- CN
- China
- Prior art keywords
- audio
- scene
- cloud
- processing
- cloud processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 20
- 238000012545 processing Methods 0.000 claims abstract description 180
- 230000007613 environmental effect Effects 0.000 claims abstract description 40
- 238000000034 method Methods 0.000 claims abstract description 30
- 238000004422 calculation algorithm Methods 0.000 claims description 35
- 238000012549 training Methods 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 4
- 230000002194 synthesizing effect Effects 0.000 abstract description 7
- 239000012535 impurity Substances 0.000 abstract description 4
- 239000013589 supplement Substances 0.000 abstract description 4
- 230000009467 reduction Effects 0.000 abstract description 2
- 230000015572 biosynthetic process Effects 0.000 description 18
- 238000003786 synthesis reaction Methods 0.000 description 18
- 230000006870 function Effects 0.000 description 9
- 238000004891 communication Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000012790 confirmation Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000002349 favourable effect Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000009469 supplementation Effects 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B20/00—Signal processing not specific to the method of recording or reproducing; Circuits therefor
- G11B20/10—Digital recording or reproducing
- G11B20/10527—Audio or video recording; Data buffering arrangements
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/33—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using fuzzy logic
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B20/00—Signal processing not specific to the method of recording or reproducing; Circuits therefor
- G11B20/10—Digital recording or reproducing
- G11B20/10009—Improvement or modification of read or write signals
- G11B20/10046—Improvement or modification of read or write signals filtering or equalising, e.g. setting the tap weights of an FIR filter
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/10—Protocols in which an application is distributed across nodes in the network
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B20/00—Signal processing not specific to the method of recording or reproducing; Circuits therefor
- G11B20/10—Digital recording or reproducing
- G11B20/10527—Audio or video recording; Data buffering arrangements
- G11B2020/10537—Audio or video recording
- G11B2020/10546—Audio or video recording specifically adapted for audio data
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Multimedia (AREA)
- Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Quality & Reliability (AREA)
- Computer Networks & Wireless Communication (AREA)
- Automation & Control Theory (AREA)
- Fuzzy Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Stereophonic System (AREA)
Abstract
本发明公开了一种同场景音频处理方法,包括:多个终端设备进行云录音时产生云处理音频并上传云端服务器,使得云端服务器抓取同场景音频后将这些同场景处理音频云合成为一条高质量的音频反馈给各个终端。其合成音频的处理操作,都是对原音频其缺失的内容补充后并进行降噪、除杂等处理以达到提高音频质量的目的。本发明还公开了一种同场景音频处理装置、计算机可读存储介质及系统。本发明通过将多段同场景音频组合,输出相对精准的高质量语音音频,避免录音设备在录音时因设备因素、环境因素或使用原因而导致录音内容遗漏和模糊,通过合成同场景多录音查漏补缺提高音频质量。实现提高录音设备使用效率,提高用户使用容错率的有益效果。
Description
技术领域
本发明涉及声音处理的技术领域,尤其涉及一种同场景音频处理合成方法、装置、计算机可读存储介质及系统。
背景技术
传统的数码录音笔通过对模拟信号的采样、编码将模拟信号通过数模转换器转换为数字信号,并进行一定的压缩后进行存储,播放时对压缩信息进行解码输出,以此来实现传统的录音-播放功能。数字信号即使通过反复复制,声音信息也能保存完好不受损失,并保持原样不变。但是传统的录音笔功能单一、扩展性差。并且依赖录音环境,使用场景的不可复制化导致当环境不利于有效录音时,录制的声音信息可能会有缺失、模糊等情况发生。若使用高端录音设备,会有成本太高、无法普及等使用壁垒。目前随着教育领域的科技化和物联网化,用户在某些场景对于录音的使用越来越多,并且用户通常为普通用户,难以承担高成本的录音设备。
上述内容仅用于辅助理解本发明的技术方案,并不代表承认上述内容是现有技术。
发明内容
本发明的主要目的在于提供一种同场景音频处理方法,旨在解决通过现有技术进行同场景多人录音时,因个别人录音操作不当或受到环境影响时,录制的声音存在质量问题的技术问题。
为实现上述目的,本发明提供一种多终端同场景多段录音的处理合成方法,包括以下内容:
获取多个终端上传的待合成的云处理音频,所述云处理音频为同一录音场景下多个录音终端录制并上传至云服务器的云处理音频;
将获取到的云处理音频输入预设的声学模型,以根据所述声学模型的声音算法合成目标音频;
将合成后的目标音频输出至对应终端。
优选地,所述将获取到的云处理音频输入预设的声学模型,以根据所述声学模型的声音算法合成目标音频的步骤之前,还包括:
确认所述云处理音频是否在同一录音场景下录制;
在确认所述云处理音频在同一录音场景下录制时,执行将获取到的云处理音频输入预设的声学模型的步骤。
优选地,所述确认所述云处理音频是否在同一录音场景下录制的步骤,还包括:
提取所述云处理音频的环境参数,并确认所述环境参数是否一致,所述环境参数包括时间维度及空间定位;
在确认所述环境参数一致时,确认所述云处理音频在同一录音场景下录制。
优选地,所述将获取到的云处理音频输入预设的声学模型,以根据所述声学模型的声音算法合成目标音频的步骤,还包括:
通过所述声音算法分析比对输入的云处理音频,并输出所述云处理音频的声学波形维度;
整合输出的声学波形维度以合成所述目标音频。
优选地,所述整合输出的声学波形维度以合成所述目标音频的步骤,包括:
以预设的模糊原理训练输出的声学波形维度,并以训练后的声学波形维度生成所述目标音频。
优选的,所述将合成后的目标音频输出至对应终端的步骤,还包括:
获取已登记的终端信息,并根据获取到的终端信息将合成后的目标音频输出至对应终端,所述终端信息指上传云处理音频的终端。
优选地,所述同场景音频处理方法,还包括:
构建预设的声学模型;
在已构建的声学模型中添加预设音频处理操作流程,所述音频处理操作流程包括添加声音算法及模糊原理。
此外,为实现上述目的,本发明还提供一种同场景音频处理装置,所述同场景音频处理装置包括:存储器、处理器,所述存储器上存储有能够被处理器调用的计算机程序,所述计算机程序被所述处理器执行时实现如上所述同场景音频处理方法的步骤。
本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有同场景音频处理程序,所述同场景音频处理程序被处理器执行时实现如上所述同场景音频处理方法的步骤。
本发明还提供一种同场景音频处理系统,所述同场景音频处理系统在执行时实现如上所述的同场景音频处理方法的步骤。
本发明实施例提出的一种同场景音频处理方法,获取多个终端上传的待合成的云处理音频,所述云处理音频为同一录音场景下多个录音终端录制并上传至云服务器的云处理音频;将获取到的云处理音频输入预设的声学模型,以根据所述声学模型的声音算法合成目标音频;将合成后的目标音频输出至对应终端。通过将多段同场景音频组合,以预设的声学模型进行降噪、补充、除杂等操作后输出相对精准的语音音频,即通过资源共享、整合与反馈进而提高了录音设备使用效率并提高用户容错率,实现了有质量问题的音频处理操作,进而提高了录音笔使用效率的有益效果。
附图说明
图1是本发明实施例方案涉及的硬件运行环境的终端\装置结构示意图;
图2为本发明同场景音频处理方法第一实施例的流程示意图;
图3为本发明同场景音频处理方法第二实施例的流程示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明实施例的主要解决方案是:获取多个终端上传的待合成的云处理音频,所述云处理音频为同一录音场景下多个录音终端录制并上传至云服务器的云处理音频;将获取到的云处理音频输入预设的声学模型,以根据所述声学模型的声音算法合成目标音频;将合成后的目标音频输出至对应终端。
由于现有技术中,传统的录音笔功能单一、扩展性差。并且依赖录音环境,使用场景的不可复制化导致当环境不利于有效录音时,录制的声音信息可能会有缺失、模糊等情况发生。若使用高端录音设备,会有成本太高、无法普及等使用壁垒。
本发明提供一种解决方案,通过将多段同场景音频组合,以预设的声学模型进行降噪、补充、除杂等操作后输出相对精准的语音音频,实现了有质量问题的音频处理操作,进而提高了录音笔使用效率的有益效果。
如图1所示,图1是本发明实施例方案涉及的硬件运行环境的终端结构示意图。
本发明实施例终端可以是PC,也可以是智能手机、平板电脑、电子书阅读器,便携计算机等可移动式或不可移动式终端设备。
如图1所示,该终端可以包括:处理器1001,例如CPU,网络接口1004,用户接口1003,存储器1005,通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
本领域技术人员可以理解,图1中示出的终端结构并不构成对终端的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及同场景音频处理程序。
在图1所示的终端中,网络接口1004主要用于连接后台服务器,与后台服务器进行数据通信;用户接口1003主要用于连接客户端(用户端),与客户端进行数据通信;而处理器1001可以用于调用存储器1005中存储的同场景音频处理程序,并执行以下操作:
获取多个终端上传的待合成的云处理音频,所述云处理音频为同一录音场景下多个录音终端录制并上传至云服务器的云处理音频;
将获取到的云处理音频输入预设的声学模型,以根据所述声学模型的声音算法合成目标音频;
将合成后的目标音频输出至对应终端。
进一步地,处理器1001可以调用存储器1005中存储的同场景音频处理程序,还执行以下操作:
确认所述云处理音频是否在同一录音场景下录制;
在确认所述云处理音频在同一录音场景下录制时,执行将获取到的云处理音频输入预设的声学模型的步骤。
进一步地,处理器1001可以调用存储器1005中存储的同场景音频处理程序,还执行以下操作:
提取所述云处理音频的环境参数,并确认所述环境参数是否一致,所述环境参数包括时间维度及空间定位;
在确认所述环境参数一致时,确认所述云处理音频在同一录音场景下录制。
进一步地,处理器1001可以调用存储器1005中存储的同场景音频处理程序,还执行以下操作:
通过所述声音算法分析比对输入的云处理音频,并输出所述云处理音频的声学波形维度;
整合输出的声学波形维度以合成所述目标音频。
进一步地,处理器1001可以调用存储器1005中存储的同场景音频处理程序,还执行以下操作:
以预设的模糊原理训练输出的声学波形维度,并以训练后的声学波形维度生成所述目标音频。
进一步地,处理器1001可以调用存储器1005中存储的同场景音频处理程序,还执行以下操作:
获取已登记的终端信息,并根据获取到的终端信息将合成后的目标音频输出至对应终端,所述终端信息指上传云处理音频的终端。
进一步地,处理器1001可以调用存储器1005中存储的同场景音频处理程序,还执行以下操作:
构建预设的声学模型;
在已构建的声学模型中添加预设音频处理操作流程,所述音频处理操作流程包括添加声音算法及模糊原理。
参照图2,图2为本发明同场景音频处理方法第一实施例的流程示意图,所述同场景音频处理方法包括:
步骤S10,获取多个终端上传的待合成的云处理音频,所述云处理音频为同一录音场景下多个录音终端录制并上传至云服务器的云处理音频;
基于当前的音频合成需求,获取待合成的云处理音频。所述待合成的云处理音频为多个终端设备在同一录音环境下录制的音频,且所述终端设备在录制到当前录音坏境下的音频后,将录制到的音频上传至预设的云服务器作为待合成的云处理音频;或者所述云处理音频为已存储在服务器预设区域的云处理音频,且所述云处理音频在上传时,可能登记了所述云处理音频的环境参数。在实际应用中,同一录音场景下多个终端设备在录制当前的音频后,将录制到的所述音频上传至云服务器,以在所述云服务器中应用预设的声学模型合成目标音频。如上所述,其云处理同场景音频处理前提为获取到且需合成的云处理音频为同一录音场景的录制音频,其云处理音频的存储方式以及合成操作可在移动终端或者云服务器上实现。
步骤S20,将获取到的云处理音频输入预设的声学模型,以根据所述声学模型的声音算法合成目标音频;
基于获取到的待合成的云处理音频,将所述云处理音频输入至预设的声学模型,所述声学模型为预先构建的合成云处理音频的学习模型。以所述声学模型中已设定的声音算法分析比对获取到的云处理音频,如步骤S10所述的内容,待合成云处理音频在执行合成操作的前提为,获取到的云处理音频为同一录音场景下不同终端设备的录制音频,因此,在合成云处理音频之前,需确认获取到的云处理音频是否满足合成条件,即所述将获取到的云处理音频输入预设的声学模型,以根据所述声学模型的声音算法合成目标音频的步骤之前,还包括:
确认所述云处理音频是否在同一录音场景下录制;
在确认所述云处理音频在同一录音场景下录制时,执行将获取到的云处理音频输入预设的声学模型的步骤。
在确认获取到的待合成云处理音频是否满足合成条件时,其确认方式可通过所述云处理音频的环境参数确认,所述环境参数为所述待合成云处理音频在上传时所登记的音频信息,或者通过抓取所述待合成云处理音频的音频信息以得出所述云处理音频的环境参数。如此,所述确认所述云处理音频是否在同一录音场景下录制的步骤,还包括:
提取所述云处理音频的环境参数,并确认所述环境参数是否一致,所述环境参数包括时间维度及空间定位;
在确认所述环境参数一致时,确认所述云处理音频在同一录音场景下录制。
在获取到的云处理音频中提取环境参数,并确认提取到的环境参数是否一致,所述环境参数包括时间维度及空间定位。在确认步骤中,以所述环境参数的空间定位确认获取到的云处理音频是否为同场景的音频;以空间定位确认获取到的云处理音频是否为同一时间线的音频,以便确认获取到的云处理音频是否有效,即确认是否能够合成获取到的云处理音频并输出目标音频。基于所述环境参数的比对操作,在确认云处理音频中提取到的环境参数一致时,确认获取到的云处理音频有效,即确认获取到的云处理音频可进行合成操作。
进一步的,若获取到的云处理音频未登记环境参数,读取所述云处理音频的音频基数,以将所述云处理音频进行近似度匹配,所述近似度匹配的操作为现有的音频匹配操作。在匹配获取到的所述云处理音频时,需将获取到的所有云处理音频的音频基数进行近似度匹配的操作,在确认所述云处理音频的音频基数匹配一致时,确认获取到的云处理音频有效,即获取到的所述云处理音频可执行合成处理。
在将获取到的待合成云处理音频输入预设的声学模型进行音频合成操作,即所述将获取到的云处理音频输入预设的声学模型,以根据所述声学模型的声音算法合成目标音频的步骤,还包括:
通过所述声音算法分析比对输入的云处理音频,并输出所述云处理音频的声学波形维度;
整合输出的声学波形维度以合成所述目标音频。
在获取到的有效云处理音频输入至预设的声学模型时,以所述声学模型的预设声音算法分析比对输入的云处理音频。所述预设的声音算法包括但不限于现有的傅立叶算法以及高斯分量等内容,以对输入的云处理音频进行过滤、比对、补充、除噪等操作,并在所述预设的声音算法处理获取到的云处理音频后,输出处理的所述云处理音频的声学波形维度。根据已输出的声学波形维度,整合已输出的声学波形维度生成所述目标音频,另外,在将声音算法分析比对后输出的声学波形维度整合并生成目标音频时,即所述整合输出的声学波形维度以合成所述目标音频的步骤,包括:
以预设的模糊原理训练输出的声学波形维度,并以训练后的声学波形维度生成所述目标音频。
根据预设的声音算法输出云处理音频的声学波形维度,对所述声学波形维度进行模糊原理训练操作,所述模糊原理为已设定的音频模型原理处理技术,并以模糊处理最优化的声学波形维度合成后生成所述目标音频。
进一步的,在将获取到的云处理音频合成目标音频时,还可根据所述云处理音频的环境参数确认所述云处理音频是否满足预设的立体声条件,所述预设的立体声条件,可根据所述环境参数中的空间定位确定是否满足立体声条件。所述立体声是指具有立体感的声音,立体声是一个几何概念,指在三维空间中占有位置的事物。因为声源有确定的空间位置,声音有确定的方向来源,人们的听觉有辨别声源方位的能力。特别是有多个声源同时发声时,人们可以凭听觉感知各个声源在空间的位置分布状况。从这个意义上讲,自然界所发出的一切声音都是立体声。如雷声、火车声、枪炮声、风声、雨声等等。如此,所述预设的立体声条件可设定为同一环境下在目标位置采集环境声音。因此,可通过解析获取到的所述云处理音频的环境参数,确认所述云处理音频是否满足预设的立体声条件,即所述云处理音频的采集位置是否为特定的目标位置。另外,在设定所述预设的立体声条件时,还可通过声音采集的环境范围对应计算目标位置的区域,具体的计算公式由相关的技术人员设定。
如上所述,在确认获取到的云处理音频的环境参数满足预设的立体声条件时,可发起立体声合成提示,其提示方式为现有的弹出功能框或者发出声音提示,并在接收到用户返回的基于所述立体声合成提示的确认合成立体声指令时,通过所述声学模型中已预设的立体声合成功能将云处理音频合成立体目标音频。所述预设的立体声合成功能可为所述声学模型中的附属功能,并在检测到云处理音频满足预设的立体声条件时触发;或者,所述预设的立体声合成功能挂载在所述声学模型的合成功能中以实现立体目标音频的合成。
步骤S30,将合成后的目标音频输出至对应终端。
将已合成的目标音频输出,所述输出操作可根据所述声学模型中已定义的输出目标进行输出,或者根据已定义的输出目的地输出合成后的目标音频。
如此,在输出合成后的目标音频还包括,即所述将合成后的目标音频输出至对应终端的步骤,还包括:
获取已登记的终端信息,并根据获取到的终端信息将合成后的目标音频输出至对应终端,所述终端信息指上传云处理音频的终端。
在云服务器中预设的终端信息登记区域获取已登记的终端信息,所述已登记的终端信息可以为上传处理音频的终端设备,即所述终端设备在同一录音环境下录制处理音频后上传至云服务器,在上传至云服务器时需登记终端设备的终端信息,以接收合成后的目标音频,且在登记所述终端设备的终端信息时,需登记所要接收的目标音频以免出现处理音频发送错误,在登记需接收的目标音频时,可通过登记目标音频的音频标识进行目标音频的区分。
在本实施例中,通过将多段同场景音频组合,以预设的声学模型进行降噪、补充、除杂等操作后输出相对精准的语音音频,实现了有质量问题的音频处理操作,进而提高了录音笔使用效率的有益效果。
参考图3,图3为本发明同场景音频处理方法第二实施例的流程示意图,基于上述图2所示的第一实施例,所述同场景音频处理方法,还包括:
步骤S40,构建预设的声学模型;
步骤S50,在已构建的声学模型中添加预设音频处理操作流程,所述音频处理操作流程包括添加声音算法及模糊原理。
本实施例中,基于当前的音频处理操作,构建预设的声学模型。并且,在已构建的声学模型中新建预设的音频处理操作流程,所述音频处理操作流程包括添加声音算法以及模糊原理。进一步的,所述声音算法包括但不仅限于现有的傅立叶算法以及高斯分量,而且,所述声学模型中的预设音频处理操作流程可根据当前的音频合成需求调整相关算法;或者,根据已输入的云处理音频的音频质量对应调整相关的声音算法及模糊原理,而判定所述云处理音频的音频质量通过已设定的音频质量判定机制进行云处理音频的音频质量判定,进而实现音频合成与处理操作。
此外,本发明实施例还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有同场景音频处理程序,所述同场景音频处理程序被处理器执行时实现如下操作:
获取多个终端上传的待合成的云处理音频,所述云处理音频为同一录音场景下多个录音终端录制并上传至云服务器的云处理音频;
将获取到的云处理音频输入预设的声学模型,以根据所述声学模型的声音算法合成目标音频;
将合成后的目标音频输出至对应终端。
进一步地,所述同场景音频处理程序被处理器执行时还实现如下操作:
确认所述云处理音频是否在同一录音场景下录制;
在确认所述云处理音频在同一录音场景下录制时,执行将获取到的云处理音频输入预设的声学模型的步骤。
进一步地,所述同场景音频处理程序被处理器执行时还实现如下操作:
提取所述云处理音频的环境参数,并确认所述环境参数是否一致,所述环境参数包括时间维度及空间定位;
在确认所述环境参数一致时,确认所述云处理音频在同一录音场景下录制。
进一步地,所述同场景音频处理程序被处理器执行时还实现如下操作:
通过所述声音算法分析比对输入的云处理音频,并输出所述云处理音频的声学波形维度;
整合输出的声学波形维度以合成所述目标音频。
进一步地,所述同场景音频处理程序被处理器执行时还实现如下操作:
以预设的模糊原理训练输出的声学波形维度,并以训练后的声学波形维度生成所述目标音频。
进一步地,所述同场景音频处理程序被处理器执行时还实现如下操作:
获取已登记的终端信息,并根据获取到的终端信息将合成后的目标音频输出至对应终端,所述终端信息指上传云处理音频的终端。
进一步地,所述同场景音频处理程序被处理器执行时还实现如下操作:
构建预设的声学模型;
在已构建的声学模型中添加预设音频处理操作流程,所述音频处理操作流程包括添加声音算法及模糊原理。
本发明还提供一种同场景音频处理系统,所述同场景音频处理系统在执行时实现如上所述的同场景音频处理方法实施例的内容。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、药品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、药品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、药品或者系统中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (8)
1.一种同场景音频处理方法,其特征在于,所述同场景音频处理方法包括以下步骤:
获取多个终端上传的待合成的云处理音频,所述云处理音频为同一录音场景下多个录音终端录制并上传至云服务器的云处理音频,其中,所述云服务器已登记所述云处理音频的环境参数;
提取所述云处理音频的环境参数,并确认所述环境参数是否一致,所述环境参数包括时间维度及空间定位;
在确认所述环境参数一致时,确认所述云处理音频在同一录音场景下录制;
在未能获取到所述云处理音频的环境参数时,读取所述云处理音频的基数进行近似度匹配,并在确认所述云处理音频的音频基数匹配一致时,确认所述云处理音频在同一录音场景下录制;
在确认所述云处理音频在同一录音场景下录制后,将获取到的云处理音频输入预设的声学模型,以根据所述声学模型的声音算法合成目标音频;
将合成后的目标音频输出至对应终端;
其中,所述将获取到的云处理音频输入预设的声学模型,以根据所述声学模型的声音算法合成目标音频的步骤,包括:
通过所述声音算法分析比对输入的云处理音频,并输出所述云处理音频的声学波形维度;
整合输出的声学波形维度以合成所述目标音频;
以及,根据所述云处理音频的环境参数确定所述云处理音频是否满足预设的立体声条件,所述立体声条件定义为同一环境下在目标位置采集的环境声音;
在确认所述云处理音频满足立体声条件时,生成所述目标音频的立体声音频。
2.如权利要求1所述的同场景音频处理方法,其特征在于,所述将获取到的云处理音频输入预设的声学模型,以根据所述声学模型的声音算法合成目标音频的步骤之前,还包括:
确认所述云处理音频是否在同一录音场景下录制;
在确认所述云处理音频在同一录音场景下录制时,执行将获取到的云处理音频输入预设的声学模型的步骤。
3.如权利要求1所述的同场景音频处理方法,其特征在于,所述整合输出的声学波形维度以合成所述目标音频的步骤,包括:
以预设的模糊原理训练输出的声学波形维度,并以训练后的声学波形维度生成所述目标音频。
4.如权利要求1所述的同场景音频处理方法,其特征在于,所述将合成后的目标音频输出至对应终端的步骤,还包括:
获取已登记的终端信息,并根据获取到的终端信息将合成后的目标音频输出至对应终端,所述终端信息指上传云处理音频的终端。
5.如权利要求1至4任一项所述的同场景音频处理方法,其特征在于,所述同场景音频处理方法,还包括:
构建预设的声学模型;
在已构建的声学模型中添加预设音频处理操作流程,所述音频处理操作流程包括添加声音算法及模糊原理。
6.一种同场景音频处理装置,其特征在于,所述同场景音频处理装置包括:存储器、处理器,所述存储器上存储有能够被处理器调用的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1至5中任一项所述同场景音频处理方法的步骤。
7.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有同场景音频处理程序,所述同场景音频处理程序被处理器执行时实现如权利要求1至5中任一项所述同场景音频处理方法的步骤。
8.一种同场景音频处理系统,其特征在于,所述同场景音频处理系统在执行时实现如权利要求1至5任一项所述的同场景音频处理方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811176305.2A CN109215688B (zh) | 2018-10-10 | 2018-10-10 | 同场景音频处理方法、装置、计算机可读存储介质及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811176305.2A CN109215688B (zh) | 2018-10-10 | 2018-10-10 | 同场景音频处理方法、装置、计算机可读存储介质及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109215688A CN109215688A (zh) | 2019-01-15 |
CN109215688B true CN109215688B (zh) | 2020-12-22 |
Family
ID=64982837
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811176305.2A Active CN109215688B (zh) | 2018-10-10 | 2018-10-10 | 同场景音频处理方法、装置、计算机可读存储介质及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109215688B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111833898A (zh) * | 2020-07-24 | 2020-10-27 | 上海明略人工智能(集团)有限公司 | 一种多源数据的处理方法及装置、可读存储介质 |
CN116527813B (zh) * | 2023-06-26 | 2023-08-29 | 深圳市易赛通信技术有限公司 | 录音手表的录音方法及录音手表 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004235792A (ja) * | 2003-01-29 | 2004-08-19 | Sanyo Electric Co Ltd | コンテンツ処理装置 |
CN101430882A (zh) * | 2008-12-22 | 2009-05-13 | 北京中星微电子有限公司 | 一种抑制风噪声的方法及装置 |
CN101593522A (zh) * | 2009-07-08 | 2009-12-02 | 清华大学 | 一种全频域数字助听方法和设备 |
CN103180907A (zh) * | 2010-08-31 | 2013-06-26 | 诺基亚公司 | 音频场景装置 |
CN104113604A (zh) * | 2014-07-29 | 2014-10-22 | 广东能龙教育股份有限公司 | 一种云环境下语音快速采集的实现方法 |
CN104424953A (zh) * | 2013-09-11 | 2015-03-18 | 华为技术有限公司 | 语音信号处理方法与装置 |
CN104599675A (zh) * | 2015-02-09 | 2015-05-06 | 宇龙计算机通信科技(深圳)有限公司 | 语音处理方法、语音处理装置和终端 |
CN108111952A (zh) * | 2017-12-26 | 2018-06-01 | 上海展扬通信技术有限公司 | 一种录音方法、装置、终端及计算机可读存储介质 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20080111290A (ko) * | 2007-06-18 | 2008-12-23 | 삼성전자주식회사 | 원거리 음성 인식을 위한 음성 성능을 평가하는 시스템 및방법 |
US8468012B2 (en) * | 2010-05-26 | 2013-06-18 | Google Inc. | Acoustic model adaptation using geographic information |
CN104135641B (zh) * | 2014-07-15 | 2018-10-02 | 北京小鱼在家科技有限公司 | 一种移动终端的工具及智能整合音视频的服务器 |
CN106790940B (zh) * | 2015-11-25 | 2020-02-14 | 华为技术有限公司 | 录音方法、录音播放方法、装置及终端 |
CN108615537A (zh) * | 2018-05-02 | 2018-10-02 | 广州国音科技有限公司 | 一种多信道录音方法、装置及系统 |
-
2018
- 2018-10-10 CN CN201811176305.2A patent/CN109215688B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004235792A (ja) * | 2003-01-29 | 2004-08-19 | Sanyo Electric Co Ltd | コンテンツ処理装置 |
CN101430882A (zh) * | 2008-12-22 | 2009-05-13 | 北京中星微电子有限公司 | 一种抑制风噪声的方法及装置 |
CN101593522A (zh) * | 2009-07-08 | 2009-12-02 | 清华大学 | 一种全频域数字助听方法和设备 |
CN103180907A (zh) * | 2010-08-31 | 2013-06-26 | 诺基亚公司 | 音频场景装置 |
CN104424953A (zh) * | 2013-09-11 | 2015-03-18 | 华为技术有限公司 | 语音信号处理方法与装置 |
CN104113604A (zh) * | 2014-07-29 | 2014-10-22 | 广东能龙教育股份有限公司 | 一种云环境下语音快速采集的实现方法 |
CN104599675A (zh) * | 2015-02-09 | 2015-05-06 | 宇龙计算机通信科技(深圳)有限公司 | 语音处理方法、语音处理装置和终端 |
CN108111952A (zh) * | 2017-12-26 | 2018-06-01 | 上海展扬通信技术有限公司 | 一种录音方法、装置、终端及计算机可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN109215688A (zh) | 2019-01-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110246512B (zh) | 声音分离方法、装置及计算机可读存储介质 | |
CN107799126B (zh) | 基于有监督机器学习的语音端点检测方法及装置 | |
CN110970014B (zh) | 语音转换、文件生成、播音、语音处理方法、设备及介质 | |
CN111739553B (zh) | 会议声音采集、会议记录以及会议记录呈现方法和装置 | |
CN103918284B (zh) | 语音控制装置、语音控制方法和程序 | |
CN107333090B (zh) | 视频会议数据处理方法和平台 | |
CN112148922A (zh) | 会议记录方法、装置、数据处理设备及可读存储介质 | |
CN108903521B (zh) | 一种应用于智能画框的人机交互方法、智能画框 | |
CN106356067A (zh) | 录音方法、装置及终端 | |
CN109215688B (zh) | 同场景音频处理方法、装置、计算机可读存储介质及系统 | |
CN108877787A (zh) | 语音识别方法、装置、服务器及存储介质 | |
CN110047497B (zh) | 背景音频信号滤除方法、装置及存储介质 | |
WO2016187910A1 (zh) | 一种语音文字的转换方法及设备、存储介质 | |
CN107592339B (zh) | 一种基于智能终端的音乐推荐方法及音乐推荐系统 | |
CN109346057A (zh) | 一种智能儿童玩具的语音处理系统 | |
WO2019076120A1 (zh) | 一种图像处理的方法、装置、存储介质及电子装置 | |
CN110875036A (zh) | 语音分类方法、装置、设备及计算机可读存储介质 | |
CN110931019B (zh) | 公安语音数据采集方法、装置、设备和计算机存储介质 | |
CN107452398B (zh) | 回声获取方法、电子设备及计算机可读存储介质 | |
CN107197404B (zh) | 一种音效自动调节方法、装置和一种录播系统 | |
CN108781310A (zh) | 使用视频的图像来选择要增强的视频的音频流 | |
WO2014201953A1 (en) | Methods, apparatus, and terminal devices of image processing | |
KR101976937B1 (ko) | 마이크로폰 어레이를 이용한 회의록 자동작성장치 | |
CN115937726A (zh) | 说话人检测方法、装置、设备及计算机可读存储介质 | |
JP7400364B2 (ja) | 音声認識システム及び情報処理方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |