CN110827850A - 音频分离方法、装置、设备及计算机可读存储介质 - Google Patents

音频分离方法、装置、设备及计算机可读存储介质 Download PDF

Info

Publication number
CN110827850A
CN110827850A CN201911099100.3A CN201911099100A CN110827850A CN 110827850 A CN110827850 A CN 110827850A CN 201911099100 A CN201911099100 A CN 201911099100A CN 110827850 A CN110827850 A CN 110827850A
Authority
CN
China
Prior art keywords
audio
target
sample
sound wave
audio sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911099100.3A
Other languages
English (en)
Other versions
CN110827850B (zh
Inventor
陈昊亮
许敏强
杨世清
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou National Acoustic Intelligent Technology Co Ltd
Original Assignee
Guangzhou National Acoustic Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou National Acoustic Intelligent Technology Co Ltd filed Critical Guangzhou National Acoustic Intelligent Technology Co Ltd
Priority to CN201911099100.3A priority Critical patent/CN110827850B/zh
Publication of CN110827850A publication Critical patent/CN110827850A/zh
Application granted granted Critical
Publication of CN110827850B publication Critical patent/CN110827850B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/63Querying
    • G06F16/632Query formulation
    • G06F16/634Query by example, e.g. query by humming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Library & Information Science (AREA)
  • Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种音频分离方法,该方法包括:当接收到音频分离指令时,查找预设音频样本库中与所述音频分离指令对应的目标音频样本;接收待分离的音频信息,截取所述音频信息中具有与所述目标音频样本相同声波类型的目标音频片段;去除所述目标音频片段中与所述目标音频样本声波类型不同的其他音频,得到目标音频。本发明还公开了一种音频分离装置、设备及计算机可读存储介质。本发明通过当接收到音频分离指令时,查找对应的目标音频样本,获取所述目标音频样本中的纯音频样本,去除接收到的音频信息中与纯音频样本声波类型不同的其他音频,便可得到目标音频,实现了对同时包含多种音频的音频信息进行音频分离。

Description

音频分离方法、装置、设备及计算机可读存储介质
技术领域
本发明涉及音频处理领域,尤其涉及一种音频分离方法、装置、设备及计算机可读存储介质。
背景技术
随着音频处理技术的快速发展,音频分离被越来越多地应用在音乐、教育和会议等领域。
在一份警方获得的录音中包含了犯罪嫌疑人说话的内容,但在犯罪嫌疑人说话的那段录音内容里也包含了其他人的声音,这使得无法获得仅包含犯罪嫌疑人说话内容的录音;用户想要得到一首歌的清唱版、钢琴独奏版或其他乐器(这首歌中包含的伴奏乐器)的独奏版,在现有方法中,用户无法主动获得,因此,如何根据各种乐器的音频特征对同时包含多种音频的音频信息进行音频分离成为了亟待解决的技术问题。
发明内容
本发明的主要目的在于提供一种音频分离方法,旨在解决对同时包含多种音频的音频信息进行音频分离的技术问题。
此外,为实现上述目的,本发明还提供一种音频分离方法,所述音频分离方法包括以下步骤:
当接收到音频分离指令时,查找预设音频样本库中与所述音频分离指令对应的目标音频样本;
接收待分离的音频信息,截取所述音频信息中具有与所述目标音频样本相同声波类型的目标音频片段;
获取所述目标音频样本中的纯音频样本,去除所述目标音频片段中与所述纯音频样本声波类型不同的其他音频,得到目标音频。
可选地,所述当接收到音频分离指令时,查找预设音频样本库中与所述音频分离指令对应的目标音频样本的步骤之前,包括:
当接收到音频样本创建指令时,获取与所述音频样本创建指令对应的源音频样本;
获取所述源音频样本的声波特征,根据所述声波特征,创建音频样本。
可选地,所述获取所述源音频样本的声波特征,根据所述声波特征,创建音频样本的步骤包括:
获取源音频样本的单位声波段;
获取所述单位声波段的声波特性,将所述声波特性作为所述源音频样本的声波特征;
创建与所述声波特性匹配的目标单位声波段,将所述目标单位声波段作为音频样本。
可选地,所述接收待分离的音频信息,截取所述音频信息中具有与所述目标音频样本相同声波类型的目标音频片段的步骤包括:
接收待分离的音频信息,将所述音频信息分解成多个音频片段,获取每个音频片段的声波类型;
将具有与目标音频样本相同声波类型的音频片段作为目标音频片段。
可选地,所述将所述音频信息分解成多个音频片段的步骤包括:
获取目标音频样本的声波周期数量;
根据所述目标音频样本的声波周期数量,对音频信息进行分解,得到音频片段。
可选地,所述将具有与目标音频样本相同声波类型的音频片段作为目标音频片段的步骤包括:
将音频片段中的声波与目标音频样本中对应的声波进行匹配;
获取匹配成功的声波数量,将匹配成功的声波数量除以声波总数量,得到音频片段与所述目标音频样本的匹配度;
根据所述匹配度,确定具有与所述目标音频样本相同声波类型的音频片段。
可选地,所述接收待分离的音频信息,截取所述音频信息中具有与所述目标音频样本相同声波类型的目标音频片段的步骤之后,包括:
若与所述目标音频片段匹配的所述目标音频样本是纯音频样本,则将所述目标音频片段作为目标音频;
若与所述目标音频片段匹配的所述目标音频样本不是所述纯音频样本,则执行获取所述目标音频样本中的纯音频样本,去除所述目标音频片段中与所述纯音频样本声波类型不同的其他音频,得到目标音频的步骤。
此外,为实现上述目的,本发明还提供一种音频分离装置,所述音频分离装置包括:
查找模块,用于当接收到音频分离指令时,查找预设音频样本库中与所述音频分离指令对应的目标音频样本;
截取模块,用于接收待分离的音频信息,截取所述音频信息中具有与所述目标音频样本相同声波类型的目标音频片段;
去除模块,用于去除所述目标音频片段中与所述目标音频样本声波类型不同的其他音频,得到目标音频。
此外,为实现上述目的,本发明还提供一种音频分离设备,所述音频分离设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的音频分离程序,所述音频分离程序被所述处理器执行时实现如上述的音频分离方法的步骤。
此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有音频分离程序,所述音频分离程序被处理器执行时实现如上述的方法的步骤。
本发明实施例提出的一种音频分离方法、装置、设备及计算机可读存储介质。本发明实施例中预设音频样本库中存储有一个或多个音频样本,当接收到音频分离指令时,音频分离程序将查找预设音频样本库中与音频分离指令对应的目标音频样本,音频分离设备接收到待分离的音频信息后,音频分离程序将截取音频信息中具有与目标音频样本相同声波类型的目标音频片段,进而去除目标音频片段中与纯音频样本声波类型不同的其他音频,得到目标音频其中,目标音频即为从音频信息中分离出来的与音频分离指令相对应的音频,实现了对同时包含多种音频的音频信息进行音频分离。
附图说明
图1为本发明实施例提供的音频分离设备一种实施方式的硬件结构示意图;
图2为本发明音频分离方法第一实施例的流程示意图;
图3为本发明音频分离方法第二实施例的流程示意图;
图4为本发明音频分离方法第二实施例的示意图;
图5为本发明音频分离方法第三实施例的流程示意图;
图6为本发明音频分离方法第四实施例的流程示意图;
图7为本发明音频分离方法第三实施例和第四实施例的示意图;
图8为本发明音频分离装置一实施例的功能模块示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
在后续的描述中,使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本发明的说明,其本身没有特定的意义。因此,“模块”、“部件”或“单元”可以混合地使用。
本发明实施例音频分离终端(又叫终端、设备或者终端设备)可以是个人电脑,也可以是智能手机和平板电脑等具有音频录取和音频处理功能的设备。
如图1所示,该终端可以包括:处理器1001,例如CPU,网络接口1004,用户接口1003,存储器1005,通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
可选地,终端还可以包括摄像头、麦克风、RF(Radio Frequency,射频)电路、传感器、音频电路、WiFi模块等等。其中,传感器比如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示屏的亮度,接近传感器可在移动终端移动到耳边时,关闭显示屏和/或背光。作为运动传感器的一种,重力加速度传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别移动终端姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;当然,移动终端还可配置陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。
本领域技术人员可以理解,图1中示出的终端结构并不构成对终端的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及音频分离程序。
在图1所示的终端中,网络接口1004主要用于连接后台服务器,与后台服务器进行数据通信;用户接口1003主要用于连接客户端(用户端),与客户端进行数据通信;而处理器1001可以用于调用存储器1005中存储的音频分离程序,所述音频分离程序被处理器执行时实现下述实施例提供的音频分离方法中的操作。
基于上述设备硬件结构,提出了本发明音频分离方法的实施例。
参照图2,在本发明音频分离方法的第一实施例中,所述音频分离方法包括:
步骤S10,当接收到音频分离指令时,查找预设音频样本库中与所述音频分离指令对应的目标音频样本。
本实施例中音频分离方法应用于音频分离设备(又叫终端、设备或者终端设备),音频分离设备包括智能手机,个人电脑,智能音箱等具有音频处理功能的设备。本实施例中预设音频样本库是指,预先设置的用于存放音频样本的存储介质,它可以是一个存储区间,也可以是一个数据库,预设音频样本库中存放的音频样本的数量除了受库本身存储能力的限制外,不受其他因素的影响。目标音频样本是指,预设音频样本库中与音频分离指令对应的包含目标音频的音频样本。
本实施例给出一种具体应用场景,有一个包含了一段音频信息的文件,音频的内容为猫,狗和羊共同叫的声音,用户想要从中分离出猫的叫声,则预设音频样本库存储有猫,狗和羊叫声的音频样本,当音频分离程序接收到猫叫声的分离指令时,音频分离程序将在预设音频样本库中查找包含猫叫声的音频样本,在本应用场景下,猫叫声为目标音频。可知地,当预设音频样本库中不包含目标音频样本时,音频分离程序还可以输出相应的提示信息。
步骤S20,接收待分离的音频信息,截取所述音频信息中具有与所述目标音频样本相同声波类型的目标音频片段。
本实施例中音频信息是指,用户输入或者音频分离设备自动录入的一段音频。将音频信息分段后分别与目标音频样本进行匹配操作,操作的结果为匹配或者不匹配,已知,将音频信息分段后会得到一个或多个音频片段,与目标音频样本匹配的音频片段即是目标音频片段,可知地,目标音频片段可为一个或多个,音频信息的具体分段方法和分段规则,本实施例不做详述和限制。
本实施例给出一种具体应用场景,有一段包含了钢琴,小提琴和小号声音的音频信息,用户想从中分离出钢琴的声音,当音频分离程序接收到钢琴声音的分离指令时,音频分离程序将这段包含了钢琴,小提琴和小号声音的音频信息截成多个音频片段,并将这些音频片段分别与钢琴的音频样本进行匹配,可知地,音频分离程序判定与钢琴的音频样本不匹配的音频片段中不包含钢琴声音,但音频分离程序并不能判定与钢琴的音频样本匹配的音频片段中不包含其他乐器的声音。
步骤S30,获取所述目标音频样本中的纯音频样本,去除所述目标音频片段中与所述纯音频样本声波类型不同的其他音频,得到目标音频。
本实施例中纯音频样本是指,仅包含一种音频的音频样本。目标音频片段是指,包含了一定比例目标音频的音频片段,即,目标音频片段中还可能包含一小部分非目标音频的音频片段,这里确定只可能包含一小部分非目标音频的原因是,截取的目标音频片段与目标音频样本匹配,而音频分离程序判定音频片段与目标音频样本匹配的规则包括,音频片段中包含一定比例(大部分)的目标音频。对目标音频片段做滤波处理的目的是,滤除目标音频片段中包含的非目标音频,进而得到仅包含目标音频的片段,若目标音频片段仅存在一个,则对目标音频片段做滤波处理后即得到目标音频,若目标音频片段存在多个,则对多个做滤波处理后的目标音频片段进行简单的组合即得到目标音频。滤波处理的具体操作过程,组合的具体方法本实施例不做详述。
本发明实施例中预设音频样本库中存储有多个音频样本,当接收到音频分离指令时,音频分离程序将查找预设音频样本路中与音频分离指令对应的目标音频样本,待用户输入待分离的音频信息后,音频分离程序将截取音频信息中具有与目标音频样本相同声波类型的目标音频片段,进而去除目标音频片段中与纯音频样本声波类型不同的其他音频,得到目标音频,其中,目标音频即为从音频信息中分离出来的与音频分离指令相对应的音频,实现了对同时包含多种音频的音频信息进行音频分离。
进一步地,参照图3,在本发明上述实施例的基础上,提出了本发明方法的第二实施例。
本实施例是第一实施例中步骤S10之前的步骤,本实施例与本发明上述实施例的区别在于:
步骤S01,当接收到音频样本创建指令时,获取与所述音频样本创建指令对应的源音频样本。
本实施例中音频分离方法能够实现的功能是,从同时包含多种音频的音频信息中分离出指定音频,该功能实现的前提是,需要预先获取各种音频的音频样本,就像想要从一些直线中分离出长度为10公分的直线,需要提前准备一把长度为10公分的标准尺一样,音频样本就相当于标准尺,每条直线有各自的长度,每种音频也有各自的音频样本,所以获取音频样本是实现音频分离的前提。本实施例中音频样本创建指令是指,创建某种音频样本的指令,源音频样本是指,创建音频样本前采集的用于创建音频样本的源音频。为了确保音频样本的准确性和代表性,源音频样本的数量应尽量多。
本实施例给出一种具体应用场景,已知一份录音文件(音频信息)中包含多种动物的叫声,且有些动物的叫声是同时发出的,用户想得到其中猫叫的声音,需要提前创建猫叫声的音频样本。于是用户采集了多个猫在各种情况下的叫声,为了确保源音频样本采集的准确性和可靠性,猫叫声的采集应在安静的环境下,即,确保采集的源音频样本不包含其他音频(例如,噪音)。源音频样本在音频分离程序接收到音频样本创建指令后获取,并存放在某个存储空间内,获取源音频样本的方法可以是录音,具体获取方法本实施例不做详述。
步骤S02,获取所述源音频样本的声波特征,根据所述声波特征,创建音频样本。
本实施例中声波特征是指,以声波的形式表示音频时,声波所显示出的特定规律。已知,声波包括频率和幅度,频率和幅度的不同表现出声波规律的不同,也说明了每种音频之间的差别。
已知,为了确保音频样本的准确性和代表性,源音频样本的数量应尽量多,但由于源音频样本的获取途径可以为人为录入或设备自动获取,所以存在源音频样本仅有一个的情况。无论源音频样本存在几个,接收到源音频样本后,音频分离程序都将获取源音频样本的声波特征,已知,音频样本实质上为一个特定长度的单位声波段。
,具体地,步骤S02细化的步骤,还包括:
步骤a1,获取源音频样本的单位声波段。
本实施例中单位声波段是指,同一种音频的声波所展现出的循环现象的最小单位,如图7所示,图中为两个个源音频样本,均可分为三个单位声波段,每个单位声波段包含十个周期(一个波峰到紧邻的另一个波峰,或者一个波谷到紧邻的另一个波谷,称之为一个周期)的声波。本实施例中单位声波段的数量,以及每个声波段包含的声波周期数,仅做举例说明,具体以源音频样本的实际情况为准。已知,每个源音频样本可分的单位声波段数量与该源音频样本的(时间)长度有关。为了计算更加方便快捷,若源音频样本存在多个,则应使源音频样本的时间长度较短,以使单位声波段的总数量(每个源音频样本分解的单位声波段数量之和)在预设范围内;若源音频样本仅存在一个,则应使源音频样本的时间长度较长,以使单位声波段的总数量在预设范围内,预设范围与音频分离的精确度和音频分离设备的计算能力有关,本实施例不再详述和限制。图7中第一源音频样本和第二源音频样本仅用于说明两个不同的源音频样本,并不表示顺序或其他含义。
步骤a2,获取所述单位声波段的声波特性,将所述声波特性作为所述源音频样本的声波特征。
本实施例中声波特性是指,单位声波段内声波的频率和幅度与其他单位声波段的区别。这些区别不仅是单位声波段的声波特性,也是源音频样本的声波特征。
如图7所示的两个源音频样本,均可分为三个单位声波段(每个虚线框内为一个单位声波段),图中箭头所指的声波(图中以黑色线段表示声波,线段的粗细表示声波的频率,线段的长短表示声波的幅度)即为所在单位声波段不同于其他单位声波段的区别所在,如图7中第一源音频样本中第二单位声波段(图7中从左至右第二个虚线框)的声波特性是,存在一个声波的幅度低于其他单位声波段。第三单位声波段的声波特性是,存在一个声波的频率大于其他单位声波段。则第一源音频样本的声波特征为,一个声波的幅度存在差异和一个声波的频率存在差异。图7中第二源音频样本与上述的原理相同。
步骤a3,创建与所述声波特性匹配的目标单位声波段,将所述目标单位声波段作为音频样本。
已知,音频样本实质上为一个单位声波段,音频样本应同时满足两个条件,第一条件为,这个音频样本应取自所有源音频样本中的某个单位声波段;第二条件为,音频样本与所有源音频样本中的单位声波段的匹配值总值最高。本实施例中目标单位声波段即是指,同时满足上述两个条件的单位声波段,可知地,若同时满足上述两个条件的单位声波段不止一个时,音频分离程序将随机选择一个作为目标单位声波段。
如图7所示,源音频样本为两个,单位声波段共有六个,按照从左至右,从上至下的顺序对单位声波段进行排号,以区分每个单位声波段。每个单位声波段与其他单位声波段的匹配值总值如表1所示。单位声波段之间匹配值计算方法为,单位声波段之间不对应相等的声波数量除以单位声波段内声波的总数量,举例说明,图7中1号单位声波段与2号单位声波段之间,仅存在一个声波不相同,则1号单位声波段与2号单位声波段的匹配值为0.9,同理可计算出1号单位声波段与其他单位声波段的匹配值总值。
单位声波段 1 2 3 4 5 6
匹配值总值 4.6 4.2 4.2 4.6 4.2 4.2
表1
由表1可知目标单位声波段存在两个,即1号单位声波段和4号单位声波段,而由图7可知,1号单位声波段和4号单位声波段实质相等。本实施例中单位声波段之间匹配值的计算方法仅用于举例说明,并不代表最优的计算方法。
在本实施例中详细叙述了音频样本的创建方法,为后续利用音频样本分离特定音频打下了基础,也叙述了本发明音频分离方法的原理。
进一步地,参照图4,在本发明上述实施例的基础上,提出了本发明方法的第三实施例。
本实施例是第一实施例中步骤S20细化的步骤,本实施例与本发明上述实施例的区别在于:
步骤S21,接收待分离的音频信息,将所述音频信息分解成多个音频片段,获取每个音频片段的声波类型。
本实施例中音频信息是指待做音频分离处理的一段音频,音频片段是指将音频信息分离后得到的特定长度的音频,它的长度单位是时间。虽然音频片段的长度是个不确定的值,但每个音频片段内包含的声波数应与单位声波段内的声波数相等,这也是分解音频信息时的规则。本实施例中音频片段还可以理解为声音的最小单位,即,每个音频信息都可被分解为整数个音频片段。
已知,每种音频都有其特定的声波频率和声波幅度,当两个声波具有相同的频率和幅度时,可认定两个声波相同。而对应相同的声波数量除以每个音频片段内的声波数量(音频片段内的声波数量=单位声波段内的声波数量=音频样本内的声波数量)等于每个音频片段与目标音频样本的声波类型相同程度。如图8所示,本实施例给出一种具体应用场景,现有一份包含三种音频的音频信息,图8中第一部分ABC分别为三种音频的音频样本,第三部分为音频信息中(随机)三个音频片段,假设A为目标音频样本(即,从音频信息中分离出A音频),则第三部分音频片段1与目标音频样本A的声波类型相同程度为1(即100%),根据上述方法,可计算每个音频片段与目标音频样本的声波类型相同程度。本实施例中的计算方法仅用于举例说明,并不代表最优的计算方法。
步骤S22,将具有与目标音频样本相同声波类型的音频片段作为目标音频片段。
已知,每个音频片段与目标音频样本的声波类型相同程度等于,对应相同的声波数量除以每个音频片段内的声波数量。本实施例中引入预设声波类型相同程度的目的是,音频片段中是否包含目标音频的一个判断标准,若音频片段与目标音频样本的声波类型相同程度大于预设声波类型相同程度,则音频分离程序判定音频片段为包含目标音频的目标音频片段。
可知地,目标音频样本为包含目标音频的音频样本,即,目标音频样本也可以是包含目标音频样本的多个音频样本的组合,例如,一份音频信息中包含ABC三种音频,则预设音频样本库中包含8种音频样本,若A音频为目标音频,则目标音频样本为四个,分别是:音频样本A,音频样本A+B,音频样本A+C,音频样本A+B+C,声波类型相同程度取音频片段与所有目标音频样本声波类型相同程度的最大值。
具体地,步骤S21细化的步骤,还包括:
步骤b1,获取目标音频样本的声波周期数量。
已知,分解音频信息的规则是,分解的每个音频片段内包含的声波数等于音频样本内包含的声波数。因此,获取目标音频样本内的声波数量是得到音频样本的前提。
步骤b2,根据所述目标音频样本的声波周期数量,对音频信息进行分解,得到音频片段。
如图8所示,本实施例给出一种具体应用场景。图8中第三部分为音频信息,若目标音频样本的声波数量为10,则音频分离程序会按照10个声波为单位对音频信息进行分解。已知,目标音频样本实质为声音的最小单位,即,无论音频信息的长短,对音频信息分解后都将得到整数个音频片段,如图8所示,第三部分被分解后得到三个音频片段。
具体地,步骤S22细化的步骤,包括:
步骤c1,将音频片段中的声波与目标音频样本中对应的声波进行匹配。
已知音频片段中声波的数量等于目标音频样本中声波的数量,则本实施例中对应的意思为,声波在顺序上的对应关系。
本实施例给出一种具体应用场景,现有一份乐器演奏的音频信息,已知其中包含钢琴,小号和小提琴的音频,用户想从中分离出钢琴的音频,如图8所示,第一部分ABC分别为钢琴,小号和小提琴的音频样本,第二部分从左至右依次为,钢琴+小号的音频样本,钢琴+小提琴的音频样本,小号+小提琴的音频样本和钢琴+小号+小提琴的音频样本。已知,目标音频样本为A,A+B,A+C和A+B+C,图8中第三部分为音频信息中的一部分,可分解成三个音频片段,将上述目标音频样本分别与音频片段进行匹配,选取出匹配成功的目标音频片段,可知地,存在没有目标音频样本与音频片段匹配成功的情况,即音频信息中还包含其他乐器的声音,这种情况下,音频分离程序还可以输出检测到未知音频的提示信息,提示信息的具体形式和提示内容本实施例不做限制和详述。
步骤c2,获取匹配成功的声波数量,将匹配成功的声波数量除以声波总数量,得到音频片段与所述目标音频样本的匹配度。
已知,匹配度计算的方法上述实施例已经介绍过,表2为音频片段与目标音频样本的匹配度。
目标音频样本 A A+B A+C A+B+C
匹配的音频片段 1 2 3
匹配度 0.9 0.9 0 0.8
表2
如表2所示,音频片段1与目标音频样本A的匹配度为0.9,音频片段2与目标音频样本A+B的匹配度为0.9,音频片段3与目标音频样本A+B+C的匹配度为0.8,已知,若预设匹配度等于0.7,则上述匹配关系成立。
步骤c3,根据所述匹配度,确定具有与所述目标音频样本相同声波类型的音频片段。
可知地,本实施例中,若音频片段与目标音频样本的匹配度大于预设匹配度,则音频分离程序将判定该音频片段是具有与目标音频样本相同声波类型的音频片段。
本实施例中通过对音频信息进行分解得到音频片段,进而将音频片段与目标音频样本进行匹配,并将与目标音频样本具有相同声波类型的音频片段作为目标音频片段,实现了从音频信息中筛选出包含目标音频的音频片段,进而可得到目标音频。
进一步地,参照图5,在本发明第三实施例的基础上,提出了本发明方法的第四实施例。
本实施例是第一实施例中步骤S20之后的步骤,本实施例与本发明上述实施例的区别在于:
步骤S40,若与所述目标音频片段匹配的所述目标音频样本是纯音频样本,则将所述目标音频片段作为目标音频。
本实施例中,纯音频样本是指,仅包含一种音频的音频样本。第一目标音频是指,符合与目标音频片段匹配的目标音频样本是纯音频样本这个条件的目标音频片段的统称。
本实施例给出一种具体应用场景,现有一份乐器演奏的音频信息,已知其中包含钢琴,小号和小提琴的音频,用户想从中分离出钢琴的音频,如图8所示,第一部分ABC分别为钢琴,小号和小提琴的音频样本,第二部分从左至右依次为,钢琴+小号的音频样本,钢琴+小提琴的音频样本,小号+小提琴的音频样本和钢琴+小号+小提琴的音频样本。已知,目标音频样本为A,A+B,A+C和A+B+C,图8中第三部分为音频信息中的一部分,可分解成三个音频片段,将上述目标音频样本分别与音频片段进行匹配,选取出匹配成功(即,匹配度大于预设匹配度)的目标音频片段。由表2可知,与目标音频片段1匹配的目标音频样本为纯音频样本,则音频分离程序会将目标音频片段1作为目标音频。
步骤S50,若与所述目标音频片段匹配的所述目标音频样本不是所述纯音频样本,则执行获取所述目标音频样本中的纯音频样本,去除所述目标音频片段中与所述纯音频样本声波类型不同的其他音频,得到目标音频的步骤。
本实施例中去除处理是指,去除目标音频片段中非目标音频的部分,因为声波叠加时会出现吸收或者增强的现象,所以去除处理并不是简单地把声波去除,而是推算声波叠加的逆过程,进而综合采用释放和减弱,去除和替换的操作,本实施例以替换操作举例说明。由表2和图8可知,与目标音频片段2匹配的目标音频样本为A+B,若目标音频为A,则在保留目标音频片段2中声波的频率和幅度的基础上,用音频样本A代替目标音频片段2,进而达到去除处理的目的,将替换后的目标音频片段2作为目标音频。
本实施例中将仅包含目标音频的目标音频片段,与包含目标音频的目标音频片段区分开来,进行不同的操作后分别得到目标音频,对两种情况得到的目标音频做简单的组合便可得到最终的目标音频,其中,组合的具体方法本实施例不做详述。
本实施例中通过判断与目标音频片段匹配的目标音频样本是否为纯音频样本,进而确定是否对目标音频片段做去除处理,通过判断结果和去除处理可得到仅含有目标音频的目标音频片段,对这些音频片段做简单的组合处理,便可得到目标音频。
此外,参照图6,本发明实施例还提出一种音频分离装置,所述音频分离装置包括:
查找模块10,用于当接收到音频分离指令时,查找预设音频样本库中与所述音频分离指令对应的目标音频样本;
截取模块20,用于接收待分离的音频信息,截取所述音频信息中具有与所述目标音频样本相同声波类型的目标音频片段;
去除模块30,用于去除所述目标音频片段中与所述目标音频样本声波类型不同的其他音频,得到目标音频。
上述各程序模块所执行的方法可参照本发明方法各个实施例,此处不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件商品的形式体现出来,该计算机软件商品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机和平板电脑等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种音频分离方法,其特征在于,所述音频分离方法包括以下步骤:
当接收到音频分离指令时,查找预设音频样本库中与所述音频分离指令对应的目标音频样本;
接收待分离的音频信息,截取所述音频信息中具有与所述目标音频样本相同声波类型的目标音频片段;
获取所述目标音频样本中的纯音频样本,去除所述目标音频片段中与所述纯音频样本声波类型不同的其他音频,得到目标音频。
2.如权利要求1所述的音频分离方法,其特征在于,所述当接收到音频分离指令时,查找预设音频样本库中与所述音频分离指令对应的目标音频样本的步骤之前,包括:
当接收到音频样本创建指令时,获取与所述音频样本创建指令对应的源音频样本;
获取所述源音频样本的声波特征,根据所述声波特征,创建音频样本。
3.如权利要求2所述的音频分离方法,其特征在于,所述获取所述源音频样本的声波特征,根据所述声波特征,创建音频样本的步骤包括:
获取源音频样本的单位声波段;
获取所述单位声波段的声波特性,将所述声波特性作为所述源音频样本的声波特征;
创建与所述声波特性匹配的目标单位声波段,将所述目标单位声波段作为音频样本。
4.如权利要求1所述的音频分离方法,其特征在于,所述接收待分离的音频信息,截取所述音频信息中具有与所述目标音频样本相同声波类型的目标音频片段的步骤包括:
接收待分离的音频信息,将所述音频信息分解成多个音频片段,获取每个音频片段的声波类型;
将具有与目标音频样本相同声波类型的音频片段作为目标音频片段。
5.如权利要求4所述的音频分离方法,其特征在于,所述将所述音频信息分解成多个音频片段的步骤包括:
获取目标音频样本的声波周期数量;
根据所述目标音频样本的声波周期数量,对音频信息进行分解,得到音频片段。
6.如权利要求4所述的音频分离方法,其特征在于,所述将具有与目标音频样本相同声波类型的音频片段作为目标音频片段的步骤包括:
将音频片段中的声波与目标音频样本中对应的声波进行匹配;
获取匹配成功的声波数量,将匹配成功的声波数量除以声波总数量,得到音频片段与所述目标音频样本的匹配度;
根据所述匹配度,确定具有与所述目标音频样本相同声波类型的音频片段。
7.如权利要求1所述的音频分离方法,其特征在于,所述接收待分离的音频信息,截取所述音频信息中具有与所述目标音频样本相同声波类型的目标音频片段的步骤之后,包括:
若与所述目标音频片段匹配的所述目标音频样本是纯音频样本,则将所述目标音频片段作为目标音频;
若与所述目标音频片段匹配的所述目标音频样本不是所述纯音频样本,则执行获取所述目标音频样本中的纯音频样本,去除所述目标音频片段中与所述纯音频样本声波类型不同的其他音频,得到目标音频的步骤。
8.一种音频分离装置,其特征在于,所述音频分离装置包括:
查找模块,用于当接收到音频分离指令时,查找预设音频样本库中与所述音频分离指令对应的目标音频样本;
截取模块,用于接收待分离的音频信息,截取所述音频信息中具有与所述目标音频样本相同声波类型的目标音频片段;
去除模块,用于去除所述目标音频片段中与所述目标音频样本声波类型不同的其他音频,得到目标音频。
9.一种音频分离设备,其特征在于,所述音频分离设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的音频分离程序,所述音频分离程序被所述处理器执行时实现如权利要求1至7中任一项所述的音频分离方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有音频分离程序,所述音频分离程序被处理器执行时实现如权利要求1至7中任一项所述的音频分离方法的步骤。
CN201911099100.3A 2019-11-11 2019-11-11 音频分离方法、装置、设备及计算机可读存储介质 Active CN110827850B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911099100.3A CN110827850B (zh) 2019-11-11 2019-11-11 音频分离方法、装置、设备及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911099100.3A CN110827850B (zh) 2019-11-11 2019-11-11 音频分离方法、装置、设备及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN110827850A true CN110827850A (zh) 2020-02-21
CN110827850B CN110827850B (zh) 2022-06-21

Family

ID=69554305

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911099100.3A Active CN110827850B (zh) 2019-11-11 2019-11-11 音频分离方法、装置、设备及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN110827850B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111986668A (zh) * 2020-08-20 2020-11-24 深圳市一本电子有限公司 使用车载充电器的ai语音智能控制物联网方法
CN112165591A (zh) * 2020-09-30 2021-01-01 联想(北京)有限公司 一种音频数据的处理方法、装置及电子设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103038823A (zh) * 2010-01-29 2013-04-10 马里兰大学派克分院 用于语音提取的系统和方法
CN109446376A (zh) * 2018-10-31 2019-03-08 广东小天才科技有限公司 一种通过分词对语音进行分类的方法及系统
US20190182541A1 (en) * 2016-02-29 2019-06-13 Gracenote, Inc. Media Channel Identification with Video Multi-Match Detection and Disambiguation Based on Audio Fingerprint
CN110162660A (zh) * 2019-05-28 2019-08-23 维沃移动通信有限公司 音频处理方法、装置、移动终端及存储介质
CN110335622A (zh) * 2019-06-13 2019-10-15 平安科技(深圳)有限公司 音频单音色分离方法、装置、计算机设备及存储介质
CN110377782A (zh) * 2019-07-12 2019-10-25 腾讯音乐娱乐科技(深圳)有限公司 音频检索方法、装置和存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103038823A (zh) * 2010-01-29 2013-04-10 马里兰大学派克分院 用于语音提取的系统和方法
US20190182541A1 (en) * 2016-02-29 2019-06-13 Gracenote, Inc. Media Channel Identification with Video Multi-Match Detection and Disambiguation Based on Audio Fingerprint
CN109446376A (zh) * 2018-10-31 2019-03-08 广东小天才科技有限公司 一种通过分词对语音进行分类的方法及系统
CN110162660A (zh) * 2019-05-28 2019-08-23 维沃移动通信有限公司 音频处理方法、装置、移动终端及存储介质
CN110335622A (zh) * 2019-06-13 2019-10-15 平安科技(深圳)有限公司 音频单音色分离方法、装置、计算机设备及存储介质
CN110377782A (zh) * 2019-07-12 2019-10-25 腾讯音乐娱乐科技(深圳)有限公司 音频检索方法、装置和存储介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111986668A (zh) * 2020-08-20 2020-11-24 深圳市一本电子有限公司 使用车载充电器的ai语音智能控制物联网方法
CN111986668B (zh) * 2020-08-20 2021-05-11 深圳市一本电子有限公司 使用车载充电器的ai语音智能控制物联网方法
CN112165591A (zh) * 2020-09-30 2021-01-01 联想(北京)有限公司 一种音频数据的处理方法、装置及电子设备
CN112165591B (zh) * 2020-09-30 2022-05-31 联想(北京)有限公司 一种音频数据的处理方法、装置及电子设备

Also Published As

Publication number Publication date
CN110827850B (zh) 2022-06-21

Similar Documents

Publication Publication Date Title
CN107247572B (zh) 音频播放方法、终端及计算机可读存储介质
CN110827850B (zh) 音频分离方法、装置、设备及计算机可读存储介质
CN109697290B (zh) 一种信息处理方法、设备及计算机存储介质
Kiktova-Vozarikova et al. Feature selection for acoustic events detection
US10043513B2 (en) Systems and methods of interpreting speech data
CN112463106A (zh) 基于智能屏幕的语音交互方法、装置、设备及存储介质
CN110069459B (zh) 文件监控方法、装置和电子设备
CN110875036A (zh) 语音分类方法、装置、设备及计算机可读存储介质
CN110827849B (zh) 数据建库的人声分离方法、装置、终端及可读存储介质
CN111385688A (zh) 一种基于深度学习的主动降噪方法、装置及系统
CN110602553B (zh) 媒体文件播放中的音频处理方法、装置、设备及存储介质
CN110889009B (zh) 一种声纹聚类方法、装置、处理设备以及计算机存储介质
CN109147801B (zh) 语音交互方法、系统、终端及存储介质
CN105989000B (zh) 音视频拷贝检测方法及装置
CN105550308B (zh) 一种信息处理方法,检索方法及电子设备
CN113327628A (zh) 音频处理方法、装置、可读介质和电子设备
CN111640450A (zh) 多人声音频处理方法、装置、设备及可读存储介质
US20170161322A1 (en) Method and electronic device for searching resource
US20190214037A1 (en) Recommendation device, recommendation method, and non-transitory computer-readable storage medium storing recommendation program
CN110765357A (zh) 在线文档的搜索方法、装置、设备及存储介质
CN107071553B (zh) 一种修改视频语音的方法、装置和计算机可读存储介质
CN113761269B (zh) 音频识别方法、装置和计算机可读存储介质
CN110970035B (zh) 单机语音识别方法、装置及计算机可读存储介质
CN112435688A (zh) 音频识别方法、服务器及存储介质
CN111768771B (zh) 用于唤醒电子设备的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant