CN111201569A - 电子装置及其控制方法 - Google Patents

电子装置及其控制方法 Download PDF

Info

Publication number
CN111201569A
CN111201569A CN201880066283.6A CN201880066283A CN111201569A CN 111201569 A CN111201569 A CN 111201569A CN 201880066283 A CN201880066283 A CN 201880066283A CN 111201569 A CN111201569 A CN 111201569A
Authority
CN
China
Prior art keywords
spectrogram
cnn
filter
frequency band
audio signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201880066283.6A
Other languages
English (en)
Other versions
CN111201569B (zh
Inventor
朱基岘
A.波洛夫
郑钟勋
成昊相
吴殷美
柳宗烨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Samsung Electronics Co Ltd
Original Assignee
Samsung Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Samsung Electronics Co Ltd filed Critical Samsung Electronics Co Ltd
Publication of CN111201569A publication Critical patent/CN111201569A/zh
Application granted granted Critical
Publication of CN111201569B publication Critical patent/CN111201569B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/0017Lossless audio signal coding; Perfect reconstruction of coded audio signal by transmission of coding error
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band

Abstract

本文公开了一种电子装置。所述电子装置包括:存储器,其用于存储分别在多个卷积神经网络(CNN)中训练的多个滤波器;以及处理器,其配置成获取对应于受损音频信号的第一频谱图,将所述第一频谱图输入到对应于每个频带的CNN,以分别应用在所述多个CNN中训练的所述多个滤波器,通过合并其中应用了所述多个滤波器的所述CNN的输出值来获取第二频谱图,以及获取基于所述第二频谱图重构的音频信号。

Description

电子装置及其控制方法
技术领域
本公开涉及一种电子装置及其控制方法,并且更具体地,涉及一种能够重构音频的声音质量的电子装置及其控制方法。
背景技术
人工智能(AI)系统是一种实现人类级别智能的计算机系统,更是一种机器学习、判断和变得智能的系统,并且不同于现有的基于规则的智能系统。随着人工智能系统使用的改进,可以更准确地执行识别率和对用户喜好的理解或预测。如此,现有的基于规则的智能系统正在被基于深度学习的AI系统代替。
AI技术包括机器学习(例如,深度学习)和利用机器学习的基本技术。
机器学习是能够分类或学习输入数据特征的算法技术。元素技术(elementtechnology)是使用机器学习算法(诸如深度学习)的技术。机器学习由诸如语言理解、视觉理解、推理、预测、知识表示、运动控制等技术领域组成。
其中应用人工智能技术的各个领域如下所示。语言理解是用于识别、应用和/或处理人类的语言或字符的技术,并且包括自然语言处理、机器翻译、对话系统、查询和应答、语音识别或合成等等。视觉理解是用于如人类视觉一样识别和处理对象的技术,包括对象识别、对象跟踪、图像搜索、人类识别、场景理解、空间理解、图像改进等等。推断预测是用于判断以及逻辑推断和预测信息的技术,包括基于知识和基于概率的推断、优化预测、基于偏好的计划、推荐等等。知识表示是用于将人类经验信息自动化为知识数据的技术,包括知识构建(数据生成或分类)、知识管理(数据利用)等等。运动控制是用于控制车辆的自主运行和机器人的运动的技术,包括运动控制(导航、碰撞、驾驶)、操作控制(行为控制)等等。
随着硬件技术和计算机能力的发展使得大数据收集和存储成为可能,并且用于对其进行分析的技术变得更加智能并加速发展,近来已经对机器学习进行了积极的研究,机器学习是一种能够像人一样识别对象并理解信息的算法。特别地,在机器学习技术领域,已经使用神经网络对自主学习方案中的深度学习进行了积极的研究。
神经网络是一种算法,其用于通过将激活函数与通过将多个输入乘以权重获得的和的特定边界值进行比较来确定最终输出,此算法基于积极模仿人脑功能的意图并且通常由多个层构成。代表性示例包括广泛用于图像识别的卷积神经网络(CNN)、广泛用于语音识别的递归神经网络(RNN)等。
本公开提供了一种使用神经网络学习音频数据并重构受损音频数据的方法。当压缩或传输音频信号时,为了实现有效压缩或传输,某些频带的音频信号可能会丢失。与丢失之前的音频信号相比,其中丢失了某个频带中的数据的音频信号可能已经降低了音质或改变了音调。
汽车是其中主要消费音乐的典型场所,但是由于压缩/降级声源的广泛使用,用户不得不收听音质普遍降级的音乐。
因此,如果要将包括丢失频带的音频信号重现为接近具有高音质的原始声音,则需要有效地重构丢失频带中的音频信号。
发明内容
技术问题
本公开提供了一种电子装置及其控制方法,其中在该电子装置中执行有效的重构,使得用户即使在压缩或降级的声源中也可以享受高质量的声音。
技术方案
根据一个实施例的电子装置包括:存储器,其用于存储分别在多个卷积神经网络(CNN)中训练的多个滤波器;以及处理器,其配置成获取对应于受损音频信号的第一频谱图,将第一频谱图输入到对应于每个频带的CNN,以分别应用在多个CNN中训练的多个滤波器,通过合并其中应用了多个滤波器的CNN的输出值来获取第二频谱图,以及获取基于第二频谱图重构的音频信号。
多个CNN包括其中输入第一频带的第一频谱图的第一CNN和其中输入第二频带的第一频谱图的第二CNN,多个滤波器包括在第一CNN中训练的第一滤波器和第二滤波器以及在第二CNN中训练的第三滤波器和第四滤波器,可以基于第一频带训练第一滤波器和第三滤波器并且基于第二频带训练第二滤波器和第四滤波器,并且处理器配置成通过合并其中应用了第一滤波器的第一CNN的输出值和其中应用了第三滤波器的第二CNN的输出值来获取对应于第一频带的第二频谱图,以及通过合并其中应用了第二滤波器的第一CNN的输出值和其中应用了第四滤波器的第二CNN的输出值来获取对应于第二频带的第二频谱图。
处理器配置成以帧为单位识别第一频谱图,以预定数量对当前帧和前一帧进行分组来将分组后的帧输入到对应于每个频带的CNN中,并通过分别合并CNN的输出值来获取重构的当前帧。
多个CNN可以包括在第一CNN层中,并且处理器配置成通过将第一CNN层的输出值输入到包括多个其它CNN的第二CNN层来获取第二频谱图,并且包括在第二CNN层中的滤波器的尺寸不同于包括在第一CNN层中的滤波器的尺寸。
处理器配置成通过将第一频谱图分别按照其中应用多个滤波器的频带输入到sigmoid门,并且通过将从所述sigmoid门输出的第一频谱图按照频带合并来获取第二频谱图。
电子装置还可以包括输入器,并且处理器配置成基于时间和频率将通过输入器输入的受损音频信号转换成第一频谱图,并且通过基于时间和幅度将第二频谱图逆转换成音频信号来获取重构的音频信号。
处理器配置成通过获取第一频谱图中的幅度分量并通过频带输入到相应的CNN来获取补偿幅度分量,以及通过组合第一频谱图的相位分量和补偿幅度分量来获取第二频谱图。
处理器配置成将第一频谱图的频带中大于或等于预定幅度的频带输入到相应的CNN。
处理器配置成通过频带将第一频谱图归一化并输入到相应的CNN,对第二频谱图进行去归一化,以及基于去归一化的第二频谱图获取重构的音频信号。
根据一个实施例,一种控制电子装置的方法包括:获取对应于受损音频信号的第一频谱图,将第一频谱图输入到对应于每个频带的CNN,将分别在对应于每个频带的CNN中训练的多个滤波器应用于输入的第一频谱图,通过合并其中应用了多个滤波器的CNN的输出值来获取第二频谱图,以及获取基于第二频谱图重构的音频信号。
多个CNN可以包括其中输入第一频带的第一频谱图的第一CNN和其中输入第二频带的第一频谱图的第二CNN,多个滤波器可以包括在第一CNN中训练的第一滤波器和第二滤波器以及在第二CNN中训练的第三滤波器和第四滤波器,可以基于第一频带训练第一滤波器和第三滤波器并且基于第二频带训练第二滤波器和第四滤波器,获取第二频谱图可以包括:通过合并其中应用了第一滤波器的第一CNN的输出值和其中应用了第三滤波器的第二CNN的输出值来获取对应于第一频带的第二频谱图,以及通过合并其中应用了第二滤波器的第一CNN的输出值和其中应用了第四滤波器的第二CNN的输出值来获取对应于第二频带的第二频谱图。
输入可以包括以帧为单位识别第一频谱图,以预定数量对当前帧和前一帧进行分组来将分组后的帧输入到对应于每个频带的CNN中,并且获取第二频谱图可以包括通过分别合并CNN的输出值来获取重构的当前帧。
多个CNN可以包括在第一CNN层中,并且获取第二频谱图可以包括通过将第一CNN层的输出值输入到包括多个其它CNN的第二CNN层来获取第二频谱图,并且其中包括在第二CNN层中的滤波器的尺寸不同于包括在第一CNN层中的滤波器的尺寸。
获取第二频谱图可以包括通过将第一频谱图分别按照其中应用多个滤波器的频带输入到sigmoid门,以及通过将从所述sigmoid门输出的第一频谱图按照频带合并来获取第二频谱图。
控制方法可以包括接收受损音频信号,基于时间和频率将输入音频信号转换成第一频谱图,以及通过基于时间和幅度将第二频谱图逆转换成音频信号来获取重构的音频信号。
输入可以包括获取第一频谱图中的幅度分量,并通过频带输入到相应的CNN中,并且获取第二频谱图可以包括通过将第一频谱图的相位分量与CNN补偿的幅度分量进行组合来获取第二频谱图。
输入可以包括将第一频谱图的频带中大于或等于预定幅度的频带输入到相应的CNN。
方法还可以包括通过频带将第一频谱图归一化并输入到相应的CNN,对第二频谱图进行去归一化,以及基于去归一化的第二频谱图获取重构的音频信号。
一种非暂态性计算机可读介质,其中存储有由电子装置的处理器执行的计算机指令以执行方法,该方法包括:获取对应于受损音频信号的第一频谱图,将第一频谱图输入到对应于每个频带的卷积神经网络(CNN),将分别在对应于每个频带的CNN中训练的多个滤波器应用于输入的第一频谱图,通过合并其中应用了多个滤波器的CNN的输出值来获取第二频谱图,以及获取基于第二频谱图重构的音频信号。
发明效果
根据各种实施例,即使由于压缩而降级的声源也可以使得用户能够享受原始声音级别的声音,并且可以减少由于高带宽数据传输而造成的无线电资源浪费。
附图说明
图1是简要地示出根据实施例的电子装置的配置的框图;
图2是示出根据实施例的受损音频信号的频谱图的视图;
图3是示出根据实施例将受损音频信号转换成频谱图格式的过程的视图;
图4是示出根据实施例将受损音频信号的频谱图通过每个频带的数据划分的视图;
图5是示出根据实施例使用CNN重构受损音频信号的方法的视图;
图6和图7是示出根据另一个实施例使用CNN重构受损音频的方法的视图;
图8是示出根据实施例的设计用于重构受损音频信号的CNN的方法的视图;以及
图9是描述根据实施例的用于控制电子装置的方法的流程图。
具体实施方式
在指定实施例之前,将描述本公开和附图的起草方法。
本说明书和权利要求中使用的术语是考虑到本公开的各种实施例的功能而标识的一般术语。然而,这些术语可以根据相关领域技术人员的意图、法律或技术解释、新技术的出现等等而变。另外,可以存在由申请人任意标识的一些术语。除非存在术语的具体定义,否则可以基于整体内容和相关领域技术人员的技术常识来解释术语。
此外,相似的附图标记指示贯穿说明书的基本上执行相同功能的相似组件。为便于描述和理解,不同的实施例中使用并描述相同的附图标记或符号。换句话说,尽管具有相同附图标记的元件在多个图中全部示出,但多个图并不意味着一个实施例。
诸如“第一”、“第二”等术语可以用于描述各种元件,但是元件不应受这些术语的限制。术语仅用于区分不同元件的目的。例如,与序数相关联的元件不应受数字顺序或使用顺序限制。如果必要,各序数可以彼此替代。
除非另外说明,否则单数措辞包括复数措辞。应理解,诸如“包括(comprise)”、“包含(include)”或“由……组成(consist of)”的术语在本文中用来指定存在特性、数字、步骤、操作、元件、组件或其组合,并且不排除存在其他特性、数字、步骤、操作、元件、组件或其组合中的一个或多个或者添加特性、数字、步骤、操作、元件、组件或其组合中的一个或多个的可能性。
诸如“模块”、“单元”、“部分”等术语用来指代执行至少一个功能或操作的元件,并且此类元件可以实施为硬件或软件或者硬件和软件的组合。此外,除了多个“模块”、“单元”、“部分”等中的每一个需要在单独硬件中实现的情况以外,组件可以集成在至少一个模块或芯片中并且可以在至少一个处理器(未示出)中实现。
另外,当任何部件连接到另一个部件时,这包括直接连接和通过另一个介质的间接连接。此外,当某一部分包括某一元件时,除非指明相反的情况,否则这意味着可以另外包括另一个元件,而不是排除另一个元件。
在下文中,将参考附图更详细地描述实施例。
图1是简要地示出根据实施例的电子装置的配置的框图。
参考图1,根据实施例的电子装置100包括存储器110和处理器120。
电子装置100可以实现为电子装置,诸如智能手机、平板个人计算机(PC)、汽车音频、诸如MP3播放器的音频专用播放器、个人数字助理(PDA)等。电子装置100可以实现为能够再现音频的各种电子装置。
存储器110可以存储多个卷积神经网络(CNN)模型和在多个CNN模型的每一个模型中训练的多个滤波器。
CNN模型可以设计成在计算机上模拟人脑结构,并且可以包括模拟人类神经网络的神经元并具有权重的多个网络模式。多个网络节点可以各自建立连接关系,使得神经元模拟通过突触(synapse)发送和接收信号的突触活动。在学习CNN模型时,多个网络节点位于不同的深度(或层)处,并且可以根据卷积连接关系交换数据。例如,除了CNN之外,学习模型可以包括递归神经网络(RNN)和双向递归深层神经网络(BRDNN),但不限于此。
过滤器是具有权重的掩码,其定义为数据矩阵,并且可以称之为窗口或内核。
例如,可以将滤波器应用于输入到CNN的输入数据,并且可以将通过将输入数据分别乘以滤波器而获得的值的总和(卷积运算)确定为输出数据(特征映射)。可以通过多个过滤器将输入数据提取成多个数据,并且可以根据过滤器的数量导出多个特征映射。可以由形成多个层的多个CNN重复进行此种卷积操作。
如上所述,通过组合能够提取不同特征的多个滤波器并将这些滤波器应用到输入数据中,可以确定输入的原始数据包括哪个特征。
每个层可能具有多个CNN,并且可以单独存储在每个CNN中训练或学习的滤波器。
处理器120配置成控制电子装置100的整体操作。处理器120配置成获取对应于受损音频信号的频谱图,并且通过将在多个CNN中训练的多个滤波器应用于所获取的频谱图来输出重构的音频信号。
具体地,处理器120获取对应于受损音频信号的第一频谱图。如图2所示,处理器120可以将受损音频信号的波形转换成由时间和频率表示的第一频谱图。第一频谱图表示受损音频信号的频率和幅度随时间的变化。
处理器120可以基于修改的离散余弦变换(MDCT)和修改的离散正弦变换(MDST)执行受损音频信号的变换,并且可以使用正交镜像滤波器(QMF)将受损音频信号表示为频谱图数据。
图3的(a)和(b)示出了音频信号(原始声音)被损坏之前的频谱图和由于压缩等原因而受损的音频信号的频谱图。
如图3的(b)所示,压缩音频包括由于压缩引起的信号失真,诸如前回声(前向回声)和后回声、瞬时失真、谐波失真、量化噪声和其它。特别地,经常在高频区域产生这些信号。
处理器120将第一频谱图输入到每个频带的相应的CNN。然而,考虑到CNN和音频信号的特征,处理器120可以从第一频谱图中提取幅度分量和相位分量,并且仅将提取的幅度分量输入到每个频带的相应的CNN。也即,受损音频信号的重构是相对于幅度进行的,并且可以原样使用受损音频信号的相位。
处理器120可以基于频率和时间使用CNN(频率-时间相关的CNN(FTD-CNN))来执行压缩音频的幅度分量的重构。
图4是示出根据实施例将受损音频信号的频谱图通过每个频带的数据划分的视图。
处理器120可以通过频带(第一频带到第N频带)划分预定时区的第一频谱图,以预定时间间隔的帧单位识别第一频谱图,并且通过帧单位将第一频谱图划分为第一帧到第K帧。也即,将第一帧到第K帧分组为输入到CNN的单位,并且一个组可以形成K个时隙。这里,第一频谱图的第K帧对应于要重构的当前帧。
处理器120可以对第一频谱图的整个频带的幅度分量执行重构,或者可以将第一频谱图的频带中仅与预定幅度以上的频带(高频带)相对应的数据输入到CNN,并且将与预定幅度以下的频带(低频带)相对应的数据保持不重构。
处理器120可以对于每个频带相对于输入到每个CNN的第一频谱图应用存储在存储器110中的多个滤波器,并且通过合并其中应用了多个滤波器的每个CNN的输出值来获取第二频谱图。
处理器120基于如上所示获取的第二频谱图获取重构的音频信号。
图5是示出根据实施例使用CNN重构受损音频信号的方法的视图。
如图5所示,在划分的频带中,对应于第一频带到第k频带的频谱图的数据可以分别输入到形成第一层的第一CNN到第k CNN的每一个CNN。
也即,第一频带的频谱图输入到第一CNN,并由对应于第一CNN的预训练滤波器11至1K进行滤波。类似地,第二频带的频谱图输入到第二CNN,并由对应于第二CNN的预训练滤波器21至2K进行滤波。通过这个过程,第K频带的频谱图输入到第K CNN,并由对应于第KCNN的预训练滤波器K0至KK进行滤波。
如上所述,在每个CNN中,将对应于划分频带的数量(K)的滤波器的数量应用于每个频带的频谱图。这里,每个CNN的滤波器11、21至K1是基于第一频带训练的滤波器,以及滤波器12、22至K2是基于第二频带训练的滤波器。类似地,每个CNN的滤波器1K、2K至KK指的是基于第K频带训练的滤波器。此外,每个过滤器具有相同的尺寸。
可以基于整个频带的结果来执行滤波器的学习。例如,通过将11、21…、和K1的结果相加而生成的第一频带的频谱图和组合通过将1K、2K、和KK的结果相加而生成的第K频带的频谱图的结果进行组合,可以确定滤波器值。如果以这种方式确定滤波器值,则可以在时间轴上考虑相邻频谱,并且可以考虑整个频带来执行信号生成。因此,根据实施例,可以考虑全局频率关系来处理本地时间关系。
虽然在附图中省略,但是可以通过多个层执行过滤过程,诸如第二层和第三层,其方式与第一层相同。也即,通过堆叠多个层来配置最终网络,可以基于整个层的结果在最小化期望目标频谱和处理频谱之间的误差的方向上训练预定义滤波器中的每个预定义滤波器。
处理器120可以通过合并输出值来获取对应于第一频带的第二频谱图,其中在输出值中,通过基于第一频带训练的滤波器11到K1对每个CNN中的第一频带到第K频带的频谱图进行滤波。
类似地,处理器120可以通过合并输出值来获取对应于第二频带的第二频谱图,其中在输出值中,通过由第二频带训练的滤波器12到K2对每个CNN中的第一频带到第K频带的频谱图进行滤波。
处理器120可以通过合并输出值来获取对应于第K频带的第二频谱图,其中在输出值中,通过基于第K频带训练的滤波器1K至KK对每个CNN中的第一频带到第K频带的频谱图进行滤波。
处理器120可以相应地获取对应于整个频带的第二频谱图。
根据实施例,通过对第一频谱图执行填充,第二频谱图可以具有与第一频谱图相同的幅度。
由于省略了填充操作,第二频谱图可以具有比第一频谱图更小的幅度。例如,如果第一频谱图的幅度是8,也即,当第一频谱图由8个帧组成时,如果滤波器的大小是2,则第二频谱图的幅度变成“7”。如果应用了填充,则第二频谱图的幅度保持为“8”。
如图6所示,可以将sigmoid函数应用于从多个CNN的每个层输出的结果值或者从最终层输出的结果值(特征映射)。为此目的,如图6所示,可以附加地包括sigmoid门,其中由每个滤波器过滤的输出值被输入到每个层或最终层中的每个CNN的末端。sigmoid门可以设置在每个端子处,其中输出值由应用在多个层的每个CNN处的滤波器通过该端子输出。
根据图7的另一个实施例,可以将L个滤波器应用于每个频带的频谱图,而不是在每个CNN中划分的K个频带。在这种情况下,输出的第二频谱图可以是其中频率扩展到L频带的数据。
图8是示出根据实施例的设计用于重构受损音频信号的CNN的方法的视图。
如图8所示,处理器120对受损音频信号的频谱图(第一频谱图)执行归一化,并提取其中对其执行归一化的第一频谱图中的幅度分量。处理器120可以将对应于提取的第一频谱图的幅度分量的输入数据输入到由至少一个CNN组成的多个CNN层中。
根据图8,输入数据可以通过多个CNN层。多个CNN层中的第一层81和第二层82通过填充保持输入数据的幅度,以及第三层83可以将通过第二层82的输入数据的幅度减少到6。第四层84可以将通过第三层83的输入数据的大小减小到4。第五层85可以将通过第四层84的输入数据的大小减小到2,以及第六层86可以将通过第五层85的输入数据的大小减小到1。
也即,由多个CNN层应用于输入数据的滤波器的大寸彼此不同,并且多个CNN层可以设置成使得大寸为1的输出数据最终被输出。
处理器120可以对通过多个CNN层的输出数据进行去归一化,以获取对应于幅度分量的输入数据的重构数据。当对输入数据执行归一化时,处理器120可以使用存储的归一化信息对输出数据执行去归一化。
图9是描述根据实施例的用于控制电子装置的方法的流程图。
在操作S910中,获取对应于受损音频信号的第一频谱图。可以输入受损音频信号,并且可以基于时间和频率将输入的音频信号转换成第一频谱图。
此后,在操作S920中,对于每个频带,将第一频谱图输入到相应的CNN。以帧为单位识别第一频谱图,并且当前帧和预定数量的先前帧被分组并输入到每个频带的相应的CNN。此外,可以在第一频谱图中获取幅度分量,并将其输入到每个频带的相应的CNN。可以将第一频谱图的频带中大于或等于预定幅度的频带输入到相应的CNN。
在操作S930中,将在CNN中对应于每个频带的每个CNN中训练的多个滤波器应用于输入的第一频谱图。
在操作S940中,合并其中应用了多个滤波器的每个CNN的输出值以获取第二频谱图。此时,可以合并每个CNN的输出值以获取重构的当前帧。根据实施例,将其中应用了多个滤波器的每个频带的第一频谱图输入到sigmoid门,并且可以合并从sigmoid门输出的每个频带的第一频谱图以获取第二频谱图。也可以通过组合第一频谱图的相位分量和由CNN补偿的幅度分量获取第二频谱图。
在操作S950中,基于第二频谱图获取重构的音频信号。此时,可以基于时间和幅度将第二频谱图逆变换成音频信号,以获取重构的音频信号。
根据如上所述的各种实施例,即使由于压缩而降级的声源也可以使得用户能够享受原始声音级别的声音,并且可以减少由于高带宽数据传输而造成的无线电资源浪费。因此,可以充分利用用户拥有的音频设备。
根据上述各种实施例的控制方法可以实现为程序并存储在各种记录介质中。也即,可以以存储在记录介质中的状态使用计算机程序,计算机程序可以由各种处理器处理以执行上述各种控制方法。
作为示例,可以提供一种在其中存储程序的非暂态性计算机可读介质,该程序用于执行以下步骤:获取对应于受损音频信号的第一频谱图,针对每个频带将第一频谱图输入到对应的CNN,应用在CNN中的对应于输入的第一频谱图中的每个频带的每个CNN中训练的多个滤波器,合并其中应用了多个滤波器的每个CNN的输出值以获取第二频谱图,以及基于第二频谱图获取重构的音频信号。
非暂态性计算机可读介质是指半永久性地存储数据而非在很短时间内存储数据的介质,诸如,寄存器、高速缓存器、存储器等,并且可由设备读取。上述各种应用或程序可以存储在非暂态性计算机可读介质中,例如,光盘(CD)、数字多功能盘(DVD)、硬盘、蓝光光盘、通用串行总线(USB)、存储卡、只读存储器(ROM)和其它,并且可以提供所述应用或程序。
虽然已参考本公开的各种实施例示出并描述本公开,但是本领域技术人员将理解,在不脱离如由以下权利要求和其等效物所限定的本公开的精神和范围的情况下,可以在其中对形式和细节进行各种改变。

Claims (15)

1.一种电子装置,其包括:
存储器,其用于存储分别在多个卷积神经网络CNN中训练的多个滤波器;以及
处理器,其配置成:
获取对应于受损音频信号的第一频谱图,
将所述第一频谱图输入到对应于每个频带的CNN,以分别应用在所述多个CNN中训练的所述多个滤波器,
通过合并其中应用了所述多个滤波器的CNN的输出值来获取第二频谱图,以及
获取基于所述第二频谱图重构的音频信号。
2.如权利要求1所述的电子装置,其中
所述多个CNN包括第一CNN和第二CNN,其中第一频带的第一频谱图输入到所述第一CNN,以及第二频带的第一频谱图输入到所述第二CNN,
所述多个滤波器包括在所述第一CNN中训练的第一滤波器和第二滤波器以及在所述第二CNN中训练的第三滤波器和第四滤波器,
基于所述第一频带训练所述第一滤波器和所述第三滤波器,并且基于所述第二频带训练所述第二滤波器和所述第四滤波器,
所述处理器还配置成:
通过合并其中应用了所述第一滤波器的所述第一CNN的输出值和其中应用了所述第三滤波器的所述第二CNN的输出值来获取对应于所述第一频带的第二频谱图,并且通过合并其中应用了所述第二滤波器的所述第一CNN的输出值和其中应用了所述第四滤波器的所述第二CNN的输出值来获取对应于所述第二频带的第二频谱图。
3.如权利要求1所述的电子装置,其中所述处理器还配置成:
以帧为单位识别所述第一频谱图,
以预定数量对当前帧和前一帧进行分组,以将所述分组的帧输入到对应于每个频带的所述CNN,以及
通过分别合并所述CNN的输出值,获取重构的当前帧。
4.如权利要求1所述的电子装置,其中所述多个CNN包括在第一CNN层中,
其中所述处理器还配置成:
通过将所述第一CNN层的输出值输入到包括多个其它CNN的第二CNN层来获取所述第二频谱图,以及
包括在所述第二CNN层中的滤波器的尺寸不同于包括在所述第一CNN层中的滤波器的尺寸。
5.如权利要求1所述的电子装置,其中所述处理器还配置成通过将所述第一频谱图分别按照其中应用所述多个滤波器的频带输入到sigmoid门,并且通过将从所述sigmoid门输出的第一频谱图按照频带合并来获取所述第二频谱图。
6.如权利要求1所述的电子装置,其还包括:
输入器,
其中所述处理器还配置成:
基于时间和频率将通过所述输入器输入的所述受损音频信号转换为所述第一频谱图,以及
通过基于时间和幅度将所述第二频谱图逆变换成音频信号来获取所述重构的音频信号。
7.如权利要求6所述的电子装置,其中所述处理器还配置成通过获取所述第一频谱图中的幅度分量并按照频带输入到相应的CNN来获取补偿幅度分量,以及通过组合所述第一频谱图的相位分量和所述补偿幅度分量来获取所述第二频谱图。
8.如权利要求1所述的电子装置,其中所述处理器配置成将所述第一频谱图的频带中大于或等于预定幅度的频带输入到相应的CNN。
9.如权利要求1所述的电子装置,其中所述处理器还配置成按照频带将所述第一频谱图归一化并输入到相应的CNN,对所述第二频谱图进行去归一化,以及基于所述去归一化的第二频谱图获取所述重构的音频信号。
10.一种控制电子装置的方法,所述方法包括:
获取对应于受损音频信号的第一频谱图;
将所述第一频谱图输入到对应于每个频带的卷积神经网络CNN;
将分别在对应于每个频带的所述CNN中训练的多个滤波器应用于所述输入的第一频谱图;
通过合并其中应用了所述多个滤波器的CNN的输出值来获取第二频谱图;以及
获取基于所述第二频谱图重构的音频信号。
11.如权利要求10所述的方法,其中:
所述多个CNN包括第一CNN和第二CNN,其中第一频带的第一频谱图输入到所述第一CNN,以及第二频带的第一频谱图输入到所述第二CNN,
所述多个滤波器包括在所述第一CNN中训练的第一滤波器和第二滤波器以及在所述第二CNN中训练的第三滤波器和第四滤波器,
基于所述第一频带训练所述第一滤波器和所述第三滤波器,并且基于所述第二频带训练所述第二滤波器和所述第四滤波器,
所述第二频谱图的所述获取包括通过合并其中应用了所述第一滤波器的所述第一CNN的输出值和其中应用了所述第三滤波器的所述第二CNN的输出值来获取对应于所述第一频带的第二频谱图,并且通过合并其中应用了所述第二滤波器的所述第一CNN的输出值和其中应用了所述第四滤波器的所述第二CNN的输出值来获取对应于所述第二频带的第二频谱图。
12.如权利要求10所述的方法,其中所述输入包括以帧为单位识别所述第一频谱图,以预定数量对当前帧和前一帧进行分组,以将所述分组的帧输入到对应于每个频带的所述CNN,
其中所述第二频谱图的获取包括通过分别合并所述CNN的输出值来获取重构的当前帧。
13.如权利要求10所述的方法,其中所述多个CNN包括在第一CNN层中,以及
其中所述第二频谱图的获取包括通过将所述第一CNN层的输出值输入到包括多个其它CNN的第二CNN层来获取所述第二频谱图,以及
其中包括在所述第二CNN层中的滤波器的尺寸不同于包括在所述第一CNN层中的滤波器的尺寸。
14.如权利要求10所述的方法,其中所述第二频谱图的获取包括通过将所述第一频谱图分别按照其中应用所述多个滤波器的频带输入到sigmoid门,并且通过将从所述sigmoid门输出的第一频谱图按照频带合并来获取所述第二频谱图。
15.一种非暂态性计算机可读介质,其中存储有由电子装置的处理器执行的计算机指令以执行方法,所述方法包括:
获取对应于受损音频信号的第一频谱图;
将所述第一频谱图输入到对应于每个频带的卷积神经网络CNN;
将分别在对应于每个频带的所述CNN中训练的多个滤波器应用于所述输入的第一频谱图;
通过合并其中应用了所述多个滤波器的所述CNN的输出值来获取第二频谱图;以及
获取基于所述第二频谱图重构的音频信号。
CN201880066283.6A 2017-10-25 2018-07-19 电子装置及其控制方法 Active CN111201569B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201762576887P 2017-10-25 2017-10-25
US62/576,887 2017-10-25
PCT/KR2018/008149 WO2019083130A1 (ko) 2017-10-25 2018-07-19 전자 장치 및 그 제어 방법

Publications (2)

Publication Number Publication Date
CN111201569A true CN111201569A (zh) 2020-05-26
CN111201569B CN111201569B (zh) 2023-10-20

Family

ID=66247937

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201880066283.6A Active CN111201569B (zh) 2017-10-25 2018-07-19 电子装置及其控制方法

Country Status (5)

Country Link
US (1) US11282535B2 (zh)
EP (1) EP3664084B1 (zh)
KR (1) KR102648122B1 (zh)
CN (1) CN111201569B (zh)
WO (1) WO2019083130A1 (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020207593A1 (en) * 2019-04-11 2020-10-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio decoder, apparatus for determining a set of values defining characteristics of a filter, methods for providing a decoded audio representation, methods for determining a set of values defining characteristics of a filter and computer program
US11763932B2 (en) * 2019-11-14 2023-09-19 International Business Machines Corporation Classifying images using deep neural network with integrated acquisition information
CN113049922B (zh) * 2020-04-22 2022-11-15 青岛鼎信通讯股份有限公司 一种采用卷积神经网络的故障电弧信号检测方法
EP3917015B8 (en) * 2020-05-29 2024-04-24 Rohde & Schwarz GmbH & Co. KG Method for compressing digital signal data and signal compressor module
CN111723714B (zh) * 2020-06-10 2023-11-03 上海商汤智能科技有限公司 识别人脸图像真伪的方法、装置及介质
EP4229634A1 (en) * 2020-10-16 2023-08-23 Dolby Laboratories Licensing Corporation A general media neural network predictor and a generative model including such a predictor
US20220365799A1 (en) * 2021-05-17 2022-11-17 Iyo Inc. Using machine learning models to simulate performance of vacuum tube audio hardware
CN114070679B (zh) * 2021-10-25 2023-05-23 中国电子科技集团公司第二十九研究所 一种面向脉冲智能分类的频相特征分析方法
CN117257324B (zh) * 2023-11-22 2024-01-30 齐鲁工业大学(山东省科学院) 基于卷积神经网络和ecg信号的房颤检测方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1734555A (zh) * 2004-08-04 2006-02-15 三星电子株式会社 恢复音频数据的高频分量的方法和设备
CN102652336A (zh) * 2009-12-28 2012-08-29 三菱电机株式会社 声音信号复原装置以及声音信号复原方法
US20150066499A1 (en) * 2012-03-30 2015-03-05 Ohio State Innovation Foundation Monaural speech filter
US20160284346A1 (en) * 2015-03-27 2016-09-29 Qualcomm Incorporated Deep neural net based filter prediction for audio event classification and extraction
US20170039456A1 (en) * 2015-08-07 2017-02-09 Yahoo! Inc. BOOSTED DEEP CONVOLUTIONAL NEURAL NETWORKS (CNNs)
CN106847294A (zh) * 2017-01-17 2017-06-13 百度在线网络技术(北京)有限公司 基于人工智能的音频处理方法和装置
CN106952649A (zh) * 2017-05-14 2017-07-14 北京工业大学 基于卷积神经网络和频谱图的说话人识别方法
CN107077849A (zh) * 2014-11-07 2017-08-18 三星电子株式会社 用于恢复音频信号的方法和设备

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100397781C (zh) 2000-08-14 2008-06-25 清晰音频有限公司 声音增强系统
US7593535B2 (en) 2006-08-01 2009-09-22 Dts, Inc. Neural network filtering techniques for compensating linear and non-linear distortion of an audio transducer
KR101377135B1 (ko) 2007-01-02 2014-03-21 삼성전자주식회사 오디오 신호의 저주파 및 중주파 성분 보강 방법 및 그장치
KR20080072224A (ko) 2007-02-01 2008-08-06 삼성전자주식회사 오디오 부호화 및 복호화 장치와 그 방법
KR101456866B1 (ko) * 2007-10-12 2014-11-03 삼성전자주식회사 혼합 사운드로부터 목표 음원 신호를 추출하는 방법 및장치
KR101666465B1 (ko) 2010-07-22 2016-10-17 삼성전자주식회사 다채널 오디오 신호 부호화/복호화 장치 및 방법
KR20120072243A (ko) 2010-12-23 2012-07-03 한국전자통신연구원 음향/음성 인식을 위한 잡음 제거 장치 및 그 방법
US9037458B2 (en) 2011-02-23 2015-05-19 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for spatially selective audio augmentation
US9135920B2 (en) 2012-11-26 2015-09-15 Harman International Industries, Incorporated System for perceived enhancement and restoration of compressed audio signals
US20150162014A1 (en) 2013-12-06 2015-06-11 Qualcomm Incorporated Systems and methods for enhancing an audio signal
EP3105756A1 (en) 2014-02-14 2016-12-21 Derrick, Donald James System for audio analysis and perception enhancement
BR112017018145B1 (pt) * 2015-02-26 2023-11-28 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E. V Aparelho e método para processamento de um sinal de áudio para obter um sinal de áudio processado utilizando um envelope de domínio de tempo alvo
US9697826B2 (en) * 2015-03-27 2017-07-04 Google Inc. Processing multi-channel audio waveforms
US20170140260A1 (en) * 2015-11-17 2017-05-18 RCRDCLUB Corporation Content filtering with convolutional neural networks
DE102016219931A1 (de) * 2016-10-13 2018-04-19 Airbus Operations Gmbh System und Verfahren zum Entdecken von Radom-Schäden

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1734555A (zh) * 2004-08-04 2006-02-15 三星电子株式会社 恢复音频数据的高频分量的方法和设备
CN102652336A (zh) * 2009-12-28 2012-08-29 三菱电机株式会社 声音信号复原装置以及声音信号复原方法
US20150066499A1 (en) * 2012-03-30 2015-03-05 Ohio State Innovation Foundation Monaural speech filter
CN107077849A (zh) * 2014-11-07 2017-08-18 三星电子株式会社 用于恢复音频信号的方法和设备
US20160284346A1 (en) * 2015-03-27 2016-09-29 Qualcomm Incorporated Deep neural net based filter prediction for audio event classification and extraction
US20170039456A1 (en) * 2015-08-07 2017-02-09 Yahoo! Inc. BOOSTED DEEP CONVOLUTIONAL NEURAL NETWORKS (CNNs)
CN106847294A (zh) * 2017-01-17 2017-06-13 百度在线网络技术(北京)有限公司 基于人工智能的音频处理方法和装置
CN106952649A (zh) * 2017-05-14 2017-07-14 北京工业大学 基于卷积神经网络和频谱图的说话人识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
陈立维: "音频信号检测技术研究", no. 03, pages 136 - 141 *
高冲红;丛韫;郑义;侍孝一;童茜雯;徐欣铖;: "基于CNN的录音设备判别研究", 信息化研究, no. 02, pages 55 - 58 *

Also Published As

Publication number Publication date
US11282535B2 (en) 2022-03-22
KR102648122B1 (ko) 2024-03-19
WO2019083130A1 (ko) 2019-05-02
EP3664084A1 (en) 2020-06-10
CN111201569B (zh) 2023-10-20
EP3664084A4 (en) 2020-10-21
KR20200063100A (ko) 2020-06-04
EP3664084B1 (en) 2024-04-17
US20200342893A1 (en) 2020-10-29

Similar Documents

Publication Publication Date Title
CN111201569B (zh) 电子装置及其控制方法
CN110600017B (zh) 语音处理模型的训练方法、语音识别方法、系统及装置
Pascual et al. SEGAN: Speech enhancement generative adversarial network
Serizel et al. Acoustic features for environmental sound analysis
Abouzid et al. Signal speech reconstruction and noise removal using convolutional denoising audioencoders with neural deep learning
WO2016050725A1 (en) Method and apparatus for speech enhancement based on source separation
KR102026226B1 (ko) 딥러닝 기반 Variational Inference 모델을 이용한 신호 단위 특징 추출 방법 및 시스템
Rajeswari et al. Dysarthric speech recognition using variational mode decomposition and convolutional neural networks
Lim et al. Harmonic and percussive source separation using a convolutional auto encoder
Parekh et al. Listen to interpret: Post-hoc interpretability for audio networks with nmf
Yechuri et al. A nested U-net with efficient channel attention and D3Net for speech enhancement
Zhang et al. Discriminative frequency filter banks learning with neural networks
CN115116469B (zh) 特征表示的提取方法、装置、设备、介质及程序产品
Bellur et al. Feedback-driven sensory mapping adaptation for robust speech activity detection
CN115881157A (zh) 音频信号的处理方法及相关设备
Jannu et al. Multi-stage Progressive Learning-Based Speech Enhancement Using Time–Frequency Attentive Squeezed Temporal Convolutional Networks
CN113380268A (zh) 模型训练的方法、装置和语音信号的处理方法、装置
Gul et al. Single channel speech enhancement by colored spectrograms
Mashiana et al. Speech enhancement using residual convolutional neural network
CN114863939B (zh) 一种基于声音的大熊猫属性识别方法及系统
Hamsa et al. Dominant voiced speech segregation and noise reduction pre-processing module for hearing aids and speech processing applications
Returi et al. A method of speech signal analysis using multi-level wavelet transform
Kumar Efficient underdetermined speech signal separation using encompassed Hammersley-Clifford algorithm and hardware implementation
Wu Time-Frequency Feature Processing and Decomposition for Convolutional Neural Network Based Acoustic Scene Classification
CN116092465B (zh) 一种车载音频降噪方法、装置、存储介质和电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant