CN112750427B - 一种图像处理方法、装置及存储介质 - Google Patents

一种图像处理方法、装置及存储介质 Download PDF

Info

Publication number
CN112750427B
CN112750427B CN202010755371.6A CN202010755371A CN112750427B CN 112750427 B CN112750427 B CN 112750427B CN 202010755371 A CN202010755371 A CN 202010755371A CN 112750427 B CN112750427 B CN 112750427B
Authority
CN
China
Prior art keywords
image
time domain
domain position
frequency domain
frequency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010755371.6A
Other languages
English (en)
Other versions
CN112750427A (zh
Inventor
吴志勇
宋星辰
黄羿衡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Shenzhen International Graduate School of Tsinghua University
Original Assignee
Tencent Technology Shenzhen Co Ltd
Shenzhen International Graduate School of Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd, Shenzhen International Graduate School of Tsinghua University filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202010755371.6A priority Critical patent/CN112750427B/zh
Publication of CN112750427A publication Critical patent/CN112750427A/zh
Application granted granted Critical
Publication of CN112750427B publication Critical patent/CN112750427B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0224Processing in the time domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique

Abstract

本申请实施例提供一种图像处理方法、装置及存储介质,该方法包括:获取第一图像,所述第一图像包括至少一个时域特征和至少一个频域特征;所述第一图像根据待处理的第一语音数据得到;根据预设策略对所述第一图像进行更新,得到第二图像;其中,所述预设策略至少包括以下项之一:在时域上变换至少一个所述时域特征的时域位置;或者,在频域上变换至少一个所述频域特征的频域位置。本方案能够为训练模型提供丰富的、多样的训练数据,进而提高训练效果。

Description

一种图像处理方法、装置及存储介质
技术领域
本申请实施例涉及数据处理技术领域,尤其涉及一种图像处理方法、装置及存储介质。
背景技术
神经网络广泛应用于图像识别和文本分析等任务上,一般要基于大规模的数据对神经网络进行训练。为扩充训练数据,一般训练额外的神经网络模型(例如采用自编码器模型),使用该额外的神经网络模型合成新的语音数据,即将已有语音数据转换为具有相似结构的新语音数据,以扩充语音数据量。
在对现有技术的研究和实践过程中,本申请实施例的发明人发现,虽然对于图像分类任务,可以从互联网上下载、处理和标注数百万张图片和文档来构建数据集,但是对于语音类的数据而言,在收集环节(例如需要通过人工录制语音数据)、预处理环节上需要耗费较多资源且容易标注错。可见,现有的训练数据的扩充方案效率一般且扩充的丰富程度有限。
发明内容
本申请实施例提供了一种图像处理方法、装置及存储介质,能够为训练模型提供丰富的、多样的训练数据,进而提高训练效果。
第一方面中,本申请实施例提供一种图像处理方法,所述方法包括:
获取第一图像,所述第一图像包括至少一个时域特征和至少一个频域特征;
根据预设策略对所述第一图像进行更新,得到第二图像;
其中,所述预设策略至少包括以下项之一:
在时域上变换至少一个所述时域特征的时域位置;
或者,在频域上变换至少一个所述频域特征的频域位置。
一些实施方式中,所述根据预设策略对所述第一图像进行更新,得到第二图像,包括:
获取所述第一图像在时域上的第一时域长度;
获取第一时域位置、第二时域位置和第三时域位置;其中,所述第一时域位置为时域上进行时域位置变换的长度,所述第一时域位置小于预设时域变换长度;所述第二时域位置小于第一变换长度,所述第一变换长度根据所述第一时域长度与所述第一时域位置得到;所述第三时域位置根据所述第一时域长度、所述第一时域位置和第二时域位置得到;
将所述第一时域位置与所述第二时域位置之间的时域信号作为第一特征块,将所述第一时域位置与所述第三时域位置之间的时域信号作为第二特征块;
交换所述第一特征块与所述第二特征块在所述第一图像中的时域位置,得到第三图像。
一些实施方式中,所述第一时域长度为W,所述预设时域变换长度为W1,所述第一变换长度为W2;第一时域位置为ti,j,第二时域位置为ti,j+1,第三时域位置为ti,j+2
其中,i为第i次在时域上进行时域位置变换的操作,ti,j为在第i次中第j次获取的时域位置;
W1、W2、ti,j、ti,j+1、ti,j+2、i、j均为正整数,W2=W-2ti,j
0<ti,j≤W1,0<ti,j+1≤W-2ti,j,ti,j+ti,j+1<ti,j+2≤W-ti,j
一些实施方式中,所述根据预设策略对所述第一图像进行更新,得到第二图像,还包括:
获取所述第一图像在频域上的第一频率宽度;
获取第一频域位置、第二频域位置和第三频域位置;其中,所述第一频域位置为频域上进行频域位置变换的长度,所述第一频域位置小于预设频域变换宽度;所述第二宽度位置小于第一变换宽度,所述第二宽度位置根据所述第一频率宽度、所述第一频域位置和第二频域位置得到,所述第三宽度位置根据所述第一频率宽度、所述第一频域位置和第二频域位置得到;
将所述第一频域位置与所述第二频域位置之间的时域信号作为第二特征块,将所述第一时域位置与所述第三时域位置之间的时域信号作为第四特征块;
交换所述第三特征块与所述第四特征块在所述第一图像中的频域位置,得到第四图像。
一些实施方式中,所述第一频率宽度为H,所述预设频域变换宽度为H1,所述第一变换宽度为H2;第一频域位置为Fi,j,第二频域位置为Fi,j+1,第三频域位置为Fi,j+2
其中,i为第i次在频域上进行频域位置变换的操作,Fi,j为在第i次中第j次获取的频域位置;
H1、H2、Fi,j、Fi,j+1、Fi,j+2、i、j均为正整数,H2=H-2Fi,j
0<Fi,j≤H1,0<Fi,j+1≤H-2Fi,j,Fi,j+Fi,j+1<Fi,j+2≤H-Fi,j
一些实施方式中,所述获取第一图像之后,所述根据预设策略对所述第一图像进行更新,得到第二图像之前,所述方法还包括:
确定第一业务类型和第二业务类型,所述第一业务类型为第一图像应用的业务类型,所述第二业务类型为目标业务的业务类型;
根据所述第一业务类型和所述第二业务类型的相同点和不同点,以及所述第一图像,确定所述预设策略。
一些实施方式中,所述方法还包括:
获取所述第一图像与目标语谱图的第一相似度,所述目标语谱图为所述第三图像或所述第四图像;
当所述第一相似度高于第一阈值时,结束特征变换操作,将相似度高于第一阈值的所述目标语谱图作为所述第二图像。
一些实施方式中,所述根据预设策略对所述第一图像进行更新,得到第二图像之后,所述方法还包括:
以所述第一图像和所述第二图像作为训练数据,对预设模型进行训练,得到训练后的语音识别模型。
一些实施方式中,所述对预设模型进行训练之前,所述方法还包括:
将所述第一图像与历史语谱图进行匹配;
若所述第一图像与所述历史语谱图的相似度高于预设相似度,则丢弃所述第一图像。
一些实施方式中,所述方法还包括:
更新所述第一图像的数据结构,得到第五图像;
或者,更新所述第二图像的数据结构,得到第六图像。
一些实施方式中,所述获取第一图像之后,所述方法还包括:
确定图像处理方式,所述图像处理方式至少包括特征变换和数据结构更新中的一种。
一些实施方式中,所述根据预设策略对所述第一图像进行更新,得到第二图像之后,所述方法还包括:
以所述第一图像和所述第二图像作为训练数据,对预设模型进行训练,得到训练后的语音识别模型。
一些实施方式中,当所述目标图像为至少一个时,所述方法还包括:
根据业务类型、历史图像中的至少一项,从所述目标图像中去除无效图像。
第二方面中,本申请实施例提供一种图像处理装置,具有实现对应于上述第一方面提供的图像处理方法的功能。所述功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。硬件或软件包括一个或多个与上述功能相对应的模块,所述模块可以是软件和/或硬件。
一些实施方式中,所述图像处理装置包括:
获取模块,用于获取第一图像,所述第一图像包括至少一个时域特征和至少一个频域特征;
处理模块,用于根据预设策略对所述获取模块获取的所述第一图像进行更新,得到第二图像;
其中,所述预设策略至少包括以下项之一:
在时域上变换至少一个所述时域特征的时域位置;
或者,在频域上变换至少一个所述频域特征的频域位置。
本申请实施例又一方面提供了一种图像处理装置,其包括至少一个连接的处理器、存储器和输入输出单元,其中,所述存储器用于存储计算机程序,所述处理器用于调用所述存储器中的计算机程序来执行上述第一方面所述的方法。
本申请实施例又一方面提供了一种计算机可读存储介质,其包括指令,当其在计算机上运行时,使得计算机执行上述第一方面所述的方法。
根据本申请的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述第一方面、第一方面中的各种实施方式中提供的方法。
相较于现有技术,本申请实施例提供的方案中,对所述第一图像在时域上变换至少一个所述时域特征的时域位置,或者,在频域上变换至少一个所述频域特征的频域位置,因此,最终得到的第二图像是通过重组频域特征和时域特征的排列顺序来改变语谱图所表征的语义特征,以此来得到新的训练数据,不改变语谱图中的数据元素,因此,无论多少次重组,都不会导致语谱图中原有的元素缺失,因此,能够以较低代价扩充训练数据的同时,还不改变元素的数量、属性,也不丢失,能够为训练模型提供丰富的、多样的训练数据,进而提高训练效果。
附图说明
图1a为本申请实施例中基于第三方工具扩充训练数据的一种示意图;
图1b为本申请实施例中基于神经网络模型扩充训练数据的一种示意图;
图1c为本申请实施例中语音识别模型的一种结构示意图;
图1d为本申请实施例中扩充训练数据的一种示意图;
图2为本申请实施例图像处理方法的一种流程中示意图;
图3为本申请实施例第一语谱图的一种中示意图;
图4a为本申请实施例中特征变换的一种示意图;
图4b为本申请实施例中特征变换的一种示意图;
图4c为本申请实施例中特征变换的一种示意图;
图5a为本申请实施例中特征变换的一种示意图;
图5b为本申请实施例中特征变换的一种示意图;
图5c为本申请实施例中特征变换的一种示意图;
图5d为本申请实施例中特征变换的一种示意图;
图5e为本申请实施例中确定图像处理方式的一种示意图;
图6为本申请实施例中图像处理装置的一种结构示意图;
图7为本申请实施例中执行图像处理方法的实体设备的一种结构示意图;
图8为本申请实施例中服务器的一种结构示意图;
图9为本申请实施例中终端的一种结构示意图。
具体实施方式
本申请实施例的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序,例如第一图像和第二图像仅用于区别不同的图像,不代表是第一个图像和第二个图像,其他类似,不做赘述。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或模块的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或模块,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或模块,本申请实施例中所出现的模块的划分,仅仅是一种逻辑上的划分,实际应用中实现时可以有另外的划分方式,例如多个模块可以结合成或集成在另一个系统中,或一些特征可以忽略,或不执行,另外,所显示的或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,模块之间的间接耦合或通信连接可以是电性或其他类似的形式,本申请实施例中均不作限定。并且,作为分离部件说明的模块或子模块可以是也可以不是物理上的分离,可以是也可以不是物理模块,或者可以分布到多个电路模块中,可以根据实际的需要选择其中的部分或全部模块来实现本申请实施例方案的目的。
本申请实施例供了一种图像处理方法、装置及存储介质,可用于语音识别模型中对语谱图的数据扩充,还可以用于图像分类模型中的图像数据扩充。所有以图像形式作为输入的神经网络模型均可以参考基于本申请实施例中图像处理方法获取的扩充的数据。该方案可用于服务器侧或者终端设备侧。本申请实施例仅以服务器为例,服务器侧部署了图像处理装置。一些实施方式中,图像处理装置可通过神经网络模型实现,也可以通过第三方应用程序实现。
例如,以图像处理装置通过第三方应用程序实现为例,该第三方应用程序也可称作第三方工具,第三方工具为调整图像(例如语谱图)中数据元素的结构的程序文件,一个程序文件的大小小于一个模型文件的大小。如图1a所示的一种示意图。第三方工具对输入神经网络模型的训练数据a的语谱图进行特征变换,例如重组该语谱图中的时域特征和/或频域特征,得到新的训练数据b,然后将该训练数据b连同训练数据a一并输入神经网络模型,以对该神经网络模型进行训练。
又例如,以图像处理装置通过神经网络模型实现为例。图1b为神经网络模型的一种结构示意图。基于该图1b所示的神经网络模型对训练数据a的语谱图进行特征变换,并将特征变换得到的训练数据b作为神经网络模型的新输入。对于同一个图像(例如语谱图)而言,其在训练过程中可以有多种变体,理论上训练足够长时间时,该神经网络模型可以获取到所有可能的特征变换(包括时域特征变换和频域特征变换)情况。
本申请实施例中,训练数据a和训练数据b都可以作为神经网络模型的输入,也可仅将训练数据b作为神经网络模型的输入。本申请实施例对训练数据a到训练数据b的特征变换次数和特征变换策略不作限定。训练数据a可为初始的语音数据,也可为经过至少一次特征变换后的数据,也可为经过自编码器进行数据结构变换后的数据,本申请实施例均不对此作限定。如图1c所示的一种扩充训练数据的示意图,即将初始的训练数据逐步变换得到不同的训练数据。例如图1c中的(1)所示,将初始的训练数据变换为训练数据1、训练数据2…以及训练数据n,n为正整数。
例如图1c中的(2)所示,将初始的训练数据变换为训练数据1、训练数据2和训练数据3,然后将训练数据3经过n-3次变换,得到训练数据n。
例如图1c中的(3)所示,将初始的训练数据变换为训练数据1,然后将训练数据3经过n-2次变换,得到训练数据n。
其中,语谱图指对初始的语音数据(如录音文件中记录的语音波形)通过短时傅里叶变换所得到的二维特征,该二维特征可以可视化为一种图像,其中图像的横轴为时间轴,纵轴为频率轴,因此,语谱图包含时域特征和频域特征。
需要特别说明的是,本申请实施例涉及的语音识别模型可以是任意一种模型,如卷积神经网络(CNN),循环神经网络(RNN)等,本申请实施例不对神经网络模型的类型作限定。例如图1d所示的语音识别模型的一种结构示意图。
服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。
终端设备可以是指向用户提供语音和/或数据连通性的设备,具有无线连接功能的手持式设备、或连接到无线调制解调器的其他处理设备。例如移动电话(或称为“蜂窝”电话)和具有移动终端的计算机,例如,可以是便携式、袖珍式、手持式、计算机内置的或者车载的移动装置,它们与无线接入网交换语音和/或数据。例如,个人通信业务(英文全称:Personal Communication Service,英文简称:PCS)电话、无绳电话、会话发起协议(SIP)话机、无线本地环路(Wireless Local Loop,英文简称:WLL)站、个人数字助理(英文全称:Personal Digital Assistant,英文简称:PDA)等设备。
本申请实施例主要提供以下技术方案:
对语谱图进行数据元素(即至少一个数据元素能够组成时域特征和频域特征中的至少一项)上的重组,即通过重组数据元素的排列顺序来改变语谱图所表征的语义特征,以此来得到新的训练数据,不改变语谱图中的数据元素,因此,无论多少次重组,都不会导致语谱图中原有的数据元素缺失,因此,能够以较低代价扩充训练数据的同时,还不改变数据元素的数量、属性,也不丢失,能够为训练模型提供丰富的训练数据,进而提高训练效果。
参照图2,以下介绍本申请实施例所提供的一种图像处理方法,该方法可由图像处理装置执行,本申请实施例以单次对第一图像进行数据变换(包括时域变换或频域变换)为例,多次循环的数据变换可参考单次的数据变换,本申请实施例不对数据变换的次数作限定。本申请实施例包括:
201、获取第一图像。
其中,所述第一图像包括至少一个时域特征和至少一个频域特征。第一图像可为图像分类模型的训练数据,或者为语音识别模型的训练数据。例如,第一图像可为第一语谱图,当第一图像为第一语谱图时,所述第一图像根据待处理的第一语音数据得到。本申请实施例中,第一语音数据为初始的语音数据,或者为经过更新语谱图后的语音数据。第一语音数据的来源本申请实施例不作限定。后续均以第一图像为语音识别模型的训练数据为例,第一图像为图像分类模型的训练数据的处理可参考对语音识别模型的训练数据的处理,不做赘述。
一些实施方式中,第一语谱图可参考图3所示的一种示意图。图3中,每个方块都是指语谱图中的一个数据元素,每个数据元素都具有时域、频域上的属性。至少一个数据元素能够组成至少一个时域特征和/或频域特征。
一些实施方式中,第一图像可以为初始的图像,也可以为经过至少一次时域变换或至少一次频域变换后的图像。第一语音数据可以为初始的语音数据,也可以为经过至少一次时域变换或至少一次频域变换后的语音数据。具体本申请实施例不对第一图像的状态作限定。
本申请实施例中的语谱图(例如第一语谱图、后文中的第二、第三和第四语谱图等)为梅尔标度滤波器组(Mel-scale Filter Bank,FBANK)特征,该特征表征语音信号中时间和频率之间的关系,是一种二维特征,可以将其视为一种W x H的二维图像,W为时间维度最大刻度(或者看作图像的宽度),H为频率维度最大刻度(或者看作图像的高度)。
202、根据预设策略对所述第一图像进行更新,得到第二图像。
其中,所述预设策略至少包括以下项之一:
在时域上变换至少一个所述时域特征的时域位置;
或者,在频域上变换至少一个所述频域特征的频域位置。
一些实施方式中,在根据预设策略对所述第一图像进行更新,得到第二图像之后,可以以所述第一图像和所述第二图像作为训练数据,对预设模型进行训练,得到训练后的语音识别模型。
本申请实施例中,对所述第一图像在时域上变换至少一个所述时域特征的时域位置,或者,在频域上变换至少一个所述频域特征的频域位置,因此,最终得到的第二图像是通过重组数据元素(包括频域特征和时域特征)的排列顺序来改变语谱图所表征的语义特征,以此来得到新的训练数据,不改变语谱图中的数据元素,因此,无论多少次重组,都不会导致语谱图中原有的元素缺失,因此,能够以较低代价扩充训练数据的同时,还不改变元素的数量、属性,也不丢失,能够为训练模型提供丰富的、多样的训练数据,进而提高训练效果。
可选的,在本申请实施例的一些实施例中,由于第一图像包括时域特征和频域特征,因此,在对第一图像进行更新时,可从时域变换和频域变换两方面来对所述第一图像进行更新。以下分别介绍:
一、对第一图像进行时域变换
具体来说,可根据以下操作得到第二图像:
(1)获取所述第一图像在时域上的第一时域长度。
其中,第一时域长度为所述第一图像在时域上的最大值,例如可为第一语谱图在时域上的最大长度。
(2)获取第一时域位置、第二时域位置和第三时域位置.
其中,所述第一时域位置为时域上进行时域位置变换的长度,所述第一时域位置小于预设时域变换长度;所述第二时域位置小于第一变换长度,所述第一变换长度根据所述第一时域长度与所述第一时域位置得到;所述第三时域位置根据所述第一时域长度、所述第一时域位置和第二时域位置得到。
其中,预设时域变换长度是指第一图像在时域上的最大变换长度。预设时域变换长度可为固定不变,如果需要在第一图像的基础上多次循环进行特征交换,那么每次的进行时域变换时的变换长度都是重新从[0,预设时域变换长度]中采样,即不同次进行时域特征变换的预设时域变换长度相同,而变换长度可能不同。
可以理解的是,时域位置是指语音数据在时域上的位置,两个时域位置之间的距离则是时域长度。
(3)将所述第一时域位置与所述第二时域位置之间的时域信号作为第一特征块,将所述第一时域位置与所述第三时域位置之间的时域信号作为第二特征块。
(4)交换所述第一特征块与所述第二特征块在所述第一图像中的时域位置,得到第三图像。
一些实施方式中,所述第一时域长度为W,所述预设时域变换长度为W1,所述第一变换长度为W2;第一时域位置为ti,j,第二时域位置为ti,j+1,第三时域位置为ti,j+2
其中,i为第i次在时域上进行时域位置变换的操作,ti,j为在第i次中第j次获取的时域位置;
W1、W2、ti,j、ti,j+1、ti,j+2、i、j均为正整数,W2=W-2ti,j
0<ti,j≤W1,0<ti,j+1≤W-2ti,j,ti,j+ti,j+1<ti,j+2≤W-ti,j
一些实施方式中,第一时域位置、第二时域位置和第三时域位置均为随机采样得到。下面以第一图像为第一语谱图为例说明:
先计算输入第一语谱图的长度W(时间维度最大值),设定时间维度最大交换长度W1。
然后在时域上进行特征块的交换:
a):从[0,W1]范围中随机采样得到ti,j,该ti,j值为本次交换特征块中特征块的长度。
b):从[0,W-2ti,j]中随机采样得到ti,j+1
c):从[ti,j+ti,j+1,W-ti,j]中随机采样得到ti,j+2
d):此时第ti,j+1列到第ti,j+1+ti,j-1列之间的特征形成第一特征块,第ti,j+2列到第ti,j+2+ti,j-1列之间的特征形成第二特征块,交换第一特征块和第二特征块的时域位置。
如图4a所示,设语谱图为X,X是一个二维实值矩阵。设W=7,H=4,W1=2,F=1。ti,j在[0,W1]中采样结果为2。
第一特征块的起始点ti,j+1在[0,W-2ti,j]中采样结果为1。
第二特征块的起始点ti,j+2在[ti,j+ti,j+1,W-ti,j]中采样结果为4。
则第ti,j+1列到第ti,j+1+ti,j-1列(这里-1是因为下标从0开始)之间的特征形成第一特征块(即第一列到第二列之间的块X[1:2,0:3]),第ti,j+2列到第ti,j+2+ti,j-1列之间的特征形成第二特征块(即第四列到第五列之间的特征块X[4:5,0:3])。
二、对第一图像进行频域变换
具体来说,可根据以下操作得到第二图像:
(1)获取所述第一图像在频域上的第一频率宽度。
其中,第一频率宽度为所述第一图像在频域上的最大值,例如可为第一语谱图在频域上的最大宽度。
(2)获取第一频域位置、第二频域位置和第三频域位置。
其中,所述第一频域位置为频域上进行频域位置变换的长度,所述第一频域位置小于预设频域变换宽度;所述第二宽度位置小于第一变换宽度,所述第二宽度位置根据所述第一频率宽度、所述第一频域位置和第二频域位置得到,所述第三宽度位置根据所述第一频率宽度、所述第一频域位置和第二频域位置得到。
可以理解的是,频域位置是指语音数据在时域上的位置,两个频域位置之间的距离则是频率宽度。
(3)将所述第一频域位置与所述第二频域位置之间的时域信号作为第二特征块,将所述第一时域位置与所述第三时域位置之间的时域信号作为第四特征块。
(4)交换所述第三特征块与所述第四特征块在所述第一图像中的频域位置,得到第四图像。
一些实施方式中,所述第一频率宽度为H,所述预设频域变换宽度为H1,所述第一变换宽度为H2;第一频域位置为Fi,j,第二频域位置为Fi,j+1,第三频域位置为Fi,j+2
其中,i为第i次在频域上进行频域位置变换的操作,Fi,j为在第i次中第j次获取的频域位置;
H1、H2、Fi,j、Fi,j+1、Fi,j+2、i、j均为正整数,H2=H-2Fi,j
0<Fi,j≤H1,0<Fi,j+1≤H-2Fi,j,Fi,j+Fi,j+1<Fi,j+2≤H-Fi,j
一些实施方式中,第一频域位置、第二频域位置和第三频域位置均为随机采样得到。下面举例说明:
a):从[0,H1]范围中随机采样得到Fi,j,该Fi,j为本次交换特征块中块的频率宽度。
b):从[0,H-2Fi,j]中随机采样得到Fi,j+1
c):从[Fi,j+1,H-Fi,j]中随机采样得到Fi,j+2
d):此时第Fi,j+1行到第Fi,j+1+Fi,j-1行之间的特征形成第三特征块,第Fi,j+2行到第Fi,j+2+Fi,j-1行之间的特征形成第四特征块,交换第三特征块和第四特征块。
如图4b所示,设语谱图为X,X是一个二维实值矩阵。设W=7,H=4,H1=2,F=1。
Fi,j在[0,F]中采样结果为1。
第一特征块的起始点Fi,j+1在[0,H-2Fi,j]中采样结果为1。
第二特征块的起始点Fi,j+2在[Fi,j+1+Fi,j,H-Fi,j]中采样结果为3。
则第Fi,j+1行到第Fi,j+1+Fi,j-1行(这里-1是因为下标从0开始)之间的特征形成第三特征块(即第一行形成的特征块X[0:6,1]),第Fi,j+2行到第Fi,j+2+Fi,j-1行之间的特征形成第四特征块(即第三行形成的特征块X[0:6,3])。
三、对第一图像依次进行时域变换和频域变换
对第一图像依次进行时域变换可参考图4a对应的实施例,对第一图像依次进行频域变换可参考图4b所对应的实施例。最终变换后的结果如图4c所示。
一些实施方式中,上述对各时域位置(例如第一时域位置、第二时域位置、第三时域位置)和频域位置(例如第一频域位置、第二频域位置和第三频域位置)进行随机采样时,随机采用可都服从连续型均匀分布,该连续型均匀分布的一种表达式如下:
其中[a,b]为采样取值范围,x为采样值且满足x为整数值,f(x)为采样值为x时的概率。该连续型均匀分布的表达式仅为一种示例,可在其基础上增、删或替换其中的任意参数、任意常量、或者其他变型,本申请实施例不对此作限定。
本申请实施例中,初始的语谱图、进行特征变换得到的新语谱图都可保存在数据库中。
本申请实施例中仅对第一图像进行时域特征变换或者频域特征变换,也可以并行、先后、交替等方式对第一图像进行至少一次时域特征变换和频域特征变换。本申请实施例不对进行时域特征变换或频域特征变换的次数、顺序作限定。
上述第三图像(例如第三语谱图)、)和上述第四图像(例如第四语谱图)可均为第一图像(例如第一语谱图)变换至第图像(例如第二语谱图)的中间产物,也可为第二图像,具体根据总变换次数、变换顺序来决定。以图像为语谱图为例,例如,只需要对第一语谱图进行一次时域特征变换,则第三语谱图为第二语谱图。又例如,只需要对第一语谱图进行一次频域特征变换,则第四语谱图为第二语谱图。又例如,先对第一语谱图进行一次时域特征变换,再对已进行时域特征的第一语谱图(即第三语谱图)进行一次频域特征变换,则第四语谱图为第二语谱图。
为便于理解,以下以具体应用场景为例说明本申请实施例中的图像处理方法。获取初始数据,选择神经网络模型1、神经网络模型2和神经网络模型3。神经网络模型3采用了本申请实施例的方案。分别采用现有技术和本申请实施例的方案对初始数据进行扩充,得到新训练数据。然后将新训练数据和初始数据均输入神经网络模型1、神经网络模型2和神经网络模型3进行训练。训练完成后,分别采用神经网络模型1、神经网络模型2和神经网络模型3进行语音识别。下表1为采用本申请实施例前后的语音识别准确率的一种对比示意表:
模型类型 神经网络模型1 神经网络模型2 神经网络模型3
初始数据 90.12 90.39 90.92
初始数据+新训练数据 91.41 92.15 92.4
表1
通过上表1可看出,第二行为神经网络模型1、神经网络模型2和神经网络模型3仅采用初始数据训练后进行语音识别的准确率,第三行为神经网络模型1、神经网络模型2和神经网络模型3采用初始数据和新训练数据训练后进行语音识别的准确率。由下表2可看出,各神经网络模型(包括神经网络模型1、神经网络模型2和神经网络模型3)基于初始数据进行语音识别的准确率均低于基于初始数据和新训练数据训练后进行语音识别的准确率。可见,本申请实施例的方法并不局限于神经网络模型的类型,可以适用于多种神经网络模型。
一些实施方式中,还可以对对每次特征变换后得到的语谱图进行去重操作,以免输入重复或过于相似的语谱图,这些重复或过于相似的语谱图对训练效果并不会带来叠加效果,因此,可以将特征变换得到的新语谱图输入神经网格模型之前,还可以采用下述方式进行去重:
可以将每次特征变换得到的新语谱图将数据库中已有的语谱图进行匹配,如果该新语谱图与数据库中的某个语谱图完全一致或者相似度高于预设相似度,则丢弃本次特征变换得到的新语谱图。
可选的,在本申请实施例的一些实施例中,为进一步丰富神经网络模型的训练数据,还可以在对图像进行特征变换(包括时域特征变换和/或频域特征变换)的基础上,对未进行特征变换的图像进行数据结构上的更新,或者对已进行特征变换的图像进行数据结构上的更新。例如,可以更新所述第一图像的数据结构,得到第五图像;或者,还可以更新所述第二图像的数据结构,得到第六图像。又或者,在得到第三图像后,对第三图像进行数据结构更新,得到一个新的图像作为神经网络模型的新输入。又或者,在得到第四图像后,对第四图像进行数据结构更新,得到一个新的图像作为神经网络模型的新输入。又或者,将得到的第五图像连同第一图像一起进行特征变换,得到新的图像。诸如此类,本申请实施例不做赘述。具体可参考图5a-图5d所示的示意图。
具体是否对每个未进行特征变换的图像进行数据结构上的更新,还是对每个已进行特征变换的图像进行数据结构上的更新,或者,对图像进行特征变换和数据结构的更新的先后顺序等,本申请实施例均不作限定。
一些实施方式中,为提供更加高效、便利的图像处理,在获取第一图像之后,还可以确定图像处理方式,然后基于图像处理方式去决策对第一图像的后续处理过程。其中,所述图像处理方式至少包括特征变换和数据结构更新中的一种。一些实施方式中,图像处理方式还可以包括特征变换和数据结构更新之间的执行顺序、执行次数和执行逻辑,也可包括时域特征变换和频域特征变换的执行顺序、执行次数和执行逻辑。
其中,图像处理方式可以是预先定义,也可以是根据当前的第一图像所表征的特征、业务需求、以及神经网络模型的训练精度等维度的信息进行动态生成。图像处理方式的确定也具体可结合图4a至图4c所示的示意图进行动态调整。本申请实施例不对此作限定。如图5a所示,图5a中揭示了图像处理方式的确定过程,图像处理方式的确定也具体可结合图4a至图4c所示的示意图进行动态调整。
可选的,在本申请的一些实施例中,当所述目标图像为至少一个时,所述方法还包括:
根据业务类型、历史图像中的至少一项,从所述目标图像中去除无效图像。其中,历史图像可为用于语音识别的语谱图,也可为用于图像分类的图像。
例如,当所述第三图像为至少一个时,可以根据业务类型、历史语谱图中的至少一项,从所述目标图像中去除无效图像;或者当所述第四图像为至少一个时,可以根据业务类型、历史语谱图中的至少一项,从所述目标图像中去除无效图像。
例如,可以提取目标图像的图像特征,并对这些图像特征进行语义分析,当分析结果与该神经网络模型所要处理的业务类型所需的训练数据偏差较大时,即可视为属于该业务类型的无效图像。例如,该神经网络模型是用于识别银行自助取款身份识别,但目标图像表征的意义则是政务身份识别。那么,就应该将该目标图像舍弃。
又例如,可以将该目标图像与历史图像进行匹配,若匹配度低于预设匹配度的比例高于预设比例,则可确定该目标图像为属于该业务类型的无效图像。
图1a至图5e中任一项所对应的实施例中所提及的任一技术特征也同样适用于本申请实施例中的图6至图8所对应的实施例,后续类似之处不再赘述。
以上对本申请实施例中一种图像处理方法进行说明,以下对执行上述图像处理方法的装置进行介绍。
参阅图6,如图6所示的一种图像处理装置60的结构示意图,其可应用于语音识别、文本分类等领域。本申请实施例中的图像处理装置60能够实现对应于上述图1a至图5e中任一项所所对应的实施例中所执行的图像处理方法的步骤。图像处理装置60实现的功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。硬件或软件包括一个或多个与上述功能相对应的模块,所述模块可以是软件和/或硬件。所述图像处理装置60可包括处理模块601、获取模块602,所述处理模块601、所述获取模块602的功能实现可参考图1a至图5e中任一项所所对应的实施例中所执行的操作,此处不作赘述。例如,所述处理模块601可用于控制所述获取模块的获取第一图像等操作。
一些实施方式中,所述获取模块602可用于获取第一图像,所述第一图像包括至少一个时域特征和至少一个频域特征;
所述处理模块601可用于根据预设策略对所述获取模块获取的所述第一图像进行更新,得到第二图像;
其中,所述预设策略至少包括以下项之一:
在时域上变换至少一个所述时域特征的时域位置;
或者,在频域上变换至少一个所述频域特征的频域位置。
一些实施方式中,所述处理模块601具体用于:
获取所述第一图像在时域上的第一时域长度;
获取第一时域位置、第二时域位置和第三时域位置;其中,所述第一时域位置为时域上进行时域位置变换的长度,所述第一时域位置小于预设时域变换长度;所述第二时域位置小于第一变换长度,所述第一变换长度根据所述第一时域长度与所述第一时域位置得到;所述第三时域位置根据所述第一时域长度、所述第一时域位置和第二时域位置得到;
将所述第一时域位置与所述第二时域位置之间的时域信号作为第一特征块,将所述第一时域位置与所述第三时域位置之间的时域信号作为第二特征块;
交换所述第一特征块与所述第二特征块在所述第一图像中的时域位置,得到第三图像。
一些实施方式中,所述第一时域长度为W,所述预设时域变换长度为W1,所述第一变换长度为W2;第一时域位置为ti,j,第二时域位置为ti,j+1,第三时域位置为ti,j+2
其中,i为第i次在时域上进行时域位置变换的操作,ti,j为在第i次中第j次获取的时域位置;
W1、W2、ti,j、ti,j+1、ti,j+2、i、j均为正整数,W2=W-2ti,j
0<ti,j≤W1,0<ti,j+1≤W-2ti,j,ti,j+ti,j+1<ti,j+2≤W-ti,j
一些实施方式中,所述处理模块601用于:
获取所述第一图像在频域上的第一频率宽度;
获取第一频域位置、第二频域位置和第三频域位置;其中,所述第一频域位置为频域上进行频域位置变换的长度,所述第一频域位置小于预设频域变换宽度;所述第二宽度位置小于第一变换宽度,所述第二宽度位置根据所述第一频率宽度、所述第一频域位置和第二频域位置得到,所述第三宽度位置根据所述第一频率宽度、所述第一频域位置和第二频域位置得到;
将所述第一频域位置与所述第二频域位置之间的时域信号作为第二特征块,将所述第一时域位置与所述第三时域位置之间的时域信号作为第四特征块;
交换所述第三特征块与所述第四特征块在所述第一图像中的频域位置,得到第四图像。
一些实施方式中,所述第一频率宽度为H,所述预设频域变换宽度为H1,所述第一变换宽度为H2;第一频域位置为Fi,j,第二频域位置为Fi,j+1,第三频域位置为Fi,j+2
其中,i为第i次在频域上进行频域位置变换的操作,Fi,j为在第i次中第j次获取的频域位置;
H1、H2、Fi,j、Fi,j+1、Fi,j+2、i、j均为正整数,H2=H-2Fi,j
0<Fi,j≤H1,0<Fi,j+1≤H-2Fi,j,Fi,j+Fi,j+1<Fi,j+2≤H-Fi,j
一些实施方式中,所述处理模块601在所述获取模块602获取第一图像之后,根据预设策略对所述第一图像进行更新,得到第二图像之前,还用于:
确定第一业务类型和第二业务类型,所述第一业务类型为第一图像应用的业务类型,所述第二业务类型为目标业务的业务类型;
根据所述第一业务类型和所述第二业务类型的相同点和不同点,以及所述第一图像,确定所述预设策略。
一些实施方式中,所述处理模块601还用于:
获取所述第一图像与目标语谱图的第一相似度,所述目标语谱图为所述第三图像或所述第四图像;
当所述第一相似度高于第一阈值时,结束特征变换操作,将相似度高于第一阈值的所述目标语谱图作为所述第二图像。
一些实施方式中,所述处理模块601根据预设策略对所述第一图像进行更新,得到第二图像之后,还用于:
以所述第一图像和所述第二图像作为训练数据,对预设模型进行训练,得到训练后的语音识别模型。
一些实施方式中,所述处理模块601对预设模型进行训练之前,还用于:
将所述第一图像与历史语谱图进行匹配;
若所述第一图像与所述历史语谱图的相似度高于预设相似度,则丢弃所述第一图像。
一些实施方式中,所述处理模块601还用于:
更新所述第一图像的数据结构,得到第五图像;
或者,更新所述第二图像的数据结构,得到第六图像。
一些实施方式中,所述处理模块601在所述获取模块602获取第一图像之后,还用于:
确定图像处理方式,所述图像处理方式至少包括特征变换和数据结构更新中的一种。
一些实施方式中,所述处理模块601根据预设策略对所述第一图像进行更新,得到第二图像之后,还用于:
以所述第一图像和所述第二图像作为训练数据,对预设模型进行训练,得到训练后的语音识别模型。
上面从模块化功能实体的角度对本申请实施例中的图像处理装置进行了描述,下面从硬件处理的角度分别对本申请实施例中的执行图像处理方法的服务器进行描述。需要说明的是,在本申请实施例图6所示的实施例中的获取模块602对应的实体设备可以为输入/输出单元、收发器、射频电路、通信模块和输出接口等,处理模块601对应的实体设备可以为处理器。图6所示的装置60可以具有如图7所示的结构,当图6所示的装置60具有如图7所示的结构时,图7中的处理器和输入输出单元能够实现前述对应该装置的装置实施例提供的处理模块601、获取模块602相同或相似的功能,图7中的存储器存储处理器执行上述图像处理方法时需要调用的计算机程序。
图8是本申请实施例提供的一种服务器结构示意图,该服务器800可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(英文全称:centralprocessing units,英文简称:CPU)822(例如,一个或一个以上处理器)和存储器832,一个或一个以上存储应用程序842或数据844的存储介质830(例如一个或一个以上海量存储设备)。其中,存储器832和存储介质830可以是短暂存储或持久存储。存储在存储介质830的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器822可以设置为与存储介质830通信,在服务器800上执行存储介质830中的一系列指令操作。
服务器800还可以包括一个或一个以上电源826,一个或一个以上有线或无线网络接口850,一个或一个以上输入输出接口858,和/或,一个或一个以上操作系统841,例如Windows Server,Mac OS X,Unix,Linux,FreeBSD等等。
上述实施例中由服务器所执行的步骤可以基于该图8所示的服务器800的结构。例如上述实施例中由图8所示的装置60所执行的步骤可以基于该图8所示的服务器结构。例如,所述处理器822通过调用存储器832中的指令,执行以下操作:
通过所述输入输出接口858获取第一图像,所述第一图像包括至少一个时域特征和至少一个频域特征;
根据预设策略对所述获取模块获取的所述第一图像进行更新,得到第二图像;
其中,所述预设策略至少包括以下项之一:
在时域上变换至少一个所述时域特征的时域位置;
或者,在频域上变换至少一个所述频域特征的频域位置。
本申请实施例还提供了另一种终端设备,如图9所示,为了便于说明,仅示出了与本申请实施例相关的部分,具体技术细节未揭示的,请参照本申请实施例方法部分。该终端设备可以为包括手机、平板电脑、个人数字助理(英文全称:Personal Digital Assistant,英文简称:PDA)、销售终端(英文全称:Point of Sales,英文简称:POS)、车载电脑等任意终端设备,以终端为手机为例:
图9示出的是与本申请实施例提供的终端设备相关的手机的部分结构的框图。参考图9,手机包括:射频(英文全称:Radio Frequency,英文简称:RF)电路99、存储器920、输入单元930、显示单元940、传感器950、音频电路960、无线保真(英文全称:wirelessfidelity,英文简称:Wi-Fi)模块970、处理器980、以及电源990等部件。本领域技术人员可以理解,图9中示出的手机结构并不构成对手机的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
下面结合图9对手机的各个构成部件进行具体的介绍:
RF电路99可用于收发信息或通话过程中,信号的接收和发送,特别地,将基站的下行信息接收后,给处理器980处理;另外,将设计上行的数据发送给基站。通常,RF电路99包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(英文全称:Low NoiseAmplifier,英文简称:LNA)、双工器等。此外,RF电路99还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议,包括但不限于全球移动通讯系统(英文全称:Global System of Mobile communication,英文简称:GSM)、通用分组无线服务(英文全称:General Packet Radio Service,英文简称:GPRS)、码分多址(英文全称:Code Division Multiple Access,英文简称:CDMA)、宽带码分多址(英文全称:WidebandCode Division Multiple Access,英文简称:WCDMA)、长期演进(英文全称:Long TermEvolution,英文简称:LTE)、电子邮件、短消息服务(英文全称:Short Messaging Service,英文简称:SMS)等。
存储器920可用于存储软件程序以及模块,处理器980通过运行存储在存储器920的软件程序以及模块,从而执行手机的各种功能应用以及数据处理。存储器920可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器920可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
输入单元930可用于接收输入的数字或字符信息,以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地,输入单元930可包括触控面板931以及其他输入设备932。触控面板931,也称为触摸屏,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板931上或在触控面板931附近的操作),并根据预先设定的程式驱动相应的连接装置。可选的,触控面板931可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器980,并能接收处理器980发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板931。除了触控面板931,输入单元930还可以包括其他输入设备932。具体地,其他输入设备932可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。
显示单元940可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元940可包括显示面板941,可选的,可以采用液晶显示器(英文全称:LiquidCrystal Display,英文简称:LCD)、有机发光二极管(英文全称:Organic Light-EmittingDiode,英文简称:OLED)等形式来配置显示面板941。进一步的,触控面板931可覆盖显示面板941,当触控面板931检测到在其上或附近的触摸操作后,传送给处理器980以确定触摸事件的类型,随后处理器980根据触摸事件的类型在显示面板941上提供相应的视觉输出。虽然在图9中,触控面板931与显示面板941是作为两个独立的部件来实现手机的输入和输入功能,但是在某些实施例中,可以将触控面板931与显示面板941集成而实现手机的输入和输出功能。
手机还可包括至少一种传感器950,比如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示面板941的亮度,接近传感器可在手机移动到耳边时,关闭显示面板941和/或背光。作为运动传感器的一种,加速计传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。
音频电路960、扬声器961,传声器962可提供用户与手机之间的音频接口。音频电路960可将接收到的音频数据转换后的电信号,传输到扬声器961,由扬声器961转换为声音信号输出;另一方面,传声器962将收集的声音信号转换为电信号,由音频电路960接收后转换为音频数据,再将音频数据输出处理器980处理后,经RF电路99以发送给比如另一手机,或者将音频数据输出至存储器920以便进一步处理。
Wi-Fi属于短距离无线传输技术,手机通过Wi-Fi模块970可以帮助用户收发电子邮件、浏览网页和访问流式媒体等,它为用户提供了无线的宽带互联网访问。虽然图9示出了W-iFi模块970,但是可以理解的是,其并不属于手机的必须构成,完全可以根据需要在不改变申请的本质的范围内而省略。
处理器980是手机的控制中心,利用各种接口和线路连接整个手机的各个部分,通过运行或执行存储在存储器920内的软件程序和/或模块,以及调用存储在存储器920内的数据,执行手机的各种功能和处理数据,从而对手机进行整体监控。可选的,处理器980可包括一个或多个处理单元;优选的,处理器980可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器980中。
手机还包括给各个部件供电的电源990(比如电池),优选的,电源可以通过电源管理系统与处理器980逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。
尽管未示出,手机还可以包括摄像头、蓝牙模块等,在此不再赘述。
在本申请实施例中,该手机所包括的处理器980还具有控制由边缘设备管理系统1中各模块的所执行的步骤。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请实施例所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本申请实施例各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。
所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机计算机程序时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存储的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
以上对本申请实施例所提供的技术方案进行了详细介绍,本申请实施例中应用了具体个例对本申请实施例的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请实施例的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请实施例的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请实施例的限制。

Claims (10)

1.一种图像处理方法,其特征在于,所述方法包括:
获取第一图像,所述第一图像包括至少一个时域特征和至少一个频域特征;
根据预设策略对所述第一图像进行更新,得到第二图像;
其中,所述预设策略至少包括以下项之一:
在时域上变换至少一个所述时域特征的时域位置,包括:获取所述第一图像在时域上的第一时域长度;获取第一时域位置、第二时域位置和第三时域位置;其中,所述第一时域位置为时域上进行时域位置变换的长度,所述第一时域位置小于预设时域变换长度;所述第二时域位置小于第一变换长度,所述第一变换长度根据所述第一时域长度与所述第一时域位置得到;所述第三时域位置根据所述第一时域长度、所述第一时域位置和第二时域位置得到;将所述第一时域位置与所述第二时域位置之间的时域信号作为第一特征块,将所述第一时域位置与所述第三时域位置之间的时域信号作为第二特征块;交换所述第一特征块与所述第二特征块在所述第一图像中的时域位置,得到第三图像;
或者,在频域上变换至少一个所述频域特征的频域位置,包括:获取所述第一图像在频域上的第一频率宽度;获取第一频域位置、第二频域位置和第三频域位置;其中,所述第一频域位置为频域上进行频域位置变换的长度,所述第一频域位置小于预设频域变换宽度;所述第二频域位置小于第一变换宽度,所述第二频域位置根据所述第一频率宽度与所述第一频域位置得到,所述第三频域位置根据所述第一频率宽度、所述第一频域位置和第二频域位置得到;将所述第一频域位置与所述第二频域位置之间的时域信号作为第三特征块,将所述第一频域位置与所述第三频域位置之间的时域信号作为第四特征块;交换所述第三特征块与所述第四特征块在所述第一图像中的频域位置,得到第四图像;
获取所述第一图像与目标语谱图的第一相似度,所述目标语谱图为所述第三图像或所述第四图像;
当所述第一相似度高于第一阈值时,结束特征变换操作,将相似度高于第一阈值的所述目标语谱图作为所述第二图像。
2.根据权利要求1所述的方法,其特征在于,所述第一时域长度为W,所述预设时域变换长度为W1,所述第一变换长度为W2;第一时域位置为ti,j,第二时域位置为ti,j+1,第三时域位置为ti,j+2
其中,i为第i次在时域上进行时域位置变换的操作,ti,j为在第i次中第j次获取的时域位置;
W1、W2、ti,j、ti,j+1、ti,j+2、i、j均为正整数,W2=W-2ti,j
0<ti,j≤W1,0<ti,j+1≤W-2ti,j,ti,j+ti,j+1<ti,j+2≤W-ti,j
3.根据权利要求1所述的方法,其特征在于,所述第一频率宽度为H,所述预设频域变换宽度为H1,所述第一变换宽度为H2;第一频域位置为Fi,j,第二频域位置为Fi,j+1,第三频域位置为Fi,j+2
其中,i为第i次在频域上进行频域位置变换的操作,Fi,j为在第i次中第j次获取的频域位置;
H1、H2、Fi,j、Fi,j+1、Fi,j+2、i、j均为正整数,H2=H-2Fi,j
0<Fi,j≤H1,0<Fi,j+1≤H-2Fi,j,Fi,j+Fi,j+1<Fi,j+2≤H-Fi,j
4.根据权利要求1-2中任一项所述的方法,其特征在于,所述获取第一图像之后,所述根据预设策略对所述第一图像进行更新,得到第二图像之前,所述方法还包括:
确定第一业务类型和第二业务类型,所述第一业务类型为第一图像应用的业务类型,所述第二业务类型为目标业务的业务类型;
根据所述第一业务类型和所述第二业务类型的相同点和不同点,以及所述第一图像,确定所述预设策略。
5.根据权利要求1-2中任一项所述的方法,其特征在于,所述方法还包括:
更新所述第一图像的数据结构,得到第五图像;
或者,更新所述第二图像的数据结构,得到第六图像。
6.根据权利要求5所述的方法,其特征在于,所述获取第一图像之后,所述方法还包括:
确定图像处理方式,所述图像处理方式至少包括特征变换和数据结构更新中的一种。
7.根据权利要求1-2中任一项所述的方法,其特征在于,所述根据预设策略对所述第一图像进行更新,得到第二图像之后,所述方法还包括:
以所述第一图像和所述第二图像作为训练数据,对预设模型进行训练,得到训练后的语音识别模型。
8.一种图像处理装置,其特征在于,所述图像处理装置包括:
获取模块,用于获取第一图像,所述第一图像包括至少一个时域特征和至少一个频域特征;
处理模块,用于根据预设策略对所述获取模块获取的所述第一图像进行更新,得到第二图像;
其中,所述预设策略至少包括以下项之一:
在时域上变换至少一个所述时域特征的时域位置,包括:获取所述第一图像在时域上的第一时域长度;获取第一时域位置、第二时域位置和第三时域位置;其中,所述第一时域位置为时域上进行时域位置变换的长度,所述第一时域位置小于预设时域变换长度;所述第二时域位置小于第一变换长度,所述第一变换长度根据所述第一时域长度与所述第一时域位置得到;所述第三时域位置根据所述第一时域长度、所述第一时域位置和第二时域位置得到;将所述第一时域位置与所述第二时域位置之间的时域信号作为第一特征块,将所述第一时域位置与所述第三时域位置之间的时域信号作为第二特征块;交换所述第一特征块与所述第二特征块在所述第一图像中的时域位置,得到第三图像;
或者,在频域上变换至少一个所述频域特征的频域位置,包括:获取所述第一图像在频域上的第一频率宽度;获取第一频域位置、第二频域位置和第三频域位置;其中,所述第一频域位置为频域上进行频域位置变换的长度,所述第一频域位置小于预设频域变换宽度;所述第二频域位置小于第一变换宽度,所述第二频域位置根据所述第一频率宽度与所述第一频域位置得到,所述第三频域位置根据所述第一频率宽度、所述第一频域位置和第二频域位置得到;将所述第一频域位置与所述第二频域位置之间的时域信号作为第三特征块,将所述第一频域位置与所述第三频域位置之间的时域信号作为第四特征块;交换所述第三特征块与所述第四特征块在所述第一图像中的频域位置,得到第四图像;
处理模块,还用于获取所述第一图像与目标语谱图的第一相似度,所述目标语谱图为所述第三图像或所述第四图像;当所述第一相似度高于第一阈值时,结束特征变换操作,将相似度高于第一阈值的所述目标语谱图作为所述第二图像。
9.一种图像处理装置,其特征在于,所述图像处理装置包括:
至少一个处理器、存储器和输入输出单元;
其中,所述存储器用于存储计算机程序,所述处理器用于调用所述存储器中存储的计算机程序来执行如权利要求1-7中任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,其包括指令,当其在计算机上运行时,使得计算机执行如权利要求1-7中任一项所述的方法。
CN202010755371.6A 2020-07-31 2020-07-31 一种图像处理方法、装置及存储介质 Active CN112750427B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010755371.6A CN112750427B (zh) 2020-07-31 2020-07-31 一种图像处理方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010755371.6A CN112750427B (zh) 2020-07-31 2020-07-31 一种图像处理方法、装置及存储介质

Publications (2)

Publication Number Publication Date
CN112750427A CN112750427A (zh) 2021-05-04
CN112750427B true CN112750427B (zh) 2024-02-27

Family

ID=75645351

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010755371.6A Active CN112750427B (zh) 2020-07-31 2020-07-31 一种图像处理方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN112750427B (zh)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10089994B1 (en) * 2018-01-15 2018-10-02 Alex Radzishevsky Acoustic fingerprint extraction and matching
CN109712641A (zh) * 2018-12-24 2019-05-03 重庆第二师范学院 一种基于支持向量机的音频分类和分段的处理方法
CN109740657A (zh) * 2018-12-27 2019-05-10 郑州云海信息技术有限公司 一种用于图像数据分类的神经网络模型的训练方法与设备
CN109903773A (zh) * 2019-03-13 2019-06-18 腾讯音乐娱乐科技(深圳)有限公司 音频处理方法、装置及存储介质
CN110188628A (zh) * 2019-05-13 2019-08-30 北京遥感设备研究所 一种基于深度学习模型的rd图像舰船目标识别方法
CN110349593A (zh) * 2019-07-25 2019-10-18 江门市华恩电子研究院有限公司 基于波形时频域分析的语义和声纹双重识别的方法及系统
CN111050023A (zh) * 2019-12-17 2020-04-21 深圳追一科技有限公司 视频检测方法、装置、终端设备及存储介质
CN111048071A (zh) * 2019-11-11 2020-04-21 北京海益同展信息科技有限公司 语音数据处理方法、装置、计算机设备和存储介质
CN111148262A (zh) * 2018-11-07 2020-05-12 维沃移动通信有限公司 一种数据传输方法、信息配置方法、终端及网络设备
CN111353133A (zh) * 2018-12-24 2020-06-30 杭州海康威视系统技术有限公司 图像处理方法、装置和可读存储介质

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10089994B1 (en) * 2018-01-15 2018-10-02 Alex Radzishevsky Acoustic fingerprint extraction and matching
CN111148262A (zh) * 2018-11-07 2020-05-12 维沃移动通信有限公司 一种数据传输方法、信息配置方法、终端及网络设备
WO2020093964A1 (zh) * 2018-11-07 2020-05-14 维沃移动通信有限公司 数据传输方法、信息配置方法、终端及网络设备
CN109712641A (zh) * 2018-12-24 2019-05-03 重庆第二师范学院 一种基于支持向量机的音频分类和分段的处理方法
CN111353133A (zh) * 2018-12-24 2020-06-30 杭州海康威视系统技术有限公司 图像处理方法、装置和可读存储介质
CN109740657A (zh) * 2018-12-27 2019-05-10 郑州云海信息技术有限公司 一种用于图像数据分类的神经网络模型的训练方法与设备
CN109903773A (zh) * 2019-03-13 2019-06-18 腾讯音乐娱乐科技(深圳)有限公司 音频处理方法、装置及存储介质
CN110188628A (zh) * 2019-05-13 2019-08-30 北京遥感设备研究所 一种基于深度学习模型的rd图像舰船目标识别方法
CN110349593A (zh) * 2019-07-25 2019-10-18 江门市华恩电子研究院有限公司 基于波形时频域分析的语义和声纹双重识别的方法及系统
CN111048071A (zh) * 2019-11-11 2020-04-21 北京海益同展信息科技有限公司 语音数据处理方法、装置、计算机设备和存储介质
CN111050023A (zh) * 2019-12-17 2020-04-21 深圳追一科技有限公司 视频检测方法、装置、终端设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于深度学习的SAR图像处理研究;罗震宇;《中国优秀硕士论文全文数据库 信息科技辑》;20200215;全文 *

Also Published As

Publication number Publication date
CN112750427A (zh) 2021-05-04

Similar Documents

Publication Publication Date Title
CN109241431B (zh) 一种资源推荐方法和装置
TWI684148B (zh) 聯絡人的分組處理方法及裝置
CN110019825B (zh) 一种分析数据语义的方法及装置
US10949462B2 (en) Audio identification method and apparatus, and computer storage medium
CN108427761B (zh) 一种新闻事件处理的方法、终端、服务器及存储介质
CN114444579B (zh) 通用扰动获取方法、装置、存储介质及计算机设备
WO2017088434A1 (zh) 人脸模型矩阵训练方法、装置及存储介质
CN110597957B (zh) 一种文本信息检索的方法及相关装置
CN110276010A (zh) 一种权重模型训练方法和相关装置
CN104281610B (zh) 过滤微博的方法和装置
JP6915074B2 (ja) メッセージ通知方法及び端末
CN108846051A (zh) 数据处理方法、装置及计算机可读存储介质
CN112750427B (zh) 一种图像处理方法、装置及存储介质
CN110019648B (zh) 一种训练数据的方法、装置及存储介质
CN107885887B (zh) 一种文件存储方法和移动终端
CN110263347A (zh) 一种同义词的构建方法及相关装置
CN115412726B (zh) 视频真伪检测方法、装置及存储介质
CN116386647B (zh) 音频验证方法、相关装置、存储介质及程序产品
CN114722970B (zh) 一种多媒体检测方法、装置及存储介质
CN117931743A (zh) 智能变电站的文件库检索方法、装置、终端设备及介质
CN118035765A (zh) 文本相似度匹配方法、装置、存储介质及电子设备
CN117332844A (zh) 对抗样本生成方法、相关装置及存储介质
CN116244071A (zh) 资源调整方法、相关设备及存储介质
CN117149990A (zh) 文本检索方法、装置、电子设备和存储介质
CN117370634A (zh) 搜索词处理方法、相关装置及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant