CN112466315A - 一种音视频的高码率获取方法 - Google Patents
一种音视频的高码率获取方法 Download PDFInfo
- Publication number
- CN112466315A CN112466315A CN202011396846.3A CN202011396846A CN112466315A CN 112466315 A CN112466315 A CN 112466315A CN 202011396846 A CN202011396846 A CN 202011396846A CN 112466315 A CN112466315 A CN 112466315A
- Authority
- CN
- China
- Prior art keywords
- rate
- code
- low
- bit
- signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 46
- 239000013598 vector Substances 0.000 claims description 93
- 238000009432 framing Methods 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 claims description 5
- 230000001131 transforming effect Effects 0.000 claims description 3
- 238000000354 decomposition reaction Methods 0.000 description 3
- 230000010354 integration Effects 0.000 description 3
- 239000012634 fragment Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/24—Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/04—Time compression or expansion
- G10L21/043—Time compression or expansion by changing speed
- G10L21/045—Time compression or expansion by changing speed using thinning out or insertion of a waveform
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本发明涉及信号处理领域,具体涉及一种音视频的高码率获取方法,通过训练信号集来学习用于高码率信号获取的过完备字典对,该字典对包括低码率部分和高码率部分,根据训练得到的过完备字典对中的低码率部分对待处理的信号进行分解,从而得到一组稀疏表示向量,再根据得到的稀疏表示向量,结合过完备字典对中的高码率部分,计算得到与待处理的低码率信号相对应的高码率信号。本发明的技术方案新颖,结构明确,容易实施。
Description
技术领域
本发明涉及信号处理领域,尤其涉及一种音视频的高码率获取方法。
背景技术
网络的普及,使得网络上的音乐资源越来越丰富,数字格式音乐非常流行。然而现在大部分流通的数字音乐都是普通数字音乐,其优势在于通过有损压缩到达缩小文件体积的目的,但随之而来的却是音乐质量受到损害。高质量数字音乐给听众带来更好的音乐体验,但体积庞大。
发明内容
鉴于上述技术问题,本发明旨在提供一种对于低码率信号恢复到高码率信号都可行的方法,例如高质量语音的重构,高分辨率图像的获取,均可通过本发明的方法训练得到不同的字典,从而应用到不同的场合。
本发明解决上述技术问题的主要技术方案为:
一种音视频的高码率获取方法,其特征在于,应用于将低码率信号恢复到高码率信号,且所述低码率信号和所述高码率信号为一个信号的两个码率版本,所述获取方法包括:
步骤S1,提供一套训练用的信号集合,所述信号集合包括低码率信号集和高码率信号集,且所述低码率信号集中的低码率信号和所述高码率信号集中的高码率信号一一对应,以构成若干训练信号对;
步骤S2,根据字典训练学习算法,对所述若干训练信号对进行学习训练,以获得过完备字典对,且所述过完备字典对包括低码率部分和高码率部分;
步骤S3,提供待处理的低码率信号,将所述待处理的低码率信号根据所述过完备字典对中的所述低码率部分进行分解,以得到对应的稀疏表示集合;
步骤S4,结合所述过完备字典对中的所述高码率部分,将所述稀疏表示集合变换成新的分割的信号片段,将所述新的分割的信号片段整合,以获取高码率信号;
其中,获得所述过完备字典对的步骤包括:
步骤A1,将所述低码率信号按重叠比例和低码率向量帧长度进行分帧,得到若干低码率向量帧;
步骤A2,将所述高码率信号按重叠比例和高码率向量帧长度进行分帧,得到若干高码率向量帧;
步骤A3,将所述若干低码率向量帧构成所述低码率部分,所述若干高码率向量帧构成所述高码率部分,且所述低码率部分和所述高码率部分用以训练生成所述过完备字典对。
优选的,上述音视频的高码率获取方法中,所述字典训练学习算法以对应的所述低码率向量帧和所述高码率向量帧对作为输入,以输出所述过完备字典对。
优选的,上述音视频的高码率获取方法中,所述低码率向量帧和所述高码率向量帧满足公式:
其中,Dp为所述过完备字典对中的所述低码率部分,Dg为所述过完备字典对中的所述高码率部分;
Np为所述低码率向量帧长度,Ng为所述高码率向量帧长度;
si为所述稀疏表示集合中的稀疏表示向量,所述低码率向量帧和所述高码率向量帧共用同一稀疏表示向量。
优选的,上述音视频的高码率获取方法中,计算获得所述过完备字典对的公式为:
其中,Dc为所述过完备字典对;
优选的,上述音视频的高码率获取方法中,获取所述高码率信号的步骤包括:
步骤1,将所述低码率信号分解成低码率向量帧;
步骤2,提取所述过完备字典对的低码率部分,将所述低码率向量帧分解成稀疏表示向量;
步骤3,提取所述过完备字典对的高码率部分,结合所述稀疏表示向量,重构得到高码率向量帧;
步骤4,将得到的所述高码率向量帧整合,以获取所述高码率信号。
优选的,上述音视频的高码率获取方法中,步骤4中的所述整合步骤和步骤1中的所述分解步骤为互逆操作。
优选的,上述音视频的高码率获取方法中,所述步骤2的公式为:
Dp为所述过完备字典对中的所述低码率部分;
si为所述稀疏表示集合中的稀疏表示向量,所述低码率向量帧和所述高码率向量帧共用同一稀疏表示向量。
优选的,上述音视频的高码率获取方法中,所述步骤3的公式为:
Dg为所述过完备字典对中的所述高码率部分;
si为所述稀疏表示集合中的稀疏表示向量,所述低码率向量帧和所述高码率向量帧共用同一稀疏表示向量。
上述技术方案具有如下优点或有益效果:
本发明通过训练信号集来学习用于高码率信号获取的过完备字典对,该字典对由低码率部分和高码率部分组成,根据训练得到的过完备字典对中的低码率部分对待处理的信号进行分解,从而得到一组稀疏表示向量,再根据得到的稀疏表示向量,结合过完备字典对中的高码率部分,计算得到与待处理的低码率信号相对应的高码率信号。本发明的技术方案新颖,结构明确,容易实施。
附图说明
参考所附附图,以更加充分的描述本发明的实施例。然而,所附附图仅用于说明和阐述,并不构成对本发明范围的限制。
图1为本发明的音视频的高码率获取方法的流程图;
图2为实施例中基于本发明的方法获取高质量数字音乐的示意图。
具体实施方式
在下文的描述中,给出了大量具体的细节以便提供对本发明更为彻底的理解。当然除了这些详细描述外,本发明还可以具有其他实施方式。
本发明的音视频的高码率获取方法,参考图1,对于低码率信号恢复到高码率信号都是可行的,例如对于高质量语音的重构,高分辨率图像的获取都具有可行性。主要根据训练得到的字典不同,而应用的场合不同。
例如用于高质量的数字音乐获取,通过训练音乐集来学习用于高质量数字音乐获取的过完备字典对,该字典对有普通部分和高质量部分组成,根据训练得到的过完备字典对中普通部分对待处理的音乐进行分解,从而得到一组稀疏表示向量,再根据得到的稀疏表示向量,结合过完备字典对的高质量部分,从而计算得到与待处理普通数字音乐相对应的高质量数字音乐。一般普通数字音乐通过应用本发明的方法而从体积较小的有损音乐中重新生成具有更好音乐体验的高质量数字音乐。采用本发明的方法将普通的音乐资源转换成高质量数字音乐,在不增加流通媒体体积和其他成本的情况下,获得了更好的音乐体验。
下面就以高质量的数字音乐获取为例具体阐述本发明的音视频的高码率获取方法。
实施例一
参照图2示意图所示,本实施例中对高质量数字音乐获取方法主要包含以下几点:
一、训练阶段。需要有训练用的音乐集合,包含普通数字音乐和高质量数字音乐,而且是成对的,即相同的音乐有普通版本和高质量版本,通过对这些音乐集合进行学习训练,获得可用的过完备字典对。需要注意的是,训练好的字典可以用于以后的高质量音乐重构,而不是每次从普通数字音乐获取高质量数字音乐都需要重新训练字典。
二、处理阶段。将待处理的普通数字音乐,按照字典规格,进行分割,结合训练得到的过完备字典对中的普通部分,将分割的音乐进行分解,得到分解后的稀疏表示集合。
三、完成阶段。再结合过完备字典对中的高质量部分,将之前得到的稀疏表示集合变换成新的分割的音乐片段,将这些重新生成的音乐片段组合,得到高质量数字音乐。
具体的,本实施例的基于过完备字典对的高质量数字音乐获取方法包括以下详细步骤:
第一步,提供一套训练用的音乐集合,该音乐集合由两部分组成,分别是普通数字音乐集和高质量数字音乐集,该普通数字音乐集和高质量数字音乐集具有一一对应关系,从而构成训练音乐对。
第二步,根据字典训练学习算法,将所述音乐集合用于训练,获得过完备字典对。过完备字典对由过完备字典对普通部分和过完备字典对高质量部分组成。该过完备字典对普通部分用于分解普通数字音乐,得到对应的稀疏表示。
具体的,训练过完备字典对的步骤(也即字典训练部分)还包括:
提供一套训练用的音乐集合,该音乐集合由两部分组成,分别是普通数字音乐集和高质量数字音乐集,该普通数字音乐集和该高质量数字音乐集具有一一对应关系,从而构成训练音乐对。
将普通数字音乐按重叠比例,普通向量帧长度,进行分帧,得到若干普通向量帧。
将高质量数字音乐按重叠比例,高质量向量帧长度,进行分帧,得到若干高质量向量帧。
重叠比例记为φ;
普通帧块长度记为Np;
高质量帧块长度记为Ng。
则训练用核心公式为:(字典学习算法接收普通向量帧和高质量向量帧对作为输入,过完备字典对作为输出)
在满足约束:
时,改写
其中,字典学习算法输出过完备字典对Dc。
过完备字典对普通部分记为Dp
过完备字典对高质量部分记为Dg
稀疏表示向量记为si,普通向量帧和高质量向量帧共用同一稀疏表示向量。
第三步,根据得到的普通数字音乐的稀疏表示,再结合过完备字典对高质量部分,获取高质量数字音乐。
具体的,获取高质量数字音乐的步骤(也即高质量音乐获取部分)还包括:
提供待处理普通数字音乐和过完备字典对。
步骤1,将普通数字音乐分解成普通向量帧(分解方法同第二步中字典训练部分)。
步骤2,提取过完备字典对普通部分,将普通向量帧分解成稀疏表示向量。
步骤3,提取过完备字典对高质量部分,结合稀疏表示向量,重构得到高质量向量帧。
步骤4,将得到的高质量向量帧整合,得到高质量音乐。
用公式表示记为
需要注意的是,整合部分和分帧部分是逆操作,将得到的若干向量帧重新整合即得到完整的音乐。
实施例二
在获取高质量数字音乐的过程中,首先需要对音乐训练集进行学习训练,从而构成过完备字典对。在本次实施例中,我们采用马克西姆2008年发行的专辑《GreastestMaksim》作为高质量音乐训练集(16比特,采样率44.1KHz),对该专辑里面的音乐进行4倍降采样,得到普通音乐集合(16比特,采样率11.05KHz)。
首先,训练部分:
分帧:将高质量数字音乐读取,然后获得一段较长的一维信号,对该信号进行随机分段提取,每段长度为160,总共提取2,000,000段。同理记录下这2,000,000段高质量音乐帧的位置,找到相应位置的普通音乐片段,由于普通音乐是高质量音乐的4倍降采样,因此可得到2,000,000段普通音乐帧,每段长度为40。
训练:字典包含的原子个数1024,那么最后得到的字典的大小就是200X1024。通过对这200万对音乐片段,得到训练后的字典,其中普通部分大小是40X1024,高质量部分是160x1024,整体的大小是200x1024。
其次,处理部分:
以《克罗地亚狂想曲》为例,准备一首普通音质的数字音乐,通过训练好的字典,得到高质量数字音乐。
分帧:首先将普通数字音乐进行分帧,根据字典长度,字典普通音乐的大小是40x1024,那么我们将该音乐分解成为若干个长度为40的音乐帧,为了保证音乐质量,各相邻音乐帧之间有50%的重叠。
分解:将得到的若干个音乐帧进行分解,提取过完备字典对的普通部分,将长度为40的音乐帧分级为长度为1024的稀疏表示向量,若干个音乐帧分别分解,得到一个稀疏表示集合。
重构:用得到的稀疏表示集合去查找过完备字典的高质量部分,从而得到若干个长度为160的高质量音乐帧。
整合:将若干个高质量音乐帧按50%的重叠稀疏进行整合,得到完整的高质量音乐。
需要注意的是,其中音乐帧长度,字典长度,重叠比例这些都是可以根据需要来进行灵活设置的。即可以构造多个字典,然后根据需要来重构出想要的音乐。举例的是4倍重构,倍数越大,重构越难。
以上通过基于超完备字典对的高质量音乐获取(也即用于音乐的重构)示例,对本发明的音视频的高码率获取方法进行了详细阐述。需要注意的是,本发明的方法从本质上来讲对于任何低码率信号恢复到高码率信号的情况都是可行的,例如对于其他的高质量语音的重构,高分辨率图像的获取都具有可行性。只要根据本发明的方法,训练得到的字典不同,就可以实现应用的场合不同。
综上所述,本发明通过训练信号集来学习用于高码率信号获取的过完备字典对,该字典对由低码率部分和高码率部分组成,根据训练得到的过完备字典对中的低码率部分对待处理的信号进行分解,从而得到一组稀疏表示向量,再根据得到的稀疏表示向量,结合过完备字典对中的高码率部分,计算得到与待处理的低码率信号相对应的高码率信号。本发明的技术方案新颖,结构明确,容易实施。
对于本领域的技术人员而言,阅读上述说明后,各种变化和修正无疑将显而易见。因此,所附的权利要求书应看作是涵盖本发明的真实意图和范围的全部变化和修正。在权利要求书范围内任何和所有等价的范围与内容,都应认为仍属本发明的意图和范围内。
Claims (10)
1.一种音视频的高码率获取方法,其特征在于,应用于将低码率信号恢复到高码率信号,且所述低码率信号和所述高码率信号为一个信号的两个码率版本,所述获取方法包括:
步骤S1,提供一套训练用的信号集合,所述信号集合包括低码率信号集和高码率信号集,且所述低码率信号集中的低码率信号和所述高码率信号集中的高码率信号一一对应,以构成若干训练信号对;
步骤S2,根据字典训练学习算法,对所述若干训练信号对进行学习训练,以获得过完备字典对,且所述过完备字典对包括低码率部分和高码率部分;
步骤S3,提供待处理的低码率信号,将所述待处理的低码率信号根据所述过完备字典对中的所述低码率部分进行分解,以得到对应的稀疏表示集合;
步骤S4,结合所述过完备字典对中的所述高码率部分,将所述稀疏表示集合变换成新的分割的信号片段,将所述新的分割的信号片段整合,以获取高码率信号;
其中,获得所述过完备字典对的步骤包括:
步骤A1,将所述低码率信号按重叠比例和低码率向量帧长度进行分帧,得到若干低码率向量帧;
步骤A2,将所述高码率信号按重叠比例和高码率向量帧长度进行分帧,得到若干高码率向量帧;
步骤A3,将所述若干低码率向量帧构成所述低码率部分,所述若干高码率向量帧构成所述高码率部分,且所述低码率部分和所述高码率部分用以训练生成所述过完备字典对。
2.如权利要求1所述的音视频的高码率获取方法,其特征在于,所述字典训练学习算法以对应的所述低码率向量帧和所述高码率向量帧对作为输入,以输出所述过完备字典对。
7.如权利要求1所述的音视频的高码率获取方法,其特征在于,获取所述高码率信号的步骤包括:
步骤1,将所述低码率信号分解成低码率向量帧;
步骤2,提取所述过完备字典对的低码率部分,将所述低码率向量帧分解成稀疏表示向量;
步骤3,提取所述过完备字典对的高码率部分,结合所述稀疏表示向量,重构得到高码率向量帧;
步骤4,将得到的所述高码率向量帧整合,以获取所述高码率信号。
8.如权利要求7所述的音视频的高码率获取方法,其特征在于,步骤4中的所述整合步骤和步骤1中的所述分解步骤为互逆操作。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011396846.3A CN112466315A (zh) | 2020-12-02 | 2020-12-02 | 一种音视频的高码率获取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011396846.3A CN112466315A (zh) | 2020-12-02 | 2020-12-02 | 一种音视频的高码率获取方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112466315A true CN112466315A (zh) | 2021-03-09 |
Family
ID=74805996
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011396846.3A Pending CN112466315A (zh) | 2020-12-02 | 2020-12-02 | 一种音视频的高码率获取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112466315A (zh) |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101854520A (zh) * | 2010-04-16 | 2010-10-06 | 广东中大讯通信息有限公司 | 一种无线传输视频监控系统及方法 |
CN103778919A (zh) * | 2014-01-21 | 2014-05-07 | 南京邮电大学 | 基于压缩感知和稀疏表示的语音编码方法 |
US20140140375A1 (en) * | 2012-11-19 | 2014-05-22 | King Fahd University Of Petroleum And Minerals | Method for compressive sensing , reconstruction, and estimation of ultra-wideband channels |
CN104200812A (zh) * | 2014-07-16 | 2014-12-10 | 电子科技大学 | 一种基于稀疏分解的音频噪声实时检测方法 |
CN106653061A (zh) * | 2016-11-01 | 2017-05-10 | 武汉大学深圳研究院 | 一种基于字典分类的音频匹配追踪装置及其追踪方法 |
US20170201348A1 (en) * | 2016-01-08 | 2017-07-13 | Samsung Electronics Co., Ltd. | Apparatus and method for transmitting and receiving signal in communication system supporting rate compatible low density parity check code |
CN107039042A (zh) * | 2016-12-09 | 2017-08-11 | 电子科技大学 | 一种基于低一致性词典和稀疏表示的音频修复方法和系统 |
CN107622777A (zh) * | 2016-07-15 | 2018-01-23 | 公安部第三研究所 | 一种基于过完备字典对的高码率信号获取方法 |
CN109147804A (zh) * | 2018-06-05 | 2019-01-04 | 安克创新科技股份有限公司 | 一种基于深度学习的音质特性处理方法及系统 |
CN111508508A (zh) * | 2020-04-15 | 2020-08-07 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种超分辨率音频生成方法及设备 |
-
2020
- 2020-12-02 CN CN202011396846.3A patent/CN112466315A/zh active Pending
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101854520A (zh) * | 2010-04-16 | 2010-10-06 | 广东中大讯通信息有限公司 | 一种无线传输视频监控系统及方法 |
US20140140375A1 (en) * | 2012-11-19 | 2014-05-22 | King Fahd University Of Petroleum And Minerals | Method for compressive sensing , reconstruction, and estimation of ultra-wideband channels |
CN103778919A (zh) * | 2014-01-21 | 2014-05-07 | 南京邮电大学 | 基于压缩感知和稀疏表示的语音编码方法 |
CN104200812A (zh) * | 2014-07-16 | 2014-12-10 | 电子科技大学 | 一种基于稀疏分解的音频噪声实时检测方法 |
US20170201348A1 (en) * | 2016-01-08 | 2017-07-13 | Samsung Electronics Co., Ltd. | Apparatus and method for transmitting and receiving signal in communication system supporting rate compatible low density parity check code |
CN107622777A (zh) * | 2016-07-15 | 2018-01-23 | 公安部第三研究所 | 一种基于过完备字典对的高码率信号获取方法 |
CN106653061A (zh) * | 2016-11-01 | 2017-05-10 | 武汉大学深圳研究院 | 一种基于字典分类的音频匹配追踪装置及其追踪方法 |
CN107039042A (zh) * | 2016-12-09 | 2017-08-11 | 电子科技大学 | 一种基于低一致性词典和稀疏表示的音频修复方法和系统 |
CN109147804A (zh) * | 2018-06-05 | 2019-01-04 | 安克创新科技股份有限公司 | 一种基于深度学习的音质特性处理方法及系统 |
CN111508508A (zh) * | 2020-04-15 | 2020-08-07 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种超分辨率音频生成方法及设备 |
Non-Patent Citations (1)
Title |
---|
邸金红: "分布式视频编码算法与系统", 31 July 2016, 北京:国防工业出版社, pages: 158 - 159 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110570845B (zh) | 一种基于域不变特征的语音识别方法 | |
CN112989107B (zh) | 音频分类和分离方法、装置、电子设备以及存储介质 | |
CN103280221B (zh) | 一种基于基追踪的音频无损压缩编码、解码方法及系统 | |
CN109785847B (zh) | 基于动态残差网络的音频压缩算法 | |
US20210142148A1 (en) | Source separation method, apparatus, and non-transitory computer-readable medium | |
CN106981292B (zh) | 一种基于张量建模的多路空间音频信号压缩和恢复方法 | |
CN112381040B (zh) | 一种基于语音和人脸图像的跨模态生成方法 | |
CN111429894A (zh) | 基于SE-ResNet STARGAN的多对多说话人转换方法 | |
CN107610710A (zh) | 一种面向多音频对象的音频编码及解码方法 | |
CN111429893A (zh) | 基于Transitive STARGAN的多对多说话人转换方法 | |
CN113990330A (zh) | 一种基于深度网络嵌入和识别音频水印的方法和装置 | |
CN106254883B (zh) | 一种视频解码中的反变换方法和装置 | |
Bao et al. | Learning a discriminative dictionary for single-channel speech separation | |
CN107622777B (zh) | 一种基于过完备字典对的高码率信号获取方法 | |
Wang et al. | RHFCN:: Fully CNN-based steganalysis of MP3 with rich high-pass filtering | |
CN113643687A (zh) | 融合DSNet与EDSR网络的非平行多对多语音转换方法 | |
CN112466315A (zh) | 一种音视频的高码率获取方法 | |
WO2023241205A1 (zh) | 音频处理方法、装置、电子设备、计算机可读存储介质及计算机程序产品 | |
Yu et al. | Medical image compression with thresholding denoising using discrete cosine-based discrete orthogonal stockwell transform | |
CN101511020B (zh) | 一种基于稀疏分解的图像压缩方法 | |
CN116884426A (zh) | 一种基于dfsmn模型的语音增强方法、装置和设备 | |
CN111292756A (zh) | 一种抗压缩音频无声水印嵌入和提取方法及系统 | |
CN115361556A (zh) | 一种基于自适应的高效视频压缩算法及其系统 | |
CN108305219A (zh) | 一种基于不相关稀疏字典的图像去噪方法 | |
CN110648666B (zh) | 一种基于会议概要提升会议转写性能的方法与系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |