CN117373465B - 一种语音频信号切换系统 - Google Patents
一种语音频信号切换系统 Download PDFInfo
- Publication number
- CN117373465B CN117373465B CN202311679076.7A CN202311679076A CN117373465B CN 117373465 B CN117373465 B CN 117373465B CN 202311679076 A CN202311679076 A CN 202311679076A CN 117373465 B CN117373465 B CN 117373465B
- Authority
- CN
- China
- Prior art keywords
- coding
- target
- mode
- objects
- source
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012545 processing Methods 0.000 claims abstract description 83
- 238000000034 method Methods 0.000 claims abstract description 30
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 13
- 238000013139 quantization Methods 0.000 claims description 9
- 238000004458 analytical method Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000003999 initiator Substances 0.000 description 1
- 238000012806 monitoring device Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/032—Quantisation or dequantisation of spectral components
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/22—Mode decision, i.e. based on audio signal content versus external parameters
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本发明公开了一种语音频信号切换系统,涉及语音频处理技术领域,本发明借助处理终端的常规模式和习惯模式来对目标对象进行编码处理,根据来源对象的个数是否超过预设数量,从而确定采用常规模式还是习惯模式进行处理,常规模式下能够借助选择算法对目标对象进行编码处理;灵活选择最适合用户的编码方式,切合实际使用场景;习惯模式下能够根据用户过往数据快速确定何种编译方式对语音频信号进行编码,本发明简单有效,且易于实用。
Description
技术领域
本发明属于语音频处理技术领域,具体是一种语音频信号切换系统。
背景技术
公开号为CN101964189A的专利公开了一种语音频信号切换方法及装置。语音频信号切换方法,包括:当语音频信号出现切换时,将当前帧语音频信号的第一高频带信号和前M帧语音频信号的第二高频带信号进行加权处理,以得到处理后的第一高频带信号;其中,M大于等于1;将所述处理后的第一高频带信号与所述当前帧语音频信号的第一低频带信号合成宽频带信号。通过根据前M帧语音频信号的第二高频带信号对当前帧的第一高频带信号进行处理,以使前M帧语音频信号的第二高频带信号能平滑过渡到处理后的第一高频带信号,从而能够平滑的进行不同带宽的语音频信号切换,提高了用户接听语音频信号的质量。
基于现有技术中对语音频信号进行处理时,不能针对语音频信号给出合理的编码方式,且不能根据用户的实景环境给出符合用户个人需求的编码处理方式,同时不能对相同场景的语音频信号进行分辨,并自动调用符合用户需求的语音频编码方式的技术问题;本申请提出一种如何根据过往情况,和实时场景还有用户的即时需求,选择最合适的编码方式来对语音频信号进行处理的技术。
发明内容
本发明旨在至少解决现有技术中存在的技术问题之一;
为此,本发明提出了一种语音频信号切换系统,包括:
信号接收端,用于实时采集所需传输的目标对象;
处理终端,借助常规模式和习惯模式来对目标对象进行编码处理;
常规模式:借助选择算法对目标对象进行编码处理;
习惯模式:将实时的目标对象的来源对象与辅助介入端的对比信息进行比较,选中一致来源对象对应的场景信息,根据场景信息内容的两个场景内容与实时的目标对象之间的相似度是否超过B1值,B1为预设数值,当超过B1值时采用此时场景内容对应的确定编码对象,否则采用常规模式来选中确定编码对象对目标对象进行编码处理;
对比信息包括场景信息和对应的来源对象,场景信息包括两个场景内容和确定编码对象;此处来源对象用于形容目标对象的来源,确定编码对象指代为具体的编码方式;场景内容指代为已经处理过的目标对象所处环境的背景音;
所有的场景信息与来源对象融合形成对比信息。
进一步地,确定编码对象包括量化阶距可变的均匀脉冲编码调制PCM、量化阶距固定的非均匀PCM、线性预测编码LPC、隐马尔可夫模型。
进一步地,借助选择算法对目标对象进行编码处理具体方式为:
自动按照维特比算法选择从若干个确定编码对象中选择一个编码方式对目标对象进行处理。
进一步地,处理终端还用于自动获取到若干个能够对目标对象进行处理的潜在处理标的,借助选择算法对目标对象进行编码处理具体方式为:
S1:首先获取到目标对象的来源,将其标记为来源对象;
S2:针对来源对象的首次目标对象,首次指代为在当下时间往前推T1时间内未收到任何其他的目标对象;此处T1为预设数值;
S3:然后借助若干个潜在处理标的对其进行编码处理,编码后得到的内容标记为待行标的,得到若干个待行标的,借助用户从若干个待行标的中选择一个待行标的将其确定为结果,将对应的潜在处理标的标记为确定编码对象;
S4:之后若在T1时间内若相同的来源对象传输其他的目标对象时,采用相同的确定编码对象对其进行处理得到结果,否则按照步骤S3的方式进行处理;
S5:得到处理后的结果。
进一步地,处理终端,借助是否收到习惯信号,来确定是否采用习惯模式对目标对象进行编码处理,未采用习惯模式时采用常规模式对目标对象进行编码处理。
进一步地,处理终端用于将常规模式中对所有的目标对象进行处理的确定编码对象传输到辅助介入端进行存储;
辅助介入端用于从目标对象、确定编码对象中处理出对比信息,并在对比信息中的来源对象超过X1个时,产生习惯信号,X1为预设值;
辅助介入端在产生习惯信号时,会自动将习惯信号传输到处理终端,处理终端接收到习惯信号时,会采用习惯模式对目标对象进行处理,具体处理方式为:
首先根据目标对象获取到其来源对象;
将来源对象与辅助介入端的对比信息进行比较,获取到来源对象一致的对比信息内的场景信息;
获取到场景信息内的任意一个确定编码对象,同时获取到该确定编码对象的两个场景内容;
将此时的目标对象分别与两个场景内容进行比较,得到目标对象与两个场景内容之间的相似度,目标对象和场景内容均为音频;
得到两个相似度,当两个相似度的均值超过B1时,将此时的确定编码对象标记为实时编码对象,否则获取到下一个确定编码对象,重复上述步骤,直到选定实时编码对象;
若此处遍历所有的确定编码对象都无法确定实时编码对象,则自动将本次处理终端对目标对象处理模式切换为常规模式处理;
完成对目标对象的处理,得到处理结果,并将处理结果传输到输出端;
输出端用于输出目标对象。
进一步地,对比信息的获取方式如下:
任选一目标对象对应的来源对象;
获取到该来源对象对应所有的确定编码对象;
之后任选一个来源对象的确定编码对象,获取到采取该确定编码对象的方式来进行编码的两个目标对象,两个目标对象保持距离当下时间点的时长最短;将两个目标对象中的背景音提取出来,将其标记为场景内容,两个场景内容和确定编码对象构成场景信息;
对来源对象的其他确定编码对象按照上述方式进行处理,得到该来源对象的若干个场景信息,所有的场景信息与来源对象融合形成对比信息。
与现有技术相比,本发明的有益效果是:
本申请借助处理终端的常规模式和习惯模式来对目标对象进行编码处理,根据来源对象的个数是否超过预设数量,从而确定采用常规模式还是习惯模式进行处理,常规模式下能够借助选择算法对目标对象进行编码处理;灵活选择最适合用户的编码方式,切合实际使用场景;
习惯模式下能够根据用户过往数据快速确定何种编译方式对语音频信号进行编码,本发明简单有效,且易于实用。
附图说明
图1为本发明实施例一切换系统的结构框图;
图2为本发明实施例二切换系统的结构框图。
具体实施方式
下面将结合实施例对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
实施例一
请参阅图1,本申请提供了一种语音频信号切换系统;
作为本申请的实施例一,本实施例具体包括信号接收端、处理终端、输出端;
其中,信号接收端用于接收所需的语音频信号,当然此处的接收也可以指代为采集,具体通过各类麦克风进行声音的采集,采集到语音频信号,也就是声音,为了便于全文描述,本申请统一将其成为目标对象,将目标对象传输到处理终端;
处理终端针对接收到声音进行处理时,会选择最优的编码方式时,会考虑诸多因素;首先,需要明确编码的目的,即降低传输码率并进行有效的数字传输;因此,对于具有大量冗余成分的信号,应选择能去除这些成分的编码方式,如波形编码。一般情况下,我们可以采用诸如量化阶距可变的均匀脉冲编码调制PCM、量化阶距固定的非均匀PCM、线性预测编码LPC、隐马尔可夫模型HMM和神经网络等;
此处提及的线性预测编码LPC是一种基于语音信号之间存在高度相关性的假设,它利用过去的样本值来预测当前的样本值;这种方法可以有效地减少数据量,因为它只保留了预测误差,而非原始信号的全部信息;
均匀脉冲编码调制PCM和非均匀PCM则是对模拟语音信号进行量化和编码的技术;在均匀PCM中,所有可能的采样值都被等距离地划分成若干个区间,每个采样值都被赋予一个对应的区间编号;而非均匀PCM则根据信号的动态范围进行量化阶距的调整,对于幅度变化大的信号采用小的量化阶距,对于幅度变化小的信号采用大的量化阶距;
除此之外,还有其他一些语音分析技术,例如隐马尔可夫模型HMM和神经网络。在这些方法中,语音识别的本质是一种基于语音特征参数的模式识别,系统通过学习能够把输入的语音按一定模式进行分类,依据判定准则找出最佳匹配结果;
因此,为了便于描述,此处将所有的编码方式标记为潜在处理标的,处理终端会自动获取到若干个能够对目标对象进行处理的潜在处理标的,并进行相关抉择分析,抉择分析具体方式为:
S1:首先获取到目标对象的来源,将其标记为来源对象;
S2:针对来源对象的首次目标对象,首次指代为在当下时间往前推T1时间内未收到任何其他的目标对象;此处T1为预设数值;
S3:然后借助若干个潜在处理标的对其进行编码处理,编码后得到的内容标记为待行标的,得到若干个待行标的,借助用户从若干个待行标的中选择一个待行标的将其确定为结果,将对应的潜在处理标的标记为确定编码对象;
S4:之后若在T1时间内若相同的来源对象传输其他的目标对象时,采用相同的确定编码对象对其进行处理得到结果,否则按照步骤S3的方式进行处理;
S5:得到处理后的结果。
处理终端用于将结果传输到输出端。
此处采用临时借助每一种编码方式对其进行处理,处理后得到最需要的那条,之后在环境不便的情况下,持续采用相同方式进行处理;此处唯一一点就是此时会生成一个快速确认码,便于确定所需方式,生成处理后的列表,列表性处理;
实施例二
如图2所示,作为本申请的实施例二,本申请还包括信号接收端、处理终端、辅助介入端和输出端;
其中,信号接收端用于实时采集所需传输的语音频信号,将其标记为目标对象,并将目标对象传输到处理终端,处理终端用于对目标对象进行分析处理,具体处理方式为:
首先,验证此时模式,在处理终端采用常规模式时,自动按照维特比算法选择编码方式对目标对象进行处理,将此处的编码方式标记为确定编码对象;
此时会保存目标对象及对应的确定编码对象,从目标对象里面提取到对应的来源对象,来源对象为目标对象的来源,来源对象也就是声音产生的对象,此处若是具体举例则可以理解为,如果是针对即时通话,那么通话发起方可以认定为来源对象,如果是在某处设置的监控设备的麦克风采集到的声音则可以理解为对应监控的场景为来源对象,简单理解的话,可以给接收到的每个音源的麦克风给予编号,每个麦克风会处于固定或者非固定的环境下采集声音,这里麦克风可以理解为来源对象;
之后处理终端用于将所有的目标对象、确定编码对象和来源对象传输到辅助介入端进行存储;
辅助介入端用于从目标对象、确定编码对象和来源对象中处理出对比信息,具体处理方式为:
任选一来源对象;
获取到该来源对象对应所有的确定编码对象,每个确定编码对象都针对了同一个来源对象的不同场景;来源对象在不同的背景、场地的时候,会因为传输过来的声音也就是目标对象不同,因为包含了背景音不同,需要处理的方式也就不同;
之后任选一个来源对象的确定编码对象,获取到采取该确定编码对象的方式来进行编码的两个目标对象,两个目标对象保持距离当下时间点的时长最短;将两个目标对象中的背景音提取出来,将其标记为场景内容,两个场景内容和确定编码对象构成场景信息;此处提取背景音采用现有技术进行,故此不做具体赘述;
对来源对象的其他确定编码对象按照上述方式进行处理,得到该来源对象的若干个场景信息,所有的场景信息与来源对象融合形成对比信息;
当对比信息中的来源对象超过X1个时,产生习惯信号;
辅助介入端在产生习惯信号时,会自动将习惯信号传输到处理终端,处理终端接收到习惯信号时,会采用习惯模式对目标对象进行处理,具体处理方式为:
首先根据目标对象获取到其来源对象;
将来源对象与辅助介入端的对比信息进行比较,获取到来源对象一致的对比信息内的场景信息;
获取到场景信息内的任意一个确定编码对象,同时获取到该确定编码对象的两个场景内容;
将此时的目标对象分别与两个场景内容进行比较,得到目标对象与两个场景内容之间的相似度,目标对象和场景内容均为音频;音频之间相似度比较方式采用现有技术,例如从音频中提取有代表性的特征,这些特征可能包括音频信号的包络、短时能量、基频、梅尔频率倒谱系数(MFCC)、线性预测倒谱系数(LPCC)等,特定的情境下,例如没有人声的情况下,可能需要从音频的短时能量和时频的pitch和频率上进行重点判断,一旦提取了音频的特征,接下来就是利用特定的算法或方法来比较这些特征的差异,例如,可以利用DTW(DynamicTimeWarping)算法来计算两个音频信号之间的DTW距离,并返回相似度得分;当然也可以应用一些特定的技术,如使用simhash算法,该算法通过傅里叶变换处理声波的形状,然后根据海明距离计算相似度,这种方法的速度非常快。另外,对于较长的音频,可以使用滑窗的方式来分割音频,把每段音频看作一个样本进行比较;
得到两个相似度,当两个相似度的均值超过B1时,B1为预设数值;将此时的确定编码对象标记为实时编码对象,否则获取到下一个确定编码对象,重复上述步骤,直到选定实时编码对象;
若此处遍历所有的确定编码对象都无法确定实时编码对象,则自动将本次处理终端对目标对象处理模式切换为常规模式处理;
完成对目标对象的处理,得到处理结果,并将处理结果传输到输出端;
输出端用于输出目标对象。
作为本申请的实施例三,实施例二中在常规模式下对目标对象进行编码的方式由现有技术可以替换为实施例一中公开的方法进行。
上述公式中的部分数据均是去除量纲取其数值计算,公式是由采集的大量数据经过软件模拟得到最接近真实情况的一个公式;公式中的预设参数和预设阈值由本领域的技术人员根据实际情况设定或者通过大量数据模拟获得。
以上实施例仅用以说明本发明的技术方法而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方法进行修改或等同替换,而不脱离本发明技术方法的精神和范围。
Claims (4)
1.一种语音频信号切换系统,其特征在于,包括:
信号接收端,用于实时采集所需传输的目标对象;
处理终端,借助常规模式和习惯模式来对目标对象进行编码处理;
常规模式:借助选择算法对目标对象进行编码处理,具体方式为:
自动按照维特比算法选择从若干个确定编码对象中选择一个编码方式对目标对象进行处理;
习惯模式:将实时的目标对象的来源对象与辅助介入端的对比信息进行比较,选中一致来源对象对应的场景信息,根据场景信息内容的两个场景内容与实时的目标对象之间的相似度是否超过B1值,B1为预设数值,当超过B1值时采用此时场景内容对应的确定编码对象,否则采用常规模式来选中确定编码对象对目标对象进行编码处理;
对比信息包括场景信息和对应的来源对象,场景信息包括两个场景内容和确定编码对象;此处来源对象用于形容目标对象的来源,确定编码对象指代为具体的编码方式;场景内容确定方式为:通过任选一个来源对象的确定编码对象,获取到采取该确定编码对象的方式来进行编码的两个目标对象,两个目标对象保持距离当下时间点的时长最短;将两个目标对象中的背景音提取出来,将其标记为场景内容;
所有的场景信息与来源对象融合形成对比信息;
所述处理终端在收到习惯信号时采用习惯模式对目标对象进行编码处理,未采用习惯模式时,采用常规模式对目标对象进行编码处理;
处理终端用于将常规模式中对所有的目标对象进行处理的确定编码对象传输到辅助介入端进行存储;
辅助介入端用于从目标对象、确定编码对象中处理出对比信息,并在对比信息中的来源对象超过X1个时,产生习惯信号,X1为预设值;
辅助介入端在产生习惯信号时,会自动将习惯信号传输到处理终端,处理终端接收到习惯信号时,会采用习惯模式对目标对象进行处理,具体处理方式为:
首先根据目标对象获取到其来源对象;
将来源对象与辅助介入端的对比信息进行比较,获取到来源对象一致的对比信息内的场景信息;
获取到场景信息内的任意一个确定编码对象,同时获取到该确定编码对象的两个场景内容;
将此时的目标对象分别与两个场景内容进行比较,得到目标对象与两个场景内容之间的相似度,目标对象和场景内容均为音频;
得到两个相似度,当两个相似度的均值超过B1时,将此时的确定编码对象标记为实时编码对象,否则获取到下一个确定编码对象,重复上述步骤,直到选定实时编码对象;
若此处遍历所有的确定编码对象都无法确定实时编码对象,则自动将本次处理终端对目标对象处理模式切换为常规模式处理;
完成对目标对象的处理,得到处理结果,并将处理结果传输到输出端;
输出端用于输出目标对象。
2.根据权利要求1所述的一种语音频信号切换系统,其特征在于,所述确定编码对象包括量化阶距可变的均匀脉冲编码调制PCM、量化阶距固定的非均匀PCM、线性预测编码LPC、隐马尔可夫模型。
3.根据权利要求2所述的一种语音频信号切换系统,其特征在于,借助选择算法对目标对象进行编码处理还可以采用如下方式,具体为:
S1:首先获取到目标对象的来源,将其标记为来源对象;
S2:针对来源对象的首次目标对象,首次指代为在当下时间往前推T1时间内未收到任何其他的目标对象;此处T1为预设数值;
S3:然后借助若干个潜在处理标的对其进行编码处理,编码后得到的内容标记为待行标的,得到若干个待行标的,借助用户从若干个待行标的中选择一个待行标的将其确定为结果,将对应的潜在处理标的标记为确定编码对象;
S4:之后若在T1时间内若相同的来源对象传输其他的目标对象时,采用相同的确定编码对象对其进行处理得到结果,否则按照步骤S3的方式进行处理;
S5:得到处理后的结果。
4.根据权利要求1所述的一种语音频信号切换系统,其特征在于,所述对比信息的获取方式如下:
任选一目标对象对应的来源对象;
获取到该来源对象对应所有的确定编码对象;
之后任选一个来源对象的确定编码对象,获取到采取该确定编码对象的方式来进行编码的两个目标对象,两个目标对象保持距离当下时间点的时长最短;将两个目标对象中的背景音提取出来,将其标记为场景内容,两个场景内容和确定编码对象构成场景信息;
对来源对象的其他确定编码对象按照上述方式进行处理,得到该来源对象的若干个场景信息,所有的场景信息与来源对象融合形成对比信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311679076.7A CN117373465B (zh) | 2023-12-08 | 2023-12-08 | 一种语音频信号切换系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311679076.7A CN117373465B (zh) | 2023-12-08 | 2023-12-08 | 一种语音频信号切换系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117373465A CN117373465A (zh) | 2024-01-09 |
CN117373465B true CN117373465B (zh) | 2024-04-09 |
Family
ID=89406353
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311679076.7A Active CN117373465B (zh) | 2023-12-08 | 2023-12-08 | 一种语音频信号切换系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117373465B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101964189A (zh) * | 2010-04-28 | 2011-02-02 | 华为技术有限公司 | 语音频信号切换方法及装置 |
CN102959873A (zh) * | 2010-07-05 | 2013-03-06 | 日本电信电话株式会社 | 编码方法、解码方法、装置、程序及记录介质 |
CN103826121A (zh) * | 2013-12-20 | 2014-05-28 | 电子科技大学 | 低延迟视频编码基于场景切换检测的码率控制方法 |
CN109273017A (zh) * | 2018-08-14 | 2019-01-25 | Oppo广东移动通信有限公司 | 编码控制方法、装置以及电子设备 |
WO2022062942A1 (zh) * | 2020-09-22 | 2022-03-31 | 华为技术有限公司 | 音频编解码方法和装置 |
CN116913293A (zh) * | 2023-06-25 | 2023-10-20 | 瑞声开泰声学科技(上海)有限公司 | 一种多声道音频的混合模式编码方法、装置、设备及介质 |
WO2023216119A1 (zh) * | 2022-05-10 | 2023-11-16 | 北京小米移动软件有限公司 | 音频信号编码方法、装置、电子设备和存储介质 |
-
2023
- 2023-12-08 CN CN202311679076.7A patent/CN117373465B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101964189A (zh) * | 2010-04-28 | 2011-02-02 | 华为技术有限公司 | 语音频信号切换方法及装置 |
CN102959873A (zh) * | 2010-07-05 | 2013-03-06 | 日本电信电话株式会社 | 编码方法、解码方法、装置、程序及记录介质 |
CN103826121A (zh) * | 2013-12-20 | 2014-05-28 | 电子科技大学 | 低延迟视频编码基于场景切换检测的码率控制方法 |
CN109273017A (zh) * | 2018-08-14 | 2019-01-25 | Oppo广东移动通信有限公司 | 编码控制方法、装置以及电子设备 |
WO2022062942A1 (zh) * | 2020-09-22 | 2022-03-31 | 华为技术有限公司 | 音频编解码方法和装置 |
CN114299967A (zh) * | 2020-09-22 | 2022-04-08 | 华为技术有限公司 | 音频编解码方法和装置 |
WO2023216119A1 (zh) * | 2022-05-10 | 2023-11-16 | 北京小米移动软件有限公司 | 音频信号编码方法、装置、电子设备和存储介质 |
CN116913293A (zh) * | 2023-06-25 | 2023-10-20 | 瑞声开泰声学科技(上海)有限公司 | 一种多声道音频的混合模式编码方法、装置、设备及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN117373465A (zh) | 2024-01-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108922538B (zh) | 会议信息记录方法、装置、计算机设备及存储介质 | |
US6954745B2 (en) | Signal processing system | |
CN108900725B (zh) | 一种声纹识别方法、装置、终端设备及存储介质 | |
KR970001165B1 (ko) | 대화자 훈련의 음성 인식기 및 그 사용방법 | |
KR100636317B1 (ko) | 분산 음성 인식 시스템 및 그 방법 | |
US5715372A (en) | Method and apparatus for characterizing an input signal | |
US7266494B2 (en) | Method and apparatus for identifying noise environments from noisy signals | |
EP1995723B1 (en) | Neuroevolution training system | |
WO2022213787A1 (zh) | 音频编码方法、音频解码方法、装置、计算机设备、存储介质及计算机程序产品 | |
CN1215491A (zh) | 语言处理 | |
CN111863033B (zh) | 音频质量识别模型的训练方法、装置、服务器和存储介质 | |
CN107293306B (zh) | 一种基于输出的客观语音质量的评估方法 | |
KR20000022351A (ko) | 음성 구간 검출 방법과 시스템 및 그 음성 구간 검출 방법과 시스템을 이용한 음성 속도 변환 방법과 시스템 | |
CN111145763A (zh) | 一种基于gru的音频中的人声识别方法及系统 | |
Illium et al. | Surgical mask detection with convolutional neural networks and data augmentations on spectrograms | |
CN112802498B (zh) | 语音检测方法、装置、计算机设备和存储介质 | |
JP4696418B2 (ja) | 情報検出装置及び方法 | |
KR100827097B1 (ko) | 음성신호 전처리를 위한 가변 길이의 프레임 결정 방법과이를 이용한 음성신호 전처리 방법 및 장치 | |
CN117373465B (zh) | 一种语音频信号切换系统 | |
JP3607450B2 (ja) | オーディオ情報分類装置 | |
JP2003524218A (ja) | Tesparパラメータでトレーニングされたhmmを用いる発話処理 | |
RU2317595C1 (ru) | Способ обнаружения пауз в речевых сигналах и устройство его реализующее | |
CN115240645A (zh) | 基于注意力重打分的流式语音识别方法 | |
CN113990325A (zh) | 流式语音识别方法及装置、电子设备、存储介质 | |
JPH01204099A (ja) | 音声認識装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |