CN111883159A - 语音的处理方法及装置 - Google Patents

语音的处理方法及装置 Download PDF

Info

Publication number
CN111883159A
CN111883159A CN202010779319.4A CN202010779319A CN111883159A CN 111883159 A CN111883159 A CN 111883159A CN 202010779319 A CN202010779319 A CN 202010779319A CN 111883159 A CN111883159 A CN 111883159A
Authority
CN
China
Prior art keywords
data
sub
voice
segment
noise
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010779319.4A
Other languages
English (en)
Inventor
聂镭
齐凯杰
聂颖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Longma Zhixin Zhuhai Hengqin Technology Co ltd
Original Assignee
Longma Zhixin Zhuhai Hengqin Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Longma Zhixin Zhuhai Hengqin Technology Co ltd filed Critical Longma Zhixin Zhuhai Hengqin Technology Co ltd
Priority to CN202010779319.4A priority Critical patent/CN111883159A/zh
Publication of CN111883159A publication Critical patent/CN111883159A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise

Abstract

本发明公开了一种语音的处理方法及装置。该发明包括:获取目标语音数据;将目标语音数据切割成多段子语音数据;对多段子语音数据中包含的噪音数据进行识别,并剔除识别出的噪音数据。通过本发明,解决了相关技术中噪音的识别方法效率低下的技术问题。

Description

语音的处理方法及装置
技术领域
本发明涉及语音处理领域,具体而言,涉及一种语音的处理方法及装置。
背景技术
相关技术中,随着语音识别在生活中的应用越来越广泛,各个领域对语音识别的结果越来越重视。语音识别的结果不仅受语言模型的影响,而且与语音的质量也息息相关。但是在实际生产中,录制音频中可能受周围环境干扰导致录制音频中含有大量噪音,因此对噪音数据的剔除也就应运而生。
现有的噪音识别方法中有利用短时能量与平均短时能量的量差提出音频中的噪音,该方法可以有效去除音频信号中的噪音,但是通过现有技术中的去除噪音的技术会发生误判的情况,导致噪音的判断准确率不高。
针对相关技术中存在的上述问题,目前尚未提出有效的解决方案。
发明内容
本发明的主要目的在于提供一种语音的处理方法及装置,以解决相关技术中噪音的识别方法效率低下的技术问题。
为了实现上述目的,根据本发明的一个方面,提供了一种语音的处理方法。该发明包括:获取目标语音数据;将目标语音数据切割成多段子语音数据;对多段子语音数据中包含的噪音数据进行识别,并剔除识别出的噪音数据。
进一步地,获取目标语音数据包括:获取目标语音片段,并根据目标语音片段确定目标语音片段的信息,其中,目标语音片段的信息至少包括目标语音片段的采样位数以及目标语音片段的采样频率;判断目标语音片段的信息是否满足预设需求;如果目标语音片段的信息满足预设需求,则将目标语音片段通过模数转换以转换为目标语音数据。
进一步地,将目标语音数据切割成多段子语音数据包括:利用目标语音数据中包含的静默片段,将目标语音数据切割为多段子语音数据,其中,静默片段的时间为预设时间,静默片段为不包含有效声音的片段。
进一步地,在将目标语音数据切割成多段子语音数据之后,方法包括:对子语音数据进行标注,以获得子语音数据中对应的正常语音时间段和噪音时间段;通过预设手段获得噪音时间段内的音频数值分布情况;通过音频数值分布情况,获得子语音数据中包含的噪音数值和噪音数值的范围。
进一步地,对多段子语音数据中包含的噪音数据进行识别包括:读取子语音数据中包含的多个音频数值,并确定多个音频数值的累加数值;判断累加数值是否大于阈值数值;如果累加数值大于阈值数值,则将子语音数据确定为噪音数据。
进一步地,对多段子语音数据中包含的噪音数据进行识别还包括:对正常语音时间段对应的子语音数据进行识别,并获得识别结果,其中,识别结果至少包括子语音数据中包括的文字个数以及子语音数据对应的语音片段的时长;依据文字个数和语音片段时长,确定正常语音时间段对应的子语音数据中的文字频率;将文字频率与预设文字频率作差;如果文字频率与预设文字频率之差未处于预设范围内,则将正常语音时间段对应的子语音数据确定为噪音数据。
为了实现上述目的,根据本发明的另一方面,提供了一种语音的处理装置。该装置包括:第一获取单元,用于获取目标语音数据;切割单元,用于将目标语音数据切割成多段子语音数据;识别单元,用于对多段子语音数据中包含的噪音数据进行识别,并剔除识别出的噪音数据。
为了实现上述目的,根据本发明的另一方面,提供了一种计算机可读存储介质,该计算机可读存储介质包括存储的程序,其中,在程序运行时控制计算机可读存储介质所在设备执行上述一种语音的处理方法。
为了实现上述目的,根据本发明的另一方面,提供了一种处理器,该处理器用于运行程序,其中,程序运行时执行上述一种语音的处理方法。
通过本发明,采用以下步骤:获取目标语音数据;将目标语音数据切割成多段子语音数据;对多段子语音数据中包含的噪音数据进行识别,并剔除识别出的噪音数据,解决了相关技术中噪音的识别方法效率低下的技术问题,进而降低了噪音数据对实际生产的影响。
附图说明
构成本发明的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例提供的一种语音的处理方法的一种流程示意图;
图2为本发明实施例提供的语音的处理方法的图1中步骤S101的具体流程示意图;
图3为本发明实施例提供的语音的处理方法的图1中步骤S102的具体流程示意图;
图4为本发明实施例提供的语音的处理方法的图1中步骤S102之后的另一种流程示意图;
图5为本发明实施例提供的语音的处理方法的图1中步骤S103的具体流程示意图;
图6为本发明实施例提供的语音的处理方法的图1中步骤S103的另一种流程示意图;
图7是根据本发明实施例提供的一种语音的处理装置的示意图。
具体实施方式
需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
实施例1
根据本发明的实施例,提供了一种语音的处理方法。
根据本发明实施例,提供了一种语音的处理方法的方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图1是根据本发明实施例提供的一种语音的处理方法的一种流程示意图,该方法可以应用于终端设备或者服务器,其中,终端设备可以是桌上型计算机、笔记本、掌上电脑等计算设备,服务器可以是云端服务器等计算设备,如图1所示,该语音的处理方法包括如下步骤:
步骤S101,获取目标语音数据。
可选的,这里的目标语音数据可以为预定对象发出的一段语音。
在该实施例中,当应用于终端设备时,可以采用麦克风或麦克风阵列来获取预定对象发出的额语音;当应用于服务器时,可以从服务器的外围设备(例如,呼叫中心)获取上述预定对象的语音。
在本实施例中,首先需要获取一段待处理语音数据(也即目标语音数据),其中,语音数据可以是任何场景下的语音数据。
可选地,上述语音数据中对于任何语音类型、语音长度等具体要求不做限定,可以为任何类型的语音;另外,在本发明实施例中,对语音的获取来源不做具体限定。
在一种可选的实施例中,参见图2,为本发明实施例提供的语音的处理方法的图1中步骤S101的具体流程示意图,获取目标语音数据,包括:
步骤S201,获取目标语音片段,并根据目标语音片段确定目标语音片段的信息,其中,目标语音片段的信息至少包括目标语音片段的采样位数以及目标语音片段的采样频率;
首先,需要输入一段语音片段,并获得输入的语音片段的采样位数和采样频率等基本信息。
其中,上述采样频率是指单位时间内对模拟信号的采样次数,采样频率越高,声音还原效果越真实,当然采样的数据量也就越多;采样位数是指每个采样点能够表示数据范围,采样位数越大,声音越细腻。
步骤S202,判断目标语音片段的信息是否满足预设需求;
可以理解是,在该实施例中,需要判断语音片段是否满足预设采样频率和预设采样位数的要求。
步骤S203,如果目标语音片段的信息满足预设需求,则将目标语音片段通过模数转换以转换为目标语音数据。
可选的,如果语音片段不满足预设采样频率和预设采样位置,则需要重新导入另一段语音片段。需要说明的是,如果导入的第一段语音片段满足预设需求,则将第一段导入的语音片段转化为目标语音数据,也即通过模数转换,将待处理的语音片段转换为目标语音数据。
上述地,在本实施例中,预设需求至少包括预设采样频率和预设采样位置,同时,在不同场景和要求下,对于待处理的语音片段还可能包括其他预设需求,在本实施例中不做具体的限定。
进一步需要说明的是,在实际生活中,我们所能听到的声音片段的时间都是连续的,上述的语音片段是模拟信号,但是在计算机中音频数据进行存储和处理时,需要将模拟信号转换成数字信号,因此,需要将符合需求的待处理语音片段通过模数转换转换为目标语音数据。
进一步地,如果第一段输入的语音片段不满足预设需求的话,需要重新输入另一段语音片段,在输入另一段语音片段后重复上述步骤S201-步骤S203的步骤。
步骤S102,将目标语音数据切割成多段子语音数据。
在一种可选的实施例中,参见图3,图3为本发明实施例提供的语音的处理方法的图1中步骤S102的具体流程示意图,将目标语音数据切割成多段子语音数据,包括:
步骤S301,利用目标语音数据中包含的静默片段,将目标语音数据切割为多段子语音数据,其中,静默片段的时间为预设时间,静默片段为不包含有效声音的片段。
上述中,利用目标语音数据中包含的静默片段,将目标语音数据切割为多段子语音数据包括以下具体步骤:
第一步:确定静默片段时间,其中,所谓静默片段,就是在此段时间没有声音或者没有人说话,也即没有需要的有效声音出现的片段即为静默片段;
需要说明的是,静默片段时间不易设置过长,时间过长则音频切割后的数据可能仍含有大量的静默时间,无法切割出噪音数据;静默片段时间过短,导致音频切割较为零碎,进行后续工作时降低音频识别效果,优选地,静默片段时间设置为500ms。
第二步:利用静默片段将目标语音数据切割成若干段子语音数据。
还需要说明的是,通过目标语音数据中包括的片段将目标语音数据切割成多个子语音数据,在后期对噪音数据进行识别时,由于将不包含有效声音的静默片段提前切割掉,达到了提高噪音识别的效率。
在一种可选的实施例中,参见图4,为本发明实施例提供的语音的处理方法的图1中步骤S102之后的另一种流程示意图,在将目标语音数据切割成多段子语音数据之后,该方法包括:
步骤S401,对子语音数据进行标注,以获得子语音数据中对应的正常语音时间段和噪音时间段。
可选地,对子语音数据进行标注可以通过人工进行标注,也可以通过机器学习进行标注,其中,在对子语音数据进行标注后,会相应的生成标注音频,通过标注音频对标注出的时间段进行分析,可以获得子语音数据中的包含正常语音信息对应的正常语音时间段和包含噪音片段的噪音时间段。
步骤S402,通过预设手段获得噪音时间段内的音频数值分布情况。
具体地,经过对子语音数据的标注确定出对应的噪音时间段后,需要对噪音时间段对应的语音数据进行处理,也即通过预设手段获取噪音时间段内的音频数值分布情况,其中,噪音时间段内的音频数值分布情况可以通过曲线图也可以通过数值表示展示出来。
其中,优选地,预设手段为投票机制,所谓投票机制就是利用噪音时间段内出现的音频数值实现累加,例如,若在噪音时间段内,其中一个音频数值为100,现有音频数值100的次数为50次,当100再次出现时,数值100的出现次数就变成51。
需要说明的是,除了上述投票机制还可以通过其他技术手段来确定噪音时间段内的音频数值分布情况。
步骤S403,通过音频数值分布情况,获得子语音数据中包含的噪音数值和噪音数值的范围。
通过噪音时间段内的音频数值分布情况至少可以确定子语音数据中包含的噪音数值和噪音数值范围。
因此,通过上述获取噪音时间段内音频数值的分布情况,可以直观的获取到噪音时间段内的声音情况,并可以获得判定噪音的数值依据。
步骤S103,对多段子语音数据中包含的噪音数据进行识别,并剔除识别出的噪音数据。
在一种可选的实施例中,参见图5,为本发明实施例提供的语音的处理方法的图1中步骤S103的具体流程示意图,对多段子语音数据中包含的噪音数据进行识别,包括:
步骤S501,读取子语音数据中包含的多个音频数值,并确定多个音频数值的累加数值。
上述中,在获取子语音数据中的噪音数值和噪音数值范围后,可以通过标注的噪音时间段内包括的音频数值和音频数值范围,确定属于噪音数据对应的数值。
对子语音数据进行二次判断还包括读取子语音数据中包含的多个音频数值,并将多个音频数值进行累加获得累加数值。
步骤S502,判断累加数值是否大于阈值数值。
步骤S503,如果累加数值大于阈值数值,则将子语音数据确定为噪音数据。
具体地,在一个可选的实施例中,如果子语音数据中的音频数值均在噪音数值的范围内,则对子语音数据中的音频数值进行累计,得到累加数值,如果累加数值大于阈值数值,则说明该子语音数据为噪音数据。
本实施例还提供了另一个可选的实施例,其中,判定读取的子语音数据中包含的音频数值是否有属于噪音时间段内的音频数值,如果存在属于噪音时间段内的音频数值,则将该时间点下对应的数据判定为噪音数据。
由于通过上述步骤确定出的噪音数值范围较窄时,容易对信息造成误判,因此通过上述步骤S501-S503对子语音数据进行二次判断。
通过上述两个可选的实施例,可以精确的确定噪音数据,避免由于个别音频数值过高或者过低导致将噪音数据误认为正常语音数据的问题,也避免了由于噪音数值范围较窄时导致的确定噪音数据的精确度低的技术问题。
在另一种可选的实施例中,参见图6,为本发明实施例提供的语音的处理方法的图1中步骤S103的另一种流程示意图,对多段子语音数据中包含的噪音数据进行识别,包括:
步骤S601,对正常语音时间段对应的子语音数据进行识别,并获得识别结果,其中,识别结果至少包括子语音数据中包括的文字个数以及子语音数据对应的语音片段的时长。
步骤S602,依据文字个数和语音片段时长,确定正常语音时间段对应的子语音数据中的文字频率。
步骤S603,将文字频率与预设文字频率作差。
步骤S604,如果文字频率与预设文字频率之差未处于预设范围内,则将正常语音时间段对应的子语音数据确定为噪音数据。
上述地,在对噪音时间段内的音频数值进行判断后,还需要进一步对正常语音时间段内的音频数值进行进一步的判定以进一步精确判定噪音数据以免遗漏造成判定精度较低的问题。
通过确定正常语音时间段对应的子语音数据的文字频率,将确定的文字频率与预设文字频率作差,当两者数值相差较大时(也即两者的差值未处于预设范围内时),则将正常语音时间段内的数据确定为噪音数据,否则为正常音频数据。
例如,业务下计算得到语速为60字/s,但是噪音数据可能会得到80字/s,则在类似情况下即可判断为噪音数据。
其中,预设文字频率是在不同场景下针对不同场景预先设定的,例如,正常讲话语速约280字(含标点)/min,则正常语速每秒钟大概46字/s,但是在电销场景下,业务员需要让客户尽快知道产品信息,因此语速过快,每秒钟说出的文字个数较多;在服务场景下,服务人员要让客户体验感好,因此语速会偏慢。
因此,上述步骤可以解决不同场景下语速不同的问题。
进一步地,将判定出的噪音数据切割掉,返回正常音频数据。
本发明实施例中,可以针对不同场景下音频数据进行噪音信息的判断,首先对音频信息利用静默进行切割,在对切割后的数据进行噪音数据的剔除;利用投票机制获得当前场景下的噪音数据范围,当噪音范围设置较窄时对于会对信息造成误判,因此,再利用语音识别针对正常信号和噪音信号识别出的文字个数存在差距的原理,对音频进行二次判断,进一步准确的筛选出噪音数据,提高了音频信息的预处理结果,降低了噪音数据对实际生产的影响。
需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
实施例2
本发明实施例还提供了一种语音的处理装置,需要说明的是,本发明实施例的Z装置可以用于执行本发明实施例所提供的用于一种语音的处理方法。以下对本发明实施例提供的一种语音的处理装置进行介绍。
图7是根据本发明实施例提供的一种语音的处理装置的示意图。如图7所示,该装置包括:第一获取单元701,用于获取目标语音数据;切割单元702,用于将目标语音数据切割成多段子语音数据;识别单元703,用于对多段子语音数据中包含的噪音数据进行识别,并剔除识别出的噪音数据。
本发明实施例提供的一种语音的处理装置,通过第一获取单元701,用于获取目标语音数据;切割单元702,用于将目标语音数据切割成多段子语音数据;识别单元703,用于对多段子语音数据中包含的噪音数据进行识别,并剔除识别出的噪音数据,解决了相关技术中噪音的识别方法效率低下的技术问题,进而降低了噪音数据对实际生产的影响。
可选地,第一获取单元包括:获取子单元,用于获取目标语音片段,并根据目标语音片段确定目标语音片段的信息,其中,目标语音片段的信息至少包括目标语音片段的采样位数以及目标语音片段的采样频率;第一判断子单元,用于判断目标语音片段的信息是否满足预设需求;转换子单元,用于在目标语音片段的信息满足预设需求的情况下,将目标语音片段通过模数转换以转换为目标语音数据。
可选地,切割单元702包括:切割子单元,用于利用目标语音数据中包含的静默片段,将目标语音数据切割为多段子语音数据,其中,静默片段的时间为预设时间,静默片段为不包含有效声音的片段。
可选地,该装置还包括:标注单元,用于在将目标语音数据切割成多段子语音数据之后,对子语音数据进行标注,以获得子语音数据中对应的正常语音时间段和噪音时间段;第二获取单元,用于通过预设手段获得噪音时间段内的音频数值分布情况;第三获取单元,用于通过音频数值分布情况,获得子语音数据中包含的噪音数值和噪音数值的范围。
可选地,识别单元703包括:第一确定子单元,用于读取子语音数据中包含的多个音频数值,并确定多个音频数值的累加数值;第二判断子单元,用于判断累加数值是否大于阈值数值;第二确定子单元,用于在累加数值大于阈值数值的情况下,将子语音数据确定为噪音数据。
可选地,识别单元703还包括:识别子单元,用于对正常语音时间段对应的子语音数据进行识别,并获得识别结果,其中,识别结果至少包括子语音数据中包括的文字个数以及子语音数据对应的语音片段的时长;第三确定子单元,用于依据文字个数和语音片段时长,确定正常语音时间段对应的子语音数据中文字频率;作差子单元,用于将文字频率与预设文字频率作差;第四确定子单元,用于在文字频率与预设文字频率之差未处于预设范围内的情况下,将正常语音时间段对应的子语音数据确定为噪音数据。
一种语音的处理装置包括处理器和存储器,上述第一获取单元701等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来解决相关技术中噪音的识别方法效率低下的技术问题。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
实施例3
本发明实施例提供了一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时实现一种语音的处理方法。
实施例4
本发明实施例提供了一种处理器,处理器用于运行程序,其中,程序运行时执行一种语音的处理方法。
本发明实施例提供了一种设备,设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序,处理器执行程序时实现以下步骤:获取目标语音数据;将目标语音数据切割成多段子语音数据;对多段子语音数据中包含的噪音数据进行识别,并剔除识别出的噪音数据。
可选地,获取目标语音数据包括:获取目标语音片段,并根据目标语音片段确定目标语音片段的信息,其中,目标语音片段的信息至少包括目标语音片段的采样位数以及目标语音片段的采样频率;判断目标语音片段的信息是否满足预设需求;如果目标语音片段的信息满足预设需求,则将目标语音片段通过模数转换以得到目标语音数据。
可选地,将目标语音数据切割成多段子语音数据包括:利用目标语音数据中包含的静默片段,将目标语音数据切割为多段子语音数据,其中,静默片段的时间为预设时间,静默片段为不包含有效声音的片段。
可选地,在将目标语音数据切割成多段子语音数据之后,方法包括:对子语音数据进行标注,以获得子语音数据中对应的正常语音时间段和噪音时间段;通过预设手段获得噪音时间段内的音频数值分布情况;通过音频数值分布情况,获得子语音数据中包含的噪音数值和噪音数值的范围。
可选地,对多段子语音数据中包含的噪音数据进行识别包括:读取子语音数据中包含的多个音频数值,并确定多个音频数值的累加数值;判断累加数值是否大于阈值数值;如果累加数值大于阈值数值,则将子语音数据确定为噪音数据。
可选地,对多段子语音数据中包含的噪音数据进行识别还包括:对正常语音时间段对应的子语音数据进行识别,并获得识别结果,其中,识别结果至少包括子语音数据中包括的文字个数以及子语音数据对应的语音片段的时长;依据文字个数和语音片段时长,确定正常语音时间段对应的子语音数据中的文字频率;将文字频率与预设文字频率作差;如果文字频率与预设文字频率之差未处于预设范围内,则将正常语音时间段对应的子语音数据确定为噪音数据。本文中的设备可以是服务器、PC、PAD、手机等。
实施例4
本发明还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序:获取目标语音数据;将目标语音数据切割成多段子语音数据;对多段子语音数据中包含的噪音数据进行识别,并剔除识别出的噪音数据。
可选地,获取目标语音数据包括:获取目标语音片段,并根据目标语音片段确定目标语音片段的信息,其中,目标语音片段的信息至少包括目标语音片段的采样位数以及目标语音片段的采样频率;判断目标语音片段的信息是否满足预设需求;如果目标语音片段的信息满足预设需求,则将目标语音片段通过模数转换以得到目标语音数据。
可选地,将目标语音数据切割成多段子语音数据包括:利用目标语音数据中包含的静默片段,将目标语音数据切割为多段子语音数据,其中,静默片段的时间为预设时间,静默片段为不包含有效声音的片段。
可选地,在将目标语音数据切割成多段子语音数据之后,方法包括:对子语音数据进行标注,以获得子语音数据中对应的正常语音时间段和噪音时间段;通过预设手段获得噪音时间段内的音频数值分布情况;通过音频数值分布情况,获得子语音数据中包含的噪音数值和噪音数值的范围。
可选地,对多段子语音数据中包含的噪音数据进行识别包括:读取子语音数据中包含的多个音频数值,并确定多个音频数值的累加数值;判断累加数值是否大于阈值数值;如果累加数值大于阈值数值,则将子语音数据确定为噪音数据。
可选地,对多段子语音数据中包含的噪音数据进行识别还包括:对正常语音时间段对应的子语音数据进行识别,并获得识别结果,其中,识别结果至少包括子语音数据中包括的文字个数以及子语音数据对应的语音片段的时长;依据文字个数和语音片段时长,确定正常语音时间段对应的子语音数据中的文字频率;将文字频率与预设文字频率作差;如果文字频率与预设文字频率之差未处于预设范围内,则将正常语音时间段对应的子语音数据确定为噪音数据。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本发明的实施例可提供为方法、系统或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上仅为本发明的实施例而已,并不用于限制本发明。对于本领域技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本发明的权利要求范围之内。

Claims (10)

1.一种语音的处理方法,其特征在于,包括:
获取目标语音数据;
将所述目标语音数据切割成多段子语音数据;
对多段所述子语音数据中包含的噪音数据进行识别,并剔除识别出的所述噪音数据。
2.根据权利要求1所述的方法,其特征在于,获取目标语音数据包括:
获取目标语音片段,并根据所述目标语音片段确定所述目标语音片段的信息,其中,所述目标语音片段的信息至少包括所述目标语音片段的采样位数以及所述目标语音片段的采样频率;
判断所述目标语音片段的信息是否满足预设需求;
如果所述目标语音片段的信息满足所述预设需求,则将所述目标语音片段通过模数转换以转换为所述目标语音数据。
3.根据权利要求1所述的方法,其特征在于,将所述目标语音数据切割成多段子语音数据包括:
利用所述目标语音数据中包含的静默片段,将所述目标语音数据切割为多段所述子语音数据,其中,所述静默片段的时间为预设时间,所述静默片段为不包含有效声音的片段。
4.根据权利要求1所述的方法,其特征在于,在将所述目标语音数据切割成多段子语音数据之后,所述方法包括:
对所述子语音数据进行标注,以获得所述子语音数据中对应的正常语音时间段和噪音时间段;
通过预设手段获得所述噪音时间段内的音频数值分布情况;
通过所述音频数值分布情况,获得所述子语音数据中包含的噪音数值和所述噪音数值的范围。
5.根据权利要求4所述的方法,其特征在于,对多段所述子语音数据中包含的噪音数据进行识别包括:
读取所述子语音数据中包含的多个音频数值,并确定多个所述音频数值的累加数值;
判断所述累加数值是否大于阈值数值;
如果所述累加数值大于所述阈值数值,则将所述子语音数据确定为所述噪音数据。
6.根据权利要求4所述的方法,其特征在于,对多段所述子语音数据中包含的噪音数据进行识别还包括:
对所述正常语音时间段对应的所述子语音数据进行识别,并获得识别结果,其中,所述识别结果至少包括所述子语音数据中包括的文字个数以及所述子语音数据对应的语音片段的时长;
依据所述文字个数和所述语音片段时长,确定所述正常语音时间段对应的所述子语音数据中的文字频率;
将所述文字频率与预设文字频率作差;
如果所述文字频率与所述预设文字频率之差未处于预设范围内,则将所述正常语音时间段对应的所述子语音数据确定为所述噪音数据。
7.一种语音的处理装置,其特征在于,包括:
第一获取单元,用于获取目标语音数据;
切割单元,用于将所述目标语音数据切割成多段子语音数据;
识别单元,用于对多段所述子语音数据中包含的噪音数据进行识别,并剔除识别出的所述噪音数据。
8.根据权利要求7所述的装置,其特征在于,所述第一获取单元包括:
获取子单元,用于获取目标语音片段,并根据所述目标语音片段确定所述目标语音片段的信息,其中,所述目标语音片段的信息至少包括所述目标语音片段的采样位数以及所述目标语音片段的采样频率;
第一判断子单元,用于判断所述目标语音片段的信息是否满足预设需求;
转换子单元,用于在所述目标语音片段的信息满足所述预设需求的情况下,将所述目标语音片段通过模数转换以转换为所述目标语音数据。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括存储的程序,其中,在所述程序运行时控制所述计算机可读存储介质所在设备执行权利要求1至6中任意一项所述一种语音的处理方法。
10.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行权利要求1至6中任意一项所述一种语音的处理方法。
CN202010779319.4A 2020-08-05 2020-08-05 语音的处理方法及装置 Pending CN111883159A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010779319.4A CN111883159A (zh) 2020-08-05 2020-08-05 语音的处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010779319.4A CN111883159A (zh) 2020-08-05 2020-08-05 语音的处理方法及装置

Publications (1)

Publication Number Publication Date
CN111883159A true CN111883159A (zh) 2020-11-03

Family

ID=73210760

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010779319.4A Pending CN111883159A (zh) 2020-08-05 2020-08-05 语音的处理方法及装置

Country Status (1)

Country Link
CN (1) CN111883159A (zh)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6067517A (en) * 1996-02-02 2000-05-23 International Business Machines Corporation Transcription of speech data with segments from acoustically dissimilar environments
KR20000033530A (ko) * 1998-11-24 2000-06-15 김영환 음성 구간 검출과 스펙트럼 차감법을 이용한 차량 잡음제거방법
JP2008058876A (ja) * 2006-09-04 2008-03-13 Nippon Telegr & Teleph Corp <Ntt> 音声信号区間推定方法、及びその装置とそのプログラムとその記憶媒体
CN103530432A (zh) * 2013-09-24 2014-01-22 华南理工大学 一种具有语音提取功能的会议记录器及语音提取方法
CN105989836A (zh) * 2015-03-06 2016-10-05 腾讯科技(深圳)有限公司 一种语音采集方法、装置及终端设备
CN106100777A (zh) * 2016-05-27 2016-11-09 西华大学 基于语音识别技术的广播保障方法
WO2017031846A1 (zh) * 2015-08-25 2017-03-02 百度在线网络技术(北京)有限公司 噪声消除、语音识别方法、装置、设备及非易失性计算机存储介质
CN106971741A (zh) * 2016-01-14 2017-07-21 芋头科技(杭州)有限公司 实时将语音进行分离的语音降噪的方法及系统
CN110634497A (zh) * 2019-10-28 2019-12-31 普联技术有限公司 降噪方法、装置、终端设备及存储介质
CN111081222A (zh) * 2019-12-30 2020-04-28 北京明略软件系统有限公司 语音识别方法、装置、存储介质以及电子装置

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6067517A (en) * 1996-02-02 2000-05-23 International Business Machines Corporation Transcription of speech data with segments from acoustically dissimilar environments
KR20000033530A (ko) * 1998-11-24 2000-06-15 김영환 음성 구간 검출과 스펙트럼 차감법을 이용한 차량 잡음제거방법
JP2008058876A (ja) * 2006-09-04 2008-03-13 Nippon Telegr & Teleph Corp <Ntt> 音声信号区間推定方法、及びその装置とそのプログラムとその記憶媒体
CN103530432A (zh) * 2013-09-24 2014-01-22 华南理工大学 一种具有语音提取功能的会议记录器及语音提取方法
CN105989836A (zh) * 2015-03-06 2016-10-05 腾讯科技(深圳)有限公司 一种语音采集方法、装置及终端设备
WO2017031846A1 (zh) * 2015-08-25 2017-03-02 百度在线网络技术(北京)有限公司 噪声消除、语音识别方法、装置、设备及非易失性计算机存储介质
CN106971741A (zh) * 2016-01-14 2017-07-21 芋头科技(杭州)有限公司 实时将语音进行分离的语音降噪的方法及系统
CN106100777A (zh) * 2016-05-27 2016-11-09 西华大学 基于语音识别技术的广播保障方法
CN110634497A (zh) * 2019-10-28 2019-12-31 普联技术有限公司 降噪方法、装置、终端设备及存储介质
CN111081222A (zh) * 2019-12-30 2020-04-28 北京明略软件系统有限公司 语音识别方法、装置、存储介质以及电子装置

Similar Documents

Publication Publication Date Title
US10720164B2 (en) System and method of diarization and labeling of audio data
US9875739B2 (en) Speaker separation in diarization
CN108630193A (zh) 语音识别方法及装置
CN111081279A (zh) 语音情绪波动分析方法及装置
CN106504768A (zh) 基于人工智能的电话拨测音频分类方法及装置
CN111785275A (zh) 语音识别方法及装置
CN109710949B (zh) 一种翻译方法及翻译机
JP6495792B2 (ja) 音声認識装置、音声認識方法、プログラム
CN110728996A (zh) 一种实时语音质检方法、装置、设备及计算机存储介质
CN112331188A (zh) 一种语音数据处理方法、系统及终端设备
CN111883159A (zh) 语音的处理方法及装置
CN109213466B (zh) 庭审信息的显示方法及装置
CN111767736A (zh) 事件处理与数据处理方法、设备、系统及存储介质
CN113345437B (zh) 语音打断方法及装置
CN115063155A (zh) 一种数据标注方法、装置、计算机设备及存储介质
CN114446284A (zh) 说话人日志生成方法、装置、计算机设备及可读存储介质
CN109559753B (zh) 语音识别方法和装置
CN112837688A (zh) 语音转写方法、装置、相关系统及设备
CN114065742B (zh) 一种文本检测方法和装置
CN114862111A (zh) 柜员的服务评估方法、装置、存储介质及电子设备
CN113705248A (zh) 一种基于结果评价的话术训练数据处理方法和装置
KR20180038594A (ko) 소리데이터 자동분할 장치 및 방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination