CN111583934A - 一种数据处理方法及装置 - Google Patents
一种数据处理方法及装置 Download PDFInfo
- Publication number
- CN111583934A CN111583934A CN202010364684.9A CN202010364684A CN111583934A CN 111583934 A CN111583934 A CN 111583934A CN 202010364684 A CN202010364684 A CN 202010364684A CN 111583934 A CN111583934 A CN 111583934A
- Authority
- CN
- China
- Prior art keywords
- voice
- signal
- tail point
- determining
- voice signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 34
- 238000012545 processing Methods 0.000 claims abstract description 41
- 238000000034 method Methods 0.000 claims abstract description 34
- 238000001914 filtration Methods 0.000 claims description 8
- 238000012217 deletion Methods 0.000 claims description 6
- 230000037430 deletion Effects 0.000 claims description 6
- 238000010586 diagram Methods 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000002452 interceptive effect Effects 0.000 description 4
- 230000001960 triggered effect Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 230000002618 waking effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
本申请公开了一种数据处理方法及装置,方法包括:获取语音信息,并对所述语音信息进行声纹识别;在所述声纹识别结果表征所述语音信息中包含符合至少两个不同的声纹的语音信号的情况下,将所述至少两个不同的声纹对应的语音信号中符合预设条件的语音信号确定为第一语音信号;确定语音尾点的位置,所述语音尾点的位置与所述第一语音信号的结束时刻具有对应关系。所述数据处理方法及装置会对采集到的语音信息进行声纹识别,依据一定条件确定出语音信息中的有效语音信号,进而根据有效语音信号的结束时刻确定语音尾点,从而能够屏蔽掉语音尾点后与正确控制指令无关的语音信号,有助于提升语音识别的准确率。
Description
技术领域
本申请涉及数据处理技术,更具体的说,是涉及一种数据处理方法、装置及电子设备。
背景技术
目前许多的电子设备都具备语音识别技术,以为用户提供更加方便的语音服务。当前的语音识别技术中,基于自然语言识别来确定语音尾点,这种实现方式在环境中存在多个人的声音,或在环境存在干扰声音的情况下,就会出现语音尾点的识别错误,影响语音识别的准确率。
发明内容
有鉴于此,本申请提供如下技术方案:
一种数据处理方法,包括:
获取语音信息,并对所述语音信息进行声纹识别;
在所述声纹识别结果表征所述语音信息中包含符合至少两个不同的声纹的语音信号的情况下,将所述至少两个不同的声纹对应的语音信号中符合预设条件的语音信号确定为第一语音信号;
确定语音尾点的位置,所述语音尾点的位置与所述第一语音信号的结束时刻具有对应关系。
可选的,将所述至少两个不同的声纹对应的语音信号中符合预设条件的语音信号确定为第一语音信号,包括:
将所述至少两个不同的声纹对应的语音信号中出现时间最早的语音信号或对应声纹与设定声纹匹配的语音信号确定为第一语音信号。
可选的,所述确定语音尾点的位置,包括:
将所述第一语音信号的结束时刻对应位置确定为语音尾点的位置;或,
将所述第一语音信号的结束时刻后按照第一规则确认的位置确定为语音尾点的位置。
可选的,在确定语音尾点的位置后,还包括:
将所述语音尾点前的语音段中除第一语音信号之外的语音信号删除和/或做静音处理,所述静音处理包括滤波处理。
可选的,所述将所述语音尾点前的语音段中除第一语音信号之外的语音信号删除和/或做静音处理,包括:
将所述语音尾点前的语音段中,与所述第一语音信号在时间维度上存在叠加的其他语音信号做滤波处理;和/或与所述第一语音信号在时间维度上不存在叠加的其他语音信号删除。
可选的,在所述将所述语音尾点前的语音段中除第一语音信号之外的语音信号删除和/或做静音处理后,还包括:
对处理后的语音段中的所述第一语音信号进行语义识别。
可选的,还包括:
在获取语音信息的过程中,实时的对获取的所述语音信息进行声纹识别。
可选的,还包括:
获取第一用户的声纹作为设定声纹。
可选的,在所述获取语音信息前,还包括:
获取语音采集指令;
对所述语音采集指令进行声纹识别,将所述语音采集指令对应的声纹确定为设定声纹。
本申请还公开了一种数据处理装置,包括:
语音处理模块,用于获取语音信息,并对所述语音信息进行声纹识别;
语音确定模块,用于在所述声纹识别结果表征所述语音信息中包含符合至少两个不同的声纹的语音信号的情况下,将所述至少两个不同的声纹对应的语音信号中符合预设条件的语音信号确定为第一语音信号;
尾点确定模块,用于确定语音尾点的位置,所述语音尾点的位置与所述第一语音信号的结束时刻具有对应关系。
经由上述的技术方案可知,与现有技术相比,本申请实施例公开了一种数据处理方法及装置,方法包括:获取语音信息,并对所述语音信息进行声纹识别;在所述声纹识别结果表征所述语音信息中包含符合至少两个不同的声纹的语音信号的情况下,将所述至少两个不同的声纹对应的语音信号中符合预设条件的语音信号确定为第一语音信号;确定语音尾点的位置,所述语音尾点的位置与所述第一语音信号的结束时刻具有对应关系。所述数据处理方法及装置会对采集到的语音信息进行声纹识别,依据一定条件确定出语音信息中的有效语音信号,进而根据有效语音信号的结束时刻确定语音尾点,从而能够屏蔽掉语音尾点后与正确控制指令无关的语音信号,有助于提升语音识别的准确率。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请实施例公开的一种数据处理方法的流程图;
图2为本申请实施例公开的两种声纹对应的语音信号示意图;
图3为本申请实施例公开的第二种数据处理方法的流程图;
图4为本申请实施例公开的两段第一语音信号间存在其他语音信号的示意图;
图5为图4所示语音信号处理后的语音信号示意图;
图6为本申请实施例公开的第三种数据处理方法的流程图;
图7为本申请实施例公开的第四种数据处理方法的流程图;
图8为本申请实施例公开的一种数据处理装置的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
图1为本申请实施例公开的一种数据处理方法的流程图,参见图1所示,数据处理方法可以包括:
步骤101:获取语音信息,并对所述语音信息进行声纹识别。
本申请实施例公开的数据处理方法可用于任何具有语音功能的电子设备,用于对采集获取到的语音信息进行识别处理,整体上提升目标用户(正在使用前述具有语音功能的电子设备的用户)的语音识别准确率。
本申请实施例中,在获取环境中的语音信息的过程中,可实时的对获取的语音信息进行声纹识别,以分析出采集到的语音信息的来源。需要说明的是,声纹是用电声学仪器显示的携带言语信息的声波频谱,具有特定性和稳定性,不同人的声纹具有不同的声纹特征,在很大程度上,一个人的声纹具有唯一的识别性。基于此,本申请实施例对获取的语音信息进行声纹识别,能够很好的判断获取的语音信息的来源是否仅包含一个人,或包含两个人或多个人。
步骤102:在所述声纹识别结果表征所述语音信息中包含符合至少两个不同的声纹的语音信号的情况下,将所述至少两个不同的声纹对应的语音信号中符合预设条件的语音信号确定为第一语音信号。
基于前述声纹特征的相关内容,在语音信息中包含符合至少两个不同的声纹的语音信号的情况下,说明获取到的语音信息中包含至少两个人的声音,一个人对应语音信息中的一个特定的声纹。
在前述至少两个人中,通常仅有一人为当前运行语音识别功能的电子设备的用户,该用户输入的语音信号为控制电子设备的语音指令,而用户之外的其他人的语音信号则为干扰语音信号。在所述声纹识别结果表征所述语音信息中包含符合至少两个不同的声纹的语音信号的情况下,需要从获取的语音信息中确定出电子设备真正用户的语音信号作为第一语音信号,以便于后续能够对第一语音信号进行准确的识别。
本实施例中,确定第一语音信号可以依据预设条件来进行。当然,在不同的实现中,预设条件包含的内容也不相同,在后面的实施例中,将对预设条件的不同实现做具体介绍。
步骤103:确定语音尾点的位置,所述语音尾点的位置与所述第一语音信号的结束时刻具有对应关系。
在实际应用中,经常出现用户在向电子设备发出语音指令后,紧接着有其他人说话,而其他人的语音信号与用户的语音信号连接在一起,使得电子设备无法及时确定有效语音(电子设备用户输入的语音指令)的尾点,持续采集环境语音信息,直至环境中没有人继续说话,或达到语音采集时限;因此,本实施例中,在前述确定出第一语音信号后,即确定电子设备真正的用户后,可以基于第一语音信号的结束时间来确定语音尾点,保证语音尾点的准确性,准确的语音尾点能够排除一些干扰语音信号,进而提升语音识别结果的准确率。
图2为本申请实施例公开的两种声纹对应的语音信号示意图,其中左侧颜色较亮的语音信号为用户的语音信号,对应的语音内容为“调大音量”;右侧颜色较暗的语音信号为干扰语音信号,对应的语音内容为“我要去开会”;若按当前技术处理,语音尾点位置如位置1所示;采用本申请实施例公开的数据处理方法,确定的语音尾点位置如位置2所示。将位置2确定为语音尾点位置,电子设备仅对语音尾点前的语音信号进行识别,屏蔽掉语音尾点后的干扰语音信号,仅识别“调大音量”,而不会识别“调大音量我要去开会”,避免无法识别语义,从而提升语音识别准确率。
需要说明的是,在当前多人说话的环境中,语音尾点也仅是在环境中无人说话时触发,或在多人持续说话的过程中,到达语音采集时限时自动触发,并没有从多人的语音信号中确定有效语音信号(第一语音信号)的相关实现。而且为了提升语音识别准确率,技术人员通常的研究方向是从语音采集质量、语义理解方面着手,并不容易想到利用声纹进行语音尾点的确定进而间接提升语音识别的准确率。
本实施例所述数据处理方法会对采集到的语音信息进行声纹识别,依据一定条件确定出语音信息中的有效语音信号,进而根据有效语音信号的结束时刻确定语音尾点,从而能够屏蔽掉语音尾点后与正确控制指令无关的语音信号,有助于提升语音识别的准确率。
上述实施例中,将至少两个不同的声纹对应的语音信号中符合预设条件的语音信号确定为第一语音信号,可以包括:将所述至少两个不同的声纹对应的语音信号中出现时间最早的语音信号或对应声纹与设定声纹匹配的语音信号确定为第一语音信号。
通常情况下,用户在说出唤醒词后,会马上输入语音控制指令,因此在实际应用中,可以将最早获取的语音信号认为是真正的用户的语音信号,从而将至少两个不同的声纹对应的语音信号中出现时间最早的语音信号确定为第一语音信号。
或者,一些实现中,可以预先在电子设备中配置好设定声纹,该设定声纹可以是用户的声纹,这样则可以直接将至少两个不同的声纹对应的语音信号中与设定声纹匹配的语音信号确定为第一语音信号。
上述实施例中,确定语音尾点的位置,包括:将所述第一语音信号的结束时刻对应位置确定为语音尾点的位置;或,将所述第一语音信号的结束时刻后按照第一规则确认的位置确定为语音尾点的位置。
在一个示意性的示例中,确定语音尾点的位置可以直接将第一语音信号的结束时刻对应的位置确定为语音尾点,及时隔离第一语音信号结束后其他无用的干扰语音信号。
在另一个示意性的示例中,确定语音尾点的位置也可以将第一语音信号的结束时刻后按照第一规则确认的位置确定为语音尾点的位置。考虑到实际情况中,用户在输入语音指令的过程中可能有短暂的停顿,因此本实现中不直接将第一语音信号的结束时间对应位置确定为语音尾点位置,而可以依据一定规则确定语音尾点位置;如将第一语音信号的结束时刻延长固定时段后对应的位置确定为语音尾点,以保证第一语音信号的完整性和真正结束。
图3为本申请实施例公开的第二种数据处理方法的流程图,如图3所示,数据处理方法可以包括:
步骤301:获取语音信息,并对所述语音信息进行声纹识别。
步骤302:在所述声纹识别结果表征所述语音信息中包含符合至少两个不同的声纹的语音信号的情况下,将所述至少两个不同的声纹对应的语音信号中符合预设条件的语音信号确定为第一语音信号。
步骤303:确定语音尾点的位置,所述语音尾点的位置与所述第一语音信号的结束时刻具有对应关系。
步骤304:将所述语音尾点前的语音段中除第一语音信号之外的语音信号删除和/或做静音处理,所述静音处理包括滤波处理。
实际场景中,其他人可能在电子设备用户输入语音指令的过程中已经开始讲话,因此在确定了语音尾点的位置后,为了进一步排除干扰语音信号,可以将语音尾点前的语音段中除第一语音信号之外的语音信号删除和/或做静音处理,使得处理后的语音信息中仅包含第一语音信号,即用户的语音指令内容,后续仅对用户的语音进行识别,准确识别出用户的语音控制指令。
上述将语音尾点前的语音段中除第一语音信号之外的语音信号删除和/或做静音处理,可以包括:将语音尾点前的语音段中,与所述第一语音信号在时间维度上存在叠加的其他语音信号做滤波处理;和/或与所述第一语音信号在时间维度上不存在叠加的其他语音信号删除。
第一语音信号在时间维度上存在叠加的其他语音信号,即同一时刻用户存在语音输入,其他人也存在语音输入,这种的情况下,不能够直接对存在其他语音信号的语音段进行删除,因为这样会同时删除掉用户的语音信号,从而需要对其他语音信号进行静音处理,使得在前述存在叠加情况的时间对应的语音段中仅包含第一语音信号。
与第一语音信号在时间维度上不存在叠加的其他语音信号,则可以直接对其进行删除处理,使得该删除的语音信号前的第一语音信号直接与其后的第一语音信号拼接起来,该过程可以理解为选取有效语音段的过程。图4为本申请实施例公开的两段第一语音信号间存在其他语音信号的示意图,图5为图4所示语音信号处理后的语音信号示意图,其中将两段第一语音信号之间的其他语音信号对应的语音段删除,并将前后两段第一语音信号直接拼接到一起,可结合图4和图5所示内容理解对其他语音信号的删除处理。
另一个实现中,在上述本申请公开的实施例的基础上,在将所述语音尾点前的语音段中除第一语音信号之外的语音信号删除和/或做静音处理后,还可以包括:对处理后的语音段中的所述第一语音信号进行语义识别。
处理后的语音段,即语音尾点前的、且对其他语音信号进行删除和/或静音处理后的语音段,其中仅包括第一语音信号。由于处理后的语音段已经将其他干扰语音信号去除,这时在对处理后的第一语音信号进行语义识别,就能够识别出准确的语音控制指令。
基于上述各个实施例公开的内容,一个实现中,数据处理方法还可以包括:在获取语音信息的过程中,实时的对获取的所述语音信息进行声纹识别。
实时的对获取的语音信息进行声纹识别,能够尽早的确定出第一语音信号,后续在检测到第一语音信号结束的情况下,及时的触发语音尾点,即确定语音尾点位置,有利于高效准确的完成语音识别任务。
图6为本申请实施例公开的第三种数据处理方法的流程图,如图3所示,数据处理方法可以包括:
步骤601:获取第一用户的声纹作为设定声纹。
本实施例中,可以预先获取第一用户的声纹作为设定声纹,该第一用户可以认定为电子设备的真正用户。这样,后续在获取到的语音信息中存在符合至少两个不同的声纹的语音信号的情况下,即环境中包含第一用户和其他人员的声音时,能够直接将语音信息中与设定声纹匹配的语音信号确定为第一语音信号。
步骤602:获取语音信息,并对所述语音信息进行声纹识别。
步骤603:在所述声纹识别结果表征所述语音信息中包含符合至少两个不同的声纹的语音信号的情况下,将所述至少两个不同的声纹对应的语音信号中出现时间最早的语音信号或对应声纹与设定声纹匹配的语音信号确定为第一语音信号。
步骤604:确定语音尾点的位置,所述语音尾点的位置与所述第一语音信号的结束时刻具有对应关系。
本实施例中,在电子设备系统中预先配置好了设定声纹,这样后续在环境中存在多人的声音时,能够依据设定声纹直接确定出第一语音信号,便于快速直接的进行尾点确定,高效准确的进行语音识别。
图7为本申请实施例公开的第四种数据处理方法的流程图,参见图7所示,数据处理方法可以包括:
步骤701:获取语音采集指令。
通常情况下,用户在通过唤醒词唤醒电子设备后,会继续对电子设备发出语音控制指令,例如“将音量放大”。因此,本实例中的语音采集指令可以是电子设备的唤醒词,如每当用户说出“小爱同学”时,设备认为用户需要输入语音控制指令,因此用户说出的唤醒词,可以理解为本实施例中所述的语音采集指令。
当然,本申请实施例中,对语音采集指令并不做固定限制,其可以是电子设备的唤醒词,也可以是其他特定的指令,如语音指令、动作指令、手势指令等,只要能够挺过该指令使电子设备了解接下来需要采集用户的语音控制指令即可。当然,本实现中,由于后续需要对语音采集指令进行声纹识别,因此这里的指令为唤醒词或语音指令。
步骤702:对所述语音采集指令进行声纹识别,将所述语音采集指令对应的声纹确定为设定声纹。
发出语音采集指令的人是想要控制电子设备的人,因此可以将发出语音采集指令的人认定为电子设备的用户,将其输入的语音的声纹确定为设定声纹,后续仅针对设定声纹对应的语音信号进行语音识别处理。
步骤703:获取语音信息,并对所述语音信息进行声纹识别。
步骤704:在所述声纹识别结果表征所述语音信息中包含符合至少两个不同的声纹的语音信号的情况下,将所述至少两个不同的声纹对应的语音信号中符合预设条件的语音信号确定为第一语音信号。
步骤705:确定语音尾点的位置,所述语音尾点的位置与所述第一语音信号的结束时刻具有对应关系。
本实施例中,数据处理方法将发出语音采集指令的人确定为电子设备的用户,将其声纹确定为设定声纹;由于发出语音采集指令的人是想要控制电子设备的人,因此该实现能够提升确定第一语音信号的准确率,进而提升语音识别准确率和用户使用体验。
对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
上述本申请公开的实施例中详细描述了方法,对于本申请的方法可采用多种形式的装置实现,因此本申请还公开了一种装置,下面给出具体的实施例进行详细说明。
图8为本申请实施例公开的一种数据处理装置的结构示意图,参见图8所示,数据处理装置80可以包括:
语音处理模块801,用于获取语音信息,并对所述语音信息进行声纹识别。
语音确定模块802,用于在所述声纹识别结果表征所述语音信息中包含符合至少两个不同的声纹的语音信号的情况下,将所述至少两个不同的声纹对应的语音信号中符合预设条件的语音信号确定为第一语音信号。
尾点确定模块803,用于确定语音尾点的位置,所述语音尾点的位置与所述第一语音信号的结束时刻具有对应关系。
本实施例所述数据处理装置会对采集到的语音信息进行声纹识别,依据一定条件确定出语音信息中的有效语音信号,进而根据有效语音信号的结束时刻确定语音尾点,从而能够屏蔽掉语音尾点后与正确控制指令无关的语音信号,有助于提升语音识别的准确率。
其中,语音确定模块802具体可用于:将所述至少两个不同的声纹对应的语音信号中出现时间最早的语音信号或对应声纹与设定声纹匹配的语音信号确定为第一语音信号。
其中,尾点确定模块803具体可用于:将所述第一语音信号的结束时刻对应位置确定为语音尾点的位置;或,将所述第一语音信号的结束时刻后按照第一规则确认的位置确定为语音尾点的位置。
一个实现中,数据处理装置还可以包括噪音处理模块,用于将所述语音尾点前的语音段中除第一语音信号之外的语音信号删除和/或做静音处理,所述静音处理包括滤波处理。
具体的,噪音处理模块可用于:将所述语音尾点前的语音段中,与所述第一语音信号在时间维度上存在叠加的其他语音信号做滤波处理;和/或与所述第一语音信号在时间维度上不存在叠加的其他语音信号删除。
一个实现中,数据处理装置还可以包括语义识别模块:用于在噪音处理模块对语音信息处理后,对处理后的语音段中的所述第一语音信号进行语义识别。
一个实现中,数据处理装置可以在在获取语音信息的过程中,实时的对获取的所述语音信息进行声纹识别。
一个实现中,数据处理装置还可以包括第一声纹配置模块,用于获取第一用户的声纹作为设定声纹。
一个实现中,数据处理装置还可以包括第二声纹配置模块:用于获取语音采集指令;对所述语音采集指令进行声纹识别,将所述语音采集指令对应的声纹确定为设定声纹。
上述数据处理装置及其各个模块的具体实现可参见方法实施例中对应部分的内容介绍,在此不再重复赘述。
进一步地,本申请还公开了一种电子设备,所述电子设备包括:
处理器;以及
存储器,用于存储所述处理器的可执行指令;
其中,所述可执行指令包括:获取语音信息,并对所述语音信息进行声纹识别;在所述声纹识别结果表征所述语音信息中包含符合至少两个不同的声纹的语音信号的情况下,将所述至少两个不同的声纹对应的语音信号中符合预设条件的语音信号确定为第一语音信号;确定语音尾点的位置,所述语音尾点的位置与所述第一语音信号的结束时刻具有对应关系。
上述实施例中的所述的任意一种数据处理装置包括处理器和存储器,上述实施例中的语音处理模块、语音确定模块、尾点确定模块、声纹设定模块等均可以作为程序模块存储在存储器中,由处理器执行存储在所述存储器中的上述程序模块来实现相应的功能。
本申请实施例还提供了一种计算机存储介质,所述计算机存储介质中存储有计算机可执行指令,所述可执行指令被处理器执行时,使得所述处理器执行本申请上述实施例所述的数据处理方法的步骤。
处理器中包含内核,由内核去存储器中调取相应的程序模块。内核可以设置一个或多个,通过调整内核参数来实现回访数据的处理。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
本申请实施例提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行上述实施例中所述的数据处理方法。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (10)
1.一种数据处理方法,包括:
获取语音信息,并对所述语音信息进行声纹识别;
在所述声纹识别结果表征所述语音信息中包含符合至少两个不同的声纹的语音信号的情况下,将所述至少两个不同的声纹对应的语音信号中符合预设条件的语音信号确定为第一语音信号;
确定语音尾点的位置,所述语音尾点的位置与所述第一语音信号的结束时刻具有对应关系。
2.根据权利要求1所述的数据处理方法,将所述至少两个不同的声纹对应的语音信号中符合预设条件的语音信号确定为第一语音信号,包括:
将所述至少两个不同的声纹对应的语音信号中出现时间最早的语音信号或对应声纹与设定声纹匹配的语音信号确定为第一语音信号。
3.根据权利要求1所述的数据处理方法,所述确定语音尾点的位置,包括:
将所述第一语音信号的结束时刻对应位置确定为语音尾点的位置;或,
将所述第一语音信号的结束时刻后按照第一规则确认的位置确定为语音尾点的位置。
4.根据权利要求3所述的数据处理方法,在确定语音尾点的位置后,还包括:
将所述语音尾点前的语音段中除第一语音信号之外的语音信号删除和/或做静音处理,所述静音处理包括滤波处理。
5.根据权利要求4所述的数据处理方法,所述将所述语音尾点前的语音段中除第一语音信号之外的语音信号删除和/或做静音处理,包括:
将所述语音尾点前的语音段中,与所述第一语音信号在时间维度上存在叠加的其他语音信号做滤波处理;和/或与所述第一语音信号在时间维度上不存在叠加的其他语音信号删除。
6.根据权利要求4所述的数据处理方法,在所述将所述语音尾点前的语音段中除第一语音信号之外的语音信号删除和/或做静音处理后,还包括:
对处理后的语音段中的所述第一语音信号进行语义识别。
7.根据权利要求1-6任一项所述的数据处理方法,还包括:
在获取语音信息的过程中,实时的对获取的所述语音信息进行声纹识别。
8.根据权利要求2所述的数据处理方法,还包括:
获取第一用户的声纹作为设定声纹。
9.根据权利要求2所述的数据处理方法,在所述获取语音信息前,还包括:
获取语音采集指令;
对所述语音采集指令进行声纹识别,将所述语音采集指令对应的声纹确定为设定声纹。
10.一种数据处理装置,包括:
语音处理模块,用于获取语音信息,并对所述语音信息进行声纹识别;
语音确定模块,用于在所述声纹识别结果表征所述语音信息中包含符合至少两个不同的声纹的语音信号的情况下,将所述至少两个不同的声纹对应的语音信号中符合预设条件的语音信号确定为第一语音信号;
尾点确定模块,用于确定语音尾点的位置,所述语音尾点的位置与所述第一语音信号的结束时刻具有对应关系。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010364684.9A CN111583934A (zh) | 2020-04-30 | 2020-04-30 | 一种数据处理方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010364684.9A CN111583934A (zh) | 2020-04-30 | 2020-04-30 | 一种数据处理方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111583934A true CN111583934A (zh) | 2020-08-25 |
Family
ID=72113317
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010364684.9A Pending CN111583934A (zh) | 2020-04-30 | 2020-04-30 | 一种数据处理方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111583934A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113129904A (zh) * | 2021-03-30 | 2021-07-16 | 北京百度网讯科技有限公司 | 声纹判定方法、装置、系统、设备和存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103617801A (zh) * | 2013-12-18 | 2014-03-05 | 联想(北京)有限公司 | 语音检测方法、装置及电子设备 |
CN107293293A (zh) * | 2017-05-22 | 2017-10-24 | 深圳市搜果科技发展有限公司 | 一种语音指令识别方法、系统及机器人 |
CN108022591A (zh) * | 2017-12-30 | 2018-05-11 | 北京百度网讯科技有限公司 | 车内环境中语音识别的处理方法、装置和电子设备 |
CN109637548A (zh) * | 2018-12-29 | 2019-04-16 | 苏州思必驰信息科技有限公司 | 基于声纹识别的语音交互方法及装置 |
CN110148402A (zh) * | 2019-05-07 | 2019-08-20 | 平安科技(深圳)有限公司 | 语音处理方法、装置、计算机设备及存储介质 |
WO2019208858A1 (ko) * | 2018-04-27 | 2019-10-31 | 주식회사 시스트란인터내셔널 | 음성 인식 방법 및 이를 위한 장치 |
CN111081257A (zh) * | 2018-10-19 | 2020-04-28 | 珠海格力电器股份有限公司 | 一种语音采集方法、装置、设备及存储介质 |
-
2020
- 2020-04-30 CN CN202010364684.9A patent/CN111583934A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103617801A (zh) * | 2013-12-18 | 2014-03-05 | 联想(北京)有限公司 | 语音检测方法、装置及电子设备 |
CN107293293A (zh) * | 2017-05-22 | 2017-10-24 | 深圳市搜果科技发展有限公司 | 一种语音指令识别方法、系统及机器人 |
CN108022591A (zh) * | 2017-12-30 | 2018-05-11 | 北京百度网讯科技有限公司 | 车内环境中语音识别的处理方法、装置和电子设备 |
WO2019208858A1 (ko) * | 2018-04-27 | 2019-10-31 | 주식회사 시스트란인터내셔널 | 음성 인식 방법 및 이를 위한 장치 |
CN111081257A (zh) * | 2018-10-19 | 2020-04-28 | 珠海格力电器股份有限公司 | 一种语音采集方法、装置、设备及存储介质 |
CN109637548A (zh) * | 2018-12-29 | 2019-04-16 | 苏州思必驰信息科技有限公司 | 基于声纹识别的语音交互方法及装置 |
CN110148402A (zh) * | 2019-05-07 | 2019-08-20 | 平安科技(深圳)有限公司 | 语音处理方法、装置、计算机设备及存储介质 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113129904A (zh) * | 2021-03-30 | 2021-07-16 | 北京百度网讯科技有限公司 | 声纹判定方法、装置、系统、设备和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102568478B (zh) | 一种基于语音识别的视频播放控制方法和系统 | |
JP6553111B2 (ja) | 音声認識装置、音声認識方法及び音声認識プログラム | |
CN107578776B (zh) | 一种语音交互的唤醒方法、装置及计算机可读存储介质 | |
CN103366740B (zh) | 语音命令识别方法及装置 | |
KR101610151B1 (ko) | 개인음향모델을 이용한 음성 인식장치 및 방법 | |
JP6060989B2 (ja) | 音声録音装置、音声録音方法、及びプログラム | |
US20060241948A1 (en) | Method and apparatus for obtaining complete speech signals for speech recognition applications | |
JP7230806B2 (ja) | 情報処理装置、及び情報処理方法 | |
CN111402880A (zh) | 一种数据处理方法、装置及电子设备 | |
US7865364B2 (en) | Avoiding repeated misunderstandings in spoken dialog system | |
WO2019119279A1 (en) | Method and apparatus for emotion recognition from speech | |
US10224029B2 (en) | Method for using voiceprint identification to operate voice recognition and electronic device thereof | |
US10861447B2 (en) | Device for recognizing speeches and method for speech recognition | |
CN110689887B (zh) | 音频校验方法、装置、存储介质及电子设备 | |
KR101843079B1 (ko) | 화자 상호 정보를 활용한 강인한 i-벡터 추출기 학습 방법 및 시스템 | |
EP3499502A1 (en) | Voice information processing method and apparatus | |
CN111583934A (zh) | 一种数据处理方法及装置 | |
CN109065026B (zh) | 一种录音控制方法及装置 | |
CN113516994B (zh) | 实时语音识别方法、装置、设备及介质 | |
KR20190119521A (ko) | 전자 장치 및 그 동작 방법 | |
CN113782036A (zh) | 音频质量评估方法、装置、电子设备和存储介质 | |
US20150279373A1 (en) | Voice response apparatus, method for voice processing, and recording medium having program stored thereon | |
CN114067842B (zh) | 客户满意度鉴别方法及装置、存储介质及电子设备 | |
JPH02184915A (ja) | 音声認識装置及び方法 | |
CN110661923A (zh) | 一种在会议中记录发言信息的方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |