CN112735487B - 语音数据的处理方法、装置及电子设备 - Google Patents

语音数据的处理方法、装置及电子设备 Download PDF

Info

Publication number
CN112735487B
CN112735487B CN202110330333.0A CN202110330333A CN112735487B CN 112735487 B CN112735487 B CN 112735487B CN 202110330333 A CN202110330333 A CN 202110330333A CN 112735487 B CN112735487 B CN 112735487B
Authority
CN
China
Prior art keywords
audio data
environmental
eliminated
data
local
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110330333.0A
Other languages
English (en)
Other versions
CN112735487A (zh
Inventor
冀利刚
何建邦
朱磊
邓志伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhidao Network Technology Beijing Co Ltd
Original Assignee
Zhidao Network Technology Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhidao Network Technology Beijing Co Ltd filed Critical Zhidao Network Technology Beijing Co Ltd
Priority to CN202110330333.0A priority Critical patent/CN112735487B/zh
Publication of CN112735487A publication Critical patent/CN112735487A/zh
Application granted granted Critical
Publication of CN112735487B publication Critical patent/CN112735487B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/10Digital recording or reproducing
    • G11B20/10527Audio or video recording; Data buffering arrangements
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/10Digital recording or reproducing
    • G11B20/10527Audio or video recording; Data buffering arrangements
    • G11B2020/10537Audio or video recording
    • G11B2020/10546Audio or video recording specifically adapted for audio data
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/10Digital recording or reproducing
    • G11B20/10527Audio or video recording; Data buffering arrangements
    • G11B2020/1062Data buffering arrangements, e.g. recording or playback buffers
    • G11B2020/10675Data buffering arrangements, e.g. recording or playback buffers aspects of buffer control
    • G11B2020/1074Data buffering arrangements, e.g. recording or playback buffers aspects of buffer control involving a specific threshold value
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/10Digital recording or reproducing
    • G11B20/10527Audio or video recording; Data buffering arrangements
    • G11B2020/1062Data buffering arrangements, e.g. recording or playback buffers
    • G11B2020/1075Data buffering arrangements, e.g. recording or playback buffers the usage of the buffer being restricted to a specific kind of data

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Signal Processing For Digital Recording And Reproducing (AREA)
  • Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)

Abstract

本申请是关于一种语音数据的处理方法、装置及电子设备。该方法包括:分别采集环境音频数据和本地播放音频数据;其中,环境音频数据包括待识别语音数据和待消除音频数据的混合音频数据,待消除音频数据与本地播放音频数据具有相同的音频数据;将本地播放音频数据进行缓存;当本地播放音频数据的缓存容量达到预设存储容量时,同步处理环境音频数据和本地播放音频数据,以消除环境音频数据中的待消除音频数据,并识别环境音频数据中的待识别语音数据。本申请提供的方案,可以提高识别环境音频数据中的待识别语音数据的准确率,本申请的处理方法简单易行,处理效率高。

Description

语音数据的处理方法、装置及电子设备
技术领域
本申请涉及语音处理技术领域,尤其涉及一种语音数据的处理方法、装置及电子设备。
背景技术
目前,通过用户语音命令来控制智能设备的应用越来越多,语音识别技术显得尤为重要。在车载智能设备中,用户可以通过语音命令控制车载智能设备播放音乐或设置导航路线等,车载智能设备可以识别用户的语音命令并相应执行。
相关技术中,车载智能设备可以同时播放本机音乐以及监听用户的语音命令,并在本机音乐声和用户声音的混合环境声中准确识别出用户的语音命令。另外,用户可以将移动终端通过蓝牙连接车载智能设备,使车载智能设备播放移动终端的音乐、电话或语音聊天等各类音频。
然而,当车载智能设备通过蓝牙接收移动终端的音频并播放至环境中时,由于蓝牙传输音频至车载智能设备的过程需要消耗一定时间,环境中的该音频相较于车载智能设备的本地音频具有延时。如果用户在此环境下发出语音命令,该车载智能设备无法准确在用户声音和延时的音频的混合环境声中识别出用户的语音命令,从而使车载智能设备无法正确执行语音命令,影响用户体验。
发明内容
为解决或部分解决相关技术中存在的问题,本申请提供一种语音数据的处理方法、装置及电子设备,该语音数据的处理方法、装置及电子设备,可以准确的识别用户的语音命令,改善用户体验。
本申请第一方面提供一种语音数据的处理方法,其包括:
分别采集环境音频数据和本地播放音频数据;其中,所述环境音频数据包括待识别语音数据和待消除音频数据的混合音频数据,所述待消除音频数据与所述本地播放音频数据具有相同的音频数据;
将所述本地播放音频数据进行缓存;
当所述本地播放音频数据的缓存容量达到预设存储容量时,同步处理所述环境音频数据和所述本地播放音频数据,以消除所述环境音频数据中的所述待消除音频数据,并识别所述环境音频数据中的所述待识别语音数据。
在其中一个实施例中,所述分别采集环境音频数据和本地播放音频数据,包括:
采用相异的声道分别采集所述环境音频数据和所述本地播放音频数据。
在其中一个实施例中,所述将所述本地播放音频数据进行缓存,包括:
将所述本地播放音频数据缓存于具有所述预设存储容量的缓存区。
在其中一个实施例中,所述当所述本地播放音频数据的缓存容量达到预设存储容量时,同步处理所述环境音频数据和所述本地播放音频数据,包括:
当在先采集的所述本地播放音频数据按照逐个字节的顺序与对应的所述环境音频数据同步处理时,将在后采集的所述本地播放音频数据按照采集顺序逐个字节依序覆盖所述缓存区中的在先采集的所述本地播放音频数据。
在其中一个实施例中,所述将所述本地播放音频数据进行缓存,包括:
预先获取待消除音频数据的延迟时长。
在其中一个实施例中,根据所述延迟时长和采样参数设置预设存储容量;将所述本地播放音频数据按照所述预设存储容量进行缓存。
在其中一个实施例中,所述采样参数包括采样频率和采样位数;其中,所述采样频率为20Hz~200000Hz,所述采样位数为8位、16位或32位中的一种。
本申请第二方面提供一种语音数据的处理装置,其包括:
采集模块,用于分别采集环境音频数据和本地播放音频数据;其中,所述环境音频数据包括待识别语音数据和待消除音频数据的混合音频数据,所述待消除音频数据与所述本地播放音频数据具有相同的音频数据;
存储模块,用于将所述采集模块采集的所述本地播放音频数据进行缓存;
处理模块,用于当所述存储模块缓存的所述本地播放音频数据的缓存容量达到预设存储容量时,同步处理所述采集模块采集的所述环境音频数据和所述存储模块缓存的所述本地播放音频数据,以消除所述环境音频数据中的所述待消除音频数据,并识别所述环境音频数据中的所述待识别语音数据。
本申请第三方面提供一种电子设备,包括:
处理器;以及
存储器,其上存储有可执行代码,当所述可执行代码被所述处理器执行时,使所述处理器执行如上所述的方法。
本申请第四方面提供一种非暂时性机器可读存储介质,其上存储有可执行代码,当所述可执行代码被电子设备的处理器执行时,使所述处理器执行如上所述的方法。
本申请提供的技术方案可以包括以下有益效果:
本申请的语音数据的处理方法,通过分别采集环境音频数据和本地播放音频数据,通过将本地播放音频数据进行缓存,直至本地播放音频数据缓存达到预设存储容量,可以弥补因环境音频数据的待消除音频数据延时所造成的与本地播放音频数据的时间差时,再将环境音频数据和本地播放音频数据同步处理,以准确消除环境音频数据中的待消除音频数据,从而可以识别环境音频数据中的待识别语音数据。这样的设计,避免因环境音频数据的待消除音频数据和本地播放音频数据无法同步处理所造成的识别不准确的问题,本申请的处理方法简单易行,处理效率高。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
通过结合附图对本申请示例性实施方式进行更详细的描述,本申请的上述以及其它目的、特征和优势将变得更加明显,其中,在本申请示例性实施方式中,相同的参考标号通常代表相同部件。
图1是本申请实施例示出的语音数据的处理方法的流程示意图;
图2是本申请实施例示出的语音数据的处理方法的另一流程示意图;
图3是本申请实施例示出的语音数据的处理装置的结构示意图;
图4是本申请实施例示出的电子设备的结构示意图。
具体实施方式
下面将参照附图更详细地描述本申请的实施方式。虽然附图中显示了本申请的实施方式,然而应该理解,可以以各种形式实现本申请而不应被这里阐述的实施方式所限制。相反,提供这些实施方式是为了使本申请更加透彻和完整,并且能够将本申请的范围完整地传达给本领域的技术人员。
在本申请使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本申请可能采用术语“第一”、“第二”、“第三”等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本申请范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本申请的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
相关技术中,车载智能设备可以通过蓝牙接收移动终端的音乐、电话或语音聊天等各类音频。当同一个环境中具有用户声音和车载智能设备所播放的经蓝牙传输的音频时,由于蓝牙传输音频需要消耗一定时间,使得车载智能设备在采集包含用户声音和蓝牙传输的音频在内的环境中的全部声音后,无法在环境中的全部声音中准确识别出用户声音,从而使车载智能设备无法识别出用户的语音命令。
针对上述问题,本申请实施例提供一种语音数据的处理方法,能够准确的识别用户的语音命令,改善用户体验。
以下结合附图详细描述本申请实施例的技术方案。
实施例一
图1是本申请实施例示出的语音数据的处理方法的流程示意图。
参见图1,本申请的一实施例中,提供一种语音数据的处理方法,其包括:
步骤S110,分别采集环境音频数据和本地播放音频数据;其中,环境音频数据包括待识别语音数据和待消除音频数据的混合音频数据,待消除音频数据与本地播放音频数据具有相同的音频数据。
在其中一个实施例中,本申请的语音数据的处理方法可以应用于车载智能设备。当应用于汽车的车载智能设备时,在其中一个实施例中,环境音频数据为所在车内的自然环境中的全部声音混合的音频数据。在其中一个实施例中,环境音频数据包括但不限于用户的说话声、车载智能设备播放的来自本机的声音、车内其他终端(不包含车载智能设备)播放的声音及车载智能设备播放的通过蓝牙接收的其他终端的音频的声音等的一种或多种声音的混合音频数据。其中,其他终端可以是手机、笔记本电脑、平板电脑或智能手表等移动终端或固定在车内的终端。当然,在其他实施例中,环境音频数据可以只包含用户的说话声和车载智能设备播放的通过蓝牙接收的其他终端的音频的声音。待识别语音数据可以是环境音频数据中的一种或多种声音对应的音频数据。例如,待识别语音数据可以是其中的用户说话声中的语音命令。待消除语音数据则为环境音频数据中的除了待识别语音数据以外的至少一种声音的音频数据。例如待消除语音数据为环境音频数据中的车载智能设备播放的通过蓝牙接收的其他终端的音频。
在其中一个实施例中,本地播放音频数据为车载智能设备在其本地存储的音频或车载智能设备播放的通过蓝牙接收的其他终端的音频。即本地播放音频数据与环境音频数据中的待消除音频数据具有相同的音频数据。可以理解,基于车载智能设备在通过蓝牙接收其他终端的音频时,蓝牙传输音频数据需要消耗一定时间,因此,车载智能设备在单独采集通过蓝牙传输的其他终端传输的音频时出现了延时,即产生本地播放音频数据。
步骤S120,将本地播放音频数据进行缓存。
相关技术中,当分别采集到环境音频数据和本地播放音频数据后,为了识别环境音频数据中的待识别语音数据,一般是通过相关语音算法同步处理环境音频数据和本地播放音频数据。由于待消除音频数据和本地播放音频数据具有相同的音频数据,通过同步比对环境音频数据和本地播放音频数据,从而识别环境音频数据中的待消除音频数据,继而消除环境音频数据中的待消除音频数据,从而使环境音频数据中剩余待识别语音数据,达到识别待识别语音数据的效果。
然而,由于蓝牙传输音频数据至车载智能设备需要消耗一定的时间,当车载智能设备将音频数据播放至环境中,再被车载智能设备采集形成环境音频数据时,相比于车载智能设备另外直接采集的本地播放音频数据,当同步比对环境音频数据和本地播放音频数据时,环境音频数据中的待消除音频数据迟于本地播放音频数据,从而导致在识别环境音频数据和本地播放音频数据时,待消除音频数据无法与本地播放音频数据同步对应,继而无法准确消除待消除音频数据。因此,通过先将本地播放音频数据进行缓存,通过缓存等待环境音频数据以弥补因延时所产生的时间差后,再进行后续步骤的处理。
可以理解,缓存一定时长的音频数据后会产生对应的缓存容量。根据音频数据的采集时长不同和/或存储格式不同,对应的缓存容量则不同。其中不同的存储格式对应具有不同的采样参数。在其中一个实施例中,预先获取待消除音频数据的延迟时长。在其中一个实施例中,根据所述延迟时长和采样参数设置预设存储容量;将所述本地播放音频数据按照预设存储容量进行缓存。可以理解,通过预先准确获取待消除音频数据相较于本地播放音频数据的延迟时长,才能将本地播放音频数据准确缓存以等待待消除音频数据同步。
步骤S130,当本地播放音频数据的缓存容量达到预设存储容量时,同步处理环境音频数据和本地播放音频数据,以消除环境音频数据中的待消除音频数据,并识别环境音频数据中的待识别语音数据。
在其中一个实施例中,通过预先设置存储容量,即预设存储容量,当本地播放音频数据的缓存容量达到预设存储容量时,再将环境音频数据和本地播放音频数据同步采用相关语音算法处理,从而使本地播放音频数据通过缓存等待,弥补了环境音频数据中的待消除音频数据因时间差所造成的与本地播放音频数据不同步的问题。
上述的实施例中,本申请的语音数据的处理方法,通过分别采集环境音频数据和本地播放音频数据,通过将本地播放音频数据进行缓存,直至本地播放音频数据缓存达到预设存储容量,可以弥补因环境音频数据的待消除音频数据延时所造成的与本地播放音频数据的时间差时,再将环境音频数据和本地播放音频数据同步处理,以准确消除环境音频数据中的待消除音频数据,从而可以识别环境音频数据中的待识别语音数据。这样的设计,避免因环境音频数据的待消除音频数据和本地播放音频数据无法同步处理所造成的识别不准确的问题,可以提高识别环境音频数据中的待识别语音数据的准确率,本申请的处理方法简单易行,处理效率高。
实施例二
为了进一步介绍本申请的语音数据的处理方法,参见图2,该语音数据的处理方法,包括:
步骤S210,采用相异的声道分别采集环境音频数据和本地播放音频数据;其中,环境音频数据包括待识别语音数据和待消除音频数据的混合音频数据,待消除音频数据与本地播放音频数据具有相同的音频数据。
为了使采集的音频数据便于后续区分,车载智能设备可以包括至少两个独立的声道进行音频采集。例如,车载智能设备还可以包括四个独立的声道进行音频采集。其中一个声道为主mic(Microphone的缩写,麦克风),用于采集车内的环境音频数据。环境音频数据包括待识别语音数据和待消除音频数据的混合音频数据。即环境音频数据包括车内的所有声音的混合。其中另一个为回采声道,用于采集车载智能设备播放的本机的音频或车载智能设备播放的通过蓝牙接收的其他终端的音频。当回采声道采集的是车载智能设备播放的通过蓝牙接收的其他终端的音频,车载智能设备采集的本地播放音频数据相较于环境音频数据中的待消除音频数据更快。
步骤S220,将本地播放音频数据缓存于具有预设存储容量的缓存区。
预设存储容量的确定根据环境音频数据中的待消除音频数据的延迟时长和采样参数设定。其中延迟时长可以采用相关技术确定,例如可以采用第三方音频编辑软件AdobeAudition查看及对比所采集的环境音频数据和本地播放音频数据,通过软件同步对比本地播放音频数据和待消除音频数据的时间差,该时间差即为待消除音频数据相较于本地播放音频数据的延迟时长。
当环境音频数据的音频存储格式为PCM(Pulse Code Modulation,脉冲编码调制)格式时,涉及的采样参数主要包括采样频率和采样位数。在其中一个实施例中,所述采样参数包括采样频率和采样位数;其中,所述采样频率为20Hz~200000Hz,其中,采样频率可以为16000Hz、44100Hz、48000Hz或192000Hz等。所述采样位数为8位、16位或32位中的一种。
为了进一步理解预设存储容量的计算方法,现举例说明。例如,预先确定环境音频数据中的待消除音频数据相较于本地播放音频数据的延迟时长为1秒,已知每一个字节对应8位采样位数,当采样频率为16000Hz,采样位数为16位时,可知对应的字节数为16÷8=2字节,预设存储容量则为16000Hz×2字节=32000字节。在其他条件不变的情况下,如果延迟时长为250毫秒,即0.25秒,则预设存储容量为32000字节×0.25秒=8000字节。因而,根据待消除音频数据的延迟时长和采样参数,最终确定预设存储容量。
在其中一个实施例中,在车载智能设备设置具有预设存储容量的缓存区,用于缓存本地播放音频数据。进一步地,由于缓存区的存储容量仅为预设存储容量,在持续采集本地播放音频数据的过程中,缓存区无法存储全部的本地播放音频数据。在其中一个实施例中,当在先采集的所述本地播放音频数据按照逐个字节的顺序与对应的所述环境音频数据同步处理时,将在后采集的所述本地播放音频数据按照采集顺序逐个字节依序覆盖所述缓存区中的在先采集的所述本地播放音频数据。进一步地,在后采集的本地播放音频数据在覆盖在先采集的本地播放音频数据之前,在先采集的延时音频可以和对应的在先采集的环境音频数据同步采用相关语音算法进行处理。
为了便于理解上述技术方案,现举例说明。例如,当缓存区的预设存储容量为8000字节时,将每个字节按照序号0000至7999的自然顺序排列,采集的音频数据逐个存储于序号0000至7999的字节位置上。当车载智能设备在采集本地播放音频数据时,根据自然时间计时,当缓存区存满8000字节的本地播放音频数据后,开始进行语音数据的处理。根据环境音频数据中的实际待消除数据的字节数,例如实际待消除数据的字节数为200字节,则将200字节的本地播放音频数据与对应的环境音频数据同步发送至相关语音算法进行处理。发送的过程中,缓存区仍然还留存有该200字节的本地播放音频数据,即缓存区仍然保留有在先采集的本地播放音频数据。随着采集音频数据的持续进行,在发送的过程中,将接下来采集的数据,即在后采集的本地播放音频数据,按照逐个字节的方式覆盖缓存区中的在先采集的本地播放音频数据,使缓存区的音频数据保持更新。具体地,为了便于区分,例如将在后采集的本地播放音频数据的每个字节以8000为首的序号进行顺序编号,当发送出第0000号字节的在先采集的音频数据进行处理后,缓存区接收第8000号的在后采集的音频数据,以覆盖缓存区存储的第0000号字节的在先采集的音频数据。当紧接着发送出第0001号字节的数据后,缓存区接收第8001号的在后采集的音频数据,以覆盖缓存区以覆盖缓存区存储的第0001号字节的在先采集的音频数据。以此类推,直至发送了第0199号字节的在后采集的音频数据后,缓存区接收第8199号的在后采集的音频数据,以覆盖第0199号的在先采集的音频数据。至此完成了200个字节的新旧更替。使得每发送出一个字节的在先采集的音频数据后,即可用新的一个字节的在后采集的音频数据进行覆盖。如果车载智能设备后续持续采集新的音频数据,若缓存区的在先采集的音频数据没有发送至相关语音算法进行处理,则新的在后采集的音频数据不能进入缓存区进行缓存。通过逐个字节循环覆盖的方式充分利用缓存区,使缓存区形成循环缓存站,从而使本地播放音频数据的每个字节与环境音频数据中的待消除音频数据的每个字节达到精确匹配的效果,确保本地播放音频数据的缓存都可以弥补环境音频数据中的待消除音频数据的时间差,从而便于进行语音识别。
步骤S230,当本地播放音频数据的缓存容量达到预设存储容量时,同步处理环境音频数据和本地播放音频数据,以消除环境音频数据中的待消除音频数据,并识别环境音频数据中的待识别语音数据。
可以理解,根据步骤S220中的循环存储方式,每当本地播放音频数据的缓存容量达到预设存储容量时,可以即时将预设存储容量的本地播放音频数据与对应时间采集的环境音频数据同步采用相关语音算法处理,以消除环境音频数据中的与本地播放音频数据相同的待消除音频数据,从而使环境音频数据剩余待识别语音数据和其他未消除的音频数据。此时,更加利于更加准确地识别待识别语音数据。当待识别语音数据为用户发出的语音命令时,即可识别并获得语音命令。
综上,本申请的实施例中的语音数据的处理方法,可以通过设置具有预设存储容量的缓存区,在采集环境音频数据和本地播放音频数据时,先将本地播放音频数据缓存于缓存区并达到预设存储容量后,再将预设存储容量的本地播放音频数据与对应时间采集的环境音频数据同步处理。这样的设计,便于更加准确地消除环境音频数据中的待消除音频数据,从而更清晰地识别环境音频数据中的待识别音频数据,提高识别准确率和识别效率,方案简单易行。
与前述应用功能实现方法实施例相对应,本申请还提供了一种网页地图的处理装置、电子设备及相应的实施例。
实施例三
图3是本申请实施例示出的语音数据的处理装置的结构示意图。
参见图3,本申请一实施例的语音数据的处理装置包括:采集模块310、存储模块320及处理模块330。其中:
采集模块310用于分别采集环境音频数据和本地播放音频数据;其中,环境音频数据包括待识别语音数据和待消除音频数据的混合音频数据,待消除音频数据与本地播放音频数据具有相同的音频数据。
存储模块320用于将采集模块310采集的本地播放音频数据进行缓存。
处理模块330用于当存储模块320缓存的本地播放音频数据的缓存容量达到预设存储容量时,同步处理采集模块310采集的环境音频数据和存储模块320缓存的本地播放音频数据,以消除环境音频数据中的待消除音频数据,并识别环境音频数据中的待识别语音数据。
进一步地,在其中一个实施例中,采集模块310采用相异的声道分别采集所述环境音频数据和所述本地播放音频数据。存储模块320将所述本地播放音频数据缓存于具有所述预设存储容量的缓存区。其中,预设存储容量的确定根据待消除数据相较于本地播放音频数据的延迟时长和采样参数设定。所述采样参数包括采样频率和采样位数;其中,所述采样频率为20Hz~200000Hz,其中,采样频率可以为16000Hz、44100Hz、48000Hz或192000Hz等;所述采样位数为8位、16位或32位中的一种。在其中一个实施例中,当持续采集的所述本地播放音频数据的所需的存储容量大于所述预设存储容量时,将在后采集的所述本地播放音频数据依序覆盖所述缓存区中的在先采集的所述本地播放音频数据。当存储模块320缓存的本地播放音频数据的缓存容量达到预设存储容量时,处理模块330同步将采集模块310采集的环境音频数据和存储模块320缓存的本地播放音频数据采用相关语音算法处理,以消除环境音频数据的待消除音频数据,并识别环境音频数据中的待识别语音数据。
综上,本申请的语音数据的处理装置,通过采集模块分别采集环境音频数据和本地播放音频数据,通过缓存模块将本地播放音频数据进行缓存,直至本地播放音频数据缓存达到预设存储容量,可以弥补因延时采集所造成的与环境音频数据的待消除音频数据的时间差时,再将环境音频数据和本地播放音频数据同步通过处理模块处理,以准确消除环境音频数据中的待消除音频数据,从而可以识别环境音频数据中的待识别语音数据。这样的设计,避免因环境音频数据的待消除音频数据和本地播放音频数据无法同步处理所造成的识别不准确的问题,可以提高识别环境音频数据中的待识别语音数据的准确率,本申请的处理方法简单易行,处理效率高。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不再做详细阐述说明。
图4是本申请实施例示出的电子设备的结构示意图。
参见图4,电子设备400包括存储器410和处理器420。
处理器420可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器 (Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列 (Field-Programmable Gate Array,FPGA) 或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器410可以包括各种类型的存储单元,例如系统内存、只读存储器(ROM),和永久存储装置。其中,ROM可以存储处理器420或者计算机的其他模块需要的静态数据或者指令。永久存储装置可以是可读写的存储装置。永久存储装置可以是即使计算机断电后也不会失去存储的指令和数据的非易失性存储设备。在一些实施方式中,永久性存储装置采用大容量存储装置(例如磁或光盘、闪存)作为永久存储装置。另外一些实施方式中,永久性存储装置可以是可移除的存储设备(例如软盘、光驱)。系统内存可以是可读写存储设备或者易失性可读写存储设备,例如动态随机访问内存。系统内存可以存储一些或者所有处理器在运行时需要的指令和数据。此外,存储器410可以包括任意计算机可读存储媒介的组合,包括各种类型的半导体存储芯片(DRAM,SRAM,SDRAM,闪存,可编程只读存储器),磁盘和/或光盘也可以采用。在一些实施方式中,存储器410可以包括可读和/或写的可移除的存储设备,例如激光唱片(CD)、只读数字多功能光盘(例如DVD-ROM,双层DVD-ROM)、只读蓝光光盘、超密度光盘、闪存卡(例如SD卡、min SD卡、Micro-SD卡等等)、磁性软盘等等。计算机可读存储媒介不包含载波和通过无线或有线传输的瞬间电子信号。
存储器410上存储有可执行代码,当可执行代码被处理器420处理时,可以使处理器420执行上文述及的方法中的部分或全部。
此外,根据本申请的方法还可以实现为一种计算机程序或计算机程序产品,该计算机程序或计算机程序产品包括用于执行本申请的上述方法中部分或全部步骤的计算机程序代码指令。
或者,本申请还可以实施为一种非暂时性机器可读存储介质(或计算机可读存储介质、或机器可读存储介质),其上存储有可执行代码(或计算机程序、或计算机指令代码),当可执行代码(或计算机程序、或计算机指令代码)被电子设备(或电子设备、服务器等)的处理器执行时,使处理器执行根据本申请的上述方法的各个步骤的部分或全部。
以上已经描述了本申请的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims (7)

1.一种语音数据的处理方法,其特征在于:
分别采集环境音频数据和本地播放音频数据;其中,所述环境音频数据包括待识别语音数据和待消除音频数据的混合音频数据,所述待消除音频数据与所述本地播放音频数据具有相同的音频数据;
将所述本地播放音频数据缓存于具有预设存储容量的缓存区;其中,预先获取待消除音频数据的延迟时长,根据所述延迟时长和采样参数设置所述预设存储容量;
当所述本地播放音频数据的缓存容量达到预设存储容量时,同步处理所述环境音频数据和所述本地播放音频数据,以消除所述环境音频数据中的所述待消除音频数据,并识别所述环境音频数据中的所述待识别语音数据。
2.根据权利要求1所述的方法,其特征在于:所述分别采集环境音频数据和本地播放音频数据,包括:
采用相异的声道分别采集所述环境音频数据和所述本地播放音频数据。
3.根据权利要求1所述的方法,其特征在于,所述当所述本地播放音频数据的缓存容量达到预设存储容量时,同步处理所述环境音频数据和所述本地播放音频数据,包括:
当在先采集的所述本地播放音频数据按照逐个字节的顺序与对应的所述环境音频数据同步处理时,将在后采集的所述本地播放音频数据按照采集顺序逐个字节依序覆盖所述缓存区中的在先采集的所述本地播放音频数据。
4.根据权利要求1所述的方法,其特征在于:
所述采样参数包括采样频率和采样位数;其中,所述采样频率为20Hz~200000Hz,所述采样位数为8位、16位或32位中的一种。
5.一种语音数据的处理装置,其特征在于:
采集模块,用于分别采集环境音频数据和本地播放音频数据;其中,所述环境音频数据包括待识别语音数据和待消除音频数据的混合音频数据,所述待消除音频数据与所述本地播放音频数据具有相同的音频数据;
存储模块,用于将所述本地播放音频数据缓存于具有预设存储容量的缓存区;其中,预先获取待消除音频数据的延迟时长,根据所述延迟时长和采样参数设置所述预设存储容量;
处理模块,用于当所述存储模块缓存的所述本地播放音频数据的缓存容量达到预设存储容量时,同步处理所述采集模块采集的所述环境音频数据和所述存储模块缓存的所述本地播放音频数据,以消除所述环境音频数据中的所述待消除音频数据,并识别所述环境音频数据中的所述待识别语音数据。
6.一种电子设备,其特征在于,包括:
处理器;以及
存储器,其上存储有可执行代码,当所述可执行代码被所述处理器执行时,使所述处理器执行如权利要求1-4中任一项所述的方法。
7.一种非暂时性机器可读存储介质,其上存储有可执行代码,当所述可执行代码被电子设备的处理器执行时,使所述处理器执行如权利要求1-4中任一项所述的方法。
CN202110330333.0A 2021-03-29 2021-03-29 语音数据的处理方法、装置及电子设备 Active CN112735487B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110330333.0A CN112735487B (zh) 2021-03-29 2021-03-29 语音数据的处理方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110330333.0A CN112735487B (zh) 2021-03-29 2021-03-29 语音数据的处理方法、装置及电子设备

Publications (2)

Publication Number Publication Date
CN112735487A CN112735487A (zh) 2021-04-30
CN112735487B true CN112735487B (zh) 2021-07-09

Family

ID=75595916

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110330333.0A Active CN112735487B (zh) 2021-03-29 2021-03-29 语音数据的处理方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN112735487B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113593540B (zh) * 2021-07-28 2023-08-11 展讯半导体(成都)有限公司 一种语音处理方法、装置及设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN201845550U (zh) * 2010-10-28 2011-05-25 庄鸿 Cd/dvd播放器语音识别系统
CN112151051A (zh) * 2020-09-14 2020-12-29 海尔优家智能科技(北京)有限公司 音频数据的处理方法和装置及存储介质
CN112331204A (zh) * 2020-11-24 2021-02-05 珠海市杰理科技股份有限公司 智能语音识别方法及设备、装置和存储介质
CN112564655A (zh) * 2019-09-26 2021-03-26 大众问问(北京)信息科技有限公司 一种音频信号增益控制方法、装置、设备及存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10867615B2 (en) * 2019-01-25 2020-12-15 Comcast Cable Communications, Llc Voice recognition with timing information for noise cancellation

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN201845550U (zh) * 2010-10-28 2011-05-25 庄鸿 Cd/dvd播放器语音识别系统
CN112564655A (zh) * 2019-09-26 2021-03-26 大众问问(北京)信息科技有限公司 一种音频信号增益控制方法、装置、设备及存储介质
CN112151051A (zh) * 2020-09-14 2020-12-29 海尔优家智能科技(北京)有限公司 音频数据的处理方法和装置及存储介质
CN112331204A (zh) * 2020-11-24 2021-02-05 珠海市杰理科技股份有限公司 智能语音识别方法及设备、装置和存储介质

Also Published As

Publication number Publication date
CN112735487A (zh) 2021-04-30

Similar Documents

Publication Publication Date Title
JP7324313B2 (ja) 音声対話方法及び装置、端末、並びに記憶媒体
US10170121B2 (en) Speech recognition system and method for operating a speech recognition system with a mobile unit and an external server
US20150193199A1 (en) Tracking music in audio stream
CN112735487B (zh) 语音数据的处理方法、装置及电子设备
CN111640411B (zh) 音频合成方法、装置及计算机可读存储介质
CN109741753A (zh) 一种语音交互方法、装置、终端及服务器
CN106887244B (zh) 音频切换方法及装置
CN114071134A (zh) 声画同步的检测方法、生成方法、电子设备及存储介质
CN111833863A (zh) 语音控制系统、方法和装置以及计算设备和存储介质
CN103873883A (zh) 一种视频播放的方法、装置及终端设备
WO2019219059A1 (zh) 一种存储数据的方法、读取数据的方法、装置及系统
CN110675848A (zh) 音频处理方法、装置及存储介质
CN108924227A (zh) 基于车载设备的音乐播放方法以及音乐播放装置
CN114420146A (zh) 音频数据处理方法、装置、电子设备和存储介质
CN110992953A (zh) 一种语音数据处理方法、装置、系统及存储介质
CN113965801A (zh) 播放控制方法、装置以及电子设备
WO2018103420A1 (zh) 音频文件存储方法和系统
CN112148754A (zh) 一种歌曲识别方法和装置
CN112562688A (zh) 语音转写方法、装置、录音笔和存储介质
CN109194998A (zh) 数据传输方法、装置、电子设备及计算机可读介质
CN101286114B (zh) 多程序共享音频设备的方法
CN113014343B (zh) 干扰场景中车载广播电台的控制方法及相关装置
CN112133269B (zh) 一种音频处理方法、装置、设备及介质
CN110351213A (zh) 音频播放方法及设备
CN112218137B (zh) 一种多媒体数据采集方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant