CN113113007A - 语音数据的处理方法和装置、电子设备和存储介质 - Google Patents

语音数据的处理方法和装置、电子设备和存储介质 Download PDF

Info

Publication number
CN113113007A
CN113113007A CN202110339932.9A CN202110339932A CN113113007A CN 113113007 A CN113113007 A CN 113113007A CN 202110339932 A CN202110339932 A CN 202110339932A CN 113113007 A CN113113007 A CN 113113007A
Authority
CN
China
Prior art keywords
voice
target
voice data
voice interaction
target object
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110339932.9A
Other languages
English (en)
Inventor
李森
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Kingsoft Cloud Network Technology Co Ltd
Original Assignee
Beijing Kingsoft Cloud Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Kingsoft Cloud Network Technology Co Ltd filed Critical Beijing Kingsoft Cloud Network Technology Co Ltd
Priority to CN202110339932.9A priority Critical patent/CN113113007A/zh
Publication of CN113113007A publication Critical patent/CN113113007A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本申请提供了一种语音数据的处理方法和装置、电子设备和存储介质,其中,该方法包括:通过语音交互设备采集目标对象的第一语音数据;在检测到对语音交互设备执行了第一操作的情况下,通过语音交互设备采集目标对象的第二语音数据,其中,第一操作用于指示语音交互设备继续采集语音数据;对第一语音数据和第二语音数据进行语音识别,得到目标识别结果;通过语音交互设备向目标对象输出与目标识别结果匹配的目标处理结果。通过本申请,解决了相关技术中的语音交互方式存在由于无法准确采集到用户的语音交互数据导致的语音交互体验欠佳的问题。

Description

语音数据的处理方法和装置、电子设备和存储介质
技术领域
本申请涉及数据处理领域,尤其涉及一种语音数据的处理方法和装置、电子 设备和存储介质。
背景技术
目前,通过语音交互设备(例如,陪伴机器人)可以为用户提供语音交互功 能,以满足用户的生理和心理需求。
但是,对于一些特殊用户(例如,老年用户),由于在说话时会遇到舌尖现 象、言语失误、语言组织困难等问题,容易出现语音表达出现暂停的时长相比一 般用户更长,导致不能准确收集到这些特殊用户所发出的语音交互数据,使得用 户与语言交互设备之间的交互体验欠佳。
由此可见,相关技术中的语音交互方式存在由于无法准确采集到用户的语音 交互数据导致的语音交互体验欠佳的问题。
发明内容
本申请提供了一种语音数据的处理方法和装置、电子设备和存储介质,以至 少解决相关技术中的语音交互方式存在由于无法准确采集到用户的语音交互数 据导致的语音交互体验欠佳的问题。
根据本申请实施例的一个方面,提供了一种语音数据的处理方法,包括:通 过语音交互设备采集目标对象的第一语音数据;在检测到对所述语音交互设备执 行了第一操作的情况下,通过所述语音交互设备采集所述目标对象的第二语音数 据,其中,所述第一操作用于指示所述语音交互设备继续采集语音数据;对所述 第一语音数据和所述第二语音数据进行语音识别,得到目标识别结果;通过所述 语音交互设备向所述目标对象输出与所述目标识别结果匹配的目标处理结果。
可选地,对所述第一语音数据和所述第二语音数据进行语音识别,得到目标 识别结果包括:获取与目标语音数据对应的语音帧序列,其中,所述目标语音数 据是对所述第一语音数据和第二语音数据进行拼接所得到的语音数据,所述语音 帧序列为按照时间顺序对所述目标语音数据包含的多个语音帧进行排序得到的 序列;将所述语音帧序列输入到目标网络模型,得到所述目标网络模型输出的所 述目标识别结果,其中,所述目标网络模型用于根据所述语音帧序列中的各个语 音帧、以及位于所述各个语音帧之前的至少一个语音帧的识别结果对所述各个语 音帧进行识别,得到所述各个语音帧的识别结果,并根据所述各个语音帧的识别 结果,确定所述目标识别结果。
可选地,将所述语音帧序列输入到目标网络模型,得到所述目标网络模型输 出的所述目标识别结果包括:依次将所述各个语音帧的语音特征、以及所述各个 语音帧的前一个语音帧的识别结果输入到所述目标网络模型的隐藏层,得到所述 各个语音帧的识别结果,其中,所述各个语音帧的识别结果用于指示与所述各个 语音帧对应的音素;将与所述各个语音帧对应的音素进行组合,得到所述目标识 别结果,其中,所述目标识别结果为与所述各个语音帧对应的音素所组合出的至 少一个单词。
可选地,在所述通过语音交互设备采集目标对象的第一语音数据之前,所述 方法还包括:通过所述语音交互设备获取所述目标对象输入的唤醒指令,其中, 所述唤醒指令用于唤醒所述语音交互设备;控制所述语音交互设备发出第一提示 语音,其中,所述第一提示语音用于指示所述目标对象执行语音输入操作。
可选地,通过所述语音交互设备获取所述目标对象输入的唤醒指令包括:通 过所述语音交互设备采集所述目标对象输入的第三语音数据;将所述第三语音数 据和与所述唤醒指令对应的参考语音数据进行匹配,其中,所述参考语音数据为 所述目标对象输入的、唤醒过所述语音交互设备的历史语音数据;在所述第三语 音数据与所述参考语音数据的匹配度大于或者等于第一阈值的情况下,确定所述 目标对象输入了所述唤醒指令。
可选地,通过所述语音交互设备获取所述目标对象输入的唤醒指令包括:通 过所述语音交互设备采集所述目标对象输入的第四语音数据;在所述唤醒指令为 多个的情况下,将所述第四语音数据与多个所述唤醒指令中的每个所述唤醒指令 分别进行匹配;在所述第四语音数据与目标唤醒指令的匹配程度大于或者等于第 二阈值的情况下,确定所述目标对象输入了所述目标唤醒指令,其中,所述目标 唤醒指令为多个所述唤醒指令中的一个。
可选地,在所述通过所述语音交互设备向所述目标对象输出与所述目标识别 结果匹配的目标处理结果之前,所述方法还包括:控制所述语音交互设备发出第 二提示语音,其中,所述第二提示语音用于指示所述语音交互设备待输出所述目 标处理结果。
可选地,在所述通过所述语音交互设备向所述目标对象输出与所述目标识别 结果匹配的目标处理结果之后,所述方法还包括:在检测到对所述语音交互设备 执行了第二操作的情况下,通过所述语音交互设备向所述目标对象再次输出所述 目标处理结果,其中,所述第二操作用于指示所述语音交互数据再次输出所述目 标处理结果。
根据本申请实施例的另一个方面,还提供了一种语音数据的处理装置,包括: 第一采集单元,用于通过语音交互设备采集目标对象的第一语音数据;第二采集 单元,用于在检测到对所述语音交互设备执行了第一操作的情况下,通过所述语 音交互设备采集所述目标对象的第二语音数据,其中,所述第一操作用于指示所 述语音交互设备继续采集语音数据;识别单元,用于对所述第一语音数据和所述 第二语音数据进行语音识别,得到目标识别结果;输出单元,用于通过所述语音 交互设备向所述目标对象输出与所述目标识别结果匹配的目标处理结果。
可选地,所述识别单元包括:获取模块,用于获取与目标语音数据对应的语 音帧序列,其中,所述目标语音数据是对所述第一语音数据和第二语音数据进行 拼接所得到的语音数据,所述语音帧序列为按照时间顺序对所述目标语音数据包 含的多个语音帧进行排序得到的序列;识别模块,用于将所述语音帧序列输入到 目标网络模型,得到所述目标网络模型输出的所述目标识别结果,其中,所述目 标网络模型用于根据所述语音帧序列中的各个语音帧、以及位于所述各个语音帧 之前的至少一个语音帧的识别结果对所述各个语音帧进行识别,得到所述各个语 音帧的识别结果,并根据所述各个语音帧的识别结果,确定所述目标识别结果。
可选地,所述识别模块包括:输入子模块,用于依次将所述各个语音帧的语 音特征、以及所述各个语音帧的前一个语音帧的识别结果输入到所述目标网络模 型的隐藏层,得到所述各个语音帧的识别结果,其中,所述各个语音帧的识别结 果用于指示与所述各个语音帧对应的音素;组合子模块,用于将与所述各个语音 帧对应的音素进行组合,得到所述目标识别结果,其中,所述目标识别结果为与 所述各个语音帧对应的音素所组合出的至少一个单词。
可选地,所述装置还包括:第一输入单元,用于在所述通过语音交互设备采 集目标对象的第一语音数据之前,通过所述语音交互设备获取所述目标对象输入 的唤醒指令,其中,所述唤醒指令用于唤醒所述语音交互设备;第一控制单元, 用于控制所述语音交互设备发出第一提示语音,其中,所述第一提示语音用于指 示所述目标对象执行语音输入操作。
可选地,第一输入单元包括:第一输入模块,用于通过所述语音交互设备采 集所述目标对象输入的第三语音数据;第一匹配模块,用于将所述第三语音数据 和与所述唤醒指令对应的参考语音数据进行匹配,其中,所述参考语音数据为所 述目标对象输入的、唤醒过所述语音交互设备的历史语音数据;第一确定模块, 用于在所述第三语音数据与所述参考语音数据的匹配度大于或者等于第一阈值 的情况下,确定所述目标对象输入了所述唤醒指令。
可选地,第一输入单元包括:第二输入模块,用于通过所述语音交互设备采 集所述目标对象输入的第四语音数据;第二匹配模块,用于在所述唤醒指令为多 个的情况下,将所述第四语音数据与多个所述唤醒指令中的每个所述唤醒指令分 别进行匹配;第二确定模块,用于在所述第四语音数据与目标唤醒指令的匹配程 度大于或者等于第二阈值的情况下,确定所述目标对象输入了所述目标唤醒指 令,其中,所述目标唤醒指令为多个所述唤醒指令中的一个。
可选地,该装置还包括:第二控制单元,用于在通过所述语音交互设备向所 述目标对象输出与所述目标识别结果匹配的目标处理结果之前,控制所述语音交 互设备发出第二提示语音,其中,所述第二提示语音用于指示所述语音交互设备 待输出所述目标处理结果。
可选地,该装置还包括:第二输入单元,在所述通过所述语音交互设备向所 述目标对象输出与所述目标识别结果匹配的目标处理结果之后,在检测到对所述 语音交互设备执行了第二操作的情况下,通过所述语音交互设备向所述目标对象 再次输出所述目标处理结果,其中,所述第二操作用于指示所述语音交互数据再 次输出所述目标处理结果。
根据本申请实施例的又一个方面,还提供了一种电子设备,包括处理器、通 信接口、存储器和通信总线,其中,处理器、通信接口和存储器通过通信总线完 成相互间的通信;其中,存储器,用于存储计算机程序;处理器,用于通过运行 所述存储器上所存储的所述计算机程序来执行上述任一实施例中的方法步骤。
根据本申请实施例的又一个方面,还提供了一种计算机可读的存储介质,该 存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述任 一实施例中的方法步骤。
在本申请实施例中,采用按照用户操作控制语音交互设备持续进行数据采集 的方式,通过语音交互设备采集目标对象的第一语音数据;在检测到对语音交互 设备执行了第一操作的情况下,通过语音交互设备采集目标对象的第二语音数 据,其中,第一操作用于指示语音交互设备继续采集语音数据;对第一语音数据 和第二语音数据进行语音识别,得到目标识别结果;通过语音交互设备向目标对 象输出与目标识别结果匹配的目标处理结果,由于根据检测到的用户操作继续采 集语音数据,可以在语音表达出现暂停时持续采集语音数据,而不会被语音交互 设备打断,同时,由于对多次采集到的语音数据一起进行语音识别,无需用户反 复输入相同的语音数据,可以避免由此造成的语音输入不准确,达到提高语音数 据采集的准确性、提升用户的语音交互体验的技术效果,进而解决了相关技术中 的语音交互方式存在由于无法准确采集到用户的语音交互数据导致的语音交互 体验欠佳的问题。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的 实施例,并与说明书一起用于解释本发明的原理。
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例 或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普 通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其 他的附图。
图1是根据本发明实施例的一种可选的语音数据的处理方法的硬件环境的示 意图;
图2是根据本申请实施例的一种可选的语音数据的处理方法的流程示意图;
图3是根据本申请实施例的一种可选的循环神经网络语音识别的示意图;
图4是根据本申请实施例的一种可选的语音数据控制系统的示意图;
图5是根据本申请实施例的另一种可选的语音数据的处理方法的流程示意 图;
图6是根据本申请实施例的一种可选的语音数据的处理装置的结构框图;
图7是根据本申请实施例的一种可选的电子设备的结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例 中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述 的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的 实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实 施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、 “第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该 理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能 够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有” 以及他们的任何变形,意图在于覆盖不排他的包含,比如,包含了一系列步骤或 单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元, 而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步 骤或单元。
根据本申请实施例的一个方面,提供了一种语音数据的处理方法。可选地, 在本实施例中,上述语音数据的处理方法可以应用于如图1所示的由终端102和 服务器104所构成的硬件环境中。如图1所示,服务器104通过网络与终端102 进行连接,可用于为终端或终端上安装的客户端提供服务(如游戏服务、应用服 务等)。在应用中,还可在服务器上或独立于服务器设置数据库,用于为服务器 104提供数据存储服务。
上述网络可以包括但不限于以下至少之一:有线网络,无线网络。上述有线 网络可以包括但不限于以下至少之一:广域网,城域网,局域网,上述无线网络 可以包括但不限于以下至少之一:WIFI(Wireless Fidelity,无线保真),蓝牙。 终端102可以并不限定于为PC、手机、平板电脑等。
本申请实施例的语音数据的处理方法可以由服务器104来执行,也可以由终 端102(例如,语音交互设备)来执行,还可以是由服务器104和终端102共同 执行。其中,终端102执行本申请实施例的语音数据的处理方法也可以是由安装 在其上的客户端来执行。
以由语音交互设备来执行本实施例中的语音数据的处理方法为例,图2是根 据本申请实施例的一种可选的语音数据的处理方法的流程示意图,如图2所示, 该方法的流程可以包括以下步骤:
步骤S202,通过语音交互设备采集目标对象的第一语音数据。
本实施例中的语音数据的处理方法可以应用于人机语音交互的场景中,人机 语音交互可以是通过语音交互设备采集用户的语音数据并对语音数据进行反馈。 例如,人机语音交互可以是目标对象与语音交互设备之间的语音交互。上述目标 对象可以对应于使用语音交互设备进行语音交互的目标用户,比如,老年用户。 上述语音交互设备可以是与目标对象进行语音交互的设备,比如,陪伴机器人。
本实施例以老年用户和陪伴机器人之间语音交互的场景为例说明上述语音 数据的处理方法,对于其他人机语音交互的场景,本实施例中的语音数据的处理 方法同样使用。
语音交互设备上可以运行有用于进行语音交互的客户端。目标对象(目标用 户)可以使用帐号和密码、动态密码、关联应用登录等方式登录到语音交互设备 上运行的上述客户端。或者,语音交互设备也可以不需要登录,直接进行语音交 互,本实施例中对此不作限定。
在需要进行语音交互时(例如,查询天气),目标对象可以进行语音输入。 语音交互设备可以采集到目标对象输入的第一语音数据,该第一语音数据可以是 目标对象需要语音交互设备识别出的一段语音数据。
步骤S204,在检测到对语音交互设备执行了第一操作的情况下,通过语音交 互设备采集目标对象的第二语音数据,其中,第一操作用于指示语音交互设备继 续采集语音数据。
在采集到第一语音数据之后(第一语音数据的语音输入结束之后),如果语 音交互设备检测到对其执行了第一操作,响应检测到的第一操作,语音交互设备 可以继续采集目标对象输入的语音数据,得到第二语音数据,该第一操作用于指 示语音交互设备继续采集语音数据,该第二语音数据可以是目标对象需要语音交 互设备识别出的另一段语音数据。
检测对语音交互设备执行的操作可以是在采集到第一语音数据之后的第一 预设时间内进行的。第一预设时间可以是语音交互设备预先配置的等待时间。如 果在采集到第一语音数据之后的第一预设时间内检测到对语音交互设备执行了 第一操作,语音交互设备可以继续进行语音采集,如果超过第一预设时间,即使 检测到对语音交互设备执行了第一操作,语音交互设备可以不再进行语音采集。
第一预设时间可以是预先配置的一小段时长(比如,5s),可以是系统默认 的时间,也可以是用户(例如,目标对象)自定义的时间,本实施例中对此不作 限定。
对于第一操作,其可以是预先配置的一个操作或者操作集合,不同的语音交 互设备可以采用相同或不同的第一操作来控制语音交互设备继续采集语音数据。
第一操作可以采用多种实现方式。作为一种可选的实施方式,在语音交互设 备的周边可以设置有一个或多个按钮,一个或多个按钮可以是物理按钮,也可以 是虚拟按钮(触控按钮)。第一操作可以是对语音交互设备上的第一按钮执行的 选取操作(比如,点击操作)。作为另一种可选的实施方式,在语音交互设备上 可以设置有第一触控检测区域,第一操作可以是对语音交互设备上的第一触控检 测区域执行的触控操作。本实施例中对于第一操作的实现方式不作限定。
例如,交互机器人上的按钮A可以用于控制继续采集语音数据,第一操作可 以是对按钮A执行的按压操作。如果交互机器人检测到按钮A被按下,则可以 确定需要继续采集语音数据。
又例如,交互机器人上的触控检测区域B可以用于控制继续采集语音数据, 第一操作可以是对触控检测区域B执行的触控操作。如果交互机器人检测到触控 检测区域B被触碰,则可以确定需要继续采集语音数据。
可选地,在本实施例中,在通过语音交互设备采集目标对象的第一语音数据 之后,如果检测到对语音交互设备执行了第三操作,响应检测到的第三操作,语 音交互设备可以清除已采集的第一语音数据,重新采集输入的语音数据。
与前述类似地,检测对语音交互设备执行的操作可以是在采集到第一语音数 据之后的第一预设时间内进行的。对于第三操作,其可以是预先配置的一个操作 或者操作集合,不同的语音交互设备可以采用相同或不同的第三操作来控制语音 交互设备重新采集语音数据。第三操作可以采用多种实现方式,本实施例中对于 第三操作的实现方式不作限定。
示例性地,由于老年用户的认知负荷等级较低,对应的认知特征为语言表现 能力下降,包括词汇提取困难、发音变化、言语失误、容易忽略语音交互设备的 状态等。针对语音数据提取困难、舌尖现象、言语失误等问题,可以在语音交互 设备上增加语音采集延时的控制策略和语音数据重新采集的控制策略。
步骤S206,对第一语音数据和第二语音数据进行语音识别,得到目标识别结 果。
在采集到第二语音数据之后,语音交互设备可以将第一语音数据和第二语音 数据一起进行语音识别,得到与第一语音数据和第二语音数据对应的目标识别结 果。
在进行语音识别时,语音交互设备可以首先对第一语音数据和第二语音数据 进行拼接,得到目标语音数据,并对目标语音数据进行识别,得到目标识别结果。 可选地,语音交互设备也可以将第一语音数据和第二语音数据发送至服务器端, 由服务器执行的语音识别的步骤。
目标识别结果可以是从第一语音数据和第二语音数据中识别出的一个或多 个词的词序列,可以用于表示目标对象的语音交互信息,也就是,目标对象所需 交互的内容。
在进行语音识别时,可以首先对目标语音数据进行分帧处理,得到多个语音 帧,多个语音帧包含第一语音数据内的语音帧和第二语音数据内的语音帧;然后, 识别出每个语音帧的状态,将若干个语音帧的状态可以组合成一个音素,并将若 干个音素组合成一个单词,最终将获取的至少一个单词组合成目标识别结果。
步骤S208,通过语音交互设备向目标对象输出与目标识别结果匹配的目标处 理结果。
对于目标识别结果,语音交互设备或者服务器端可以通过对目标识别结果进 行语义分析,获取目标对象所需交互的内容,并获取与该目标识别结果匹配的目 标处理结果(反馈结果)。如果由服务器执行获取与目标识别结果匹配的目标处 理结果的步骤,服务器可以将目标处理结果发送给语音交互设备。
语音交互设备在获取到与目标识别结果匹配的目标处理结果之后,可以通过 其上的输出装置向目标对象输出目标处理结果,输出装置可以是语音交互设备上 的扬声器等。
在输出目标处理结果的同时,语音交互设备也可以在其屏幕上显示目标处理 结果,或者,在其屏幕上显示提示信息,以提示目标对象语音交互设备当前正在 输出目标处理结果。
通过上述步骤S202至步骤S208,通过语音交互设备采集目标对象的第一语 音数据;在检测到对语音交互设备执行了第一操作的情况下,通过语音交互设备 采集目标对象的第二语音数据,其中,第一操作用于指示语音交互设备继续采集 语音数据;对第一语音数据和第二语音数据进行语音识别,得到目标识别结果; 通过语音交互设备向目标对象输出与目标识别结果匹配的目标处理结果,解决了 相关技术中的语音交互方式存在由于无法准确采集到用户的语音交互数据导致 的语音交互体验欠佳的问题,提高了语音数据采集的准确性、提升了用户的语音 交互体验。
作为一种可选实施例,对第一语音数据和第二语音数据进行语音识别,得到 目标识别结果包括:
S11,获取与目标语音数据对应的语音帧序列,其中,目标语音数据是对第 一语音数据和第二语音数据进行拼接所得到的语音数据,语音帧序列为按照时间 顺序对目标语音数据包含的多个语音帧进行排序得到的序列。
S12,将语音帧序列输入到目标网络模型,得到目标网络模型输出的目标识 别结果,其中,目标网络模型用于根据语音帧序列中的各个语音帧、以及位于各 个语音帧之前的至少一个语音帧的识别结果对各个语音帧进行识别,得到各个语 音帧的识别结果,并根据各个语音帧的识别结果,确定目标识别结果。
为了进行语音识别,可以首先将第一语音数据和第二语音数据进行拼接,得 到目标语音数据。在得到目标语音数据之后,可以对目标语音数据进行分帧,得 到多个语音帧,每个语音帧为一小段(例如,10ms~30ms)的语音数据,并对多 个语音帧按照时间顺序进行排序,得到语音帧序列。语音帧序列中的各个语音帧 可以表征为与各个语音帧对应的语音特征。
对于语音帧序列,可以将语音帧序列中的各个语音帧依次输入到用于进行语 音识别的网络模型,得到该网络模型输出的各个语音帧的识别结果。语音识别所 采用的网络模型可以有多种,例如,GMM(Gaussian Mixture Mode,高斯混合模 型),DNN(Deep NeuralNetworks,深度神经网络)。
语音是一种各帧之间具有很强相关性的复杂时变信号,这种相关性可以体现 在说话时的协同发音现象上,往往前后好几个字对所要说的字都有影响,也就是 语音的各帧之间具有长时相关性。在训练GMM时,输入特征一般只是单帧的信 号,由于其未考虑各帧之间的长时相关性,导致语音识别结果的准确性较低。
而DNN可以采用拼接帧作为输入,采用拼接帧的方式可以学到一定程度的 上下文信息,因此,相比GMM,DNN可以具有较大的性能提升。但是,由于 DNN输入的窗长是固定的,学习到的是固定输入到输入的映射关系,从而导致 DNN对于时序信息的长时相关性的建模较弱。
鉴于上述,可选地,在本实施例中,在进行语音识别时,可以使用具有记忆 功能的网络模型,即,目标网络模型,该网络模型可以用于根据输入的语音帧、 以及位于该语音帧之前的至少一个语音帧的识别结果对该语音帧进行识别,得到 该语音帧的识别结果。由于每个语音帧的识别结果是根据本语音帧、以及本语音 帧之前的语音帧的识别结果确定的,其可以利用语音的长时相关性,因此能够提 高识别结果的准确性。
比如,目标网络模型可以是具备记忆功能的网络模型,对于当前语音帧,其 可以根据当前语音帧、以及当前语音帧之前的至少一个语音帧的识别结果对该语 音帧进行识别,得到当前语音帧的识别结果。
在得到各个语音帧的识别结果之后,目标网络模型可以根据各个语音帧的识 别结果,确定目标识别结果。各个语音帧的识别结果可以是将各个语音帧识别成 的状态,根据各个语音帧的识别结果,确定目标识别结果可以包括:把各个语音 帧的识别结果(状态)合成为一个或多个音素,把一个或多个音素合成为一个或 多个单词,目标识别结果为上述一个或多个单词。
通过本实施例,通过使用具备记忆功能的网络模型进行语音识别,根据一个 语音帧和该语音帧之前的至少一个语音帧的识别结果得到当前语音帧的识别结 果,可以提高识别结果的准确性。
作为一种可选实施例,将语音帧序列输入到目标网络模型,得到目标网络模 型输出的目标识别结果包括:
S21,依次将各个语音帧的语音特征、以及各个语音帧的前一个语音帧的识 别结果输入到目标网络模型的隐藏层,得到各个语音帧的识别结果,其中,各个 语音帧的识别结果用于指示与各个语音帧对应的音素;
S22,将与各个语音帧对应的音素进行组合,得到目标识别结果,其中,目 标识别结果为与各个语音帧对应的音素所组合出的至少一个单词。
目标网络模型可以具有隐藏层(隐层),不同的语音帧可以对应于不同的隐 藏层。在隐藏层上可以增加一个反馈连接,目标网络模型的隐藏层在当前时刻的 输入有一部分是前一时刻隐藏层的输出,使得目标网络模型可以通过循环反馈连 接看到前面所有时刻的信息,这赋予了目标网络模型记忆功能。使得目标网络模 型可以适用于对时序信号进行建模。
可选地,目标网络模型可以包含循环神经网络,循环神经网络具备对处理过 的信息留有记忆的功能,可以利用语音的长时相关性,来提高语音识别的准确性。
例如,如图3所示,循环神经网络包括一个输入层xt,一个输出层ht和一个 隐藏层A。隐藏层A不仅仅与输入层和输出层存在联系,其与自身也存在一个循 环的回路,这样,上一个时刻的网络状态信息将会作用于下一个时刻的网络状态。
使用目标网络模型进行语音识别时,可以依次将各个语音帧的语音特征、以 及各个语音帧的前一个语音帧的识别结果输入到目标网络模型的隐藏层,该隐藏 层的输入包括:各个语音帧的语音特征,各个语音帧的前一个语音帧的识别结果。 一个语音帧的识别结果用于表示该语音帧为音素集合中的各个音素的概率,或 者,用于表示音素集合中与该语音帧对应的概率最大的音素(状态)。
例如,如图3所示,以语音帧序列内的第一语音帧x0和第二语音帧x1为例, 将x0通过循环神经网络的输入层输入到隐藏层内,隐藏层对x0进行去重和识别 后,识别结果除了通过输出层输出之外,还将其作为x1对应的隐藏层的输入, 这时,x1对应的隐藏层的输入就包括了x1以及x0的隐藏层输出的识别结果,然 后依次类推,从而得到各个语音帧的识别结果。
根据与各个语音帧对应的音素,可以对与各个语音帧对应的音素进行组合, 例如,根据与各个语音帧对应的音素,将相邻的至少一个音素进行组合,多个音 素进行组合就形成了多个单词,多个单词组成的文字即为目标识别结果。
通过本实施例,通过在隐藏层上增加一个反馈连接,隐藏层在当前时刻的输 入有一部分是前一时刻隐藏层的输出,使得网络模型可以通过循环反馈连接看到 前面所有时刻的信息,从而可以利用语音的长时相关性,提高语音识别的准确性。
作为一种可选实施例,通过语音交互设备采集目标对象的第一语音数据之 前,上述方法还包括:
S31,通过语音交互设备获取目标对象输入的唤醒指令,其中,唤醒指令用 于唤醒语音交互设备;
S32,控制语音交互设备发出第一提示语音,其中,第一提示语音用于指示 目标对象执行语音输入操作。
为了避免采集到无用语音数据,在采集第一语音数据时,语音交互设备可以 处于唤醒状态,语音交互设备只有在唤醒状态下才会控制对采集到的语音数据进 行识别。在语音交互设备处于休眠状态时,语音交互设备可以通过唤醒指令进行 唤醒,该唤醒指令中包含了语音交互设备的唤醒词。语音交互设备的唤醒词可以 是默认的唤醒词,也可以是用户自定义的唤醒词。上述唤醒指令为与目标对象自 定义的唤醒词对应的唤醒指令。
语音交互设备的唤醒环节要求目标对象可以认知到唤醒方式、记住唤醒指 令,认知负荷等级为高。然而,由于目标对象(例如,老年用户)的认知特征为 记忆力退化,将直接导致语音交互任务的失败。为了提高唤醒指令的易记忆性, 可以采用自定义唤醒词的控制策略。
例如,自定义的唤醒词为“AAA设备”,将该自定义唤醒词保存在语音交互设 备中,便于目标对象根据自己的习惯和喜好轻松地唤醒语音交互设备。
在获取到目标对象输入的唤醒指令之后,语音交互设备可以即刻进入唤醒状 态。这时,语音交互设备可以向目标对象发出一个提示信息(即提示语音)来提 示其已经被唤醒,例如,提示语音可以是“我在”、“在”等。
语音交互设备可以是针对一些特定用户的语音交互设备,在被唤醒时,如果 语音交互设备仅输出提示其已经被唤醒的提示语音,可能并不能引起特定用户的 注意。在本实施例中,在被唤醒时,语音交互设备可以通过发出用于指示目标对 象执行语音输入操作的第一提示语音(比如,“准备好了,请说”)来提示目标对 象进行语音输入。第一提示语音的时长可以超过一定时长阈值,和/或,第一提示 语音的音量可以超过一定音量阈值,和/或,第一提示语音的语速可以低于一定语 速阈值。
例如,语音交互设备可以是针对老年用户(也可以是其他特定用户)的陪伴 机器人,由于与语音交互设备进行语音交互的目标对象是老年用户,而老年用户 的认知能力下降,感知器官弱化,需要语音交互设备输出较长的语音提示来引起 老年用户的注意,让其知晓可以进行语音输入。
此外,对于针对特定用户的语音交互设备,语音交互设备可以进一步通过视 觉感官来引起特定用户的注意力,视觉感官的提示方式可以包括但不限于:灯光 效果,图形界面的动画效果等。比如,语音交互设备内可以设置有指示灯,语音 交互设备在发出第一提示语音的同时,可以控制指示灯的常亮、闪烁、发出彩色 灯光等。
例如,语音交互设备内可以设置有指示灯以及与指示灯连接的光敏传感器, 该光敏传感器可以根据当前所处位置的光线强度来控制指示灯的亮度,比如,当 光敏传感器检测到室外强光,则自动调亮指示灯的亮度。当光敏传感器检测到夜 晚弱光,则自动调低指示灯的亮度,防止由于指示灯太亮对目标对象的眼睛产生 伤害。
示例性地,在语音交互设备被唤醒后,进入输入状态确认环节,老年用户的 认知负荷等级为中,对应的老年用户认知特征为感知觉弱化,不容易意识到语音 交互设备反映的状态。针对这一特征,根据感官代偿的原理,采用指示灯加语音 提示双重确认。
其中,感官代偿主要调用视觉通道和听觉通道,视觉通道的反馈有灯光效果、 图形界面动效、实体动作等,听觉通道的反馈有如声音动效、语音提示等。当语 音交互设备被唤醒后,语音交互设备准确采集老年用户的语音输入前,会点亮指 示灯并发出预设的语音提醒信息,例如“准备好了,请说”,利用视觉通道和听 觉通道,使老年用户认知到语音交互设备开始采集他的语音指令。
通过本实施例,利用用户的听觉感官(和视觉感官),使目标对象认知到语 音交互设备所处的状态,可以提高语音数据采集的效率,同时可以提高用户的语 音交互体验。
作为一种可选实施例,通过语音交互设备获取目标对象输入的唤醒指令包 括:
S41,通过语音交互设备采集目标对象输入的第三语音数据;
S42,将第三语音数据和与唤醒指令对应的参考语音数据进行匹配,其中, 参考语音数据为目标对象输入的、唤醒过语音交互设备的历史语音数据;
S43,在第三语音数据与参考语音数据的匹配度大于或者等于第一阈值的情 况下,确定目标对象输入了唤醒指令。
为了提高语音交互设备的唤醒效率,语音交互设备内可以保存有与唤醒指令 对应的参考语音数据,该参考语音数据可以是目标对象输入的、曾唤醒过语音交 互设备的历史语音数据。例如,如果用户曾经使用某一段语音数据唤醒过语音交 互设备,则语音交互设备可以将其作为参考语音数据进行保存。
语音交互设备可以采集到目标对象输入的第三语音数据,将采集的第三语音 数据与参考语音数据进行匹配,匹配可以是语音帧之间的匹配,也可以是语音数 据包络的匹配,还可以是其他可以用于匹配两个语音数据的方式,本实施例中对 此不作限定。
如果第三语音数据与参考语音数据的匹配度大于或者等于第一阈值(例如,80%),语音交互设备可以确定目标对象输入了唤醒指令,即,确定获取到唤醒 指令,可以唤醒语音交互设备。第一阈值可以是允许自定义的数值,也可以是根 据历史经验配置的数值,本实施例中对于第一阈值、以及第一阈值的配置方式不 作限定。
通过本实施例,通过保存用户输入的、唤醒过语音交互设备的语音数据作为 参考,与新输入的语音数据进行匹配,由于是同一用户的语音数据,可以适用于 不同用户的特点,提高语音交互设备唤醒的准确性,同时可以提高设备唤醒的灵 活性。
作为一种可选实施例,通过语音交互设备获取目标对象输入的唤醒指令包 括:
S51,通过语音交互设备采集目标对象输入的第四语音数据;
S52,在唤醒指令为多个的情况下,将第四语音数据与多个唤醒指令中的每 个唤醒指令分别进行匹配;
S53,在第四语音数据与目标唤醒指令的匹配程度大于或者等于第二阈值的 情况下,确定目标对象输入了目标唤醒指令,其中,目标唤醒指令为多个唤醒指 令中的一个。
为了提高语音交互设备唤醒的灵活性,可以在语音交互设备中配置多个唤醒 指令,比如,唤醒指令1:“A设备”,唤醒指令2:“AA设备”等,每个唤醒指令 都可以唤醒语音交互设备。
在语音交互设备处于休眠状态时,语音交互设备可以采集目标对象输入的第 四语音数据,识别第四语音数据中包含的词,将第四语音数据中包含的词与多个 唤醒指令中的每个唤醒指令分别进行匹配,确定第四语音数据与各个唤醒指令的 匹配程度。
若存在一个唤醒指令(即目标唤醒指令)与第四语音数据的匹配度大于或者 等于第二阈值(例如,81%),语音交互设备可以确定目标对象输入了唤醒指令, 即,确定获取到唤醒指令。其中,第一阈值可以是允许自定义的数值,也可以是 根据历史经验配置的数值,本实施例中对于第二阈值、以及第二阈值的配置方式 不作限定。
通过本实施例,通过配置语音交互设备的多个唤醒词,通过任意唤醒词均可 唤醒语音交互设备,可以提高唤醒语音交互设备的灵活性。
作为一种可选实施例,在通过语音交互设备向目标对象输出与目标识别结果 匹配的目标处理结果之前,上述方法还包括:
S61,控制语音交互设备发出第二提示语音,其中,第二提示语音用于指示 语音交互设备待输出目标处理结果。
语音交互设备可以是前述针对一些特定用户的语音交互设备,例如,针对老 年用户的陪伴机器人。由于这些特定用户的注意力难以保持集中,需要有一段反 应时间。如果在得到目标处理结果之后直接进行语音反馈,对于这些特定用户来 说可能是猝不及防的,导致这些特定用户没有接收到语音反馈的开头部分,从而 影响到这些特定用户对语音反馈的获取。
可选地,在本实施例中,在向目标对象输出目标处理结果之前,语音交互设 备可以先给目标对象一个语音提示信息(第二提示语音,例如,“处理完毕”), 来提示目标对象它进入输出目标处理结果的状态,第二提示语音可以以语音播放 的方式来提示目标对象。第二提示语音的时长可以超过一定时长阈值,和/或,第 二提示语音的音量可以超过一定音量阈值,和/或,第二提示语音的语速可以低于 一定语速阈值。
同时,对于针对特定用户的语音交互设备,语音交互设备可以进一步通过视 觉感官来引起特定用户的注意力,视觉感官的提示方式可以与前述类似,本实施 例中在此不作赘述。
示例性地,在处理结果的输出环节,若目标对象是老年用户,当语音交互设 备进行目标处理结果的输出时,可以采用先提示后反馈的设计策略:先以简短的 音效提示老年用户,之后再进行语音反馈。提示音效造成的时间窗使得老年用户 有一定时间将注意力集中到接收语音反馈上,增加老年用户对反馈句子的处理和 理解。
通过本实施例,利用用户的听觉感官(和视觉感官),使目标对象认知到语 音交互设备所处的状态,可以提高语音数据采集的效率,同时可以提高用户的语 音交互体验。
作为一种可选实施例,在通过语音交互设备向目标对象输出与目标识别结果 匹配的目标处理结果之后,上述方法还包括:
S71,在检测到对语音交互设备执行了第二操作的情况下,通过语音交互设 备向目标对象再次输出目标处理结果,其中,第二操作用于指示语音交互数据再 次输出目标处理结果。
为了保证用户可以准确获知目标处理结果,在向目标对象输出目标处理结果 之后,如果语音交互设备检测到对其执行了第二操作,响应检测到的第二操作, 语音交互设备可以向目标对象再次输出目标处理结果,该第二操作用于语音交互 数据再次输出目标处理结果。
检测对语音交互设备执行的操作可以是在采集到第一语音数据之后的第二 预设时间内进行的。第二预设时间可以是语音交互设备预先配置的等待时间。如 果向目标对象输出目标处理结果之后的第二预设时间内检测到对语音交互设备 执行了第二操作,语音交互设备可以再次输出目标处理结果,如果超过第二预设 时间,即使检测到对语音交互设备执行了第二操作,语音交互设备可以不再输出 目标处理结果。
第二预设时间可以是预先配置的一小段时长(比如,5s),可以是系统默认 的时间,也可以是用户(例如,目标对象)自定义的时间,本实施例中对此不作 限定。
对于第二操作,其可以是预先配置的一个操作或者操作集合,不同的语音交 互设备可以采用相同或不同的第二操作来控制语音交互设备再次输出处理结果。
第二操作可以采用多种实现方式。作为一种可选的实施方式,在语音交互设 备的周边可以设置有一个或多个按钮,一个或多个按钮可以是物理按钮,也可以 是虚拟按钮(触控按钮)。第二操作可以是对语音交互设备上的第二按钮执行的 选取操作(比如,点击操作)。作为另一种可选的实施方式,在语音交互设上可 以设置有第二触控检测区域,第二操作可以是对语音交互设备上的第二触控检测 区域执行的触控操作。本实施例对于第二操作不做限定。
通过本实施例,通过根据用户的操作重复进行语音反馈,可以保证用户准确 获知语音反馈。
下面结合可选示例对本申请实施例中的语音数据的处理方法进行解释说明。 在本示例中提供的是一种针对老年用户的语音交互控制方式,语音交互设备为陪 伴机器人。
陪伴机器人可以采用如图4所示的语音数据控制系统,该系统包括:输入模 块,处理模块,通信模块,输出模块。输入模块可以包括:按键,话筒(麦克风 或者麦克风阵列),光敏传感器,其中,按键可以包括重新输入按键(第一按钮)、 重复输出按键(第二按钮)、语音清除按钮。通信模块可以包括:蓝牙、wifi。输 出模块包括:扬声器(例如,喇叭)和指示灯。处理模块可以包括:微处理器。
在本示例中,通过输入模块采集目标对象的语音数据、目标对象的按键操作 和目标对象所处的位置的光线强度,将目标对象的语音数据、目标对象的按键选 取操作和光线强度输入到微处理器中进行处理,微处理器控制输出模块输出语音 处理结果。此外,从图4中可知,微处理器也可以和通信模块连接,通过蓝牙或 无线的方式获取到目标对象输入的语音数据,之后将语音识别结果通过蓝牙或无 线发送回目标对象。
图5是根据本申请实施例的另一种可选的语音数据的处理方法的流程示意 图,如图5所示,该方法包括以下步骤:
步骤S502,开始;
步骤S504,判断陪伴机器人是否被唤醒;若是,执行步骤S506,否则,执 行步骤S502,其中,在唤醒环节,可以自定义唤醒词功能,以方便老年用户唤醒 设备;
步骤S506,进行输入状态确认,其中,在输入状态确认环节,陪伴机器人可 以增添视觉和听觉双重提示:驱动指示灯亮并发出预设的语音提醒信息,例如“我 准备好了,请说”,然后驱动话筒采集目标对象的语音信息;
步骤S508,获取语音输入,在输入环节,可以驱动话筒采集用户语音信息;
步骤S510,在输入结束后的一段时间内判断是否延长输入,如果是,执行步 骤S508,继续采集语音输入,否则,执行步骤S514,其中,在输入环节,可以 增加延长输入设置,如果在输入结束的5s内检测到延长输入按键按下,则继续 采集信号,直到结束;
步骤S512,在输入结束后的一段时间内是否重新输入,如果是,执行步骤 S508,重新采集语音输入,否则,执行步骤S514,其中,在输入环节,可以增 加重新输入设置,如果在输入结束后的5s内检测到重新输入按键按下,则复位, 清除已采集的语音信息,重新采集信号,直到结束;
步骤S514,如果未检测到延长输入按键和重新输入按键,进行输出状态确认, 其中,在输出状态确认环节,可以驱动指示灯亮并发出预设的语音提醒信息;
步骤S516,对输入的语音数据进行语音处理,得到对应的处理结果;
步骤S518,输出处理结果,其中,在输出环节,语音处理完成之后,可以驱 动指示灯亮并发出预设的语音提醒信息,例如,“处理完毕”,然后输出处理结果;
步骤S520,在输出环节,可以增加重复输出设置,判断是否重复输出,如果 在输出结束后的5s内检测到重复输出按键被按下,则执行步骤S518,否则,执 行步骤S522;
步骤S522,结束。
通过本示例,在唤醒环节,通过自定义唤醒词功能,便于老年用户唤醒设备; 在状态确认环节,通过增添视觉和听觉双重提示,便于提醒老年用户,提高识别 效果;在输入环节,通过增加延长输入和重新输入设置,便于老年用户的使用; 在输出环节,通过增加重复输出设置,便于老年用户接收与理解信息。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为 一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作 顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次, 本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉 及的动作和模块并不一定是本申请所必须的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述 实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过 硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方 案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该 计算机软件产品存储在一个存储介质(如ROM(Read-Only Memory,只读存储 器)/RAM(Random Access Memory,随机存取存储器)、磁碟、光盘)中,包括 若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备 等)执行本申请各个实施例的方法。
根据本申请实施例的另一个方面,还提供了一种用于实施上述语音数据的处 理方法的语音数据的处理装置。图6是根据本申请实施例的一种可选的语音数据 的处理装置的结构框图,如图6所示,该装置可以包括:
(1)第一采集单元602,用于通过语音交互设备采集目标对象的第一语音数 据;
(2)第二采集单元604,与第一采集单元602相连,用于在检测到对语音交 互设备执行了第一操作的情况下,通过语音交互设备采集目标对象的第二语音数 据,其中,第一操作用于指示语音交互设备继续采集语音数据;
(3)识别单元606,与第二采集单元604相连,用于对第一语音数据和第二 语音数据进行语音识别,得到目标识别结果;
(4)输出单元608,与识别单元606相连,用于通过语音交互设备向目标对 象输出与目标识别结果匹配的目标处理结果。
需要说明的是,该实施例中的第一采集单元602可以用于执行上述步骤 S202,该实施例中的第二采集单元604可以用于执行上述步骤S204,该实施例 中的识别单元606可以用于执行上述步骤S206;该实施例中的输出单元608可以 用于执行上述步骤S208。
通过上述模块,通过语音交互设备采集目标对象的第一语音数据;在检测到 对语音交互设备执行了第一操作的情况下,通过语音交互设备采集目标对象的第 二语音数据,其中,第一操作用于指示语音交互设备继续采集语音数据;对第一 语音数据和第二语音数据进行语音识别,得到目标识别结果;通过语音交互设备 向目标对象输出与目标识别结果匹配的目标处理结果,解决了相关技术中的语音 交互方式存在由于无法准确采集到用户的语音交互数据导致的语音交互体验欠 佳的问题,提高了语音数据采集的准确性、提升了用户的语音交互体验。
作为一种可选的实施例,识别单元606包括:
获取模块,用于获取与目标语音数据对应的语音帧序列,其中,目标语音数 据是对第一语音数据和第二语音数据进行拼接所得到的语音数据,语音帧序列为 按照时间顺序对目标语音数据包含的多个语音帧进行排序得到的序列;
识别模块,用于将语音帧序列输入到目标网络模型,得到目标网络模型输出 的目标识别结果,其中,目标网络模型用于根据语音帧序列中的各个语音帧、以 及位于各个语音帧之前的至少一个语音帧的识别结果对各个语音帧进行识别,得 到各个语音帧的识别结果,并根据各个语音帧的识别结果,确定目标识别结果。
作为一种可选的实施例,识别模块包括:
输入子模块,用于依次将各个语音帧的语音特征、以及各个语音帧的前一个 语音帧的识别结果输入到目标网络模型的隐藏层,得到各个语音帧的识别结果, 其中,各个语音帧的识别结果用于指示与各个语音帧对应的音素;
组合子模块,用于将与各个语音帧对应的音素进行组合,得到目标识别结果, 其中,目标识别结果为与各个语音帧对应的音素所组合出的至少一个单词。
作为一种可选的实施例,该装置还包括:
第一输入单元,用于在通过语音交互设备采集目标对象的第一语音数据之 前,通过语音交互设备获取目标对象输入的唤醒指令,其中,唤醒指令用于唤醒 语音交互设备;
第一控制单元,用于控制语音交互设备发出第一提示语音,其中,第一提示 语音用于指示目标对象执行语音输入操作。
作为一种可选的实施例,第一输入单元包括:
第一输入模块,用于通过语音交互设备采集目标对象输入的第三语音数据;
第一匹配模块,用于将第三语音数据和与唤醒指令对应的参考语音数据进行 匹配,其中,参考语音数据为目标对象输入的、唤醒过语音交互设备的历史语音 数据;
第一确定模块,用于在第三语音数据与参考语音数据的匹配度大于或者等于 第一阈值的情况下,确定目标对象输入了唤醒指令。
作为一种可选的实施例,第一输入单元包括:
第二输入模块,用于通过语音交互设备采集目标对象输入的第四语音数据;
第二匹配模块,用于在唤醒指令为多个的情况下,将第四语音数据与多个唤 醒指令中的每个唤醒指令分别进行匹配;
第二确定模块,用于在第四语音数据与目标唤醒指令的匹配程度大于或者等 于第二阈值的情况下,确定目标对象输入了目标唤醒指令,其中,目标唤醒指令 为多个唤醒指令中的一个。
作为一种可选的实施例,该装置还包括:
第二控制单元,用于在通过语音交互设备向目标对象输出与目标识别结果匹 配的目标处理结果之前,控制语音交互设备发出第二提示语音,其中,第二提示 语音用于指示语音交互设备待输出目标处理结果。
作为一种可选的实施例,该装置还包括:
第二输入单元,在通过语音交互设备向目标对象输出与目标识别结果匹配的 目标处理结果之后,在检测到对语音交互设备执行了第二操作的情况下,通过语 音交互设备向目标对象再次输出目标处理结果,其中,第二操作用于指示语音交 互数据再次输出目标处理结果。
此处需要说明的是,上述模块与对应的步骤所实现的示例和应用场景相同, 但不限于上述实施例所公开的内容。需要说明的是,上述模块作为装置的一部分 可以运行在如图1所示的硬件环境中,可以通过软件实现,也可以通过硬件实现, 其中,硬件环境包括网络环境。
根据本申请实施例的又一个方面,还提供了一种用于实施上述语音数据处理 的方法的电子设备,该电子设备可以是终端、服务器、或者其组合。
图7是根据本申请实施例的一种可选的电子设备的结构框图,如图7所示, 包括处理器702、通信接口704、存储器706和通信总线708,其中,处理器702、 通信接口704和存储器706通过通信总线708完成相互间的通信,其中,
存储器706,用于存储计算机程序;
处理器702,用于执行存储器706上所存放的计算机程序时,实现如下步骤:
S1,通过语音交互设备采集目标对象的第一语音数据;
S2,在检测到对语音交互设备执行了第一操作的情况下,通过语音交互设备 采集目标对象的第二语音数据,其中,第一操作用于指示语音交互设备继续采集 语音数据;
S3,对第一语音数据和第二语音数据进行语音识别,得到目标识别结果;
S4,通过语音交互设备向目标对象输出与目标识别结果匹配的目标处理结 果。
可选地,在本实施例中,上述的通信总线可以是PCI(Peripheral ComponentInterconnect,外设部件互连标准)总线、或EISA(Extended Industry StandardArchitecture,扩展工业标准结构)总线等。该通信总线可以分为地址总线、数据 总线、控制总线等。为便于表示,图7中仅用一条粗线表示,但并不表示仅有一 根总线或一种类型的总线。
通信接口用于上述电子设备与其他设备之间的通信。
存储器可以包括RAM,也可以包括非易失性存储器(non-volatile memory), 比如,至少一个磁盘存储器。可选地,存储器还可以是至少一个位于远离前述处 理器的存储装置。
作为一种示例,上述存储器706中可以但不限于包括上述语音数据的处理装 置中的第一采集单元602、第二采集单元604、识别单元606以及输出单元608。 此外,还可以包括但不限于上述语音数据的处理装置中的其他模块单元,本示例 中不再赘述。
上述处理器可以是通用处理器,可以包含但不限于以下至少之一:CPU、NP(Network Processor,网络处理器)等;还可以是DSP(Digital Signal Processing,数 字信号处理器)、ASIC(Application Specific Integrated Circuit,专用集成电路)、 FPGA(Field-Programmable Gate Array,现场可编程门阵列)或者其他可编程逻辑 器件、分立门或者晶体管逻辑器件、分立硬件组件。
此外,上述电子设备还包括:显示器,用于显示目标处理结果。
可选地,本实施例中的具体示例可以参考上述实施例中所描述的示例,本实 施例在此不再赘述。
本领域普通技术人员可以理解,图7所示的结构仅为示意,实施上述方法的 设备可以是终端设备,该终端设备可以是智能手机(如Android手机、iOS手机 等)、平板电脑、掌上电脑以及移动互联网设备(Mobile Internet Devices,MID)、 PAD等终端设备。图7其并不对上述电子设备的结构造成限定。比如,电子设备 还可包括比图7中所示更多或者更少的组件(如网络接口、显示装置等),或者 具有与图7所示的不同的配置。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤 是可以通过程序来指令终端设备相关的硬件来完成,该程序可以存储于一计算机 可读存储介质中,存储介质可以包括:闪存盘、ROM、RAM、磁盘或光盘等。
根据本申请实施例的又一个方面,还提供了一种存储介质。可选地,在本实 施例中,上述存储介质可以用于执行本申请实施例中上述任一项语音数据的处理 方法的程序代码。
可选地,在本实施例中,上述存储介质可以位于上述实施例所示的网络中的 多个网络设备中的至少一个网络设备上。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代 码:
S1,通过语音交互设备采集目标对象的第一语音数据;
S2,在检测到对语音交互设备执行了第一操作的情况下,通过语音交互设备 采集目标对象的第二语音数据,其中,第一操作用于指示语音交互设备继续采集 语音数据;
S3,对第一语音数据和第二语音数据进行语音识别,得到目标识别结果;
S4,通过语音交互设备向目标对象输出与目标识别结果匹配的目标处理结 果。
可选地,本实施例中的具体示例可以参考上述实施例中所描述的示例,本实 施例中对此不再赘述。
可选地,在本实施例中,上述存储介质可以包括但不限于:U盘、ROM、 RAM、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的 产品销售或使用时,可以存储在上述计算机可读取的存储介质中。基于这样的理 解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案 的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在存储介 质中,包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器 或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。
在本申请的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中 没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的客户端,可通过其 它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,比如所述单元 的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,比如多 个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不 执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通 过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单 元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,也可以分 布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现 本实施例中所提供的方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也 可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。 上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实 现。
以上所述仅是本申请的优选实施方式,应当指出,对于本技术领域的普通技 术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些 改进和润饰也应视为本申请的保护范围。

Claims (11)

1.一种语音数据的处理方法,其特征在于,包括:
通过语音交互设备采集目标对象的第一语音数据;
在检测到对所述语音交互设备执行了第一操作的情况下,通过所述语音交互设备采集所述目标对象的第二语音数据,其中,所述第一操作用于指示所述语音交互设备继续采集语音数据;
对所述第一语音数据和所述第二语音数据进行语音识别,得到目标识别结果;
通过所述语音交互设备向所述目标对象输出与所述目标识别结果匹配的目标处理结果。
2.根据权利要求1所述的方法,其特征在于,所述对所述第一语音数据和所述第二语音数据进行语音识别,得到目标识别结果包括:
获取与目标语音数据对应的语音帧序列,其中,所述目标语音数据是对所述第一语音数据和第二语音数据进行拼接所得到的语音数据,所述语音帧序列为按照时间顺序对所述目标语音数据包含的多个语音帧进行排序得到的序列;
将所述语音帧序列输入到目标网络模型,得到所述目标网络模型输出的所述目标识别结果,其中,所述目标网络模型用于根据所述语音帧序列中的各个语音帧、以及位于所述各个语音帧之前的至少一个语音帧的识别结果对所述各个语音帧进行识别,得到所述各个语音帧的识别结果,并根据所述各个语音帧的识别结果,确定所述目标识别结果。
3.根据权利要求2所述的方法,其特征在于,所述将所述语音帧序列输入到目标网络模型,得到所述目标网络模型输出的所述目标识别结果包括:
依次将所述各个语音帧的语音特征、以及所述各个语音帧的前一个语音帧的识别结果输入到所述目标网络模型的隐藏层,得到所述各个语音帧的识别结果,其中,所述各个语音帧的识别结果用于指示与所述各个语音帧对应的音素;
将与所述各个语音帧对应的音素进行组合,得到所述目标识别结果,其中,所述目标识别结果为与所述各个语音帧对应的音素所组合出的至少一个单词。
4.根据权利要求1所述的方法,其特征在于,在所述通过语音交互设备采集目标对象的第一语音数据之前,所述方法还包括:
通过所述语音交互设备获取所述目标对象输入的唤醒指令,其中,所述唤醒指令用于唤醒所述语音交互设备;
控制所述语音交互设备发出第一提示语音,其中,所述第一提示语音用于指示所述目标对象执行语音输入操作。
5.根据权利要求4所述的方法,其特征在于,所述通过所述语音交互设备获取所述目标对象输入的唤醒指令包括:
通过所述语音交互设备采集所述目标对象输入的第三语音数据;
将所述第三语音数据和与所述唤醒指令对应的参考语音数据进行匹配,其中,所述参考语音数据为所述目标对象输入的、唤醒过所述语音交互设备的历史语音数据;
在所述第三语音数据与所述参考语音数据的匹配度大于或者等于第一阈值的情况下,确定所述目标对象输入了所述唤醒指令。
6.根据权利要求4所述的方法,其特征在于,所述通过所述语音交互设备获取所述目标对象输入的唤醒指令包括:
通过所述语音交互设备采集所述目标对象输入的第四语音数据;
在所述唤醒指令为多个的情况下,将所述第四语音数据与多个所述唤醒指令中的每个所述唤醒指令分别进行匹配;
在所述第四语音数据与目标唤醒指令的匹配程度大于或者等于第二阈值的情况下,确定所述目标对象输入了所述目标唤醒指令,其中,所述目标唤醒指令为多个所述唤醒指令中的一个。
7.根据权利要求1所述的方法,其特征在于,在所述通过所述语音交互设备向所述目标对象输出与所述目标识别结果匹配的目标处理结果之前,所述方法还包括:
控制所述语音交互设备发出第二提示语音,其中,所述第二提示语音用于指示所述语音交互设备待输出所述目标处理结果。
8.根据权利要求1至7中任一项所述的方法,其特征在于,在所述通过所述语音交互设备向所述目标对象输出与所述目标识别结果匹配的目标处理结果之后,所述方法还包括:
在检测到对所述语音交互设备执行了第二操作的情况下,通过所述语音交互设备向所述目标对象再次输出所述目标处理结果,其中,所述第二操作用于指示所述语音交互数据再次输出所述目标处理结果。
9.一种语音数据的处理装置,其特征在于,包括:
第一采集单元,用于通过语音交互设备采集目标对象的第一语音数据;
第二采集单元,用于在检测到对所述语音交互设备执行了第一操作的情况下,通过所述语音交互设备采集所述目标对象的第二语音数据,其中,所述第一操作用于指示所述语音交互设备继续采集语音数据;
识别单元,用于对所述第一语音数据和所述第二语音数据进行语音识别,得到目标识别结果;
输出单元,用于通过所述语音交互设备向所述目标对象输出与所述目标识别结果匹配的目标处理结果。
10.一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,所述处理器、所述通信接口和所述存储器通过所述通信总线完成相互间的通信,其特征在于,
所述存储器,用于存储计算机程序;
所述处理器,用于通过运行所述存储器上所存储的所述计算机程序来执行权利要求1至8中任一项所述的方法步骤。
11.一种计算机可读的存储介质,其特征在于,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行权利要求1至8中任一项中所述的方法步骤。
CN202110339932.9A 2021-03-30 2021-03-30 语音数据的处理方法和装置、电子设备和存储介质 Pending CN113113007A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110339932.9A CN113113007A (zh) 2021-03-30 2021-03-30 语音数据的处理方法和装置、电子设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110339932.9A CN113113007A (zh) 2021-03-30 2021-03-30 语音数据的处理方法和装置、电子设备和存储介质

Publications (1)

Publication Number Publication Date
CN113113007A true CN113113007A (zh) 2021-07-13

Family

ID=76712702

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110339932.9A Pending CN113113007A (zh) 2021-03-30 2021-03-30 语音数据的处理方法和装置、电子设备和存储介质

Country Status (1)

Country Link
CN (1) CN113113007A (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106297777A (zh) * 2016-08-11 2017-01-04 广州视源电子科技股份有限公司 一种唤醒语音服务的方法和装置
CN108270928A (zh) * 2018-04-20 2018-07-10 维沃移动通信有限公司 一种语音识别的方法及移动终端
CN108766420A (zh) * 2018-05-31 2018-11-06 中国联合网络通信集团有限公司 语音交互设备唤醒词生成方法及装置
CN108847237A (zh) * 2018-07-27 2018-11-20 重庆柚瓣家科技有限公司 连续语音识别方法及系统
CN108922540A (zh) * 2018-07-27 2018-11-30 重庆柚瓣家科技有限公司 与老人用户进行连续ai对话的方法及系统
CN109782997A (zh) * 2019-01-25 2019-05-21 腾讯科技(深圳)有限公司 一种数据处理方法、装置及存储介质
US20200013390A1 (en) * 2017-06-29 2020-01-09 Alibaba Group Holding Limited Speech wakeup method, apparatus, and electronic device
JP2020135326A (ja) * 2019-02-18 2020-08-31 株式会社Preferred Networks 制御装置、システム及び制御方法
CN111754997A (zh) * 2019-05-09 2020-10-09 北京京东尚科信息技术有限公司 控制装置及其操作方法,和语音交互装置及其操作方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106297777A (zh) * 2016-08-11 2017-01-04 广州视源电子科技股份有限公司 一种唤醒语音服务的方法和装置
US20200013390A1 (en) * 2017-06-29 2020-01-09 Alibaba Group Holding Limited Speech wakeup method, apparatus, and electronic device
CN108270928A (zh) * 2018-04-20 2018-07-10 维沃移动通信有限公司 一种语音识别的方法及移动终端
CN108766420A (zh) * 2018-05-31 2018-11-06 中国联合网络通信集团有限公司 语音交互设备唤醒词生成方法及装置
CN108847237A (zh) * 2018-07-27 2018-11-20 重庆柚瓣家科技有限公司 连续语音识别方法及系统
CN108922540A (zh) * 2018-07-27 2018-11-30 重庆柚瓣家科技有限公司 与老人用户进行连续ai对话的方法及系统
CN109782997A (zh) * 2019-01-25 2019-05-21 腾讯科技(深圳)有限公司 一种数据处理方法、装置及存储介质
JP2020135326A (ja) * 2019-02-18 2020-08-31 株式会社Preferred Networks 制御装置、システム及び制御方法
CN111754997A (zh) * 2019-05-09 2020-10-09 北京京东尚科信息技术有限公司 控制装置及其操作方法,和语音交互装置及其操作方法

Similar Documents

Publication Publication Date Title
CN108829235B (zh) 语音数据处理方法和支持该方法的电子设备
EP3652734B1 (en) Voice data processing method and electronic device supporting the same
CN109243432B (zh) 话音处理方法以及支持该话音处理方法的电子设备
JP7418526B2 (ja) 自動アシスタントを起動させるための動的および/またはコンテキスト固有のホットワード
KR102398649B1 (ko) 사용자 발화를 처리하는 전자 장치 및 그 동작 방법
US10777193B2 (en) System and device for selecting speech recognition model
KR102416782B1 (ko) 음성 인식 서비스 운용 방법 및 이를 지원하는 전자 장치
CN108694944B (zh) 通过使用框架生成自然语言表达的方法和设备
CN112201246B (zh) 基于语音的智能控制方法、装置、电子设备及存储介质
WO2019096056A1 (zh) 语音识别方法、装置及系统
KR102628211B1 (ko) 전자 장치 및 그 제어 방법
KR102369083B1 (ko) 음성 데이터 처리 방법 및 이를 지원하는 전자 장치
KR102391298B1 (ko) 음성 인식 서비스를 제공하는 전자 장치 및 그 방법
CN108766431B (zh) 一种基于语音识别的自动唤醒方法及电子设备
US10671343B1 (en) Graphical interface to preview functionality available for speech-enabled processing
US20210272585A1 (en) Server for providing response message on basis of user's voice input and operating method thereof
KR20190109916A (ko) 전자 장치 및 상기 전자 장치로부터 수신된 데이터를 처리하는 서버
KR102345883B1 (ko) 그래픽 표시를 출력하는 전자 장치
CN111339881A (zh) 基于情绪识别的宝宝成长监护方法及系统
KR20190113130A (ko) 사용자 음성 입력을 처리하는 장치
CN111063356A (zh) 电子设备响应方法及系统、音箱和计算机可读存储介质
US20180350360A1 (en) Provide non-obtrusive output
CN113113007A (zh) 语音数据的处理方法和装置、电子设备和存储介质
CN112435441B (zh) 睡眠检测方法和可穿戴电子设备
KR20190139489A (ko) 음성 인식 서비스 운용 방법 및 이를 지원하는 전자 장치

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination