CN113380275B

CN113380275B - 语音处理方法、装置、智能设备及存储介质

Info

Publication number: CN113380275B
Application number: CN202110678837.1A
Authority: CN
Inventors: 冯大航; 陈孝良
Original assignee: Beijing SoundAI Technology Co Ltd
Current assignee: Beijing SoundAI Technology Co Ltd
Priority date: 2021-06-18
Filing date: 2021-06-18
Publication date: 2024-06-25
Anticipated expiration: 2041-06-18
Also published as: CN113380275A

Abstract

本申请提供了一种语音处理方法、装置、智能设备及存储介质，属于计算机技术领域。该方法包括：对采集到的第一音频数据进行端点检测；在端点检测过程中，若检测到第一语音的起始端点，基于第一语音的起始端点进行语音识别得到第一语音文本信息；基于参考关键词对第一语音文本信息进行检测得到关键词检测结果，参考关键词用于提醒智能设备进行回答；基于关键词检测结果和终止端点检测结果，确定语音结束点。在本申请中，即使采集到的音频数据存在其他用户的语音干扰，也能够结合当前是否存在提醒智能设备进行回答的情况，确定是否到达语音结束点，降低错误确定语音结束点的概率，提高确定语音结束点的准确性。

Description

语音处理方法、装置、智能设备及存储介质

技术领域

本申请涉及计算机技术领域，特别涉及一种语音处理方法、装置、智能设备及存储介质。

背景技术

随着语音识别技术、语义理解技术的飞速发展，AI(Artificial Intelligence，人工智能)外呼系统也逐渐成熟，被广泛应用在反诈骗劝阻、回访、营销、客服等场景中，降低了人工成本。

在AI外呼系统与某一用户进行语音通话时，会通过语音端点检测技术判断该用户的语音是否已经结束，在该用户的语音结束时，进行相应的回答。相关的语音端点检测技术在确定采集到的音频数据中存在语音的情况下，确定该用户的语音未结束；在音频数据中不存在语音的情况下，确定该用户的语音已经结束。

但是，用户可能在较为嘈杂的环境中进行语音通话，在该用户所处的环境中，还有其他用户在讲话，采集到的音频数据还包括其他用户的语音，其他用户的语音会对语音端点检测造成干扰，在该用户的语音已经结束，但音频数据中一直存在其他用户的语音的情况下，相关技术仍会确定该用户的语音未结束，因此，仅通过判断音频数据中是否存在语音来确定某一用户的语音是否已经结束，不够准确。

发明内容

本申请实施例提供了一种语音处理方法、装置、智能设备及存储介质，能够提高确定语音结束点的准确性。所述技术方案如下：

一方面，提供了一种语音处理方法，所述方法包括：

对采集到的第一音频数据进行端点检测；

在端点检测过程中，若检测到第一语音的起始端点，基于所述第一语音的起始端点进行语音识别，得到第一语音文本信息；

基于参考关键词对所述第一语音文本信息进行检测，得到关键词检测结果，所述关键词检测结果用于表示所述第一语音文本信息是否包括所述参考关键词，所述参考关键词用于提醒所述智能设备进行回答；

基于所述关键词检测结果和终止端点检测结果，确定语音结束点，所述终止端点检测结果用于表示所述第一语音的终止端点的检测情况，所述语音结束点用于指示基于所述第一语音文本信息输出回答语句。

在一种可能的实现方式中，所述终止端点检测结果为第一端点检测结果，所述第一端点检测结果用于表示未检测到所述第一语音的终止端点；

所述关键词检测结果为第一关键词检测结果，所述第一关键词检测结果用于表示所述第一语音文本信息包括所述参考关键词；

所述基于所述关键词检测结果和终止端点检测结果，确定语音结束点，包括：

在所述终止端点检测结果为所述第一端点检测结果，且所述关键词检测结果为所述第一关键词检测结果时，确定到达所述语音结束点。

在另一种可能的实现方式中，所述终止端点检测结果为第一端点检测结果，所述第一端点检测结果用于表示未检测到所述第一语音的终止端点；

所述关键词检测结果为第二关键词检测结果，所述第二关键词检测结果用于表示所述第一语音文本信息不包括所述参考关键词；

若所述终止端点检测结果为所述第一端点检测结果，且所述关键词检测结果为所述第二关键词检测结果，则在所述第一语音文本信息的长度大于长度阈值或者所述第一语音文本信息为语义完整的语句时，确定到达所述语音结束点。

在另一种可能的实现方式中，所述终止端点检测结果为第二端点检测结果，所述第二端点检测结果用于表示检测到所述第一语音的终止端点；

在所述终止端点检测结果为所述第二端点检测结果，且所述关键词检测结果为所述第二关键词检测结果的情况下，若在以所述第一语音的终止端点为起始时间的目标时长内检测到第二语音的起始端点，基于所述第二语音的起始端点进行语音识别，得到第二语音文本信息；

若从所述第二语音文本信息中检测出所述参考关键词，则确定到达所述语音结束点，所述语音结束点用于指示基于所述第一语音文本信息和所述第二语音文本信息输出回答语句。

在所述终止端点检测结果为所述第二端点检测结果，且所述关键词检测结果为所述第二关键词检测结果的情况下，若在以所述第一语音的终止端点为起始时间的目标时长内未检测到第二语音的起始端点，则在所述目标时长结束时，确定到达所述语音结束点。

在另一种可能的实现方式中，所述基于所述第一语音的起始端点进行语音识别，得到第一语音文本信息，包括：

获取当前交互的用户的标识对应的声纹数据；

基于所述第一语音的起始端点，从所述第一音频数据中获取与所述声纹数据匹配的目标语音数据；

对所述目标语音数据进行语音识别，得到所述目标语音数据对应的第一语音文本信息。

在另一种可能的实现方式中，所述基于参考关键词对所述第一语音文本信息进行检测，包括下述任一项：

从所述第一语音文本信息中检测与所述参考关键词相同的词语；

从所述第一语音文本信息中检测与所述参考关键词之间的相似度大于相似度阈值的词语。

一方面，提供了一种语音处理装置，所述装置包括：

端点检测模块，用于对采集到的第一音频数据进行端点检测；

语音识别模块，用于在端点检测过程中，若检测到第一语音的起始端点，基于所述第一语音的起始端点进行语音识别，得到第一语音文本信息；

关键词检测模块，用于基于参考关键词对所述第一语音文本信息进行检测，得到关键词检测结果，所述关键词检测结果用于表示所述第一语音文本信息是否包括所述参考关键词，所述参考关键词用于提醒所述智能设备进行回答；

语音结束点确定模块，用于基于所述关键词检测结果和终止端点检测结果，确定语音结束点，所述终止端点检测结果用于表示所述第一语音的终止端点的检测情况，所述语音结束点用于指示基于所述第一语音文本信息输出回答语句。

所述语音结束点确定模块，用于在所述终止端点检测结果为所述第一端点检测结果，且所述关键词检测结果为所述第一关键词检测结果时，确定到达所述语音结束点。

所述语音结束点确定模块，用于若所述终止端点检测结果为所述第一端点检测结果，且所述关键词检测结果为所述第二关键词检测结果，则在所述第一语音文本信息的长度大于长度阈值或者所述第一语音文本信息为语义完整的语句时，确定到达所述语音结束点。

所述语音结束点确定模块，用于：

所述语音结束点确定模块，用于在所述终止端点检测结果为所述第二端点检测结果，且所述关键词检测结果为所述第二关键词检测结果的情况下，若在以所述第一语音的终止端点为起始时间的目标时长内未检测到第二语音的起始端点，则在所述目标时长结束时，确定到达所述语音结束点。

在另一种可能的实现方式中，所述语音识别模块，用于：

获取当前交互的用户的标识对应的声纹数据；

在另一种可能的实现方式中，所述关键词检测模块，用于从所述第一语音文本信息中检测与所述参考关键词相同的词语。

在另一种可能的实现方式中，所述关键词检测模块，用于从所述第一语音文本信息中检测与所述参考关键词之间的相似度大于相似度阈值的词语。

一方面，提供了一种智能设备，所述智能设备包括处理器和存储器，所述存储器中存储有至少一条程序代码，所述至少一条程序代码由所述处理器加载并执行，以实现上述任一种可能的实现方式所述的语音处理方法。

一方面，提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条程序代码，所述至少一条程序代码由处理器加载并执行，以实现上述任一种可能的实现方式所述的语音处理方法。

一方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机程序代码，该计算机程序代码存储在计算机可读存储介质中，智能设备的处理器从计算机可读存储介质读取该计算机程序代码，处理器执行该计算机程序代码，使得该智能设备执行上述任一种可能的实现方式所述的语音处理方法。

本申请实施例提供的技术方案至少带来以下有益效果：

通过结合语音端点检测和语音识别，对采集到的音频数据进行端点检测，并在端点检测的过程中，基于检测到的语音的起始端点进行语音识别，得到语音文本信息；从语音文本信息中检测用于提醒智能设备进行回答的词语；基于当前是否存在提醒智能设备进行回答的情况以及对语音的终止端点的检测情况，确定语音结束点。即使采集到的音频数据存在其他用户的语音干扰，也能够结合当前是否存在提醒智能设备进行回答的情况，确定是否到达语音结束点，降低错误确定语音结束点的概率，提高确定语音结束点的准确性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种实施环境的示意图；

图2是本申请实施例提供的一种语音处理方法的流程图；

图3是本申请实施例提供的一种语音处理装置的框图；

图4是本申请实施例提供的一种终端的框图；

图5是本申请实施例提供的一种服务器的框图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

本申请的说明书和权利要求书及附图中的术语“第一”、“第二”、“第三”和“第四”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们的任意变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。

需要说明的是，本申请涉及到的用户信息(如用户账号、声纹数据、语音、人脸图像等)均是经用户和各方授权后获取和处理的。

图1是本申请实施例提供的一种实施环境的示意图。参见图1，该实施环境包括终端101和智能设备102。

可选地，终端101为智能手机、智能手表、平板电脑、笔记本电脑、台式计算机、智能电视、智能音箱或者智能问答机器人等。终端101具有音频数据的采集和传输功能以及向用户输出信息的功能，终端101与智能设备102通过有线或无线通信方式进行直接或间接的连接，向智能设备102传输采集到的音频数据。智能设备102基于接收到的音频数据，确定对应的回答语句；向终端101发送该回答语句。可选地，回答语句为语音形式或者文本形式，若回答语句为语音形式，则终端101播放接收到的回答语句；若回答语句为文本形式，则终端101显示接收到的回答语句。可选地，终端101上设有支持语音通话的应用程序，终端101基于该应用程序，进行音频数据的采集和传输，以及，回答语句的显示或播放。

可选地，智能设备102被配置为服务器，其中，服务器是一台服务器；或者是由若干台服务器组成的服务器集群，或者是一个云计算服务器中心，本申请实施例对此不做限制。

以上所述为实施环境的一种示例，在另一个示例中，实施环境包括智能设备，该智能设备具有音频数据的采集和处理功能以及向用户输出信息的功能，该智能设备基于采集到的音频数据，确定对应的回答语句，显示或播放该回答语句。可选地，该智能设备被配置为智能手机、智能手表、平板电脑、笔记本电脑、台式计算机、智能电视、智能音箱或者智能问答机器人等终端，本申请实施例对此不做限制。

图2是本申请实施例提供的一种语音处理方法的流程图。参见图2，该实施例包括以下步骤：

201、智能设备对采集到的第一音频数据进行端点检测。

在一种可能的实现方式中，用户通过终端向智能设备发起问询或者进行回答，智能设备通过与终端的交互获取第一音频数据。也即是，在智能问答过程中，终端采集第一音频数据，向智能设备发送采集到的第一音频数据；智能设备接收终端发送的第一音频数据。

例如，在AI外呼场景中，智能设备可以理解为是虚拟的通话机器人，用户和智能设备处在不同的环境中进行远程的语音通话。智能设备向终端发起语音通话请求；终端响应于接收到该语音通话请求，提示用户是否接受语音通话；用户在终端上执行接受语音通话的交互操作，终端响应于该交互操作，与智能设备建立通话连接。在建立通话连接之后的语音通话过程中，终端在用户说话时采集相应的第一音频数据，向智能设备发送该第一音频数据，从而智能设备接收到终端发送的第一音频数据。

在另一种可能的实现方式中，用户直接与智能设备进行交互，向智能设备发起问询或者进行回答，智能设备具有音频数据的采集功能，智能设备在智能问答的过程中，采集第一音频数据。例如，用户和智能设备处于同一环境中，在用户唤醒智能设备的智能问答服务之后，进行问询，智能设备采集相应的第一音频数据。

其中，音频数据包括有效语音和噪音中的至少一种。有效语音是指当前与智能设备交互的用户发出的语音。在一些实施例中，语音也称为人声。噪音是指对有效语音的识别产生干扰的声音或者与该用户无关的声音。噪音包括除该用户之外的其他用户发出的语音和除该用户之外的其他事物发出的声音中的至少一种。

可选地，智能设备基于VAD(Voice Activity Detection，语音端点检测)技术，对第一音频数据进行端点检测，以检测出第一音频数据中语音的起始端点和终止端点，其中，起始端点为一段连续语音信号的开始时间，终止端点为该段连续语音信号的结束时间。可选地，智能设备基于短时平均能量法、短时过零率法、谱熵法、倒谱特征法或者自相关法等方法，对音频数据进行端点检测，本申请实施例对此不做限制。

需要说明的是，上述第一音频数据并不特指某一时间段内采集到的音频数据，在智能问答的过程中，终端或智能设备随着时间的推移，持续采集第一音频数据，相应的，智能设备持续对采集到的第一音频数据进行端点检测。

202、智能设备在端点检测过程中，若检测到第一语音的起始端点，基于第一语音的起始端点进行语音识别，得到第一语音文本信息。

智能设备基于ASR(Automatic Speech Recognition，自动语音识别)技术，对第一音频数据进行语音识别，将第一音频数据中的第一语音转换为文本，得到第一语音文本信息。

在一种可能的实现方式中，智能设备从检测到第一语音的起始端点开始，对采集时间在第一语音的起始端点之后的第一音频数据进行语音识别，得到第一语音文本信息。需要说明的是，智能设备从检测到第一语音的起始端点开始，持续接收到第一音频数据，相应的，智能设备持续对第一音频数据进行语音识别，从而随着时间推移，得到更加丰富的语音文本信息。

上述技术方案，对语音的起始端点之后的音频数据进行语音识别，减少了起始端点之前的其他声音对语音识别的干扰，从而能够提高语音识别的准确性，并且，还减少了进行语音识别的数据量，减少了语音识别资源的消耗，降低了资源消耗成本，提高了语音识别效率。

在另一种可能的实现方式中，智能设备基于第一语音的起始端点，从第一音频数据中分离出当前交互的用户的语音，对该用户的语音进行语音识别，得到语音文本信息。也即是，上述步骤202包括以下步骤2021至步骤2023：

2021、智能设备获取当前交互的用户的标识对应的声纹数据。

其中，声纹数据是用于表示用户的语音特点的特征，不同用户发出的语音具有不同的特点，不同用户的声纹数据不同，声纹数据能够标识用户的身份。

在一种可能的实现方式中，在对采集到的第一音频数据进行端点检测之前，智能设备基于用户账号向用户对应的终端发起了语音通话请求，与该终端建立了语音通话连接，当前交互的用户的标识为该用户账号。智能设备基于该用户账号，从用户账号和声纹数据的对应关系中，获取该用户账号对应的声纹数据。可选地，该用户账号为该用户的电话号码，智能设备基于电话号码，向用户对应的终端发起电话呼叫；或者，该用户账号为该用户在终端上登录的账号，智能设备基于该账号，向用户对应的终端发起语音通话请求。

在另一种可能的实现方式中，终端或智能设备通过声源定位技术，基于采集到的第一音频数据，确定当前交互的用户的位置；控制摄像头组件对准该用户，采集该用户的人脸图像，该人脸图像即为当前交互的用户的标识；智能设备基于该人脸图像进行人脸识别，得到该用户的身份信息；基于身份信息和声纹数据的对应关系，获取该用户的身份信息对应的声纹数据。

2022、智能设备基于第一语音的起始端点，从第一音频数据中获取与该声纹数据匹配的目标语音数据。

智能设备从采集时间在第一语音的起始端点之后的第一音频数据中，分离出与该声纹数据匹配的目标语音数据。

2023、智能设备对目标语音数据进行语音识别，得到目标语音数据对应的第一语音文本信息。

上述技术方案，基于当前交互的用户的声纹数据，分离出该用户的语音，进一步减少了其他用户的语音的干扰，进而对该用户的语音进行语音识别，能够进一步提高语音识别的准确性，并且，还进一步减少了进行语音识别的数据量，减少了语音识别资源的消耗，降低了资源消耗成本，提高了语音识别效率。并且，通过分离出当前交互的用户的声纹数据，进行语音识别，进而基于参考关键词对语音文本信息进行检测，能够在该用户说出关键词时，及时进行回答，减少了在其他用户说出关键词时也进行回答的现象，提高了回答时机的准确性，提升了用户体验。

在一些实施例中，智能设备在对采集到的第一音频数据进行端点检测之前，获取当前交互的用户的声纹数据，从采集到的第一音频数据中获取与该声纹数据匹配的语音，去除了其他用户的语音干扰，进而对该语音进行端点检测，能够在该用户的语音结束时，准确检测到该用户的语音的终止端点，在检测到该用户的语音的终止端点时，输出该用户的语音对应的语音文本信息对应的回答语句，能够减少用户等待回答的时间，并且避免抢答，提升用户体验。

203、智能设备基于参考关键词对第一语音文本信息进行检测，得到关键词检测结果，参考关键词用于提醒智能设备进行回答。

其中，关键词检测结果用于表示第一语音文本信息是否包括参考关键词。关键词检测结果包括第一关键词检测结果和第二关键词检测结果。第一关键词检测结果用于表示第一语音文本信息包括参考关键词，第二关键词检测结果用于表示第一语音文本信息不包括参考关键词。

参考关键词用于提醒智能设备进行回答。可选地，参考关键词还用于指示智能设备进行回答，也即是，参考关键词为触发智能设备回答的指令，例如，参考关键词包括“喂！”、“说话”、“回答”和“说呀”等词语中的至少一个。

可选地，参考关键词还用于表示对未接收到回答的疑问，例如，参考关键词包括“喂？”、“咦？”、“嗯？”、“嘛呢”、“怎么没声音”和“怎么不说话”等词语中的至少一个。

可选地，参考关键词还用于表示对未接收到回答的原因的猜测，例如，参考关键词为“在么”、“不在么”、“断了”、“掉线”、“卡住了吗”、“听到吗”“听得到吗”、“有人在吗”和“还有事吗”中的至少一个。

可选地，参考关键词还用于表示即将结束语音通话，例如，参考关键词为“走了”、“挂了”、“不等了”、“等不了”、“再见”和“拜拜”中的至少一个。

在一种可能的实现方式中，智能设备从第一语音文本信息中检测与参考关键词相同的词语。可选地，智能设备通过关键词搜索的方式，从第一语音文本信息中查询与参考关键词相同的词语。

上述技术方案，通过检测与参考关键词相同的词语，能够更准确的识别出用户是否说了相应的关键词，提高关键词检测的准确性，进而在检测到与参考关键词相同的词语时，能够及时准确的进行回答，在减少用户等待时间的同时，降低在错误的时机回答的概率，提升用户体验。

在另一种可能的实现方式中，智能设备从第一语音文本信息中检测与参考关键词之间的相似度大于相似度阈值的词语。其中，相似度阈值可灵活配置，例如，相似度阈值为90％、95％或者97％等。

上述技术方案，通过检测与参考关键词较为相似的词语，提高了关键词检测的灵活性，在用户表达出提醒智能设备进行回答的大致含义时，即可及时进行回答，从而减少用户等待时间，提升用户体验，用户无需获知触发智能设备回答的词语，也能够触发智能设备及时进行回答，人机交互的灵活性和可用性较强。

可选地，智能设备对第一语音文本信息进行分词处理，得到多个词语；对于该多个词语中的每个词语，确定该词语的特征向量；确定该词语的特征向量与参考关键词的特征向量之间的相似度；从该多个词语中确定对应的相似度大于相似度阈值的词语。

在一些实施例中，第一语音文本信息中的词语与参考关键词之间的相似度是指第一语音文本信息中的词语与参考关键词之间的文本相似度，特征向量为文本表示向量。智能设备通过将第一语音文本信息中的词语输入词向量生成模型，得到该词语的特征向量；将参考关键词输入词向量生成模型，得到参考关键词的特征向量。可选地，词向量生成模型为BERT(Bidirectional Encoder Representation from Transformers，来自转换器的双向编码器表示)模型，但不局限于此。

在一些实施例中，第一语音文本信息中的词语与参考关键词之间的相似度是指第一语音文本信息中的词语与参考关键词之间的语义相似度，特征向量为语义表示向量，用于表示词语表达的含义。智能设备通过将第一语音文本信息中的词语输入语义编码模型，得到该词语的特征向量，该词语的特征向量用于表示该词语表达的含义；将参考关键词输入语义编码模型，得到参考关键词的特征向量，参考关键词的特征向量用于表示参考关键词表达的含义。

可选地，该语义编码模型属于语义分析网络，该语义分析网络还包括语义解码模型，该语义编码模型用于将输入的词语转换为特征向量，该特征向量用于表示该词语表达的含义，该语义编码模型的输出为语义解码模型的输入，该语义解码模型用于将特征向量转换为与该词语语义相同的词语。可选地，该语义分析网络基于多个词语对训练得到，每个词语对包括两个语义相同的词语。在训练过程中，将词语对中的一个词语作为输入，以减小语义解码模型输出的词语与词语对中的另一词语之间的文本相似度为目标，更新语义分析网络的参数，以使语义分析网络中的语义编码模型输出的特征向量更准确的表示词语表达的含义。

上述技术方案，通过检测与参考关键词语义较为相似的词语，能够更准确的识别出用户意图，在用户表达出提醒计算机进行回答的含义时，即可及时进行回答，从而减少用户等待时间，提升用户体验。

204、智能设备基于关键词检测结果和终止端点检测结果，确定语音结束点。

在端点检测过程中，智能设备在检测到第一语音的起始端点时，开始检测第一语音的终止端点。在未检测到第一语音的终止端点的情况下，终止端点检测结果为第一端点检测结果，第一端点检测结果用于表示未检测到第一语音的终止端点；在检测到第一语音的终止端点时，将终止端点检测结果更新为第二端点检测结果，第二端点检测结果用于表示已检测到第一语音的终止端点，也即是，在已检测到第一语音的终止端点的情况下，终止端点检测结果为第二端点检测结果。

在一种可能的实现方式中，智能设备在终止端点检测结果为第一端点检测结果，且关键词检测结果为第一关键词检测结果时，确定到达语音结束点。也即是，智能设备在未检测到第一语音的终止端点的情况下，在从第一语音文本信息中检测出与参考关键词匹配的词语时，确定到达语音结束点。该语音结束点也即是从第一语音文本信息中检测出与参考关键词匹配的词语的时间。

其中，该语音结束点为第一语音的结束点，该语音结束点与第一语音的起始端点相对应，第一语音的起始端点与该语音结束点之间的语音即为第一语音，该语音结束点用于指示基于第一语音文本信息输出回答语句，第一语音文本信息为第一语音的起始端点与该语音结束点之间的语音对应的语音文本信息。

由于端点检测是一种检测是否存在语音的技术，若当前交互的用户的语音已经结束，但音频数据中还一直存在着其他用户的语音，音频数据中仍然是存在语音的，智能设备通过端点检测，很难检测到语音的终止端点，无法及时进行回答，而通常用户在一段时间未等到回答的情况下，会提醒智能设备进行回答，那么，智能设备在从第一语音文本信息中检测出与用于提醒智能设备进行回答的参考关键词匹配的词语时，确定到达语音结束点，提高了检测当前交互的用户的语音的结束点的准确性。

例如，用户通过“喂！”、“说话”、“回答”或者“说呀”等词语指示计算机进行回答，参考关键词包括“喂！”、“说话”、“回答”和“说呀”等词语，相应的，智能设备在检测出与参考关键词匹配的词语时，即确定到达语音结束点。

再如，用户通过“喂？”、“咦？”、“嗯？”、“嘛呢”、“怎么没声音”或者“怎么不说话”等词语表达对未接收到回答的疑问，参考关键词包括“喂？”、“咦？”、“嗯？”、“嘛呢”、“怎么没声音”或者“怎么不说话”等词语，相应的，智能设备在检测出与参考关键词匹配的词语时，即确定到达语音结束点。

再如，用户通过“在么”、“不在么”、“断了”、“掉线”、“卡住了吗”、“听到吗”“听得到吗”、“有人在吗”或者“还有事吗”等词语询问未接收到回答的原因，参考关键词包括“在么”、“不在么”、“断了”、“掉线”、“卡住了吗”、“听到吗”“听得到吗”、“有人在吗”或者“还有事吗”等词语，相应的，智能设备在检测出与参考关键词匹配的词语时，即确定到达语音结束点。

再如，用户通过“走了”、“挂了”、“不等了”、“等不了”、“再见”和“拜拜”等词语表示即将结束通话，参考关键词包括“走了”、“挂了”、“不等了”、“等不了”、“再见”和“拜拜”等词语，相应的，智能设备在检测出与参考关键词匹配的词语时，即确定到达语音结束点。

上述技术方案，即使由于音频数据中一直存在其他用户的语音干扰，导致检测不到语音的终止端点，难以基于检测到的终止端点触发回答的情况下，也能够在从语音文本信息中检测出用于提醒智能设备进行回答的词语时，确定到达语音结束点，进而基于语音结束点，及时进行回答，减少了当前交互的用户的等待时间，提升了用户体验。

并且，相较于降低语音端点检测方法的灵敏度，使智能设备将存在语音的概率较高的时间点确定为终止端点，导致在当前交互的用户的语音还未结束时，就提前回答，导致抢答的方案，上述技术方案在检测出用于提醒智能设备进行回答的词语时，进行回答，由于用户通常在本次问询或回答结束后，才会提醒智能设备进行回答，因此还能够减少抢答现象的发生，提高回答时机的准确性，进一步提升用户体验。

在另一种可能的实现方式中，若终止端点检测结果为第一端点检测结果，且关键词检测结果为第二关键词检测结果，则智能设备在第一语音文本信息的长度大于长度阈值时，确定到达语音结束点。也即是，智能设备在未检测到第一语音的终止端点的情况下，若从第一语音文本信息中未检测出与参考关键词匹配的词语，且第一语音文本信息的长度大于长度阈值，则确定到达语音结束点，该语音结束点为第一语音文本信息的长度超出长度阈值的时间。其中，语音文本信息的长度是指语音文本信息包括的文字的字数。长度阈值可灵活配置，可选地，长度阈值配置为一句话包含的最大字数，例如，长度阈值为40、45或者50等。

在上述技术方案中，若一直未检测到第一语音的终止端点，用户也一直未提醒智能设备进行回答，则在语音文本信息较长时，及时进行回答，能够在一定程度上避免抢答的同时，减少用户的等待时间，提升用户体验。

在另一种可能的实现方式中，若终止端点检测结果为第一端点检测结果，且关键词检测结果为第二关键词检测结果，则智能设备在第一语音文本信息为语义完整的语句时，确定到达语音结束点。也即是，智能设备在未检测到第一语音的终止端点的情况下，若从第一语音文本信息中未检测出与参考关键词匹配的词语，且第一语音文本信息为语义完整的语句，则确定到达语音结束点，该语音结束点也即是检测到第一语音文本信息为语义完整的语句的时间。在一些实施例中，第一语音文本信息随着时间推移逐渐更新，智能设备在第一语音文本信息更新后，就检测更新后的第一语音文本信息是否语义完整，以及时检测到语义完整的情况，提高确定语音结束点的准确性。

可选地，智能设备将第一语音文本信息输入语义完整判别模型确定第一语音文本信息是否为语义完整的语句，得到判别结果，判别结果为第一判别结果或第二判别结果，第一判别结果用于表示语义完整，第二判别结果用于表示语义不完整。可选地，语义完整判别模型是基于多个样本语句训练得到的，其中，每个样本语句标注有正确的标签，标签为用于表示语义的标签或者用于表示语义不完整的标签。在训练过程中，以减小语义完整判别模型输出的标签与输入的样本语句标注的标签之间的差异为目标，更新语义完整判别模型的参数。

在上述技术方案中，若一直未检测到第一语音的终止端点，用户也一直未提醒智能设备进行回答，则在语音文本信息为语义完整的语句时，及时进行回答，能够在一定程度上避免抢答的同时，减少用户的等待时间，提升用户体验。

在另一种可能的实现方式中，智能设备在确定终止端点检测结果为第二端点检测结果时，确定到达语音结束点。

在另一种可能的实现方式中，由于用户在说一句完整的话时，中间通常会存在短暂的停顿，例如，用户在说“我要举报一个骚扰电话，电话号码是xxx”时，中间逗号的位置通常会有停顿。基于上述情况，智能设备在检测到第一语音的终止端点后，先不将该终止端点确定为语音结束点，而是继续在一段时长内进行端点检测和语音识别，基于端点检测的结果和语音识别的结果，确定最终的语音结束点，以减少将一整句话中的停顿确定为一个整句的语音结束点的情况，提高确定语音结束点的准确性。也即是，智能设备基于关键词检测结果和终止端点检测结果，确定语音结束点的步骤包括：智能设备在终止端点检测结果为第二端点检测结果，且关键词检测结果为第二关键词检测结果的情况下，若在以第一语音的终止端点为起始时间的目标时长内检测到第二语音的起始端点，基于第二语音的起始端点进行语音识别，得到第二语音文本信息；若从第二语音文本信息中检测出参考关键词，则确定到达语音结束点，该语音结束点也即是从第二语音文本信息中检测出参考关键词的时间。

其中，该语音结束点为第一语音和第二语音拼接成的语音的结束点，该语音结束点与第一语音的起始端点相对应，第一语音的起始端点与该语音结束点之间的语音为第一语音和第二语音拼接成的语音。该语音结束点用于指示基于第一语音文本信息和第二语音文本信息输出回答语句，也即是，该语音结束点用于指示基于第一语音的起始端点与该语音结束点之间的语音对应的语音文本信息，输出回答语句。

智能设备在检测到第一语音的终止端点时，在以该第一语音的终止端点为起始时间的目标时长内，对采集到的第二音频数据继续进行端点检测，以检测第二音频数据中是否存在语音。第二音频数据是指从第一语音的终止端点开始采集的音频数据，也即是在采集第一音频数据之后采集到的音频数据。其中，目标时长可灵活配置，例如，目标时长为1秒、2秒或者2.5秒等，本申请实施例对此不做限制。

若在目标时长内检测到第二语音的起始端点，则继续检测第二语音的终止端点，并对采集时间在第二语音的起始端点之后的第二音频数据进行语音识别，得到第二语音文本信息；基于参考关键词对第二语音文本信息进行检测。需要说明的是，对于第二语音的起始端点的检测局限在目标时长内，但对于第二语音的终止端点的检测以及语音识别并不局限在目标时长内。若在目标时长内检测到了第二语音的起始端点，且在目标时长内未从第二语音文本信息中检测出参考关键词，且在目标时长内未检测到第二语音的终止端点，则在目标时长结束后，仍继续检测第二语音的终止端点，同时，对采集到的第二音频数据进行语音识别，得到第二语音文本信息，基于参考关键词对第二语音文本信息进行检测。也即是，在目标时长内检测到第二语音的起始端点之后，通过与采集和处理第一音频数据同理的过程，采集和处理第二音频数据。

在上述技术方案中，在检测到第一语音的终止端点之后的目标时长内，仍继续进行端点检测和语音识别，若用户在目标时长内通过语音提醒智能设备进行回答，则立即确定到达语音结束点，提高了确定语音结束点的准确性，进而在到达语音结束点时输出回答语句，在减少抢答现象的同时，避免了用户等待时间过长，提升了用户体验。

需要说明的是，若智能设备未检测到第二语音的终止端点，但从第二语音文本信息中检测出参考关键词，则表示用户已说完一整句话，正在等待回答，相应的，在从第二语音文本信息中检测出参考关键词时，确定到达语音结束点。若智能设备检测到第二语音的终止端点，则通过与检测到第一语音的终止端点后同理的过程，确定语音结束点。若智能设备未检测到第二语音的终止端点，且未从第二语音文本信息中检测出参考关键词，则在由第一语音文本信息和第二语音文本信息拼接成的参考语音文本信息的长度大于长度阈值时，或者，在该参考语音文本信息为语义完整的语句时，确定到达语音结束点。

另外，若在以第一语音的终止端点为起始时间的目标时长内，未检测到第二语音的起始端点，则表示用户在目标时长内未继续说话，在目标时长结束时，确定到达语音结束点。也即是，在终止端点检测结果为第二端点检测结果，且关键词检测结果为第二关键词检测结果的情况下，若在以第一语音的终止端点为起始时间的目标时长内未检测到第二语音的起始端点，则在目标时长结束时，确定到达语音结束点，该语音结束点也即是目标时长的结束时间。由于在目标时长内未检测到第二语音的起始端点表示用户在目标时长内未继续说话，为了进一步提高确定语音结束点的准确性，在一些实施例中，智能设备将第一语音的终止端点确定为语音结束点。

在上述技术方案中，若用户在检测到终止端点后的目标时长内未继续说话，则在目标时长结束时，就确定到达语音结束点，进而基于该语音结束点，在用户说完一整句话，及时进行回答，避免用户等待时间过长，提升用户体验。

205、智能设备在到达语音结束点时，输出回答语句。

在一种可能的实现方式中，语音结束点用于指示基于第一语音文本信息输出回答语句，智能设备在到达该语音结束点时，输出与第一语音文本信息匹配的回答语句，第一语音文本信息为第一语音的起始端点与该语音结束点之间的语音对应的语音文本信息。

在一些实施例中，智能设备确定该第一语音文本信息对应的文本形式的回答语句，将该文本形式的回答语句转换为语音形式的回答语句，通过播放回答语句的方式，进行回答。在一些实施例中，智能设备确定该第一语音文本信息对应的文本形式的回答语句，通过显示回答语句的方式，进行回答。可选地，智能设备在确定该第一语音文本信息对应的文本形式的回答语句之前，还从第一语音文本信息中删除与参考关键词匹配的词语，减少不必要的词语对回答语句确定的干扰，提高回答语句确定的准确性，提升用户体验。

在一些实施例中，用户通过终端向智能设备发起问询或者进行回答，相应的，智能设备在到达语音结束点时，向终端输出第一语音文本信息的对应的回答语句。终端接收该回答语句，在该回答语句为文本形式的情况下，显示该回答语句；在该回答语句为语音形式的情况下，播放该回答语句。

在一些实施例中，用户直接与智能设备进行交互，通过显示回答语句的方式或播放回答语句的方式，输出该回答语句。

在另一种可能的实现方式中，语音结束点用于指示基于第一语音文本信息和第二语音文本信息输出回答语句，智能设备在到达该语音结束点时，在第一语音文本信息之后拼接第二语音文本信息，得到参考语音文本信息；输出与参考语音文本信息匹配的回答语句。其中，参考语音文本信息也即是指第一语音的起始端点与该语音结束点之间的语音对应的语音文本信息。智能设备输出与参考语音文本信息匹配的回答语句的过程与智能设备输出与第一语音文本信息匹配的回答语句的过程同理，在此不再赘述。

本申请实施例提供的技术方案，通过结合语音端点检测和语音识别，对采集到的音频数据进行端点检测，并在端点检测的过程中，基于检测到的语音的起始端点进行语音识别，得到语音文本信息；从语音文本信息中检测用于提醒智能设备进行回答的词语；基于当前是否存在提醒智能设备进行回答的情况以及对语音的终止端点的检测情况，确定语音结束点。即使采集到的音频数据存在其他用户的语音干扰，也能够结合当前是否存在提醒智能设备进行回答的情况，确定是否到达语音结束点，降低错误确定语音结束点的概率，提高确定语音结束点的准确性。

上述所有可选技术方案，可以采用任意结合形成本申请的可选实施例，在此不再一一赘述。

图3是本申请实施例提供的一种语音处理装置的框图。参见图3，该装置包括：

端点检测模块301，用于对采集到的第一音频数据进行端点检测；

语音识别模块302，用于在端点检测过程中，若检测到第一语音的起始端点，基于第一语音的起始端点进行语音识别，得到第一语音文本信息；

关键词检测模块303，用于基于参考关键词对第一语音文本信息进行检测，得到关键词检测结果，关键词检测结果用于表示第一语音文本信息是否包括参考关键词，参考关键词用于提醒智能设备进行回答；

语音结束点确定模块304，用于基于关键词检测结果和终止端点检测结果，确定语音结束点，终止端点检测结果用于表示第一语音的终止端点的检测情况，语音结束点用于指示基于第一语音文本信息输出回答语句。

本申请实施例提供的语音处理装置，通过结合语音端点检测和语音识别，对采集到的音频数据进行端点检测，并在端点检测的过程中，基于检测到的语音的起始端点进行语音识别，得到语音文本信息；从语音文本信息中检测用于提醒智能设备进行回答的词语；基于当前是否存在提醒智能设备进行回答的情况以及对语音的终止端点的检测情况，确定语音结束点。即使采集到的音频数据存在其他用户的语音干扰，也能够结合当前是否存在提醒智能设备进行回答的情况，确定是否到达语音结束点，降低错误确定语音结束点的概率，提高确定语音结束点的准确性。

在一种可能的实现方式中，终止端点检测结果为第一端点检测结果，第一端点检测结果用于表示未检测到第一语音的终止端点；

关键词检测结果为第一关键词检测结果，第一关键词检测结果用于表示第一语音文本信息包括参考关键词；

语音结束点确定模块304，用于在终止端点检测结果为第一端点检测结果，且关键词检测结果为第一关键词检测结果时，确定到达语音结束点。

在另一种可能的实现方式中，终止端点检测结果为第一端点检测结果，第一端点检测结果用于表示未检测到第一语音的终止端点；

关键词检测结果为第二关键词检测结果，第二关键词检测结果用于表示第一语音文本信息不包括参考关键词；

语音结束点确定模块304，用于若终止端点检测结果为第一端点检测结果，且关键词检测结果为第二关键词检测结果，则在第一语音文本信息的长度大于长度阈值或者第一语音文本信息为语义完整的语句时，确定到达语音结束点。

在另一种可能的实现方式中，终止端点检测结果为第二端点检测结果，第二端点检测结果用于表示检测到第一语音的终止端点；

语音结束点确定模块304，用于：

在终止端点检测结果为第二端点检测结果，且关键词检测结果为第二关键词检测结果的情况下，若在以第一语音的终止端点为起始时间的目标时长内检测到第二语音的起始端点，基于第二语音的起始端点进行语音识别，得到第二语音文本信息；

若从第二语音文本信息中检测出参考关键词，则确定到达语音结束点，语音结束点用于指示基于第一语音文本信息和第二语音文本信息输出回答语句。

语音结束点确定模块304，用于在终止端点检测结果为第二端点检测结果，且关键词检测结果为第二关键词检测结果的情况下，若在以第一语音的终止端点为起始时间的目标时长内未检测到第二语音的起始端点，则在目标时长结束时，确定到达语音结束点。

在另一种可能的实现方式中，语音识别模块302，用于：

获取当前交互的用户的标识对应的声纹数据；

基于第一语音的起始端点，从第一音频数据中获取与声纹数据匹配的目标语音数据；

对目标语音数据进行语音识别，得到目标语音数据对应的第一语音文本信息。

在另一种可能的实现方式中，关键词检测模块303，用于从第一语音文本信息中检测与参考关键词相同的词语。

在另一种可能的实现方式中，关键词检测模块303，用于从第一语音文本信息中检测与参考关键词之间的相似度大于相似度阈值的词语。

需要说明的是：上述实施例提供的语音处理装置在进行语音处理时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将智能设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的语音处理装置与语音处理方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

可选地，智能设备被配置为终端。图4是本申请实施例提供的一种终端的框图。该终端400可以是智能手机、智能手表、平板电脑、笔记本电脑、台式计算机、智能电视、智能音箱或者智能问答机器人。终端400还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

通常，终端400包括有：处理器401和存储器402。

处理器401可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器401可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器401也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器401可以集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器401还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器402可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器402还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器402中的非暂态的计算机可读存储介质用于存储至少一条程序代码，该至少一条程序代码用于被处理器401所执行以实现本申请中方法实施例提供的语音处理方法。

在一些实施例中，终端400还可选包括有：外围设备接口403和至少一个外围设备。处理器401、存储器402和外围设备接口403之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口403相连。具体地，外围设备包括：射频电路404、显示屏405、摄像头组件406、音频电路407、定位组件408和电源409中的至少一种。

外围设备接口403可被用于将I/O(Input/Output，输入/输出)相关的至少一个外围设备连接到处理器401和存储器402。在一些实施例中，处理器401、存储器402和外围设备接口403被集成在同一芯片或电路板上；在一些其他实施例中，处理器401、存储器402和外围设备接口403中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路404用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路404通过电磁信号与通信网络以及其他通信设备进行通信。射频电路404将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路404包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路404可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：万维网、城域网、内联网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路404还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本申请对此不加以限定。

显示屏405用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏405是触摸显示屏时，显示屏405还具有采集在显示屏405的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器401进行处理。此时，显示屏405还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏405可以为一个，设置在终端400的前面板；在另一些实施例中，显示屏405可以为至少两个，分别设置在终端400的不同表面或呈折叠设计；在另一些实施例中，显示屏405可以是柔性显示屏，设置在终端400的弯曲表面上或折叠面上。甚至，显示屏405还可以设置成非矩形的不规则图形，也即异形屏。显示屏405可以采用LCD(Liquid Crystal Display，液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。

摄像头组件406用于采集图像或视频。可选地，摄像头组件406包括前置摄像头和后置摄像头。通常，前置摄像头设置在终端400的前面板，后置摄像头设置在终端400的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件406还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路407可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器401进行处理，或者输入至射频电路404以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在终端400的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器401或射频电路404的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路407还可以包括耳机插孔。

定位组件408用于定位终端400的当前地理位置，以实现导航或LBS(LocationBased Service，基于位置的服务)。定位组件408可以是基于美国的GPS(GlobalPositioning System，全球定位系统)、中国的北斗系统或俄罗斯的伽利略系统的定位组件。

电源409用于为终端400中的各个组件进行供电。电源409可以是交流电、直流电、一次性电池或可充电电池。当电源409包括可充电电池时，该可充电电池可以是有线充电电池或无线充电电池。有线充电电池是通过有线线路充电的电池，无线充电电池是通过无线线圈充电的电池。该可充电电池还可以用于支持快充技术。

在一些实施例中，终端400还包括有一个或多个传感器410。该一个或多个传感器410包括但不限于：加速度传感器411、陀螺仪传感器412、压力传感器413、指纹传感器414、光学传感器415以及接近传感器416。

加速度传感器411可以检测以终端400建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器411可以用于检测重力加速度在三个坐标轴上的分量。处理器401可以根据加速度传感器411采集的重力加速度信号，控制显示屏405以横向视图或纵向视图进行用户界面的显示。加速度传感器411还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器412可以检测终端400的机体方向及转动角度，陀螺仪传感器412可以与加速度传感器411协同采集用户对终端400的3D动作。处理器401根据陀螺仪传感器412采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器413可以设置在终端400的侧边框和/或显示屏405的下层。当压力传感器413设置在终端400的侧边框时，可以检测用户对终端400的握持信号，由处理器401根据压力传感器413采集的握持信号进行左右手识别或快捷操作。当压力传感器413设置在显示屏405的下层时，由处理器401根据用户对显示屏405的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

指纹传感器414用于采集用户的指纹，由处理器401根据指纹传感器414采集到的指纹识别用户的身份，或者，由指纹传感器414根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时，由处理器401授权该用户执行相关的敏感操作，该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器414可以被设置在终端400的正面、背面或侧面。当终端400上设置有物理按键或厂商Logo时，指纹传感器414可以与物理按键或厂商Logo集成在一起。

光学传感器415用于采集环境光强度。在一个实施例中，处理器401可以根据光学传感器415采集的环境光强度，控制显示屏405的显示亮度。具体地，当环境光强度较高时，调高显示屏405的显示亮度；当环境光强度较低时，调低显示屏405的显示亮度。在另一个实施例中，处理器401还可以根据光学传感器415采集的环境光强度，动态调整摄像头组件406的拍摄参数。

接近传感器416，也称距离传感器，通常设置在终端400的前面板。接近传感器416用于采集用户与终端400的正面之间的距离。在一个实施例中，当接近传感器416检测到用户与终端400的正面之间的距离逐渐变小时，由处理器401控制显示屏405从亮屏状态切换为息屏状态；当接近传感器416检测到用户与终端400的正面之间的距离逐渐变大时，由处理器401控制显示屏405从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图4中示出的结构并不构成对终端400的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

可选地，智能设备被配置为服务器。图5是本申请实施例提供的一种服务器的框图，该服务器500可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(Central Processing Units，CPU)501和一个或一个以上的存储器502，其中，存储器502中存储有至少一条程序代码，至少一条程序代码由处理器501加载并执行以实现上述各个方法实施例提供的语音处理方法。当然，该服务器还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该服务器还可以包括其他用于实现设备功能的部件，在此不做赘述。

在示例性实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有至少一条程序代码，上述至少一条程序代码可由智能设备中的处理器执行以完成上述实施例中的语音处理方法。例如，计算机可读存储介质可以是ROM(Read-Only Memory，只读存储器)、RAM(Random Access Memory，随机存取存储器)、CD-ROM(Compact DiscRead-Only Memory，只读光盘)、磁带、软盘和光数据存储设备等。

本申请还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机程序代码，该计算机程序代码存储在计算机可读存储介质中，智能设备的处理器从计算机可读存储介质读取该计算机程序代码，处理器执行该计算机程序代码，使得该智能设备执行上述各个方法实施例中的语音处理方法。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请的可选实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种语音处理方法，其特征在于，由智能设备执行，所述方法包括：

对采集到的第一音频数据进行端点检测；

在终止端点检测结果为第一端点检测结果，且所述关键词检测结果为第一关键词检测结果时，确定到达语音结束点；所述终止端点检测结果用于表示所述第一语音的终止端点的检测情况，所述第一端点检测结果用于表示未检测到所述第一语音的终止端点，所述第一关键词检测结果用于表示所述第一语音文本信息包括所述参考关键词，所述语音结束点用于指示基于所述第一语音文本信息输出回答语句；

若所述终止端点检测结果为所述第一端点检测结果，且所述关键词检测结果为第二关键词检测结果，则在所述第一语音文本信息的长度大于长度阈值或者所述第一语音文本信息为语义完整的语句时，确定到达所述语音结束点；所述第二关键词检测结果用于表示所述第一语音文本信息不包括所述参考关键词；

在所述终止端点检测结果为第二端点检测结果，且所述关键词检测结果为所述第二关键词检测结果的情况下，若在以所述第一语音的终止端点为起始时间的目标时长内检测到第二语音的起始端点，基于所述第二语音的起始端点进行语音识别，得到第二语音文本信息；所述第二端点检测结果用于表示检测到所述第一语音的终止端点；

若从所述第二语音文本信息中检测出所述参考关键词，则确定到达所述语音结束点，所述语音结束点用于指示基于所述第一语音文本信息和所述第二语音文本信息输出回答语句；

2.根据权利要求1所述的方法，其特征在于，所述基于所述第一语音的起始端点进行语音识别，得到第一语音文本信息，包括：

获取当前交互的用户的标识对应的声纹数据；

3.根据权利要求1所述的方法，其特征在于，所述基于参考关键词对所述第一语音文本信息进行检测，包括下述任一项：

4.一种语音处理装置，其特征在于，所述装置包括：

关键词检测模块，用于基于参考关键词对所述第一语音文本信息进行检测，得到关键词检测结果，所述关键词检测结果用于表示所述第一语音文本信息是否包括所述参考关键词，所述参考关键词用于提醒智能设备进行回答；

语音结束点确定模块，用于在终止端点检测结果为第一端点检测结果，且所述关键词检测结果为第一关键词检测结果时，确定到达语音结束点；所述终止端点检测结果用于表示所述第一语音的终止端点的检测情况，所述第一端点检测结果用于表示未检测到所述第一语音的终止端点，所述第一关键词检测结果用于表示所述第一语音文本信息包括所述参考关键词，所述语音结束点用于指示基于所述第一语音文本信息输出回答语句；

所述语音结束点确定模块，还用于若所述终止端点检测结果为所述第一端点检测结果，且所述关键词检测结果为第二关键词检测结果，则在所述第一语音文本信息的长度大于长度阈值或者所述第一语音文本信息为语义完整的语句时，确定到达所述语音结束点；所述第二关键词检测结果用于表示所述第一语音文本信息不包括所述参考关键词；

所述语音结束点确定模块，还用于在所述终止端点检测结果为第二端点检测结果，且所述关键词检测结果为所述第二关键词检测结果的情况下，若在以所述第一语音的终止端点为起始时间的目标时长内检测到第二语音的起始端点，基于所述第二语音的起始端点进行语音识别，得到第二语音文本信息；所述第二端点检测结果用于表示检测到所述第一语音的终止端点；若从所述第二语音文本信息中检测出所述参考关键词，则确定到达所述语音结束点，所述语音结束点用于指示基于所述第一语音文本信息和所述第二语音文本信息输出回答语句；

所述语音结束点确定模块，还用于在所述终止端点检测结果为所述第二端点检测结果，且所述关键词检测结果为所述第二关键词检测结果的情况下，若在以所述第一语音的终止端点为起始时间的目标时长内未检测到第二语音的起始端点，则在所述目标时长结束时，确定到达所述语音结束点。

5.一种智能设备，其特征在于，所述智能设备包括处理器和存储器，所述存储器中存储有至少一条程序代码，所述至少一条程序代码由所述处理器加载并执行，以实现如权利要求1-3任一项所述的语音处理方法。

6.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有至少一条程序代码，所述至少一条程序代码由处理器加载并执行，以实现如权利要求1-3任一项所述的语音处理方法。