CN113380229B

CN113380229B - 语音响应速度确定方法、相关装置及计算机程序产品

Info

Publication number: CN113380229B
Application number: CN202110636622.3A
Authority: CN
Inventors: 章福瑜; 刘嵘; 王坤
Original assignee: Apollo Zhilian Beijing Technology Co Ltd
Current assignee: Apollo Zhilian Beijing Technology Co Ltd
Priority date: 2021-06-08
Filing date: 2021-06-08
Publication date: 2023-04-28
Anticipated expiration: 2041-06-08
Also published as: JP7375089B2; JP2022091933A; KR20220056836A; US20220215839A1; EP4102498A1; CN113380229A

Abstract

本公开提供了一种语音响应速度确定方法、装置、电子设备、计算机可读存储介质及计算机程序产品，涉及语音识别、自然语言处理、深度学习等人工智能技术领域。该方法包括：读取构成测试音频文件的数据流，并将读取到完整的数据流的时刻确定为交互起始时刻；确定完整的数据流中包含的语音指示信息，并将语音指示信息所指示动作的执行时刻确定为交互结束时刻；根据交互起始时刻和交互结束时刻确定语音响应速度。该方法仅需单台测试设备即可完成整套自动化确定流程，减少了测试设备、避免了等待验证时间，提升了确定语音响应速度的效率和成本。

Description

语音响应速度确定方法、相关装置及计算机程序产品

技术领域

本公开涉及数据处理技术领域，具体涉及语音识别、自然语言处理、深度学习等人工智能技术领域，尤其涉及一种语音响应速度确定方法、装置、电子设备、计算机可读存储介质及计算机程序产品。

背景技术

端到端的语音响应速度通常指的是机器收到外界停止语音输入到机器执行用户意图的时间。这个指标是评价语音识别效果一个重要指标，响应速度直接影响用户的使用体验。

目前端到端的语音响应速度的统计方法，大多通过基于人工对整个测试视频中对开始时间和结束时间的选点来确定，需要至少两台设备搭配实现。

发明内容

本公开实施例提出了一种语音响应速度确定方法、装置、电子设备、计算机可读存储介质及计算机程序产品。

第一方面，本公开实施例提出了一种语音响应速度确定方法，包括：读取构成测试音频文件的数据流，并将读取到完整的数据流的时刻确定为交互起始时刻；确定完整的数据流中包含的语音指示信息，并将语音指示信息所指示动作的执行时刻确定为交互结束时刻；根据交互起始时刻和交互结束时刻确定语音响应速度。

第二方面，本公开实施例提出了一种语音响应速度确定装置，包括：数据流读取及起始时刻确定单元，被配置成读取构成测试音频文件的数据流，并将读取到完整的数据流的时刻确定为交互起始时刻；指示信息确定及结束时刻确定单元，被配置成确定完整的数据流中包含的语音指示信息，并将语音指示信息所指示动作的执行时刻确定为交互结束时刻；语音响应速度确定单元，被配置成根据交互起始时刻和交互结束时刻确定语音响应速度。

第三方面，本公开实施例提供了一种电子设备，该电子设备包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，该指令被至少一个处理器执行，以使至少一个处理器执行时能够实现如第一方面中任一实现方式描述的语音响应速度确定方法。

第四方面，本公开实施例提供了一种存储有计算机指令的非瞬时计算机可读存储介质，该计算机指令用于使计算机执行时能够实现如第一方面中任一实现方式描述的语音响应速度确定方法。

第五方面，本公开实施例提供了一种包括计算机程序的计算机程序产品，该计算机程序在被处理器执行时能够实现如第一方面中任一实现方式描述的语音响应速度确定方法。

本公开实施例提供的语音响应速度确定方法，首先，读取构成测试音频文件的数据流，并将读取到完整的数据流的时刻确定为交互起始时刻；然后，确定完整的数据流中包含的语音指示信息，并将语音指示信息所指示动作的执行时刻确定为交互结束时刻；最后，根据交互起始时刻和交互结束时刻确定语音响应速度。

该方法通过直接读取包含语音指示信息的测试音频文件的数据流，替代了现有技术由测试设备通过采集测试人员说出的语音信号或由另一台播放设备播放出声音数据的方式，且直接读取数据流也能够在无需等待验证时间的情况下及时确定交互开始时刻，仅需单台测试设备即可完成整套自动化确定流程，减少了测试设备、避免了等待验证时间，提升了确定语音响应速度的效率和成本。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本公开的其它特征、目的和优点将会变得更明显：

图1是本公开可以应用于其中的示例性系统架构；

图2为本公开实施例提供的一种语音响应速度确定方法的流程图；

图3为本公开实施例提供的一种确定交互结束时刻的方法的流程图；

图4为本公开实施例提供的一种通过播报接收错误反馈并进行针对性处理的方法的流程图；

图5为本公开实施例提供的另一种语音响应速度确定方法的流程图；

图6为本公开实施例提供的一种语音响应速度确定装置的结构框图；

图7为本公开实施例提供的一种适用于执行语音响应速度确定方法的电子设备的结构示意图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。需要说明的是，在不冲突的情况下，本公开中的实施例及实施例中的特征可以相互组合。

本公开的技术方案中，所涉及的用户个人信息的获取，存储和应用等，均符合相关法律法规的规定，采取了必要的保密措施，且不违背公序良俗。

图1示出了可以应用本公开的语音响应速度确定方法、装置、电子设备及计算机可读存储介质的实施例的示例性系统架构100。

如图1所示，系统架构100可以包括测试音频提供终端101、102、103，网络104和语义响应速度确定终端105。网络104用以在测试音频提供终端101、102、103和语音响应速度确定终端105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

测试音频提供终端101、102、103为存储有测试音频文件的不同载体，测试音频文件可通过网络104传输至语音响应速度确定终端105。测试音频提供终端101、102、103和语音响应速度确定终端105上可以安装有各种用于实现两者之间进行信息通讯的应用，例如音频文件传输类应用、响应速度分析类应用、报错反馈类应用等。

测试音频提供终端101、102、103和语音响应速度确定终端105可以是硬件，也可以是软件。当测试音频提供终端101、102、103为硬件时，可以是具有音频文件存储和传输能力的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等；当测试音频提供终端101、102、103为软件时，可以安装在上述所列举的电子设备中，其可以实现成多个软件或软件模块，也可以实现成单个软件或软件模块，在此不做具体限定。当语音响应速度确定终端105为硬件时，可以实现成多个语音响应速度确定终端组成的分布式语音响应速度确定终端集群，也可以实现成单个语音响应速度确定终端；语音响应速度确定终端为软件时，可以实现成多个软件或软件模块，也可以实现成单个软件或软件模块，在此不做具体限定。

语音响应速度确定终端105通过内置的各种应用可以提供各种服务，以可以提供确定语音响应速度服务的响应速度分析类应用为例，语音响应速度确定终端105在运行该响应速度分析类应用时可实现如下效果：首先，通过网络104从测试音频提供终端101、102、103中获取测试音频文件；然后，读取构成该测试音频文件的数据流，并将读取到完整的数据流的时刻确定为交互起始时刻；接下来，确定完整的数据流中包含的语音指示信息，并将语音指示信息所指示动作的执行时刻确定为交互结束时刻；最后，根据交互起始时刻和交互结束时刻确定语音响应速度。进一步的，将确定出的语音响应速度输出至预设位置作为结果。

需要指出的是，测试音频文件除可以从测试音频提供终端101、102、103通过网络104获取到之外，也可以通过各种方式预先存储在语音响应速度确定终端105本地(例如将测试音频文件存储至SD卡后插入语音响应速度确定终端105的SD卡插槽中)。因此，当语音响应速度确定终端105检测到本地已经存储有这些数据时(例如开始处理之前留存的待处理测试音频文件)，可选择直接从本地获取这些数据，在此种情况下，示例性系统架构100也可以不包括测试音频提供终端101、102、103和网络104。

本公开后续各实施例所提供的语音响应速度确定方法一般由语音响应速度确定终端105来执行，相应地，语音响应速度确定装置一般也设置于语音响应速度确定终端105中。需要强调的是，测试音频提供终端101、102、103和网络104只是使语音响应速度确定终端105获取到测试音频文件，即在持有测试音频文件后，任何可按照上述步骤执行的装置均可以作为语音响应速度确定装置。例如测试音频提供101、102、103也可以同时作为语音响应确定终端105。

应该理解，图1中的测试音频提供终端、网络和语音响应速度确定终端的数目仅仅是示意性的。根据实现需要，可以具有任意数目的测试音频提供终端、网络和语音响应速度确定终端。

请参考图2，图2为本公开实施例提供的一种语音响应速度确定方法的流程图，其中流程200包括以下步骤：

步骤201：读取构成测试音频文件的数据流，并将读取到完整的数据流的时刻确定为交互起始时刻；

本步骤旨在由语音响应速度确定方法的执行主体(例如图1所示的服务器105)通过读取操作得到测试音频文件的数据流，并将读取到完整的数据流的时刻确定为语音响应过程的交互开始时刻。

通常情况下，测试音频文件由二进制数据构成，读取操作也是读取得到构成该测试音频文件的二进制数据流，读取耗时与测试音频文件的大小成正比关系，也在一定程度上取决于读取方式。由于包含在测试音频文件中的有效信息不需在读取到完整的数据流后才能够准确确定，而读取到完整的数据流在实质上相当于现有技术中测试设备确认接收到的用户发出的完整语音数据，因此将读取到完整的数据流的时刻确定为交互起始时刻。

相比于常规方式下确定是否接收到完整的语音数据所采用的验证时长(即在验证时长内没有接收到新的语音数据)，本实施例由于并非采用接收其它主体发出的语音信号的方式，而是采用直接自身读取测试音频文件的方式，因此测试音频文件读取完毕就可以及时的确定出交互开始时刻，而不用设置验证时长。

步骤202：确定完整的数据流中包含的语音指示信息，并将语音指示信息所指示动作的执行时刻确定为交互结束时刻；

在步骤201的基础上，本步骤旨在由上述执行主体首先确定读取到的完整的数据流中包含的语音指示信息，然后将按照语音指示信息所指示动作的执行时刻确定为交互结束时刻。

其中，语音指示信息可以为“打开空调”、“播放XX歌曲”、“查询今天天气”等操作指示，对应的，其相应的所指示动作可以为“发出控制空调开机的控制指令”、“打开播放器并搜索播放名称为XX的歌曲”、“打开天气应用并播报当天的天气信息”，交互结束时刻即为上述动作的执行主体执行上述动作的时刻，需要说明的是，上述动作的执行主体可以为上述执行主体，也可以为另外的执行主体。

确定出语音指示信息的方式可以有多种，例如文本识别、语音内容识别、语义分析等等。

步骤203：根据交互起始时刻和交互结束时刻确定语音响应速度。

在步骤201和步骤202的基础上，本步骤旨在根据交互起始时刻和交互结束时刻，来确定对应该测试音频文件的语音响应速度。通常采用计算交互开始结束时刻与交互起始时刻之间的时间差，来将该时间差确定为语音响应速度。在某些场景下，还需要在时间差的基础上进行一些偏差值的修正，以使得该语音响应速度与用户的实际感受更加相符。

本公开实施例提供的语音响应速度确定方法，通过直接读取包含语音指示信息的测试音频文件的数据流，替代了现有技术由测试设备通过采集测试人员说出的语音信号或由另一台播放设备播放出声音数据的方式，且直接读取数据流也能够在无需等待验证时间的情况下及时确定交互开始时刻，仅需单台测试设备即可完成整套自动化确定流程，减少了测试设备、避免了等待验证时间，提升了确定语音响应速度的效率和成本。

请参考图3，图3为本公开实施例提供的一种确定交互结束时刻的方法的流程图，即针对图2所示的流程200中的步骤202中的交互结束时刻确定部分提供了一种具体的实现方式，流程200中的其它步骤并不做调整，也将本实施例所提供的具体实现方式以替换步骤202中的交互结束时刻确定部分的方式得到一个新的完整实施例。其中流程300包括以下步骤：

步骤301：确定语音指示信息所指示动作的执行对象；

本步骤旨在由上述执行主体根据确定出的语音指示信息确定其指示动作的执行对象，假定该语音指示信息为“打开空调”，那么执行“打开空调”这一动作的对象至少应为具有控制空调能力的相关设备，例如“空调遥控器”、“家庭控制终端”等等。

步骤302：判断执行对象是否为非本地对象，若为非本地对象，执行步骤304，否则执行步骤305；

在步骤301的基础上，本步骤旨在由上述执行主体判断确定出的执行对象是否为非本地对象。

其中，根据上述执行主体是否能够直接控制执行所指示动作，可将指定对象划分为两类，即本地对象和非本地对象，本地对象为上述执行主体可直接控制执行所指示动作的对象，非本地对象为上述执行主体无法直接控制、可间接控制执行所指示动作的对象。

仍以“打开空调为例”，如果上述执行主体本身具有控制空调打开的能力，那么执行对象就属于本地对象；如果上述执行主体本身不具有控制空调打开的能力，还需要将间接的控制其它具有设备来打开空调，那么执行对象就是那个具有控制空调打开能力的设备，因此属于非本地对象。

步骤303：转发语音指示信息至非本地对象；

步骤304：控制非本地对象执行语音指示信息所指示动作，并控制非本地对象返回执行所指示动作的时间戳；

步骤303-步骤304建立在步骤302的判断结果为执行对象为非本地对象的基础上，旨在由上述主体将语音指示信息转发至该非本地对象，并通过控制该非本地设备根据接收到的语音指示信息执行相应的所指示动作，且控制该非本地对象返回执行所指示动作的时间戳，以便上述执行主体根据该时间戳确定实际的交互结束时间。

步骤305：控制本地对象执行语音指示信息所指示动作；

步骤306：从本地的执行日志中获取到本地对象执行所指示动作的时间戳；

步骤305-步骤306建立在步骤302的判断结果为执行对象为本地对象的基础上，旨在由上述主体直接控制该本地设备执行语音指示信息所指示的动作，且通过读取本地的执行日志获取到执行所指示动作的时间戳，以便上述执行主体根据该时间戳确定实际的交互结束时间

步骤307：将时间戳记录的时刻确定为交互结束时刻。

本实施例通过判别语音指示信息所指示动作的执行对象为本地对象还是非本地对象，分别提供了不同的确定交互结束时刻的实现方案，以照顾到更加全面的情况。

请参考图4，图4为本公开实施例提供的一种通过播报接收错误反馈并进行针对性处理的方法的流程图，针对图2所示的流程200中的步骤202中确定出的语音指示信息和其所指示动作提供了一种额外的处理方式，以借助该处理方式确定语音指示信息的确定和所指示动作的确定是否存在错误，流程200中的其它步骤并不做调整，可通过将本实施例所提供的具体实现方式加入流程200中相应部分的方式得到一个新的完整实施例。其中流程400包括以下步骤：

步骤401：播报语音指示信息和/或语音指示信息所指示动作；

本步骤旨在由上述执行主体通过语音播报的方式告知测试人员当前确定出的语音指示信息和/或语音指示信息所指示动作，以通过语音播报的方式让测试人员了解到确定出的语音指示信息和/或语音指示信息所指示动作是否正确。当然，除语音播报的方式外，也可以采用投屏、输出在显示屏等方式让测试人员获知到上述信息，可根据实际情况灵活选择，本实施例仅作为一种实施方式的示例。

步骤402：响应于接收到针对播报内容的错误反馈，为与错误反馈对应的语音指示信息和/或语音指示信息所指示动作附加错误标记；

在步骤401的基础上，本步骤旨在由上述执行主体在接收到针对播报内容的错误反馈时，为与错误反馈对应的语音指示信息和/或语音指示信息所指示动作附加错误标记。

例如当前播报出的语音指示信息为“查询浏览器”，而测试人员预先已知该测试音频文件中包含的真实语音指示信息为“查询天气”，那么很容易确定出上述执行主体在确定语音指示信息时出错了，在源头信息出错的情况下，后续确定出的所指示动作、执行以及语音响应速度都是无效的，因此为避免后续无效动作的执行，本步骤旨在为其附加错误标记。

步骤403：终止执行附加有所错误标记的信息或指示的后续动作。

在步骤402的基础上，本步骤旨在由上述执行主体终止执行附加有所错误标记的信息或指示的后续动作，从而实现后续无效动作的执行。

请参考图5，图5为本公开实施例提供的另一种语音响应速度确定方法的流程图，其中流程500包括以下步骤：

步骤501：获取包含有语音指示信息的多个测试音频文件；

步骤502：分别读取构成每个测试音频文件的数据流，并将读取到完整的数据流的时刻确定为相应测试音频文件的交互起始时刻；

步骤503：对完整的数据流中的语音信号进行语义识别，得到相应测试音频文件的实际语义信息；

步骤504：确定与实际语义信息对应的语音指示信息；

步骤503-步骤504旨在由上述执行主体通过语义识别的方式，得到相应测试音频文件的实际语义信息，并进而根据实际语义信息确定出语音指示信息。

为了尽可能的提升语义识别效果、提升经语义识别出的实际语义信息的准确性，还可以选择通过使用基于机器学习、深度学习训练出的语义识别模型，但为了同时权衡识别耗时，还可以结合语音信号的复杂度来制定的综合的处理方式。一种包括且不限于的实现方式为：

从完整的数据流中提取语音信号；

响应于语音信号的实际复杂度超过预设复杂度，将语音信号输入调用配置在云端服务器上的经预训练的语义识别模型，该语义识别模型用于表征语音信号与语义信息之间的对应关系；

接收语义识别模型返回的实际语义信息

即上述实施例仅对复杂度超过预设复杂度的语音信号调用语义识别模型来确定实际语义信息，反之，复杂度未超过预设复杂度的语音信息可使用耗时较短的常规语义识别方式来确定实际语义信息，从而较好的权衡识别准确度和识别速度。

步骤505：将语音指示信息所指示动作的执行时刻确定为相应测试音频文件的交互结束时刻；

步骤506：将每个测试音频文件的交互起始时刻和交互结束时刻的时间差确定为相应测试音频文件的语音响应速度；

步骤507：根据各测试音频文件各自的语音响应速度，计算得到语音响应速度均值；

步骤508：将语音响应速度均值确定为目标语音响应速度。

不同于上述各实施例，本实施例主要针对存在多个测试音频文件的情况下，并通过分别求取各测试音频文件各自的语音响应速度来求取均值，并最终将均值作为更加准确的目标语音响应速度。

需要说明的是，上述步骤503-步骤504所提供的通过语义识别确定语音指示信息的方式并非一定要结合本实例的其它步骤绑定存在，也可以直接替换流程200中步骤202的确定语音指示信息的相关部分。

为加深理解，本公开还结合一个具体应用场景，给出了一种具体的实现方案，该方案分成几个步骤完成：

步骤1：获取音频测试集合

测试集合为已经提前准备好的音频文件，音频格式为语音交互系统所能处理的编码格式，例如PCM格式。针对车载的应用场景：示例性的语音测试集为：导航去世界之窗.pcm、打电话给中国移动.pcm、我要听流行音乐.pcm等等。

步骤2：在测试设备上开启语音识别，语音识别模块开始解析录音音频数据，有规律的读取测试集合中音频文件二进制数据，将二进制音频数据发送给语音识别模块。

以往的方案是需要通过硬件设备的麦克风(MIC)采集外界的声音，然后将采集到的音频数据发送给识别模块。现在只需要将测试集合中的音频文件读取二进制流，然后发送给识别模块即可。识别模块根据当前是否联网进行在线/离线识别，然后返回语义的解析结果。

步骤3：测试音频文件读取到文件尾部后，记录下语音交互开始时间。音频数据全部读取完成，相当于识别结束了，开始进入语义解析的过程，等待语义结果的返回。

步骤4：日志记录下服务端(终端设备需要联网，与服务器发生网络通信)/或离线识别(不需要联网，通过离线识别引擎处理)识别返回语义结果的时间，记录下语音交互结束时间；

步骤5：根据上述交互开始时间与上述交互结束时间计算语音交互响应速度。

相比于常规方式，本实施例所提供的技术方案只需要准备一次测试集音频文件即可重复使用；且仅需要一台可以进行上述测试步骤的终端设备，无需其他播放源设备，可以避免因环境噪音的干扰导致的计算结果不准确的问题出现；由于不需要其它播放源，也无需人工进行干预，达到自动化输出测试结果；且不同被测试终端设备性能的差异对结果影响不大。因为不需要考虑UI(界面)渲染、和CPU合成合成语音(TTS语音)的耗时，只需要打点计算语音响应的开始时间与结束时间。

进一步参考图6，作为对上述各图所示方法的实现，本公开提供了一种语音响应速度确定装置的一个实施例，该装置实施例与图2所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。

如图6所示，本实施例的语音响应速度确定装置600可以包括：数据流读取及起始时刻确定单元601、指示信息确定及结束时刻确定单元602、语音响应速度确定单元603。其中，数据流读取及起始时刻确定单元601，被配置成读取构成测试音频文件的数据流，并将读取到完整的数据流的时刻确定为交互起始时刻；指示信息确定及结束时刻确定单元602，被配置成确定完整的数据流中包含的语音指示信息，并将语音指示信息所指示动作的执行时刻确定为交互结束时刻；语音响应速度确定单元603，被配置成根据交互起始时刻和交互结束时刻确定语音响应速度。

在本实施例中，语音响应速度确定装置600中：数据流读取及起始时刻确定单元601、指示信息确定及结束时刻确定单元602、语音响应速度确定单元603的具体处理及其所带来的技术效果可分别参考图2对应实施例中的步骤201-203的相关说明，在此不再赘述。

在本实施例的一些可选的实现方式中，指示信息确定及结束时刻确定单元602可以包括被配置成将语音指示信息所指示动作的执行时刻确定为交互结束时刻的结束时刻确定子单元，结束时刻确定子单元可以被进一步配置成：

确定语音指示信息所指示动作的执行对象；其中，执行对象包括本地对象和非本地对象；

响应于执行对象为非本地对象，转发语音指示信息至非本地对象；

控制非本地对象执行语音指示信息所指示动作，并控制非本地对象返回执行所指示动作的时间戳；

将时间戳记录的时刻确定为交互结束时刻。

在本实施例的一些可选的实现方式中，语音响应速度确定装置600中还可以包括：

播报单元，被配置成播报语音指示信息和/或语音指示信息所指示动作；

错误标记单元，被配置成响应于接收到针对播报内容的错误反馈，为与错误反馈对应的语音指示信息和/或语音指示信息所指示动作附加错误标记；

后续动作终止执行单元，被配置成终止执行附加有错误标记的信息或指示的后续动作。

在本实施例的一些可选的实现方式中，指示信息确定及结束时刻确定单元602可以包括被配置成确定完整的数据流中包含的语音指示信息的指示信息确定子单元，指示信息确定子单元可以包括：

语义识别模块，被配置成对完整的数据流中的语音信号进行语义识别，得到实际语义信息；

语音指示信息确定模块，被配置成确定与实际语义信息对应的语音指示信息。

在本实施例的一些可选的实现方式中，语义识别模块可以被进一步配置成：

从完整的数据流中提取语音信号；

响应于语音信号的实际复杂度超过预设复杂度，将语音信号输入调用配置在云端服务器上的经预训练的语义识别模型；其中，语义识别模型用于表征语音信号与语义信息之间的对应关系；

接收语义识别模型返回的实际语义信息。

在本实施例的一些可选的实现方式中，响应于存在多个测试音频文件，还包括：

均值计算单元，被配置成根据各测试音频文件各自的语音响应速度，计算得到语音响应速度均值；

目标语音响应速度确定单元，被配置成将语音响应速度均值确定为目标语音响应速度。

测试音频文件获取单元，被配置成在读取构成测试音频文件的数据流之前，获取包含有语音指示信息的测试音频文件。

本实施例作为对应于上述方法实施例的装置实施例存在，本实施例提供的语音响应速度确定装置，通过直接读取包含语音指示信息的测试音频文件的数据流，替代了现有技术由测试设备通过采集测试人员说出的语音信号或由另一台播放设备播放出声音数据的方式，且直接读取数据流也能够在无需等待验证时间的情况下及时确定交互开始时刻，仅需单台测试设备即可完成整套自动化确定流程，减少了测试设备、避免了等待验证时间，提升了确定语音响应速度的效率和成本。

根据本公开的实施例，本公开还提供了一种电子设备，该电子设备包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，该指令被至少一个处理器执行，以使至少一个处理器执行时能够实现上述任意实施例所描述的语音响应速度确定方法。

根据本公开的实施例，本公开还提供了一种可读存储介质，该可读存储介质存储有计算机指令，该计算机指令用于使计算机执行时能够实现上述任意实施例所描述的语音响应速度确定方法。

本公开实施例提供了一种计算机程序产品，该计算机程序在被处理器执行时能够实现上述任意实施例所描述的语音响应速度确定方法。

图7示出了可以用来实施本公开的实施例的示例电子设备700的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图7所示，设备700包括计算单元701，其可以根据存储在只读存储器(ROM)702中的计算机程序或者从存储单元708加载到随机访问存储器(RAM)703中的计算机程序，来执行各种适当的动作和处理。在RAM 703中，还可存储设备700操作所需的各种程序和数据。计算单元701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。

设备700中的多个部件连接至I/O接口705，包括：输入单元706，例如键盘、鼠标等；输出单元707，例如各种类型的显示器、扬声器等；存储单元708，例如磁盘、光盘等；以及通信单元709，例如网卡、调制解调器、无线通信收发机等。通信单元709允许设备700通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元701可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元701的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元701执行上文所描述的各个方法和处理，例如语音响应速度确定方法。例如，在一些实施例中，语音响应速度确定方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元708。在一些实施例中，计算机程序的部分或者全部可以经由ROM 702和/或通信单元709而被载入和/或安装到设备700上。当计算机程序加载到RAM 703并由计算单元701执行时，可以执行上文描述的语音响应速度确定方法的一个或多个步骤。备选地，在其他实施例中，计算单元701可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行语音响应速度确定方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决传统物理主机与虚拟专用服务器(VPS，Virtual Private Server)服务中存在的管理难度大，业务扩展性弱的缺陷。

本公开实施例通过直接读取包含语音指示信息的测试音频文件的数据流，替代了现有技术由测试设备通过采集测试人员说出的语音信号或由另一台播放设备播放出声音数据的方式，且直接读取数据流也能够在无需等待验证时间的情况下及时确定交互开始时刻，仅需单台测试设备即可完成整套自动化确定流程，减少了测试设备、避免了等待验证时间，提升了确定语音响应速度的效率和成本。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种语音响应速度确定方法，包括：

读取构成测试音频文件的二进制数据流，并将读取到构成所述测试音频文件的全部二进制数据的时刻确定为交互起始时刻；其中，所述测试音频文件存储在本地存储空间；

确定构成所述测试音频文件的全部二进制数据中包含的语音指示信息，并将所述语音指示信息所指示动作的执行时刻确定为交互结束时刻；

计算所述交互结束时刻与所述交互起始时刻的时间差，并利用当前场景的偏差值对所述时间差进行修正，将修正后的时间差确定为语音响应速度。

2.根据权利要求1所述的方法，其中，所述将所述语音指示信息所指示动作的执行时刻确定为交互结束时刻，包括：

确定所述语音指示信息所指示动作的执行对象；其中，所述执行对象包括本地对象和非本地对象；

响应于所述执行对象为所述非本地对象，转发所述语音指示信息至所述非本地对象；

控制所述非本地对象执行所述语音指示信息所指示动作，并控制所述非本地对象返回执行所述所指示动作的时间戳；

将所述时间戳记录的时刻确定为所述交互结束时刻。

3.根据权利要求1所述的方法，还包括：

播报所述语音指示信息和/或所述语音指示信息所指示动作；

响应于接收到针对播报内容的错误反馈，为与所述错误反馈对应的语音指示信息和/或语音指示信息所指示动作附加错误标记；

终止执行附加有所述错误标记的信息或指示的后续动作。

4.根据权利要求1所述的方法，其中，所述确定构成所述测试音频文件的全部二进制数据中包含的语音指示信息，包括：

对构成所述测试音频文件的全部二进制数据中的语音信号进行语义识别，得到实际语义信息；

确定与所述实际语义信息对应的语音指示信息。

5.根据权利要求4所述的方法，其中，所述对构成所述测试音频文件的全部二进制数据中的语音信号进行语义识别，得到实际语义信息，包括：

从构成所述测试音频文件的全部二进制数据中提取所述语音信号；

响应于所述语音信号的实际复杂度超过预设复杂度，将所述语音信号输入调用配置在云端服务器上的经预训练的语义识别模型；其中，所述语义识别模型用于表征语音信号与语义信息之间的对应关系；

接收所述语义识别模型返回的实际语义信息。

6.根据权利要求1所述的方法，其中，响应于存在多个所述测试音频文件，还包括：

根据各所述测试音频文件各自的语音响应速度，计算得到语音响应速度均值；

将所述语音响应速度均值确定为目标语音响应速度。

7.根据权利要求1-6任一项所述的方法，在读取构成测试音频文件的数据流之前，还包括：

获取存储在所述本地存储空间中的包含有所述语音指示信息的测试音频文件。

8.一种语音响应速度确定装置，包括：

数据流读取及起始时刻确定单元，被配置成读取构成测试音频文件的二进制数据流，并将读取到构成所述测试音频文件的全部二进制数据的时刻确定为交互起始时刻；其中，所述测试音频文件存储在本地存储空间；

指示信息确定及结束时刻确定单元，被配置成确定构成所述测试音频文件的全部二进制数据中包含的语音指示信息，并将所述语音指示信息所指示动作的执行时刻确定为交互结束时刻；

语音响应速度确定单元，被配置成计算所述交互结束时刻与所述交互起始时刻的时间差，并利用当前场景的偏差值对所述时间差进行修正，将修正后的时间差确定为语音响应速度。

9.根据权利要求8所述的装置，其中，所述指示信息确定及结束时刻确定单元包括被配置成将所述语音指示信息所指示动作的执行时刻确定为交互结束时刻的结束时刻确定子单元，所述结束时刻确定子单元被进一步配置成：

将所述时间戳记录的时刻确定为所述交互结束时刻。

10.根据权利要求8所述的装置，还包括：

播报单元，被配置成播报所述语音指示信息和/或所述语音指示信息所指示动作；

错误标记单元，被配置成响应于接收到针对播报内容的错误反馈，为与所述错误反馈对应的语音指示信息和/或语音指示信息所指示动作附加错误标记；

后续动作终止执行单元，被配置成终止执行附加有所述错误标记的信息或指示的后续动作。

11.根据权利要求8所述的装置，其中，所述指示信息确定及结束时刻确定单元包括被配置成确定构成所述测试音频文件的全部二进制数据中包含的语音指示信息的指示信息确定子单元，所述指示信息确定子单元包括：

语义识别模块，被配置成对构成所述测试音频文件的全部二进制数据中的语音信号进行语义识别，得到实际语义信息；

语音指示信息确定模块，被配置成确定与所述实际语义信息对应的语音指示信息。

12.根据权利要求11所述的装置，其中，所述语义识别模块被进一步配置成：

接收所述语义识别模型返回的实际语义信息。

13.根据权利要求8所述的装置，其中，响应于存在多个所述测试音频文件，还包括：

均值计算单元，被配置成根据各所述测试音频文件各自的语音响应速度，计算得到语音响应速度均值；

目标语音响应速度确定单元，被配置成将所述语音响应速度均值确定为目标语音响应速度。

14.根据权利要求8-13任一项所述的装置，还包括：

测试音频文件获取单元，被配置成在读取构成测试音频文件的数据流之前，获取存储在所述本地存储空间中的包含有所述语音指示信息的测试音频文件。

15.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-7中任一项所述的语音响应速度确定方法。

16.一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行权利要求1-7中任一项所述的语音响应速度确定方法。