CN117409776A

CN117409776A - 语音交互方法及装置、电子设备和存储介质

Info

Publication number: CN117409776A
Application number: CN202311311302.6A
Authority: CN
Inventors: 王校冲; 孙宁宁; 卢飚; 孙国红; 樊中恺; 刘林; 余嘉陵; 李志凯; 赵龙飞
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2023-10-10
Filing date: 2023-10-10
Publication date: 2024-01-16

Abstract

本公开公开了一种语音交互方法及装置、电子设备和存储介质，涉及计算机技术领域，尤其涉及语音技术领域。具体实现方案为：接收第一语音输入信息；获取与所述第一语音输入信息对应的交互信息；在确定所述交互信息展示完成的情况下，展示语音交互界面，以接收第二语音输入信息。因此本公开可以提高语音交互的便利性。

Description

语音交互方法及装置、电子设备和存储介质

技术领域

本公开涉及计算机技术领域，尤其涉及语音技术领域，具体涉及一种语音交互方法及装置、电子设备和存储介质。

背景技术

随着科学技术的发展，电子设备可以为用户提供越来越多的服务，提高用户生活的便利性。例如，可以直接输入语音信息，减少用户不便用手输入文本时，使得交互便利性较差的情况。在单次语音信息输入的过程中，例如可以通过应用程序的按键进行语音信息的输入。

发明内容

本公开提供了一种语音交互方法及装置、电子设备和存储介质，主要目的在于提高语音交互的便利性。

根据本公开的一方面，提供了一种语音交互方法，包括：

接收第一语音输入信息；

获取与所述第一语音输入信息对应的交互信息；

在确定所述交互信息展示完成的情况下，展示语音交互界面，以接收第二语音输入信息。

根据本公开的另一方面，提供了一种语音交互装置，包括：

信息接收单元，用于接收第一语音输入信息；

信息获取单元，用于获取与所述第一语音输入信息对应的交互信息；

界面展示单元，用于在确定所述交互信息展示完成的情况下，展示语音交互界面，以接收第二语音输入信息。

根据本公开的另一方面，提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行前述一方面中任一项所述的方法。

根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行前述一方面中任一项所述的方法。

根据本公开的另一方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现前述一方面中任一项所述的方法。

在本公开一个或多个实施例中，通过接收第一语音输入信息；获取与第一语音输入信息对应的交互信息；在确定交互信息展示完成的情况下，展示语音交互界面，以接收第二语音输入信息。因此，可以在上一次的交互信息展示完成之后，直接展示语音交互界面，再一次接收语音输入信息，无需再次进行语音唤醒操作，可以进行持续性的语音交互，减少语音交互过程中每次进行语音交互时都需要进行唤醒操作的步骤，可以提高语音交互的便利性。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是根据本公开第一实施例的语音交互方法的流程示意图；

图2是根据本公开第二实施例的语音交互方法的流程示意图；

图3(a)是根据本公开一个实施例的电子设备界面第一举例示意图；

图3(b)是根据本公开一个实施例的电子设备界面第二举例示意图；

图3(c)是根据本公开一个实施例的电子设备界面第三举例示意图；

图3(d)是根据本公开一个实施例的电子设备界面第四举例示意图；

图3(e)是根据本公开一个实施例的电子设备界面第五举例示意图；

图4是用来实现本公开实施例的语音交互方法的一种语音交互装置的结构示意图；

图5是用来实现本公开实施例的语音交互方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

下面结合具体的实施例对本公开进行详细说明。

在第一个实施例中，如图1所示，图1是根据本公开第一实施例的语音交互方法的流程示意图，该方法可依赖于计算机程序实现，可运行于进行语音交互的装置上。该计算机程序可集成在应用中，也可作为独立的工具类应用运行。

其中，语音交互装置可以是具有语音信息处理能力的电子设备，该电子设备包括但不限于：自动驾驶车辆、可穿戴设备、手持设备、个人电脑、平板电脑、车载设备、智能手机、计算设备或连接到无线调制解调器的其它处理设备等。在不同的网络中终端可以叫做不同的名称，例如：用户设备、接入终端、用户单元、用户站、移动站、移动台、远方站、远程终端、移动设备、用户终端、终端、无线通信设备、用户代理或用户装置、蜂窝电话、无绳电话、个人数字处理(personal digital assistant，PDA)、第五代移动通信技术(5thGeneration Mobile Communication Technology，5G)网络、第四代移动通信技术(the 4thgeneration mobile communication technology，4G)网络、第三代移动通信技术(3rd-Generation，3G)网络或未来演进网络中的电子设备等。

具体的，该语音交互方法包括：

S101，接收第一语音输入信息；

根据一些实施例，语音输入信息例如可以是以语音形式输入的信息。该第一语音输入信息例如可以是语音输入控件处于唤醒状态时所输入的信息。第一语音输入信息例如可以是通过点击语音输入控件输入的信息，例如还可以是通过长按语音输入控件输入的信息，例如还可以是在语音输入控件唤醒之后非第一次获取到的语音输入信息。本公开实施例对此不作限定。

其中，第一语音输入信息中的第一用于与第二语音输入信息进行区分。第一语音输入信息例如可以是在时间上先于第二语音输入信息接收到的信息。第一语音输入信息和第二语音输入信息对应的信息内容可以是关联的，也可以是不关联的。例如，第一语音输入信息例如可以是“今天天气怎么样？”，第二语音输入信息例如可以是“今天的晚餐在家吃还是出去吃？”。

在一些实施例之中，该第一语音输入信息并不特指某一固定信息。例如，当第一语音输入信息对应的接收时间点发生变化时，该第一语音输入信息也可以相应变化。例如，当第一语音输入信息对应的具体信息发生变化时，该第一语音输入信息也可以相应变化。

可选的，在电子设备执行语音交互方法时，可以接收第一语音输入信息。

S102，获取与第一语音输入信息对应的交互信息；

根据一些实施例，交互信息例如可以根据第一语音输入信息所获取到的信息。该交互信息并不特指某一固定信息。例如当第一语音输入信息对应的语音内容发生变化时，该交互信息也可以相应变化。例如，当交互信息的获取方式发生变化时，该交互信息也可以相应变化。

其中，交互信息例如可以是进行AI回答时所获取到的信息。因此，通过本公开的方案可以提高和AI进行持续对话，减少频繁唤起语言输入的情况，提高与AI交互的便利性。

在一些实施例之中，在接收到第一语音输入信息时，可以获取与第一语音输入信息对应的交互信息。

S103，在确定交互信息展示完成的情况下，展示语音交互界面，以接收第二语音输入信息。

根据一些实施例，在获取到交互信息时，可以对交互信息进行展示。其中，对交互信息进行展示例如可以包括在电子设备的显示屏上展示该交互信息、语音播放该交互信息和将该交互信息传输至另一个电子设备进行展示中至少一个。本公开实施例对此不作限定。

在一些实施例之中，语音交互界面例如可以是无需对语音输入控件进行唤醒操作即可以直接接收语音输入信息的界面。

在一些实施例之中，第二语音输入信息例如可以是在交互信息展示完成之后，通过展示的语音交互界面所接收到的语音输入信息。该第二语音输入信息并不特指某一固定信息。该第二语音输入信息的信息内容和第一语音输入信息的信息可以是关联的，也可以是不关联的。例如可以是，第一语音输入信息的语义和第二语音输入信息的语义之间的关联度可以大于关联度阈值，也可以小于关联度阈值。

例如，第一语音输入信息例如可以是“今天天气怎么样？”，第二语音输入信息例如可以是“今天的晚餐在家吃还是出去吃？”。

例如，第一语音输入信息例如可以是“今天气温多少度？”，第二语音输入信息例如可以是“今天适合穿什么衣服？”

可选的，在展示交互信息时，可以确定交互信息是否展示完成。在确定交互信息展示完成的情况下，展示语音交互界面，以接收第二语音输入信息。

在本公开一个或多个实施例中，通过接收第一语音输入信息；获取与第一语音输入信息对应的交互信息；在确定交互信息展示完成的情况下，展示语音交互界面，以接收第二语音输入信息。因此，可以在上一次的交互信息展示完成之后，直接展示语音交互界面，再一次接收语音输入信息，无需进行语音唤醒操作，可以进行持续性的语音交互，减少语音交互过程中每次进行语音交互时都需要进行唤醒操作的步骤，可以提高语音交互的便利性。

请参见图2，图2是根据本公开第二实施例的语音交互方法的流程示意图。具体的，

S201，接收第一语音输入信息；

具体过程如上所述，此处不再赘述。

在一些实施例之中，本公开实施例的技术方案例如可以应用于与电子设备进行多轮语音交互的过程。具体例如可以是与AI进行多轮语音交互的过程。

根据一些实施例，第一语音输入信息例如可以是通过语音输入控件所输入的语音信息。其中，语音输入控件是指用于控制语音输入的控件，例如可以是在语音输入控件唤醒之后课可以输入语音信息。该语音输入控件并不特指某一固定控件。例如，该语音输入控件可以是电子设备的显示屏上展示的控件，例如还可以是电子设备上安装的按键。其中，电子设备上展示的语音输入控件例如可以是以浮窗形式展示的控件，还可以是直接在显示屏上显示的控件。

在一些实施例之中，唤醒操作是指用于唤醒语音输入控件，可以输入语音输入信息的操作。该唤醒操作并不特指某一固定操作。例如，该唤醒操作可以是点击唤醒操作，例如还可以是语音唤醒操作，例如还可以是手势唤醒操作。

根据一些实施例，未接收第一语音输入信息之前的显示屏展示界面例如可以如图3(a)所示。唤醒操作例如可以点击操作，在电子设备检测到针对语音输入控件的点击操作时，可以展示语音输入界面，以监听是否有语音信息的输入。此时显示屏展示界面例如可以如图3(b)所示。

在一些实施例之中，在接收第一语音输入信息的过程中，展示第一语音输入信息对应的声纹信息，可以明确是否有语音信息的输入，减少无法确定语音信息是否输入成功的情况，可以提高语音信息输入的确定性，提高语音信息输入的准确性。

根据一些实施例，声纹信息例如可以根据声量进行展示的，此时，显示屏展示界面例如可以如图3(c)所示。

根据一些实施例，声纹信息例如可以根据音色进行展示的。本公开实施例对此不作限定。

根据一些实施例，接收第一语音输入信息，包括：

在接收第一语音输入信息的过程中，未接收到语音输入信息的持续时长达到第二时长阈值的情况下，确定接收到的语音输入信息为第一语音输入信息；

或者

在接收第一语音输入信息的过程中，接收到针对语音输入控件的输入完成操作的情况下，确定接收到的语音输入信息为第一语音输入信息。

根据一些实施例，第二时长阈值是指用于判断第一语音输入信息是否输入完成的阈值。该第二时长阈值并不特指某一固定阈值。例如，当接收到针对该第二时长阈值的修改指令时，可以对该第二时长阈值进行修改，该第二时长阈值可以相应变化。第二时长阈值例如可以是1.5秒。

根据一些实施例，在接收第一语音输入信息的过程中，例如可以在前5秒接收到语音输入信息，检测到未接收到语音输入信息的时长达到1.5秒时，可以确定接收到的语音输入信息为第一语音输入信息。

例如，在接收第一语音输入信息的过程中，例如可以通过点击操作唤醒语音输入信息，当再次接收到针对语音输入控件的点击操作的情况下，确定接收到的语音输入信息为第一语音输入信息。

S202，获取与第一语音输入信息对应的交互信息；

具体过程如上所述，此处不再赘述。

根据一些实施例，其中，交互信息为文本交互信息和语音交互信息，其中，例如可以对第一语音输入信息进行文本识别，获取到该第一语音输入信息对应的文本输入信息。可以获取与该文本输入信息对应的文本交互信息。再对该文本交互信息进行语音转换，获取该文本交互信息对应的语音交互信息。

根据一些实施例，其中，交互信息为文本交互信息和语音交互信息，获取与第一语音输入信息对应的交互信息，包括：

采用自动语音识别(Automatic Speech Recognition，ASR)技术获取第一语音输入信息对应文本输入信息；

采用大语言模型对文本输入信息进行识别，获取文本输入信息对应的文本交互信息；

采用从文本到语音TTS技术对文本交互信息进行语音转化，获取语音交互信息。因此，可以提高交互信息获取的准确性，提高语音交互的便利性。

其中，获取文本输入信息例如可以是在第一语音输入信息输入完成时进行识别得到的，也可以是实时对接收到的第一语音输入信息进行识别得到的。其中，实时对接收到的第一语音输入信息进行识别例如可以是每隔预设时长进行一次识别，例如还可以接收到预设字节的语音输入信息进行一次识别，在确定接收完成第一语音输入信息时可以判断是否识别完成，提高第一语音输入信息接收的准确性。

S203，展示文本交互信息；

根据一些实施例，在获取到第一语音输入信息对应的文本交互信息时，可以展示该文本交互信息。

例如，第一语音输入信息例如可以是“半导体是什么？”。获取到与该第一语音输入信息对应的文本交互信息。该文本交互信息例如可以是“半导体(semiconductor)指常温下导电性能介于导体与绝缘体之间的材料。半导体在集成电路、消费电子、通信系统、光伏发电、照明、大功率电源转换等领域都有应用，如二极管就是采用半导体制作的器件。”。当电子设备获取到该文本交互信息时，可以展示该文本交互信息。

S204，播放语音交互信息；

根据一些实施例，在获取到第一语音输入信息对应的语音交互信息时，可以播放该语音交互信息。

该交互信息例如可以是“半导体(semiconductor)指常温下导电性能介于导体与绝缘体之间的材料。半导体在集成电路、消费电子、通信系统、光伏发电、照明、大功率电源转换等领域都有应用，如二极管就是采用半导体制作的器件。”。当电子设备获取到该交互信息时，可以展示该文本交互信息，包括展示文本交互信息和播放语音交互信息。

在一些实施例之中，步骤S203和步骤S204的执行顺序并不作限定。例如，可以先执行步骤S203，再执行步骤S204，也可以，可以先执行步骤S204，再执行步骤S203，例如还可以同时执行步骤S203和步骤S204。

S205，在确定语音交互信息播放完成的情况下，展示语音交互界面，以接收第二语音输入信息。

具体过程如上所述，此处不再赘述。

根据一些实施例，在确定语音交互信息播放完成的情况下，展示语音交互界面，以接收第二语音输入信息，此时，显示屏展示界面例如可以如图3(d)所示

根据一些实施例，在展示语音交互界面之后，还包括：

在第一时长阈值内未接收到第二语音输入信息的情况下，停止展示语音交互界面，展示语音输入控件，可以减少一直监听语音输入信息所消耗的资源，提高电子设备的使用时长。

在一些实施例之中，第一时长阈值例如可以是用于确定是否停止展示语音交互界面的阈值。该第一时长阈值中的第一仅用于与第二时长阈值进行区分，并不特指某一固定阈值。第一时长阈值例如可以大于第二时长阈值，第一时长阈值例如可以等于第二时长阈值，第一时长阈值例如可以小于第二时长阈值。

其中，第一时长阈值例如可以是5秒。在展示语音交互界面之后，例如在5秒内未接收到第二语音输入信息的情况下，停止展示语音交互界面，展示语音输入控件。此时，语音输入控件的展示界面例如可以如图3(e)所示。

根据一些实施例，其中，交互信息为文本交互信息和语音交互信息，在在确定交互信息展示完成的情况下，展示语音交互界面之前，还包括：

接收针对语音交互信息的停止播放操作；

在确定交互信息展示完成的情况下，展示语音交互界面，包括：

展示文本交互信息；

展示语音交互界面。可以提高语音交互的适用性，可以在无需播放语音交互信息时也可以展示语音交互界面，减少语音输入唤醒的次数，提高语音交互的便利性。

在本公开一个或多个实施例中，通过展示文本交互信息；播放语音交互信息；在确定语音交互信息播放完成的情况下，展示语音交互界面以接收第二语音输入信息，因此可以一次唤醒语音交互时进行多轮语音交互，且可以在语音信息播放完成之后再接收下一次的语音输入信息，可以提高语音交互的便利性。另外可以在上一次的交互信息展示完成之后，直接展示语音交互界面，再一次接收语音输入信息，无需进行语音唤醒操作，可以进行持续性的语音交互，减少语音交互的步骤，可以提高语音交互的便利性。

下述为本公开装置实施例，可以用于执行本公开方法实施例。对于本公开装置实施例中未披露的细节，请参照本公开方法实施例。

请参见图4，其示出了用来实现本公开实施例的语音交互方法的一种语音交互装置的结构示意图。该语音交互装置可以通过软件、硬件或者两者的结合实现成为装置的全部或一部分。该语音交互装置400包括信息接收单元401、信息获取单元402和界面展示单元403，其中：

信息接收单元401，用于接收第一语音输入信息；

信息获取单元402，用于获取与第一语音输入信息对应的交互信息；

界面展示单元403，用于在确定交互信息展示完成的情况下，展示语音交互界面，以接收第二语音输入信息。

根据一些实施例，其中，交互信息为文本交互信息和语音交互信息，界面展示单元403，用于在确定交互信息展示完成的情况下，展示语音交互界面时，具体用于：

展示文本交互信息；

播放语音交互信息；

在确定语音交互信息播放完成的情况下，展示语音交互界面。

根据一些实施例，界面展示单元403，还用于在展示语音交互界面之后：

在第一时长阈值内未接收到第二语音输入信息的情况下，停止展示语音交互界面，展示语音输入控件。

根据一些实施例，其中，交互信息为文本交互信息和语音交互信息，信息获取单元402，用于获取与第一语音输入信息对应的交互信息时，具体用于：

采用自动语音识别ASR技术获取第一语音输入信息对应文本输入信息；

采用从文本到语音TTS技术对文本交互信息进行语音转化，获取语音交互信息。

根据一些实施例，界面展示单元403，还用于：

在接收第一语音输入信息的过程中，展示第一语音输入信息对应的声纹信息。

根据一些实施例，接收第一语音输入信息时，具体用于：

或者

根据一些实施例，其中，交互信息为文本交互信息和语音交互信息，界面展示单元403，还用于在在确定交互信息展示完成的情况下，展示语音交互界面之前：

接收针对语音交互信息的停止播放操作；

界面展示单元403，用于在确定交互信息展示完成的情况下，展示语音交互界面时，具体用于：

展示文本交互信息；

展示语音交互界面。

要说明的是，上述实施例提供的语音交互装置在执行语音交互方法时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的语音交互装置与语音交互方法实施例属于同一构思，其体现实现过程详见方法实施例，这里不再赘述。

上述本公开实施例序号仅仅为了描述，不代表实施例的优劣。

综上，本公开实施例提供的装置，信息接收单元用于接收第一语音输入信息；信息获取单元用于获取与第一语音输入信息对应的交互信息；界面展示单元用于在确定交互信息展示完成的情况下，展示语音交互界面，以接收第二语音输入信息。因此，可以在上一次的交互信息展示完成之后，直接展示语音交互界面，再一次接收语音输入信息，无需进行语音唤醒操作，可以进行持续性的语音交互，减少语音交互的步骤，可以提高语音交互的便利性。

本公开的技术方案中，所涉及的用户个人信息的获取、存储和应用等，均符合相关法律法规的规定，且不违背公序良俗。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图5示出了可以用来实施本公开的实施例的示例电子设备500的示意性框图。其中，本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图5所示，电子设备包括计算单元501，其可以根据存储在只读存储器(ROM)502中的计算机程序或者从存储单元508加载到随机访问存储器(RAM)503中的计算机程序，来执行各种适当的动作和处理。在RAM 503中，还可存储电子设备操作所需的各种程序和数据。计算单元501、ROM 502以及RAM 503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。

电子设备中的多个部件连接至I/O接口505，包括：输入单元506，例如键盘、鼠标等；输出单元507，例如各种类型的显示器、扬声器等；存储单元508，例如磁盘、光盘等；以及通信单元509，例如网卡、调制解调器、无线通信收发机等。通信单元509允许电子设备通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元501可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元501的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元501执行上文所描述的各个方法和处理，例如语音交互方法。例如，在一些实施例中，语音交互方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元508。在一些实施例中，计算机程序的部分或者全部可以经由ROM 502和/或通信单元509而被载入和/或安装到电子设备上。当计算机程序加载到RAM 503并由计算单元501执行时，可以执行上文描述的语音交互方法的一个或多个步骤。备选地，在其他实施例中，计算单元501可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行语音交互方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或电子设备上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据电子设备)、或者包括中间件部件的计算系统(例如，应用电子设备)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)、互联网和区块链网络。

计算机系统可以包括客户端和电子设备。客户端和电子设备一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-电子设备关系的计算机程序来产生客户端和电子设备的关系。电子设备可以是云电子设备，又称为云计算电子设备或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务("Virtual Private Server"，或简称"VPS")中，存在的管理难度大，业务扩展性弱的缺陷。电子设备也可以为分布式系统的电子设备，或者是结合了区块链的电子设备。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种语音交互方法，包括：

接收第一语音输入信息；

获取与所述第一语音输入信息对应的交互信息；

2.根据权利要求1所述的方法，其中，所述交互信息为文本交互信息和语音交互信息，所述在确定所述交互信息展示完成的情况下，展示语音交互界面，包括：

展示所述文本交互信息；

播放所述语音交互信息；

在确定所述语音交互信息播放完成的情况下，展示语音交互界面。

3.根据权利要求1或2所述的方法，在所述展示语音交互界面之后，还包括：

在第一时长阈值内未接收到所述第二语音输入信息的情况下，停止展示所述语音交互界面，展示语音输入控件。

4.根据权利要求1或2所述的方法，其中，所述交互信息为文本交互信息和语音交互信息，所述获取与所述第一语音输入信息对应的交互信息，包括：

采用自动语音识别ASR技术获取所述第一语音输入信息对应文本输入信息；

采用大语言模型对所述文本输入信息进行识别，获取所述文本输入信息对应的所述文本交互信息；

采用从文本到语音TTS技术对所述文本交互信息进行语音转化，获取所述语音交互信息。

5.根据权利要求1所述的方法，所述方法还包括：

在接收所述第一语音输入信息的过程中，展示所述第一语音输入信息对应的声纹信息。

6.根据权利要求1所述的方法，所述接收第一语音输入信息，包括：

在接收第一语音输入信息的过程中，未接收到语音输入信息的持续时长达到第二时长阈值的情况下，确定接收到的语音输入信息为所述第一语音输入信息；

或者

在接收第一语音输入信息的过程中，接收到针对语音输入控件的输入完成操作的情况下，确定接收到的语音输入信息为所述第一语音输入信息。

7.根据权利要求1所述的方法，其中，所述交互信息为文本交互信息和语音交互信息，在所述在确定所述交互信息展示完成的情况下，展示语音交互界面之前，还包括：

接收针对所述语音交互信息的停止播放操作；

所述在确定所述交互信息展示完成的情况下，展示语音交互界面，包括：

展示所述文本交互信息；

展示语音交互界面。

8.一种语音交互装置，包括：

信息接收单元，用于接收第一语音输入信息；

9.根据权利要求8所述的装置，其中，所述交互信息为文本交互信息和语音交互信息，所述界面展示单元，用于在确定所述交互信息展示完成的情况下，展示语音交互界面时，具体用于：

展示所述文本交互信息；

播放所述语音交互信息；

10.根据权利要求8或9所述的装置，所述界面展示单元，还用于在所述展示语音交互界面之后：

11.根据权利要求8或9所述的装置，其中，所述交互信息为文本交互信息和语音交互信息，所述信息获取单元，用于获取与所述第一语音输入信息对应的交互信息时，具体用于：

12.根据权利要求8所述的装置，所述界面展示单元，还用于：

13.根据权利要求8所述的装置，所述接收第一语音输入信息时，具体用于：

或者

14.根据权利要求8所述的装置，其中，所述交互信息为文本交互信息和语音交互信息，所述界面展示单元，还用于在所述在确定所述交互信息展示完成的情况下，展示语音交互界面之前：

接收针对所述语音交互信息的停止播放操作；

所述界面展示单元，用于在确定所述交互信息展示完成的情况下，展示语音交互界面时，具体用于：

展示所述文本交互信息；

展示语音交互界面。

15.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其特征在于，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-7中任一项所述的方法。

16.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使所述计算机执行根据权利要求1-7中任一项所述的方法。

17.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1-7中任一项所述的方法。