CN113327582A

CN113327582A - 语音交互方法、装置、电子设备及存储介质

Info

Publication number: CN113327582A
Application number: CN202110542003.8A
Authority: CN
Inventors: 陈孝良; 丁玉江; 李智勇; 常乐
Original assignee: Beijing SoundAI Technology Co Ltd
Current assignee: Beijing SoundAI Technology Co Ltd
Priority date: 2021-05-18
Filing date: 2021-05-18
Publication date: 2021-08-31
Anticipated expiration: 2041-05-18
Also published as: CN113327582B

Abstract

本发明提供一种语音交互方法、装置、电子设备及存储介质。其中，语音交互方法，包括：获取通话对象的电话号码的归属地，并基于所述归属地确定第一地方语言；在与所述通话对象建立通话连接成功后，选择预先根据所述第一地方语言录制好的真人语音与所述通话对象通话。本发明提供的语音交互方法，具有语音交互成本低且语音交互体验好的优点。

Description

语音交互方法、装置、电子设备及存储介质

技术领域

本发明涉及通信技术领域，尤其涉及一种语音交互方法、装置、电子设备及存储介质。

背景技术

呼叫模式包括呼入和外呼两种，以外呼为例，目前常用的外呼方式包括人工外呼方式和系统自动外呼方式。外呼应用的场景中，通常需要与大量的用户进行通话，应用的场景例如有反欺诈外呼、购物回访外呼、销售外呼等等。如果采用人工外呼方式，需要浪费大量的人力，成本高；系统自动外呼方式如呼叫中心以“机器话务员”代替真人主动发起对用户的呼叫，虽然可以降低人力成本，但是，通话过程中，通常采用语音合成技术如TTS(TextTo Speech，从文本到语音)合成的语音与用户通话，语音生硬呆板，用户可以轻易地辨别出并非真人，使用户易产生怀疑甚至反感，进而，很难得到用户真实的反馈，影响外呼的效果。

发明内容

本发明提供一种语音交互方法、装置、电子设备及存储介质，用以解决现有技术中成本高且语音交互体验差的技术问题，实现低成本且语音交互体验好的目的。

本发明提供了一种语音交互方法，包括：

获取通话对象的电话号码的归属地，并基于所述归属地确定第一地方语言；

在与所述通话对象建立通话连接成功后，选择预先根据所述第一地方语言录制好的真人语音与所述通话对象通话。

在一些示例中，所述真人语音包括多个真人语音片段，所述在与所述通话对象建立通话连接成功后，选择预先根据所述第一地方语言录制好的真人语音与所述通话对象通话，包括：

基于预设的话术流程，选择对应的真人语音片段与所述通话对象通话。

在一些示例中，所述基于预设的话术流程，选择对应的真人语音片段与所述通话对象通话，包括：

调用预设的开场白对应的真人语音片段与所述通话对象通话；

接收所述通话对象的应答语音，并基于所述应答语音调用对应的真人语音片段回复所述通话对象。

在一些示例中，所述接收所述通话对象的应答语音，并基于所述应答语音调用对应的真人语音片段回复所述通话对象，包括：

对所述应答语音进行自然语言处理，以理解所述应答语音的语义；

获得预先为所述语义设定的语义标签；

基于所述语义标签，调用对应的真人语音片段回复所述通话对象。

在一些示例中，所述在与所述通话对象建立通话连接成功后，选择预先根据所述第一地方语言录制好的真人语音与所述通话对象通话时，还包括：

识别所述通话对象的应答语音使用的第二地方语言；

基于所述第一地方语言和所述第二地方语言，判断是否继续使用预先根据所述第一地方语言录制好的真人语音与所述通话对象通话。

在一些示例中，所述基于所述第一地方语言和所述第二地方语言，判断是否继续使用预先根据所述第一地方语言录制好的真人语音与所述通话对象通话，包括：

判断所述第二地方语言是否与所述第一地方语言匹配；

如果匹配，则继续使用预先根据所述第一地方语言录制好的真人语音与所述通话对象通话；

如果不匹配，则切换为预先根据所述第二地方语言录制好的真人语音后与所述通话对象通话。

在一些示例中，所述在识别所述通话对象的应答语音使用的第二地方语言之后，还包括：

如果未识别出所述通话对象的应答语音使用的第二地方语言，则继续使用预先根据所述第一地方语言录制好的真人语音与所述通话对象通话；或者，切换为预先根据普通话录制好的真人语音后与所述通话对象通话。

本发明还提供一种语音交互装置，包括：

获取模块，用于获取通话对象的电话号码的归属地，并基于所述归属地确定第一地方语言；

语音交互模块，用于在与所述通话对象建立通话连接成功后，选择预先根据所述第一地方语言录制好的真人语音与所述通话对象通话。

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述语音交互方法的步骤。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述语音交互方法的步骤。

本发明提供的语音交互方法、装置、电子设备及存储介质，通过非人工应答的方式与多个用户进行通话，相比于现有技术中人工应答如人工外呼方式，节省人力成本，另外，在与用户通话时，通过调用真人的录音与用户通话，相比于现有技术中的采用语音合成技术如TTS合成的语音与用户通话的方式，具有真人语音的音色和音调，提升了通话的亲和力，此外，根据辨识到的用户极大可能使用的地方语言如使用的方言，自动选择使用该方言对应的真人录音与用户通话，可以拉近与用户之间的亲密程度，提升用户对通话的信任度，进而，可以得到更为真实的用户反馈，提升了语音交互的效果。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的语音交互方法的流程示意图；

图2是本发明提供的语音交互装置的结构示意图；

图3是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

以下结合附图描述根据本发明实施例的语音交互方法、装置、电子设备及存储介质。

其中，本发明实施例的语音交互方法、装置、电子设备及存储介质可以应用在多个外呼场景中，例如：反欺诈外呼场景、购物回访外呼场景、销售外呼场景等。例如：应用在购物回访外呼场景时，购物平台或者商家的客服系统可以向购物的购物群体中的购物者进行外呼回访，即：客户系统与购物群体中的购物者进行的语音交互；当然，应用在反欺诈外呼场景时，反欺诈中心的反欺诈系统可以向一些如易受骗的老年用户群体中的老年人进行反欺诈提醒，即：反欺诈系统与一些易受骗的老年用户群体中的老年人进行的语音交互；此外，应用在销售外呼场景时，销售系统可以向一些如潜在的存在购买意向的用户群体中的人员进行销售，即：销售系统与一些如潜在的存在购买意向的用户群体中的人员进行的语音交互。

图1示出了本发明一个实施例提供的语音交互方法的流程图。如图1所示，根据本发明一个实施例提供的语音交互方法，包括如下内容：

步骤101：获取通话对象的电话号码的归属地，并基于通话对象的电话号码的归属地确定第一地方语言。

通话对象包括通信设备，通信设备可以是用户的智能手机等移动终端，当然，通信设备还可以是座机等固定电话。通话对象如果是智能手机，则电话号码指该智能手机的手机号，通话对象如果是座机，则电话号码指该座机的座机号。

以个人的智能手机为例，可以根据该智能手机的手机号，确定出该手机号的归属地，通常来说，归属地至少可以精确到省级、市级等，如归属地为城市A、城市B等，或者，归属地为C省、D省等。

地方语言通常指地方方言，即方言。如每个省，或者每个市有各自的方言。通过得知电话号码的归属地，如电话号码的归属地为城市A，相应地，可以知道城市A中当地市民普遍使用的地方方言。

步骤102：在与通话对象建立通话连接成功后，选择预先根据第一地方语言录制好的真人语音与通话对象通话。

以反欺诈外呼场景为例，反欺诈系统可以使用如基于人工智能的系统自动外呼方式，拨打通话对象的电话号码，当通话对象接听后，与通话对象成功建立了通话连接，此时，便可以选择预先根据第一地方语言录制好的真人语音与通话对象通话。

需要说明的是，针对不同的场景，预先设计好场景下的通话的内容，然后预先通过真人说话的方式，对通话的内容进行录音，形成真人语音，并且，真人录音包括多个版本，每个版本的通话的内容一致，但使用的本地语言不同，即：形成多种方言版本的真人录音，进而，当与通话对象建立通话连接成功后，假设通话对象的电话号码的归属地为城市A，城市A使用的本地(地方)语言即方言为方言1，则从多个方言版本的真人录音中选择方言1的真人录音，智能地在当前场景下与通话对象进行通话。

根据本发明实施例的语音交互方法，通过非人工应答的方式与多个用户进行通话，相比于现有技术中人工应答如人工外呼方式，节省人力成本，另外，在与用户通话时，通过调用真人的录音与用户通话，相比于现有技术中的采用语音合成技术如TTS合成的语音与用户通话的方式，具有真人语音的音色和音调，提升了通话的亲和力，此外，根据辨识到的用户极大可能使用的地方语言如使用的方言，自动选择使用该方言对应的真人录音与用户通话，可以拉近与用户之间的亲密程度，提升用户对通话的信任度，进而，可以得到更为真实的用户反馈，提升了语音交互的效果。

在本发明的一个实施例中，真人语音包括多个真人语音片段，即：预先录制好的每种方言版本的真人语音均包括多个真人语音片段，在与通话对象建立通话连接成功后，选择预先根据第一地方语言录制好的真人语音与通话对象通话，包括：基于预设的话术流程，选择对应的真人语音片段与通话对象通话。例如：假设获得的第一地方语言为方言1，则选择预先根据方言1录制好的真人语音，并根据设计好的话术流程，从方言1录制好的真人语音中调用真人语音片段与用户通话。

该示例中，基于预设的话术流程，选择对应的真人语音片段与所述通话对象通话，包括：调用预设的开场白对应的真人语音片段与所述通话对象通话；接收所述通话对象的应答语音，并基于所述应答语音调用对应的真人语音片段回复所述通话对象。

上述示例中，接收所述通话对象的应答语音，并基于所述应答语音调用对应的真人语音片段回复所述通话对象，包括：对所述应答语音进行自然语言处理，以理解所述应答语音的语义；获得预先为所述语义设定的语义标签；基于所述语义标签，调用对应的真人语音片段回复所述通话对象。

也就是说，根据提前设计好话术流程，针对可能获取到的用户回答，可以有多种语义，例如针对用户不同的回答，总结出三种语义，一种为同意、另一种为不同意、再一种为其他，则可以通过语音理解如使用NLP(自然语言处理，Natural Language Processing)理解用户回答的语义，针对每种语义设定具体的语义标签，对每个语义标签使用不同的真人语音片段回复。进而，在通话过程中，根据电话号码确定其归属地，并根据归属地确定出使用的方言，而后，使用该方言预先录制好的针对开场白的真人语音片段与用户通话，随后，针对用户不同的回答，确定出具体的语义后，针对该语义对应的语义标签调用相应的真人语音片段与用户进行语音交互。

需要说明的是，语义标签通常是根据应用场景和结论等进行划分的。也就是说，不同应用场景中，同一语义标签使用的真人语音片段通常不同。例如：在不同的应用场景中，结论(即：通话对象的应答语的语义)可能相同，因此语义标签也相同，但是，针对不同的应用场景，语义标签对应的回复的语音片段通常不同。假设在购物回访外呼场景，通话对象的应答语为“可以”，即：语义为同意，但是为针对购物回访外呼场景中是针对“是否愿意对购买的商品进行评价”的回复，因此，该语义标签调用的语音片段是特定的。同样地，在销售外呼场景中，通话对象的应答语为“可以”，即：语义为同意，但是为针对销售外呼场景中是针对“让我帮您介绍一下产品吧”的回复，因此，该语义标签调用的语音片段同样是特定的，可以是对产品的详细介绍。因此，语义标签是根据应用场景和结论等进行划分的。

当然，语义标签还可以与语气相关，例如：针对不同的语气，划分的语义标签也不同，假设在销售外呼场景中，向通话对象的提问是“让我帮您介绍一下产品吧”，通话对象的回复可能是“不好意思，我现在很忙”，也可能是“请不要打扰我”。针对这两种回复，虽然同样是拒绝，但是可以划分不同的语义标签，例如：针对“不好意思，我现在很忙”，可以划分为一种语义标签，例如：对应的真人语音片段是“非常抱歉，打扰您了，那您先忙，我会在晚些时候再和您联系”。针对“请不要打扰我”，可以划分为一种语义标签，用户很生气，不想再接收类似的电话，因此，对应的真人语音片段可以是“非常抱歉打扰到您了，请您谅解，再见”等。

进一步地，可以根据用户的应答语音的语气和语义等，针对不同的应用场景下，调用对应的真人语音片段进行回复。需要说明的是，调用的真人语音片段可以是多个，然后，再根据语法，对多个语音片段进行组合，进而回复用户，从而，提高用户交互体验。例如：针对用户的回答，确定出多个语义标签，因此，可以调用到多个真人语音片段，然后，对多个真人语音片组合后，回复给用户，这样，可以更像是真人在与用户通话，进而，提高交互体验。

以一个购物回访外呼为例，假设该购物回访外呼的预设的话术流程为：

开场白：XX先生/女士，您好，我是XXXX商品的售后，近期您在我家购买了XX商品，现在请您做个回访，您是否方便；其中，开场白可以是一个真人语音片段。

针对用户的回复，可以包括不同的话术流程分支，例如：

其一的话术分支为用户同意做回访时，如用户回复方便，此时，该分支中与用户通话的真人语音片段可以针对用户配合回访而预先设定出应答的一个或多个真人语音片段；

其二的话术分支为用户不同意做回访时，如用户回复非常抱歉，我并不需要做回访，此时，该分支中与用户通话的真人语音片段可以针对用户拒绝回访而预先设定出应答的一个或多个真人语音片段；

其三的话术分支为其他，例如用户回答不是同意也不是不同意，此时分支中的语音片段可以选择为重复提问等。

需要说明的是，针对不同的场景，如反欺诈外呼场景、购物回访外呼场景、销售外呼场景，其话术流程已经针对性地预先设计好，也就是说，开场白、以及根据用户不同的应答确定出的回复内容均已经预先设计好，这属于现有技术，此处不做赘述。本发明的实施例，在此基础上，将开场白、以及根据用户不同的应答确定出的回复内容均已经预先通过每种方言录制了多个真人语音片段。因此，在与用户进行语音交互时，通过调用真人的录音与用户通话，相比于合成的语音与用户通话的方式，提升了通话的亲和力，并且，针对不同的用户，使用相应的方言与其进行通话，拉近了和用户的亲密度，进而可以有效地提升语音交互的效果。

在实际的应用中，以购物回访外呼为例，通过本发明实施例的语音交互方法，虽然采用自动应答方式对用户进行回访，但是，不仅采用了真人录音与用户通话，而且，采用用户使用的方言与用户进行通话，这样，用户感受是在与真人，并且是在与老乡进行通话，不仅提升了用户的回访体验，使用户感受到更好的售后服务，而且更容易收集到更真实、更客观的商品评价等信息，从而，在较少投入成本的情况下，使得购物回访达到预期的目的。

在本发明的一个实施例中，所述在与所述通话对象建立通话连接成功后，选择预先根据所述第一地方语言录制好的真人语音与所述通话对象通话时，还包括：识别所述通话对象的应答语音使用的第二地方语言；基于所述第一地方语言和所述第二地方语言，判断是否继续使用预先根据所述第一地方语言录制好的真人语音与所述通话对象通话。

该示例中，基于所述第一地方语言和所述第二地方语言，判断是否继续使用预先根据所述第一地方语言录制好的真人语音与所述通话对象通话，包括：判断所述第二地方语言是否与所述第一地方语言匹配；如果匹配，则继续使用预先根据所述第一地方语言录制好的真人语音与所述通话对象通话；如果不匹配，则切换为预先根据所述第二地方语言录制好的真人语音后与所述通话对象通话。

举例来说，根据电话号码的归属地确定出的方言，可能并不准确，例如：用户P的家乡为城市A，而用户P定居在城市B，假设城市A使用方言1，城市B使用方言2，用户在城市B办理的电话号码，因此，基于电话号码的归属地确定出的用户P使用的方言大概率为方言2，但实际上，用户P的家乡话为方言1。因此，通过该示例，可以在接收到用户的应答语音后，对应答语音进行方言识别，识别到用户使用方言1，此时，而后的通话调用预先根据方言1录制好的真人语音与用户继续通话，从而，可以及时地拉近与用户之间的距离，提升用户的语音交互体验。

需要说明的是，通过语音识别方言属于现有技术，例如：通过大量的不同方言的语音样本训练出方言识别模型，通过该方言识别模型识别语音的方言。此处不对如何根据语音识别方言的详细实现过程进行赘述。

在本发明的一个实施例中，在识别所述通话对象的应答语音使用的第二地方语言之后，还包括：如果未识别出所述通话对象的应答语音使用的第二地方语言，则继续使用预先根据所述第一地方语言录制好的真人语音与所述通话对象通话；或者，切换为预先根据普通话录制好的真人语音后与所述通话对象通话。也就是说，如果不能够识别出用户说的语音是哪一个地区的方言，此时，可以继续使用预先根据所述第一地方语言录制好的真人语音与所述通话对象通话；当然，如果用户并不能够轻易听懂，则可以调整为预先根据普通话录制好的真人语音后与所述通话对象通话，从而，可以使语音交互顺利完成，从而达到语音交互预期的目的。

根据本发明实施例的语音交互方法，具有成本低且可以有效提升语音交互体验。

下面对本发明提供的语音交互装置进行描述，下文描述的语音交互装置与上文描述的语音交互方法可相互对应参照。

图2示出了本发明实施例提供的语音交互装置的结构示意图。如图2所示，本实施例提供的语音交互装置，包括：获取模块210和语音交互模块220，其中：

获取模块210，用于获取通话对象的电话号码的归属地，并基于所述归属地确定第一地方语言；

语音交互模块220，用于在与所述通话对象建立通话连接成功后，选择预先根据所述第一地方语言录制好的真人语音与所述通话对象通话。

根据本发明实施例的语音交互装置，通过非人工应答的方式与多个用户进行通话，相比于现有技术中人工应答如人工外呼方式，节省人力成本，另外，在与用户通话时，通过调用真人的录音与用户通话，相比于现有技术中的采用语音合成技术如TTS合成的语音与用户通话的方式，具有真人语音的音色和音调，提升了通话的亲和力，此外，根据辨识到的用户极大可能使用的地方语言如使用的方言，自动选择使用该方言对应的真人录音与用户通话，可以拉近与用户之间的亲密程度，提升用户对通话的信任度，进而，可以得到更为真实的用户反馈，提升了语音交互的效果。

由于本发明实施例提供的语音交互装置，可以用于执行上述实施例所述的语音交互方法，其工作原理和有益效果类似，故此处不再详述，具体内容可参见上述实施例的介绍。

图3示例了一种电子设备的实体结构示意图，如图3所示，该电子设备可以包括：处理器(processor)310、通信接口(Communications Interface)320、存储器(memory)330和通信总线340，其中，处理器310，通信接口320，存储器330通过通信总线340完成相互间的通信。处理器310可以调用存储器330中的逻辑指令，以执行语音交互方法，该方法包括：获取通话对象的电话号码的归属地，并基于所述归属地确定第一地方语言；在与所述通话对象建立通话连接成功后，选择预先根据所述第一地方语言录制好的真人语音与所述通话对象通话。

此外，上述的存储器330中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法所提供的语音交互方法，该语音交互方法包括：获取通话对象的电话号码的归属地，并基于所述归属地确定第一地方语言；在与所述通话对象建立通话连接成功后，选择预先根据所述第一地方语言录制好的真人语音与所述通话对象通话。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各提供的语音交互方法，该语音交互方法包括：获取通话对象的电话号码的归属地，并基于所述归属地确定第一地方语言；在与所述通话对象建立通话连接成功后，选择预先根据所述第一地方语言录制好的真人语音与所述通话对象通话。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种语音交互方法，其特征在于，包括：

2.根据权利要求1所述的语音交互方法，其特征在于，所述真人语音包括多个真人语音片段，所述在与所述通话对象建立通话连接成功后，选择预先根据所述第一地方语言录制好的真人语音与所述通话对象通话，包括：

3.根据权利要求2所述的所述语音交互方法，其特征在于，所述基于预设的话术流程，选择对应的真人语音片段与所述通话对象通话，包括：

4.根据权利要求3所述的语音交互方法，其特征在于，所述接收所述通话对象的应答语音，并基于所述应答语音调用对应的真人语音片段回复所述通话对象，包括：

获得预先为所述语义设定的语义标签；

5.根据权利要求1-4任一项所述的语音交互方法，其特征在于，所述在与所述通话对象建立通话连接成功后，选择预先根据所述第一地方语言录制好的真人语音与所述通话对象通话时，还包括：

识别所述通话对象的应答语音使用的第二地方语言；

6.根据权利要求5所述的语音交互方法，其特征在于，所述基于所述第一地方语言和所述第二地方语言，判断是否继续使用预先根据所述第一地方语言录制好的真人语音与所述通话对象通话，包括：

判断所述第二地方语言是否与所述第一地方语言匹配；

7.根据权利要求5所述的语音交互方法，其特征在于，所述在识别所述通话对象的应答语音使用的第二地方语言之后，还包括：

8.一种语音交互装置，其特征在于，包括：

9.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现根据权利要求1至7任一项所述语音交互方法的步骤。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现根据权利要求1至7任一项所述语音交互方法的步骤。