CN113744741B

CN113744741B - 识别电话接听行为的方法及装置

Info

Publication number: CN113744741B
Application number: CN202111297804.9A
Authority: CN
Inventors: 张翅飞
Original assignee: Alibaba China Co Ltd; Alibaba Cloud Computing Ltd
Current assignee: Alibaba China Co Ltd; Alibaba Cloud Computing Ltd
Priority date: 2021-11-04
Filing date: 2021-11-04
Publication date: 2022-02-08
Anticipated expiration: 2041-11-04
Also published as: CN113744741A

Abstract

本说明书实施例提供了识别电话接听行为的方法及装置，该方法的一具体实施方式包括：获取被叫用户的通话语音；从通话语音中提取出被叫用户的第一声纹信息；确定智能机器人声纹库中是否存在与第一声纹信息相匹配的第二声纹信息；根据确定结果，识别被叫用户是否使用智能机器人接听电话。

Description

识别电话接听行为的方法及装置

技术领域

本说明书实施例涉及计算机技术领域，具体地，涉及识别电话接听行为的方法及装置。

背景技术

随着计算机技术的快速发展，一些用于主动接听电话的AI（ArtificialIntelligence，人工智能）机器人应运而生。实践中，AI机器人可简称为智能机器人，通常以APP（Application，应用程序）的形式安装在用户的通讯设备（例如智能手机、具有通信功能的智能可穿戴设备和/或平板电脑等）上，可以帮助用户接听呼入的电话，并有一定的自动交互能力。

目前，有外呼需求的企业，通常会周期性的对其至少部分用户拨打电话。现实生活中，有些用户可能会觉得此种电话是骚扰电话，会利用其通讯设备上已安装的智能机器人接听电话。当被呼叫的用户（可简称为被叫用户）使用智能机器人接听电话时，这势必会降低外呼企业的呼叫效率，以及增加运营成本。

因此，迫切需要一种合理、可靠的方案，可以有效识别被叫用户使用智能机器人接听电话的行为，从而有助于避免对用户产生骚扰，提升外呼企业的呼叫效率，以及降低运营成本。

发明内容

本说明书实施例提供了识别电话接听行为的方法及装置，能有效识别被叫用户使用智能机器人接听电话的行为，从而有助于避免对用户产生骚扰，提升外呼企业的呼叫效率，以及降低运营成本。

第一方面，本说明书实施例提供了一种识别电话接听行为的方法，包括：获取被叫用户的通话语音；从所述通话语音中提取出所述被叫用户的第一声纹信息；确定智能机器人声纹库中是否存在与所述第一声纹信息相匹配的第二声纹信息；根据确定结果，识别所述被叫用户是否使用智能机器人接听电话。

在一些实施例中，所述根据确定结果，识别所述被叫用户是否使用智能机器人接听电话，包括：若所述确定结果为是，则确定所述被叫用户使用智能机器人接听电话。

在一些实施例中，所述根据确定结果，识别所述被叫用户是否使用智能机器人接听电话，包括：若所述确定结果为否，则获取所述通话语音对应的第一通话文本；利用预先训练的识别模型，识别所述第一通话文本是否为智能机器人应答文本；若识别结果为是，则确定所述被叫用户使用智能机器人接听电话。

在一些实施例中，在所述识别结果为是时，还包括：将所述第一声纹信息保存至所述智能机器人声纹库。

在一些实施例中，所述根据确定结果，识别所述被叫用户是否使用智能机器人接听电话，还包括：若所述识别结果为否，则获取所述被叫用户的多个历史通话文本，所述多个历史通话文本已被所述识别模型识别为非智能机器人应答文本；在所述多个历史通话文本中，确定与所述第一通话文本相匹配的第二通话文本；确定第一数量和第二数量的比值是否达到预设阈值，所述第一数量包括所述第一通话文本和所述第二通话文本的总文本量，所述第二数量包括所述第一通话文本和所述多个历史通话文本的总文本量；若所述比值达到所述预设阈值，则确定所述被叫用户使用智能机器人接听电话。

在一些实施例中，所述根据确定结果，识别所述被叫用户是否使用智能机器人接听电话，还包括：若所述比值未达到所述预设阈值，则将所述第一通话文本发送至标注端；接收所述标注端返回的所述第一通话文本的标注结果；若所述标注结果为智能机器人应答文本，则确定所述被叫用户使用智能机器人接听电话。

在一些实施例中，在所述比值达到所述预设阈值时，和/或在所述标注结果为智能机器人应答文本时，还包括：将所述第一声纹信息保存至所述智能机器人声纹库；和/或将所述第一通话文本保存至所述识别模型的语料库，以用于对所述识别模型进行训练。

第二方面，本说明书实施例提供了一种识别电话接听行为的装置，包括：获取单元，被配置成获取被叫用户的通话语音；提取单元，被配置成从所述通话语音中提取出所述被叫用户的第一声纹信息；确定单元，被配置成确定智能机器人声纹库中是否存在与所述第一声纹信息相匹配的第二声纹信息；识别单元，被配置成根据确定结果，识别所述被叫用户是否使用智能机器人接听电话。

第三方面，本说明书实施例提供了一种计算机可读存储介质，其上存储有计算机程序，其中，当该计算机程序在计算机中执行时，令该计算机执行如第一方面中任一实现方式描述的方法。

第四方面，本说明书实施例提供了一种计算设备，包括存储器和处理器，其中，该存储器中存储有可执行代码，该处理器执行该可执行代码时，实现如第一方面中任一实现方式描述的方法。

第五方面，本说明书实施例提供了一种计算机程序，其中，当该计算机程序在计算机中执行时，令该计算机执行如第一方面中任一实现方式描述的方法。

本说明书的上述实施例提供的识别电话接听行为的方法及装置，可以获取被叫用户的通话语音，而后从通话语音中提取出被叫用户的第一声纹信息，接着确定智能机器人声纹库中是否存在与第一声纹信息相匹配的第二声纹信息，然后根据确定结果，识别被叫用户是否使用智能机器人接听电话。由此，通过对智能机器人声纹库的利用，可以有效识别用户使用智能机器人接听电话的行为。需要说明，在识别出该行为时，通过将识别结果提供给外呼企业，可以使得外呼企业不再对该被叫用户拨打电话，如此可以有助于避免对用户产生骚扰，提升外呼企业的呼叫效率，以及降低运营成本，例如通信成本和人工成本等。

附图说明

为了更清楚地说明本说明书披露的多个实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本说明书披露的多个实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1是本说明书的一些实施例可以应用于其中的一个示例性系统架构图；

图2是识别电话接听行为的方法的一个实施例的流程图；

图3是识别电话接听行为的装置的一个结构示意图。

具体实施方式

下面结合附图和实施例对本说明书作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。所描述的实施例仅仅是本说明书一部分实施例，而不是全部的实施例。基于本说明书中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。在不冲突的情况下，本说明书中的实施例及实施例中的特征可以相互组合。

如前所述，当被叫用户使用智能机器人接听电话时，这势必会降低外呼企业的呼叫效率，以及增加运营成本。

基于此，本说明书的一些实施例提供了识别电话接听行为的方法，通过该方法，可以有效识别被叫用户使用智能机器人接听电话的行为，从而有助于避免对用户产生骚扰，提升外呼企业的呼叫效率，以及降低运营成本。具体地，图1示出了适用于这些实施例的示例性系统架构图。

如图1所示，系统架构可以包括外呼企业的服务端，以及用于识别被叫用户的电话接听行为的识别系统。其中，识别系统可以包含在该服务端内，也可以独立于该服务端，在此不做具体限定。

实践中，外呼企业可以具有多个客服,例如图1中示出的客服1，…,客服M，以及具有多个用户，例如图1中示出的用户1，用户2, …，用户N。其中，M和N可以为大于1的自然数。需要指出，该多个客服通常为人工客服。

通常，外呼企业可以通过其客服周期性的向用户拨打电话。被叫用户可能会亲自与客服通话，或者，利用通讯设备上已安装的智能机器人与客服通话。在一个例子中，客服向用户拨打电话时使用的通讯设备,可以在通话过程中将被叫用户的通话语音上传至外呼企业的服务端,例如以流式的方式将通话语音上传至该服务端。在另一个例子中，客服向用户拨打电话时使用的通讯设备,可以在通话过程中对通话进行录音，并在通话结束后将通过录音所得的通话语音上传至该服务端。其中，本说明书实施例中的通话语音通常包括两路语音，一路是客服的语音，另一路是被叫用户的语音。

在一些实施例中，外呼企业的服务端可以如图1中所示，直接将被叫用户的通话语音发送至识别系统。其中，该服务端可以实时地或定期地将通话语音发送至识别系统。例如，当通话语音在通话过程中获得时，该服务端可以实时地将通话语音发送至识别系统。当通话语音通过录音而获得时，该服务端可以实时地或定期地将通话语音发送至识别系统。

在一些实施例中，外呼企业可以具有目标数据库，识别系统可以具有目标数据库的访问权限。外呼企业的服务端可以将通话语音保存至目标数据库，使得识别系统从目标数据库获取通话语音。

基于以上描述，识别系统可以获取到被叫用户的通话语音。之后，识别系统可以从通话语音中提取出被叫用户的声纹信息（下文中称为第一声纹信息）。具体地，可以先从通话语音中提取出被叫用户的语音，而后从该语音中提取出第一声纹信息。实践中，在提取第一声纹信息时，可以采用现有的各种声纹提取方法，在此不做具体限定。

接着，识别系统可以确定智能机器人声纹库中是否存在与第一声纹信息相匹配的声纹信息（下文中称为第二声纹信息）。其中，智能机器人声纹库中可以存放有已知的至少一个智能机器人的声纹信息。

然后，识别系统可以根据确定结果，识别被叫用户是否使用智能机器人接听电话。例如，如图1中所示，在确定结果为是时，可以确定被叫用户使用智能机器人接听电话。如此，通过对智能机器人声纹库的利用，可以有效识别被叫用户使用智能机器人接听电话的行为，从而有助于避免对用户产生骚扰，提升外呼企业的呼叫效率，以及降低运营成本。

下面，结合具体的实施例，描述上述方法的具体实施步骤。

参看图2，其示出了识别电话接听行为的方法的一个实施例的流程200。该方法的执行主体可以为图1所示的识别系统。该方法包括以下步骤：

步骤202，获取被叫用户的通话语音；

步骤204，从通话语音中提取出被叫用户的第一声纹信息；

步骤206，确定智能机器人声纹库中是否存在与第一声纹信息相匹配的第二声纹信息；

步骤208，根据确定结果，识别被叫用户是否使用智能机器人接听电话。

下面，对以上各步骤做进一步说明。

在步骤202中，可以实时地或定期地获取被叫用户的通话语音。其中，通话语音可以是在通话过程中产生的语音流，或者在通话结束后产生的通话录音。关于通话语音的解释，可参考前文中的相关说明，在此不再赘述。

在一个例子中，通话语音可以是外呼企业的服务端发送至识别系统的。应该理解，该外呼企业是对被叫用户拨打电话的企业。在另一个例子中，通话语音可以存放在外呼企业的目标数据库中，识别系统可以从目标数据库获取通话语音。需要说明，目标数据库可以用于存放多个被叫用户有待进行电话接听行为识别的通话语音。识别系统具有目标数据库的访问权限。

应该理解，可以采用各种方式获取被叫用户的通话语音，在此不做具体限定。

接着，在步骤204中，可以从通话语音中提取出被叫用户的第一声纹信息。具体地，可以先从通话语音中提取出被叫用户的语音，而后从该语音中提取出第一声纹信息。实践中，在提取第一声纹信息时，可以采用现有的各种声纹提取方法，在此不做具体限定。

接着，在步骤206中，可以确定智能机器人声纹库中是否存在与第一声纹信息相匹配的第二声纹信息。

作为一个示例，对于智能机器人声纹库中的机器人声纹信息，可以计算该机器人声纹信息和第一声纹信息的相似度，若该相似度达到相似度阈值，则可以确定该机器人声纹信息是与第一声纹信息相匹配的第二声纹信息，进而可以确定智能机器人声纹库中存在第二声纹信息，并接着执行步骤208。若该相似度未达到相似度阈值，则可以确定该机器人声纹信息不是与第一声纹信息相匹配的第二声纹信息，并继续对智能机器人声纹库中的其他机器人声纹信息和第一声纹信息进行匹配，直至匹配出第二声纹信息，或者确定智能机器人声纹库中的各条机器人声纹信息均不是第二声纹信息。

作为另一个示例，智能机器人声纹库可以依据性别（例如男性、女性）而被划分成两个声纹组。在步骤206中，可以先获取被叫用户的性别，并从这两个声纹组中确定出该性别对应的目标声纹组。而后，可以确定目标声纹组中是否存在与第一声纹信息相匹配的第二声纹信息。

例如，对于目标声纹组中的机器人声纹信息，可以计算该机器人声纹信息和第一声纹信息的相似度，若该相似度达到相似度阈值，则可以确定该机器人声纹信息是与第一声纹信息相匹配的第二声纹信息，进而可以确定目标声纹组中存在第二声纹信息，并接着执行步骤208。若该相似度未达到相似度阈值，则可以确定该机器人声纹信息不是与第一声纹信息相匹配的第二声纹信息，并继续对目标声纹组中的其他机器人声纹信息和第一声纹信息进行匹配，直至匹配出第二声纹信息，或者确定目标声纹组中的各条机器人声纹信息均不是第二声纹信息。需要说明，此种实现方式只需对智能机器人声纹库中的部分声纹信息进行遍历，无须对智能机器人声纹库中的全量声纹信息进行遍历，能有效提高处理效率，节约处理时间。

应该理解，在步骤206中，可以采用现有的相似度计算算法进行声纹相似度计算，而且可以采用各种确定方式确定智能机器人声纹库中是否存在第二声纹信息，在此不做具体限定。

接着，在步骤208中，可以根据步骤206的确定结果，识别被叫用户是否使用智能机器人接听电话。

具体地，步骤208可以包括如图2中示出的子步骤2080。在子步骤2080中，可以响应于步骤206的确定结果为是，确定被叫用户使用智能机器人接听电话。

在一些实施例中，在步骤208中，可以响应于步骤206的确定结果为否，确定被叫用户正常接听电话，也即确定被叫用户未使用智能机器人接听电话。

在一些实施例中，在执行完步骤208之后，可以将对电话接听行为的识别结果提供给外呼企业。进一步地，可以仅在执行完子步骤2080之后，将用于指示被叫用户使用智能机器人接听电话的识别结果提供给外呼企业。具体地，可以将识别结果发送至外呼企业的服务端。

图2对应的实施例描述的识别电话接听行为的方法，通过对智能机器人声纹库的利用，可以有效识别用户使用智能机器人接听电话的行为。需要说明，在识别出该行为时，通过将识别结果提供给外呼企业，可以使得外呼企业不再对该被叫用户拨打电话，例如，当通话语音是在通话过程中产生的语音流时，可以使得外呼企业结束与该被叫用户的本次通话，并且后续不再对该被叫用户拨打电话；当通话语音是在通话结束后产生的通话录音时，可以使得外呼企业后续不再对该被叫用户拨打电话。如此，可以有助于避免对用户产生骚扰，提升外呼企业的呼叫效率，以及降低运营成本，例如通信成本和人工成本等。

实践中，智能机器人声纹库中的声纹信息可能不够全面，例如有些新上市的智能机器人的声纹信息可能未包含在智能机器人声纹库中。为了进一步提升对电话接听行为的识别结果的准确度，在一些实施例中，在步骤206的确定结果为否时，在步骤208中还可以执行子步骤2081、2082。

在子步骤2081中，可以响应于步骤206的确定结果为否，获取通话语音对应的第一通话文本。在一个例子中，可以获取预先生成的第一通话文本。在另一个例子中，可以对通话语音进行文本转换，得到第一通话文本。这里，可以采用现有的各种从语音到文本的转换算法对通话语音进行文本转换，在此不做具体限定。

接着，在子步骤2082中，可以利用预先训练的识别模型，识别第一通话文本是否为智能机器人应答文本。其中，识别模型是用于智能机器人应答文本识别的模型。

其中，识别模型可以通过采用以下训练步骤对初始的机器学习模型进行训练而获得：获取多个通话文本，以及该多个通话文本各自的标注结果，该标注结果为智能机器人应答文本（可以用数字1表示），或者非智能机器人应答文本（也可称为正常应答文本，可以用数字0表示）；将该多个通话文本中的通话文本作为输入，将该通话文本的标注结果作为训练标签，对该机器学习模型进行训练，得到识别模型。具体地，在训练过程中，可以基于作为训练标签的标注结果，以及该机器学习模型的识别结果，确定预测损失，以预测损失减小为目标，调整该机器学习模型中的网络参数。

实践中，该机器学习模型可以是任何适用于智能机器人应答文本识别的模型，例如可以包括Bert模型、混合网络（MixNet）或卷积神经网络（Convolutional NeuralNetworks，CNN）等，在此不做具体限定。

接着，在子步骤2082的识别结果为是时，可以执行如前所述的子步骤2080，确定被叫用户使用智能机器人接听电话。

在一些实施例中，可以响应于子步骤2082的识别结果为否，确定被叫用户正常接听电话，也即确定被叫用户未使用智能机器人接听电话。

实践中，当识别模型根据较少的训练语料训练得到时，识别模型的识别准确度可能较低。在一些实施例中，为了进一步提升对电话接听行为的识别结果的准确度，在子步骤2082的识别结果为否时，还可以在步骤208中执行子步骤2083、2084、2085。

在子步骤2083中，可以响应于子步骤2082的识别结果为否，获取被叫用户的多个历史通话文本，该多个历史通话文本已被识别模型识别为非智能机器人应答文本，也即正常应答文本。

接着，在子步骤2084中，可以在该多个历史通话文本中，确定与第一通话文本相匹配的第二通话文本。

作为一个示例，可以对该多个历史通话文本和第一通话文本的集合进行聚类，得到至少一个类簇。而后，可以将第一通话文本所在的目标类簇中的历史通话文本，确定为第二通话文本。

作为另一个示例，对于该多个历史通话文本中的历史通话文本，例如每个历史通话文本，可以确定第一通话文本和该历史通话文本的相似度，若该相似度达到相似度阈值，则可以将该历史通话文本确定为第二通话文本。

需要说明，本说明书实施例中的相似度阈值可以为处于[0，1]内的数值。进一步地，相似度阈值例如可以为0.8、0.9、0.95或0.99等。应该理解，相似度阈值可以根据实际需求设定，在此不做具体限定。

接着，在子步骤2085中，可以确定第一数量和第二数量的比值是否达到预设阈值。其中，第一数量可以包括第一通话文本和第二通话文本的总文本量，第二数量可以包括第一通话文本和上述多个历史通话文本的总文本量。需要指出，若在子步骤2084中执行如前所述的聚类操作，则第一数量可以具体包括目标类簇的文本量。

众所周知，智能机器人通常针对相似的主叫内容（例如人工客服向被叫用户反馈的内容），反馈相似的应答内容。当第一数量和第二数量的比值达到预设阈值时，可以表明被叫用户针对大量相似的主叫内容，反馈相似的应答内容，基于此，可以确定与第一通话文本有关的电话接听行为极有可能是使用智能机器人接听电话的行为。因此，在子步骤2085的确定结果为是时，可以执行如前所述的子步骤2080，确定被叫用户使用智能机器人接听电话。

在一些实施例中，为了更进一步提升对电话接听行为的识别结果的准确度，在子步骤2085的确定结果为否时，还可以执行人工标注流程。具体地，可以在步骤208中执行子步骤2086、2087、2088。

在子步骤2086中，可以响应于子步骤2085的确定结果为否，将第一通话文本发送至标注端。其中，标注端可以是标注人员使用的用于进行文本标注的客户端等，在此不做具体限定。实践中，在标注端接收到第一通话文本后，标注人员可以使用标注端对第一通话文本进行标注，并通过标注端返回第一通话文本的标注结果。其中，标注结果例如可以为智能机器人应答文本，或者非智能机器人应答文本。

基于此，在子步骤2087中，可以接收标注端返回的第一通话文本的标注结果。接着，在子步骤2088中，可以确定标注结果是否为智能机器人应答文本。若子步骤2088的确定结果为是，则可以执行如前所述的子步骤2080，确定被叫用户使用智能机器人接听电话。

需要说明，子步骤2085中的预设阈值通常是处于[0，1]内的数值。

在一些特殊的实施例中，通过调整子步骤2085中的预设阈值，可以控制流程走向。例如，当需要百分百执行子步骤2086时，可以将该预设阈值调整为大于1的数值。由于第一数量和第二数量的比值必定不会大于1，因此，当该预设阈值大于1时，子步骤2085的确定结果必然为否，也因此，在子步骤2085之后必定会执行子步骤2086。

应该理解，子步骤2085中的预设阈值可根据实际需求设定，在此不做具体限定。

在一些实施例中，步骤208还可以包括子步骤2089。在子步骤2089中，可以响应于子步骤2088的确定结果为否，确定被叫用户正常接听电话，也即确定被叫用户未使用智能机器人接听电话。

在一些实施例中，可以响应于子步骤2082的识别结果为否，而直接执行子步骤2086。

在一些实施例中，可以响应于子步骤2082的识别结果为是，而通过执行步骤210将第一声纹信息保存至智能机器人声纹库。如此，可以持续丰富智能机器人声纹库中的声纹信息，有助于提升后续执行的电话接听行为识别流程的识别效率，以及确保对电话接听行为的识别结果的准确度。

在一些实施例中，可以响应于子步骤2085的确定结果为是，而通过执行步骤210将第一声纹信息保存至智能机器人声纹库，和/或通过执行步骤212将第一通话文本保存至识别模型的语料库，以用于对识别模型进行训练。进一步地，可以为第一通话文本添加标注结果，并将添加标注结果后的第一通话文本保存至该语料库。其中，该标注结果为智能机器人应答文本。

在一些实施例中，可以响应于子步骤2088的确定结果为是，而通过执行步骤210将第一声纹信息保存至智能机器人声纹库，和/或通过执行步骤212将第一通话文本保存至识别模型的语料库，以用于对识别模型进行训练。进一步地，可以将第一通话文本和其标注结果对应保存至该语料库。

需要说明，通过响应于子步骤2085和子步骤2088各自的确定结果为是，而执行步骤212，可以将第一通话文本作为训练语料补充到识别模型的语料库，这样后续可以基于该训练语料继续对识别模型进行训练，提升识别模型的识别准确度。另外，传统的AI学习，通常需要大量的人工标注。通过采用此种实现方式，可以大幅降低人工标注成本，人工标注可以作为一个兜底逻辑存在。而且，可实现自我学习和识别进化，随着数据积累得越多，效果会越好。这个过程中，人工标注的成本非常低。甚至可以取消人工标注，识别效果也不会下降太多。

进一步参考图3，本说明书提供了一种识别电话接听行为的装置的一个实施例，该装置实施例与图2所示的方法实施例相对应，该装置可以应用于如图1所示的识别系统。

如图3所示，本实施例的识别电话接听行为的装置300包括：获取单元301、提取单元302、确定单元303和识别单元304。其中，获取单元301被配置成获取被叫用户的通话语音；提取单元302被配置成从通话语音中提取出被叫用户的第一声纹信息；确定单元303被配置成确定智能机器人声纹库中是否存在与第一声纹信息相匹配的第二声纹信息；识别单元304被配置成根据确定结果，识别被叫用户是否使用智能机器人接听电话。

在一些实施例中，识别单元304可以进一步被配置成：若上述确定结果为是，则确定被叫用户使用智能机器人接听电话。

在一些实施例中，识别单元304可以进一步被配置成：若上述确定结果为否，则获取通话语音对应的第一通话文本；利用预先训练的识别模型，识别第一通话文本是否为智能机器人应答文本；若识别结果为是，则确定被叫用户使用智能机器人接听电话。

在一些实施例中，上述装置300还可以包括：存储单元（图中未示出），被配置成在上述识别结果为是时，将第一声纹信息保存至智能机器人声纹库。

在一些实施例中，识别单元304可以进一步被配置成：若上述识别结果为否，则获取被叫用户的多个历史通话文本，该多个历史通话文本已被识别模型识别为非智能机器人应答文本；在该多个历史通话文本中，确定与第一通话文本相匹配的第二通话文本；确定第一数量和第二数量的比值是否达到预设阈值，第一数量包括第一通话文本和第二通话文本的总文本量，第二数量包括第一通话文本和该多个历史通话文本的总文本量；若该比值达到该预设阈值，则确定被叫用户使用智能机器人接听电话。

在一些实施例中，识别单元304可以进一步被配置成：若上述比值未达到预设阈值，则将第一通话文本发送至标注端；接收标注端返回的第一通话文本的标注结果；若标注结果为智能机器人应答文本，则确定被叫用户使用智能机器人接听电话。

在一些实施例中，存储单元还可以被配置成：在上述比值达到预设阈值时，和/或在标注结果为智能机器人应答文本时，将第一声纹信息保存至智能机器人声纹库；和/或将第一通话文本保存至识别模型的语料库，以用于对识别模型进行训练。

在图3对应的装置实施例中，各单元的具体处理及其带来的技术效果可参考图2对应实施例中的相关说明，在此不再赘述。

本说明书实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，其中，当该计算机程序在计算机中执行时，令计算机执行以上各方法实施例分别描述的识别电话接听行为的方法。

本说明书实施例还提供了一种计算设备，包括存储器和处理器，其中，该存储器中存储有可执行代码，该处理器执行该可执行代码时，实现以上各方法实施例分别描述的识别电话接听行为的方法。

本说明书实施例还提供了一种计算机程序，其中，当该计算机程序在计算机中执行时，令计算机执行以上各方法实施例分别描述的识别电话接听行为的方法。

本领域技术人员应该可以意识到，在上述一个或多个示例中，本说明书披露的多个实施例所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时，可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。

在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

以上所述的具体实施方式，对本说明书披露的多个实施例的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本说明书披露的多个实施例的具体实施方式而已，并不用于限定本说明书披露的多个实施例的保护范围，凡在本说明书披露的多个实施例的技术方案的基础之上，所做的任何修改、等同替换、改进等，均应包括在本说明书披露的多个实施例的保护范围之内。

Claims

1.一种识别电话接听行为的方法，包括：

获取被叫用户的通话语音；

从所述通话语音中提取出所述被叫用户的第一声纹信息；

确定智能机器人声纹库中是否存在与所述第一声纹信息相匹配的第二声纹信息，所述智能机器人声纹库存放有已知的至少一个智能机器人的声纹信息；

根据确定结果，识别所述被叫用户是否使用智能机器人接听电话，具体包括：

若所述确定结果为否，则获取所述通话语音对应的第一通话文本；

利用预先训练的识别模型，识别所述第一通话文本是否为智能机器人应答文本；

若识别结果为是，则确定所述被叫用户使用智能机器人接听电话；

若识别结果为否，则获取所述被叫用户的多个历史通话文本，所述多个历史通话文本已被所述识别模型识别为非智能机器人应答文本；

在所述多个历史通话文本中，确定与所述第一通话文本相匹配的第二通话文本；

确定第一数量和第二数量的比值是否达到预设阈值，所述第一数量包括所述第一通话文本和所述第二通话文本的总文本量，所述第二数量包括所述第一通话文本和所述多个历史通话文本的总文本量；

若所述比值达到所述预设阈值，则确定所述被叫用户使用智能机器人接听电话。

2.根据权利要求1所述的方法，其中，所述根据确定结果，识别所述被叫用户是否使用智能机器人接听电话，包括：

若所述确定结果为是，则确定所述被叫用户使用智能机器人接听电话。

3.根据权利要求1所述的方法，其中，在所述识别结果为是时，还包括：

将所述第一声纹信息保存至所述智能机器人声纹库。

4.根据权利要求1所述的方法，其中，所述根据确定结果，识别所述被叫用户是否使用智能机器人接听电话，还包括：

若所述比值未达到所述预设阈值，则将所述第一通话文本发送至标注端；

接收所述标注端返回的所述第一通话文本的标注结果；

若所述标注结果为智能机器人应答文本，则确定所述被叫用户使用智能机器人接听电话。

5.根据权利要求4所述的方法，其中，在所述比值达到所述预设阈值时，和/或在所述标注结果为智能机器人应答文本时，还包括：

将所述第一声纹信息保存至所述智能机器人声纹库；和/或

将所述第一通话文本保存至所述识别模型的语料库，以用于对所述识别模型进行训练。

6.一种识别电话接听行为的装置，包括：

获取单元，被配置成获取被叫用户的通话语音；

提取单元，被配置成从所述通话语音中提取出所述被叫用户的第一声纹信息；

确定单元，被配置成确定智能机器人声纹库中是否存在与所述第一声纹信息相匹配的第二声纹信息，所述智能机器人声纹库存放有已知的至少一个智能机器人的声纹信息；

识别单元，被配置成根据确定结果，识别所述被叫用户是否使用智能机器人接听电话，具体包括：

7.一种计算机可读存储介质，其上存储有计算机程序，其中，当所述计算机程序在计算机中执行时，令计算机执行权利要求1-5中任一项所述的方法。

8.一种计算设备，包括存储器和处理器，其中，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现权利要求1-5中任一项所述的方法。