CN114283851A

CN114283851A - 基于视频彩铃识别客户的方法、系统、装置及存储介质

Info

Publication number: CN114283851A
Application number: CN202111570117.XA
Authority: CN
Inventors: 魏颖鹏
Original assignee: iMusic Culture and Technology Co Ltd
Current assignee: iMusic Culture and Technology Co Ltd
Priority date: 2021-12-21
Filing date: 2021-12-21
Publication date: 2022-04-05
Anticipated expiration: 2041-12-21
Also published as: CN114283851B

Abstract

本申请公开了一种基于视频彩铃识别客户的方法、系统、装置及存储介质。该方法通过获取视频彩铃信息并将其输入UNet神经网络模块，得到视频语音信息，并对其进行语音识别处理，得到视频语音文本信息；获取关键帧图像信息并对其进行处理，得到关键帧文字信息和关键帧标题信息；将视频语音文本信息、关键帧文字信息和关键帧标题信息输入标签动态调整模块，得到识别的客户信息。该系统包括第一获取模块、第一处理模块、第二处理模块、第二获取模块、第三处理模块、第四处理模块和第五处理模块。上述方法能够通过视频彩铃识别客户，有利于降低人力成本，有利于提升识别效率，同时，有利于缓解客户敏感信息泄露的风险。本申请可应用于人工智能技术领域。

Description

基于视频彩铃识别客户的方法、系统、装置及存储介质

技术领域

本申请涉及人工智能技术领域，尤其是一种基于视频彩铃识别客户的方法、系统、装置及存储介质。

背景技术

视频彩铃是面向相关用户或企业客户的彩铃业务。客户通常对归属于该客户的多个号码设置视频彩铃，主叫用户拨打该客户的上述号码时，会收看到设置的宣传视频彩铃。运营支撑方需要在彩铃业务流程中，准确地识别出相应的客户，以便在业务、支撑维护、信息安全等方面提供可靠的服务。相关技术通过人工的方式进行客户的识别，费时费力，且容易泄露客户的敏感信息。

发明内容

本申请的目的在于至少一定程度上解决现有技术中存在的技术问题之一。

为此，本申请实施例的一个目的在于提供一种基于视频彩铃识别客户的方法，该方法能够通过视频彩铃识别客户，有利于降低人力成本，有利于提升识别效率，同时，有利于缓解客户敏感信息泄露的风险。

本申请实施例的另一个目的在于提供一种基于视频彩铃识别客户的系统。

为了达到上述技术目的，本申请实施例所采取的技术方案包括：

一方面，本申请实施例提供了一种基于视频彩铃识别客户的方法，包括以下步骤：

本申请实施例的一种基于视频彩铃识别客户的方法，通过获取视频彩铃信息；将所述视频彩铃信息输入UNet神经网络模块，得到视频语音信息；所述UNet神经网络模块用于将所述视频彩铃信息中的背影音乐信息和语音信息进行分离；对所述视频语音信息进行语音识别处理，得到视频语音文本信息；获取所述视频彩铃信息中的关键帧图像信息；对所述关键帧图像信息进行分析识别处理，得到关键帧文字信息；将所述关键帧图像信息输入NIC模块，得到关键帧标题信息；将所述视频语音文本信息、所述关键帧文字信息和所述关键帧标题信息输入标签动态调整模块，得到识别的客户信息。该方法能够通过视频彩铃识别客户，有利于降低人力成本，有利于提升识别效率，同时，有利于缓解客户敏感信息泄露的风险。

另外，根据本申请上述实施例的基于视频彩铃识别客户的方法，还可以具有以下附加的技术特征：

进一步地，本申请实施例的基于视频彩铃识别客户的方法中，将所述视频语音文本信息、所述关键帧文字信息和所述关键帧标题信息输入标签动态调整模块，得到识别的客户信息，包括以下步骤：根据关键词匹配，确定所述视频语音文本信息的第一标签置信度、所述关键帧文字信息的第二标签置信度和所述关键帧标题信息的第三标签置信度；根据所述第一标签置信度与第一预设标签置信度的关系，确定第一权重、第二权重和第三权重；根据所述第二标签置信度与第二预设标签置信度的关系，更新所述第一权重、所述第二权重和所述第三权重；根据所述第三标签置信度与第三预设标签置信度的关系，更新所述第一权重、所述第二权重和所述第三权重；根据所述第一标签置信度、所述第二标签置信度、所述第三标签置信度、所述第一权重、所述第二权重和所述第三权重，得到目标标签置信度；根据所述目标标签置信度，得到识别的客户信息。

进一步地，在本申请的一个实施例中，所述根据所述第一标签置信度与第一预设标签置信度的关系，确定第一权重、第二权重和第三权重这一步骤，其具体包括：若所述第一标签置信度小于所述第一预设标签置信度，确定第一权重为零，确定第二权重为第二预设权重与第二预设权重和第三预设权重之和的比值；确定第三权重为所述第三预设权重与所述第二预设权重和所述第三预设权重之和的比值；若所述第一标签置信度大于或等于所述第一预设标签置信度，确定第一权重为第一预设权重，确定第二权重为第二预设权重，确定第三权重为第三预设权重。

进一步地，在本申请的一个实施例中，所述UNet神经网络模块的参数通过以下步骤得到：根据歌曲数据集，对所述UNet神经网络模块的参数进行第一调参处理；根据铃音数据集，对所述UNet神经网络模块的参数进行第二调参处理；其中，所述铃音数据集用于表征运营商基于视频彩铃录制的数据集。

进一步地，在本申请的一个实施例中，所述对所述视频语音信息进行语音识别处理，得到视频语音文本信息这一步骤，其具体包括：将所述视频语音信息输入长短时记忆单元的循环神经网络模块，得到所述视频语音文本信息。

进一步地，在本申请的一个实施例中，所述对所述关键帧图像信息进行分析识别处理，得到关键帧文字信息这一步骤，其具体包括：对所述关键帧图像信息进行OCR处理，得到所述关键帧文字信息。

进一步地，在本申请的一个实施例中，所述NIC模块包括CNN模块和RNN模块，所述将所述关键帧图像信息输入NIC模块，得到关键帧标题信息这一步骤，其具体包括：将所述关键帧图像信息输入所述CNN模块，得到第一图像信息；将所述第一图像信息输入所述RNN模块，得到所述关键帧标题信息。

另一方面，本申请实施例提出了一种基于视频彩铃识别客户的系统，包括：

第一获取模块，用于获取视频彩铃信息；第一处理模块，用于将所述视频彩铃信息输入 UNet神经网络模块，得到视频语音信息；所述UNet神经网络模块用于将所述视频彩铃信息中的背影音乐信息和语音信息进行分离；第二处理模块，用于对所述视频语音信息进行语音识别处理，得到视频语音文本信息；第二获取模块，用于获取所述视频彩铃信息中的关键帧图像信息；第三处理模块，用于对所述关键帧图像信息进行分析识别处理，得到关键帧文字信息；第四处理模块，用于将所述关键帧图像信息输入NIC模块，得到关键帧标题信息；第五处理模块，用于将所述视频语音文本信息、所述关键帧文字信息和所述关键帧标题信息输入标签动态调整模块，得到识别的客户信息。

另一方面，本申请实施例提供了一种基于视频彩铃识别客户的装置，包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

当所述至少一个程序被所述至少一个处理器执行时，使得所述至少一个处理器实现上述的任一种基于视频彩铃识别客户的方法。

另一方面，本申请实施例提供了一种计算机可读存储介质，其中存储有处理器可执行的程序，所述处理器可执行的程序在由处理器执行时用于实现上述的任一种基于视频彩铃识别客户的方法。

本申请实施例提供一种基于视频彩铃识别客户的方法，该方法通过获取视频彩铃信息；将视频彩铃信息输入UNet神经网络模块，得到视频语音信息；对视频语音信息进行语音识别处理，得到视频语音文本信息；获取视频彩铃信息中的关键帧图像信息；对关键帧图像信息进行分析识别处理，得到关键帧文字信息；将关键帧图像信息输入NIC模块，得到关键帧标题信息；将视频语音文本信息、关键帧文字信息和关键帧标题信息输入标签动态调整模块，得到识别的客户信息。该方法能够通过视频彩铃识别客户，有利于降低人力成本，有利于提升识别效率，同时，有利于缓解客户敏感信息泄露的风险。

附图说明

为了更清楚地说明本申请实施例或者现有技术中的技术方案，下面对本申请实施例或者现有技术中的相关技术方案附图作以下介绍，应当理解的是，下面介绍中的附图仅仅为了方便清晰表述本申请的技术方案中的部分实施例，对于本领域的技术人员来说，在无需付出创造性劳动的前提下，还可以根据这些附图获取到其他附图。

图1为本申请提出的基于视频彩铃识别客户的方法具体实施例的流程示意图；

图2为本申请提出的基于视频彩铃识别客户的方法中UNet神经网络模块的参数调整流程示意图；

图3为本申请提出的基于视频彩铃识别客户的方法中UNet神经网络模块的实现流程示意图；

图4为本申请提出的基于视频彩铃识别客户的方法中语音识别处理的流程示意图；

图5为本申请提出的基于视频彩铃识别客户的方法中OCR处理的流程示意图；

图6为本申请提出的基于视频彩铃识别客户的方法中一种实施例的流程示意图；

图7为本申请提出的基于视频彩铃识别客户的系统具体实施例的结构示意图；

图8为本申请提出的基于视频彩铃识别客户的装置具体实施例的结构示意图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本申请，而不能理解为对本申请的限制。对于以下实施例中的步骤编号，其仅为了便于阐述说明而设置，对步骤之间的顺序不做任何限定，实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。

商务视频彩铃是面向相关用户或企业客户的彩铃业务。客户通过各种途径(自备上传、专业录制、模板合成，其中自备上传为最主要的视频彩铃来源)制作宣传的视频铃音，并对归属于该客户的多个号码设置政企视频铃音。主叫用户拨打该客户的这些号码时，会收看到对应的宣传铃音。其中一些相关客户对彩铃的内容制作、审核、播放的要求比较严谨。需要运营支撑方在商务彩铃业务流程中，准确、智能地识别出相应客户，以便在业务、支撑维护、信息安全等方面提供可靠的服务。

相关技术中，基于客户名称以及客户提供的资料，通过人工的方式识别相关客户，且客户标签、风格的来源单一。因此，在更新客户标签和识别相关客户的工作上，需要投入大量的人力和费用，并且处理时效性较差，同时增加了客户敏感信息泄露的风险。无法提取客户的喜好、偏好的内容、铃音风格等信息。无法进一步调用推荐系统向客户提供更优质的服务。

因此，本申请提出一种基于视频彩铃识别客户的方法和系统，能够通过视频彩铃识别客户，有利于降低人力成本，有利于提升识别效率，同时，有利于缓解客户敏感信息泄露的风险。该方法可应用于终端中，也可应用于服务器中，还可以是运行于终端或服务器中的软件等。终端可以是平板电脑、笔记本电脑、台式计算机等，但并不局限于此。服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。本领域技术人员可以知晓，上述终端的数量可以仅为一个，或者上述终端为几十个或几百个，或者更多数量。本申请对终端的数量和设备类型不加以限定。

本申请实施例提供的一种基于视频彩铃识别客户的方法可以与多种应用场景相结合，例如，在服务器中使用该方法对响应的终端通信中出现的视频彩铃进行处理，有效识别出客户。本申请中的客户可以是与银行相关的客户，也可以是与学校或教育工作相关的客户，还可以是其他相关的客户，本申请并不限制所识别的客户的具体类别。

参照图1，本申请实施例中的一种基于视频彩铃识别客户的方法主要包括以下步骤：

S101：获取视频彩铃信息。

本申请实施例中，获取视频彩铃信息。在一些可能的实施方式中，将终端之间通讯产生的视频彩铃信息存储于设定的数据库中，可通过增加时间属性的方式，周期性的从设定的数据库中提取视频彩铃信息，并对视频彩铃信息进行分析与处理，以获得识别的客户信息。具体地，每30秒从预设的数据库中获取视频彩铃信息。当然，可根据系统的繁忙程度、客户需求对时间间隔进行调整，本申请并不限定时间间隔的具体时长。

S102：将所述视频彩铃信息输入UNet神经网络模块，得到视频语音信息；所述UNet神经网络模块用于将所述视频彩铃信息中的背影音乐信息和语音信息进行分离。

本申请实施例中，商务彩铃信息的音轨由背景音乐信息和语音信息(彩铃干声)合并而成，需要通过人工智能技术分离背景音乐和语音。背景音乐保留用户喜好的信息，可用于推荐系统使用，语音用于后续的语音识别处理。在一些可能的实施方式中，背景音乐信息通常为客户所处的领域或客户喜好的音乐，而语音信息通常为“欢迎致电XXXXX，电话正在接听中，请稍后”的形式，其中，包含了客户识别的重要信息，因此需要将视频语音信息提取出来。本申请通过UNet神经网络模块将视频彩铃信息中的视频语音信息提取出来。

S103：对所述视频语音信息进行语音识别处理，得到视频语音文本信息。

本申请实施例中，对视频语音信息进行语音识别处理，得到视频语音文本信息。语音识别处理也就是STT(Speech-to-Text)处理，将视频彩铃中的视频语音信息转化为文本信息，方便后续的处理和分析。在一些可能的实施方式中，可以通过隐马尔科夫模型(HMM)算法的方式进行语音识别处理，也可以通过神经网络模型的方式进行语音识别处理，还可以通过 HMM与神经网络相结合的方式对语音进行识别处理。本申请并不限定语音识别处理所采用的方式。

S104：获取所述视频彩铃信息中的关键帧图像信息。

本申请实施例中，提取视频彩铃信息中的关键帧图像信息，并通过后续处理，将关键帧图像信息中的与所识别的客户相关的信息提取出来，进行分析与判断，以得到识别客户信息。

S105：对所述关键帧图像信息进行分析识别处理，得到关键帧文字信息。

本申请实施例中，对关键帧图像信息进行分析识别处理，得到关键帧文字信息。关键帧图像信息中同样包含与客户相关的信息，对于含有文字信息的关键帧图像，将其中的文学信息提取出来，用于后续的分析处理。

S106：将所述关键帧图像信息输入NIC模块，得到关键帧标题信息。

本申请实施例中，通过NIC模块，将关键帧图像信息所表达的情景进行翻译，得到图像的标题信息。NIC(Neural Image Caption)技术融合了计算机视觉物体识别和自然语言处理技术，对关键帧的图像自动生成描述这个图像的文字，便于后续的分析处理。

S107：将所述视频语音文本信息、所述关键帧文字信息和所述关键帧标题信息输入标签动态调整模块，得到识别的客户信息。

本申请实施例中，将视频语音文本信息、关键帧文字信息和关键帧标题信息输入标签动态调整模块，得到识别的客户信息。对上述三种标签进行权重调整，以得到识别的客户信息。

可选地，本申请实施例中的基于视频彩铃识别客户的方法，所述将所述视频语音文本信息、所述关键帧文字信息和所述关键帧标题信息输入标签动态调整模块，得到识别的客户信息，包括：

根据关键词匹配，确定所述视频语音文本信息的第一标签置信度、所述关键帧文字信息的第二标签置信度和所述关键帧标题信息的第三标签置信度；

根据所述第一标签置信度与第一预设标签置信度的关系，确定第一权重、第二权重和第三权重；

根据所述第二标签置信度与第二预设标签置信度的关系，更新所述第一权重、所述第二权重和所述第三权重；

根据所述第三标签置信度与第三预设标签置信度的关系，更新所述第一权重、所述第二权重和所述第三权重；

根据所述第一标签置信度、第二标签置信度、第三标签置信度、第一权重、第二权重和第三权重，得到目标标签置信度；

根据所述目标标签置信度，得到识别的客户信息。

本步骤中，通过关键字匹配，计算出视频语音文本信息的第一标签置信度P₁、关键帧文字信息的第二标签置信度P₂和关键帧标题信息的第三标签置信度P₃，并确定上述三个标签置信度对应的权重W₁，W₂和W₃，目标标签置信度P可通过下列公式计算得到：

通过目标置信度，得到识别的客户信息。在一些可能的实施方式中，可将第一权重设置为0.6，将第二权重设置为0.2，将第三权重设置为0.2。当然，本领域技术人员可以根据实际需要，通过计算调整第一权重、第二权重、第三权重的数值，以提升系统的识别准确度。

可选地，本申请实施例中的基于视频彩铃识别客户的方法，所述根据所述第一标签置信度与第一预设标签置信度的关系，确定第一权重、第二权重和第三权重，包括：

若所述第一标签置信度小于所述第一预设标签置信度，确定第一权重为零，确定第二权重为第二预设权重与第二预设权重和第三预设权重之和的比值；确定第三权重为第三预设权重与第二预设权重和第三预设权重之和的比值；

若所述第一标签置信度大于或等于所述第一预设标签置信度，确定第一权重为第一预设权重，确定第二权重为第二预设权重，确定第三权重为第三预设权重。

本步骤中，通过将第一标签置信度与第一预设标签置信度进行对比，确定第一权重，第二权重和第三权重。在一些可能的实施方式中，第一预设标签置信度可以设置为0.4，第一预设权重用W₁₁表示，第二预设权重用W₂₂表示，第三预设权重用W₃₃表示。若第一标签置信度P₁的值为0.35，小于0.4，则将第一权重W₁设置为0。第二权重W₂通过以下公式确定：

第三权重W₃通过以下公式确定：

若第一标签置信度P₁的值为0.42，大于0.4，则将第一权重W₁设置为第一预设权重W₁₁，将第二权重W₂设置为第二预设权重W₂₂，将第三权重W₃设置为第三预设权重W₃₃。同样，本领域技术人员可以理解的是，通过同样的对比和计算方式，将第二标签置信度与第二预设标签置信度进行对比，根据对比结果，重新确定第一权重、第二权重和第三权重。通过将第三标签置信度与第三预设标签置信度进行对比，根据对比结果，重新确定第一权重、第二权重和第三权重。示例性地，若第一标签置信度P₁为0.5，第二标签置信度P₂为0.3，第三标签置信度P₃为0.2，第一预设权重W₁₁为0.6，第二预设权重W₂₂为0.2，第三预设权重W₃₃为0.2，第一预设标签置信度为 0.4，第二预设标签置信度为0.4，第三预设标签置信度为0.4。那么，第一权重、第二权重和第三权重的确定过程如下：

第一步，比较第一标签置信度和第一预设标签置信度的关系，即0.5大于0.4，则第一权重为第一预设权重0.6，第二权重为第二预设权重0.2，第三权重为第三预设权重0.2。

第二步，比较第二标签置信度和第二预设标签置信度的关系，即0.3小于0.4，则重新确定第二权重为0，第一权重为上一步中得到的第一权重在第一权重与第三权重中的占比，即 0.6/(0.6+0.2)，重新确定第一权重为0.75；第三权重为上一步中得到的第三权重在第一权重与第三权重中的占比，即0.2/(0.6+0.2)，重新确定第三权重为0.25。

第三步：比较第三标签置信度和第三预设标签置信度的关系，即0.2小于0.4，则重新确定第三权重为0，第一权重为上一步中得到的第一权重在第一权重与第二权重中的占比，即 0.75/(0.75+0)，重新确定第一权重为1；第二权重为上一步中得到的第二权重在第一权重与第二权重中的占比，即0/(0.75+0)，重新确定第三权重为0。因此，通过三步确定，第一权重为1，第二权重和第三权重为0。

示例性地，若第一标签置信度小于第一预设标签置信度，且第二标签置信度小于第二预设标签置信度，且第三标签置信度小于第三预设标签置信度，则确定第一权重为第一预设权重，第二权重为第二预设权重，第三权重为第三预设权重。

本领域技术人员可以理解的是，上述第一预设标签置信度的数值的设定属于示例性的举例，可根据实际需要，设定合适的第一预设标签置信度，以提升客户识别的准确度。

可选地，本申请实施例中的基于视频彩铃识别客户的方法，所述UNet神经网络模块的参数通过以下步骤得到：

根据歌曲数据集，对所述UNet神经网络模块的参数进行第一调参处理；

根据铃音数据集，对所述UNet神经网络模块的参数进行第二调参处理；

其中，所述铃音数据集用于表征运营商基于视频彩铃录制的数据集。

本步骤中，对采集到的视频彩铃信息基于语音频谱进行双音轨分离，其中背景音乐音轨和人声音轨(即语音信息)均使用UNet网络结构作为神经网络。使用UNet进行背景音乐和人声分离前，需要通过训练确定UNet神经网路模块的参数。在一些可能的实施方式中，通过两次精度不同的调节，最终确定UNet神经网络模块的参数。具体地，先使用公开的歌曲数据集(公开的数据集可能只是歌曲和对应的歌词)进行第一次训练获取参数，即粗调。然后，再使用运营商基于视频彩铃录制的数据集(包含有背景音乐和人声播报的铃音以及人声文本文字，更加接近真实自制上传的铃音)进行第二次训练，即精调(fine tuning)，优化参数的数值。训练过程参见图2。预测过程参见图3所示。

可选地，本申请实施例中的基于视频彩铃识别客户的方法，所述对所述视频语音信息进行语音识别处理，得到视频语音文本信息，包括：

将所述视频语音信息输入长短时记忆单元的循环神经网络模块，得到所述视频语音文本信息。

本步骤中，通过长短时记忆单元的循环神经网络模块，即LSTM-RNN，对视频语音信息进行语音识别处理。本申请是基于视频彩铃识别客户的方法，其中视频彩铃通常是清晰准确的人生播报，基本不会存在远场、口音、多人、不流利或变速的情况，且通过UNet神经网络模块的处理，将背景音乐分离，有利于减少高噪。因此，通过LSTM-RNN，可以满足本申请的技术需求。在一些可能的实施方式中，语音识别处理的架构及过程参见图4所示。

可选地，本申请实施例中的基于视频彩铃识别客户的方法，所述对所述关键帧图像信息进行分析识别处理，得到关键帧文字信息，包括：

对所述关键帧图像信息进行OCR处理，得到所述关键帧文字信息。

本步骤中，通过OCR处理，得到关键帧图像信息中的文字信息，即获取关键帧中的关于客户的文字描述信息，而文字描述信息对客户的识别有着较为重要的作用，因此，需要将文字信息提取出来，便于后续的处理分析。其中，OCR技术(Optical CharacterRecognition，光学字符识别)是指电子设备检查纸上打印的字符，通过检测暗、亮的模式确定其形状，然后用字符识别方法将形状翻译成计算机文字的过程。在一些可能的实施方式中，文字检测采用 CTPN(Connectionist Text Proposal Network)模型，CTPN由FasterRCNN改进而来，CTPN结合了CNN与LSTM深度网络，能有效的检测出复杂场景的横向分布的文字，是目前应用较多的文字检测算法。图5详细描述了OCR的技术架构和处理过程。

可选地，本申请实施例中的基于视频彩铃识别客户的方法，所述NIC模块包括CNN模块和RNN模块，所述将所述关键帧图像信息输入NIC模块，得到关键帧标题信息，包括：

将所述关键帧图像信息输入所述CNN模块，得到第一图像信息；

将所述第一图像信息输入所述RNN模块，得到所述关键帧标题信息。

本步骤中，NIC模块包括CNN模块和RNN模块，NIC模块的处理过程为：将所述关键帧图像信息输入所述CNN模块，得到第一图像信息；将所述第一图像信息输入所述RNN模块，得到所述关键帧标题信息。通过两个模块的处理，能够将关键帧图像信息所表述的含义通过文字信息表示出来，便于后续的分析处理。

为了更好的说明本申请提出的一种基于视频彩铃识别客户的方法，下面参照图6所示以一个具体实施例进行详细说明。

步骤601：客户或者代理商通过商务音视频彩铃平台的门户、小程序以及外部接口服务器，上传了自制的视频彩铃。铃音的物理文件保存到铃音存储仓库中，存储的路径与铃音状态标识(未处理0)等信息被记录到数据库的ring表中。

步骤602：对后台集群中的一台服务器启动定时任务，每30秒从ring表中查找最近72 小时内并未处理的自制上传的铃音。把铃音放入处理队列1，即将铃音状态标识设置为处理中1。

步骤603：从队列1中调用视频处理接口，提取视频的音轨以及关键帧，写入ring表。铃音状态标识设置为处理中2，子状态a和子状态b和子状态c均设置为未处理0。

步骤604：定时任务读取子状态a为0的铃音，对音轨调用AI接口进行处理，生成彩铃文字，并设置子状态a为已处理2。

步骤605：定时任务读取子状态b为0的铃音，对关键帧调用AI接口进行处理，生成关键帧文字，并设置子状态b为已处理2。

步骤606：定时任务读取子状态c为0的铃音，对关键帧调用AI接口进行处理，生成关键帧标题信息，并设置子状态c为已处理2。

步骤607：定时任务读取铃音状态标识为处理中2并且子状态a、b、c均为已处理的铃音，对上述文本信息调用标签识别接口，生成最终的铃音标签，得到识别的客户信息，设置铃音状态标识为已处理4。

步骤608：识别到的客户信息在商彩管理后台及商彩门户中均进行显示。提醒相关人员密切关注目标客户群体，为其提供特别的安全、高效、高质服务。

通过上述描述可以看出，通过使用上述方法，能够通过视频彩铃识别客户，有利于降低人力成本，有利于提升识别效率，同时，有利于缓解客户敏感信息泄露的风险。

其次，参照附图描述根据本申请实施例提出的一种基于视频彩铃识别客户的系统。

图7是本申请一个实施例的一种基于视频彩铃识别客户的系统结构示意图。所述系统具体包括：

第一获取模块710，用于获取视频彩铃信息；

第一处理模块720，用于将所述视频彩铃信息输入UNet神经网络模块，得到视频语音信息；所述UNet神经网络模块用于将所述视频彩铃信息中的背影音乐信息和语音信息进行分离；

第二处理模块730，用于对所述视频语音信息进行语音识别处理，得到视频语音文本信息；

第二获取模块740，用于获取所述视频彩铃信息中的关键帧图像信息；

第三处理模块750，用于对所述关键帧图像信息进行分析识别处理，得到关键帧文字信息；

第四处理模块760，用于将所述关键帧图像信息输入NIC模块，得到关键帧标题信息；

第五处理模块770，用于将所述视频语音文本信息、所述关键帧文字信息和所述关键帧标题信息输入标签动态调整模块，得到识别的客户信息。

可见，上述方法实施例中的内容均适用于本系统实施例中，本系统实施例所具体实现的功能与上述方法实施例相同，并且达到的有益效果与上述方法实施例所达到的有益效果也相同。

参照图8，本申请实施例提供了一种基于视频彩铃识别客户的装置，包括：

至少一个处理器810；

至少一个存储器820，用于存储至少一个程序；

当所述至少一个程序被所述至少一个处理器810执行时，使得所述至少一个处理器810 实现所述的基于视频彩铃识别客户的方法。

同理，上述方法实施例中的内容均适用于本装置实施例中，本装置实施例所具体实现的功能与上述方法实施例相同，并且达到的有益效果与上述方法实施例所达到的有益效果也相同。

在一些可选择的实施例中，在方框图中提到的功能/操作可以不按照操作示图提到的顺序发生。例如，取决于所涉及的功能/操作，连续示出的两个方框实际上可以被大体上同时地执行或所述方框有时能以相反顺序被执行。此外，在本申请的流程图中所呈现和描述的实施例以示例的方式被提供，目的在于提供对技术更全面的理解。所公开的方法不限于本文所呈现的操作和逻辑流程。可选择的实施例是可预期的，其中各种操作的顺序被改变以及其中被描述为较大操作的一部分的子操作被独立地执行。

此外，虽然在功能性模块的背景下描述了本申请，但应当理解的是，除非另有相反说明，功能和/或特征中的一个或多个可以被集成在单个物理装置和/或软件模块中，或者一个或多个功能和/或特征可以在单独的物理装置或软件模块中被实现。还可以理解的是，有关每个模块的实际实现的详细讨论对于理解本申请是不必要的。更确切地说，考虑到在本文中公开的装置中各种功能模块的属性、功能和内部关系的情况下，在工程师的常规技术内将会了解该模块的实际实现。因此，本领域技术人员运用普通技术就能够在无需过度试验的情况下实现在权利要求书中所阐明的本申请。还可以理解的是，所公开的特定概念仅仅是说明性的，并不意在限制本申请的范围，本申请的范围由所附权利要求书及其等同方案的全部范围来决定。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干程序用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM， Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行程序的定序列表，可以具体实现在任何计算机可读介质中，以供程序执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从程序执行系统、装置或设备取程序并执行程序的系统)使用，或结合这些程序执行系统、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供程序执行系统、装置或设备或结合这些程序执行系统、装置或设备而使用的装置。

计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的程序执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

在本说明书的上述描述中，参考术语“一个实施方式/实施例”、“另一实施方式/实施例”或“某些实施方式/实施例”等的描述意指结合实施方式或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施方式或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施方式或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施方式或示例中以合适的方式结合。

尽管已经示出和描述了本申请的实施方式，本领域的普通技术人员可以理解：在不脱离本申请的原理和宗旨的情况下可以对这些实施方式进行多种变化、修改、替换和变型，本申请的范围由权利要求及其等同物限定。

以上是对本申请的较佳实施进行了具体说明，但本申请并不限于所述实施例，熟悉本领域的技术人员在不违背本申请精神的前提下还可做作出种种的等同变形或替换，这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims

1.一种基于视频彩铃识别客户的方法，其特征在于，包括以下步骤：

获取视频彩铃信息；

将所述视频彩铃信息输入UNet神经网络模块，得到视频语音信息；所述UNet神经网络模块用于将所述视频彩铃信息中的背影音乐信息和语音信息进行分离；

对所述视频语音信息进行语音识别处理，得到视频语音文本信息；

获取所述视频彩铃信息中的关键帧图像信息；

对所述关键帧图像信息进行分析识别处理，得到关键帧文字信息；

将所述关键帧图像信息输入NIC模块，得到关键帧标题信息；

将所述视频语音文本信息、所述关键帧文字信息和所述关键帧标题信息输入标签动态调整模块，得到识别的客户信息。

2.根据权利要求1所述的基于视频彩铃识别客户的方法，其特征在于，所述将所述视频语音文本信息、所述关键帧文字信息和所述关键帧标题信息输入标签动态调整模块，得到识别的客户信息，包括：

根据所述第一标签置信度、所述第二标签置信度、所述第三标签置信度、所述第一权重、所述第二权重和所述第三权重，得到目标标签置信度；

根据所述目标标签置信度，得到识别的客户信息。

3.根据权利要求2所述的基于视频彩铃识别客户的方法，其特征在于：所述根据所述第一标签置信度与第一预设标签置信度的关系，确定第一权重、第二权重和第三权重，包括：

若所述第一标签置信度小于所述第一预设标签置信度，确定第一权重为零，确定第二权重为第二预设权重与第二预设权重和第三预设权重之和的比值；确定第三权重为所述第三预设权重与所述第二预设权重和所述第三预设权重之和的比值；

4.根据权利要求1所述的基于视频彩铃识别客户的方法，其特征在于，所述UNet神经网络模块的参数通过以下步骤得到：

5.根据权利要求1所述的基于视频彩铃识别客户的方法，其特征在于，所述对所述视频语音信息进行语音识别处理，得到视频语音文本信息，包括：

6.根据权利要求1所述的基于视频彩铃识别客户的方法，其特征在于，所述对所述关键帧图像信息进行分析识别处理，得到关键帧文字信息，包括：

7.根据权利要求1所述的基于视频彩铃识别客户的方法，其特征在于，所述NIC模块包括CNN模块和RNN模块，所述将所述关键帧图像信息输入NIC模块，得到关键帧标题信息，包括：

8.一种基于视频彩铃识别客户的系统，其特征在于，包括：

第一获取模块，用于获取视频彩铃信息；

第一处理模块，用于将所述视频彩铃信息输入UNet神经网络模块，得到视频语音信息；所述UNet神经网络模块用于将所述视频彩铃信息中的背影音乐信息和语音信息进行分离；

第二处理模块，用于对所述视频语音信息进行语音识别处理，得到视频语音文本信息；

第二获取模块，用于获取所述视频彩铃信息中的关键帧图像信息；

第三处理模块，用于对所述关键帧图像信息进行分析识别处理，得到关键帧文字信息；

第四处理模块，用于将所述关键帧图像信息输入NIC模块，得到关键帧标题信息；

第五处理模块，用于将所述视频语音文本信息、所述关键帧文字信息和所述关键帧标题信息输入标签动态调整模块，得到识别的客户信息。

9.一种基于视频彩铃识别客户的装置，其特征在于，包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

当所述至少一个程序被所述至少一个处理器执行，使得所述至少一个处理器实现如权利要求1-7中任一项所述的基于视频彩铃识别客户的方法。

10.一种计算机可读存储介质，其中存储有处理器可执行的程序，其特征在于：所述处理器可执行的程序在由处理器执行时用于实现如权利要求1-7中任一项所述的基于视频彩铃识别客户的方法。