CN112367494B

CN112367494B - 基于ai的在线会议通讯方法、装置及计算机设备

Info

Publication number: CN112367494B
Application number: CN202011191344.7A
Authority: CN
Inventors: 满园园; 钟捷; 沈剑平; 莫洋; 宋思宇; 陈闽; 章淑婷; 江炼鑫; 杨杰; 侯晓龙; 刘喜声; 黄良斌; 杨帆; 蔡静; 张松; 孙志权; 许闻笳; 周璇; 谢鹏; 陈卓
Original assignee: Ping An Life Insurance Company of China Ltd
Current assignee: Ping An Life Insurance Company of China Ltd
Priority date: 2020-10-30
Filing date: 2020-10-30
Publication date: 2023-07-07
Anticipated expiration: 2040-10-30
Also published as: CN112367494A

Abstract

本发明公开了基于AI的在线会议通讯方法、装置、计算机设备及存储介质，涉及人工智能，包括若检测到第一类型智能终端上传的待拜访人资料获取指令，获取对应的请求人信息和待拜访人信息；根据请求人信息、待拜访人信息、待拜访人产品需求信息及信息推荐策略，生成请求人推荐信息及待拜访人推荐信息；若检测到在线会议视频同意连接请求，与第一类型智能终端及第二类型智能终端均建立通讯连接；将请求人推荐信息及待拜访人推荐信息发送至第一类型智能终端；若接收到选定数据，将其同步发送至第二类型智能终端。该方法实现了用户之间在行在线视频会议的过程中，及时进行语音转写文本、智能辅助答复等智能AI辅助，提高了数据获取效率。

Description

基于AI的在线会议通讯方法、装置及计算机设备

技术领域

本发明涉及人工智能的语音语义技术领域，尤其涉及一种基于AI的在线会议通讯方法、装置、计算机设备及存储介质。

背景技术

目前，在线视频会议这一用户沟通方式得到了越来越广泛的应用，例如因间隔距离较远(如需要沟通的用户分别位于不同的城市)或是不方便见面当面沟通时，则可以选择在线视频会议进行远距离在线沟通。比如在新冠疫情仍未结束的情况下，人们之间的线下当面沟通存在一定的安全风险，线上视频沟通的需求日渐增多。目前的在线会议软件，仍然是满足用户视频沟通的简单需要，也能进行屏幕内容共享，但是无法在沟通的过程中及时的进行智能辅助以确保沟通的连贯性，例如无法及时进行语音转写文本，无法智能辅助答复问题。

发明内容

本发明实施例提供了一种基于AI的在线会议通讯方法、装置、计算机设备及存储介质，旨在解决现有技术中在线会议软件无法在沟通的过程中及时的进行语音转写文本、智能辅助答复等智能辅助，导致交互效率低下的问题。

第一方面，本发明实施例提供了一种基于AI的在线会议通讯方法，其包括：

若检测到第一类型智能终端上传的待拜访人资料获取指令，获取与所述待拜访人资料获取指令对应的请求人信息和待拜访人信息；其中，所述请求人信息包括请求人用户画像，所述待拜访人信息包括待拜访人用户画像和待拜访人产品需求信息；

调用预先存储的信息推荐策略，根据所述请求人信息、待拜访人信息、待拜访人产品需求信息及所述信息推荐策略，生成请求人推荐信息及待拜访人推荐信息；其中，所述信息推荐策略用于提取所述请求人用户画像中的若干个关键标签以与所述待拜访人产品需求信息生成请求人推荐信息，以及提取待拜访人用户画像中的若干个关键标签以与所述待拜访人产品需求信息生成待拜访人推荐信息；

若检测到第一类型智能终端与对应的第二类型智能终端之间的在线会议视频同意连接请求，与所述第一类型智能终端及所述第二类型智能终端均建立通讯连接；

将所述请求人推荐信息及所述待拜访人推荐信息发送至所述第一类型智能终端以进行显示；

若接收到所述第一类型智能终端发送的选定数据，将所述选定数据同步发送至所述第二类型智能终端进行显示；以及

若检测并接收到当前语音数据，通过声纹识别模型获取所述当前语音数据对应的说话人身份信息，并根据语音识别模型获取所述当前语音数据对应的语音文本，将所述说话人身份信息与所述语音文本进行存储。

第二方面，本发明实施例提供了一种基于AI的在线会议通讯装置，其包括：

初始信息获取单元，用于若检测到第一类型智能终端上传的待拜访人资料获取指令，获取与所述待拜访人资料获取指令对应的请求人信息和待拜访人信息；其中，所述请求人信息包括请求人用户画像，所述待拜访人信息包括待拜访人用户画像和待拜访人产品需求信息；

推荐信息生成单元，用于调用预先存储的信息推荐策略，根据所述请求人信息、待拜访人信息、待拜访人产品需求信息及所述信息推荐策略，生成请求人推荐信息及待拜访人推荐信息；其中，所述信息推荐策略用于提取所述请求人用户画像中的若干个关键标签以与所述待拜访人产品需求信息生成请求人推荐信息，以及提取待拜访人用户画像中的若干个关键标签以与所述待拜访人产品需求信息生成待拜访人推荐信息；

通讯连接单元，用于若检测到第一类型智能终端与对应的第二类型智能终端之间的在线会议视频同意连接请求，与所述第一类型智能终端及所述第二类型智能终端均建立通讯连接；

推荐信息发送单元，用于将所述请求人推荐信息及所述待拜访人推荐信息发送至所述第一类型智能终端以进行显示；

选定数据发送单元，用于若接收到所述第一类型智能终端发送的选定数据，将所述选定数据同步发送至所述第二类型智能终端进行显示；以及

语音识别单元，用于若检测并接收到当前语音数据，通过声纹识别模型获取所述当前语音数据对应的说话人身份信息，并根据语音识别模型获取所述当前语音数据对应的语音文本，将所述说话人身份信息与所述语音文本进行存储。

第三方面，本发明实施例又提供了一种计算机设备，其包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述第一方面所述的基于AI的在线会议通讯方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，其中所述计算机可读存储介质存储有计算机程序，所述计算机程序当被处理器执行时使所述处理器执行上述第一方面所述的基于AI的在线会议通讯方法。

本发明实施例提供了一种基于AI的在线会议通讯方法、装置、计算机设备及存储介质，包括先调用预先存储的信息推荐策略，根据请求人信息、待拜访人信息、待拜访人产品需求信息及所述信息推荐策略，生成请求人推荐信息及待拜访人推荐信息，在建立视频会议后，将所述请求人推荐信息及所述待拜访人推荐信息发送至所述第一类型智能终端以进行显示，之后若接收到所述第一类型智能终端发送的选定数据，将所述选定数据同步发送至所述第二类型智能终端进行显示，最后若检测并接收到当前语音数据，通过声纹识别模型获取所述当前语音数据对应的说话人身份信息。该方法实现了用户之间在进行在线视频会议的过程中，及时的进行语音转写文本、智能辅助答复等智能AI辅助，提高了数据获取效率。

附图说明

为了更清楚地说明本发明实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的基于AI的在线会议通讯方法的应用场景示意图；

图2为本发明实施例提供的基于AI的在线会议通讯方法的流程示意图；

图3为本发明实施例提供的基于AI的在线会议通讯装置的示意性框图；

图4为本发明实施例提供的计算机设备的示意性框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

请参阅图1和图2，图1为本发明实施例提供的基于AI的在线会议通讯方法的应用场景示意图；图2为本发明实施例提供的基于AI的在线会议通讯方法的流程示意图，该基于AI的在线会议通讯方法应用于服务器中，该方法通过安装于服务器中的应用软件进行执行。

如图2所示，该方法包括步骤S110～S160。

S110、若检测到第一类型智能终端上传的待拜访人资料获取指令，获取与所述待拜访人资料获取指令对应的请求人信息和待拜访人信息；其中，所述请求人信息包括请求人用户画像，所述待拜访人信息包括待拜访人用户画像和待拜访人产品需求信息。

在本实施例中，为了更清楚的理解本申请的技术方案，下面对所涉及的终端进行详细介绍。本申请是在服务器的角度描述技术方案。

一是第一类型智能终端，其使用者是拜访人，其可与待拜访人(也可以理解为被拜访人)通过建立在线视频进行在线沟通。

二是第二类型智能终端，其使用者是待拜访人，其可与拜访人通过建立在线视频进行在线沟通。其中，第一类型智能终端和第二类型智能终端在进行在线视频沟通时，其均与服务器通讯连接。

三是服务器，在服务器中部署有智能拜访助手系统，可以对拜访人与被拜访人之间的在线视频沟通进行各种功能辅助，以便于完成线上视频拜访。

当服务器检测到第一类型智能终端上传的待拜访人资料获取指令时，表示之前第一类型智能终端还未与第二类型智能终端建立视频连接以进行在线会议，此时为了辅助第一类型智能终端的使用者更好的与第二类型智能终端的使用者高效的进行在线视频会议沟通，可先由第一类型智能终端向服务器发送待拜访人资料获取指令。当服务器检测到第一类型智能终端发送的待拜访人资料获取指令时，由服务器根据所述待拜访人资料获取指令对应的请求人信息和待拜访人信息。

其中，所述请求人信息包括请求人用户画像，所述待拜访人信息包括待拜访人用户画像和待拜访人产品需求信息。因为在服务器中存储了关于第一类型智能终端使用者以及第二类型智能终端使用者的大量历史数据，以这些历史数据为数据基础，可以处理得到第一类型智能终端使用者对应的用户画像(可对应上述的请求人用户画像)，且得到与第二类型智能终端使用者对应的用户画像(可对应上述的待拜访人用户画像)。待拜访人产品需求信息是该第二类型智能终端使用者在与第一类型智能终端使用者进行电话沟通、或是通过通讯软件沟通(如微信、QQ等)时在对话记录中有记载，这一待拜访人产品需求信息可以理解为待拜访人的产品购买意向。

例如，若第一类型智能终端使用者对应业务人员，第二类型智能终端使用者对应消费者，此时业务人员可以通过在线会议的方式向消费者推荐一些产品。此时请求人用户画像中一般有该业务员精通哪一类型产品的销售的标签，待拜访人用户画像一般有该消费者的用户标签(例如属于哪一年龄段、属于职业群体、工资收入属于哪一收入范围群体)，而且在服务器中可以根据待拜访人资料获取指令获取对应待拜访人产品需求信息。通过上述方式，是在服务器中自动根据待拜访人资料获取指令识别或检索出对应数据，无需用户上传过多数据，简化了数据获取流程。

S120、调用预先存储的信息推荐策略，根据所述请求人信息、待拜访人信息、待拜访人产品需求信息及所述信息推荐策略，生成请求人推荐信息及待拜访人推荐信息；其中，所述信息推荐策略用于提取所述请求人用户画像中的若干个关键标签以与所述待拜访人产品需求信息生成请求人推荐信息，以及提取待拜访人用户画像中的若干个关键标签以与所述待拜访人产品需求信息生成待拜访人推荐信息。

在本实施例中，为了更好的辅助第一类型智能终端使用者向第二类型智能终端使用者推荐若干产品，在两者进行视频连线之前，在服务器中可以为第一类型智能终端使用者生成请求人推荐信息及待拜访人推荐信息。

在一实施例中，步骤S120包括：

获取所述信息推荐策略中的第一推荐信息生成策略，根据所述请求人信息、所述待拜访人产品需求信息及所述第一推荐信息生成策略，以生成请求人推荐信息；

获取所述信息推荐策略中的第二推荐信息生成策略，根据所述待拜访人信息、所述待拜访人产品需求信息及所述第二推荐信息生成策略，以生成待拜访人推荐信息。

在本实施例中，所述请求人推荐信息可以理解为在服务器中根据请求人用户画像及待拜访人产品需求信息生成请求人推荐信息，也即可根据信息推荐策略筛选出请求人用户画像中的关键标签(如精通寿险A产品)，还获取了待拜访人产品需求信息(例如也是寿险A产品)，此时可以基于请求人用户画像中的关键标签和待拜访人产品需求信息在服务器的本地数据库中搜索与该待拜访人产品需求信息的产品介绍信息(例如是寿险A产品的投保规则、投保费用、投保年限、险种详细介绍)以作为请求人推荐信息。

所述待拜访人推荐信息可以理解为在服务器中根据待拜访人用户画像及待拜访人产品需求信息生成待拜访人推荐信息，也即可以根据信息推荐策略筛选出待拜访人用户画像中的关键标签(如中年人，收入范围是月薪20000-30000等)，还获取了待拜访人产品需求信息(例如也是寿险A产品)，此时可以基于待拜访人用户画像中的关键标签和待拜访人产品需求信息在服务器的本地数据库中搜索针对该类用户标签的话术(该话术可以引导第一类型智能终端使用者按照指定语句顺序与第二类型智能终端使用者进行沟通)以作为待拜访人推荐信息。

在服务器中所生成的请求人推荐信息和待拜访人推荐信息，可以作为第一类型智能终端使用者与第二类型智能终端使用者进行沟通过程的引导数据，这些引导数据的获取是在服务器中自动生成获取，无需用户手动检索，提高了数据获取效率。

S130、若检测到第一类型智能终端与对应的第二类型智能终端之间的在线会议视频同意连接请求，与所述第一类型智能终端及所述第二类型智能终端均建立通讯连接。

在本实施例中，由于之前生成了请求人推荐信息和待拜访人推荐信息，此时第一类型智能终端可以申请与第二类型智能终端建立视频连接以进行在线会议，即第一类型智能终端先同时向服务器和第二类型智能终端发送在线会议视频连接请求。当与第二类型智能终端使用者操作第二类型智能终端同意了第一类型智能终端的在线会议视频连接请求，会同时向服务器和第一类型智能终端发送在线会议视频同意连接请求。当服务器和第一类型智能终端中均接收到在线会议视频同意连接请求，服务器、第一类型智能终端及第二类型智能终端均建立通讯连接，此时服务器在参与到第一类型智能终端与第二类型智能终端之间的在线会议时是一个辅助AI角色，可设置在此次在线会议的参与者列表中显示，也可设置在此次在线会议的参与者列表中不显示。

在一实施例中，步骤S130之后还包括：

根据所述第一类型智能终端及所述第二类型智能终端生成在线会议参与者列表，将所述在线会议参与者列表分别发送至所述第一类型智能终端及所述第二类型智能终端。

在本实施例中，为了便于第一类型智能终端使用者和第二类型智能终端使用者获知参与此次在线会议的参与者，可以根据第一类型智能终端对应的用户名称(例如第一类型智能终端使用者的姓名，如李四)、第二类型智能终端对应的用户名称(例如第二类型智能终端使用者的姓名尊称，如张先生)、以及服务器对应的用户名称(如客服XXX)，在服务器中根据第一类型智能终端对应的用户名称、第二类型智能终端对应的用户名称以及服务器对应的用户名称生成在线会议参与者列表，之后将所述在线会议参与者列表分别发送至所述第一类型智能终端及所述第二类型智能终端。这样所有的参与者根据所述在线会议参与者列表可以直观看到此次在线会议的参与者。

S140、将所述请求人推荐信息及所述待拜访人推荐信息发送至所述第一类型智能终端以进行显示。

在本实施例中，当在服务器与第一类型智能终端和第二类型智能终端均建立通讯连接后，此时为了便于引导第一类型智能终端使用者与第二类型智能终端使用者进行沟通，需要先将所述请求人推荐信息及所述待拜访人推荐信息发送至所述第一类型智能终端，以在第一类型智能终端的显示屏上进行显示，可以作为提词器使用。

S150、若接收到所述第一类型智能终端发送的选定数据，将所述选定数据同步发送至所述第二类型智能终端进行显示。

在本实施例中，当第一类型智能终端使用者操作第一类型智能终端，在所述请求人推荐信息和/或所述待拜访人推荐信息中选定一些可推荐至第二类型智能终端使用者查看的数据作为选定数据，将所述选定数据同步发送至所述第二类型智能终端的显示屏上进行显示。这样当第一类型智能终端使用者向第二类型智能终端使用者介绍产品时，第二类型智能终端使用者可以直接在显示屏上查看选定数据对应的文本信息，从而能够更直观的查看待介绍的信息。

S160、若检测并接收到当前语音数据，通过声纹识别模型获取所述当前语音数据对应的说话人身份信息，并根据语音识别模型获取所述当前语音数据对应的语音文本，将所述说话人身份信息与所述语音文本进行存储。

在本实施例中，为了分辨当前的说话人是第一类型智能终端使用者还是第二类型智能终端使用者，此时可以调用声纹识别模型获取所述当前语音数据对应的说话人身份信息。在分辨出了当前说话人后，在服务器中可以对话的形式存储第一类型智能终端使用者与第二类型智能终端使用者之间沟通语音数据对应的文本数据(将语音数据通过语音识别模型转化为语音文本，也就是文本数据)，服务器实现了快速记录语音并转换文本，这样便于后续溯源查看沟通记录。

在一实施例中，步骤S160包括：

调用预先训练并存储的混合高斯-通用背景模型，通过所述混合高斯-通用背景模型对所述当前语音数据进行说话人识别，得到与所述当前语音数据对应的说话人身份信息；

调用预先训练并存储的RNN-CTC模型，通过所述RNN-CTC模型对所述当前语音数据进行语音识别，得到与所述当前语音数据对应的语音文本；

将所述语音文本根据所述说话人身份信息增加说话人标记并存储。

在本实施例中，为了通过服务器对第一类型智能终端使用者与第二类型智能终端使用者之间整个在线会议视频期间的所有语音数据进行数据保存、语音识别及说话人识别，需要调用服务器中预先训练并存储的混合高斯-通用背景模型和RNN-CTC模型对所述当前语音数据进行处理，从而得到处理结果。

其中，所述混合高斯-通用背景模型即GMM-UBM模型(GMM-UBM是Gaussian MixtureModel-Universal Background Model的简称)，可将声学特征投影到高维空间上，得到高维的均值超矢量。UBM采用大规模的说话人语料训练完成，并因此可以被采进行说话人的共性特征的描述。然后，以UBM为初始模型，采用目标说话人数据进行基于最大后验概率(Maximum A Posterior,MAP)的自适应训练，得到目标说话人的混合高斯模型(GMM)。通过计算似然值的方法进行说话人打分，进而进行识别判决。通过所述混合高斯-通用背景模型，能提高说话人识别的准确率。

所述RNN-CTC模型中RNN(RNN的全称是Recurrent Neural Network)表示循环神经网络；CTC(CTC的全称是Connectionist Temporal Classification)表示表示连接时序分类)，用来解决输入序列和输出序列难以一一对应的问题，可以提高识别的鲁棒性。CTC是一种损失函数，它用来衡量输入的序列数据经过神经网络之后，和真实的输出相差量。通过所述RNN-CTC模型对所述当前语音数据进行语音识别，可得到识别准确率较高的语音文本。

在一实施例中，步骤S160之后还包括：

以当前起始时间点与预设的沉默时间阈值求和得到当前终止时间点，将所述当前起始时间点至所述当前终止时间点之间的时间区间记为当前检测时间区间；其中，以接收所述当前语音数据的时刻为当前起始时间点；

判断在所述当前检测时间区间内检测到是否已接收另一语音数据；

若在所述当前检测时间区间内检测到已接收另一语音数据，将另一语音数据更新作为当前语音数据，返回执行若检测并接收到当前语音数据，通过声纹识别模型获取所述当前语音数据对应的说话人身份信息，并根据语音识别模型获取所述当前语音数据对应的语音文本，将所述说话人身份信息与所述语音文本进行存储的步骤；

若在所述当前检测时间区间内未检测到已接收另一语音数据，获取所述语音文本，调用本地已存储的知识库，根据所述语音文本在所述知识库中获取对应的回复文本；

将所述回复文本转化为回复语音数据，将所述回复语音数据发送至第二类型智能终端。

在本实施例中，当服务器将所述当前语音数据进行说话人识别及语音识别存储后，此时为了判断第一类型智能终端使用者和第二类型智能终端使用者之间是否有较长时间的沉默期，此时为了增加沟通的连贯性需通过服务器进行沉默检测。

例如，预先设置沉默时间阈值为5-15s中任意一个取值(如10s)，若步骤S160中接收的当前语音数据对应的当前起始时间点为14时22分34秒，此时服务器先根据当前起始时间点为14时22分34秒及沉默时间阈值10秒计算得到当前终止时间点为14时22分44秒，在14时22分34秒-14时22分44秒对应的当前检测时间区间内检测是否接收到另一语音数据。

若服务器在该当前检测时间区间内检测接收到另一语音数据，表示第一类型智能终端使用者和第二类型智能终端使用者之间的沟通是连续的，无需服务器及时的生成提示语句以提示沟通继续。

若服务器在该当前检测时间区间内未检测接收到另一语音数据，表示第一类型智能终端使用者和第二类型智能终端使用者之间的沟通存在中断，需要服务器及时的生成提示语句以提示沟通继续。

由于服务器中已存储了知识库，当在当前检测时间区间内未检测接收到另一语音数据，直接根据当前语音数据对应的语音文本在知识库中根据语义向量的相似度，匹配与所述语音文本相对应的回复文本，将所述回复文本转化为回复语音数据，将所述回复语音数据发送至第二类型智能终端。通过这一方式，能有效及时的进行辅助回复，避免较长时间的沉默期。

在一实施例中，步骤S160之后还包括：

若检测到在线会议终止请求，获取已保存的说话人身份信息与语音文本，调用预先训练的BERT模型以获取说话人身份信息为请求人的语音文本相对应的请求人文本主题集合，调用预先训练的DPCNN模型获取请求人文本主题集合相对应的请求人意图关键词集合，根据所述请求人文本主题集合和所述请求人意图关键词集合以及所调用的总结模板生成请求人拜访总结数据。

在本实施例中，当请求人与待拜访人之间的对话已经过识别转化成说话人身份信息和语音文本后，可以调用预先训练的BERT模型对请求人的语音文本进行主题识别，将请求人的语音文本从主题维度进行详细总结。

之后完成了对请求人的语音文本进行主题识别后，还可调用预先训练的DPCNN模型获取请求人文本主题集合相对应的请求人意图关键词集合，生成了包括请求人意图和关键词的意图关键词集合。

最后调用总结模板，将所述请求人文本主题集合和所述请求人意图关键词集合填充至该总结模板，即可得到请求人拜访总结数据。

在一实施例中，所述基于AI的在线会议通讯方法还包括：

调用预先训练的语义相似度主题识别模型以获取说话人身份信息为待拜访人的语音文本相对应的待拜访人文本主题集合；

调用预先训练的FastBERT模型获取所述待拜访人文本主题集合对应的待拜访人意图关键词集合，根据所述待拜访人文本主题集合和所述待拜访人意图关键词集合以及所调用的总结模板生成待拜访人总结数据。

在本实施例中，也是当请求人与待拜访人之间的对话已经过识别转化成说话人身份信息和语音文本后，可以调用预先训练的语义相似度主题识别模型对待拜访人的语音文本进行主题识别，将待拜访人的语音文本从主题维度划分为多个部分，每一部分的文本都是对应一个主题。

之后，完成了对待拜访人的语音文本进行主题识别后，还可调用预先训练的FastBERT模型获取待拜访人文本主题集合相对应的待拜访人意图关键词集合，生成了包括待拜访人意图和关键词的意图关键词集合。

最后，调用总结模板，将所述待拜访人文本主题集合和所述待拜访人意图关键词集合填充至该总结模板，即可得到待拜访人总结数据。

该方法实现了用户之间在进行在线视频会议的过程中，及时的进行语音转写文本、智能辅助答复等智能AI辅助，提高了数据获取效率。

本发明实施例还提供一种基于AI的在线会议通讯装置，该基于AI的在线会议通讯装置用于执行前述基于AI的在线会议通讯方法的任一实施例。具体地，请参阅图3，图3是本发明实施例提供的基于AI的在线会议通讯装置的示意性框图。该基于AI的在线会议通讯装置100可以配置于服务器中。

如图3所示，基于AI的在线会议通讯装置100包括：初始信息获取单元110、推荐信息生成单元120、通讯连接单元130、推荐信息发送单元140、选定数据发送单元150、语音识别单元160。

初始信息获取单元110，用于若检测到第一类型智能终端上传的待拜访人资料获取指令，获取与所述待拜访人资料获取指令对应的请求人信息和待拜访人信息；其中，所述请求人信息包括请求人用户画像，所述待拜访人信息包括待拜访人用户画像和待拜访人产品需求信息。

在本实施例中，当服务器检测到第一类型智能终端上传的待拜访人资料获取指令时，表示之前第一类型智能终端还未与第二类型智能终端建立视频连接以进行在线会议，此时为了辅助第一类型智能终端的使用者更好的与第二类型智能终端的使用者高效的进行在线视频会议沟通，可先由第一类型智能终端向服务器发送待拜访人资料获取指令。当服务器检测到第一类型智能终端发送的待拜访人资料获取指令时，由服务器根据所述待拜访人资料获取指令对应的请求人信息和待拜访人信息。

推荐信息生成单元120，用于调用预先存储的信息推荐策略，根据所述请求人信息、待拜访人信息、待拜访人产品需求信息及所述信息推荐策略，生成请求人推荐信息及待拜访人推荐信息；其中，所述信息推荐策略用于提取所述请求人用户画像中的若干个关键标签以与所述待拜访人产品需求信息生成请求人推荐信息，以及提取待拜访人用户画像中的若干个关键标签以与所述待拜访人产品需求信息生成待拜访人推荐信息。

在一实施例中，推荐信息生成单元120包括：

请求人推荐信息生成单元，用于获取所述信息推荐策略中的第一推荐信息生成策略，根据所述请求人信息、所述待拜访人产品需求信息及所述第一推荐信息生成策略，以生成请求人推荐信息；

待拜访人推荐信息生成单元，用于获取所述信息推荐策略中的第二推荐信息生成策略，根据所述待拜访人信息、所述待拜访人产品需求信息及所述第二推荐信息生成策略，以生成待拜访人推荐信息。

通讯连接单元130，用于若检测到第一类型智能终端与对应的第二类型智能终端之间的在线会议视频同意连接请求，与所述第一类型智能终端及所述第二类型智能终端均建立通讯连接。

在一实施例中，基于AI的在线会议通讯装置100还包括：

在线会议参与者列表发送单元，用于根据所述第一类型智能终端及所述第二类型智能终端生成在线会议参与者列表，将所述在线会议参与者列表分别发送至所述第一类型智能终端及所述第二类型智能终端。

推荐信息发送单元140，用于将所述请求人推荐信息及所述待拜访人推荐信息发送至所述第一类型智能终端以进行显示。

选定数据发送单元150，用于若接收到所述第一类型智能终端发送的选定数据，将所述选定数据同步发送至所述第二类型智能终端进行显示。

语音识别单元160，用于若检测并接收到当前语音数据，通过声纹识别模型获取所述当前语音数据对应的说话人身份信息，并根据语音识别模型获取所述当前语音数据对应的语音文本，将所述说话人身份信息与所述语音文本进行存储。

在一实施例中，语音识别单元160包括：

说话人身份信息获取单元，用于调用预先训练并存储的混合高斯-通用背景模型，通过所述混合高斯-通用背景模型对所述当前语音数据进行说话人识别，得到与所述当前语音数据对应的说话人身份信息；

语音文本识别单元，用于调用预先训练并存储的RNN-CTC模型，通过所述RNN-CTC模型对所述当前语音数据进行语音识别，得到与所述当前语音数据对应的语音文本；

说话人标记单元，用于将所述语音文本根据所述说话人身份信息增加说话人标记并存储。

在一实施例中，基于AI的在线会议通讯装置100还包括：

当前检测时间区间获取单元，用于以当前起始时间点与预设的沉默时间阈值求和得到当前终止时间点，将所述当前起始时间点至所述当前终止时间点之间的时间区间记为当前检测时间区间；其中，以接收所述当前语音数据的时刻为当前起始时间点；

另一语音检测单元，用于判断在所述当前检测时间区间内检测到是否已接收另一语音数据；

语音更新单元，用于若在所述当前检测时间区间内检测到已接收另一语音数据，将另一语音数据更新作为当前语音数据，返回执行若检测并接收到当前语音数据，通过声纹识别模型获取所述当前语音数据对应的说话人身份信息，并根据语音识别模型获取所述当前语音数据对应的语音文本，将所述说话人身份信息与所述语音文本进行存储的步骤；

回复文本获取单元，用于若在所述当前检测时间区间内未检测到已接收另一语音数据，获取所述语音文本，调用本地已存储的知识库，根据所述语音文本在所述知识库中获取对应的回复文本；

回复文本转换单元，用于将所述回复文本转化为回复语音数据，将所述回复语音数据发送至第二类型智能终端。

例如，预先设置沉默时间阈值为5-15s中任意一个取值(如10s)，若接收的当前语音数据对应的当前起始时间点为14时22分34秒，此时服务器先根据当前起始时间点为14时22分34秒及沉默时间阈值10秒计算得到当前终止时间点为14时22分44秒，在14时22分34秒-14时22分44秒对应的当前检测时间区间内检测是否接收到另一语音数据。

在一实施例中，基于AI的在线会议通讯装置100还包括：

请求人拜访总结数据生成单元，用于若检测到在线会议终止请求，获取已保存的说话人身份信息与语音文本，调用预先训练的BERT模型以获取说话人身份信息为请求人的语音文本相对应的请求人文本主题集合，调用预先训练的DPCNN模型获取请求人文本主题集合相对应的请求人意图关键词集合，根据所述请求人文本主题集合和所述请求人意图关键词集合以及所调用的总结模板生成请求人拜访总结数据。

在一实施例中，基于AI的在线会议通讯装置100还包括：

待拜访人文本主题集合获取单元，用于调用预先训练的语义相似度主题识别模型以获取说话人身份信息为待拜访人的语音文本相对应的待拜访人文本主题集合；

待拜访人总结数据生成单元，用于调用预先训练的FastBERT模型获取所述待拜访人文本主题集合对应的待拜访人意图关键词集合，根据所述待拜访人文本主题集合和所述待拜访人意图关键词集合以及所调用的总结模板生成待拜访人总结数据。

该装置实现了用户之间在进行在线视频会议的过程中，及时的进行语音转写文本、智能辅助答复等智能AI辅助，提高了数据获取效率。

上述基于AI的在线会议通讯装置可以实现为计算机程序的形式，该计算机程序可以在如图4所示的计算机设备上运行。

请参阅图4，图4是本发明实施例提供的计算机设备的示意性框图。该计算机设备500是服务器，服务器可以是独立的服务器，也可以是多个服务器组成的服务器集群。

参阅图4，该计算机设备500包括通过系统总线501连接的处理器502、存储器和网络接口505，其中，存储器可以包括非易失性存储介质503和内存储器504。

该非易失性存储介质503可存储操作系统5031和计算机程序5032。该计算机程序5032被执行时，可使得处理器502执行基于AI的在线会议通讯方法。

该处理器502用于提供计算和控制能力，支撑整个计算机设备500的运行。

该内存储器504为非易失性存储介质503中的计算机程序5032的运行提供环境，该计算机程序5032被处理器502执行时，可使得处理器502执行基于AI的在线会议通讯方法。

该网络接口505用于进行网络通信，如提供数据信息的传输等。本领域技术人员可以理解，图4中示出的结构，仅仅是与本发明方案相关的部分结构的框图，并不构成对本发明方案所应用于其上的计算机设备500的限定，具体的计算机设备500可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

其中，所述处理器502用于运行存储在存储器中的计算机程序5032，以实现本发明实施例公开的基于AI的在线会议通讯方法。

本领域技术人员可以理解，图4中示出的计算机设备的实施例并不构成对计算机设备具体构成的限定，在其他实施例中，计算机设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。例如，在一些实施例中，计算机设备可以仅包括存储器及处理器，在这样的实施例中，存储器及处理器的结构及功能与图4所示实施例一致，在此不再赘述。

应当理解，在本发明实施例中，处理器502可以是中央处理单元(CentralProcessing Unit，CPU)，该处理器502还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

在本发明的另一实施例中提供计算机可读存储介质。该计算机可读存储介质可以为非易失性的计算机可读存储介质。该计算机可读存储介质存储有计算机程序，其中计算机程序被处理器执行时实现本发明实施例公开的基于AI的在线会议通讯方法。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的设备、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本发明所提供的几个实施例中，应该理解到，所揭露的设备、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为逻辑功能划分，实际实现时可以有另外的划分方式，也可以将具有相同功能的单元集合成一个单元，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接，也可以是电的，机械的或其它的形式连接。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种基于AI的在线会议通讯方法，其特征在于，包括：

调用预先存储的信息推荐策略，根据所述请求人信息、待拜访人信息及所述信息推荐策略，生成请求人推荐信息及待拜访人推荐信息；其中，所述信息推荐策略用于提取所述请求人用户画像中的若干个关键标签以与所述待拜访人产品需求信息生成请求人推荐信息，以及提取待拜访人用户画像中的若干个关键标签以与所述待拜访人产品需求信息生成待拜访人推荐信息；

2.根据权利要求1所述的基于AI的在线会议通讯方法，其特征在于，还包括：

3.根据权利要求2所述的基于AI的在线会议通讯方法，其特征在于，还包括：

调用预先训练的语义相似度主题识别模型，以获取说话人身份信息为待拜访人的语音文本相对应的待拜访人文本主题集合；

4.根据权利要求1所述的基于AI的在线会议通讯方法，其特征在于，所述调用预先存储的信息推荐策略，根据所述请求人信息、待拜访人信息、待拜访人产品需求信息及所述信息推荐策略，生成请求人推荐信息及待拜访人推荐信息，包括：

5.根据权利要求1所述的基于AI的在线会议通讯方法，其特征在于，所述若检测到第一类型智能终端与对应的第二类型智能终端之间的在线会议视频同意连接请求，与所述第一类型智能终端及所述第二类型智能终端均建立通讯连接之后，还包括：

6.根据权利要求1所述的基于AI的在线会议通讯方法，其特征在于，所述通过声纹识别模型获取所述当前语音数据对应的说话人身份信息，并根据语音识别模型获取所述当前语音数据对应的语音文本，将所述说话人身份信息与所述语音文本进行存储，包括：

7.根据权利要求1所述的基于AI的在线会议通讯方法，其特征在于，还包括：

8.一种基于AI的在线会议通讯装置，其特征在于，包括：

推荐信息生成单元，用于调用预先存储的信息推荐策略，根据所述请求人信息、待拜访人信息及所述信息推荐策略，生成请求人推荐信息及待拜访人推荐信息；其中，所述信息推荐策略用于提取所述请求人用户画像中的若干个关键标签以与所述待拜访人产品需求信息生成请求人推荐信息，以及提取待拜访人用户画像中的若干个关键标签以与所述待拜访人产品需求信息生成待拜访人推荐信息；

9.一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述的基于AI的在线会议通讯方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序当被处理器执行时使所述处理器执行如权利要求1至7任一项所述的基于AI的在线会议通讯方法。