CN116074442A

CN116074442A - 通话内容自提取方法、装置以及存储介质

Info

Publication number: CN116074442A
Application number: CN202111302264.9A
Authority: CN
Inventors: 张鹏飞; 井绪海; 夏溧
Original assignee: Beijing Zhongguancun Kejin Technology Co Ltd
Current assignee: Beijing Zhongguancun Kejin Technology Co Ltd
Priority date: 2021-11-04
Filing date: 2021-11-04
Publication date: 2023-05-05

Abstract

本申请公开了一种通话内容自提取方法、装置以及存储介质，其中通话内容自提取方法，包括：获取单次通话产生的通话音频，并将所述通话音频转换为通话文本；利用预设的语义识别模型，对所述通话文本进行语义识别，生成所述通话文本的语义信息；根据所述语义信息，分析所述单次通话中的每个角色的通话意图，并根据分析的结果，生成每个角色的通话总结信息；将所述每个角色的通话总结信息返回至前端业务系统。本发明无须坐席人员或质检人员手动录入信息，坐席只需要做最终结果的审核，如有不妥手动修改即可，大大地提高了坐席人员的工作效率的同时也降低了企业用人成本。

Description

通话内容自提取方法、装置以及存储介质

技术领域

本申请涉及信息处理技术领域，特别是涉及一种通话内容自提取方法、装置以及存储介质。

背景技术

在互联网时代下，电商、直播带货、电视购物等在线购物方式成为主流，随着企业业务的不断发展，企业逐渐重视售后服务，400客服就显得尤为重要，同时也面临着售后服务从线下转移到了线上，客服电话的接听效率就成为倾听一手客户需求与提高客户售后保证的关键，目前很多呼叫中心系统，还是通过坐席人员接听电话过程中，手动记录客户诉求，反馈小结，问题状态等信息，效率极为低下。通常一通3分钟的通话结束后，坐席人员就要花费2分钟的时间编写通话小结，给客户反馈的问题打标签等工作。当通话时长更长时，通话过后坐席人员就要花费更多的时间去手动填写通话小结(例如，客户诉求、是否解决、解决方案和问题标签等信息)，这样大大降低了坐席人员的接听效率。

针对上述的现有技术中存在的与通话相关的内容需要坐席人员手动总结，接听效率低下的技术问题，目前尚未提出有效的解决方案。

发明内容

本公开的实施例提供了一种通话内容自提取方法、装置以及存储介质，以至少解决现有技术中存在的与通话相关的内容需要坐席人员手动总结，接听效率低下的技术问题。

根据本公开实施例的一个方面，提供了一种通话内容自提取方法，包括：获取单次通话产生的通话音频，并将所述通话音频转换为通话文本；利用预设的语义识别模型，对所述通话文本进行语义识别，生成所述通话文本的语义信息；根据所述语义信息，分析所述单次通话中的每个角色的通话意图，并根据分析的结果，生成每个角色的通话总结信息；将所述每个角色的通话总结信息返回至前端业务系统。

可选地，获取单次通话产生的通话音频，并将所述通话音频转换为通话文本的操作，包括：基于流媒体服务，采用双声道的方式单独采集所述单次通话中不同声道的音频流；将采集到的不同声道的音频流实时传输至后台应用服务，以获取到所述单次通话中第一声道的第一音频流和第二声道的第二音频流；将所述第一音频流和所述第二音频流分别转换成对应的第一音频文件和第二音频文件；调用ASR服务，将所述第一音频文件和所述第二音频文件分别进行语音转文字操作，以得到所述单次通话中两个声道的音频流对应的文字信息；缓存所述单次通话中两个声道的音频流对应的文字信息，并在所述单次通话结束时将与整通通话对应的文字信息一并提取出来，以得到所述通话文本。

可选地，获取单次通话产生的通话音频，并将所述通话音频转换为通话文本的操作，还包括：采集所述单次通话产生的音频，得到整通所述单次通话的音频文件；对整通所述单次通话的音频文件进行声道分离，生成所述单次通话中不同声道的音频文件；调用ASR服务，将所述所述单次通话中不同声道的音频文件分别进行语音转文字操作，以得到所述单次通话中两个声道的音频文件对应的通话文本。

可选地，利用预设的语义识别模型，对所述通话文本进行语义识别，生成所述通话文本的语义信息的操作，包括：将从缓存中提取的两个声道转换后的通话文本分别送入所述预设的语义识别模型，输出每个声道的通话文本的语义信息。

可选地，根据所述语义信息，分析所述单次通话中的每个角色的通话意图，并根据分析的结果，生成每个角色的通话总结信息的操作，包括：根据所述每个声道的通话文本的语义信息，分析所述单次通话中的客户的通话诉求信息和坐席人员的述求应答信息；根据所述通话诉求信息，确定所述客户的通话意图信息和通话情绪信息；根据所述述求应答信息，确定所述坐席人员的通话小结信息和情绪通话情绪信息；根据所述客户的通话意图信息和通话情绪信息，生成所述客户的通话总结信息；根据所述坐席人员的通话小结信息和情绪通话情绪信息，生成所述坐席人员的通话总结信息。

可选地，该方法还包括：接收所述单次通话中的坐席人员输入的与通话总结信息对应的修正信息；根据修正后的通话总结信息，对所述预设的语义识别模型进行优化训练。

根据本公开实施例的另一个方面，还提供了一种存储介质，存储介质包括存储的程序，其中，在程序运行时由处理器执行以上任意一项所述的方法。

根据本公开实施例的另一个方面，还提供了一种通话内容自提取装置，包括：通话音频获取及转换模块，用于获取单次通话产生的通话音频，并将所述通话音频转换为通话文本；语义识别模块，用于利用预设的语义识别模型，对所述通话文本进行语义识别，生成所述通话文本的语义信息；通话意图分析及总结模块，用于根据所述语义信息，分析所述单次通话中的每个角色的通话意图，并根据分析的结果，生成每个角色的通话总结信息；总结信息反馈模块，用于将所述每个角色的通话总结信息返回至前端业务系统。

根据本公开实施例的另一个方面，还提供了一种通话内容自提取装置，包括：处理器；以及存储器，与处理器连接，用于为处理器提供处理以下处理步骤的指令：获取单次通话产生的通话音频，并将所述通话音频转换为通话文本；利用预设的语义识别模型，对所述通话文本进行语义识别，生成所述通话文本的语义信息；根据所述语义信息，分析所述单次通话中的每个角色的通话意图，并根据分析的结果，生成每个角色的通话总结信息；将所述每个角色的通话总结信息返回至前端业务系统。

在本公开实施例中，首先获取单次通话产生的通话音频，并将所述通话音频转换为通话文本，然后利用预设的语义识别模型，对所述通话文本进行语义识别，生成所述通话文本的语义信息，其次根据所述语义信息，分析所述单次通话中的每个角色的通话意图，并根据分析的结果，生成每个角色的通话总结信息，最后将所述每个角色的通话总结信息返回至前端业务系统。从而，本发明不仅可以自动根据提取到的语义信息给客户打标签和识别客户情绪，还可以识别坐席人员的通话用语是否规范以及是否存在违规词。并在通话结束后，自动生成每个角色的通话总结信息，并返回给前端业务系统，无须坐席人员或质检人员手动录入信息，坐席只需要做最终结果的审核，如有不妥手动修改即可，大大地提高了坐席人员的工作效率的同时也降低了企业用人成本。进而解决了现有技术中存在的与通话相关的内容需要坐席人员手动总结，接听效率低下的技术问题。

附图说明

此处所说明的附图用来提供对本公开的进一步理解，构成本申请的一部分，本公开的示意性实施例及其说明用于解释本公开，并不构成对本公开的不当限定。在附图中：

图1是用于实现根据本公开实施例1所述的方法的计算设备的硬件结构框图；

图2是根据本公开实施例1的第一个方面所述的通话内容自提取方法的流程示意图；

图3是根据本公开实施例1所述的通话内容自提取方法的整体流程示意图；

图4是根据本公开实施例2所述的通话内容自提取装置的示意图；以及

图5是根据本公开实施例3所述的通话内容自提取装置的示意图。

具体实施方式

为了使本技术领域的人员更好地理解本公开的技术方案，下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例仅仅是本公开一部分的实施例，而不是全部的实施例。基于本公开中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本公开保护的范围。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

首先，在对本公开实施例进行描述的过程中出现的部分名词或术语适用于如下解释：

术语1：NLP。NLP是神经语言程序学(Neuro-Linguistic Programming)的英文缩写。在香港，也有意译为身心语法程式学的。N(Neuro)指的是神经系统，包括大脑和思维过程。L(Linguistic)是指语言，更准确点说，是指从感觉信号的输入到构成意思的过程。P(Programming)是指为产生某种后果而要执行的一套具体指令。即指我们思维上及行为上的习惯，就如同电脑中的程序，可以透过更新软件而改变。故此，NLP被解释为研究我们的大脑如何工作的学问。也因此，NLP译为身心语法程式学或神经语言程序学。

术语2：录音文件识别(ASR)。录音文件识别为一句话识别可对一分钟以内的语音进行实时识别，适用于较短的语音交互场景，如语音搜索、语音指令、语音短消息等。可集成在各类App、智能家电、智能助手等产品中。

术语3：MRCP协议。MRCP协议即媒体资源控制协议(Media Resource ControlProtocol,MRCP)是一种通讯协议，用于语音服务器向客户端提供各种语音服务(如语音识别和语音合成)。MRCP并不定义会话连接，不关心服务器与客户端是如何连接的，MRCP的消息通常是承载于其它协议之上，如RTSP，SIP等。MRCP消息使用类似于HTTP等许多Internet协议一样的文本格式，每个消息包括三部分：首行，消息头，消息体。首行表明消息类型及返回码等信息。消息头包括了若干行内容，每一行都形如"字段名:数值"。消息体包括了消息的详细内容，长度在消息头中指定。类似于HTTP，MRCP使用请求(通常由客户端发起)、响应模式。响应可以简单的确认请求，或者给出关于处理的其它信息。例如，MRCP客户端向服务端请求想要发送一些音频数据以进行处理(比如说语音识别)，为此，服务端可以发送一个包含端口号的响应，因为MRCP并未定义音频数据的传输，所以，必须依靠其它的协议，比如说RTP来进行。

术语4：音频属性-通道数(channels)。音频属性-通道数即声音的通道的数目。常有单声道和立体声之分，单声道的声音只能使用一个喇叭发声(有的也处理成两个喇叭输出同一个声道的声音)，立体声可以使两个喇叭都发声(一般左右声道有分工)，更能感受到空间效果，当然还有更多的通道数。

实施例1

根据本实施例，提供了一种通话内容自提取方法的实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

本实施例所提供的方法实施例可以在服务器或者类似的计算设备中执行。图1示出了一种用于实现通话内容自提取方法的计算设备的硬件结构框图。如图1所示，计算设备可以包括一个或多个处理器(处理器可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器、以及用于通信功能的传输装置。除此以外，还可以包括：显示器、输入/输出接口(I/O接口)、通用串行总线(USB)端口(可以作为I/O接口的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述电子装置的结构造成限定。例如，计算设备还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。

应当注意到的是上述一个或多个处理器和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外，数据处理电路可为单个独立的处理模块，或全部或部分的结合到计算设备中的其他元件中的任意一个内。如本公开实施例中所涉及到的，该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。

存储器可用于存储应用软件的软件程序以及模块，如本公开实施例中的通话内容自提取方法对应的程序指令/数据存储装置，处理器通过运行存储在存储器内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的应用程序的通话内容自提取方法。存储器可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器可进一步包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至计算设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输装置用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算设备的通信供应商提供的无线网络。在一个实例中，传输装置包括一个网络适配器(Network Interface Controller，NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输装置可以为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

显示器可以例如触摸屏式的液晶显示器(LCD)，该液晶显示器可使得用户能够与计算设备的用户界面进行交互。

此处需要说明的是，在一些可选实施例中，上述图1所示的计算设备可以包括硬件元件(包括电路)、软件元件(包括存储在计算机可读介质上的计算机代码)、或硬件元件和软件元件两者的结合。应当指出的是，图1仅为特定具体实例的一个实例，并且旨在示出可存在于上述计算设备中的部件的类型。

在上述运行环境下，根据本实施例的第一个方面，提供了一种通话内容自提取方法，该方法可以应用到机器人客服系统中，用于识别客户在沟通过程中的情绪。图2示出了该方法的流程示意图，参考图2所示，该方法包括：

S202：获取单次通话产生的通话音频，并将所述通话音频转换为通话文本。

在本发明实施例中，参见图3所示，客户拨打400电话，客服接通后，可以通过MRCP服务，采用双声道的方式单独采集客户和客服的声音，并将一通电话的不同声道的音频流实时传输给后台应用服务。在ASR识别阶段中，后台服务将一通电话的不同声道音频流分别转换成音频文件，然后分别调用ASR服务进行语音转文字操作。在Reids缓存阶段中，通过缓存一通电话中不同声道音频流转换出来的文字信息，当通话结束再将整通电话转换的内容一并取出，以得到单次通话的通话文本。

从而，通过流媒体服务，将通话过程中双方的声音采用双声道的方式分别传输录制，以便于区分不同的角色说了什么内容。通过ASR算法不断的将实时音频流转换为通话文字，拿到通话文本，既可以做坐席人员礼貌用语的检查，又可以检查坐席人员是否存在违规词。

在本发明实施例中，还可以通过采集整通通话的音频文件后再进行声道分离的方式获取所述单次通话中不同声道的音频文件。具体为，先通过一般的音频采集设备采集所述单次通话产生的音频，得到整通所述单次通话的音频文件，然后再对整通通话的音频文件进行声道分离，生成所述单次通话中不同声道的音频文件。最后，调用ASR服务，将所述所述单次通话中不同声道的音频文件分别进行语音转文字操作，以得到所述单次通话中两个声道的音频文件对应的通话文本。

从而，提供了不同的音频文件获取方式，以供相关人员根据需求进行选择使用。并且，通过ASR算法也可以将两个声道的音频文件转换为通话文字，拿到通话文本，既可以做坐席人员礼貌用语的检查，又可以检查坐席人员是否存在违规词。

S204：利用预设的语义识别模型，对所述通话文本进行语义识别，生成所述通话文本的语义信息。

在本发明实施例中，参见图3所示，系统拿到本次通话的通话文本后，可以通过NLP服务，将从缓存中提取的两个声道转换后的通话文本分别送入NLP服务中预先配置的已完成训练的语义识别模型中，提取每个声道的通话文本的语义信息，无须坐席人员或质检人员手动录入信息。其中，该语义识别模型为现有的任意一个能够进行文本语义识别的人工智能模型，本实施例使用本应用场景中(客服通话的业务场景中)产生的多个通话文本作为训练样本，对现有的语义识别模型进行了适应性的训练，直至语义识别模型的识别精度满足要求。

S206：根据所述语义信息，分析所述单次通话中的每个角色的通话意图，并根据分析的结果，生成每个角色的通话总结信息。

在本发明实施例中，参见图3所示，系统通过NLP服务提取出每个声道的通话文本的语义信息后，自动整理NLP识别的结果，分析所述单次通话中的每个角色的通话意图，并根据分析的结果，生成每个角色的通话总结信息。其中。客户的通话总结信息包括：客户的意图、情绪、是否解决、客户反馈的问题打标签等信息。坐席人员的通话总结信息包括：坐席人员的解决方案、情绪、是否使用了违规词、是否说了规定的礼貌用语以及坐席话术是否合规等信息。

S208：将所述每个角色的通话总结信息返回至前端业务系统。

在本发明实施例中，参见图3所示，系统生成每个角色的通话总结信息后，需要将所述每个角色的通话总结信息返回至前端业务系统，由前端业务系统自动回显到输入框中供坐席人员检查修正。如没问题，坐席人员可直接提交。如有不妥，坐席人员手动修改即可提交。从而，大大地提高了坐席人员的工作效率。

在本发明实施例中，对于坐席人员手动修正时输入的修正信息，系统会单独记录，并使用修正后的通话总结信息，对所述预设的语义识别模型进行优化训练，以不断提高语义识别模型的准确率。

其中，本发明的关键点有：

(1)使用MRCP类似功能的通讯协议完成一通电话的多通道传输通话音频流的方式，区分不同角色的通话内容。

(2)基于人工智能的ASR技术讲通话内容转换成通话文本信息，将通话内容送入NLP语义识别算法完成客户的意图提取、情绪分析、问题是否解决状态判断、客户问题自动打标签归类；坐席的处理方案总结，坐席情绪分析，坐席是否使用了违规词，是否说了规定的礼貌用语，客服话术的合规校验等。

相比于现有技术，本发明通过流媒体服务，将通话过程中双方的声音采用双声道的方式分别传输录制，以便于区分不同的角色说了什么内容。采用了AI算法不断的将实时音频流转换为通话文字信息。通过意图识别提取每个角色的通话内容主旨，情绪等信息，可以自动根据提取到的信息给客户打标签，识别客户情绪，识别坐席的通话用语是否规范。并在通话结束后，自动对通话文本归纳总结，情绪的分析，将双方的通话内容，形成对应的总结信息返回给前端业务系统参考。

综上所述，在本发明中，在客服通话的业务场景中，可以产生以下效果：

1、坐席与客户的通话采用双声道方式录制，能够区分出彼此的角色。

2、可以通过ASR算法将不同角色的电话内容转换成通话内容文本，拿到通话内容文本，既可以做坐席人员礼貌用语的检查，又可以检查坐席人员是否存在违规词，可应用的点就多了很多。

3、拿到通话内容的文本信息，再通过NLP做语义提取，情绪分析等，可以自动生成本通电话的客户诉求，坐席通话小结，双方情绪情况等内容，无须坐席人员或质检人员手动录入信息。

4、整个过程中，AI算法作为系统的大脑，将过去繁琐枯燥的工作智能化，坐席只需要做最终结果的审核，如有不妥手动修改即可，大大地提高了坐席人员的工作效率。

从而，本发明不仅可以自动根据提取到的语义信息给客户打标签和识别客户情绪，还可以识别坐席人员的通话用语是否规范以及是否存在违规词。并在通话结束后，自动生成每个角色的通话总结信息，并返回给前端业务系统，无须坐席人员或质检人员手动录入信息，坐席只需要做最终结果的审核，如有不妥手动修改即可，大大地提高了坐席人员的工作效率的同时也降低了企业用人成本。进而解决了现有技术中存在的与通话相关的内容需要坐席人员手动总结，接听效率低下的技术问题。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

实施例2

图4示出了根据本实施例所述的通话内容自提取装置400，该装置400与根据实施例1的第一个方面所述的方法相对应。参考图4所示，该装置400包括：通话音频获取及转换模块410，用于获取单次通话产生的通话音频，并将所述通话音频转换为通话文本；语义识别模块420，用于利用预设的语义识别模型，对所述通话文本进行语义识别，生成所述通话文本的语义信息；通话意图分析及总结模块430，用于根据所述语义信息，分析所述单次通话中的每个角色的通话意图，并根据分析的结果，生成每个角色的通话总结信息；总结信息反馈模块440，用于将所述每个角色的通话总结信息返回至前端业务系统。

可选地，通话音频获取及转换模块410具体用于：基于流媒体服务，采用双声道的方式单独采集所述单次通话中不同声道的音频流；将采集到的不同声道的音频流实时传输至后台应用服务，以获取到所述单次通话中第一声道的第一音频流和第二声道的第二音频流；将所述第一音频流和所述第二音频流分别转换成对应的第一音频文件和第二音频文件；调用ASR服务，将所述第一音频文件和所述第二音频文件分别进行语音转文字操作，以得到所述单次通话中两个声道的音频流对应的文字信息；缓存所述单次通话中两个声道的音频流对应的文字信息，并在所述单次通话结束时将与整通通话对应的文字信息一并提取出来，以得到所述通话文本。

可选地，通话音频获取及转换模块410还具体用于：采集所述单次通话产生的音频，得到整通所述单次通话的音频文件；对整通所述单次通话的音频文件进行声道分离，生成所述单次通话中不同声道的音频文件；调用ASR服务，将所述所述单次通话中不同声道的音频文件分别进行语音转文字操作，以得到所述单次通话中两个声道的音频文件对应的通话文本。

可选地，语义识别模块420具体用于：将从缓存中提取的两个声道转换后的通话文本分别送入所述预设的语义识别模型，输出每个声道的通话文本的语义信息。

可选地，通话意图分析及总结模块430具体用于：根据所述每个声道的通话文本的语义信息，分析所述单次通话中的客户的通话诉求信息和坐席人员的述求应答信息；根据所述通话诉求信息，确定所述客户的通话意图信息和通话情绪信息；根据所述述求应答信息，确定所述坐席人员的通话小结信息和情绪通话情绪信息；根据所述客户的通话意图信息和通话情绪信息，生成所述客户的通话总结信息；根据所述坐席人员的通话小结信息和情绪通话情绪信息，生成所述坐席人员的通话总结信息。

可选地，该装置400还包括：修正信息接收模块，用于接收所述单次通话中的坐席人员输入的与通话总结信息对应的修正信息；优化训练模块，用于根据修正后的通话总结信息，对所述预设的语义识别模型进行优化训练。

从而根据本实施例，不仅可以自动根据提取到的语义信息给客户打标签和识别客户情绪，还可以识别坐席人员的通话用语是否规范以及是否存在违规词。并在通话结束后，自动生成每个角色的通话总结信息，并返回给前端业务系统，无须坐席人员或质检人员手动录入信息，坐席只需要做最终结果的审核，如有不妥手动修改即可，大大地提高了坐席人员的工作效率的同时也降低了企业用人成本。进而解决了现有技术中存在的与通话相关的内容需要坐席人员手动总结，接听效率低下的技术问题。

实施例3

图5示出了根据本实施例所述的通话内容自提取装置500，该装置500与根据实施例1的第一个方面所述的方法相对应。参考图5所示，该装置500包括：处理器510；以及存储器520，与处理器510连接，用于为处理器510提供处理以下处理步骤的指令：获取单次通话产生的通话音频，并将所述通话音频转换为通话文本；利用预设的语义识别模型，对所述通话文本进行语义识别，生成所述通话文本的语义信息；根据所述语义信息，分析所述单次通话中的每个角色的通话意图，并根据分析的结果，生成每个角色的通话总结信息；将所述每个角色的通话总结信息返回至前端业务系统。

可选地，存储器520还用于为处理器510提供处理以下处理步骤的指令：接收所述单次通话中的坐席人员输入的与通话总结信息对应的修正信息；根据修正后的通话总结信息，对所述预设的语义识别模型进行优化训练。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种通话内容自提取方法，其特征在于，包括：

获取单次通话产生的通话音频，并将所述通话音频转换为通话文本；

利用预设的语义识别模型，对所述通话文本进行语义识别，生成所述通话文本的语义信息；

根据所述语义信息，分析所述单次通话中的每个角色的通话意图，并根据分析的结果，生成每个角色的通话总结信息；

将所述每个角色的通话总结信息返回至前端业务系统。

2.根据权利要求1所述的方法，其特征在于，获取单次通话产生的通话音频，并将所述通话音频转换为通话文本的操作，包括：

基于流媒体服务，采用双声道的方式单独采集所述单次通话中不同声道的音频流；

将采集到的不同声道的音频流实时传输至后台应用服务，以获取到所述单次通话中第一声道的第一音频流和第二声道的第二音频流；

将所述第一音频流和所述第二音频流分别转换成对应的第一音频文件和第二音频文件；

调用ASR服务，将所述第一音频文件和所述第二音频文件分别进行语音转文字操作，以得到所述单次通话中两个声道的音频流对应的文字信息；

缓存所述单次通话中两个声道的音频流对应的文字信息，并在所述单次通话结束时将与整通通话对应的文字信息一并提取出来，以得到所述通话文本。

3.根据权利要求1所述的方法，其特征在于，获取单次通话产生的通话音频，并将所述通话音频转换为通话文本的操作，还包括：

采集所述单次通话产生的音频，得到整通所述单次通话的音频文件；

对整通所述单次通话的音频文件进行声道分离，生成所述单次通话中不同声道的音频文件；

调用ASR服务，将所述所述单次通话中不同声道的音频文件分别进行语音转文字操作，以得到所述单次通话中两个声道的音频文件对应的通话文本。

4.根据权利要求2或者3所述的方法，其特征在于，利用预设的语义识别模型，对所述通话文本进行语义识别，生成所述通话文本的语义信息的操作，包括：

将从缓存中提取的两个声道转换后的通话文本分别送入所述预设的语义识别模型，输出每个声道的通话文本的语义信息。

5.根据权利要求4所述的方法，其特征在于，根据所述语义信息，分析所述单次通话中的每个角色的通话意图，并根据分析的结果，生成每个角色的通话总结信息的操作，包括：

根据所述每个声道的通话文本的语义信息，分析所述单次通话中的客户的通话诉求信息和坐席人员的述求应答信息；

根据所述通话诉求信息，确定所述客户的通话意图信息和通话情绪信息；

根据所述述求应答信息，确定所述坐席人员的通话小结信息和情绪通话情绪信息；

根据所述客户的通话意图信息和通话情绪信息，生成所述客户的通话总结信息；

根据所述坐席人员的通话小结信息和情绪通话情绪信息，生成所述坐席人员的通话总结信息。

6.根据权利要求1所述的方法，其特征在于，还包括：

接收所述单次通话中的坐席人员输入的与通话总结信息对应的修正信息；

根据修正后的通话总结信息，对所述预设的语义识别模型进行优化训练。

7.一种存储介质，其特征在于，所述存储介质包括存储的程序，其中，在所述程序运行时由处理器执行权利要求1至6中任意一项所述的方法。

8.一种通话内容自提取装置，其特征在于，包括：

通话音频获取及转换模块，用于获取单次通话产生的通话音频，并将所述通话音频转换为通话文本；

语义识别模块，用于利用预设的语义识别模型，对所述通话文本进行语义识别，生成所述通话文本的语义信息；

通话意图分析及总结模块，用于根据所述语义信息，分析所述单次通话中的每个角色的通话意图，并根据分析的结果，生成每个角色的通话总结信息；

总结信息反馈模块，用于将所述每个角色的通话总结信息返回至前端业务系统。

9.根据权利要求8所述的装置，其特征在于，所述通话音频获取及转换模块具体用于：

10.一种通话内容自提取装置，其特征在于，包括：

处理器；以及

存储器，与所述处理器连接，用于为所述处理器提供处理以下处理步骤的指令：

将所述每个角色的通话总结信息返回至前端业务系统。