CN118051582A

CN118051582A - 基于电话语音分析的潜客识别方法、装置、设备及介质

Info

Publication number: CN118051582A
Application number: CN202410017679.9A
Authority: CN
Inventors: 张星亮; 余涛
Original assignee: Shenzhen Workec Technology Co ltd
Current assignee: Shenzhen Workec Technology Co ltd
Priority date: 2024-01-05
Filing date: 2024-01-05
Publication date: 2024-05-17

Abstract

本发明公开了基于电话语音分析的潜客识别方法、装置、设备及介质，方法包括：对输入的电话录音进行识别得到目标文本信息，从目标文本信息中提取得到关键词信息并获取对应的关键词特征向量，通过情绪识别模型对关键词特征向量进行识别得到包含客户及企业员工分别对应的情感状态的情感识别信息，根据意向识别模型对情感识别信息及目标文本信息进行意向识别得到意向识别信息。上述的潜客识别方法，能够对电话录音进行识别以区分客户及企业员工分别对应的文本信息，并分别获取客户及企业员工对应的情感状态，从而基于两方的情感状态准确识别得到意向识别信息，能够有效分离客户与企业员工的语音从而提高进行潜在客户识别的精确性。

Description

基于电话语音分析的潜客识别方法、装置、设备及介质

技术领域

本发明涉及人工智能技术领域，尤其涉及一种基于电话语音分析的潜客识别方法、装置、设备及介质。

背景技术

语音企业员工广泛应用于对客户进行服务中，通过企业员工与客户进行电话沟通，从而进行录音得到电话语音，可通过对电话语音进行进一步分析从而判断客户是否为潜在客户，然而现有的潜在客户识别方法在应用过程中还存在一些问题。传统技术方法中的潜在客户识别方法往往至通过简单的关键词匹配以判断客户是否为潜在客户，而缺乏对客户情感和意向的深入分析，并且现有技术方法中也并未有效区分、分离客户与企业员工的语音，导致潜在客户的识别精确性较差。因此，现有技术方法中对电话语音进行识别的技术方法存在识别精确性较差的问题。

发明内容

本发明实施例提供了一种基于电话语音分析的潜客识别方法、装置、设备及介质，旨在解决现有技术方法中对电话语音进行识别的技术方法所存在的识别精确性较差的问题。

第一方面，本发明实施例提供了一种基于电话语音分析的潜客识别方法，其中，所述方法包括：

接收所输入的电话录音，根据预置的语音识别模型对所述电话录音进行识别以得到与所述电话录音对应的目标文本信息；所述目标文字信息中包含客户及企业员工分别对应的文本信息；

根据预置的关键词提取规则从所述目标文本信息中提取得到对应的关键词信息；

根据预存的文本处理规则获取与所述关键词信息对应的关键词特征向量；

将所述关键词特征向量输入预置的情感识别模型以获取与所述关键词特征向量对应的情感识别信息；所述情感识别信息包含客户及企业员工分别对应的情感状态；

根据预存的意向识别模型对所述情感识别信息及所述目标文本信息进行意向识别，以获取客户是否表达购买意向的意向识别信息。

第二方面，本发明实施例还提供了一种基于电话语音分析的潜客识别装置，其中，所述装置用于执行如上述第一方面所述的基于电话语音分析的潜客识别方法，所述装置包括：

目标文本信息获取单元，用于接收所输入的电话录音，根据预置的语音识别模型对所述电话录音进行识别以得到与所述电话录音对应的目标文本信息；所述目标文字信息中包含客户及企业员工分别对应的文本信息；

关键词信息获取单元，用于根据预置的关键词提取规则从所述目标文本信息中提取得到对应的关键词信息；

关键词特征向量获取单元，用于根据预存的文本处理规则获取与所述关键词信息对应的关键词特征向量；

情感识别信息获取单元，用于将所述关键词特征向量输入预置的情感识别模型以获取与所述关键词特征向量对应的情感识别信息；所述情感识别信息包含客户及企业员工分别对应的情感状态；

意向识别信息获取单元，用于根据预存的意向识别模型对所述情感识别信息及所述目标文本信息进行意向识别，以获取客户是否表达购买意向的意向识别信息。

第三方面，本发明实施例还提供了一种计算机设备，其中，所述设备包括处理器、通信接口、存储器和通信总线，其中，处理器、通信接口、存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现上述第一方面所述的基于电话语音分析的潜客识别方法的步骤。

第四方面，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，其中，所述计算机程序被处理器执行时实现如上述第一方面所述的基于电话语音分析的潜客识别方法的步骤。

本发明实施例提供了一种基于电话语音分析的潜客识别方法、装置、设备及介质，方法包括：对输入的电话录音进行识别得到目标文本信息，从目标文本信息中提取得到关键词信息并获取对应的关键词特征向量，通过情绪识别模型对关键词特征向量进行识别得到包含客户及企业员工分别对应的情感状态的情感识别信息，根据意向识别模型对情感识别信息及目标文本信息进行意向识别得到意向识别信息。上述的潜客识别方法，能够对电话录音进行识别以区分客户及企业员工分别对应的文本信息，并分别获取客户及企业员工对应的情感状态，从而基于两方的情感状态准确识别得到意向识别信息，能够有效分离客户与企业员工的语音从而提高进行潜在客户识别的精确性。

附图说明

为了更清楚地说明本发明实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的基于电话语音分析的潜客识别方法的方法流程图；

图2为本发明实施例提供的基于电话语音分析的潜客识别装置的示意性框图；

图3为本发明实施例提供的计算机设备的示意性框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

请参阅图1，如图所示，本发明申请的实施例提供了一种基于电话语音分析的潜客识别方法，该方法应用于终端设备中，该方法通过安装于终端设备中的应用软件进行执行，操作人员可输入电话录音至终端设备，终端设备执行上述基于电话语音分析的潜客识别方法以对电话录音进行识别从而得到是否表达购买意向的意向识别信息，终端设备可以是台式电脑、笔记本电脑、平板电脑或手机等设备；其中电话录音即为客户与企业员工进行电话沟通所录制的音频信息，电话录音中包含客户及企业员工分别对应的语音片段，其中，客户对应的语音片段即包含于电话录音中的客户单声道，企业员工对应的语音片段即包含于电话录音中的企业员工单声道。如图1所示，该方法包括步骤S110～S150。

S110、接收所输入的电话录音，根据预置的语音识别模型对所述电话录音进行识别以得到与所述电话录音对应的目标文本信息。

接收所输入的电话录音，根据预置的语音识别模型对所述电话录音进行识别以得到与所述电话录音对应的目标文本信息；所述目标文字信息中包含客户及企业员工分别对应的文本信息。操作人员可将一段或者多段电话录音输入至终端设备，一段电话录音也即是对应与一个客户进行电话沟通所录制得到的一段连续、完整的音频，例如，电话录音的格式可以是wma、wav、mp3等。则终端设备可对电话录音进行识别，具体的，对每一段电话录音进行识别的处理过程均相同，以下重点描述对一段电话录音进行识别的具体处理过程，则对多段电话录音分别进行潜客识别的技术方法可以此类推。对一段电话录音进行识别可得到对应的一个意向识别信息，则对多段电话录音分别进行识别可得到对应的多个意向识别信息。其中，企业员工也可以是企业的客服或企业的销售人员。

在具体实施例中，步骤S110，包括子步骤：根据所述语音识别模型中的声学模型对所述电话录音进行切分以得到所述电话录音中所包含的多个音素；根据所述语音识别模型中的语音特征词典对所述音素进行匹配以将所述音素转换为拼音信息；根据所述语音识别模型中的语义解析模型对所述拼音信息进行语义解析以得到与所述电话录音对应的初始文本信息；根据所述电话录音中各语音片段对应的声道对所述初始文本信息进行声道分离，得到与客户单声道对应的文本信息及与企业员工单声道对应的文本信息作为目标文本信息。

具体的，可根据语音识别模型中的声学模型对一段电话录音进行切分，从而得到一段电话录音中所包含的多个音素，具体的，电话录音中所包含的音频均由多个字符发音的音素而组成，一个字符的音素包括该字符发音的频率和音色。声学模型中包含所有字符发音的音素，则通过将电话录音中的音频信息与声学模型中所有的音素进行匹配，从而获取与音素对应的音频信息作为单个字符的音频，即可对电话录音中单个字符的音素进行切分，通过切分最终得到电话录音中所包含的多个音素。

根据语音识别模型中的语音特征词典即可对切分得到的音素进行匹配，从而将音素转换为拼音信息。语音特征词典中包含所有字符拼音对应的音素信息，即可将电话录音中包含的音素与字符拼音对应的音素信息进行匹配，以将单个字符的音素转换为语音特征词典中与该音素相匹配的字符拼音，对电话录音中各音素对应的字符拼音，从而将电路录音中所包含的所有音素均转换为拼音信息。

进一步的，根据语音识别模型中的语义解析模型对所得到的拼音信息进行语义解析，从而得到与电话录音对应的初始文本信息。语义解析模型中包含拼音信息与文字信息之间所对应的映射关系，通过语义解析模型中所包含的映射关系即可对上述步骤中得到的拼音信息进行语义解析，从而将拼音信息转换为对应的初始文本信息。

例如，一段拼音信息中包含“jiè，shào”，语音解析模型中所对应的文字信息为“介绍”，即可获取介绍与前后其它文字信息进行拼接组合，从而得到初始文本信息。

初始文本信息中包含客户及企业员工混杂在一起的文本信息，为对客户及企业员工分别对应的文本信息进行区分，可根据电话录音中各语音片段分别对应的声道对初始文本信息进行声道分离处理，从而得到与客户单声道对应的文本信息及与企业员工单声道对应的文本信息，客户单声道也即对应客户进行发声的单一声道，企业员工单声道也即对应企业员工进行发声的单一声道；获取两部分文本信息后即可作为与电话录音对应的目标文本信息。

具体的，上述对电话录音进行解析的过程中，可确定初始文本信息中每一文字在电话录音中对应音频的录音时间点，电话录音中包含各声道对应的语音片段的录音时间区间，则初始文本信息中录音时间点位于某一录音时间区间内的多个文字即组合为与该录音时间区间对应声道的一段文本；通过这一方式即可实现根据电话录音中各语音片段分别对应的声道对初始文本信息进行声道分离处理。一段电话录音通常仅由客户单声道及企业员工单声道组成，则可对应获取得到与客户单声道对应的文本信息及与企业员工单声道对应的文本信息作为目标文本信息。

S120、根据预置的关键词提取规则从所述目标文本信息中提取得到对应的关键词信息。

根据预置的关键词提取规则从所述目标文本信息中提取得到对应的关键词信息。进一步的，根据关键词提取规则对目标文本信息进行关键词提取，从而得到对应的关键词信息；其中，关键词信息包含与客户对应的第一关键词及与企业员工对应的第二关键词，关键词提取规则也即是对目标文本信息中客户及企业员工分别对应的文本信息进行关键词提取的具体规则。

在具体实施例中，步骤S120，包括子步骤：从所述关键词提取规则中获取与客户对应的客户关键词提取模板及与企业员工对应的企业员工关键词提取模板；根据所述客户关键词提取模板对所述目标文本信息中与客户对应的文本信息进行关键词提取，得到与所述客户关键词提取模板相匹配的第一关键词；根据所述企业员工关键词提取模板对所述目标文本信息中与企业员工对应的文本信息进行关键词提取，得到与所述企业员工关键词提取模板相匹的第二关键词；将所述第一关键词及所述第二关键词进行组合，得到所述关键词信息。

关键词提取规则中包含多个关键词提取模板，每一关键词提取模板均对应包含关键字符及语言句式。具体的，可从关键词提取规则中分别获取与客户对应的客户关键词提取模板，以及与企业员工对应的企业员工关键词提取模板。例如，针对与客户对应的客户关键词提取模板包含与客户需求、问题及购买意向对应的提取模板；与问题对应的某一提取模板的关键字符为“请问/问一下”，其中语言句式为“副词结尾”且“末尾字符声调为一声或四声”。

根据客户关键词提取模板对目标文本信息中与客户对应的文本信息进行逐句匹配，从而获取客户对应的文本信息中与客户关键词提取模板中任一提取模板相匹配的语句，获取相匹配的语句中所包含的所有字符作为对应的第一关键词。同样的，可根据企业员工关键词提取模板对目标文本信息中与企业员工对应的文本信息进行逐句匹配，从而获取与企业员工关键词提取模板中任一提取模板相匹配的语句中所包含的所有字符作为对应的第二关键词。

将所提取得到的第一关键词与第二关键词进行组合，即可得到关键词信息。

S130、根据预存的文本处理规则获取与所述关键词信息对应的关键词特征向量。

根据预存的文本处理规则获取与所述关键词信息对应的关键词特征向量。文本处理规则即为对获取到的关键词信息进行转换处理以得到关键词特征向量的规则信息，通过文本处理规则即可将关键词信息对应转换为关键词特征向量。其中，文本处理规则中包括字符筛选规则、字符长度信息及字符向量表，字符筛选规则也即是对关键词信息中无意义的字符进行筛除的规则信息，字符长度信息也即为对筛选处理后的筛选文字所包含的字符数进行统一的数量信息。字符向量表也即是对每一字符的向量信息进行记录的数据表。

在具体实施例中，步骤S130，包括子步骤：根据所述文本处理规则中的字符筛选规则对所述关键词信息进行筛选，得到与所述关键词信息中第一关键词对应的第一筛选文字及与所述关键词信息中第二关键词对应的第二筛选文字；根据所述文本处理规则中的字符长度信息分别对所述第一筛选文字及所述第二筛选文字进行标准化处理，得到对应的第一待转换文字及第二待转换文字；根据所述文字处理规则中的字符向量表分别对所述第一待转换文字及所述第二待转换文字进行向量转换，从而得到对应的第一文字特征向量及第二文字特征向量作为关键词特征向量。

可根据字符筛选规则对关键词信息中的第一关键词及第二关键词进行筛选，分别得到与第一关键词对应的第一筛选文字，以及与第二关键词对应的第二筛选文字；具体的，字符筛选规则可将第一关键词及第二关键词中意义不大的字符筛除，得到的筛选文字中包含的字符均为具有实际意义的字符，例如字符筛选规则中预设的无意义的字符可以是语气词“嗯”、“哦”等。第一筛选文字中至少包含对一个语句进行筛选得到的字符，同样的，第二筛选文字中也至少包含对一个语句进行筛选得到的字符。

根据所述字符长度信息对第一筛选文字及第二筛选文字分别进行标准化处理，以得到与第一筛选文字对应的第一待转换文字，以及与第二筛选文字对应的第二待转换文字。筛选文字(第一筛选文字或第二筛选文字)中每一语句所包含的字符数量并不相等，为方便对筛选文字中各语句进行后续处理，需根据字符长度信息对筛选文字中各语句进行处理，以得到字符数量与字符长度信息相等的处理语句。具体的，字符长度信息可记为N，若筛选文字的某一语句中所包含的字符数量超过字符长度信息N，则截取该语句中前N个字符作为处理语句；若筛选文字的某一语句中所包含的字符数量少于字符长度信息N，则使用空字符(使用□进行表示)将该语句的字符进行补齐以得到包含N个字符的处理语句。获取与第一筛选文字对应的处理语句作为第一待转换文字，获取与第二筛选文字对应的处理语句作为第二待转换文字。

字符向量表中包含每一字符对应的一个1×M维的向量，该1×M维的向量可用于对字符的特征进行量化。根据第一待转换文字或第二待转换文字即可从字符向量信息表中，获取与待转换文字(第一待转换文字或第二待转换文字)中每一字符对应的一个1×M维向量，将该待转换文字中每一语句包含的N个字符所对应的1×M维向量进行组合，即可得到一个N×M的向量作为该语句对应的语句特征向量。获取与第一待转换文字对应的语句特征向量组合为第一文字特征向量，获取与第二待转换文字对应的语句特征向量组合为第二文字特征向量，并将第一文字特征向量与第二文字特征向量组合作为关键词特征向量。

S140、将所述关键词特征向量输入预置的情感识别模型以获取与所述关键词特征向量对应的情感识别信息。

将所述关键词特征向量输入预置的情感识别模型以获取与所述关键词特征向量对应的情感识别信息；所述情感识别信息包含客户及企业员工分别对应的情感状态。可通过预先配置的情感识别模型对关键词特征向量中包含的第一文字特征向量及第二文字特征向量分别进行情感识别，从而得到情感识别信息；其中，情感识别信息包含与客户对应的情感状态以及与企业员工对应的情感状态。具体的，情感识别模型中包含多个输入节点、多个输出节点及中间层，输入节点的数量可以是N+2，其中N个输入节点用于输入第一文字特征向量(或第二文字特征向量)中的一组语句特征向量，一个节点用于输入情感识别模型对上一语句特征向量进行分析得到的状态分类值，一个节点用于输入语句特征向量的序号数量。每一输出节点均对应一个情感状态，输出节点可输出当前输入信息与每一输出节点对应的匹配度，获取匹配度最高的一个输出节点，即可确定与输入信息对应的情感状态；每一情感状态可对应转换为一个状态分类值，例如，情感状态可分为积极、有兴趣、中性、无兴趣、消极，感情状态也可以是更具体的感情维度信息。与上述情感状态对应的状态分类值分别为1，0.6，0，-0.6，-1。则每一组语句特征向量中所包含的向量值，与上一语句特征向量对应的状态分类值及本次输入的语句特征向量的序号数量组合为情感识别模型的输入信息。获取第一文字特征向量(或第二文字特征向量)中最后一组语句特征向量对应的情感状态，通过上述技术方法，即可分别获取到与第一文字特征向量对应的情感状态，以及与第二文字特征向量对应的情感状态，从而得到情感识别信息。

对情感识别信息中客户的感情状态是否为负面情绪或者其他需要特别处理的情况，例如，判断客户是否表现出烦躁、对脏话不满等负面情感。若判定情感识别信息中客户的情感状态不为负面情绪或者并非其他需要特别处理的情况，则继续执行步骤S150。

若判定情感识别信息中客户的情感状态为负面情绪或者其他需要特别处理的情况，则生成终端弹屏提醒并发送至与企业员工对应的终端。通过终端弹屏提醒可以使企业员工察看终端上所显示的提示信息，以便企业员工采取相应的委婉方式结束电话或调整服务策略。

基于终端弹屏提醒及情感识别信息，企业员工可以采取适当的措施，例如以更委婉的方式结束电话，转移到更合适的处理通道，或者调整服务方法。这个流程充分利用情感识别技术，帮助企业员工团队更好地理解和回应用户情感，提升客户服务体验。在实施过程中，需要确保情感识别模型的准确性，并在生产环境中进行测试和调整，以适应不同场景和用户行为。

S150、根据预存的意向识别模型对所述情感识别信息及所述目标文本信息进行意向识别，以获取客户是否表达购买意向的意向识别信息。

根据预存的意向识别模型对所述情感识别信息及所述目标文本信息进行意向识别，以获取客户是否表达购买意向的意向识别信息。进一步的，可通过意向识别模型对情感识别信息及目标文本信息进行意向识别，从而得到意向识别信息，意向识别信息即可用于体现客户是否表达购买意向。意向识别模型即是用于情感识别信息及文本特征向量进行识别的模型，情绪识别模型包括长短期记忆网络(Long Short-Term Memory，LSTM)、权重层及神经网络。

在具体实施例中，步骤S150，包括子步骤：根据所述文本处理规则获取与所述目标文本信息对应的文本特征向量；根据所述情感识别信息对所述意向识别模型中的权重层进行权重值配置，得到配置后的权重层；将所述文本特征向量输入所述意向识别模型中的长短期记忆网络以得到对应的记忆网络输出信息；根据进行配置后的权重层及所述意向识别模型中的神经网络对所述记忆网络输出信息进行计算，以获取对应的意向识别评分；根据所述意向识别模型中的评分判别规则对所述意向识别评分进行判别，得到客户是否表达购买意向的意向识别信息。

具体的，可根据文本处理规则获取与目标文本信息对应的文本特征向量，具体处理过程与上述获取关键词特征向量的过程相同，在此不作赘述。

进一步的，可根据情感识别信息对意向识别模型中的权重层进行权重配置，得到配置后的权重层，权重层中包含N个权重数值。可获取与情感识别信息中客户的情感状态对应的第一组权重配置值，以及与情感识别信息中企业员工的情感状态对应的第二组权重配置值，第一组权重配置值及第二组权重配置值中均包含N个数值，将第一组权重配置值中各位置的数值与第二组权重配置值中对应位置的数值相乘，从而得到N个乘积数值，每一乘积数值均有第一组权重配置值中的一个数值与第二组权重配置值中的一个数值相乘得到。

之后，可将文本特征向量中的每一语句的特征向量输入长短期记忆网络，每一语句均对应一个1×N维的特征向量；具体步骤包括：①计算遗忘门输出信息：f(t)＝σ(Wf×h(t_1)+Uf×X(t)+bf)，其中f(t)为遗忘门参数值，0≤f(t)≤1；σ为激活函数计算符号，σ可具体表示为f(x)＝(1+e^(-x))^-1，则将Wf×h(t_1)+Uf×X(t)+bf的计算结果作为x输入激活函数σ即可计算得到f(t)；Wf、Uf及bf均为本细胞中公式的参数值；h(t_1)为上一细胞的输出门信息；X(t)为文字特征向量中第一个字符对应的向量，也即是输入当前细胞的1×M维的向量，若当前细胞为长短期记忆网络中的第一个细胞，则h(t_1)为零。②计算输入门信息：i(t)＝σ(Wi×h(t_1)+Ui×X(t)+bi)；a(t)＝tanh(Wa×h(t-1)+Ua×X(t)+ba)，其中i(t)为输入门参数值，0≤i(t)≤1；Wi、Ui、bi、Wa、Ua及ba均为本细胞中公式的参数值，a(t)为所计算得到的输入门向量值，a(t)为一个1×M维的向量。③更新细胞记忆信息：C(t)＝C(t_1)⊙f(t)+i(t)⊙a(t)，C为每一次计算过程所累计的细胞记忆信息，C(t)为当前细胞所输出的细胞记忆信息，C(t_1)为上一细胞所输出的细胞记忆信息，⊙为向量运算符，C(t_1)⊙f(t)的计算过程为将向量C(t_1)中每一维度值分别与f(t)相乘，所计算的得到的向量维度与向量C(t_1)中的维度相同。④计算输出门信息：o(t)＝σ(Wo×h(t_1)+Uo×X(t)+bo)；h(t)＝o(t)⊙tanh(C(t))，o(t)为输出门参数值，0≤o(t)≤1；Wo、Uo及bo均为本细胞中公式的参数值，h(t)为本细胞的输出门信息，h(t)为一个1×M维的向量。⑤计算当前细胞的输出信息：y(t)＝σ(V×h(t)+c)，V及c均为本细胞中公式的参数值。每一个细胞经过一轮计算后均可计算得到一个输出信息，综合N个细胞的输出信息即可得到一个语句的记忆网络输出信息，一个语句的记忆网络输出信息为一个1×N维的向量。

进行配置后的权重层及意向识别模型中的神经网络对记忆网络输出信息进行计算，以获取对应的意向识别评分。权重层中所包含权重值的数量与语句的记忆网络输出信息中的输出值数量相等，可将所计算得到的记忆网络输出信息与权重层进行相乘，也即是记忆网络输出信息中的第n个维度值与权重层中的第n个权重值相乘(0≤n≤N)，即可得到附加权重值的记忆网络输出信息。将所有附加权重值的记忆网络输出信息同时输入至神经网络的输入节点，每一输入节点均与附加权重值的记忆网络输出信息中向量的一个维度值对应，输入节点与输出节点之间包含全连接层，输入节点与全连接层之间设置有第一公式组，输出节点与全连接层之间设置有第二公式组。其中，第一公式组包含所有输入节点至所有特征单元的公式，第一公式组中的公式均以输入节点值作为输入值、特征单元值作为输出值，第二公式组包含所有输出节点至所有特征单元的公式，第二公式组中的公式均以特征单元值作为输入值、输出节点值作为输出值，神经网络中所包含的每一公式中均拥有对应的参数值。通过神经网络的一个输出节点即可获取到对应的意向识别评分。

之后，再根据意向识别模型中的评分判别规则对所述意向识别评分进行判别，其中评分判别规则中包含至少一个评分区段，可判断所得到的意向识别评分是否位于“表达购买意向”对应的评分区段内，若位于，则得到客户表达购买意向的意向识别信息；若不位于，则得到客户未表达购买意向的意向识别信息。

上述实施例中所公开的基于电话语音分析的潜客识别方法中，方法包括：对输入的电话录音进行识别得到目标文本信息，从目标文本信息中提取得到关键词信息并获取对应的关键词特征向量，通过情绪识别模型对关键词特征向量进行识别得到包含客户及企业员工分别对应的情感状态的情感识别信息，根据意向识别模型对情感识别信息及目标文本信息进行意向识别得到意向识别信息。上述的潜客识别方法，能够对电话录音进行识别以区分客户及企业员工分别对应的文本信息，并分别获取客户及企业员工对应的情感状态，从而基于两方的情感状态准确识别得到意向识别信息，能够有效分离客户与企业员工的语音从而提高进行潜在客户识别的精确性。

本发明实施例还提供一种基于电话语音分析的潜客识别装置，该基于电话语音分析的潜客识别装置可配置于终端设备中，该基于电话语音分析的潜客识别装置用于执行前述的基于电话语音分析的潜客识别方法的任一实施例。具体地，请参阅图2，图2为本发明实施例提供的基于电话语音分析的潜客识别装置的示意性框图。

如图2所示，基于电话语音分析的潜客识别装置100包括目标文本信息获取单元110、关键词信息获取单元120、关键词特征向量获取单元130、情感识别信息获取单元140及意向识别信息获取单元150。

目标文本信息获取单元110，用于接收所输入的电话录音，根据预置的语音识别模型对所述电话录音进行识别以得到与所述电话录音对应的目标文本信息；所述目标文字信息中包含客户及企业员工分别对应的文本信息。

在一具体的实施例中，所述目标文本信息获取单元110，包括：录音切分单元，用于根据所述语音识别模型中的声学模型对所述电话录音进行切分以得到所述电话录音中所包含的多个音素；拼音信息获取单元，用于根据所述语音识别模型中的语音特征词典对所述音素进行匹配以将所述音素转换为拼音信息；初始文本信息获取单元，用于根据所述语音识别模型中的语义解析模型对所述拼音信息进行语义解析以得到与所述电话录音对应的初始文本信息；声道分离单元，用于根据所述电话录音中各语音片段对应的声道对所述初始文本信息进行声道分离，得到与客户单声道对应的文本信息及与企业员工单声道对应的文本信息作为目标文本信息。

关键词信息获取单元120，用于根据预置的关键词提取规则从所述目标文本信息中提取得到对应的关键词信息。

在一具体的实施例中，关键词信息获取单元120，包括：模板获取单元，用于从所述关键词提取规则中获取与客户对应的客户关键词提取模板及与企业员工对应的企业员工关键词提取模板；第一关键词提取单元，用于根据所述客户关键词提取模板对所述目标文本信息中与客户对应的文本信息进行关键词提取，得到与所述客户关键词提取模板相匹配的第一关键词；第二关键词提取单元，用于根据所述企业员工关键词提取模板对所述目标文本信息中与企业员工对应的文本信息进行关键词提取，得到与所述企业员工关键词提取模板相匹的第二关键词；组合单元，用于将所述第一关键词及所述第二关键词进行组合，得到所述关键词信息。

关键词特征向量获取单元130，用于根据预存的文本处理规则获取与所述关键词信息对应的关键词特征向量。

情感识别信息获取单元140，用于将所述关键词特征向量输入预置的情感识别模型以获取与所述关键词特征向量对应的情感识别信息；所述情感识别信息包含客户及企业员工分别对应的情感状态。

意向识别信息获取单元150，用于根据预存的意向识别模型对所述情感识别信息及所述目标文本信息进行意向识别，以获取客户是否表达购买意向的意向识别信息。

在本发明实施例所提供的基于电话语音分析的潜客识别装置应用上述基于电话语音分析的潜客识别方法，对输入的电话录音进行识别得到目标文本信息，从目标文本信息中提取得到关键词信息并获取对应的关键词特征向量，通过情绪识别模型对关键词特征向量进行识别得到包含客户及企业员工分别对应的情感状态的情感识别信息，根据意向识别模型对情感识别信息及目标文本信息进行意向识别得到意向识别信息。上述的潜客识别方法，能够对电话录音进行识别以区分客户及企业员工分别对应的文本信息，并分别获取客户及企业员工对应的情感状态，从而基于两方的情感状态准确识别得到意向识别信息，能够有效分离客户与企业员工的语音从而提高进行潜在客户识别的精确性。

上述基于电话语音分析的潜客识别装置可以实现为计算机程序的形式，该计算机程序可以在如图3所示的计算机设备上运行。

请参阅图3，图3是本发明实施例提供的计算机设备的示意性框图。该计算机设备可以是用于执行基于电话语音分析的潜客识别方法以对电话录音进行识别从而得到是否表达购买意向的意向识别信息的终端设备。

参阅图3，该计算机设备500包括通过通信总线501连接的处理器502、存储器和网络接口505，其中，存储器可以包括存储介质503和内存储器504。

该存储介质503可存储操作系统5031和计算机程序5032。该计算机程序5032被执行时，可使得处理器502执行基于电话语音分析的潜客识别方法，其中，存储介质503可以为易失性的存储介质或非易失性的存储介质。

该处理器502用于提供计算和控制能力，支撑整个计算机设备500的运行。

该内存储器504为存储介质503中的计算机程序5032的运行提供环境，该计算机程序5032被处理器502执行时，可使得处理器502执行基于电话语音分析的潜客识别方法。

该网络接口505用于进行网络通信，如提供数据信息的传输等。本领域技术人员可以理解，图3中示出的结构，仅仅是与本发明方案相关的部分结构的框图，并不构成对本发明方案所应用于其上的计算机设备500的限定，具体的计算机设备500可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

其中，所述处理器502用于运行存储在存储器中的计算机程序5032，以实现上述的基于电话语音分析的潜客识别方法中对应的功能。

本领域技术人员可以理解，图3中示出的计算机设备的实施例并不构成对计算机设备具体构成的限定，在其他实施例中，计算机设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。例如，在一些实施例中，计算机设备可以仅包括存储器及处理器，在这样的实施例中，存储器及处理器的结构及功能与图3所示实施例一致，在此不再赘述。

应当理解，在本发明实施例中，处理器502可以是中央处理单元(CentralProcessing Unit，CPU)，该处理器502还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

在本发明的另一实施例中提供计算机可读存储介质。该计算机可读存储介质可以为易失性或非易失性的计算机可读存储介质。该计算机可读存储介质存储有计算机程序，其中计算机程序被处理器执行时实现上述的基于电话语音分析的潜客识别方法中所包含的步骤。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的设备、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本发明所提供的几个实施例中，应该理解到，所揭露的设备、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为逻辑功能划分，实际实现时可以有另外的划分方式，也可以将具有相同功能的单元集合成一个单元，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接，也可以是电的，机械的或其它的形式连接。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个计算机可读存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的计算机可读存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种基于电话语音分析的潜客识别方法，其特征在于，所述方法包括：

2.根据权利要求1所述的基于电话语音分析的潜客识别方法，其特征在于，所述根据预置的语音识别模型对所述电话录音进行识别以得到与所述电话录音对应的目标文本信息，包括：

根据所述语音识别模型中的声学模型对所述电话录音进行切分以得到所述电话录音中所包含的多个音素；

根据所述语音识别模型中的语音特征词典对所述音素进行匹配以将所述音素转换为拼音信息；

根据所述语音识别模型中的语义解析模型对所述拼音信息进行语义解析以得到与所述电话录音对应的初始文本信息；

根据所述电话录音中各语音片段对应的声道对所述初始文本信息进行声道分离，得到与客户单声道对应的文本信息及与企业员工单声道对应的文本信息作为目标文本信息。

3.根据权利要求2所述的基于电话语音分析的潜客识别方法，其特征在于，所述根据预置的关键词提取规则从所述目标文本信息中提取得到对应的关键词信息，包括：

从所述关键词提取规则中获取与客户对应的客户关键词提取模板及与企业员工对应的企业员工关键词提取模板；

根据所述客户关键词提取模板对所述目标文本信息中与客户对应的文本信息进行关键词提取，得到与所述客户关键词提取模板相匹配的第一关键词；

根据所述企业员工关键词提取模板对所述目标文本信息中与企业员工对应的文本信息进行关键词提取，得到与所述企业员工关键词提取模板相匹的第二关键词；

将所述第一关键词及所述第二关键词进行组合，得到所述关键词信息。

4.根据权利要求1所述的基于电话语音分析的潜客识别方法，其特征在于，所述根据预存的文本处理规则获取与所述关键词信息对应的关键词特征向量，包括：

根据所述文本处理规则中的字符筛选规则对所述关键词信息进行筛选，得到与所述关键词信息中第一关键词对应的第一筛选文字及与所述关键词信息中第二关键词对应的第二筛选文字；

根据所述文本处理规则中的字符长度信息分别对所述第一筛选文字及所述第二筛选文字进行标准化处理，得到对应的第一待转换文字及第二待转换文字；

根据所述文字处理规则中的字符向量表分别对所述第一待转换文字及所述第二待转换文字进行向量转换，从而得到对应的第一文字特征向量及第二文字特征向量作为关键词特征向量。

5.根据权利要求2-4任一项所述的基于电话语音分析的潜客识别方法，其特征在于，所述根据预存的意向识别模型对所述情感识别信息及所述目标文本信息进行意向识别，以获取客户是否表达购买意向的意向识别信息，包括：

根据所述文本处理规则获取与所述目标文本信息对应的文本特征向量；

根据所述情感识别信息对所述意向识别模型中的权重层进行权重值配置，得到配置后的权重层；

将所述文本特征向量输入所述意向识别模型中的长短期记忆网络以得到对应的记忆网络输出信息；

根据进行配置后的权重层及所述意向识别模型中的神经网络对所述记忆网络输出信息进行计算，以获取对应的意向识别评分；

根据所述意向识别模型中的评分判别规则对所述意向识别评分进行判别，得到客户是否表达购买意向的意向识别信息。

6.一种基于电话语音分析的潜客识别装置，其特征在于，所述装置用于执行如权利要求1-5任一项所述的基于电话语音分析的潜客识别方法，所述装置包括：

7.根据权利要求1所述的基于电话语音分析的潜客识别装置，其特征在于，所述目标文本信息获取单元，包括：

录音切分单元，用于根据所述语音识别模型中的声学模型对所述电话录音进行切分以得到所述电话录音中所包含的多个音素；

拼音信息获取单元，用于根据所述语音识别模型中的语音特征词典对所述音素进行匹配以将所述音素转换为拼音信息；

初始文本信息获取单元，用于根据所述语音识别模型中的语义解析模型对所述拼音信息进行语义解析以得到与所述电话录音对应的初始文本信息；

声道分离单元，用于根据所述电话录音中各语音片段对应的声道对所述初始文本信息进行声道分离，得到与客户单声道对应的文本信息及与企业员工单声道对应的文本信息作为目标文本信息。

8.根据权利要求7所述的基于电话语音分析的潜客识别装置，其特征在于，所述关键词信息获取单元，包括：

模板获取单元，用于从所述关键词提取规则中获取与客户对应的客户关键词提取模板及与企业员工对应的企业员工关键词提取模板；

第一关键词提取单元，用于根据所述客户关键词提取模板对所述目标文本信息中与客户对应的文本信息进行关键词提取，得到与所述客户关键词提取模板相匹配的第一关键词；

第二关键词提取单元，用于根据所述企业员工关键词提取模板对所述目标文本信息中与企业员工对应的文本信息进行关键词提取，得到与所述企业员工关键词提取模板相匹的第二关键词；

组合单元，用于将所述第一关键词及所述第二关键词进行组合，得到所述关键词信息。

9.一种计算机设备，其特征在于，所述设备包括处理器、通信接口、存储器和通信总线，其中，处理器、通信接口、存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1-5中任一项所述的基于电话语音分析的潜客识别方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-5中任一项所述的基于电话语音分析的潜客识别方法的步骤。