CN114022192A

CN114022192A - 一种基于智能营销场景的数据建模方法及系统

Info

Publication number: CN114022192A
Application number: CN202111221787.0A
Authority: CN
Inventors: 李鹏伟; 冯鑫; 王彤; 马啸阳
Original assignee: Bairong Yunchuang Technology Co ltd
Current assignee: Bairong Yunchuang Technology Co ltd
Priority date: 2021-10-20
Filing date: 2021-10-20
Publication date: 2022-02-08

Abstract

本发明提供了一种基于智能营销场景的数据建模方法及系统，获得通话记录，所述通话记录包括文本信息、语音信息；对所述文本信息进行特征提取，获得文本特征；对所述语音信息进行特征提取，获得语音特征；将所述文本特征、语音特征进行特征融合；将所述融合特征信息输入一层全联接层，构建双模态模型；对所述双模态模型进行训练，获得双模态神经网络模型，训练数据均包括文本特征与语音特征的融合特征信息以及标识成单意向率的标识信息。解决了现有技术中存在处理输入特征的相关性效果差，对于通话记录中语音信息的特征提取能力差，模型预测精准度较低的技术问题，达到了对营销客户的精准分析，降低营销成本，提高营销效率的效果。

Description

一种基于智能营销场景的数据建模方法及系统

技术领域

本发明涉及智能营销领域，具体涉及一种基于智能营销场景的数据建模方法及系统。

背景技术

智能营销指的是以大数据和人工智能为技术基础，通过智能分析和预测营销活动中隐藏的模式和发展趋势，提升企业营销的效率和效果的一种新型营销方式。相比传统营销采用数据分析技术对非结构化数据的处理存在局限，在数据的规范和预测上存在一定的滞后，智能营销则能够快速分析大规模、多样化的营销数据集，从数据中学习并表现出灵活的应变能力，可以不断自我优化并实时预测发展趋势，更有效地理解用户行为并及时响应用户的需求变化。

目前用于智能营销的信息分析和预测的实现主要有两种技术途径，其中，第一种是通过逻辑回归模型，但该模型在处理输入特征之间的相关性方面效果不佳，第二种是神经网络模型，该模型对于通话类数据的特征仅能提取语义特征，难以获得客户的个性化信息，召回效果差。

但本申请发明人在实现本申请实施例中发明技术方案的过程中，发现上述技术至少存在如下技术问题：

现有技术存在主要将通话记录文本作为训练数据，输入模型的数据信息较为单一，且难以将通话记录中语音信息和文本信息的特征进行融合分析，使得模型预测精准度较低。

发明内容

针对现有方法中的缺陷，本申请实施例的目的是，通过提供一种基于智能营销场景的数据建模方法及系统，解决了现有技术中存在的现有技术存在主要将通话记录文本作为训练数据，输入模型的数据信息较为单一，且难以将通话记录中语音信息和文本信息的特征进行融合分析，使得模型预测精准度较低的技术问题，达到了将通话录音中的情感特征与文本信息融合在一起，通过增加模型的输入维度，充分挖掘营销过程中客户的多维特征，最终达到对营销客户的精准分析，降低营销成本，提高营销效率的技术效果。

鉴于上述问题，提出了本申请实施例提供一种基于智能营销场景的数据建模方法及系统。

一方面，本申请实施例提供了一种基于智能营销场景的数据建模方法，其中，所述方法包括：获得通话记录，所述通话记录包括文本信息、语音信息；对所述文本信息进行特征提取，获得文本特征；对所述语音信息进行特征提取，获得语音特征；将所述文本特征、语音特征进行特征融合，获得融合特征信息；将所述融合特征信息输入一层全联接层，通过回归逻辑进行分类预测，构建双模态模型；对所述双模态模型进行训练，获得双模态神经网络模型，所述双模态神经网络模型为通过多组训练数据经过训练获得，其中，每组训练数据均包括文本特征与语音特征的融合特征信息以及标识成单意向率的标识信息。

另一方面，本申请实施例还提供了一种基于智能营销场景的数据建模系统，其中，所述系统包括：第一获得单元，所述第一获得单元用于获得通话记录，所述通话记录包括文本信息、语音信息；第一提取单元，所述第一提取单元用于对所述文本信息进行特征提取，获得文本特征；第二提取单元，所述第二提取单元用于对所述语音信息进行特征提取，获得语音特征；第一融合单元，所述第一融合单元用于将所述文本特征、语音特征进行特征融合，获得融合特征信息；第一构建单元，所述第一构建单元用于将所述融合特征信息输入一层全联接层，通过回归逻辑进行分类预测，构建双模态模型；第一训练单元，所述第一训练单元用于对所述双模态模型进行训练，获得双模态神经网络模型。

另一方面，本申请实施例还提供了一种基于智能营销场景的数据建模系统，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，所述处理器执行所述程序时实现上述第一方面任一项所述方法的步骤。

本申请实施例中提供的一个或多个技术方案，至少有如下技术效果或优点：

本申请实施例基于某营销场景获得通话记录，所述通话记录包括文本信息、语音信息；对所述文本信息进行特征提取，获得文本特征；对所述语音信息进行特征提取，获得语音特征；将所述文本特征、语音特征进行特征融合，获得融合特征信息；将所述融合特征信息输入一层全联接层，通过回归逻辑进行分类预测，构建双模态模型；对所述双模态模型进行训练，获得双模态神经网络模型，所述双模态神经网络模型为通过多组训练数据经过训练获得，其中，每组训练数据均包括文本特征与语音特征的融合特征信息以及标识成单意向率的标识信息。基于此，能够构建一种基于智能营销场景的数据建模方法，达到了将通话录音中的情感特征与文本信息融合在一起，通过增加模型的输入维度，充分挖掘营销过程中客户的多维特征，最终达到了对营销客户的精准分析，降低营销成本，提高营销效率的技术效果。

上述说明仅是本申请技术方案的概述，为了能够更清楚了解本申请的技术手段，而可依照说明书的内容予以实施，并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂，以下特举本申请的具体实施方式。

附图说明

通过阅读参照以下附图对非限制性实施例所做的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为本申请实施例提供的一种基于智能营销场景的数据建模方法的流程示意图；

图2为本申请实施例另一种基于智能营销场景的数据建模方法的文字特征提取流程示意图；

图3为本申请实施例另一种基于智能营销场景的数据建模方法的语音特征提取流程示意图；

图4为本申请实施例另一种基于智能营销场景的数据建模方法的文本特征与语音融合，获得融合特征信息的流程示意图；

图5为本申请实施例另一种基于智能营销场景的数据建模方法的根据所述通话记录，获得训练数据的流程示意图；

图6为本申请实施例一种基于智能营销场景的数据建模系统的结构示意图；

图7为本申请实施例示例性电子设备的结构示意图。

附图标记说明：第一获得单元11，第一提取单元12，第二提取单元13，第一融合单元14，第一构建单元15，第一训练单元16，电子设备50，处理器51，存储器52，输入装置53，输出装置54。

具体实施方式

本申请实施例通过提供一种基于智能营销场景的数据建模方法及系统，解决了现有技术中存在的现有技术存在主要将通话记录文本作为训练数据，输入模型的数据信息较为单一，且难以将通话记录中语音信息和文本信息的特征进行融合分析，使得模型预测精准度较低的技术问题，达到了将通话录音中的情感特征与文本信息融合在一起，通过增加模型的输入维度，充分挖掘营销过程中客户的多维特征，最终达到对营销客户的精准分析，降低营销成本，提高营销效率的技术效果。

下面，将参考附图对本申请的示例实施例中的技术方案进行清楚、详细的描述。显然，所描述的实施例仅是本申请的一部分实施例，而不是本申请的全部实施例，应理解，本申请不受这里描述的示例实施例的限制。基于本申请的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请的保护范围。

申请概述

目前，现有技术中存在输入特征的相关性效果差，对于通话记录中语音信息的特征提取能力差，加入模型分析的特征因素单一，模型预测精准度较低的技术问题。

针对上述技术问题，本申请实施例提供的技术方案总体思路如下：

本申请实施例提供一种基于智能营销场景的数据建模方法及系统，其中，所述方法包括：获得通话记录，所述通话记录包括文本信息、语音信息；对所述文本信息进行特征提取，获得文本特征；对所述语音信息进行特征提取，获得语音特征；将所述文本特征、语音特征进行特征融合，获得融合特征信息；将所述融合特征信息输入一层全联接层，通过回归逻辑进行分类预测，构建双模态模型；对所述双模态模型进行训练，获得双模态神经网络模型，所述双模态神经网络模型为通过多组训练数据经过训练获得，其中，每组训练数据均包括文本特征与语音特征的融合特征信息以及标识成单意向率的标识信息。

为了更好地理解上述技术方案，下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。

实施例一

如图1所示，本申请实施例提供了一种基于智能营销场景的数据建模方法，其中，所述方法包括：

步骤S100：获得通话记录，所述通话记录包括文本信息、语音信息；

具体而言，销售人员向顾客推荐产品时，双方在沟通过程中所表达的语义信息和情绪变化信息与销售人员最终是否成功销售出产品有很大关联，获得所述通话记录，所述通话记录包括文本信息、语音信息，即为获得销售人员向顾客推荐产品过程中产生的语音记录，所述文本信息指的是所述通话记录中的销售人员和顾客在进行语言表达时所产生的文本信息，所述语音信息是指通话过程中发出的声音信息，其中所述声音信息包含销售人员和顾客在通话时产生的声音中包含的声学信息和情感信息，所述文本信息中包含的语义信息和所述语音信息中包含的声学信息和情感信息可以反映出顾客对销售人员表达内容和方式的情感变化，提取所述通话记录的文本信息和语音信息是构建智能营销模型的数据基础。

步骤S200：对所述文本信息进行特征提取，获得文本特征；

步骤S300：对所述语音信息进行特征提取，获得语音特征；

具体而言，所述通话记录中产生的所述文本信息包含有基于单词和单词概率的语义信息，将语义信息进行提取获得所述文本信息，产生的所述语音信息包含有韵律学特征、谱相关特征、声音质量特征等声学特征以及所述语音信息中包含的情感特征，本发明是通过采用ASR系统对获得的所述通话记录进行所述文本信息和所述语音信息进行特征提取，ASR系统是以语音为研究对象，通过语音信号处理和模式识别自动识别和理解人类口述的语言，即将获得的所述通话记录输入ASR系统，然后对所述通话录音进行端点检测，即去除多余的静音和非说话声音，降噪以及语音分帧后提取出关键数据与参数，其次对所述通话记录中的通话语音的特征向量进行统计模式识别，得到所述通话记录中包含的所述文本信息，对所述文本信息和语音信息进行特征提取，获得文本特征和语音特征，之后再对比所述通话记录的参考模型库中的所述通话记录样本等对相似度进行度量，最后可对所述文本特征和所述语音特征进行识别，对获得的所述文本特征和语音特征进行分析可以得出客户在成功接受推销产品的过程中与未成功接受推销出产品的过程中的区别，可根据获得的区别调整推销策略。

步骤S400：将所述文本特征、语音特征进行特征融合，获得融合特征信息；

具体而言，所述特征融合是将不同尺度的特征进行融合进而提高分割性能的一个重要手段，将所述文本特征和所述语音特征进行融合之前首先对所述文本特征和所述语音特征通过结合前向搜索算法和后向搜索算法进行特征选择，降低原始特征信息的冗余性，然后对特征进行加权处理，在基于矩阵构建特征融合算法，继而获得融合特征信息。将所述文本特征和所述语音特征进行所述特征融合是用于加强维度不同的所述文本信息和所述语音信息之间的关联性，将所述文本特征和所述语音特征进行融合可以提高智能营销的精准度和准确度。

步骤S500：将所述融合特征信息输入一层全联接层，通过回归逻辑进行分类预测，构建双模态模型；

具体而言，所述全连接层中每一个节点都与上一层的所有节点相连，用来把前边提取到的特征综合起来，通过卷积神经网络对所述融合特征信息进行训练之后可获得全连接层的权重，然后根据各特征节点的权重进行加权求和，将所述融合特征信息输入通过一层全连接计算后获得预测结果并将其变为矩阵形式，然后将所获得的预测结果通过逻辑回归模型进行训练，构建出所述双模态模型，所述双模态模型即为将所述文本信息和所述语音信息进行处理后在通过逻辑回归模型进行分类预测，其结果是对所述文本特征和所述语音特征进行性融合后的进一步优化，可提高对所述文本特征和所述语音特征识别的准确度。

步骤S600：对所述双模态模型进行训练，获得双模态神经网络模型，所述双模态神经网络模型为通过多组训练数据经过训练获得，其中，每组训练数据均包括文本特征与语音特征的融合特征信息以及标识成单意向率的标识信息。

具体而言，将对所述双模态模型进行训练，即为将所述文本特征信息和所述语音特征信息以及所述标识成单意向率的标识信息随机选取一部分用于训练，一部分作为测试集，然后根据训练结果对模型进行评估，若训练结果与测试集差距较大则采用梯度下降法进行优化，是的损失函数最小，进而获得双模态神经网络模型，最后可将所述通话记录输入所述双模态神经网络，所述通话记录通过所述双模态神经网络进行处理计算后可挖掘出客户在接受推销过程中的多维特征，达到对客户的精准分析。

进一步的，如图2所示，步骤S200还包括：

步骤S201：通过查表法将所述文本信息转换为输入向量；

步骤S202：对所述输入向量进行编码，并采用多种不同卷积核大小进行特征提取，获得所述文字特征。

具体而言，所述查表法指的是通过容器将对应关系进行存储，可通过运算得出相应关系中的其中一方的结果，在通过这个结果在容器中找对应的另一个内容，本实施例通过将所述通话记录中的语言转换成文本后获得所述文本信息，将所述文本信息包含的所有字符进行提取并去重构成字符库，字符按照出现次数由多到少进行排列，然后将字符进行向量化处理，生成Bert字节向量，Bert是基于自注意力机制的用于处理自然语言的通用模型，从而获得所述输入向量，然后采用TextCNN网络进行编码，其中TextCNN网络是通过分词，再建立词典以及单词索引，然后将文本用单词索引号表示，即实现对字节的编码，由于各个字节含义不同，所以通过多种不同卷积核大小特征提取，也就是对所述文本信息的特征进行提取，获得所述文字特征，所述文字特征是获得客户语义特征的基础。

进一步的，如图3所示，步骤S300还包括：

步骤S301：通过开源工具对所述语音信息进行特征提取，获得第一特征、第二特征，其中，所述第一特征为40维特征，所述第二特征为100维特征；

步骤S302：将所述第一特征与所述第二特征进行拼接，获得第三特征，所述第三特征为140维特征；

步骤S303：对所述第三特征进行编码，并采用多种不同卷积核大小进行特征提取，获得所述语音特征。

具体而言，通过开源工具对所述语音信息进行特征提取是对所述语音信息进行预处理的过程，即该开源工具首先将所述语音信息通过高速滤波器对所述语音信息分帧、加窗是是的语音信号在微观上是平稳且连续的，再通过快速傅里叶变换和三角带通滤波器等其他变换以及计算获得所述第一特征和所述第二特征，所述第一特征和所述第二特征是经过为了降低运算维度降维处理的40维的Fbank特征和100维X-Vector特征，将所述第一特征与所述第二特征进行拼接，获得第三特征，其中所述第一特征与所述第二特征进行拼接是通过Concat算法进行拼接，进而将40维的所述第一特征和100维的所述第二特征拼接获得140维的所述第三特征，与所述字节编码方式相同，通过TextCNN网络对所述第三特征进行编码，采用不同大小的卷积核进行计算进行特征提取，进而获得所述语音特征，所述语音特征是表达情绪变化和目的倾向的重要信息，因此对所述语音特征的提取对确定客户喜好倾向是至关重要的。

进一步的，如图4所示，步骤S400还包括：

步骤S401：将所述文本特征、所述语音特征通过自注意力机制进行计算，并将所述文本特征计算结果加到所述语音特征上，得到语音特征表达；

步骤S402：将所述本文特征、所述语音特征表达通过融合算法进行融合，获得所述融合特征信息。

具体而言，将所述文本特征、所述语音特征通过自注意力机制进行计算，将所述文本特征与所述语音特征通过自注意力机制进行操作，语音特征经TextCNN module得到输出E_Q，文本特征经TextCNN module得到E_T，分别经过权重矩阵W_Q，W_K，W_V进行特征变换，得到Q，K，V。即语音特征经TextCNN module得到输出编码E_Q，与权重矩阵W_Q相乘做特征变换，得到Q，同理文本特征经TextCNN module得到输出编码E_T，分别与权重矩阵W_K和W_V相乘得到K和V，权重矩阵即模型需要学习的参数，其中公式如下：

Q＝W_QWQ，K＝E_TW_k，V＝E_TW_k，

自注意力机制的计算公式，其中，dk一般选取TextCNNmodule输出编码的维度，例如d_k＝768。

自注意力机制可以捕获同一个句子中单词之间的一些句法特征或者语义特征，且更容易捕获句子中长距离的相互依赖的特征，自注意力机制可对所述文本特征进行ScaledDot-Product Attention操作，使得每个文本节点都可以对其他文本节点信息进行捕获和保留，进而捕获文本节点间长距离的依赖关系，然后通过注意力机制将所述文本特征计算结果加到所述语音特征上，注意力机制可以从大量的信息中快速筛选出高价值信息，将所述语音特征基于注意力机制进行加权计算得到语音特征表达，再将所述本文特征、所述语音特征表达通过Fusion Gate Mechanism算法进行融合，所述Fusion Gate Mechanism算法的计算公式如下，

其中，G＝σ(W_GQQ+W_GZZ+b_G)为双模态特征融合计算公式，Q为语音特征，Z为语音特征和文本特征经过自注意力机制后的特征，可以理解为文本特征的一次线性特征变换，计算G，可以理解为Q和Z分别和一个W权重相乘，做前向计算，最后经过一个非线性的激活函数sigmoid后得到向量表示；σ表示非线性的激活函数sigmoid。

Q_F＝tanh(W_FQQ+b_Q)为语音特征的计算结果，Q和权重矩阵W前向计算后的特征，tanh为激活函数

Z_F＝tanh(W_FQZ+b_Z)为文本特征的计算结果，Z和相应的权重矩阵W前向计算后的特征，tanh为激活函数；

F＝G·Q_F+(1-G)·Z_F网络通过学习前面所有的W参数，学习到最优的融合参数，从而使得F的特征输出为最优，类似于一个门控机制；其中，上述公式中的W都是需要学习的参数，所以各不相同，使用了不同的下标。

该过程是将所述文本特征和所述语音特征进行联合形成一个新的特征向量，再将所述文本特征和所述语音特征通过最大最小函数将所述信息特征固定于特定尺度，然后对不同类型的特征进行分类并结合分类结果，进而获得所述融合特征信息，所述融合特征信息是将所述文本特征和所述语音特征进行融合的特征。

进一步的，如图5所示，步骤S100还包括：

步骤S101：根据所述通话记录，获得交易信息；

步骤S102：当所述交易信息为第一结果时，所述通话记录为第一类信息，其中，所述第一结果为存在交易结果；

步骤S103：当所述交易信息为第二结果时，所述通话记录为第二类信息，其中，所述第二结果为不存在交易结果；

步骤S104：获得训练数据数量要求；

步骤S105：基于所述第一类信息、所述第二类信息，根据所述训练数据数量要求，获得训练数据。

具体而言，销售人员进行产品推销时所产生的结果存在差异，因此需要根据所述通话记录，获得交易信息指的是根据所述通话记录的内容获取营销结果，即确定推销人员是否成功向客户销售出产品，当所述交易信息为第一结果时，所述通话记录为第一类信息，其中，所述第一结果为存在交易结果，即销售人员成功向客户推销出产品时，将该推销过程所产生的通话记录记为所述第一类信息，同时，将该交易信息记为所述第一结果，即所述第一结果为推销成功，当所述交易信息为第二结果时，所述通话记录为第二类信息，其中，所述第二结果为不存在交易结果，所述第二结果指的是销售人员未能成功向客户推销出产品，即推销失败，将该推销过程生成的所述通话记录记为所述第二类信息，所述获得训练数据要求是指获得所构建的所述卷积神经网络模型输入的数据格式信息，基于所述第一类信息、所述第二类信息，根据所述训练数据数量要求，获得训练数据，是根据所述训练数据数量要求，将所述第一类信息和所述第二类信息进行预处理，转换成卷积神经网络模型的数据输入格式，获得所属训练数据，在卷积神经网络模型中加入所述第一类信息和所述第二类信息使得模型在训练的参数信息更加完善，可以更好地对所述语音信息和所述文本信息与所述第一类信息和所述第二类信息之间的关系进行构建，最终提高智能营销的精准性。

进一步的，所述文字特征的最大维数为768维。

具体而言，将所述文本信息转换为输入向量，对所述输入向量进行编码，再将卷积核参数设置为[2，3，4，5]，即卷积核长度分别为2，为3，为4，和为5，宽度均为1，目的是获得两个字、三个字、四个字和五个字的特征表示，根据参数设定，获得所述文字特征的最大维数为768维。

进一步的，所述语音特征的帧长为25ms，帧移为10ms。

具体而言，在宏观上所述帧长需要足够短来保证所定义所述帧长内所述声音信号是平稳的，同时，要满足快速傅里叶变换的条件在微观上所述帧长必须包括足够多的振动周期，基于男生和女生的声音赫兹选择将所述帧长定为25ms，加窗的目的是让一帧信号的幅度在两端渐变到0，相邻两针的其实未知的时间差叫做帧移，做科学的取法是取帧长的一半或者固定取10ms，因此本实施例将所述帧长定义为10ms。

根据上述实施例步骤对模型进行测试，在输入所述训练数据之前，首先对模型参数进行设置，模型参数设置如下：

本实施例输入的所述训练数据包括总数4w条正样本，4w条负样本，为了避免过拟合，训练20个epoch，最终测试集上效果为准确率91％，召回率91％，在营销场景中，要保证模型召回率，要用一个比较大的阈值做判定，选择0.7作为阈值，效果最好，最终准确率80％，召回率99％，所述准确率和所述召回率标准可达到企业营销水平。

与现有技术相比，本发明具有如下的有益效果：

1、获得通话记录，所述通话记录包括文本信息、语音信息；对所述文本信息进行特征提取，获得文本特征；对所述语音信息进行特征提取，获得语音特征；将所述文本特征、语音特征进行特征融合，获得融合特征信息；将所述融合特征信息输入一层全联接层，通过回归逻辑进行分类预测，构建双模态模型；对所述双模态模型进行训练，获得双模态神经网络模型，所述双模态神经网络模型为通过多组训练数据经过训练获得，其中，每组训练数据均包括文本特征与语音特征的融合特征信息以及标识成单意向率的标识信息，达到了将通话录音中的情感特征与文本信息融合在一起，通过增加模型的输入维度，充分挖掘营销过程中客户的多维特征，最终达到对营销客户的精准分析，降低营销成本，提高营销效率的效果。

实施例二

基于与前述实施例中一种基于智能营销场景的数据建模方法同样的发明构思，本发明还提供了一种基于智能营销场景的数据建模系统，如图6所示，所述系统包括：

第一获得单元11，所述第一获得单元11用于获得通话记录，所述通话记录包括文本信息、语音信息；

第一提取单元12，所述第一提取单元12用于对所述文本信息进行特征提取，获得文本特征；

第二提取单元13，所述第二提取单元13用于对所述语音信息进行特征提取，获得语音特征；

第一融合单元14，所述第一融合单元14用于将所述文本特征、语音特征进行特征融合，获得融合特征信息；

第一构建单元15，所述第一构建单元15用于将所述融合特征信息输入一层全联接层，通过回归逻辑进行分类预测，构建双模态模型；

第一训练单元16，所述第一训练单元16用于对所述双模态模型进行训练，获得双模态神经网络模型。

进一步的，所述系统还包括：

第一输入单元，所述第一输入单元用于通过查表法将所述文本信息转换为输入向量；

第三提取单元，所述第三提取单元用于对所述输入向量进行编码，并采用多种不同卷积核大小进行特征提取，获得所述文字特征。

进一步的，所述系统还包括：

第四提取单元，所述第四提取单元用于通过开源工具对所述语音信息进行特征提取，获得第一特征、第二特征；

第一拼接单元，所述第一拼接单元用于将所述第一特征与所述第二特征进行拼接，获得第三特征；

第五提取单元，所述第五提取单元用于对所述第三特征进行编码，并采用多种不同卷积核大小进行特征提取，获得所述语音特征。

进一步的，所述系统还包括：

第一计算单元，所述第一计算单元用于将所述文本特征、所述语音特征通过自注意力机制进行计算，并将所述文本特征计算结果加到所述语音特征上，得到语音特征表达；

第二融合单元，所述第二融合单元用于将所述本文特征、所述语音特征表达通过融合算法进行融合，获得所述融合特征信息。

进一步的，所述系统还包括：

第二获得单元，所述第二获得单元用于根据所述通话记录，获得交易信息；

第一判断单元，所述第一判断单元用于当所述交易信息为第一结果时，所述通话记录为第一类信息；

第二判断单元，所述第二判断单元用于当所述交易信息为第二结果时，所述通话记录为第二类信息；

第三获得单元，所述第三获得单元用于获得训练数据数量要求；

第四获得单元，所述第四获得单元用于基于所述第一类信息、所述第二类信息，根据所述训练数据数量要求，获得训练数据。

进一步的，所述系统还包括：

第一设定单元，所述第一设定单元用于设定所述文字特征的最大维数为768维。

进一步的，所述系统还包括：

第二设定单元，所述第二设定单元用于设定所述语音特征的帧长为25ms，帧移为10ms。

前述图1实施例一中的一种基于智能营销场景的数据建模方法的各种变化方式和具体实例同样适用于本实施例的一种基于智能营销场景的数据建模系统，通过前述对一种基于智能营销场景的数据建模方法的详细描述，本领域技术人员可以清楚的知道本实施例中一种基于智能营销场景的数据建模系统，所以为了说明书的简洁，在此不再详述。

实施例三

下面参考图7来描述本申请实施例的电子设备。

图7图示了根据本申请实施例的电子设备的结构示意图。

基于与前述实施例中一种基于智能营销场景的数据建模方法，本发明还提供一种基于智能营销场景的数据建模系统，下面，参考图7来描述根据本申请实施例的电子设备。该电子设备可以是可移动设备本身，或与其独立的单机设备，其上存储有计算机程序，该程序被处理器执行时实现前文所述方法的任一方法的步骤。

如图7所示，电子设备50包括一个或多个处理器51和存储器52。

处理器51可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元，并且可以控制电子设备50中的其他组件以执行期望的功能。

存储器52可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器51可以运行所述程序指令，以实现上文所述的本申请的各个实施例的方法以及/或者其他期望的功能。

在一个示例中，电子设备50还可以包括：输入装置53和输出装置54，这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。

本发明实施例提供的一种基于智能营销场景的数据建模方法，其中，所述方法包括：获得通话记录，所述通话记录包括文本信息、语音信息；对所述文本信息进行特征提取，获得文本特征；对所述语音信息进行特征提取，获得语音特征；将所述文本特征、语音特征进行特征融合，获得融合特征信息；将所述融合特征信息输入一层全联接层，通过回归逻辑进行分类预测，构建双模态模型；对所述双模态模型进行训练，获得双模态神经网络模型，所述双模态神经网络模型为通过多组训练数据经过训练获得，其中，每组训练数据均包括文本特征与语音特征的融合特征信息以及标识成单意向率的标识信息的技术效果，达到了将通话录音中的情感特征与文本信息融合在一起，通过增加模型的输入维度，充分挖掘营销过程中客户的多维特征，最终达到对营销客户的精准分析，降低营销成本，提高营销效率的效果。

通过以上的实施方式的描述，所属领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件的方式来实现，当然也可以通过专用硬件包括专用集成电路、专用CPU、专用存储器、专用元器件等来实现。一般情况下，凡由计算机程序完成的功能都可以很容易地用相应的硬件来实现，而且，用来实现同一功能的具体硬件结构也可以是多种多样的，例如模拟电路、数字电路或专用电路等。但是，对本申请而言更多情况下软件程序实现是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在可读取的存储介质中，如计算机的软盘、U盘、移动硬盘、ROM、RAM、磁碟或者光盘等，包括若干指令用以使得一台计算机设备执行本申请各个实施例所述的方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。

所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从计算机可读存储介质向另计算机可读存储介质传输，所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘(Solid State Disk，SSD))等。

应理解，说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本申请的至少一个实施例中。因此，在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。此外，这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。应理解，在本申请的各种实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

另外，本文中术语“系统”和“网络”在本文中常被可互换使用。本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

应理解，在本申请实施例中，“与A相应的B”表示B与A相关联，根据A可以确定B。但还应理解，根据A确定B并不意味着仅仅根据A确定B，还可以根据A和/或其它信息确定B。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

总之，以上所述仅为本申请技术方案的较佳实施例而已，并非用于限定本申请的保护范围。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种基于智能营销场景的数据建模方法，其中，所述方法包括：

获得通话记录，所述通话记录包括文本信息、语音信息；

对所述文本信息进行特征提取，获得文本特征；

对所述语音信息进行特征提取，获得语音特征；

将所述文本特征、语音特征进行特征融合，获得融合特征信息；

将所述融合特征信息输入一层全联接层，通过回归逻辑进行分类预测，构建双模态模型；

对所述双模态模型进行训练，获得双模态神经网络模型，所述双模态神经网络模型为通过多组训练数据经过训练获得，其中，每组训练数据均包括文本特征与语音特征的融合特征信息以及标识成单意向率的标识信息。

2.如权利要求1所述的方法，其中，所述对所述文本信息进行特征提取，获得文本特征，包括：

通过查表法将所述文本信息转换为输入向量；

对所述输入向量进行编码，并采用多种不同卷积核大小进行特征提取，获得所述文字特征。

3.如权利要求1所述的方法，其中，所述对所述语音信息进行特征提取，获得语音特征，包括：

通过开源工具对所述语音信息进行特征提取，获得第一特征、第二特征，其中，所述第一特征为40维特征，所述第二特征为100维特征；

将所述第一特征与所述第二特征进行拼接，获得第三特征，所述第三特征为140维特征；

对所述第三特征进行编码，并采用多种不同卷积核大小进行特征提取，获得所述语音特征。

4.如权利要求1所述的方法，其中，所述将所述文本特征、语音特征进行特征融合，获得融合特征信息，包括：

将所述文本特征、所述语音特征通过自注意力机制进行计算，并将所述文本特征计算结果加到所述语音特征上，得到语音特征表达；

将所述本文特征、所述语音特征表达通过融合算法进行融合，获得所述融合特征信息。

5.如权利要求1所述的方法，其中，所述获得通话记录之后，包括：

根据所述通话记录，获得交易信息；

当所述交易信息为第一结果时，所述通话记录为第一类信息，其中，所述第一结果为存在交易结果；

当所述交易信息为第二结果时，所述通话记录为第二类信息，其中，所述第二结果为不存在交易结果；

获得训练数据数量要求；

基于所述第一类信息、所述第二类信息，根据所述训练数据数量要求，获得训练数据。

6.如权利要求2所述的方法，其中，所述文字特征的最大维数为768维。

7.如权利要求3所述的方法，其中，所述语音特征的帧长为25ms，帧移为10ms。

8.一种基于智能营销场景的数据建模系统，其中，所述建模系统包括：

第一获得单元，所述第一获得单元用于获得通话记录，所述通话记录包括文本信息、语音信息；

第一提取单元，所述第一提取单元用于对所述文本信息进行特征提取，获得文本特征；

第二提取单元，所述第二提取单元用于对所述语音信息进行特征提取，获得语音特征；

第一融合单元，所述第一融合单元用于将所述文本特征、语音特征进行特征融合，获得融合特征信息；

第一构建单元，所述第一构建单元用于将所述融合特征信息输入一层全联接层，通过回归逻辑进行分类预测，构建双模态模型；

第一训练单元，所述第一训练单元用于对所述双模态模型进行训练，获得双模态神经网络模型。

9.一种基于智能营销场景的数据建模系统，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，所述处理器执行所述程序时实现权利要求1-7任一项所述方法的步骤。