CN110968795B

CN110968795B - 一种公司形象提升系统的数据关联匹配系统

Info

Publication number: CN110968795B
Application number: CN201911185159.4A
Authority: CN
Inventors: 杨开著; 于灏; 陈睿欣; 郑厚清; 刘睿; 贾德香; 孙艺新; 王西胜; 张炜乐; 陈爽; 曹瑾; 李艳娜; 刘素蔚; 王玓; 王智敏; 陈�光; 柳占杰; 刘威; 高洪达; 李心达
Original assignee: State Grid Energy Research Institute Co Ltd; State Grid Beijing Electric Power Co Ltd
Current assignee: State Grid Energy Research Institute Co Ltd; State Grid Beijing Electric Power Co Ltd
Priority date: 2019-11-27
Filing date: 2019-11-27
Publication date: 2023-06-02
Anticipated expiration: 2039-11-27
Also published as: CN110968795A

Abstract

本发明公开了一种公司形象提升系统的数据关联匹配系统，包括数据关联匹配模块、社交媒体数据抽取模块与客户服务数据，所述数据关联匹配模块由业务关键字抽取模块、深度神经网络关联匹配模块、数据匹配强度训练模块、客户需求预判模块四个子模块组成，其中，所述社交媒体数据抽取模块与深度神经网络关联匹配模块之间通讯连接，所述客户服务数据与业务关键字抽取模块之间通讯连接，所述数据关联匹配模块采用Neural IR的方式对数据进行匹配关联，通过深度神经网络将离散数据转换为语义表示。本发明有效地将公司内部客户服务数据与外部社交媒体数据进行关联融合，解决了社交媒体与公司客户服及舆情监测等数据进行双向辅助决策的关键问题。

Description

一种公司形象提升系统的数据关联匹配系统

技术领域

本发明涉及数据关联匹配技术领域，具体为一种公司形象提升系统的数据关联匹配系统。

背景技术

随着互联网的发展，网络媒体成为一种新的信息传播形式，网络言论活跃已达到前所未有的程度，这种网络来表达观点、传播思想产生舆论压力，达到任何部门、机构都无法忽视的地步。而利用企业内部的客户服务数据，与从海量社交媒体数据中发现企业业务相关的数据进行融合分析，可以更加准确预测客户需求、实现舆论检测等业务。

目前已有的文本关联匹配方法：

1)基于文本相似度：该方法通过接收文本信息，确定所述文本信息的特征向量，将所述特征向量输入至文本相似度模型中，获取所述文本相似度模型输出的特征相似度，再根据所述特征相似度确定至少一个达到预设特征阈值的预设语句以作为所述文本信息的匹配文本。

2)基于文本匹配规则：该方法对待处理文本进行预处理，利用字典树对所述待处理文本进行关键词预匹配，并制定至少一个文本匹配规则模板，将所述待处理文本与所述文本匹配规则模板中的各个短语进行匹配，按照预定规则对经过模板匹配后的匹配结果进行整合处理，并输出经过整合处理后的匹配结果。

但是，上述的两种匹配方法都存在缺陷，如下：

1)基于文本相似度。常见的计算文本相似度的方法有基于字符串的方法、基于信息内容的方法和基于本体的方法。基于字符串的方法仅仅是从文本的字面匹配度出发，以文本的共现和重复程度为衡量标准来计算相似度，忽略了文本的实际语义信息，影响了计算结果的准确性；利用本体计算文本相似度，首先是在词语层次进行计算，然后累加词语相似度获得长文本相似度，对文本整体处理而言计算效率较低，而本体一般需要专家参与建设，耗费大量时间和精力，已有的通用本体存在更新速度慢、词汇量有限等问题，不适用于出现的新型词语；

2)基于文本匹配规则。基于规则的方法通常具有非常高的精度，因为规则是用户定义的。当人类用户定义规则时，我们知道它们是正确的。缺点是这种算法具有非常低的召回率。

本发明意在研究公司社会风险点的溯因方法和需求预判技术，推动社交网络风险监测与公司业务流、数据流和价值流的有效融合，社交媒体数据与客户服务数据的匹配关联是研究关键。而传统基于文本相似度和基于规则的匹配模型虽然精确度很高，但是相对来说召回率低、计算效率低，并不适用于海量社交媒体数据场景下融合异构多态的社交媒体数据。

因此，为能充分利用海量社交媒体数据，提高匹配精确率和召回率，本发明引入信息传播理论和人工智能理论，通过引入深层次语义信息，尝试克服精确匹配带来的问题，从而实现公司业务的超前预判与制定，推动社交网络监测对业务发展的回馈。

发明内容

本发明的目的在于提供一种公司形象提升系统的数据关联匹配系统，以解决上述背景技术中提出的问题。

为实现上述目的，本发明提供如下技术方案：一种公司形象提升系统的数据关联匹配系统，包括数据关联匹配模块、社交媒体数据抽取模块与客户服务数据，所述数据关联匹配模块由业务关键字抽取模块、深度神经网络关联匹配模块、数据匹配强度训练模块、客户需求预判模块四个子模块组成，其中，所述社交媒体数据抽取模块与深度神经网络关联匹配模块之间通讯连接，所述客户服务数据与业务关键字抽取模块之间通讯连接，所述数据关联匹配模块采用Neural IR的方式对数据进行匹配关联，通过深度神经网络将离散数据转换为语义表示；

所述业务关键字抽取模块由学习模块与抽取模块组成，其中，学习模块构建条件概率分布模型，抽取模块利用学习模块的条件概率分布模型，对待抽取的客户服务数据进行标注；

所述社交媒体数据抽取模块提取出的社交媒体数据，与业务关键字抽取模块的业务关键字标注序列，作为深度神经网络关联匹配模块的文本输入数据，经处理后可得到两段文本数据的匹配强度，用于衡量两段文本数据的关联程度，具体步骤如下：

步骤一：映射词向量序列；

步骤二：构建相似度矩阵；

步骤三：通过DRMM模型计算匹配评分；

所述数据匹配强度训练模块，完成关联匹配模型的搭建后，输入具体的业务数据，采用基于Pairwise的learning-to-rank框架、基于hinge损失对整个模型进行训练，根据模型的匹配强度与具体业务数据的匹配标记设置合理的阈值，完成对深度神经网络关联匹配模块的匹配强度阈值训练；

所述客户需求预判模块通过深度神经网络关联匹配模块对业务关键字与社交媒体数据的匹配强度判别，客户需求预判模块分析社交媒体数据，对客户的潜在需求做出预判。

优选的，所述学习模块将有带标注的客户服务数据作训练集，根据已有的标注，通过构建的条件概率分布模型，将其用一个条件概率分布进行表示。

优选的，所述业务关键字抽取模块采用最大熵马尔科夫模型信息抽取技术对关键字进行抽取。

优选的，在所述映射词向量序列中，采用基于统计的中文分词技术对模块的输入文本进行分词，使用n-gram模型实现中文分词。

优选的，在所述构建相似度矩阵中，对于给定的两段待匹配数据，经映射得到词向量序列后，对其做归一化处理，并采用余弦相似度的计算方式计算单词两两之间的相似度，构建相似度矩阵。

优选的，上述所得的相似度矩阵，利用卷积神经网络提取高层次匹配特征，采用了多层感知机对抽取的特征进行映射。

优选的，借鉴DRMM模型，对上述相似度矩阵进行直方图映射的方法分级。

优选的，利用Term Gating Network得到上述提取的高层次匹配特征的权重分布，计算相关性评分。

优选的，所述数据匹配强度训练模块采用Ranking SVM算法实现基于Pairwise的learning-to-rank框架的hinge损失计算。

与现有技术相比，本发明的有益效果是：

本发明通过构建基于深度学习的融合异构多态社交媒体数据的业务相关性匹配模型，根据业务相关数据(如业务关键字)对社交媒体相关内容进行匹配，并将社交媒体上的数据与公司内部的客户服务数据进行关联，克服了传统的匹配精度高，但召回率低的问题，让呈现多维特点的公司客户服务数据与高复杂度和异构多态的社交媒体数据的准确关联成为可能。

该模型在词项精确匹配的基础之上引入深层次语义信息，提高模型的泛化能力，在海量社交媒体数据场景下更好地融合异构多态的社交媒体数据，首次实现公司用户数据和社交媒体中复杂网络节点数据的准确关联。该模型有效地将公司内部客户服务数据与外部社交媒体数据进行关联融合，解决了社交媒体与公司客户服及舆情监测等数据进行双向辅助决策的关键问题。

附图说明

图1为本发明的整体系统框图；

图2为本发明的业务关键字抽取模块工作框图；

图3为本发明的深度神经网络关联匹配模块工作框图；

图4为本发明的数据匹配强度训练模块工作框图。

具体实施方式

下面将对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1至图4，本发明提供一种技术方案：一种公司形象提升系统的数据关联匹配系统，如图1所示，包括数据关联匹配模块、社交媒体数据抽取模块与客户服务数据，所述数据关联匹配模块由业务关键字抽取模块、深度神经网络关联匹配模块、数据匹配强度训练模块、客户需求预判模块四个子模块组成。

如图2所示，业务关键字抽取模块将客户服务数据作为输入，通过其学习模块训练的条件概率分布模型，对客户服务数据进行标注。由于业务关键字提取的处理结果会作为匹配模型的输入，是后者处理的基本数据单元，故关键字提取准确率及召回率的高低直接影响数据关联的作用结果，结合业务关键字提取是面向特定的数据类型，本发明采用最大熵马尔科夫模型信息抽取技术对关键字进行抽取，也可用隐马尔科夫模型、条件随机场、表决感知机模型替代最大熵马尔科夫模型计算标注序列。

在学习模块，需要有带标注的客户服务数据作训练集，每一个样本包含文字单元序列和标注序列，如下所示：

上述表示第i个样本，x部分表示第i个样本的文字单元序列，y部分表示第i个样本的标注序列。根据已有的标注，学习模块构建学习模型，并用一个条件概率分布进行表示。

在抽取模块，利用学习模块的条件概率分布模型，对待抽取的客户服务数据进行标注：

(y_new，1，y_new，2，...，y_new，n)＝arg min P(y_new，1，y_new，2，...，y_new，n|x_new，1，x_new，2，...，x_new，n)

标注方式即找出满足上式最大化目标函数的标注序列，其中P(y_new，1，y_new，2，…，y_new，n|x_new，1，x_new，2，…，x_new，n)的计算方法：

最大化目标函数的标注序列即输出的业务关键字标注序列，其将作为深度神经网络关联匹配模块的文本数据。

如图3所示，社交媒体数据抽取模块提取出的社交媒体数据，与业务关键字抽取模块的业务关键字标注序列，作为深度神经网络关联匹配模块的文本输入数据，经处理后可得到两段文本数据的匹配强度，用于衡量两段文本数据的关联程度。

具体流程如下：

步骤一：映射词向量序列；

采用基于统计的中文分词技术对模块的输入文本进行分词，进一步利用词向量技术将单词序列映射为词向量序列。

本发明使用n-gram模型实现中文分词，如下所示：

P_A(S)＝P(A₁，A₂，A3，...A_k)

其中，S是待分词的句子，A是分词规则，句子S由A₁，A₂，A₃，...A_k这k个词组成。n-gram模型思想是：第n个词的出现只与前面n-1个词相关，而与其它任何词都不相关，整句的概率就是各个词出现概率的乘积。概率最高的分词规则作为分词结果。

步骤二：构建相似度矩阵；

对于给定的两段待匹配数据，经映射得到词向量序列后，对其做归一化处理，并采用余弦相似度的计算方式计算单词两两之间的相似度，构建相似度矩阵。

其中，A_i表示向量A的第i个分量的值，B_i表示向量B的第i个分量的值，n表示向量长度，θ表示向量A和向量B的夹角。相似度矩阵中位置(i，j)对应的元素为第一段数据的第i个词与第二段数据的第j个词的词向量相似度。

步骤三：计算匹配评分；

得到两段文本的相似度矩阵之后，借鉴DRMM模型(还可以借鉴K-NRM模型、PACRR模型以及MatchPyramid模型)，采用卷积神经网络(也可使用循环神经网络)从原始相似度矩阵提取高层次的匹配特征。在高层次特征的基础之上，应用多层感知机对抽取的特征进行映射，将其变换为匹配评分。

基于步骤二计算得出的相似度矩阵，对每个对应单词的相似度进行分级，即映射直方图，例如：

Query：“car”；

Document：”(car，rent，truck，bump，injunction，runway)。

两两计算相似度为(1，0.2，0.7，0.3，-0.1，0.1)，将[-1，1]的区间分为{[-1，-0.5]，[-0.5，-0]，[0，0.5]，[0.5，1]，[1，1]}5个区间。可将原相似度进行统计，可以表示为[0，1，3，1，1]。

其中q指业务关键字

d指社会媒体数据/>

h()指上述映射到直方图的函数，/>

表示每个业务关键字生成直方图的过程。

对每个业务关键字生成的直方图输入到卷积神经网络，如下所示：

表示输入到卷积神经网络的过程。

对上述提取出的高层次匹配特征，使用多层感知机得到权重分布：

利用得到的权重g_i，可以求得业务关键字与社交媒体数据的匹配评分s：

输出的匹配评分将作为评判指标为客户需求预判模块提供支撑。

如图4所示，完成关联匹配模型的搭建后，输入具体的业务数据，采用基于Pairwise的learning-to-rank框架、基于hinge损失对整个模型进行训练，根据模型的匹配强度与具体业务数据的匹配标记设置合理的阈值，完成对深度神经网络关联匹配模块的匹配强度阈值训练，

本发明采用Ranking SVM算法，实现基于Pairwise的二分类排序问题。

具体业务数据形式如下：

其中每个样本包括两个特征向量

和一个标签y_i∈{+1，-1}表示哪一个特征向量应该被排在前边。

Ranking SVM公式如下所示：

ξ_i≥0 i＝1，...，m，

其中

和/>

表示特征向量对之中的第一个和第二个特征向量。||·||表示L₂范数，m表示训练样本的数量，C＞0是一个系数。回归hinge损失函数的最小化：

其中x₊表示函数max(x，0)，

通过深度神经网络关联匹配模块对业务关键字与社交媒体数据的匹配强度判别，客户需求预判模块分析社交媒体数据，对客户的潜在需求做出预判。

①面向社交媒体数据的相关业务类型判别

针对社交媒体上数据异构多态的、特征工程复杂的特点，拟采取在业务专家的帮助下通过复杂特征工程加传统监督学习模型的方式对社交媒体数据的相关业务类型判别，在传统模型的指导下，构建深度神经网络模型对业务类型进行判别，减少特征工程的依赖，提升业务判别的准确性。

首先，对公司的业务进行详细调研和分析，对业务类型进行总结，构建公司的业务类型分类体系。由公司业务相关专家对历史数据的业务类型标签进行标注，在此基础之上训练分类机器学习模型对社交媒体数据的业务类型进行判别。社交网络上的数据复杂且具备异构多态的特点，需要复杂的特征工程手段对复杂的数据进行处理，包括特征抽取、缺失值处理、特征变换、特征交叉、特征归一化等，构建特征工程模块需要较强的领域知识，因此这部分需要在相关领域专家的指导下完成。进一步，考虑到特征工程的复杂程度和成本，以及深度神经网络强大的表示学习能力，构建深度神经网络模型对业务类型进行分类。

②用户需求判定方法

开展调研和分析公司不同的业务类型对应了哪些用户的具体需求，构建不同业务类型对应的标签体系。在确定了数据对应的业务类型之后，针对社交媒体数据异构多态的数据特点，以及业务相关数据的引入做相关优化，利用特征工程等方式充分利用数据的信息，实现用户需求判定。

工作原理：该公司形象提升系统的数据关联匹配系统，使用时，业务关键字抽取模块将客户服务数据作为输入，通过其学习模块训练的条件概率分布模型，对客户服务数据进行标注，其中，最大化目标函数的标注序列即输出的业务关键字标注序列，其将作为深度神经网络关联匹配模块的文本数据，社交媒体数据抽取模块提取出的社交媒体数据，与业务关键字抽取模块的业务关键字标注序列，作为深度神经网络关联匹配模块的文本输入数据，经处理后可得到两段文本数据的匹配强度，用于衡量两段文本数据的关联程度；具体为：首先，采用基于统计的中文分词技术对模块的输入文本进行分词，进一步利用词向量技术将单词序列映射为词向量序列；然后，对于给定的两段待匹配数据，经映射得到词向量序列后，对其做归一化处理，并采用余弦相似度的计算方式计算单词两两之间的相似度，构建相似度矩阵；再然后，得到两段文本的相似度矩阵之后，借鉴DRMM模型，采用卷积神经网络从原始相似度矩阵提取高层次的匹配特征。在高层次特征的基础之上，应用多层感知机对抽取的特征进行映射，将其变换为匹配评分，输出的匹配评分将作为评判指标为客户需求预判模块提供支撑；最后，深度神经网络关联匹配模块对业务关键字与社交媒体数据的匹配强度判别，客户需求预判模块分析社交媒体数据，对客户的潜在需求做出预判。

本发明主要针对一种公司形象提升系统的数据关联匹配系统，本发明通过构建基于深度学习的融合异构多态社交媒体数据的业务相关性匹配模型，根据业务相关数据(如业务关键字)对社交媒体相关内容进行匹配，并将社交媒体上的数据与公司内部的客户服务数据进行关联，克服了传统的匹配精度高，但召回率低的问题，让呈现多维特点的公司客户服务数据与高复杂度和异构多态的社交媒体数据的准确关联成为可能；该模型在词项精确匹配的基础之上引入深层次语义信息，提高模型的泛化能力，在海量社交媒体数据场景下更好地融合异构多态的社交媒体数据，首次实现公司用户数据和社交媒体中复杂网络节点数据的准确关联。该模型有效地将公司内部客户服务数据与外部社交媒体数据进行关联融合，解决了社交媒体与公司客户服及舆情监测等数据进行双向辅助决策的关键问题。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种公司形象提升系统的数据关联匹配系统，其特征在于：包括数据关联匹配模块、社交媒体数据抽取模块与客户服务数据，所述数据关联匹配模块由业务关键字抽取模块、深度神经网络关联匹配模块、数据匹配强度训练模块、客户需求预判模块四个子模块组成，其中，所述社交媒体数据抽取模块与深度神经网络关联匹配模块之间通讯连接，所述客户服务数据与业务关键字抽取模块之间通讯连接，所述数据关联匹配模块采用Neural IR的方式对数据进行匹配关联，通过深度神经网络将离散数据转换为语义表示；

所述条件概率分布模型为：

(y_new，1，y_new，2，…，y_new，n)＝arg min P(y_new，1，y_new，2，…，y_new，n|x_new，1，x_new，2，…，x_new，n)

其中，

步骤一：映射词向量序列；

步骤二：构建相似度矩阵；

步骤三：通过DRMM模型计算匹配评分；

2.根据权利要求1所述的一种公司形象提升系统的数据关联匹配系统，其特征在于：所述学习模块将有带标注的客户服务数据作训练集，根据已有的标注，通过构建的条件概率分布模型，将其用一个条件概率分布进行表示。

3.根据权利要求1所述的一种公司形象提升系统的数据关联匹配系统，其特征在于：所述业务关键字抽取模块采用最大熵马尔科夫模型信息抽取技术对关键字进行抽取。

4.根据权利要求1所述的一种公司形象提升系统的数据关联匹配系统，其特征在于：在所述映射词向量序列中，采用基于统计的中文分词技术对模块的输入文本进行分词，使用n-gram模型实现中文分词。

5.根据权利要求1所述的一种公司形象提升系统的数据关联匹配系统，其特征在于：在所述构建相似度矩阵中，对于给定的两段待匹配数据，经映射得到词向量序列后，对其做归一化处理，并采用余弦相似度的计算方式计算单词两两之间的相似度，构建相似度矩阵。

6.根据权利要求5所述的一种公司形象提升系统的数据关联匹配系统，其特征在于：上述所得的相似度矩阵，利用卷积神经网络提取高层次匹配特征，采用了多层感知机对抽取的特征进行映射。

7.根据权利要求6所述的一种公司形象提升系统的数据关联匹配系统，其特征在于：借鉴DRMM模型，对上述相似度矩阵进行直方图映射的方法分级。

8.根据权利要求6所述的一种公司形象提升系统的数据关联匹配系统，其特征在于：利用Term Gating Network得到上述提取的高层次匹配特征的权重分布，计算相关性评分。

9.根据权利要求1所述的一种公司形象提升系统的数据关联匹配系统，其特征在于：所述数据匹配强度训练模块采用Ranking SVM算法实现基于Pairwise的learning-to-rank框架的hinge损失计算。