CN110968795B - 一种公司形象提升系统的数据关联匹配系统 - Google Patents

一种公司形象提升系统的数据关联匹配系统 Download PDF

Info

Publication number
CN110968795B
CN110968795B CN201911185159.4A CN201911185159A CN110968795B CN 110968795 B CN110968795 B CN 110968795B CN 201911185159 A CN201911185159 A CN 201911185159A CN 110968795 B CN110968795 B CN 110968795B
Authority
CN
China
Prior art keywords
data
matching
module
association
social media
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911185159.4A
Other languages
English (en)
Other versions
CN110968795A (zh
Inventor
杨开著
于灏
陈睿欣
郑厚清
刘睿
贾德香
孙艺新
王西胜
张炜乐
陈爽
曹瑾
李艳娜
刘素蔚
王玓
王智敏
陈�光
柳占杰
刘威
高洪达
李心达
崔维平
王程
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Energy Research Institute Co Ltd
State Grid Beijing Electric Power Co Ltd
Original Assignee
State Grid Energy Research Institute Co Ltd
State Grid Beijing Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Energy Research Institute Co Ltd, State Grid Beijing Electric Power Co Ltd filed Critical State Grid Energy Research Institute Co Ltd
Priority to CN201911185159.4A priority Critical patent/CN110968795B/zh
Publication of CN110968795A publication Critical patent/CN110968795A/zh
Application granted granted Critical
Publication of CN110968795B publication Critical patent/CN110968795B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9536Search customisation based on social or collaborative filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种公司形象提升系统的数据关联匹配系统,包括数据关联匹配模块、社交媒体数据抽取模块与客户服务数据,所述数据关联匹配模块由业务关键字抽取模块、深度神经网络关联匹配模块、数据匹配强度训练模块、客户需求预判模块四个子模块组成,其中,所述社交媒体数据抽取模块与深度神经网络关联匹配模块之间通讯连接,所述客户服务数据与业务关键字抽取模块之间通讯连接,所述数据关联匹配模块采用Neural IR的方式对数据进行匹配关联,通过深度神经网络将离散数据转换为语义表示。本发明有效地将公司内部客户服务数据与外部社交媒体数据进行关联融合,解决了社交媒体与公司客户服及舆情监测等数据进行双向辅助决策的关键问题。

Description

一种公司形象提升系统的数据关联匹配系统
技术领域
本发明涉及数据关联匹配技术领域,具体为一种公司形象提升系统的数据关联匹配系统。
背景技术
随着互联网的发展,网络媒体成为一种新的信息传播形式,网络言论活跃已达到前所未有的程度,这种网络来表达观点、传播思想产生舆论压力,达到任何部门、机构都无法忽视的地步。而利用企业内部的客户服务数据,与从海量社交媒体数据中发现企业业务相关的数据进行融合分析,可以更加准确预测客户需求、实现舆论检测等业务。
目前已有的文本关联匹配方法:
1)基于文本相似度:该方法通过接收文本信息,确定所述文本信息的特征向量,将所述特征向量输入至文本相似度模型中,获取所述文本相似度模型输出的特征相似度,再根据所述特征相似度确定至少一个达到预设特征阈值的预设语句以作为所述文本信息的匹配文本。
2)基于文本匹配规则:该方法对待处理文本进行预处理,利用字典树对所述待处理文本进行关键词预匹配,并制定至少一个文本匹配规则模板,将所述待处理文本与所述文本匹配规则模板中的各个短语进行匹配,按照预定规则对经过模板匹配后的匹配结果进行整合处理,并输出经过整合处理后的匹配结果。
但是,上述的两种匹配方法都存在缺陷,如下:
1)基于文本相似度。常见的计算文本相似度的方法有基于字符串的方法、基于信息内容的方法和基于本体的方法。基于字符串的方法仅仅是从文本的字面匹配度出发,以文本的共现和重复程度为衡量标准来计算相似度,忽略了文本的实际语义信息,影响了计算结果的准确性;利用本体计算文本相似度,首先是在词语层次进行计算,然后累加词语相似度获得长文本相似度,对文本整体处理而言计算效率较低,而本体一般需要专家参与建设,耗费大量时间和精力,已有的通用本体存在更新速度慢、词汇量有限等问题,不适用于出现的新型词语;
2)基于文本匹配规则。基于规则的方法通常具有非常高的精度,因为规则是用户定义的。当人类用户定义规则时,我们知道它们是正确的。缺点是这种算法具有非常低的召回率。
本发明意在研究公司社会风险点的溯因方法和需求预判技术,推动社交网络风险监测与公司业务流、数据流和价值流的有效融合,社交媒体数据与客户服务数据的匹配关联是研究关键。而传统基于文本相似度和基于规则的匹配模型虽然精确度很高,但是相对来说召回率低、计算效率低,并不适用于海量社交媒体数据场景下融合异构多态的社交媒体数据。
因此,为能充分利用海量社交媒体数据,提高匹配精确率和召回率,本发明引入信息传播理论和人工智能理论,通过引入深层次语义信息,尝试克服精确匹配带来的问题,从而实现公司业务的超前预判与制定,推动社交网络监测对业务发展的回馈。
发明内容
本发明的目的在于提供一种公司形象提升系统的数据关联匹配系统,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:一种公司形象提升系统的数据关联匹配系统,包括数据关联匹配模块、社交媒体数据抽取模块与客户服务数据,所述数据关联匹配模块由业务关键字抽取模块、深度神经网络关联匹配模块、数据匹配强度训练模块、客户需求预判模块四个子模块组成,其中,所述社交媒体数据抽取模块与深度神经网络关联匹配模块之间通讯连接,所述客户服务数据与业务关键字抽取模块之间通讯连接,所述数据关联匹配模块采用Neural IR的方式对数据进行匹配关联,通过深度神经网络将离散数据转换为语义表示;
所述业务关键字抽取模块由学习模块与抽取模块组成,其中,学习模块构建条件概率分布模型,抽取模块利用学习模块的条件概率分布模型,对待抽取的客户服务数据进行标注;
所述社交媒体数据抽取模块提取出的社交媒体数据,与业务关键字抽取模块的业务关键字标注序列,作为深度神经网络关联匹配模块的文本输入数据,经处理后可得到两段文本数据的匹配强度,用于衡量两段文本数据的关联程度,具体步骤如下:
步骤一:映射词向量序列;
步骤二:构建相似度矩阵;
步骤三:通过DRMM模型计算匹配评分;
所述数据匹配强度训练模块,完成关联匹配模型的搭建后,输入具体的业务数据,采用基于Pairwise的learning-to-rank框架、基于hinge损失对整个模型进行训练,根据模型的匹配强度与具体业务数据的匹配标记设置合理的阈值,完成对深度神经网络关联匹配模块的匹配强度阈值训练;
所述客户需求预判模块通过深度神经网络关联匹配模块对业务关键字与社交媒体数据的匹配强度判别,客户需求预判模块分析社交媒体数据,对客户的潜在需求做出预判。
优选的,所述学习模块将有带标注的客户服务数据作训练集,根据已有的标注,通过构建的条件概率分布模型,将其用一个条件概率分布进行表示。
优选的,所述业务关键字抽取模块采用最大熵马尔科夫模型信息抽取技术对关键字进行抽取。
优选的,在所述映射词向量序列中,采用基于统计的中文分词技术对模块的输入文本进行分词,使用n-gram模型实现中文分词。
优选的,在所述构建相似度矩阵中,对于给定的两段待匹配数据,经映射得到词向量序列后,对其做归一化处理,并采用余弦相似度的计算方式计算单词两两之间的相似度,构建相似度矩阵。
优选的,上述所得的相似度矩阵,利用卷积神经网络提取高层次匹配特征,采用了多层感知机对抽取的特征进行映射。
优选的,借鉴DRMM模型,对上述相似度矩阵进行直方图映射的方法分级。
优选的,利用Term Gating Network得到上述提取的高层次匹配特征的权重分布,计算相关性评分。
优选的,所述数据匹配强度训练模块采用Ranking SVM算法实现基于Pairwise的learning-to-rank框架的hinge损失计算。
与现有技术相比,本发明的有益效果是:
本发明通过构建基于深度学习的融合异构多态社交媒体数据的业务相关性匹配模型,根据业务相关数据(如业务关键字)对社交媒体相关内容进行匹配,并将社交媒体上的数据与公司内部的客户服务数据进行关联,克服了传统的匹配精度高,但召回率低的问题,让呈现多维特点的公司客户服务数据与高复杂度和异构多态的社交媒体数据的准确关联成为可能。
该模型在词项精确匹配的基础之上引入深层次语义信息,提高模型的泛化能力,在海量社交媒体数据场景下更好地融合异构多态的社交媒体数据,首次实现公司用户数据和社交媒体中复杂网络节点数据的准确关联。该模型有效地将公司内部客户服务数据与外部社交媒体数据进行关联融合,解决了社交媒体与公司客户服及舆情监测等数据进行双向辅助决策的关键问题。
附图说明
图1为本发明的整体系统框图;
图2为本发明的业务关键字抽取模块工作框图;
图3为本发明的深度神经网络关联匹配模块工作框图;
图4为本发明的数据匹配强度训练模块工作框图。
具体实施方式
下面将对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1至图4,本发明提供一种技术方案:一种公司形象提升系统的数据关联匹配系统,如图1所示,包括数据关联匹配模块、社交媒体数据抽取模块与客户服务数据,所述数据关联匹配模块由业务关键字抽取模块、深度神经网络关联匹配模块、数据匹配强度训练模块、客户需求预判模块四个子模块组成。
如图2所示,业务关键字抽取模块将客户服务数据作为输入,通过其学习模块训练的条件概率分布模型,对客户服务数据进行标注。由于业务关键字提取的处理结果会作为匹配模型的输入,是后者处理的基本数据单元,故关键字提取准确率及召回率的高低直接影响数据关联的作用结果,结合业务关键字提取是面向特定的数据类型,本发明采用最大熵马尔科夫模型信息抽取技术对关键字进行抽取,也可用隐马尔科夫模型、条件随机场、表决感知机模型替代最大熵马尔科夫模型计算标注序列。
在学习模块,需要有带标注的客户服务数据作训练集,每一个样本包含文字单元序列和标注序列,如下所示:
Figure BDA0002292221080000051
上述表示第i个样本,x部分表示第i个样本的文字单元序列,y部分表示第i个样本的标注序列。根据已有的标注,学习模块构建学习模型,并用一个条件概率分布进行表示。
在抽取模块,利用学习模块的条件概率分布模型,对待抽取的客户服务数据进行标注:
(ynew,1,ynew,2,...,ynew,n)=arg min P(ynew,1,ynew,2,...,ynew,n|xnew,1,xnew,2,...,xnew,n)
标注方式即找出满足上式最大化目标函数的标注序列,其中P(ynew,1,ynew,2,…,ynew,n|xnew,1,xnew,2,…,xnew,n)的计算方法:
Figure BDA0002292221080000061
最大化目标函数的标注序列即输出的业务关键字标注序列,其将作为深度神经网络关联匹配模块的文本数据。
如图3所示,社交媒体数据抽取模块提取出的社交媒体数据,与业务关键字抽取模块的业务关键字标注序列,作为深度神经网络关联匹配模块的文本输入数据,经处理后可得到两段文本数据的匹配强度,用于衡量两段文本数据的关联程度。
具体流程如下:
步骤一:映射词向量序列;
采用基于统计的中文分词技术对模块的输入文本进行分词,进一步利用词向量技术将单词序列映射为词向量序列。
本发明使用n-gram模型实现中文分词,如下所示:
PA(S)=P(A1,A2,A3,...Ak)
其中,S是待分词的句子,A是分词规则,句子S由A1,A2,A3,...Ak这k个词组成。n-gram模型思想是:第n个词的出现只与前面n-1个词相关,而与其它任何词都不相关,整句的概率就是各个词出现概率的乘积。概率最高的分词规则作为分词结果。
步骤二:构建相似度矩阵;
对于给定的两段待匹配数据,经映射得到词向量序列后,对其做归一化处理,并采用余弦相似度的计算方式计算单词两两之间的相似度,构建相似度矩阵。
Figure BDA0002292221080000071
其中,Ai表示向量A的第i个分量的值,Bi表示向量B的第i个分量的值,n表示向量长度,θ表示向量A和向量B的夹角。相似度矩阵中位置(i,j)对应的元素为第一段数据的第i个词与第二段数据的第j个词的词向量相似度。
步骤三:计算匹配评分;
得到两段文本的相似度矩阵之后,借鉴DRMM模型(还可以借鉴K-NRM模型、PACRR模型以及MatchPyramid模型),采用卷积神经网络(也可使用循环神经网络)从原始相似度矩阵提取高层次的匹配特征。在高层次特征的基础之上,应用多层感知机对抽取的特征进行映射,将其变换为匹配评分。
基于步骤二计算得出的相似度矩阵,对每个对应单词的相似度进行分级,即映射直方图,例如:
Query:“car”;
Document:”(car,rent,truck,bump,injunction,runway)。
两两计算相似度为(1,0.2,0.7,0.3,-0.1,0.1),将[-1,1]的区间分为{[-1,-0.5],[-0.5,-0],[0,0.5],[0.5,1],[1,1]}5个区间。可将原相似度进行统计,可以表示为[0,1,3,1,1]。
Figure BDA0002292221080000072
其中q指业务关键字
Figure BDA0002292221080000081
d指社会媒体数据/>
Figure BDA0002292221080000082
h()指上述映射到直方图的函数,/>
Figure BDA0002292221080000083
表示每个业务关键字生成直方图的过程。
对每个业务关键字生成的直方图输入到卷积神经网络,如下所示:
Figure BDA0002292221080000084
Figure BDA0002292221080000085
表示输入到卷积神经网络的过程。
对上述提取出的高层次匹配特征,使用多层感知机得到权重分布:
Figure BDA0002292221080000086
利用得到的权重gi,可以求得业务关键字与社交媒体数据的匹配评分s:
Figure BDA0002292221080000087
输出的匹配评分将作为评判指标为客户需求预判模块提供支撑。
如图4所示,完成关联匹配模型的搭建后,输入具体的业务数据,采用基于Pairwise的learning-to-rank框架、基于hinge损失对整个模型进行训练,根据模型的匹配强度与具体业务数据的匹配标记设置合理的阈值,完成对深度神经网络关联匹配模块的匹配强度阈值训练,
本发明采用Ranking SVM算法,实现基于Pairwise的二分类排序问题。
具体业务数据形式如下:
Figure BDA0002292221080000088
其中每个样本包括两个特征向量
Figure BDA0002292221080000089
和一个标签yi∈{+1,-1}表示哪一个特征向量应该被排在前边。
Ranking SVM公式如下所示:
Figure BDA0002292221080000091
Figure BDA0002292221080000092
ξi≥0 i=1,...,m,
其中
Figure BDA0002292221080000093
和/>
Figure BDA0002292221080000094
表示特征向量对之中的第一个和第二个特征向量。||·||表示L2范数,m表示训练样本的数量,C>0是一个系数。回归hinge损失函数的最小化:
Figure BDA0002292221080000095
其中x+表示函数max(x,0),
Figure BDA0002292221080000096
通过深度神经网络关联匹配模块对业务关键字与社交媒体数据的匹配强度判别,客户需求预判模块分析社交媒体数据,对客户的潜在需求做出预判。
①面向社交媒体数据的相关业务类型判别
针对社交媒体上数据异构多态的、特征工程复杂的特点,拟采取在业务专家的帮助下通过复杂特征工程加传统监督学习模型的方式对社交媒体数据的相关业务类型判别,在传统模型的指导下,构建深度神经网络模型对业务类型进行判别,减少特征工程的依赖,提升业务判别的准确性。
首先,对公司的业务进行详细调研和分析,对业务类型进行总结,构建公司的业务类型分类体系。由公司业务相关专家对历史数据的业务类型标签进行标注,在此基础之上训练分类机器学习模型对社交媒体数据的业务类型进行判别。社交网络上的数据复杂且具备异构多态的特点,需要复杂的特征工程手段对复杂的数据进行处理,包括特征抽取、缺失值处理、特征变换、特征交叉、特征归一化等,构建特征工程模块需要较强的领域知识,因此这部分需要在相关领域专家的指导下完成。进一步,考虑到特征工程的复杂程度和成本,以及深度神经网络强大的表示学习能力,构建深度神经网络模型对业务类型进行分类。
②用户需求判定方法
开展调研和分析公司不同的业务类型对应了哪些用户的具体需求,构建不同业务类型对应的标签体系。在确定了数据对应的业务类型之后,针对社交媒体数据异构多态的数据特点,以及业务相关数据的引入做相关优化,利用特征工程等方式充分利用数据的信息,实现用户需求判定。
工作原理:该公司形象提升系统的数据关联匹配系统,使用时,业务关键字抽取模块将客户服务数据作为输入,通过其学习模块训练的条件概率分布模型,对客户服务数据进行标注,其中,最大化目标函数的标注序列即输出的业务关键字标注序列,其将作为深度神经网络关联匹配模块的文本数据,社交媒体数据抽取模块提取出的社交媒体数据,与业务关键字抽取模块的业务关键字标注序列,作为深度神经网络关联匹配模块的文本输入数据,经处理后可得到两段文本数据的匹配强度,用于衡量两段文本数据的关联程度;具体为:首先,采用基于统计的中文分词技术对模块的输入文本进行分词,进一步利用词向量技术将单词序列映射为词向量序列;然后,对于给定的两段待匹配数据,经映射得到词向量序列后,对其做归一化处理,并采用余弦相似度的计算方式计算单词两两之间的相似度,构建相似度矩阵;再然后,得到两段文本的相似度矩阵之后,借鉴DRMM模型,采用卷积神经网络从原始相似度矩阵提取高层次的匹配特征。在高层次特征的基础之上,应用多层感知机对抽取的特征进行映射,将其变换为匹配评分,输出的匹配评分将作为评判指标为客户需求预判模块提供支撑;最后,深度神经网络关联匹配模块对业务关键字与社交媒体数据的匹配强度判别,客户需求预判模块分析社交媒体数据,对客户的潜在需求做出预判。
本发明主要针对一种公司形象提升系统的数据关联匹配系统,本发明通过构建基于深度学习的融合异构多态社交媒体数据的业务相关性匹配模型,根据业务相关数据(如业务关键字)对社交媒体相关内容进行匹配,并将社交媒体上的数据与公司内部的客户服务数据进行关联,克服了传统的匹配精度高,但召回率低的问题,让呈现多维特点的公司客户服务数据与高复杂度和异构多态的社交媒体数据的准确关联成为可能;该模型在词项精确匹配的基础之上引入深层次语义信息,提高模型的泛化能力,在海量社交媒体数据场景下更好地融合异构多态的社交媒体数据,首次实现公司用户数据和社交媒体中复杂网络节点数据的准确关联。该模型有效地将公司内部客户服务数据与外部社交媒体数据进行关联融合,解决了社交媒体与公司客户服及舆情监测等数据进行双向辅助决策的关键问题。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (9)

1.一种公司形象提升系统的数据关联匹配系统,其特征在于:包括数据关联匹配模块、社交媒体数据抽取模块与客户服务数据,所述数据关联匹配模块由业务关键字抽取模块、深度神经网络关联匹配模块、数据匹配强度训练模块、客户需求预判模块四个子模块组成,其中,所述社交媒体数据抽取模块与深度神经网络关联匹配模块之间通讯连接,所述客户服务数据与业务关键字抽取模块之间通讯连接,所述数据关联匹配模块采用Neural IR的方式对数据进行匹配关联,通过深度神经网络将离散数据转换为语义表示;
所述业务关键字抽取模块由学习模块与抽取模块组成,其中,学习模块构建条件概率分布模型,抽取模块利用学习模块的条件概率分布模型,对待抽取的客户服务数据进行标注;
所述条件概率分布模型为:
(ynew,1,ynew,2,…,ynew,n)=arg min P(ynew,1,ynew,2,…,ynew,n|xnew,1,xnew,2,…,xnew,n)
其中,
Figure FDA0004055318130000011
所述社交媒体数据抽取模块提取出的社交媒体数据,与业务关键字抽取模块的业务关键字标注序列,作为深度神经网络关联匹配模块的文本输入数据,经处理后可得到两段文本数据的匹配强度,用于衡量两段文本数据的关联程度,具体步骤如下:
步骤一:映射词向量序列;
步骤二:构建相似度矩阵;
步骤三:通过DRMM模型计算匹配评分;
所述数据匹配强度训练模块,完成关联匹配模型的搭建后,输入具体的业务数据,采用基于Pairwise的learning-to-rank框架、基于hinge损失对整个模型进行训练,根据模型的匹配强度与具体业务数据的匹配标记设置合理的阈值,完成对深度神经网络关联匹配模块的匹配强度阈值训练;
所述客户需求预判模块通过深度神经网络关联匹配模块对业务关键字与社交媒体数据的匹配强度判别,客户需求预判模块分析社交媒体数据,对客户的潜在需求做出预判。
2.根据权利要求1所述的一种公司形象提升系统的数据关联匹配系统,其特征在于:所述学习模块将有带标注的客户服务数据作训练集,根据已有的标注,通过构建的条件概率分布模型,将其用一个条件概率分布进行表示。
3.根据权利要求1所述的一种公司形象提升系统的数据关联匹配系统,其特征在于:所述业务关键字抽取模块采用最大熵马尔科夫模型信息抽取技术对关键字进行抽取。
4.根据权利要求1所述的一种公司形象提升系统的数据关联匹配系统,其特征在于:在所述映射词向量序列中,采用基于统计的中文分词技术对模块的输入文本进行分词,使用n-gram模型实现中文分词。
5.根据权利要求1所述的一种公司形象提升系统的数据关联匹配系统,其特征在于:在所述构建相似度矩阵中,对于给定的两段待匹配数据,经映射得到词向量序列后,对其做归一化处理,并采用余弦相似度的计算方式计算单词两两之间的相似度,构建相似度矩阵。
6.根据权利要求5所述的一种公司形象提升系统的数据关联匹配系统,其特征在于:上述所得的相似度矩阵,利用卷积神经网络提取高层次匹配特征,采用了多层感知机对抽取的特征进行映射。
7.根据权利要求6所述的一种公司形象提升系统的数据关联匹配系统,其特征在于:借鉴DRMM模型,对上述相似度矩阵进行直方图映射的方法分级。
8.根据权利要求6所述的一种公司形象提升系统的数据关联匹配系统,其特征在于:利用Term Gating Network得到上述提取的高层次匹配特征的权重分布,计算相关性评分。
9.根据权利要求1所述的一种公司形象提升系统的数据关联匹配系统,其特征在于:所述数据匹配强度训练模块采用Ranking SVM算法实现基于Pairwise的learning-to-rank框架的hinge损失计算。
CN201911185159.4A 2019-11-27 2019-11-27 一种公司形象提升系统的数据关联匹配系统 Active CN110968795B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911185159.4A CN110968795B (zh) 2019-11-27 2019-11-27 一种公司形象提升系统的数据关联匹配系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911185159.4A CN110968795B (zh) 2019-11-27 2019-11-27 一种公司形象提升系统的数据关联匹配系统

Publications (2)

Publication Number Publication Date
CN110968795A CN110968795A (zh) 2020-04-07
CN110968795B true CN110968795B (zh) 2023-06-02

Family

ID=70031906

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911185159.4A Active CN110968795B (zh) 2019-11-27 2019-11-27 一种公司形象提升系统的数据关联匹配系统

Country Status (1)

Country Link
CN (1) CN110968795B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112632989B (zh) * 2020-12-29 2023-11-03 中国农业银行股份有限公司 一种合同文本中风险信息的提示方法、装置及设备

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103886074A (zh) * 2014-03-24 2014-06-25 江苏名通信息科技有限公司 基于社交媒体的商品推荐系统
CN104462173A (zh) * 2013-09-17 2015-03-25 国际商业机器公司 用于改善社交媒体数据的方法和系统
CN105808890A (zh) * 2016-04-26 2016-07-27 奇瑞汽车股份有限公司 一种用于汽车企业产品设计的数据云系统
CN106296312A (zh) * 2016-08-30 2017-01-04 江苏名通信息科技有限公司 基于社交媒体的在线教育资源推荐系统
CN106960063A (zh) * 2017-04-20 2017-07-18 广州优亚信息技术有限公司 一种针对招商引资领域的互联网情报抓取和推荐系统
US10032194B2 (en) * 2015-01-05 2018-07-24 Facebook, Inc. Encouraging support of an entity based upon social networking post content
CN108345582A (zh) * 2017-01-23 2018-07-31 腾讯科技(深圳)有限公司 一种识别社交群从事业务的方法及装置
CN109074544A (zh) * 2016-03-28 2018-12-21 开利公司 用于冷链产品的社交媒体反馈系统
CN109543084A (zh) * 2018-11-09 2019-03-29 西安交通大学 一种建立面向网络社交媒体的隐蔽敏感文本的检测模型的方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120016817A1 (en) * 2010-07-19 2012-01-19 Smith S Alex Predicting Life Changes of Members of a Social Networking System
US20140280571A1 (en) * 2013-03-15 2014-09-18 General Instrument Corporation Processing of user-specific social media for time-shifted multimedia content
CN105931116A (zh) * 2016-04-20 2016-09-07 帮帮智信(北京)教育投资有限公司 基于深度学习机制的自动化信用评分系统及方法
CN108446333B (zh) * 2018-02-22 2022-01-18 寇毅 一种大数据文本挖掘处理系统及其方法
CN109547500A (zh) * 2019-01-21 2019-03-29 信雅达系统工程股份有限公司 一种保护用户数据所有权的数据共享方法及系统
CN110362825A (zh) * 2019-06-28 2019-10-22 北京淇瑀信息科技有限公司 一种基于文本的金融数据抽取方法、装置和电子设备

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104462173A (zh) * 2013-09-17 2015-03-25 国际商业机器公司 用于改善社交媒体数据的方法和系统
CN103886074A (zh) * 2014-03-24 2014-06-25 江苏名通信息科技有限公司 基于社交媒体的商品推荐系统
US10032194B2 (en) * 2015-01-05 2018-07-24 Facebook, Inc. Encouraging support of an entity based upon social networking post content
CN109074544A (zh) * 2016-03-28 2018-12-21 开利公司 用于冷链产品的社交媒体反馈系统
CN105808890A (zh) * 2016-04-26 2016-07-27 奇瑞汽车股份有限公司 一种用于汽车企业产品设计的数据云系统
CN106296312A (zh) * 2016-08-30 2017-01-04 江苏名通信息科技有限公司 基于社交媒体的在线教育资源推荐系统
CN108345582A (zh) * 2017-01-23 2018-07-31 腾讯科技(深圳)有限公司 一种识别社交群从事业务的方法及装置
CN106960063A (zh) * 2017-04-20 2017-07-18 广州优亚信息技术有限公司 一种针对招商引资领域的互联网情报抓取和推荐系统
CN109543084A (zh) * 2018-11-09 2019-03-29 西安交通大学 一种建立面向网络社交媒体的隐蔽敏感文本的检测模型的方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Congjie Gao等.Fine-Grained Geolocalization of User-Generated Short Text Based on a Weight Probability Model.《 IEEE Access》.2019,第1-13页. *
万红新等.语义约束和时间关联LDA的社交媒体主题词链提取 .《小型微型计算机系统》.2018,第742-747页. *

Also Published As

Publication number Publication date
CN110968795A (zh) 2020-04-07

Similar Documents

Publication Publication Date Title
CN110298037B (zh) 基于增强注意力机制的卷积神经网络匹配的文本识别方法
CN111241837B (zh) 基于对抗迁移学习的盗窃案件法律文书命名实体识别方法
CN110598005B (zh) 一种面向公共安全事件的多源异构数据知识图谱构建方法
Liu et al. Connectionist temporal classification with maximum entropy regularization
CN111737496A (zh) 一种电力设备故障知识图谱构建方法
CN110287323B (zh) 一种面向目标的情感分类方法
CN110825877A (zh) 一种基于文本聚类的语义相似度分析方法
CN111259153B (zh) 一种完全注意力机制的属性级情感分析方法
CN113673254B (zh) 基于相似度保持的知识蒸馏的立场检测方法
CN110990718B (zh) 一种公司形象提升系统的社会网络模型构建模块
CN113360582B (zh) 基于bert模型融合多元实体信息的关系分类方法及系统
CN112069312B (zh) 一种基于实体识别的文本分类方法及电子装置
CN114139533A (zh) 一种面向中文小说领域的文本内容审核方法
CN113449111B (zh) 基于时空语义知识迁移的社会治理热点话题自动识别方法
CN113705238B (zh) 基于bert和方面特征定位模型的方面级情感分析方法及系统
CN111666373A (zh) 一种基于Transformer的中文新闻分类方法
CN112052319B (zh) 一种基于多特征融合的智能客服方法及系统
CN115759092A (zh) 一种基于albert的网络威胁情报命名实体识别方法
CN114416979A (zh) 一种文本查询方法、设备和存储介质
Vimali et al. A text based sentiment analysis model using bi-directional lstm networks
CN114417851A (zh) 一种基于关键词加权信息的情感分析方法
CN115098673A (zh) 基于变体注意力及层次结构的业务文书信息抽取方法
CN112989830B (zh) 一种基于多元特征和机器学习的命名实体识别方法
CN114356990A (zh) 基于迁移学习的基地命名实体识别系统及方法
CN110968795B (zh) 一种公司形象提升系统的数据关联匹配系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant