CN118133954A - 一种数据分析方法、装置、电子设备及计算机可读介质 - Google Patents

一种数据分析方法、装置、电子设备及计算机可读介质 Download PDF

Info

Publication number
CN118133954A
CN118133954A CN202410368026.5A CN202410368026A CN118133954A CN 118133954 A CN118133954 A CN 118133954A CN 202410368026 A CN202410368026 A CN 202410368026A CN 118133954 A CN118133954 A CN 118133954A
Authority
CN
China
Prior art keywords
matrix
text
mapping
target
relation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202410368026.5A
Other languages
English (en)
Inventor
赵苗苗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jingdong Century Trading Co Ltd
Beijing Wodong Tianjun Information Technology Co Ltd
Original Assignee
Beijing Jingdong Century Trading Co Ltd
Beijing Wodong Tianjun Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jingdong Century Trading Co Ltd, Beijing Wodong Tianjun Information Technology Co Ltd filed Critical Beijing Jingdong Century Trading Co Ltd
Priority to CN202410368026.5A priority Critical patent/CN118133954A/zh
Publication of CN118133954A publication Critical patent/CN118133954A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种数据分析方法、装置、电子设备及计算机可读介质,涉及计算机技术领域,一具体实施方式包括接收数据分析请求,获取对应的待分析文档集合和目标场景对应的对比文档集合;基于待分析文档集合和对比文档集合,抽取实体关系映射矩阵;基于实体关系映射矩阵,确定相关性值;根据相关性值更新增强映射关系矩阵,进而基于更新后的增强映射关系矩阵和实体关系映射矩阵,生成增强映射矩阵;基于增强映射矩阵和预设关联程度阈值,确定目标关键词,进而基于目标关键词生成对应的三元体关系并输出。提高在特定场景下,对相关知识图谱三元体关系进行反馈的准确性。

Description

一种数据分析方法、装置、电子设备及计算机可读介质
技术领域
本申请涉及计算机技术领域,尤其涉及一种数据分析方法、装置、电子设备及计算机可读介质。
背景技术
目前,面向知识图谱的知识推理旨在根据已有的知识推理出新的知识或识别错误的知识,利用图谱中现有的知识(三元体),得到一些新的实体间的关系或者实体的属性(三元体),这些新的关系或属性,可以通过补全算法、知识纠错完成。现有的“知识推理”已在垂直搜索、智能问答等应用领域发挥了重要作用,尽管TransR/CTransR模型对TransE和TransH模型的局限性做了改进,TransD也在以上模型上增加了语义向量和映射向量来进行2个向量组合的关系建立,但也随着其应用的广泛,如面向企业信息化技术专业性强、医学领域的专家经验分析依赖高等场景下,对相关知识图谱三元体关系进行反馈的准确性低。
发明内容
有鉴于此,本申请实施例提供一种数据分析方法、装置、电子设备及计算机可读介质,能够解决现有的在进行特定场景下的知识推理时,对三元体关系反馈的准确性低的技术问题。
为实现上述目的,根据本申请实施例的一个方面,提供了一种数据分析方法,包括:
接收数据分析请求,获取对应的待分析文档集合和目标场景对应的对比文档集合;
基于待分析文档集合和对比文档集合,抽取实体关系映射矩阵;
基于实体关系映射矩阵,确定相关性值;
根据相关性值更新增强映射关系矩阵,进而基于更新后的增强映射关系矩阵和实体关系映射矩阵,生成增强映射矩阵;
基于增强映射矩阵和预设关联程度阈值,确定目标关键词,进而基于目标关键词生成对应的三元体关系并输出。
可选地,基于待分析文档集合和对比文档集合,抽取实体关系映射矩阵,包括:
提取待分析文档集合中的各个第一文本并提取对比文档集合中的各个第二文本;
计算各个第一文本和各个第二文本之间的相似度;
根据相似度为对应的矩阵点赋值,以得到实体关系映射矩阵。
可选地,根据相似度为对应的矩阵点赋值,以得到实体关系映射矩阵,包括:
将大于预设阈值的相似度对应的矩阵点赋值为第一预设值,将小于预设阈值的相似度对应的矩阵点赋值为第二预设值。
可选地,基于实体关系映射矩阵,确定相关性值,包括:
将实体关系映射矩阵中,目标文本对应行或者对应列的第一预设值的数量确定为目标文本对应的相关性值。
可选地,根据相关性值更新增强映射关系矩阵,包括:
确定相关性值对应的目标文本;
确定从目标文本中提取的关键词;
确定增强映射关系矩阵中与关键词和目标文本对应的目标矩阵点;
将相关性值更新为目标矩阵点对应的值的系数,进而得到更新后的增强映射关系矩阵。
可选地,在根据相关性值更新增强映射关系矩阵之前,方法还包括:
提取对比文档集合中每一个文本对应的关键词;
计算各个关键词与对应的文本的余弦相似度;
基于余弦相似度,生成增强映射关系矩阵。
可选地,基于增强映射矩阵和预设关联程度阈值,确定目标关键词,包括:
确定增强映射矩阵中大于预设关联程度阈值的值对应的目标矩阵点;
将目标矩阵点对应的关键词,确定为目标关键词。
可选地,基于目标关键词生成对应的三元体关系,包括:
基于目标关键词,确定对比文档集合中对应的文本,进而基于待分析文档集合中对应的文本生成三元体关系。
另外,本申请还提供了一种数据分析装置,包括:
接收单元,被配置成接收数据分析请求,获取对应的待分析文档集合和目标场景对应的对比文档集合;
抽取单元,被配置成基于待分析文档集合和对比文档集合,抽取实体关系映射矩阵;
相关性值确定单元,被配置成基于实体关系映射矩阵,确定相关性值;
更新单元,被配置成根据相关性值更新增强映射关系矩阵,进而基于更新后的增强映射关系矩阵和实体关系映射矩阵,生成增强映射矩阵;
三元体关系生成单元,被配置成基于增强映射矩阵和预设关联程度阈值,确定目标关键词,进而基于目标关键词生成对应的三元体关系并输出。
可选地,抽取单元进一步被配置成:
提取待分析文档集合中的各个第一文本并提取对比文档集合中的各个第二文本;
计算各个第一文本和各个第二文本之间的相似度;
根据相似度为对应的矩阵点赋值,以得到实体关系映射矩阵。
可选地,抽取单元进一步被配置成:
将大于预设阈值的相似度对应的矩阵点赋值为第一预设值,将小于预设阈值的相似度对应的矩阵点赋值为第二预设值。
可选地,相关性值确定单元进一步被配置成:
将实体关系映射矩阵中,目标文本对应行或者对应列的第一预设值的数量确定为目标文本对应的相关性值。
可选地,更新单元进一步被配置成:
确定相关性值对应的目标文本;
确定从目标文本中提取的关键词;
确定增强映射关系矩阵中与关键词和目标文本对应的目标矩阵点;
将相关性值更新为目标矩阵点对应的值的系数,进而得到更新后的增强映射关系矩阵。
可选地,数据分析装置还包括增强映射关系矩阵生成单元,被配置成:
提取对比文档集合中每一个文本对应的关键词;
计算各个关键词与对应的文本的余弦相似度;
基于余弦相似度,生成增强映射关系矩阵。
可选地,三元体关系生成单元进一步被配置成:
确定增强映射矩阵中大于预设关联程度阈值的值对应的目标矩阵点;
将目标矩阵点对应的关键词,确定为目标关键词。
可选地,三元体关系生成单元进一步被配置成:
基于目标关键词,确定对比文档集合中对应的文本,进而基于待分析文档集合中对应的文本生成三元体关系。
另外,本申请还提供了一种数据分析电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现如上述的数据分析方法。
另外,本申请还提供了一种计算机可读介质,其上存储有计算机程序,程序被处理器执行时实现如上述的数据分析方法。
上述发明中的一个实施例具有如下优点或有益效果:本申请通过接收数据分析请求,获取对应的待分析文档集合和目标场景对应的对比文档集合;基于待分析文档集合和对比文档集合,抽取实体关系映射矩阵;基于实体关系映射矩阵,确定相关性值;根据相关性值更新增强映射关系矩阵,进而基于更新后的增强映射关系矩阵和实体关系映射矩阵,生成增强映射矩阵;基于增强映射矩阵和预设关联程度阈值,确定目标关键词,进而基于目标关键词生成对应的三元体关系并输出。提高在特定场景下,对相关知识图谱三元体关系进行反馈的准确性。
上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。
附图说明
附图用于更好地理解本申请,不构成对本申请的不当限定。其中:
图1是根据本申请一个实施例所提供的数据分析方法的主要流程的示意图;
图2是根据本申请一个实施例所提供的数据分析方法的主要流程的示意图;
图3是根据本申请一个实施例所提供的数据分析方法的应用场景示意图;
图4是根据本申请实施例的数据分析装置的主要单元的示意图;
图5是本申请实施例可以应用于其中的示例性系统架构图;
图6是适于用来实现本申请实施例的终端设备或服务器的计算机系统的结构示意图。
具体实施方式
以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。需要说明的是,本公开的技术方案中,所涉及的用户个人信息的采集、收集、更新、分析、处理、使用、传输、存储等方面,均符合相关法律法规的规定,被用于合法的用途,且不违背公序良俗。对用户个人信息采取必要措施,防止对用户个人信息数据的非法访问,维护用户个人信息安全、网络安全和国家安全。
图1是根据本申请一个实施例所提供的数据分析方法的主要流程的示意图,如图1所示,数据分析方法包括:
步骤S101,接收数据分析请求,获取对应的待分析文档集合和目标场景对应的对比文档集合。
本实施例中,数据分析方法的执行主体(例如,可以是服务器)可以通过有线连接或无线连接的方式,接收数据分析请求。数据分析请求例如可以是在进行特定场景下的知识推理时,对三元体关系进行分析的请求。执行主体在接收到数据分析请求时,可以获取该请求所对应的待分析文档集合,例如百亿补贴文档集合。并可以获取目标场景对应的对比文档集合。其中,目标场景可以是活动促进销售的场景,或者可以是医学专项场景等,本申请实施例对目标场景不做具体限定。示例的,对比文档集合例如可以包括促销精简化项目文档集合(可以作为第一对比文档集合)和拼团价促销文档集合(可以作为第二对比文档集合)。
步骤S102,基于待分析文档集合和对比文档集合,抽取实体关系映射矩阵。
具体地,基于待分析文档集合和对比文档集合,抽取实体关系映射矩阵,包括:提取待分析文档集合中的各个第一文本并提取对比文档集合中的各个第二文本;计算各个第一文本和各个第二文本之间的相似度;根据相似度为对应的矩阵点赋值,以得到实体关系映射矩阵。
具体地,根据相似度为对应的矩阵点赋值,以得到实体关系映射矩阵,包括:
将大于预设阈值的相似度对应的矩阵点赋值为第一预设值(例如1,代表有相似关系),将小于预设阈值的相似度对应的矩阵点赋值为第二预设值(例如0,代表无相似关系)。
示例的,第一预设值,例如可以是1,第二预设值,例如可以是0。
如图3所示,提取的待分析文档集合中的各个第一文本,例如文本1、文本2、文本3。提取的对比文档集合中的各个第二文本,例如文本a、文本b、文本c。分别计算文本a与文本1的第一相似度、文本a与文本2的第二相似度、文本a与文本3的第三相似度、文本b与文本1的第四相似度、文本b与文本2的第五相似度、文本b与文本3的第六相似度、文本c与文本1的第七相似度、文本c与文本2的第八相似度、文本c与文本3的第九相似度。根据计算得到的各个相似度(第一相似度、第二相似度、第三相似度、第四相似度、第五相似度、第六相似度、第七相似度、第八相似度、第九相似度)为对应的矩阵点赋值(例如为第一相似度、第二相似度、第三相似度、第四相似度、第五相似度、第六相似度、第七相似度、第八相似度、第九相似度分别赋值1、0、1、1、1、0、0、1、0),以得到实体关系映射矩阵,如图3中的三维矩阵Vi
示例的,实体关系映射矩阵Vi可以通过如下方式得到:
Vi={V(ei),V(ri)},含实体和关系的映射,计算方法:
当语义向量中含有“百亿补贴涉及到的直降促销的需求说明,描述了补贴业务通过单品直降促销,补贴价由平台结算各商家的功能描述”。使用TransD模型,进行实体关系映射矩阵Vi的计算的过程是:
(1)定义原始向量:
首先,为每个实体和关系定义原始向量。假设实体"百亿补贴"的原始向量为V(e1),关系"直降促销"的原始向量为V(r1),可以表示为:
V(e1)=[e1_1,e1_2,...,e1_n]
V(r1)=[r1_1,r1_2,...,r1_n]
(2)计算转移向量:
对于每个实体和关系,需要计算其转移向量T。转移向量通过将原始向量映射到转移空间得到。
转移向量的计算方法如下:
T(e1)=V(e1-P_e*V(e1)
T(r1)=V(r1)-P_r*V(r1)
其中,P_e和P_r分别是实体和关系的投影矩阵,投影矩阵可自定义为单位矩阵,通过自学习进行改进。
(3)计算实体关系映射矩阵Vi
利用转移向量T和投影矩阵P,可以计算实体和关系的实体关系映射矩阵Vi。实体关系映射矩阵Vi是将转移向量映射回原始空间得到的。
实体关系映射矩阵Vi的计算方法如下:
V(e1)=T(e1)+P_e*T(e1)
V(r1)=T(r1)+P_r*T(r1)
通过上述计算方法,可以获得实体和关系的实体关系映射矩阵Vi
其中,TransD模型实现过程如下,示例的:
1.数据预处理:首先,对输入的促销精简化项目文档集合、XX补贴文档集合和拼团价促销文档集合进行数据预处理。这可能包括文本清洗、分词、实体识别等处理步骤,以提取出关键信息。
2.实体和关系抽取:从预处理后的文档集合中,抽取出实体和关系的信息,并检查调优映射函数。
3.构建知识图谱:基于抽取的实体和关系信息,构建一个映射关系形成知识图谱。将实体和关系表示为节点,并使用三元组的形式将它们连接起来。
4.推理三元体关系:利用构建的知识图谱,使用改进的TransD模型计算实体和关系的映射向量,以便进行语义关系的比较和推理进行三元体关系的推理(在推理中干预了映射函数)。
改进后的TransD模型的执行过程示例如下:
(1)从知识图谱中找到与输入文本相似的实体相关的节点:遍历知识图谱中的节点,找到与XX补贴实体相关的节点。
(2)遍历与输入文本实体相连的关系节点:TransD改进后这样的关系更加精准,避免从单一语义中获得关系节点。
(3)检查关系节点的属性:检查其属性是否符合要推理的三元体关系。在这个例子中,需要检查关系节点的属性,例如买贵赔模式、真实补贴价格、补贴价格支持平台补和商家补等。如遇到无关系的可剔除并改进映射矩阵值,重新学习。
(4)输出符合要求的关系节点:如果存在符合要求的关系节点,说明输入“XX补贴”使用了某个项目下具体的促销模型能力。即可将这些关系节点作为输出,并可包含PD项目文本中的上下文供阅读者查阅。
步骤S103,基于实体关系映射矩阵,确定相关性值。
具体地,基于实体关系映射矩阵,确定相关性值,包括:将实体关系映射矩阵中,目标文本对应行或者对应列的第一预设值的数量确定为目标文本对应的相关性值。
目标文本,例如可以是对比文档集合中的文本a、文本b、文本c中的一个或多个文本。示例的,当目标文本为文本a时,文本a所在的矩阵行中第一预设值(例如1)的数量为2个,则文本a对应的相关性值为2。当目标文本为文本b时,文本b所在的矩阵行中第一预设值(例如1)的数量为2个,则文本b对应的相关性值为2.。当目标文本为文本c时,文本c所在的矩阵行中第一预设值(例如1)的数量为1个,则文本c对应的相关性值为1。
步骤S104,根据相关性值更新增强映射关系矩阵,进而基于更新后的增强映射关系矩阵和实体关系映射矩阵,生成增强映射矩阵。
具体地,在根据相关性值更新增强映射关系矩阵之前,方法还包括:提取对比文档集合中每一个文本对应的关键词;计算各个关键词与对应的文本的余弦相似度;基于余弦相似度,生成增强映射关系矩阵。
如图3所示,示例的,执行主体可以提取对比文档集合中每一个文本对应的关键词,例如提取文本a中的关键词1、关键词2、关键词3;提取文本b中的关键词1、关键词2、关键词3;提取文本c中的关键词1、关键词2、关键词3。
关键词1可以包括关键词1’、关键词1”,关键词1”’,分别代表从文本a、文本b、文本c中提取的关键词,关键词2可以包括关键词2’、关键词2”,关键词2”’,分别代表从文本a、文本b、文本c中提取的关键词,关键词3可以包括关键词3’、关键词3”,关键词3”’,分别代表从文本a、文本b、文本c中提取的关键词。
示例的,从对比文档集合中提取的文本与从提取的文本中提取的关键词的对应关系如下所示:
文本a:关键词1’、关键词2’、关键词3’;
文本b:关键词1”、关键词2”、关键词3”;
文本c:关键词1”’、关键词2”’、关键词3”’。
示例的,计算关键词1’与文本a的相似度,得到0.5;计算关键词2’与文本a的相似度,得到0.4;计算关键词3’与文本a的相似度,得到0.3。计算关键词1”与文本b的相似度,得到0.5;计算关键词2”与文本b的相似度,得到0.6;计算关键词3”与文本b的相似度,得到0.7。计算关键词1”’与文本c的相似度,得到0.2;计算关键词2”’与文本c的相似度,得到0.3;计算关键词3”’与文本c的相似度,得到0.1。基于相关性值更新增强映射关系矩阵,具体可以为将文本a对应的相关性值2作为系数与文本a对应的各个相似度相乘,以得到文本a对应的各个矩阵点的值:0.5*2、0.4*2、0.3*2;将文本b对应的相关性值2作为系数与文本b对应的各个相似度相乘,以得到文本b对应的各个矩阵点的值:0.5*2、0.6*2、0.7*2;将文本c对应的相关性值1作为系数与文本c对应的各个相似度相乘,以得到文本c对应的各个矩阵点的值:0.2、0.3、0.1。由此得到更新后的增强映射关系矩阵,例如图3中的三维矩阵Wi T
将更新后的增强映射关系矩阵Wi T与实体关系映射矩阵Vi的乘积Wi TVi作为增强映射矩阵Mh=Wi TVi
步骤S105,基于增强映射矩阵和预设关联程度阈值,确定目标关键词,进而基于目标关键词生成对应的三元体关系并输出。
具体地,基于目标关键词生成对应的三元体关系,包括:
基于目标关键词(例如关键词1’、关键词2”、关键词3”’),确定对比文档集合中对应的文本(例如分别对应文本a、文本b、文本c),进而基于待分析文档集合中对应的文本生成三元体关系。
示例的,将如图3所示的增强映射矩阵Mh=Wi TVi中大于预设关联程度阈值的矩阵点的值对应的关键词(例如关键词1’、关键词2”、关键词3”’)作为目标关键词,并根据确定出的目标关键词生成三元体关系(例如,关键词1’-文本a-待分析文档集合、关键词2”-文本b-待分析文档集合、关键词3”’-文本c-待分析文档集合)并输出。
示例的,待分析文档集合可以是百亿补贴文档集合,关键词1’可以是“带有买贵赔模式”,关键词2”可以是“真实补贴价格”,关键词3”’可以是“补贴价格支持平台补贴和商家补贴两种形态”。则对应的三元体关系可以是:百亿补贴使用带有买贵赔模式的促销模型、真实补贴价格的促销模型、补贴价格支持平台补和商家补两种形态的直降促销模型实现。
本实施例通过接收数据分析请求,获取对应的待分析文档集合和目标场景对应的对比文档集合;基于待分析文档集合和对比文档集合,抽取实体关系映射矩阵;基于实体关系映射矩阵,确定相关性值;根据相关性值更新增强映射关系矩阵,进而基于更新后的增强映射关系矩阵和实体关系映射矩阵,生成增强映射矩阵;基于增强映射矩阵和预设关联程度阈值,确定目标关键词,进而基于目标关键词生成对应的三元体关系并输出。提高在特定场景下,对相关知识图谱三元体关系进行反馈的准确性。
图2是根据本申请一个实施例所提供的数据分析方法的主要流程示意图,如图2所示,数据分析方法包括:
步骤S201,接收数据分析请求,获取对应的待分析文档集合和目标场景对应的对比文档集合。
步骤S202,基于待分析文档集合和对比文档集合,抽取实体关系映射矩阵。
实体关系映射矩阵可以是将待分析文档集合提取得到的文本与对比文档集合提取得到的文本计算相似度,基于计算得到的各个相似度生成实体关系映射矩阵。从而可以准确、快速地确定出与待分析文档集合有相似关系的对比文档集合中的文本。
步骤S203,基于实体关系映射矩阵,确定相关性值。
步骤S204,确定相关性值对应的目标文本。
如图3所示,将实体关系映射矩阵的每一行对应的文本确定为目标文本(目标文本从属于对比文档集合)。例如,文本a、文本b、文本c。
步骤S205,确定从目标文本中提取的关键词。
从确定出的目标文本(例如,文本a、文本b、文本c)中提取与目标场景以及目标场景的应用相关的关键词,以实现提取的关键词更贴近数据分析需求,提高数据分析的准确性。
步骤S206,确定增强映射关系矩阵中与关键词和目标文本对应的目标矩阵点。
一个关键词与一个目标文本可以定位一个确定的目标矩阵点。示例的,关键词1’与文本a唯一定位增强映射关系矩阵中左上角的第一个矩阵点,即为目标矩阵点,例如可以对应于如图3所示的三维矩阵Wi T中的左上角的0.5*2的矩阵点。
步骤S207,将相关性值更新为目标矩阵点对应的值的系数,进而得到更新后的增强映射关系矩阵。
用基于实体关系映射矩阵确定的相关性值,例如可以为n,其中,n可以为1、2、3、…、等自然数,更新目标矩阵点位置处的0.5*2中的2,以得到更新后的矩阵点的值,在将增强映射关系矩阵中的各个目标矩阵点的值均更新后,可以得到更新后的增强映射关系矩阵。
步骤S208,基于更新后的增强映射关系矩阵和实体关系映射矩阵,生成增强映射矩阵。
将更新后的增强映射关系矩阵和实体关系映射矩阵相乘,以得到增强映射矩阵。
步骤S209,基于增强映射矩阵和预设关联程度阈值,确定目标关键词,进而基于目标关键词生成对应的三元体关系并输出。
具体地,基于增强映射矩阵和预设关联程度阈值,确定目标关键词,包括:确定增强映射矩阵中大于预设关联程度阈值的值对应的目标矩阵点;将目标矩阵点对应的关键词,确定为目标关键词。
增强映射矩阵中大于预设关联程度阈值的值对应的目标矩阵点即为与待分析文档集合相似的对比文档集合中的文本的关键词对应的矩阵点,由此可以确定出该目标矩阵点对应的关键词,即为目标关键词。根据目标关键词可以准确地输出三元体关系。
图3是根据本申请一个实施例所提供的数据分析方法的应用场景示意图。
在本申请实施例中,TransD是一种常用的知识图谱表示模型,可以将实体和关系映射到连续的向量空间中。语义向量:在TransD模型中,语义向量是指对实体和关系嵌入向量进行一定运算之后得到的表示实体和关系语义信息的向量,可以用于比较不同实体或关系之间的语义关系,从而进一步建立知识图谱。映射向量:在TransD模型中,映射向量指的是将实体和关系从一个嵌入空间映射到另一个嵌入空间所需的转换向量。IT项目资产:在软件企业或软件开发过程中输出的各类材料和文档,如进行项目管理后,归堆到某个项目上产生的各类材料和文档,包括立项文档、需求BRD、产品方案PRD、概要设计文档、详细设计文档、项目排期、测试用例、测试报告、接口文档、项目实施报告、验收报告等。映射矩阵:通过一个映射矩阵将实体和关系映射到另一个向量空间中,映射矩阵可以帮助TransD模型中的映射向量从原始向量转换为另一个向量,把TransD模型扩展为多层结构。
本申请实施例通过改进的表示学习推理模型(TransD),在原有TransD的向量上(语义向量和映射向量),结合历史项目交付/历史医疗案例等的强关联关系表达,对映射向量做了改进,通过增加多层映射模型,将原始TransD向量转换为带正向用例关系的新向量,TransD模型便扩展为多层结构,使映射向量受历史发生影响,基于历史经验进行三元体关系建立。此模型可应用在IT公司下技术资产的推理和图谱构建,解决复杂应用场景下、专业性强的领域下,无法形成高质量图谱的问题。改进后的TransD模型:在实体空间里增加映射矩阵,可在IT项目资产中表达项目素材的同源关系,用Mh=Wi T Vi表示,代表实体产生的源头相同,如:企业中同一个项目交付的文档、代码等,其产生的源头是同一个项目编号,在关系空间的映射中,Mh映射矩阵中的向量优先级更高。
如图3所示,执行主体在进行数据分析时,可以提取的待分析文档集合中的各个第一文本,例如文本1、文本2、文本3。提取的对比文档集合中的各个第二文本,例如文本a、文本b、文本c。分别计算文本a与文本1的第一相似度、文本a与文本2的第二相似度、文本a与文本3的第三相似度、文本b与文本1的第四相似度、文本b与文本2的第五相似度、文本b与文本3的第六相似度、文本c与文本1的第七相似度、文本c与文本2的第八相似度、文本c与文本3的第九相似度。根据计算得到的各个相似度(第一相似度、第二相似度、第三相似度、第四相似度、第五相似度、第六相似度、第七相似度、第八相似度、第九相似度)为对应的矩阵点赋值(例如为第一相似度、第二相似度、第三相似度、第四相似度、第五相似度、第六相似度、第七相似度、第八相似度、第九相似度分别赋值1、0、1、1、1、0、0、1、0),以得到实体关系映射矩阵,如图3中的三维矩阵Vi
如图3所示,示例的,执行主体可以提取对比文档集合中每一个文本对应的关键词,例如提取文本a中的关键词1、关键词2、关键词3;提取文本b中的关键词1、关键词2、关键词3;提取文本c中的关键词1、关键词2、关键词3。
关键词1可以包括关键词1’、关键词1”,关键词1”’,分别代表从文本a、文本b、文本c中提取的关键词,关键词2可以包括关键词2’、关键词2”,关键词2”’,分别代表从文本a、文本b、文本c中提取的关键词,关键词3可以包括关键词3’、关键词3”,关键词3”’,分别代表从文本a、文本b、文本c中提取的关键词。
示例的,从对比文档集合中提取的文本与从提取的文本中提取的关键词的对应关系如下所示:
文本a:关键词1’、关键词2’、关键词3’;
文本b:关键词1”、关键词2”、关键词3”;
文本c:关键词1”’、关键词2”’、关键词3”’。
示例的,计算关键词1’与文本a的相似度,得到0.5;计算关键词2’与文本a的相似度,得到0.4;计算关键词3’与文本a的相似度,得到0.3。计算关键词1”与文本b的相似度,得到0.5;计算关键词2”与文本b的相似度,得到0.6;计算关键词3”与文本b的相似度,得到0.7。计算关键词1”’与文本c的相似度,得到0.2;计算关键词2”’与文本c的相似度,得到0.3;计算关键词3”’与文本c的相似度,得到0.1。基于相关性值更新增强映射关系矩阵,具体可以为将文本a对应的相关性值2作为系数与文本a对应的各个相似度相乘,以得到文本a对应的各个矩阵点的值:0.5*2、0.4*2、0.3*2;将文本b对应的相关性值2作为系数与文本b对应的各个相似度相乘,以得到文本b对应的各个矩阵点的值:0.5*2、0.6*2、0.7*2;将文本c对应的相关性值1作为系数与文本c对应的各个相似度相乘,以得到文本c对应的各个矩阵点的值:0.2、0.3、0.1。由此得到更新后的增强映射关系矩阵,例如图3中的三维矩阵Wi T
将更新后的增强映射关系矩阵Wi T与实体关系映射矩阵Vi的乘积Wi TVi作为增强映射矩阵Mh=Wi TVi
基于增强映射矩阵Mh=Wi TVi确定出目标关键词,并准确输出相应的三元体关系。
TransD是一种常用的知识图谱表示模型。
作为本申请的一个整体示例,数据分析步骤可以如下所示:
第一步:数据源的细化(以IT项目资产的存量文档资料/源码/手册为例):
设:项目集合即对比文档集合为P={p1,p2,...,pn},n为文档个数;
设:每个项目下的文本集合为PmD={Pmd1,Pmd2,...,Pmdn},m为文本个数;
通过关键词提取算法TextRank(PmD)细化文档中细化的项目文档的关键词,得到“映射矩阵”所需细化数据D′,TextRank为抽取型文本摘要算法:
PmD′=TextRank(PmD)
第二步:对相同项目的细化数据源生成新的向量表示:
设:PmD′包含n个单词,则可以用下面公式来计算文本集合PmD′和原始文本集合PmD之间的余弦相似度(文本与对应的关键词组成的Wi矩阵):
Sim(PmD′,PmD)=(sum(fi*ti))/(sqrt(sum(fi 2))*sqrt(sum(ti 2)))
其中,fi是第i个单词在PmD′中出现的频率,ti是原始文本集合PmD中第i个单词出现的频率,sum(fi*ti)表示两个向量的点积,sqrt(sum(fi 2))和sqrt(sum(ti 2))则分别表示两个向量的长度。则生成的新向量表示WT,就将项目关键词与项目文本做了新的一层“增强的映射关系”。
WT={sim(P1D′,P1D),......,sim(PnD′,PnD)}
第三步:在TransD的向量映射中,增加基于第二步获得的向量的映射矩阵:
设:增强映射矩阵Mh
其中第i个关键词的向量表示Wi T,Vi是TransD的原始向量(映射向量Mrt)。
第四步:使用改进的TransD模型,进行项目资产的图谱推理。
数据模拟示例如下:
输入:促销精简化项目文档集合(第一对比集)、百亿补贴文档集合(源集即待分析文档集合)、拼团价促销文档集合(第二对比集),最后输出结果为三元体关系,例如:百亿补贴使用带有买贵赔模式的促销模型、真实补贴价格的促销模型、补贴价格支持平台补和商家补两种形态的直降促销模型实现。相似度是指两个向量之间的相似程度或者相关程度。本申请实施例根据输入得到的三维矩阵Vi,基于三维矩阵Vi更新对比集(例如第一对比集、第二对比集)中每个文本的每个关键词的关键词系数,进而更新三维矩阵Wi T中的每一个矩阵点的值,最后根据阈值筛选出具有强关联的关键词。
推理:百亿补贴使用的促销模型能力。
输出:三元体关系:百亿补贴使用带有买贵赔模式的促销模型、真实补贴价格的促销模型、补贴价格支持平台补和商家补两种形态的直降促销模型实现。
在多层映射模型中,可以设置不同的映射权重(如同一个部门、同一个项目、同一个医生等场景化权重形成向量表示,参与映射权重的差异),以便更好地理解实体之间的关系。也可以采用不同的方法来计算映射矩阵(如随机初始化或梯度下降等方法来计算)。TransD是一种常用的知识图谱表示模型,可以将实体和关系映射到连续的向量空间中。在复杂知识体系中(如IT项目资产/医疗方案等方面)增加映射函数,或带权重的映射函数,使用映射矩阵函数来增加TransD的多层映射,以达到更专业和准确的三元体关系的建立。
图4是根据本申请实施例的数据分析装置的主要单元的示意图。如图4所示,数据分析装置400包括接收单元401、抽取单元402、相关性值确定单元403、更新单元404和三元体关系生成单元405。
接收单元401,被配置成接收数据分析请求,获取对应的待分析文档集合和目标场景对应的对比文档集合。
抽取单元402,被配置成基于待分析文档集合和对比文档集合,抽取实体关系映射矩阵。
相关性值确定单元403,被配置成基于实体关系映射矩阵,确定相关性值。
更新单元404,被配置成根据相关性值更新增强映射关系矩阵,进而基于更新后的增强映射关系矩阵和实体关系映射矩阵,生成增强映射矩阵。
三元体关系生成单元405,被配置成基于增强映射矩阵和预设关联程度阈值,确定目标关键词,进而基于目标关键词生成对应的三元体关系并输出。
在一些实施例中,抽取单元402进一步被配置成:提取待分析文档集合中的各个第一文本并提取对比文档集合中的各个第二文本;计算各个第一文本和各个第二文本之间的相似度;根据相似度为对应的矩阵点赋值,以得到实体关系映射矩阵。
在一些实施例中,抽取单元402进一步被配置成:将大于预设阈值的相似度对应的矩阵点赋值为第一预设值,将小于预设阈值的相似度对应的矩阵点赋值为第二预设值。
在一些实施例中,相关性值确定单元403进一步被配置成:将实体关系映射矩阵中,目标文本对应行或者对应列的第一预设值的数量确定为目标文本对应的相关性值。
在一些实施例中,更新单元404进一步被配置成:确定相关性值对应的目标文本;确定从目标文本中提取的关键词;确定增强映射关系矩阵中与关键词和目标文本对应的目标矩阵点;将相关性值更新为目标矩阵点对应的值的系数,进而得到更新后的增强映射关系矩阵。
在一些实施例中,数据分析装置还包括图4中未示出的增强映射关系矩阵生成单元,被配置成:提取对比文档集合中每一个文本对应的关键词;计算各个关键词与对应的文本的余弦相似度;基于余弦相似度,生成增强映射关系矩阵。
在一些实施例中,三元体关系生成单元405进一步被配置成:确定增强映射矩阵中大于预设关联程度阈值的值对应的目标矩阵点;将目标矩阵点对应的关键词,确定为目标关键词。
在一些实施例中,三元体关系生成单元405进一步被配置成:基于目标关键词,确定对比文档集合中对应的文本,进而基于待分析文档集合中对应的文本生成三元体关系。
需要说明的是,本申请的数据分析方法和数据分析装置在具体实施内容上具有相应关系,故重复内容不再说明。
图5示出了可以应用本申请实施例的数据分析方法或数据分析装置的示例性系统架构500。
如图5所示,系统架构500可以包括终端设备501、502、503,网络504和服务器505。网络504用以在终端设备501、502、503和服务器505之间提供通信链路的介质。网络504可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备501、502、503通过网络504与服务器505交互,以接收或发送消息等。终端设备501、502、503上可以安装有各种通讯客户端应用,例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等(仅为示例)。
终端设备501、502、503可以是具有数据分析处理屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
服务器505可以是提供各种服务的服务器,例如对用户利用终端设备501、502、503所提交的数据分析请求提供支持的后台管理服务器(仅为示例)。后台管理服务器可以接收数据分析请求,获取对应的待分析文档集合和目标场景对应的对比文档集合;基于待分析文档集合和对比文档集合,抽取实体关系映射矩阵;基于实体关系映射矩阵,确定相关性值;根据相关性值更新增强映射关系矩阵,进而基于更新后的增强映射关系矩阵和实体关系映射矩阵,生成增强映射矩阵;基于增强映射矩阵和预设关联程度阈值,确定目标关键词,进而基于目标关键词生成对应的三元体关系并输出。提高在特定场景下,对相关知识图谱三元体关系进行反馈的准确性。
需要说明的是,本申请实施例所提供的数据分析方法一般由服务器505执行,相应地,数据分析装置一般设置于服务器505中。
应该理解,图5中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
下面参考图6,其示出了适于用来实现本申请实施例的终端设备的计算机系统600的结构示意图。图6示出的终端设备仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图6所示,计算机系统600包括中央处理单元(CPU)601,其可以根据存储在只读存储器(ROM)602中的程序或者从存储部分608加载到随机访问存储器(RAM)603中的程序而执行各种适当的动作和处理。在RAM603中,还存储有计算机系统600操作所需的各种程序和数据。CPU601、ROM602以及RAM603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。
以下部件连接至I/O接口605:包括键盘、鼠标等的输入部分606;包括诸如阴极射线管(CRT)、液晶征信授权查询处理器(LCD)等以及扬声器等的输出部分607;包括硬盘等的存储部分608;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至I/O接口605。可拆卸介质611,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器610上,以便于从其上读出的计算机程序根据需要被安装入存储部分608。
特别地,根据本申请公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本申请公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分609从网络上被下载和安装,和/或从可拆卸介质611被安装。在该计算机程序被中央处理单元(CPU)601执行时,执行本申请的系统中限定的上述功能。
需要说明的是,本申请所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中,例如,可以描述为:一种处理器包括接收单元、抽取单元、相关性值确定单元、更新单元和三元体关系生成单元。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定。
作为另一方面,本申请还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的设备中所包含的;也可以是单独存在,而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该设备执行时,使得该设备接收数据分析请求,获取对应的待分析文档集合和目标场景对应的对比文档集合;基于待分析文档集合和对比文档集合,抽取实体关系映射矩阵;基于实体关系映射矩阵,确定相关性值;根据相关性值更新增强映射关系矩阵,进而基于更新后的增强映射关系矩阵和实体关系映射矩阵,生成增强映射矩阵;基于增强映射矩阵和预设关联程度阈值,确定目标关键词,进而基于目标关键词生成对应的三元体关系并输出。
根据本申请实施例的技术方案,可以提高在特定场景下,对相关知识图谱三元体关系进行反馈的准确性。
上述具体实施方式,并不构成对本申请保护范围的限制。本领域技术人员应该明白的是,取决于设计要求和其他因素,可以发生各种各样的修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等,均应包含在本申请保护范围之内。

Claims (11)

1.一种数据分析方法,其特征在于,包括:
接收数据分析请求,获取对应的待分析文档集合和目标场景对应的对比文档集合;
基于所述待分析文档集合和所述对比文档集合,抽取实体关系映射矩阵;
基于所述实体关系映射矩阵,确定相关性值;
根据所述相关性值更新增强映射关系矩阵,进而基于更新后的增强映射关系矩阵和所述实体关系映射矩阵,生成增强映射矩阵;
基于所述增强映射矩阵和预设关联程度阈值,确定目标关键词,进而基于所述目标关键词生成对应的三元体关系并输出。
2.根据权利要求1所述的方法,其特征在于,所述基于所述待分析文档集合和所述对比文档集合,抽取实体关系映射矩阵,包括:
提取所述待分析文档集合中的各个第一文本并提取所述对比文档集合中的各个第二文本;
计算所述各个第一文本和所述各个第二文本之间的相似度;
根据所述相似度为对应的矩阵点赋值,以得到实体关系映射矩阵。
3.根据权利要求2所述的方法,其特征在于,所述根据所述相似度为对应的矩阵点赋值,以得到实体关系映射矩阵,包括:
将大于预设阈值的相似度对应的矩阵点赋值为第一预设值,将小于预设阈值的相似度对应的矩阵点赋值为第二预设值。
4.根据权利要求3所述的方法,其特征在于,所述基于所述实体关系映射矩阵,确定相关性值,包括:
将实体关系映射矩阵中,目标文本对应行或者对应列的所述第一预设值的数量确定为所述目标文本对应的相关性值。
5.根据权利要求1所述的方法,其特征在于,所述根据所述相关性值更新增强映射关系矩阵,包括:
确定所述相关性值对应的目标文本;
确定从所述目标文本中提取的关键词;
确定增强映射关系矩阵中与所述关键词和所述目标文本对应的目标矩阵点;
将所述相关性值更新为所述目标矩阵点对应的值的系数,进而得到更新后的增强映射关系矩阵。
6.根据权利要求1所述的方法,其特征在于,在所述根据所述相关性值更新增强映射关系矩阵之前,所述方法还包括:
提取所述对比文档集合中每一个文本对应的关键词;
计算各个所述关键词与对应的文本的余弦相似度;
基于所述余弦相似度,生成增强映射关系矩阵。
7.根据权利要求1所述的方法,其特征在于,所述基于所述增强映射矩阵和预设关联程度阈值,确定目标关键词,包括:
确定所述增强映射矩阵中大于预设关联程度阈值的值对应的目标矩阵点;
将所述目标矩阵点对应的关键词,确定为目标关键词。
8.根据权利要求1所述的方法,其特征在于,所述基于所述目标关键词生成对应的三元体关系,包括:
基于所述目标关键词,确定所述对比文档集合中对应的文本,进而基于所述待分析文档集合中对应的文本生成三元体关系。
9.一种数据分析装置,其特征在于,包括:
接收单元,被配置成接收数据分析请求,获取对应的待分析文档集合和目标场景对应的对比文档集合;
抽取单元,被配置成基于所述待分析文档集合和所述对比文档集合,抽取实体关系映射矩阵;
相关性值确定单元,被配置成基于所述实体关系映射矩阵,确定相关性值;
更新单元,被配置成根据所述相关性值更新增强映射关系矩阵,进而基于更新后的增强映射关系矩阵和所述实体关系映射矩阵,生成增强映射矩阵;
三元体关系生成单元,被配置成基于所述增强映射矩阵和预设关联程度阈值,确定目标关键词,进而基于所述目标关键词生成对应的三元体关系并输出。
10.一种数据分析电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-8中任一所述的方法。
11.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1-8中任一所述的方法。
CN202410368026.5A 2024-03-28 2024-03-28 一种数据分析方法、装置、电子设备及计算机可读介质 Pending CN118133954A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410368026.5A CN118133954A (zh) 2024-03-28 2024-03-28 一种数据分析方法、装置、电子设备及计算机可读介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410368026.5A CN118133954A (zh) 2024-03-28 2024-03-28 一种数据分析方法、装置、电子设备及计算机可读介质

Publications (1)

Publication Number Publication Date
CN118133954A true CN118133954A (zh) 2024-06-04

Family

ID=91247000

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410368026.5A Pending CN118133954A (zh) 2024-03-28 2024-03-28 一种数据分析方法、装置、电子设备及计算机可读介质

Country Status (1)

Country Link
CN (1) CN118133954A (zh)

Similar Documents

Publication Publication Date Title
CN111046237A (zh) 用户行为数据处理方法、装置、电子设备及可读介质
CN113268560A (zh) 用于文本匹配的方法和装置
CN111274341A (zh) 一种网点选址方法和装置
CN111427971A (zh) 用于计算机系统的业务建模方法、装置、系统和介质
CN112231592A (zh) 基于图的网络社团发现方法、装置、设备以及存储介质
CN110309142B (zh) 规则管理的方法和装置
CN112860993A (zh) 兴趣点的分类方法、装置、设备、存储介质及程序产品
CN113435859A (zh) 信访件处理方法、装置、电子设备和计算机可读介质
CN110390011B (zh) 数据分类的方法和装置
CN112419312B (zh) 相似房源信息检测方法、装置、电子设备和可读介质
CN107291923B (zh) 信息处理方法和装置
CN111191050B (zh) 知识图谱本体模型构建的方法和装置
CN114119123A (zh) 信息推送的方法和装置
CN113761565A (zh) 数据脱敏方法和装置
CN116228384A (zh) 一种数据处理方法、装置、电子设备及计算机可读介质
CN114238611B (zh) 用于输出信息的方法、装置、设备以及存储介质
CN113010759B (zh) 聚类集合的处理方法、装置、计算机可读介质及电子设备
CN118133954A (zh) 一种数据分析方法、装置、电子设备及计算机可读介质
CN111784377B (zh) 用于生成信息的方法和装置
CN111291196A (zh) 知识图谱的完善方法及装置、数据处理方法及装置
CN113742564A (zh) 目标资源的推送方法和装置
CN113190730A (zh) 一种区块链地址的分类方法及装置
CN113779370B (zh) 一种地址检索方法和装置
CN113362097B (zh) 一种用户确定方法和装置
CN111639260B (zh) 内容推荐方法及其装置、存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination