CN114817562A - 知识图谱的构建方法、训练方法、信息推荐方法及装置 - Google Patents

知识图谱的构建方法、训练方法、信息推荐方法及装置 Download PDF

Info

Publication number
CN114817562A
CN114817562A CN202210443530.8A CN202210443530A CN114817562A CN 114817562 A CN114817562 A CN 114817562A CN 202210443530 A CN202210443530 A CN 202210443530A CN 114817562 A CN114817562 A CN 114817562A
Authority
CN
China
Prior art keywords
entity
relationship
sequence
recognition model
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210443530.8A
Other languages
English (en)
Inventor
邓泽贵
王洪斌
权佳成
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mashang Xiaofei Finance Co Ltd
Original Assignee
Mashang Xiaofei Finance Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mashang Xiaofei Finance Co Ltd filed Critical Mashang Xiaofei Finance Co Ltd
Priority to CN202210443530.8A priority Critical patent/CN114817562A/zh
Publication of CN114817562A publication Critical patent/CN114817562A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Animal Behavior & Ethology (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本申请提供一种知识图谱的构建方法、基于知识图谱库的推荐方法及装置,包括:对目标文本进行语义特征编码,得到与目标文本对应的第一特征序列。对目标文本对应的第一特征序列进行实体关系识别,得到与目标文本对应的实体关系集合。基于所述目标文本对应的第一特征序列和所述实体关系集合,确定所述目标文本对应的所述实体关系集合中各实体关系的实体标识序列。从所述目标文本对应的所述实体关系集合中各实体关系对应的实体标识序列中,提取所述实体关系集合中各实体关系对应的首实体和尾实体,根据所述实体关系集合中各实体关系,所述各实体关系对应的首实体、所述各实体关系对应的尾实体构建所述知识图谱。

Description

知识图谱的构建方法、训练方法、信息推荐方法及装置
技术领域
本申请属于人工智能领域,尤其涉及一种知识图谱的构建方法、训练方法、信息推荐方法及装置。
背景技术
在知识图谱构建中,知识抽取是核心基础,而实体关系信息是知识抽取的重要对象。作为可用的知识,实体关系信息不仅要呈现出实体关系,还要指明组成该实体关系的实体。
比如,“钱塘江流经杭州,是吴越文化的主要发源地之一”这句话,其中的钱塘江和吴越文化是实体,发源地是钱塘江对于吴越文化的实体关系,理想抽取到的实体关系信息应为″吴越文化(首实体)-发源地(实体关系)-钱塘江(尾实体)″的三元组。
在目前的知识图谱构中,针对三元组知识的抽取方法是先穷举出本中潜在的所有三元组知识,再通过对三元组知识的有效性分析,过滤掉无效部分。这种穷举方式需要投入大量的算力用在有效性分析和过滤上,且即便经过过滤也难免会残留一部分脏数据被添加至知识图谱中。
发明内容
本申请目的是提供一种知识图谱的构建方法、基于知识图谱库的推荐方法及装置,能够以更低的算力开销、更高的准确率,从文本中抽取知识图谱。
为了实现上述目的,本申请实施例是这样实现的:
第一方面,提供一种知识图谱的构建方法,包括:
对目标文本进行语义特征编码,得到与所述目标文本对应的第一特征序列;
对所述目标文本对应的第一特征序列进行实体关系识别,得到所述目标文本对应的实体关系集合;
基于所述目标文本对应的第一特征序列和所述实体关系集合,确定所述目标文本对应的所述实体关系集合中各实体关系的实体标识序列;
从所述目标文本对应的所述实体关系集合中各实体关系对应的实体标识序列中,提取所述实体关系集合中各实体关系对应的首实体和尾实体,根据所述实体关系集合中各实体关系,所述各实体关系对应的首实体、所述各实体关系对应的尾实体构建所述知识图谱。
第二方面,提供一种知识图谱识别模型的训练方法,包括:
将已标注的样本文本输入至初始知识图谱识别模型进行语义特征编码,得到所述样本文本的第三特征序列,其中,所述已标注的样本文本的标注信息包括所述样本文本对应多个实体关系的实体标识序列;
将所述样本文本的第一特征序列输入至所述初始知识图谱识别模型进行实体关系识别,得到所述样本文本对应的实体关系集合;
将所述样本文本的第一特征序列和所述实体关系集合输入至所述初始知识图谱识别模型进行实体标识识别,得到所述样本文本对应所述实体关系集合中各实体关系的实体标识序列;
基于所述实体标识序列,以及所述预测实体标识序列,对所述初始知识图谱识别模型进行训练,得到知识图谱识别模型,其中,所述知识图谱识别模型用于识别目标文本中由实体关系、所述实体关系对应的首实体、所述实体关系对应的尾实体组成的知识图谱的实体标识序列。
第三方面,提供一种信息推荐方法,包括:
获取目标用户的用户信息;确定所述用户信息中的目标实体;
根据所述目标实体从知识图谱中确定至少一个候选三元组,其中,所述候选三元组的首实体为所述目标实体,所述知识图谱是基于权利要求1或2所述的方法确定得到的;
根据所述候选三元组确定所述目标实体对应的尾实体;
将所述尾实体对应的信息推荐给所述目标用户。
第四方面,提供一种知识图谱的构建装置,包括:
编码模块,对目标文本进行语义特征编码,得到与所述目标文本对应的第一特征序列;
实体关系识别模块,对所述目标文本对应的第一特征序列进行实体关系识别,得到所述目标文本对应的实体关系集合;
实体标识识别模块,基于所述第一特征序列和对应的所述实体关系集合,确定所述实体关系集合中各实体关系的实体标识序列;
知识图谱提取模块,从所述目标文本对应的所述实体关系集合中各实体关系对应的实体标识序列中,提取所述实体关系集合中各实体关系对应的首实体和尾实体,根据所述实体关系集合中各实体关系,所述各实体关系对应的首实体、所述各实体关系对应的尾实体构建所述知识图谱。
第五方面,提供一种电子设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器以执行上述第一方面、第二方面和第三方面中任一者的方法。
第六方面,提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现上述第一方面、第二方面和第三方面中任一者的方法。
本申请的方案基于目标文本的语义特征,先预测得到目标文本的实体关系集合。之后,再进一步预测目标文本中的字符在实体关系集合中的每个实体关系下所对应的实体类型,并通过实体标识对字符的实体类型进行标注,从而得到目标文本针对每个实体关系的实体标识序列。其中实体类型包括首实体和尾实体,实体标识序列直接标记出了目标文本中哪些字符属于首实体,哪些字符属于尾实体,因此根据各实体关系的实体标识序列,可以从目标文档中直接提取出各实体关系的首实体和尾实体,进而与所属的实体关系组成三元组知识以构建知识图谱。相较于传统的先穷举所有首实体、尾实体、实体关系之间组合的三元组知识,再对穷举到的这些三元组知识进行有效性分析及筛选的方案,本申请是先确定目标文本身存在的实体关系,再确定实体关系的实体标识序列,从而按照实体标识序列给出的正确标注,来提取三元组知识,并非传统方案穷举得到的,因此提取得到的三元组知识体现出了更高准确率的三元组关系,进而无需再额外投入算力,对提取到的三元组知识进行有效性分析及筛选,在提取效率上得到了显著提升,特别适用于构建信息量庞大的知识图谱。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请实施例中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的知识图谱的构建方法的流程示意图。
图2为本申请实施例提供的第一编码器的结构示意图。
图3为本申请实施例提供的实体关系识别模型的结构示意图。
图4为本申请实施例提供的第二编码器的结构示意图。
图5为本申请实施例提供的实体标识识别模型的结构示意图。
图6为本申请实施例提供的知识图谱识别模型的结构示意图。
图7为本申请实施例提供的知识图谱识别模型的训练方法的流程示意图。
图8为本申请实施例提供的信息推荐方法的流程示意图。
图9为本申请实施例提供的知识图谱的构建装置的结构示意图。
图10为本申请实施例提供的知识图谱识别模型的训练装置的结构示意图。
图11为本申请实施例提供的信息推荐装置的结构示意图。
图12为本申请实施例提供的电子设备的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本说明书中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本说明书保护的范围。
如前文所述,首实体、尾实体、实体关系的三元组知识是知识图谱重要的知识抽取对象。在机器抽取三元组知识的场景中,如果构建可从文本中直接抽取三元组知识的模型,则模型需要使用标注有三元组关系的样本文本进行训练,而三元组关系属于三维度的信息,这就要求模型能够对三种维度排列组合结果实现分类,训练难度极其困难,且具有较大的标注工作量,这显然是难以实现的。
目前,主流的做法是以实体来辅助实体关系的抽取,即构建先抽取实体再抽取实体关系的模型,该类模型的原理是先抽取文本中的实体,并对文本中所有实体进行两两组合,得到所有可能的实体组合,之后再分析这些实体组合所对应的实体关系,并将每种可能的实体组合与确定出的所有实体关系组合后进行有效性分析,从而得到首实体-实体关系-尾实体的三元组知识。而这类模型生成的首实体-实体关系-尾实体的三元组是穷举得到的,会导致将不相关的两个实体,或不相关的实体与实体关系组合在一起,这就产生出了大量关系不正确的三元组知识,这类不正确的三元组知识属于无效的脏数据,需要投入较大的算力用于在有效行分析和过滤上,且即便经过过滤也难免会残留一部分脏数据会添加至知识图谱中。
这里,本申请提出一种全新的提取三元组知识的技术方案,能够解决上述主流方案中存在的问题。本申请中,先预测文本的实体关系集合。之后,再进一步预测目标文本中的字符在实体关系集合中的每个实体关系下所对应的实体类型,并通过实体标识对字符的实体类型进行标注,从而得到目标文本针对每个实体关系的实体标识序列。其中实体类型包括首实体和尾实体,实体标识序列直接标记出了目标文本中哪些字符属于首实体,哪些字符属于尾实体,因此根据各实体关系的实体标识序列,可以从目标文档中直接提取出各实体关系的首实体和尾实体,进而与所属的实体关系组成关系正确的三元组知识以构建知识图谱,从而无需在额外消耗算力对三元组知识进行有效性分析。
一方面,本申请实施例提供一种知识图谱的构建方法。图1是该构建方法的流程图,包括:
S102,对目标文本进行语义特征编码,得到与目标文本对应的第一特征序列。
本步骤可以先将目标文本中的每个字符转换为字向量,再进一步进行基于字向量的语义特征编码,得到目标文本对应的第一特征序列。
其中,字向量转换是为了将目标文本的字符转换为适用于语义特征编码的机器语言。本申请实施例中,可以将字符的笔画、偏旁等信息进行字向量转换。
这里,以笔画为例,″大″字的笔画可以分解为″一丿
Figure RE-GDA0003681618930000061
″,本步骤可以使用现有的word2vec、cw2vec和Unicode等字向量算法,将″大″字的笔画″一丿
Figure RE-GDA0003681618930000062
″量化为相对应的字向量。
应理解,转换成字向量的字符能够被机器识别以完成语义特征编码。
这里,为了结合目标文本的上下文信息确定字符的语义特征,本申请实施例采用长短期记忆(Long Short-Term Memory,LSTM)网络,对目标文本进行语义特征编码。
LSTM网络是一种通过门控制将短期记忆与长期记忆结合进行语义特征编码的时间循环神经网络。当目标文本的字向量序列输入至LSTM网络,LSTM网络会权衡字符对应于上文的语义和/或下文的语义,确定出字符最终的语义信息并进行编码,从而得到字符的语义特征。应理解,目标文本的字符替换为语义特征进行表示,即上文所述的第一特征序列。
基于上述原理,本步骤可以通过图2所示的以嵌入层和LSTM网络所组成的第一编码器,来完成语义特征编码。其中,嵌入层用于将目标文本的每个字符转换为字向量,得到目标文本的字向量序列E1,E2,......,En,n表示目标文本的字符数量;LSTM网络用于对嵌入层输出的字向量序列E1,E2,......,En进行语义特征编码,进一步得到目标文本对应的第一特征序列H1,H2,......,Hn
S104,对目标文本对应的第一特征序列进行实体关系识别,得到与目标文本对应的实体关系集合。
这里,本步骤可以基于人工智能技术,预先构建一个用于识别实体关系的实体关系识别模型,并将目标文本对应的第一特征序列输入至实体关系识别模型,以得到目标文本对应的实体关系集合。
图3是实体关系识别模型的结构示意图,该实体关系识别模型主要包括池化层和分类器。其中,池化层用于对第一特征序列中H1,H2,......,Hn进行下采样简化,以得到简化后的第一特征序列H’1,H'2,......,H’n;分类器用于对池化层输出的简化后的第一特征序列 H’1,H'2,......,H’n进行实体关系的分类识别,得到目标文本可能存在的实体关系集合S{1, 2......,m},这里m表示分类器识别得到的实体关系的数量。
基于图3可以看出,上述实体关系识别模型属于分类模型,可通过上文所述的语义特征编码的编码逻辑,对标注有实体关系标签的样本文本进行编码,并基于得到的编码结果来完成实体关系识别模的训练。在训练过程中,样本文本所标注的实体关系标签可以视为实体关系识别模型针对样本文本的输出期望,通过不断迭代调整池化层和分类器中的参数,使实体关系识别模型针对样本文本的实体关系的预测结果逐渐向标注的实体关系标签上收敛,从而形成识别文本中实体关系的能力。
S106,基于第一特征序列和对应实体关系集合,确定实体关系集合中各实体关系的实体标识序列。
本申请实施例中,目标文本的实体标识序列是以字符为粒度表示的。一个字符在某一实体关系中的实体标识反映了该字符在该实体关系中的实体类型。如前文所述,本申请实施例的实体类型至少包括有首实体和尾实体,也就是说实体标识序列中会以实体标识标注出目标文本中哪些字符属于首实体,哪些字符属于尾实体。
这样一来,就可以直接根据实体标识序列的标注,提取目标文本中用于组建三元组知识图谱所需要的首实体信息和尾实体信息。
为此,本步骤需要识别出目标本文中对应实体关系集合中的各实体关系的实体标识序列。这里,可以将S104识别得到的实体关系集合作为目标文本的特征信息,与目标文本对应的第一特征序列进行二维特征编码,以在第一特征序列基础之上引入实体关系集合的变量,得到二维的第二特征序列,该第二特征序列共轭了目标文本的语义特征与实体关系集合,在共轭的约束下,通过对第二特征序列进行实体标识识别,识别出的实体标识序列所属的实体关系不会超出实体关系集合的范围,从而得到目标文本对应实体关系集合中的各实体关系的实体标识序列。
本申请实施例中,针对目标文本的二维特征编码可以通过第二编码器完成。图4是第二编码器的结构示意图,该第二编码器至少包括一个卷积神经网络,卷积神经网络进一步包含有两个维度的输入通道,其中一个输入通道用于输入第一特征序列中H1,H2......,Hn,另一个输入通道用于输入实体关系集合S{1,2......,m},卷积神经网络可以针对目标文本的每个字符,将对应第一特征序列的语义特征H与实体关系集合S{1,2......,m}中的所有实体关系进行排列组合编码,最终得到第二特征序列H1-S{1,2......,m},H2-S{1,2......,m},......,Hn-S{1,2......,m}。应理解,第二特征序列体现了出了每个字符对应的语义特征和实体关系集合两个维度的特征信息。
同理,在得到目标文本的第二特征序列后,可以基于人工智能技术,完成实体标识序列的机器识别。即,本步骤提供一个预先构建的实体关系识别模型,通过将第二特征序列H1- S{1,2......,m},H2-S{1,2......,m},......,Hn-S{1,2......,m}输入至该实体关系识别模型,以由实体关系识别模型确定目标文本对应实体关系集合中各实体关系的实体标识序列。
图5是实体关系识别模型的结构示意图,该实体关系识别模型包括前向长短期记忆网络(Bi-Long Short-Term Memory,BiLSTM)和条件随机场(Conditional RandomFields,CRF)。其中,BiLSTM用于基于目标实体关系第二特征序列,结合上线文确定目标文档中各字符在目标实体关系中对应的各实体标识的置信值;CRF用于针对目标文档中的各个字符,筛选置信值最大的实体标识进行输出。
参考图5,假设目标文本前4个字符在第二特征序列中对应的二维特征向量分别为H1- S{1,2......,m}、H2-S{1,2......,m}、H3-S{1,2......,m}和H4-S{1,2......,m}。这里将首实体的实体标识以H表示,实体的开始以实体标识B表示,实体的剩余部分以实体标识由I表示,非实体的字符以实体标识O表示,BiLSTM层可以计算目标文本中各字符属于首实体的概率,也就是字符对应BH、BT、I、O的置信值。
这里以S{1}这个实体关系为示例,将S{1}对应的第二特征序列H1-S{1}、H2-S{1}、H3-S{1}和H4-S{1}……输入BiLSTM层后,由BiLSTM层分别计算各字符对应BH、BT、 I、O的置信值;之后再经CRF选取最大置信值的实体标识进行输出。例如图5中:H1-S{1} 对应BH的置信值最大(1.5),则CRF针对第一个字符最终输出的实体标识为BH;H2-S{1} 对应I的置信值最大(0.4),则CRF针对第二个字符最终输出的实体标识为I;H3-S{1}对应I的置信值最大(0.1),则CRF针对第三个字符输出的实体标志为I;H4-S{1}对应O的置信值最大(0.2),则CRF针对第四个字符输出O。可以看出,实体关系识别模型最终输出的针对S{1}的实体标识序列中,前四个字符的实体标识依次为″BH,I,I,O″,从″BH, I,I,O″组成的实体标识序列片段中可以看出,在S{1}这个实体关系中,目标文本前3个字符表示为一个首实体。应理解,通过″BiLSTM+CRF″可以识别出目标文本的每个字符在各实体关系下所对应的实体标识,也就是完整的实体标识序列。
基于图5可以看出,上述实体标识识别模型属于分类模型,可以通过上文所述的生成第二特征序列的逻辑,对标注有实体标识序列的样本文本进行编码,并基于得到的编码结果完成实体标识识别模型的训练。在训练过程中,样本文本所标注的实体标识序列可以视为实体标识识别模型针对样本文本的输出期望,通过不断迭代调整BiLSTM和CRF中的参数,使实体标识识别模型针对样本文本的实体标识识序列的预测结果会逐渐向标注的实体标识序列上收敛,从而形成识别文本中实体标识序列的能力。
S108,从目标文本对应的实体关系集合中各实体关系对应的实体标识序列中,提取实体关系集合中各实体关系对应的首实体和尾实体。
如前所述,任一实体关系的实体标识序列相当于是对目标文本中的每个字符标注了字符在该实体关系中所对应的实体类型。在本申请实施例中,实体类型包括首实体和尾实体,因此本步骤可以直接按照各实体关系的实体标识序列的标注,从目标文本中提取各实体关系的首实体和尾实体。应理解,实体关系与从实体关系中提取的首实体和尾实体是相对应的。
比如,实体标识序列标注目标文本中第12个字符到第15个字符为首实体,第23个字符到第25个字符为尾实体,则本步骤可抽取目标文本中第12个字符到第15个字符作为首实体,并抽取第23个字符到第25个字符作为尾实体。
S110,根据实体关系集合中各实体关系,各实体关系对应的首实体、各实体关系对应的尾实体构建知识图谱。
应理解,知识图谱是由多个三元组知识所组成的具有三元组拓扑结构的数据库,其中,实体关系为知识图谱的边,首实体和尾实体为知识图谱的节点。每个三元组知识中,以首实体作为问题,以尾实体作为答案,以实体关系作为问答类型,呈现出一个完整的问答对知识。以前文所述″吴越文化(首实体)-发源地(实体关系)-钱塘江(尾实体)″的三元组知识为例,当问到吴越文化是发源地是哪时,可以知道通过上述三元组知识找到答案是钱塘江。
综上所述,本申请实施例的方法基于目标文本的语义特征,先预测得到目标文本的实体关系集合。之后,再进一步预测目标文本中的字符在实体关系集合中的每个实体关系下所对应的实体类型,并通过实体标识对字符的实体类型进行标注,从而得到目标文本针对每个实体关系的实体标识序列。其中实体类型包括首实体和尾实体,实体标识序列直接标记出了目标文本中哪些字符属于首实体,哪些字符属于尾实体,因此根据各实体关系的实体标识序列,可以从目标文档中直接提取出各实体关系的首实体和尾实体,从而与所属的实体关系组成三元组知识以构建知识图谱。相较于传统的先穷举所有首实体、尾实体、实体关系之间组合的三元组知识,再对穷举到的这些三元组知识进行有效性分析及筛选的方案,本申请是先确定目标文本身存在的实体关系,再确定实体关系的实体标识序列,从而按照实体标识序列给出的正确标注,来提取三元组知识,并非传统方案穷举得到的,因此提取得到的三元组知识体现出了更高准确率的三元组关系,进而无需再额外投入算力,对提取到的三元组知识进行有效性分析及筛选,在提取效率上得到了显著提升,特别适用于构建信息量庞大的知识谱图。通过上文所述的原理可知,本申请实施例还可以将第一编码器、实体关系识别模型、第二编码器和实体标识识别模型,组成一个复合的知识图谱识别模型,从而借助该知识图谱识别模型,自动化识别该文本中潜在的三元组的知识图谱。
下面对该知识图谱识别模型的构建流程进行详细介绍。
本申请实施例预先构建一个初始知识图谱识别模型,该初始知识图谱识别模型的结构如图6所示,第一编码器的输出(第一特征序列)分别连接实体关系识别模型和第二特征编码器的输入,实体关系识别模型的输出(识别得到的实体关系集合)连接第二特征编码器的输入,第二特征编码器的输出(第二特征序列)连接实体标识识别模型的输入。
这里,可以通过预先准备的已标注的样本文本,来对初始知识图谱识别模型中具有分类功能的实体关系识别模型和实体标识识别模型进行有监督训练,使得最终训练得到的知识图谱识别模型基于实体关系识别模型和实体标识识别模型各自的分类功能,抽取文本中呈现有三元组的知识图谱的实体标识序列。
其中,图7为该知识图谱识别模型的训练方法的流程示意图,具体包括如下步骤:
S702,将已标注的样本文本输入至初始知识图谱识别模型进行语义特征编码,得到样本文本的第三特征序列,其中,已标注的样本文本的标注信息包括样本文本对应多个实体关系的实体标识序列。
具体地,本步骤将样本文本输入至初始知识图谱识别模型的第一编码器,以由第一编码器对样本文本进行语义特征编码,得到样本文本的第三特征序列。
通过前文所述可知,第一特征编码器的用途是基于对文本中字符进行基于字向量的语意特征编码。不管是何种领域的知识图谱,其底层字向量的特征编码逻辑是通用的,因此本申请实施例可以从已投用于自然语言理解任务的字编码器来作为第一编码器,该第一编码器无需针对本申请实施例的方案进行针对性训练。
S704,将样本文本的第一特征序列输入至初始知识图谱识别模型进行实体关系识别,得到样本文本对应的实体关系集合。
具体地,本步骤将样本文本的第三特征序列输入至实体关系识别模型,以由实体关系识别模型针对第三特征序列完成实体关系识别。
应理解,待训练的实体关系识别模型所提供的实体关系识别结果并不一定准确,后续可以基于待训练的实体关系识别模型提供的实体关系识别结果与样本文标注的实体标识序列标签所属的实体关系之间的误差,来确定实体关系识别模型当前的性能,从而针对实体关系识别模型当前的性能,有针对性地对实体关系识别模型的参数进行调整,以达到训练目的。
S706,将样本文本的第三特征序列和实体关系集合输入至初始知识图谱识别模型进行实体标识识别,得到样本文本对应实体关系集合中各实体关系的实体标识序列。
具体地,本步骤将样本文本的第三特征序列和实体关系集合输入至第二编码器进行二维特征编码,得到样本文本对应的第四特征序列。之后,将样本文本对应的第四特征序列输入至实体标识识别模型进行实体标识识别,得到样本文本对应实体关系集合中各实体关系的实体标识序列。
同理,待训练的实体标识识别模型供的实体标识识别结果并不一定准确,后续可以基于待训练的实体标识识别模型的实体标识识别结果与样本文本标注的实体标识序列标之间的误差,来确定实体标识识别模型当前的性能,从而根据实体标识识别模型当前的性能,有针对性地对实体标识识别模型中参数进行调整,已达到训练目的。
S708,基于实体标识序列,以及预测实体标识序列,对初始知识图谱识别模型进行训练,得到知识图谱识别模型,其中,知识图谱识别模型用于识别目标文本中呈现有实体关系、实体关系对应的首实体、实体关系对应的尾实体三元组的知识图谱的实体标识序列。
具体地,本步骤基于实体关系集合中各实体关系,以及样本文本标注的实体标识序列标签所属的实体关系,确定实体关系识别模型的第一训练损失;同时,基于样本文本对应所述实体关系集合中各实体关系的实体标识序列,以及样本文本标注的实体标识序列标签,确定实体标识识别模型的第二训练损失;之后,再进一步基于第一训练损和第二训练损失确定一个总训练损失,并根据该总训练损失,对实体关系识别模型和实体标识识别模型的参数进行优化调整,以实现有监督训练。
通过上述方式进行多轮迭代,直至实体关系识别模型和实体标识识别模型达到各自性能的预设要求时结束训练,得到最终的知识图谱识别模型。
可以看出,样本文本所标注的实体标识序列标签可以视为知识图谱识别模型最终输出的期望值。在实体标识序列标签的监督下,通过迭代调整实体关系识别模型和实体标识识别模型中的参数,使知识图谱识别模型最终输出的样本文本的实体标识序列逐渐向标注的实体标识序列标签上收敛,从而形成针对实体标识序列的识别能力。
下面以语料″作为邓亚萍的毕业院校,清华大学坐落于北京,即中国的首都″作为样本文本为示例,对实体关系识别模型和实体标识识别模型的有监督训练流程进行介绍。
本申请实施例中,″作为邓亚萍的毕业院校,清华大学坐落于北京,即中国的首都″存在有下述三种实体关系:
1)邓亚萍与清华大学之间的″毕业院校关系″;
2)清华大学与北京之间的″坐落于关系″;
3)北京与中国之间的″首都关系″。
首先,分别针对上述三种实体关系,对样本文本标注对应的实体标识序列标签。
这里对实体标识进行如下定义:
实体的开始,实体标识由B表示;
实体的剩余部分,实体标识由I表示;
非实体字符,实体标识由O表示;
首实体,实体标识由H表示;
尾实体,实体标识由T表示。
按照上述实体标识的定义,针对″毕业院校″这个实体关系,标注的实体标识序列标签为:
″O,O,BHP,I,I,O,O,O,O,O,O,BTC,I,I,I,O,O,O,O,O,O,O,O,O,O,O,O,O″。
在″毕业院校″的实体标识序列标签中,首实体″BHP,I,I″为邓亚萍,尾实体″BTC,I,I,I″为清华大学。
针对″坐落于″这个实体关系,标注的实体标识序列标签为:
″O,O,O,O,O,O,O,O,O,O,O,BHC,I,I,I,O,O,O,BTL,I,O,O,O,O,O,O,O,O″。
在″坐落于″的实体标识序列标签中,首实体″BHC,I,I,I″为清华大学,尾实体″BTL,I″为北京。
针对″首都″这个实体关系,标注的实体标识序列标签为:
″O,O,O,O,O,O,O,O,O,O,O,O,O,O,O,O,O,O,BHL,I,O,O,I,BTL,O,O,O,O″。
在″首都″的实体标识序列标签中,首实体″BHL,I″为北京,尾实体″I,BTL″为中国。
之后,将标注的这三种实体标识序列标签的样本文本输入至初始知识图谱识别模型。
参考图2所示的第一编码器原理,样本文本首先通过第一编码器的嵌入层将样本文本转换为字向量序列E1,E2,......,E28,这里28表示样本文本中的字符数(包含标点符号)。之后再通过第一编码器的LSTM网络进一步语义特征编码为第一特征序列H1,H2,......, H28
之后,参考图3所示的实体关系识别模型原理,第一特征序列H1,H2,......,H28通过实体关系识别模型的池化层进行下采样简化,得到简化后的第一特征序列H’1,H’2,......, H'28,该简化后的第一特征序列H’1,H’2,......,H’28进一步通过实体关系识别模型的分类器进行实体关系识别,得到实体关系集合S{1、2、3}。
理论上,实体关系识别模型输出的实体关系集合S{1、2、3}应包含有上文所述的″毕业院校″、″坐落于″和″首都″这三种实体关系,但实体关系识别模型作为待训练对象,并不一定能够准确识别实体关系,或者识别不出来实体关系。这里,需要计算实体关系识别模型提供的识别结果与上述″毕业院校″、″坐落于″和″首都″之间误差,并根据计算得到的误差,确定实体关系识别模型的训练损失Loss1。
比如,S{1}与″毕业院校″对应、S{2}与″坐落于″对应、S{3}与″首都″对应,则可以基于S{1}对应″毕业院校″的置信值与″毕业院校″的有效预测置信阈值之间的差值、S{2}对应″坐落于″的置信值与″坐落于″的有效预测置信阈值之间的差值,以及S{3}对应″首都″的置信值与″首都″的有效预测置信阈值之间的差值,来权衡量化实体关系识别模型的Loss1。
简单举例介绍,假设实体关系识别模型识别出目标文本包含″毕业院校″的置信值达到 80%时,判定为目标文本具有″毕业院校″的实体关系,则该80%作为″毕业院校″的有效预测阈值。训练过程中,实体关系识别模型实际识别目标文本存在″毕业院校″的置信值为 30%,则可以对30%和80%进行做差处理,以确定实体关系识别模型针对″毕业院校″的识别误差。同理,通过上述方法可以同样计算出实体关系识别模型针对″坐落于″和″首都″的识别误差,并对这些识别误差进行加权处理,以量化出实体关系识别模型的Loss1。实际应用中,本申请实施例利用反映实际识别的置信值与有效预测阈值间概率分布差异的损失函数来量化实体关系识别模型的Loss1,该损失函数可以但不限于是交叉熵损失函数和指数损失函数等。应理解,不同类型的损失函数具有不同的概率分布的表达算法,在算力和性能上存在区别,本申请实施例选择何种类型的损失函数计算Loss1可以基于实际需求来选择的,这里不对Loss1的损失函数作具体限定。
之后,参考图4所示的第二编码器原理,实体关系识别模型识别的实体关系集合S{1、 2、3}与第一特征序列H1,H2,......,H28被第二编码器中的卷积神经网络融合为二维的第二特征序列H1-S{1、2、3},H2-S{1、2、3},......,H28-S{1、2、3}。
最终,参考图5所示的实体标识识别模型原理,第二特征序列H1-S{1、2、3},H2-S{1、2、3},......,H28-S{1、2、3}再经实体标识识别模型后,由″BiLSTM+CRF″预测样本文本对应″毕业院校″、″坐落于″和″首都″这三种实体关系的实体标识序列。
理论上,实体标识识别模型识别的三种实体关系的实体标识序列应与样本文本对应标注的的实体标识序列标签一致,但实体标识识别模型作为待训练对象,并不一定能够准确进行识别实体标识序列,或者识别不出来实体标识序列。这里,可以针对每种实体关系,计算实体标识识别模型输出的实体标识序列与标注的实体标识序列标签之间的误差,并根据计算得到的误差,量化出实体标识识别模型的Loss2。
比如,实体标识识别模型针对″毕业院校″这个实体关系,识别得到的实体标识序列为:
″O,O,BHP,I,I,I,O,O,O,O,O,BTC,I,I,I,I,O,O,O,O,O,O,O,O,O,O,O,O″。
显然上述实体标识序列与上文所介绍的″毕业院校″的实体标识序列标签有两个字符存在区别,则可以通过区别字符数量/总字符数量,计算出实体标识识别模型针对″毕业院校″识别误差率为2/28=7%。
同理,基于上述方法可以分别计算出实体标识识别模型针对″坐落于″和″首都″的识别误差率,并将上述三种实体关系对应的识别误差率进行加权求和,以量化得到实体标识识别模型的Loss2。
实际应用中,本申请实施例也可以通过反映实际识别的实体标识序列与实体标识序列标签间概率分布差异的损失函数,来量化实体关系识别模型的Loss2,该损失函数可以但不限于是交叉熵损失函数和指数损失函数等。应理解,不同类型的损失函数具有不同的概率分布的表达算法,在算力和性能上存在区别,本申请实施例选择何种类型的损失函数计算 Loss1可以基于实际需求来选择的,这里不对Loss1的损失函数作具体限定。
在确定实体关系识别模型的Loss1与实体标识识别模型的Loss2后,即可将对Loss1和 Loss2进行相加得到一个总训练损失,训练过程就是通过梯度下降法,反向更新实体关系识别模型和实体标识识别模型中的参数,以尝试降低总训练损失。其中,计算总训练损失的损失函数可以是对Loss1的损失函数和Loss2的损失函数组合得到,这里本文不再具体赘述。
综上所述,通过语料″作为邓亚萍的毕业院校,清华大学坐落于北京,即中国的首都″例子可以看出,基于本申请实施例所训练得到的知识图谱识别模型,可以识别出同一实体所对应的不同实体关系。比如″清华大学″与″邓亚萍″形成″毕业院校″的实体关系,又同时与″北京″形成″坐落于″的实体关系。这种针对同一文本中相同实体的多实体关系的知识图谱抽取,具有很强的信息挖掘能力。
基于本申请实施例的方法,在实际应用中,可以将获得海量的自由文本输入至知识图谱识别模型,以实现高效化的三元组知识的抽取积累,从而完成知识图谱的构建。后续可以基于得到的知识图谱提供信息相关的服务。
这里,以信息推荐服务为示例。本申请实施例还提供一种衍生的信息推荐方法。图8是该信息推荐方法的流程示意图,具体包括如下步骤:
S802,获取目标用户的用户信息。
需要说明的是,本申请实施例的用户信息是在遵守数据安全法规的前提下所获取得到的。其中,用户信息可以指用户使用终端产生的行为信息,也可以指用户使用终端所输入的信息,这里文本不作具体限定。
S804,确定用户信息中的目标实体。
其中,用户信息中的目标实体可以通过传统的语义分析算法识别得到,这里本文不作具体限定。
目标实体的信息类型取决与具体地信息推荐的场景。示例性地,本说明书实施例的信息推荐方法可以提供问答服务,对应地,用户信息可以是用户通过终端输入的提问信息,目标实体具体指提问信息中的提问实体;或者,本说明书实施例的信息推荐方法提供商品推荐服务,对应地,用户信息可以是用户使用终端搜索商品所产生的商品搜索信息,目标实体具体指商品搜索信息中的商品实体。
S806,根据目标实体从知识图谱中确定至少一个候选三元组知识,候选三元组知识的首实体为目标实体。
应理解,本说明书实施例的知识图谱是由图1所示的方法构建得到的。本步骤以目标实体作为检索条件,在知识图谱中检索出以目标实体作为首实体的候选三元组知识。
这里简单举例介绍,假设用户使用终端进行网上购物,输入了商品搜索信息为″婴儿喝奶粉″,则″奶粉″是实体,本步骤可以从知识图谱库中查询以″奶粉″作为首实体的候选三元组知识,例如奶粉品牌、奶粉的排名、奶粉的饮用注意事项等。
进一步地,如果检索得到的候选三元组知识的数量比较多,还可以基于用户信息中针对目标实体相关的描述为依据,对检索得到的候选三元组知识进行筛选。
还是以″婴儿喝奶粉″举例,″婴儿喝″是对″奶粉″进一步描述的线索信息,为此,可以基于″婴儿喝″对初始搜索到的奶粉品牌、奶粉的排名、奶粉的饮用注意事项这些初始检索得到的候选三元组知识进行过滤。比如,初始检索得到的候选三元组知识中包含了全年龄段的奶粉品牌,经过″婴儿喝″的过滤,最终可以得到专用于婴儿喝的一些奶粉品牌。可以看出,基于目标实体相关的描述信息进行过滤,可以得到更符合用户预期的三元组知识。
此外,也有一些场景的用户信息中存在多个目标实体。这种情况下,可以从知识图谱库中确定各目标实体作为首实体的多个三元组知识,并在多个三元组知识中选取同时与多个目标实体具有实体关系的至少一者作为候选三元组知识。
比如,从用户的商品搜索信息中确定出用户搜索了“羊肉卷”、“牛肉卷”、“菠菜”和“麻酱”等目标实体,通过这些目标实体可以推测出用户在查询″“火锅”相关的食材,因此“火锅”是这些目标实体共有的实体关系。针对这种场景,可以在以“羊肉卷”、“牛肉卷”、“菠菜”和“麻酱”分别作为首实体查询相匹配的三元组知识后,再基于共有的“火锅”实体关系作进一步筛选,最终得到与“火锅″相关的候选三元组知识。可以看出,在目标实体为多个时,通过目标实体共有的实体关系进行过滤,往往可以检索出更符合用户期望的候选三元组知识。
S808,将候选三元组知识的尾实体的信息推荐给目标用户。
其中,候选三元组知识的尾实体的信息可以包含有尾实体,也可以包含有基于尾实体衍生出的信息,这里本文不做具体限定。
为方便理解,还是以″婴儿喝奶粉″举例,本步骤在确定出″奶粉-婴儿喝-XX品牌奶粉″的候选三元组知识后,可以将XX品牌奶粉作为目标用户的商品检索结果推荐给目标用户,也可以将″XX品牌奶粉″同类型的其他品牌的婴儿奶粉推荐给目标用户,甚至还可以基于″婴儿喝″的线索,衍生出其他跨域的婴儿产品推荐给目标用户,如尿布、婴儿水杯等。
基于上述内容可知,本申请实施例的信息推荐方法根据首实体-实体关系-尾实体三元组的结构特点,先确定用户信息中存在的目标实体,并在知识图谱搜索出以目标实体为首实体的候选三元组知识,从而将候选三元组知识的尾实体的相关信息推荐给用户,为用户获取信息提供便利。整个方案是以用户信息中的目标实体来作为知识图谱的搜索线索,因此所搜得到的候选三元组知识有较高的概率符合用户期望,同时以候选三元组知识的尾实体为基础进行相关信息推荐,可以在实现精准推荐的基础上,将更加丰富的信息提供给用户,提升了推荐效果。
显然,基于本申请实施例的三元组的指示图谱,可以提供多种服务类型的信息推荐。
比如:
1)知识图谱的问答
知识图谱中存在(邓亚萍-毕业于-清华大学)这样的三元组的时。当用户问″邓亚萍毕业于哪所大学?″时,可以通过实体关系识别模型识别到″邓亚萍″这个实体的实体关系是″毕业于″。那么之后就可以在知识图谱查询以″邓亚萍″为首实体,以″毕业于″为实体关系的邓亚萍-毕业于-清华大学的知识图谱,并将知识图谱中尾实体的″清华大学″作为答案腿推荐给用户。
2)任务型信息的推荐
比如从用户的消费信息中得出用户购买了“羊肉卷”、“牛肉卷”、“菠菜”和“麻酱”,那么可以推测出用户很有可能是要吃一顿火锅。这种情况下,可以从将消费信息中的“羊肉卷”、“牛肉卷”、“菠菜”和“麻酱”分别作为首实体,从知识图谱中查询“羊肉卷”、“牛肉卷”、“菠菜”和“麻酱”这些首实体共有的实体关系的知识图谱,一般情况下,这种查询方法很容易找到″火锅″相关的共有实体关系,系统可以向用户推荐与″火锅″相关的其他菜品和调料,或者是与″火锅″相关的菜品和调料的品牌。
3)冷启动场景的推荐
像一些是冷启动的业务推荐系统尚未积累足够的知识,可以将本申请实施例的知识图谱库作为外部知识来源,提供初期的信息推荐服务,后期在知识积累充足后,在使用更加专业的知识库进行推荐服务。
4)知识型的内容推荐
比如用户搜索了“婴儿喝奶粉”的商品,基于知识图谱除了可以推荐“婴儿水杯”外,还可以向以″婴儿″作为首实体,从知识图谱库检索一些与″婴儿″相关的奶粉饮用知识,这些信息往往是用户能够认可的推荐内容。
与上述图1所示方法相对应地,本申请实施例还提供一种知识图谱的构建装置。图9是该构建装置900的结构示意图,包括:
编码模块910,对目标文本进行语义特征编码,得到与所述目标文本对应的第一特征序列。
实体关系识别模块920,对所述目标文本对应的第一特征序列进行实体关系识别,得到与所述目标文本对应的实体关系集合。
实体标识识别模块930,基于所述第一特征序列和对应的所述实体关系集合,确定所述实体关系集合中各实体关系的实体标识序列。
知识提取模块940,从所述目标文本对应的所述实体关系集合中各实体关系对应的实体标识序列中,提取所述实体关系集合中各实体关系对应的首实体和尾实体。
知识图谱构建模块950,根据所述实体关系集合中各实体关系,所述各实体关系对应的首实体、所述各实体关系对应的尾实体构建所述知识图谱。
本申请实施例的装置先对目标文本进行语义特征编码,以基于编码得到的第一特征序列先预测目标文本的实体关系集合。之后,再针对目标文本对应的第一特征序列和识别得到的实体关系集合,确定目标文本对应各实体关系的实体标识序列,从而能够在各实体关系的实体标识序列中直接提取首实体和尾实体,以组建实体关系、实体关系中的首实体和实体关系中的尾实体三元组的知识图谱。相较于先穷举文本中的实体组合,再进行实体关系分析的传统方案,本申请省去了对无效的实体组合的算力开销,并具有更高的效率。
可选地,所述基于所述目标文本对应的第一特征序列和所述实体关系集合,实体标识识别模块930具体用于:将所述目标文本对应的第一特征序列和所述实际关系集合中各实体关系进行二维特征编码,得到与所述目标文本的第二特征序列;对所述目标文本的第二特征序列进行实体标识识别,得到所述目标文本对应所述实体关系集合中的各实体关系的实体标识序列。
显然,图9所示的构建装置可以作为图1所示方法的执行主体,因此可以实现该方法在图1所示的步骤和相应的功能。由于原理相同,本文不再具体赘述。
与上述图7所示方法相对应地,本申请实施例还提供一种知识图谱识别模型的训练装置,图10是该训练装置1000的结构示意图,包括:
编码模块1010,将已标注的样本文本输入至初始知识图谱识别模型进行语义特征编码,得到所述样本文本的第三特征序列,其中,所述已标注的样本文本的标注信息包括所述样本文本对应多个实体关系的实体标识序列。
实体关系识别模块1020,将所述样本文本的第三特征序列输入至所述初始知识图谱识别模型进行实体关系识别,得到所述样本文本对应的实体关系集合;
实体标识识别模块1030,将所述样本文本的第三特征序列和所述实体关系集合输入至所述初始知识图谱识别模型进行实体标识识别,得到所述实体关系集合中每个实体关系的预测实体标识序列;
训练模块1040,基于所述实体标识序列,以及所述预测实体标识序列,对所述初始知识图谱识别模型进行训练,得到知识图谱识别模型,其中,所述知识图谱识别模型用于识别目标文本中由实体关系、所述实体关系对应的首实体、所述实体关系对应的尾实体组成的知识图谱的实体标识序列。
可选地,所述初始知识图谱识别模型包括实体关系识别模型和实体标识识别模型,训练模块1040具体用于:基于所述实体关系集合中各实体关系,以及所述样本文本标注的实体标识序列标签所属的实体关系,确定所述实体关系识别模型的第一训练损失;基于所述样本文本对应所述实体关系集合中各实体关系的实体标识序列,以及所述样本文本标注的实体标识序列标签,确定所述实体标识识别模型的第二训练损失;基于所述第一训练损失和所述第二训练损失确定总训练损失,基于所述总训练损失,对所述实体关系识别模型和所述实体标识识别模型的参数进行调整,以得到知识图谱识别模型。
可选地,所述知识图谱识别模型包括第一编码器、第二编码器和实体标识识别模型,其中:所述第一编码器用于将样本文本输入至初始知识图谱识别模型进行语义特征编码,得到所述样本文本的第三特征序列;所述第二编码器用于对所述样本文本的第三特征序列和所述实体关系集合进行二维特征编码,得到所述样本文本对应的第四特征序列;所述实体标识识别模型用于对所述样本文本对应的第四特征序列进行实体标识识别,得到所述样本文本对应所述实体关系集合中各实体关系的实体标识序列。
显然,图10所示的训练装置可以作为图7所示方法的执行主体,因此可以实现该方法在图7所示的步骤和相应的功能。由于原理相同,本文不再具体赘述。
与上述图8所示方法相对应地,本申请实施例还提供一种信息推荐装置,图11是该信息推荐装置1100的结构示意图,包括:
用户信息获取模块1110,获取目标用户的用户信息。
实体确定模块1120,确定用户信息中的目标实体。
知识图谱匹配模块1130,根据目标实体从知识图谱中确定至少一个候选三元组知识,候选三元组知识的首实体为目标实体。
信息推荐模块1140,将候选三元组知识的尾实体的信息推荐给目标用户。
可选地,当所述目标实体为多个时,知识图谱匹配模块1130具体用于:从所述知识图谱库中确定各目标实体作为首实体的多个知识图谱,并在所述多个知识图谱中将所述多个目标实体共有实体关系的知识图谱作为所述候选知识图谱。
可选地,所述用户信息为所述用户的提问信息,所述目标实体为所述提问信息中的提问实体;或者,所述用户信息为所述用户的商品搜索信息,所述目标实体为所述商品搜索信息中的商品实体。
显然,图11所示的信息推荐装置可以作为图8所示方法的执行主体,因此可以实现该方法在图8所示的步骤和相应的功能。由于原理相同,本文不再具体赘述。
图12是本说明书的一个实施例电子设备的结构示意图。请参考图12,在硬件层面,该电子设备包括处理器,可选地还包括内部总线、网络接口、存储器。其中,存储器可能包含内存,例如高速随机存取存储器(Random-Access Memory,RAM),也可能还包括非易失性存储器(non-volatile memory),例如至少1个磁盘存储器等。当然,该电子设备还可能包括其他业务所需要的硬件。
处理器、网络接口和存储器可以通过内部总线相互连接,该内部总线可以是ISA(Industry Standard Architecture,工业标准体系结构)总线、PCI(PeripheralComponent Interconnect,外设部件互连标准)总线或EISA(Extended Industry StandardArchitecture,扩展工业标准结构) 总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图12中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
存储器,用于存放程序。具体地,程序可以包括程序代码,所述程序代码包括计算机操作指令。存储器可以包括内存和非易失性存储器,并向处理器提供指令和数据。
可选地,处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行,在逻辑层面上形成上述图9所示的构建装置。对应地,处理器,执行存储器所存放的程序,并具体用于执行以下操作:
对目标文本进行语义特征编码,得到与所述目标文本对应的第一特征序列;
对所述目标文本对应的第一特征序列进行实体关系识别,得到所述目标文本对应的实体关系集合。
基于所述目标文本对应的第一特征序列和所述实体关系集合,确定所述目标文本对应的所述实体关系集合中各实体关系的实体标识序列。
从所述目标文本对应的所述实体关系集合中各实体关系对应的实体标识序列中,提取所述实体关系集合中各实体关系对应的首实体和尾实体。
针对所述实体关系集合中每个实体关系,构建由实体关系、所述实体关系对应的首实体、所述实体关系对应的尾实体组成的知识图谱。
或者,处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行,在逻辑层面上形成上述图10所示的训练装置。对应地,处理器,执行存储器所存放的程序,并具体用于执行以下操作:
将已标注的样本文本输入至初始知识图谱识别模型进行语义特征编码,得到所述样本文本的第三特征序列,其中,所述已标注的样本文本的标注信息包括所述样本文本对应多个实体关系的实体标识序列;
将所述样本文本的第三特征序列输入至所述初始知识图谱识别模型进行实体关系识别,得到所述样本文本对应的实体关系集合;
将所述样本文本的第三特征序列和所述实体关系集合输入至所述初始知识图谱识别模型进行实体标识识别,得到所述实体关系集合中每个实体关系的预测实体标识序列;
基于所述实体标识序列,以及所述预测实体标识序列,对所述初始知识图谱识别模型进行训练,得到知识图谱识别模型,其中,所述知识图谱识别模型用于识别目标文本中由实体关系、所述实体关系对应的首实体、所述实体关系对应的尾实体组成的知识图谱的实体标识序列。
或者,处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行,在逻辑层面上形成上述图11所示的信息推荐装置。对应地,处理器,执行存储器所存放的程序,并具体用于执行以下操作:
获取目标用户的用户信息。确定所述用户信息中的目标实体。
根据所述目标实体从知识图谱中确定至少一个候选三元组知识,其中,所述候选三元组知识的首实体为所述目标实体,所述知识图谱是基于图1所示的方法确定得到的。
将所述候选三元组知识的尾实体的信息推荐给所述目标用户。上述如本说明书图1、图 7和图8中任一者的方法可以应用于处理器中,由处理器实现。处理器可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器,包括中央处理器 (Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(ApplicationSpecific Integrated Circuit,ASIC)、现场可编程门阵列(Field-ProgrammableGateArray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。
当然,除了软件实现方式之外,本说明书的电子设备并不排除其他实现方式,比如逻辑器件抑或软硬件结合的方式等等,也就是说以下处理流程的执行主体并不限定于各个逻辑单元,也可以是硬件或逻辑器件。
此外,本申请实施例还提出了一种计算机可读存储介质,该计算机可读存储介质存储一个或多个程序,该一个或多个程序包括指令。
可选地,上述指令当被包括多个应用程序的便携式电子设备执行时,能够使该便携式电子设备执行图1所示方法的步骤,包括:
对目标文本进行语义特征编码,得到与所述目标文本对应的第一特征序列;
对所述目标文本对应的第一特征序列进行实体关系识别,得到所述目标文本对应的实体关系集合。
基于所述目标文本对应的第一特征序列和所述实体关系集合,确定所述目标文本对应的所述实体关系集合中各实体关系的实体标识序列。
从所述目标文本对应的所述实体关系集合中各实体关系对应的实体标识序列中,提取所述实体关系集合中各实体关系对应的首实体和尾实体。
根据所述实体关系集合中各实体关系,所述各实体关系对应的首实体、所述各实体关系对应的尾实体构建所述知识图谱。
或者,上述指令当被包括多个应用程序的便携式电子设备执行时,能够使该便携式电子设备执行图7所示方法的步骤,包括:
将已标注的样本文本输入至初始知识图谱识别模型进行语义特征编码,得到所述样本文本的第三特征序列,其中,所述已标注的样本文本的标注信息包括所述样本文本对应多个实体关系的实体标识序列;
将所述样本文本的第三特征序列输入至所述初始知识图谱识别模型进行实体关系识别,得到所述样本文本对应的实体关系集合;
将所述样本文本的第三特征序列和所述实体关系集合输入至所述初始知识图谱识别模型进行实体标识识别,得到所述实体关系集合中每个实体关系的预测实体标识序列;
基于所述实体标识序列,以及所述预测实体标识序列,对所述初始知识图谱识别模型进行训练,得到知识图谱识别模型,其中,所述知识图谱识别模型用于识别目标文本中由实体关系、所述实体关系对应的首实体、所述实体关系对应的尾实体组成的知识图谱的实体标识序列。
或者,上述指令当被包括多个应用程序的便携式电子设备执行时,能够使该便携式电子设备执行图8所示方法的步骤,包括:
获取目标用户的用户信息。确定所述用户信息中的目标实体。
根据所述目标实体从知识图谱中确定至少一个候选三元组知识,其中,所述候选三元组知识的首实体为所述目标实体,所述知识图谱是基于图1所示的方法确定得到的。
将所述候选三元组知识的尾实体的信息推荐给所述目标用户。本领域技术人员应明白,本说明书的实施例可提供为方法、系统或计算机程序产品。因此,本说明书可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本说明书可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
以上仅为本说明书的实施例而已,并不用于限制本说明书。对于本领域技术人员来说,本说明书可以有各种更改和变化。凡在本说明书的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本说明书的权利要求范围之内。此外,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本文件的保护范围。

Claims (11)

1.一种知识图谱的构建方法,其特征在于,包括:
对目标文本进行语义特征编码,得到与所述目标文本对应的第一特征序列;
对所述目标文本对应的第一特征序列进行实体关系识别,得到与所述目标文本对应的实体关系集合;
基于所述第一特征序列和对应的所述实体关系集合,确定所述实体关系集合中各实体关系的实体标识序列;
从所述目标文本对应的所述实体关系集合中各实体关系对应的实体标识序列中,提取所述实体关系集合中各实体关系对应的首实体和尾实体;
根据所述实体关系集合中各实体关系,所述各实体关系对应的首实体、所述各实体关系对应的尾实体构建所述知识图谱。
2.根据权利要求1所述的方法,其特征在于,所述基于所述目标文本对应的第一特征序列和所述实体关系集合,确定所述目标文本对应所述实体关系集合中各实体关系的实体标识序列,包括:
将所述目标文本对应的第一特征序列和所述实体关系集合中各实体关系进行二维特征编码,得到与所述目标文本对应的第二特征序列;
对所述目标文本的第二特征序列进行实体标识识别,得到所述目标文本对应所述实体关系集合中的各实体关系的实体标识序列。
3.一种知识图谱识别模型的训练方法,其特征在于,包括:
将已标注的样本文本输入至初始知识图谱识别模型进行语义特征编码,得到所述样本文本的第三特征序列,其中,所述已标注的样本文本的标注信息包括所述样本文本对应多个实体关系的实体标识序列;
将所述样本文本的第三特征序列输入至所述初始知识图谱识别模型进行实体关系识别,得到所述样本文本对应的实体关系集合;
将所述样本文本的第三特征序列和所述实体关系集合输入至所述初始知识图谱识别模型进行实体标识识别,得到所述实体关系集合中每个实体关系的预测实体标识序列;
基于所述实体标识序列,以及所述预测实体标识序列,对所述初始知识图谱识别模型进行训练,得到知识图谱识别模型,其中,所述知识图谱识别模型用于识别目标文本中由实体关系、所述实体关系对应的首实体、所述实体关系对应的尾实体组成的知识图谱的实体标识序列。
4.根据权利要求3所述的方法,其特征在于,
所述将所述样本文本的第三特征序列和所述实体关系集合输入至所述初始知识图谱识别模型进行实体标识识别,得到所述实体关系集合中每个实体关系的预测实体标识序列,包括:
将所述样本文本的第三特征序列和所述实体关系集合输入至所述初始知识图谱识别模型,以对所述样本文本的第三特征序列和所述实体关系集合进行二维特征编码,得到所述样本文本的第四特征序列;以及,
将所述样本文本的第四特征序列输入至所述初始知识图谱识别模型,以对所述样本文本的第四特征序列进行实体标识识别,得到所述实体关系集合中每个实体关系的预测实体标识序列。
5.根据权利要求3所述的方法,其特征在于,所述初始知识图谱识别模型包括用于实体关系识别的实体关系识别模型和用于实体标识序列识别的实体标识识别模型,所述基于所述样本文本对应的实体标识序列,以及所述样本文本对应所述实体关系集合中各实体关系的实体标识序列,对所述初始知识图谱识别模型进行训练,得到知识图谱识别模型,包括:
基于所述实体关系集合中各实体关系,以及所述样本文本标注的实体标识序列所属的实体关系,确定所述实体关系识别模型的第一训练损失;
基于所述样本文本对应所述实体关系集合中各实体关系的实体标识序列,以及所述样本文本标注的实体标识序列,确定所述实体标识识别模型的第二训练损失;
基于所述第一训练损失和所述第二训练损失确定总训练损失,基于所述总训练损失,对所述实体关系识别模型和所述实体标识识别模型的参数进行调整,以得到所述知识图谱识别模型。
6.一种信息推荐方法,其特征在于,包括:
获取目标用户的用户信息;确定所述用户信息中的目标实体;
根据所述目标实体从知识图谱中确定至少一个候选三元组知识,其中,所述候选三元组知识的首实体为所述目标实体,所述知识图谱是基于权利要求1或2所述的方法确定得到的;
将所述候选三元组知识的尾实体的信息推荐给所述目标用户。
7.根据权利要求6所述的方法,其特征在于,所述目标实体为多个,所述根据所述目标实体从知识图谱中确定至少一个候选三元组知识,包括:
从所述知识图谱中确定各目标实体作为首实体的多个三元组知识,在所述多个三元组知识中选取同时与所述多个目标实体具有实体关系的至少一者作为候选三元组知识。
8.根据权利要求6或7所述的方法,其特征在于,
所述用户信息为所述用户的提问信息,所述目标实体为所述提问信息中的提问实体;或者,
所述用户信息为所述用户的商品搜索信息,所述目标实体为所述商品搜索信息中的商品实体。
9.一种知识图谱的构建装置,其特征在于,包括:
编码模块,对目标文本进行语义特征编码,得到与所述目标文本对应的第一特征序列;
实体关系识别模块,对所述目标文本对应的第一特征序列进行实体关系识别,得到所述目标文本对应的实体关系集合;
实体标识识别模块,基于所述目标文本对应的第一特征序列和所述实体关系集合,确定所述目标文本对应的所述实体关系集合中各实体关系的实体标识序列;
知识图谱提取模块,从所述目标文本对应的所述实体关系集合中各实体关系对应的实体标识序列中,提取所述实体关系集合中各实体关系对应的首实体和尾实体,根据所述实体关系集合中各实体关系,所述各实体关系对应的首实体、所述各实体关系对应的尾实体构建所述知识图谱。
10.一种电子设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述计算机程序被所述处理器以执行权利要求1或2所述的方法,或者权利要求3至5任一项所述的方法,或者权利要求6至8任一项所述的方法。
11.一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1或2任一项所述的方法,或者权利要求3至5任一项所述的方法,或者权利要求6至8任一项所述的方法。
CN202210443530.8A 2022-04-26 2022-04-26 知识图谱的构建方法、训练方法、信息推荐方法及装置 Pending CN114817562A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210443530.8A CN114817562A (zh) 2022-04-26 2022-04-26 知识图谱的构建方法、训练方法、信息推荐方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210443530.8A CN114817562A (zh) 2022-04-26 2022-04-26 知识图谱的构建方法、训练方法、信息推荐方法及装置

Publications (1)

Publication Number Publication Date
CN114817562A true CN114817562A (zh) 2022-07-29

Family

ID=82508579

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210443530.8A Pending CN114817562A (zh) 2022-04-26 2022-04-26 知识图谱的构建方法、训练方法、信息推荐方法及装置

Country Status (1)

Country Link
CN (1) CN114817562A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116561588A (zh) * 2023-07-07 2023-08-08 北京国电通网络技术有限公司 电力文本识别模型构建方法、电力设备维修方法和装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112926332A (zh) * 2021-03-30 2021-06-08 善诊(上海)信息技术有限公司 一种实体关系联合抽取方法及装置
CN113704392A (zh) * 2021-04-13 2021-11-26 腾讯科技(深圳)有限公司 文本中实体关系的抽取方法、装置、设备及存储介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112926332A (zh) * 2021-03-30 2021-06-08 善诊(上海)信息技术有限公司 一种实体关系联合抽取方法及装置
CN113704392A (zh) * 2021-04-13 2021-11-26 腾讯科技(深圳)有限公司 文本中实体关系的抽取方法、装置、设备及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116561588A (zh) * 2023-07-07 2023-08-08 北京国电通网络技术有限公司 电力文本识别模型构建方法、电力设备维修方法和装置
CN116561588B (zh) * 2023-07-07 2023-10-20 北京国电通网络技术有限公司 电力文本识别模型构建方法、电力设备维修方法和装置

Similar Documents

Publication Publication Date Title
CN112199375B (zh) 跨模态的数据处理方法、装置、存储介质以及电子装置
CN109918560B (zh) 一种基于搜索引擎的问答方法和装置
CN112164391A (zh) 语句处理方法、装置、电子设备及存储介质
CN110413999A (zh) 实体关系抽取方法、模型训练方法及相关装置
CN111159485B (zh) 尾实体链接方法、装置、服务器及存储介质
CN110781319B (zh) 跨媒体大数据的公共语义表示、搜索方法和装置
CN111241232B (zh) 业务服务的处理方法、装置、服务平台及存储介质
CN112364947B (zh) 一种文本相似度计算方法和装置
CN112507106B (zh) 深度学习模型的训练方法、装置和faq相似度判别方法
CN113627447A (zh) 标签识别方法、装置、计算机设备、存储介质及程序产品
CN110580339B (zh) 一种医疗术语知识库完善的方法和装置
CN115062134B (zh) 知识问答模型训练及知识问答方法、装置和计算机设备
CN114691864A (zh) 文本分类模型训练方法及装置、文本分类方法及装置
CN115470232A (zh) 模型训练和数据查询方法、装置、电子设备和存储介质
CN116150367A (zh) 一种基于方面的情感分析方法及系统
CN114817562A (zh) 知识图谱的构建方法、训练方法、信息推荐方法及装置
CN111611350A (zh) 基于健康知识的应答方法、装置及电子设备
CN110969005B (zh) 一种确定实体语料之间的相似性的方法及装置
CN114722204A (zh) 多标签文本分类方法及装置
CN112199954B (zh) 基于语音语义的疾病实体匹配方法、装置及计算机设备
CN116127080A (zh) 描述对象的属性值提取方法及相关设备
CN113657473A (zh) 一种基于迁移学习的Web服务分类方法
CN113761188A (zh) 文本标签确定方法、装置、计算机设备和存储介质
CN116796288A (zh) 一种面向工业文档的多模态信息提炼方法和系统
CN114898156B (zh) 基于跨模态语义表征学习和融合的图像分类方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination