CN111177393B - 一种知识图谱的构建方法、装置、电子设备及存储介质 - Google Patents
一种知识图谱的构建方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN111177393B CN111177393B CN202010002624.2A CN202010002624A CN111177393B CN 111177393 B CN111177393 B CN 111177393B CN 202010002624 A CN202010002624 A CN 202010002624A CN 111177393 B CN111177393 B CN 111177393B
- Authority
- CN
- China
- Prior art keywords
- entity
- entities
- type
- label
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Computational Linguistics (AREA)
- Machine Translation (AREA)
Abstract
本公开实施例公开了一种知识图谱的构建方法、装置、电子设备及存储介质,该方法包括:将文案语料输入至预先设计的序列标注模型,以通过所述序列标注模型识别所述文案语料中的各实体以及各实体的所属类型;对所述文案语料中的各实体进行两两配对,生成至少一条实体关系特征信息,所述实体关系特征信息包括各实体的所属类型;将所述实体关系特征信息输入至预先训练好的文本分类模型,以通过所述文本分类模型确定目标实体与其它实体之间的关系;基于所述目标实体与其它实体之间的关系,以及各实体的所属类型构建知识图谱。本公开实施例的技术方案,实现了知识图谱的构建目的。
Description
技术领域
本公开实施例涉及计算机技术领域,尤其涉及一种知识图谱的构建方法、装置、电子设备及存储介质。
背景技术
“知识图谱”的概念最早由谷歌公司在2012年提出,其是一种将知识用网络关系图来表示的技术。在知识图谱中,存在“实体”和“边”的概念,“实体”指现实世界中的某一事物或概念,比如人、地名、概念或者组织机构等,“边”指不同实体间的关系,比如“人”-“居住在”-“地名”,“人”-“工作在”-“组织机构”等。
目前,知识图谱可用于智能问答、智能推荐或者自动写作等场景,因此构建各领域的知识图谱意义重大。
发明内容
本公开实施例提供一种知识图谱的构建方法、装置、电子设备及存储介质,以实现知识图谱的构建。
第一方面,本公开实施例提供了一种知识图谱的构建方法,该方法包括:
将文案语料输入至预先设计的序列标注模型,以通过所述序列标注模型识别所述文案语料中的各实体以及各实体的所属类型;
对所述文案语料中的各实体进行两两配对,生成至少一条实体关系特征信息,所述实体关系特征信息包括各实体的所属类型;
将所述实体关系特征信息输入至预先训练好的文本分类模型,以通过所述文本分类模型确定目标实体与其它实体之间的关系;
基于所述目标实体与其它实体之间的关系,以及各实体的所属类型构建知识图谱。
进一步的,所述序列标注模型包括转换编码器和条件随机场TransformerEncoder+CRF模型,所述文本分类模型包括长短期记忆和自关注LSTM+self-attention模型。
进一步的,所述Transformer Encoder+CRF模型基于预先标注标签的训练样本进行训练获得,所采用的标注方式为BIEO标注方式,标注标签包括实体标签以及实体的所属类型标签。
进一步的,所述Transformer Encoder+CRF模型基于预先标注的训练样本进行训练获得,包括:
将各训练样本转换为词向量的形式,得到各样本向量;
将所述各样本向量输入网络结构Transformer Encoder,得到输出矩阵P,其中,矩阵P的大小为n*k,其中k为标注的标签数目,Pi,j表示第i个字被预测为第j个标签的分数;
在CRF层,基于所述输出矩阵P、标签转移矩阵的初始值确定预测标签序列Y’,并结合标签序列真值Y对所述标签转移矩阵的初始值进行优化,将优化后的标签转移矩阵确定为模型参数。
进一步的,所述将文案语料输入至预先设计的序列标注模型,以通过所述序列标注模型识别所述文案语料中的各实体以及各实体的所属类型,包括:
将文案语料转换为词向量的形式,得到文案语料向量;
将所述文案语料向量输入至网络结构Transformer Encoder,得到预测矩阵q,qi,j表示第i个字被预测为第j个标签的分数;
基于所述预测矩阵q以及CRF层的标签转移矩阵确定所述文案语料中每个字属于任意标签的分数;
针对每个字,将分数最高的标签确定为当前字的所属标签,所述标签包括实体标签以及实体的所属类型标签;
根据每个字的所属标签确定所述文案语料中的各实体以及各实体的所属类型。
进一步的,所述对所述文案语料中的各实体进行两两配对,生成至少一条实体关系特征信息,包括:
将第一实体本身以及其所属类型、将第二实体本身以及其所属类型、在所述文案语料中第一实体与第二实体之间的字词、第一实体与第二实体之间的距离、第一实体的长度以及第二实体的长度组成一条实体关系特征信息;
其中,若在所述文案语料中第一实体与第二实体之间的字词包括其它实体,则在所述实体关系特征信息的中对所述其它实体进行遮蔽处理,以消除所述其它实体所带来的语义干扰。
进一步的,所述各实体的所属类型包括下述至少一种:小区、教育机构、公共设施、医院、银行以及小区配套设施。
第二方面,本公开实施例还提供了一种知识图谱的构建装置,该装置包括:
实体识别模块,用于将文案语料输入至预先设计的序列标注模型,以通过所述序列标注模型识别所述文案语料中的各实体以及各实体的所属类型;
配对模块,用于对所述文案语料中的各实体进行两两配对,生成至少一条实体关系特征信息,所述实体关系特征信息包括各实体的所属类型;
实体关系识别模块,用于将所述实体关系特征信息输入至预先训练好的文本分类模型,以通过所述文本分类模型确定目标实体与其它实体之间的关系;
构建模块,用于基于所述目标实体与其它实体之间的关系,以及各实体的所属类型构建知识图谱。
第三方面,本公开实施例还提供了一种设备,所述设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如本公开实施例任一所述的知识图谱的构建方法。
第四方面,本公开实施例还提供了一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行如本公开实施例任一所述的知识图谱的构建方法。
本公开实施例的技术方案,通过将文案语料输入至预先设计的序列标注模型,以通过所述序列标注模型识别所述文案语料中的各实体以及各实体的所属类型;对所述文案语料中的各实体进行两两配对,生成至少一条实体关系特征信息,所述实体关系特征信息包括各实体的所属类型;将所述实体关系特征信息输入至预先训练好的文本分类模型,以通过所述文本分类模型确定目标实体与其它实体之间的关系;基于所述目标实体与其它实体之间的关系,以及各实体的所属类型构建知识图谱的技术手段,实现了知识图谱构建的目的。
附图说明
结合附图并参考以下具体实施方式,本公开各实施例的上述和其他特征、优点及方面将变得更加明显。贯穿附图中,相同或相似的附图标记表示相同或相似的元素。应当理解附图是示意性的,原件和元素不一定按照比例绘制。
图1为本公开实施例一所提供的一种知识图谱的构建方法流程示意图;
图2为本公开实施例一所提供的一种序列标注模型的结构示意图;
图3为本公开实施例一所提供的一种Transformer Encoder的内在结构示意图;
图4为本公开实施例一所提供的一种通过所述文本分类模型确定目标实体与其它实体之间的关系的示意图;
图5为本公开实施例一所提供的一种LSTM Cell的内部结构示意图;
图6为本公开实施例一所提供的一种所构建的知识图谱的示意图;
图7为本公开实施例二所提供的一种知识图谱的构建装置的结构示意图;
图8为本公开实施例三所提供的一种电子设备结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。
应当理解,本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行,和/或并行执行。此外,方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。
本文使用的术语“包括”及其变形是开放性包括,即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”;术语“另一实施例”表示“至少一个另外的实施例”;术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。
需要注意,本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。
需要注意,本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。
实施例一
图1为本公开实施例一所提供的一种知识图谱的构建方法流程示意图,本实施例以构建房地产营销文案领域的知识图谱为例说明上述知识图谱的构建流程。该方法可以由知识图谱的构建装置来执行,该装置可以通过软件和/或硬件的形式实现。
如图1所述,本实施例提供的知识图谱的构建方法包括如下步骤:
步骤110、将文案语料输入至预先设计的序列标注模型,以通过所述序列标注模型识别所述文案语料中的各实体以及各实体的所属类型。
具体的,如下表1所示,序列标注模型的输入语句为“天翠湾位于三号地铁站打铁关附近,5分钟的步程”时,序列标注模型的输出为:天翠湾:小区;打铁关:地铁站……,其中,“天翠湾”、“打铁关”为输入语句中的实体,“小区”为实体“天翠湾”的所属类型,“地铁站”为实体“打铁关”的所属类型。
表1:序列标注模型的输入与输出表
其中,所述序列标注模型包括转换编码器和条件随机场Transformer Encoder+CRF模型,Transformer Encoder属于自注意力机制编码器,不仅能够捕捉句中的语法、语义等特征,还能结合语句间词与词之间的关系特征。CRF是条件随机场,能够学习标注之间的转移情况,结合两者进行标注,是一种比较稳定高效的序列标注模型,其示意图可参考图2所示。Transformer Encoder的内在结构示意图可参考图3所示。
实体以及实体所属类型的识别为序列标注任务,本实施例应用深度学习模型Transformer Encoder+CRF解决,应用的标注方式为BIEO,即Begin、Intermediate、End、Other,分别表示实体的开始字符、中间字符、结束字符以及非实体字符,标注标签包括实体标签以及实体的所属类型标签。以句子“天翠湾位于三号地铁站打铁关附近,5分钟的步程”的实体标注为例,每个字符可标注为如下表2的形式,其中,天翠湾的标注为:天-B_residential_quarter,翠-I_residential_quarter,湾-E_residential_quarter,其中的“residential”表示实体的所属类型标签。打铁关的标注为:打-B_subway,铁-I_subway,关-E_subway,其中,“subway”表示实体的所属类型标签。
表2:标注序列表
所述Transformer Encoder+CRF模型基于预先标注标签的训练样本进行训练获得,示例性的,所述Transformer Encoder+CRF模型基于预先标注的训练样本进行训练获得,包括:
将各训练样本转换为词向量的形式,得到各样本向量;
将所述各样本向量输入网络结构Transformer Encoder,得到输出矩阵P,其中,矩阵P的大小为n*k,其中k为标注的标签数目,Pi,j表示第i个字被预测为第j个标签的分数;
在CRF层,基于所述输出矩阵P、标签转移矩阵的初始值确定预测标签序列Y’,并结合标签序列真值Y对所述标签转移矩阵的初始值进行优化,将优化后的标签转移矩阵确定为模型参数。
具体的,Transformer Encoder+CRF模型的训练过程如下:
准备训练样本,每一个训练样本对包括X(文案语料内容,以字为单位)和Y(文案语料中每个字对应的标注,如上述表2所示的标注形式),令数据长度为n,则有:
X=[x1,x2……xn]
Y=[y1,y2……yn]
经过Embedding Layer的运算,可将X以及Y中的词汇转化为词向量的形式。另外,随机初始化模型的所有参数。
当词向量经由Transformer Encoder后,得到输出矩阵P,矩阵P的大小为n*k,其中k为标注的标签数目,Pi,j表示第i个字被预测为第j个标签的分数,分数越大,说明第i个字越有可能属于第j个标签。
在CRF层中,所要训练的参数矩阵为A,即标签转移矩阵,其大小为k*k,Ai,j表示从标签i转移到标签j的分数。针对任意的一种标签序列,可以通过结合矩阵P以及矩阵A两者分数的方式来计算其得分。对于预测标签序列Y’=[y1’,y2’……yn’],其得分的计算方式为:
已知标签序列真值为Y=[y1,y2……yn],希望此序列对应的分数s(Y)应当最大,通过softmax将分数转化为概率的形式,得:
其中,Yall表示所有可能的标签序列。
训练目标为使下述式子的数值最小化:
Loss=-∑m log(p(Y))
其中,m表示所有的训练样本的数目。
通过梯度下降法的参数更新方式即可训练出模型的参数,即所述标签转移矩阵A。
在训练好模型之后,输入所需要预测的序列X,经过Transformer Encoder层计算得到分数矩阵P,又已知CRF层的标签转移矩阵A,结合两个分数矩阵可求任意标签序列的分数,那么计算出的分数最大的那个标签序列便是最终的解。
进一步的,所述将文案语料输入至预先设计的序列标注模型,以通过所述序列标注模型识别所述文案语料中的各实体以及各实体的所属类型,包括:
将文案语料转换为词向量的形式,得到文案语料向量;
将所述文案语料向量输入至网络结构Transformer Encoder,得到预测矩阵q,qi,j表示第i个字被预测为第j个标签的分数;
基于所述预测矩阵q以及CRF层的标签转移矩阵确定所述文案语料中每个字属于任意标签的分数;
针对每个字,将分数最高的标签确定为当前字的所属标签,所述标签包括实体标签以及实体的所属类型标签;
根据每个字的所属标签确定所述文案语料中的各实体以及各实体的所属类型。
步骤120、对所述文案语料中的各实体进行两两配对,生成至少一条实体关系特征信息,所述实体关系特征信息包括各实体的所属类型。
具体的,所述对所述文案语料中的各实体进行两两配对,生成至少一条实体关系特征信息,包括:
将第一实体本身以及其所属类型、将第二实体本身以及其所属类型、在所述文案语料中第一实体与第二实体之间的字词、第一实体与第二实体之间的距离、第一实体的长度以及第二实体的长度组成一条实体关系特征信息;
其中,若在所述文案语料中第一实体与第二实体之间的字词包括其它实体,则在所述实体关系特征信息的中对所述其它实体进行遮蔽处理,以消除所述其它实体所带来的语义干扰。
以举例的形式说明上述对所述文案语料中的各实体进行两两配对的过程:
以句子“龙宝湾毗邻光明小学、丰安花园、好大夫医院,十分便利。”为例,简述以上过程。首先,此句子中识别出的实体以及对应的实体的所属类型有:龙宝湾:小区;光明小学:教育机构;丰安花园:公共设施;好大夫医院:医院。
接着,按照上述规则对识别出的实体进行两两配对,综合多方面的特征作为判断实体之间关系的依据,以达到精确识别各实体之间关系的目的。
将第一实体本身“龙宝湾”以及其所属类型“小区”、将第二实体本身“光明小学”以及其所属类型“教育机构”、在所述文案语料中第一实体“龙宝湾”与第二实体“光明小学”之间的字词“毗邻”、第一实体“龙宝湾”与第二实体“光明小学”之间的距离“2”、第一实体的长度“3”以及第二实体的长度“4”组成一条实体关系特征信息-龙宝湾,光明小学{“龙宝湾[小区],光明小学[教育机构]”,“毗邻”,2,3,4};
以此类推得到其余的特征信息,其中,若在所述文案语料中第一实体与第二实体之间的字词包括其它实体,例如“龙宝湾与丰安花园”,则在所述实体关系特征信息的中对所述其它实体进行遮蔽处理,以消除所述其它实体所带来的语义干扰,具体为,
龙宝湾,丰安花园:{“龙宝湾[小区],丰安花园[公共设施]”,“毗邻[MASK][教育机构]、”,7,3,4};
龙宝湾,好大夫医院:{“龙宝湾[小区],好大夫医院[医院]”,“毗邻[MASK][教育机构]、[MASK][公共设施]、”,12,3,5};
光明小学,丰安花园:{“光明小学[教育机构]、丰安花园[公共设施]”,“、”,1,4,4};
光明小学,好大夫医院:{“光明小学[教育机构],好大夫医院[医院]”,“、[MASK][公共设施]、”,6,4,4};
丰安花园,好大夫医院:{“丰安花园[公共设施],好大夫医院[医院]”,“、”,1,4,5}。
步骤130、将所述实体关系特征信息输入至预先训练好的文本分类模型,以通过所述文本分类模型确定目标实体与其它实体之间的关系。
其中,所述文本分类模型包括长短期记忆和自关注LSTM+self-attention模型。
具体的,应用腾讯中文开放词向量库将所述实体关系特征信息中的中文转换为向量的形式,经由LSTM+self-attention网络后再和实体关系特征信息中后面的数字相拼接得到最终的实体关系特征信息向量。关系类别包括所有标注数据中存在的关系类型以及无关系类。LSTM可以从上下文的角度对句子进行表征,具备记忆功能,而self-attention机制可以有侧重地选择重要信息,过滤无用信息,并且综合全局信息。另外,需要注意的一点是,在模型训练过程中,除了人工标注的有关系数据以外,还需要设置一些不存在关系的实体对作为训练数据,作为负样本,以提高模型的识别能力。
以“龙宝湾,光明小学”的关系分类为例,两者的实体关系特征信息如下:
{“龙宝湾[小区],光明小学[教育机构]”,“毗邻”,2,3,4}
其中,“龙宝湾[小区],光明小学[教育机构]”,“毗邻”经由文本分类模型LSTM+self-attention输出为向量的形式后,再与向量[2,3,4]拼接而得到最终的实体关系特征信息向量,接着,再通过一层全连接层输出最终的关系分类结果,具体的,可参见如下表3所示的一种文本分类模型的输入与输出表。
表3:文本分类模型的输入与输出表
通过所述文本分类模型确定目标实体与其它实体之间的关系的示意图如图4所示。其中,LSTM Cell的内部结构示意图如图5所示。
进一步的,文本分类模型LSTM+attention的训练流程如下:准备训练样本,每个样本包括X(输入的文本信息,以词为单位),P(位置信息),Y(分类结果),令文本长度为n,则有:
X=[x1,x2……xn]
P=[p1,p2,p3]
经过Embedding Layer的运算,可将X中的词汇转化为词向量的形式。另外,随机初始化模型所有的参数。
将词向量经由LSTM的参数运算后,输出矩阵H,其大小为n*h,h表示LSTM层的大小,即针对每一个输入x,对应大小为h的向量。
H=(h1,h2……hn)
接下来,将矩阵H输入self-attention层。对于每一个h,均作自注意力运算,以h1为例,计算方式如下:
将h1分别与h2,h3...hn相乘,并经由softmax的运算转化为概率的形式,得:
[a2……an]=softmax(h1*h2,h1*h3……h1*hn)
将概率值分别与对应的h向量相乘并累加,得
h’=a2*h2+a3*h3+……+an*hn
将h’与h1拼接,得到长度为2h的向量,称为t1,应用同样的方式对所有h作运算,得到最终结果为T=(t1,t2...tn)。
分别将t与P进行拼接,得O=(o1,o2……on),其中每个o为长度为2h+3的向量。
将O输入全连接层,其参数矩阵为Q,大小为(2h+3)*k,k表示标签的类别数目,再经由softmax层,将分类结果转化为概率,每个概率表示对应标签的置信度,如下:
R=softmax(OQ)=(r1,r2……rk)
目标函数为最大化正确标签的概率值,如下:
Loss=-∑m log(p(Y))
其中,m表示所有的训练样本的数目。
在训练好模型之后,输入所需要预测的文本信息序列X以及位置信息P,经由词向量层,LSTM层,self-attention层以及全连接层的运算以后,得到R=(r1,r2……rk),分别表示属于某一类别标签的概率,取概率最大者对应的标签作为最终的结果。
最后,综合以上过程中,将文案中所识别出的实体以及实体关系,以三元组的形式,如下所示:
[e1,e2,r],其中,e表示实体,r表示关系。
将以上数据存储于图数据库neo4j,方便可视化以及后续的查询及应用。
步骤140、基于所述目标实体与其它实体之间的关系,以及各实体的所属类型构建知识图谱。
具体的,可参见图6所示的一种所构建的知识图谱的示意图,例如从所述知识图谱可以看到龙宝湾小区与教育机构光明小学邻近,同时与公共设施丰安花园邻近。
本公开实施例的技术方案,依托相关部门长期的文案资料积累以及专业文案创作人员的标注,结合自然语言处理技术中的序列标注以及文本分类,建立了房地产文案的知识图谱,该知识图谱可应用于辅助文案创作、文案相关的智能问答等方面。
实施例二
图7为本公开实施例二提供的一种知识图谱的构建装置,该装置包括:实体识别模块710、配对模块720、实体关系识别模块730和构建模块740;
其中,实体识别模块710,用于将文案语料输入至预先设计的序列标注模型,以通过所述序列标注模型识别所述文案语料中的各实体以及各实体的所属类型;配对模块720,用于对所述文案语料中的各实体进行两两配对,生成至少一条实体关系特征信息,所述实体关系特征信息包括各实体的所属类型;实体关系识别模块730,用于将所述实体关系特征信息输入至预先训练好的文本分类模型,以通过所述文本分类模型确定目标实体与其它实体之间的关系;构建模块740,用于基于所述目标实体与其它实体之间的关系,以及各实体的所属类型构建知识图谱。
其中,在上述技术方案的基础上,所述序列标注模型包括转换编码器和条件随机场Transformer Encoder+CRF模型,所述文本分类模型包括长短期记忆和自关注LSTM+self-attention模型。
在上述各技术方案的基础上,所述Transformer Encoder+CRF模型基于预先标注标签的训练样本进行训练获得,所采用的标注方式为BIEO标注方式,标注标签包括实体标签以及实体的所属类型标签。
在上述各技术方案的基础上,所述Transformer Encoder+CRF模型基于预先标注的训练样本进行训练获得,包括:
将各训练样本转换为词向量的形式,得到各样本向量;
将所述各样本向量输入网络结构Transformer Encoder,得到输出矩阵P,其中,矩阵P的大小为n*k,其中k为标注的标签数目,Pi,j表示第i个字被预测为第j个标签的分数;
在CRF层,基于所述输出矩阵P、标签转移矩阵的初始值确定预测标签序列Y’,并结合标签序列真值Y对所述标签转移矩阵的初始值进行优化,将优化后的标签转移矩阵确定为模型参数。
在上述各技术方案的基础上,实体识别模块710包括:
转换单元,用于将文案语料转换为词向量的形式,得到文案语料向量;
预测单元,用于将所述文案语料向量输入至网络结构Transformer Encoder,得到预测矩阵q,qi,j表示第i个字被预测为第j个标签的分数;
确定单元,用于基于所述预测矩阵q以及CRF层的标签转移矩阵确定所述文案语料中每个字属于任意标签的分数;针对每个字,将分数最高的标签确定为当前字的所属标签,所述标签包括实体标签以及实体的所属类型标签;
识别单元,用于根据每个字的所属标签确定所述文案语料中的各实体以及各实体的所属类型。
在上述各技术方案的基础上,配对模块720具体用于:
将第一实体本身以及其所属类型、将第二实体本身以及其所属类型、在所述文案语料中第一实体与第二实体之间的字词、第一实体与第二实体之间的距离、第一实体的长度以及第二实体的长度组成一条实体关系特征信息;
其中,若在所述文案语料中第一实体与第二实体之间的字词包括其它实体,则在所述实体关系特征信息的中对所述其它实体进行遮蔽处理,以消除所述其它实体所带来的语义干扰。
在上述各技术方案的基础上,所述各实体的所属类型包括下述至少一种:小区、教育机构、公共设施、医院、银行以及小区配套设施。
本公开实施例的技术方案,通过将文案语料输入至预先设计的序列标注模型,以通过所述序列标注模型识别所述文案语料中的各实体以及各实体的所属类型;对所述文案语料中的各实体进行两两配对,生成至少一条实体关系特征信息,所述实体关系特征信息包括各实体的所属类型;将所述实体关系特征信息输入至预先训练好的文本分类模型,以通过所述文本分类模型确定目标实体与其它实体之间的关系;基于所述目标实体与其它实体之间的关系,以及各实体的所属类型构建知识图谱的技术手段,实现了知识图谱构建的目的。
本公开实施例所提供的知识图谱的构建装置可执行本公开任意实施例所提供的知识图谱的构建方法,具备执行方法相应的功能模块和有益效果。
值得注意的是,上述装置所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本公开实施例的保护范围。
实施例三
下面参考图8,其示出了适于用来实现本公开实施例的电子设备(例如图8中的终端设备或服务器)400的结构示意图。本公开实施例中的终端设备可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。图8示出的电子设备仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图8所示,电子设备400可以包括处理装置(例如中央处理器、图形处理器等)401,其可以根据存储在只读存储器(ROM)402中的程序或者从存储装置406加载到随机访问存储器(RAM)403中的程序而执行各种适当的动作和处理。在RAM 403中,还存储有电子设备400操作所需的各种程序和数据。处理装置401、ROM 402以及RAM 403通过总线404彼此相连。输入/输出(I/O)接口405也连接至总线404。
通常,以下装置可以连接至I/O接口405:包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置406;包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置407;包括例如磁带、硬盘等的存储装置406;以及通信装置409。通信装置409可以允许电子设备400与其他设备进行无线或有线通信以交换数据。虽然图8示出了具有各种装置的电子设备400,但是应理解的是,并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在非暂态计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信装置409从网络上被下载和安装,或者从存储装置406被安装,或者从ROM 402被安装。在该计算机程序被处理装置401执行时,执行本公开实施例的方法中限定的上述功能。
本公开实施例提供的终端与上述实施例提供的知识图谱的构建方法属于同一发明构思,未在本公开实施例中详尽描述的技术细节可参见上述实施例,并且本公开实施例与上述实施例具有相同的有益效果。
实施例四
本公开实施例提供了一种计算机存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述实施例所提供的知识图谱的构建方法。
需要说明的是,本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、RF(射频)等等,或者上述的任意合适的组合。
在一些实施方式中,客户端、服务器可以利用诸如HTTP(HyperText TransferProtocol,超文本传输协议)之类的任何当前已知或未来研发的网络协议进行通信,并且可以与任意形式或介质的数字数据通信(例如,通信网络)互连。通信网络的示例包括局域网(“LAN”),广域网(“WAN”),网际网(例如,互联网)以及端对端网络(例如,ad hoc端对端网络),以及任何当前已知或未来研发的网络。
上述计算机可读介质可以是上述电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。
上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备:
将文案语料输入至预先设计的序列标注模型,以通过所述序列标注模型识别所述文案语料中的各实体以及各实体的所属类型;
对所述文案语料中的各实体进行两两配对,生成至少一条实体关系特征信息,所述实体关系特征信息包括各实体的所属类型;
将所述实体关系特征信息输入至预先训练好的文本分类模型,以通过所述文本分类模型确定目标实体与其它实体之间的关系;
基于所述目标实体与其它实体之间的关系,以及各实体的所属类型构建知识图谱。
可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码,上述程序设计语言包括但不限于面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本公开实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。其中,单元的名称在某种情况下并不构成对该单元本身的限定,例如,可编辑内容显示单元还可以被描述为“编辑单元”。
本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如,非限制性地,可以使用的示范类型的硬件逻辑部件包括:现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上系统(SOC)、复杂可编程逻辑设备(CPLD)等等。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本公开中所涉及的公开范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述公开构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
此外,虽然采用特定次序描绘了各操作,但是这不应当理解为要求这些操作以所示出的特定次序或以顺序次序执行来执行。在一定环境下,多任务和并行处理可能是有利的。同样地,虽然在上面论述中包含了若干具体实现细节,但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实施例中。相反地,在单个实施例的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实施例中。
尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题,但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反,上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。
Claims (9)
1.一种知识图谱的构建方法,其特征在于,包括:
将文案语料输入至预先设计的序列标注模型,以通过所述序列标注模型识别所述文案语料中的各实体以及各实体的所属类型;
对所述文案语料中的各实体进行两两配对,生成至少一条实体关系特征信息,所述实体关系特征信息包括各实体的所属类型;
将所述实体关系特征信息输入至预先训练好的文本分类模型,以通过所述文本分类模型确定目标实体与其它实体之间的关系;
基于所述目标实体与其它实体之间的关系,以及各实体的所属类型构建知识图谱;
所述对所述文案语料中的各实体进行两两配对,生成至少一条实体关系特征信息,包括:
将第一实体本身以及其所属类型、将第二实体本身以及其所属类型、在所述文案语料中第一实体与第二实体之间的字词、第一实体与第二实体之间的距离、第一实体的长度以及第二实体的长度组成一条实体关系特征信息;
其中,若在所述文案语料中第一实体与第二实体之间的字词包括其它实体,则在所述实体关系特征信息的中对所述其它实体进行遮蔽处理,以消除所述其它实体所带来的语义干扰。
2.根据权利要求1所述的方法,其特征在于,所述序列标注模型包括转换编码器和条件随机场Transformer Encoder+CRF模型,所述文本分类模型包括长短期记忆和自关注LSTM+self-attention模型。
3.根据权利要求2所述的方法,其特征在于,所述Transformer Encoder+CRF模型基于预先标注标签的训练样本进行训练获得,所采用的标注方式为BIEO标注方式,标注标签包括实体标签以及实体的所属类型标签。
4.根据权利要求3所述的方法,其特征在于,所述Transformer Encoder+CRF模型基于预先标注的训练样本进行训练获得,包括:
将各训练样本转换为词向量的形式,得到各样本向量;
将所述各样本向量输入网络结构Transformer Encoder,得到输出矩阵P,其中,矩阵P的大小为n*k,其中k为标注的标签数目,Pi,j表示第i个字被预测为第j个标签的分数;
在CRF层,基于所述输出矩阵P、标签转移矩阵的初始值确定预测标签序列Y’,并结合标签序列真值Y对所述标签转移矩阵的初始值进行优化,将优化后的标签转移矩阵确定为模型参数。
5.根据权利要求4所述的方法,其特征在于,所述将文案语料输入至预先设计的序列标注模型,以通过所述序列标注模型识别所述文案语料中的各实体以及各实体的所属类型,包括:
将文案语料转换为词向量的形式,得到文案语料向量;
将所述文案语料向量输入至网络结构Transformer Encoder,得到预测矩阵q,qi,j表示第i个字被预测为第j个标签的分数;
基于所述预测矩阵q以及CRF层的标签转移矩阵确定所述文案语料中每个字属于任意标签的分数;
针对每个字,将分数最高的标签确定为当前字的所属标签,所述标签包括实体标签以及实体的所属类型标签;
根据每个字的所属标签确定所述文案语料中的各实体以及各实体的所属类型。
6.根据权利要求1-4任一项所述的方法,其特征在于,所述各实体的所属类型包括下述至少一种:小区、教育机构、公共设施、医院、银行以及小区配套设施。
7.一种知识图谱的构建装置,其特征在于,包括:
实体识别模块,用于将文案语料输入至预先设计的序列标注模型,以通过所述序列标注模型识别所述文案语料中的各实体以及各实体的所属类型;
配对模块,用于对所述文案语料中的各实体进行两两配对,生成至少一条实体关系特征信息,所述实体关系特征信息包括各实体的所属类型;
实体关系识别模块,用于将所述实体关系特征信息输入至预先训练好的文本分类模型,以通过所述文本分类模型确定目标实体与其它实体之间的关系;
构建模块,用于基于所述目标实体与其它实体之间的关系,以及各实体的所属类型构建知识图谱;
所述配对模块具体用于:
将第一实体本身以及其所属类型、将第二实体本身以及其所属类型、在所述文案语料中第一实体与第二实体之间的字词、第一实体与第二实体之间的距离、第一实体的长度以及第二实体的长度组成一条实体关系特征信息;
其中,若在所述文案语料中第一实体与第二实体之间的字词包括其它实体,则在所述实体关系特征信息的中对所述其它实体进行遮蔽处理,以消除所述其它实体所带来的语义干扰。
8.一种电子设备,其特征在于,所述电子设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-6中任一项所述的知识图谱的构建方法。
9.一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行如权利要求1-6中任一项所述的知识图谱的构建方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010002624.2A CN111177393B (zh) | 2020-01-02 | 2020-01-02 | 一种知识图谱的构建方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010002624.2A CN111177393B (zh) | 2020-01-02 | 2020-01-02 | 一种知识图谱的构建方法、装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111177393A CN111177393A (zh) | 2020-05-19 |
CN111177393B true CN111177393B (zh) | 2023-03-24 |
Family
ID=70654471
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010002624.2A Active CN111177393B (zh) | 2020-01-02 | 2020-01-02 | 一种知识图谱的构建方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111177393B (zh) |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111476023B (zh) * | 2020-05-22 | 2023-09-01 | 北京明朝万达科技股份有限公司 | 识别实体关系的方法及装置 |
CN111814487B (zh) * | 2020-07-17 | 2024-05-31 | 科大讯飞股份有限公司 | 一种语义理解方法、装置、设备及存储介质 |
CN111881256B (zh) * | 2020-07-17 | 2022-11-08 | 中国人民解放军战略支援部队信息工程大学 | 文本实体关系抽取方法、装置及计算机可读存储介质设备 |
CN111897970B (zh) * | 2020-07-27 | 2024-05-10 | 平安科技(深圳)有限公司 | 基于知识图谱的文本比对方法、装置、设备及存储介质 |
CN112036189A (zh) * | 2020-08-10 | 2020-12-04 | 中国人民大学 | 一种金文语义识别方法和系统 |
CN112115720B (zh) * | 2020-08-31 | 2024-06-04 | 北京字节跳动网络技术有限公司 | 一种实体间关联关系的确定方法、装置、终端设备及介质 |
CN112035645B (zh) * | 2020-09-01 | 2024-06-11 | 平安科技(深圳)有限公司 | 数据查询方法以及系统 |
CN112380355A (zh) * | 2020-11-20 | 2021-02-19 | 华南理工大学 | 一种时隙异构知识图谱的表示与存储方法 |
CN112582073B (zh) * | 2020-12-30 | 2022-10-11 | 天津新开心生活科技有限公司 | 医疗信息获取方法、装置、电子设备和介质 |
CN112669928B (zh) * | 2021-01-06 | 2023-01-10 | 腾讯科技(深圳)有限公司 | 结构化信息构建方法、装置、计算机设备及存储介质 |
CN112784061A (zh) * | 2021-01-27 | 2021-05-11 | 数贸科技(北京)有限公司 | 知识图谱的构建方法、装置、计算设备及存储介质 |
CN113128229B (zh) * | 2021-04-14 | 2023-07-18 | 河海大学 | 一种中文实体关系联合抽取方法 |
CN113393084B (zh) * | 2021-05-13 | 2024-06-11 | 上海湃道智能科技有限公司 | 作业票流程管理系统 |
CN114722823B (zh) * | 2022-03-24 | 2023-04-14 | 华中科技大学 | 构建航空知识图谱的方法及装置、计算机可读介质 |
CN116186232A (zh) * | 2023-04-26 | 2023-05-30 | 中国电子技术标准化研究院 | 一种标准知识智能问答实现方法、装置、设备和介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104933027A (zh) * | 2015-06-12 | 2015-09-23 | 华东师范大学 | 一种利用依存分析的开放式中文实体关系抽取方法 |
CN109933785A (zh) * | 2019-02-03 | 2019-06-25 | 北京百度网讯科技有限公司 | 用于实体关联的方法、装置、设备和介质 |
CN110427623A (zh) * | 2019-07-24 | 2019-11-08 | 深圳追一科技有限公司 | 半结构化文档知识抽取方法、装置、电子设备及存储介质 |
CN110516256A (zh) * | 2019-08-30 | 2019-11-29 | 的卢技术有限公司 | 一种中文命名实体提取方法及其系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180232443A1 (en) * | 2017-02-16 | 2018-08-16 | Globality, Inc. | Intelligent matching system with ontology-aided relation extraction |
-
2020
- 2020-01-02 CN CN202010002624.2A patent/CN111177393B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104933027A (zh) * | 2015-06-12 | 2015-09-23 | 华东师范大学 | 一种利用依存分析的开放式中文实体关系抽取方法 |
CN109933785A (zh) * | 2019-02-03 | 2019-06-25 | 北京百度网讯科技有限公司 | 用于实体关联的方法、装置、设备和介质 |
CN110427623A (zh) * | 2019-07-24 | 2019-11-08 | 深圳追一科技有限公司 | 半结构化文档知识抽取方法、装置、电子设备及存储介质 |
CN110516256A (zh) * | 2019-08-30 | 2019-11-29 | 的卢技术有限公司 | 一种中文命名实体提取方法及其系统 |
Also Published As
Publication number | Publication date |
---|---|
CN111177393A (zh) | 2020-05-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111177393B (zh) | 一种知识图谱的构建方法、装置、电子设备及存储介质 | |
CN111090987B (zh) | 用于输出信息的方法和装置 | |
CN111274815B (zh) | 用于挖掘文本中的实体关注点的方法和装置 | |
CN110781663B (zh) | 文本分析模型的训练方法及装置、文本分析方法及装置 | |
CN111563390B (zh) | 文本生成方法、装置和电子设备 | |
CN112906381B (zh) | 对话归属的识别方法、装置、可读介质和电子设备 | |
CN113468330B (zh) | 信息获取方法、装置、设备及介质 | |
CN113505206B (zh) | 基于自然语言推理的信息处理方法、装置和电子设备 | |
WO2023142914A1 (zh) | 日期识别方法、装置、可读介质及电子设备 | |
US20230008897A1 (en) | Information search method and device, electronic device, and storage medium | |
CN113505601A (zh) | 一种正负样本对构造方法、装置、计算机设备及存储介质 | |
CN112364653A (zh) | 用于语音合成的文本分析方法、装置、服务器和介质 | |
CN114462425B (zh) | 社交媒体文本处理方法、装置、设备及存储介质 | |
CN115270717A (zh) | 一种立场检测方法、装置、设备及介质 | |
CN111125550A (zh) | 兴趣点分类方法、装置、设备及存储介质 | |
CN112199954A (zh) | 基于语音语义的疾病实体匹配方法、装置及计算机设备 | |
CN117131873A (zh) | 一种基于对比学习的双编码器预训练小样本关系抽取方法 | |
CN116958852A (zh) | 视频与文本的匹配方法、装置、电子设备和存储介质 | |
CN111914535B (zh) | 一种单词识别方法、装置、计算机设备和存储介质 | |
CN115470790A (zh) | 一种识别文件中的命名实体的方法和装置 | |
CN116821327A (zh) | 文本数据处理方法、装置、设备、可读存储介质及产品 | |
CN115146624A (zh) | 用于生成数据的方法和装置 | |
CN113821609A (zh) | 一种答案文本的获取方法及装置、计算机设备和存储介质 | |
CN113779225B (zh) | 实体链接模型的训练方法、实体链接方法及装置 | |
CN116702785B (zh) | 关系标签的处理方法和装置、存储介质及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |