CN114780745A - 用于构建知识体系的方法及装置、电子设备、存储介质 - Google Patents

用于构建知识体系的方法及装置、电子设备、存储介质 Download PDF

Info

Publication number
CN114780745A
CN114780745A CN202210415291.5A CN202210415291A CN114780745A CN 114780745 A CN114780745 A CN 114780745A CN 202210415291 A CN202210415291 A CN 202210415291A CN 114780745 A CN114780745 A CN 114780745A
Authority
CN
China
Prior art keywords
entity
cluster
entities
determining
vectors
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210415291.5A
Other languages
English (en)
Inventor
于皓
张�杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Minglue Zhaohui Technology Co Ltd
Original Assignee
Beijing Minglue Zhaohui Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Minglue Zhaohui Technology Co Ltd filed Critical Beijing Minglue Zhaohui Technology Co Ltd
Priority to CN202210415291.5A priority Critical patent/CN114780745A/zh
Publication of CN114780745A publication Critical patent/CN114780745A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/45Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Multimedia (AREA)
  • Animal Behavior & Ethology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及知识体系构建领域,公开一种用于构建知识体系的方法,包括:获取语料;确定语料中的多个实体和各实体对应的实体向量;对各实体向量进行聚类获得若干实体簇;确定各实体簇对应的实体簇语义向量;确定各实体簇语义向量之间的上下位关系;按照上下位关系连接各实体簇语义向量,获得知识体系。这样,对各实体向量进行聚类,再获取实体簇语义向量,能够自动确定各实体存在的概念。确定各实体簇语义向量之间的上下位关系,能够自动抽取出概念与概念之间的关系。根据概念之间的关系对概念进行连接就能够自动构建知识体系,从而提高知识体系的构建效率。本申请还公开一种用于构建知识体系的装置、电子设备、存储介质。

Description

用于构建知识体系的方法及装置、电子设备、存储介质
技术领域
本申请涉及知识体系构建领域,例如涉及一种用于构建知识体系的方法及装置、电子设备、存储介质。
背景技术
互联网时代,每天都会产生大量数据,例如:人与人之间的交互数据,设备运行的设备数据等。这些数据中通常存在着内在联系,为了便于用户查找数据与数据之间的联系,通常会对这些数据进行结构化的存储,即构建知识图谱。
在构建知识图谱的过程中,通常先由人工针对各种实体提取概念,然后再根据概念与概念之间的关系构建知识体系,最后用户根据构建的知识体系将各种实体映射到对应的位置形成知识图谱。
在实现本公开实施例的过程中,发现相关技术中至少存在如下问题:
相关技术中由人工构建知识体系,效率较低。
发明内容
为了对披露的实施例的一些方面有基本的理解,下面给出了简单的概括。所述概括不是泛泛评述,也不是要确定关键/重要组成元素或描绘这些实施例的保护范围,而是作为后面的详细说明的序言。
本公开实施例提供了一种用于构建知识体系的方法及装置、电子设备、存储介质,以提高知识体系的构建效率。
在一些实施例中,所述用于构建知识体系的方法,包括:获取语料;确定所述语料中的多个实体和各所述实体对应的实体向量;对各所述实体向量进行聚类获得若干实体簇;确定各所述实体簇对应的实体簇语义向量;确定各所述实体簇语义向量之间的上下位关系;按照上下位关系连接各所述实体簇语义向量,获得知识体系。
在一些实施例中,所述用于构建知识体系的装置,包括:获取模块,被配置为获取语料;第一确定模块,被配置为确定所述语料中的多个实体和各所述实体对应的实体向量;聚类模块,被配置为对各所述实体向量进行聚类获得若干实体簇;第二确定模块,被配置为确定各所述实体簇对应的实体簇语义向量;第三确定模块,被配置为确定各所述实体簇语义向量之间的上下位关系;构建模块,被配置为按照上下位关系连接各所述实体簇语义向量,获得知识体系。
在一些实施例中,所述电子设备,包括处理器和存储有程序指令的存储器,所述处理器被配置为在运行所述程序指令时,执行上述的用于构建知识体系的方法。
在一些实施例中,所述存储介质,所述程序指令在运行时,执行上述的用于构建知识体系的方法。
本公开实施例提供的用于构建知识体系的方法及装置、电子设备、存储介质,可以实现以下技术效果:通过获取语料;确定语料中的多个实体和各实体对应的实体向量;对各实体向量进行聚类获得若干实体簇;确定各实体簇对应的实体簇语义向量;确定各实体簇语义向量之间的上下位关系;按照上下位关系连接各实体簇语义向量,获得知识体系。这样,对各实体向量进行聚类,再获取实体簇语义向量,能够自动确定各实体存在的概念。确定各实体簇语义向量之间的上下位关系,能够自动抽取出概念与概念之间的关系。根据概念之间的关系对概念进行连接就能够自动构建知识体系,从而提高知识体系的构建效率。
以上的总体描述和下文中的描述仅是示例性和解释性的,不用于限制本申请。
附图说明
一个或多个实施例通过与之对应的附图进行示例性说明,这些示例性说明和附图并不构成对实施例的限定,附图中具有相同参考数字标号的元件示为类似的元件,附图不构成比例限制,并且其中:
图1是本公开实施例提供的一个用于构建知识体系的方法的示意图;
图2是本公开实施例提供的一个用于训练第一知识抽取模型的方法的示意图;
图3是本公开实施例提供的另一个用于构建知识体系的方法的示意图;
图4是本公开实施例提供的另一个用于构建知识体系的方法的示意图;
图5是本公开实施例提供的一个用于构建知识体系的装置的示意图;
图6是本公开实施例提供的一个电子设备的示意图。
具体实施方式
为了能够更加详尽地了解本公开实施例的特点与技术内容,下面结合附图对本公开实施例的实现进行详细阐述,所附附图仅供参考说明之用,并非用来限定本公开实施例。在以下的技术描述中,为方便解释起见,通过多个细节以提供对所披露实施例的充分理解。然而,在没有这些细节的情况下,一个或多个实施例仍然可以实施。在其它情况下,为简化附图,熟知的结构和装置可以简化展示。
本公开实施例的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开实施例的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含。
除非另有说明,术语“多个”表示两个或两个以上。
本公开实施例中,字符“/”表示前后对象是一种“或”的关系。例如,A/B表示:A或B。
术语“和/或”是一种描述对象的关联关系,表示可以存在三种关系。例如,A和/或B,表示:A或B,或,A和B这三种关系。
知识图谱的搭建,通常是从大量的结构化或者非结构化数据中,抽取实体以及实体之间的关系。但是,如何确定抽取的实体有哪些类别,对于非结构化数据要如何进行语料标注,都需要先构建一个知识体系。知识体系是对所需要构建的知识领域的高度概括和抽象。即,由人工从若干实体抽象出来若干概念,将概念与概念之间进行连接形成多层次的树状知识结构从而获得知识体系。但是人工构建知识体系的效率较低,因此,需要提高知识体系的构建效率提高知识体系的构建效率,从而便于构建知识图谱。
在一些实施例中,具有实体,例如:苹果、香蕉、荔枝。对实体抽象出来的概念为水果。
同时,本发明实施例中所涉及的电子设备可以包括但不限于手机、平板电脑、个人电脑、掌上电脑和服务器等。
结合图1所示,本公开实施例提供一种用于构建知识体系的方法,包括:
步骤S101,电子设备获取语料。
步骤S102,电子设备确定语料中的多个实体和各实体对应的实体向量。
步骤S103,电子设备对各实体向量进行聚类获得若干实体簇。
步骤S104,电子设备确定各实体簇对应的实体簇语义向量。
步骤S105,电子设备确定各实体簇语义向量之间的上下位关系。
步骤S106,电子设备按照上下位关系连接各实体簇语义向量,获得知识体系。
采用本公开实施例提供的用于构建知识体系的方法,通过获取语料;确定语料中的多个实体和各实体对应的实体向量;对各实体向量进行聚类获得若干实体簇;确定各实体簇对应的实体簇语义向量;确定各实体簇语义向量之间的上下位关系;按照上下位关系连接各实体簇语义向量,获得知识体系。这样,对各实体向量进行聚类,再获取实体簇语义向量,能够自动确定各实体存在的概念。确定各实体簇语义向量之间的上下位关系,能够自动抽取出概念与概念之间的关系。根据概念之间的关系对概念进行连接就能够自动构建知识体系,从而提高知识体系的构建效率。
可选地,确定语料中的多个实体和各实体对应的实体向量,包括:利用预设的第一知识抽取模型对语料进行实体抽取,获得语料中的多个实体和各实体对应的实体向量。
可选地,第一知识抽取模型通过以下方式获取:获取样本语料;确定样本语料的多个关键词、各关键词对应的词向量和各词向量对应的权重;对各词向量进行聚类,获得若干词向量类簇;根据各词向量类簇和各词向量对应的权重标注样本语料中的实体;将标注过实体的样本语料输入预设的领域预训练模型进行训练,获得第二知识抽取模型;利用词向量类簇对第二知识抽取模型进行对比学习,获得第一知识抽取模型。这样,通过利用词向量类簇对第二知识抽取模型进行对比学习,能够让相似的关键词的词向量距离更近,不相似的关键词的词向量距离更远。
在一些实施例中,利用词向量类簇对第二知识抽取模型进行对比学习,例如:从各词向量类簇中随机选取两个实体,确定两个实体对应的相似度标签,将两个实体和两个实体对应的相似度标签输入第二知识抽取模型进行训练。可选地,确定两个实体对应的相似度标签,包括:在两个实体取自同一词向量类簇的情况下,则确定两个实体对应的相似度标签为相似;在两个实体不是取自同一词向量类簇的情况下,则确定两个实体对应的相似度标签为不相似。这样,能够使得第一知识抽取模型中实体转换为词向量后,相似的实体对应的词向量进行聚类时,词向量之间的相似度会更近。
可选地,确定样本语料的多个关键词、各关键词对应的词向量和各词向量对应的权重,包括:对样本语料进行分词操作,获得样本语料的多个词语;通过TF-IDF(termfrequency–inverse document frequency,词频-逆文档频率)算法对各词语进行处理,获得多个关键词和各关键词对应的权重;将各关键词输入预设的词向量模型,获得各关键词对应的词向量;将各关键词对应的权重确定为关键词对应的词向量的权重,获得样本语料的多个关键词、各关键词对应的词向量和各词向量对应的权重。
在一些实施例中,将各关键词及关键词相关的语料输入预设的词向量模型,获得各关键词对应的词向量。
可选地,通过预设的聚类算法对各词向量进行聚类,获得若干词向量类簇。
在一些实施例中,预设的聚类算法为K-Emans(k-means clustering algorithm,k均值聚类算法)或DBScan(Density-Based Spatial Clustering of Applications withNoise,基于密度的聚类算法)。
在一些实施例中,通过jieba分词工具对样本语料进行分词操作,获得样本语料的多个词语。
可选地,预设的词向量模型为word2vec(word to vector,词向量)模型。
可选地,根据各词向量类簇和各词向量对应的权重标注样本语料中的实体,包括:对各词向量类簇中的词向量分别按照词向量对应的权重进行排序,获得各词向量序列;将处于词向量序列预设位数后的各词向量确定为备选词向量;响应于专家的删除指令删除若干个备选词向量;并响应于专家的命名指令对词向量类簇命名,获得类簇名称;根据各类簇命名标注样本语料中的实体。这样,由专家对词向量类簇进行修改,再对词向量类簇进行命名,能够便于更准确标注的样本语料中的实体,便于更准确的训练知识抽取模型。
可选地,根据各类簇命名标注样本语料中的实体,包括:确定样本语料中的关键词,将关键词对应的类簇命名标注到该关键词。
可选地,根据各类簇命名标注样本语料中的实体,包括:响应于用户的标注指令,给语料中的关键词标注关键词对应的类簇命名。
可选地,预设的领域预训练模型通过以下方式获得:获取样本语料;将样本语料输入预设的备选模型进行训练,获得领域预训练模型。
可选地,预设的备选模型为自然语言的预训练模型。
在一些实施例中,自然语言的预训练模型,例如:Bert(Bidirectional EncoderRepresentationsfrom Transformer,双向注意力神经网络模型)模型或GPT-2(GenerativePre-Training-2,自回归模型)模型。
在一些实施例中,将标注过实体的样本语料输入领域预训练模型进行fine-tuning微调,形成第二知识抽取模型。
结合图2所示,本公开实施例提供一种用于训练第一知识抽取模型的方法,包括:
步骤S201,电子设备获取样本语料。
步骤S202,电子设备确定样本语料的多个关键词、各关键词对应的词向量和各词向量对应的权重。
步骤S203,电子设备对各词向量进行聚类,获得若干词向量类簇。
步骤S204,电子设备对各词向量类簇中的词向量分别按照词向量对应的权重进行排序,获得各词向量序列;并将处于词向量序列预设位数后的各词向量确定为备选词向量。
步骤S205,电子设备响应于专家的删除指令删除若干个备选词向量;并响应于专家的命名指令对词向量类簇命名,获得类簇名称。
步骤S206,电子设备根据各类簇命名标注样本语料中的实体。
步骤S207,电子设备将标注过实体的样本语料输入预设的领域预训练模型进行训练,获得第二知识抽取模型。
步骤S208,电子设备利用词向量类簇对第二知识抽取模型进行对比学习,获得第一知识抽取模型。
采用本公开实施例提供的用于训练第一知识抽取模型的方法,通过将标注过实体的样本语料输入预设的领域预训练模型进行训练,获得第二知识抽取模型,利用词向量类簇对第二知识抽取模型进行对比学习,获得第一知识抽取模型。这样,由于第一知识抽取模型是经过对比学习后获得的,因此第一知识抽取模型区分语义的能力更好,能够更好的区分各实体。
在一些实施例中,获取样本语料;确定样本语料的多个关键词、各关键词对应的词向量和各词向量对应的权重;对各词向量进行聚类,获得若干词向量类簇;根据各词向量类簇和各词向量对应的权重标注样本语料中的实体;将标注过实体的样本语料输入预设的领域预训练模型进行训练,获得第二知识抽取模型;将第二知识抽取模型确定为第一知识抽取模型。
可选地,实体簇包括若干子类簇;确定实体簇对应的实体簇语义向量,包括:分别获取实体簇的各子类簇与实体簇的类簇中心的距离;根据各子类簇与类簇中心的距离确定各子类簇的权重;根据各子类簇的权重确定实体簇对应的实体簇语义向量。这样,根据各子类簇与类簇中心的距离确定各子类簇的权重,从而根据权重确定实体簇语义向量,而不是直接利用某一子类簇代表实体簇语义向量,使得实体簇语义向量能够更好的表征实体簇。
可选地,根据各子类簇与类簇中心的距离确定各子类簇的权重,包括:对各子类簇与类簇中心的距离进行归一化,将归一化后的结果确定为各子类簇的权重。
在一些实施例中,将各子类簇与类簇中心的距离确定各子类簇的权重。
可选地,根据各子类簇的权重确定实体簇对应的实体簇语义向量,包括:按照各子类簇的权重对各子类簇进行加权,获得实体簇对应的实体簇语义向量。这样,不是由单个的子类簇来表征实体簇,而是结合了实体簇对应的所有子类簇确定实体簇语义向量来对实体簇进行表示,能够更恰当的表示实体簇。
可选地,确定各实体簇语义向量之间的上下位关系,包括:将各实体簇语义向量输入预设的上下位抽取模型,获得各实体簇语义向量之间的上下位关系。这样,获得各实体簇语义向量之间的上下位关系,能够自动的构建出多层次的知识结构,从而形成知识体系。
可选地,上下位抽取模型通过以下方式获得:对样本语料标注上下文实体和上下文实体关系,将带有上下文实体和上下文实体关系的语料输入预设的待训练模型进行训练,获得上下文抽取模型。
可选地,预设的待训练模型为自然语言的预训练模型。
可选地,按照上下位关系连接各实体簇语义向量,包括:将处于上位关系的实体簇语义向量确定为备选语义向量;确定备选语义向量对应的实体簇中的备选实体的数量;在备选实体的数量小于或等于预设阈值的情况下,按照上下位关系连接各实体簇语义向量。
结合图3所示,本公开实施例提供一种用于构建知识体系的方法,包括:
步骤S301,电子设备获取语料,然后执行步骤S302。
步骤S302,电子设备确定语料中的多个实体和各实体对应的实体向量,然后执行步骤S303。
步骤S303,电子设备对各实体向量进行聚类获得若干实体簇,然后执行步骤S304。
步骤S304,电子设备确定各实体簇对应的实体簇语义向量,然后执行步骤S305。
步骤S305,电子设备确定各实体簇语义向量之间的上下位关系,然后执行步骤S306。
步骤S306,电子设备将处于上位关系的实体簇语义向量确定为备选语义向量;确定备选语义向量对应的实体簇中的备选实体的数量,然后执行步骤S307。
步骤S307,电子设备判断备选实体的数量是否大于预设阈值;在备选实体的数量大于预设阈值的情况下,执行步骤S308;在备选实体的数量小于或等于预设阈值的情况下,然后执行步骤S309。
步骤S308,电子设备获取备选实体对应的实体向量,然后执行步骤S303。
步骤S309,电子设备按照上下位关系连接各实体簇语义向量,获得知识体系。
采用本公开实施例提供的用于构建知识体系的方法,通过判断备选实体的数量,在备选实体的数量大于预设阈值的情况下,获取备选实体对应的实体向量,对各实体向量进行聚类获得若干实体簇,进而形成新的上下位关系。在备选实体的数量小于或等于预设阈值的情况下,按照上下位关系连接各实体簇语义向量,获得知识体系。这样,多次进行上下位关系的提取,能够形成完备的知识体系,在知识图谱技术领域完成了图谱构建。
在一些实施例中,确定备选语义向量对应的实体簇中的备选实体的数量,包括:将各备选语义向量对应的实体簇分别确定为备选实体簇;将构成各备选实体簇的各子类簇对应的实体向量确定为备选实体向量;将备选实体向量对应的实体确定为备选实体,并获取备选实体的数量。
可选地,按照上下位关系连接各实体簇语义向量,获得知识体系后,还包括:将知识体系展示给用户。
可选地,将知识体系展示给用户,包括:将知识体系推送到预设的客户端。
可选地,将知识体系展示给用户,包括:将知识体系发送到预设的显示屏,触发显示屏对知识体系进行展示。
可选地,在将知识体系展示给用户后,还包括:响应于用户的调整指令,调整知识体系中各实体簇语义向量之间的上下位关系。
结合图4所示,本公开实施例提供一种用于构建知识体系的方法,包括:
步骤S401,电子设备获取语料。
步骤S402,电子设备确定语料中的多个实体和各实体对应的实体向量。
步骤S403,电子设备对各实体向量进行聚类获得若干实体簇。
步骤S404,电子设备确定各实体簇对应的实体簇语义向量。
步骤S405,电子设备确定各实体簇语义向量之间的上下位关系。
步骤S406,电子设备按照上下位关系连接各实体簇语义向量,获得知识体系。
步骤S407,电子设备将知识体系展示给用户。
采用本公开实施例提供的用于构建知识体系的方法,通过获取语料;确定语料中的多个实体和各实体对应的实体向量;对各实体向量进行聚类获得若干实体簇;确定各实体簇对应的实体簇语义向量;确定各实体簇语义向量之间的上下位关系;按照上下位关系连接各实体簇语义向量,获得知识体系;将知识体系展示给用户。这样,对各实体向量进行聚类,再获取实体簇语义向量,能够自动确定各实体存在的概念。确定各实体簇语义向量之间的上下位关系,能够自动抽取出概念与概念之间的关系。根据概念之间的关系对概念进行连接就能够自动构建知识体系,从而提高知识体系的构建效率。将知识体系展示给用户,能够便于用户根据知识体系构建知识图谱。
结合图5所示,本公开实施例提供一种用于构建知识体系的装置,包括:获取模块501、第一确定模块502、聚类模块503、第二确定模块504、第三确定模块505和构建模块506。获取模块,被配置为获取语料;第一确定模块,被配置为确定语料中的多个实体和各实体对应的实体向量;聚类模块,被配置为对各实体向量进行聚类获得若干实体簇;第二确定模块,被配置为确定各实体簇对应的实体簇语义向量;第三确定模块,被配置为确定各实体簇语义向量之间的上下位关系;构建模块,被配置为按照上下位关系连接各实体簇语义向量,获得知识体系。
采用本公开实施例提供的用于构建知识体系的装置,通过获取模块获取语料;第一确定模块确定语料中的多个实体和各实体对应的实体向量;聚类模块对各实体向量进行聚类获得若干实体簇;第二确定模块确定各实体簇对应的实体簇语义向量;第三确定模块确定各实体簇语义向量之间的上下位关系;构建模块按照上下位关系连接各实体簇语义向量,获得知识体系。这样,对各实体向量进行聚类,再获取实体簇语义向量,能够自动确定各实体存在的概念。确定各实体簇语义向量之间的上下位关系,能够自动抽取出概念与概念之间的关系。根据概念之间的关系对概念进行连接就能够自动构建知识体系,从而提高知识体系的构建效率。
结合图6所示,本公开实施例提供一种电子设备,包括处理器(processor)600和存储器(memory)601。可选地,该装置还可以包括通信接口(Communication Interface)602和总线603。其中,处理器600、通信接口602、存储器601可以通过总线603完成相互间的通信。通信接口602可以用于信息传输。处理器600可以调用存储器601中的逻辑指令,以执行上述实施例的用于构建知识体系的方法。
此外,上述的存储器601中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。
存储器601作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序,如本公开实施例中的方法对应的程序指令/模块。处理器600通过运行存储在存储器601中的程序指令/模块,从而执行功能应用以及数据处理,即实现上述实施例中用于构建知识体系的方法。
存储器601可包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端设备的使用所创建的数据等。此外,存储器601可以包括高速随机存取存储器,还可以包括非易失性存储器。
采用本公开实施例的电子设备,通过获取语料;确定语料中的多个实体和各实体对应的实体向量;对各实体向量进行聚类获得若干实体簇;确定各实体簇对应的实体簇语义向量;确定各实体簇语义向量之间的上下位关系;按照上下位关系连接各实体簇语义向量,获得知识体系。这样,对各实体向量进行聚类,再获取实体簇语义向量,能够自动确定各实体存在的概念。确定各实体簇语义向量之间的上下位关系,能够自动抽取出概念与概念之间的关系。根据概念之间的关系对概念进行连接就能够自动构建知识体系,从而提高知识体系的构建效率。
本公开实施例提供了一种存储介质,存储有程序指令,序指令在运行时,执行上述用于构建知识体系的方法。
本公开实施例提供了一种计算机程序产品,计算机程序产品包括存储在计算机可读存储介质上的计算机程序,计算机程序包括程序指令,当程序指令被计算机执行时,使计算机执行上述用于构建知识体系的方法。
上述的计算机可读存储介质可以是暂态计算机可读存储介质,也可以是非暂态计算机可读存储介质。
本公开实施例的技术方案可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括一个或多个指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本公开实施例所述方法的全部或部分步骤。而前述的存储介质可以是非暂态存储介质,包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等多种可以存储程序代码的介质,也可以是暂态存储介质。
以上描述和附图充分地示出了本公开的实施例,以使本领域的技术人员能够实践它们。其他实施例可以包括结构的、逻辑的、电气的、过程的以及其他的改变。实施例仅代表可能的变化。除非明确要求,否则单独的部件和功能是可选的,并且操作的顺序可以变化。一些实施例的部分和特征可以被包括在或替换其他实施例的部分和特征。而且,本申请中使用的用词仅用于描述实施例并且不用于限制权利要求。如在实施例以及权利要求的描述中使用的,除非上下文清楚地表明,否则单数形式的“一个”(a)、“一个”(an)和“所述”(the)旨在同样包括复数形式。类似地,如在本申请中所使用的术语“和/或”是指包含一个或一个以上相关联的列出的任何以及所有可能的组合。另外,当用于本申请中时,术语“包括”(comprise)及其变型“包括”(comprises)和/或包括(comprising)等指陈述的特征、整体、步骤、操作、元素,和/或组件的存在,但不排除一个或一个以上其它特征、整体、步骤、操作、元素、组件和/或这些的分组的存在或添加。在没有更多限制的情况下,由语句“包括一个…”限定的要素,并不排除在包括所述要素的过程、方法或者设备中还存在另外的相同要素。本文中,每个实施例重点说明的可以是与其他实施例的不同之处,各个实施例之间相同相似部分可以互相参见。对于实施例公开的方法、产品等而言,如果其与实施例公开的方法部分相对应,那么相关之处可以参见方法部分的描述。
本领域技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,可以取决于技术方案的特定应用和设计约束条件。所述技术人员可以对每个特定的应用来使用不同方法以实现所描述的功能,但是这种实现不应认为超出本公开实施例的范围。所述技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
本文所披露的实施例中,所揭露的方法、产品(包括但不限于装置、设备等),可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,可以仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例。另外,在本公开实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
附图中的流程图和框图显示了根据本公开实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这可以依所涉及的功能而定。在附图中的流程图和框图所对应的描述中,不同的方框所对应的操作或步骤也可以以不同于描述中所披露的顺序发生,有时不同的操作或步骤之间不存在特定的顺序。例如,两个连续的操作或步骤实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这可以依所涉及的功能而定。框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。

Claims (10)

1.一种用于构建知识体系的方法,其特征在于,包括:
获取语料;
确定所述语料中的多个实体和各所述实体对应的实体向量;
对各所述实体向量进行聚类获得若干实体簇;
确定各所述实体簇对应的实体簇语义向量;
确定各所述实体簇语义向量之间的上下位关系;
按照上下位关系连接各所述实体簇语义向量,获得知识体系。
2.根据权利要求1所述的方法,其特征在于,确定所述语料中的多个实体和各所述实体对应的实体向量,包括:
利用预设的第一知识抽取模型对所述语料进行实体抽取,获得语料中的多个实体和各实体对应的实体向量。
3.根据权利要求2所述的方法,其特征在于,第一知识抽取模型通过以下方式获取:
获取样本语料;
确定所述样本语料的多个关键词、各所述关键词对应的词向量和各所述词向量对应的权重;
对各所述词向量进行聚类,获得若干词向量类簇;
根据各所述词向量类簇和各所述词向量对应的权重标注所述样本语料中的实体;
将标注过实体的样本语料输入预设的领域预训练模型进行训练,获得第二知识抽取模型;
利用所述词向量类簇对所述第二知识抽取模型进行对比学习,获得第一知识抽取模型。
4.根据权利要求3所述的方法,其特征在于,根据各所述词向量类簇和各所述词向量对应的权重标注所述样本语料中的实体,包括:
对各词向量类簇中的词向量分别按照词向量对应的权重进行排序,获得各词向量序列;
将处于词向量序列预设位数后的各词向量确定为备选词向量;
响应于专家的删除指令删除若干个备选词向量;并响应于专家的命名指令对词向量类簇命名,获得类簇名称;
根据各类簇命名标注所述样本语料中的实体。
5.根据权利要求1所述的方法,其特征在于,实体簇包括若干子类簇;确定实体簇对应的实体簇语义向量,包括:
分别获取实体簇的各子类簇与实体簇的类簇中心的距离;
根据各子类簇与类簇中心的距离确定各子类簇的权重;
根据各子类簇的权重确定实体簇对应的实体簇语义向量。
6.根据权利要求1所述的方法,其特征在于,按照上下位关系连接各所述实体簇语义向量,包括:
将处于上位关系的实体簇语义向量确定为备选语义向量;
确定备选语义向量对应的实体簇中的备选实体的数量;
在所述备选实体的数量小于或等于预设阈值的情况下,按照上下位关系连接各实体簇语义向量。
7.根据权利要求1所述的方法,其特征在于,按照上下位关系连接各实体簇语义向量,获得知识体系后,还包括:
将所述知识体系展示给用户。
8.一种用于构建知识体系的装置,其特征在于,包括:
获取模块,被配置为获取语料;
第一确定模块,被配置为确定所述语料中的多个实体和各所述实体对应的实体向量;
聚类模块,被配置为对各所述实体向量进行聚类获得若干实体簇;
第二确定模块,被配置为确定各所述实体簇对应的实体簇语义向量;
第三确定模块,被配置为确定各所述实体簇语义向量之间的上下位关系;
构建模块,被配置为按照上下位关系连接各所述实体簇语义向量,获得知识体系。
9.一种电子设备,包括处理器和存储有程序指令的存储器,其特征在于,所述处理器被配置为在运行所述程序指令时,执行如权利要求1至7任一项所述的用于构建知识体系的方法。
10.一种存储介质,存储有程序指令,其特征在于,所述程序指令在运行时,执行如权利要求1至7任一项所述的用于构建知识体系的方法。
CN202210415291.5A 2022-04-20 2022-04-20 用于构建知识体系的方法及装置、电子设备、存储介质 Pending CN114780745A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210415291.5A CN114780745A (zh) 2022-04-20 2022-04-20 用于构建知识体系的方法及装置、电子设备、存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210415291.5A CN114780745A (zh) 2022-04-20 2022-04-20 用于构建知识体系的方法及装置、电子设备、存储介质

Publications (1)

Publication Number Publication Date
CN114780745A true CN114780745A (zh) 2022-07-22

Family

ID=82431454

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210415291.5A Pending CN114780745A (zh) 2022-04-20 2022-04-20 用于构建知识体系的方法及装置、电子设备、存储介质

Country Status (1)

Country Link
CN (1) CN114780745A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116069948A (zh) * 2023-01-17 2023-05-05 人民网股份有限公司 内容风控知识库构建方法、装置、设备及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116069948A (zh) * 2023-01-17 2023-05-05 人民网股份有限公司 内容风控知识库构建方法、装置、设备及存储介质
CN116069948B (zh) * 2023-01-17 2024-01-09 人民网股份有限公司 内容风控知识库构建方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
CN112632385B (zh) 课程推荐方法、装置、计算机设备及介质
CN111753060B (zh) 信息检索方法、装置、设备及计算机可读存储介质
CN110795543B (zh) 基于深度学习的非结构化数据抽取方法、装置及存储介质
CN108804641B (zh) 一种文本相似度的计算方法、装置、设备和存储介质
CN112711937B (zh) 一种模板推荐方法、装置、设备及存储介质
CN110334272B (zh) 基于知识图谱的智能问答方法、装置及计算机存储介质
CN110837550A (zh) 基于知识图谱的问答方法、装置、电子设备及存储介质
CN110609902A (zh) 一种基于融合知识图谱的文本处理方法及装置
CN109783651A (zh) 提取实体相关信息的方法、装置、电子设备和存储介质
CN111797214A (zh) 基于faq数据库的问题筛选方法、装置、计算机设备及介质
CN112395506A (zh) 一种资讯推荐方法、装置、电子设备和存储介质
US10482146B2 (en) Systems and methods for automatic customization of content filtering
CN106708929B (zh) 视频节目的搜索方法和装置
CN110390052B (zh) 搜索推荐方法、ctr预估模型的训练方法、装置及设备
CN110321437B (zh) 一种语料数据处理方法、装置、电子设备及介质
CN113378970B (zh) 语句相似性检测方法、装置、电子设备及存储介质
CN111078835A (zh) 简历评估方法、装置、计算机设备及存储介质
CN112070550A (zh) 基于搜索平台的关键词确定方法、装置、设备及存储介质
CN106570196B (zh) 视频节目的搜索方法和装置
CN114780745A (zh) 用于构建知识体系的方法及装置、电子设备、存储介质
CN113569118A (zh) 自媒体推送方法、装置、计算机设备及存储介质
CN113326363A (zh) 搜索方法及装置、预测模型训练方法及装置、电子设备
CN110990451B (zh) 基于句子嵌入的数据挖掘方法、装置、设备及存储装置
CN111931503A (zh) 信息抽取方法及装置、设备、计算机可读存储介质
CN110929526A (zh) 样本生成方法、装置以及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination