CN110598002A - 知识图库构建方法、装置、计算机存储介质和电子设备 - Google Patents
知识图库构建方法、装置、计算机存储介质和电子设备 Download PDFInfo
- Publication number
- CN110598002A CN110598002A CN201910748188.0A CN201910748188A CN110598002A CN 110598002 A CN110598002 A CN 110598002A CN 201910748188 A CN201910748188 A CN 201910748188A CN 110598002 A CN110598002 A CN 110598002A
- Authority
- CN
- China
- Prior art keywords
- knowledge
- word
- entry
- seed
- knowledge points
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Animal Behavior & Ethology (AREA)
- Machine Translation (AREA)
Abstract
本申请涉及一种知识图库构建方法、装置、计算机存储介质和电子设备。本申请所述的一种知识图库构建方法,包括如下步骤:从语料文本中提取匹配预设的句法模板的种子知识点;根据所述语料文本训练深度前馈网络模型,反向传播获得词库中每一词条的词向量;所述词条包括所述种子知识点;通过相似度计算将与所述种子知识点的相似度达到预设阈值的词条提取出来作为扩展知识点,根据所述种子知识点和所述扩展知识点构建知识图库。本申请所述的知识图库构建方法具有减少对人工标注数据量和提高知识点提取的完备程度的优点。
Description
技术领域
本申请涉及数字资源处理领域,特别是涉及一种知识图库构建方法、装置、计算机存储介质和电子设备。
背景技术
在网络学习资源发达的今天,为了构建学习者完整的知识架构,从学习资源中提取知识点,利用知识点之间的依赖关系构建知识图库,有利于学习者更全面地掌握所学内容。
现有的知识图库的构建方法通常是通过人工筛选和确定知识点候选词,从而存在浪费人力,知识点遗漏,受人主观因素影响大的问题;或者通过监督学习的方法提取知识点,需要人工标记数据,由人来提供“监督”,存在人工标注数据量大的问题。
发明内容
基于此,本申请实施例的目的在于,提供一种知识图库构建方法、装置、计算机存储介质和电子设备,其具有减少对人工标注数据量和提高知识点提取的完备程度的优点。
第一方面,本申请实施例提供一种知识图库构建方法,包括如下步骤:
从语料文本中提取匹配预设的句法模板的种子知识点;
根据所述语料文本训练深度前馈网络模型,反向传播获得词库中每一词条的词向量;所述词条包括所述种子知识点;
通过相似度计算将与所述种子知识点的相似度达到预设阈值的词条提取出来作为扩展知识点;
根据所述种子知识点和所述扩展知识点构建知识图库。
在一个可选的实施例中,所述从语料文本中提取匹配预设的句法模板的种子知识点的步骤,包括:
对语料文本进行分词处理;
将分词处理结果与预设的句法模板进行匹配,将匹配预设的句法模板的分词提取出来作为种子知识点。
在一个可选的实施例中,所述根据语料文本训练深度前馈网络模型,反向传播获得词库中每一词条的词向量的步骤,包括:
通过训练skip-gram模型学习输入词条与上下文的共现矩阵,将所述共现矩阵的行向量进行转置获得每个词条的词向量;
其中,所述输入词条与上下文来自所述语料文本。
在一个可选的实施例中,所述通过训练skip-gram模型学习输入词条与上下文的共现矩阵,将所述共现矩阵的行向量进行转置获得每个词条的词向量的步骤,包括:
根据预设的背景窗口大小,以输入词条为中心词在背景窗口内截取其上下文,生成两倍背景窗口大小的数量的训练样本;
利用初始的共现矩阵对输入词条进行词嵌入操作;
通过最大化训练样本中输入词条与其上下文共同出现的条件概率来更新共现矩阵;
以词库中每一词条作为输入词条进行迭代训练直至词库收敛,或者迭代训练至预设的次数,获得最终的共现矩阵;
以每一词条的one-hot编码为索引选取对应的最终的共现矩阵的行向量,将所述共现矩阵的行向量进行转置获得每个词条的词向量。
在一个可选的实施例中,所述通过相似度计算将与所述种子知识点的相似度达到预设阈值的词条提取出来作为扩展知识点的步骤,包括:
基于连通性的聚类算法,把相似度达到第一阈值的种子知识点分成若干类,获得每类的中心向量;
对所述中心向量与词库中的非种子知识点的词向量进行相似度计算,将相似度达到第二阈值的词条作为扩展知识点。
在一个可选的实施例中,所述通过相似度计算将与所述种子知识点的相似度达到预设阈值的词条提取出来作为扩展知识点的步骤之后,还包括:
将所述扩展知识点作为种子知识点,迭代执行上述的步骤,直至词库收敛。
在一个可选的实施例中,所述通过相似度计算将与所述种子知识点的相似度达到预设阈值的词条提取出来作为扩展知识点的步骤,包括:
对种子知识点的词向量与词库中非种子知识点的词条的词向量进行相似度计算,将相似度达到第三阈值的词条提取出来作为扩展知识点。
在上述实施例中,所述相似度计算具体是以词向量的内积除以词向量的模的乘积,获得词向量间的cosin相似度。
第二方面,本申请实施例还提供一种知识图库构建装置,包括:
句法模板匹配模块,用于从语料文本中提取匹配预设的句法模板的种子知识点;
词向量获取模块,用于根据所述语料文本训练深度前馈网络模型,反向传播获得词库中每一词条的词向量;所述词条包括所述种子知识点;
知识点扩展模块,用于对种子知识点的词向量与词库中非种子知识点的词条的词向量进行相似度计算,将相似度达到预设阈值的词条提取出来作为扩展知识点。
知识图库构建模块,用于根据所述种子知识点和所述扩展知识点构建知识图库。
第三方面,本申请实施例还提供一种计算机存储介质,所述计算机存储介质存储有多条指令,所述指令适于由处理器加载并执行如上所述的知识图库构建方法步骤。
第四方面,本申请实施例还提供一种电子设备,其特征在于,包括:
处理器以及存储器;
其中,所述存储器存储有计算机程序;所述计算机程序适于由所述处理器加载并执行如上所述的知识图库构建方法步骤。
在本申请实施例中,通过匹配预设句法模板的方式提取种子知识点,种子知识点只是所有知识点中的一部分,无需人工筛选全部的知识点,减少数据筛选的工作量,再通过训练深度前馈网络模型的方式获取语料文本的词库中词条的词向量,由种子知识点与非种子知识点的词向量相似度运算进行扩展知识点,是基于半监督学习,减少了人工标注数据量;而通过对相似度阈值的设置,能够影响扩展知识点的提取数量,进而调整知识点提取的完备程度和知识点提取的精确程度。因此,基于本申请的技术方案构建的知识图库能够减少对人工标注数据量和提高知识点提取的完备程度。
为了更好地理解和实施,下面结合附图详细说明本申请。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的知识图库构建方法的流程步骤图;
图2为本申请实施例提供的知识图库构建方法的步骤S110的流程步骤图;
图3为本申请实施例提供的知识图库构建方法的步骤S120的流程步骤图;
图4为本申请实施例提供的知识图库构建方法的训练深度前馈网络模型的示意图;
图5为本申请实施例提供的知识图库构建方法的步骤S130的流程步骤图;
图6为本申请实施例提供的知识图库构建方法的步骤S130的连通对比图;
图7为本申请实施例的知识图库构建装置的结构示意图;
图8为本申请实施例的电子设备的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施例方式作进一步地详细描述。
应当明确,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
在本申请的描述中,需要理解的是,术语“第一”、“第二”、“第三”等仅用于区别类似的对象,而不必用于描述特定的顺序或先后次序,也不能理解为指示或暗示相对重要性。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本申请中的具体含义。此外,在本申请的描述中,除非另有说明,“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
本申请实施例公开了知识图库构建方法,请参阅图1,为本申请实施例提供的知识图库构建方法的流程图。该方法包括如下步骤:
步骤S110:从语料文本中提取匹配预设的句法模板的种子知识点。
语料文本即为现有的存量学习资源,如课件、教材教案、习题、辅导书等,包括.doc、.pdf、.txt、.xls等格式的结构化数据。语料文本可以根据不同的学习对象选取不同的学习资源。对于不同年龄段的学习者来说,语料文本可以对应囊括不同的学习资源,例如对小学生来说,语料文本为小学阶段的学习资源;对中学生来说,语料文本为中学阶段的学习资源;对大学生来说,语料文本为大学阶段的学习资源。对于不同考试的应试者、不同的职业而言,语料文本也各有不同,这里不一一赘述。
种子知识点可以为学习资源中的一些基本概念,以数学学科为例,种子知识点通常为定义、性质、单位、计算公式等。由这些种子知识点进行相似度计算来不断获得扩展知识点,从而最终构建完整的知识图库,对于知识图库的所有节点而言,种子知识点为根节点,扩展知识点由根节点不断衍生出来。
预设的句法模板由人工定义,对于种子知识点而言,其所处的句子中存在明显的句法特征,根据这些句法特征人工定义句法模板将一些关键的基础的种子知识点提取出来。例如,在数学学科里面,数学术语本身都是名词,他的定义通常表现为如下句法特征:
XXXXX叫做Z,或者,Z是XXXXX
其中,XXXXX为省略的语料文本内容,Z为目标名词。由此通过人工定义句法模板提取其中的名词Z。
在本申请的一个示例性实施例中,请参阅图2,所述从语料文本中提取匹配预设的句法模板的种子知识点的步骤S110,包括:
步骤S111:对语料文本进行分词处理。
可以理解的是,在进行句法模板匹配之前,先对语料文本中的各个句子进行分词处理。分词处理就是将连续的字序列按照一定的规范重新组合成词序列的过程。在本申请实施例中采用的分词处理方法可以包括基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。
步骤S112:将分词处理结果与预设的句法模板进行匹配,将匹配预设的句法模板的分词提取出来作为种子知识点。
将分词处理结果与预设的句法模板进行匹配的实质是将分词处理结果与句法模板进行相似度计算,用来检索、替换一个字符串是否含有某种子串、将匹配的子串替换或者从某个字符串中取出符合某个条件的子串等。特别地,分词处理结果转换为正则表达式与句法模板进行匹配。本申请实施例中定义的一些句法模板实例如下:
【X】的【Y】是【Z】
【X】和【Y】
【X】有哪些【Y】
……
一个具体的实施例是:
预设句法模板为:【X】的【Y】叫做【Z】,则通过步骤S111和S112可以从如下语料文本中提取出“三角形”、“直角三角形”等知识点。
语料文本:
“1、有一个角为90°的三角形,叫做直角三角形。
直角三角形可用Rt△表示,如直角三角形ABC写作Rt△ABC。
直角三角形是一种特殊的三角形,它除了具有一般三角形的性质外,具有一些特殊的性质:
性质1:直角三角形两直角边的平方和等于斜边的平方
性质2:在直角三角形中,两个锐角互余
性质3:在直角三角形中,斜边上的中线等于斜边的一半。(即直角三角形的外心位于斜边的中点,外接圆半径R=C/2)。
性质4:直角三角形的两直角边的乘积等于斜边与斜边上高的乘积。
性质5:射影定理
在直角三角形中,斜边上的高线是两直角边在斜边上的射影的比例中项,每条直角边是它们在斜边上的射影和斜边的比例中项。”
此外,还可以通过定义其他的句法模板从上述的语料文本中提取更多的知识点,例如:定义【X】的【Y】等于【Z】,可以提取性质1中的“两直角边”、“平方和”和“斜边的平方”。
通过预设句法模板,从语料文本中提取匹配句法模板的种子知识点的方法改变了人工确定候选词不够客观,工作量大的现状,依靠总结种子知识点的句法特征,极大地提高了提取种子知识点的效率。
步骤S120:根据所述语料文本训练深度前馈网络模型,反向传播获得词库中每一词条的词向量;所述词条包括所述种子知识点;
可以理解的是,在训练之前,同样需要对语料文本进行分词处理,分词处理后获得一个包括所有词条的词库。对于中文分词来说,词条可以是单独的一个字,可以是一个词组。
训练深度前馈网络模型作为一个“Fake Task”,训练模型的真正目的是通过深度神经网络的反向传播算法获得模型基于训练数据学得的隐藏层权重,再由隐藏层权重获得每一词条的词向量。
在本申请的一个示例性实施例中,请参阅图3和图4,所述根据语料文本训练深度前馈网络模型,反向传播获得词库中每一词条的词向量的步骤S120,包括:
通过训练skip-gram模型学习输入词条与上下文的共现矩阵,将所述共现矩阵的行向量进行转置获得每个词条的词向量;
其中,深度前馈网络模型为skip-gram模型,skip-gram模型包括输入层、隐藏层和输出层,它的输入是一个输入词条,也称中心词,输出是中心词与它的上下文共同出现的条件概率。输入层与隐藏层之间的隐藏层权重(参数矩阵)即为输入词条与上下文的共现矩阵。所述输入词条与上下文来自所述语料文本。
具体地,请参阅图3和图4,所述通过的skip-gram模型学习输入词条与上下文的共现矩阵,将所述共现矩阵的行向量进行转置获得每个词条的词向量的步骤,包括:
步骤S121:根据预设的背景窗口大小,以输入词条为中心词在背景窗口内截取其上下文,生成两倍背景窗口大小的数量的训练样本。
背景窗口大小确定以输入词条为中心词的上下文的背景词数量。例如,背景窗口大小为2,则以输入词条为中心词,其上文的两个词条和其下文的两个词条都是输入词条的背景词,背景词条数量为4个。skip-gram模型的训练样本是以(输入词条、背景词)的结构组成,输出的是输入词条、背景词共同出现的概率。以背景窗口大小为window为例,则训练样本为(i,i-window),(i,i-window+1),...,(i,i+window-1),(i,i+window)。其中,i为输入词条,i-window,i-window+1…i+window-1,i+window为背景词。i以输入词条的位置指代输入词条,i-window等以背景词的位置指代上下文的背景词。
步骤S122:利用初始的共现矩阵对输入词条进行词嵌入操作。
输入词条x1,x2,…,xn的表现形式为one-hot编码的向量,skip-gram模型中预设初始的共现矩阵WV×N通常为一个200~500维的参数矩阵,词嵌入为输入词条x1,x2,…,xn与共现矩阵WV×N进行矩阵运算,获得隐藏层中的不同神经元。
步骤S123:通过最大化训练样本中输入词条与其上下文共同出现的条件概率来更新共现矩阵。
在此步骤采用了softmax激活函数来作为分类器的输出,用来表示输入词条和其上下文共同出现的不同概率,具体公式为:
在已知训练样本中输入词条和其上下文的背景词的基础上,通过选取概率最大的两倍背景窗口大小的数量的输出,即为输入词条和其上下文的输出概率,再通过深度神经网络的反向传播算法求出这时的共现矩阵,共现矩阵即对应每一词条的词向量。
可替换地,还可以采用Negative Sampling来学习并更新共现矩阵。
步骤S124:以词库中每一词条作为输入词条进行迭代训练直至词库收敛,或者迭代训练至预设的次数,获得最终的共现矩阵。
步骤S125:以每一词条的one-hot编码为索引选取对应的最终的共现矩阵的行向量,将所述共现矩阵的行向量进行转置获得每个词条的词向量。
每一词条的one-hot编码在与所述共现矩阵进行乘法的时候,其结果即为one-hot编码的向量中为1的那一列对应的共现矩阵的行向量。
进一步地,skip-gram模型的训练分为多个训练批,所述训练批的大小必须为两倍背景窗口大小的数量的整数被,以确保每个训练批包含了一个输入词条的所有训练样本。
通过根据语料文本训练深度前馈网络模型,具体是训练skip-gram模型,是一种无监督学习方法,是一个自主学习的过程,无需人工标注数据,减少了现有技术中基于监督学习所需的人工标注数据量。
步骤S130:通过相似度计算将与所述种子知识点的相似度达到预设阈值的词条提取出来作为扩展知识点。
在一个可选的实施例中,请参阅图5,所述通过相似度计算将与所述种子知识点的相似度达到预设阈值的词条提取出来作为扩展知识点的步骤S130,包括:
步骤S131:基于连通性的聚类算法,把相似度达到第一阈值的种子知识点分成若干类,获得每类的中心向量;
步骤S132:对所述中心向量与词库中的非种子知识点的词向量进行相似度计算,将相似度达到第二阈值的词条作为扩展知识点。
其中,所述聚类算法包括层次聚类算法,它根据样本之间的联通性来构造簇,所有联通的样本属于同一个簇,其作用在于,将有层次关系的知识点关联起来,知识点间也有类似的层次关系,如三角形,三角形的边、角等知识点概念,存在从属关系。如图6所示,图6-a为种子知识点的源数据集,以词向量的形式表示在向量空间内;图6-b则是通过步骤S131构造连通图,将种子知识点连接在一起构成网状图。另外,所述聚类算法还包括CABDDCC。中心向量由聚类的种子知识点的词向量的平均取得。值得注意的是,中心向量不一定对应具体的种子知识点,但其对应一个词,最能反映该类的总体特征。使用中心向量与非种子知识点的词向量进行相似度计算,能够尽可能发现与该类相关的扩展知识点,减少运算量。
所述第一阈值一般选择相似度高(>0.95)的阈值,所述第一阈值通常大于第二阈值。
在一个优选的实施例中,所述通过相似度计算将与所述种子知识点的相似度达到预设阈值的词条提取出来作为扩展知识点的步骤之后,还包括:
将所述扩展知识点作为种子知识点,迭代执行所述的步骤,直至词库收敛。
随着迭代不断深入,逐渐降低相似度比较的阈值,以获得更多的知识点。所述阈值包括第一阈值、第二阈值。
在一个可选的实施例中,所述通过相似度计算将与所述种子知识点的相似度达到预设阈值的词条提取出来作为扩展知识点的步骤,包括:
对种子知识点的词向量与词库中非种子知识点的词条的词向量进行相似度计算,将相似度达到第三阈值的词条提取出来作为扩展知识点。
在上述实施例中,所述相似度计算具体是以词向量的内积除以词向量的模的乘积,获得词向量间的cosin相似度,具体计算公式如下:
式中,A为种子知识点的词向量或中心向量,B为非种子知识点的词向量。
步骤S140:根据所述种子知识点和所述扩展知识点构建知识图库。
具体地,通过使用关系抽取的方法将所述种子知识点和所述扩展知识点整合在一起,构建完整的知识图库。
综上所述,本申请实施例的技术方案,通过匹配预设句法模板的方式提取种子知识点,种子知识点只是所有知识点中的一部分,无需人工筛选全部的知识点,减少数据筛选的工作量,再通过训练深度前馈网络模型的方式获取语料文本的词库中词条的词向量,由种子知识点与非种子知识点的词向量相似度运算进行扩展知识点,是基于半监督学习,减少了人工标注数据量;而通过对相似度阈值的设置,能够影响扩展知识点的提取数量,进而调整知识点提取的完备程度和知识点提取的精确程度。
图7为本申请实施例的知识图库构建装置的结构示意图,本申请实施例还提供一种知识图库构建装置,包括:
句法模板匹配模块100,用于从语料文本中提取匹配预设的句法模板的种子知识点;
词向量获取模块200,用于根据所述语料文本训练深度前馈网络模型,反向传播获得词库中每一词条的词向量;所述词条包括所述种子知识点;
知识点扩展模块300,用于对种子知识点的词向量与词库中非种子知识点的词条的词向量进行相似度计算,将相似度达到预设阈值的词条提取出来作为扩展知识点。
知识图库构建模块400,用于根据所述种子知识点和所述扩展知识点构建知识图库。
进一步地,所述句法模板匹配模块100包括分词模块和种子知识点提取模块:
所述分词模块,用于对语料文本进行分词处理;
所述种子知识点提取模块,用于将分词处理结果与预设的句法模板进行匹配,将匹配预设的句法模板的分词提取出来作为种子知识点。
进一步地,所述词向量获取模块200具体通过训练skip-gram模型学习输入词条与上下文的共现矩阵,将所述共现矩阵的行向量进行转置获得每个词条的词向量;
其中,所述输入词条与上下文来自所述语料文本。
进一步地,所述词向量获取模块200包括训练样本生成模块、词嵌入模块、参数学习模块、参数输出模块和词向量输出模块:
所述训练样本生成模块,用于根据预设的背景窗口大小,以输入词条为中心词在背景窗口内截取其上下文,生成两倍背景窗口大小的数量的训练样本;
所述词嵌入模块,用于利用初始的共现矩阵对输入词条进行词嵌入操作;
所述参数学习模块,用于通过最大化训练样本中输入词条与其上下文共同出现的条件概率来更新共现矩阵;
所述参数输出模块,用于以词库中每一词条作为输入词条进行迭代训练直至词库收敛,或者迭代训练至预设的次数,获得最终的共现矩阵;
所述词向量输出模块,用于以每一词条的one-hot编码为索引选取对应的最终的共现矩阵的行向量,将所述共现矩阵的行向量进行转置获得每个词条的词向量。
进一步地,所述知识点扩展模块300包括聚类模块和扩展知识点提取模块;
所述聚类模块,基于连通性的聚类算法,把相似度达到第一阈值的种子知识点分成若干类,获得每类的中心向量;
所述扩展知识点提取模块,用于对所述中心向量与词库中的非种子知识点的词向量进行相似度计算,将相似度达到第二阈值的词条作为扩展知识点。
进一步地,还包括迭代运算模块,所述迭代运算模块用于将所述扩展知识点作为种子知识点,迭代调用知识点扩展模块300,直至词库收敛。
可选地,所述知识点扩展模块300,还用于对种子知识点的词向量与词库中非种子知识点的词条的词向量进行相似度计算,将相似度达到第三阈值的词条提取出来作为扩展知识点。
在知识点扩展模块300中,所述相似度计算具体是以词向量的内积除以词向量的模的乘积,获得词向量间的cosin相似度。
基于相同的发明构思,本申请实施例的知识图库构建装置通过匹配预设句法模板的方式提取种子知识点,种子知识点只是所有知识点中的一部分,无需人工筛选全部的知识点,减少数据筛选的工作量,再通过训练深度前馈网络模型的方式获取语料文本的词库中词条的词向量,由种子知识点与非种子知识点的词向量相似度运算进行扩展知识点,是基于半监督学习,减少了人工标注数据量;而通过对相似度阈值的设置,能够影响扩展知识点的提取数量,进而调整知识点提取的完备程度和知识点提取的精确程度。
本申请实施例还提供了一种计算机存储介质,所述计算机存储介质可以存储有多条指令,所述指令适于由处理器加载并执行如上述图1-图6所示实施例的知识图库构建方法步骤,具体执行过程可以参见图1-图6所示实施例的具体说明,在此不进行赘述。
特别地,存储介质所在设备可以是智能交互平板。
请参见图8,为本申请实施例提供了一种电子设备的结构示意图。
所述电子设备500,包括:
存储器501以及处理器502;
所述存储器501,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器502执行,使得所述一个或多个处理器502实现如上任一实施例所述的知识图库构建方法。
在本实施例中,处理器502和存储器501通过总线连接,存储器501可采用在一个或多个其中包含有程序代码的存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。计算机可读储存介质包括永久性和非永久性、可移动和非可移动媒体,可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括但不限于:相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。
处理器502可以是一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件。在本实施例中,所述处理器502还可以为多个,或者处理器502可以包括一个或者多个处理核心。
在一个实施例中,所述处理器502执行如下步骤:
从语料文本中提取匹配预设的句法模板的种子知识点;
根据所述语料文本训练深度前馈网络模型,反向传播获得词库中每一词条的词向量;所述词条包括所述种子知识点;
通过相似度计算将与所述种子知识点的相似度达到预设阈值的词条提取出来作为扩展知识点;
根据所述种子知识点和所述扩展知识点构建知识图库。
在一个实施例中,所述处理器502还执行如下步骤:
对语料文本进行分词处理;
将分词处理结果与预设的句法模板进行匹配,将匹配预设的句法模板的分词提取出来作为种子知识点。
在一个实施例中,所述处理器502还执行如下步骤:
通过训练skip-gram模型学习输入词条与上下文的共现矩阵,将所述共现矩阵的行向量进行转置获得每个词条的词向量;
其中,所述输入词条与上下文来自所述语料文本。
在一个实施例中,所述处理器502还执行如下步骤:
根据预设的背景窗口大小,以输入词条为中心词在背景窗口内截取其上下文,生成两倍背景窗口大小的数量的训练样本;
利用初始的共现矩阵对输入词条进行词嵌入操作;
通过最大化训练样本中输入词条与其上下文共同出现的条件概率来更新共现矩阵;
以词库中每一词条作为输入词条进行迭代训练直至词库收敛,或者迭代训练至预设的次数,获得最终的共现矩阵;
以每一词条的one-hot编码为索引选取对应的最终的共现矩阵的行向量,将所述共现矩阵的行向量进行转置获得每个词条的词向量。
在一个实施例中,所述处理器502还执行如下步骤:
基于连通性的聚类算法,把相似度达到第一阈值的种子知识点分成若干类,获得每类的中心向量;
对所述中心向量与词库中的非种子知识点的词向量进行相似度计算,将相似度达到第二阈值的词条作为扩展知识点。
在一个实施例中,所述处理器502还执行如下步骤:
将所述扩展知识点作为种子知识点,迭代执行上述的步骤,直至词库收敛。
在一个实施例中,所述处理器502还执行如下步骤:
对种子知识点的词向量与词库中非种子知识点的词条的词向量进行相似度计算,将相似度达到第三阈值的词条提取出来作为扩展知识点。
在上述实施例中,所述相似度计算具体是以词向量的内积除以词向量的模的乘积,获得词向量间的cosin相似度。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。
Claims (11)
1.一种知识图库构建方法,其特征在于,包括如下步骤:
从语料文本中提取匹配预设的句法模板的种子知识点;
根据所述语料文本训练深度前馈网络模型,反向传播获得词库中每一词条的词向量;所述词条包括所述种子知识点;
通过相似度计算将与所述种子知识点的相似度达到预设阈值的词条提取出来作为扩展知识点;
根据所述种子知识点和所述扩展知识点构建知识图库。
2.根据权利要求1所述的知识图库构建方法,其特征在于,所述从语料文本中提取匹配预设的句法模板的种子知识点的步骤,包括:
对语料文本进行分词处理;
将分词处理结果与预设的句法模板进行匹配,将匹配预设的句法模板的分词提取出来作为种子知识点。
3.根据权利要求1所述的知识图库构建方法,其特征在于,所述根据所述语料文本训练深度前馈网络模型,反向传播获得词库中每一词条的词向量的步骤,包括:
通过训练skip-gram模型学习输入词条与上下文的共现矩阵,将所述共现矩阵的行向量进行转置获得每个词条的词向量;
其中,所述输入词条与上下文来自所述语料文本。
4.根据权利要求3所述的知识图库构建方法,其特征在于,所述通过训练skip-gram模型学习输入词条与上下文的共现矩阵,将所述共现矩阵的行向量进行转置获得每个词条的词向量的步骤,包括:
根据预设的背景窗口大小,以输入词条为中心词在背景窗口内截取其上下文,生成两倍背景窗口大小的数量的训练样本;
利用初始的共现矩阵对输入词条进行词嵌入操作;
通过最大化训练样本中输入词条与其上下文共同出现的条件概率来更新共现矩阵;
以词库中每一词条作为输入词条进行迭代训练直至词库收敛,或者迭代训练至预设的次数,获得最终的共现矩阵;
以每一词条的one-hot编码为索引选取对应的最终的共现矩阵的行向量,将所述共现矩阵的行向量进行转置获得每个词条的词向量。
5.根据权利要求1所述的知识图库构建方法,其特征在于,所述通过相似度计算将与所述种子知识点的相似度达到预设阈值的词条提取出来作为扩展知识点的步骤,包括:
基于连通性的聚类算法,把相似度达到第一阈值的种子知识点分成若干类,获得每类的中心向量;
对所述中心向量与词库中的非种子知识点的词向量进行相似度计算,将相似度达到第二阈值的词条作为扩展知识点。
6.根据权利要求1所述的知识图库构建方法,其特征在于,所述通过相似度计算将与所述种子知识点的相似度达到预设阈值的词条提取出来作为扩展知识点的步骤,包括:
对种子知识点的词向量与词库中非种子知识点的词条的词向量进行相似度计算,将相似度达到第三阈值的词条提取出来作为扩展知识点。
7.根据权利要求1、5或6任一项所述的知识图库构建方法,其特征在于:所述相似度计算具体是以词向量的内积除以词向量的模的乘积,获得词向量间的cosin相似度。
8.根据权利要求5所述的知识图库构建方法,其特征在于,还包括如下步骤:
将所述扩展知识点作为种子知识点,迭代执行如权利要求5所述的步骤,直至词库收敛。
9.一种知识图库构建装置,其特征在于,包括:
句法模板匹配模块,用于从语料文本中提取匹配预设的句法模板的种子知识点;
词向量获取模块,用于根据语料文本训练深度前馈网络模型,反向传播获得词库中每一词条的词向量;所述词条包括所述种子知识点;
知识点扩展模块,用于对种子知识点的词向量与词库中非种子知识点的词条的词向量进行相似度计算,将相似度达到预设阈值的词条提取出来作为扩展知识点;
知识图库构建模块,用于根据所述种子知识点和所述扩展知识点构建知识图库。
10.一种计算机存储介质,其特征在于,所述计算机存储介质存储有多条指令,所述指令适于由处理器加载并执行如权利要求1-8任一项的知识图库构建方法步骤。
11.一种电子设备,其特征在于,包括:
处理器以及存储器;
其中,所述存储器存储有计算机程序;所述计算机程序适于由所述处理器加载并执行如权利要求1-8中任一所述的知识图库构建方法步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910748188.0A CN110598002A (zh) | 2019-08-14 | 2019-08-14 | 知识图库构建方法、装置、计算机存储介质和电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910748188.0A CN110598002A (zh) | 2019-08-14 | 2019-08-14 | 知识图库构建方法、装置、计算机存储介质和电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110598002A true CN110598002A (zh) | 2019-12-20 |
Family
ID=68854169
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910748188.0A Pending CN110598002A (zh) | 2019-08-14 | 2019-08-14 | 知识图库构建方法、装置、计算机存储介质和电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110598002A (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111198876A (zh) * | 2020-01-02 | 2020-05-26 | 泰康保险集团股份有限公司 | 基于知识库的数据清洗方法及装置 |
CN111401928A (zh) * | 2020-04-01 | 2020-07-10 | 支付宝(杭州)信息技术有限公司 | 基于图数据确定文本的语义相似度的方法及装置 |
CN111680219A (zh) * | 2020-06-09 | 2020-09-18 | 腾讯科技(深圳)有限公司 | 内容推荐方法、装置、设备及可读存储介质 |
CN112463943A (zh) * | 2020-12-11 | 2021-03-09 | 深圳市一号互联科技有限公司 | 基于聚类算法的新知识点发现的处理方法及其装置、电子设备及存储介质 |
CN112749558A (zh) * | 2020-09-03 | 2021-05-04 | 腾讯科技(深圳)有限公司 | 一种目标内容获取方法、装置、计算机设备和存储介质 |
CN113158688A (zh) * | 2021-05-11 | 2021-07-23 | 科大讯飞股份有限公司 | 一种领域知识库构建方法、装置、设备及存储介质 |
CN113360642A (zh) * | 2021-05-25 | 2021-09-07 | 科沃斯商用机器人有限公司 | 文本数据处理方法及装置、存储介质和电子设备 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103488724A (zh) * | 2013-09-16 | 2014-01-01 | 复旦大学 | 一种面向图书的阅读领域知识图谱构建方法 |
CN105893551A (zh) * | 2016-03-31 | 2016-08-24 | 上海智臻智能网络科技股份有限公司 | 数据的处理方法及装置、知识图谱 |
CN106844658A (zh) * | 2017-01-23 | 2017-06-13 | 中山大学 | 一种中文文本知识图谱自动构建方法及系统 |
CN106919689A (zh) * | 2017-03-03 | 2017-07-04 | 中国科学技术信息研究所 | 基于术语释义知识单元的专业领域知识图谱动态构建方法 |
CN107609152A (zh) * | 2017-09-22 | 2018-01-19 | 百度在线网络技术(北京)有限公司 | 用于扩展查询式的方法和装置 |
CN108376160A (zh) * | 2018-02-12 | 2018-08-07 | 北京大学 | 一种中文知识图谱构建方法和系统 |
CN109033160A (zh) * | 2018-06-15 | 2018-12-18 | 东南大学 | 一种知识图谱动态更新方法 |
CN109726298A (zh) * | 2019-01-08 | 2019-05-07 | 上海市研发公共服务平台管理中心 | 适用于科技文献的知识图谱构建方法、系统、终端及介质 |
CN110019702A (zh) * | 2017-09-18 | 2019-07-16 | 阿里巴巴集团控股有限公司 | 数据挖掘方法、装置和设备 |
-
2019
- 2019-08-14 CN CN201910748188.0A patent/CN110598002A/zh active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103488724A (zh) * | 2013-09-16 | 2014-01-01 | 复旦大学 | 一种面向图书的阅读领域知识图谱构建方法 |
CN105893551A (zh) * | 2016-03-31 | 2016-08-24 | 上海智臻智能网络科技股份有限公司 | 数据的处理方法及装置、知识图谱 |
CN106844658A (zh) * | 2017-01-23 | 2017-06-13 | 中山大学 | 一种中文文本知识图谱自动构建方法及系统 |
CN106919689A (zh) * | 2017-03-03 | 2017-07-04 | 中国科学技术信息研究所 | 基于术语释义知识单元的专业领域知识图谱动态构建方法 |
CN110019702A (zh) * | 2017-09-18 | 2019-07-16 | 阿里巴巴集团控股有限公司 | 数据挖掘方法、装置和设备 |
CN107609152A (zh) * | 2017-09-22 | 2018-01-19 | 百度在线网络技术(北京)有限公司 | 用于扩展查询式的方法和装置 |
CN108376160A (zh) * | 2018-02-12 | 2018-08-07 | 北京大学 | 一种中文知识图谱构建方法和系统 |
CN109033160A (zh) * | 2018-06-15 | 2018-12-18 | 东南大学 | 一种知识图谱动态更新方法 |
CN109726298A (zh) * | 2019-01-08 | 2019-05-07 | 上海市研发公共服务平台管理中心 | 适用于科技文献的知识图谱构建方法、系统、终端及介质 |
Non-Patent Citations (3)
Title |
---|
丁连红等: "基于知识图谱扩展的短文本分类方法", 《情报工程》 * |
毛二松等: "基于词向量的中文微博实体链接方法", 《计算机应用与软件》 * |
黄恒琪等: "知识图谱研究综述", 《计算机系统应用》 * |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111198876A (zh) * | 2020-01-02 | 2020-05-26 | 泰康保险集团股份有限公司 | 基于知识库的数据清洗方法及装置 |
CN111401928A (zh) * | 2020-04-01 | 2020-07-10 | 支付宝(杭州)信息技术有限公司 | 基于图数据确定文本的语义相似度的方法及装置 |
CN111401928B (zh) * | 2020-04-01 | 2022-04-12 | 支付宝(杭州)信息技术有限公司 | 基于图数据确定文本的语义相似度的方法及装置 |
CN111680219A (zh) * | 2020-06-09 | 2020-09-18 | 腾讯科技(深圳)有限公司 | 内容推荐方法、装置、设备及可读存储介质 |
CN111680219B (zh) * | 2020-06-09 | 2023-10-20 | 深圳市雅阅科技有限公司 | 内容推荐方法、装置、设备及可读存储介质 |
CN112749558A (zh) * | 2020-09-03 | 2021-05-04 | 腾讯科技(深圳)有限公司 | 一种目标内容获取方法、装置、计算机设备和存储介质 |
CN112749558B (zh) * | 2020-09-03 | 2023-11-24 | 腾讯科技(深圳)有限公司 | 一种目标内容获取方法、装置、计算机设备和存储介质 |
CN112463943A (zh) * | 2020-12-11 | 2021-03-09 | 深圳市一号互联科技有限公司 | 基于聚类算法的新知识点发现的处理方法及其装置、电子设备及存储介质 |
CN113158688A (zh) * | 2021-05-11 | 2021-07-23 | 科大讯飞股份有限公司 | 一种领域知识库构建方法、装置、设备及存储介质 |
CN113158688B (zh) * | 2021-05-11 | 2023-12-01 | 科大讯飞股份有限公司 | 一种领域知识库构建方法、装置、设备及存储介质 |
CN113360642A (zh) * | 2021-05-25 | 2021-09-07 | 科沃斯商用机器人有限公司 | 文本数据处理方法及装置、存储介质和电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110598002A (zh) | 知识图库构建方法、装置、计算机存储介质和电子设备 | |
CN107273355B (zh) | 一种基于字词联合训练的中文词向量生成方法 | |
CN108363743B (zh) | 一种智能问题生成方法、装置和计算机可读存储介质 | |
US9779085B2 (en) | Multilingual embeddings for natural language processing | |
Neculoiu et al. | Learning text similarity with siamese recurrent networks | |
CN111078836B (zh) | 基于外部知识增强的机器阅读理解方法、系统、装置 | |
Tahsin Mayeesha et al. | Deep learning based question answering system in Bengali | |
CN106778878B (zh) | 一种人物关系分类方法及装置 | |
CN112101039B (zh) | 一种面向在线学习社区的学习兴趣发现方法 | |
CN105760363B (zh) | 文本文件的词义消歧方法及装置 | |
CN107544958B (zh) | 术语抽取方法和装置 | |
CN111104509A (zh) | 一种基于概率分布自适应的实体关系分类方法 | |
Zhao et al. | Contextual self-organizing map: software for constructing semantic representations | |
Yang et al. | An automated grader for Chinese essay combining shallow and deep semantic attributes | |
CN110929532B (zh) | 数据处理方法、装置、设备及存储介质 | |
CN110633456B (zh) | 语种识别方法、装置、服务器及存储介质 | |
CN111813993A (zh) | 视频内容的拓展方法、装置、终端设备及存储介质 | |
CN111881256A (zh) | 文本实体关系抽取方法、装置及计算机可读存储介质设备 | |
Chang et al. | Automated Chinese essay scoring based on multilevel linguistic features | |
Xiao et al. | Machine learning-based automated essay scoring system for Chinese proficiency test (HSK) | |
WO2023226309A1 (zh) | 一种模型训练方法及相关设备 | |
CN110705306A (zh) | 一种作文文题一致性的测评方法 | |
Wang | Construction of Intelligent Evaluation Model of English Composition Based on Machine Learning | |
Vachkova et al. | The application of text mining algorithms to discover one topic objects in digital learning repositories | |
Li | [Retracted] An English Writing Grammar Error Correction Technology Based on Similarity Algorithm |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20191220 |