CN112307219B - 网站搜索用词汇数据库更新方法、系统及计算机存储介质 - Google Patents
网站搜索用词汇数据库更新方法、系统及计算机存储介质 Download PDFInfo
- Publication number
- CN112307219B CN112307219B CN202011138173.1A CN202011138173A CN112307219B CN 112307219 B CN112307219 B CN 112307219B CN 202011138173 A CN202011138173 A CN 202011138173A CN 112307219 B CN112307219 B CN 112307219B
- Authority
- CN
- China
- Prior art keywords
- concept
- hierarchical
- concepts
- vocabulary database
- graph
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/316—Indexing structures
- G06F16/322—Trees
Abstract
本申请的技术方案将Web数据作为概念分析数据源,并利用本体概念层次分析方法对Web数据进行分析,最终获得新的概念及对应的层次从属关系,从而实现了网站搜索用词汇数据库的自动化更新操作,确保了更新操作的准确及时。
Description
技术领域
本申请涉及语义分析技术领域,具体而言,涉及一种网站搜索用词汇数据库更新方法、系统及计算机存储介质。
背景技术
搜索系统是各种文献检索类专业数据检索网站的主要功能模块,在用户通过搜索信息,快速准确地获得符合用户需求的检索信息结果。在搜索系统中,搜索用词汇数据库更新技术是基础,数据库中一般包括概念及其对应的层次从属关系。传统的搜索用词汇数据库更新方式是由人力手动更新,然而,在网络信息时代,信息更新是十分迅速的,且几乎无法通过人力实现搜索词汇的及时且全面的更新。于是,如何对网络信息进行分析获得词汇的知识系统以用于网站搜索,这是目前亟需解决的技术问题。
发明内容
为了解决上述检索领域现有技术中存在的技术问题,本申请提供了一种网站搜索用词汇数据库更新方法、系统及计算机存储介质。
本申请的第一方面提供了一种网站搜索用词汇数据库更新方法,其特征在于,所述方法包括:
S1,构建初始网站搜索用词汇数据库,其中包括若干初始概念及对应的层次从属关系;
S2,调用本体概念层次分析方法对Web数据进行分析,以获得若干新的概念及对应的层次从属关系;
S3,将获得的所述若干新的概念及对应的层次从属关系并入所述初始网站搜索用词汇数据库,其中,若所述初始网站搜索用词汇数据库中已经存在所述新的概念,则只将所述已经存在的概念的层次从属关系更新为所述新的概念的层次从属关系。
优选地,在步骤S2中调用本体概念层次分析方法对Web数据进行分析,以获得若干新的概念及对应的层次从属关系,包括如下步骤:
S21、利用线索词构造蕴含层次关系的查询串,借助搜索引擎从Web中获取富含层次关系的语料;
S22、综合利用从Web获取的关系富集语料、百科知识解释条目及新闻文档构造概念向量空间模型,融合基于《知网》的概念语义相似度建立概念图;
S23、在对所述概念图进行剪枝操作后,利用改进的层次树构造算法得到概念间明确的层次从属关系。
优选地,所述S21中,利用线索词构造蕴含层次关系的查询串,借助搜索引擎从Web中获取富含层次关系的语料,包括:
将集合中的概念对(ci,cj)提交给搜索引擎,得到前k条返回结果的摘要文本集T1以及搜索引擎针对该概念对提供的查询推荐条目T2;
针对由概念对(ci,cj)得到的文本集T1和T2,分别从中查找同时包含概念ci和cj的句子,存入关系语境集context1和context2中;
分别对关系语境集context1和context2中的关系语境进行分词和词性标注,将两者中出现的名词、动词、副词和连词存入W1和W2,W=W1∪W2,统计W中每个词语在对应的关系语境集中出现的频次;
计算W中候选线索词wi与其表示的层次关系ri的相关度
其中,f1(wi)和f2(wi)分别为wi在context1和context2中出现的频次,fq(wi)表示包含与层次关系ri对应的查询串中包含wi的条数,Max为取最大值的函数;
针对层次关系ri对应的候选线索词集,选取相关度relevance(wi,ri)最大的前10个为线索词;
得到线索词之后,在对应的关系语境集中查找包含线索词的语境片段,假设目标语境中包含的两个概念分别为ci和cj,则分别把ci和cj替换为正则表达式中表示任意连续文字的“.*”,得到层次关系查询串q1(ci,cj)和q2(ci,cj),至此,即成功构造了基于线索次的层次关系查询串。
以及,所述步骤S21中,借助搜索引擎从Web中获取富含层次关系的语料,包括:
对于包含概念ci的查询串,将其对应的搜索引擎返回的摘要文本存入文档di中,类似地,对概念集C中的每个概念均可得到一个文档,这些文档即构成了概念集C对应的层次关系语料库D1={di|1≤i≤m}。
优选地,步骤S22中,所述概念向量空间模型的构造方法为:
A=[ai×k]m×p
ai×k=fk(ci)
其中,A表示概念向量空间模型;针对概念集C={ci|1≤i≤m},其对应的百科语料表示为D2={di|1≤i≤m};还采用了包含目标概念的搜狐新闻语料,表示为D3={di|1≤i≤q};fk(ci)表示概念ci在文档dk中出现的频次,m表示概念个数,p为文档集的文档个数;
针对三个不同的文档语料集D1、D2和D3,分别建立其对应的概念向量空间模型A1=[ai×k]m×m、A2=[ai×k]m×m和A3=[ai×k]m×q;
优选地,步骤S22中,所述融合基于《知网》的概念语义相似度建立概念图,包括:
S221、概念ci和cj的文档特征向量可分别表示为vec(ci)=(f1(ci),f2(ci),...,fp(ci))和vec(cj)=(f1(cj),f2(cj),...,fp(cj)),其相似度sim(ci,cj)的计算公式如下:
针对三个不同的文档集D1、D2和D3对应的概念向量空间模型A1=[ai×k]m×m、A2=[ai×k]m×m和A3=[ai×k]m×q,利用余弦距离分别计算其概念相似度矩阵:
sim1=[sim(ci,cj)]m×m、sim2=[sim(ci,cj)]m×m和sim3=[sim(ci,cj)]m×m;
S222、对于知网未登录的词,设定其与其他词的相似度为0;并以sim3=[simH(ci,cj)]m×m表示由知网得到的概念与概念的相似度矩阵;
S223、利用多项式相加方式对四个相似度矩阵进行融合,最终的相似度矩阵以S=s(ci,cj)m×m表示,
S=K1×Sim1+K2×Sim2+K3×Sim3+K4×Sim4
其中,K1、K2、K3和K4为参数。
通过设定相似度阈值把相似度矩阵转换为概念的关系图模型,以二元组G=(C,E)表示概念图模型,C={ci|1≤i≤m}为概念集,E={(ci,cj)|s(ci,cj)≥α},α为阈值。
优选地,步骤S23中,在对所述概念图进行剪枝操作后,包括:
针对步骤S22中构造的概念图模型G=(C,E),集合C={ci|1≤i≤m}表示图的概念节点集,E={(ci,cj)|s(ci,cj)≥α}表示图的边集;以degree(ci)表示概念图G中概念ci的度数,以rank(ci)表示概念ci所处的层次,H={(ci,rank(ci))|1≤i≤m}表示概念节点与其所处层次数的二元组集合,G1=(C1,E1)表示与G=(C,E)同类型的图;
所述对所述概念图进行剪枝操作,包括如下步骤:
输入:G=(C,E),其中C={ci|1≤i≤m},E={(ci,cj)|s(ci,cj)≥α}
输出:H={(ci,rank(ci))|1≤i≤m};
S231、初始化,把G1赋值为G,也即C1赋值为C,E1赋值为E,赋变量t初值为1;
S232、判断C1是否为空,若是,则执行步骤S33;否则执行下述步骤:
计算图G1中各节点的度数,从中找出最小度数md;对于任意节点ci,如果degree(ci)等于md,则将rank(ci)赋值为t,把(ci,rank(ci))存入集合H,把节点ci从图G1的节点集C1中删除,把与ci相关的边从图G1的边集E1中删除,t=t+1;返回执行步骤S32;
S233、剪枝操作结束,输出H={(ci,rank(ci))|1≤i≤m}。
优选地,步骤S23中,所述利用改进的层次树构造算法得到概念间明确的层次从属关系,包括如下步骤:
延用前述对变量的声明,以H={(ci,rank(ci))|1≤i≤m}表示由剪枝算法得到的初级概念层次结构,以S=s(ci,cj)m×m表示由步骤S2中的概念图建模方法得到的概念相似度矩阵,以Hy={(ci,cj)|1≤i,j≤m,j≠i}表示概念间明确的层次从属关系,即ci从属于cj;设ci∈C,cj∈C∪{Null},当cj取Null时,表明ci为根节点,设C1表示概念节点集;
输入:H={(ci,rank(ci))|1≤i≤m},S=s(ci,cj)m×m
输出:Hy={(ci,cj)|1≤i,j≤m,j≠i}
S234、初始化,把C1和Hy均赋为空;
S235.判断H是否为空,若否,则执行步骤S36;若是,则执行下述步骤:
从H中取出rank值最小的概念节点对于Cmin中的每个概念ck,从rank值大于rank(ck)的节点中选择与其相似度最大的cp节点,即将概念对(ck,cp)放入集合Hy,并把概念节点层次二元组(ck,rank(ck))从集合H中删除;返回执行步骤S35;
S236、输出Hy={(ci,cj)|1≤i,j≤m,j≠i},层次树构造算法结束。
本申请的第二方面提供了一种网站搜索用词汇数据库更新装置,其特征在于,所述装置包括构建模块、获取模块、更新模块:
所述构建模块,用于构建初始网站搜索用词汇数据库,其中包括若干初始概念及对应的层次从属关系;
所述获取模块,用于调用本体概念层次分析方法对Web数据进行分析,以获得若干新的概念及对应的层次从属关系;
所述更新模块,用于将获得的所述若干新的概念及对应的层次从属关系并入所述初始网站搜索用词汇数据库,其中,若所述初始网站搜索用词汇数据库中已经存在所述新的概念,则只将所述已经存在的概念的层次从属关系更新为所述新的概念的层次从属关系。
本申请的第三方面提供了一种网站搜索用词汇数据库更新设备,其特征在于,所述设备包括:
存储有可执行程序代码的存储器;
与所述存储器耦合的处理器;
所述处理器调用所述存储器中存储的所述可执行程序代码,执行如前述所述的网站搜索用词汇数据库更新方法。
本申请的第四方面提供了一种存储介质,其特征在于,所述存储介质存储有计算机指令,所述计算机指令被调用时,用于执行如前述所述的网站搜索用词汇数据库更新方法。
本发明的有益效果在于:
本申请的技术方案将Web数据作为概念分析数据源,并利用本体概念层次分析方法对Web数据进行分析,最终获得新的概念及对应的层次从属关系,从而实现了网站搜索用词汇数据库的自动化更新操作,确保了更新操作的准确及时。
同时,本申请还构建了本体概念层次获取方法,利用线索词构造蕴含层次关系的查询串,借助搜索引擎从Web中获取富含层次关系的语料;综合利用从Web获取的关系富集语料、百科知识解释条目及新闻文档构造概念向量空间模型,融合基于《知网》的概念语义相似度建立概念图;在对所述概念图进行剪枝操作后,利用改进的层次树构造算法得到概念间明确的层次从属关系。本申请的方案获取的层次从属关系的准确率明显优于现有技术,为实现人机之间及机器之间的语义信息交互打下了坚实的基础。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1是本申请实施例公开的一种网站搜索用词汇数据库更新方法的流程示意图;
图2是本申请实施例公开的一种网站搜索用词汇数据库更新系统的结构示意图;
图3是本申请实施例公开的一种网站搜索用词汇数据库更新设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
在本申请的描述中,需要说明的是,若出现术语“上”、“下”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,或者是该发明产品使用时惯常摆放的方位或位置关系,仅是为了便于描述本申请和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本申请的限制。
此外,若出现术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
需要说明的是,在不冲突的情况下,本申请的实施例中的特征可以相互结合。
实施例一
请参阅图1,图1是本申请实施例公开的一种网站搜索用词汇数据库更新方法的流程示意图。如图1所示,本申请实施例的一种网站搜索用词汇数据库更新方法,其特征在于,所述方法包括:
S1,构建初始网站搜索用词汇数据库,其中包括若干初始概念及对应的层次从属关系;
S2,调用本体概念层次分析方法对Web数据进行分析,以获得若干新的概念及对应的层次从属关系;
S3,将获得的所述若干新的概念及对应的层次从属关系并入所述初始网站搜索用词汇数据库,其中,若所述初始网站搜索用词汇数据库中已经存在所述新的概念,则只将所述已经存在的概念的层次从属关系更新为所述新的概念的层次从属关系。
在本实施例中,本申请的技术方案将Web数据作为概念分析数据源,并利用本体概念层次分析方法对Web数据进行分析,最终获得新的概念及对应的层次从属关系,从而实现了网站搜索用词汇数据库的自动化更新操作,确保了更新操作的准确及时。
可选地,在步骤S2中调用本体概念层次分析方法对Web数据进行分析,以获得若干新的概念及对应的层次从属关系,包括如下步骤:
S21、利用线索词构造蕴含层次关系的查询串,借助搜索引擎从Web中获取富含层次关系的语料;
S22、综合利用从Web获取的关系富集语料、百科知识解释条目及新闻文档构造概念向量空间模型,融合基于《知网》的概念语义相似度建立概念图;
S23、在对所述概念图进行剪枝操作后,利用改进的层次树构造算法得到概念间明确的层次从属关系。
可选地,所述S21中,利用线索词构造蕴含层次关系的查询串,借助搜索引擎从Web中获取富含层次关系的语料,包括:
将集合中的概念对(ci,cj)提交给搜索引擎,得到前k条返回结果的摘要文本集T1以及搜索引擎针对该概念对提供的查询推荐条目T2;
针对由概念对(ci,cj)得到的文本集T1和T2,分别从中查找同时包含概念ci和cj的句子,存入关系语境集context1和context2中;
分别对关系语境集context1和context2中的关系语境进行分词和词性标注,将两者中出现的名词、动词、副词和连词存入W1和W2,W=W1∪W2,统计W中每个词语在对应的关系语境集中出现的频次;
计算W中候选线索词wi与其表示的层次关系ri的相关度
其中,f1(wi)和f2(wi)分别为wi在context1和context2中出现的频次,fq(wi)表示包含与层次关系ri对应的查询串中包含wi的条数,Max为取最大值的函数;
针对层次关系ri对应的候选线索词集,选取相关度relevance(wi,ri)最大的前10个为线索词;
得到线索词之后,在对应的关系语境集中查找包含线索词的语境片段,假设目标语境中包含的两个概念分别为ci和cj,则分别把ci和cj替换为正则表达式中表示任意连续文字的“.*”,得到层次关系查询串q1(ci,cj)和q2(ci,cj),至此,即成功构造了基于线索次的层次关系查询串。
以及,所述步骤S21中,借助搜索引擎从Web中获取富含层次关系的语料,包括:
对于包含概念ci的查询串,将其对应的搜索引擎返回的摘要文本存入文档di中,类似地,对概念集C中的每个概念均可得到一个文档,这些文档即构成了概念集C对应的层次关系语料库D1={di|1≤i≤m}。
可选地,步骤S22中,所述概念向量空间模型的构造方法为:
A=[ai×k]m×p
ai×k=fk(ci)
其中,A表示概念向量空间模型;针对概念集C={ci|1≤i≤m},其对应的百科语料表示为D2={di|1≤i≤m};还采用了包含目标概念的搜狐新闻语料,表示为D3={di|1≤i≤q};fk(ci)表示概念ci在文档dk中出现的频次,m表示概念个数,p为文档集的文档个数;
针对三个不同的文档语料集D1、D2和D3,分别建立其对应的概念向量空间模型A1=[ai×k]m×m、A2=[ai×k]m×m和A3=[ai×k]m×q;
可选地,步骤S22中,所述融合基于《知网》的概念语义相似度建立概念图,包括:
S221、概念ci和cj的文档特征向量可分别表示为vec(ci)=(f1(ci),f2(ci),...,fp(ci))和vec(cj)=(f1(cj),f2(cj),...,fp(cj)),其相似度sim(ci,cj)的计算公式如下:
针对三个不同的文档集D1、D2和D3对应的概念向量空间模型A1=[ai×k]m×m、A2=[ai×k]m×m和A3=[ai×k]m×q,利用余弦距离分别计算其概念相似度矩阵:
sim1=[sim(ci,cj)]m×m、sim2=[sim(ci,cj)]m×m和sim3=[sim(ci,cj)]m×m;
S222、对于知网未登录的词,设定其与其他词的相似度为0;并以sim3=[simH(ci,cj)]m×m表示由知网得到的概念与概念的相似度矩阵;
S223、利用多项式相加方式对四个相似度矩阵进行融合,最终的相似度矩阵以S=s(ci,cj)m×m表示,
S=K1×Sim1+K2×Sim2+K3×Sim3+K4×Sim4
其中,K1、K2、K3和K4为参数。
通过设定相似度阈值把相似度矩阵转换为概念的关系图模型,以二元组G=(C,E)表示概念图模型,C={ci|1≤i≤m}为概念集,E={(ci,cj)|s(ci,cj)≥α},α为阈值。
可选地,步骤S23中,在对所述概念图进行剪枝操作后,包括:
针对步骤S22中构造的概念图模型G=(C,E),集合C={ci|1≤i≤m}表示图的概念节点集,E={(ci,cj)|s(ci,cj)≥α}表示图的边集;以degree(ci)表示概念图G中概念ci的度数,以rank(ci)表示概念ci所处的层次,H={(ci,rank(ci))|1≤i≤m}表示概念节点与其所处层次数的二元组集合,G1=(C1,E1)表示与G=(C,E)同类型的图;
所述对所述概念图进行剪枝操作,包括如下步骤:
输入:G=(C,E),其中C={ci|1≤i≤m},E={(ci,cj)|s(ci,cj)≥α}
输出:H={(ci,rank(ci))|1≤i≤m};
S231、初始化,把G1赋值为G,也即C1赋值为C,E1赋值为E,赋变量t初值为1;
S232、判断C1是否为空,若是,则执行步骤S33;否则执行下述步骤:
计算图G1中各节点的度数,从中找出最小度数md;对于任意节点ci,如果degree(ci)等于md,则将rank(ci)赋值为t,把(ci,rank(ci))存入集合H,把节点ci从图G1的节点集C1中删除,把与ci相关的边从图G1的边集E1中删除,t=t+1;返回执行步骤S32;
S233、剪枝操作结束,输出H={(ci,rank(ci))|1≤i≤m}。
可选地,步骤S23中,所述利用改进的层次树构造算法得到概念间明确的层次从属关系,包括如下步骤:
延用前述对变量的声明,以H={(ci,rank(ci))|1≤i≤m}表示由剪枝算法得到的初级概念层次结构,以S=s(ci,cj)m×m表示由步骤S2中的概念图建模方法得到的概念相似度矩阵,以Hy={(ci,cj)|1≤i,j≤m,j≠i}表示概念间明确的层次从属关系,即ci从属于cj;设ci∈C,cj∈C∪{Null},当cj取Null时,表明ci为根节点,设C1表示概念节点集;
输入:H={(ci,rank(ci))|1≤i≤m},S=s(ci,cj)m×m
输出:Hy={(ci,cj)|1≤i,j≤m,j≠i}
S234、初始化,把C1和Hy均赋为空;
S235.判断H是否为空,若否,则执行步骤S36;若是,则执行下述步骤:
从H中取出rank值最小的概念节点对于Cmin中的每个概念ck,从rank值大于rank(ck)的节点中选择与其相似度最大的cp节点,即将概念对(ck,cp)放入集合Hy,并把概念节点层次二元组(ck,rank(ck))从集合H中删除;返回执行步骤S35;
S236、输出Hy={(ci,cj)|1≤i,j≤m,j≠i},层次树构造算法结束。
实施例二
请参阅图2,图2是本申请实施例公开的一种网站搜索用词汇数据库更新系统的结构示意图。如图2所示,本申请实施例的一种网站搜索用词汇数据库更新装置,其特征在于,所述装置包括构建模块、获取模块、更新模块:
所述构建模块,用于构建初始网站搜索用词汇数据库,其中包括若干初始概念及对应的层次从属关系;
所述获取模块,用于调用本体概念层次分析方法对Web数据进行分析,以获得若干新的概念及对应的层次从属关系;
所述更新模块,用于将获得的所述若干新的概念及对应的层次从属关系并入所述初始网站搜索用词汇数据库,其中,若所述初始网站搜索用词汇数据库中已经存在所述新的概念,则只将所述已经存在的概念的层次从属关系更新为所述新的概念的层次从属关系。
在本实施例中,本申请的技术方案将Web数据作为概念分析数据源,并利用本体概念层次分析方法对Web数据进行分析,最终获得新的概念及对应的层次从属关系,从而实现了网站搜索用词汇数据库的自动化更新操作,确保了更新操作的准确及时。
实施例三
请参阅图3,图3是本申请实施例公开的一种网站搜索用词汇数据库更新设备的结构示意图。如图3所示,本申请实施例的一种网站搜索用词汇数据库更新设备,其特征在于,所述设备包括:
存储有可执行程序代码的存储器;
与所述存储器耦合的处理器;
所述处理器调用所述存储器中存储的所述可执行程序代码,执行如前述所述的网站搜索用词汇数据库更新方法。
实施例四
本申请实施例提供一种存储介质,其特征在于,所述存储介质存储有计算机指令,所述计算机指令被调用时,用于执行如前述所述的网站搜索用词汇数据库更新方法。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。
Claims (8)
1.一种网站搜索用词汇数据库更新方法,其特征在于,所述方法包括:
S1,构建初始网站搜索用词汇数据库,其中包括若干初始概念及对应的层次从属关系;
S2,调用本体概念层次分析方法对Web数据进行分析,以获得若干新的概念及对应的层次从属关系;
S3,将获得的所述若干新的概念及对应的层次从属关系并入所述初始网站搜索用词汇数据库,其中,若所述初始网站搜索用词汇数据库中已经存在所述新的概念,则只将所述已经存在的概念的层次从属关系更新为所述新的概念的层次从属关系;
在步骤S2中调用本体概念层次分析方法对Web数据进行分析,以获得若干新的概念及对应的层次从属关系,包括如下步骤:
S21、利用线索词构造蕴含层次关系的查询串,借助搜索引擎从Web中获取富含层次关系的语料;
S22、综合利用从Web获取的关系富集语料、百科知识解释条目及新闻文档构造概念向量空间模型,融合基于《知网》的概念语义相似度建立概念图;
S23、在对所述概念图进行剪枝操作后,利用改进的层次树构造算法得到概念间明确的层次从属关系;
所述S21中,利用线索词构造蕴含层次关系的查询串,借助搜索引擎从Web中获取富含层次关系的语料,包括:
将集合中的概念对(ci,cj)提交给搜索引擎,得到前k条返回结果的摘要文本集T1以及搜索引擎针对该概念对提供的查询推荐条目T2;
针对由概念对(ci,cj)得到的文本集T1和T2,分别从中查找同时包含概念ci和cj的句子,存入关系语境集context1和context2中;
分别对关系语境集context1和context2中的关系语境进行分词和词性标注,将两者中出现的名词、动词、副词和连词存入W1和W2,W=W1∪W2,统计W中每个词语在对应的关系语境集中出现的频次;
计算W中候选线索词wi与其表示的层次关系ri的相关度
其中,f1(wi)和f2(wi)分别为wi在context1和context2中出现的频次,fq(wi)表示包含与层次关系ri对应的查询串中包含wi的条数,Max为取最大值的函数;
针对层次关系ri对应的候选线索词集,选取相关度relevance(wi,ri)最大的前10个为线索词;
得到线索词之后,在对应的关系语境集中查找包含线索词的语境片段,假设目标语境中包含的两个概念分别为ci和cj,则分别把ci和cj替换为正则表达式中表示任意连续文字的“.*”,得到层次关系查询串q1(ci,cj)和q2(ci,cj),至此,即成功构造了基于线索次的层次关系查询串;
以及,所述步骤S21中,借助搜索引擎从Web中获取富含层次关系的语料,包括:
对于包含概念ci的查询串,将其对应的搜索引擎返回的摘要文本存入文档di中,类似地,对概念集C中的每个概念均可得到一个文档,这些文档即构成了概念集C对应的层次关系语料库D1={di|1≤i≤m}。
2.根据权利要求1所述的方法,其特征在于:步骤S22中,所述概念向量空间模型的构造方法为:
A=[ai×k]m×p
ai×k=fk(ci)
其中,A表示概念向量空间模型;针对概念集C={ci|1≤i≤m},其对应的百科语料表示为D2={di|1≤i≤m};还采用了包含目标概念的搜狐新闻语料,表示为D3={di|1≤i≤q};fk(ci)表示概念ci在文档dk中出现的频次,m表示概念个数,p为文档集的文档个数;
针对三个不同的文档语料集D1、D2和D3,分别建立其对应的概念向量空间模型A1=[ai×k]m×m、A2=[ai×k]m×m和A3=[ai×k]m×q。
3.根据权利要求2所述的方法,其特征在于:步骤S22中,所述融合基于《知网》的概念语义相似度建立概念图,包括:
S221、概念ci和cj的文档特征向量可分别表示为vec(ci)=(f1(ci),f2(ci),...,fp(ci))和vec(cj)=(f1(cj),f2(cj),...,fp(cj)),其相似度sim(ci,cj)的计算公式如下:
针对三个不同的文档集D1、D2和D3对应的概念向量空间模型A1=[ai×k]m×m、A2=[ai×k]m×m和A3=[ai×k]m×q,利用余弦距离分别计算其概念相似度矩阵:
sim1=[sim(ci,cj)]m×m、sim2=[sim(ci,cj)]m×m和sim3=[sim(ci,cj)]m×m;
S222、对于知网未登录的词,设定其与其他词的相似度为0;并以sim3=[simH(ci,cj)]m×m表示由知网得到的概念与概念的相似度矩阵;
S223、利用多项式相加方式对四个相似度矩阵进行融合,最终的相似度矩阵以S=s(ci,cj)m×m表示,
S=K1×Sim1+K2×Sim2+K3×Sim3+K4×Sim4
其中,K1、K2、K3和K4为参数;
通过设定相似度阈值把相似度矩阵转换为概念的关系图模型,以二元组G=(C,E)表示概念图模型,C={ci|1≤i≤m}为概念集,E={(ci,cj)|s(ci,cj)≥α},α为阈值。
4.根据权利要求3所述的方法,其特征在于:步骤S23中,在对所述概念图进行剪枝操作后,包括:
针对步骤S22中构造的概念图模型G=(C,E),集合C={ci|1≤i≤m}表示图的概念节点集,E={(ci,cj)|s(ci,cj)≥α}表示图的边集;以degree(ci)表示概念图G中概念ci的度数,以rank(ci)表示概念ci所处的层次,H={(ci,rank(ci))|1≤i≤m}表示概念节点与其所处层次数的二元组集合,G1=(C1,E1)表示与G=(C,E)同类型的图;
所述对所述概念图进行剪枝操作,包括如下步骤:
输入:G=(C,E),其中C={ci|1≤i≤m},E={(ci,cj)|s(ci,cj)≥θ}
输出:H={(ci,rank(ci))|1≤i≤m};
S231、初始化,把G1赋值为G,也即C1赋值为C,E1赋值为E,赋变量t初值为1;
S232、判断C1是否为空,若是,则执行步骤S33;否则执行下述步骤:
计算图G1中各节点的度数,从中找出最小度数md;对于任意节点ci,如果degree(ci)等于md,则将rank(ci)赋值为t,把(ci,rank(ci))存入集合H,把节点ci从图G1的节点集C1中删除,把与ci相关的边从图G1的边集E1中删除,t=t+1;返回执行步骤S32;
S233、剪枝操作结束,输出H={(ci,rank(ci))|1≤i≤m}。
5.根据权利要求4所述的方法,其特征在于:步骤S23中,所述利用改进的层次树构造算法得到概念间明确的层次从属关系,包括如下步骤:
延用前述对变量的声明,以H={(ci,rank(ci))|1≤i≤m}表示由剪枝算法得到的初级概念层次结构,以S=s(ci,cj)m×m表示由步骤S2中的概念图建模方法得到的概念相似度矩阵,以Hy={(ci,cj)|1≤i,j≤m,j≠i}表示概念间明确的层次从属关系,即ci从属于cj;设ci∈C,cj∈C∪{Null},当cj取Null时,表明ci为根节点,设C1表示概念节点集;
输入:H={(ci,rank(ci))|1≤i≤m},S=s(ci,cj)m×m
输出:Hy={(ci,cj)|1≤i,j≤m,j≠i}
S234、初始化,把C1和Hy均赋为空;
S235.判断H是否为空,若否,则执行步骤S36;若是,则执行下述步骤:
从H中取出rank值最小的概念节点对于Cmin中的每个概念ck,从rank值大于rank(ck)的节点中选择与其相似度最大的cp节点,即将概念对(ck,cp)放入集合Hy,并把概念节点层次二元组(ck,rank(ck))从集合H中删除;返回执行步骤S35;
S236、输出Hy={(ci,cj)|1≤i,j≤m,j≠i},层次树构造算法结束。
6.用于实现权利要求1-5任一项所述方法的一种网站搜索用词汇数据库更新装置,其特征在于,所述装置包括构建模块、获取模块、更新模块:
所述构建模块,用于构建初始网站搜索用词汇数据库,其中包括若干初始概念及对应的层次从属关系;
所述获取模块,用于调用本体概念层次分析方法对Web数据进行分析,以获得若干新的概念及对应的层次从属关系;
所述更新模块,用于将获得的所述若干新的概念及对应的层次从属关系并入所述初始网站搜索用词汇数据库,其中,若所述初始网站搜索用词汇数据库中已经存在所述新的概念,则只将所述已经存在的概念的层次从属关系更新为所述新的概念的层次从属关系。
7.一种网站搜索用词汇数据库更新设备,其特征在于,所述设备包括:
存储有可执行程序代码的存储器;
与所述存储器耦合的处理器;
所述处理器调用所述存储器中存储的所述可执行程序代码,执行如权利要求1-5任一项所述的网站搜索用词汇数据库更新方法。
8.一种存储介质,其特征在于,所述存储介质存储有计算机指令,所述计算机指令被调用时,用于执行如权利要求1-5任一项所述的网站搜索用词汇数据库更新方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011138173.1A CN112307219B (zh) | 2020-10-22 | 2020-10-22 | 网站搜索用词汇数据库更新方法、系统及计算机存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011138173.1A CN112307219B (zh) | 2020-10-22 | 2020-10-22 | 网站搜索用词汇数据库更新方法、系统及计算机存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112307219A CN112307219A (zh) | 2021-02-02 |
CN112307219B true CN112307219B (zh) | 2022-11-04 |
Family
ID=74326760
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011138173.1A Active CN112307219B (zh) | 2020-10-22 | 2020-10-22 | 网站搜索用词汇数据库更新方法、系统及计算机存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112307219B (zh) |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101364239B (zh) * | 2008-10-13 | 2011-06-29 | 中国科学院计算技术研究所 | 一种分类目录自动构建方法及相关系统 |
US20140095427A1 (en) * | 2012-10-01 | 2014-04-03 | Rimm-Kaufman Group, LLC | Seo results analysis based on first order data |
CN106372087B (zh) * | 2015-07-23 | 2019-12-13 | 北京大学 | 一种面向信息检索的信息地图生成方法及其动态更新方法 |
CN106682129B (zh) * | 2016-12-14 | 2020-02-21 | 浙江工业大学 | 个人大数据管理中层次概念向量化增量处理方法 |
-
2020
- 2020-10-22 CN CN202011138173.1A patent/CN112307219B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN112307219A (zh) | 2021-02-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11520812B2 (en) | Method, apparatus, device and medium for determining text relevance | |
CN110704743B (zh) | 一种基于知识图谱的语义搜索方法及装置 | |
US10289717B2 (en) | Semantic search apparatus and method using mobile terminal | |
CN111680173A (zh) | 统一检索跨媒体信息的cmr模型 | |
CN108681557B (zh) | 基于自扩充表示和相似双向约束的短文本主题发现方法及系统 | |
CN112800170A (zh) | 问题的匹配方法及装置、问题的回复方法及装置 | |
CN112115232A (zh) | 一种数据纠错方法、装置及服务器 | |
CN114218400A (zh) | 基于语义的数据湖查询系统及方法 | |
CN115563313A (zh) | 基于知识图谱的文献书籍语义检索系统 | |
CN112036178A (zh) | 一种配网实体相关的语义搜索方法 | |
CN106570196B (zh) | 视频节目的搜索方法和装置 | |
CN112417170B (zh) | 面向不完备知识图谱的关系链接方法 | |
CN117076636A (zh) | 一种智能客服的信息查询方法、系统和设备 | |
CN109460467B (zh) | 一种网络信息分类体系构建方法 | |
CN117435685A (zh) | 文档检索方法、装置、计算机设备、存储介质和产品 | |
CN112307219B (zh) | 网站搜索用词汇数据库更新方法、系统及计算机存储介质 | |
CN115982322A (zh) | 一种水利行业设计领域知识图谱的检索方法及检索系统 | |
KR102454261B1 (ko) | 사용자 정보 기반 협업 파트너 추천 시스템 및 그 방법 | |
CN115033706A (zh) | 一种知识图谱自动补全和更新的方法 | |
KR102198780B1 (ko) | 상호연관성 기반 전문분야에 특화된 인터넷 검색 서비스 제공 방법 | |
CN112364175B (zh) | 基于web资源的本体概念层次获取方法、系统及存储介质 | |
CN117851615B (zh) | 一种基于Transformer的关系模式自适应对比学习知识图谱嵌入方法 | |
WO2023225919A1 (zh) | 一种视觉搜索方法及装置 | |
Chen et al. | Product-design knowledge retrieval based on ontology | |
CN114398349A (zh) | 一种利用路径排序快速进行知识图谱补全的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |