CN112307219B

CN112307219B - 网站搜索用词汇数据库更新方法、系统及计算机存储介质

Info

Publication number: CN112307219B
Application number: CN202011138173.1A
Authority: CN
Inventors: 张凯; 刘杰; 周建设; 史金生; 王伟丽
Original assignee: Capital Normal University
Current assignee: Capital Normal University
Priority date: 2020-10-22
Filing date: 2020-10-22
Publication date: 2022-11-04
Anticipated expiration: 2040-10-22
Also published as: CN112307219A

Abstract

本申请的技术方案将Web数据作为概念分析数据源，并利用本体概念层次分析方法对Web数据进行分析，最终获得新的概念及对应的层次从属关系，从而实现了网站搜索用词汇数据库的自动化更新操作，确保了更新操作的准确及时。

Description

网站搜索用词汇数据库更新方法、系统及计算机存储介质

技术领域

本申请涉及语义分析技术领域，具体而言，涉及一种网站搜索用词汇数据库更新方法、系统及计算机存储介质。

背景技术

搜索系统是各种文献检索类专业数据检索网站的主要功能模块,在用户通过搜索信息,快速准确地获得符合用户需求的检索信息结果。在搜索系统中,搜索用词汇数据库更新技术是基础，数据库中一般包括概念及其对应的层次从属关系。传统的搜索用词汇数据库更新方式是由人力手动更新，然而，在网络信息时代，信息更新是十分迅速的，且几乎无法通过人力实现搜索词汇的及时且全面的更新。于是，如何对网络信息进行分析获得词汇的知识系统以用于网站搜索，这是目前亟需解决的技术问题。

发明内容

为了解决上述检索领域现有技术中存在的技术问题，本申请提供了一种网站搜索用词汇数据库更新方法、系统及计算机存储介质。

本申请的第一方面提供了一种网站搜索用词汇数据库更新方法，其特征在于，所述方法包括：

S1，构建初始网站搜索用词汇数据库，其中包括若干初始概念及对应的层次从属关系；

S2，调用本体概念层次分析方法对Web数据进行分析，以获得若干新的概念及对应的层次从属关系；

S3，将获得的所述若干新的概念及对应的层次从属关系并入所述初始网站搜索用词汇数据库，其中，若所述初始网站搜索用词汇数据库中已经存在所述新的概念，则只将所述已经存在的概念的层次从属关系更新为所述新的概念的层次从属关系。

优选地，在步骤S2中调用本体概念层次分析方法对Web数据进行分析，以获得若干新的概念及对应的层次从属关系，包括如下步骤：

S21、利用线索词构造蕴含层次关系的查询串，借助搜索引擎从Web中获取富含层次关系的语料；

S22、综合利用从Web获取的关系富集语料、百科知识解释条目及新闻文档构造概念向量空间模型，融合基于《知网》的概念语义相似度建立概念图；

S23、在对所述概念图进行剪枝操作后，利用改进的层次树构造算法得到概念间明确的层次从属关系。

优选地，所述S21中，利用线索词构造蕴含层次关系的查询串，借助搜索引擎从Web中获取富含层次关系的语料，包括：

将集合中的概念对(c_i，c_j)提交给搜索引擎，得到前k条返回结果的摘要文本集T₁以及搜索引擎针对该概念对提供的查询推荐条目T₂；

针对由概念对(c_i，c_j)得到的文本集T₁和T₂，分别从中查找同时包含概念c_i和c_j的句子，存入关系语境集context₁和context₂中；

分别对关系语境集context₁和context₂中的关系语境进行分词和词性标注，将两者中出现的名词、动词、副词和连词存入W₁和W₂，W＝W₁∪W₂，统计W中每个词语在对应的关系语境集中出现的频次；

计算W中候选线索词w_i与其表示的层次关系r_i的相关度

其中，f₁(w_i)和f₂(w_i)分别为w_i在context₁和context₂中出现的频次，f_q(w_i)表示包含与层次关系r_i对应的查询串中包含w_i的条数，Max为取最大值的函数；

针对层次关系r_i对应的候选线索词集，选取相关度relevance(w_i，r_i)最大的前10个为线索词；

得到线索词之后，在对应的关系语境集中查找包含线索词的语境片段，假设目标语境中包含的两个概念分别为c_i和c_j，则分别把c_i和c_j替换为正则表达式中表示任意连续文字的“.*”，得到层次关系查询串q₁(c_i，c_j)和q₂(c_i，c_j)，至此，即成功构造了基于线索次的层次关系查询串。

以及，所述步骤S21中，借助搜索引擎从Web中获取富含层次关系的语料，包括：

对于包含概念c_i的查询串，将其对应的搜索引擎返回的摘要文本存入文档d_i中，类似地，对概念集C中的每个概念均可得到一个文档，这些文档即构成了概念集C对应的层次关系语料库D₁＝{d_i|1≤i≤m}。

优选地，步骤S22中，所述概念向量空间模型的构造方法为：

A＝[a_i×k]_m×p

a_i×k＝f_k(c_i)

其中，A表示概念向量空间模型；针对概念集C＝{c_i|1≤i≤m}，其对应的百科语料表示为D₂＝{d_i|1≤i≤m}；还采用了包含目标概念的搜狐新闻语料，表示为D₃＝{d_i|1≤i≤q}；f_k(c_i)表示概念c_i在文档d_k中出现的频次，m表示概念个数，p为文档集的文档个数；

针对三个不同的文档语料集D₁、D₂和D₃，分别建立其对应的概念向量空间模型A₁＝[a_i×k]_m×m、A₂＝[a_i×k]_m×m和A₃＝[a_i×k]_m×q；

优选地，步骤S22中，所述融合基于《知网》的概念语义相似度建立概念图，包括：

S221、概念c_i和c_j的文档特征向量可分别表示为vec(c_i)＝(f₁(c_i)，f₂(c_i)，...，f_p(c_i))和vec(c_j)＝(f₁(c_j)，f₂(c_j)，...，f_p(c_j))，其相似度sim(c_i，c_j)的计算公式如下：

针对三个不同的文档集D₁、D₂和D₃对应的概念向量空间模型A₁＝[a_i×k]_m×m、A₂＝[a_i×k]_m×m和A₃＝[a_i×k]_m×q，利用余弦距离分别计算其概念相似度矩阵：

sim₁＝[sim(c_i，c_j)]_m×m、sim₂＝[sim(c_i，c_j)]_m×m和sim₃＝[sim(c_i，c_j)]_m×m；

S222、对于知网未登录的词，设定其与其他词的相似度为0；并以sim₃＝[simH(c_i，c_j)]_m×m表示由知网得到的概念与概念的相似度矩阵；

S223、利用多项式相加方式对四个相似度矩阵进行融合，最终的相似度矩阵以S＝s(c_i，c_j)_m×m表示，

S＝K₁×Sim₁+K₂×Sim₂+K₃×Sim₃+K₄×Sim₄

其中，K₁、K₂、K₃和K₄为参数。

通过设定相似度阈值把相似度矩阵转换为概念的关系图模型，以二元组G＝(C，E)表示概念图模型，C＝{c_i|1≤i≤m}为概念集，E＝{(c_i，c_j)|s(c_i，c_j)≥α}，α为阈值。

优选地，步骤S23中，在对所述概念图进行剪枝操作后，包括：

针对步骤S22中构造的概念图模型G＝(C，E)，集合C＝{c_i|1≤i≤m}表示图的概念节点集，E＝{(c_i，c_j)|s(c_i，c_j)≥α}表示图的边集；以degree(c_i)表示概念图G中概念c_i的度数，以rank(c_i)表示概念c_i所处的层次，H＝{(c_i，rank(c_i))|1≤i≤m}表示概念节点与其所处层次数的二元组集合，G₁＝(C₁，E₁)表示与G＝(C，E)同类型的图；

所述对所述概念图进行剪枝操作，包括如下步骤：

输入：G＝(C，E)，其中C＝{c_i|1≤i≤m}，E＝{(c_i，c_j)|s(c_i，c_j)≥α}

输出：H＝{(c_i，rank(c_i))|1≤i≤m}；

S231、初始化，把G₁赋值为G，也即C₁赋值为C，E₁赋值为E，赋变量t初值为1；

S232、判断C₁是否为空，若是，则执行步骤S33；否则执行下述步骤：

计算图G₁中各节点的度数，从中找出最小度数md；对于任意节点c_i，如果degree(c_i)等于md，则将rank(c_i)赋值为t，把(c_i，rank(c_i))存入集合H，把节点c_i从图G₁的节点集C₁中删除，把与c_i相关的边从图G₁的边集E₁中删除，t＝t+1；返回执行步骤S32；

S233、剪枝操作结束，输出H＝{(c_i，rank(c_i))|1≤i≤m}。

优选地，步骤S23中，所述利用改进的层次树构造算法得到概念间明确的层次从属关系，包括如下步骤：

延用前述对变量的声明，以H＝{(c_i，rank(c_i))|1≤i≤m}表示由剪枝算法得到的初级概念层次结构，以S＝s(c_i，c_j)_m×m表示由步骤S2中的概念图建模方法得到的概念相似度矩阵，以Hy＝{(c_i，c_j)|1≤i，j≤m，j≠i}表示概念间明确的层次从属关系，即c_i从属于c_j；设c_i∈C，c_j∈C∪{Null}，当c_j取Null时，表明c_i为根节点，设C₁表示概念节点集；

输入：H＝{(c_i，rank(c_i))|1≤i≤m}，S＝s(c_i，c_j)_m×m

输出：Hy＝{(c_i，c_j)|1≤i，j≤m，j≠i}

S234、初始化，把C₁和Hy均赋为空；

S235.判断H是否为空，若否，则执行步骤S36；若是，则执行下述步骤：

从H中取出rank值最小的概念节点

对于C_min中的每个概念c_k，从rank值大于rank(c_k)的节点中选择与其相似度最大的c_p节点，即

将概念对(c_k，c_p)放入集合Hy，并把概念节点层次二元组(c_k，rank(c_k))从集合H中删除；返回执行步骤S35；

S236、输出Hy＝{(c_i，c_j)|1≤i，j≤m，j≠i}，层次树构造算法结束。

本申请的第二方面提供了一种网站搜索用词汇数据库更新装置，其特征在于，所述装置包括构建模块、获取模块、更新模块：

所述构建模块，用于构建初始网站搜索用词汇数据库，其中包括若干初始概念及对应的层次从属关系；

所述获取模块，用于调用本体概念层次分析方法对Web数据进行分析，以获得若干新的概念及对应的层次从属关系；

所述更新模块，用于将获得的所述若干新的概念及对应的层次从属关系并入所述初始网站搜索用词汇数据库，其中，若所述初始网站搜索用词汇数据库中已经存在所述新的概念，则只将所述已经存在的概念的层次从属关系更新为所述新的概念的层次从属关系。

本申请的第三方面提供了一种网站搜索用词汇数据库更新设备，其特征在于，所述设备包括：

存储有可执行程序代码的存储器；

与所述存储器耦合的处理器；

所述处理器调用所述存储器中存储的所述可执行程序代码，执行如前述所述的网站搜索用词汇数据库更新方法。

本申请的第四方面提供了一种存储介质，其特征在于，所述存储介质存储有计算机指令，所述计算机指令被调用时，用于执行如前述所述的网站搜索用词汇数据库更新方法。

本发明的有益效果在于：

同时，本申请还构建了本体概念层次获取方法，利用线索词构造蕴含层次关系的查询串，借助搜索引擎从Web中获取富含层次关系的语料；综合利用从Web获取的关系富集语料、百科知识解释条目及新闻文档构造概念向量空间模型，融合基于《知网》的概念语义相似度建立概念图；在对所述概念图进行剪枝操作后，利用改进的层次树构造算法得到概念间明确的层次从属关系。本申请的方案获取的层次从属关系的准确率明显优于现有技术，为实现人机之间及机器之间的语义信息交互打下了坚实的基础。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1是本申请实施例公开的一种网站搜索用词汇数据库更新方法的流程示意图；

图2是本申请实施例公开的一种网站搜索用词汇数据库更新系统的结构示意图；

图3是本申请实施例公开的一种网站搜索用词汇数据库更新设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

在本申请的描述中，需要说明的是，若出现术语“上”、“下”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，或者是该发明产品使用时惯常摆放的方位或位置关系，仅是为了便于描述本申请和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本申请的限制。

此外，若出现术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

需要说明的是，在不冲突的情况下，本申请的实施例中的特征可以相互结合。

实施例一

请参阅图1，图1是本申请实施例公开的一种网站搜索用词汇数据库更新方法的流程示意图。如图1所示，本申请实施例的一种网站搜索用词汇数据库更新方法，其特征在于，所述方法包括：

在本实施例中，本申请的技术方案将Web数据作为概念分析数据源，并利用本体概念层次分析方法对Web数据进行分析，最终获得新的概念及对应的层次从属关系，从而实现了网站搜索用词汇数据库的自动化更新操作，确保了更新操作的准确及时。

可选地，在步骤S2中调用本体概念层次分析方法对Web数据进行分析，以获得若干新的概念及对应的层次从属关系，包括如下步骤：

可选地，所述S21中，利用线索词构造蕴含层次关系的查询串，借助搜索引擎从Web中获取富含层次关系的语料，包括：

计算W中候选线索词w_i与其表示的层次关系r_i的相关度

可选地，步骤S22中，所述概念向量空间模型的构造方法为：

A＝[a_i×k]_m×p

a_i×k＝f_k(c_i)

可选地，步骤S22中，所述融合基于《知网》的概念语义相似度建立概念图，包括：

S＝K₁×Sim₁+K₂×Sim₂+K₃×Sim₃+K₄×Sim₄

其中，K₁、K₂、K₃和K₄为参数。

可选地，步骤S23中，在对所述概念图进行剪枝操作后，包括：

所述对所述概念图进行剪枝操作，包括如下步骤：

输出：H＝{(c_i，rank(c_i))|1≤i≤m}；

S233、剪枝操作结束，输出H＝{(c_i，rank(c_i))|1≤i≤m}。

可选地，步骤S23中，所述利用改进的层次树构造算法得到概念间明确的层次从属关系，包括如下步骤：

输入：H＝{(c_i，rank(c_i))|1≤i≤m}，S＝s(c_i，c_j)_m×m

输出：Hy＝{(c_i，c_j)|1≤i，j≤m，j≠i}

S234、初始化，把C₁和Hy均赋为空；

从H中取出rank值最小的概念节点

实施例二

请参阅图2，图2是本申请实施例公开的一种网站搜索用词汇数据库更新系统的结构示意图。如图2所示，本申请实施例的一种网站搜索用词汇数据库更新装置，其特征在于，所述装置包括构建模块、获取模块、更新模块：

实施例三

请参阅图3，图3是本申请实施例公开的一种网站搜索用词汇数据库更新设备的结构示意图。如图3所示，本申请实施例的一种网站搜索用词汇数据库更新设备，其特征在于，所述设备包括：

存储有可执行程序代码的存储器；

与所述存储器耦合的处理器；

实施例四

本申请实施例提供一种存储介质，其特征在于，所述存储介质存储有计算机指令，所述计算机指令被调用时，用于执行如前述所述的网站搜索用词汇数据库更新方法。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种网站搜索用词汇数据库更新方法，其特征在于，所述方法包括：

S3，将获得的所述若干新的概念及对应的层次从属关系并入所述初始网站搜索用词汇数据库，其中，若所述初始网站搜索用词汇数据库中已经存在所述新的概念，则只将所述已经存在的概念的层次从属关系更新为所述新的概念的层次从属关系；

在步骤S2中调用本体概念层次分析方法对Web数据进行分析，以获得若干新的概念及对应的层次从属关系，包括如下步骤：

S23、在对所述概念图进行剪枝操作后，利用改进的层次树构造算法得到概念间明确的层次从属关系；

所述S21中，利用线索词构造蕴含层次关系的查询串，借助搜索引擎从Web中获取富含层次关系的语料，包括：

将集合中的概念对(c_i,c_j)提交给搜索引擎，得到前k条返回结果的摘要文本集T₁以及搜索引擎针对该概念对提供的查询推荐条目T₂；

针对由概念对(c_i,c_j)得到的文本集T₁和T₂，分别从中查找同时包含概念c_i和c_j的句子，存入关系语境集context₁和context₂中；

计算W中候选线索词w_i与其表示的层次关系r_i的相关度

得到线索词之后，在对应的关系语境集中查找包含线索词的语境片段，假设目标语境中包含的两个概念分别为c_i和c_j，则分别把c_i和c_j替换为正则表达式中表示任意连续文字的“.*”，得到层次关系查询串q₁(c_i，c_j)和q₂(c_i，c_j)，至此，即成功构造了基于线索次的层次关系查询串；

2.根据权利要求1所述的方法，其特征在于：步骤S22中，所述概念向量空间模型的构造方法为：

A＝[a_i×k]_m×p

a_i×k＝f_k(c_i)

针对三个不同的文档语料集D₁、D₂和D₃，分别建立其对应的概念向量空间模型A₁＝[a_i×k]_m×m、A₂＝[a_i×k]_m×m和A₃＝[a_i×k]_m×q。

3.根据权利要求2所述的方法，其特征在于：步骤S22中，所述融合基于《知网》的概念语义相似度建立概念图，包括：

S＝K₁×Sim₁+K₂×Sim₂+K₃×Sim₃+K₄×Sim₄

其中，K₁、K₂、K₃和K₄为参数；

4.根据权利要求3所述的方法，其特征在于：步骤S23中，在对所述概念图进行剪枝操作后，包括：

所述对所述概念图进行剪枝操作，包括如下步骤：

输入：G＝(C，E)，其中C＝{c_i|1≤i≤m}，E＝{(c_i，c_j)|s(c_i，c_j)≥θ}

输出：H＝{(c_i，rank(c_i))|1≤i≤m}；

S233、剪枝操作结束，输出H＝{(c_i，rank(c_i))|1≤i≤m}。

5.根据权利要求4所述的方法，其特征在于：步骤S23中，所述利用改进的层次树构造算法得到概念间明确的层次从属关系，包括如下步骤：

输入：H＝{(c_i，rank(c_i))|1≤i≤m}，S＝s(c_i，c_j)_m×m

输出：Hy＝{(c_i，c_j)|1≤i，j≤m，j≠i}

S234、初始化，把C₁和Hy均赋为空；

从H中取出rank值最小的概念节点

6.用于实现权利要求1-5任一项所述方法的一种网站搜索用词汇数据库更新装置，其特征在于，所述装置包括构建模块、获取模块、更新模块：

7.一种网站搜索用词汇数据库更新设备，其特征在于，所述设备包括：

存储有可执行程序代码的存储器；

与所述存储器耦合的处理器；

所述处理器调用所述存储器中存储的所述可执行程序代码，执行如权利要求1-5任一项所述的网站搜索用词汇数据库更新方法。

8.一种存储介质，其特征在于，所述存储介质存储有计算机指令，所述计算机指令被调用时，用于执行如权利要求1-5任一项所述的网站搜索用词汇数据库更新方法。