WO2022083011A1

WO2022083011A1 - 基于聚类等级关系自动识别方法、系统、设备及存储介质

Info

Publication number: WO2022083011A1
Application number: PCT/CN2021/071206
Authority: WO
Inventors: 张凯; 刘杰; 周建设; 赵晴
Original assignee: 首都师范大学
Priority date: 2020-10-22
Filing date: 2021-01-12
Publication date: 2022-04-28
Also published as: CN112307204A

Abstract

本申请的提出了一种基于聚类的词间等级关系自动识别方法，通过结合同现统计和分布相似度计算，然后对词间的等级关系进行识别。其中，通过调整因子对DICE测度的计算方式进行改进；再者，在相似度计算上增加了一个调整系数；然后，将各个词进行聚类，形成簇；根据等级系数将簇内的词化到各等级中，并对其识别上下位关系。

Description

基于聚类等级关系自动识别方法、系统、设备及存储介质

技术领域

本申请涉及人工智能领域，具体而言，涉及一种基于聚类的词间等级关系自动识别方法、系统、设备以及计算机存储介质。

背景技术

网络的飞速发展，带来了信息资源的爆炸性增长，为人们提供方便的同时也使人们逐渐意识到被“淹没”在信息的海洋中，如何准确、高效的从海量信息中获取所需的信息成为亟待解决的问题。目前的网络信息检索工具(如搜索引擎等)大多采用基于关键词字面匹配的全文检索方式，这种方法简单可行，查找方便，具有较高的检全率，但检索返回的信息过多，其中只有很少一部分符合检索者的要求，检准率低，同时，也存在漏检和误检现象。利用规范化控制的叙词表，将其应用到标引和检索过程中能有效提高检准率。然而传统叙词表在词表编制和维护，以及在网络信息检索环境中的应用都面临着一定的困难，因而研究如何自动构造自然语言叙词表具有十分重要的意义。

因此，如何准确自动识别词间关系，是目前急需解决的技术问题。

发明内容

为了解决上述如何自动识别词间关系的技术问题，本申请提供了一种基于聚类的词间等级关系自动识别方法、系统、设备以及计算机存储介质。

本申请的第一方面提供了一种基于聚类的词间等级关系自动识别方法，所述方法包括：

S1、选定文档作为同现窗口，获取文档中的每个词，采用DICE测度对每个词进行关联度计算，并根据同现窗口的大小调整DICE测度的计算结果；

S2、根据各词自身在文档中的频率、各词之间的同现频率以及调整因子来计算各词之间的同现权重，从而得到各个词间的关联度；

S3、从中选取一个词T，根据词T与其他词的同现权重，抽取与词T最相关的K个词，并构造特征向量；

S4、对各词通过层次聚类算法进行聚类，将各词单独划分为一簇，计算各个簇之间的语义相似度；设定阈值，将语义相似度小于阈值的簇进行合并，直至所有的词合并为一个大簇；

S5、将大簇内的词根据等级系数识别其上下位关系。

优选地，所述的各词之间的同现权重，其计算公式为：

其中，W(T _i,T _j)表示词T _i和T _j的同现权重，tf(T _iT _j)表示词T _i和T _j在文档中的同现频率，tf(T _i)表示词T _i在文档中的频率，WeightingFactor(T _i,T _j)为调整因子；

优选地，所述的调整因子，其计算公式为：

min(length(d _i))表示词T _i和T _j同现文档中的最小长度，

表示同现文档的平均长度，k为同现文档篇数。

优选地，所述的特征向量，其计算公式为：

V(T)＝(<T ₁,W ₁>,<T ₂,W ₂>,…,<T _k,W _k>)

其中，T ₁，T ₂，…,T _k表示与词T相关的词,W ₁，W ₂,…,W _k分别为词T与T ₁，T ₂，…,T _k的同现权重。

优选地，所述的语义相似度，其计算公式为：

其中，Sim(T ₁,T ₂)表示词T ₁和T ₂的语义相似度，W _1i表示词T ₁的特征向量第i维的值，W _2i表示词T ₂的特征向量第i维的值，k表示特征向量的维数，n表示特征向量中相同词的个数。

优选地，所述的等级系数，其计算公式为：

H(T _i)是词T _i的等级系数，tf(T _i)表示词T _i的词频，len(T _i)表示词长。

优选地，所述的层次聚类算法，包括：单连通、全连通以及平均连通。

优选地，所述的层次聚类算法优选为平均连通。

优选地，所述的阈值为0.1。

优选地，所述的识别簇内的词上下位关系，其算法流程为：

S501、确定等级数，将簇内的词按等级系数归入到各词级中；等级系数高的词位于高词级中，最高词级为L ₀，其余依次为L ₁，L ₂,…,L _i；

S502、在相邻词级间产生上下位关系。取词级L _i中的一个词T，计算词T与词级L _i-1中的每个词的相似度，取相似度最大的词作为词T的上位词；继续从词级L _i中取词，直至为L _i中所有的词建立上下位关系；检查词级L _i-1中的词，将没有下位词的词移至词级L _i；

S503、判断是否到达底层，是则结束，否则继续执行S502的操作。

本申请第二方面提供一种基于聚类的词间等级关系自动识别的系统，其特征在于，所述系统，包括：文档获取模块，划分词语模块，计算模块，结果显示模块，其中：

文档获取模块，用于获取文档，从而进行词间等级关系识别；

划分词语模块，用于获取文档内的各个词；

计算模块，实现如前所述的确定各词间关系的计算方式，从而确定各个词的词间等级关系；

结果显示模块，用于显示各个词的词间等级关系。

本申请第三方面提供一种基于聚类的词间等级关系自动识别的设备，其特征在于，所述设备包括：

存储有可执行程序代码的存储器；

与所述存储器耦合的处理器；

所述处理器调用所述存储器中存储的所述可执行程序代码，执行如前所述的方法。

本申请的第四方面提供了一种计算机存储介质，其特征在于，所述存储介质存储有计算机指令，所述计算机指令被调用时，用于执行如前所述的方法。

本发明的有益效果在于：

通过同现分析计算词间的相关度，可以识别出无字面相似特征的词间的相似性；在此基础上，运用等级识别方法，基本上可以将表达不同主题范畴的词区分开来，生成的词簇分布较均匀，簇内词间相似度较高；采用的等级识别算法，基本上可以将簇内的词归入到不同的等级中，再经过人工判定和调整即可确定词间的等级关系。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1是本申请实施例公开的一种基于聚类的词间等级关系自动识别方法的流程示意图。

图2是本申请实施例公开的一种基于聚类的词间等级关系自动识别方法的识别簇内的词上下位关系的算法流程示意图。

图3是本申请实施例公开的一种基于聚类的词间等级关系自动识别的系统的结构示意图。

图4是本申请实施例公开的一种基于聚类的词间等级关系自动识别的设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

在本申请的描述中，需要说明的是，若出现术语“上”、“下”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，或者是该发明产品使用时惯常摆放的方位或位置关系，仅是为了便于描述本申请和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本申请的限制。

此外，若出现术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

需要说明的是，在不冲突的情况下，本申请的实施例中的特征可以相互结合。

实施例1

请参阅图1，图1是本申请实施例公开的一种基于聚类的词间等级关系自动识别方法的流程示意图。如图1所示，本申请的第一方面提供了一种基于聚类的词间等级关系自动识别方法，所述方法包括：

S5、将大簇内的词根据等级系数识别其上下位关系。

在本实施例中，获取各词之间的同现权重的计算公式为：

在本实施例中，调整因子的计算公式为：

min(length(d _i))表示词T _i和T _j同现文档中的最小长度，

表示同现文档的平均长度，k为同现文档篇数，通过计算词间的同现关联度，可以构造出“关联概念空间”：以词为点，以同现权重为边上权值的无向图。

在本实施例中，构造特征向量的计算公式为：

V(T)＝(<T ₁,W ₁>,<T ₂,W ₂>,…,<T _k,W _k>)

在本实施例中，获取词间的语义相似度的计算公式为：

在本实施例中，获取词间的等级系数的计算公式为：

在本实施例中，层次聚类算法，包括：单连通、全连通以及平均连通。

其中，采用平均连通算法的层次聚类，在阈值为0.1时效果较好。

在本实施例中，识别簇内的词上下位关系，其算法流程为：

实施例2

请参阅图3，图3是本申请实施例公开的一种基于聚类的词间等级关系自动识别的系统的结构示意图。如图3所示，本申请第二方面提供一种基于聚类的词间等级关系自动识别的系统，其特征在于，所述系统，包括：文档获取模块，划分词语模块，计算模块，结果显示模块，其中：

划分词语模块，用于获取文档内的各个词；

计算模块，实现如实施例1中确定各词间关系的计算方式，从而确定各个词的词间等级关系；

结果显示模块，用于显示各个词的词间等级关系。

实施例3

请参阅图4，图4是本申请实施例公开的一种基于聚类的词间等级关系自动识别的设备的结构示意图。如图4所示，本申请第三方面提供一种基于聚类的词间等级关系自动识别的设备，其特征在于，所述设备包括：

存储有可执行程序代码的存储器；

与所述存储器耦合的处理器；

所述处理器调用所述存储器中存储的所述可执行程序代码，执行实施例1中的基于聚类的词间等级关系自动识别的方法。

实施例4

本实施例提供了一种计算机存储介质，其特征在于，所述存储介质存储有计算机指令，所述计算机指令被调用时，用于执行实施例1中的基于聚类的词间等级关系自动识别的方法。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

一种基于聚类的词间等级关系自动识别方法，应用于电子设备，其特征在于，所述自动识别方法，包括：

S1、选定文档作为同现窗口，获取文档中的每个词，采用DICE测度对每个词进行关联度计算，并根据同现窗口的大小调整DICE测度的计算结果；

S2、根据各词自身在文档中的频率、各词之间的同现频率以及调整因子来计算各词之间的同现权重，从而得到各个词间的关联度；

S3、从中选取一个词T，根据词T与其他词的同现权重，抽取与词T最相关的K个词，并构造特征向量；

S4、对各词通过层次聚类算法进行聚类，将各词单独划分为一簇，计算各个簇之间的语义相似度；设定阈值，将语义相似度小于阈值的簇进行合并，直至所有的词合并为一个大簇；

S5、将簇内的词根据等级系数划到各等级中，并识别其上下位关系。
如权利要求1所述的方法，其特征在于，所述的各词之间的同现权重，其计算公式为：

其中，W(T _i,T _j)表示词T _i和T _j的同现权重，tf(T _iT _j)表示词T _i和T _j在文档中的同现频率，tf(T _i)表示词T _i在文档中的频率，WeightingFactor(T _i,T _j)为调整因子；
如权利要求2所述的方法，其特征在于，所述的调整因子，其计算公式为：

min(length(d _i))表示词T _i和T _j同现文档中的最小长度，
表示同现文档的平均长度，k为同现文档篇数。
如权利要求1所述的方法，其特征在于，所述的特征向量，其计算公式为：

V(T)＝(<T ₁,W ₁>,<T ₂,W ₂>,…,<T _k,W _k>)

其中，T ₁，T ₂，…,T _k表示与词T相关的词,W ₁，W ₂,…,W _k分别为词T与T ₁，T ₂，…,T _k的同现权重。
如权利要求4所述的方法，其特征在于，所述的语义相似度，其计算公式为：

其中，Sim(T ₁,T ₂)表示词T ₁和T ₂的语义相似度，W _1i表示词T ₁的特征向量第i维的值，W _2i表示词T ₂的特征向量第i维的值，k表示特征向量的维数，n表示特征向量中相同词的个数。
如权利要求1所述的方法，其特征在于，所述的等级系数，其计算公式为：

H(T _i)是词T _i的等级系数，tf(T _i)表示词T _i的词频，len(T _i)表示词长。
如权利要求1所述的方法，其特征在于，所述的层次聚类算法，包括：单连通、全连通以及平均连通。
如权利要求7所述的方法，其特征在于，所述的层次聚类算法优选为平均连通。
如权利要求8所述的方法，其特征在于，所述的阈值优选为0.1。
如权利要求1所述的方法，其特征在于，所述的识别簇内的词上下位关系，其算法流程为：

步骤1：确定等级数，将簇内的词按等级系数归入到各词级中；等级系数高的词位于高词级中，最高词级为L ₀，其余依次为L ₁，L ₂,…,L _i；

步骤2：在相邻词级间产生上下位关系；取词级L _i中的一个词T，计算词T与词级L _i-1中的每个词的相似度，取相似度最大的词作为词T的上位词；继续从词级L _i中取词，直至为L _i中所有的词建立上下位关系；检查词级L _i-1中的词，将没有下位词的词移至词级L _i；

步骤3：判断是否到达底层，是则结束，否则继续执行步骤2的操作。