CN112328736A

CN112328736A - 一种主题词表构建方法、系统及计算机存储介质

Info

Publication number: CN112328736A
Application number: CN202011271598.XA
Authority: CN
Inventors: 张凯; 周建设; 史金生; 齐军华; 马芙盟
Original assignee: Capital Normal University
Current assignee: Capital Normal University
Priority date: 2020-11-13
Filing date: 2020-11-13
Publication date: 2021-02-05

Abstract

本申请公开了一种主题词表构建方法、系统及计算机存储介质，其将在计算机相关技术基础之上应用统计学的相关知识和本申请提出的等同关系特征加权、相关关系特征加权和等级系数计算自动识别汽车专利领域内词与词之间的等同、相关和等级关系，根据这三种词间关系自动构建一部汽车专利相关领域主题词表。相比于现有技术，无需手工构建主题语表，构建及更新速度更快，避免了不同工作人员的经历、知识不统一引起构建的标准不一的问题。

Description

一种主题词表构建方法、系统及计算机存储介质

技术领域

本申请涉及语义检索技术领域，具体而言，涉及一种主题词表构建方法、系统及计算机存储介质。

背景技术

汽车专利主题词表是汽车专利知识的一个集合，它是汽车专利数据库建设和检索的重要工具，能够有效的识别专利是否属于汽车相关领域，提高用户对汽车专利检索的效率(扩检或缩检)，能够快速有效识别汽车专利可能使用的技术。

然而，目前主要采用手工构建主题语表，不仅构建速度慢，并且不同工作人员的经历、知识不统一引起构建的标准不一，最重要的是更新主题词表的速度慢，不利于应用。因此，研究自动构建汽车专利领域主题词表有重大的实践意义。

发明内容

为了解决上述手工构建主题语表速度慢、标准不一、更新慢的技术问题，本申请提供了一种主题词表构建方法、系统及计算机存储介质。

本申请的第一方面提供了一种主题词表构建方法，所述方法包括：

步骤1，对汽车领域专利文本进行预处理：首先提取各专利文本中的子句；其次，对每个子句，结合属性词本体词库，进行分词，从而构建初步主题词集；

步骤2，对所述初步主题词集进行等同关系识别、相关关系识别、等级关系识别；

步骤3，基于所述识别得出的等同关系、相关关系、等级关系，构建主题词表。

优选地，所述等同关系识别，包括：根据共现分析和字面相似度计算加权的方法来识别词间的等同关系，计算方法如下：

Sim(T_i，T_j)＝α·W(T_i，T_j)+β·S(T_i，T_j)

其中，T_i、T_j为两个不相同的词，Sim(T_i，T_j)为两词间的相似度；W(T_i，T_j)为两词间的共现权重；S(T_i，T_j)为两词间的字面相似度；α、β为权重因子且α+β＝1。

优选地，所述共现权重的计算方法为：

其中，W(T₁，T₂)为词T₁和T₂的距离，表征两词间的共现权重；T₁、T₂为两个不相同的词，K表示特征向量的维数；W_1i表示词T₁的特征向量第i维的值；W_2i表示词T₂的特征向量第i维的值。

优选地，所述字面相似度计算方法下：

其中，T_i、T_j为两个不相同的词，S(T_i，T_j)是词间的字面相似度；L_ij为词T_i和T_j中相同字的个数；L_i、L_j分别为词T_i和T_j的长度。

优选地，所述相关关系识别，包括：采用如下公式来识别术语之间的关联度：

Rel(T_i，T_j)＝γ·W(T_i，T_j)+δ·Dice(T_i，T_j)

其中，T_i、T_j为两个不相同的词，Rel(T_i，T_j)为两词间的相关度；W(T_i，T_j)为两词间的共现权重；Dice(T_i，T_j)为两词间的Dice测试权重；γ、δ为权重因子且γ+δ＝1。

优选地，所述两词间的Dice测试权重的计算方式如下：

Dice(T_i，T_j)＝2F(T_i，T_j)/(F(T_i)+F(T_j))

其中，T_i、T_j为两个不相同的词，Dice(T_i，T_j)表示词T_i与词T_j的Dice测度值；F(T_i，T_j)表示词T_i与词T_j共同出现的文章总数；F(T_i)表示出现词T_i的文章总数；F(T_j)表示出现词T_j的文章总数。

优选地，所述等级关系识别，采用如下公式：

idf(Ti)＝log(N/n_i)

其中，H(Ti)为词汇的等级系数；Freq(T_i)为词汇T_i的总词频，len(Ti)表示词汇T_i的长度；idf(Ti)为词汇的逆文档频率；N表示文档总数；n_i指出现词汇Ti的文档数。

本申请的第二方面提供了一种主题词表构建系统，所述系统包括：

预处理模块，用于对汽车领域专利文本进行预处理：首先提取各专利文本中的子句；其次，对每个子句，结合属性词本体词库，进行分词，从而构建初步主题词集；

词间关系识别模块，用于对所述初步主题词集进行等同关系识别、相关关系识别、等级关系识别；

主题词表构建模块，基于所述识别得出的等同关系、相关关系、等级关系，构建主题词表。

本申请的第三方面提供了一种主题词表构建设备，其特征在于，所述设备包括：

存储有可执行程序代码的存储器；

与所述存储器耦合的处理器；

所述处理器调用所述存储器中存储的所述可执行程序代码，执行如前述所述的主题词表构建方法。

本申请的第四方面提供了一种存储介质，其特征在于，所述存储介质存储有计算机指令，所述计算机指令被调用时，用于执行如前述所述的主题词表构建方法。

本发明的有益效果在于：

本申请将在计算机相关技术基础之上应用统计学的相关知识和本申请提出的等同关系特征加权、相关关系特征加权和等级系数计算自动识别汽车专利领域内词与词之间的等同、相关和等级关系，根据这三种词间关系自动构建一部汽车专利相关领域主题词表。相比于现有技术，无需手工构建主题语表，构建及更新速度更快，避免了不同工作人员的经历、知识不统一引起构建的标准不一的问题。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1是本申请实施例公开的一种主题词表构建方法的流程示意图；

图2是本申请实施例公开的一种主题词表构建系统的结构示意图；

图3是本申请实施例公开的一种主题词表构建设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

在本申请的描述中，需要说明的是，若出现术语“上”、“下”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，或者是该发明产品使用时惯常摆放的方位或位置关系，仅是为了便于描述本申请和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本申请的限制。

此外，若出现术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

需要说明的是，在不冲突的情况下，本申请的实施例中的特征可以相互结合。

实施例一

目前，对于叙词表的研究主要一方面集中对于叙词表的转化方面主要将叙词表转化成本体，另一方面主要是对现有主题词表的全面升级和维护方面。然而在自动构建主题词表的方面，主要方法包括“基于WordNet进行转化”、“概念空间”、“整合现有词表”。这些自动构建方法要么脱离了具体的使用环境，针对性不强，对于领域内出现的新术语无法更新；要么只识别了词与词之间的相关关系，其它词间关系没有识别。针对上述技术问题，本申请提出了如下的主题词表构建方法、系统、设备及存储介质。

请参阅图1，图1是本申请实施例公开的一种主题词表构建方法的流程示意图。如图1所示，本申请实施例的主题词表构建方法，所述方法包括：

在本申请实施例中，本申请将在计算机相关技术基础之上应用统计学的相关知识和本申请提出的等同关系特征加权、相关关系特征加权和等级系数计算自动识别汽车专利领域内词与词之间的等同、相关和等级关系，根据这三种词间关系自动构建一部汽车专利相关领域主题词表。

在本可选的实施方式中，所述等同关系识别，包括：根据共现分析和字面相似度计算加权的方法来识别词间的等同关系，计算方法如下：

Sim(T_i，T_j)＝α·W(T_i，T_j)+β·S(T_i，T_j)

在本申请实施例中，词与词之间的等同关系，本申请主要是指词与词之间的词义完全等同如“脚踏车”与“自行车”，词义相反如“输入轴”与“输出轴”，词义相近如“保护层”与“绝缘层”。本申请根据共现分析和字面相似度进行同义词识别。

在本可选的实施方式中，所述共现权重的计算方法为：

在本可选的实施方式中，所述字面相似度计算方法下：

在本可选的实施方式中，所述相关关系识别，包括：采用如下公式来识别术语之间的关联度：

Rel(T_i，T_j)＝γ·W(T_i，T_j)+δ·Dice(T_i，T_j)

在本可选的实施方式中，所述两词间的Dice测试权重的计算方式如下：

Dice(T_i，T_j)＝2F(T_i，T_j)/(F(T_i)+F(T_j))

在本申请实施例中，相关关系挖掘主要计算词汇之间相关度的大小，本申请采用Dice测度和词汇语义距离计算词与词之间的关联。

在本可选的实施方式中，所述等级关系识别，采用如下公式：

idf(Ti)＝log(N/n_i)

在本申请实施例中，词频和词长作为考虑词上下位关系的因素，词频越高作为上位词的可能性越大，词长越长作为下位词的可能性越大，本申请还认为词汇出现的反文档频率越大词汇作为上位词的可能性越大。根据以上因素，本申请采用上述公式对词汇所处等级进行量化。

实施例二

请参阅图2，图2是本申请实施例公开的一种主题词表构建系统的结构示意图。如图2所示，本申请实施例的一种主题词表构建系统，所述系统包括：

实施例三

请参阅图3，图3是本申请实施例公开的一种主题词表构建设备的结构示意图。如图3所示，本申请实施例的主题词表构建设备，其特征在于，所述设备包括：

存储有可执行程序代码的存储器；

与所述存储器耦合的处理器；

所述处理器调用所述存储器中存储的所述可执行程序代码，执行如第一实施例所述的主题词表构建方法。

实施例四

本申请实施例提供一种存储介质，其特征在于，所述存储介质存储有计算机指令，所述计算机指令被调用时，用于执行如第一实施例所述的主题词表构建方法。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种主题词表构建方法，其特征在于：所述方法包括：

2.根据权利要求1所述的方法，其特征在于：所述等同关系识别，包括：根据共现分析和字面相似度计算加权的方法来识别词间的等同关系，计算方法如下：

Sim(T_i，T_j)＝α·W(T_i，T_j)+β·S(T_i，T_j)

3.根据权利要求2所述的方法，其特征在于：所述共现权重的计算方法为：

4.根据权利要求2所述的方法，其特征在于：所述字面相似度计算方法下：

5.根据权利要求1所述的方法，其特征在于：所述相关关系识别，包括：采用如下公式来识别术语之间的关联度：

Rel(T_i，T_j)＝γ·W(T_i，T_j)+δ·Dice(T_i，T_j)

6.根据权利要求5所述的方法，其特征在于：所述两词间的Dice测试权重的计算方式如下：

Dice(T_i，T_j)＝2F(T_i，T_j)/(F(T_i)+F(T_j))

7.根据权利要求1所述的方法，其特征在于：所述等级关系识别，采用如下公式：

idf(Ti)＝log(N/n_i)

8.一种主题词表构建系统，其特征在于：所述系统包括：

9.一种主题词表构建设备，其特征在于，所述设备包括：

存储有可执行程序代码的存储器；

与所述存储器耦合的处理器；

所述处理器调用所述存储器中存储的所述可执行程序代码，执行如权利要求1-7任一项所述的主题词表构建方法。

10.一种存储介质，其特征在于，所述存储介质存储有计算机指令，所述计算机指令被调用时，用于执行如权利要求1-7任一项的主题词表构建方法。