CN109460541B

CN109460541B - 词汇关系标注方法、装置、计算机设备和存储介质

Info

Publication number: CN109460541B
Application number: CN201811132274.0A
Authority: CN
Inventors: 丁国柱
Original assignee: Guangzhou University
Current assignee: Guangzhou University
Priority date: 2018-09-27
Filing date: 2018-09-27
Publication date: 2023-02-21
Anticipated expiration: 2038-09-27
Also published as: CN109460541A

Abstract

本申请涉及一种词汇关系标注方法、系统、计算机设备和存储介质。词汇关系标注方法包括：提取领域文本中的关键词以及与所述关键词关联度高于预设阈值的关联词汇，生成描述所述关键词与所述关联词汇关系的术语问题，并生成与所述领域相关的校验问题，接收对所述术语问题的第一答复和对所述校验问题的第二答复，若所述第二答复为正确答案，则根据所述第一答复对所述术语问题中所述关键词与所述关联词汇之间的关系进行标注。上述词汇关系标注方法，能够充分利用群体智慧对术语之间的关系进行标注，降低了词汇关系标注的成本。

Description

词汇关系标注方法、装置、计算机设备和存储介质

技术领域

本申请涉及知识库构建技术领域，特别是涉及一种词汇关系标注方法、装置、计算机设备和存储介质。

背景技术

知识库(如wiki百科、百度百科等)又称人工智能数据库，它是一种结构化、易操作、易利用的有组织的知识集群，也是一个查询和检索的工具，知识库需要能从海量的信息中发现有价值的信息，知识库的服务能力可以帮助人们更好更快地解掌握所需的相关信息。

术语之间的关系标注是知识库构建的关键，某个特定领域知识库的构建可以通过该领域的专家对该领域术语之间的关系进行人工标注。然而，上述词汇关系标注方式成本大。

发明内容

基于此，有必要针对上述技术问题，提供一种能够降低词汇关系标注成本的词汇关系标注方法、装置、计算机设备和存储介质。

一种词汇关系标注方法，包括：

提取领域文本中的关键词以及与所述关键词关联度高于预设阈值的关联词汇；所述领域文本为待构建知识库的领域对应的文本；

生成描述所述关键词与所述关联词汇关系的术语问题，并生成与所述领域相关的校验问题；所述校验问题为已知答案的问题；

接收对所述术语问题的第一答复和对所述校验问题的第二答复，若所述第二答复为正确答案，则根据所述第一答复对所述术语问题中所述关键词与所述关联词汇之间的关系进行标注。

在一个实施例中，所述提取领域文本中的关键词以及与所述关键词关联度高于预设阈值的关联词汇，包括：

提取领域文本中的各个关键词，得到关键词集合；所述关键词集合中记录了所述领域文本中关键词的集合；

遍历所述关键词集合，获取所述领域文本中与每个关键词关联度高于预设阈值的词汇，得到每个关键词对应的关联词汇集合；所述关联词汇集合中记录了与每个关键词关联度高于预设阈值的词汇。

在一个实施例中，所述的词汇关系标注方法，所述生成描述所述关键词与所述关联词汇关系的术语问题，并生成与所述领域相关的校验问题，包括：

从所述关键词集合中选取一个目标关键词，从与所述目标关键词对应中关联词汇集合中选取一个目标关联词汇；

生成描述所述目标关键词与所述目标关联词汇关系的术语问题，以及与所述领域相关的校验问题。

在一个实施例中，所述的词汇关系标注方法，所述提取领域文本中的各个关键词，包括：

获取领域文本中各个词语的词频，通过比较各个词语的所述词频提取所述领域文本中的各个关键词。

在一个实施例中，所述的词汇关系标注方法，所述获取所述领域文本中与每个关键词关联度高于预设阈值的词汇，包括：

将所述领域文本中的各个词汇代入词向量模型中，得到各个词汇映射的词向量，通过比较各个词汇映射的词向量来获取所述领域文本中与每个关键词关联度高于预设阈值的词汇。

在一个实施例中，所述的词汇关系标注方法，所述术语问题为未知答案的填空题；所述校验问题为已知答案的选择题。

在一个实施例中，所述的词汇关系标注方法，所述根据所述第一答复对所述术语问题中所述关键词与所述关联词汇之间的关系进行标注之后，还包括：

当所述关键词与所述关联词汇之间相同的关系标注超过指定数量阈值时，将所述相同的关系标注纳入知识库。

一种知识库构建装置，包括：

提取模块，用于提取领域文本中的关键词以及与所述关键词关联度高于预设阈值的关联词汇；所述领域文本为待构建知识库的领域对应的文本；

生成模块，用于生成描述所述关键词与所述关联词汇关系的术语问题，并生成与所述领域相关的校验问题；所述校验问题为已知答案的问题；

标注模块，用于接收对所述术语问题的第一答复和对所述校验问题的第二答复，若所述第二答复为正确答案，则根据所述第一答复对所述术语问题中所述关键词与所述关联词汇之间的关系进行标注。

一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

本申请实施例中的词汇关系标注方法、装置、计算机设备和存储介质，提取领域文本中的关键词以及与所述关键词关联度高于预设阈值的关联词汇，生成描述所述关键词与所述关联词汇关系的术语问题，并生成与所述领域相关的校验问题，接收对所述术语问题的第一答复和对所述校验问题的第二答复，若所述第二答复为正确答案，则根据所述第一答复对所述术语问题中所述关键词与所述关联词汇之间的关系进行标注，可以充分利用群体智慧对术语之间的关系进行标注，降低了词汇关系标注的成本。

附图说明

图1为一个实施例中词汇关系标注方法的应用环境图；

图2为一个实施例中词汇关系标注方法的流程示意图；

图3为另一个实施例中词汇关系标注方法的流程示意图；

图4为一个实施例中知识库构建装置的结构框图；

图5为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的知识库构建方法，可以应用于如图1所示的应用环境中。其中，终端102与服务器104通过网络进行通信。其中，终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一个实施例中，如图2所示，提供了一种词汇关系标注方法，以该方法应用于图1中的服务器为例进行说明，包括以下步骤：

步骤202，提取领域文本中的关键词以及与关键词关联度高于预设阈值的关联词汇；领域文本为待构建知识库的领域对应的文本。

具体地，可以先获取待标注的某个特定领域的文本，遍历领域文本，提取领域文本中的关键词。其中，关键词的数量可以是多个，再在领域文本中获取每个关键词关联度高于预设阈值的关联词汇，每个关键词可以对应多个高度关联的关联词汇。

步骤204，生成描述关键词与关联词汇关系的术语问题，并生成与领域相关的校验问题；校验问题为已知答案的问题。

具体地，每个关键词有多少个关联词汇，就可以生成多少个描述关键词与关联词汇关系的术语问题。校验问题可以是反映本领域文本中两个词汇关系的问题，该问题可以是已知答案的选择题。

步骤206，接收对术语问题的第一答复和对校验问题的第二答复，若第二答复为正确答案，则根据第一答复对术语问题中关键词与关联词汇之间的关系进行标注。

可以生成一个验证码，该验证码中可以包括两个问题：术语问题和校验问题。若校验问题回答正确，则可以认为用户具有本领域的知识储备，此时，若用户同时给出了术语问题的答案，则可以认为用户回答的术语问题也是正确的。

上述实施例中，提取领域文本中的关键词以及与关键词关联度高于预设阈值的关联词汇，生成描述关键词与关联词汇关系的术语问题，并生成与领域相关的校验问题，接收对术语问题的第一答复和对校验问题的第二答复，若第二答复为正确答案，则根据第一答复对术语问题中关键词与关联词汇之间的关系进行标注，可以充分利用群体智慧对术语之间的关系进行标注，降低了词汇关系标注的成本。

在一个实施例中，可以通过以下步骤提取领域文本中的关键词以及与关键词关联度高于预设阈值的关联词汇：提取领域文本中的各个关键词，得到关键词集合；关键词集合中记录了领域文本中关键词的集合；遍历关键词集合，获取领域文本中与每个关键词关联度高于预设阈值的词汇，得到每个关键词对应的关联词汇集合；关联词汇集合中记录了与每个关键词关联度高于预设阈值的词汇。

其中，关键词集合可以以关键词列表的形式表示，例如，可以遍历领域文本，提取关键词，得到关键词列表W＝{w₁,w₂,w₃}。还可以遍历关键词列表，获取每个关键词关联度高于预设阈值的其他词汇,记为Rw₁＝{c₁,c₂,…,c_n},其中，n为关联词的数量，关联词的数量可以小于等于十个。

上述实施例中，提取领域文本中的关键词以及与关键词关联度高于预设阈值的关联词汇，生成描述关键词与关联词汇关系的术语问题，并生成与领域相关的校验问题，接收对术语问题的第一答复和对校验问题的第二答复，若第二答复为正确答案，则根据第一答复对术语问题中关键词与关联词汇之间的关系进行标注，可以充分利用群体智慧对术语之间的关系进行标注，有效地促进知识库构建，同时降低了知识库构建的成本。

在一个实施例中，可以通过以下步骤生成描述关键词与关联词汇关系的术语问题，并生成与领域相关的校验问题：从关键词集合中选取一个目标关键词，从与目标关键词对应中关联词汇集合中选取一个目标关联词汇；生成描述目标关键词与目标关联词汇关系的术语问题，以及与领域相关的校验问题。

例如，关键词列表为W＝{w₁,w₂,w₃}，每个关键词关联度高于预设阈值的其他词汇为Rw₁＝{c₁,c₂,…,c_n},其中，n≤10。术语问题Q1和效验问题Q2，其中Q1可以为：w1与c1的关系是_，Q2可以为：p₁和q₁的关系为_，并给出Q2的若干个选择答案。

在一个实施例中，可以通过以下步骤提取领域文本中的各个关键词：获取领域文本中各个词语的词频，通过比较各个词语的词频提取领域文本中的各个关键词。

在上述实施例中，可以通过TF-IDF(Term Frequency/Inverse DocumentFrequency，词频/逆文档频率)算法提取领域文本中的关键词。TF-IDF是信息检索领域非常重要的搜索词重要性度量。TF-IDF可以用来做关键词的抽取，可以通过获取词TF-IDF值来获取领域文本中的关键词。

在一个实施例中，可以通过以下步骤获取领域文本中与每个关键词关联度高于预设阈值的词汇：将领域文本中的各个词汇代入词向量模型中，得到各个词汇映射的词向量，通过比较各个词汇映射的词向量来获取领域文本中与每个关键词关联度高于预设阈值的词汇。

在上述实施例中，可以利用Word2vec(word to vector)，获取每个关键词高度关联的其他词汇。Word2vec，是为一群用来产生词向量的相关模型。这些模型为浅而双层的神经网络，用来训练以重新建构语言学之词文本。把一个维数为所有词的数量的高维空间嵌入到一个维数低得多的连续向量空间中，每个单词或词组被映射为实数域上的向量。词嵌入的方法包括人工神经网络、对词语同现矩阵降维、概率模型以及单词所在上下文的显式表示等。

在一个实施例中，术语问题为未知答案的填空题；校验问题为已知答案的选择题。

在上述实施例中，术语问题也可以是未知答案的填空题，也可以是未知答案的问答题，校验问题也可以是已知答案的填空题，此处不对术语问题和校验问题的题型做具体限定。

在一个实施例中，如图3所示，根据第一答复对术语问题中关键词与关联词汇之间的关系进行标注之后，还包括步骤208：

步骤208，当关键词与关联词汇之间相同的关系标注超过指定数量阈值时，将相同的关系标注纳入知识库。

在上述实施例中，可以提取用户对术语问题的答案，当有一定数量的用户给出相同答案时，可以建立术语问题中关键词与关联词汇之间的关系，纳入知识库，并将这条知识作为一个已知答案的问题作为新一轮关系提取的效验问题。

应该理解的是，虽然图2和图3的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2和图3中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图4所示，提供了一种知识库构建装置，包括：

提取模块402，用于提取领域文本中的关键词以及与关键词关联度高于预设阈值的关联词汇；领域文本为待构建知识库的领域对应的文本；

生成模块404，用于生成描述关键词与关联词汇关系的术语问题，并生成与领域相关的校验问题；校验问题为已知答案的问题；

标注模块406，用于接收对术语问题的第一答复和对校验问题的第二答复，若第二答复为正确答案，则根据第一答复对术语问题中关键词与关联词汇之间的关系进行标注。

关于知识库构建装置的具体限定可以参见上文中对于词汇关系标注方法的限定，在此不再赘述。上述知识库构建装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

需要说明的是，本发明实施例所涉及的术语“第一\第二\第三”仅仅是是区别类似的对象，不代表针对对象的特定排序，可以理解地，“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序。应该理解“第一\第二\第三”区分的对象在适当情况下可以互换，以使这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。

本发明实施例的术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或(模块)单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

在本文中提及的“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图5所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储知识库构建数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种词汇关系标注方法。

本领域技术人员可以理解，图5中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现以下步骤：

提取领域文本中的关键词以及与关键词关联度高于预设阈值的关联词汇；领域文本为待构建知识库的领域对应的文本；

生成描述关键词与关联词汇关系的术语问题，并生成与领域相关的校验问题；校验问题为已知答案的问题；

接收对术语问题的第一答复和对校验问题的第二答复，若第二答复为正确答案，则根据第一答复对术语问题中关键词与关联词汇之间的关系进行标注。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：提取领域文本中的各个关键词，得到关键词集合；关键词集合中记录了领域文本中关键词的集合；遍历关键词集合，获取领域文本中与每个关键词关联度高于预设阈值的词汇，得到每个关键词对应的关联词汇集合；关联词汇集合中记录了与每个关键词关联度高于预设阈值的词汇。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：从关键词集合中选取一个目标关键词，从与目标关键词对应中关联词汇集合中选取一个目标关联词汇；生成描述目标关键词与目标关联词汇关系的术语问题，以及与领域相关的校验问题。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：获取领域文本中各个词语的词频，通过比较各个词语的词频提取领域文本中的各个关键词。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：将领域文本中的各个词汇代入词向量模型中，得到各个词汇映射的词向量，通过比较各个词汇映射的词向量来获取领域文本中与每个关键词关联度高于预设阈值的词汇。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：将术语问题设置为未知答案的填空题；将校验问题设置为已知答案的选择题。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：当关键词与关联词汇之间相同的关系标注超过指定数量阈值时，将相同的关系标注纳入知识库。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：提取领域文本中的各个关键词，得到关键词集合；关键词集合中记录了领域文本中关键词的集合；遍历关键词集合，获取领域文本中与每个关键词关联度高于预设阈值的词汇，得到每个关键词对应的关联词汇集合；关联词汇集合中记录了与每个关键词关联度高于预设阈值的词汇。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：从关键词集合中选取一个目标关键词，从与目标关键词对应中关联词汇集合中选取一个目标关联词汇；生成描述目标关键词与目标关联词汇关系的术语问题，以及与领域相关的校验问题。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：获取领域文本中各个词语的词频，通过比较各个词语的词频提取领域文本中的各个关键词。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：将领域文本中的各个词汇代入词向量模型中，得到各个词汇映射的词向量，通过比较各个词汇映射的词向量来获取领域文本中与每个关键词关联度高于预设阈值的词汇。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：将术语问题设置为未知答案的填空题；将校验问题设置为已知答案的选择题。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：当关键词与关联词汇之间相同的关系标注超过指定数量阈值时，将相同的关系标注纳入知识库。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种词汇关系标注方法，其特征在于，包括：

遍历所述关键词集合，将所述领域文本中的各个词汇代入词向量模型中，得到各个词汇映射的词向量，通过比较各个词汇映射的词向量来获取所述领域文本中与每个关键词关联度高于预设阈值的词汇，得到每个关键词对应的关联词汇集合；所述关联词汇集合中记录了与每个关键词关联度高于预设阈值的词汇；所述领域文本为待构建知识库的领域对应的文本；

从所述关键词集合中选取一个目标关键词，从与所述目标关键词对应关联词汇集合中选取一个目标关联词汇；

生成描述所述目标关键词与所述目标关联词汇关系的术语问题，以及与所述领域相关的校验问题；所述校验问题为已知答案的问题；

2.根据权利要求1所述的词汇关系标注方法，其特征在于，所述提取领域文本中的各个关键词，包括：

3.根据权利要求1至2中任意一项所述的词汇关系标注方法，其特征在于，所述术语问题为未知答案的填空题；所述校验问题为已知答案的选择题。

4.根据权利要求1至2中任意一项所述的词汇关系标注方法，其特征在于，所述根据所述第一答复对所述术语问题中所述关键词与所述关联词汇之间的关系进行标注之后，还包括：

5.一种知识库构建装置，其特征在于，包括：

提取模块，用于提取领域文本中的各个关键词，得到关键词集合；所述关键词集合中记录了所述领域文本中关键词的集合；遍历所述关键词集合，将所述领域文本中的各个词汇代入词向量模型中，得到各个词汇映射的词向量，通过比较各个词汇映射的词向量来获取所述领域文本中与每个关键词关联度高于预设阈值的词汇，得到每个关键词对应的关联词汇集合；所述关联词汇集合中记录了与每个关键词关联度高于预设阈值的词汇；所述领域文本为待构建知识库的领域对应的文本；

生成模块，用于从所述关键词集合中选取一个目标关键词，从与所述目标关键词对应关联词汇集合中选取一个目标关联词汇；生成描述所述目标关键词与所述目标关联词汇关系的术语问题，以及与所述领域相关的校验问题；所述校验问题为已知答案的问题；

6.根据权利要求5所述的知识库构建装置，其特征在于，

所述提取模块，还用于获取领域文本中各个词语的词频，通过比较各个词语的所述词频提取所述领域文本中的各个关键词。

7.根据权利要求5至6中任意一项所述的知识库构建装置，其特征在于，所述术语问题为未知答案的填空题；所述校验问题为已知答案的选择题。

8.根据权利要求5至6中任意一项所述的知识库构建装置，其特征在于，所述装置还包括：

纳入模块，用于当所述关键词与所述关联词汇之间相同的关系标注超过指定数量阈值时，将所述相同的关系标注纳入知识库。

9.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至4中任一项所述的词汇关系标注方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至4中任一项所述的词汇关系标注方法的步骤。