CN116644740A

CN116644740A - 一种基于单文本词项凝固度的字典自动抽取方法与系统

Info

Publication number: CN116644740A
Application number: CN202310404243.0A
Authority: CN
Inventors: 邓吉秋; 唐宇; 郭志勇; 邱蓝; 吴军; 王飞龙
Original assignee: Central South University
Current assignee: Central South University
Priority date: 2023-04-17
Filing date: 2023-04-17
Publication date: 2023-08-25

Abstract

本发明涉及自然语言处理技术领域，具体公开了一种基于单文本词项凝固度的字典自动抽取方法与系统，包括：输入说明子系统：用于录入输入数据，输入数据包括待分词文本和自定义断点数，根据待分词文本生成的候选词项会生成候选词项的凝固度，自然断点法说明子系统：用于分组候选词项的凝固度获得分组数据，通过对分组数据给定不同的级别来表示匹配时的优先级，构件字典过程说明子系统：用于基于候选词项的凝固度优先级和单文本自动构建词典，输出说明子系统：用作数据输出，数据输出为基于地质单文本和凝固度自动构建的字典，解决了传统的专业字典生成方法在设定规则、标注语料库、筛选词项时，存在大量人工耗费的问题。

Description

一种基于单文本词项凝固度的字典自动抽取方法与系统

技术领域

本申请涉及自然语言处理技术领域，具体公开了一种基于单文本词项凝固度的字典自动抽取方法与系统。

背景技术

对于中文分词两大技术难点：歧义识别和未登录词识别，基于字典分词具有速度快、效率高、易修改的优点，分词任务通常依赖于丰富的语料库和专业字典，但是固化的字典无法实现歧义消解，在分词过程中对歧义词和未登录词的识别能力较低。

在专业文本分词的实际工作中，专业字典不能一成不变，需要人工不断地更新和维护，这种方式不能很好适应专业领域知识快速性和灵活性增长；且人工构建字典费时费力，难以实现精确率和耗费的平衡。因此，能够及时、自动、智能、准确地生成专业字典、减少构建和维护字典过程中的人为工作很有必要。

现有技术中，对于自动生成字典有如下实施方法：

基于“二元语法”统计模型、统计算法、统计选词策略、规则知识和规则过滤算法，从大规模语料库中自动高效地发现新词，但仍需要人工定义丰富的规则；

基于大规模语料库利用汉字的邻接关系建立局部二元模型，但是该模型的新词识别的准确率不超过80％；

使用重复模式互信息、左右熵等特征进行新词识别，获得候选新词列表，然后利用中文词语搭配库过滤候选词；

综合信息交叉熵算法、标注字典及组词规则发现新词，经过筛选后把新词加入字典；

这些研究从统计方法、规则定义、字符关系等角度发现新词和构建字典，具有良好的效果。但是，以上方法在进行设定规则、标注语料库、筛选词项等人为的工作时，仍具有很大程度的不确定性和随意性，不利于智能自动生成专业字典。

因此，发明人有鉴于此，提供了一种基于单文本词项凝固度的字典自动抽取方法与系统，以便解决上述问题。

发明内容

本发明的目的在于解决传统的专业字典生成方法在设定规则、标注语料库、筛选词项时，存在大量人工耗费的问题。

为了达到上述目的，本发明的基础方案提供一种基于单文本词项凝固度的字典自动抽取系统，包括：

输入说明子系统：用于录入输入数据，输入数据包括待分词文本和自定义断点数，根据待分词文本生成的候选词项会生成候选词项的凝固度；

自然断点法说明子系统：用于分组候选词项的凝固度获得分组数据，通过对分组数据给定不同的级别来表示匹配时的优先级；

构建字典过程说明子系统：用于基于候选词项的凝固度优先级和单文本自动构建词典；

输出说明子系统：用作数据输出，数据输出为基于地质单文本和凝固度自动构建的字典。

进一步，所述输入数据为若干组连续型数据并构成数组。

进一步，所述自然断点说明子系统包括如下步骤：

步骤A01：计算分组数据平均值的偏差平方和；

步骤A02：迭代每个范围组合得到不同的分类组别，计算类别均值的平方偏差平方和，选择偏差最小的组别；

步骤A03：计算方差拟合优度，检验拟合效果，获得最好的分类断点；

步骤A04：基于数值和分类断点的比较，确定数组的分组组别，输出数据为连续型数据中每个数值的分组。

为了达到上述目的，本发明的基础方案还提供了一种基于单文本词项凝固度的字典自动抽取系统的抽取方法，具体包括如下步骤：

步骤S10：读取输入的单文本，定义单文本的长度，读取输入的候选词项，定义断点数；

步骤S20：通过自然确定断点的函数，获得候选词集每个词项的凝固度分级；

步骤S30：将凝固度分级加入候选词集，此时候选词项也表示分级词典；

步骤S40：取出词项，定义查询例句的结果列表；

步骤S50：将获得的例句结果列表存入候选词集；

步骤S60：至此，得到由候选词项、分级和例句组成的字典。

进一步，在步骤S10中，行格式为[词项，凝固度]，本发明中，定义断点数等于4。

进一步，进入步骤S50；

步骤S42：获取当前词项在文本中的位置；

步骤S43：根据当前文本向前查询最近的一个句号，定位例句起始字段；

步骤S44：根据文本向后查询最近的一个句号，定位例句末尾字段；

步骤S45：获得当前词项的例句，存入例句列表，重复步骤S41。

本方案的原理及效果在于：

1、本发明设有根据凝固度的概念来判断候选词项的等级，符合筛选词项、组合字典的逻辑，并对字典的词项进行等级划分，不同的级别表示匹配分词任务时的优先级，且字典中提供了词项的相关例句，借鉴于汉语词典的解释性表述，可以辅助词项理解，解决了传统的专业字典生成方法在设定规则、标注语料库、筛选词项时，存在大量人工耗费的问题。

2、本发明抽取字典的过程基于统计的方法、基于单文本的低资源条件，不依赖人为工作，快捷且准确。

3、本发明提出的字典自动生成方法，基于凝固度来表示词项，能保证较高的字典正确率。

4、本发明基于零样本、无标签、单文本的低资源条件，摆脱了构建词典过程中的人为工作，减少了人工耗费，基于统计的方法，具有快捷的优点，不依赖设定规则和阈值筛选词项，很好地避免了人为的不准确性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本申请实施例提出的一种基于单文本词项凝固度的字典自动抽取方法与系统的流程图。

具体实施方式

为更进一步阐述本发明为实现预定发明目的所采取的技术手段及功效，以下结合附图及较佳实施例，对依据本发明的具体实施方式、结构、特征及其功效，详细说明如后。

一种基于单文本词项凝固度的字典自动抽取方法与系统，实施例如图1所示：

包括输入说明子系统、输出说明子系统、自然断点法说明子系统、构建字典过程说明子系统。

输入说明子系统用于录入输入数据，输入数据包括领域单文本text、候选词项的凝固度unity_list和自定义断点数classes。其中，候选词项的凝固度unity_list，行数据格式解释为[词项，凝固度]，断点数classes为自定义常量。

在本实施例中，以任村地质调查报告文本成果部分(任村报告)为例，全文约52万个字符、16万个汉字。任村报告作为地质领域单文本量化词项的代表性数据集。

输出说明子系统用作数据的输出，数据输出为基于地质单文本和凝固度自动构建的字典，用Dict表示。

自然断点法说明子系统：

使用自然断点法需要认可任何数列之间都存在一些自然(非人为设定的)的转折点和断点，这些自然的断点，都是具有统计学意义的，用这些转折点可以把研究的对象分成性质相似的群组。自然断点法运用了聚类的思维，核心思想与聚类一样：使每一组内部数据的相似性最大，而外部组与组之间的相异性最大。与聚类不一样的地方在于：聚类不关注每一类中的要素数量和范围的，而自然断点法会兼顾每个分组之间的要素的范围和个数尽量相近。

定义自然确定断点的函数为get_NBC(num_list,classes)，输入数据是一组连续型数据num_list和自定义断点数classes。

自然断点法说明子系统实施时包括如下步骤：

步骤A01：计算数组平均值的偏差平方和；

步骤A04：基于数值和分类断点的比较，确定数组的分组组别，输出数据为连续型数据num_list中每个数值的分组ranks。

构建字典过程说明子系统：

仅基于候选词项的凝固度和文本自动构建词典，要充分考虑凝固度的特性和含义，正确使用凝固度；在词典运用于分词的过程中，匹配顺序是重要的因素。而凝固度是一类连续性的数据，本发明主要基于自然断点法来分组候选词项的凝固度，通过给定不同的级别来表示匹配时的优先级；并借鉴于汉语词典的解释性表述，基于单文本查询例句进行展示，可供后续的深层次理解和相似性任务。

本实施例中，所生成的字典部分展示如下表1：

表1字典部分输出展示

在本实例中，本系统的实施过程可囊括如下：

输入数据是领域单文本text、候选词项的凝固度unity_list和自定义断点数classes。领域单文本text的数据类型为字符串；候选词集unity_list为DataFrame对象，行数据格式解释为[词项，凝固度]；自定义断点数classes是自定义常量。首先确保词项凝固度表按照降序排列，然后基于自然断点法将词项凝固度分为不同的等级，将分级结果存入凝固度数据，得到分级词典；然后根据词项查询例句，最终得到专业字典。

具体过程如下：

步骤S10：读取输入的单文本为text，定义单文本的长度为lenth＝len(text)；读取输入的候选词项为unity_list，行格式为[word，unity]，本发明中，定义断点数classes＝4；

步骤S20：通过自然确定断点的函数get_NBC，获得候选词集的凝固度分级ranks＝get_NBC(term_list,classes)；

步骤S30：将分级加入unity_list：unity_list[“rank”]＝ranks，此时unity_list也表示分级词典；

步骤40：取出词项word＝unity_list[“word”]，定义查询例句的结果列表sentence＝[]；

步骤S41：循环遍历word，依次取出当前遍历的词项word[i]，如果完成遍历所有的候选词项，进入步骤S50；

步骤S42：获取word[i]在文本中的位置，location＝text.find(word[i])；

步骤S43：根据location向前查询最近的一个句号：令变量j＝

location，进入while循环，如果j大于0且text[j]不等于“。”，递减j，使j＝j-1，继续循环，直到跳出循环；

步骤S44：根据location向后查询最近的一个句号：令变量k＝

location，进入while循环，如果k小于lenth且text[k]不等于“。”，递增k，使k＝k+1，继续循环，直到跳出循环；

步骤S45：获得当前词项的例句temp_sentence＝text[j:k+1]，存入例句列表：sentence.append(temp_sentence)，重复步骤S41；

步骤S50：将获得的例句结果列表sentence存入unity_list，unity_list

[“sentence”]＝sentence；

步骤S60：至此，得到字典Dict＝unity_list[“word”]+unity_list[“rank”]+unity_list[“sentence”]。

本发明根据凝固度的概念来判断候选词项的等级，符合筛选词项、组合字典的逻辑；并对字典的词项进行等级划分，不同的级别表示匹配分词任务时的优先级；且字典中提供了词项的相关例句，借鉴于汉语词典的解释性表述，可以辅助词项理解；且抽取字典的过程基于统计的方法、基于单文本的低资源条件，不依赖人为工作，快捷且准确。

本发明提出的字典自动生成方法，基于凝固度来表示词项，能保证较高的字典正确率；基于零样本、无标签、单文本的低资源条件，摆脱了构建词典过程中的人为工作，减少了人工耗费；基于统计的方法，具有快捷的优点；不依赖设定规则和阈值筛选词项，很好地避免了人为的不准确性。

以上所述，仅是本发明的较佳实施例而已，并非对本发明作任何形式上的限制，虽然本发明已以较佳实施例揭示如上，然而并非用以限定本发明，任何本领域技术人员，在不脱离本发明技术方案范围内，当可利用上述揭示的技术内容做出些许更动或修饰为等同变化的等效实施例，但凡是未脱离本发明技术方案内容，依据本发明的技术实质对以上实施例所作的任何简介修改、等同变化与修饰，均仍属于本发明技术方案的范围内。

Claims

1.一种基于单文本词项凝固度的字典自动抽取系统，其特征在于：包括：

2.根据权利要求1所述的一种基于单文本词项凝固度的字典自动抽取方法与系统，其特征在于，所述输入数据为若干组连续型数据并构成数组。

3.根据权利要求2所述的一种基于单文本词项凝固度的字典自动抽取方法与系统，其特征在于，所述自然断点说明子系统包括如下步骤：

步骤A01：计算分组数据平均值的偏差平方和；

4.一种根据权利要求3所述的一种基于单文本词项凝固度的字典自动抽取系统的抽取方法，其特征在于，具体包括如下步骤：

步骤S40：取出词项，定义查询例句的结果列表；

步骤S50：将获得的例句结果列表存入候选词集；

步骤S60：至此，得到由候选词项、分级和例句组成的字典。

5.根据权利要求4所述的一种基于单文本词项凝固度的字典自动抽取系统的抽取方法，其特征在于，在步骤S10中，行格式为[词项，凝固度]，本发明中，定义断点数等于4。

6.根据权利要求4所述的一种基于单文本词项凝固度的字典自动抽取系统的抽取方法，其特征在于，在步骤S40中，定义例句的结果列表具体步骤如下：

步骤S41：循环遍历词项，依次取出当前遍历的词项，如果完成遍历所有的候选词项，进入步骤S50；

步骤S42：获取当前词项在文本中的位置；