CN116226391A

CN116226391A - 一种特定领域人名纠错方法及系统、存储介质及终端

Info

Publication number: CN116226391A
Application number: CN202211385431.5A
Authority: CN
Inventors: 请求不公布姓名
Original assignee: Shanghai Mdata Information Technology Co ltd
Current assignee: Shanghai Mdata Information Technology Co ltd
Priority date: 2022-11-07
Filing date: 2022-11-07
Publication date: 2023-06-06

Abstract

本发明提供一种特定领域人名纠错方法及系统、存储介质及终端，包括以下步骤：训练关系抽取模型，所述关系抽取模型用于识别特定领域文本中两个命名实体之间的关系；基于所述关系抽取模型获取特定领域的待纠错文本中人名与其他命名实体的关系识别结果；构建特定领域的知识图谱；基于所述知识图谱对所述关系识别结果对应的人名进行纠错。本发明的特定领域人名纠错方法及系统、存储介质及终端通过关系抽取和知识图谱校正实现特定领域人名的纠错，准确度高，实用性强。

Description

一种特定领域人名纠错方法及系统、存储介质及终端

技术领域

本发明涉及信息处理的技术领域，特别是涉及一种特定领域人名纠错方法及系统、存储介质及终端。

背景技术

人员姓名的正确书写在文本记载中至关重要，人名的错误记录会导致文字记载的真实性和权威性遭到质疑。现有技术中，文本中的人名纠错主要采用以下方式。

（1）基于人工审核纠错。

在该方法中，所有文本内容都需经过人工审核，这样不仅费时费力，而且仍会存在遗漏的问题。

（2）基于通用模型纠错。

现有技术中，训练一个通用模型进行文字纠错。该方法在解决一些常见错别字纠错时有效，但对于特定领域人名纠错存在识别不准的问题。这是因为通用模型纠错需要根据上下文进行判断，在很多情况下有固定的上下文；但是对于人名来说，其出现位置较为随机，进而影响到纠错判断的准确性。

（3）基于规则进行纠错。

该方法中可利用拼音、词语关联等规则进行人名纠错。但由于规则过于生硬且不能联系上下文，导致的大量误报漏报。

发明内容

鉴于以上所述现有技术的缺点，本发明的目的在于提供一种特定领域人名纠错方法及系统、存储介质及终端，通过关系抽取和知识图谱校正实现特定领域人名的纠错，准确度高，实用性强。

为实现上述目的及其他相关目的，本发明提供一种特定领域人名纠错方法，包括以下步骤：训练关系抽取模型，所述关系抽取模型用于识别特定领域文本中两个命名实体之间的关系；基于所述关系抽取模型获取特定领域的待纠错文本中人名与其他命名实体的关系识别结果；构建特定领域的知识图谱；基于所述知识图谱对所述关系识别结果对应的人名进行纠错。

于本发明一实施例中，训练关系抽取模型包括以下步骤：

获取特定领域文本；

标注所述特定领域文本中两个命名实体之间的关系；

基于标注的两个命名实体之间的关系训练所述关系抽取模型；

对训练得到的关系抽取模型进行评估；

选取效果最佳的关系抽取模型作为训练好的关系抽取模型。

于本发明一实施例中，所述关系抽取模型采用参数共享的联合模型和联合解码的联合模型；所述参数共享的联合模型中两个命名实体以及两个命名实体关系的抽取是不同步的；所述联合解码的联合模型中两个命名实体以及两个命名实体关系的抽取是同步的。

于本发明一实施例中，基于所述知识图谱对所述关系识别结果对应的人名进行纠错包括以下步骤：

基于所述知识图谱判断所述关系识别结果是否正确；

若是，则无需对所述关系识别结果对应的人名进行纠错；

若否，根据所述知识图谱对所述关系识别结果对应的人名进行纠错。

本发明提供一种特定领域人名纠错系统，包括训练模块、抽取模块、构建模块和纠错模块；

所述训练模块用于训练关系抽取模型，所述关系抽取模型用于识别特定领域文本中两个命名实体之间的关系；

所述抽取模块用于基于所述关系抽取模型获取特定领域的待纠错文本中人名与其他命名实体的关系识别结果；

所述构建模块用于构建特定领域的知识图谱；

所述纠错模块用于基于所述知识图谱对所述关系识别结果对应的人名进行纠错。

于本发明一实施例中，所述训练模块训练关系抽取模型包括以下步骤：

获取特定领域文本；

标注所述特定领域文本中两个命名实体之间的关系；

对训练得到的关系抽取模型进行评估；

选取效果最佳的关系抽取模型作为训练好的关系抽取模型。

于本发明一实施例中，所述纠错模块基于所述知识图谱对所述关系识别结果对应的人名进行纠错包括以下步骤：

基于所述知识图谱判断所述关系识别结果是否正确；

若是，则无需对所述关系识别结果对应的人名进行纠错；

本发明提供一种存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述的特定领域人名纠错方法。

本发明提供一种特定领域人名纠错终端，包括：处理器及存储器；

所述存储器用于存储计算机程序；

所述处理器用于执行所述存储器存储的计算机程序，以使所述特定领域人名纠错终端执行上述的特定领域人名纠错方法。

如上所述，本发明的特定领域人名纠错方法及系统、存储介质及终端，具有以下有益效果。

（1）通过关系抽取实现了上下文关联判断，通过知识图谱实现了有效校正，从而极大地提高了特定领域人名纠错的准确度。

（2）有效避免了人名纠错的漏报问题。

（3）可应用于体育、文艺、政务等特定领域的人名识别，适用范围广，实用性强。

附图说明

图1显示为本发明的特定领域人名纠错方法于一实施例中的流程图。

图2显示为本发明的训练关系抽取模型于一实施例中的流程图。

图3显示为本发明的特定领域人名纠错系统于一实施例中的结构示意图。

图4显示为本发明的特定领域人名纠错终端于一实施例中的结构示意图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。

需要说明的是，本实施例中所提供的图示仅以示意方式说明本发明的基本构想，遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制，其实际实施时各组件的型态、数量及比例可为一种随意的改变，且其组件布局型态也可能更为复杂。

本发明的特定领域人名纠错方法及系统、存储介质及终端通过特定领域人名的关系抽取和知识图谱校正，实现特定领域人名的纠错，有效避免了漏报的问题，纠错准确度高，实用性强。

如图1所示，于一实施例中，本发明的特定领域人名纠错方法包括以下步骤。

步骤S1、训练关系抽取模型，所述关系抽取模型用于识别特定领域文本中两个命名实体之间的关系。

具体地，关系抽取就是从文本中抽取出特定的事件或事实信息，帮助实现海量内容自动分类、提取和重构。这些信息通常包括实体（entity）、关系（relation）。例如从新闻中抽取时间、地点、关键人物，或者从技术文档中抽取产品名称、开发时间、性能指标等。在本发明中，所述关系抽取模型就是从特定领域文本中抽取出两个命名实体之间的关系，可以（主体，关系，客体）来表述。因此，关系抽取主要执行以下两个任务：（1）识别文本中的两个命名实体；（2）判断这两个实体属于哪种关系（关系分类）。例如，刘翔，1983年7月13日出生于上海，中国男子田径队110米栏运行员。在上文中可以抽取出实体关系三元组实例（刘翔，出生地，上海）。即刘翔和上海之间的关系是出生地。

现有技术中，关系抽取模型通常采用流水线结构，即先从文本中抽取全部实体，然后针对全部可能的实体对，判定其之间的关系类别。该方法易于实现，灵活性高，且无需同时标注实体和关系的数据集，但其具有误差累积、实体冗余、交互缺失等不足。

优选地，本发明的关系抽取模型采用参数共享的联合模型和联合解码的联合模型，无需训练多个模型，一个模型即可解决问题，且两个任务的交互有交互作用，可用于辅助任务的学习。具体地，所述参数共享的联合模型中两个命名实体以及两个命名实体关系的抽取是不同步的。由于各过程不同步，所以后面的过程可以使用前面的过程的结果作为特征。每一步都可以得到一个损失（loss）值，整个模型的loss值为各个loss值的和。所述联合解码的联合模型中两个命名实体以及两个命名实体关系的抽取是同步的，从而通过一个模型直接得到一个实体关系三元组。

如图2所示，于本发明一实施例中，训练关系抽取模型包括以下步骤。

11）获取特定领域文本。

具体地，所述特定领域可以是文艺领域、体育领域、政治领域等等。

12）标注所述特定领域文本中两个命名实体之间的关系。

具体地，通过人工标注的方式获取所述特定领域文本中两个命名实体之间的关系。例如，对于体育领域，可标注刘翔-冠军-110米跨栏，郎平-教练-排球。

13）基于标注的两个命名实体之间的关系训练所述关系抽取模型。

具体地，将标注的两个命名实体之间的关系输入所述关系抽取模型进行神经网络的训练，通过不停地调整模型参数来获取不同的关系抽取模型。

14）对训练得到的关系抽取模型进行评估。

具体地，对于不同模型参数的关系抽取模型，采用测试数据进行性能评估。优选地，可采用准确率（Precision）、召回率（Recall）、F1值等指标进行评估。

15）选取效果最佳的关系抽取模型作为训练好的关系抽取模型。

步骤S2、基于所述关系抽取模型获取特定领域的待纠错文本中人名与其他命名实体的关系识别结果。

具体地，将特定领域的待纠错文本输入所述关系抽取模型，从而获取所述待纠错文本中的人名与其他命名实体的关系识别结果。

步骤S3、构建特定领域的知识图谱。

具体地，知识图谱的构建通常包括知识抽取、知识融合、质量控制等基本步骤。实体抽取和关系抽取是知识抽取的典型工作。在非结构化知识抽取中，实体抽取是从文本中识别业务目标的实体，关系抽取是获取两个实体之间的语义或者逻辑关系。由于知识抽取来源多样，从不同来源得到的知识不尽相同，所以对知识融合提出了需求，包括实体对齐、属性融合、属性值规范化等。当进行知识图谱构建时，还要对知识图谱进行质量控制，对缺漏、错误、陈旧的知识进行补全、纠错与更新。

在本发明中，针对特定领域需预先构建知识图谱，获取该特定领域中相应人名的相关知识，如以该人名为中心点，构建与其相关的各个维度的关联信息。例如，在体育领域，针对刘翔可以建立的知识图谱包括：刘翔，1983年7月13日出生于上海市普陀区，中国男子田径队110米栏运动员，2004雅典奥运会男子110米栏冠军，教练孙海平等等。

步骤S4、基于所述知识图谱对所述关系识别结果对应的人名进行纠错。

具体地，基于所述知识图谱对所述关系识别结果对应的人名进行纠错包括以下步骤。

41）基于所述知识图谱判断所述关系识别结果是否正确。

具体地，以所述知识图谱为基准，将所述关系识别结果与所述知识图谱中的对应内容进行比对，判断二者是否一致。

42）若是，则无需对所述关系识别结果对应的人名进行纠错。

具体地，若所述关系识别结果与所述知识图谱中的对应内容一致，则表明所述待纠错文本中的人名记载准确，无需纠错。

42）若否，根据所述知识图谱对所述关系识别结果对应的人名进行纠错。

具体地，若所述关系识别结果与所述知识图谱中的对应内容不一致，表明所述待纠错文本中的人名记载有误，需根据所述知识图谱中的对应内容进行纠错。

下面通过具体实施例来进一步说明本发明的特定领域人名纠错方法。

在该实施例中，特定领域的待纠错文本为：前中国女排教练陈中和。基于所述关系抽取模型可抽取关系如下；陈中和-教练-前中国女排。在预先构建的知识图谱中，前中国女排教练是陈忠和。因此，可根据知识图谱，将待纠错文本中的“陈中和”纠错为“陈忠和”。

如图3所示，于一实施例中，本发明的特定领域人名纠错系统包括训练模块31、抽取模块32、构建模块33和纠错模块34。

所述训练模块31用于训练关系抽取模型，所述关系抽取模型用于识别特定领域文本中两个命名实体之间的关系。

11）获取特定领域文本。

12）标注所述特定领域文本中两个命名实体之间的关系。

14）对训练得到的关系抽取模型进行评估。

所述抽取模块32与所述训练模块31相连，用于基于所述关系抽取模型获取特定领域的待纠错文本中人名与其他命名实体的关系识别结果。

所述构建模块33用于构建特定领域的知识图谱。

所述纠错模块34与所述抽取模块32和所述构建模块33相连，用于基于所述知识图谱对所述关系识别结果对应的人名进行纠错。

41）基于所述知识图谱判断所述关系识别结果是否正确。

需要说明的是，应理解以上装置的各个模块的划分仅仅是一种逻辑功能的划分，实际实现时可以全部或部分集成到一个物理实体上，也可以物理上分开。且这些模块可以全部以软件通过处理元件调用的形式实现；也可以全部以硬件的形式实现；还可以部分模块通过处理元件调用软件的形式实现，部分模块通过硬件的形式实现。例如，x模块可以为单独设立的处理元件，也可以集成在上述装置的某一个芯片中实现，此外，也可以以程序代码的形式存储于上述装置的存储器中，由上述装置的某一个处理元件调用并执行以上x模块的功能。其它模块的实现与之类似。此外这些模块全部或部分可以集成在一起，也可以独立实现。这里所述的处理元件可以是一种集成电路，具有信号的处理能力。在实现过程中，上述方法的各步骤或以上各个模块可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。

例如，以上这些模块可以是被配置成实施以上方法的一个或多个集成电路，例如：一个或多个特定集成电路(Application Specific Integrated Circuit，简称ASIC)，或，一个或多个微处理器(Digital Signal Processor，简称DSP)，或，一个或者多个现场可编程门阵列(Field Programmable Gate Array，简称FPGA)等。再如，当以上某个模块通过处理元件调度程序代码的形式实现时，该处理元件可以是通用处理器，例如中央处理器(Central Processing Unit，简称CPU)或其它可以调用程序代码的处理器。再如，这些模块可以集成在一起，以片上系统(system-on-a-chip，简称SOC)的形式实现。

本发明的存储介质上存储有计算机程序，其特征在于，该程序被处理器执行时实现上述的特定领域人名纠错方法。所述存储介质包括：ROM、RAM、磁碟、U盘、存储卡或者光盘等各种可以存储程序代码的介质。

如图4所示，于一实施例中，本发明的特定领域人名纠错终端包括：处理器41及存储器42。

所述存储器42用于存储计算机程序。

所述存储器42包括：ROM、RAM、磁碟、U盘、存储卡或者光盘等各种可以存储程序代码的介质。

所述处理器41与所述存储器42相连，用于执行所述存储器42存储的计算机程序，以使所述特定领域人名纠错终端执行上述的特定领域人名纠错方法。

优选地，所述处理器41可以是通用处理器，包括中央处理器(Central ProcessingUnit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital Signal Processor，简称DSP)、专用集成电路(Application SpecificIntegrated Circuit，简称ASIC)、现场可编程门阵列(Field Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

综上所述，本发明的特定领域人名纠错方法及系统、存储介质及终端通过关系抽取实现了上下文关联判断，通过知识图谱实现了有效校正，从而极大地提高了特定领域人名纠错的准确度；有效避免了人名纠错的漏报问题；可应用于体育、文艺、政务等特定领域的人名识别，适用范围广，实用性强。所以，本发明有效克服了现有技术中的种种缺点而具高度产业利用价值。

上述实施例仅例示性说明本发明的原理及其功效，而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下，对上述实施例进行修饰或改变。因此，举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变，仍应由本发明的权利要求所涵盖。

Claims

1.一种特定领域人名纠错方法，其特征在于：包括以下步骤：

训练关系抽取模型，所述关系抽取模型用于识别特定领域文本中两个命名实体之间的关系；

基于所述关系抽取模型获取特定领域的待纠错文本中人名与其他命名实体的关系识别结果；

构建特定领域的知识图谱；

基于所述知识图谱对所述关系识别结果对应的人名进行纠错。

2.根据权利要求1所述的特定领域人名纠错方法，其特征在于：训练关系抽取模型包括以下步骤：

获取特定领域文本；

标注所述特定领域文本中两个命名实体之间的关系；

对训练得到的关系抽取模型进行评估；

选取效果最佳的关系抽取模型作为训练好的关系抽取模型。

3.根据权利要求1所述的特定领域人名纠错方法，其特征在于：所述关系抽取模型采用参数共享的联合模型和联合解码的联合模型；所述参数共享的联合模型中两个命名实体以及两个命名实体关系的抽取是不同步的；所述联合解码的联合模型中两个命名实体以及两个命名实体关系的抽取是同步的。

4.根据权利要求1所述的特定领域人名纠错方法，其特征在于：基于所述知识图谱对所述关系识别结果对应的人名进行纠错包括以下步骤：

基于所述知识图谱判断所述关系识别结果是否正确；

若是，则无需对所述关系识别结果对应的人名进行纠错；

5.一种特定领域人名纠错系统，其特征在于：包括训练模块、抽取模块、构建模块和纠错模块；

所述构建模块用于构建特定领域的知识图谱；

6.根据权利要求5所述的特定领域人名纠错系统，其特征在于：所述训练模块训练关系抽取模型包括以下步骤：

获取特定领域文本；

标注所述特定领域文本中两个命名实体之间的关系；

对训练得到的关系抽取模型进行评估；

选取效果最佳的关系抽取模型作为训练好的关系抽取模型。

7.根据权利要求5所述的特定领域人名纠错系统，其特征在于：所述关系抽取模型采用参数共享的联合模型和联合解码的联合模型；所述参数共享的联合模型中两个命名实体以及两个命名实体关系的抽取是不同步的；所述联合解码的联合模型中两个命名实体以及两个命名实体关系的抽取是同步的。

8.根据权利要求5所述的特定领域人名纠错系统，其特征在于：所述纠错模块基于所述知识图谱对所述关系识别结果对应的人名进行纠错包括以下步骤：

基于所述知识图谱判断所述关系识别结果是否正确；

若是，则无需对所述关系识别结果对应的人名进行纠错；

9.一种存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1至4中任一项所述的特定领域人名纠错方法。

10.一种特定领域人名纠错终端，其特征在于，包括：处理器及存储器；

所述存储器用于存储计算机程序；

所述处理器用于执行所述存储器存储的计算机程序，以使所述特定领域人名纠错终端执行权利要求1至4中任一项所述的特定领域人名纠错方法。