CN112069268A

CN112069268A - 一种基于语义关联性的文本错误识别方法及系统

Info

Publication number: CN112069268A
Application number: CN202010820199.8A
Authority: CN
Inventors: 蓝建敏; 池沐霖
Original assignee: Excellence Information Technology Co ltd
Current assignee: Excellence Information Technology Co ltd
Priority date: 2020-08-14
Filing date: 2020-08-14
Publication date: 2020-12-11

Abstract

本发明涉及一种基于语义关联性的文本错误识别方法，包括：获取文本中的人员信息，为第一信息；根据所述人员信息从预先建立的数据库中提取预置人员信息，为第二信息；判断所述第二信息与所述第一信息是否一致，获得判断结果；若所述判断结果为是，则所述文本正确；若所述判断结果为否，则所述文本错误。本发明将文本信息中的人员信息与预先建立的数据库中的预置人员信息进行对比，可以对公文文本中的人名前置后置称谓和人员排序进行校正。

Description

一种基于语义关联性的文本错误识别方法及系统

技术领域

本发明涉及文本错误识别技术领域，特别是涉及一种基于语义关联性的文本错误识别方法及系统。

背景技术

随着信息化时代的发展，人工智能技术的进步，中文文本自动校对技术取得了一定发展。目前的文本校对技术主要包括三种：一是根据预设数据库检查、校对文稿中的职务、名字信息；二是基于知识图谱的中文文本校对方法，从错别字、成分缺失与定义矛盾三个方面对文本进行语义校对；三是通过研究中文语义提取、中文语义查错和中文语义纠正相关关键技术，实现基于本体一致性验证推理的中文语义校对。

但是对于公文文本，由于公文文本具有特殊性，现有的文本校对技术对于公文校对还存在一定局限性。因此如何有效校对公文是否规范、正确，是一个亟需解决的问题。

发明内容

本发明的目的是提供一种基于语义关联性的文本错误识别方法及系统，以实现校正公文文本中人名的前置后置称谓和人员排序。

为实现上述目的，本发明提供了如下方案：

一种基于语义关联性的文本错误识别方法，包括

获取文本中的人员信息，为第一信息；

根据所述人员信息从预先建立的数据库中提取预置人员信息，为第二信息；

判断所述第二信息与所述第一信息是否一致，获得判断结果；

若所述判断结果为是，则所述文本正确；

若所述判断结果为否，则所述文本错误。

可选的，所述第一信息包括人名、称谓信息和人员排序信息。

可选的，所述数据库中包含现有的人员人名信息、人员称谓信息和人员排序信息。

一种基于语义关联性的文本错误识别系统，包括

第一获取模块，用于获取文本中的人员信息，为第一信息；

第二获取模块，用于根据所述人员信息从预先建立的数据库中提取预置人员信息，为第二信息；

判断模块，用于判断所述第二信息与所述第一信息是否一致，获得判断结果；

第一执行模块，用于当所述判断结果为是时，判定所述文本正确；

第二执行模块，用于当所述判断结果为否时，判定所述文本错误。

根据本发明提供的具体实施例，本发明公开了以下技术效果：

本发明公开了一种基于语义关联性的文本错误识别方法，包括：获取文本中的人员信息，为第一信息；根据所述人员信息从预先建立的数据库中提取预置人员信息，为第二信息；判断所述第二信息与所述第一信息是否一致，获得判断结果；若所述判断结果为是，则所述文本正确；若所述判断结果为否，则所述文本错误。本发明将文本信息中的人员信息与预先建立的数据库中的预置人员信息进行对比，可以对公文文本中的人名前置后置称谓和人员排序进行校正。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种基于语义关联性的文本错误识别方法流程图；

图2为本发明实施例提供的识别方法的过程图；

图3为本发明实施例提供的识别关键词的过程图；

图4为本发明实施例提供的一种基于语义关联性的文本错误识别系统的系统图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

实施例1

图1为本发明实施例提供的一种基于语义关联性的文本错误识别方法流程图，如图1所示，方法包括：

步骤101：获取文本中的人员信息，为第一信息。所述第一信息包括人名、称谓信息和人员排序信息，所述数据库中包含现有的人员人名信息、人员称谓信息和人员排序信息。

步骤102：根据所述人员信息从预先建立的数据库中提取预置人员信息，为第二信息。

步骤103：判断所述第二信息与所述第一信息是否一致，获得判断结果。

步骤104：结束。若所述判断结果为是，则所述文本正确；若所述判断结果为否，则所述文本错误。

实施例2

图2为本发明实施例提供的识别方法的过程图，如图2所示，识别方法包括：

获取包含人名信息、排位信息和职务信息的文本。

从预先建立的数据库中提取预置的人名和排位信息、人名和称谓信息。

形成待比较的人名排序序列以及待检验的人名称谓信息。

将待比较的人名排序序列以及待检验的人名称谓信息分别与获取的文本进行比对。

若比对无误，则文本正确。

若比对有误，则报错。

图3为本发明实施例提供的识别关键词的过程图，如图3所示，识别关键词的过程包括：

获取文本识别语境。

在预先建立的数据库中查找获取的语境，判断获取的语境是否在特定语境内。

若没有在特定语境内，则不报错。

若在特定语境内，则获取文本语境中的相关语境术语。

判断相关语境术语是否包含双引号。

若是，则不报错。

若否，则报错，相关语境术语需添加双引号。

实施例3

图4为本发明实施例提供的一种基于语义关联性的文本错误识别系统的系统图，如图4所示，系统包括：

第一获取模块201，用于获取文本中的人员信息，为第一信息；

第二获取模块202，用于根据所述人员信息从预先建立的数据库中提取预置人员信息，为第二信息；

判断模块203，用于判断所述第二信息与所述第一信息是否一致，获得判断结果；

第一执行模块204，用于当所述判断结果为是时，判定所述文本正确；

第二执行模块205，用于当所述判断结果为否时，判定所述文本错误。

根据本发明公开的具体实施例，本发明公开了以下技术效果：

1)采用本发明的方法，通过匹配数据库预置信息，可以识别多种搭配的人员与称谓信息，解决人名的多职务、多种搭配以及人员的前后置称谓校对问题，确保公文的规范性与正确性。此为多种搭配修饰和句法分析的文本校对实际应用，是技术上的一大创新点。

2)采用本发明的方法，通过匹配数据库预置信息，可以识别人员排位顺序信息，解决公文中的人员排位顺序校对问题，避免出现错误，保证公文质量。

3)采用本发明的方法，可以对文本内容进行充分分析，识别相关语境术语，分析方法包括识别文本中该词汇是否存在特殊语境，以及识别是否有标点符号(如加双引号)，确保文本的正确性。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于语义关联性的文本错误识别方法，其特征在于，包括

获取文本中的人员信息，为第一信息；

若所述判断结果为是，则所述文本正确；

若所述判断结果为否，则所述文本错误。

2.根据权利要求1所述的文本错误识别方法，其特征在于，所述第一信息包括人名、称谓信息和人员排序信息。

3.根据权利要求1所述的文本错误识别方法，其特征在于，所述数据库中包含现有的人员人名信息、人员称谓信息和人员排序信息。

4.一种基于语义关联性的文本错误识别系统，其特征在于，包括

第一获取模块，用于获取文本中的人员信息，为第一信息；