CN115618852A

CN115618852A - 一种文本数字化自动校对系统

Info

Publication number: CN115618852A
Application number: CN202211465526.8A
Authority: CN
Inventors: 雷燕芳; 秦余伟; 冯兴旺
Original assignee: Shandong Tiancheng Book Industry Co ltd
Current assignee: Shandong Tiancheng Book Industry Co ltd
Priority date: 2022-11-22
Filing date: 2022-11-22
Publication date: 2023-01-17
Anticipated expiration: 2042-11-22
Also published as: CN115618852B

Abstract

本发明涉及数据校对领域，尤其涉及一种文本数字化自动校对系统，本发明设置数据接收模块、数据存储模块以及数据处理模块，确定正文文本各段落所属的技术领域，将正文文本划分为若干段落，并逐个判定各段落所属的技术领域，并且，确定所述正文文本中的多技术领域名词，根据多技术领域名词所属句子或段落的技术领域确定各多技术领域名词的词义以及词性，并以此为基础进行语义分析，确定词义以及词性与语义成分是否符合语义搭配逻辑，能够识别句子中多技术领域词汇在不同技术领域应用时造成的歧义，避免在语义分析时由于在不同领域同一名词的语义以及词性不同导致出现歧义进而造成误判，进而提高文本校对的准确性和可靠性。

Description

一种文本数字化自动校对系统

技术领域

本发明涉及数据校对领域，尤其涉及一种文本数字化自动校对系统。

背景技术

随着机器学习及文字智能识别技术的飞速提升，日常办公效率急需提高，大数据时代下各种文本信息爆炸，传统的文本分析处理工作逐渐被计算机取代，文本数据量越大，其中所包含的错误的总数也越多，通过校对工作来纠正文本中的错误显得尤其重要，传统的校对主要依赖人工，通过人来发现和纠正文本中的错误，人工校对效率低、强度大、周期长，显然已经不能满足目前文本快速增长的需求，智能校对系统在这个背景下应运而生。

中国专利公开号：CN114120332A，公开了如下内容，该发明涉及文档校核技术领域，是一种基于人工智能的文档自动校核方法，其包括以下步骤：第一步:开放场景下的文本检测与识别；第二步:结构化信息的智能提取；第三步:高效智能文书校对；第四步:文档主题结构及关键内容提取。该发明利用公司内部的前期沉淀文档数据，借助前沿的机器学习及文字智能识别技术，编制预制基础审核规则，构建智能文档审阅模型，实现文字识别，智能化信息提取，智能文书格式文字校对，关键内容识别提取等新型智能化文档处理功能，确保日常内部文件文档编写规范统一，有效识别文字错误、前后不一致等文档错误问题，实现智能办公，提升文件文档处理效率、降低工作成本、有效提高横向协同和上下联动工作质效。

但是，现有技术中还存在以下问题：

现有技术中，在对文本校对时未考虑部分词汇在不同技术领域会存在不同的词义以及词性，因此会导致在对包含上述部分词汇的句子进行文本校对时会出现误判。

发明内容

为解决上述问题，本发明提供一种文本数字化自动校对系统，其包括：

数据接收模块，用以接收各用户端发出的文本信息，所述文本信息包括标题文本以及正文文本；

数据存储模块，其包括若干技术领域数据库，各所述技术领域数据库内存储有对应技术领域的若干关键词以及各关键词在对应技术领域的词义以及词性；

数据处理模块，其包括关键词识别单元、领域判定单元以及文本校对单元，所述关键词识别单元与所述数据接收模块以及数据存储模块分别连接，用以将文本信息中的名词逐个与各所述技术领域数据库中的关键词进行对比，并根据对比结果确定各名词所属的技术领域；

所述领域判定单元与所述数据接收模块以及数据存储模块分别连接，用以判定标题文本所属的技术领域，并根据判定结果确定对正文文本各段落所属的技术领域的判定方式，并根据对应判定方式判定正文文本各段落所属的技术领域；

所述领域判定单元判定正文文本各段落所属的技术领域时包括，将所述正文文本划分为若干段落，并根据各段落中属于各技术领域的句子数量判定各段落所属的技术领域；

且，所述领域判定单元将各段落划分为若干句子，根据各所述句子中各技术领域的名词的数量判定各句子所属的技术领域以及是否对所述句子所属的技术领域进行补充判定；

所述关键词识别单元还用以确定所述正文文本中同时属于多个技术领域的名词，并将各所述名词标记为多技术领域名词，根据各所述多技术领域名词所属句子或段落的技术领域确定各所述多技术领域名词的词义以及词性；

所述文本校对单元用以对正文文本进行语义校对，以确定所述正文文本中各句子的词性以及语义成分是否满足语义搭配逻辑。

进一步地，所述关键词识别单元提取所述标题文本中的所有名词，将各所述名词逐个与各所述技术领域数据库中的关键词进行对比，并根据对比结果确定所述标题文本中的名词所属的技术领域，其中，

当名词与技术领域数据库中的关键词相同时，所述关键词识别单元确定所述技术领域数据库对应的技术领域，并判定所述名词属于所述技术领域。

进一步地，所述领域判定单元判定所述标题文本中的所有名词是否属于相同的技术领域，并根据判定结果确定所述标题文本所属的技术领域，其中，

当所述标题文本中的所有名词属于相同的技术领域时，所述领域判定单元判定所述标题文本属于所述技术领域，并判定正文文本的各段落属于所述技术领域；

当所述标题文本中的所有名词不属于相同的技术领域时，所述领域判定单元判定无法确定所述标题文本所属的技术领域，需根据正文文本的各段落中各句子所属的技术领域判定各所述段落所属的技术领域。

进一步地，所述领域判定单元将所述正文文本划分为若干段落，并逐个判定各所述段落所属的技术领域，其中，

所述领域判定单元确定段落中各句子所属的技术领域，计算所述段落中属于各技术领域的句子数量，并确定句子数量最多的技术领域，将所述技术领域确定为所述段落的技术领域。

进一步地，所述领域判定单元将所述段落划分为若干句子，以确定段落中各句子所属的技术领域，其中，

所述领域判定单元调用所述关键词识别单元确定所述段落的句子中各名词所属的技术领域，

当所述句子中已确定技术领域的名词均属于同一技术领域时，所述领域判定单元判定所述句子属于所述技术领域；

当所述句子中全部名词均无法确定技术领域，所述领域判定单元判定所述句子无法确定技术领域；

当所述句子中的各已确定技术领域的名词属于多个技术领域，则所述领域判定单元将所述句子标记，并判定需对所述句子所属的技术领域进行补充判定。

进一步地，所述领域判定单元对所述句子所属的技术领域进行补充判定，其中，

所述领域判定单元确定所述句子中各技术领域的名词数量，并确定名词数量最多的技术领域，并按照公式(1)计算所述句子对应的领域占比参量E，

公式(1)中，N表示属于所述技术领域的名词数量，N0表示所述句子中的已确定技术领域的名词的数量；

所述领域判定单元将所述领域占比参量E与预设领域对比参量E0进行对比，根据对比结果判定所述句子所属的技术领域，其中，

当E≥E0时，所述领域判定单元判定所述句子所属的技术领域为所述名词数量最多的技术领域；

当E＜E0时，所述领域判定单元确定所述句子所属的段落，确定所述段落所属的技术领域，并判定所述句子所属的技术领域与所述段落所属的技术领域相同。

进一步地，所述领域判定单元确定所述正文文本中同时属于多个技术领域的名词，并将各所述名词标记为多技术领域名词，根据各所述多技术领域名词所属句子或段落的技术领域确定各所述多技术领域名词的词义以及词性，其中，

若多技术领域名词所属的句子已被标记，则所述领域判定单元确定所述句子所属的技术领域，并在所述技术领域对应的技术领域数据库中检索与所述多技术领域名词相同的关键词，并将所述关键词对应的词义以及词性确定为所述多技术领域名词的词义以及词性；

若多技术领域名词所属的句子未被标记，则所述领域判定单元确定所述多技术领域名词所属的段落的技术领域，并在所述技术领域对应的技术领域数据库中检索与所述多技术领域名词相同的关键词，并将所述关键词对应的词义以及词性确定为所述多技术领域名词的词义以及词性。

进一步地，所述领域判定单元在技术领域数据库中检索与多技术领域名词相同的关键词时，若所述技术领域数据库中不存在与所述多技术领域名词相同的关键词，则记录所述多技术领域名词所属的句子，并发送至文本校对单元，所述文本校对单元不对被记录的句子进行文本校对。

进一步地，所述数据处理模块内还设置有文本校对单元，以对正文文本进行文本校对，进行所述文本校对时，包括进行语义校对，其中，

将正文文本中的句子划分为若干部分，确定各所述部分的词性以及各所述部分的语义成分，判定各所述部分的词性与各所述部分的语义成分是否预设符合语义搭配逻辑，所述语义成分包括主语、谓语、宾语、定语、状语、补语。

进一步地，所述文本校对单元判定句子不符合语义搭配逻辑时，将所述句子在文本中标注。

与现有技术相比，本发明设置数据接收模块、数据存储模块以及数据处理模块，通过将标题文本中的所有名词与各技术领域对应的专业名词进行对比确定标题文本所属的技术领域，并判定对正文文本各段落所属的技术领域的判定方式，包括将正文文本划分为若干段落，并逐个判定各所述段落所属的技术领域，其中，根据各段落中属于各技术领域的句子数量判定各段落所属的技术领域，并且，确定所述正文文本中的多技术领域名词，根据多技术领域名词所属句子或段落的技术领域确定各多技术领域名词的词义以及词性，并以此为基础进行语义分析，确定词义以及词性与语义成分是否符合语义搭配逻辑，能够识别句子中多技术领域词汇在不同技术领域应用时造成的歧义，避免在语义分析时由于在不同领域同一名词的语义以及词性不同导致出现歧义进而造成误判，进而提高文本校对的准确性和可靠性。

尤其，本发明通过将标题文本中的所有名词与各技术领域对应的若干专业名词进行对比确定标题文本所属的技术领域，在实际情况中标题文本包含技术领域专业关键词时常常能体现出正文文本的技术领域，对于可直接确定标题文本技术领域的文本信息，其正文文本通过标题文本的技术领域进行确定，在保证可靠性的前提下减少数据运算量，提高文本校对的准确性和可靠性。

尤其，本发明将不能通过标题文本确定文本所属的技术领域的正文文本拆分为单个句子，将单个句子拆分为若干名词，若单个句子中全部名词均属于同一技术领域，说明该句子与此技术领域具有很大的关联关系，则领域判定单元确定该句子所属的技术领域为此技术领域，若单个句子中全部正文词汇均不属于任一技术领域，则说明该句子与全部技术领域均具有很小的关联关系，则无法确定该句子所属的技术领域，通过将单个句子拆分成若干正文词汇，将若干正文词汇与技术领域数据库中的关键词进行对比的方式确定句子所属的技术领域，保证了技术领域判定的精确度，保证了词义以及词性分析的效果。

尤其，本发明对单个句子中全部正文词汇不属于同一技术领域的句子进行补充判定，通过计算各技术领域对应的名词的数量，把句子与技术领域之间的关联关系用数字的形式量化，简单可靠的确定句子与技术领域之间的对应关系，进一步保证技术领域判定的精确度。

尤其，所述领域判定单元确定正文文本中同时属于多个技术领域的名词，并将各名词标记为多技术领域名词，根据各多技术领域名词所属句子或段落的技术领域确定技术领域名词的词义以及词性并以此为基准后续进行语义分析，并且，对于属于多技术领域的名词，确定其在正文文本中对应的技术领域，避免在语义分析时由于在不同领域同一名词的语义以及词性不同导致出现歧义进而造成误判，进而能够提高文本校对的准确性和可靠性。

附图说明

图1为发明实施例的文本数字化自动校对系统结构示意图；

图2为发明实施例的文本数字化自动校对系统的数据处理模块结构简图。

具体实施方式

为了使本发明的目的和优点更加清楚明白，下面结合实施例对本发明作进一步描述；应当理解，此处所描述的具体实施例仅仅用于解释本发明，并不用于限定本发明。

下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是，这些实施方式仅仅用于解释本发明的技术原理，并非在限制本发明的保护范围。

需要说明的是，在本发明的描述中，术语“上”、“下”、“左”、“右”、“内”、“外”等指示的方向或位置关系的术语是基于附图所示的方向或位置关系，这仅仅是为了便于描述，而不是指示或暗示所述装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

此外，还需要说明的是，在本发明的描述中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域技术人员而言，可根据具体情况理解上述术语在本发明中的具体含义。

请参阅图1以及图2所示，其为本发明实施例的文本数字化自动校对系统结构示意图以及数据处理模块结构简图，本发明的文本数字化自动校对系统包括：

所述领域判定单元判定正文文本各段落所属的技术领域时包括，将所述正文文本划分为若干段落，并逐个判定各所述段落所属的技术领域，其中，根据各段落中属于各技术领域的句子数量判定各段落所属的技术领域；

所述关键词识别单元用以确定所述正文文本中同时属于多个技术领域的名词，并将各所述名词标记为多技术领域名词，根据各所述多技术领域名词所属句子或段落的技术领域确定各所述多技术领域名词的词义以及词性；

具体而言，所述关键词识别单元提取所述标题文本中的所有名词，将各所述名词逐个与各所述技术领域数据库中的关键词进行对比，并根据对比结果确定所述标题文本中的名词所属的技术领域，其中，

具体而言，所述领域判定单元判定所述标题文本中的所有名词是否属于相同的技术领域，并根据判定结果确定所述标题文本所属的技术领域，其中，

具体而言，本发明通过将标题文本中的所有名词与各技术领域对应的若干专业名词进行对比确定标题文本所属的技术领域，在实际情况中标题文本包含技术领域专业关键词时常常能体现出正文文本的技术领域，对于可直接确定标题文本技术领域的文本信息，其正文文本通过标题文本的技术领域进行确定，在保证可靠性的前提下减少数据运算量，提高文本校对的准确性和可靠性。

具体而言，所述领域判定单元将所述正文文本划分为若干段落，并逐个判定各所述段落所属的技术领域，其中，

具体而言，所述领域判定单元将所述段落划分为若干句子，以确定段落中各句子所属的技术领域，其中，

具体而言，本发明将不能通过标题文本确定文本所属的技术领域的正文文本拆分为单个句子，将单个句子拆分为若干名词，若单个句子中全部名词均属于同一技术领域，说明该句子与此技术领域具有很大的关联关系，则领域判定单元确定该句子所属的技术领域为此技术领域，若单个句子中全部正文词汇均不属于任一技术领域，则说明该句子与全部技术领域均具有很小的关联关系，则无法确定该句子所属的技术领域，通过将单个句子拆分成若干正文词汇，将若干正文词汇与技术领域数据库中的关键词进行对比的方式确定句子所属的技术领域，保证了技术领域判定的精确度，保证了词义以及词性分析的效果。

具体而言，所述领域判定单元对所述句子所属的技术领域进行补充判定，其中，

所述领域判定单元将所述领域占比参量E与预设领域对比参量E0进行对比，根据对比结果判定所述句子所属的技术领域，其中，0.5≤E0≤0.8，

具体而言，本发明对单个句子中全部正文词汇不属于同一技术领域的句子进行补充判定，通过计算各技术领域对应的名词的数量，把句子与技术领域之间的关联关系用数字的形式量化，简单可靠的确定句子与技术领域之间的对应关系，进一步保证技术领域判定的精确度。

具体而言，所述领域判定单元确定所述正文文本中同时属于多个技术领域的名词，并将各所述名词标记为多技术领域名词，根据各所述多技术领域名词所属句子或段落的技术领域确定各所述多技术领域名词的词义以及词性，其中，

具体而言，所述领域判定单元确定正文文本中同时属于多个技术领域的名词，并将各名词标记为多技术领域名词，根据各多技术领域名词所属句子或段落的技术领域确定技术领域名词的词义以及词性并以此为基准后续进行语义分析，并且，对于属于多技术领域的名词，确定其在正文文本中对应的技术领域，避免在语义分析时由于在不同领域同一名词的语义以及词性不同导致出现歧义进而造成误判，进而能够提高文本校对的准确性和可靠性。

具体而言，所述领域判定单元在技术领域数据库中检索与多技术领域名词相同的关键词时，若所述技术领域数据库中不存在与所述多技术领域名词相同的关键词，则记录所述多技术领域名词所属的句子，并发送至文本校对单元，所述文本校对单元不对被记录的句子进行文本校对。

具体而言，所述数据处理模块内还设置有文本校对单元，以对正文文本进行文本校对，进行所述文本校对时，包括进行语义校对，其中，

具体而言，所述文本校对单元判定句子不符合语义搭配逻辑时，将所述句子在文本中标注。

具体而言，所述文本校对单元进行语义校对时，可以通过预设模型算法进行语义校对，根据句子成分判定是否符合语义搭配逻辑，其为成熟现有技术，此处不再赘述，文本校对单元也可以预设一个数据库，其内储存有若干语义搭配的逻辑，确定句子各部分的语义成分后与语义搭配的逻辑进行对比，判定是否符合语义搭配的逻辑，其同样为现有技术，此处不再赘述，本发明的主要点在于判定文本的技术领域，并确定一些在多技术领域中均存在且具有不同词性以及词义的名词在所述文本中对应的词性以及词义。

至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征做出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims

1.一种文本数字化自动校对系统，其特征在于，包括：

数据处理模块，其包括关键词识别单元、领域判定单元以及文本校对单元，所述关键词识别单元用以将文本信息中的名词逐个与各所述技术领域数据库中的关键词进行对比，根据对比结果确定各名词所属的技术领域；

所述领域判定单元用以判定标题文本所属的技术领域以及正文文本各段落所属的技术领域，判定正文文本各段落所属的技术领域时包括，将所述正文文本划分为若干段落，并根据各段落中属于各技术领域的句子数量判定各段落所属的技术领域；

且，所述领域判定单元根据段落的各句子中各技术领域的名词的数量判定各句子所属的技术领域以及是否对各句子所属的技术领域进行补充判定；

所述关键词识别单元还用以标记正文文本中的多技术领域名词，根据各所述多技术领域名词所属句子或段落的技术领域确定各所述多技术领域名词的词义以及词性；

所述文本校对单元用以对正文文本语义校对，确定所述正文文本中各句子的词性以及语义成分是否满足语义搭配逻辑。

2.根据权利要求1所述的文本数字化自动校对系统，其特征在于，所述关键词识别单元提取所述标题文本中的所有名词，将各所述名词逐个与各所述技术领域数据库中的关键词进行对比，并根据对比结果确定所述标题文本中的名词所属的技术领域，其中，

3.根据权利要求2所述的文本数字化自动校对系统，其特征在于，所述领域判定单元判定所述标题文本中的所有名词是否属于相同的技术领域，并根据判定结果确定所述标题文本所属的技术领域，其中，

4.根据权利要求3所述的文本数字化自动校对系统，其特征在于，所述领域判定单元将所述正文文本划分为若干段落，并逐个判定各所述段落所属的技术领域，其中，

5.根据权利要求4所述的文本数字化自动校对系统，其特征在于，所述领域判定单元将所述段落划分为若干句子，以确定段落中各句子所属的技术领域，其中，

6.根据权利要求5所述的文本数字化自动校对系统，其特征在于，所述领域判定单元对所述句子所属的技术领域进行补充判定，其中，

7.根据权利要求6所述的文本数字化自动校对系统，其特征在于，所述领域判定单元确定所述正文文本中同时属于多个技术领域的名词，并将各所述名词标记为多技术领域名词，根据各所述多技术领域名词所属句子或段落的技术领域确定各所述多技术领域名词的词义以及词性，其中，

8.根据权利要求7所述的文本数字化自动校对系统，其特征在于，所述领域判定单元在技术领域数据库中检索与多技术领域名词相同的关键词时，若所述技术领域数据库中不存在与所述多技术领域名词相同的关键词，则记录所述多技术领域名词所属的句子，并发送至文本校对单元，所述文本校对单元不对被记录的句子进行文本校对。

9.根据权利要求1所述的文本数字化自动校对系统，其特征在于，所述数据处理模块内还设置有文本校对单元，以对正文文本进行文本校对，进行所述文本校对时，包括进行语义校对，其中，

10.根据权利要求1所述的文本数字化自动校对系统，其特征在于，所述文本校对单元判定句子不符合语义搭配逻辑时，将所述句子在文本中标注。