CN111814485A

CN111814485A - 一种基于海量标准文献数据的语义解析方法及装置

Info

Publication number: CN111814485A
Application number: CN202010657197.1A
Authority: CN
Inventors: 倪亚晖; 武斌; 赵锦春; 林雪
Original assignee: Individual
Current assignee: Individual
Priority date: 2020-07-09
Filing date: 2020-07-09
Publication date: 2020-10-23

Abstract

本发明公开了一种基于海量标准文献数据的语义解析方法及装置，该方法具体包括：步骤一：采集获取文字信息，对标准扫描文件进行读取；步骤二：对步骤一中的读取结果进行核对，并对有异议部分进行二次读取修改；步骤三：采集获取公式、图片、表格内容信息，对标准扫描文件进行读取；步骤四：对步骤三中的读取结果进行核对，并对有异议部分进行二次读取修改；步骤五：构建元数据提取系统，通过语义解析建立词库。其解决了同义词和一词多义的问题，建立丰富的词库资源，进而提高海量标准文献数据处理准确度；同时，可单独采集获取公式、图片、表格等内容信息，自动将同一版面的文章、表格等分开，便于分别处理，并按照规定的顺序进行识别。

Description

一种基于海量标准文献数据的语义解析方法及装置

技术领域

本发明涉及计算机技术领域，具体的涉及一种基于海量标准文献数据的语义解析方法及装置。

背景技术

语义分析指运用各种方法，学习与理解一段文本所表示的语义内容，任何对语言的理解都可以归为语义分析的范畴，语义分析关注通过建立有效的模型和系统，实现各个语言单位的自动语义分析，从而实现理解整个文本表达的真实语义，例如获取或区别单词的语义。

语义分析(SemanticAnalysis)是人工智能的一个分支，是自然语言处理技术的几个核心任务，涉及语言学、计算语言学、机器学习，以及认知语言等多个学科，语义分析任务有助于促进其他自然语言处理任务的快速发展，人工智能中的语义分析技术已经在图像识别、语音识别等多个领域取得了突破性进展。

然而，文字信息博大精深，通常存在同义词及一词多义的情况，若对其语义解析产生偏差，则语义可产生质的变化。尤其对扫描文件进行读取时，语句通畅、句意精确，是人们所追求。

另外，在对扫描文件进行读取时，对于文字存在的公式、图片、表格内容信息，现有技术中，通常直接略过，亦或直接获取错误信息，在读取后，通常需要人为进行手动输入，从而不利于人们从容应用。

为此，针对上述所述所需，设计一种方法/装置，用于解决文本处理中的同义词、一词多义及对公式、图片、表格内容信息的获取的问题，特别是对于扫描文件信息的精确解析获取的方法/装置，可同时解决上述存在的问题，成为了目前技术人员的创新设计理念。

发明内容

为克服现有技术的缺陷，本发明的目的在于：提供一种基于海量标准文献数据的语义解析方法及装置，解决了现有技术中，由于存在同义词及一词多义的情况，影响对文字信息进行精确解析、容易存在解析偏差的问题；及对公式、图片、表格内容信息的获取等上述问题。

鉴于上述问题，本发明提供一种基于海量标准文献数据的语义解析方法及装置。

第一方面，本发明提供一种基于海量标准文献数据的语义解析方法，所述方法具体步骤包括：

步骤一：采集获取文字信息，对标准扫描文件进行读取；

步骤二：对步骤一中的读取结果进行核对，并对有异议部分进行二次读取修改；

步骤三：采集获取公式、图片、表格内容信息，对标准扫描文件进行读取；

步骤四：对步骤三中的读取结果进行核对，并对有异议部分进行二次读取修改；

步骤五：构建元数据提取系统，通过语义解析建立词库。

优选地，所述步骤一中，采集获取文字信息的方式采用模式化智能读取或鼠标拖拽形式自动提取。

优选地，采集获取文字信息的方式具体方法步骤如下：

将标准扫描文件转化为双层PDF数据格式，包括文字型和图像型，其中，以文字型为主、图像型为辅的方式进行校验；

通过整合和收集大量的标准文本格式及其元数据位置信息，建立各大类标准模式；读取解析PDF数据，根据文本内容的位置信息以及识别出的文字信息自动匹配标准对应模式；

双层PDF数据匹配对应模式后，将对双层PDF的文字信息进行校验，通过模式识别定位元数据所在文本位置并将其对应至相关字段；

待文本型数据提取结束后，将会读取对应图像型数据，进行正确性校验。

优选地，所述根据文本内容的位置信息以及识别出的文字信息自动匹配标准的具体方式为：

整合和收集大量的标准信息与资源，建立标准词典库；

根据标准分类提取标准数据：处于同一字段的标准元数据，将通过字词分割法成为字词，并为其打上原有标准元数据标签；拆分的字词将在普通词典库进行释义。

优选地，对拆分的字词进行释义的过程中，释义相似度为80-99％的词认为是同义词；元数据是字词的组合，根据字词的相似度进行比对，组合释义相似度为80-99％的元数据。

所述步骤一中，文字信息的读取方式具体包括文本处理、索引建立、检索查询、结果处理、索引维护和索引优化，对读取结果进行排序；其中，基于概念的文本自动分类与语义检索，对标准文本自动分类、标注与检索，构建语义词典。

优选地，所述步骤三中，采集获取公式、图片、表格内容信息的方式，具体采用html转换成表格形式进行抽取。

优选地，该语义解析方法包括自然语言语义学、模糊数学、粗糙集和概率论，且语义解析方法采用机器学习方法自动构建同义概念的隶属度，建立词库。

第二方面，本发明还提供一种基于海量标准文献数据的语义解析装置，具体包括：

第一单元，用于采集获取文字信息，对标准扫描文件进行读取；

第二单元，用于对第一单元的读取结果进行核对，并对有异议部分进行二次读取修改；

第三单元，用于采集获取公式、图片、表格内容信息，对标准扫描文件进行读取；

第四单元，用于对第三单元的读取结果进行核对，并对有异议部分进行二次读取修改；

第五单元，用于构建元数据提取系统，通过语义解析建立词库。

第三方面，本发明还另提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述方法的步骤。

该发明记载技术方案所带来的有益效果：

1、本发明提供的一种基于海量标准文献数据的语义解析方法及装置，其可对标准扫描文件的模式化智能读取(包含指定元数据提取)或通过鼠标拖拽形式自动提取，通过对提取结果进行核对，并可以对异议部分进行读取修改；对公式、图片、表格等内容信息采集的特殊智能处理，二次核对之后，构建元数据提取系统方法。

2、本发明根据文本内容的位置信息以及识别出的文字信息自动匹配标准过程中，根据标准分类提取标准数据：处于同一字段的标准元数据，将通过字词分割法成为字词，并为其打上原有标准元数据标签；拆分的字词将在普通词典库进行释义；同时，释义相似度为80-99％的词认为是同义词；元数据是字词的组合，根据字词的相似度进行比对，组合释义相似度为80-99％的元数据；从而建立标准文献词库资源；继而解决文本处理中的同义词和一词多义的问题；建立丰富的词库资源，最终实现海量标准文献数据的提取、解析自动化和电子化，提高海量标准文献数据处理准确度。

3、本发明可单独采集获取公式、图片、表格等内容信息，采用双层PDF数据格式，包括文字型和图像型，其中，以文字型为主、图像型为辅的方式进行校验，自动将同一版面的文章、表格等分开，以便于分别处理，并按照规定的顺序进行识别。

本发明所涉及的一种基于海量标准文献数据的语义解析方法及装置，在标准文献数据处理过程中，应用语义解析算法技术，解决同义词和一词多义的问题，建立丰富的词库资源，进而提高海量标准文献数据处理准确度；同时，可单独采集获取公式、图片、表格等内容信息，自动将同一版面的文章、表格等分开，以便于分别处理，并按照规定的顺序进行识别。

附图说明

图1为本发明基于海量标准文献数据的语义解析方法流程示意图。

图2为本发明基于海量标准文献数据的语义解析方法中采集获取文字信息的流程示意图。

图3为图2采集获取文字信息过程中自动匹配标准的流程示意图。

图4为本发明基于海量标准文献数据的语义解析装置框架示意图。

具体实施方式

本发明实施例提供了一种基于海量标准文献数据的语义解析方法及装置，用于解决现有技术中，由于存在同义词及一词多义的情况，影响对文字信息进行精确解析、容易存在解析偏差的问题，及对公式、图片、表格内容信息的获取等上述问题；本发明提供的技术方案总体思路如下：

为了更好的理解上述技术方案，下面通过附图以及具体实施例对本说明书实施例的技术方案做详细的说明，应当理解本说明书实施例以及实施例中的具体特征是对本说明书实施例技术方案的详细的说明，而不是对本说明书技术方案的限定，在不冲突的情况下，本说明书实施例以及实施例中的技术特征可以相互组合。

实施例一：

图1为本发明实施例中一种基于海量标准文献数据的语义解析方法的流程示意图。

本发明提供的一种基于海量标准文献数据的语义解析方法，其可对标准扫描文件的模式化智能读取(包含指定元数据提取)或通过鼠标拖拽形式自动提取，通过人工对计算机抽取结果进行核对，并可以手工或者重新对某一部分进行抽取修改，对公式、图片、表格等内容信息采集的特殊智能处理，二次核对之后，构建元数据提取系统方法，解决文本处理中的同义词和一词多义的问题，建立丰富的词库资源，最终实现海量标准文献数据的提取、解析自动化和电子化，自动将同一版面的文章、表格等分开，以便于分别处理，并按照规定的顺序进行识别。

全文检索文字信息的读取方式主要包括文本处理、索引建立、检索查询、结果处理、索引维护和索引优化，按照一定的相关度算法对检索结果进行排序，随着数据量增加而进行索引自动压缩，以提高查询效率，搜索引擎基于概念的文本自动分类与语义检索，采用机器学习的方法实现对标准文本的自动分类、标注与检索，构建语义词典，实现对语义关联关系网络的动态管理，借助自然语言语义学、模糊数学、粗糙集、概率论等方面的知识，解决同义词和一词多义的问题，运用机器学习方法自动构建同义概念隶属度，建立丰富的词库资源。

如图1所示，该方法具体包括：

步骤一：采集获取文字信息，采用模式化智能读取或鼠标拖拽形式自动提取，对标准扫描文件进行读取。

具体的，如图2所示，采集获取文字信息的方式具体方法步骤如下：

通过开源的PDFbox控件，将标准扫描文件转化为双层PDF数据格式，具体包括文字型和图像型，其中，以文字型为主、图像型为辅；转换完成后将会对PDF图像型和文字型两部分进行同时校验和解析，采用软件以文字型为主，图像型为辅的校验方式；

通过整合和收集大量的标准文本格式及其元数据位置信息，建立各大类标准模式；读取解析PDF数据，根据文本的标题、前言等内容的位置信息以及识别出的文字信息自动匹配标准对应模式；

双层PDF数据匹配对应模式后，将对双层PDF的文字信息进行校验，通过模式识别定位元数据所在文本位置并将其对应至相关字段；待文本型数据提取结束后，将会读取对应图像型数据，进行正确性校验。具体为：

应用欧式0空间的比对方法、松弛比对法(Relaxation)、动态程序比对法(DynamicProgramming)，以及类神经网络的数据库建立及比对、HMM(HiddenMarkovModel)等方法提取不同种类的元数据信息，待文本型数据提取结束后，将会读取对应图像型数据，进行正确性校验，提高元数据提取精度；

提取内容包括：封面加工、主题加工、前言加工、文内加工、主题细节加工；采用21:9显示屏，实现对加工任务单、抽取文档结构、题录抽取加工项、PDF全文四拼的展示，文档扫描采用600dpi。

如图3所示，根据文本内容的位置信息以及识别出的文字信息自动匹配标准的具体方式为：

借助整合和收集大量的标准信息与资源，建立标准词典库；

首先根据标准分类提取标准数据：处于同一字段的标准元数据，将通过字词分割法成为字词，并为其打上原有标准元数据标签；拆分的字词将在普通词典库进行释义，其中，释义相似度约为90％的词认为是同义词；元数据是字词的组合，根据字词的相似度进行比对，组合释义相似度约为90％的元数据；即建立标准文献词库资源。

步骤二：对步骤一中的读取结果进行核对，该部分核对也可选择进行人工核对，并对有异议部分进行二次读取修改。

步骤三：采集获取公式、图片、表格内容信息，采用html转换成表格形式对标准扫描文件进行读取；该步骤进行与步骤一中的获取文字信息相对独立进行。

步骤四：对步骤三中的读取结果进行核对，该部分核对也可选择进行人工核对，并对有异议部分进行二次读取修改。

步骤五：构建元数据提取系统，通过语义解析建立词库。

优选地，该语义解析方法包括自然语言语义学、模糊数学、粗糙集和概率论，解决同义词和一词多义的问题；且语义解析方法采用机器学习方法自动构建同义概念的隶属度，建立丰富的词库资源。

实施例二：

图4为本发明实施例中一种基于海量标准文献数据的语义解析装置框架示意图。

该装置具体包括：

实施例三：

本发明还另提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述所述方法的步骤。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

此外，应当理解，虽然本说明书按照实施方式加以描述，但并非每个实施方式仅包含一个独立的技术方案，说明书的这种叙述方式仅仅是为清楚起见，本领域技术人员应当将说明书作为一个整体，各实施例中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。

Claims

1.一种基于海量标准文献数据的语义解析方法，其特征在于：所述方法具体步骤包括：

步骤一：采集获取文字信息，对标准扫描文件进行读取；

步骤五：构建元数据提取系统，通过语义解析建立词库。

2.根据权利要求1所述的一种基于海量标准文献数据的语义解析方法，其特征在于：所述步骤一中，采集获取文字信息的方式采用模式化智能读取或鼠标拖拽形式自动提取。

3.根据权利要求2所述的一种基于海量标准文献数据的语义解析方法，其特征在于：采集获取文字信息的方式具体方法步骤如下：

4.根据权利要求3所述的一种基于海量标准文献数据的语义解析方法，其特征在于：所述根据文本内容的位置信息以及识别出的文字信息自动匹配标准的具体方式为：

整合和收集大量的标准信息与资源，建立标准词典库；

5.根据权利要求4所述的一种基于海量标准文献数据的语义解析方法，其特征在于：对拆分的字词进行释义的过程中，释义相似度为80-99％的词认为是同义词；元数据是字词的组合，根据字词的相似度进行比对，组合释义相似度为80-99％的元数据。

6.根据权利要求1所述的一种基于海量标准文献数据的语义解析方法，其特征在于：所述步骤一中，文字信息的读取方式具体包括文本处理、索引建立、检索查询、结果处理、索引维护和索引优化，对读取结果进行排序；其中，基于概念的文本自动分类与语义检索，对标准文本自动分类、标注与检索，构建语义词典。

7.根据权利要求1所述的一种基于海量标准文献数据的语义解析方法，其特征在于：所述步骤三中，采集获取公式、图片、表格内容信息的方式，具体采用html转换成表格形式进行抽取。

8.根据权利要求1所述的一种基于海量标准文献数据的语义解析方法，其特征在于：该语义解析方法包括自然语言语义学、模糊数学、粗糙集和概率论，且语义解析方法采用机器学习方法自动构建同义概念的隶属度，建立词库。

9.一种基于海量标准文献数据的语义解析装置，其特征在于：具体包括：

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1-8任一项所述方法的步骤。