CN111723191A

CN111723191A - 一种基于全信息自然语言的文本过滤和提取方法及其系统

Info

Publication number: CN111723191A
Application number: CN202010423247.XA
Authority: CN
Inventors: 韩钦
Original assignee: Tianwen Digital Media Technology Beijing Co ltd
Current assignee: Tianwen Digital Media Technology Beijing Co ltd
Priority date: 2020-05-19
Filing date: 2020-05-19
Publication date: 2020-09-29
Anticipated expiration: 2040-05-19
Also published as: CN111723191B

Abstract

本发明公开了一种基于全信息自然语言的文本过滤和提取方法及其系统，包括：预处理待过滤的文本，得到待过滤文本信息；根据框架特征对待过滤文本信息进行过滤处理，将待过滤文本信息分为框架信息和过滤文本信息；将过滤文本信息输入基于全信息自然语言知识库的处理模型，输出知识点信息，并将知识点信息反馈到全信息自然语言知识库；根据框架信息和知识点信息，输出目标格式文件。其通过基于全信息自然语言技术的过滤处理和细化处理，提高了理解文本主体思想的准确性，实现了自动提取文本中具体明确的技术表达。

Description

一种基于全信息自然语言的文本过滤和提取方法及其系统

技术领域

本发明涉及图书出版领域，尤其是一种基于全信息自然语言的文本过滤和提取方法及其系统。

背景技术

信息科学理论将信息分为本体论信息和认识论信息两个基本层次，本体论信息与认识主体存在无关，认识论信息与认识主体密切相关。而认识论观点认为，认识主体所感知的客观事物信息包含语法信息、语义信息、语用信息，三者构成了全信息整体。目前，信息技术在图书出版领域的应用，由原来的数据处理、信息处理发展到知识处理需求层面，对语言文字处理要求的难度和精度不断提高。在现有的技术条件下，对语言文字的处理大多停留在语法层面上，要全面理解分析文本的主体思想，并给出具体明确的技术表达，还存在困难。

发明内容

为解决上述问题，本发明的目的在于提供一种基于全信息自然语言的文本过滤和提取方法，以实现对图书文本进行精准过滤和提取。

本发明解决其问题所采用的技术方案是：

本发明的第一方面，一种基于全信息自然语言的文本过滤和提取方法，包括：预处理待过滤的文本，得到待过滤文本信息；根据框架特征对所述待过滤文本信息进行过滤处理，将待过滤文本信息分为框架信息和过滤文本信息；将所述过滤文本信息输入基于全信息自然语言知识库的处理模型，输出知识点信息，并将所述知识点信息反馈到所述全信息自然语言知识库；其中，所述处理模型根据语言信息特征对所述过滤文本信息进行多次过滤处理,且每次所述过滤处理所根据的所述语言信息特征均不同；根据所述框架信息和所述知识点信息，输出目标格式文件。

上述基于全信息自然语言的文本过滤和提取方法至少具有以下的有益效果：通过建立全信息自然语言知识库，并对待过滤的文本进行框架特征和语言信息特征过滤处理，实现对图书中各种语言信息特征的提取和转换，提高了全面理解分析文本的主体思想的准确性，完成具体明确的技术表达。

进一步，所述语言信息特征包括语法信息特征、语义信息特征和语用信息特征。法信息特征、语义信息特征和语用信息特征，三者构成了全信息自然语言的整体，保证了语言信息特征过滤处理的完整性。

进一步，所述预处理包括：对所述待过滤的文本的语法信息特征、语义信息特征和语用信息特征进行参量描述。通过对待过滤的文本进行参量描述，实现定量分析文本信息，用以描述和度量全信息。

进一步，将所述过滤文本信息输入基于全信息自然语言知识库的处理模型，包括：根据语法信息特征对所述过滤文本信息进行过滤处理，得到语法分析结果；根据语义信息特征对所述语法分析结果进行过滤处理，得到语义分析结果；根据语用信息特征对所述语义分析结果进行过滤处理，得到所述知识点信息。

根据各个语言信息特征对过滤文本信息进行过滤处理，对过滤文本信息进行外在形式、内容含义以及效用价值的分析，实现对过滤文本信息的深度理解和精准识别。

进一步，所述过滤处理包括：获取输入文本和过滤特征，生成过滤特征向量；将所述过滤特征与所述输入文本通过特征比对算法进行比对，选取相似度大于预定参数的所述待过滤文本信息，组成目标文本队列，计算公式如下：

其中，X为所述过滤特征向量，Y为所述输入文本的信息向量，X×Y为两个向量的积，||X||×||Y||为两个向量的长度乘积，sim(X,Y)为两个向量的余弦相似度；所述过滤特征包括所述框架特征和所述语言信息特征。

通过计算余弦值大小来衡量两个文本间的相似度，余弦值越接近1，夹角便越接近0，两个文本越相似。对相似度不达到预设值的文本进行删除处理，去除相似度不高的文本信息。

进一步，在组成目标文本队列后，还进行以下步骤：使用K-means方法对所述目标文本队列进行聚类分析，得到多个文本簇集，从所述文本簇集中平均选出推荐文本，组成推荐文本队列，所述聚类分析的计算公式如下：

其中，k为所述文本簇集的数量。

K-means方法的目标函数为最大化余弦距离和，当目标函数达到最优则算法停止。从文本簇集中平均选出推荐文本，进一步提高了推荐文本的准确性。

进一步，所述过滤处理还包括：当所述推荐文本的数量小于预设值时，对所述目标文本队列重新进行聚类分析，直到所述推荐文本的数量达到预设值；将所述推荐文本队列的文本信息按照过滤处理的顺序进行排序，得到过滤处理结果。通过进行重过滤，使所有前一次或前几次未进入推荐队列的目标队列文本作为新的目标文本，重新进行聚类与提取，减小模型的随机性，提高过滤处理的准确性。

本发明的第二方面，一种基于全信息自然语言的文本过滤和提取系统，包括：基于全信息自然语言知识库，用于储存和更新具体事物的多种所述语言信息特征；预处理模块，被配置为对所述待过滤的文本的多种所述语言信息特征进行参量描述，得到待过滤文本信息；框架提取模块，被配置为根据框架特征对待过滤文本信息进行过滤处理，将待过滤文本信息分为框架信息和过滤文本信息；处理模型，被配置为根据多种所述语言信息特征对所述过滤文本信息进行过滤处理，输出知识点信息，包括：多个依次连接的过滤处理模块，所述过滤处理模块被配置为根据所述语言信息特征对前一个过滤处理模块的输出进行所述过滤处理,每个所述过滤处理模块所采用的所述语言信息特征均不同；转换模块，被配置为根据所述框架信息和所述知识点信息，输出目标格式文件。

本发明的第三方面，一种计算机设备，所述计算机设备包括存储器和处理器，所述存储器中存储有计算机可读指令，所述计算机可读指令被一个或多个所述处理器执行时，使得一个或多个所述处理器执行如上所述的基于全信息自然语言的文本过滤和提取方法。

本发明的第四方面，一种存储介质，所述存储介质存储有计算机可执行指令，所述计算机可执行指令用于使计算机执行如上所述的基于全信息自然语言的文本过滤和提取方法。

本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

下面结合附图和实例对本发明作进一步说明。

图1为本发明实施例一种基于全信息自然语言的文本过滤和提取方法的流程图；

图2为图1中过滤处理的流程图；

图3为图1中将过滤文本信息输入基于全信息自然语言知识库的处理模型的流程图；

图4为本发明实施例一种基于全信息自然语言的文本过滤和提取系统的结构图；

图5为图4中全信息自然语言知识库、处理模型和转换模块的结构图。

具体实施方式

参照图1，本发明实施例提供了一种基于全信息自然语言的文本过滤和提取方法，包括步骤S110、预处理待过滤的文本，得到待过滤文本信息；步骤S120、根据框架特征对待过滤文本信息进行过滤处理，将待过滤文本信息分为框架信息和过滤文本信息；步骤S130、将过滤文本信息输入基于全信息自然语言知识库100的处理模型400，输出知识点信息，并将知识点信息反馈到全信息自然语言知识库100；步骤S140、根据框架信息和知识点信息，输出目标格式文件。

通过建立全信息自然语言知识库100，并对待过滤文本信息进行框架特征和语言信息特征过滤处理，实现对图书中各种语言信息特征的提取和转换，提高了全面理解分析文本的主体思想的准确性，完成具体明确的技术表达。

另一个实施例，语言信息特征包括语法信息特征、语义信息特征和语用信息特征。法信息特征、语义信息特征和语用信息特征，三者构成了全信息自然语言的整体，保证了语言信息特征过滤处理的完整性。

另一个实施例，预处理包括：对待过滤的文本信息的语法信息特征、语义信息特征和语用信息特征进行参量描述。通过对待过滤的文本信息进行参量描述，实现定量分析文本信息，用以描述和度量全信息。为了把具体事物的全信息概念具体化，设定事物X的运动状态集合为{X1,X2,X3,…,Xn}，相应语法信息特征参量为{C1,C2,…,Cn}、相应语义信息特征参量为{T1,T2,…,Tn}以及相应语用信息特征参量为{U1,U2,…,Un}。

参照图2，另一个实施例，过滤处理包括：

步骤S121、获取输入文本和过滤特征，生成过滤特征向量。其中，过滤特征包括框架特征和语言信息特征。在本实施例中，对待过滤文本信息根据框架特征进行过滤处理时，根据待过滤文本信息的情况，指定以数字标识的章节关键句词为首位特征，以句号或者无标点符号为末位特征。

步骤S122、将过滤特征与输入文本通过特征比对算法进行比对，选取相似度大于预定参数的待过滤文本信息，组成目标文本队列，计算公式如下：

其中，X为过滤特征向量，Y为输入文本的信息向量，X×Y为两个向量的积，||X||×||Y||为两个向量的长度乘积，sim(X,Y)为两个向量的余弦相似度。

通过计算余弦值大小来衡量两个文本间的相似度，余弦值越接近1，夹角便越接近0，两个文本越相似。为筛选出与用户特征关键词相似性较高的文本，需设置检验计算的阈值。在本实施例中，阈值为0.5到1之间的一个数值，余弦相似度大于此阈值则进入目标文本序列，对余弦相似度不达到预设值的文本进行筛选处理，即把待过滤文本信息的目录内容放进目标文本队列，对目录内容以外的部分进行过滤。

步骤S123、使用K-means方法对目标文本队列进行聚类分析，得到多个文本簇集，从文本簇集中平均选出推荐文本，组成推荐文本队列，聚类分析的计算公式如下：

其中，k为文本簇集的数量。K-means方法的目标函数为最大化余弦距离和，当目标函数达到最优则算法停止。从文本簇集中平均选出推荐文本，进一步提高了推荐文本的准确性。

步骤S124、当推荐文本的数量小于预设值时，对目标文本队列重新进行聚类分析，直到推荐文本的数量达到预设值。当预设值大于每次过滤后推荐文本的数量时，需要进行多次过滤，为减小模型的随机性，本实例中，将重过滤的起始点设在目标文本队列的形成后。这样，所有前一次或前几次未进入推荐文本队列的目标文本队列作为新的目标文本，重新进行聚类与提取，当推荐文本的数量达到预设数量时则停止循环。

步骤S125、将推荐文本队列的文本信息按照过滤处理的顺序进行排序，得到过滤处理结果。在本实施例中，最后把待过滤文本信息的目录内容形成过滤处理结果，作为框架信息，目录内容以外被过滤的部分形成过滤文本信息。而在其他实施例中，根据语法信息特征对过滤文本信息进行过滤处理，形成过滤处理结果，作为语法分析结果；根据语义信息特征对语法分析结果进行过滤处理，形成过滤处理结果，作为语义分析结果；根据语用信息特征对语义分析结果进行过滤处理，形成过滤处理结果，作为知识点信息。

参照图3，另一个实施例，将过滤文本信息输入基于全信息自然语言知识库的处理模型400，包括：

步骤S131、根据语法信息特征对过滤文本信息进行过滤处理，得到语法分析结果：选取关键词集合与标点符号集合作为语法过滤特征进行过滤处理，得到语法分析结果。选取相关的关键词作为主语结构，建立包括分号和句号的标点符号集合，对过滤文本信息进行过滤处理。这样就实现对该关键词的外在形式进行了初步识别，所属的领域范畴，即得出该关键词的语法信息特征。

步骤S132、根据语义信息特征对语法分析结果进行过滤处理，得到语义分析结果：对关键词集合和连接助词的位置关系进行权重设置，对语法分析结果进行过滤处理，得到语义分析结果。通过语义分析中的中文分词，把该关键词的连接助词，比如“的”字，前后位置进行量化权重。在本实施例中，将该关键词在“的”之前的内容进行保留，其他内容进行过滤。这样就去除语法分析结果中的非本质部分，得到该关键词的抽象规则和概念，即得出该关键词的语义信息特征。

步骤S133、根据语用信息特征对语义分析结果进行过滤处理，得到知识点信息：从全信息自然语言知识库100中匹配出与关键词集合对应的查询文本；把查询文本进行分词操作，形成语用过滤特征；把语义分析结果在语用过滤特征中进行循环过滤处理，得到知识点信息。通过在全信息自然语言知识库100中匹配出查询文本，得到更多关于该关键词的属性，通过把语义分析结果在语用过滤特征中进行循环过滤处理，最终分析出该关键词的特点以及价值所在，即得出该关键词的语用信息特征。

参照图4和图5，另一个实施例，一种基于全信息自然语言的文本过滤和提取系统,包括：全信息自然语言知识库100，用于储存和更新具体事物的多种语言信息特征；预处理模块200，被配置为对待过滤的文本的多种语言信息特征进行参量描述，得到待过滤文本信息；框架提取模块300，被配置为根据框架特征对待过滤文本信息进行过滤处理，将待过滤文本信息分为框架信息和过滤文本信息；处理模型400，被配置为根据多种语言信息特征对过滤文本信息进行过滤处理，输出知识点信息，包括：多个依次连接的过滤处理模块410，过滤处理模块410被配置为根据语言信息特征对前一个过滤处理模块410的输出进行过滤处理,每个过滤处理模块410所采用的语言信息特征均不同；转换模块500，被配置为根据框架信息和知识点信息，输出目标格式文件。

具体地，本发明选取华中科技大学出版社2018年10月出版的《机电传动与控制技术》一书，以书中的第二章2.1节的文本内容作为待过滤的文本，进行基于全信息自然语言的文本过滤和提取，输出电子课件。其中，文本的输入格式为word，电子课件的输出格式为PPT。

首先在全信息自然语言知识库100中选取针对电动机专业领域的内容，即从自然语言序列中提取出来的关于电动机的语法、语义和语用信息，主要包括但不限于与电动机专业相关的语法、语义、语用的知识和相关的词性、词义、词类、词法结构，还包括词频含义的不同区分规则，短语搭配，逻辑知识。

然后把《机电传动与控制技术》第二章2.1节的文档输入预处理模块200，对文档的内容进行语法信息、语义信息、语用信息的参量描述，得到关于电动机控制技术的待过滤文本信息，即得到关于电动机控制技术的含义，定义，效用等信息。预处理模块200完成对文档进行基本的智能梳理，得到关于电动机控制技术的运动状态集合为{X1,X2,…,Xn}，相应语法信息参量为{G1,G2,…,Gn}、相应语义信息参量为{S1,S2,…,Sn}以及相应语用信息参量为{P1,P2,…,Pn}。

接着，框架提取模块300对关于电动机控制技术的待过滤文本信息进行特征匹配和过滤处理。针对文档的情况，设定以“第二章”or“1,2,3,4”为首位特征，以句号或者空格为末位特征作为指定特征进行输入。通过计算特征向量与待过滤文本信息向量的余弦值，筛选出与用户特征关键词相似性较高的文本，余弦相似度大于此阈值则进入目标文本序列，对余弦相似度不达到预设值的文本进行筛选处理，即把待过滤文本信息的目录内容放进目标文本队列，对目录内容以外的部分进行过滤。其中，目录内容成为电子课件框架，过滤掉的内容成为过滤文本信息。

然后，处理模型400对过滤文本信息进行知识点信息提取，实际上就是对过滤文本信息进行细化处理。

首先，对过滤文本信息进行语法层面分析：建立保存标点符号字符串集合STR1[“；”,“。”]、保存关键词“电动机”字符串集合STR2[“电动机”]，并设定STR2[“电动机”]作为主语结构。然后把电子课件框架提取后的2.1节的文本信息和字符串集合STR1[“；”,“。”]以及STR2[“电动机”]主语结构的规则进行匹配过滤，就能得到处理后的字符串集合STR3[“有的电动机要求在一定时间内转动；”,“电动机的基本控制形式有速度和力矩控制，以及包括启动、停止的位置控制。”，“电动机的特性分为电气特性和机械特性。”]，STR3即为语法分析结果。

接着，对语法分析结果进行语义层面分析：通过语义分析中的中文分词，将STR3结果中‘的’前后位置进行量化权重，以STR2[“电动机”]主语结构“的”字前后位置进行权重设置，设置STR2[“电动机”]主语结构在“的”之前保留，反之过滤。将STR3以此种设置规则进行文本过滤。得到语义分析处理结果字符串集合STR4[“电动机的基本控制形式有速度和力矩控制，以及包括启动、停止的位置控制。”，“电动机的特性分为电气特性和机械特性。”]。STR4即为语义分析结果。

然后，对语义分析结果进行语用层面分析：根据文档的实际需求，设置保存“电动机”和“控制”字符串集合STR5[“电动机”，“控制”]为条件，查询出真实事物的属性，形成字符串集合STR6[“电动机控制是指，对电机的启动、加速、运转、减速及停止进行的控制。”]。再把字符串集合STR6进行中文分词，形成字符串集合STR7[“启动”，“加速”，“运转”，“减速”，“停止进行”]，将STR4在STR7中进行循环匹配过滤，通过提取STR7关键字符，优化处理后，得到字符串集合STR8[“电动机的基本控制形式有速度和力矩控制，以及包括启动、停止的位置控制。”]。STR8为语用分析结果。对STR8进行汇总和优化，得到文档的知识点信息，并将知识点信息反馈到全信息自然语言知识库100。

最后，转换模块500根据获得的电子课件框架和知识点信息，并依据文本输出格式为PPT的要求，设置文本输出的相关参数，比如字体大小、形态、颜色以及版面格式，转换模块500根据参数设置后得到输出的电子课件。

本实施例通过全信息自然语言知识库100储存和更新具体事物的语法信息特征、语义信息特征和语用信息特征，然后由预处理模块200对待过滤的文本信息的语法信息特征、语义信息特征和语用信息特征进行参量描述；通过框架提取模块300对待过滤文本信息进行框架提取，得到框架信息和过滤文本信息；通过处理模型400根据多种语言信息特征对过滤文本信息进行过滤处理，输出知识点信息。最后通过转换模块500输出目标格式文件。通过实验验证，能看出本发明方法能有效地对文本进行过滤，全面理解分析文本的主体思想，并准确地提取出具体明确的技术表达。

以上，只是本发明的较佳实施例而已，本发明并不局限于上述实施方式，只要其以相同的手段达到本发明的技术效果，都应属于本发明的保护范围。

Claims

1.一种基于全信息自然语言的文本过滤和提取方法，其特征在于，包括：

预处理待过滤的文本，得到待过滤文本信息；

根据框架特征对所述待过滤文本信息进行过滤处理，将待过滤文本信息分为框架信息和过滤文本信息；

将所述过滤文本信息输入基于全信息自然语言知识库的处理模型，输出知识点信息，并将所述知识点信息反馈到所述全信息自然语言知识库；其中，所述处理模型根据语言信息特征对所述过滤文本信息进行多次过滤处理,且每次所述过滤处理所根据的所述语言信息特征均不同；

根据所述框架信息和所述知识点信息，输出目标格式文件。

2.根据权利要求1所述的基于全信息自然语言的文本过滤和提取方法，其特征在于，所述语言信息特征包括语法信息特征、语义信息特征和语用信息特征。

3.根据权利要求2所述的基于全信息自然语言的文本过滤和提取方法，其特征在于，所述预处理包括：对所述待过滤的文本的语法信息特征、语义信息特征和语用信息特征进行参量描述。

4.根据权利要求3所述的基于全信息自然语言的文本过滤和提取方法，其特征在于，将所述过滤文本信息输入基于全信息自然语言知识库的处理模型，包括：

根据语法信息特征对所述过滤文本信息进行过滤处理，得到语法分析结果；

根据语义信息特征对所述语法分析结果进行过滤处理，得到语义分析结果；

根据语用信息特征对所述语义分析结果进行过滤处理，得到所述知识点信息。

5.根据权利要求4所述的基于全信息自然语言的文本过滤和提取方法，其特征在于，所述过滤处理包括：

获取输入文本和过滤特征，生成过滤特征向量；

将所述过滤特征与所述输入文本通过特征比对算法进行比对，选取相似度大于预定参数的所述待过滤文本信息，组成目标文本队列，计算公式如下：

6.根据权利要求5所述的基于全信息自然语言的文本过滤和提取方法，其特征在于，在组成目标文本队列后，还进行以下步骤：使用K-means方法对所述目标文本队列进行聚类分析，得到多个文本簇集，从所述文本簇集中平均选出推荐文本，组成推荐文本队列，所述聚类分析的计算公式如下：

其中，k为所述文本簇集的数量。

7.根据权利要求6所述的基于全信息自然语言的文本过滤和提取方法，其特征在于，所述过滤处理还包括：

当所述推荐文本的数量小于预设值时，对所述目标文本队列重新进行聚类分析，直到所述推荐文本的数量达到预设值；

将所述推荐文本队列的文本信息按照过滤处理的顺序进行排序，得到过滤处理结果。

8.一种应用如权利要求1至7任一项所述的基于全信息自然语言的文本过滤和提取系统，包括：

基于全信息自然语言知识库，用于储存和更新具体事物的多种所述语言信息特征；

预处理模块，被配置为对所述待过滤的文本的多种所述语言信息特征进行参量描述，得到待过滤文本信息；

框架提取模块，被配置为根据框架特征对待过滤文本信息进行过滤处理，将待过滤文本信息分为框架信息和过滤文本信息；

处理模型，被配置为根据多种所述语言信息特征对所述过滤文本信息进行过滤处理，输出知识点信息，包括：多个依次连接的过滤处理模块，所述过滤处理模块被配置为根据所述语言信息特征对前一个过滤处理模块的输出进行所述过滤处理,每个所述过滤处理模块所采用的所述语言信息特征均不同；

转换模块，被配置为根据所述框架信息和所述知识点信息，输出目标格式文件。

9.一种计算机设备，其特征在于，所述计算机设备包括存储器和处理器，所述存储器中存储有计算机可读指令，所述计算机可读指令被一个或多个所述处理器执行时，使得一个或多个所述处理器执行如权利要求1至7中任一项基于全信息自然语言的文本过滤和提取方法。

10.一种存储介质，其特征在于，所述存储介质存储有计算机可执行指令，所述计算机可执行指令用于使计算机执行如权利要求1至7任一项所述的基于全信息自然语言的文本过滤和提取方法。