CN117010409A

CN117010409A - 一种基于自然语言语义分析的文本识别方法及系统

Info

Publication number: CN117010409A
Application number: CN202311283761.8A
Authority: CN
Inventors: 唐泰可; 廖峪; 黄曙光; 伏林晗
Original assignee: Chengdu Zhonggui Track Equipment Co ltd
Current assignee: Chengdu Zhonggui Track Equipment Co ltd
Priority date: 2023-10-07
Filing date: 2023-10-07
Publication date: 2023-11-07
Anticipated expiration: 2043-10-07
Also published as: CN117010409B

Abstract

本发明公开了一种基于自然语言语义分析的文本识别方法及系统，包括以下步骤：根据第一文本字符，通过语义中心标定模型，得到第一文本中的第一中心文本字符；根据第一文本中的所述第一中心文本字符，通过自然语言语义匹配关系，得到第一中心文本字符的自然语言语义；根据第一中心文本字符的自然语言语义，通过自然语言语义处理中的文本生成方式，得到第一文本对应的自然语言语义文本。本发明通过语义中心标定模型基于拓扑学对第一文本字符分析，实现关键性语义信息的标定，对关键性语义信息对应的所述第一中心文本字符，通过自然语言语义匹配关系，得到第一中心文本字符的自然语言语义，提高文本识别效率。

Description

一种基于自然语言语义分析的文本识别方法及系统

技术领域

本发明涉及文本语义分析技术领域，具体涉及一种基于自然语言语义分析的文本识别方法及系统。

背景技术

语义识别指的是一种自然语言处理技术，主要实现的是在计算机中模拟人类语言理解效果。它能够有效识别出每句话中所包含的意义，深入了解语句与句子中的内容，分析用户的真实意图。借助于自然语言处理技术及机器学习，这一技术能够根据用户的自然输入，从句子中解析出语法、字符等，实现更有可读性、更精准的文本理解。

现有技术中利用自然语言语义进行文本分析过程中对文本字符进行逐一识别，以保证文本识别的全面性，但是如此对所有文本字符进行语义识别，在大数据量或实时识别场景中，存在着对掌握文本语义无影响的字符，此类文本字符的语义识别只会占用信道、存储空间和运算器的硬件资源，造成文本识别效率的降低。

发明内容

本发明的目的在于提供一种基于自然语言语义分析的文本识别方法，以解决现有技术中存在着对掌握文本语义无影响的字符，此类文本字符的语义识别只会占用信道、存储空间和运算器的硬件资源，造成文本识别效率的降低的技术问题。

为解决上述技术问题，本发明具体提供下述技术方案：

一种基于自然语言语义分析的文本识别方法，包括以下步骤：

获取第一文本，所述第一文本包括多个第一文本字符；

根据第一文本字符，通过语义中心标定模型，得到第一文本中的第一中心文本字符，其中，所述第一中心文本字符对应于第一文本中的关键型语义信息，所述语义中心标定模型基于拓扑学对第一文本字符分析，实现关键性语义信息的标定；

根据第一文本中的所述第一中心文本字符，通过自然语言语义匹配关系，得到第一中心文本字符的自然语言语义，所述自然语言语义匹配关系为神经网络，或所述自然语言语义匹配关系为语义信息与自然语言语义的对应关系；

根据第一中心文本字符的自然语言语义，通过自然语言语义处理中的文本生成方式，得到第一文本对应的自然语言语义文本。

作为本发明的一种优选方案，语义中心标定模型标定出第一中心文本字符，包括：

对第一文本中的各个第一文本字符依据主题、内容和见解三个维度进行拓扑结构搭建，得到字符拓扑复合型结构，所述字符拓扑复合型结构包括主题维度、内容维度和见解维度的拓扑复合型结构；

对字符拓扑复合型结构进行拓扑属性量化，并依据拓扑属性进行内容维度的拓扑节点重要度量化；

根据内容维度的拓扑节点的重要度在字符拓扑复合型结构中标定出关键型拓扑节点，将关键型拓扑节点对应的第一文本字符作为第一中心文本字符。

作为本发明的一种优选方案，所述字符拓扑复合型结构的构建包括：

以第一文本字符的主题为主题维度的拓扑节点，在具有同一主题的第一文本字符间设置主题维度的拓扑边，利用主题维度的拓扑边对主题维度的拓扑节点进行连接得到主题维度的拓扑结构；

以第一文本字符为内容维度的拓扑节点，在具有同一第一文本字符的主题维度的拓扑节点和内容维度的拓扑节点间设置主题维度连接至内容维度的拓扑边，利用主题维度连接至内容维度的拓扑边对主题维度的拓扑节点与内容维度的拓扑节点进行连接得到主题维度与内容维度的拓扑复合型结构；

以第一文本字符的情感极性作为见解维度的拓扑节点，在具有相同情感极性的内容维度的拓扑节点和见解维度的拓扑节点间设置内容维度连接至见解维度的拓扑边，利用内容维度连接至见解维度的拓扑边对内容维度的拓扑节点与见解维度的拓扑节点进行连接得到主题维度、内容维度和见解维度的拓扑复合型结构；

将主题维度、内容维度和见解维度的拓扑复合型结构作为字符拓扑复合型结构。

作为本发明的一种优选方案，所述对字符拓扑复合型结构进行拓扑属性量化，包括：

在字符拓扑复合型结构中利用KL距离对主题维度的拓扑边影响力进行量化，所述主题维度的拓扑边影响力的量化公式为：

；

式中，，/>为主题维度的第i个拓扑节点和第j个拓扑节点间拓扑边的影响力，r_i和r_j分别为主题维度的第i个拓扑节点和第j个拓扑节点，KL(P,Q)为r_i对应的所有第一文本字符与r_j对应的所有第一文本字符间的KL距离，P_k为第k个第一文本字符在r_i中出现的概率，Q_k为第k个第一文本字符在r_j中出现的概率，m为第一文本字符的总数量，k，i，j均为计数变量；

在字符拓扑复合型结构中利用情感极性的情感强度对见解维度的拓扑边影响力进行量化，所述见解维度的拓扑边影响力的量化公式为：

；

式中，为见解维度中第i个拓扑节点和第j个拓扑节点间拓扑边的影响力，e_i和e_j分别为见解维度中第i个拓扑节点和第j个拓扑节点，/>为符号函数，其中，当/>，则/>，当/>，则；EP_i为e_i的情感极性，ED_i为e_i的情感极性的情感强度，EP_j为e_j的情感极性，ED_j为e_j的情感极性的情感强度，i，j为计数变量；

在字符拓扑复合型结构中利用节点连接关系对内容维度的拓扑边影响力进行量化，所述内容维度的拓扑边影响力的量化公式为：

；

式中，为内容维度中连接第i个拓扑节点的拓扑边的影响力，R(c_i)为内容维度的第i个拓扑节点的影响广度，D(c_i)为内容维度的第i个拓扑节点的影响深度，c_i为内容维度的第i个拓扑节点，/>，/>，M_r(c_i)为连接c_i的拓扑边数量，A(c_i)为与c_i具有拓扑边连接关系的主题维度的拓扑节点数量，N为字符拓扑复合型结构中拓扑边总数量，N_r为主题维度中拓扑节点总数量，i为计数变量。

作为本发明的一种优选方案，依据拓扑属性进行内容维度的拓扑节点重要度的量化，包括：

基于主题维度的拓扑边影响力、见解维度的拓扑边影响力和内容维度的拓扑边影响力，得到拓扑边排序公式；

所述拓扑边排序公式为：

；

式中，为字符拓扑复合型结构中第i个拓扑边的排序值，/>为字符拓扑复合型结构中第j个拓扑边的排序值，E_j为字符拓扑复合型结构中第i个拓扑边，为字符拓扑复合型结构中E_j的连接度，/>为内容维度中连接第i个拓扑节点的拓扑边的影响力，/>为见解维度中第i个拓扑节点和第j个拓扑节点间拓扑边的影响力，/>为主题维度的第i个拓扑节点和第j个拓扑节点间拓扑边的影响力；

将拓扑边排序公式应用于内容维度，得到内容维度的拓扑节点的重要度公式，所述内容维度的拓扑节点的重要度公式为：

；

式中，为内容维度中第i个拓扑节点的重要度，c_i为内容维度的第i个拓扑节点，/>为字符拓扑复合型结构中连接c_i的拓扑边，/>为/>的排序值总和，为/>的连接度，i，j为计数变量。

作为本发明的一种优选方案，根据内容维度的拓扑节点重要度在字符拓扑复合型结构中标定出关键型拓扑节点，包括：

将内容维度的拓扑节点的重要度与重要度阈值比较，其中，

若内容维度的拓扑节点的重要度高于或等于重要度阈值，则将内容维度的拓扑节点标定为关键型拓扑节点；

若内容维度的拓扑节点的重要度低于重要度阈值，则将内容维度的拓扑节点标定为非关键型拓扑节点。

作为本发明的一种优选方案，所述第一文本字符的情感极性和情感极性的情感强度，包括：利用中文情感词汇本体库对第一文本字符进行情感极性标注，累计第一文本字符的情感强度作为情感极性的情感强度。

作为本发明的一种优选方案，所述自然语言语义匹配关系为神经网络，神经网络的输入项为第一中心文本字符，输出项为第一中心文本字符的自然语言语义。

作为本发明的一种优选方案，本发明提供了一种应用基于自然语言语义分析的文本识别方法的文本识别系统，包括：

初始化模块，用于对第一文本进行字符切割，得到多个第一文本字符；

字符处理模块，存储语义中心标定模型，用于根据第一文本字符，通过语义中心标定模型，得到第一文本中的第一中心文本字符；

自然语义识别模块，存储有自然语言语义匹配关系，用于根据第一文本中的所述第一中心文本字符，通过自然语言语义匹配关系，得到第一中心文本字符的自然语言语义；

语义文本生成模块，存储有自然语言语义处理中的文本生成方式，用于根据第一中心文本字符的自然语言语义，通过自然语言语义处理中的文本生成方式，得到第一文本对应的自然语言语义文本。

作为本发明的一种优选方案，所述第一中心文本字符对应于第一文本中的关键型语义信息，所述语义中心标定模型基于拓扑学对第一文本字符分析，实现关键性语义信息的标定；

所述自然语言语义匹配关系为神经网络，或所述自然语言语义匹配关系为语义信息与自然语言语义的对应关系。

本发明与现有技术相比较具有如下有益效果：

本发明通过语义中心标定模型基于拓扑学对第一文本字符分析，实现关键性语义信息的标定，对关键性语义信息对应的所述第一中心文本字符，通过自然语言语义匹配关系，得到第一中心文本字符的自然语言语义，只对掌握文本语义有影响的字符进行语义识别，占用信道、存储空间和运算器的硬件资源减少，提高文本识别效率。

附图说明

为了更清楚地说明本发明的实施方式或现有技术中的技术方案，下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地，下面描述中的附图仅仅是示例性的，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图引伸获得其它的实施附图。

图1为本发明实施例提供的文本识别方法流程图；

图2为本发明实施例提供的文本识别系统框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

现有技术中利用自然语言语义进行文本分析过程中对文本字符进行逐一识别，以保证文本识别的全面性，但是如此对所有文本字符进行语义识别，在大数据量或实时识别场景中，存在着对掌握文本语义无影响的字符，此类文本字符的语义识别只会占用信道、存储空间和运算器的硬件资源，造成文本识别效率的降低。因此本发明提供一种基于自然语言语义分析的文本识别方法，利用语义中心标定模型，基于拓扑学对第一文本字符分析，实现关键性语义信息的标定，对关键语义信息的识别，实现了只对掌握文本语义有影响的字符进行语义识别，占用信道、存储空间和运算器的硬件资源减少，提高文本识别效率。

如图1所示，本发明提供了一种基于自然语言语义分析的文本识别方法，包括以下步骤：

获取第一文本，第一文本包括多个第一文本字符；

根据第一文本字符，通过语义中心标定模型，得到第一文本中的第一中心文本字符，其中，第一中心文本字符对应于第一文本中的关键型语义信息，语义中心标定模型基于拓扑学对第一文本字符分析，实现关键性语义信息的标定；

根据第一文本中的第一中心文本字符，通过自然语言语义匹配关系，得到第一中心文本字符的自然语言语义，自然语言语义匹配关系为神经网络，或自然语言语义匹配关系为语义信息与自然语言语义的对应关系；

本发明为了能够提高文本自然语言语义的识别效率，对文本中的文本字符进行有效筛选，即选出对文本语义识别有影响的关键型语义信息（第一中心文本字符），在文本自然语言语义中仅对第一中心文本字符进行自然语言语义识别，能够保证文本自然语言语义识别的准确性，同时避免对掌握文本语义无影响的字符的语义识别，减轻对信道、存储空间和运算器的硬件资源的占用，提高文本语义的识别效率。

本发明为了提高文本字符筛选的准确性，基于主题、内容和见解三个维度字符筛选，主题、内容和见解三个维度体现了文本意图的形成和演化过程，即主题、内容和见解为文本意图的三方面要素，而文本语义识别主要是对文本字符中含有的意图进行识别，生成可读性、更精准的文本理解，因此从主题、内容和见解三个维度上确定文本中表征关键型语义信息的文本字符，使得筛选出的第一中心文本字符与文本意图存在关联性，保证了需要识别的文本中与文本意图存在关联性的文本字符得以被筛选出，使得文本意图在后续的自然语言语义识别中更全面、更准确的得到体现，从而保证了文本识别的准确性。

语义中心标定模型标定出第一中心文本字符，包括：

对第一文本中的各个第一文本字符依据主题、内容和见解三个维度进行拓扑结构搭建，得到字符拓扑复合型结构，字符拓扑复合型结构包括主题维度、内容维度和见解维度的拓扑复合型结构；

字符拓扑复合型结构的构建包括：

本发明利用拓扑属性对文本字符进行重要度评价，其中，拓扑属性包括主题维度的拓扑边影响力、见解维度的拓扑边影响力和内容维度的拓扑边影响力，主题维度的拓扑边影响力、见解维度的拓扑边影响力和内容维度的拓扑边影响力在拓扑属性上分别为主题维度的拓扑节点相似度、见解维度的拓扑节点一致性和内容维度的拓扑节点影响度，在主题维度层面，利用文本字符对应的拓扑节点间相似性对文本字符对应的拓扑节点间的拓扑边进行影响力的主题维度内分析，在见解维度层面，利用文本字符对应的拓扑节点间一致性对文本字符对应的拓扑节点间拓扑边进行影响力的见解维度内分析，以及内容维度层面，利用文本字符对应的拓扑节点对主题维度的拓扑节点和见解维度的拓扑节点的影响属性，实现对文本字符对应的拓扑节点间拓扑边进行影响力的维度间分析，由于主题维度的拓扑节点相似度、见解维度的拓扑节点一致性和内容维度的拓扑节点影响度均是对拓扑节点的属性量化，即利用主体维度、见解维度和内容维度的拓扑节点的拓扑属性转换衡量拓扑边的拓扑拓扑属性，因此，利用主体维度、见解维度和内容维度的拓扑节点的拓扑属性，实现将文本字符对应的单一拓扑节点影响力计算转化为包含文本字符的所有拓扑边影响力，实现多维度分析。

本发明实现与传统节点排序方法对文本字符对应的单一拓扑节点排序不同，对复合拓扑结构的拓扑边进行排序，将文本字符对应的单一拓扑节点影响力计算转化为包含文本字符的所有拓扑边影响力，从而实现多维信息的综合考虑，得到文本字符对应的单一拓扑节点影响力结果，或可称为文本字符对应的单一拓扑节点的重要度，多维信息的综合考虑提高了第一中心文本字符的筛选准确性，最终提高了利用第一中心文本字符进行语义识别而获得的第一文本对应的自然语言语义文本的识别准确性。

对字符拓扑复合型结构进行拓扑属性量化，包括：

在字符拓扑复合型结构中利用KL距离对主题维度的拓扑边影响力进行量化，主题维度的拓扑边影响力的量化公式为：

；

在字符拓扑复合型结构中利用情感极性的情感强度对见解维度的拓扑边影响力进行量化，见解维度的拓扑边影响力的量化公式为：

；

在字符拓扑复合型结构中利用节点连接关系对内容维度的拓扑边影响力进行量化，内容维度的拓扑边影响力的量化公式为：

；

依据拓扑属性进行内容维度的拓扑节点重要度的量化，包括：

拓扑边排序公式为：

；

将拓扑边排序公式应用于内容维度，得到内容维度的拓扑节点的重要度公式，内容维度的拓扑节点的重要度公式为：

；

根据内容维度的拓扑节点重要度在字符拓扑复合型结构中标定出关键型拓扑节点，包括：

将内容维度的拓扑节点的重要度与重要度阈值比较，其中，

第一文本字符的情感极性和情感极性的情感强度，包括：利用中文情感词汇本体库对第一文本字符进行情感极性标注，累计第一文本字符的情感强度作为情感极性的情感强度。

自然语言语义匹配关系为神经网络，神经网络的输入项为第一中心文本字符，输出项为第一中心文本字符的自然语言语义。

如图2所示，本发明提供了一种应用基于自然语言语义分析的文本识别方法的文本识别系统，包括：

自然语义识别模块，存储有自然语言语义匹配关系，用于根据第一文本中的第一中心文本字符，通过自然语言语义匹配关系，得到第一中心文本字符的自然语言语义；

语义文本生成模块，存储有自然语言语义处理中的文本生成方式，用于根据第一中心文本字符的自然语言语义，通过自然语言语义处理中的文本生成方式（NLP或NLG中的文本生成方法，或其他同功能方法），得到第一文本对应的自然语言语义文本。

第一中心文本字符对应于第一文本中的关键型语义信息，语义中心标定模型基于拓扑学对第一文本字符分析，实现关键性语义信息的标定；

自然语言语义匹配关系为神经网络，或自然语言语义匹配关系为语义信息与自然语言语义的对应关系。

本发明通过语义中心标定模型基于拓扑学对第一文本字符分析，实现关键性语义信息的标定，对关键性语义信息对应的第一中心文本字符，通过自然语言语义匹配关系，得到第一中心文本字符的自然语言语义，只对掌握文本语义有影响的字符进行语义识别，占用信道、存储空间和运算器的硬件资源减少，提高文本识别效率。

字符处理模块利用语义中心标定模型标定出第一中心文本字符，包括：

具体的，字符处理模块构建字符拓扑复合型结构，包括：

字符处理模块以第一文本字符的主题为主题维度的拓扑节点，在具有同一主题的第一文本字符间设置主题维度的拓扑边，利用主题维度的拓扑边对主题维度的拓扑节点进行连接得到主题维度的拓扑结构；

字符处理模块以第一文本字符为内容维度的拓扑节点，在具有同一第一文本字符的主题维度的拓扑节点和内容维度的拓扑节点间设置主题维度连接至内容维度的拓扑边，利用主题维度连接至内容维度的拓扑边对主题维度的拓扑节点与内容维度的拓扑节点进行连接得到主题维度与内容维度的拓扑复合型结构；

字符处理模块以第一文本字符的情感极性作为见解维度的拓扑节点，在具有相同情感极性的内容维度的拓扑节点和见解维度的拓扑节点间设置内容维度连接至见解维度的拓扑边，利用内容维度连接至见解维度的拓扑边对内容维度的拓扑节点与见解维度的拓扑节点进行连接得到主题维度、内容维度和见解维度的拓扑复合型结构；

字符处理模块将主题维度、内容维度和见解维度的拓扑复合型结构作为字符拓扑复合型结构。

字符处理模块字符处理模块存储有主题维度的拓扑边影响力的量化公式，见解维度的拓扑边影响力的量化公式和内容维度的拓扑边影响力的量化公式，字符处理模块利用主题维度的拓扑边影响力的量化公式，见解维度的拓扑边影响力的量化公式和内容维度的拓扑边影响力的量化公式对字符拓扑复合型结构进行拓扑属性量化，具体的：

字符处理模块在字符拓扑复合型结构中利用KL距离对主题维度的拓扑边影响力进行量化，主题维度的拓扑边影响力的量化公式为：

；

字符处理模块在字符拓扑复合型结构中利用情感极性的情感强度对见解维度的拓扑边影响力进行量化，见解维度的拓扑边影响力的量化公式为：

；

字符处理模块在字符拓扑复合型结构中利用节点连接关系对内容维度的拓扑边影响力进行量化，内容维度的拓扑边影响力的量化公式为：

；

字符处理模块依据拓扑属性进行内容维度的拓扑节点重要度的量化，包括：

字符处理模块基于主题维度的拓扑边影响力、见解维度的拓扑边影响力和内容维度的拓扑边影响力，得到拓扑边排序公式；

拓扑边排序公式为：

；

字符处理模块将拓扑边排序公式应用于内容维度，得到内容维度的拓扑节点的重要度公式，内容维度的拓扑节点的重要度公式为：

；

字符处理模块根据内容维度的拓扑节点重要度在字符拓扑复合型结构中标定出关键型拓扑节点，具体的：

将内容维度的拓扑节点的重要度与重要度阈值比较，其中，

以上实施例仅为本申请的示例性实施例，不用于限制本申请，本申请的保护范围由权利要求书限定。本领域技术人员可以在本申请的实质和保护范围内，对本申请做出各种修改或等同替换，这种修改或等同替换也应视为落在本申请的保护范围内。

Claims

1.一种基于自然语言语义分析的文本识别方法，其特征在于：包括以下步骤：

获取第一文本，所述第一文本包括多个第一文本字符；

2.根据权利要求1所述的一种基于自然语言语义分析的文本识别方法，其特征在于：语义中心标定模型标定出第一中心文本字符，包括：

3.根据权利要求2所述的一种基于自然语言语义分析的文本识别方法，其特征在于：所述字符拓扑复合型结构的构建包括：

4.根据权利要求3所述的一种基于自然语言语义分析的文本识别方法，其特征在于：所述对字符拓扑复合型结构进行拓扑属性量化，包括：

；

式中，为内容维度中连接第i个拓扑节点的拓扑边的影响力，R(c_i)为内容维度的第i个拓扑节点的影响广度，D(c_i)为内容维度的第i个拓扑节点的影响深度，c_i为内容维度的第i个拓扑节点，/>，/>，M_r (c_i)为连接c_i的拓扑边数量，A(c_i)为与c_i具有拓扑边连接关系的主题维度的拓扑节点数量，N为字符拓扑复合型结构中拓扑边总数量，N_r为主题维度中拓扑节点总数量，i为计数变量。

5.根据权利要求4所述的一种基于自然语言语义分析的文本识别方法，其特征在于：依据拓扑属性进行内容维度的拓扑节点重要度的量化，包括：

所述拓扑边排序公式为：

；

式中，为字符拓扑复合型结构中第i个拓扑边的排序值，/>为字符拓扑复合型结构中第j个拓扑边的排序值，E_j为字符拓扑复合型结构中第i个拓扑边，/>为字符拓扑复合型结构中E_j的连接度，/>为内容维度中连接第i个拓扑节点的拓扑边的影响力，/>为见解维度中第i个拓扑节点和第j个拓扑节点间拓扑边的影响力，为主题维度的第i个拓扑节点和第j个拓扑节点间拓扑边的影响力；

；

6.根据权利要求5所述的一种基于自然语言语义分析的文本识别方法，其特征在于：根据内容维度的拓扑节点重要度在字符拓扑复合型结构中标定出关键型拓扑节点，包括：

将内容维度的拓扑节点的重要度与重要度阈值比较，其中，

7.根据权利要求4所述的一种基于自然语言语义分析的文本识别方法，其特征在于：所述第一文本字符的情感极性和情感极性的情感强度，包括：利用中文情感词汇本体库对第一文本字符进行情感极性标注，累计第一文本字符的情感强度作为情感极性的情感强度。

8.根据权利要求1所述的一种基于自然语言语义分析的文本识别方法，其特征在于：所述自然语言语义匹配关系为神经网络，神经网络的输入项为第一中心文本字符，输出项为第一中心文本字符的自然语言语义。

9.一种应用权利要求1-8任一项所述的基于自然语言语义分析的文本识别方法的文本识别系统，其特征在于，包括：

10.根据权利要求9所述的文本识别系统，其特征在于，所述第一中心文本字符对应于第一文本中的关键型语义信息，所述语义中心标定模型基于拓扑学对第一文本字符分析，实现关键性语义信息的标定；