CN110413992A

CN110413992A - 一种语义分析识别方法、系统、介质和设备

Info

Publication number: CN110413992A
Application number: CN201910558050.4A
Authority: CN
Inventors: 彭德光; 孙健
Original assignee: Chongqing Trillion Light Polytron Technologies Inc
Current assignee: Chongqing Trillion Light Polytron Technologies Inc
Priority date: 2019-06-26
Filing date: 2019-06-26
Publication date: 2019-11-05

Abstract

本发明提出一种语义分析识别方法、系统、介质和设备，包括：根据预先建立的语料库设置针对关键信息的逻辑约束，创建逻辑库；根据所述语料库和所述逻辑库，训练词义识别模型，获取语料库词义特征向量；根据所述语料库和所述逻辑库，训练句义识别模型，获取语料库句义特征向量；根据所述语料库的词义特征向量、句义特征向量和所述逻辑库，训练融合模型，获取语料特征和所述语料库文本的对应关系；获取待解析文本的词义特征向量和句义特征向量；根据所述待解析文本的词义特征向量、句义特征向量和所述逻辑库，结合所述融合模型，获取语义识别结果；本发明可以有效提高自然语言识别的准确性。

Description

一种语义分析识别方法、系统、介质和设备

技术领域

本发明涉及自然语言识别领域，尤其涉及一种语义分析识别方法、系统、介质和设备。

背景技术

自然语言处理技术主要分为语法分析和统计两大类。目前，国内外的大量自然语言研究都是集中于基于统计和基于深度学习技术的自然语言处理技术。在目前互联网存在各行业无标注语料大数据的情况下，利用深度学习技术，构建无监督学习，建立其语义模型、行业知识库显得尤为重要，也是将来的发展趋势。深度学习技术的兴起为统计类方法提供了更好的实现途径，大大提高了神经网络的学习预测能力。

然而，在某些特定的专业领域，如法律咨询等，问答语料标注数据较少，难以直接应用于需要大量样本数据的深度神经网络。另外，现有的自然语言处理方式大多都是采用关键词提取和统计的方法，这种语义理解方式比较局限，因为，除了字面上的语义外，对语义的理解还依赖于上下文和日常知识。

因此，目前亟需一种能够更有效更精确的语义理解方法。

发明内容

鉴于以上现有技术存在的问题，本发明提出一种语义分析识别方法、系统、介质和设备，主要解决自然语言的理解和识别准确率不高的问题。

为了实现上述目的及其他目的，本发明采用的技术方案如下。

一种语义分析识别方法，包括：

根据预先建立的语料库设置针对关键信息的逻辑约束，创建逻辑库；

创建词义识别模型，根据所述语料库和所述逻辑库，训练所述词义识别模型，建立词语与语料库中文本上下文的对应关系，获取语料库词义特征向量；

创建句义识别模型，根据所述语料库和所述逻辑库，训练所述句义识别模型，建立句子与语料库中文本上下文的对应关系，获取语料库句义特征向量；

创建融合模型，根据所述语料库的词义特征向量、句义特征向量和所述逻辑库，训练所述融合模型，获取语料特征和所述语料库文本的对应关系；

将待解析文本分别输入经过训练的词义识别模型和句义识别模型，获取待解析文本的词义特征向量和句义特征向量；

将所述待解析文本的词义特征向量、句义特征向量和对应的逻辑约束，输入所述融合模型，获取语义识别结果。

可选地，所述获取语料库词义特征向量包括：

对所述语料库中文本进行分词处理；

对分词处理结果进行编码，获取词编码数据；

创建神经网络，将所述词编码数据和对应的逻辑约束输入所述神经网络，对所述神经网络进行训练，获取词义识别模型；

根据所述词义识别模型的识别结果，将关联词语整合后转换成语料库词义特征向量。

可选地，所述获取语料库句义特征向量包括：

对所述语料库中文本进行分句处理；

对分句处理结果进行编码，获取句编码数据；

创建镜像深度神经网络，将所述句编码数据和对应的逻辑约束输入所述镜像深度神经网络，对所述镜像深度神经网络进行训练，获取句义识别模型；

根据所述句义识别模型的识别结果，将关联句子整合后转换成语料库句义特征向量。

可选地，所述训练融合模型包括：

根据所述逻辑库、词义特征向量和句义特征向量，获取知识单元；

对所述知识单元进行编码，获取知识编码数据；

创建深度新联神经网络，将所述知识编码数据输入深度信念神经网络进行模型训练，获取融合模型。

可选地，所述获取知识单元包括：

根据所述逻辑库创建词语和句子对应的约束条件；

根据所述约束条件，获取逻辑库中与所述约束条件关联的逻辑约束，创建知识图谱；

根据所述知识图谱，提取所述语料库词义特征向量和句义特征向量中的对应的词语和句子，获取知识单元。

可选地，所述获取语义识别结果包括：

计算所述待解析文本词义特征向量与所述语料库词义特征向量的相似度，获取词义相似度；

计算所述待解析文本句义特征向量与所述语料库句义特征向量的相似度，获取句义相似度；

将所述词义相似度和所述句义相似度与设定的相似度阈值进行比较，获取相似度判断结果；

根据所述相似度判断结果和所述逻辑库，获取待解析文本的知识单元。

将所述待解析文本的知识单元输入所述融合模块，获取与所述待解析文本匹配度最高的语料库文本。

可选地，所述获取待解析文本的词义特征向量和句义特征向量之前，对所述待解析文本进行预处理，包括：

对待解析文本进行分词和分句处理，获取处理结果；

根据所述逻辑库，对所述处理结果进行标注。

一种语义分析识别系统，其特征在于，包括：

语料库；

逻辑库创建模块；用于根据预先建立的语料库设置针对关键信息的逻辑约束，创建逻辑库；

模型训练模块；创建词义识别模型，根据所述语料库和所述逻辑库，训练所述词义识别模型，建立词语与语料库中文本上下文的对应关系，获取语料库词义特征向量；创建句义识别模型，根据所述语料库和所述逻辑库，训练所述句义识别模型，建立句子与语料库中文本上下文的对应关系，获取语料库句义特征向量；创建融合模型，根据所述语料库的词义特征向量、句义特征向量和所述逻辑库，训练所述融合模型，获取语料特征和所述语料库文本的对应关系；

识别模块，将待解析文本分别输入经过训练的词义识别模型和句义识别模型，获取待解析文本的词义特征向量和句义特征向量；将所述待解析文本的词义特征向量、句义特征向量和对应的逻辑约束，输入所述融合模型，获取语义识别结果。

一种计算机可读存储介质，其中存储有计算机程序，所述计算机程序被处理器加载执行时，实现所述的语义分析识别方法。

一种设备，其特征在于，包括处理器和存储器；其中，

所述存储器用于存储计算机程序；

所述处理器用于加载并执行所述计算机程序，使得所述设备执行所述的语义分析识别方法。

如上所述，本发明一种语义识别方法、系统、介质和设备，具有以下有益效果。

通过引入逻辑库，训练识别模型，可以使识别信息收敛性更好，提高识别效率；通过词义和句义相结合，可以提高语义识别的全面性和准确性。

附图说明

图1为本发明一实施例中的语义分析识别方法的流程图。

图2为本发明一实施例中的语义分析识别系统的模块图。

图3为本发明一实施例中的设备的结构示意图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制，其实际实施时各组件的型态、数量及比例可为一种随意的改变，且其组件布局型态也可能更为复杂。

自然语言识别，是人工识别领域的一个重要研究课题，是研究人与计算机间用自然语言进行有效通信的重要理论基础。然而，由于自然语言文本和对话在各个层次上广泛存在的各式各样的歧义性和多义性，计算机理解自然语言变得异常困难。对自然语言的处理方法将直接关系到自然语言的识别结果。而传统的方法大多依赖于统计学方法，应用于大数据量的文本时，不仅效率低，准确性也不高。因此，本方案提出了一种语言分析识别方法，基于知识进行深层次的逻辑推理，通过只是在文本中的深层逻辑关系，获取更准确的识别信息，提高自然语言识别的准确率。

请参阅图1，本发明提供一种语义分析识别方法，包括步骤S01-S06。

在步骤S01中，根据预先建立的语料库设置针对关键信息的逻辑约束，创建逻辑库；

在一实施例中，可针对某一个特定的技术领域专门建立一个语料库，如针对法律领域，其对应的语料库的构成基本包括法律专业类科普书籍、专业书籍、专业教材、专业报纸、专业学术期刊全文及摘要、专业类印刷品和光盘等；主要收集立法、司法、公安检察和普法等相关法律环节的文本，形成一个由若干个子库构成的法律语料库。

可针对预先建立的语料库，设置语料库关键信息的逻辑约束条件。仍以法律语料库为例，可设置逻辑规则为二值规则，如是否构成犯罪，逻辑约束包括是和否两种逻辑状态，将类似的逻辑约束条件组成逻辑库。

在步骤S02中，根据所述语料库和所述逻辑库，训练词义识别模型，建立词语与语料库中文本上下文的对应关系，获取语料库词义特征向量：

在训练词义识别模型之前，需要对语料库中的文本进行分词处理。在一实施例中，对于中文分词，是将连续的中文字序列按照一定的规则切分成一个个单独的词，可采用：基于字符串匹配的分词算法、基于知识理解的分词算法和基于统计的分词算法等。分词的目的只是为了从文本中获取单个的词语，这里不对分词算法作具体限制。

对经过分词处理后的词语进行编码，将采用自然语言描述的词语转换成计算机可识别的语句。这里可以采用二进制编码，得到对应的二进制词编码数据。将词编码数据作为神经网络的输入，在训练过程中，引入逻辑库中相应的逻辑约束，对词编码数据进行筛选，增强词语的关联性。在一实施例中，可以通过逻辑约束对词语进行标注，根据约束条件提取对应的词语，减轻计算量的同时，提高了针对具体约束的词相关性。

通过神经网络训练获取词义识别模型。神经网络训练过程中，可以获取词语在本文中的相关信息，包括词语的位置，出现的频率，前后词语的相关性以及词语的逻辑约束等信息。将通过训练得到的词语相关信息进行整合，获取词义特征向量。在一实施例中，可以通过word2vec算法，将词语相关信息进行整合，转换成对应的词义特征向量。

在步骤S03中，根据所述语料库和所述逻辑库，训练句义识别模型，建立句子与语料库中文本上下文的对应关系，获取语料库句义特征向量：

在训练句义识别模型之前，需要对语料库中的文本进行分句处理。具体分句算法可采用常规的自然语言处理工具NTLK或其他可实现相应分句功能的算法，这里不对分句算法和工具作具体限制。

对经过分句处理后的句子进行编码，将采用自然语言描述的词语转换成计算机可识别的语句。这里可以采用二进制编码，得到对应的二进制词编码数据。将词编码数据作为神经网络的输入。在训练过程中，引入逻辑库中相应的逻辑约束，对句编码数据进行筛选，增强句子的关联性。通过神经网络训练获取句义识别模型。神经网络训练过程中，可以获取句子在本文中的相关信息，包括句子的位置，出现的频率，前后句子的相关性以及句子的逻辑约束等信息。将通过训练得到的句子相关信息进行整合，获取句义特征向量。在一实施例中，用于训练句义识别模型的神经网络算法，可采用镜像深度神经网络。通过镜像深度神经网络训练得到句义识别神经网络模型的同时，还可根据与句子相关联的逻辑约束，获取逻辑推理模型。

在步骤S04中，根据所述语料库的词义特征向量、句义特征向量和所述逻辑库，训练融合模型，获取语料特征和所述语料库文本的对应关系：

在一实施例中，根据步骤S02和S03分别得到的词义特征向量和句义特征向量，获取对应的逻辑约束。根据逻辑约束在逻辑库中筛选出相关联的逻辑约束，创建基于逻辑约束的知识图谱，根据所述知识图谱，提取所述语料库词义特征向量和句义特征向量中的对应的词语和句子，构成知识单元。

对知识单元进行编码，可采用二进制编码或N-Gram算法进行编码，得到知识编码数据。将知识编码数据作为神经网络的输入。在一实施例中，神经网络可采用深度信念神经网络，深度信念神经网络的具体操作步骤为本领域人员熟知，这里不再赘述。通过训练深度信念神经网络，获取融合模型，所述融合模型主要包括知识单元与语料库中的文本的对应关系。

在步骤S05中，获取待解析文本的词义特征向量和句义特征向量：

以法律领域为例，在一实施例中，待解析文本可以包括法律咨询问题，一般由一个或多个句子构成。在获取待解析文本的词义特征向量和句义特征向量之前，需要对待解析文本进行分词和分句处理，并根据设置的逻辑约束对待解析文本对应的词语和句子进行标注。在一实施例中，标注可采用人工标注，也可采用专用标注软件进行标注，这里不对标注的具体方式作进一步限制。

获取待解析文本词义特征向量和句义特征向量的步骤请参考步骤S02和步骤S03，这里不再赘述。

在步骤S06中，根据所述待解析文本的词义特征向量、句义特征向量和所述逻辑库，结合所述融合模型，获取语义识别结果：

根据步骤S05中获取的待解析文本的词义特征向量，计算所述待解析文本的词义特征向量与所述语料库词义特征向量的相似度，获取词义相似度；

根据步骤S05中获取的待解析文本的句义特征向量，计算所述待解析文本句义特征向量与所述语料库句义特征向量的相似度，获取句义相似度。在一实施例中，两个向量的相似度计算可以采用向量的范数距离进行度量。

将所述词义相似度和所述句义相似度与设定的相似度阈值进行比较，获取相似度判断结果。

具体地，以计算1-范数距离为例，计算所述待解析文本的词义特征向量中每项数据的绝对值之和与语料库词义特征向量中每项数据绝对值之和的差值。将计算得到的差值与预设的阈值进行比较，如果差值在阈值范围内，则判断两个向量相似，差值越小相似度越高；如果差值在预制范围外，则判断两个向量不相似。句义特征向量的相似度判断也可采用同样的方法。1-范数距离知识本方案的一种实施例，并非本方案计算向量距离的唯一方法。也可采用2-范数等计算向量距离的算法。

若判断结果相似，则根据步骤S04中得到的语料库词义特征向量和句义特征向量的知识单元，构建对应待解析文本的词义特征向量和句义特征向量的知识单元。

根据本发明的实施例，还提供了一种计算机存储介质，存储介质中存储有计算机程序，该计算机程序执行时可以实现前述的语义分析识别方法。计算机存储介质可以包括计算机存储的任何可用介质或者包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。可用介质包括磁性介质(如：软盘、硬盘、磁带)、光介质(如：DVD)、半导体介质(如：固态硬盘)等。

请参阅图2，本实施例提供一种语义分析识别系统，用于执行前述方法实施例中所述的语义分析识别方法。由于系统实施例的技术原理与前述方法实施例的技术原理相似，因而不再对同样的技术细节做重复性赘述。

在一实施例中，语义分析识别系统包括语料库10、逻辑库11、模型训练模块12和识别模块13；语料库10和逻辑库11用于辅助执行执行前述方法实施例介绍的步骤S01，模型训练模块12用于执行前述方法实施例介绍的步骤S02-S05，识别模块13用于执行前述方法实施例中的步骤S06。

请参阅图3，本实施例提供一种设备，设备可以是台式机、便携式电脑等，具体地，设备至少包括处理器20和存储器21。

处理器20用于执行前述方法实施例中的全部或部分步骤。处理器20可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(NetworkProcessor，简称NP)等；还可以是数字信号处理器(Digital Signal Processing，简称DSP)、专用集成电路(Application Specific Integrated Circuit，简称ASIC)、现场可编程门阵列(Field－Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

综上所述，本发明一种语义分析识别方法、系统、介质和设备，通过自然语言与逻辑推理相结合，提高识别过程的收敛速度，提高识别准确率。所以，本发明有效克服了现有技术中的种种缺点而具高度产业利用价值。

上述实施例仅例示性说明本发明的原理及其功效，而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下，对上述实施例进行修饰或改变。因此，举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变，仍应由本发明的权利要求所涵盖。

Claims

1.一种语义分析识别方法，其特征在于，包括：

2.根据权利要求1所述的语义分析识别方法，其特征在于，所述获取语料库词义特征向量包括：

对所述语料库中文本进行分词处理；

对分词处理结果进行编码，获取词编码数据；

3.根据权利要求1所述的语义分析识别方法，其特征在于，所述获取语料库句义特征向量包括：

对所述语料库中文本进行分句处理；

对分句处理结果进行编码，获取句编码数据；

4.根据权利要求1所述的语义分析识别方法，其特征在于，所述训练融合模型包括：

对所述知识单元进行编码，获取知识编码数据；

5.根据权利要求4所述的语义分析识别方法，其特征在于，所述获取知识单元包括：

根据所述逻辑库创建词语和句子对应的约束条件；

6.根据权利要求1所述的语义分析识别方法，其特征在于，所述获取语义识别结果包括：

7.根据权利要求1所述的语义分析识别方法，其特征在于，所述获取待解析文本的词义特征向量和句义特征向量之前，对所述待解析文本进行预处理，包括：

对待解析文本进行分词和分句处理，获取处理结果；

根据所述逻辑库，对所述处理结果进行标注。

8.一种语义分析识别系统，其特征在于，包括：

语料库；

9.一种计算机可读存储介质，其中存储有计算机程序，其特征在于，所述计算机程序被处理器加载执行时，实现权利要求1至7任一所述的方法。

10.一种设备，其特征在于，包括处理器和存储器；其中，

所述存储器用于存储计算机程序；

所述处理器用于加载并执行所述计算机程序，使得所述设备执行权利要求1至7中任一所述的方法。