CN110674378A

CN110674378A - 基于余弦相似度和最小编辑距离的中文语义识别方法

Info

Publication number: CN110674378A
Application number: CN201910917326.3A
Authority: CN
Inventors: 李飞; 范文斌; 吴彤彤; 刘成彪; 冯强中; 王亚平; 王涛; 刘媛媛; 赵龙
Original assignee: Section Big Country Wound Software Inc Co
Current assignee: Section Big Country Wound Software Inc Co
Priority date: 2019-09-26
Filing date: 2019-09-26
Publication date: 2020-01-10

Abstract

本发明公开了一种基于余弦相似度和最小编辑距离的中文语义识别方法，涉及自然语言处理技术领域。本发明包括如下步骤：步骤S1、语料元数据采集；步骤S2、语料数据预处理；步骤S3、语料知识库配置；步骤S4、语义匹配规则配置；步骤S5、中文文字相似度计算；步骤S6、中文拼音相似度计算；步骤S7、语义总匹配度计算。本发明通过爬虫技术采集互联网语料数据，构建语料知识库，以数据为基础，配置语义匹配的多重规则、中文和拼音双重匹配识别语义、余弦相似度算法计算中文文字、最小编辑距离算法计算语义拼音，根据配置的中文匹配和拼音匹配的权重计算语义总匹配率，使语义识别率更精准，保障双重识别模式识别率的稳定。

Description

基于余弦相似度和最小编辑距离的中文语义识别方法

技术领域

本发明属于自然语言处理技术领域，特别是涉及一种基于余弦相似度和最小编辑距离的中文语义识别方法，同时结合了爬虫技术和知识库技术，以数据为基础，提供更有效、准确的中文语义模式识别方法。

背景技术

自然语言处理包括语法分析、语义分析、篇章理解等。从应用角度来看，自然语言处理具有广泛的应用前景。特别是在信息时代，自然语言处理的应用包罗万象，例如：机器翻译、手写体和印刷体字符识别、语音识别及文语转换、信息检索、信息抽取与过滤、文本分类与聚类、舆情分析和观点挖掘等，它涉及与语言处理相关的数据挖掘、机器学习、知识获取、知识工程、人工智能研究和与语言计算相关的语言学研究等。

现有的服务机器大部分设置有摄像头，通过摄像头的视频录制和实施人工监控，使得即使在嘈杂的环境中，语音识别的正确率仍能保持，在多音源的情况下，识别的准确度需要其他功能的辅助提升语音语义识别的准确度。目前的服务机器在语音语义识别过程中，仍存在诸多的问题，例如语音设备在采集过程或采集设备本身会带来干扰，导致其准确率不高，或者语音识别基本能涵盖准确识别结果，但是在实时识别过程中需要采用大型的计算机硬件设备，计算量大。

因此，对于服务机器来说，不仅如何快速、准确识别用户发出的语音指令并对指令的语义进行理解后，做出相应的响应或者回复是体现一个服务机器性能的重要指标，能否将识别设备变得轻巧、可移动和便携，是一个新的客体要求。

发明内容

本发明的目的在于提供一种基于余弦相似度和最小编辑距离的中文语义识别方法，通过爬虫技术采集互联网语料数据，构建语料知识库，以数据为基础，配置语义匹配的多重规则、中文和拼音双重匹配识别语义、余弦相似度算法计算中文文字、最小编辑距离算法计算语义拼音，根据配置的中文匹配和拼音匹配的权重计算语义总匹配率，解决了现有的中文语义识别率低、容易出现歧义词汇的问题。

为解决上述技术问题，本发明是通过以下技术方案实现的：

本发明为一种基于余弦相似度和最小编辑距离的中文语义识别方法，包括如下步骤：

步骤S1、语料元数据采集：运用网络爬虫技术，通过配置采集规则和采集模板，从互联网中获取语料相关数据信息，采集到的语料相关数据信息为语料元数据，将语料元数据存储到本地数据库；

步骤S2、语料数据预处理：针对语料元数据进行预处理操作，通过配置预处理规则，将语料元数据按照处理规则整合成语料数据，预处理依次包括：提取文字、中文分词、消除噪音、索引处理；

步骤S3、语料知识库配置：对语料元数据初始化后形成语料数据，将语料数据存储到语料库中，同时建立索引库，数据库结合索引库共同形成语料知识库，同时提供语料检索服务接口，通过配置接口入参参数、出参参数和访问路径，快速开放接口；

步骤S4、语义匹配规则配置：给语义识别规则配置语义匹配规则，语义匹配规则包含多个子规则，包括消歧词规则、同义词规则、关键词规则、同义句规则、中文和拼音匹配权重；

步骤S5、中文文字相似度计算：结合语料知识库对中文语句进行中文分词，针对两段中文语义进行中文分词，将完整的中文语义分解为一个个单一的词语，根据配置的语义匹配规则对中文分词进行替换操作，计算词语出现的频率，针对两段中文语义分别构建两个词频向量，根据余弦相似度算法得出中文文字语义匹配率的数值；

步骤S6、中文拼音相似度计算：将中文文字转换为汉语拼音，根据拼音长度建立矩阵，按照删除、插入和替换三种编辑操作，循环计算整个矩阵，根据最小编辑距离算法得出中文拼音的匹配率数值；

步骤S7、语义总匹配度计算：根据步骤S5中计算得到的中文文字匹配度数值，步骤S6中拼音匹配度的数值，再结合步骤S4中配置的中文匹配和拼音匹配的权重，计算得出语义总匹配度。

优选地，所述步骤S1中，语料元数据的具体采集步骤如下：

步骤S11：首先选取一部分的种子URL，将这些URL放入待抓取URL队列；

步骤S12：取出待抓取URL，解析DNS得到主机的IP，并将URL对应的网页下载下来，存储进已下载网页库中，并且将这些URL放进已抓取URL队列；

步骤S13：分析已抓取URL队列中的URL，分析其中的其他URL，并且将URL放入待抓取URL队列，从而进入下一个循环；

步骤S14：满足设置的停止条件后，循环停止，元数据采集结束。

优选地，所述步骤S2中，语料数据预处理的具体步骤如下：

步骤S21、提取文字：将爬虫获取的网页中的中文文字单独提取出来；

步骤S22、中文分词；对步骤S21中提取的中文语句进行分词，并标注相应词性；

步骤S24、索引处理：为语料数据构建索引，提供关键字检索的服务。

优选地，所述步骤S3中，语料知识库配置的具体步骤如下：

步骤S31：将语料数据存储在数据库中；

步骤S32：建立索引库，数据库结合索引库形成语料知识库；

步骤S33：提供语料检索服务接口。

优选地，所述步骤S4中，语义匹配规则配置的具体步骤如下：

步骤S41：配置语义消歧词规则；

步骤S42：配置同义词规则；

步骤S43：配置同义句规则。

优选地，所述步骤S5中，中文文字相似度计算的具体步骤如下：

步骤S51、分词：针对两段中文语义进行中文分词，将完整的中文语义分解为一个个单一的词语；

步骤S52、计算词频：两段中文语义分词后的词语的频率；

步骤S53、构建词频向量：通过计算得到的词频数据，能够针对两段中文语义分别构建两个词频向量；

步骤S54、计算向量夹角得出匹配率：将构建好的词频向量想象成空间中的两条线段，都是从原点出发，指向不同的方向，根据向量夹角得出匹配率，通过夹角的大小，来判断向量的相似程度，夹角越小，就代表越匹配。

优选地，所述步骤S6中，中文拼音相似度计算的具体步骤如下：

步骤S61：构建矩阵，当两个中文语义拼音分别为str1和str2，len1是str1的长度，len2是str2的长度，则建立的矩阵为：disM[len2+1][len1+1]；

步骤S62：数据初始化，对构建的矩阵内容进行排序的初始化操作；

步骤S63：循环计算整个矩阵，按照删除、插入和替换三种编辑操作，循环计算整个矩阵，disM[len2][len1]即为最小编辑距离。

优选地，所述步骤S7中，语义总匹配度计算的具体步骤如下：

步骤S71：获取配置的中文和拼音匹配权重；

步骤S72：计算语义总匹配度。

本发明具有以下有益效果：

(1)本发明通过爬虫技术获取互联网语料数据，并通过特定的分类算法对语料元数据进行预处理，获取到有价值的互联网语料数据，并构建语料知识库，语料知识库根据每天的定时爬虫获取到大量数据，不断填充丰富语料知识库，以数据为基础，服务于中文语义匹配，同时语料知识库对外开放接口，不仅可以用于中文语义匹配领域，对整个人工智能的自然语言处理领域也有着较高的价值；

(2)本发明支持配置语义匹配规则，能够根据配置的语义匹配规则优化语义识别过程，通过消歧词、同义词、同义句等多种规则优化语义匹配率，通过余弦相似度算法、拼音识别通过最小编辑距离算法，然后根据权重获取更精准的识别率，双重识别模式保障识别率的稳定。

当然，实施本发明的任一产品并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的一种基于余弦相似度和最小编辑距离的中文语义识别方法的流程图；

图2为爬取互联网语料数据具体流程图；

图3为语料数据预处理具体流程图；

图4为计算中文文字匹配具体流程图；

图5为计算中文拼音匹配具体流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

请参阅图1所示，本发明为一种基于余弦相似度和最小编辑距离的中文语义识别方法，包括如下步骤：

步骤S1、语料元数据采集：运用网络爬虫技术，通过配置采集规则和采集模板，从互联网中获取语料相关数据信息，支持通过定时采集和手动触发采集两种方式，采集到的语料相关数据信息为语料元数据，是构建语料知识库的基础，将语料元数据存储到本地数据库；

步骤S3、语料知识库配置：对语料元数据初始化后形成语料数据，将语料数据存储到语料库中，同时建立索引库，便于快速检索语料数据，数据库结合索引库共同形成语料知识库，同时提供语料检索服务接口，服务接口符合restful接口规范，通过配置接口入参参数、出参参数和访问路径，快速开放接口；

步骤S4、语义匹配规则配置：语义匹配规则是准确快速识别语义的前提，配置的规则提供给语义识别引擎使用，从而使得语义识别引擎更通用更灵活，语义匹配规则包含多个子规则，包括消歧词规则、同义词规则、关键词规则、同义句规则、中文和拼音匹配权重；

步骤S5、中文文字相似度计算：结合语料知识库对中文语句进行中文分词，针对两段中文语义进行中文分词，将完整的中文语义分解为一个个单一的词语；根据配置的语义匹配规则对中文分词进行替换操作，计算词语出现的频率，针对两段中文语义分别构建两个词频向量，根据余弦相似度算法得出中文文字语义匹配率的数值，匹配率的数值在0至1之间且包括0和1；

步骤S6、中文拼音相似度计算：将中文文字转换为汉语拼音，根据拼音长度建立矩阵，假设两个中文语义拼音分别为str1和str2，len1是str1的长度，len2是str2的长度，则建立的矩阵为：disM[len2+1][len1+1]；数据初始化：对构建的矩阵内容进行排序的初始化操作；循环计算整个矩阵：按照删除、插入和替换三种编辑操作，循环计算整个矩阵，disM[len2][len1]即为最小编辑距离算法得出的中文拼音的匹配数值，匹配率的数值在0至1之间且包括0和1；

请参阅图2所示，步骤S1中，语料元数据的具体采集步骤如下：

请参阅图3所示，步骤S2中，语料数据预处理的具体步骤如下：

其中，步骤S3中，语料知识库配置的具体步骤如下：

步骤S31：将语料数据存储在数据库中；

步骤S32：建立索引库，数据库结合索引库形成语料知识库；

步骤S33：提供语料检索服务接口。

优选地，步骤S4中，语义匹配规则配置的具体步骤如下：

步骤S41：配置语义消歧词规则，配置的语义消歧词规则如将“1”消歧为“一”等；

步骤S42：配置同义词规则，配置的同义词规则如将“吃”同义词为“食”等；

步骤S43：配置同义句规则，配置的同义句规则如将“今天天气怎么样”同义句为“今天天气如何”。

请参阅图4所示，步骤S5中，中文文字相似度计算的具体步骤如下：

步骤S52、计算词频：两段中文语义分词后的词语的频率；

步骤S54、计算向量夹角得出匹配率：将构建好的词频向量想象成空间中的两条线段，都是从原点([0,0,...])出发，指向不同的方向，根据向量夹角得出匹配率，通过夹角的大小，来判断向量的相似程度，夹角越小，就代表越匹配。

请参阅图5所示，步骤S6中，中文拼音相似度计算的具体步骤如下：

优选地，步骤S7中，语义总匹配度计算的具体步骤如下：

步骤S71：获取配置的中文和拼音匹配权重；

步骤S72：计算语义总匹配度。

值得注意的是，上述系统实施例中，所包括的各个单元只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。

另外，本领域普通技术人员可以理解实现上述各实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，相应的程序可以存储于一计算机可读取存储介质中。

以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本说明书的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本发明的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。

Claims

1.一种基于余弦相似度和最小编辑距离的中文语义识别方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的一种基于余弦相似度和最小编辑距离的中文语义识别方法，其特征在于，所述步骤S1中，语料元数据的具体采集步骤如下：

3.根据权利要求1所述的一种基于余弦相似度和最小编辑距离的中文语义识别方法，其特征在于，所述步骤S2中，语料数据预处理的具体步骤如下：

4.根据权利要求1所述的一种基于余弦相似度和最小编辑距离的中文语义识别方法，其特征在于，所述步骤S3中，语料知识库配置的具体步骤如下：

步骤S31：将语料数据存储在数据库中；

步骤S32：建立索引库，数据库结合索引库形成语料知识库；

步骤S33：提供语料检索服务接口。

5.根据权利要求1所述的一种基于余弦相似度和最小编辑距离的中文语义识别方法，其特征在于，所述步骤S4中，语义匹配规则配置的具体步骤如下：

步骤S41：配置语义消歧词规则；

步骤S42：配置同义词规则；

步骤S43：配置同义句规则。

6.根据权利要求1所述的一种基于余弦相似度和最小编辑距离的中文语义识别方法，其特征在于，所述步骤S5中，中文文字相似度计算的具体步骤如下：

步骤S52、计算词频：两段中文语义分词后的词语的频率；

7.根据权利要求1所述的一种基于余弦相似度和最小编辑距离的中文语义识别方法，其特征在于，所述步骤S6中，中文拼音相似度计算的具体步骤如下：

8.根据权利要求1所述的一种基于余弦相似度和最小编辑距离的中文语义识别方法，其特征在于，所述步骤S7中，语义总匹配度计算的具体步骤如下：

步骤S71：获取配置的中文和拼音匹配权重；

步骤S72：计算语义总匹配度。