CN112270192B

CN112270192B - 一种基于词性和停用词过滤的语义识别方法及系统

Info

Publication number: CN112270192B
Application number: CN202011322451.9A
Authority: CN
Inventors: 徐况; 范文斌; 刘成彪; 张天明; 吴彤彤; 孙伟
Original assignee: Kedaduochuang Cloud Technology Co ltd
Current assignee: Kedaduochuang Cloud Technology Co ltd
Priority date: 2020-11-23
Filing date: 2020-11-23
Publication date: 2023-12-19
Anticipated expiration: 2040-11-23
Also published as: CN112270192A

Abstract

本发明公开了一种基于词性和停用词过滤的语义识别方法及系统，属于语义识别技术领域，包括以下步骤：步骤S1：对用户的输入进行分词处理；步骤S2：对分词的结果进行词性过滤，对词性进行降噪；步骤S3：对分词的结果进行停用词处理，对句子进行降噪；步骤S4：对剩余的分词结果进行重新拼接，使用文本相似度算法进行相似度计算，推理最大的分数值代表的语料为用户的真实意图。本发明通过分词、停用词、文本相似度计算来进行语义识别，可以让语料库在数据量少的情况下能够泛化更多的语义能力，不仅可以节省语料库的搭建成本，还可以提高语义识别的效率，给用户带来更好的感知体验。

Description

一种基于词性和停用词过滤的语义识别方法及系统

技术领域

本发明涉及语义识别技术领域，具体涉及一种基于词性和停用词过滤的语义识别方法及系统。

背景技术

1956年以前，可以看作自然语言处理的基础研究阶段。一方面，人类文明经过了几千年的发展，积累了大量的数学、语言学和物理学知识。这些知识不仅是计算机诞生的必要条件，同时也是自然语言处理的理论基础。另一方面，阿兰·图灵在1936年首次提出了“图灵机”的概念。“图灵机”作为计算机的理论基础，促使了1946年电子计算机的诞生。而电子计算机的诞生又为机器翻译和随后的自然语言处理提供了物质基础。

从50年代中期开始到60年代中期，以Chomsky为代表的符号派学者开始了形式语言理论和生成句法的研究，60年代末又进行了形式逻辑系统的研究。而随机派学者采用基于贝叶斯方法的统计学研究方法，在这一时期也取得了很大的进步。但由于在人工智能领域中，这一时期多数学者注重研究推理和逻辑问题，只有少数来自统计学专业和电子专业的学者在研究基于概率的统计方法和神经网络，所以，在这一时期中，基于规则方法的研究势头明显强于基于概率方法的研究势头。

随着研究的深入，由于人们看到基于自然语言处理的应用并不能在短时间内得到解决，而一连串的新问题又不断地涌现，于是，许多人对自然语言处理的研究丧失了信心。从70年代开始，自然语言处理的研究进入了低谷时期。90年代中期以后，有两件事从根本上促进了自然语言处理研究的复苏与发展。一件事是90年代中期以来，计算机的速度和存储量大幅增加，为自然语言处理改善了物质基础，使得语音和语言处理的商品化开发成为可能；另一件事是1994年Internet商业化和同期网络技术的发展使得基于自然语言的信息检索和信息抽取的需求变得更加突出。

最近几年出现了如下的一些自然语言处理技术：神经语言模型、多任务学习、Word嵌入、NLP的神经网络、序列到序列模型、注意力机制、基于记忆的神经网络、预训练语言模型。

在上述自然语言处理相关技术的快速发展下，NLP技术现已被用在生活中的各个场景中，也体会到了NLP技术发展带来的各种便捷，如：购物客服、商品导购、生活服务助手等。这些都是基于NLP技术发展带来的产物。

在NLP快速发展的当下，语义识别一直是一个热门的话题，语义识别不同于其他AI服务，因为中文语言的博大精深，使得同样一句话的表述会存在若干种，这给语义识别带来了巨大的挑战。

目前市面上的语义识别机器人都是在特定场景下的，如：购买火车票、购买衣服、生活服务助手等，他们都需要针对特定场景进行语料定制化，不管是基于机器学习的还是基于模型训练的，都是以大量的语料为前提，同一个意图需要考虑到用户的若干种问法，配置多条语料，这些语料的录入格式是一个非常巨大的工作量。因此，提出一种基于词性和停用词过滤的语义识别方法及系统。

发明内容

本发明所要解决的技术问题在于：如何解决现有的识别方法中存在的需要录入大量语料的问题，提供了一种基于词性和停用词过滤的语义识别方法。

本发明是通过以下技术方案解决上述技术问题的，本发明包括以下步骤：

S1：分词处理

将用户的输入进行分词处理，处理的结果为多个词语组成的结果集，并对各个词语的词性进行自动标注；

S2：词性过滤

去除分词结果集中的过滤属性表示的词语；

S3：停用词过滤

去除分词结果集中属于停用词的词语；

S4：语义相似度计算

将依次经过步骤S1、S2、S3处理后的分词结果集重新进行句子拼接，组合成新的输入，把该输入作为用户想表达的真实意图，和系统已录入的语料进行文本相似度计算，找到最大相似度对应的语料，把该语料作为用户的意图。

更进一步地，所述步骤S1的具体过程如下：

S11：获取用户输入

获取用户的输入内容，把该输入作为为用户的原始意图输入；

S12：分词处理

将用户的输入按照词语进行拆分，将一个长句子拆分成多个词语组成的集合；

S13：词性标注

对步骤S12中的多个词语进行词性标注；

S14：输出结果集

将经过上述处理后的分词结果集进行封装并传递给步骤S2。

更进一步地，所述步骤S2的具体过程如下：

S21：获取分词结果集

获取经过步骤S14处理后的分词结果集；

S22：遍历分词结果集

设置变量N＝0，判断是否存在该分词；如果存在，则执行步骤S23，否则执行步骤S24；

S23：获取第N个分词

从分词结果集中获取下标为N的分词，设置该分词为P，若P存在，表示遍历还没有结束，执行步骤S24，否则表示遍历结束，执行步骤S27；

S24：判断分词词性是否属于过滤词性

获取系统中预先设置的过滤的词性集合T，并判断P的词性是否在T中,若P在T中，表示该P需要删除，执行步骤S25，否则表示该词性不需要进行过滤，并进行下一个分词的词性判断，执行步骤S26；

步骤S25：删除分词P

若P在T中，则从分词结果集中把分词P删除；

步骤S26：下标N进行自增操作

重新设置N的值为N+1，遍历下一个分词，并返回步骤S23；

步骤S27：封装剩余的分词结果集

将经过上述步骤处理后的分词结果集进行重新封装，组合成新的分词结果集。

更进一步地，所述步骤S3的具体过程如下：

S31：获取分词结果集

获取经过步骤S27处理后的分词结果集，并遍历分词结果集；

S32：遍历分词结果集

设置变量M＝0，判断是否存在该分词；若存在，表示遍历还没有结束，执行步骤S33，否则表示遍历结束，执行步骤S34；

S33：获取第M个分词

从分词结果集中获取下标为M的分词，设置该分词为Q；

S34：判断分词词语是否属于停用词

获取系统中预先设置的停用词集合U，并判断Q的词语是否在U中，若Q在U中，表示该Q的词语属于停用词，对其进行过滤，执行步骤S35，否则执行步骤S36；

S35：删除分词Q

把Q从分词结果集中删除；

步骤S36：下标M进行自增操作

重新设置M的值为M+1，遍历下一个分词，并返回步骤S33；

步骤S37：拼接剩余的分词结果集

将经过上述步骤处理后的分词结果集进行遍历，将遍历出来的分词按照顺序进行词语拼接，组合成新的输入，将该输入Input作为用户的真实意图。

更进一步地，所述步骤S4的具体过程如下：

S41：获取用户新的输入

获取经过步骤S37处理后的输入，把该输入作为用户的真实意图；

S42：获取系统中的语料

获取系统中预先录入的语料库，将语料库加载到系统的内存中；

S43：遍历语料，设置C＝0，MaxScore＝0，Intent＝null

遍历系统的语料库，先设置下标C＝0，最大相似度分数MaxScore＝0，使用MaxScore来记录语料库中和用户输入的最大相似分数，使用Intent来记录最大分数对应的语料；

S44：获取第C个语料

获取下标为C的语料，设置该语料为I，若I存在，则进行步骤S45，否则进行步骤S48；

S45：计算相似度

计算语料I和用户的输入的文本相似度，采用余弦相似度算法计算2个文本之间的相似度，得到相似度分数S：

S46：分数比较

计算分数S和MaxScore的大小，若S大于MaxScore，表示找到了一个更加符合用户意图的语料，则将S的值赋值给MaxScore，并将I赋值为Intent，然后执行步骤S47；

S47：下标C进行自增操作

重新设置C的值为N+1，遍历下一个分词，并返回步骤S44；

S48：返回系统匹配的语料

将Intent代表的语料作为用户的真实意图。

更进一步地，在所述步骤S45中，具体的计算步骤如下：

S451：通过中文分词，把用户输入和系统语料分成独立的词集合；

S452：求出两个词集合的并集；

S453：计算各自词集的词频并将词频向量化；

S454：代入余弦公式求出文本相似度。

本发明还提供了一种基于词性和停用词过滤的语义识别系统，采用上述的语义识别方法对用户的语义进行识别，包括：

分词处理模块，用于将用户的输入进行分词处理，处理的结果为多个词语组成的结果集，并对各个词语的词性进行自动标注；

词性过滤模块，用于去除分词结果集中的过滤属性表示的词语；

停用词过滤模块，用于去除分词结果集中属于停用词的词语；

相似度计算模块，用于将处理后的分词结果集重新进行句子拼接，组合成新的输入，把该输入作为用户想表达的真实意图，和系统已录入的语料进行文本相似度计算，找到最大相似度对应的语料，把该语料作为用户的意图；

中央处理模块，用于向其他模块发出指令，完成相关动作；

所述分词处理模块、所述词性过滤模块、所述停用词过滤模块、所述相似度计算模块均与中央处理模块电连接。

本发明相比现有技术具有以下优点：该基于词性和停用词过滤的语义识别方法，通过分词、停用词、文本相似度计算来进行语义识别，可以让语料库在数据量少的情况下能够泛化更多的语义能力，不仅可以节省语料库的搭建成本，还可以提高语义识别的效率，给用户带来更好的感知体验，值得被推广使用。

附图说明

图1是本发明实施例中语义识别方法的总体流程示意图；

图2是本发明实施例中分词处理流程图；

图3是本发明实施例中词性过流程图；

图4是本发明实施例中停用词处理流程图；

图5是本发明实施例中的文本相似度计算流程图。

具体实施方式

下面对本发明的实施例作详细说明，本实施例在以本发明技术方案为前提下进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。

如图1所示，本实施例提供一种技术方案：一种基于词性和停用词过滤的语义识别方法，通过分词处理、词性过滤、停用词处理、文本相似度计算来达到语义识别的目的。解决了语义泛化问题，通过更少的语料能够表达更多的意图，抓住用户对话的核心内容，包括如下步骤：

S1：分词处理

利用Hanlp工具录入标注好的实体、词性，将用户的输入使用Hanlp工具进行分词处理，将分词后的词语结果集传入步骤S2。

S2：词性过滤

获取系统需要过滤的词性集合，遍历分词后的词语结果集，将分词词性在系统过滤词性集合中的词语删除，对用户的输入进行词性降噪处理，将剩余的分词结果集传入步骤S3。

S3：停用词处理

获取系统停用词集合，遍历分词结果集，将分词的词语在系统停用词集合中的词语删除，对用户的输入进行口语化降噪处理，将剩余的分词结果集遍历拼接返回一个新的字符串当做用户的真实输入，传递给步骤S4。

S4：文本相似度计算

计算步骤S3生成的新输入和系统语料库中已有的语料的相似度分数，获取分数最大的语料，作为用户的真实意图。

如图2所示，在所述步骤S1中，其包括如下步骤：

S11：获取用户输入

通过输入框、ASR等其他手段获取用户的输入内容，把该输入作为为用户的原始意图输入；

S12：分词处理

将用户的输入按照词语进行拆分，使用分割句子中词语的算法：MaxMatch，该算法为贪心算法，将一个长句子拆分成若干个词语组成的集合，对于新词或者系统识别有误的结果，可以通过系统进行纠正，通过手动分的方式纠正，为识别错误的词语配置纠正词，在其他语句出现该词语时可自动进行纠正，保证分词的结果符合预期，否则会影响后面步骤的操作结果；

S13：词性标注

将步骤S12中的若干个词语进行词性标注，基于HMM去实现词性标注方法，实现基于HMM的词性标注方法中，模型的参数估计是其中的关键问题，通常利用词典信息约束模型的参数；假设输出符号表由单词构成(即词序列为HMM的观察序列)，如果某个对应的『词汇-词性标记』没有被包含在词典中，那该词汇被标记为该词性标记的概率就为0；如果存在，那该词汇被标记为某词汇标记的概率为其所有可能被标记的所有词性个数的倒数，然后根据训练语料给定词性标记生成词的概率，根据训练语料来合理的估计模型概率，对于某词性标记j生成词wl的概率，分子用词wl出现的次数乘以该词汇被标记为该词汇标记的概率，分母是在训练语料范围内，所有词被标记为该词汇标记的概率乘以该词出现的次数，如：“你好”标注为问候语，“恩”、“呢”、“了”标注为语气词等，词性的标注是为了后面词性过滤步骤使用，对于系统标注不准确的词性，可以通过人工干预手段进行标注，对于标注不准确的词语，通过可视化页面为词语手动勾选词性进行标注，保证分词的词性标注符合用户上下文环境，否则会影响后面步骤的操作结果；

S14：输出结果集

将经过上述处理后的分词结果集进行封装传递给步骤S2。

如图3所示，在所述步骤S2中，其包括如下步骤：

S21：获取分词结果集

获取经过步骤S14处理后的分词结果集；

S22：遍历分词结果集

S23：获取第N个分词

从分词结果集中获取下标为N的分词，设置该分词为P，如果该P存在，表示遍历还没有结束，执行步骤S24，否则表示遍历结束，执行步骤S27；

S24：判断分词词性是否属于过滤词性

获取系统中设置的过滤的词性集合T，并判断P的词性是否在T中,如果P在T中，表示该P需要删除，执行步骤S25，否则表示该词性是语义识别需要的，不需要进行过滤，可以进行下一个词性判断，执行步骤S26；

S25：删除分词P

如果P在T中，需要从分词结果集中把分词P删除；

S26：下标N进行自增操作

重新设置N的值为N+1，遍历下一个分词，并返回步骤S23；

S27：封装剩余的分词结果集

如图4所示，在所述步骤S3中，其包括如下步骤：

S31：获取分词结果集

获取经过步骤S27处理后的分词结果集，并遍历分词结果集；

S32：遍历分词结果集

设置变量M＝0，判断是否存在该分词；如果存在，表示遍历还没有结束，执行步骤S33，否则表示遍历结束，执行步骤S34；

S33：获取第M个分词

从分词结果集中获取下标为M的分词，设置该分词为Q；

S34：判断分词词语是否属于停用词

获取系统中设置的停用词集合U，并判断Q的词语是否在U中，如果Q的词语在U中，表示该Q的词语属于停用词，需要进行过滤，执行步骤S35，否则执行步骤S36；

S35：删除分词Q

把Q从分词结果集中删除；

S36：下标M进行自增操作

重新设置M的值为M+1，遍历下一个分词，并返回步骤S33；

S37：拼接剩余的分词结果集

将经过上述步骤处理后的分词结果集进行遍历，将遍历出来的分词按照语句中词语的顺序进行词语拼接，组合成新的输入Input，把该输入Input作为用户的真实意图；

如图5所示，在所述步骤S4中，其包括如下步骤：

S41：获取用户新的输入

获取经过步骤S37处理后的输入Input，把该输入Input作为用户的真实意图；

S42：获取系统中的语料

获取系统中录入的语料库，将语料库加载到系统的内存中，提高系统的访问速度，本操作可以使用ES、Redis等NoSQL中间件进行辅助；

S43：遍历语料，设置C＝0，MaxScore＝0，Intent＝null

S44：获取第C个语料

获取下标为C的语料，设置该语料为I，如果I存在，则进行步骤S45，否则进行步骤S48；

S45：计算相似度

计算语料I和用户的输入Input的文本相似度，采用余弦相似度算法计算2个文本之间的相似度，具体的计算步骤如下：

S451：通过中文分词，把用户输入Input和系统语料分成独立的词集合；

S452：求出两个词集合的并集(称作词包,词包确定之后，词的顺序不能再修改，否则会影响到向量的变化)；

S453：计算各自词集的词频并将词频向量化；

S454：代入余弦公式求出文本相似度；

通过余弦相似度算法计算出2个文本的相似度分数S；

S46：分数比较

计算分数S和MaxScore的大小，如果S大于MaxScore，表示找到了一个更加符合用户意图的语料，需要将S的值赋值给MaxScore，并将I赋值为Intent，然后执行步骤S47；

S47：下标C进行自增操作

重新设置C的值为N+1，遍历下一个分词，并返回步骤S44；

S48：返回系统匹配的语料

将Intent代表的语料作为用户的真实意图。

需要说明的是，系统的少量语料虽然可以泛化更多的意图，但并不代表语料的质量也降低了，无论是机器学习还是模型训练，如果语料的质量不高，最终都会影响语义的识别效率。

另外，本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，相应的程序可以存储于一计算机可读取存储介质中。

本实施例通过分词处理用户的输入，将用户输入的长句子进行分词和词性标注；通过词性过滤，对输入的内容进行词性降噪，将长句子转换为核心的短句，找到一句话的核心内容；通过停用词处理，将输入内容进行降噪处理，去除无关紧要的词语；通过文本相似度计算获取最佳意图。

通过上述的处理，可以将用户输入的一个很长的内容转换为一个核心短句，而系统只需要录入核心短句语料即可达到很高的语义识别率，如：配置的语料假设为“查询天气”，那么当用户输入”您好，帮我查询一下明天合肥的天气”，上述的输入经过本方法的几个步骤处理后会去除“您好”(语气词)、“，“(标点符号)、”帮“(停用词)、”我“(停用词)、”一下“(停用词)、”明天“(时间词)、”合肥“(地点词)、”的“(停用词)，那么经过上述步骤处理后的输入为：”查询天气“，和语料库中的语料计算文本相似度计算，能够获取非常高的相似度分数。通过上述例子可以看到基于词性和停用词过滤的语义识别方法不仅能够帮助企业减少语料搭建的成本，还能够提高语义识别率。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种基于词性和停用词过滤的语义识别方法，其特征在于，包括以下步骤：

S1：分词处理

所述步骤S1的具体过程如下：

S11：获取用户输入

S12：分词处理

S13：词性标注

对步骤S12中的多个词语进行词性标注；

S14：输出结果集

将经过上述处理后的分词结果集进行封装并传递给步骤S2；

S2：词性过滤

去除分词结果集中的过滤属性表示的词语；

所述步骤S2的具体过程如下：

S21：获取分词结果集

获取经过步骤S14处理后的分词结果集；

S22：遍历分词结果集

S23：获取第N个分词

S24：判断分词词性是否属于过滤词性

S25：删除分词P

若P在T中，则从分词结果集中把分词P删除；

S26：下标N进行自增操作

重新设置N的值为N+1，遍历下一个分词，并返回步骤S23；

S27：封装剩余的分词结果集

将经过上述步骤处理后的分词结果集进行重新封装，组合成新的分词结果集；

S3：停用词过滤

去除分词结果集中属于停用词的词语；

所述步骤S3的具体过程如下：

S31：获取分词结果集

获取经过步骤S27处理后的分词结果集，并遍历分词结果集；

S32：遍历分词结果集

S33：获取第M个分词

从分词结果集中获取下标为M的分词，设置该分词为Q；

S34：判断分词词语是否属于停用词

S35：删除分词Q

把Q从分词结果集中删除；

S36：下标M进行自增操作

重新设置M的值为M+1，遍历下一个分词，并返回步骤S33；

S37：拼接剩余的分词结果集

将经过上述步骤处理后的分词结果集进行遍历，将遍历出来的分词按照顺序进行词语拼接，组合成新的输入，将该输入Input作为用户的真实意图；

S4：语义相似度计算

将依次经过步骤S1、S2、S3处理后的分词结果集重新进行句子拼接，组合成新的输入，把该输入作为用户想表达的真实意图，和系统已录入的语料进行文本相似度计算，找到最大相似度对应的语料，把该语料作为用户的意图；

所述步骤S4的具体过程如下：

S41：获取用户新的输入

S42：获取系统中的语料

S43：遍历语料，设置C＝0，MaxScore＝0，Intent＝null

S44：获取第C个语料

S45：计算相似度

S46：分数比较

S47：下标C进行自增操作

重新设置C的值为N+1，遍历下一个分词，并返回步骤S44；

S48：返回系统匹配的语料

将Intent代表的语料作为用户的真实意图。

2.根据权利要求1所述的一种基于词性和停用词过滤的语义识别方法，其特征在于：在所述步骤S45中，具体的计算步骤如下：

S452：求出两个词集合的并集；

S453：计算各自词集的词频并将词频向量化；

S454：代入余弦公式求出文本相似度。

3.一种基于词性和停用词过滤的语义识别系统，其特征在于：采用如权利要求1或2所述的语义识别方法对用户的语义进行识别，包括：

中央处理模块，用于向其他模块发出指令，完成相关动作；