CN113553405A

CN113553405A - 基于中文bert模型智能机器人的实现方法和系统

Info

Publication number: CN113553405A
Application number: CN202110655974.3A
Authority: CN
Inventors: 李法来; 金震; 熊婷; 陆衡; 张海平
Original assignee: Agricultural Bank of China Zhejiang Branch
Current assignee: Agricultural Bank of China Zhejiang Branch
Priority date: 2021-06-11
Filing date: 2021-06-11
Publication date: 2021-10-26

Abstract

本发明涉及智能语音机器人，公开了基于中文bert模型智能机器人的实现方法和系统，bert模型作为目前最强的中文预训练模型，其性能表现在NLP领域刷新的多个记录，相比传统的w2v等方法可以产生更精确的特征表示，从而提高模型性能。此外采用了相应的银行数据比如包含银行热词的文本对模型进行微调，从而进一步提升了模型的效果。通过微调以后的bert模型得到的文本相似度匹配和情感倾向性分析模型的效果更加准确。在传统垂直领域的一问一答机器人的基础上添加了多轮问答的机制，互动性更强；在问答文本相似度匹配的基础上添加了词性规则，可以通过人工维护不断完善，准确率更高灵活性更强。

Description

基于中文bert模型智能机器人的实现方法和系统

技术领域

本发明涉及智能语音机器人，公开了基于中文bert模型智能机器人的实现方法和系统。

背景技术

随着人工智能的快速发展，聊天机器人开始受到越来越多的关注，人们认为如果计算机能够像人类一样用自然语言进行交流，那么就被认为是具有人工智能。现有的聊天机器人包括生成式聊天机器人和匹配式聊天机器人等，也可分为开放领域和垂直领域的聊天机器人，在开放语境下，用户可以和聊天机器人聊任何话题，在封闭语境下只能聊机器人已经设定好的内容，属于垂直领域类主题的聊天机器人。

开放聊天机器人一般都采用生成式的聊天机器人，在接受到用户输入句子后，采用一定技术手段自动生成一句话作为回应，局限性在于对语料的要求非常高，需要无数的话题以及与之匹配的问答规模，在于生成应答句子质量很可能会存在问题，比如可能存在语句不通顺、存在句法错误等看上去比较低级的错误。

垂直聊天机器人一般采用匹配式的聊天机器人，相比开放机器人相对更加简单实用。首先准备好一个问答库，对问题进行匹配识别以及生成答案。然后进行意图识别意图分类，通过类似命名实体识别的方法对意图进行推理并匹配相应的答案。对于现有技术中的垂直聊天机器人其意图匹配的聊天机器人需要足够体量的语料进行标注训练，且中文场景中大段文字属性的内容抽取难度较高；而问答匹配的聊天机器人往往是一一对应的，自身难以支持多轮的问答，只能进行一对一的单句问答匹配。

例如专利名称：一种汇票交易机器人；专利申请号：CN201811002572.8，专利申请日：2018-08-30，专利公开了，一种汇票交易机器人的信息分类系统，主要涉及人工智能自然语言处理领域。包括能够从聊天信息中提取与票据相关的文本信息要素，通过提取的要素，将用户输入的信息分为：查询行号类信息、计算类信息、制单类信息、询价信息、其他，如果识别中出错或均不符合以上信息分类，则不改变聊天信息原文，并将转化后的信息或聊天信息原文传给买票识别系统。

发明内容

本发明针对现有技术的聊天智能机器人其难以支持多轮问答的缺点，提供了基于中文bert模型智能机器人的实现方法和系统。

为了解决上述技术问题，本发明通过下述技术方案得以解决：

基于中文bert模型智能机器人的实现方法，其方法包括，

数据集准备，对规则数据集和闲聊数据集进行准备从而形成数据文本；

数据文本分词，通过分词器对数据文本进行分词；

嵌入向量化，通过bert模型从分词后的文本数据中提取特征，进行单词和句子嵌入向量化；

相似度阈值获取，通过余弦相似度获取嵌入向量化后单词和句子的相似度阈值；

聊天判断，依据相似度阈值通过NLP判断，从而进行不同的聊天模式。

作为优选，聊天判断包括NLP规则层判断和NLP闲聊层判断。

作为优选，NLP规则层包括词性规则、文本相似度规则或情感倾向性规则。

作为优选，NLP规则层判断方式为，对于上一轮问答为规则内，且为是否问题，进行情感倾向性分析；子节点内容下包含词性规则，尝试进行词性匹配；子节点内容下包含文本规则，进行文本相似度匹配；否则，与所有一级节点的词性规则和子节点的独立词性规则，进行规则匹配；与所有一级节点的文本规则互不相同和子节点的独立文本规则尝试进行文本相似度匹配。

进入规则层，由上往下逐条分析，一旦某一条命中了并且有内容返回，则返回内容；否则继续向下分析，否则进入闲聊层。

作为优选，NLP闲聊层判断方式为，闲聊层的内容与规则层中的文本相似度匹配相似，通过bert模型对闲聊数据集的问题进行文本向量输出，将输入的问题进行相似度匹配。

作为优选，规则层数据集包括2份分别为第一份规则层数据集和第二层数据集，第一份规则层数据集包括所有数据节点中包含的规则和回复；第二份规则层数据集包括关键词和词性的映射表。

作为优选，bert模型包括输入和3个嵌入式向量，3个嵌入式向量分别为词的嵌入、位置的嵌入和句子的嵌入。

作为优选，通过bert模型从分词后的文本数据中提取特征通过对3个嵌入式向量求和输出。

作为优选，第一份规则层数据集包括是否问题、词性问题和文本规则。

基于中文bert模型智能机器人的实现系统，其包括，

数据集准备模块，用于准备规则数据集和闲聊数据集，从而形成数据文本；

数据文本分词模块，用于对数据文本进行分词通过分词器；

嵌入向量化模块，通过bert模型从分词后的文本数据中提取特征，用于单词和句子嵌入向量化；

相似度阈值获取模块，用于获取嵌入向量化后单词和句子的相似度阈值；

聊天判断模块，用于获取不同的聊天模式，依据相似度阈值通过NLP判断。

本发明由于采用了以上技术方案，具有显著的技术效果：本发明提供一种支持多轮问答，且可通过人工添加不断完善优化规则，去实现一套词性规则与问答匹配相结合的多轮聊天机器人。

基于知识图谱和知识树建立问答知识库。在人工规则端、自定义一些关键词以及相应的词性，并基于这些关键词的词性进行词性组合匹配，将这些词性匹配的组合给到知识树中的节点。除了此类词性规则以外，节点中还会添加文本规则，对于文本规则，采用传统的问答匹配机器人的技术去进行句向量的相似度匹配。

通过bert中文预训练模型进行动态句向量生成；此外，为了支持多轮问答，知识树中布满了父子节点，对于子节点中除了上述的词性规则以及文本相似度匹配，还包括情感倾向性分析模型；对于那些父节点的判断式问句的子节点，通过基于句向量的分类器进行情感倾向性分析，判断客户的回答属于认同、否认还是没有正面回复。

不止应用于金融场景，也可作为其它垂直领域比如医疗、教育、服务等领域的聊天机器人，添加了多轮问答的机制，互动性更强，在问答文本相似度匹配的基础上添加了词性规则，可以通过人工维护不断完善，准确率更高灵活性更强。

附图说明

图1是本发明的流程图。

图2是本发明的NIP规则原理图。

图3是本发明的bert训练模型图。

具体实施方式

下面结合附图与实施例对本发明作进一步详细描述。

实施例1

基于中文bert模型智能机器人的实现方法，其方法包括，

数据文本分词，通过分词器对数据文本进行分词；

聊天判断包括NLP规则层判断和NLP闲聊层判断。

NLP规则层包括词性规则、文本相似度规则或情感倾向性规则。

NLP规则层判断方式为，对于上一轮问答为规则内，且为是否问题，进行情感倾向性分析；子节点内容下包含词性规则，尝试进行词性匹配；子节点内容下包含文本规则，进行文本相似度匹配；否则，与所有一级节点的词性规则和子节点的独立词性规则，进行规则匹配；与所有一级节点的文本规则互不相同和子节点的独立文本规则尝试进行文本相似度匹配。

NLP闲聊层判断方式为，闲聊层的内容与规则层中的文本相似度匹配相似，通过bert模型对闲聊数据集的问题进行文本向量输出，将输入的问题进行相似度匹配。

规则层数据集包括2份分别为第一份规则层数据集和第二层数据集，第一份规则层数据集包括所有数据节点中包含的规则和回复；第二份规则层数据集包括关键词和词性的映射表。

bert模型包括输入和3个嵌入式向量，3个嵌入式向量分别为词的嵌入、位置的嵌入和句子的嵌入。

通过bert模型从分词后的文本数据中提取特征通过对3个嵌入式向量求和输出。

第一份规则层数据集包括是否问题、词性问题和文本规则。

实施例2

基于中文bert模型智能机器人的实现系统，其包括，数据集准备模块，用于准备规则数据集和闲聊数据集，从而形成数据文本；

数据文本分词模块，用于对数据文本进行分词通过分词器；

实施例3

在上述实施例基础上，本实施例规则数据集和闲聊数据集准备，所有节点中包含的规则和相应的回复，包含是否问题(S)、词性规则(R)和文本规则(C)；如表1；

表1规则数据集表

关键词和词性的映射表，该表也是服务于上述的节点规则表中的词性规则(R)，如表2；

表2映射表

关键词	词性映射
		办卡	DFA
销卡	DGA
		销户	DGA
......	......

可以看见每个关键词会对应唯一一个词性映射，而一个词性映射可以有多个关键词对应，同一个词性映射下的关键词也可以理解为同义词。

对于闲聊数据集，我们只需要一份闲聊问答，处理方式和传统的问答机器人类似，进行相似度计算排序即可；

表3闲聊问答表

中文分词是中文NLP工程中非常关键的一步，不同于英文分词仅仅通过空格去切分。通过jieba分词器。由于白名单的存在，将需要的词汇写入白名单，比如：基金经理，金卡客户。如果没有写入白名单的话，上述切分出来的词汇会成为‘基金’、‘经理’和‘金卡’、‘客户’、‘大学’，而非‘基金经理’和‘金卡客户’这样的我们需要的固定词汇。把关键词和词性的映射表中的所有关键词写入白名单，这样对于输出的文本就能准确的分词得到我们的关键词，再通过映射表转换成相应的词性组合比如‘A+B’，一旦规则表中有这样的词性组合出现，即可进行匹配回复。

使用BERT从文本数据中提取特征，即单词和句子的嵌入向量。这些向量被用作下游模型的高质量特征输入。NLP模型(如LSTMs或CNNs)需要以数字向量的形式输入，这通常意味着需要将词汇表和部分语音等特征转换为数字表示。在过去，单词被表示为惟一索引值(one-hot编码)，或者更有用的是作为神经单词嵌入，其中词汇与固定长度的特征嵌入进行匹配，这些特征嵌入是由Word2Vec或Fasttext等模型产生的。尽管Word2Vec下的每个单词都有一个固定的表示，而与单词出现的上下文无关，BERT生成的单词表示是由单词周围的单词动态通知的。例如，给定两句话：“The man was accused of robbing a bank.”“Theman went fishing by the bank of the river.”

Word2Vec将在两个句子中为单词“bank”生成相同的单词嵌入，而在BERT中为“bank”生成不同的单词嵌入。除了捕获一词多义之类的明显差异外，上下文相关的单词embeddings还捕获其他形式的信息，这些信息可以产生更精确的特征表示，从而提高模型性能。

Bert是一个用Transformer作为特征抽取器的深度双向预训练语言理解模型。利用双向Transformer，通过大量数据训练一个语言表征模型，这是一个通用模型，通过对其微调来适用下游任务，包括分类，回归，机器翻译，问答系统等任务，下游任务就是问答系统中的相似度匹配。

在节点规则中的文本相似度匹配和闲聊中的文本相似度匹配，都是基于bert模型生成的句向量，再通过余弦相似度模型进行相似度匹配排序。此外节点规则中的是否问题，也是基于我们整理的语料数据，通过bert模型转换成向量，再建立分类器进行情感倾向性分析分类：认可、否认、中性未正面回应。

词性规则(或者说关键词匹配规则)：通过人工梳理关键词并整理其相应的词性和词性组合而成的规则，进行词性匹配，比如‘我要赎回基金’中，‘基金’和‘赎回’是我们梳理出的关键词，词性假设为A+B，便命中相应A+B的节点，规则库里便有相应A+B的匹配规则下的相应回复和相关资料可供返回，这一层的优点在于人工梳理和不断完善，会根据使用次数的增多而愈发完善。

文本相似度规则：通过bert中文预训练模型，对于每个节点，除了词性规则外，还会梳理出相应的文本规则，通过模型给出其相应动态能体现上下文语义的词向量。当问题进来，也对问题生成相应的词向量，通过余弦相似度算法进行相似度匹配，相似度最高且超过90％的文本规则，作为我们命中的节点，与词性规则一样，会返回相应的回复和相关资料如链接、业务类型等等。该层的主要作用是协助词性规则进行更高命中率的节点定位。

情感倾向性分析规则：较为特殊的一层规则，进入该层规则的前提是问答的上一轮进入了是否问题，比如上一轮机器人回复对方的是：‘请问您是否有理财经验？’。则需要倾向性分析对其分析，结果有三种：积极、中性和消极。如果是积极则返回下一轮是的节点内容，如果消极则返回下一轮否的节点内容，如果中性则跳出认为其并未直接对该问题进行正面回复。

Claims

1.基于中文bert模型智能机器人的实现方法，其方法包括，

数据文本分词，通过分词器对数据文本进行分词；

2.根据权利要求1的基于中文bert模型智能机器人的实现方法，其特征在于，聊天判断包括NLP规则层判断和NLP闲聊层判断。

3.根据权利要求1的基于中文bert模型智能机器人的实现方法，其特征在于，NLP规则层包括词性规则、文本相似度规则或情感倾向性规则。

4.根据权利要求2的基于中文bert模型智能机器人的实现方法，其特征在于，NLP规则层判断方式为：

对于上一轮问答为规则内，且为是否问题，进行情感倾向性分析；

子节点内容下包含词性规则，尝试进行词性匹配；子节点内容下包含文本规则，进行文本相似度匹配；否则，与所有一级节点的词性规则和子节点的独立词性规则，进行规则匹配；与所有一级节点的文本规则互不相同和子节点的独立文本规则尝试进行文本相似度匹配；

5.根据权利要求2的基于中文bert模型智能机器人的实现方法，其特征在于，NLP闲聊层判断方式为，闲聊层的内容与规则层中的文本相似度匹配相似，通过bert模型对闲聊数据集的问题进行文本向量输出，将输入的问题进行相似度匹配。

6.根据权利要求2的基于中文bert模型智能机器人的实现方法，其特征在于，规则层数据集包括2份分别为第一份规则层数据集和第二层数据集，第一份规则层数据集包括所有数据节点中包含的规则和回复；第二份规则层数据集包括关键词和词性的映射表。

7.根据权利要求2的基于中文bert模型智能机器人的实现方法，其特征在于，bert模型包括输入和3个嵌入式向量，3个嵌入式向量分别为词的嵌入、位置的嵌入和句子的嵌入。

8.根据权利要求2的基于中文bert模型智能机器人的实现方法，其特征在于，通过bert模型从分词后的文本数据中提取特征通过对3个嵌入式向量求和输出。

9.根据权利要求2的基于中文bert模型智能机器人的实现方法，其特征在于，第一份规则层数据集包括是否问题、词性问题和文本规则。

10.基于中文bert模型智能机器人的实现系统，其包括，

数据文本分词模块，用于对数据文本进行分词通过分词器；