CN114416942A

CN114416942A - 一种基于深度学习的自动化问答方法

Info

Publication number: CN114416942A
Application number: CN202111633958.0A
Authority: CN
Inventors: 熊林海
Original assignee: Nanjing Inspector Intelligent Technology Co ltd
Current assignee: Nanjing Inspector Intelligent Technology Co ltd
Priority date: 2021-12-29
Filing date: 2021-12-29
Publication date: 2022-04-29

Abstract

本发明公开了一种基于深度学习的自动化问答方法，该方法包括：步骤1，构建问答源数据库，步骤2，利用所有问答数据对构建社会治理领域语料库，采用深度神经网络LSTM训练出语言模型LSTMlm，步骤3，利用步骤2的同义词库自动增加问答对，扩张源数据库，步骤4，源数据库扩张后，进一步进行标注训练，包括问题纠错、关键词提取、答案纠错、法律依据补充、分类标签，步骤5，设计问答系统，接受用户的输入问题，对用户的问题进行理解，步骤6，在步骤5得到的分类下匹配最相似问题，返回对应的答案展示给用户。通过构建社会治理领域同义词库，扩张源数据库，来提高匹配准确率，通过利用BERT分类模型将问题自动分类，实现对问题的精准理解，进而实现完全自动化问答。

Description

一种基于深度学习的自动化问答方法

技术领域

本发明涉及大数据和自动问答研究领域，具体涉及一种基于深度学习的自动化问答方法。

背景技术

问答系统目前被大量使用在电商、金融、银行、旅游等行业中。但现阶段智能问答系统功能都是有局限性的，其问答社区模块中主要存在回答信息有误，回答信息冗余和回答信息不精确等问题。由于这些问题的困扰，导致了用户体验感变差，问答系统也满足不了日益增长的用户问答需求。

发明内容

为了克服现有技术的不足，本发明提供了一种基于深度学习的自动化问答方法，本方法解决了一般问答社区信息冗余问题和提高问答效率，能从语义，语境和语言结构方面更加智能化的语句识别。技术方案如下：

本发明提供了一种基于深度学习的自动化问答方法，其特征在于，该方法主要包括如下步骤：

步骤1，构建问答源数据库，从省、市、区级便民问答社区官网爬取社会治理相关的问答数据对，利用多线程分布式爬取后，做文本预处理并将其存入源数据库，构造问题训练集。

步骤2，利用所有问答数据对构建社会治理领域语料库，基于社会治理领域语料库，采用深度神经网络LSTM训练出语言模型LSTMlm。

基于社会治理领域语料库，构建社会治理领域同义词库：利用百度LAC分词算法将步骤1采集到的问答数据对自动分词，加入领域词库形成社会治理领域词汇，再对所有单词创建同义词集合，并用层次图表示各个单词的关系，定义单词之间的联系。

步骤3，利用步骤2的同义词库自动增加问答对，扩张源数据库；

利用百度LAC分词算法将问题问句自动分词，并用词性标注工具进行词性自动标注，然后通过同义词库将问句进行扩展，构造该问题的相似问句并存入源数据库中。

步骤4，源数据库扩张后，进一步进行标注训练，包括问题纠错、关键词提取、答案纠错、法律依据补充、分类标签。

对问答系统需要支撑的业务数据进行分析并设计文本标注系统，首先将问题训练集根据实际业务场景需求进行分类，利用BERT分类模型首先将问题自动分类，标注人员进入标注系统可以按分类来进行标注，问答系统中的纠错模型自动提示错误点，标注人员审核修改并确认，对于不合理的问题和答案，标注人员修改或补充，同时相似度模型自动匹配法律依据，标注人员可审核或修改；标注系统自动将标注后的数据存入标签数据库。

步骤5，设计问答系统，接受用户的输入问题，对用户的问题进行理解，对用户的问题先进行分类：对用户输入的问题先用百度LAC分词进行分词，并利用关键词抽取模型抽取关键词，利用BERT分类模型定位到对应的分类，具体为：

先用BERT分类模型进行初始分类，设置概率阈值D，若大于D的分类只有一个，即能直接确定某一类则直接结束，否则选取概率较大的前n类；统计用户问题中词的出现占比，记A₁，A₂,...,A_a为输入词，a为输入词的个数，构成输入词集合x，x＝(A₁，A₂,...,A_a)，B₁，B₂,...,B_b为概率较大的前b类，构成分类集合y，y＝(B₁，B₂,...,B_b)。

计算先验概率：

计算类条件概率：

计算输入词所属分类概率：

概率最大的分类就是输入问题最后的分类。

步骤6，在步骤5得到的分类下匹配最相似问题，返回对应的答案展示给用户。

对于该分类下的所有问题，先计算与用户的输入词集合x的语法相似度，采用关键词、句长、语义多重信息的融合算法；再结合同义词库，计算句子语义的相似度。设置阈值Q，当相似度大于等于阈值Q时，我们将相似度最大的问题作为最相似的问题，并返回对应答案。

步骤7，若未能匹配出的最相似的问题，即所有问题与输入词集合相似度都小于阈值Q，则将该问题转为训练用问题样本，根据步骤3和步骤4，人工标注成标准问题答案，进行迭代训练。

优选的，步骤1还包括设置更新策略，定期爬取最新问答数据对同步到源数据库。

优选的，所述步骤3通过同义词库将问句进行扩展，具体为：

对于每个关键词，用其同义词替换，记替换后的问句的关键词集合为L， L＝(l₁,l₂,…,l_m)，用语言模型LSTMlm计算其自然程度，用联合概率 p(l₁,l₂,…,l_m)来评价该句子是否自然。

其中，p(l_t|l_t-2,l_t-1)表示语言模型LSTMlm在l_t-2,l_t-1的条件下l_t的存在概率；t∈{3、4、……m}；设置阈值T，当问句的自然程度大于等于阈值T时自动加入源数据库。

优选的，步骤5接受用户的输入问题时，先通过选择题引导用户选择自己关注的领域和即将咨询的问题类别，提前匹配用户可能要咨询的问题分类；

若用户选择的分类为B_k,k＝1,2,…,b，则输入词所属分类概率为：

其中，

优选的，在步骤6相似度计算时，加大名词和动词的重要程度，提高名词和动词的权重，将句子的重心落在名词和动词上。

进一步的，将相似度计算中权重值分别是名词类权重为0.3；动词类权重为 0.3；形容词、代词、副词类权重为0.2。

与现有技术相比，上述技术方案中的一个技术方案具有如下有益效果：通过构建社会治理领域同义词库，实现了源数据库自动替换补充；通过利用LSTM 语言模型自动识别句子自然程度，实现了问题的自动扩充，提高了匹配准确率；通过利用BERT分类模型将问题自动分类，实现了对问题的精准理解，达到了高效自动化问答。通过自动标注增加用户输入的未知问题，实现了精准适应用户，达到了适应性自动化问答。

附图说明

图1为本公开实施例提供的一种同义词库及其相关关联的结构图。

具体实施方式

为了阐明本发明的技术方案和工作原理，下面将结合附图对本公开实施方式做进一步的详细描述。上述所有可选技术方案，可以采用任意结合形成本公开的可选实施例，在此不再一一赘述。本申请的说明书和权利要求书及上述附图中的术语“步骤1”、“步骤2”、“步骤3”等类似描述是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里描述的那些以外的顺序实施。

本公开实施例提供了一种基于深度学习的自动化问答方法，该方法主要包括如下步骤：

步骤1，构建问答源数据库，从省、市、区级便民问答社区官网爬取社会治理相关的问答数据对，利用多线程分布式爬取后，做文本预处理并将其存入源数据库，构造问题训练集，优选的，步骤1还包括设置更新策略，定期爬取最新问答数据对同步到源数据库。

基于社会治理领域语料库，构建社会治理领域同义词库：利用百度LAC分词算法将步骤1采集到的问答数据对自动分词，加入领域词库形成社会治理领域词汇，再对所有单词创建同义词集合，并用层次图表示各个单词的关系，定义单词之间的联系。如附图1所示，附图1为同义词库及其相关关联的结构图。

所述步骤3通过同义词库将问句进行扩展，具体为：

对于每个关键词，用其同义词替换，记替换后的问句的关键词集合为L，L＝(l₁,l₂,…,l_m)，用语言模型LSTMlm计算其自然程度(即该句子作为句子是否自然)，用联合概率p(l₁,l₂,…,l_m)来评价该句子是否自然。

其中，p(l_t|l_t-2,l_t-1)表示语言模型LSTMlm在l_t-2,l_t-1的条件下l_t的存在概率；t∈{3、4、……m}；设置阈值T，当问句的自然程度大于等于阈值T时自动加入源数据库。公式中用2阶马尔科夫链近似表示。

步骤4，源数据库扩张后，进一步进行标注训练，包括问题纠错、关键词提取、答案纠错、法律依据补充、分类标签。训练纠错模型、BERT分类模型、相似度模型。

计算先验概率：

计算类条件概率：

计算输入词所属分类概率：

概率最大的分类就是输入问题最后的分类。

优选的，接受用户的输入问题时，先通过选择题引导用户选择自己关注的领域和即将咨询的问题类别，提前匹配用户可能要咨询的问题分类。

其中，

由于前期的分类处理，智能问答的响应时间大大减少。

优选的，在限定领域问答系统中，可以用简化的方法。根据经验，在实践过程中发现名词和动词在句子中起着非常重要的作用,并且名词比动词承载着更多的信息量，一个句子的中心信息基本上都是围绕着名词和动词来展开的。所以在步骤6相似度计算时，加大名词和动词的重要程度，提高名词和动词的权重，将句子的重心落在名词和动词上。进一步的，经查阅论文资料根据实际经验，将相似度计算中权重值分别是名词类权重为0.3；动词类权重为0.3；形容词、代词、副词类权重为0.2。

步骤7，若未能匹配出的最相似的问题，即所有问题与输入词集合相似度都小于阈值Q，则将该问题转为训练用问题样本，根据步骤3和步骤4，人工标注成标准问题答案(由标准问题、相似问题、答案组成)，进行迭代训练。

未知问题是用户与机器人在对话过程中未识别的问题，用户可以对未知问题进行标注并添加至问题样本中通过模型进行训练。人工审核标注审核。相似问题是标准问题的泛化，其表达的意思与标准问题是一样的，由步骤3得到，其目的是匹配用户问题最相似的问题，并反馈给用户答案，问题样本越多匹配的准确率也就越高。

以上结合附图对本发明进行了示例性描述，显然，本发明具体实现并不受上述方式的限制，凡是采用了本发明的方法构思和技术方案进行的各种非实质性的改进；或者未经改进、等同替换，将本发明的上述构思和技术方案直接应用于其他场合的，均在本发明的保护范围之内。

Claims

1.一种基于深度学习的自动化问答方法，其特征在于，该方法主要包括如下步骤：

步骤1，构建问答源数据库，从省、市、区级便民问答社区官网爬取社会治理相关的问答数据对，利用多线程分布式爬取后，做文本预处理并将其存入源数据库，构造问题训练集；

步骤2，利用所有问答数据对构建社会治理领域语料库，基于社会治理领域语料库，采用深度神经网络LSTM训练出语言模型LSTMlm；

基于社会治理领域语料库，构建社会治理领域同义词库：利用百度LAC分词算法将步骤1采集到的问答数据对自动分词，加入领域词库形成社会治理领域词汇，再对所有单词创建同义词集合，并用层次图表示各个单词的关系，定义单词之间的联系；

利用百度LAC分词算法将问题问句自动分词，并用词性标注工具进行词性自动标注，然后通过同义词库将问句进行扩展，构造该问题的相似问句并存入源数据库中；

步骤4，源数据库扩张后，进一步进行标注训练，包括问题纠错、关键词提取、答案纠错、法律依据补充、分类标签；

对问答系统需要支撑的业务数据进行分析并设计文本标注系统，首先将问题训练集根据实际业务场景需求进行分类，利用BERT分类模型首先将问题自动分类，标注人员进入标注系统可以按分类来进行标注，问答系统中的纠错模型自动提示错误点，标注人员审核修改并确认，对于不合理的问题和答案，标注人员修改或补充，同时相似度模型自动匹配法律依据，标注人员可审核或修改；标注系统自动将标注后的数据存入标签数据库；

先用BERT分类模型进行初始分类，设置概率阈值D，若大于D的分类只有一个，即能直接确定某一类则直接结束，否则选取概率较大的前n类；统计用户问题中词的出现占比，记A₁，A₂,...,A_a为输入词，a为输入词的个数，构成输入词集合x，x＝(A₁，A₂,...,A_a)，B₁，B₂,...,B_b为概率较大的前b类，构成分类集合y，y＝(B₁，B₂,...,B_b)；

计算先验概率：

计算类条件概率：

计算输入词所属分类概率：

概率最大的分类就是输入问题最后的分类；

步骤6，在步骤5得到的分类下匹配最相似问题，返回对应的答案展示给用户；

对于该分类下的所有问题，先计算与用户的输入词集合x的语法相似度，采用关键词、句长、语义多重信息的融合算法；再结合同义词库，计算句子语义的相似度；设置阈值Q，当相似度大于等于阈值Q时，我们将相似度最大的问题作为最相似的问题，并返回对应答案；

2.根据权利要求1所述的一种基于深度学习的自动化问答方法，其特征在于，步骤1还包括设置更新策略，定期爬取最新问答数据对同步到源数据库。

3.根据权利要求2所述的一种基于深度学习的自动化问答方法，其特征在于，所述步骤3通过同义词库将问句进行扩展，具体为：

对于每个关键词，用其同义词替换，记替换后的问句的关键词集合为L，L＝(l₁,l₂,…,l_m)，用语言模型LSTMlm计算其自然程度，用联合概率p(l₁,l₂,…,l_m)来评价该句子是否自然；

4.根据权利要求3所述的一种基于深度学习的自动化问答方法，其特征在于，步骤5接受用户的输入问题时，先通过选择题引导用户选择自己关注的领域和即将咨询的问题类别，提前匹配用户可能要咨询的问题分类；

其中，

5.根据权利要求1-4任一项所述的一种基于深度学习的自动化问答方法，其特征在于，在步骤6相似度计算时，加大名词和动词的重要程度，提高名词和动词的权重，将句子的重心落在名词和动词上。

6.根据权利要求5所述的一种基于深度学习的自动化问答方法，其特征在于，将相似度计算中权重值分别是名词类权重为0.3；动词类权重为0.3；形容词、代词、副词类权重为0.2。