CN109241258A

CN109241258A - 一种应用税务领域的深度学习智能问答系统

Info

Publication number: CN109241258A
Application number: CN201810964049.7A
Authority: CN
Inventors: 张涛; 薛胶
Original assignee: Jiangsu Suoer Software Technology Co ltd
Current assignee: Jiangsu Suoer Software Technology Co ltd
Priority date: 2018-08-23
Filing date: 2018-08-23
Publication date: 2019-01-18
Anticipated expiration: 2038-08-23
Also published as: CN109241258B

Abstract

本发明主要采用ansj、hanlp工具、AIML技术和深度学习技术应用于智能问答，构建了一个应用于税务领域的智能问答系统。利用爬虫获取互联网的税务咨询问答对数据集，结合税务局内部12366服务热线的问答数据集及从相关法律法规制度抽取的问题答案对等建立本系统的基础数据库，并以此构建深度学习的分词词典库。基于基础问答库，构建基于模板匹配的模型；基于12366问答库，构建基于检索的模型；基于词典库，构建基于上下文信息的和问题类型的深度学习模型；基于模板匹配模型和深度学习模型，构建应用于税务领域的智能问答系统。本发明实现了结合用户主诉信息进行自动推荐相关税务询问问题，进行主动问答交互。

Description

一种应用税务领域的深度学习智能问答系统

技术领域

本发明涉及一种自然语言处理技术，特别是一种应用税务领域的深度学习智能问答系统。

背景技术

应用税务领域的深度学习智能问答系统主要是基于自然语言处理和AIML 技术，构建一个应用于税务领域的智能问答系统。

近年来，智能问答系统取得了很大的发展和进步，已经有很多智能问答系统产品问世，例如IBM研发的智能问答机器人Watson在美国智力竞赛节目中战胜了人类选手。苹果公司的Siri系统和微软公司的cortana分别在iPhone手机中和 Windows10操作系统中都取得看很好的效果。在国内，众多企业和研究团体也推出了很多以智能问答技术为核心的机器人。例如：微软公司的“小冰”、百度公司的“度秘”和中科汇联公司的“爱客服”等。这些产品涉及众多业务领域，如日常生活，医疗，交通，电子商务，旅游业，金融，教育等，而在税务领域却鲜有应用，应用税务领域的深度学习智能问答系统专门针对税务领域而打造，弥补了税务领域智能问答系统的缺失。

智能问答系统经过近几十年的发展，其技术也在不断改进，由早先提出的基于推理的方法，到后来的基于模板匹配的方法，基于检索的方法，和现在基于深度学习的方。

基于模板匹配的方法主要是通过人工设定对话场景和场景对话模板，该方法的优点是回答精确，答案质量高，缺点是需要大量人工工资，扩展性差。基于检索的方法是事先建好对话库并建立索引，通过在对话库中模糊匹配用户问句来查找相应的答案，其优缺点和基于模板的方法相似。基于深度学习的方法是根据历史问答对，学习一个答案生成模型，对用户问题生成相应的答案，该方法具有思路简单易扩展的优点，缺点是生成的答案质量不高，有待提高。

税务行业是一个十分复杂的专业性较强的领域，该领域的智能问答系统首先要具有较高的准确率，其次覆盖面要尽可能的广，尽可能满足绝大多数用户的需求，同时结合上述实现智能问答系统技术各自的优点，发明了一个基于检索和模板匹配的深度学习方法的智能问答系统，该系统具有准确率高，覆盖面广等优点。

除了应用于税务领域，该问答系统还可以应用于像银行，金融等复杂和对智能问答系统的准确率要求较高的行业。

发明内容

1、本发明的目的

本发明为了解决税务、银行领域对问答系统的准确率要求较高，而提出了一种应用于税务领域的智能问答系统。

2、本发明目的的技术解决方案为：

本发明一种应用税务领域的基于模板匹配的和深度学习智能问答系统，包括问题分析模块、问题理解模块和答案生成模块；

问题分析模块，利用自然语言处理NLP方法进行分析和理解问句；

问题识别模块，在问题分析模块的基础之上，通过对问题类型的分析，与问题模板进行匹配，判断问题的类型L；

答案生成模块，答案生成模块是根据问题类型生成相应的答案返回给用户，根据匹配到的问题类型依次从问答模板、知识库的检索和深度学习模型进行截断式的生成候选答案。

更进一步具体实施方式中，问题分析模块包括：

预处理模块，关键词将口语化名词转为专业名词；

分词模块，将上述预处理后的包含专业名词的句子通过Ansj分词器进行分词处理；

词性标注模块，将包含专业名词的句子拆分为名词、谓词性疑问代词、动词，通过名词/n，谓词性疑问代词/ryv，动词/v的数据结构进行词性标注；

依存句法分析模块，使用hanlp依存句法分析句法结构，生成依存句法树，句法结构包括定中关系、主谓关系、状中结构、核心关系、标点符号；

去停用词模块，根据所述的词性标注模块和依存句法分析模块的结果，去除无实际语义的副词和疑问词；

关键词识别模块，ansj分词器进行关键词提取；根据单词的词性、位置和出现的频率为权重，根据权重依次从大到小进行关键词提取。

更进一步具体实施方式中，问题分析模块中根据权重依次从大到小进行关键词提取具体为：

首先对句子进行分词，然后遍历分词结果中的每一个词，调用返回权重，移除字符串两侧的空白字符或其他预定义字符后，判断词的长度，长度越大权重越大，如果小于预设字符数，则返回值为0；预定义词性变量，判断分词的词性是否为预设的词性，是的话取返回预设的对应权重值；判断分出来的词的位置，如果在标题位置则返回权预设标题权重值，如果不是标题位置，则返回的权重值为: (长度-词位置)*权重/长度；

命名实体识别，对机构名、人名、实体名进行识别后标识成机构名/nt、人名/nr，实体名/n。

更进一步具体实施方式中，问题类型的分析，与问题模板进行匹配，判断问题的类型具体为：

将问题类型主要分为七类：人物、地点、数字、时间、实体、描述以及未知；在问题类型后，便在问题模板中进行相应问题的匹配，匹配方式主要通过AIML 技术进行匹配；

时间模板匹配、动作模板匹配和12366数据库，使用关键字匹配的方式与知识库中的问题进行匹配，索引相应的答案。

更进一步具体实施方式中，答案生成模块的问答模型的建立，具体过程为：

S1：基于网络爬虫抓取的税务咨询问答对数据集data1，税务局12366服务热线问答数据库db1，根据税务相关法律法规条例抽取的税务有关知识问答对数据集data2，构建基础库Database1，基于Database1构建深度学习税务词典库 Dic1；

S2：基于S1中数据集data1和data2建立问答模板，构建基于AIML的模板问答模型Model1；

S3：基于S1中数据库db1，构建基于检索的模型Model2；

S4：从S1基础库Database1中抽取所有的来自同一用户至少进行两轮对话的问答对，并以四元组(context,message,lable,response)的形式保存至文本text1；

S5：将text1文本根据词典库Dic进行分词，根据word2vec模型生成BOW 向量，对应的词向量文本保存为text2；

S6：根据词向量文本text2构建基于深度学习的答案自动生成模型Model3。

更进一步具体实施方式中，问题答案的生成，具体过程为：

根据匹配到的问题类型，并依据三个模型回答问题的精度度，依次从模板模型Model1、知识库的检索模型Model2和深度学习模型Model3进行截断式的生成候选答案，截断式即如果问答模板中能够匹配到该问题，则直接将答案返回作为候选答案，而不再对知识库进行检索查询和通过深度学习模型进行生成答案；如果通过查询语句查询出的候选答案为一条，则直接将该答案作为最终答案进行返回；如何查询的候选答案为多条，对答案进行打分，首先对所有候选答案进行打分，打分过程为：首先根据答案覆盖问题关键词的个数与答案长度的比值进行打分，即将答案的分值设为“目前的分值+覆盖关键词个数/答案中词的个数*w”，其中w为相应的权值；其次根据关键词的位置及其词性进行打分，如果答案中某个关键词与问题中相应的关键词的先后位置和词性均相同则加1分，否则加0 分，并根据分值从大到小对候选答案进行排序选择topN的答案返回，并取第一个答案最为最优答案，其余作为相似答案。

更进一步具体实施方式中，深度学习模型的建立，具体过程为：

S1：在基础库Database1中抽取来自同一个用户的至少进行多两轮对话的问答对，以四元组(上下文信息、问题、类标、答案)的形式进行组织；

S2：将四元组中的前三元作为输入，最后一元作为输出，输入到基于多层前向神经网络的深度学习Encoder-Decoder模型进行训练，其中上下文信息Context 作为bc参数、问题message与类标lable进行合并作为b_ml参数进行输入，生成的中间编码信息K_L，并作为后续RNN模型隐层的一个输入，K_L计算公式为：

其中为具有L层的多层神经网络的权重，其初始值为随机设置，σ为logistic sigmoid激活函数；

S3：设解码器Deconder在t时刻隐层的输出为H_t，计算公式为：

其中s_t为message中第t个词的BOW词向量，W_i为前一时刻的输出与解码器隐层节点的连接权重，初始值随机设置，W_hh为隐层与自身连接的权重，初始值随机设置；

S4：解码器在t时刻的最终输出O_t为隐层输出H_t乘以其与输出层的权重W_o，即：

其概率为：

p(s_t|s₁,...,s_t-1,Context,M essage,L)＝soft max(O_t)

S5：最后将生成的每个词按先后顺序连接，便是最终答案；最终答案的概率表示为：

上述式最大的输出单词序列便是我们的最终答案。

3、本发明的有益效果。

(1)本发明针对税务系统的问答语句的数据结构，提出了一种应用税务领域的深度学习智能问答系统，相对于其他类型的问答系统，本发明更有针对性。

(2)系统基于深度学习模型的匹配方法，具有准确率高，回答速度快；

(3)设计系统，可以扩展到移动端APP应用接口，即我们将服务封装成httpservlet接口，提供远程服务，这样便可轻松将服务扩展至微信、微博、短信等移动端进行应用。

附图说明

图1是应用税务领域的深度学习智能问答系统的问答系统设计流程图。

图2是应用税务领域的深度学习智能问答系统的深度学习模型。

图3是应用税务领域的深度学习智能问答系统的深度学习模型计算流程图。

图4是应用税务领域的深度学习智能问答系统的首页界面。

具体实施方式

下面结合附图对本系统作进一步详细说明。

实施例1

实现本发明所要解决的问题是：

1、利用基于检索的和基于模板匹配的深度学习的方法实现智能问答系统。

2、一种基于模板匹配的和深度学习方法的生成式问答系统。

对于问题1。在该智能问答系统中，系统功能的实现主要分为三个模块：问题分析、问题理解和答案生成。

一、问题分析模块是整个问答系统基础。该模块主要是利用自然语言处理(NLP)技术充分分析和理解问句，为后面两个模块服务。具体处理方法为：

步骤1、对于前端用户输入的问句，首先进行预处理，即首先进行税务相关的口语化名词替换为专业名词。如将“个税”替换成“个人所得税”，“城建税”替换为“城市建设维护税”等。该过程通过维护一个专业名词与其对应的口语化名词的转化表进行实现。

步骤2、分词。将预处理后的句子使用Ansj工具对其进行分词。Ansj是一个基于n-Gram+CRF+HMM方法的java实现，该方法可以实现数字识别、人名识别、机构名识别、专有名词识别。如用户的问题时“个税如何缴纳？”，则分词结果为“个人所得税如何缴纳”。

步骤3、词性标注。对分词结果进行词性标注。如“个税如何缴纳？”，词性标注后的结果为“个人所得税/n如何/ryv缴纳/v”。其中n为名词，ryv为谓词性疑问代词，v为动词。

步骤4、依存句法分析。也称依存文法分析，主要是分析句子的句法结构，生成依存句法树。该过程主要使用hanlp的依存句法分析。例如“华侨身份如何界定？”，其依存句法树为：

华侨--(定中关系)-->身份

身份--(主谓关系)-->界定

如何--(状中结构)-->界定

界定--(核心关系)-->##核心##

？--(标点符号)-->界定、

步骤5、停用词。根据词性和句法分析结果，去除句子中像“的”，“吗”等无实际语义的副词和疑问词。

步骤6、关键词识别。本系统中使用Ansj工具进行关键词提取。其主要思想是根据单词的词性、位置和出现的频率为其打分，根据其得分从大到小依次进行关键词的提取。打分过程为：首先对句子进行分词，然后遍历分词结果中的每一个词，调用getWeight方法计算weight，移除字符串两侧的空白字符或其他预定义字符后，判断词的长度，如果小于2，返回值为0。定义posScore变量。判断分词的词性是否为预设POS_SCORE的的词性，是的话取预设的POS_SCOREe值，如果不是，取posScore＝1，预设POS_SCORE为0的返回值为0。判断分出来的词是否在title位置，如果是，的返回值为5*posScore，如果不是score的返回值为(length-term.getOffe())*posScore/(double)length。如“个人购买住房转手交易如何缴纳营业税？”，提取8个关键字为：

[营业税/40.88126696772668,交易/24.377418218323694,个人 /22.59422247470784,如何/21.639878857149338,住房 /19.875295585848583,转手/16.22405607663414,缴纳 /13.145364126549262,购买/9.21053838197585]。

步骤7、命名实体识别。即识别机构名和人名和实体名词。如“签约仪式前，秦某某、李某某、仇某等一同会见了上海林原科技有限公司的领导们。”，分词结果为：签约/v,仪式/n,前/f,，/w,秦某某/nr,、/w,李某某/nr,、/w,仇某 /nr,等/u,一同/d,会见/v,了/u,上海林原科技有限公司/nt,的/u,领导/n,们 /k,。/w。

二、问题识别模块，在模块一的基础之上，通过对问题类型的分析，与问题模板进行匹配，判断问题的类型。在本系统中，我们将问题类型主要分为七类：人物、地点、数字、时间、实体、描述以及未知。如句子“个税何时申报”，其问句类型为“时间”问句，即回答的应该是什么时间。而句子“个税如何申报”则是“描述”型问题，则应该回答怎样申报，而不是什么时候申报。在问题类型后，便在问题模板中进行相应问题的匹配，匹配方式主要通过AIML技术进行匹配。如问题“个税何时缴纳”，该问题为“时间”类型问题，则在AIML时间问题模板中进行匹配，AIML模板中，问题模板的格式为“*何时缴纳”，其中“*”号代表任意字符，其对应的答案为相应的查询语句，即“selecttimefrom table where shuizhong＝*”，当模板匹配成功后，将“*”替换成相应的关键字即可，如本利中则将“*”号替换为“个税”。最后将生成的查询语句进行返回。如果匹配到未知的问题，则直接查询12366知识库，使用关键字匹配的方式与知识库中的问题进行匹配，查询相应的答案。

三、答案生成模块是根据问题类型生成相应的答案返回给用户。在问题模板中，根据匹配到的问题类型和三种方法各自生成答案的精确度，依次从问答模板、知识库的检索和深度学习模型进行截断式的生成候选答案，所谓截断式，即如果问答模板中能够匹配到该问题，则直接将答案返回作为候选答案，而不再对知识库进行检索查询和通过深度学习模型进行生成答案。然后根据打分机制对其进行打分，并根据分值从大到小对候选答案进行排序，取出前topN的答案最为最终答案输送给前端进行展示。本系统中，如果通过查询语句查询出的候选答案为一条，则直接将该答案作为最终答案进行返回。如何查询的候选答案为多条，则首先对所有候选答案进行打分，打分过程为：首先根据答案覆盖问题关键词的个数与答案长度的比值进行打分，即将答案的分值设为“目前的分值+覆盖关键词个数/答案中词的个数*w”,其中w为相应的权值；其次根据关键词的位置及其词性进行打分，如果答案中某个关键词与问题中相应的关键词的先后位置和词性均相同则加1分，否则加0分。最后根据综合分数，选择topN的答案返回，并取第一个答案最为最优答案，其余作为相似答案。

对于模型建立的具体实施问题2:

1)基础数据库准备。利用网络爬虫，在百度搜索“税务知识问答”，选取某几个网页进行爬取问答对，共爬取25k条。获取12333服务热线问答对共23k 条。利用文本分析方法从税务法规条例中抽取问答对2k条，共收集数据50k条。

2)深度学习模型样本准备：从爬虫数据集和12366问答数据集抽取四元组共18k条。

3)：基于多层神经网络的深度学习模型，作为Encode部分的多层神经网络，其隐层层数L设为6。

4)对于每个问题的类标，则根据事先定义好的几个问题类型，以模板匹配的方式进行打标。

5)对于基于Word2Vac词向量的生成，我们使用Python的Gensim工具中的CBOW算法，窗口设置为2，输出向量维数为200，采用频率阈值为10^-5。其余为默认值。神经网络的模型基于Tensorflow构建。

6)根据基础库Database1生成四元组(context,message,lable,response)形式的训练样本。将问题类别Lable作为输入问题Message的一部分和上下文信息 Context一起作为输入，输入深度学习模型中，进行训练。将标签Lable加入输入语义而不是上下文信息中的目的是强调标签Lable的作用，用来作用模型的输出，提高模型的准确率。

应用举例：

Q1：什么是契税

A1：土地权属房屋转移时征收的税税种所有个人单位

Q2：应如何缴纳

A2:契税税率人民币纳税义务依据计税计算

Q3：如何申报

A3：个人所得税办理申报地点流程根据缴纳

输入Q1至深度学习模型中，系统匹配到问题类型L为“描述”，其上下文信息为空，因此输入模型信息为Message＝“什么是契税”、L＝“描述”的词袋向量。深度模型经过分析，给出答案A1。回答结果可以接受。

输入Q2后，系统匹配到问题类型L为“描述”，上下文信息Context＝“什么是契税”，Message＝“应如何缴纳”，L＝“描述”。输出A2为“契税税率人民币纳税义务依据计税计算”。回答结果与预期结果语义稍有偏差。

输入Q3,系统匹配到问题类型L为“描述”，上下文信息Context＝“应如何缴纳”，Message＝“如何申报”，L＝“描述”。输出A2为“个人所得税办理申报地点流程根据缴纳”。回答结果语义偏差较大。

在本模型中，如果所问问题中或上下文中存在与所问主题相关的关键字，则生成的答案则较为可靠，如果问题在或上下文中文相关的关键字，则生成的答案与现实预期答案出入较大。

下面为本模型与传统的基于RNN的Encoder-Decoder深度模型回答问题的准确度对比。采用的数据为从12366问答库中随机抽取的200条问题，相对准确度的计算方法为acc＝Di/(De+Dm)，其中De表示model1生成的答案与 12366中原有答案间的IF-IDF距离，Dm表示model2生成的答案与12366中原有答案间的IF-IDF距离

本系统与现有应用相比，其显著优点为：(1)首次将智能问答系统应用于税务领域，弥补了税务领域内智能问答应用的缺失；(2)系统基于AIML模板匹配的方法实现，具有准确率高，回答速度快等优点；(3)融合基于改进的深度学习方法进行生成式的答案生成，提高了系统的覆盖范围，增加了系统的可用性。(4) 设计移动端APP应用接口，即我们将服务封装成httpservlet接口，提供远程服务，这样便可轻松将服务扩展至微信、微博、短信等移动端进行应用。

本系统软件编程环境主要参数如下：CPU Intel Core I7 2.6GHz；内存16G；硬盘1T；操作系统win7 64位；开发环境Eclipse；jdk1.8；数据库Oracle 11G；数据主要以txt、bin、aiml格式存储。编程语言为java。

部署环境主要参数为：CPU Intel Core I5 2.0GHz；内存8G；硬盘512G；操作系统win7 64位，Oracle11G，jdk 1.8；Tomcat 8.0；知识库分为Oracle知识库和 AIML模板知识库和深度学习模型，其中Oracle知识库包括12366问答知识库，税局的法案法规库；AIML模板知识库包括日常对话以及网络爬虫爬取的相关的知识和对话样本。

设置的返回的候选答案最大数量为8，返回答案的平均准确率为90％。问题覆盖率为99％。

Claims

1.一种应用税务领域的基于模板匹配的和深度学习智能问答系统，其特征在于：包括问题分析模块、问题理解模块和答案生成模块；

2.根据权利要求1所述的应用税务领域的深度学习智能问答系统，其特征在于问题分析模块包括：

预处理模块，关键词将口语化名词转为专业名词；

3.根据权利要求2所述的应用税务领域的深度学习智能问答系统，其特征在于问题分析模块中根据权重依次从大到小进行关键词提取具体为：

首先对句子进行分词，然后遍历分词结果中的每一个词，调用返回权重，移除字符串两侧的空白字符或其他预定义字符后，判断词的长度，长度越大权重越大，如果小于预设字符数，则返回值为0；预定义词性变量，判断分词的词性是否为预设的词性，是的话取返回预设的对应权重值；判断分出来的词的位置，如果在标题位置则返回权预设标题权重值，如果不是标题位置，则返回的权重值为:(长度-词位置)*权重/长度；

4.根据权利要求3所述的应用税务领域的深度学习智能问答系统，其特征在于问题类型的分析，与问题模板进行匹配，判断问题的类型具体为：

将问题类型主要分为七类：人物、地点、数字、时间、实体、描述以及未知；在问题类型后，便在问题模板中进行相应问题的匹配，匹配方式主要通过AIML技术进行匹配；

5.根据权利要求1所述的应用税务领域的深度学习智能问答系统，其特征在于：答案生成模块的问答模型的建立，具体过程为：

S1：基于网络爬虫抓取的税务咨询问答对数据集data1，税务局12366服务热线问答数据库db1，根据税务相关法律法规条例抽取的税务有关知识问答对数据集data2，构建基础库Database1，基于Database1构建深度学习税务词典库Dic1；

S3：基于S1中数据库db1，构建基于检索的模型Model2；

S5：将text1文本根据词典库Dic进行分词，根据word2vec模型生成BOW向量，对应的词向量文本保存为text2；

6.根据权利要求5所述的答案生成模块，其特征在于：问题答案的生成，具体过程为：

根据匹配到的问题类型，并依据三个模型回答问题的精度度，依次从模板模型Model1、知识库的检索模型Model2和深度学习模型Model3进行截断式的生成候选答案，截断式即如果问答模板中能够匹配到该问题，则直接将答案返回作为候选答案，而不再对知识库进行检索查询和通过深度学习模型进行生成答案；如果通过查询语句查询出的候选答案为一条，则直接将该答案作为最终答案进行返回；如何查询的候选答案为多条，对答案进行打分，首先对所有候选答案进行打分，打分过程为：首先根据答案覆盖问题关键词的个数与答案长度的比值进行打分，即将答案的分值设为“目前的分值+覆盖关键词个数/答案中词的个数*w”，其中w为相应的权值；其次根据关键词的位置及其词性进行打分，如果答案中某个关键词与问题中相应的关键词的先后位置和词性均相同则加1分，否则加0分，并根据分值从大到小对候选答案进行排序选择topN的答案返回，并取第一个答案最为最优答案，其余作为相似答案。

7.根据权利要求6所述的问答模型的建立，其特征在于：深度学习模型的建立，具体过程为：

S2：将四元组中的前三元作为输入，最后一元作为输出，输入到基于多层前向神经网络的深度学习Encoder-Decoder模型进行训练，其中上下文信息Context作为bc参数、问题message与类标lable进行合并作为b_ml参数进行输入，生成的中间编码信息K_L，并作为后续RNN模型隐层的一个输入，K_L计算公式为：

其中为具有L层的多层神经网络的权重，其初始值为随机设置，σ为logisticsigmoid激活函数；

S3：设解码器Deconder在t时刻隐层的输出为H_t，计算公式为：

其概率为：

p(s_t|s₁,...,s_t-1,Context,M essage,L)＝softmax(O_t)

上述式最大的输出单词序列便是我们的最终答案。