CN106951558A

CN106951558A - 一种基于深度搜索的税务智能咨询平台的数据处理方法

Info

Publication number: CN106951558A
Application number: CN201710208143.5A
Authority: CN
Inventors: 梁国松
Original assignee: Guangdong Rui Meng Computing Machine Science And Technology Ltd
Current assignee: Guangdong Rui Meng Computing Machine Science And Technology Ltd
Priority date: 2017-03-31
Filing date: 2017-03-31
Publication date: 2017-07-14
Anticipated expiration: 2037-03-31
Also published as: CN106951558B

Abstract

本发明公开一种基于深度搜索的税务智能咨询平台的数据处理方法，其中，对从装置中获取的输入数据做分词，构建索引进行检索，再在知识数据库中提取数据输出到获取数据的装置中与用户进行交互；本发明具有高效、准确的优点。

Description

一种基于深度搜索的税务智能咨询平台的数据处理方法

技术领域

本发明涉及管理系统，特别是一种基于深度搜索的税务智能咨询平台的数据处理方法。

背景技术

电子税务是为满足网上办税、自助办税及税务咨询服务的电子政务系统。随着电子税务的推广和应用，越来越多的涉税事项由纳税人自助完成，纳税人为自行完成这些涉税事项，必须了解相应的税务知识，在没有税务人员的帮助下，必然会遇到各种问题需要解决。在信息时代，人们通常借助互联网来搜索相应的问题并从多种多样的结果中选择，但涉税领域需要准确、专业的解答，而互联网搜索并不具有权威性。所以，纳税人在面对问题的时候，首先想到的就是向税务部门提供的12366服务热线咨询，以期获得专业而准确的解答。随着业务的发展，各省（市）的12366服务热线的负荷越来越大，一方面服务热线一再扩容，但是依然跟不上话务量的增长，另一方面纳税人总打不进电话，服务的使用体验和满意度不断降低。为了缓解这一现状，各地正在积极尝试利用微信、手机客户端软件、网页等方式拓展咨讯服务的渠道，向纳税人提供多样化的咨讯服务，降低运营成本。

传统的咨讯服务只是在数据库的基础上对请求问题做简单匹配给出相应的结果，这种匹配结果往往不够准确，而且中文的语言复杂度又给匹配带来多样化的结果。

发明内容

为了克服现有技术的上述缺点，本发明的目的是提供一种快速的，准确检索的基于深度学习的税务智能咨询系统的数据处理方法。

本发明解决其技术问题所采用的技术方案是：一种基于深度搜索的税务智能咨询平台的数据处理方法，其中：

处理两路数据流；其中：包括从多个装置获取的外部数据流及系统的内部数据流；

一路为内部数据流；

初始化内部数据流；其中：所述的内部数据流为录入的语料库；

建立语言模型，将语料库的数据流进行深度学习，得出词向量集；

分析整理词向量集建立知识数据库；其中：所述的知识数据库包括问答库、税务词典及同义词数据库；

构建索引；其中，构建税务词典与问答库的链接；构建同义词数据库与问答库的链接；

另一路为外部数据流；

接收外部数据流；

获取接收到的外部数据流上的信息，对该信息进行分析，根据信息对该数据流进行深度学习后进行分词处理得出若干数据流，赋予若干数据流特征向量；其中：所述的若干数据流中，包括停用词数据流及关键字数据流；

筛选所述的若干数据流；其中：将数据流的特征向量与所述税务词典的特征向量匹配筛选，去除停用词，获得初步关键字数据流，进入关键词数据流词组；

筛选初步关键字数据流；其中：将初步关键字数据流与所述同义词数据库匹配筛选，获取同义词关键词数据流集合，进入关键词数据流词组；

将关键词数据流词组根据相应的链接与问答库的数据一一匹配，组成答案组合；

分析答案组合，计算权重值，匹配出最优答案；形成最终答案数据流；

输出最终答案数据流。

作为本发明的进一步改进：建立知识数据库：所述知识数据库包括问答库、税务词典及同义词数据库；

构建问答库：问答库由问题和解答数据组合及规范性文件组成；

构建所述的税务词典的数据库：有一数据样本集；所述的数据样本集有若干税务专有名词及自然词汇；从所述的数据样本集中提取关键字，通过深度学习，转换成机器语言，得出词向量，形成税务词典；

构建所述的同义词词典的数据库：其中，同义词为与税务词典中词汇相同或相似意义的词汇数据。

作为本发明的进一步改进：对接收到的数据流的深度学习的分词方法，首先对每一个字进行数据库搜索，映射到一个固定长度的特征向量；接着经过一个的神经网络，所述的神经网络有linear层，sigmoid层，linear层；对于每个字，预测该字属于B，E，I，S的概率；最后输出是一个矩阵，矩阵的行是B，E，I，S 4个tag，利用viterbi算法完成标注推断，从而得到分词结果；对数据流分词后，接下来对分词后的每个term计算一个权重，对于文本串的每个term，预测一个[0,1]的得分。

作为本发明的进一步改进：所述的特征向量为词向量。

作为本发明的进一步改进：一种基于深度学习的税务智能咨询系统，其中：所述的系统从上到下分为交互单元、核心大数据平台单元及数据管理及平台管控；其中：

交互单元，用于获取多个装置接收的数据，并在装置上展示对获取到的所述需求信息对应的数据；其中，所述多个装置包括以下至少之一：自助终端、服务网站及应用软件；

结合传统的智能知识库与自动问答系统，对提交的问题数据进行多种新型的语义分析，精准的确定问题并智能检索，构建基于深度学习的

移动互联电子政务智能咨询平台，实现包括：短信、微信、微博、WEB、APP、IM等多种渠道的对接，在大数据与云计算平台下，对咨询记录进行数据分析，不断对知识库进行更新管理，并且得到结构化的客服

数据，分析、统计数据，并获取、反馈有用的信息，实现数据的二次价值。

核心大数据平台单元，用于处理上述多个装置所获取到的数据，并将处理结果反馈到所述的交互单元中；

数据管理及平台管控，用于元数据的管理、数据分类、数据安全管理、数据公共模型及数据备份管理。

作为本发明的进一步改进：平台服务接口，用于连接交互单元与所述的数据服务单元；使得数据服务单元接收数据流；

数据服务单元，用于接收平台服务接口传输过来的数据流，根据所述需求信息从保存的所述数据中获取对应的数据信息；

数据存储单元，用于存储多个实时大数据，其中，所述的多个实时大数据包括以下至少之一：分析式文件、Spark工作流及分布式队列；

数据分析单元：采用基于Spark的分布式高性能大数据分析平台对新采集的数据、历史数据库进行实时分析和/或离线数据挖掘；

数据源单元，用于多个数据的采集，其中，所述的多个数据包括以下至少之一：数据库采集、数据流采集及文件采集。

作为本发明的进一步改进：所述的应用软件包括短信、微信及微博。

与现有技术相比，本发明的有益效果是：

本发明具有三层结构、流行框架和可实施的最新分布式技术，构建扩容能力强、高容错性、硬件部署低廉、高传输效率、实现信息基础设施的按需部署、弹性扩展和集约化利用。

本发明中的深度学习框架将特征和分类器结合到一个框架中，自动地从海量大数据中去学习特征，在使用中减少了手工设计特征的巨大工作量。深度学习通过学习一种深层非线性网络结构，只需简单的网络结构即可实现复杂函数的逼近，并展现了强大的从大量无标注样本集中学习数据集本质特征的能力。深度学习能够获得可更好地表示数据的特征，同时由于模型的层次深、表达能力强，因此结合特定的先验知识和选取模型，可以表示大规模数据，关系到税务词典、关键词提取和同义词是否充分和准确。关键是将人工智能技术应用于中文语义识别，而本发明就是运用深度学习机制来提高智能检索的准确性。

附图说明

图1为本发明的结构示意图；

图2为本发明的流程示意图；

图3为本发明的局部结构示意图。

具体实施方式

现结合附图1至3说明与实施例对本发明进一步说明：

1. 基础原理

本发明基于Spark的深度学习框架如图1所示，按三层结构进行系统搭建和数据处理。

建设的智能咨询系统如图所示，系统通过建立关于税务专业的知识库、对知识库的有效管理、运用深度学习技术进行自然语言的深层语义分析、建立相应的应用客户端等进行实现。

Spark 平台架构应用

平台按照功能组件从上到下主要分为业务应用层，核心大数据平台层，数据管理与平台管控，数据源。其中核心大数据平台层又分为平台服务接口，数据服务模块，工作流，数据存储层（数据库），数据采集层，数据分析层（大数据处理）。其中数据分析层采用基于Spark的分布式高性能大数据分析平台对新采集的数据、历史数据库等进行实时分析或者离线数据挖掘。基于三层结构、流行框架和可实施的最新分布式技术构建扩容能力强、高容错性、硬件部署低廉、高传输效率、实现信息基础设施的按需部署、弹性扩展和集约化利用。平台具有：① 能可靠地存储和处理千兆字节数据。 ②可通过普通机器组成的达数千个节点的服务器群来分发及处理数据。③ 通过分发数据，分布式运算机制可在数据所在节点上并行处理，使得处理非常快速。 ④ 分布式运算机制能自动维护数据的多份复制，并在任务失败后能自动重新部署计算任务。⑤ 支持深度学习所需的高性能计算。

基于深度学习的语义识别研究

深度学习的实质，是通过构建具有很多隐层的机器学习模型和海量的训练数据，来学习更有用的特征，从而最终提升分类或预测的准确性。因此，“深度模型”是手段，“特征学习”是目的。区别于传统的浅层学习，深度学习强调模型结构的深度，通常有5层、6层，甚至10多层的隐层节点；明确突出了特征学习的重要性，即通过逐层特征变换，将样本在原空间的特征表示变换到一个新特征空间，从而使分类或预测更加容易。与传统的人工规则构造特征的方法相比，利用大数据来学习特征，更能够刻画数据的丰富内在信息。

针对应用和传统方法的问题，拟研究基于词向量的深度学习算法，通过将单个词汇映射到一个连续空间，利用其连续性实现对词汇的各种相似性的比较，包括语义相似性比较等，解决词袋模型的“维度灾害”和“语义鸿沟”问题。

基于词向量的语义分析可先采用的经典模型，如Hierarchical NPLM，RNNLM，Skipgram、Bengio的NPLM模型等。通过模型的实验和研究，将可以获得等准确、更快的模型来学习词向量，更好地解决智能搜索和更多实际应用问题及需求。

智能咨询系统建设

主要涉及知识模型设计和规范制定，建立知识的业务组织体系和客户关注体系、统一的文档形式、建

立一种知识运维规范化流程；多维度知识的统一维护和管理：有效期、用户群、多渠道、多属地。重视知识点间的关联体系结构：知识点关联关系的分类；知识点关联关系的发现和配置。结合语义分析的高效全文检索：语义检索、搜索提示、查询扩展；统一展示、结果筛选、结果排序；基于现有知识库的最小化改造：数据自动同步；基于模板的结构化。

知识库的建立

1) 问答库

知识库是所有知识素材组成的仓库，里面包含所有的税务相关的知识，包括法规、政策等规范性文件，也包括经过验证的问题和解答组成的问答库。

问答库是知识库的一种特殊形式，由纳税人提出的问题和税务部门给予的解答共同组成一个素材，也就是一个条目。问题的解答通常是由税务人员根据问题，引用部分规范性文件再组合到一起，构成一个权威性的解答。

由于引用规范性文件，而规范性文件有其适用原则，所以问答库也具有地域和领域的特征。同时，问答库也会因为规范性文件的失效而失效，所以也具有时效性。将所有的问题和答案，以及地域、领域的属性和时效性，整理成一个集中的或多个分布的数据库，就形成了咨询服务系统的问答库。

2) 税务词典

信息系统所称的词典是指由一系列的词汇组成的集合。也就是由一些列的中文词汇组成的文件。由于目前人类科技的限制，计算机尚不能理解任何文字的含义，也就是机器并不能自己判断哪些文字组成的是或者不是一个词汇，对于机器而言，文字不过就是一些字节码。要让机器能够正确区分词汇，将有意义的两个或多个文字从语句中分离出来，就需要整理成计算机能够理解的格式，这就是词典。

一般地，中文具有自然语言形成的词典，词汇数量在五、六万左右。但是单纯使用自然词典不能更好地理解税务问题。而税务领域所涉及的词汇，并非自然词汇的子集，也就是说税务领域有一些特殊的词汇。比如“一般纳税人”，这个在自然词典里面，“一般”对于纳税人的限定没有任何意义，而这两个词组成一起才构成税务领域的一个有意义的词汇，所以“一般纳税人”是税务词典的一个条目。

类似这样，我们要把“企业所得税”、“汇算清缴”等税务领域的专有词汇进行整理，组成税务词典，税务词典的规模也是数以万计。

3) 同义词

在语言学中，同义词是指两个词具有相同的意义。而在人工智能领域，同义词特指某一词汇与词典中的含义相同或相近。而这种相同或相近，往往不是因为词义，而是缩略语、习惯表达或错别字等因素。

比如“营改增”，这个词汇在自然语义中没有任何意义，但是它是“营业税改征增值税”的缩略语。同样，由于习惯表达的原因，也有叫“营业税改增值税”的。这三个词汇，在人看来就是一个意思，但在计算机看来，是完全不同的词汇，所以我们要利用同义词告诉机器这些都是同一个意思，可以互相替代。

还有一类就是由于输错的情况，常出现在纳税人的提问中，比如“汇算清缴”误作“会算清缴”，对于特别容易出错的，或者经常出错的，我们可以将其作为同义词看待。

基于深度学习的智能检索

1 ）自动分词

正如前面所讲，机器并不能理解语句的意思，只能将其作为一系列的词汇来看待。而纳税人提出的问题，往往就是一段话，包含一个或几个语句。要理解问题的意思，就需要对语句进行分词。

分词的依据就是前文所讲的税务词典，方法是对语句进行扫描，若语句中出现词典中的词汇，则将该词分离。当然，实际使用中，还需要考虑正向检索、反向检索和去歧义的问题。分词的结果就是将一句话如“一般纳税人的认定条件是什么”，分词后形成“一般纳税人的认定条件是什么”。

而全切分方法，它首先切分出与词库匹配的所有可能的词，再运用统计语言模型决定最优的切分结果。它的优点在于可以解决分词中的歧义问题。这些方法虽然简单易行，但往往不能达到很好的分词效果，对此我们引入基于深度学习方法的来进行分词。

2 ）基于深度学习的中文分词

首先对每一个字进行Lookup Table，映射到一个固定长度的特征向量（这里可以利用词向量，boundary entropy，accessor variety等）；接着经过一个标准的神经网络，分别是linear，sigmoid，linear层，对于每个字，预测该字属于B，E，I，S的概率；最后输出是一个矩阵，矩阵的行是B，E，I，S 4个tag，利用viterbi算法就可以完成标注推断，从而得到分词结果。对文本分词后，接下来需要对分词后的每个term计算一个权重，重要的term应该给与更高的权重。Term weighting在文本检索、文本相关性、核心词提

取等任务中都有重要作用。利用有监督机器学习方法来预测weight类似于机器学习的分类任务，对于文本串的每个term，预测一个[0,1]的得分，得分越大则term重要性越高。既然是有监督学习，那么就需要训练数据。如果采用人工标注的话，极大耗费人力，所以我们采用训练数据自提取的方法，利用程序从搜索日志里自动挖掘。从海量日志数据里提取隐含的用户对于term重要性的标注，得到的训练数据将综合亿级用户的“标注结果”，覆盖面更广，且来自于真实搜索数据，训练结果与标注的目标集分布接近，训练数据更精确。

3 ）关键词提取

一般地，一句话的语义主要由其中的关键词体现，其他的词汇主要是体现程度或者表达语气之类的。

例如上面的“一般纳税人的认定条件是什么”，我们知道，这句话主要是问一般纳税人的认定条件，所以关键词是“一般纳税人”和“认定条件”。语句中的“的”和“是”是中文中的高频单字，不具有关键信息，“什么”

是表达疑问语气的词语。所以，在分词后需要去掉的词汇，术语里面叫做“停用词”，去掉停用词后，剩下的就是一句话的关键词。

4 ）基于深度学习的语义识别

智能检索就是利用提取出的关键词在问答库中检索，并最终找出匹配度较高的问题的过程。智能检索需要处理的问题效率和效果两个问题：

一是需要解决在海量知识库中检索的效率问题。人们在面对机器回答的时候，总希望能在极短的时间给出答案，而且在大量用户同时访问的情况下，如何能够更有效地检索也是一个需要解决的问题。

二是需要解决检索出的内容是不是纳税人想要的。这有两层意思，一是检索出来的内容是纳税人想要的，二是纳税人想要的都能检索出来。这实际上就是智能检索的效果问题。

第一个问题，需要利用当前的数据库技术、分布计算技术、并发计算技术、云计算技术等技术加以解决。

第二个问题，关系到税务词典、关键词提取和同义词是否充分和准确。关键是将人工智能技术应用于中文语义识别，而本项目就是运用深度学习机制来提高智能检索的准确性。

深度学习框架将特征和分类器结合到一个框架中，自动地从海量大数据中去学习特征，在使用中减少了手工设计特征的巨大工作量。深度学习通过学习一种深层非线性网络结构，只需简单的网络结构即可实现复杂函数的逼近，并展现了强大的从大量无标注样本集中学习数据集本质特征的能力。深度学习能够获得可更好地表示数据的特征，同时由于模型的层次深、表达能力强，因此结合特定的先验知识和选取模型，可以表示大规模数据，实现对海量数据不同层次表现形式间的内在联系进行建模：① 能量概率模型。将

RBM引入到网络建模中，对于深度神经网络来说是一个具有理论指导意义的突破。利用RBM作为能量模型，可以对任意分布未知的数据进行建模，且从统计热力学角度出发，确定当网络整体能量达到最小时，系统处于稳态，即此时网络参数即为所求。② 逐层预训练；早期的神经网络通常采取随机初始化的方法给网络赋予初始值，但这种方法很可能由于随机选定的权值和实际相差太大，导致效果不佳。利用RBM模型对相邻两层节点进行建模，自底向上逐层预训练，由于经过多次迭代，使得RBM最终处于相对稳定状态，此时隐含层和可见层相当于同一特征在不同特征空间的不同表示，从而给权重一个相对合理的初始值。③ 网络并行训练。由于深度神经网络包含众多隐含层，每个隐含层的节点通常在1000及以上,参数规模往往能达到百万以上，需要高性能计算支持。

大数据实时处理云平台

平台咨询平台方面，① 研发三个云端子系统及三个客户端系统：平台应用包含网络电子税务子系统、微信公众平台子系统和移动APP服务子系统等应用，以及微信、Android和IOS三个客户端系统。② 根据基于深度学习的移动互联电子税务智能咨讯平台的数据信息进行数据挖掘分析，并对客户端及服务端反馈相应的信息。

深度学习通过很多数学和工程技巧增加（堆栈叠加：Stack）隐层的层数，如果隐层足够多，选择适当的连接函数和架构，获得很强的表达能力。深度学习的一个主要优势在于可以利用海量训练数据（即大数据），但是常用的模型训练算法反向传播（BackPropagation）仍然对计算量有很高的要求。因此需要基于MapReduce的大规模集群技术，并行算法包括硬件和软件级别上的并行处理，分布式计算集群实现，而软件并行算法则主要利用多线程(多进程)分别对训练数据子集进行参数更新，在合适时机合并更新结果，从而实现网络的并行训练，将耗时数月的训练过程可缩短为数天甚至数小时，实现深度学习的应用目标。

大数据处理可分为复杂的批量数据处理、基于历史数据的交互式查询、基于实时数据流的数据处理。

税务数据属复杂多样的大数据应用,同时包含不同特征的数据和计算。考虑Spark还提供内存计算引擎，可以涵盖几乎所有典型的大数据计算模式，保持与Hadoop平台兼容，因此基于Spark构建混合计算模型，在此基础上，构建基于Spark的税务大数据云平台系统总体架构，满足智能电子政务中的所有数据和应用需求。

①构建一个以知识库为基础的，基于深度学习的语义分析是大数据领域中的研究热点，应用非常广泛。通过对基于词向量的语义分析算法的研究，将极大拓宽语义分析在异构多样数据应用与创新，特别对中文语义识别及语音识别技术有较大地促进和实际应用价值。

②基于Spark的大数据云计算平台是分布式计算技术的发展趋势，正不断取得研究进展。通过本次在电子政务领域的应用和探索，对海量的数据进行实时分析处理，为精细统计业务咨询/反馈、深度挖掘用户的行为及需求奠定分布式计算基础。为大数据和云计算新技术在电子政务领域的应用落地，进行了一次有意义的尝试。

综上所述，本领域的普通技术人员阅读本发明文件后，根据本发明的技术方案和技术构思无需创造性脑力劳动而作出其他各种相应的变换方案，均属于本发明所保护的范围。

Claims

1.一种基于深度搜索的税务智能咨询平台的数据处理方法，其特征在于：

一路为内部数据流；

另一路为外部数据流；

接收外部数据流；

输出最终答案数据流。

2.根据权利要求1所述的一种基于深度搜索的税务智能咨询平台的数据处理方法，其特征在于：

建立知识数据库：所述知识数据库包括问答库、税务词典及同义词数据库；

3.根据权利要求1或2所述的一种基于深度搜索的税务智能咨询平台的数据处理方法，其特征在于：对接收到的数据流的深度学习的分词方法，首先对每一个字进行数据库搜索，映射到一个固定长度的特征向量；接着经过一个的神经网络，所述的神经网络有linear层，sigmoid层，linear层；对于每个字，预测该字属于B，E，I，S的概率；最后输出是一个矩阵，矩阵的行是B，E，I，S 4个tag，利用viterbi算法完成标注推断，从而得到分词结果；对数据流分词后，接下来对分词后的每个term计算一个权重，对于文本串的每个term，预测一个[0,1]的得分。

4.根据权利要求1所述的一种基于深度搜索的税务智能咨询平台的数据处理方法，其特征在于：所述的特征向量为词向量。

5.一种基于深度学习的税务智能咨询系统，其特征在于：所述的系统从上到下分为交互单元、核心大数据平台单元及数据管理及平台管控；其中：

6.根据权利要求5所述的一种基于深度学习的税务智能咨询系统，其特征在于：

所述核心大数据平台单元由平台服务接口，数据服务单元，数据存储单元，数据采集单元及数据分析单元依次连接组成；其中：

平台服务接口，用于连接交互单元与所述的数据服务单元；使得数据服务单元接收数据流；

7.根据权利要求5所述的一种基于深度学习的税务智能咨询系统，其特征在于：所述的应用软件包括短信、微信及微博。