CN109359197B - 一种税费种类认证方法、装置和计算机可读存储介质 - Google Patents
一种税费种类认证方法、装置和计算机可读存储介质 Download PDFInfo
- Publication number
- CN109359197B CN109359197B CN201811289257.8A CN201811289257A CN109359197B CN 109359197 B CN109359197 B CN 109359197B CN 201811289257 A CN201811289257 A CN 201811289257A CN 109359197 B CN109359197 B CN 109359197B
- Authority
- CN
- China
- Prior art keywords
- industry
- range information
- operation range
- sample set
- tax
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/10—Tax strategies
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Accounting & Taxation (AREA)
- Development Economics (AREA)
- Finance (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Data Mining & Analysis (AREA)
- General Business, Economics & Management (AREA)
- Strategic Management (AREA)
- Marketing (AREA)
- Health & Medical Sciences (AREA)
- Economics (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Technology Law (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明实施例公开了一种税费种类认证方法、装置和计算机可读存储介质,预先建立税费种类库;对待处理的经营范围信息进行切词处理,得到特征向量;根据特征向量和税费种类库中特征信息的匹配度,确定出经营范围信息所对应的税费种类。在该技术方案中,预先建立的税费种类库中包含有各税费种类所对应的特征信息,税费种类库相当于对经营范围信息进行评定的统一标准,有效的解决了税务工作人员标准不统一,导致分类出现错误或者分歧的问题。并且利用税费种类库对经营范围信息进行匹配,实现了税费种类的自动化认证,减少人为的干预,减少税务工作人员的工作量,提高了税费种类认证的处理效率。
Description
技术领域
本发明涉及税务系统技术领域,特别是涉及一种税费种类认证方法、装置和计算机可读存储介质。
背景技术
税费种类包括行业类别、征收品目等类别。传统方式中,企业的行业类别是由税务局工作人员通过企业的经营范围来判断属于哪个行业的,一个企业可能对应一个或者多个行业;企业的征收品目同样是由税务局工作人员通过企业的经营范围来判断属于哪个征收品目,一个企业可能对应一个或者多个征收品目。
由于每个税局的业务人员所在的环境不同,所以每个税务工作人员主观标准不统一;行业、征收品目都有几百种,人脑很难凭记忆完成对应,这样就造成了很多纳税人的行业定义不明确,甚至有部分明显错误;纳税人数量众多,必然导致税务工作人员繁忙以及税务办事大厅拥挤。由于经营范围与行业、征收品目存在一对多的关系,并且部分样本数据错误,导致很难直接采用机器学习算法实现分类。
可见,如何实现对税费种类的统一化管理,是本领域技术人员亟待解决的问题。
发明内容
本发明实施例的目的是提供一种税费种类认证方法、装置和计算机可读存储介质,可以实现对税费种类的统一化管理。
为解决上述技术问题,本发明实施例提供一种税费种类认证方法,包括:
预先建立税费种类库;其中,所述税费种类库依据历史数据建立,在所述税费种类库中存储有特征信息和税费种类的对应关系;
对待处理的经营范围信息进行切词处理,得到特征向量;
根据所述特征向量和所述税费种类库中特征信息的匹配度,确定出所述经营范围信息所对应的税费种类。
可选的,所述税费种类库包括行业字典库和征收品目模型;相应的,所述税费种类包括行业类别和征收品目;其中,所述行业字典库中存储有行业类别和特征词的对应关系;所述征收品目模型基于经营范围信息和征收品目的对应关系建立。
可选的,所述行业字典库的建立过程包括:
对获取的历史数据进行预处理,得到各目标行业所对应的样本集;其中,每个所述目标行业都有其对应的至少预设条数的经营范围信息;
利用tf-idf算法对各所述样本集进行处理,为每个所述目标行业建立相应的行业字典库;
利用k-means原理对所述行业字典库进行迭代更新,直到行业整体预测偏差值小于偏差阈值。
可选的,所述利用k-means原理对所述行业字典库进行迭代更新包括:
依据各所述行业字典库对待检测的经营范围信息进行预测,确定出所述待检测的经营范围信息对应的行业类别;
根据所述行业类别以及相应的实际行业类别,确定出行业整体预测偏差值;
依据所述行业整体预测偏差值所对应的规则,对所述行业字典库进行更新。
可选的,所述依据各所述行业字典库对待检测的经营范围信息进行预测,确定出所述待检测的经营范围信息对应的行业类别包括:
对第一经营范围信息进行切词处理,得到第一特征向量;其中,所述第一经营范围信息为所有所述待检测的经营范围信息中的任意一个待检测的经营范围信息;
依据所述第一特征向量与各所述行业字典库的匹配度,确定出所述第一经营范围信息所对应的行业类别。
可选的,所述依据所述行业整体预测偏差值所对应的规则,对所述行业字典库进行更新包括:
判断所述行业整体预测偏差值是否小于或等于初始阈值;
若否,则检测每个行业预测的准确率是否大于或等于预设值;
根据所述待检测的经营范围信息以及相应的实际行业类别,对准确率小于预设值的行业所对应的行业字典库进行更新。
可选的,所述征收品目模型的建立过程包括:
对获取的历史数据进行预处理,得到样本集;其中,所述样本集中包括有经营范围信息和征收品目;
从所述样本集中选取出经营范围信息与征收品目有唯一对应关系的第一样本集;将所述样本集中除所述第一样本集外的剩余样本集作为第二样本集;
利用所述第一样本集建立文本分类模型,并依据所述文本分类模型对所述第二样本集中的经营范围信息进行切割处理,使得第二样本集中经营范围和征收品目为一一对应关系;
依据所述第一样本集和所述第二样本集的处理结果,构建训练集样本;
利用word2vec和循环神经网络算法对所述训练集样本进行训练,得到征收品目模型。
本发明实施例还提供了一种税费种类认证装置,包括建立单元、切词单元和匹配单元;
所述建立单元,用于预先建立税费种类库;其中,所述税费种类库依据历史数据建立,在所述税费种类库中存储有特征信息和税费种类的对应关系;
所述切词单元,用于对待处理的经营范围信息进行切词处理,得到特征向量;
所述匹配单元,用于根据所述特征向量和所述税费种类库中特征信息的匹配度,确定出所述经营范围信息所对应的税费种类。
可选的,所述税费种类库包括行业字典库和征收品目模型;相应的,所述税费种类包括行业类别和征收品目;其中,所述行业字典库中存储有行业类别和特征词的对应关系;所述征收品目模型基于经营范围信息和征收品目的对应关系建立。
可选的,针对于所述行业字典库的建立过程,所述装置还包括预处理单元、字典库建立单元和更新单元;
所述预处理单元,用于对获取的历史数据进行预处理,得到各目标行业所对应的样本集;其中,每个所述目标行业都有其对应的至少预设条数的经营范围信息;
所述字典库建立单元,用于利用tf-idf算法对各所述样本集进行处理,为每个所述目标行业建立相应的行业字典库;
所述更新单元,用于利用k-means原理对所述行业字典库进行迭代更新,直到行业整体预测偏差值小于偏差阈值。
可选的,所述更新单元包括预测子单元、确定子单元和调整子单元;
所述预测子单元,用于依据各所述行业字典库对待检测的经营范围信息进行预测,确定出所述待检测的经营范围信息对应的行业类别;
所述确定子单元,用于根据所述行业类别以及相应的实际行业类别,确定出行业整体预测偏差值;
所述调整子单元,用于依据所述行业整体预测偏差值所对应的规则,对所述行业字典库进行更新。
可选的,所述确定子单元具体用于对第一经营范围信息进行切词处理,得到第一特征向量;其中,所述第一经营范围信息为所有所述待检测的经营范围信息中的任意一个待检测的经营范围信息;依据所述第一特征向量与各所述行业字典库的匹配度,确定出所述第一经营范围信息所对应的行业类别。
可选的,所述调整子单元具体用于判断所述行业整体预测偏差值是否小于或等于初始阈值;若否,则检测每个所述行业预测的准确率是否大于或等于预设值;根据所述待检测的经营范围信息以及相应的实际行业类别,对准确率小于预设值的行业所对应的行业字典库进行更新。
可选的,针对于所述征收品目模型的建立过程,所述装置还包括预处理单元、选取单元、切割单元、构建单元和训练单元;
所述预处理单元,用于对获取的历史数据进行预处理,得到样本集;其中,所述样本集中包括有经营范围信息和征收品目;
所述选取单元,用于从所述样本集中选取出经营范围信息与征收品目有唯一对应关系的第一样本集;将所述样本集中除所述第一样本集外的剩余样本集作为第二样本集;
所述切割单元,用于利用所述第一样本集建立文本分类模型,并依据所述文本分类模型对所述第二样本集中的经营范围信息进行切割处理,使得第二样本集中经营范围和征收品目为一一对应关系;
所述构建单元,用于依据所述第一样本集和所述第二样本集的处理结果,构建训练集样本;
所述训练单元,用于利用word2vec和循环神经网络算法对所述训练集样本进行训练,得到征收品目模型。
本发明实施例还提供了一种税费种类认证装置,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序以实现如上述税费种类认证方法的步骤。
本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上述税费种类认证方法的步骤。
由上述技术方案可以看出,预先建立税费种类库;对待处理的经营范围信息进行切词处理,得到特征向量;根据所述特征向量和税费种类库中特征信息的匹配度,确定出所述经营范围信息所对应的税费种类。在该技术方案中,税费种类库中包含有各税费种类所对应的特征信息,税费种类库相当于对经营范围信息进行评定的统一标准,依据特征向量和税费种类库中特征信息的匹配度,便可以确定出经营范围信息所对应的税费种类,有效的解决了税务工作人员标准不统一,导致分类出现错误或者分歧的问题。并且利用税费种类库对经营范围信息进行匹配,实现了税费种类的自动化认证,减少人为的干预,减少税务工作人员的工作量,提高了税费种类认证的处理效率。
附图说明
为了更清楚地说明本发明实施例,下面将对实施例中所需要使用的附图做简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种税费种类认证方法的流程图;
图2为本发明实施例提供的一种行业字典库的建立流程图;
图3为本发明实施例提供的一种征收品目模型的构建流程图;
图4为本发明实施例提供的一种税费种类认证装置的结构示意图;
图5为本发明实施例提供的一种税费种类认证装置的硬件结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下,所获得的所有其他实施例,都属于本发明保护范围。
为了使本技术领域的人员更好地理解本发明方案,下面结合附图和具体实施方式对本发明作进一步的详细说明。
接下来,详细介绍本发明实施例所提供的一种税费种类认证方法。图1为本发明实施例提供的一种税费种类认证方法的流程图,该方法包括:
S101:预先建立税费种类库。
在本发明实施例中,通过建立税费种类库的方式,对企业的经营范围信息进行匹配处理,从而确定出该企业所对应的税费种类。
其中,税费种类库可以依据历史数据建立,在税费种类库中存储有特征信息和税费种类的对应关系。
S102:对待处理的经营范围信息进行切词处理,得到特征向量。
对于一个企业纳税人而言,其有对应的经营范围信息,在实际应用中,需要依据经营范围信息,确定出企业所对应的税费种类后才能进行纳税申报。
每个企业有其对应的一个经营范围信息,待处理的经营范围信息可以有多个,每个经营范围信息的处理方式类似,在本发明实施例中以一个经营范围信息为例展开说明。
一个经营范围信息一般为一段或一篇文字描述,利用经营范围信息判断企业的税费种类时,首先需要对经营范围信息进行切词处理,统计经营范围信息中的特征词,构建特征向量。同一个特征词在一个经营范围信息中可能出现多次,在特征向量中可以记载每个特征词所对应的词频,即该特征词出现的次数。
在构建特征向量时,可以将切词得到的所有分词中的常用词删除,以保证特征向量的简洁性。
S103:根据特征向量和税费种类库中特征信息的匹配度,确定出经营范围信息所对应的税费种类。
税费种类可以包括行业类别和征收品目。根据税费种类的具体分类,相应的,建立的税费种类库可以包括行业字典库和征收品目模型;其中,行业字典库中可以存储有行业类别和特征词的对应关系;征收品目模型基于经营范围信息和征收品目的对应关系建立,从而依据该税费种类库确定出的税费种类可以包括行业类别和征收品目。
其中,行业类别可以包括农业、林业、畜牧业、渔业、煤矿开采和洗选业、石油和天然气开采业、矿采选业、农副食品加工业、食品制造业等。以行业类别为农业的企业为例,其对应的征收品目可以包括谷物、棉花、蔬菜、花卉、水果等。需要说明的是,上述提及的行业类别和征收品目的具体形式仅是举例说明,在具体应用中,可以根据实际需求进行设定。
以行业字典库为例,在具体实现中,可以针对不同的行业构建行业字典库,每个行业字典库中存储有与该行业强相关的特征信息,在进行税费种类的认证时,只需要将特征向量与各行业字典库中的特征信息进行匹配,例如可以通过计算相关度的方式,相关度最高的行业即为该经营范围信息所对应的行业类别。
行业字典库的建立是进行税费种类认证的关键条件,接下来将对行业字典库的建立过程展开介绍,如图2所示为行业字典库的建立流程图,该建立过程包括:
S201:对获取的历史数据进行预处理,得到各目标行业所对应的样本集。
历史数据可以是已经获知行业类别的经营范围信息。
预处理过程可以是将历史数据中经营范围或者行业有缺失值的数据删除。
每个行业所对应的样本集中的数据越多,依据该样本集建立的行业预测的准确性越高。当某个或某些行业的样本集中的数据太少时,不足以建立与该行业相应的行业字典库,因此,在建立样本集时,可以将行业所对应的纳税人数目即经营范围信息个数小于预设条数的行业删除。
通过对每个行业所对应的样本集中的数据量进行限定,可以保证每个目标行业都有其对应的至少预设条数的经营范围信息。
其中,预设条数的取值可以依据实际需求进行设定,例如,可以设置为20。当某个行业对应的纳税人数目小于20时,由于样本数据太少,则无需建立该行业的行业字典库,此时可以将该行业删除。
目标行业可以是将历史数据中所包含的所有行业中将样本数据太少的行业删除后的剩余行业。每个目标行业都有其对应的一个样本集。
在该样本集中可以包括有该行业强相关的特征信息,该特征信息具体可以包括特征词以及每个特征词所对应的词频。
S202:利用tf-idf算法对各样本集进行处理,为每个目标行业建立相应的行业字典库。
当确定出每个目标行业所对应的样本集后,便可以利用tf-idf算法为每个目标行业建立一个行业字典库。
tf-idf(term frequency–inverse document frequency)是一种用于信息检索与数据挖掘的常用加权技术,利用该tf-idf算法建立行业字典库的过程属于常规技术,在此不再赘述。
S203:利用k-means原理对行业字典库进行迭代更新,直到行业整体预测偏差值小于偏差阈值。
考虑到样本集中可能会存在数据偏差,从而对行业预测的准确性带来影响,因此,在为每个目标行业建立相应的行业字典库之后还可以依据各行业字典库对待检测的经营范围信息进行预测,确定出待检测的经营范围信息对应的行业类别;根据行业类别以及相应的实际行业类别,确定出行业整体预测偏差值;并依据行业整体预测偏差值所对应的规则,对行业字典库进行更新。通过对行业字典库的不断迭代更新,可以提升行业预测的准确率,当行业整体预测偏差值小于偏差阈值时,则可以停止更新。
偏差阈值的取值可以依据实际需求进行设置,在此不做限定。
其中,待检测的经营范围信息可以是行业类别已知的经营范围信息,也即每个待检测的经营范围信息都有其对应的实际行业类别。
因为需要对每个行业预测的准确性进行验证,因此,选取的待检测的经营范围信息以涵盖所有行业类别的经营范围信息为依据。例如,建立的行业字典库有10个,分别对应行业1-行业10,在选取待检测的经营范围信息时,每个经营范围信息有其对应的实际行业类别,选取的待检测的经营范围信息所对应的实际行业类别应该涵盖行业1-行业10。
通过利用行业字典库对待检测的经营范围信息进行预测,可以对各行业预测的准确性进行验证,从而对准确性较低的行业所对应的行业字典库进行更新。
以所有待检测的经营范围信息中的任意一个待检测的经营范围信息即第一经营范围信息为例,可以将该经营范围信息进行切词处理,得到第一特征向量,其具体过程和S101类似,在此不再赘述。
在实际应用中,可以依据第一特征向量与各行业字典库的匹配度,确定出第一经营范围信息所对应的行业类别。具体的,可以将得到的第一特征向量和各行业字典库中的特征信息进行相关度的计算,将相关度最高的一个行业类别作为预测出的行业类别。
将预测出的行业类别和该待检测的经营范围信息所对应的实际行业类别进行比较,可以确定出该行业预测对应的一个偏差值。通过将所有行业预测的偏差值进行汇总,可以得到所有行业预测所对应的一个行业整体预测偏差值。
在具体实现中,可以根据如下公式计算行业整体预测偏差值W,
当计算出行业整体预测偏差值后,可以依据行业整体预测偏差值所对应的规则,对行业字典库进行更新。
行业整体预测偏差值的取值不同,其对应的规则不同。规则可以用于表示对行业字典库进行处理的方式。
在具体实现中,可以判断行业整体预测偏差值是否小于或等于初始阈值;当行业整体预测偏差值小于或等于初始阈值时,则说明行业预测的准确性满足要求,则无需对行业字典库进行更新。
当行业整体预测偏差值大于初始阈值时,则说明将行业预测的准确性不满足要求,此时可以检测每个行业预测的准确率是否大于或等于预设值;根据待检测的经营范围信息以及相应的实际行业类别,对准确率小于预设值的行业所对应的行业字典库进行更新。
行业预测的准确率可以根据该行业字典库预测正确的行业类别个数和预测属于该行业类别的经营范围信息的总个数的比值得到。
例如,待检测的经营范围信息有100个,其中,利用行业字典库预测出有10个经营范围信息属于行业类别1,但实际上这10个经营范围信息中只有7个经营范围信息属于行业类别1,此时行业类别1预测的准确率即为7/10=0.7。
在实际应用中,可以设定预设值对行业预测的准确率进行评判。
以一个行业为例,当该行业预测的准确率大于或等于预设值时,则说明该行业预测的准确性满足要求,则无需对该行业字典库进行更新。相应的,当该行业预测的准确率小于预设值时,则说明该行业预测的准确性不满足要求,则需要对该行业字典库进行更新,从而提升该行业预测的准确性。
其中,预设值的具体取值可以依据实际需求进行设定,在此不做限定。
以准确率小于预设值的行业所对应的行业字典库为例,在具体实现中,可以根据待检测的经营范围信息以及相应的实际行业类别,对行业字典库进行更新。
举例说明,行业10对应行业字典库10,假设行业10预测的准确率小于预设值,行业字典库10预测出经营范围信息a属于行业类别10,但是经营范围信息a实际对应的行业类别为11,则说明行业字典库10中与经营范围信息a的相匹配的特征信息实际应该划分到行业字典库11中,此时可以将行业字典库10与经营范围信息a相匹配的特征信息转移至行业字典库11中,以此来完成对行业字典库的更新。
除了以准确率作为更新的依据外,也可以设定行业字典库更新的个数,例如,设置为5个,则可以选取5个准确率最低的行业字典库进行更新,其它剩余的行业字典库无需进行更新。
依据建立的行业字典库,通过特征信息匹配的方式,便可以确定出经营范围信息所对应的行业类别,实现了对行业类别的自动化认证,并且每个经营范围信息的认证方式相同,实现了行业类别认证的统一化管理,避免了行业类别认证出现混乱。
以征收品目模型为例,在具体实现中,可以根据经营范围信息和征收品目的对应关系,构建征收品目模型,在进行税费种类的认证时,只需要将特征向量输入该征收品目模型中,便可以输出与特征向量相对应的征收品目。
征收品目模型的建立是进行税费种类认证的关键条件,接下来将对征收品目模型的构建过程展开介绍,如图3所示为征收品目模型的构建流程图,该构建过程包括:
S301:对获取的历史数据进行预处理,得到样本集。
历史数据可以是已经获知征收品目的经营范围信息。
预处理过程可以是将历史数据中经营范围或者征收品目有缺失值的数据删除。
每个征收品目所对应的样本集中的数据越多,依据该样本集建立的征收品目模型的准确性越高。当某个或某些征收品目的样本集中的数据太少时,不足以建立与该征收品目相应的样本集,因此,在建立样本集时,可以将征收品目所对应的纳税人数目即经营范围信息个数小于预设条数的行业删除。
通过对每个征收品目所对应的样本集中的数据量进行限定,可以保证每个征收品目都有其对应的至少预设条数的经营范围信息。
其中,预设条数的取值可以依据实际需求进行设定,例如,可以设置为20。当某个征收品目对应的纳税人数目小于20时,由于样本数据太少,则无需建立该征收品目的样本集,此时可以将该征收品目删除。
在样本集中包括有经营范围信息和征收品目以及两者之间的关系。
S302:从样本集中选取出经营范围信息与征收品目有唯一对应关系的第一样本集;将样本集中除第一样本集外的剩余样本集作为第二样本集。
经营范围信息与征收品目有唯一对应关系的第一样本集可以是一个经营范围信息只对应一个征收品目,这样可以保证征收品目和经营范围信息的一一对应关系。
相应的,将第二样本集中包含的各经营范围信息可以对应有多个征收品目。
S303:利用第一样本集建立文本分类模型,并依据文本分类模型对第二样本集中的经营范围信息进行切割处理,使得第二样本集中经营范围和征收品目为一一对应关系。
在具体实现中,可以根据第一样本集,建立文本分类模型,在该文本分类模型中包含有经营范围信息和征收品目的一一对应关系。
当一个经营范围信息对应的征收品目有多个时,该经营范围信息往往包含有多个经营范围子信息,每个经营子信息可以对应一个征收品目。依据文本分类模型对对第二样本集中的经营范围信息进行切割处理,从而将第二样本集中的经营范围信息和征收品目转化为一一对应的关系,可以将该对应关系以对应关系列表的形式存储。
S304:依据第一样本集和第二样本集的处理结果,构建训练集样本。
第二样本集的处理结果包含有第二样本集中的经营范围信息和征收品目一一对应的关系,在本发明实施例中,将第二样本集的处理结果以及第一样本集作为训练集样本。
S305:利用word2vec和循环神经网络算法对训练集样本进行训练,得到征收品目模型。
利用word2vec可以将训练集样本转化为数据向量,然后利用循环神经网络算法对该数据向量进行处理,该处理过程即为对征收品目模型的训练过程,该过程属于常规技术,在此不再赘述。
由上述技术方案可以看出,预先建立税费种类库;对待处理的经营范围信息进行切词处理,得到特征向量;根据所述特征向量和税费种类库中特征信息的匹配度,确定出所述经营范围信息所对应的税费种类。在该技术方案中,税费种类库中包含有各税费种类所对应的特征信息,税费种类库相当于对经营范围信息进行评定的统一标准,依据特征向量和税费种类库中特征信息的匹配度,便可以确定出经营范围信息所对应的税费种类,有效的解决了税务工作人员标准不统一,导致分类出现错误或者分歧的问题。并且利用税费种类库对经营范围信息进行匹配,实现了税费种类的自动化认证,减少人为的干预,减少税务工作人员的工作量,提高了税费种类认证的处理效率。
图4为本发明实施例提供的一种税费种类认证装置的结构示意图,包括建立单元41、切词单元42和匹配单元43;
建立单元41,用于预先建立税费种类库;其中,所述税费种类库依据历史数据建立,在所述税费种类库中存储有特征信息和税费种类的对应关系;
切词单元42,用于对待处理的经营范围信息进行切词处理,得到特征向量;
匹配单元43,用于根据特征向量和税费种类库中特征信息的匹配度,确定出经营范围信息所对应的税费种类。
可选的,税费种类库包括行业字典库和征收品目模型;相应的,税费种类包括行业类别和征收品目;其中,行业字典库中存储有行业类别和特征词的对应关系;征收品目模型基于经营范围信息和征收品目的对应关系建立。
可选的,针对于行业字典库的建立过程,装置还包括预处理单元、字典库建立单元和更新单元;
预处理单元,用于对获取的历史数据进行预处理,得到各目标行业所对应的样本集;其中,每个目标行业都有其对应的至少预设条数的经营范围信息;
字典库建立单元,用于利用tf-idf算法对各样本集进行处理,为每个目标行业建立相应的行业字典库;
更新单元,用于利用k-means原理对行业字典库进行迭代更新,直到行业整体预测偏差值小于偏差阈值。
可选的,更新单元包括预测子单元、确定子单元和调整子单元;
预测子单元,用于依据各行业字典库对待检测的经营范围信息进行预测,确定出待检测的经营范围信息对应的行业类别;
确定子单元,用于根据行业类别以及相应的实际行业类别,确定出行业整体预测偏差值;
调整子单元,用于依据行业整体预测偏差值所对应的规则,对行业字典库进行更新。
可选的,确定子单元具体用于对第一经营范围信息进行切词处理,得到第一特征向量;其中,第一经营范围信息为所有待检测的经营范围信息中的任意一个待检测的经营范围信息;依据第一特征向量与各行业字典库的匹配度,确定出第一经营范围信息所对应的行业类别。
可选的,调整子单元具体用于判断行业整体预测偏差值是否小于或等于初始阈值;若否,则检测每个行业预测的准确率是否大于或等于预设值;根据待检测的经营范围信息以及相应的实际行业类别,对准确率小于预设值的行业所对应的行业字典库进行更新。
可选的,针对于征收品目模型的建立过程,装置还包括预处理单元、选取单元、切割单元、构建单元和训练单元;
预处理单元,用于对获取的历史数据进行预处理,得到样本集;其中,样本集中包括有经营范围信息和征收品目;
选取单元,用于从样本集中选取出经营范围信息与征收品目有唯一对应关系的第一样本集;将样本集中除第一样本集外的剩余样本集作为第二样本集;
切割单元,用于利用第一样本集建立文本分类模型,并依据文本分类模型对第二样本集中的经营范围信息进行切割处理,使得第二样本集中经营范围和征收品目为一一对应关系;
构建单元,用于依据第一样本集和第二样本集的处理结果,构建训练集样本;
训练单元,用于利用word2vec和循环神经网络算法对训练集样本进行训练,得到征收品目模型。
图4所对应实施例中特征的说明可以参见图1-图3所对应实施例的相关说明,这里不再一一赘述。
由上述技术方案可以看出,预先建立税费种类库;对待处理的经营范围信息进行切词处理,得到特征向量;根据所述特征向量和税费种类库中特征信息的匹配度,确定出所述经营范围信息所对应的税费种类。在该技术方案中,税费种类库中包含有各税费种类所对应的特征信息,税费种类库相当于对经营范围信息进行评定的统一标准,依据特征向量和税费种类库中特征信息的匹配度,便可以确定出经营范围信息所对应的税费种类,有效的解决了税务工作人员标准不统一,导致分类出现错误或者分歧的问题。并且利用税费种类库对经营范围信息进行匹配,实现了税费种类的自动化认证,减少人为的干预,减少税务工作人员的工作量,提高了税费种类认证的处理效率。
图5为本发明实施例提供的一种税费种类认证装置50的硬件结构示意图,包括:
存储器51,用于存储计算机程序;
处理器52,用于执行计算机程序以实现如上述税费种类认证方法的步骤。
本发明实施例还提供了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现如上述税费种类认证方法的步骤。
以上对本发明实施例所提供的一种税费种类认证方法、装置和计算机可读存储介质进行了详细介绍。说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明权利要求的保护范围内。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
Claims (8)
1.一种税费种类认证方法,其特征在于,包括:
预先建立税费种类库;其中,所述税费种类库依据历史数据建立,在所述税费种类库中存储有特征信息和税费种类的对应关系;
对待处理的经营范围信息进行切词处理,得到特征向量;
根据所述特征向量和所述税费种类库中特征信息的匹配度,确定出所述经营范围信息所对应的税费种类;
所述税费种类库包括行业字典库和征收品目模型;相应的,所述税费种类包括行业类别和征收品目;其中,所述行业字典库中存储有行业类别和特征词的对应关系;所述征收品目模型基于经营范围信息和征收品目的对应关系建立;
所述征收品目模型的建立过程包括:
对获取的历史数据进行预处理,得到样本集;其中,所述样本集中包括有经营范围信息和征收品目;
从所述样本集中选取出经营范围信息与征收品目有唯一对应关系的第一样本集;将所述样本集中除所述第一样本集外的剩余样本集作为第二样本集;
利用所述第一样本集建立文本分类模型,并依据所述文本分类模型对所述第二样本集中的经营范围信息进行切割处理,使得第二样本集中经营范围和征收品目为一一对应关系;
依据所述第一样本集和所述第二样本集的处理结果,构建训练集样本;
利用word2vec和循环神经网络算法对所述训练集样本进行训练,得到征收品目模型。
2.根据权利要求1所述的方法,其特征在于,所述行业字典库的建立过程包括:
对获取的历史数据进行预处理,得到各目标行业所对应的样本集;其中,每个所述目标行业都有其对应的至少预设条数的经营范围信息;
利用tf-idf算法对各所述样本集进行处理,为每个所述目标行业建立相应的行业字典库;
利用k-means原理对所述行业字典库进行迭代更新,直到行业整体预测偏差值小于偏差阈值。
3.根据权利要求2所述的方法,其特征在于,所述利用k-means原理对所述行业字典库进行迭代更新包括:
依据各所述行业字典库对待检测的经营范围信息进行预测,确定出所述待检测的经营范围信息对应的行业类别;
根据所述行业类别以及相应的实际行业类别,确定出行业整体预测偏差值;
依据所述行业整体预测偏差值所对应的规则,对所述行业字典库进行更新。
4.根据权利要求3所述的方法,其特征在于,所述依据各所述行业字典库对待检测的经营范围信息进行预测,确定出所述待检测的经营范围信息对应的行业类别包括:
对第一经营范围信息进行切词处理,得到第一特征向量;其中,所述第一经营范围信息为所有所述待检测的经营范围信息中的任意一个待检测的经营范围信息;
依据所述第一特征向量与各所述行业字典库的匹配度,确定出所述第一经营范围信息所对应的行业类别。
5.根据权利要求3所述的方法,其特征在于,所述依据所述行业整体预测偏差值所对应的规则,对所述行业字典库进行更新包括:
判断所述行业整体预测偏差值是否小于或等于初始阈值;
若否,则检测每个行业预测的准确率是否大于或等于预设值;
根据所述待检测的经营范围信息以及相应的实际行业类别,对准确率小于预设值的行业所对应的行业字典库进行更新。
6.一种税费种类认证装置,其特征在于,包括建立单元、切词单元和匹配单元;
所述建立单元,用于预先建立税费种类库;其中,所述税费种类库依据历史数据建立,在所述税费种类库中存储有特征信息和税费种类的对应关系;
所述切词单元,用于对待处理的经营范围信息进行切词处理,得到特征向量;
所述匹配单元,用于根据所述特征向量和所述税费种类库中特征信息的匹配度,确定出所述经营范围信息所对应的税费种类;
所述税费种类库包括行业字典库和征收品目模型;相应的,所述税费种类包括行业类别和征收品目;其中,所述行业字典库中存储有行业类别和特征词的对应关系;所述征收品目模型基于经营范围信息和征收品目的对应关系建立;针对于所述征收品目模型的建立过程,所述装置还包括预处理单元、选取单元、切割单元、构建单元和训练单元;所述预处理单元,用于对获取的历史数据进行预处理,得到样本集;其中,所述样本集中包括有经营范围信息和征收品目;所述选取单元,用于从所述样本集中选取出经营范围信息与征收品目有唯一对应关系的第一样本集;将所述样本集中除所述第一样本集外的剩余样本集作为第二样本集;所述切割单元,用于利用所述第一样本集建立文本分类模型,并依据所述文本分类模型对所述第二样本集中的经营范围信息进行切割处理,使得第二样本集中经营范围和征收品目为一一对应关系;所述构建单元,用于依据所述第一样本集和所述第二样本集的处理结果,构建训练集样本;所述训练单元,用于利用word2vec和循环神经网络算法对所述训练集样本进行训练,得到征收品目模型。
7.一种税费种类认证装置,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序以实现如权利要求1至5任意一项所述税费种类认证方法的步骤。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至5任一项所述税费种类认证方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811289257.8A CN109359197B (zh) | 2018-10-31 | 2018-10-31 | 一种税费种类认证方法、装置和计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811289257.8A CN109359197B (zh) | 2018-10-31 | 2018-10-31 | 一种税费种类认证方法、装置和计算机可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109359197A CN109359197A (zh) | 2019-02-19 |
CN109359197B true CN109359197B (zh) | 2021-01-05 |
Family
ID=65347538
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811289257.8A Active CN109359197B (zh) | 2018-10-31 | 2018-10-31 | 一种税费种类认证方法、装置和计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109359197B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110134779A (zh) * | 2019-05-13 | 2019-08-16 | 极智(上海)企业管理咨询有限公司 | 一种企业名称处理的方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106777335A (zh) * | 2017-01-13 | 2017-05-31 | 深圳爱拼信息科技有限公司 | 一种基于长短期记忆(lstm)模型的多标签行业分类方法及装置 |
CN108171276A (zh) * | 2018-01-17 | 2018-06-15 | 百度在线网络技术(北京)有限公司 | 用于生成信息的方法和装置 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030167217A1 (en) * | 2002-03-01 | 2003-09-04 | Vincent Formale | Method and apparatus for capitalizing assets |
CN104281904A (zh) * | 2013-07-05 | 2015-01-14 | 厦门市博维科技有限公司 | 用于管理公司设备的能源管理系统 |
CN107169036A (zh) * | 2017-04-19 | 2017-09-15 | 畅捷通信息技术股份有限公司 | 确定企业所属行业类别的方法及系统 |
CN108520041B (zh) * | 2018-04-03 | 2021-01-05 | 有米科技股份有限公司 | 文本的行业分类方法、系统、计算机设备和存储介质 |
CN108595418A (zh) * | 2018-04-03 | 2018-09-28 | 上海透云物联网科技有限公司 | 一种商品分类方法及系统 |
CN108563722B (zh) * | 2018-04-03 | 2021-04-02 | 有米科技股份有限公司 | 文本信息的行业分类方法、系统、计算机设备和存储介质 |
CN108536800B (zh) * | 2018-04-03 | 2022-04-19 | 有米科技股份有限公司 | 文本分类方法、系统、计算机设备和存储介质 |
-
2018
- 2018-10-31 CN CN201811289257.8A patent/CN109359197B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106777335A (zh) * | 2017-01-13 | 2017-05-31 | 深圳爱拼信息科技有限公司 | 一种基于长短期记忆(lstm)模型的多标签行业分类方法及装置 |
CN108171276A (zh) * | 2018-01-17 | 2018-06-15 | 百度在线网络技术(北京)有限公司 | 用于生成信息的方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN109359197A (zh) | 2019-02-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10600005B2 (en) | System for automatic, simultaneous feature selection and hyperparameter tuning for a machine learning model | |
CN110752942B (zh) | 告警信息的决策方法、装置、计算机设备及存储介质 | |
CN110516910B (zh) | 基于大数据的保单核保模型训练方法和核保风险评估方法 | |
AU2018203375A1 (en) | Method and system for data based optimization of performance indicators in process and manufacturing industries | |
Acosta-González et al. | Forecasting financial failure of firms via genetic algorithms | |
US10360387B2 (en) | Method and system for aggregating and ranking of security event-based data | |
US20120066166A1 (en) | Predictive Analytics for Semi-Structured Case Oriented Processes | |
US20130218620A1 (en) | Method and system for skill extraction, analysis and recommendation in competency management | |
Shukla et al. | A fuzzy rough sets-based multi-agent analytics framework for dynamic supply chain configuration | |
US20200285984A1 (en) | System and method for generating a predictive model | |
CN116882520A (zh) | 针对预定预测问题的预测方法及系统 | |
WO2020205150A1 (en) | Validation of operating plans and schedules using machine learning | |
CN109359197B (zh) | 一种税费种类认证方法、装置和计算机可读存储介质 | |
KR20190069770A (ko) | 사업계획서 분석을 통한 사업 성공 예측 시스템 | |
WO2020117733A1 (en) | Clinical laboratory optimization framework | |
US20210365471A1 (en) | Generating insights based on numeric and categorical data | |
CN110597796B (zh) | 基于全生命周期的大数据实时建模方法及系统 | |
CN110708296B (zh) | 一种基于长时间行为分析的vpn账号失陷智能检测模型 | |
US20220374401A1 (en) | Determining domain and matching algorithms for data systems | |
CN111460268B (zh) | 数据库查询请求的确定方法、装置和计算机设备 | |
US11531887B1 (en) | Disruptive prediction with ordered treatment candidate bins | |
Wirawan et al. | Application of data mining to prediction of timeliness graduation of students (a case study) | |
CN113239026B (zh) | 基于云服务器的云数据的处理方法及云服务器 | |
EP4339845A1 (en) | Method, apparatus and electronic device for detecting data anomalies, and readable storage medium | |
US11747952B1 (en) | Specialization of a user interface using machine learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20221201 Address after: Room 310053, Binjiang South Street, Hangzhou, Zhejiang Province Patentee after: Shuiyou Information Technology Co.,Ltd. Address before: 310053 no.3738, South Ring Road, Puyan street, Binjiang District, Hangzhou City, Zhejiang Province Patentee before: SERVYOU SOFTWARE GROUP Co.,Ltd. |