CN115374082A - 涉税数据库的分析方法、设备及存储介质 - Google Patents
涉税数据库的分析方法、设备及存储介质 Download PDFInfo
- Publication number
- CN115374082A CN115374082A CN202211005381.3A CN202211005381A CN115374082A CN 115374082 A CN115374082 A CN 115374082A CN 202211005381 A CN202211005381 A CN 202211005381A CN 115374082 A CN115374082 A CN 115374082A
- Authority
- CN
- China
- Prior art keywords
- database
- information
- identification
- tax
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 15
- 238000000034 method Methods 0.000 claims abstract description 28
- 230000010354 integration Effects 0.000 claims abstract description 8
- 238000000605 extraction Methods 0.000 claims description 21
- 238000004590 computer program Methods 0.000 claims description 9
- 238000007689 inspection Methods 0.000 abstract description 8
- 238000010586 diagram Methods 0.000 description 6
- 230000007717 exclusion Effects 0.000 description 3
- 230000001186 cumulative effect Effects 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 238000012550 audit Methods 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013499 data model Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2228—Indexing structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/242—Query formulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/26—Visual data mining; Browsing structured data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/10—Tax strategies
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/26—Government or public services
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Development Economics (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Tourism & Hospitality (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- Finance (AREA)
- Accounting & Taxation (AREA)
- Educational Administration (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Technology Law (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Primary Health Care (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及一种涉税数据库的分析方法、设备及存储介质。包括:构建与业务对象适配的数据库业务数据基准模型以及用于提取数据库信息的数据库识别引擎,对待分析的涉税数据库,数据库识别引擎连接并对所连接的涉税数据库进行数据库信息提取,利用所构建数据库业务数据基准模型内的业务数据子模型对所提取的数据库信息进行识别,以在识别匹配后确定所连接涉税数据库内任一数据库表的识别匹配信息,并将所确定数据库表的识别匹配信息作为业务对象属性结果输出;将所输出的业务对象属性结果集进行整合,以在整合后形成一所需展示的业务对象。本申请能有效实现对涉税数据库的分析,提高税务稽查的效率与可靠性。
Description
技术领域
本申请涉及一种数据库分析方法,尤其是一种涉税数据库的分析方法、设备及存储介质。
背景技术
近年来,企业信息化建设不断加强,erp系统、mes系统等信息系统,在企业被广泛应用。在税务稽查时,由于办案时间短,稽查人员无法在现场对稽查对象的信息系统进行详细查看,通常采用导表,备库等方式,将电子数据采集回后,再进行详细分析。
目前,市面上电子信息系统多种多样,稽查人员很难对数据库进行有效分析。在涉税分析时,市场上主要针对涉税数据中的财务数据,或互联网数据进行分析,对业务数据库的分析仍然是空白。
发明内容
本申请的目的是克服现有技术中存在的不足,提供一种涉税数据库的分析方法、设备及存储介质,其能有效实现对涉税数据库的分析,提高税务稽查的效率与可靠性。
按照本申请提供的技术方案,一种涉税数据库的分析方法,所述分析方法包括:
构建与业务对象适配的数据库业务数据基准模型以及用于提取数据库信息的数据库识别引擎,其中,
构建的数据库业务数据基准模型,包括若干表征业务对象属性的业务数据子模型,对任一业务数据子模型,所述业务数据子模型包括业务数据识别条件、业务识别信息以及基于业务对象所关联数据库可用元素的模型描述信息;
对待分析的涉税数据库,数据库识别引擎连接并对所连接的涉税数据库进行数据库信息提取,利用所构建数据库业务数据基准模型内的业务数据子模型对所提取的数据库信息进行识别,以在识别匹配后确定所连接涉税数据库内任一数据库表的识别匹配信息,并将所确定数据库表的识别匹配信息作为业务对象属性结果输出;
将所输出的业务对象属性结果集进行整合,以在整合后形成一所需展示的业务对象。
对任一业务数据子模型,所述模型描述信息包括模型表匹配信息以及模型列匹配信息;
所述业务识别信息包括用于对数据结构以及内容识别的识别策略、基于模型描述信息进行识别时权重计量的识别权重体系以及用于对所计量权重判定的权重识别参数,其中,
识别权重体系包括若干匹配信息的信息识别匹配权重,所述匹配信息包括表名、表注释、表包含的主键数量、表数据量、列名、列数量、列注释和/或列内容;
所述权重识别参数包括权重识别匹配阈值;
利用所构建数据库业务数据基准模型内的业务数据子模型对所提取的数据库信息进行识别匹配时,将所提取的数据库信息与业务数据子模型进行一一比对;
在比对时,基于识别权重体系确定所提取数据库信息的权重识别值,当所述权重识别值与权重识别阈值匹配时,则确定所连接涉税数据库内任一数据库表的识别匹配信息。
利用数据库识别引擎对待分析涉税数据库进行数据库信息提取时,先与待分析涉税数据库连接,以在连接后,对所述涉税数据库内任一数据库表进行信息提取,其中,
对涉税数据库信息提取后,以得到数据库表提取信息,并基于所述数据库表提取信息与所构建数据库业务数据基准模型内的业务数据子模型进行识别匹配;
所述数据库表提取信息包括涉税数据库基本信息、涉税数据库内的表信息以及所述涉税数据库的视图信息。
数据库识别引擎与涉税数据库连接时,向所述数据库识别引擎输入的连接输入信息包括连接串信息以及待连接涉税数据库的类型。
所确定数据库表的识别匹配信息包括匹配的业务数据子模型、识别的数据库表名以及识别数据库表列集。
所述业务对象包括凭证、成本和/或销售流水,其中,
业务对象为凭证时,整合展示的业务对象包括凭证头、凭证分录、凭证辅助核算和/或凭证现金流;
业务对象为成本时,整合展示的业务对象包括采购成本、人力成本、杂项成本和/或损耗;
业务对象为销售流水时,整合展示的业务对象包括销售流水。
对任一业务对象,基于业务数据子模型对凭证头进行识别匹配相应的业务对象属性时,所述对业务对象属性识别匹配的方法包括:
确定数据库信息所对应的数据记录量量,若所确定数据记录量满足业务数据识别条件时,则进行确定权重识别值的步骤,否则,退出对业务对象属性的识别匹配步骤;
确定数据库信息的权重识别值时,将数据库信息与模型描述信息中的模型表匹配信息以及模型列匹配信息进行分别比对,并在比对中基于所构建的识别权重体系确定相应的权重累计值,以选择所需的权重累计值作为权重识别值。
业务对象为凭证时,对凭证的凭证头进行识别匹配时,用于对凭证头进行识别匹配的业务数据子模型,所述业务数据子模型内的模型表匹配信息包括表名同义词以及包含主键的数量;
所述业务数据子模型内模型列匹配信息包括账簿编码、期间、凭证字、凭证号、制单人以及制单日期;
对数据库信息内多个数据库表相对应的权重识别值进行排序,选择权重识别值最大且大于权重识别匹配阈值相对应的数据库表作为凭证头表。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时上述的方法的步骤。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述的方法的步骤。
本申请的优点:数据库识别引擎连接并对所连接的涉税数据库进行数据库信息提取,利用所构建数据库业务数据基准模型内的业务数据子模型对所提取的数据库信息进行识别,以在识别匹配后确定所连接涉税数据库内任一数据库表的识别匹配信息,并将所确定数据库表的识别匹配信息作为业务对象属性结果输出;
将所输出的业务对象属性结果集进行整合,以在整合后形成一所需展示的业务对象,即能有效实现对涉税数据库的分析,提高税务稽查的效率与可靠性。
附图说明
图1为本申请的一种实施分析方法流程图。
图2为本申请构建数据库业务数据基准模型时将可用元素组织成分析结构的实施例示意图。
图3为本申请构建数据库业务数据基准模型的一种实施例的示意图。
图4为本申请构建数据库识别引擎的一种实施例的示意图。
图5为本申请一种用于对凭证头进行匹配识别时的业务数据子模型的实施例示意图。
图6为本申请业务对象凭证时整合展示的一种实施示意图。
图7为本申请业务对象为成本时整合展示的一种实施示意图。
具体实施方式
下面结合具体附图和实施例对本申请作进一步说明。
如图1所示,为了能有效实现对涉税数据库的分析,提高税务稽查的效率与可靠性,本申请的涉税数据库的分析方法,具体地,所述分析方法包括:
构建与业务对象适配的数据库业务数据基准模型以及用于提取数据库信息的数据库识别引擎,其中,
构建的数据库业务数据基准模型,包括若干表征业务对象属性的业务数据子模型,对任一业务数据子模型,所述业务数据子模型包括业务数据识别条件、业务识别信息以及基于业务对象所关联数据库可用元素的模型描述信息;
对待分析的涉税数据库,数据库识别引擎连接并对所连接的涉税数据库进行数据库信息提取,利用所构建数据库业务数据基准模型内的业务数据子模型对所提取的数据库信息进行识别,以在识别匹配后确定所连接涉税数据库内任一数据库表的识别匹配信息,并将所确定数据库表的识别匹配信息作为业务对象属性结果输出;
将所输出的业务对象属性结果集进行整合,以在整合后形成一所需展示的业务对象。
具体实施时,涉税数据库一般为企业经营数据库,对涉税数据库的分析,主要便于税务稽查时,税务稽查人员可根据整合展示的业务对象对一企业经营数据相对应的数据内容稽查,即可提高税务稽查的效率与可靠性。
根据业务对象的特性,本申请预先构建数据库业务数据基准模型以及数据库识别引擎;构建的数据库业务数据基准模型内包括若干表征业务对象属性的业务数据子模型,一般地,对任一业务数据子模型,所述业务数据子模型包括业务数据识别条件、业务识别信息以及基于业务对象所关联数据库可用元素的模型描述信息;其中,利用业务数据识别条件作为识别的前置条件,只有满足所述业务数据子模型的业务数据识别条件下,才会基于当前的业务数据子模型进行所需的识别与匹配。业务识别信息以及模型描述信息的具体情况,下面会进行具体的解释说明。
对涉税数据库分析时,需要利用数据库识别引擎连接并对所连接的涉税数据库进行数据库信息提取,在数据库信息提取后,利用或基于预先构建的数据库业务数据基准模型内的业务数据子模型对所提取的数据库信息进行识别匹配,以在识别匹配后,确定所连接涉税数据库内任一数据库表的识别匹配信息,从而将所确定数据库表的识别匹配信息作为业务对象属性结果输出。
具体实施时,由于业务对象可包括多个属性,将所述业务对象识别匹配后的所有属性进行整合,从而在整合后形成可展示输出的业务对象。本申请的一种实施例中,对业务对象结果集进行整合,具体是指存在关联的业务对象属性结果按照所述业务对象的特性进行组合,从而输出展示为便于税务稽查人员可直接查看的业务对象。
本申请的一个实施例中,对任一业务数据子模型,所述模型描述信息包括模型表匹配信息以及模型列匹配信息;
所述业务识别信息包括用于对数据结构以及内容识别的识别策略、基于模型描述信息进行识别时权重计量的识别权重体系以及用于对所计量权重判定的权重识别参数,其中,
识别权重体系包括若干匹配信息的信息识别匹配权重,所述匹配信息包括表名、表注释、表包含的主键数量、表数据量、列名、列数量、列注释和/或列内容;
所述权重识别参数包括权重识别匹配阈值;
利用所构建数据库业务数据基准模型内的业务数据子模型对所提取的数据库信息进行识别匹配时,将所提取的数据库信息与业务数据子模型进行一一比对;
在比对时,基于识别权重体系确定所提取数据库信息的权重识别值,当所述权重识别值与权重识别阈值匹配时,则确定所连接涉税数据库内任一数据库表的识别匹配信息。
为了能有效对涉税数据库分析,在构建数据库业务数据基准模型时,需要分析企业经营数据库中可用元素;一般地,可用元素包括数据库名称,数据库类型,数据库包含的表数量,数据库包含的视图数量,数据库中每张表的表名,数据库中每张表的说明,数据库中每张表包含的列数、列名、列类型、列别名、列注释、数据量,数据库中包含的索引,数据库中每张视图的名称,以及,每张视图包含的列数、列名、别名。
在分析企业经营数据库中的可用元素后,可将可用元素组织成用于分析的结构,其中,组织成用于分析的结构可如图2所示,所组织成可用于分析的结构主要包括数据库信息、数据库表信息以及数据库视图信息,数据表信息一般包括数据库名、数据库类型、数据库包含的表数量以及数据库包含的视图数量;数据库表信息包括表、表注释、列集合、表数据量以及索引,其中,列集合包括列名、列类型、列别名、列注释、是否主键以及列内容,索引包括单索引以及符合索引。对数据库视图信息,包括视图名称、视图包含表以及视图列结合,其中,视图列集合包括列名和列别名。
基于上述组织用于分析的结构,构建数据库业务数据基准模型,其中,数据库业务数据基准模型内业务数据子模型越多,能够对涉税数据库的识别能力以及识别范围越广。数据库业务数据基准模型可与业务对象对应,一业务数据子模型对应一业务对象的属性,从而每个业务数据子模型可与涉税数据库内的一张数据库表进行对应。
图3即为构建数据库业务数据基准模型的一种实施例,其中,数据模型即指数据库业务数据基准模型,子模型即为业务数据子模型。根据图3可知,对任一业务数据子模型,均包括业务数据识别条件、业务识别信息以及基于业务对象所关联数据库可用元素的模型描述信息;图3中的排除条件即为业务数据识别条件,模型描述即为模型描述信息,识别模式即为业务识别信息。
对业务数据子模型中的业务数据识别条件,一般可包括数据库表中的数据量和/或其它排除条件,其他排除条件可以根据实际应用需求等选择确定,以能满足实际的应用需求为准。
对模型描述信息包括模型表匹配信息以及模型列匹配信息,图3中示出了模型表匹配信息以及模型列匹配信息的一种具体实施例,模型表匹配信息一般可包括表名、包含的主键数量、表注释以及表数据量,其中,表名匹配时,可匹配与所述表名相对应的同义词,同义词的数量等可以根据需要选择,以能满足对表名的有效匹配为准。当然,对表注释,也存在一个或多个相对应的同义词匹配,模型表匹配信息中包含的主键数量以及表数据量为数值匹配。
模型列匹配信息包括列名、列类型、列别名、列注释以及列内容,对于列名、列别名、列注释均存在相对应的同义词匹配,列类型为对当前列的类型,如为string型或int型,列内容主要对包含的关键字或自定义规则的内容,关键字以及自定义规则的内容可以根据实际需要选择,以能满足实际的应用需求为准。
对识别策略,即为配置需要识别的数据结构以及内容,其中,数据结构权重在X-Y之间进行内容识别,X-Y即为权重的取值范围,可根据实际情况配置。对识别权重体系,即为基于模型描述信息进行识别时的权重计量,识别权重体系包括若干匹配信息的信息识别匹配权重,匹配信息即与模型信息型中模型表匹配信息以及模型列匹配信息相对应的匹配信息。
本申请的一种实施例中,所述匹配信息包括表名、表注释、表包含的主键数量、表数据量、列名、列数量、列注释和/或列内容。在配置识别权重体系后,根据所配置的识别权重体系以及所述业务数据子模型的特性,配置权重识别参数,其中,权重识别参数即为配置的权重识别匹配阈值。
构建与业务对象属性相对应的业务数据子模型后,即实现对数据库业务数据基准模型的构建。图3中,进示出了一种业务数据子模型的情况,对应其他业务数据子模型的情况,均可参照上述说明以及业务对象的属性情况进行具体的配置,此处不再一一举例说明。
本申请的一种实施例中,利用所构建数据库业务数据基准模型内的业务数据子模型对所提取的数据库信息进行识别匹配时,将所提取的数据库信息与业务数据子模型进行一一比对;
在比对时,基于识别权重体系确定所提取数据库信息的权重识别值,当所述权重识别值与权重识别阈值匹配时,则确定所连接涉税数据库内任一数据库表的识别匹配信息。
具体地,将所提取的数据库信息与业务数据子模型进行一一比对时,主要确定数据库信息最佳匹配的业务数据子模型。在比对时,基于识别权重体系确定所提取数据库信息的权重识别值。权重识别值与权重识别阈值匹配,本申请的一种实施例中,具体是指权重识别值大于权重识别阈值。
若权重识别值与权重识别阈值匹配,确定所连接涉税数据库内任一数据库表的识别匹配信息,否则,进行与下一个业务数据子模型的识别匹配,当与所有的业务数据子模型的识别匹配时,相应的权重识别值均无法与相应的权重识别阈值匹配时,则说明所提取的数据库信息无法与构建的数据库业务数据基准模型匹配,即所提取的数据库信息不是税务稽查所需的业务对象属性。
本申请的一种实施例中,利用数据库识别引擎对待分析涉税数据库进行数据库信息提取时,先与待分析涉税数据库连接,以在连接后,对所述涉税数据库内任一数据库表进行信息提取,其中,
对涉税数据库信息提取后,以得到数据库表提取信息,并基于所述数据库表提取信息与所构建数据库业务数据基准模型内的业务数据子模型进行识别匹配;
所述数据库表提取信息包括涉税数据库基本信息、涉税数据库内的表信息以及所述涉税数据库的视图信息。
具体地,数据库识别引擎与涉税数据库连接时,向所述数据库识别引擎输入的连接输入信息包括连接串信息以及待连接涉税数据库的类型。一般地,数据库识别引擎一次只连接一个涉税数据库。对连接串信息,主要包含数据库连接所需信息的一段字符串,不同数据库类型有不同的格式,具体与现有相一致。在与涉税数据库连接时,对于数据库备份文件(备份文件指对数据库某一时刻的数据进行复制后产生的文件),需利用本技术领域常用的现有技术对数据库备份文件还原,以在还原后再进行所需的连接。
数据库识别引擎根据连接输入信息与待分析的涉税数据库连接后,能对所连接的涉税数据库进行信息提取,以在提取后得到数据库表提取信息,其中,所述数据库表提取信息包括涉税数据库基本信息、涉税数据库内的表信息以及所述涉税数据库的视图信息。视图信息具体指计算机数据库中的视图,是一个虚拟表,其内容由查询定义。同真实的表一样,视图包含一系列带有名称的列和行数据。但是,视图并不在数据库中以存储的数据值集形式存在。行和列数据来自由定义视图的查询所引用的表,并且在引用视图时动态生成,具体与现有相一致。
图4中示出了数据库识别引擎的一种具体实施例,其中,数据库引擎即为数据库识别引擎,数据库识别引擎所接收的连接输入信息包括连接串信息以及数据库的类型。数据库识别引擎根据连接输入信息与涉税数据库连接,在连接后,即可实现对涉税数据库的信息提取,图4中示出了提取得到数据库表提取信息的一种具体实施情况,具体为:数据库表提取信息包括涉税数据库基本信息、涉税数据库内的表信息以及所述涉税数据库的视图信息。
图4中示出了数据库表提取信息的一种具体实施情况,其中,涉税数据库基本信息包括数据库名、数据库包含表数量以及数据库包含视图数量;对涉税数据库内的表信息包括表名、表注释、列集合、表数据量、索引,其中,列集合包括列名、列类型、列别名、列注释、是否主键以及列内容,索引包括单索引或复合索引。视图信息包括视图名称、视图包含表、视图列集合,其中,视图列集合包括列名、列类型、列别名、列注释、是否主键以及列内容。
因此,由图中示出数据库表提取信息的一种实施情况可知,数据库表提取信息与业务数据子模型内的模型描述信息以及识别权重体系正对应。从而,可基于所述数据库表提取信息与所构建数据库业务数据基准模型内的业务数据子模型进行识别匹配。
本申请的一种实施例中,所确定数据库表的识别匹配信息包括匹配的业务数据子模型、识别的数据库表名以及识别数据库表列集。
由上述说明可知,一业务对象包括一个或多个业务对象属性,因此,对任一业务对象,基于业务数据子模型对凭证头进行识别匹配相应的业务对象属性时,所述对业务对象属性识别匹配的方法包括:
确定数据库信息所对应的数据记录量量,若所确定数据记录量满足业务数据识别条件时,则进行确定权重识别值的步骤,否则,退出对业务对象属性的识别匹配步骤;
确定数据库信息的权重识别值时,将数据库信息与模型描述信息中的模型表匹配信息以及模型列匹配信息进行分别比对,并在比对中基于所构建的识别权重体系确定相应的权重累计值,以选择所需的权重累计值作为权重识别值。
具体地,在得到权重识别值后,当所述权重识别值与权重识别阈值匹配时,则确定所连接涉税数据库内任一数据库表的识别匹配信息;具体得到识别匹配信息的具体情况可以参考上述说明,此处不再赘述。选择所需的权重累计值作为权重识别值时,一般将最大的权重累计值作为权重识别值。
本申请的一种实施例中,所述业务对象包括凭证、成本和/或销售流水,其中,
业务对象为凭证时,整合展示的业务对象包括凭证头、凭证分录、凭证辅助核算和/或凭证现金流;
业务对象为成本时,整合展示的业务对象包括采购成本、人力成本、杂项成本和/或损耗;
业务对象为销售流水时,整合展示的业务对象包括销售流水。
由上述说明可知,当业务对象为凭证时,凭证的属性包括凭证头、凭证分录、凭证辅助核算以及凭证现金流;整合展示的情况如图6所示;每个凭证属性对应涉税数据库内的一张数据库表。
当业务对象为成本时,成本的属性包括采购成本、人力成本、杂项成本和/或损耗,整合展示的情况如图7所示。当业务对象为销售流水时,则销售流水的属性包括销售流水。
当业务对象为凭证、成本或销售流水时,具体识别匹配业务对象属性的情况,下面以业务对象为凭证以及业务对象属性为凭证头为例,对识别匹配的过程进行具体详细说明。
本申请的一种实施例中,用于对凭证头进行识别匹配的业务数据子模型,所述业务数据子模型内的模型表匹配信息包括表名同义词以及包含主键的数量;
所述业务数据子模型内模型列匹配信息包括账簿编码、期间、凭证字、凭证号、制单人以及制单日期;
对数据库信息内多个数据库表相对应的权重识别值进行排序,选择权重识别值最大且大于权重识别匹配阈值相对应的数据库表作为凭证头表。
图5中示出了用于对凭证头进行识别匹配的业务数据子模型的一种实施情况,其中,将数据库表的数据记录量作为业务数据识别条件,如数据库表的数据记录量小于100时,则停止对当前数据库表的比对。当数据表表的数据记录量大于100时,则根据模型描述信息以及业务识别信息确定相应的权重识别值。
确定权重识别值时,具体过程包括:
1)、若数据库表的表名为Voucher或cher(即凭证头表可能会用Voucher、cher进行命名。),则权重累计值增加10,即此处将数据库表的表名的信息识别匹配权重配置为10。
2)、若数据库表的某一列命名为accountingbook,且所述列的数据类型是string或Integer,则识别为账簿编码,权重累计值增加3;即此处将账簿编码的信息识别匹配权重配置配置为3。
3)、若数据库表的某一列命名为period,且所述列的数据类型是string或Integer,则识别为期间,权重累计值增加3;即此处将期间的信息识别匹配权重配置配置为3。
4)、若数据表的某一列命名为group或name,且所述列对数据类型是string,则识别为凭证字,权重累计值增加3;即此处将凭证字的信息识别匹配权重配置配置为3。
5)、若数据库表的某一列命名为num,且所述列的数据类型是string或Integer,则识别为凭证号,权重累计值增加3;此处将凭证号的信息识别匹配权重配置配置为3。
6)、若数据表表的某一列命名为prepared,且所述列的数据类型是string,则识别为制单人,权重累计值增加3;即此处将制单人的信息识别匹配权重配置配置为3。
7)、若数据表表的某一列命名为preparedate,且所述列的数据类型是Date或者stringDate的,则识别为制单日期,权重累计值增加3,即此处将制单日期的信息识别匹配权重配置配置为3。数据类型为stringDate时,指在数据库中是string类型,但存的值是日期。识别值为日期的格式是,yyyy-MM-dd或者yy/MM/dd两种,如果数据库中存的值是这两种格式,则认为这是一个string类型存放了日期格式的值。
经过上述识别后,即可得到一的权重累计值,当权重累计值大于15,则暂时认定这张表是凭证头,继续对剩下的表进行识别。此时,15即为配置的权重识别阈值。
如权重累计值在10-15之间,将对所述数据库表的列内容进行识别,如果所述数据库表某一列内容都包含收、付、转、记中的其中之一且所述列的数据类型为string,则将该列识别为凭证字,权重累计值增加5。如果所述数据的某一列的内容包含连续的1-50,如第一行该列内容是1,第二行该列内容是2,第三行该列内容是3,以此类推,且列类型是string或Integer,识别该列为凭证号,权重累计值增加5。通过识别内容后,将权重相加,如果权重累计值>15,则识别为凭证头表,继续对剩下的表进行识别,即可得到相应的权重识别值。
通过对数据库中表进行识别,将识别为凭证头表的表按权重进行排序,将权重识别值最大的数据库表则认定凭证头表。
对于凭证的其他属性、凭证分录、凭证辅助核算以及凭证现金流的具体识别匹配情况,可以参考凭证头的说明,以能有效实现识别匹配为准。
当业务对象为成本,且属性为采购成本时,业务数据识别条件为数据记录数量小于10时,排除,即停止对当前数据库表的比对。模型描述信息中的模型表匹配信息包括表名同义词以及包含主键的数量。模型列匹配信息包括采购单号、采购产品名称、采购数量、采购单位、采购金额、采购时间以及采购人。业务识别信息中的识别策略、识别权重体系、权重识别参数具体的情况可以参考凭证头的说明,以能基于采购成本的特性实现对采购成本相应数据库表的识别与匹配为准。
当业务对象为成本,且属性为人力成本时,业务数据识别条件为数据记录数量小于500时,排除,即停止对当前数据库表的比对。模型描述信息中的模型表匹配信息包括表名匹配。模型列匹配信息包括人员、工资、奖金、补助、三险一金金额以及发放日期。业务识别信息中的识别策略、识别权重体系、权重识别参数具体的情况可以参考凭证头的说明,以能基于人力成本的特性实现对人力成本相应数据库表的识别与匹配为准。
当业务对象为成本,且属性为杂项成本以及损耗时,具体可以参考采购成本以及人力成本的情况说明,此处不再赘述。
当业务对象为销售流水,且属性也为销售流水时,业务数据识别条件为数据记录数量小于10000时,排除,即停止对当前数据库表的比对。模型描述信息中的模型表匹配信息包括表名同义词以及包含主键的数量。模型列匹配信息包括销售单号、客户名、商品类型、商品代码、商品名称、数量、单价、执行价、付款方式以及付款如期。业务识别信息中的识别策略、识别权重体系、权重识别参数具体的情况可以参考凭证头的说明,以能基于销售流水的特性实现对销售流水相应数据库表的识别与匹配为准。
综上,可得一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时上述方法的步骤。
以及,一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现权上述方法的步骤。
本申请的一个实施例中,如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,执行本发明各个实施例所述方法的全部或部分步骤。
具体地,存储器、存储介质可以是计算机可读存储介质,例如,所述计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。
Claims (10)
1.一种涉税数据库的分析方法,其特征是,所述分析方法包括:
构建与业务对象适配的数据库业务数据基准模型以及用于提取数据库信息的数据库识别引擎,其中,
构建的数据库业务数据基准模型,包括若干表征业务对象属性的业务数据子模型,对任一业务数据子模型,所述业务数据子模型包括业务数据识别条件、业务识别信息以及基于业务对象所关联数据库可用元素的模型描述信息;
对待分析的涉税数据库,数据库识别引擎连接并对所连接的涉税数据库进行数据库信息提取,利用所构建数据库业务数据基准模型内的业务数据子模型对所提取的数据库信息进行识别,以在识别匹配后确定所连接涉税数据库内任一数据库表的识别匹配信息,并将所确定数据库表的识别匹配信息作为业务对象属性结果输出;
将所输出的业务对象属性结果集进行整合,以在整合后形成一所需展示的业务对象。
2.根据权利要求1所述的涉税数据库的分析方法,其特征是:对任一业务数据子模型,所述模型描述信息包括模型表匹配信息以及模型列匹配信息;
所述业务识别信息包括用于对数据结构以及内容识别的识别策略、基于模型描述信息进行识别时权重计量的识别权重体系以及用于对所计量权重判定的权重识别参数,其中,
识别权重体系包括若干匹配信息的信息识别匹配权重,所述匹配信息包括表名、表注释、表包含的主键数量、表数据量、列名、列数量、列注释和/或列内容;
所述权重识别参数包括权重识别匹配阈值;
利用所构建数据库业务数据基准模型内的业务数据子模型对所提取的数据库信息进行识别匹配时,将所提取的数据库信息与业务数据子模型进行一一比对;
在比对时,基于识别权重体系确定所提取数据库信息的权重识别值,当所述权重识别值与权重识别阈值匹配时,则确定所连接涉税数据库内任一数据库表的识别匹配信息。
3.根据权利要求1所述的涉税数据库的分析方法,其特征是:利用数据库识别引擎对待分析涉税数据库进行数据库信息提取时,先与待分析涉税数据库连接,以在连接后,对所述涉税数据库内任一数据库表进行信息提取,其中,
对涉税数据库信息提取后,以得到数据库表提取信息,并基于所述数据库表提取信息与所构建数据库业务数据基准模型内的业务数据子模型进行识别匹配;
所述数据库表提取信息包括涉税数据库基本信息、涉税数据库内的表信息以及所述涉税数据库的视图信息。
4.根据权利要求3所述的涉税数据库的分析方法,其特征是:数据库识别引擎与涉税数据库连接时,向所述数据库识别引擎输入的连接输入信息包括连接串信息以及待连接涉税数据库的类型。
5.根据权利要求1至4任一项所述的涉税数据库的分析方法,其特征是:所确定数据库表的识别匹配信息包括匹配的业务数据子模型、识别的数据库表名以及识别数据库表列集。
6.根据权利要求2至4任一项所述的涉税数据库的分析方法,其特征是:所述业务对象包括凭证、成本和/或销售流水,其中,
业务对象为凭证时,整合展示的业务对象包括凭证头、凭证分录、凭证辅助核算和/或凭证现金流;
业务对象为成本时,整合展示的业务对象包括采购成本、人力成本、杂项成本和/或损耗;
业务对象为销售流水时,整合展示的业务对象包括销售流水。
7.根据权利要求6所述的涉税数据库的分析方法,其特征是,对任一业务对象,基于业务数据子模型对凭证头进行识别匹配相应的业务对象属性时,所述对业务对象属性识别匹配的方法包括:
确定数据库信息所对应的数据记录量量,若所确定数据记录量满足业务数据识别条件时,则进行确定权重识别值的步骤,否则,退出对业务对象属性的识别匹配步骤;
确定数据库信息的权重识别值时,将数据库信息与模型描述信息中的模型表匹配信息以及模型列匹配信息进行分别比对,并在比对中基于所构建的识别权重体系确定相应的权重累计值,以选择所需的权重累计值作为权重识别值。
8.根据权利要求7所述的涉税数据库的分析方法,其特征是,业务对象为凭证时,对凭证的凭证头进行识别匹配时,用于对凭证头进行识别匹配的业务数据子模型,所述业务数据子模型内的模型表匹配信息包括表名同义词以及包含主键的数量;
所述业务数据子模型内模型列匹配信息包括账簿编码、期间、凭证字、凭证号、制单人以及制单日期;
对数据库信息内多个数据库表相对应的权重识别值进行排序,选择权重识别值最大且大于权重识别匹配阈值相对应的数据库表作为凭证头表。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至8中任一项所述的方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至8中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211005381.3A CN115374082A (zh) | 2022-08-22 | 2022-08-22 | 涉税数据库的分析方法、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211005381.3A CN115374082A (zh) | 2022-08-22 | 2022-08-22 | 涉税数据库的分析方法、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115374082A true CN115374082A (zh) | 2022-11-22 |
Family
ID=84067230
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211005381.3A Pending CN115374082A (zh) | 2022-08-22 | 2022-08-22 | 涉税数据库的分析方法、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115374082A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117555940A (zh) * | 2023-11-02 | 2024-02-13 | 北京新桥技术发展有限公司 | 一种数据稽查方法及系统 |
-
2022
- 2022-08-22 CN CN202211005381.3A patent/CN115374082A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117555940A (zh) * | 2023-11-02 | 2024-02-13 | 北京新桥技术发展有限公司 | 一种数据稽查方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7940899B2 (en) | Fraud detection, risk analysis and compliance assessment | |
CN111324602A (zh) | 一种实现面向金融大数据分析可视化方法 | |
CN110851667B (zh) | 一种多源头大量数据的整合分析方法及工具 | |
CN112632989B (zh) | 一种合同文本中风险信息的提示方法、装置及设备 | |
CN111553137B (zh) | 报告生成方法、装置、存储介质及计算机设备 | |
CN112487105A (zh) | 一种企业画像的构建方法 | |
CN112926299B (zh) | 一种文本比对方法、合同审阅方法、审核系统 | |
CN115374082A (zh) | 涉税数据库的分析方法、设备及存储介质 | |
CN114723492A (zh) | 一种企业画像的生成方法及设备 | |
KR20210029326A (ko) | 비정형 재무정보 추출을 활용한 기업 건전성 진단 장치 및 방법 | |
CN113283806A (zh) | 企业信息评估方法、装置、计算机设备及存储介质 | |
US7272588B2 (en) | Systems, methods, and computer-readable media for generating service order count metrics | |
CN112632958A (zh) | 一种基于合同知识库的合同文件审查分析方法 | |
CN110555212A (zh) | 基于自然语言处理的文档校验方法、装置和电子设备 | |
CN115310772A (zh) | 一种药械质量监管结果数据监测方法、药械交易平台及系统 | |
CN115563176A (zh) | 一种电子商务数据处理系统及方法 | |
CN114722789A (zh) | 数据报表集成方法、装置、电子设备及存储介质 | |
CN113887994A (zh) | 基于互联网评论挖掘的失效模式风险评估方法及系统 | |
Fox et al. | Data and data quality | |
CN113505117A (zh) | 基于数据指标的数据质量评估方法、装置、设备及介质 | |
CN107168942B (zh) | 一种自动报表生成方法及其装置 | |
CN111382926A (zh) | 一种评估地方交易场所风险的方法 | |
CN117151096B (zh) | 智能合同审查方法、装置、电子设备及存储介质 | |
CN118037059A (zh) | 一种基于贸易数据智能分析平台的数据处理方法及系统 | |
CN113205270B (zh) | 一种满意度评价表自动生成和评价得分计算的方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |