CN109871861B - 一种用于为目标数据提供编码的系统及方法 - Google Patents

一种用于为目标数据提供编码的系统及方法 Download PDF

Info

Publication number
CN109871861B
CN109871861B CN201811612338.7A CN201811612338A CN109871861B CN 109871861 B CN109871861 B CN 109871861B CN 201811612338 A CN201811612338 A CN 201811612338A CN 109871861 B CN109871861 B CN 109871861B
Authority
CN
China
Prior art keywords
data
training
code
coding
target data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811612338.7A
Other languages
English (en)
Other versions
CN109871861A (zh
Inventor
白雪珂
舒南飞
赵林
林文辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Aisino Corp
Original Assignee
Aisino Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Aisino Corp filed Critical Aisino Corp
Priority to CN201811612338.7A priority Critical patent/CN109871861B/zh
Publication of CN109871861A publication Critical patent/CN109871861A/zh
Application granted granted Critical
Publication of CN109871861B publication Critical patent/CN109871861B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种用于为目标数据提供编码的系统及方法,属于税务数据应用技术领域。本发明系统包括:训练模块,获取训练数据,所述训练数据包括分类编码表及历史发票数据,对分类编码表及历史发票数据进行训练,获取训练结果,基于训练结果生成多个训练模型;模型合并模块,基于多组训练模型,对多组训练模型进行合并,对训练结果的相同数据集叠加;编码提供模块,读取训练结果数据,所述编码模块接设有多个接口,接收接口传输的需要编码的目标数据,对需要编码的目标数据提供编码信息。本发明依据实际数据情况对历史数据进行详细有效的预处理,剔除干扰信息、提高训练准确率。

Description

一种用于为目标数据提供编码的系统及方法
技术领域
本发明涉及税务数据应用技术领域,并且更具体地,涉及一种用于为目标数据提供编码的系统及方法。
背景技术
国家税务总局最新发布的《商品和服务税收分类编码表》将商品和服务严格分为4207类,其中大类675个,小类3532个。国税局于2016年发布要求开始试行在开票软件中增加税收分类编码及赋码相关功能。此外,局端已开具发票中存在大量错误与不准确的人工标注编码,从而对基于所售商品的企业税率、进销项分析来预防企业偷税漏税的统计、分析等工作存在误导作用。因开票人、局端数据分析人员的专业知识和精力的限制,对海量商品和服务名称进行编码分类可行性太低,所以为给开票端带来便捷并使局端分析更准确,特设计一种依赖大数据技术和机器学习模型的分类推荐系统。
朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法,对于给定的训练数据集,首先基于特征条件独立假设学习输入/输出的联合概率分布,然后基于此模型,对给定的输入利用贝叶斯定理求出后验概率的输出。使用朴素贝叶斯训练得到的分类模型经测试有较好的准确性,其主要思想是,训练阶段将训练样本集的商品名称分词作为输入,然后获取所有类别(编码)的先验概率,并计算取某编码时所有分词的条件概率;分类阶段对商品名称进行分词,并根据贝叶斯定理计算所有可能编码的概率。但由于朴素贝叶斯是基于统计的算法且基于特征条件独立假设具有一定的局限性,首先它对于未登录词无法进行处理,样本中较少或样本中分类错误过多的数据会导致分类不准,对商品名称中不同位置分词一致处理,每次识别需要计算所有类别的概率计算代价高且通讯带宽占用大,导致无法实际上线使用,亟待提出优化方案。
传统的数据库系统把所有数据都放在磁盘上进行存储,这样不仅需要频繁地访问磁盘来进行数据的读取操作,而且在数据量很大、读取操作频繁时性能较低。近年来,内存容量不断提高,价格不断下跌,同时对数据库系统实施相应能力的要求日益提高,充分利用内存技术提升数据库性能成为一个热点。
发明内容
针对上述问题,本发明提出了一种用于为目标数据提供编码的系统,本发明系统包括:
训练模块,获取训练数据,所述训练数据包括分类编码表及历史发票数据,对分类编码表及历史发票数据进行训练,获取训练结果,基于训练结果生成多个训练模型;
模型合并模块,基于多组训练模型,对多组训练模型续进行合并,并对训练结果的相同数据集叠加;
编码提供模块,读取训练结果数据,所述编码模块接设有多个接口,接收接口传输的需要编码的目标数据,对需要编码的目标数据提供编码信息。
可选的,对分类编码表及历史发票数据进行训练包括:
对训练数据进行过滤或修正训练数据中编码标注错误的内容,获取修正数据;
对修正训练数据进行预处理,所述预处理为对目标数据存在的时间信息、空格及标点进行过滤;
对修正训练数据进行分词和清洗修正训练数据并对分词和清洗后的修正训练数据添加位置权重,提取修正训练数据中的单位和规格型号数据,根据修正训练数据获取分类编码表对应记录频数,基于记录频数获取规则集训练数据,将提取过单位和规格型号的修正训练数据与规则集训练数据进行合并获取样本训练数据;
基于样本训练数据构建训练结果数据集存储于分布式文件系统hdfs。
可选的,清洗过程包括:过滤数字量词连接模式数据、过滤品牌词性数据、过滤名词、形容词、动词、过滤多个形容词与名词连接模式中的形容词。
可选的,训练结果数据集包括:商品名称分词、编码、位置权重及频数数据,商品单位、编码及频数数据,商品规格型号、编码及频数数据;商品编码及频数数据和商品编码及频数数据。
可选的,对需要编码的目标数据提供编码信息包括:
基于训练结果数据获取先验概率和条件概率;
当需要提供编码的目标数据为大数据集群批量数据,需要批量获取推荐编码时,广播先验概率和条件概率;
对目标数据商品名称分词和过滤并对商品名称添加位置权重,根据条件概率数据获取目标数据多个对应编码的条件概率,根据先验概率获取目标数据多个对应编码的先验概率,获取目标数据任意一个对应编码的条件概率和先验概率乘积,将乘机最大值的对应编码作为推荐编码。
可选的,还包括:Web端编码提供模块,所述Web端编码提供模块将分布式文件系统hdfs存储的训练结果数据集导入生产环境的PostgreSQL数据库,提供Web端目标数据获取接口,获取目标数据后,对获取目标数据回前五类推荐编码、编码名称及推荐概率。
可选的,系统还包括:内存数据库端编码提供模块,将训练结果数据集和修正数据加载到数据结构服务器redis;
所述修正数据为准确或优先推荐的商品名称及其编码数据;
对获取的目标数据返回前五类推荐编码、编码名称及推荐概率。
可选的,内存数据库端编码提供模块,
将推荐过的目标数据及目标数据的推荐编码写入缓存,并设置预设过期时间,每次编码推荐时先从缓存中匹配相关信息。
可选的,内存数据库端编码提供模块,若获取的目标数据与数据结构服务器redis中的修正数据匹配,将修正数据对应编码以概率为0.5作为首位推荐编码,推荐的编码概率归一化后分别乘0.5作为推荐编码后四位。
可选的,系统还包括:线上信息反馈模块,获取Web端编码推荐模块推荐的前五类推荐编码中,用户主动选择的任意一类推荐编码信息,反馈给训练模型。
可选的,先验概率根据训练结果数据集中的分词前编码-频数数据中的频数除训练结果数据中的频数总计得到。
可选的,条件概率根据训练结果数据集中的名称分词数据、单位数据、规格型号数据的频数除对应编码的分词后频数得到。
本发明还提供了一种用于为目标数据提供编码的方法,本发明方法包括:
获取训练数据,所述训练数据包括分类编码表及历史发票数据,对分类编码表及历史发票数据进行训练,获取训练结果,基于训练结果生成多个训练模型;
基于多组训练模型,对多组训练模型续进行合并,并对训练结果的相同数据集叠加;
读取训练结果数据,所述编码模块接设有多个接口,接收接口传输的需要编码的目标数据,对需要编码的目标数据提供编码信息。
可选的,对分类编码表及历史发票数据进行训练包括:
对训练数据进行过滤或修正训练数据中编码标注错误的内容,获取修正训练数据;
对修正训练数据进行预处理,所述预处理为对目标数据存在的时间信息、空格及标点进行过滤;
对修正训练数据进行分词和清洗修正训练数据并对分词和清洗后的修正训练数据添加位置权重,提取修正训练数据中的单位和规格型号数据,根据修正训练数据获取分类编码表对应记录频数,基于记录频数获取规则集训练数据,将提取过单位和规格型号的修正训练数据与规则集训练数据进行合并获取样本训练数据;
基于样本训练数据构建训练结果数据集存储于分布式文件系统hdfs。
可选的,清洗过程包括:过滤数字量词连接模式数据、过滤品牌词性数据、过滤名词、形容词、动词、过滤多个形容词与名词连接模式中的形容词。
可选的,训练结果数据集包括:商品名称分词、编码、位置权重及频数数据,商品单位、编码及频数数据,商品规格型号、编码及频数数据;商品编码及频数数据和商品编码及频数数据。
可选的,对需要编码的目标数据提供编码信息包括:
基于训练结果数据获取先验概率和条件概率;
当需要提供编码的目标数据为大数据集群批量数据,需要批量获取推荐编码时,广播先验概率和条件概率;
对目标数据商品名称分词和过滤并对商品名称添加位置权重,根据条件概率数据获取目标数据多个对应编码的条件概率,根据先验概率获取目标数据多个对应编码的先验概率,获取目标数据任意一个对应编码的条件概率和先验概率乘积,将乘机最大值的对应编码作为推荐编码。
可选的,方法还包括:将分布式文件系统hdfs存储的训练结果数据集导入生产环境的PostgreSQL数据库,提供Web端目标数据获取接口,获取目标数据后,对获取目标数据回前五类推荐编码、编码名称及推荐概率。
可选的,方法还包括:
将训练结果数据集和修正数据加载到数据结构服务器redis;
所述修正数据为准确或优先推荐的商品名称及其编码数据;
对获取的目标数据返回前五类推荐编码、编码名称及推荐概率。
可选的,方法还包括:
将推荐过的目标数据及目标数据的推荐编码写入数据结构服务器redis缓存,并设置预设过期时间,每次编码推荐时先从缓存中匹配相关信息。
可选的,方法还包括:
若获取的目标数据与数据结构服务器redis中的修正数据匹配,将修正数据对应编码以概率为0.5作为首位推荐编码,推荐的编码概率归一化后分别乘0.5作为推荐编码后四位。
可选的,方法还包括:
获取Web端编码推荐模块推荐的前五类推荐编码中,用户主动选择的任意一类推荐编码信息,反馈给训练模型。
可选的,先验概率根据训练结果数据集中的分词前编码-频数数据中的频数除训练结果数据中的频数总计得到。
可选的,条件概率根据训练结果数据集中的名称分词数据、单位数据、规格型号数据的频数除对应编码的分词后频数得到。
本发明依据实际数据情况对历史数据进行详细有效的预处理,剔除干扰信息、提高训练准确率;
本发明同时提供批量识别、Web端编码推荐及基于数据结构服务器redis的快速推荐多种编码推荐接口,并且为提高数据结构服务器redis性能的数据存储方法;此外还提出模型合并及线上信息反馈模块以进一步提高模型推荐准确率;
本发明更好地解决了税务、食药监等领域的类似商、食品名称等短文本分类编码的问题。
附图说明
图1为本发明用于为目标数据提供编码的系统结构图;
图2为本发明用于为目标数据提供编码的方法流程图。
具体实施方式
现在参考附图介绍本发明的示例性实施方式,然而,本发明可以用许多不同的形式来实施,并且不局限于此处描述的实施例,提供这些实施例是为了详尽地且完全地公开本发明,并且向所属技术领域的技术人员充分传达本发明的范围。对于表示在附图中的示例性实施方式中的术语并不是对本发明的限定。在附图中,相同的单元/元件使用相同的附图标记。
除非另有说明,此处使用的术语(包括科技术语)对所属技术领域的技术人员具有通常的理解含义。另外,可以理解的是,以通常使用的词典限定的术语,应当被理解为与其相关领域的语境具有一致的含义,而不应该被理解为理想化的或过于正式的意义。
本发明提供了一种用于为目标数据提供编码的系统200,如图1所示,系统200包括:
训练模块201,获取训练数据,所述训练数据包括分类编码表及历史发票数据,对分类编码表及历史发票数据进行训练,包括:
对训练数据进行过滤或修正训练数据中编码标注错误的内容,获取修正训练数据;
对修正训练数据进行预处理,所述预处理为对目标数据存在的时间信息、空格及标点进行过滤;
对修正训练数据进行分词和清洗修正训练数据并对分词和清洗后的修正训练数据添加位置权重,提取修正训练数据中的单位和规格型号数据,根据修正训练数据获取分类编码表对应记录频数,基于记录频数获取规则集训练数据,将提取过单位和规格型号的修正训练数据与规则集训练数据进行合并获取样本训练数据;
基于样本训练数据构建训练结果数据集存储于分布式文件系统hdfs。
清洗过程包括:过滤数字量词连接模式数据、过滤品牌词性数据、过滤名词、形容词、动词、过滤多个形容词与名词连接模式中的形容词;
训练结果数据集包括:商品名称分词、编码、位置权重及频数数据,商品单位、编码及频数数据,商品规格型号、编码及频数数据;商品编码及频数数据和商品编码及频数数据;
获取训练结果,基于训练结果生成多个训练模型;
模型合并模块202,基于多组训练模型,对多组训练模型续进行合并,并对训练结果的相同数据集叠加;
编码提供模块203,读取训练结果数据,所述编码模块接设有多个接口,接收接口传输的需要编码的目标数据,对需要编码的目标数据提供编码信息;
对需要编码的目标数据提供编码信息包括:
基于训练结果数据获取先验概率和条件概率;
当需要提供编码的目标数据为大数据集群批量数据,需要批量获取推荐编码时,广播先验概率和条件概率;对目标数据进行预处理,所述预处理为对目标数据存在的时间信息、空格及标点进行过滤;
对预处理后的目标数据商品名称分词和过滤并对商品名称添加位置权重,根据条件概率数据获取目标数据多个对应编码的条件概率,根据先验概率获取目标数据多个对应编码的先验概率,获取目标数据任意一个对应编码的条件概率和先验概率乘积,将乘机最大值的对应编码作为推荐编码。
先验概率根据训练结果数据集中的分词前编码-频数数据中的频数除训练结果数据中的频数总计得到。
条件概率根据训练结果数据集中的名称分词数据、单位数据、规格型号数据的频数除对应编码的分词后频数得到。
Web端编码提供模块204,Web端编码提供模块204将分布式文件系统hdfs存储的训练结果数据集导入生产环境的PostgreSQL数据库,提供Web端目标数据获取接口,获取目标数据后,对获取目标数据回前五类推荐编码、编码名称及推荐概率。
内存数据库端编码提供模块205,将训练结果数据集和修正数据加载到数据结构服务器redis;
首先,频数总计值存储的key为”code:sum”,类型为String。
其次,因为编码长度为19,推荐过程中I/O压力很大,所以将结果集中的编码替换为1至N的编号,具体为:对由规则集获取的编码-名称数据、分词后编码-频数数据及分词前编码-频数数据中出现的编码进行编号构成编码-编号对应关系;然后将这三个数据集的数据以key为“code:$编号”($编号意为变量编号),field分别为“name”、“token”、“doc”,value为名称、频数的哈希表形式存入redis。
再者,将生成的编码-编号对应关系构成“0:code1,1:code2…”的字符串存入redis,其中key为“code:total”。
然后,分别将名称分词数据、单位数据和规格型号数据,以哈希表形式存入redis,其中key为分词、单位、规格型号,field为位置(其中单位和规格型号的位置权重均为0),value为同一个名称和位置对应的所有编码构成的形式为“编号1:freq1,编号2:freq2…”的字符串;
所述修正数据为准确或优先推荐的商品名称及其编码数据,利用上一步生成的编码-编号表将人工修正数据中的编码替换为编号,存入redis的key为“artificial:$name:dw:$dw:ggxh:$ggxh”,value为对应编号。;
对获取的目标数据返回前五类推荐编码、编码名称及推荐概率。
内存数据库端编码提供模块205,将推荐过的目标数据及目标数据的推荐编码写入缓存,并设置预设过期时间,每次编码推荐时先从缓存中匹配相关信息。
内存数据库端编码提供模块205,若获取的目标数据与数据结构服务器redis中的修正数据匹配,将修正数据对应编码以概率为0.5作为首位推荐编码,推荐的编码概率归一化后分别乘0.5作为推荐编码后四位。
线上信息反馈模块206,获取Web端编码推荐模块推荐的前五类推荐编码中,用户主动选择的任意一类推荐编码信息,反馈给训练模型。
本发明还提出了一种用于为目标数据提供编码的方法,如图2所示,包括:
获取训练数据,所述训练数据包括分类编码表及历史发票数据,对分类编码表及历史发票数据进行训练,对分类编码表及历史发票数据进行训练包括:
对训练数据进行过滤或修正训练数据中编码标注错误的内容,获取修正训练数据;
对修正训练数据进行预处理,所述预处理为对目标数据存在的时间信息、空格及标点进行过滤;
对修正训练数据进行分词和清洗修正训练数据并对分词和清洗后的修正训练数据添加位置权重,提取修正训练数据中的单位和规格型号数据,根据修正训练数据获取分类编码表对应记录频数,基于记录频数获取规则集训练数据,将提取过单位和规格型号的修正训练数据与规则集训练数据进行合并获取样本训练数据;
基于样本训练数据构建训练结果数据集存储于分布式文件系统hdfs。
清洗过程包括:过滤数字量词连接模式数据、过滤品牌词性数据、过滤名词、形容词、动词、过滤多个形容词与名词连接模式中的形容词。
训练结果数据集包括:商品名称分词、编码、位置权重及频数数据,商品单位、编码及频数数据,商品规格型号、编码及频数数据;商品编码及频数数据和商品编码及频数数据;
获取训练结果,基于训练结果生成多个训练模型;
基于多组训练模型,对多组训练模型续进行合并,并对训练结果的相同数据集叠加;
读取训练结果数据,所述编码模块接设有多个接口,接收接口传输的需要编码的目标数据,对需要编码的目标数据提供编码信息;
对需要编码的目标数据提供编码信息包括:
基于训练结果数据获取先验概率和条件概率;
当需要提供编码的目标数据为大数据集群批量数据,需要批量获取推荐编码时,广播先验概率和条件概率;
对目标数据商品名称分词和过滤并对商品名称添加位置权重,根据条件概率数据获取目标数据多个对应编码的条件概率,根据先验概率获取目标数据多个对应编码的先验概率,获取目标数据任意一个对应编码的条件概率和先验概率乘积,将乘机最大值的对应编码作为推荐编码;
先验概率根据训练结果数据集中的分词前编码-频数数据中的频数除训练结果数据中的频数总计得到。
条件概率根据训练结果数据集中的名称分词数据、单位数据、规格型号数据的频数除对应编码的分词后频数得到。
将分布式文件系统hdfs存储的训练结果数据集导入生产环境的PostgreSQL数据库,提供Web端目标数据获取接口,获取目标数据后,对获取目标数据回前五类推荐编码、编码名称及推荐概率。
将训练结果数据集和修正数据加载到数据结构服务器redis;
所述修正数据为准确或优先推荐的商品名称及其编码数据;
对获取的目标数据返回前五类推荐编码、编码名称及推荐概率。
将推荐过的目标数据及目标数据的推荐编码写入数据结构服务器redis缓存,并设置预设过期时间,每次编码推荐时先从缓存中匹配相关信息。
若获取的目标数据与数据结构服务器redis中的修正数据匹配,将修正数据对应编码以概率为0.5作为首位推荐编码,推荐的编码概率归一化后分别乘0.5作为推荐编码后四位。
获取Web端编码推荐模块推荐的前五类推荐编码中,用户主动选择的任意一类推荐编码信息,反馈给训练模型。
本发明依据实际数据情况对历史数据进行详细有效的预处理,剔除干扰信息、提高训练准确率;
本发明同时提供批量识别、Web端编码推荐及基于数据结构服务器redis的快速推荐多种编码推荐接口,并且为提高数据结构服务器redis性能的数据存储方法;此外还提出模型合并及线上信息反馈模块以进一步提高模型推荐准确率;
本发明更好地解决了税务、食药监等领域的类似商、食品名称等短文本分类编码的问题。

Claims (18)

1.一种用于为目标数据提供编码的系统,所述系统包括:
训练模块,获取训练数据,所述训练数据包括分类编码表及历史发票数据,对分类编码表及历史发票数据进行训练,获取训练结果,基于训练结果生成多组训练模型;
模型合并模块,基于多组训练模型,对多组训练模型进行合并,对训练结果的相同数据集合并;
编码提供模块,读取训练结果数据,所述编码提供模块接设有多个接口,接收接口传输的需要编码的目标数据,对需要编码的目标数据提供编码信息;
所述对需要编码的目标数据提供编码信息包括:
基于训练结果数据获取先验概率和条件概率;
当需要提供编码的目标数据为大数据集群批量数据,需要批量获取推荐编码时,广播先验概率和条件概率;
对目标数据进行预处理,所述预处理为对目标数据存在的时间信息、空格及标点进行过滤;
对预处理后的目标数据商品名称分词和过滤并对商品名称添加位置权重,根据条件概率数据获取目标数据多个对应编码的条件概率,根据先验概率获取目标数据多个对应编码的先验概率,获取目标数据任意一个对应编码的条件概率和先验概率乘积,将乘机最大值的对应编码作为推荐编码;
所述先验概率根据训练结果数据集中的分词前编码-频数数据中的频数除训练结果数据中的频数总计得到;
所述条件概率根据训练结果数据集中的名称分词数据、单位数据、规格型号数据的频数除对应编码的分词后频数得到。
2.根据权利要求1所述的系统,所述的对分类编码表及历史发票数据进行训练包括:
对训练数据进行过滤或修正训练数据中编码标注错误的内容,获取修正训练数据;
对修正训练数据进行预处理,所述预处理为对目标数据存在的时间信息、空格及标点进行过滤;
对修正训练数据进行分词和清洗修正训练数据并对分词和清洗后的修正训练数据添加位置权重,提取修正训练数据中的单位和规格型号数据,根据修正训练数据获取分类编码表对应记录频数,基于记录频数获取规则集训练数据,将提取过单位和规格型号的修正训练数据与规则集训练数据进行合并获取样本训练数据;
基于样本训练数据构建训练结果数据集存储于分布式文件系统hdfs。
3.根据权利要求2所述的系统,所述清洗的过程包括:过滤数字量词连接模式数据、过滤品牌词性数据、过滤名词、形容词、动词、过滤多个形容词与名词连接模式中的形容词。
4.根据权利要求3所述的系统,所述的训练结果数据集包括:商品名称分词、编码、位置权重及频数数据,商品单位、编码及频数数据,商品规格型号、编码及频数数据;商品编码及频数数据和商品编码及频数数据。
5.根据权利要求1所述的系统,所述的系统还包括:Web端编码提供模块,将分布式文件系统hdfs存储的训练结果数据集导入生产环境的PostgreSQL数据库,所述Web端编码提供模块提供Web端目标数据获取接口,获取目标数据后,对获取目标数据回前五类推荐编码、编码名称及推荐概率。
6.根据权利要求1所述的系统,所述的系统还包括:内存数据库端编码提供模块,将训练结果数据集和修正数据加载到数据结构服务器redis;
所述修正数据为准确或优先推荐的商品名称及其编码数据;
对获取的目标数据返回前五类推荐编码、编码名称及推荐概率。
7.根据权利要求6所述的系统,所述的内存数据库端编码提供模块,
将推荐过的目标数据及目标数据的推荐编码写入缓存,并设置预设过期时间,每次编码推荐时先从缓存中匹配相关信息。
8.根据权利要求6所述的系统,所述的内存数据库端编码提供模块,若获取的目标数据与数据结构服务器redis中的修正数据匹配,将修正数据对应编码以概率为0.5作为首位推荐编码,推荐的编码概率归一化后分别乘0.5作为推荐编码后四位。
9.根据权利要求1所述的系统,所述的系统还包括:线上信息反馈模块,获取Web端编码推荐模块推荐的前五类推荐编码中,用户主动选择的任意一类推荐编码信息,反馈给训练模型。
10.一种用于为目标数据提供编码的方法,所述方法包括:
获取训练数据,所述训练数据包括分类编码表及历史发票数据,对分类编码表及历史发票数据进行训练,获取训练结果,基于训练结果生成多组训练模型;
基于多组训练模型,对多组训练模型进行合并,并对训练结果的相同数据集合并;
读取训练结果数据,编码提供模块接设有多个接口,接收接口传输的需要编码的目标数据,对需要编码的目标数据提供编码信息;
所述对需要编码的目标数据提供编码信息包括:
基于训练结果数据获取先验概率和条件概率;
当需要提供编码的目标数据为大数据集群批量数据,需要批量获取推荐编码时,广播先验概率和条件概率;
对目标数据商品名称分词和过滤并对商品名称添加位置权重,根据条件概率数据获取目标数据多个对应编码的条件概率,根据先验概率获取目标数据多个对应编码的先验概率,获取目标数据任意一个对应编码的条件概率和先验概率乘积,将乘机最大值的对应编码作为推荐编码;
所述的先验概率根据训练结果数据集中的分词前编码-频数数据中的频数除训练结果数据中的频数总计得到;
所述的条件概率根据训练结果数据集中的名称分词数据、单位数据、规格型号数据的频数除对应编码的分词后频数得到。
11.根据权利要求10所述的方法,所述的对分类编码表及历史发票数据进行训练包括:
对训练数据进行过滤或修正训练数据中编码标注错误的内容,获取修正数据;
对修正训练数据进行预处理,所述预处理为对目标数据存在的时间信息、空格及标点进行过滤;
对修正训练数据进行分词和清洗修正训练数据并对分词和清洗后的修正训练数据添加位置权重,提取修正训练数据中的单位和规格型号数据,根据修正训练数据获取分类编码表对应记录频数,基于记录频数获取规则集训练数据,将提取过单位和规格型号的修正训练数据与规则集训练数据进行合并获取样本训练数据;
基于样本训练数据构建训练结果数据集存储于分布式文件系统hdfs。
12.根据权利要求11所述的方法,所述清洗的过程包括:过滤数字量词连接模式数据、过滤品牌词性数据、过滤名词、形容词、动词、过滤多个形容词与名词连接模式中的形容词。
13.根据权利要求12所述的方法,所述的训练结果数据集包括:商品名称分词、编码、位置权重及频数数据,商品单位、编码及频数数据,商品规格型号、编码及频数数据;商品编码及频数数据和商品编码及频数数据。
14.根据权利要求10所述的方法,所述的方法还包括:将分布式文件系统hdfs存储的训练结果数据集导入生产环境的PostgreSQL数据库,提供Web端目标数据获取接口,获取目标数据后,对获取目标数据回前五类推荐编码、编码名称及推荐概率。
15.根据权利要求10所述的方法,所述的方法还包括:
将训练结果数据集和修正数据加载到数据结构服务器redis;
所述修正数据为准确或优先推荐的商品名称及其编码数据;
对获取的目标数据返回前五类推荐编码、编码名称及推荐概率。
16.根据权利要求15所述的方法,所述的方法还包括:
将推荐过的目标数据及目标数据的推荐编码写入数据结构服务器redis缓存,并设置预设过期时间,每次编码推荐时先从缓存中匹配相关信息。
17.根据权利要求15所述的方法,所述的方法还包括:
若获取的目标数据与数据结构服务器redis中的修正数据匹配,将修正数据对应编码以概率为0.5作为首位推荐编码,推荐的编码概率归一化后分别乘0.5作为推荐编码后四位。
18.根据权利要求10所述的方法,所述的方法还包括:
获取Web端编码推荐模块推荐的前五类推荐编码中,用户主动选择的任意一类推荐编码信息,反馈给训练模型。
CN201811612338.7A 2018-12-27 2018-12-27 一种用于为目标数据提供编码的系统及方法 Active CN109871861B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811612338.7A CN109871861B (zh) 2018-12-27 2018-12-27 一种用于为目标数据提供编码的系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811612338.7A CN109871861B (zh) 2018-12-27 2018-12-27 一种用于为目标数据提供编码的系统及方法

Publications (2)

Publication Number Publication Date
CN109871861A CN109871861A (zh) 2019-06-11
CN109871861B true CN109871861B (zh) 2023-05-23

Family

ID=66917238

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811612338.7A Active CN109871861B (zh) 2018-12-27 2018-12-27 一种用于为目标数据提供编码的系统及方法

Country Status (1)

Country Link
CN (1) CN109871861B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110597995B (zh) * 2019-09-20 2022-03-11 税友软件集团股份有限公司 一种商品名称分类方法、装置、设备及可读存储介质
CN110647845A (zh) * 2019-09-23 2020-01-03 税友软件集团股份有限公司 一种发票数据识别装置、相关方法及相关装置
CN113515511B (zh) * 2021-05-28 2022-11-11 中国雄安集团数字城市科技有限公司 信息资源编目文件的数据清洗方法及装置
CN116361859B (zh) * 2023-06-02 2023-08-25 之江实验室 基于深度隐私编码器的跨机构患者记录链接方法及系统
CN116664154B (zh) * 2023-07-31 2023-10-24 山东瑞升智慧医疗科技有限公司 基于医疗消毒供应全流程信息追溯方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107678858A (zh) * 2017-09-30 2018-02-09 广东欧珀移动通信有限公司 应用处理方法、装置、存储介质及电子设备
CN107704892A (zh) * 2017-11-07 2018-02-16 宁波爱信诺航天信息有限公司 一种基于贝叶斯模型的商品编码分类方法以及系统
CN107862046A (zh) * 2017-11-07 2018-03-30 宁波爱信诺航天信息有限公司 一种基于短文本相似度的税务商品编码分类方法及系统
CN108491887A (zh) * 2018-03-29 2018-09-04 安徽航天信息有限公司 一种商品税收编码的获取方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10290055B2 (en) * 2006-04-21 2019-05-14 Refinitiv Us Organization Llc Encoded short message service text messaging systems and methods

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107678858A (zh) * 2017-09-30 2018-02-09 广东欧珀移动通信有限公司 应用处理方法、装置、存储介质及电子设备
CN107704892A (zh) * 2017-11-07 2018-02-16 宁波爱信诺航天信息有限公司 一种基于贝叶斯模型的商品编码分类方法以及系统
CN107862046A (zh) * 2017-11-07 2018-03-30 宁波爱信诺航天信息有限公司 一种基于短文本相似度的税务商品编码分类方法及系统
CN108491887A (zh) * 2018-03-29 2018-09-04 安徽航天信息有限公司 一种商品税收编码的获取方法

Also Published As

Publication number Publication date
CN109871861A (zh) 2019-06-11

Similar Documents

Publication Publication Date Title
CN109871861B (zh) 一种用于为目标数据提供编码的系统及方法
Santos et al. Toponym matching through deep neural networks
Rattenbury et al. Principles of data wrangling: Practical techniques for data preparation
US20180158078A1 (en) Computer device and method for predicting market demand of commodities
CN103927615B (zh) 将实体与类别相关联
US20130085902A1 (en) Automated account reconciliation method
US20120330971A1 (en) Itemized receipt extraction using machine learning
US10733675B2 (en) Accuracy and speed of automatically processing records in an automated environment
CN109101489B (zh) 一种文本自动摘要方法、装置及一种电子设备
CN103154991A (zh) 信用风险采集
Granados et al. Reducing the loss of information through annealing text distortion
CN115002200B (zh) 基于用户画像的消息推送方法、装置、设备及存储介质
US11610271B1 (en) Transaction data processing systems and methods
CN109740642A (zh) 发票类别识别方法、装置、电子设备及可读存储介质
CN115018588A (zh) 产品推荐方法、装置、电子设备及可读存储介质
CN113379432B (zh) 一种基于机器学习的销售系统客户匹配方法
CN111104422B (zh) 一种数据推荐模型的训练方法、装置、设备及存储介质
US10664742B1 (en) Systems and methods for training and executing a recurrent neural network to determine resolutions
CN112016294A (zh) 一种基于文本的新闻重要性评估方法、装置及电子设备
CN105654329A (zh) 一种整合性推荐方法及装置
KR20220118703A (ko) 머신러닝 기반 온라인 쇼핑 리뷰 감정 예측 시스템 및 방법
CN112016975A (zh) 产品筛选方法、装置、计算机设备及可读存储介质
CN110737700A (zh) 一种基于贝叶斯算法的进销存用户分类方法及系统
TW202004523A (zh) 基於文字探勘的資料交換平台及利用其的方法
CN110738538A (zh) 识别相似物品的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant