CN106095759A - 一种基于启发式规则的发票货物归类方法 - Google Patents

一种基于启发式规则的发票货物归类方法 Download PDF

Info

Publication number
CN106095759A
CN106095759A CN201610446072.8A CN201610446072A CN106095759A CN 106095759 A CN106095759 A CN 106095759A CN 201610446072 A CN201610446072 A CN 201610446072A CN 106095759 A CN106095759 A CN 106095759A
Authority
CN
China
Prior art keywords
customs
invoice
name
goods name
invoice goods
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610446072.8A
Other languages
English (en)
Other versions
CN106095759B (zh
Inventor
郑庆华
蔚文达
阮建飞
董博
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian Jiaotong University
Original Assignee
Xian Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian Jiaotong University filed Critical Xian Jiaotong University
Priority to CN201610446072.8A priority Critical patent/CN106095759B/zh
Publication of CN106095759A publication Critical patent/CN106095759A/zh
Application granted granted Critical
Publication of CN106095759B publication Critical patent/CN106095759B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/04Billing or invoicing

Abstract

本发明公开了一种基于启发式规则的发票货物归类方法,将发票上未规范化的货物名规范到国民经济行业分类中的一个子类,分类结果能够直接反映发票出具企业的经营信息。一方面,与企业注册时的行业代码比对,可以判断所开发票是否合法;另一方面,为企业的纳税风险监控提供了更直观的信息和更细致的监控粒度。通过基于海关历史记录的实例匹配将发票货物名先行归类到海关编码,再通过人工建立海关编码到国民经济行业分类代码的映射关系,最终得到发票的国民经济行业分类代码。从而解决分类实例匮乏情况下从海量未规范化的发票货物名到国民经济行业分类的归类问题,为后续的税务分析和风险监控奠定基础。

Description

一种基于启发式规则的发票货物归类方法
技术领域
本发明属于一种发票货物归类方法,特别涉及一种基于启发式规则的发票货物归类方法。
背景技术
税务分析的一个重要数据来源是企业的增值税发票,其货物名称的填写主要包括品牌、名称和规格型号三项,但是目前发票货物名的填写尚未实现规范化,导致发票货物数据的质量参差不齐,甚至存在格式不合标准、蓄意错开的现象,严重掩盖了发票所能反映的企业经营信息,为偷漏税提供了温床,同时也影响了税务分析的准确性。对海量的发票货物名进行归类,已成为税务分析和风险监控亟待解决的难题。
目前尚未有从发票货物到国民经济行业分类的归类方法,但发票货物名与电子商务的商品名类似,一般均为10字以下的短文本,因此针对商品名的自动分类方法,对于解决发票货物的归类问题具有参考价值。以下3篇专利文献提供了商品名自动分类的不同的技术解决方案:
1.一种数据分类的方法及装置(ZL201010122141.2);
2.一种基于领域知识的短文本分类方法及文本分类系统(201110172434.6);
3.一种适用于B2B电子商务平台的商品信息自动分类(201310674950.8)。
文献1提供一种由商品标题分词得到核心词和属性词的分词序列,合并分词序列相同的商品标题,实现商品分类的方法。文献2通过爬取训练知识库,特征提取,建立分类器模型的方式实现对短文本的分类。文献3公开了一种基于已分类商品实例构建分类知识库来实现商品自动分类的方法。
发票货物的归类问题要求分类类别为税务部门真正关心的国民经济行业分类,然后目前缺少可用的已分类发票货物实例。故以上文献所述方法运用在发票货物的分类时存在以下问题:文献1分类方法的分类类别是自组织的,且难以控制类别总数和涵盖层次;文献2和文献3的分类方法需要依赖大量的已分类实例。
发明内容
本发明的目的在于提供一种基于启发式规则的发票货物归类方法,通过基于海关历史记录的实例匹配将发票货物名先行归类到海关编码,再通过人工建立海关编码到国民经济行业分类代码的映射关系,最终得到发票的国民经济行业分类代码。从而解决分类实例匮乏情况下从海量未规范化的发票货物名到国民经济行业分类的归类问题,为后续的税务分析和风险监控奠定基础。
为了达到以上目的,本发明是采取如下技术方案予以实现的:
一种基于启发式规则的发票货物归类方法,包括下述步骤:
(1)发票货物名预处理
发票货物名的填写尚未实现规范化,其中的不规范元素:异常字符、分隔符和规格型号,都会对归类结果造成影响。为了消除发票货物名中的不规范元素对归类的影响,进行以下预处理:
a.将发票货物名中的分隔符规范化,即将货物名中的引号、中括号、大括号均替换为英文半角的小括号,将货物名中的正反斜杠均替换为英文半角逗号,将货物名中的重复空格缩减为单个空格;
b.删除发票货物名中的特殊符号,所述特殊符号包括:任意不属于汉字、英文字母、空格、逗号、顿号、短横杠、分隔符的符号;
c.将数字加量词作为规格型号从发票货物名中删除;
(2)基于搜索引擎知识库构建发票货物名的自定义词典
发票货物名中的品牌、名称词汇往往超过分词工具自带词典的涵盖能力,为了防止品牌、货物名称在分词过程中被分割成语义不完整的单词碎片,需要基于搜索引擎知识库构建发票货物名的自定义词典。
所述基于搜索引擎知识库构建发票货物名的自定义词典,其特征在于将预处理后的发票货物名利用搜索引擎接口进行搜索,利用搜索引擎会将搜索结果与搜索关键词的重叠部分标记为红色的特性,将所有标红的短语加入到分词工具的自定义词典中,使用自定义词典对待归类发票货物名进行分词。
(3)基于海关历史记录实例匹配获得发票货物名的海关编码
基于海关历史记录实例匹配获得发票货物名的海关编码,通过给出一系列有优先级的实例匹配策略,模拟人工在线搜索时不断降低匹配容忍度的过程,得到每个预处理后的发票货物名对应的海关编码。
所述基于海关历史记录实例匹配获得发票货物名的海关编码的具体步骤为:
Step1.考虑到某些品类的发票货物名特征显著,首先进行特殊品类的匹配。包括化学药品类、医学药品类、服务类和非进出口商品类;
Step2.若没有匹配到任何特殊品类,再进行全文精确匹配,即搜索海关商品名称与待归类发票货物名完全相同的海关历史记录;
Step3.若没有找到完全相同的海关历史记录,全文精确匹配失败,再进行全文模糊匹配,即搜索海关商品名称与待归类发票货物名加权余弦相似度高于阈值的海关历史记录;
Step4.若加权余弦相似度均低于阈值,全文模糊匹配失败,再进行分词精确匹配,即首先基于自定义词典对待归类发票货物名进行分词,然后按右向最大匹配原则进行分词精确匹配;
Step5.若右向最大匹配过程中从未精确匹配成功,则分词精确匹配失败,再进行离线知识库匹配。即首先利用Lucene工具为程序运行过程中积累的已分类发票货物实例建立索引,然后检索出与待归类发票货物名相似度最高的发票货物名的海关编码,作为待归类发票货物名的海关编码。
所述海关历史记录具体包括:
a.商品编码
我国海关编码采用10位数编码,商品编码的第一、二位数码代表-章,第三、四位数码代表-目,第五、六位数码代表-子目,最后四位数码是根据我国进出口商品的实际情况延伸出的编码。
b.商品名称
与发票上的商品名类似,85%的海关商品名称均由2-9个汉字组成。
所述加权余弦相似度,其计算步骤如下:
Step1.使用开源分词工具HanLP基于发票货物名的自定义词典进行分词。得到海关商品名称的分词序列,记为List1;得到待归类发票货物名的分词序列,记为List2;
Step2.将List1和List2中所有单词的权值初始化为其在当前商品名中出现的频数;
Step3.将List1和List2中对商品没有实际限定作用的单词权值设置为0;
Step4.将List1和List2中的具有名词词性的单词权值加大,如设置为初始值的10倍,可根据实际应用环境自行设定放大倍数;
Step5.由List1和List2的权值向量,利用余弦公式,计算出海关商品名称和待归类发票货物名的加权余弦相似度。
所述右向最大匹配原则,其特征是对于待归类发票货物名基于自定义词典分词得到的分词序列,首先选取最右侧的单词作为待匹配项进行精确匹配,当存在商品名称与待匹配项完全相同的海关历史记录时,在原待匹配项的基础上向左连接一个单词组成新的待匹配项,对新的待匹配项再次进行精确匹配。若仍然能够精确匹配到海关历史记录,则继续向左连接一个单词进行精确匹配;重复这一过程,直到精确匹配失败。取最近一次精确匹配成功的匹配项的海关商品编码,作为右向最大匹配的最终结果。
(4)人工建立海关编码到国民经济行业分类代码的映射关系
人工建立从海关编码到国民经济行业分类代码的映射关系。海关编码较国民经济行业分类对商品的划分粒度更细,因此映射关系是多对一的。所述海关编码到国民经济行业分类代码的映射关系,格式如下:
海关编码(10位数码) 国民经济行业分类代码(4位数码)
(5)根据映射关系确定发票货物的国民经济行业分类代码
对发票货物名匹配得到的海关编码,基于海关编码到国民经济行业分类代码的映射,得到发票货物名的国民经济行业分类代码。完成将发票货物归类到国民经济行业分类的任务。
本发明一种基于启发式规则的发票货物归类方法,将发票上未规范化的货物名规范到国民经济行业分类中的一个子类,分类结果能够直接反映发票出具企业的经营信息。一方面,与企业注册时的行业代码比对,可以判断所开发票是否合法;另一方面,为企业的纳税风险监控提供了更直观的信息和更细致的监控粒度。与现有技术相比,本发明方法的优点是:
a.人力投入少。除需要人工建立海关编码到国民经济行业分类代码的映射关系外,其余过程均借助计算机程序实现,归类速度快,可应对不断产生的规模巨大的发票数据。
b.学习能力好。海关历史记录可供实例匹配的知识库完备,分类依据严谨。基于海关历史记录实例匹配的发票货物归类准确率已超过60%,且运行过程中能够积累已分类发票货物实例和发票货物自定义词典,确保了归类方法能够适应每天海量新增的发票货物名。
c.可迁移性好。使用海关编码到国民经济行业分类代码的映射关系进行分类体系转化,使得归类方法不局限于某一种分类体系,方便了本归类方法迁移到新的归类需求上。
附图说明
图1是本发明方法的整体流程示意图。
图2是基于搜索引擎知识库构建发票货物名自定义词典的流程图。
图3是基于海关历史记录实例匹配的流程图。
图4是右向最大匹配的流程图。
具体实施方式
以下参照附图,结合具体实施例对本发明基于启发式规则的发票货物归类方法作进一步说明。
如图1所示,本申请实施例中,对发票货物归类的过程包括:
对发票货物名进行预处理,预处理包括以下步骤:删除发票货物名中的特殊符号,将发票货物名中的分隔符规范化,将发票货物名中的数字加量词作为规格型号从发票货物名中删除。
本实施例中,一张增值税发票上的货物名为“汇源沁霖纯净水550ml”,经过预处理后,550ml作为数字加量词被检测出后从货物名中删除,故经预处理后,货物名变为“汇源沁霖纯净水”。
基于搜索引擎知识库构建发票货物名的自定义词典。
所述基于搜索引擎知识库构建发票货物名的自定义词典,其特征在于将预处理后的发票货物名在主流的搜索引擎中检索一次,利用搜索引擎会将搜索结果与搜索关键词的重叠部分标记为红色的特性,将所有标红的短语加入到分词工具的自定义词典中,使用自定义词典对待归类发票货物名进行分词。
如图2所示,本实施例中,使用货物名“莎妮雅贝因美复合油二段ARMRO-02BY(190kg)”举例说明基于搜索引擎知识库构建发票货物名的自定义词典的过程。发票货物名经预处理后变为“莎妮雅贝因美复合油”,在主流搜索引擎,如https://www.baidu.com,直接搜索“莎妮雅贝因美复合油”,利用html解析工具解析搜索结果,得到标红短语“莎妮雅”、“贝因美”和“复合油”,将所有标红短语加入到本实施例使用的HanLP分词工具的自定义词典中,最后利用HanLP进行分词。
基于海关历史记录实例匹配获得发票货物名的海关编码,通过给出一系列有优先级的实例匹配策略,模拟人工在线搜索时不断降低匹配容忍度的过程,得到每个预处理后的发票货物名对应的海关编码。
如图3所示,基于海关历史记录实例匹配获得发票货物名的海关编码的步骤如下:
进行特殊品类的匹配。对发票货物名特征显著的化学药品类和服务类,以及商品名存在权威名录的医学药品类和非进出口商品类进行逐一试探匹配。
本实施例中,货物名“汇源沁霖纯净水”中没有出现化学药品类货物名中特有的汉字,如“烃”、“烷”等;也没有出现服务类发票特有的“维修”、“服务”等字样;也没有出现在中国药典和非进出口商品名录中。因此特殊品类匹配失败,进入下一步。
进行全文精确匹配,搜索海关商品名称与待归类发票货物名完全相同的海关历史记录。
本实施例中,使用爬虫工具从各大重要的海关编码查询网站,如http://www.hsbianma.com,爬取与货物名“汇源沁霖纯净水”完全相同的海关历史记录的海关编码,并存入本地知识库中。此例的爬取结果为空,全文精确匹配失败,进入下一步。
进行全文模糊匹配。搜索海关商品名称与待归类发票货物名加权余弦相似度高于阈值的海关历史记录。
所述加权余弦相似度,其计算步骤如下:
Step1.使用开源分词工具HanLP基于发票货物名的自定义词典进行分词。得到海关商品名称的分词序列,记为List1;得到待归类发票货物名的分词序列,记为List2;
Step2.将List1和List2中所有单词的权值初始化为其在当前商品名中出现的频数;
Step3.将List1和List2中对商品没有实际限定作用的单词权值设置为0;
Step4.将List1和List2中的具有名词词性的单词权值加大,如设置为初始值的10倍,可根据实际应用环境自行设定放大倍数;
Step5.由List1和List2的权值向量,利用余弦公式,计算出海关商品名称和待归类发票货物名的加权余弦相似度。
本实施例中,待归类发票货物名“汇源沁霖纯净水”分词产生的权值向量为(汇源:10,沁霖:0,纯净水:10),与之比对的海关商品名称,如“饮用纯净水”,产生的权值向量为(饮用:1,纯净水:10),由余弦公式得二者的加权余弦相似度为0.707,高于本实施例选取的阈值0.6。所以“饮用纯净水”的海关编码被搜索返回,并作为“汇源沁霖纯净水”的海关编码。
进行分词精确匹配。基于自定义词典对待归类发票货物名进行分词,然后按右向最大匹配原则进行分词精确匹配。
所述右向最大匹配原则,其特征是对于待归类发票货物名基于自定义词典分词得到的分词序列,首先选取最右侧的单词作为待匹配项进行精确匹配,当存在商品名称与待匹配项完全相同的海关历史记录时,在原待匹配项的基础上向左连接一个单词组成新的待匹配项,对新的待匹配项再次进行精确匹配。若仍然能够精确匹配到海关历史记录,则继续向左连接一个单词进行精确匹配;重复这一过程,直到精确匹配失败。取最近一次精确匹配成功的匹配项的海关商品编码,作为右向最大匹配的最终结果。
如图4所示,本实施例中,待归类发票货物名“莎妮雅贝因美复合油”分词得到的分词序列为(莎妮雅,贝因美,复合油),首先选取最右侧的单词“复合油”作为待匹配项,进行精确匹配,得到海关历史记录(复合油,1507900000),精确匹配成功故向左侧连接一个单词,待匹配项变为“贝因美复合油”,再次精确匹配时匹配失败,返回最近一次匹配成功的匹配项,最终匹配到的海关编码为1507900000。
进行离线知识库匹配。首先利用Lucene工具为程序运行过程中积累的已分类发票货物实例建立索引,然后检索出与待归类发票货物名相似度最高的发票货物名的海关编码,作为待归类发票货物名的海关编码。
人工建立海关编码到国民经济行业分类代码的映射关系。
本实施例中,人工建立的海关编码到国民经济行业分类代码的映射关系中存在如下记录:
1507900000 1231
根据映射关系确定发票货物的国民经济行业分类代码.
本实施例中,根据海关编码到国民经济行业分类代码的映射关系得到货物名“莎妮雅贝因美复合油二段ARMRO-02BY(190kg)”的发票的国民经济行业分类代码为1231,即类别名称为“食用植物油加工”的国民经济行业分类。
本领域的技术人员容易理解,以上所述仅为本发明的方法实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (5)

1.一种基于启发式规则的发票货物归类方法,其特征在于,包括下述步骤:
(1)发票货物名预处理
a.将发票货物名中的分隔符规范化,即将货物名中的引号、中括号、大括号均替换为英文半角的小括号,将货物名中的正反斜杠均替换为英文半角逗号,将货物名中的重复空格缩减为单个空格;
b.删除发票货物名中的特殊符号,所述特殊符号包括:任意不属于汉字、英文字母、空格、逗号、顿号、短横杠、分隔符的符号;
c.将数字加量词作为规格型号从发票货物名中删除;
(2)基于搜索引擎知识库构建发票货物名的自定义词典
发票货物名中的品牌、名称词汇往往超过分词工具自带词典的涵盖能力,为了防止品牌、货物名称在分词过程中被分割成语义不完整的单词碎片,需要基于搜索引擎知识库构建发票货物名的自定义词典;
所述基于搜索引擎知识库构建发票货物名的自定义词典,将预处理后的发票货物名利用搜索引擎接口进行搜索,利用搜索引擎会将搜索结果与搜索关键词的重叠部分标记为红色的特性,将所有标红的短语加入到分词工具的自定义词典中,使用自定义词典对待归类发票货物名进行分词;
(3)基于海关历史记录实例匹配获得发票货物名的海关编码
基于海关历史记录实例匹配获得发票货物名的海关编码,通过给出一系列有优先级的实例匹配策略,模拟人工在线搜索时不断降低匹配容忍度的过程,得到每个预处理后的发票货物名对应的海关编码;
(4)人工建立海关编码到国民经济行业分类代码的映射关系
所述海关编码到国民经济行业分类代码的映射关系,格式如下:
海关编码(10位数码) 国民经济行业分类代码(4位数码)
(5)根据映射关系确定发票货物的国民经济行业分类代码
对发票货物名匹配得到的海关编码,基于海关编码到国民经济行业分类代码的映射,得到发票货物名的国民经济行业分类代码,完成将发票货物归类到国民经济行业分类的任务。
2.根据权利要求1所述的一种基于启发式规则的发票货物归类方法,其特征在于,所述基于海关历史记录实例匹配获得发票货物名的海关编码的具体步骤为:
Step1.考虑到某些品类的发票货物名特征显著,首先进行特殊品类的匹配,包括化学药品类、医学药品类、服务类和非进出口商品类;
Step2.若没有匹配到任何特殊品类,再进行全文精确匹配,即搜索海关商品名称与待归类发票货物名完全相同的海关历史记录;
Step3.若没有找到完全相同的海关历史记录,全文精确匹配失败,再进行全文模糊匹配,即搜索海关商品名称与待归类发票货物名加权余弦相似度高于阈值的海关历史记录;
Step4.若加权余弦相似度均低于阈值,全文模糊匹配失败,再进行分词精确匹配,即首先基于自定义词典对待归类发票货物名进行分词,然后按右向最大匹配原则进行分词精确匹配;
Step5.若右向最大匹配过程中从未精确匹配成功,则分词精确匹配失败,再进行离线知识库匹配,即首先利用Lucene工具为程序运行过程中积累的已分类发票货物实例建立索引,然后检索出与待归类发票货物名相似度最高的发票货物名的海关编码,作为待归类发票货物名的海关编码。
3.根据权利要求1所述的一种基于启发式规则的发票货物归类方法,其特征在于,所述海关历史记录具体包括:
a.商品编码
我国海关编码采用10位数编码,商品编码的第一、二位数码代表-章,第三、四位数码代表-目,第五、六位数码代表-子目,最后四位数码是根据我国进出口商品的实际情况延伸出的编码;
b.商品名称
与发票上的商品名类似,85%的海关商品名称均由2-9个汉字组成。
4.根据权利要求2所述的一种基于启发式规则的发票货物归类方法,其特征在于,所述加权余弦相似度,其计算步骤如下:
Step1.使用开源分词工具HanLP基于发票货物名的自定义词典进行分词,得到海关商品名称的分词序列,记为List1;得到待归类发票货物名的分词序列,记为List2;
Step2.将List1和List2中所有单词的权值初始化为其在当前商品名中出现的频数;
Step3.将List1和List2中对商品没有实际限定作用的单词权值设置为0;
Step4.将List1和List2中的具有名词词性的单词权值加大,如设置为初始值的10倍,可根据实际应用环境自行设定放大倍数;
Step5.由List1和List2的权值向量,利用余弦公式,计算出海关商品名称和待归类发票货物名的加权余弦相似度。
5.根据权利要求2所述的一种基于启发式规则的发票货物归类方法,其特征在于,所述右向最大匹配原则,对于待归类发票货物名基于自定义词典分词得到的分词序列,首先选取最右侧的单词作为待匹配项进行精确匹配,当存在商品名称与待匹配项完全相同的海关历史记录时,在原待匹配项的基础上向左连接一个单词组成新的待匹配项,对新的待匹配项再次进行精确匹配,若仍然能够精确匹配到海关历史记录,则继续向左连接一个单词进行精确匹配;重复这一过程,直到精确匹配失败,取最近一次精确匹配成功的匹配项的海关商品编码,作为右向最大匹配的最终结果。
CN201610446072.8A 2016-06-20 2016-06-20 一种基于启发式规则的发票货物归类方法 Active CN106095759B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610446072.8A CN106095759B (zh) 2016-06-20 2016-06-20 一种基于启发式规则的发票货物归类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610446072.8A CN106095759B (zh) 2016-06-20 2016-06-20 一种基于启发式规则的发票货物归类方法

Publications (2)

Publication Number Publication Date
CN106095759A true CN106095759A (zh) 2016-11-09
CN106095759B CN106095759B (zh) 2019-05-24

Family

ID=57237078

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610446072.8A Active CN106095759B (zh) 2016-06-20 2016-06-20 一种基于启发式规则的发票货物归类方法

Country Status (1)

Country Link
CN (1) CN106095759B (zh)

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107766395A (zh) * 2017-03-03 2018-03-06 平安医疗健康管理股份有限公司 数据匹配方法和装置
CN107818124A (zh) * 2017-03-03 2018-03-20 平安医疗健康管理股份有限公司 数据匹配方法及装置
CN108241677A (zh) * 2016-12-26 2018-07-03 航天信息股份有限公司 一种获得商品的税收分类编码的方法及系统
CN108268456A (zh) * 2016-12-30 2018-07-10 航天信息股份有限公司 一种建立发票数据库的方法与查询数据库内发票的方法
CN108710610A (zh) * 2018-05-17 2018-10-26 北京东港瑞宏科技有限公司 一种基于电子发票的数据挖掘方法
CN109598517A (zh) * 2017-09-29 2019-04-09 阿里巴巴集团控股有限公司 商品通关处理、对象的处理及其类别预测方法和装置
CN109801118A (zh) * 2018-12-24 2019-05-24 航天信息股份有限公司 识别指定行业的制造业企业的方法、装置、介质和设备
CN110019807A (zh) * 2017-12-27 2019-07-16 航天信息股份有限公司 一种商品分类方法及装置
CN110046978A (zh) * 2019-03-19 2019-07-23 上海大学 智能报销方法
CN110287218A (zh) * 2019-06-26 2019-09-27 浙江诺诺网络科技有限公司 一种税收分类编码匹配的方法、系统及设备
CN110348346A (zh) * 2019-06-28 2019-10-18 苏宁云计算有限公司 一种票据分类识别方法及系统
WO2019227576A1 (zh) * 2018-05-31 2019-12-05 平安科技(深圳)有限公司 发票校验方法、装置、计算机设备及存储介质
CN110597995A (zh) * 2019-09-20 2019-12-20 税友软件集团股份有限公司 一种商品名称分类方法、装置、设备及可读存储介质
CN111427888A (zh) * 2020-03-18 2020-07-17 西安交通大学 一种自动零售机拣货方法
CN112529676A (zh) * 2020-12-22 2021-03-19 畅捷通信息技术股份有限公司 一种基于社会级词向量进行税收编码末级分类的方法
CN114722819A (zh) * 2022-02-16 2022-07-08 平安科技(深圳)有限公司 一种实体类型分类识别方法、装置、设备和介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101261623A (zh) * 2007-03-07 2008-09-10 国际商业机器公司 基于搜索的无词边界标记语言的分词方法以及装置
CN103605815A (zh) * 2013-12-11 2014-02-26 焦点科技股份有限公司 一种适用于b2b电子商务平台的商品信息自动分类推荐方法
CN103838883A (zh) * 2014-03-31 2014-06-04 上海久科信息技术有限公司 智能sku匹配方法
US8868554B1 (en) * 2004-02-26 2014-10-21 Yahoo! Inc. Associating product offerings with product abstractions
CN104134128A (zh) * 2014-08-11 2014-11-05 税友软件集团股份有限公司 一种发票的处理方法及系统
CN105354194A (zh) * 2014-08-19 2016-02-24 上海中怡通信息科技有限公司 商品智能归类方法和系统
CN105550369A (zh) * 2016-01-26 2016-05-04 上海晶赞科技发展有限公司 一种搜索目标商品集的方法及装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8868554B1 (en) * 2004-02-26 2014-10-21 Yahoo! Inc. Associating product offerings with product abstractions
CN101261623A (zh) * 2007-03-07 2008-09-10 国际商业机器公司 基于搜索的无词边界标记语言的分词方法以及装置
CN103605815A (zh) * 2013-12-11 2014-02-26 焦点科技股份有限公司 一种适用于b2b电子商务平台的商品信息自动分类推荐方法
CN103838883A (zh) * 2014-03-31 2014-06-04 上海久科信息技术有限公司 智能sku匹配方法
CN104134128A (zh) * 2014-08-11 2014-11-05 税友软件集团股份有限公司 一种发票的处理方法及系统
CN105354194A (zh) * 2014-08-19 2016-02-24 上海中怡通信息科技有限公司 商品智能归类方法和系统
CN105550369A (zh) * 2016-01-26 2016-05-04 上海晶赞科技发展有限公司 一种搜索目标商品集的方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
VISHRAWAS 等: "Matching Product Titles using Web-based Enrichment", 《PROCEEDINGS OF THE 21ST ACM INTERNATIONAL CONFERENCE ON INFORMATION AND KNOWLEDGE MANAGEMENT》 *

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108241677A (zh) * 2016-12-26 2018-07-03 航天信息股份有限公司 一种获得商品的税收分类编码的方法及系统
CN108268456A (zh) * 2016-12-30 2018-07-10 航天信息股份有限公司 一种建立发票数据库的方法与查询数据库内发票的方法
CN108268456B (zh) * 2016-12-30 2022-03-04 航天信息股份有限公司 一种建立发票数据库的方法与查询数据库内发票的方法
CN107766395A (zh) * 2017-03-03 2018-03-06 平安医疗健康管理股份有限公司 数据匹配方法和装置
CN107818124A (zh) * 2017-03-03 2018-03-20 平安医疗健康管理股份有限公司 数据匹配方法及装置
CN109598517A (zh) * 2017-09-29 2019-04-09 阿里巴巴集团控股有限公司 商品通关处理、对象的处理及其类别预测方法和装置
CN110019807B (zh) * 2017-12-27 2020-11-13 航天信息股份有限公司 一种商品分类方法及装置
CN110019807A (zh) * 2017-12-27 2019-07-16 航天信息股份有限公司 一种商品分类方法及装置
CN108710610A (zh) * 2018-05-17 2018-10-26 北京东港瑞宏科技有限公司 一种基于电子发票的数据挖掘方法
WO2019227576A1 (zh) * 2018-05-31 2019-12-05 平安科技(深圳)有限公司 发票校验方法、装置、计算机设备及存储介质
CN109801118A (zh) * 2018-12-24 2019-05-24 航天信息股份有限公司 识别指定行业的制造业企业的方法、装置、介质和设备
CN110046978A (zh) * 2019-03-19 2019-07-23 上海大学 智能报销方法
CN110287218A (zh) * 2019-06-26 2019-09-27 浙江诺诺网络科技有限公司 一种税收分类编码匹配的方法、系统及设备
CN110348346A (zh) * 2019-06-28 2019-10-18 苏宁云计算有限公司 一种票据分类识别方法及系统
CN110597995A (zh) * 2019-09-20 2019-12-20 税友软件集团股份有限公司 一种商品名称分类方法、装置、设备及可读存储介质
CN111427888A (zh) * 2020-03-18 2020-07-17 西安交通大学 一种自动零售机拣货方法
CN111427888B (zh) * 2020-03-18 2022-10-25 西安交通大学 一种自动零售机拣货方法
CN112529676A (zh) * 2020-12-22 2021-03-19 畅捷通信息技术股份有限公司 一种基于社会级词向量进行税收编码末级分类的方法
CN114722819A (zh) * 2022-02-16 2022-07-08 平安科技(深圳)有限公司 一种实体类型分类识别方法、装置、设备和介质
CN114722819B (zh) * 2022-02-16 2024-01-19 平安科技(深圳)有限公司 一种实体类型分类识别方法、装置、设备和介质

Also Published As

Publication number Publication date
CN106095759B (zh) 2019-05-24

Similar Documents

Publication Publication Date Title
CN106095759B (zh) 一种基于启发式规则的发票货物归类方法
WO2016058267A1 (zh) 一种基于网站主页特征分析的中文网站分类方法和系统
US20170004413A1 (en) Data driven classification and data quality checking system
CN108121829A (zh) 面向软件缺陷的领域知识图谱自动化构建方法
CN108073568A (zh) 关键词提取方法和装置
US20180181544A1 (en) Systems for Automatically Extracting Job Skills from an Electronic Document
CN106407113B (zh) 一种基于Stack Overflow和commit库的bug定位方法
CN104408173A (zh) 一种基于b2b平台的核心关键词自动提取方法
CA3142615A1 (en) System and method for automated file reporting
CN102411563A (zh) 一种识别目标词的方法、装置及系统
CN102597991A (zh) 文档分析与关联系统及方法
CN113392209B (zh) 一种基于人工智能的文本聚类方法、相关设备及存储介质
CN110689371B (zh) 一种基于ai和大数据的智能营销云服务平台
CN111325018B (zh) 一种基于web检索和新词发现的领域词典构建方法
TWI743623B (zh) 基於人工智慧的商務智慧系統及其分析方法
CN108027814A (zh) 停用词识别方法与装置
CN101101599A (zh) 一种从网页中提取广告主信息的方法
WO2020074017A1 (zh) 基于深度学习的医学文献中关键词筛选方法及装置
CN110209659A (zh) 一种简历过滤方法、系统和计算机可读存储介质
CN114462556B (zh) 企业关联产业链分类方法、训练方法、装置、设备和介质
KR20190061984A (ko) 딥러닝을 이용한 분류코드 추천 시스템
CN115827871A (zh) 互联网企业分类的方法、装置和系统
CN114820134A (zh) 一种商品信息召回方法、装置、设备和计算机存储介质
CN115098703A (zh) 基于smt质量大数据分析的知识图谱构建方法
CN110472243B (zh) 一种中文拼写检查方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant