CN112529676A - 一种基于社会级词向量进行税收编码末级分类的方法 - Google Patents

一种基于社会级词向量进行税收编码末级分类的方法 Download PDF

Info

Publication number
CN112529676A
CN112529676A CN202011526181.3A CN202011526181A CN112529676A CN 112529676 A CN112529676 A CN 112529676A CN 202011526181 A CN202011526181 A CN 202011526181A CN 112529676 A CN112529676 A CN 112529676A
Authority
CN
China
Prior art keywords
social
final
word
classification
tax
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011526181.3A
Other languages
English (en)
Inventor
尹明君
薛鑫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CHANJET INFORMATION TECHNOLOGY CO LTD
Original Assignee
CHANJET INFORMATION TECHNOLOGY CO LTD
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CHANJET INFORMATION TECHNOLOGY CO LTD filed Critical CHANJET INFORMATION TECHNOLOGY CO LTD
Priority to CN202011526181.3A priority Critical patent/CN112529676A/zh
Publication of CN112529676A publication Critical patent/CN112529676A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/12Accounting
    • G06Q40/123Tax preparation or submission
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/374Thesaurus
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Business, Economics & Management (AREA)
  • Accounting & Taxation (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Finance (AREA)
  • General Health & Medical Sciences (AREA)
  • Development Economics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Technology Law (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种基于社会级词向量进行税收编码末级分类的方法,包括:第一步骤:选取社会级词向量模型;第二步骤:利用选取的社会级词向量模型生成分词专用词典;第三步骤:利用税收分类编码末级分类生成末级特征库;第四步骤:利用末级特征库计算每个商品的分数。

Description

一种基于社会级词向量进行税收编码末级分类的方法
技术领域
本发明涉及税收领域,具体涉及一种基于社会级词向量进行税收编码末级分类的方法。
背景技术
每种商品都有对应的税收分类编码,但是税收分类编码分类多达3000多种,如何从3000多种分类编码中确定某一商品的正确税收分类编码是一件非常困难的事情。单靠人工选择,费时费力的同时,准确率也不高。因此,商品匹配税收分类编码这个问题需要有效解决。
发明内容
本发明所要解决的技术问题是针对现有技术中存在上述缺陷,提供一种能够利用社会级词向量解决少标注多分类问题的方法。
根据本发明,提供了一种基于社会级词向量进行税收编码末级分类的方法,包括:
第一步骤:选取社会级词向量模型;
第二步骤:利用选取的社会级词向量模型生成分词专用词典;
第三步骤:利用税收分类编码末级分类生成末级特征库;
第四步骤:利用末级特征库计算每个商品的分数。
优选地,所述的基于社会级词向量进行税收编码末级分类的方法还包括第五步骤:对计算的分数进行优化;其中,相对于在类别里的出现的次数少的特征,使得在类别里的出现的次数多的特征分数减小。
优选地,选取百度词向量模型作为社会级词向量模型。
优选地,选取腾讯词向量模型作为社会级词向量模型。
优选地,在第二步骤中,对于商品库中的商品进行分词,根据社会级词向量模型选取有词向量的词,并且依据选取的有词向量的各词出现的频次进行依次排序,排序后的序列作为分词专用词典。
优选地,在第三步骤中,针对税收分类编码的末级分类提取特征,并利用分词专用词典对提取的特征进行分词后赋予权重,生成末级特征库。
优选地,在第四步骤中,针对多个商品分别与末级特征库中的末级特征分别进行笛卡尔积的相似度计算,以得到每个商品的分数。
优选地,分词专用词典中的词语所属分类有可能不同于缺少分词专用词典进行分词的分类结果。
本发明的方法利用社会级词向量进行语义相似度计算,解决少标注多分类问题,并且提高准确率;利用该方法,选取评分最大的前五个税收分类作为分类结果,经测试其准确率可以高达90%。
附图说明
结合附图,并通过参考下面的详细描述,将会更容易地对本发明有更完整的理解并且更容易地理解其伴随的优点和特征,其中:
图1示意性地示出了根据本发明优选实施例的基于社会级词向量进行税收编码末级分类的方法的示意流程图。
图2示意性地示出了根据本发明优选实施例的基于社会级词向量进行税收编码末级分类的方法的计算示意。
需要说明的是,附图用于说明本发明,而非限制本发明。注意,表示结构的附图可能并非按比例绘制。并且,附图中,相同或者类似的元件标有相同或者类似的标号。
具体实施方式
为了使本发明的内容更加清楚和易懂,下面结合具体实施例和附图对本发明的内容进行详细描述。
本申请的发明人发现,税收分类编码问题可归结为一种少标注多分类的问题,因此解决了少标注多分类问题的同时,商品匹配税收分类编码问题自然就解决了。
对于缺少标注,并且分类较多的文本,由于其干扰大,导致很难对其进行准确分类。比如税收编码分类编码问题,由于标注文本较少,而分类数目达3000种以上,导致分类极其困难。由于社会级词向量具有聚类特性,可以将一类物体聚在一起,因此可以有效解决少标注的问题,因此本发明针对标注少、分类多的情况,采用社会级词向量与税收分类末级特征进行语义相似度计算,得到分类结果,从而解决少标注多分类问题。
其中,词向量(Word embedding),是自然语言处理(NLP)中一种语言模型,将一个词映射到高维空间的一种模型。
图1示意性地示出了根据本发明优选实施例的基于社会级词向量进行税收编码末级分类的方法的示意流程图。
如图1所示,根据本发明优选实施例的基于社会级词向量进行税收编码末级分类的方法包括:
第一步骤S1:选取社会级词向量模型;
由于社会级词向量具有聚类特性,因此选择一个特征词相当于选择了一个词团,从而可以加速分类算法。例如,在具体实施例中,本发明分别选取百度词向量模型和腾讯词向量模型,作为社会级词向量模型,进行后续操作。
第二步骤S2:利用选取的社会级词向量模型生成分词专用词典;
例如,分词专用词典中的词语所属分类有可能不同于缺少分词专用词典进行分词的分类结果。
具体地,在第二步骤S2中,对于商品库中的商品进行分词,根据社会级词向量模型选取有词向量的词,并且依据选取的有词向量的各词出现的频次进行依次排序,排序后的序列作为分词专用词典。例如,“苹果笔记本”,普通分词后,得到“苹果”和“笔记本”,分别属于水果和书本类,但是实际分类应该划分为计算机整机类,因此将“苹果笔记本”作为一个专用词语,可以准确定位到其分类。
第三步骤S3:利用税收分类编码末级分类生成末级特征库;
在第三步骤S3中,针对税收分类编码的末级分类提取特征,并利用分词专用词典对提取的特征进行分词后赋予权重(具体地,基于排序赋予权重),生成末级特征库。例如,“苹果笔记本”作为“电子计算机整机”类别中的一个特征,并赋权重为5,这样如果商品中出现“苹果笔记本”,就可以准确划分到“电子计算机整机”的类别中。
第四步骤S4:利用末级特征库计算每个商品的分数;
在具体实施例中,在第四步骤S4中,可以同时针对多个商品分别与末级特征库中的末级特征分别进行笛卡尔积的相似度计算,以得到每个商品的分数。例如如图2所示,“森海塞尔专业录音监听耳机黑色”经过分词得到“森海塞尔专业录音监听耳机黑色”六个词语,将这六个词语分别与所有末级特征进行语义相似度计算,分别得到每个词对应的分数最高的top4末级特征,对于得到的24个末级特征,得到分数最高的一种末级分类作为该商品对应的末级分类。
第五步骤S5:对计算的分数进行优化。
在具体实施例中,由于一个特征可能出现在多个类别里,那这个特征是弱特征,需要将其权重降低,相反,一个特征出现在类别里的次数少,那么权重相应提高,这样可以防止商品名称与特征的过拟合现象。由此,相对于在类别里的出现的次数少的特征,使得在类别里的出现的次数多的特征分数减小。
本发明的方法利用社会级词向量进行语义相似度计算,解决少标注多分类问题,并且提高准确率;利用该方法,选取评分最大的前五个税收分类作为分类结果,经测试其准确率可以高达90%。
此外,需要说明的是,除非特别指出,否则说明书中的术语“第一”、“第二”、“第三”等描述仅仅用于区分说明书中的各个组件、元素、步骤等,而不是用于表示各个组件、元素、步骤之间的逻辑关系或者顺序关系等。
可以理解的是,虽然本发明已以较佳实施例披露如上,然而上述实施例并非用以限定本发明。对于任何熟悉本领域的技术人员而言,在不脱离本发明技术方案范围情况下,都可利用上述揭示的技术内容对本发明技术方案作出许多可能的变动和修饰,或修改为等同变化的等效实施例。因此,凡是未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施例所做的任何简单修改、等同变化及修饰,均仍属于本发明技术方案保护的范围内。

Claims (8)

1.一种基于社会级词向量进行税收编码末级分类的方法,其特征在于包括:
第一步骤:选取社会级词向量模型;
第二步骤:利用选取的社会级词向量模型生成分词专用词典;
第三步骤:利用税收分类编码末级分类生成末级特征库;
第四步骤:利用末级特征库计算每个商品的分数。
2.根据权利要求1所述的基于社会级词向量进行税收编码末级分类的方法,其特征在于还包括:
第五步骤:对计算的分数进行优化;其中,相对于在类别里的出现的次数少的特征,使得在类别里的出现的次数多的特征分数减小。
3.根据权利要求1或2所述的基于社会级词向量进行税收编码末级分类的方法,其特征在于,选取百度词向量模型作为社会级词向量模型。
4.根据权利要求1或2所述的基于社会级词向量进行税收编码末级分类的方法,其特征在于,选取腾讯词向量模型作为社会级词向量模型。
5.根据权利要求1或2所述的基于社会级词向量进行税收编码末级分类的方法,其特征在于,在第二步骤中,对于商品库中的商品进行分词,根据社会级词向量模型选取有词向量的词,并且依据选取的有词向量的各词出现的频次进行依次排序,排序后的序列作为分词专用词典。
6.根据权利要求1或2所述的基于社会级词向量进行税收编码末级分类的方法,其特征在于,在第三步骤中,针对税收分类编码的末级分类提取特征,并利用分词专用词典对提取的特征进行分词后赋予权重,生成末级特征库。
7.根据权利要求1或2所述的基于社会级词向量进行税收编码末级分类的方法,其特征在于,在第四步骤中,针对多个商品分别与末级特征库中的末级特征分别进行笛卡尔积的相似度计算,以得到每个商品的分数。
8.根据权利要求1或2所述的基于社会级词向量进行税收编码末级分类的方法,其特征在于,分词专用词典中的词语所属分类有可能不同于缺少分词专用词典进行分词的分类结果。
CN202011526181.3A 2020-12-22 2020-12-22 一种基于社会级词向量进行税收编码末级分类的方法 Pending CN112529676A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011526181.3A CN112529676A (zh) 2020-12-22 2020-12-22 一种基于社会级词向量进行税收编码末级分类的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011526181.3A CN112529676A (zh) 2020-12-22 2020-12-22 一种基于社会级词向量进行税收编码末级分类的方法

Publications (1)

Publication Number Publication Date
CN112529676A true CN112529676A (zh) 2021-03-19

Family

ID=75002431

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011526181.3A Pending CN112529676A (zh) 2020-12-22 2020-12-22 一种基于社会级词向量进行税收编码末级分类的方法

Country Status (1)

Country Link
CN (1) CN112529676A (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104102706A (zh) * 2014-07-10 2014-10-15 西安交通大学 一种基于层次聚类的可疑纳税人检测方法
CN106095759A (zh) * 2016-06-20 2016-11-09 西安交通大学 一种基于启发式规则的发票货物归类方法
CN108241677A (zh) * 2016-12-26 2018-07-03 航天信息股份有限公司 一种获得商品的税收分类编码的方法及系统
CN109359195A (zh) * 2018-10-19 2019-02-19 杭州推点科技发展有限公司 一种hs编码转译方法
CN110175235A (zh) * 2019-04-23 2019-08-27 苏宁易购集团股份有限公司 基于神经网络的智能商品税分类编码方法及系统
US20190370273A1 (en) * 2018-06-05 2019-12-05 Sap Se System, computer-implemented method and computer program product for information retrieval
CN111708888A (zh) * 2020-06-16 2020-09-25 腾讯科技(深圳)有限公司 基于人工智能的分类方法、装置、终端和存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104102706A (zh) * 2014-07-10 2014-10-15 西安交通大学 一种基于层次聚类的可疑纳税人检测方法
CN106095759A (zh) * 2016-06-20 2016-11-09 西安交通大学 一种基于启发式规则的发票货物归类方法
CN108241677A (zh) * 2016-12-26 2018-07-03 航天信息股份有限公司 一种获得商品的税收分类编码的方法及系统
US20190370273A1 (en) * 2018-06-05 2019-12-05 Sap Se System, computer-implemented method and computer program product for information retrieval
CN109359195A (zh) * 2018-10-19 2019-02-19 杭州推点科技发展有限公司 一种hs编码转译方法
CN110175235A (zh) * 2019-04-23 2019-08-27 苏宁易购集团股份有限公司 基于神经网络的智能商品税分类编码方法及系统
CN111708888A (zh) * 2020-06-16 2020-09-25 腾讯科技(深圳)有限公司 基于人工智能的分类方法、装置、终端和存储介质

Similar Documents

Publication Publication Date Title
US11055557B2 (en) Automated extraction of product attributes from images
CN107633007B (zh) 一种基于层次化ap聚类的商品评论数据标签化系统和方法
CN107862046B (zh) 一种基于短文本相似度的税务商品编码分类方法及系统
US10089581B2 (en) Data driven classification and data quality checking system
US10678769B2 (en) Artificial intelligence system and method for auto-naming customer tree nodes in a data structure
CN111339260A (zh) 一种基于bert和qa思想的细粒度情感分析方法
CN113988157A (zh) 语义检索网络训练方法、装置、电子设备及存储介质
CN114722198A (zh) 产品分类编码确定方法、系统及相关装置
CN113987180A (zh) 用于输出信息和处理信息的方法和装置
CN112699237B (zh) 标签确定方法、设备和存储介质
CN114547307A (zh) 文本向量模型训练方法、文本匹配方法、装置及设备
CN112101029B (zh) 一种基于bert模型的高校导师推荐管理方法
CN111241848B (zh) 一种基于机器学习的文章阅读理解答案检索方法及装置
CN113157918A (zh) 一种基于注意力机制的商品名称短文本分类方法和系统
CN111428486B (zh) 物品信息数据处理方法、装置、介质及电子设备
Kharisma et al. Comparison of Naïve Bayes Algorithm Model Combinations with Term Weighting Techniques in Sentiment Analysis
CN113139558A (zh) 确定物品的多级分类标签的方法和装置
CN114647739B (zh) 实体链指方法、装置、电子设备及存储介质
Nia et al. A framework for a large-scale B2B recommender system
CN112529676A (zh) 一种基于社会级词向量进行税收编码末级分类的方法
CN115827867A (zh) 文本类型的检测方法及装置
CN113468311B (zh) 一种基于知识图谱的复杂问句问答方法、装置及存储介质
CN114970553A (zh) 基于大规模无标注语料的情报分析方法、装置及电子设备
Maada et al. A comparative study of Sentiment Analysis Machine Learning Approaches
CN113378015A (zh) 搜索方法、装置、电子设备、存储介质和程序产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination