CN112529676A - 一种基于社会级词向量进行税收编码末级分类的方法 - Google Patents
一种基于社会级词向量进行税收编码末级分类的方法 Download PDFInfo
- Publication number
- CN112529676A CN112529676A CN202011526181.3A CN202011526181A CN112529676A CN 112529676 A CN112529676 A CN 112529676A CN 202011526181 A CN202011526181 A CN 202011526181A CN 112529676 A CN112529676 A CN 112529676A
- Authority
- CN
- China
- Prior art keywords
- social
- final
- word
- classification
- tax
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 239000013598 vector Substances 0.000 title claims abstract description 54
- 238000000034 method Methods 0.000 title claims abstract description 23
- 230000011218 segmentation Effects 0.000 claims abstract description 20
- 238000004364 calculation method Methods 0.000 claims description 5
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000007635 classification algorithm Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/12—Accounting
- G06Q40/123—Tax preparation or submission
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/374—Thesaurus
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Business, Economics & Management (AREA)
- Accounting & Taxation (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Finance (AREA)
- General Health & Medical Sciences (AREA)
- Development Economics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- Technology Law (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种基于社会级词向量进行税收编码末级分类的方法,包括:第一步骤:选取社会级词向量模型;第二步骤:利用选取的社会级词向量模型生成分词专用词典;第三步骤:利用税收分类编码末级分类生成末级特征库;第四步骤:利用末级特征库计算每个商品的分数。
Description
技术领域
本发明涉及税收领域,具体涉及一种基于社会级词向量进行税收编码末级分类的方法。
背景技术
每种商品都有对应的税收分类编码,但是税收分类编码分类多达3000多种,如何从3000多种分类编码中确定某一商品的正确税收分类编码是一件非常困难的事情。单靠人工选择,费时费力的同时,准确率也不高。因此,商品匹配税收分类编码这个问题需要有效解决。
发明内容
本发明所要解决的技术问题是针对现有技术中存在上述缺陷,提供一种能够利用社会级词向量解决少标注多分类问题的方法。
根据本发明,提供了一种基于社会级词向量进行税收编码末级分类的方法,包括:
第一步骤:选取社会级词向量模型;
第二步骤:利用选取的社会级词向量模型生成分词专用词典;
第三步骤:利用税收分类编码末级分类生成末级特征库;
第四步骤:利用末级特征库计算每个商品的分数。
优选地,所述的基于社会级词向量进行税收编码末级分类的方法还包括第五步骤:对计算的分数进行优化;其中,相对于在类别里的出现的次数少的特征,使得在类别里的出现的次数多的特征分数减小。
优选地,选取百度词向量模型作为社会级词向量模型。
优选地,选取腾讯词向量模型作为社会级词向量模型。
优选地,在第二步骤中,对于商品库中的商品进行分词,根据社会级词向量模型选取有词向量的词,并且依据选取的有词向量的各词出现的频次进行依次排序,排序后的序列作为分词专用词典。
优选地,在第三步骤中,针对税收分类编码的末级分类提取特征,并利用分词专用词典对提取的特征进行分词后赋予权重,生成末级特征库。
优选地,在第四步骤中,针对多个商品分别与末级特征库中的末级特征分别进行笛卡尔积的相似度计算,以得到每个商品的分数。
优选地,分词专用词典中的词语所属分类有可能不同于缺少分词专用词典进行分词的分类结果。
本发明的方法利用社会级词向量进行语义相似度计算,解决少标注多分类问题,并且提高准确率;利用该方法,选取评分最大的前五个税收分类作为分类结果,经测试其准确率可以高达90%。
附图说明
结合附图,并通过参考下面的详细描述,将会更容易地对本发明有更完整的理解并且更容易地理解其伴随的优点和特征,其中:
图1示意性地示出了根据本发明优选实施例的基于社会级词向量进行税收编码末级分类的方法的示意流程图。
图2示意性地示出了根据本发明优选实施例的基于社会级词向量进行税收编码末级分类的方法的计算示意。
需要说明的是,附图用于说明本发明,而非限制本发明。注意,表示结构的附图可能并非按比例绘制。并且,附图中,相同或者类似的元件标有相同或者类似的标号。
具体实施方式
为了使本发明的内容更加清楚和易懂,下面结合具体实施例和附图对本发明的内容进行详细描述。
本申请的发明人发现,税收分类编码问题可归结为一种少标注多分类的问题,因此解决了少标注多分类问题的同时,商品匹配税收分类编码问题自然就解决了。
对于缺少标注,并且分类较多的文本,由于其干扰大,导致很难对其进行准确分类。比如税收编码分类编码问题,由于标注文本较少,而分类数目达3000种以上,导致分类极其困难。由于社会级词向量具有聚类特性,可以将一类物体聚在一起,因此可以有效解决少标注的问题,因此本发明针对标注少、分类多的情况,采用社会级词向量与税收分类末级特征进行语义相似度计算,得到分类结果,从而解决少标注多分类问题。
其中,词向量(Word embedding),是自然语言处理(NLP)中一种语言模型,将一个词映射到高维空间的一种模型。
图1示意性地示出了根据本发明优选实施例的基于社会级词向量进行税收编码末级分类的方法的示意流程图。
如图1所示,根据本发明优选实施例的基于社会级词向量进行税收编码末级分类的方法包括:
第一步骤S1:选取社会级词向量模型;
由于社会级词向量具有聚类特性,因此选择一个特征词相当于选择了一个词团,从而可以加速分类算法。例如,在具体实施例中,本发明分别选取百度词向量模型和腾讯词向量模型,作为社会级词向量模型,进行后续操作。
第二步骤S2:利用选取的社会级词向量模型生成分词专用词典;
例如,分词专用词典中的词语所属分类有可能不同于缺少分词专用词典进行分词的分类结果。
具体地,在第二步骤S2中,对于商品库中的商品进行分词,根据社会级词向量模型选取有词向量的词,并且依据选取的有词向量的各词出现的频次进行依次排序,排序后的序列作为分词专用词典。例如,“苹果笔记本”,普通分词后,得到“苹果”和“笔记本”,分别属于水果和书本类,但是实际分类应该划分为计算机整机类,因此将“苹果笔记本”作为一个专用词语,可以准确定位到其分类。
第三步骤S3:利用税收分类编码末级分类生成末级特征库;
在第三步骤S3中,针对税收分类编码的末级分类提取特征,并利用分词专用词典对提取的特征进行分词后赋予权重(具体地,基于排序赋予权重),生成末级特征库。例如,“苹果笔记本”作为“电子计算机整机”类别中的一个特征,并赋权重为5,这样如果商品中出现“苹果笔记本”,就可以准确划分到“电子计算机整机”的类别中。
第四步骤S4:利用末级特征库计算每个商品的分数;
在具体实施例中,在第四步骤S4中,可以同时针对多个商品分别与末级特征库中的末级特征分别进行笛卡尔积的相似度计算,以得到每个商品的分数。例如如图2所示,“森海塞尔专业录音监听耳机黑色”经过分词得到“森海塞尔专业录音监听耳机黑色”六个词语,将这六个词语分别与所有末级特征进行语义相似度计算,分别得到每个词对应的分数最高的top4末级特征,对于得到的24个末级特征,得到分数最高的一种末级分类作为该商品对应的末级分类。
第五步骤S5:对计算的分数进行优化。
在具体实施例中,由于一个特征可能出现在多个类别里,那这个特征是弱特征,需要将其权重降低,相反,一个特征出现在类别里的次数少,那么权重相应提高,这样可以防止商品名称与特征的过拟合现象。由此,相对于在类别里的出现的次数少的特征,使得在类别里的出现的次数多的特征分数减小。
本发明的方法利用社会级词向量进行语义相似度计算,解决少标注多分类问题,并且提高准确率;利用该方法,选取评分最大的前五个税收分类作为分类结果,经测试其准确率可以高达90%。
此外,需要说明的是,除非特别指出,否则说明书中的术语“第一”、“第二”、“第三”等描述仅仅用于区分说明书中的各个组件、元素、步骤等,而不是用于表示各个组件、元素、步骤之间的逻辑关系或者顺序关系等。
可以理解的是,虽然本发明已以较佳实施例披露如上,然而上述实施例并非用以限定本发明。对于任何熟悉本领域的技术人员而言,在不脱离本发明技术方案范围情况下,都可利用上述揭示的技术内容对本发明技术方案作出许多可能的变动和修饰,或修改为等同变化的等效实施例。因此,凡是未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施例所做的任何简单修改、等同变化及修饰,均仍属于本发明技术方案保护的范围内。
Claims (8)
1.一种基于社会级词向量进行税收编码末级分类的方法,其特征在于包括:
第一步骤:选取社会级词向量模型;
第二步骤:利用选取的社会级词向量模型生成分词专用词典;
第三步骤:利用税收分类编码末级分类生成末级特征库;
第四步骤:利用末级特征库计算每个商品的分数。
2.根据权利要求1所述的基于社会级词向量进行税收编码末级分类的方法,其特征在于还包括:
第五步骤:对计算的分数进行优化;其中,相对于在类别里的出现的次数少的特征,使得在类别里的出现的次数多的特征分数减小。
3.根据权利要求1或2所述的基于社会级词向量进行税收编码末级分类的方法,其特征在于,选取百度词向量模型作为社会级词向量模型。
4.根据权利要求1或2所述的基于社会级词向量进行税收编码末级分类的方法,其特征在于,选取腾讯词向量模型作为社会级词向量模型。
5.根据权利要求1或2所述的基于社会级词向量进行税收编码末级分类的方法,其特征在于,在第二步骤中,对于商品库中的商品进行分词,根据社会级词向量模型选取有词向量的词,并且依据选取的有词向量的各词出现的频次进行依次排序,排序后的序列作为分词专用词典。
6.根据权利要求1或2所述的基于社会级词向量进行税收编码末级分类的方法,其特征在于,在第三步骤中,针对税收分类编码的末级分类提取特征,并利用分词专用词典对提取的特征进行分词后赋予权重,生成末级特征库。
7.根据权利要求1或2所述的基于社会级词向量进行税收编码末级分类的方法,其特征在于,在第四步骤中,针对多个商品分别与末级特征库中的末级特征分别进行笛卡尔积的相似度计算,以得到每个商品的分数。
8.根据权利要求1或2所述的基于社会级词向量进行税收编码末级分类的方法,其特征在于,分词专用词典中的词语所属分类有可能不同于缺少分词专用词典进行分词的分类结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011526181.3A CN112529676A (zh) | 2020-12-22 | 2020-12-22 | 一种基于社会级词向量进行税收编码末级分类的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011526181.3A CN112529676A (zh) | 2020-12-22 | 2020-12-22 | 一种基于社会级词向量进行税收编码末级分类的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112529676A true CN112529676A (zh) | 2021-03-19 |
Family
ID=75002431
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011526181.3A Pending CN112529676A (zh) | 2020-12-22 | 2020-12-22 | 一种基于社会级词向量进行税收编码末级分类的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112529676A (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104102706A (zh) * | 2014-07-10 | 2014-10-15 | 西安交通大学 | 一种基于层次聚类的可疑纳税人检测方法 |
CN106095759A (zh) * | 2016-06-20 | 2016-11-09 | 西安交通大学 | 一种基于启发式规则的发票货物归类方法 |
CN108241677A (zh) * | 2016-12-26 | 2018-07-03 | 航天信息股份有限公司 | 一种获得商品的税收分类编码的方法及系统 |
CN109359195A (zh) * | 2018-10-19 | 2019-02-19 | 杭州推点科技发展有限公司 | 一种hs编码转译方法 |
CN110175235A (zh) * | 2019-04-23 | 2019-08-27 | 苏宁易购集团股份有限公司 | 基于神经网络的智能商品税分类编码方法及系统 |
US20190370273A1 (en) * | 2018-06-05 | 2019-12-05 | Sap Se | System, computer-implemented method and computer program product for information retrieval |
CN111708888A (zh) * | 2020-06-16 | 2020-09-25 | 腾讯科技(深圳)有限公司 | 基于人工智能的分类方法、装置、终端和存储介质 |
-
2020
- 2020-12-22 CN CN202011526181.3A patent/CN112529676A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104102706A (zh) * | 2014-07-10 | 2014-10-15 | 西安交通大学 | 一种基于层次聚类的可疑纳税人检测方法 |
CN106095759A (zh) * | 2016-06-20 | 2016-11-09 | 西安交通大学 | 一种基于启发式规则的发票货物归类方法 |
CN108241677A (zh) * | 2016-12-26 | 2018-07-03 | 航天信息股份有限公司 | 一种获得商品的税收分类编码的方法及系统 |
US20190370273A1 (en) * | 2018-06-05 | 2019-12-05 | Sap Se | System, computer-implemented method and computer program product for information retrieval |
CN109359195A (zh) * | 2018-10-19 | 2019-02-19 | 杭州推点科技发展有限公司 | 一种hs编码转译方法 |
CN110175235A (zh) * | 2019-04-23 | 2019-08-27 | 苏宁易购集团股份有限公司 | 基于神经网络的智能商品税分类编码方法及系统 |
CN111708888A (zh) * | 2020-06-16 | 2020-09-25 | 腾讯科技(深圳)有限公司 | 基于人工智能的分类方法、装置、终端和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11055557B2 (en) | Automated extraction of product attributes from images | |
CN107633007B (zh) | 一种基于层次化ap聚类的商品评论数据标签化系统和方法 | |
CN107862046B (zh) | 一种基于短文本相似度的税务商品编码分类方法及系统 | |
US10089581B2 (en) | Data driven classification and data quality checking system | |
US10678769B2 (en) | Artificial intelligence system and method for auto-naming customer tree nodes in a data structure | |
CN111339260A (zh) | 一种基于bert和qa思想的细粒度情感分析方法 | |
CN113988157A (zh) | 语义检索网络训练方法、装置、电子设备及存储介质 | |
CN114722198A (zh) | 产品分类编码确定方法、系统及相关装置 | |
CN113987180A (zh) | 用于输出信息和处理信息的方法和装置 | |
CN112699237B (zh) | 标签确定方法、设备和存储介质 | |
CN114547307A (zh) | 文本向量模型训练方法、文本匹配方法、装置及设备 | |
CN112101029B (zh) | 一种基于bert模型的高校导师推荐管理方法 | |
CN111241848B (zh) | 一种基于机器学习的文章阅读理解答案检索方法及装置 | |
CN113157918A (zh) | 一种基于注意力机制的商品名称短文本分类方法和系统 | |
CN111428486B (zh) | 物品信息数据处理方法、装置、介质及电子设备 | |
Kharisma et al. | Comparison of Naïve Bayes Algorithm Model Combinations with Term Weighting Techniques in Sentiment Analysis | |
CN113139558A (zh) | 确定物品的多级分类标签的方法和装置 | |
CN114647739B (zh) | 实体链指方法、装置、电子设备及存储介质 | |
Nia et al. | A framework for a large-scale B2B recommender system | |
CN112529676A (zh) | 一种基于社会级词向量进行税收编码末级分类的方法 | |
CN115827867A (zh) | 文本类型的检测方法及装置 | |
CN113468311B (zh) | 一种基于知识图谱的复杂问句问答方法、装置及存储介质 | |
CN114970553A (zh) | 基于大规模无标注语料的情报分析方法、装置及电子设备 | |
Maada et al. | A comparative study of Sentiment Analysis Machine Learning Approaches | |
CN113378015A (zh) | 搜索方法、装置、电子设备、存储介质和程序产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |