CN109766440A

CN109766440A - 一种用于为对象文本描述确定默认分类信息的方法及系统

Info

Publication number: CN109766440A
Application number: CN201811542359.6A
Authority: CN
Inventors: 舒南飞; 刘海法; 赵林; 林文辉; 白雪珂
Original assignee: Aisino Corp
Current assignee: Aisino Corp
Priority date: 2018-12-17
Filing date: 2018-12-17
Publication date: 2019-05-17
Anticipated expiration: 2038-12-17
Also published as: CN109766440B

Abstract

本发明公开了一种用于为对象文本描述确定默认分类信息的方法及系统，其中方法包括：基于分类信息标准，构建对象文本描述的默认分类信息模型；获取已建立对应关系的所述对象文本描述和分类信息作为历史训练数据，对所述默认分类信息模型进行训练，生成经过训练的默认分类信息模型；获取对象文本描述中的非默认分类信息的对象文本描述，当所述非默认分类信息的对象文本描述占描述所述对象名称的对象文本描述次数超过预设比例时，建立所述非默认分类信息的对象文本描述与所述对象的分类信息的可信对应关系；将所述非默认分类信息的对象文本描述与所述对象的分类编码的可信对应关系加入到所述默认分类信息模型，更新所述默认分类信息模型。

Description

一种用于为对象文本描述确定默认分类信息的方法及系统

技术领域

本发明涉及信息处理技术领域，更具体地，涉及一种用于为对象文本描述确定默认分类信息的方法及系统。

背景技术

为便于业务管理，很多行业都需要开展精准分类业务，比如，税务领域基于商品和服务名称的分类编码需求；医药行业基于药品名称的分类编码需求；海关行业基于物品名称的分类编码需求。这些分类需求都可归纳于针对短文本描述名称的多分类问题，且要求分类推荐系统运行初期只能基于所颁发的分类规则，存在部分分类界限不清和需要业务专家进行判定的情况。针对短文本描述的多分类问题，涉及到自然语言处理，数据采集，数据源处理，分类模型建立以及模型更新反馈等，其中数据源处理带来的数据质量提升和模型的持续更新是解决分类编码推荐问题的关键。

现有技术(申请号：201611219407.9)一种获得商品的税收分类编码的方法及系统，提供了一种获得商品的税收分类编码的方法及系统，获得商品数据库中商品的商品信息；获得所述商品信息对应的词元组合；基于所述词元组合，在税收分类数据库中自动进行匹配，获得所述商品的税收分类编码。通过在税收分类数据库中自动进行匹配，从而解决了现有技术中采用的获取商品的税收分类编码的方式，匹配准确度低，在匹配选择上，人工参与易出错且不方便，用户选择税收分类难度较大的技术问题，达到了提高商品的税收分类编码的匹配准确度，降低用户获得商品的税收分类编码的难度，从而方便用户获得税收分类编码的技术效果。然而，由于同一商品名称对应的多个词元组合，多个词元组合匹配的分类编码会有所不同，现有技术无法解决多个词元组合对同一商品名称匹配出不同分类编码的问题。

因此，需要一种技术，以实现为对象文本描述确定默认分类信息的技术。

发明内容

本发明技术方案提供一种用于为对象文本描述确定默认分类信息的方法及系统，以解决如何为对象文本描述确定默认分类信息的方法。

为了解决上述问题，本发明提供了一种用于为对象文本描述确定默认分类信息的方法，所述方法包括：

基于分类信息标准，构建对象文本描述的默认分类信息模型；

获取已建立对应关系的所述对象文本描述和分类信息作为历史训练数据，对所述默认分类信息模型进行训练，生成经过训练的默认分类信息模型；

获取对象文本描述中的非默认分类信息的对象文本描述，当所述非默认分类信息的对象文本描述占描述所述对象名称的对象文本描述次数超过预设比例时，建立所述非默认分类信息的对象文本描述与所述对象的分类信息的可信对应关系；

将所述非默认分类信息的对象文本描述与所述对象的分类编码的可信对应关系加入到所述默认分类信息模型，更新所述默认分类信息模型。

优选地，所述默认分类信息模型包括：贝叶斯分类默认模型、神经网络的分类默认模型。

优选地，当利用所述默认分类信息模型对所述对象进行分类的类别超过预设数值时，计算所述对象不同的对象文本描述的类别数量的信息熵；

当计算出的所述信息熵大于所述类别数量最大信息熵的预设倍数时，从所述历史训练数据中删除所述对象文本描述。

优选地，当非默认分类信息的同一对象文本描述名称占所述对象的所有对象文本描述名称请求次数的第一预设比例时，并且存在一种分类信息超过未选择的分类信息情况数目的第二预设比例和选择次数超过预定次数时，将所述对象文本名称和对应的分类信息加入到更新数据库；

利用所述更新数据库中的所述对象文本名称和分类信息的对应关系，对所述默认分类信息模型进行训练。

优选地，所述对象的对象文本描述为多个。

基于本发明的另一方面，提供一种用于为对象文本描述确定默认分类信息的系统，所述系统包括：

构建单元，用于基于分类信息标准，构建对象文本描述的默认分类信息模型；

训练单元，用于获取已建立对应关系的所述对象文本描述和分类信息作为历史训练数据，对所述默认分类信息模型进行训练，生成经过训练的默认分类信息模型；

建立单元，用于获取对象文本描述中的非默认分类信息的对象文本描述，当所述非默认分类信息的对象文本描述占描述所述对象名称的对象文本描述次数超过预设比例时，建立所述非默认分类信息的对象文本描述与所述对象的分类信息的可信对应关系；

更新单元，用于将所述非默认分类信息的对象文本描述与所述对象的分类编码的可信对应关系加入到所述默认分类信息模型，更新所述默认分类信息模型。

优选地，还包括筛选单元，用于当利用所述默认分类信息模型对所述对象进行分类的类别超过预设数值时，计算所述对象不同的对象文本描述的类别数量的信息熵；

优选地，所述建立单元还用于：当非默认分类信息的同一对象文本描述名称占所述对象的所有对象文本描述名称请求次数的第一预设比例时，并且存在一种分类信息超过未选择的分类信息情况数目的第二预设比例和选择次数超过预定次数时，将所述对象文本名称和对应的分类信息加入到更新数据库；

优选地，所述对象的对象文本描述为多个。

本发明技术方案提供一种用于为对象文本描述确定默认分类信息的方法，方法包括：基于分类信息标准，构建对象文本描述的默认分类信息模型；获取已建立对应关系的对象文本描述和分类信息作为历史训练数据，对默认分类信息模型进行训练，生成经过训练的默认分类信息模型；获取对象文本描述中的非默认分类信息的对象文本描述，当非默认分类信息的对象文本描述占描述对象名称的对象文本描述次数超过预设比例时，建立非默认分类信息的对象文本描述与对象的分类信息的可信对应关系；将非默认分类信息的对象文本描述与对象的分类编码的可信对应关系加入到默认分类信息模型，更新默认分类信息模型。本发明技术方案是基于分类编码规则集的基础上构建模型，利用线上运营采集数据和反馈数据对模型进行不断更新改进。本发明技术方案提出的模型训练数据集的构成方式和反馈数据集的加入训练数据和验证数据的方式，使得具有解决本问题的独特性。

附图说明

通过参考下面的附图，可以更为完整地理解本发明的示例性实施方式：

图1为根据本发明优选实施方式的一种用于为对象文本描述确定默认分类信息的方法流程图；以及

图2为根据本发明优选实施方式的一种用于为对象文本描述确定默认分类信息的系统结构图。

具体实施方式

现在参考附图介绍本发明的示例性实施方式，然而，本发明可以用许多不同的形式来实施，并且不局限于此处描述的实施例，提供这些实施例是为了详尽地且完全地公开本发明，并且向所属技术领域的技术人员充分传达本发明的范围。对于表示在附图中的示例性实施方式中的术语并不是对本发明的限定。在附图中，相同的单元/元件使用相同的附图标记。

除非另有说明，此处使用的术语(包括科技术语)对所属技术领域的技术人员具有通常的理解含义。另外，可以理解的是，以通常使用的词典限定的术语，应当被理解为与其相关领域的语境具有一致的含义，而不应该被理解为理想化的或过于正式的意义。

图1为根据本发明优选实施方式的一种用于为对象文本描述确定默认分类信息的方法流程图。本申请实施方式提供为对象文本描述确定默认分类信息的方法，本申请以对象的文本描述分类编码进行举例说明，本申请解决编码对象的多个短对象文本描述名称下的多分类编码问题，即在给定对象文本描述输入下，按分类编码出现的概率排序输出分类编码列表供客户端选择。本申请所提出的为对象文本描述确定默认分类信息的方法，在上线初期基于行业颁布的分类编码规则，使用关键字和对规则文本描述分词，构建分类模型；分类编码推荐系统上线后，收集线上系统短文本描述名称和所选择分类编码数据作为系统历史数据，将分类编码规则集数据和推荐系统历史数据按一定的权重比例相整合作为训练数据，重新生成分类编码推荐模型；分类编码系统上线运行，收集记录选择未推荐编码的短文本描述，在通过系统反馈短文本名称和分类编码质量判定后，作为可信的短文本名称和分类编码对应关系。将所得可信对应关系加入到现有模型训练结果集和推荐效果验证集中，生成新的分类编码推荐模型。新的分类编码推荐模型，经验证集验证后准确率优于现有模型时，即可将新的分类编码推荐模型上线使用。至此，完成分类编码推荐模型和系统的更新。如图1所示，一种用于为对象文本描述确定默认分类信息的方法，方法包括：

优选地，在步骤101：基于分类信息标准，构建对象文本描述的默认分类信息模型。优选地，默认分类信息模型包括：贝叶斯分类默认模型、神经网络的分类信息默认模型。优选地，对象的对象文本描述为多个。

本申请提出的默认分类信息模型系统上线运行前，模型的训练数据集来源于行业颁发的分类编码规则/规范，其通常包含分类编码名称，分类编码描述，分类编码关键字和分类编码。一般情况下，分类编码为多个，且分类有大类和小类。位于统一较大类的小类间，文本描述和语义比较相似，因此，能准确的区分较小分类较为困难。依据分类编码规则，构建短文本描述和分类编码的对应关系，以此作为分类信息默认模型的训练结果集。其中分类信息默认模型可选择贝叶斯分类信息默认模型，并且可根据计算效率、实现复杂程度以及可扩展性等进行模型选择识别速度和准确率。但由于申请所提出方法会使用客户端的选择数据作为反馈，分类信息默认模型的分类效果可持续得到改善。

优选地，在步骤102：获取已建立对应关系的对象文本描述和分类信息作为历史训练数据，对默认分类信息模型进行训练，生成经过训练的默认分类信息模型。

本申请默认分类信息模型上线使用后，可根据用户输入的短文本描述，短文本描述分词结果集作为模型输入，产生按概率从大到小排序的分类编码列表供用户选择。用户根据所输入短文本描述和分类编码作为分类编码系统上线运行后的实际数据存储在服务端，供模型改进使用。

优选地，在步骤103：获取对象文本描述中的非默认分类信息的对象文本描述，当非默认分类信息的对象文本描述占描述对象名称的对象文本描述次数超过预设比例时，建立非默认分类信息的对象文本描述与对象的分类信息的可信对应关系。

本申请的默认分类信息模型上线运行一段时间后，服务端会收集到一定量的对象文本描述和分类信息编码的对应关系。通过计算同一短文本描述，不同分类编码下的记录数的信息熵，当所得信息熵大于该不同分类编码个数的最大信息熵的预设倍数，如0.2倍，或更小的倍数(预设倍数为经验数据，该值越小，表述该文本描述对应的分类编码越确定)时，对象文本描述和分类编码记录不采纳为可加入新的模型训练的推荐系统所产生的历史数据；当所得信息熵小于该不同分类编码个数的最大信息熵的预设倍数，如0.2倍时的短文本描述和分类编码记录可作为新的模型训练的由推荐系统产生的历史数据。本申请提出分类编码推荐系统，提升默认分类信息模型分类的准确率。

优选地，在步骤104：将非默认分类信息的对象文本描述与对象的分类编码的可信对应关系加入到默认分类信息模型，更新默认分类信息模型。

优选地，当利用默认分类信息模型对对象进行分类的类别超过预设数值时，计算对象不同的对象文本描述的类别数量的信息熵；当计算出的信息熵大于类别数量最大信息熵的预设倍数时，从历史训练数据中删除对象文本描述。

优选地，当非默认分类信息的同一对象文本描述名称占对象的所有对象文本描述名称请求次数的第一预设比例时，并且存在一种分类信息超过未选择的分类信息情况数目的第二预设比例和选择次数超过预定次数时，将对象文本名称和对应的分类信息加入到更新数据库；利用更新数据库中的对象文本名称和分类信息的对应关系，对默认分类信息模型进行训练。

本申请，默认分类信息模型上线运行中，收集标记未选择系统推荐分类编码的情况记录。对该种情况，当未选择推荐编码的同一短文本描述名称占该名称请求次数的第一预设比例，如20％或30％时，而且未选择推荐编码的所收集的反馈情况中，存在一种编码超过未选择编码情况数目的第二预设比例，如80％、70％或90％时，且该编码选择次数超过一定预定次数，本申请设为100，可将该对象文本名称和分类编码的映射关系加入到模型训练数据集和模型验证集中，重新生成备选分类编码推荐模型，本申请实现了默认分类信息模型的准确率。

备选默认分类信息模型，经新的模型验证集，验证后，准确率提升的情况下，即可替换系统现有的默认分类信息模型。

本申请基于规则集数据和分类编码采集数据，按一定的权重比例相整合后形成分类推荐模型训练数据。系统采集的客户端分类编码数据质量的判断，通过计算同一名称，在类别大于5(5取决于推荐分类编码的个数)，且计算同一名称不同分类类别数量的信息熵，当计算所得信息熵大于该类别数最大信息熵的0.2倍(0.2为设定的可行经验阈值)时，删除该短文本描述名称的历史数据，不作为分类编码推荐模型的训练数据。

模型持续更新，分类编码系统对客户端实际上线的分类编码选择情况进行收集。对未选择推荐分类编码的情况，进行记录存储，经对反馈数据质量判定筛选后，在现有模型基础上，更新分类推荐模型，并对上线系统进行平滑切换。

客户端分类编码选择数据反馈质量的控制。当未选择推荐编码的同一短文本描述名称占该名称请求次数的20％时，而且未选择推荐编码的情况中，存在一种编码超过未选择编码情况数目的80％时且该编码选择次数超过100时，可将该短文本名称和分类编码的映射关系加入到模型更新数据集中，重新训练模型。

本申请提出的一种用于为对象文本描述确定默认分类信息的方法，可以基于规则集建设，并随着分类推荐系统的持续使用，不断的提升分类编码推荐的准确性，可用于构建税务领域的商品和服务税收分类编码推荐系统，简化企业开票时的税收分类编码选择；用于海关领域的《商品名称及编码协调制度的国际公约》的分类编码推荐；可用于医药行业的药品分类。本申请可以根据短文本描述的名称，返回可能性较高的分类编码供客户端选择；所提出方法可推荐效果持续改进，在反馈数据质量判断和模型测试集检验通过后，可对推荐模型进行更新，提升推荐准确率。

图2为根据本发明优选实施方式的一种用于为对象文本描述确定默认分类信息的系统结构图。如图2所示，一种用于为对象文本描述确定默认分类信息的系统，系统包括：

构建单元201，用于基于分类信息标准，构建对象文本描述的默认分类信息模型。优选地，默认分类信息模型包括：贝叶斯分类默认模型、神经网络的分类信息默认模型。优选地，对象的对象文本描述为多个。

训练单元202，用于获取已建立对应关系的对象文本描述和分类信息作为历史训练数据，对默认分类信息模型进行训练，生成经过训练的默认分类信息模型。

建立单元203，用于获取对象文本描述中的非默认分类信息的对象文本描述，当非默认分类信息的对象文本描述占描述对象名称的对象文本描述次数超过预设比例时，建立非默认分类信息的对象文本描述与对象的分类信息的可信对应关系。

更新单元204，用于将非默认分类信息的对象文本描述与对象的分类编码的可信对应关系加入到默认分类信息模型，更新默认分类信息模型。

优选地，还包括筛选单元，用于当利用默认分类信息模型对对象进行分类的类别超过预设数值时，计算对象不同的对象文本描述的类别数量的信息熵；当计算出的信息熵大于类别数量最大信息熵的预设倍数时，从历史训练数据中删除对象文本描述。

优选地，建立单元还用于：当非默认分类信息的同一对象文本描述名称占对象的所有对象文本描述名称请求次数的第一预设比例时，并且存在一种分类信息超过未选择的分类信息情况数目的第二预设比例和选择次数超过预定次数时，将对象文本名称和对应的分类信息加入到更新数据库；利用更新数据库中的对象文本名称和分类信息的对应关系，对默认分类信息模型进行训练。

已经通过参考少量实施方式描述了本发明。然而，本领域技术人员所公知的，正如附带的专利权利要求所限定的，除了本发明以上公开的其他的实施例等同地落在本发明的范围内。

通常地，在权利要求中使用的所有术语都根据他们在技术领域的通常含义被解释，除非在其中被另外明确地定义。所有的参考“一个/所述/该[装置、组件等]”都被开放地解释为所述装置、组件等中的至少一个实例，除非另外明确地说明。这里公开的任何方法的步骤都没必要以公开的准确的顺序运行，除非明确地说明。

Claims

1.一种用于为对象文本描述确定默认分类信息的方法，所述方法包括：

2.根据权利要求1所述的方法，所述默认分类信息模型包括：贝叶斯分类默认模型、神经网络的分类默认模型。

3.根据权利要求1所述的方法，当利用所述默认分类信息模型对所述对象进行分类的类别超过预设数值时，计算所述对象不同的对象文本描述的类别数量的信息熵；

4.根据权利要求1所述的方法，当非默认分类信息的同一对象文本描述名称占所述对象的所有对象文本描述名称请求次数的第一预设比例时，并且存在一种分类信息超过未选择的分类信息情况数目的第二预设比例和选择次数超过预定次数时，将所述对象文本名称和对应的分类信息加入到更新数据库；

5.根据权利要求1所述的方法，所述对象的对象文本描述为多个。

6.一种用于为对象文本描述确定默认分类信息的系统，所述系统包括：

7.根据权利要求6所述的系统，所述默认分类信息模型包括：贝叶斯分类默认模型、神经网络的分类默认模型。

8.根据权利要求6所述的系统，还包括筛选单元，用于当利用所述默认分类信息模型对所述对象进行分类的类别超过预设数值时，计算所述对象不同的对象文本描述的类别数量的信息熵；

9.根据权利要求6所述的系统，所述建立单元还用于：当非默认分类信息的同一对象文本描述名称占所述对象的所有对象文本描述名称请求次数的第一预设比例时，并且存在一种分类信息超过未选择的分类信息情况数目的第二预设比例和选择次数超过预定次数时，将所述对象文本名称和对应的分类信息加入到更新数据库；

10.根据权利要求6所述的系统，所述对象的对象文本描述为多个。