CN109766440A - 一种用于为对象文本描述确定默认分类信息的方法及系统 - Google Patents

一种用于为对象文本描述确定默认分类信息的方法及系统 Download PDF

Info

Publication number
CN109766440A
CN109766440A CN201811542359.6A CN201811542359A CN109766440A CN 109766440 A CN109766440 A CN 109766440A CN 201811542359 A CN201811542359 A CN 201811542359A CN 109766440 A CN109766440 A CN 109766440A
Authority
CN
China
Prior art keywords
default
classification information
classification
information
object text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811542359.6A
Other languages
English (en)
Other versions
CN109766440B (zh
Inventor
舒南飞
刘海法
赵林
林文辉
白雪珂
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Aisino Corp
Original Assignee
Aisino Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Aisino Corp filed Critical Aisino Corp
Priority to CN201811542359.6A priority Critical patent/CN109766440B/zh
Publication of CN109766440A publication Critical patent/CN109766440A/zh
Application granted granted Critical
Publication of CN109766440B publication Critical patent/CN109766440B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种用于为对象文本描述确定默认分类信息的方法及系统,其中方法包括:基于分类信息标准,构建对象文本描述的默认分类信息模型;获取已建立对应关系的所述对象文本描述和分类信息作为历史训练数据,对所述默认分类信息模型进行训练,生成经过训练的默认分类信息模型;获取对象文本描述中的非默认分类信息的对象文本描述,当所述非默认分类信息的对象文本描述占描述所述对象名称的对象文本描述次数超过预设比例时,建立所述非默认分类信息的对象文本描述与所述对象的分类信息的可信对应关系;将所述非默认分类信息的对象文本描述与所述对象的分类编码的可信对应关系加入到所述默认分类信息模型,更新所述默认分类信息模型。

Description

一种用于为对象文本描述确定默认分类信息的方法及系统
技术领域
本发明涉及信息处理技术领域,更具体地,涉及一种用于为对象文本描述确定默认分类信息的方法及系统。
背景技术
为便于业务管理,很多行业都需要开展精准分类业务,比如,税务领域基于商品和服务名称的分类编码需求;医药行业基于药品名称的分类编码需求;海关行业基于物品名称的分类编码需求。这些分类需求都可归纳于针对短文本描述名称的多分类问题,且要求分类推荐系统运行初期只能基于所颁发的分类规则,存在部分分类界限不清和需要业务专家进行判定的情况。针对短文本描述的多分类问题,涉及到自然语言处理,数据采集,数据源处理,分类模型建立以及模型更新反馈等,其中数据源处理带来的数据质量提升和模型的持续更新是解决分类编码推荐问题的关键。
现有技术(申请号:201611219407.9)一种获得商品的税收分类编码的方法及系统,提供了一种获得商品的税收分类编码的方法及系统,获得商品数据库中商品的商品信息;获得所述商品信息对应的词元组合;基于所述词元组合,在税收分类数据库中自动进行匹配,获得所述商品的税收分类编码。通过在税收分类数据库中自动进行匹配,从而解决了现有技术中采用的获取商品的税收分类编码的方式,匹配准确度低,在匹配选择上,人工参与易出错且不方便,用户选择税收分类难度较大的技术问题,达到了提高商品的税收分类编码的匹配准确度,降低用户获得商品的税收分类编码的难度,从而方便用户获得税收分类编码的技术效果。然而,由于同一商品名称对应的多个词元组合,多个词元组合匹配的分类编码会有所不同,现有技术无法解决多个词元组合对同一商品名称匹配出不同分类编码的问题。
因此,需要一种技术,以实现为对象文本描述确定默认分类信息的技术。
发明内容
本发明技术方案提供一种用于为对象文本描述确定默认分类信息的方法及系统,以解决如何为对象文本描述确定默认分类信息的方法。
为了解决上述问题,本发明提供了一种用于为对象文本描述确定默认分类信息的方法,所述方法包括:
基于分类信息标准,构建对象文本描述的默认分类信息模型;
获取已建立对应关系的所述对象文本描述和分类信息作为历史训练数据,对所述默认分类信息模型进行训练,生成经过训练的默认分类信息模型;
获取对象文本描述中的非默认分类信息的对象文本描述,当所述非默认分类信息的对象文本描述占描述所述对象名称的对象文本描述次数超过预设比例时,建立所述非默认分类信息的对象文本描述与所述对象的分类信息的可信对应关系;
将所述非默认分类信息的对象文本描述与所述对象的分类编码的可信对应关系加入到所述默认分类信息模型,更新所述默认分类信息模型。
优选地,所述默认分类信息模型包括:贝叶斯分类默认模型、神经网络的分类默认模型。
优选地,当利用所述默认分类信息模型对所述对象进行分类的类别超过预设数值时,计算所述对象不同的对象文本描述的类别数量的信息熵;
当计算出的所述信息熵大于所述类别数量最大信息熵的预设倍数时,从所述历史训练数据中删除所述对象文本描述。
优选地,当非默认分类信息的同一对象文本描述名称占所述对象的所有对象文本描述名称请求次数的第一预设比例时,并且存在一种分类信息超过未选择的分类信息情况数目的第二预设比例和选择次数超过预定次数时,将所述对象文本名称和对应的分类信息加入到更新数据库;
利用所述更新数据库中的所述对象文本名称和分类信息的对应关系,对所述默认分类信息模型进行训练。
优选地,所述对象的对象文本描述为多个。
基于本发明的另一方面,提供一种用于为对象文本描述确定默认分类信息的系统,所述系统包括:
构建单元,用于基于分类信息标准,构建对象文本描述的默认分类信息模型;
训练单元,用于获取已建立对应关系的所述对象文本描述和分类信息作为历史训练数据,对所述默认分类信息模型进行训练,生成经过训练的默认分类信息模型;
建立单元,用于获取对象文本描述中的非默认分类信息的对象文本描述,当所述非默认分类信息的对象文本描述占描述所述对象名称的对象文本描述次数超过预设比例时,建立所述非默认分类信息的对象文本描述与所述对象的分类信息的可信对应关系;
更新单元,用于将所述非默认分类信息的对象文本描述与所述对象的分类编码的可信对应关系加入到所述默认分类信息模型,更新所述默认分类信息模型。
优选地,所述默认分类信息模型包括:贝叶斯分类默认模型、神经网络的分类默认模型。
优选地,还包括筛选单元,用于当利用所述默认分类信息模型对所述对象进行分类的类别超过预设数值时,计算所述对象不同的对象文本描述的类别数量的信息熵;
当计算出的所述信息熵大于所述类别数量最大信息熵的预设倍数时,从所述历史训练数据中删除所述对象文本描述。
优选地,所述建立单元还用于:当非默认分类信息的同一对象文本描述名称占所述对象的所有对象文本描述名称请求次数的第一预设比例时,并且存在一种分类信息超过未选择的分类信息情况数目的第二预设比例和选择次数超过预定次数时,将所述对象文本名称和对应的分类信息加入到更新数据库;
利用所述更新数据库中的所述对象文本名称和分类信息的对应关系,对所述默认分类信息模型进行训练。
优选地,所述对象的对象文本描述为多个。
本发明技术方案提供一种用于为对象文本描述确定默认分类信息的方法,方法包括:基于分类信息标准,构建对象文本描述的默认分类信息模型;获取已建立对应关系的对象文本描述和分类信息作为历史训练数据,对默认分类信息模型进行训练,生成经过训练的默认分类信息模型;获取对象文本描述中的非默认分类信息的对象文本描述,当非默认分类信息的对象文本描述占描述对象名称的对象文本描述次数超过预设比例时,建立非默认分类信息的对象文本描述与对象的分类信息的可信对应关系;将非默认分类信息的对象文本描述与对象的分类编码的可信对应关系加入到默认分类信息模型,更新默认分类信息模型。本发明技术方案是基于分类编码规则集的基础上构建模型,利用线上运营采集数据和反馈数据对模型进行不断更新改进。本发明技术方案提出的模型训练数据集的构成方式和反馈数据集的加入训练数据和验证数据的方式,使得具有解决本问题的独特性。
附图说明
通过参考下面的附图,可以更为完整地理解本发明的示例性实施方式:
图1为根据本发明优选实施方式的一种用于为对象文本描述确定默认分类信息的方法流程图;以及
图2为根据本发明优选实施方式的一种用于为对象文本描述确定默认分类信息的系统结构图。
具体实施方式
现在参考附图介绍本发明的示例性实施方式,然而,本发明可以用许多不同的形式来实施,并且不局限于此处描述的实施例,提供这些实施例是为了详尽地且完全地公开本发明,并且向所属技术领域的技术人员充分传达本发明的范围。对于表示在附图中的示例性实施方式中的术语并不是对本发明的限定。在附图中,相同的单元/元件使用相同的附图标记。
除非另有说明,此处使用的术语(包括科技术语)对所属技术领域的技术人员具有通常的理解含义。另外,可以理解的是,以通常使用的词典限定的术语,应当被理解为与其相关领域的语境具有一致的含义,而不应该被理解为理想化的或过于正式的意义。
图1为根据本发明优选实施方式的一种用于为对象文本描述确定默认分类信息的方法流程图。本申请实施方式提供为对象文本描述确定默认分类信息的方法,本申请以对象的文本描述分类编码进行举例说明,本申请解决编码对象的多个短对象文本描述名称下的多分类编码问题,即在给定对象文本描述输入下,按分类编码出现的概率排序输出分类编码列表供客户端选择。本申请所提出的为对象文本描述确定默认分类信息的方法,在上线初期基于行业颁布的分类编码规则,使用关键字和对规则文本描述分词,构建分类模型;分类编码推荐系统上线后,收集线上系统短文本描述名称和所选择分类编码数据作为系统历史数据,将分类编码规则集数据和推荐系统历史数据按一定的权重比例相整合作为训练数据,重新生成分类编码推荐模型;分类编码系统上线运行,收集记录选择未推荐编码的短文本描述,在通过系统反馈短文本名称和分类编码质量判定后,作为可信的短文本名称和分类编码对应关系。将所得可信对应关系加入到现有模型训练结果集和推荐效果验证集中,生成新的分类编码推荐模型。新的分类编码推荐模型,经验证集验证后准确率优于现有模型时,即可将新的分类编码推荐模型上线使用。至此,完成分类编码推荐模型和系统的更新。如图1所示,一种用于为对象文本描述确定默认分类信息的方法,方法包括:
优选地,在步骤101:基于分类信息标准,构建对象文本描述的默认分类信息模型。优选地,默认分类信息模型包括:贝叶斯分类默认模型、神经网络的分类信息默认模型。优选地,对象的对象文本描述为多个。
本申请提出的默认分类信息模型系统上线运行前,模型的训练数据集来源于行业颁发的分类编码规则/规范,其通常包含分类编码名称,分类编码描述,分类编码关键字和分类编码。一般情况下,分类编码为多个,且分类有大类和小类。位于统一较大类的小类间,文本描述和语义比较相似,因此,能准确的区分较小分类较为困难。依据分类编码规则,构建短文本描述和分类编码的对应关系,以此作为分类信息默认模型的训练结果集。其中分类信息默认模型可选择贝叶斯分类信息默认模型,并且可根据计算效率、实现复杂程度以及可扩展性等进行模型选择识别速度和准确率。但由于申请所提出方法会使用客户端的选择数据作为反馈,分类信息默认模型的分类效果可持续得到改善。
优选地,在步骤102:获取已建立对应关系的对象文本描述和分类信息作为历史训练数据,对默认分类信息模型进行训练,生成经过训练的默认分类信息模型。
本申请默认分类信息模型上线使用后,可根据用户输入的短文本描述,短文本描述分词结果集作为模型输入,产生按概率从大到小排序的分类编码列表供用户选择。用户根据所输入短文本描述和分类编码作为分类编码系统上线运行后的实际数据存储在服务端,供模型改进使用。
优选地,在步骤103:获取对象文本描述中的非默认分类信息的对象文本描述,当非默认分类信息的对象文本描述占描述对象名称的对象文本描述次数超过预设比例时,建立非默认分类信息的对象文本描述与对象的分类信息的可信对应关系。
本申请的默认分类信息模型上线运行一段时间后,服务端会收集到一定量的对象文本描述和分类信息编码的对应关系。通过计算同一短文本描述,不同分类编码下的记录数的信息熵,当所得信息熵大于该不同分类编码个数的最大信息熵的预设倍数,如0.2倍,或更小的倍数(预设倍数为经验数据,该值越小,表述该文本描述对应的分类编码越确定)时,对象文本描述和分类编码记录不采纳为可加入新的模型训练的推荐系统所产生的历史数据;当所得信息熵小于该不同分类编码个数的最大信息熵的预设倍数,如0.2倍时的短文本描述和分类编码记录可作为新的模型训练的由推荐系统产生的历史数据。本申请提出分类编码推荐系统,提升默认分类信息模型分类的准确率。
优选地,在步骤104:将非默认分类信息的对象文本描述与对象的分类编码的可信对应关系加入到默认分类信息模型,更新默认分类信息模型。
优选地,当利用默认分类信息模型对对象进行分类的类别超过预设数值时,计算对象不同的对象文本描述的类别数量的信息熵;当计算出的信息熵大于类别数量最大信息熵的预设倍数时,从历史训练数据中删除对象文本描述。
优选地,当非默认分类信息的同一对象文本描述名称占对象的所有对象文本描述名称请求次数的第一预设比例时,并且存在一种分类信息超过未选择的分类信息情况数目的第二预设比例和选择次数超过预定次数时,将对象文本名称和对应的分类信息加入到更新数据库;利用更新数据库中的对象文本名称和分类信息的对应关系,对默认分类信息模型进行训练。
本申请,默认分类信息模型上线运行中,收集标记未选择系统推荐分类编码的情况记录。对该种情况,当未选择推荐编码的同一短文本描述名称占该名称请求次数的第一预设比例,如20%或30%时,而且未选择推荐编码的所收集的反馈情况中,存在一种编码超过未选择编码情况数目的第二预设比例,如80%、70%或90%时,且该编码选择次数超过一定预定次数,本申请设为100,可将该对象文本名称和分类编码的映射关系加入到模型训练数据集和模型验证集中,重新生成备选分类编码推荐模型,本申请实现了默认分类信息模型的准确率。
备选默认分类信息模型,经新的模型验证集,验证后,准确率提升的情况下,即可替换系统现有的默认分类信息模型。
本申请基于规则集数据和分类编码采集数据,按一定的权重比例相整合后形成分类推荐模型训练数据。系统采集的客户端分类编码数据质量的判断,通过计算同一名称,在类别大于5(5取决于推荐分类编码的个数),且计算同一名称不同分类类别数量的信息熵,当计算所得信息熵大于该类别数最大信息熵的0.2倍(0.2为设定的可行经验阈值)时,删除该短文本描述名称的历史数据,不作为分类编码推荐模型的训练数据。
模型持续更新,分类编码系统对客户端实际上线的分类编码选择情况进行收集。对未选择推荐分类编码的情况,进行记录存储,经对反馈数据质量判定筛选后,在现有模型基础上,更新分类推荐模型,并对上线系统进行平滑切换。
客户端分类编码选择数据反馈质量的控制。当未选择推荐编码的同一短文本描述名称占该名称请求次数的20%时,而且未选择推荐编码的情况中,存在一种编码超过未选择编码情况数目的80%时且该编码选择次数超过100时,可将该短文本名称和分类编码的映射关系加入到模型更新数据集中,重新训练模型。
本申请提出的一种用于为对象文本描述确定默认分类信息的方法,可以基于规则集建设,并随着分类推荐系统的持续使用,不断的提升分类编码推荐的准确性,可用于构建税务领域的商品和服务税收分类编码推荐系统,简化企业开票时的税收分类编码选择;用于海关领域的《商品名称及编码协调制度的国际公约》的分类编码推荐;可用于医药行业的药品分类。本申请可以根据短文本描述的名称,返回可能性较高的分类编码供客户端选择;所提出方法可推荐效果持续改进,在反馈数据质量判断和模型测试集检验通过后,可对推荐模型进行更新,提升推荐准确率。
图2为根据本发明优选实施方式的一种用于为对象文本描述确定默认分类信息的系统结构图。如图2所示,一种用于为对象文本描述确定默认分类信息的系统,系统包括:
构建单元201,用于基于分类信息标准,构建对象文本描述的默认分类信息模型。优选地,默认分类信息模型包括:贝叶斯分类默认模型、神经网络的分类信息默认模型。优选地,对象的对象文本描述为多个。
本申请提出的默认分类信息模型系统上线运行前,模型的训练数据集来源于行业颁发的分类编码规则/规范,其通常包含分类编码名称,分类编码描述,分类编码关键字和分类编码。一般情况下,分类编码为多个,且分类有大类和小类。位于统一较大类的小类间,文本描述和语义比较相似,因此,能准确的区分较小分类较为困难。依据分类编码规则,构建短文本描述和分类编码的对应关系,以此作为分类信息默认模型的训练结果集。其中分类信息默认模型可选择贝叶斯分类信息默认模型,并且可根据计算效率、实现复杂程度以及可扩展性等进行模型选择识别速度和准确率。但由于申请所提出方法会使用客户端的选择数据作为反馈,分类信息默认模型的分类效果可持续得到改善。
训练单元202,用于获取已建立对应关系的对象文本描述和分类信息作为历史训练数据,对默认分类信息模型进行训练,生成经过训练的默认分类信息模型。
本申请默认分类信息模型上线使用后,可根据用户输入的短文本描述,短文本描述分词结果集作为模型输入,产生按概率从大到小排序的分类编码列表供用户选择。用户根据所输入短文本描述和分类编码作为分类编码系统上线运行后的实际数据存储在服务端,供模型改进使用。
建立单元203,用于获取对象文本描述中的非默认分类信息的对象文本描述,当非默认分类信息的对象文本描述占描述对象名称的对象文本描述次数超过预设比例时,建立非默认分类信息的对象文本描述与对象的分类信息的可信对应关系。
本申请的默认分类信息模型上线运行一段时间后,服务端会收集到一定量的对象文本描述和分类信息编码的对应关系。通过计算同一短文本描述,不同分类编码下的记录数的信息熵,当所得信息熵大于该不同分类编码个数的最大信息熵的预设倍数,如0.2倍,或更小的倍数(预设倍数为经验数据,该值越小,表述该文本描述对应的分类编码越确定)时,对象文本描述和分类编码记录不采纳为可加入新的模型训练的推荐系统所产生的历史数据;当所得信息熵小于该不同分类编码个数的最大信息熵的预设倍数,如0.2倍时的短文本描述和分类编码记录可作为新的模型训练的由推荐系统产生的历史数据。本申请提出分类编码推荐系统,提升默认分类信息模型分类的准确率。
更新单元204,用于将非默认分类信息的对象文本描述与对象的分类编码的可信对应关系加入到默认分类信息模型,更新默认分类信息模型。
优选地,还包括筛选单元,用于当利用默认分类信息模型对对象进行分类的类别超过预设数值时,计算对象不同的对象文本描述的类别数量的信息熵;当计算出的信息熵大于类别数量最大信息熵的预设倍数时,从历史训练数据中删除对象文本描述。
优选地,建立单元还用于:当非默认分类信息的同一对象文本描述名称占对象的所有对象文本描述名称请求次数的第一预设比例时,并且存在一种分类信息超过未选择的分类信息情况数目的第二预设比例和选择次数超过预定次数时,将对象文本名称和对应的分类信息加入到更新数据库;利用更新数据库中的对象文本名称和分类信息的对应关系,对默认分类信息模型进行训练。
已经通过参考少量实施方式描述了本发明。然而,本领域技术人员所公知的,正如附带的专利权利要求所限定的,除了本发明以上公开的其他的实施例等同地落在本发明的范围内。
通常地,在权利要求中使用的所有术语都根据他们在技术领域的通常含义被解释,除非在其中被另外明确地定义。所有的参考“一个/所述/该[装置、组件等]”都被开放地解释为所述装置、组件等中的至少一个实例,除非另外明确地说明。这里公开的任何方法的步骤都没必要以公开的准确的顺序运行,除非明确地说明。

Claims (10)

1.一种用于为对象文本描述确定默认分类信息的方法,所述方法包括:
基于分类信息标准,构建对象文本描述的默认分类信息模型;
获取已建立对应关系的所述对象文本描述和分类信息作为历史训练数据,对所述默认分类信息模型进行训练,生成经过训练的默认分类信息模型;
获取对象文本描述中的非默认分类信息的对象文本描述,当所述非默认分类信息的对象文本描述占描述所述对象名称的对象文本描述次数超过预设比例时,建立所述非默认分类信息的对象文本描述与所述对象的分类信息的可信对应关系;
将所述非默认分类信息的对象文本描述与所述对象的分类编码的可信对应关系加入到所述默认分类信息模型,更新所述默认分类信息模型。
2.根据权利要求1所述的方法,所述默认分类信息模型包括:贝叶斯分类默认模型、神经网络的分类默认模型。
3.根据权利要求1所述的方法,当利用所述默认分类信息模型对所述对象进行分类的类别超过预设数值时,计算所述对象不同的对象文本描述的类别数量的信息熵;
当计算出的所述信息熵大于所述类别数量最大信息熵的预设倍数时,从所述历史训练数据中删除所述对象文本描述。
4.根据权利要求1所述的方法,当非默认分类信息的同一对象文本描述名称占所述对象的所有对象文本描述名称请求次数的第一预设比例时,并且存在一种分类信息超过未选择的分类信息情况数目的第二预设比例和选择次数超过预定次数时,将所述对象文本名称和对应的分类信息加入到更新数据库;
利用所述更新数据库中的所述对象文本名称和分类信息的对应关系,对所述默认分类信息模型进行训练。
5.根据权利要求1所述的方法,所述对象的对象文本描述为多个。
6.一种用于为对象文本描述确定默认分类信息的系统,所述系统包括:
构建单元,用于基于分类信息标准,构建对象文本描述的默认分类信息模型;
训练单元,用于获取已建立对应关系的所述对象文本描述和分类信息作为历史训练数据,对所述默认分类信息模型进行训练,生成经过训练的默认分类信息模型;
建立单元,用于获取对象文本描述中的非默认分类信息的对象文本描述,当所述非默认分类信息的对象文本描述占描述所述对象名称的对象文本描述次数超过预设比例时,建立所述非默认分类信息的对象文本描述与所述对象的分类信息的可信对应关系;
更新单元,用于将所述非默认分类信息的对象文本描述与所述对象的分类编码的可信对应关系加入到所述默认分类信息模型,更新所述默认分类信息模型。
7.根据权利要求6所述的系统,所述默认分类信息模型包括:贝叶斯分类默认模型、神经网络的分类默认模型。
8.根据权利要求6所述的系统,还包括筛选单元,用于当利用所述默认分类信息模型对所述对象进行分类的类别超过预设数值时,计算所述对象不同的对象文本描述的类别数量的信息熵;
当计算出的所述信息熵大于所述类别数量最大信息熵的预设倍数时,从所述历史训练数据中删除所述对象文本描述。
9.根据权利要求6所述的系统,所述建立单元还用于:当非默认分类信息的同一对象文本描述名称占所述对象的所有对象文本描述名称请求次数的第一预设比例时,并且存在一种分类信息超过未选择的分类信息情况数目的第二预设比例和选择次数超过预定次数时,将所述对象文本名称和对应的分类信息加入到更新数据库;
利用所述更新数据库中的所述对象文本名称和分类信息的对应关系,对所述默认分类信息模型进行训练。
10.根据权利要求6所述的系统,所述对象的对象文本描述为多个。
CN201811542359.6A 2018-12-17 2018-12-17 一种用于为对象文本描述确定默认分类信息的方法及系统 Active CN109766440B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811542359.6A CN109766440B (zh) 2018-12-17 2018-12-17 一种用于为对象文本描述确定默认分类信息的方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811542359.6A CN109766440B (zh) 2018-12-17 2018-12-17 一种用于为对象文本描述确定默认分类信息的方法及系统

Publications (2)

Publication Number Publication Date
CN109766440A true CN109766440A (zh) 2019-05-17
CN109766440B CN109766440B (zh) 2023-09-01

Family

ID=66451157

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811542359.6A Active CN109766440B (zh) 2018-12-17 2018-12-17 一种用于为对象文本描述确定默认分类信息的方法及系统

Country Status (1)

Country Link
CN (1) CN109766440B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110297578A (zh) * 2019-06-27 2019-10-01 北京金山安全软件有限公司 批量处理海量数据中部分数据的方法、装置及电子设备
CN112487150A (zh) * 2020-12-11 2021-03-12 航天信息股份有限公司 档案管理方法、系统、存储介质及电子设备

Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102024045A (zh) * 2010-12-14 2011-04-20 成都市华为赛门铁克科技有限公司 信息分类处理方法、装置和终端
CN102194013A (zh) * 2011-06-23 2011-09-21 上海毕佳数据有限公司 一种基于领域知识的短文本分类方法及文本分类系统
EP2667336A1 (en) * 2012-05-21 2013-11-27 Die Schweizerische Post AG Distributed computer network in a system for international shipment of goods
CN103646343A (zh) * 2013-12-18 2014-03-19 世纪禾光科技发展(北京)有限责任公司 一种基于文本的商品分类处理方法及其系统
CN104361037A (zh) * 2014-10-29 2015-02-18 国家计算机网络与信息安全管理中心 微博分类方法及装置
CN106446025A (zh) * 2016-08-30 2017-02-22 东软集团股份有限公司 一种标准化文本信息的方法和装置
CN106897262A (zh) * 2016-12-09 2017-06-27 阿里巴巴集团控股有限公司 一种文本分类方法和装置以及处理方法和装置
WO2017113840A1 (zh) * 2015-12-31 2017-07-06 乐视控股(北京)有限公司 一种信息推荐方法及装置
CN106951565A (zh) * 2017-04-05 2017-07-14 数库(上海)科技有限公司 文本分类方法及获得的文本分类器
CN107038154A (zh) * 2016-11-25 2017-08-11 阿里巴巴集团控股有限公司 一种文本情感识别方法和装置
CN107315738A (zh) * 2017-07-05 2017-11-03 山东大学 一种文本信息的创新度评估方法
JP2018026119A (ja) * 2016-07-29 2018-02-15 株式会社野村総合研究所 分類システム、分類システムの制御方法、およびプログラム
CN107704892A (zh) * 2017-11-07 2018-02-16 宁波爱信诺航天信息有限公司 一种基于贝叶斯模型的商品编码分类方法以及系统
CN108241677A (zh) * 2016-12-26 2018-07-03 航天信息股份有限公司 一种获得商品的税收分类编码的方法及系统
CN108287850A (zh) * 2017-01-10 2018-07-17 阿里巴巴集团控股有限公司 文本分类模型的优化方法及装置
CN108710672A (zh) * 2018-05-17 2018-10-26 南京大学 一种基于增量贝叶斯算法的主题爬虫方法

Patent Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102024045A (zh) * 2010-12-14 2011-04-20 成都市华为赛门铁克科技有限公司 信息分类处理方法、装置和终端
CN102194013A (zh) * 2011-06-23 2011-09-21 上海毕佳数据有限公司 一种基于领域知识的短文本分类方法及文本分类系统
EP2667336A1 (en) * 2012-05-21 2013-11-27 Die Schweizerische Post AG Distributed computer network in a system for international shipment of goods
CN103646343A (zh) * 2013-12-18 2014-03-19 世纪禾光科技发展(北京)有限责任公司 一种基于文本的商品分类处理方法及其系统
CN104361037A (zh) * 2014-10-29 2015-02-18 国家计算机网络与信息安全管理中心 微博分类方法及装置
WO2017113840A1 (zh) * 2015-12-31 2017-07-06 乐视控股(北京)有限公司 一种信息推荐方法及装置
JP2018026119A (ja) * 2016-07-29 2018-02-15 株式会社野村総合研究所 分類システム、分類システムの制御方法、およびプログラム
CN106446025A (zh) * 2016-08-30 2017-02-22 东软集团股份有限公司 一种标准化文本信息的方法和装置
CN107038154A (zh) * 2016-11-25 2017-08-11 阿里巴巴集团控股有限公司 一种文本情感识别方法和装置
CN106897262A (zh) * 2016-12-09 2017-06-27 阿里巴巴集团控股有限公司 一种文本分类方法和装置以及处理方法和装置
CN108241677A (zh) * 2016-12-26 2018-07-03 航天信息股份有限公司 一种获得商品的税收分类编码的方法及系统
CN108287850A (zh) * 2017-01-10 2018-07-17 阿里巴巴集团控股有限公司 文本分类模型的优化方法及装置
CN106951565A (zh) * 2017-04-05 2017-07-14 数库(上海)科技有限公司 文本分类方法及获得的文本分类器
CN107315738A (zh) * 2017-07-05 2017-11-03 山东大学 一种文本信息的创新度评估方法
CN107704892A (zh) * 2017-11-07 2018-02-16 宁波爱信诺航天信息有限公司 一种基于贝叶斯模型的商品编码分类方法以及系统
CN108710672A (zh) * 2018-05-17 2018-10-26 南京大学 一种基于增量贝叶斯算法的主题爬虫方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110297578A (zh) * 2019-06-27 2019-10-01 北京金山安全软件有限公司 批量处理海量数据中部分数据的方法、装置及电子设备
CN112487150A (zh) * 2020-12-11 2021-03-12 航天信息股份有限公司 档案管理方法、系统、存储介质及电子设备
CN112487150B (zh) * 2020-12-11 2023-12-26 航天信息股份有限公司 档案管理方法、系统、存储介质及电子设备

Also Published As

Publication number Publication date
CN109766440B (zh) 2023-09-01

Similar Documents

Publication Publication Date Title
US11734717B2 (en) Dynamic predictive similarity grouping based on vectorization of merchant data
CN103927675B (zh) 判断用户年龄段的方法及装置
CN109241440A (zh) 一种基于深度学习的面向隐式反馈推荐方法
CN109360057B (zh) 信息推送方法、装置、计算机设备及存储介质
CN110428298A (zh) 一种店铺推荐方法、装置及设备
CN111444334A (zh) 数据处理方法、文本识别方法、装置及计算机设备
Carrasco et al. A fuzzy linguistic RFM model applied to campaign management
CN103824192A (zh) 混合推荐系统
CN111080225A (zh) 项目加速的自动评估
CN111680165B (zh) 信息匹配方法、装置、可读存储介质和电子设备
CN111798280B (zh) 多媒体信息推荐方法、装置和设备及存储介质
CN111797320B (zh) 数据处理方法、装置、设备及存储介质
Geng et al. A hybrid service supplier selection approach based on variable precision rough set and VIKOR for developing product service system
US20200098031A1 (en) Product recommending apparatus and non-transitory computer readable medium
CN113139769B (zh) 采购方案智能推荐方法、装置、计算机设备及存储介质
CN104866472A (zh) 分词训练集的生成方法和装置
US20220172258A1 (en) Artificial intelligence-based product design
CN114077661A (zh) 信息处理装置、信息处理方法和计算机可读介质
CN109766440A (zh) 一种用于为对象文本描述确定默认分类信息的方法及系统
CN113570398A (zh) 推广数据处理方法、模型训练方法、系统和存储介质
CN115392237A (zh) 情感分析模型训练方法、装置、设备及存储介质
CN113032676A (zh) 基于微反馈的推荐方法和系统
CN113255925A (zh) 针对机器学习的数据驱动的在线分数高速缓存
CN112132639A (zh) 一种数据集的基于机器学习的动态定价方法
CN113763072A (zh) 用于分析信息的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant