CN103207878B - 发布信息的检查方法和装置 - Google Patents

发布信息的检查方法和装置 Download PDF

Info

Publication number
CN103207878B
CN103207878B CN201210015257.5A CN201210015257A CN103207878B CN 103207878 B CN103207878 B CN 103207878B CN 201210015257 A CN201210015257 A CN 201210015257A CN 103207878 B CN103207878 B CN 103207878B
Authority
CN
China
Prior art keywords
released
information
news
condition code
disappearance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201210015257.5A
Other languages
English (en)
Other versions
CN103207878A (zh
Inventor
张旭
杨志雄
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201210015257.5A priority Critical patent/CN103207878B/zh
Publication of CN103207878A publication Critical patent/CN103207878A/zh
Priority to HK13110855.8A priority patent/HK1183536A1/zh
Application granted granted Critical
Publication of CN103207878B publication Critical patent/CN103207878B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本申请提供了一种发布信息的检查方法和装置,其中,该方法包括:提取待发布信息的关键字段;根据关键字段生成与待发布信息对应的特征码;将生成的特征码与数据库中存储的已发布信息的特征码进行匹配;若匹配成功,则判断出待发布信息与已发布信息重复。本申请解决了相关技术中的不能高效地、准确地对商品信息进行检查的问题,从而提高了对待发布信息的检查效率,提高了发布信息的质量。

Description

发布信息的检查方法和装置
技术领域
本申请涉及计算机网络技术领域,具体而言,涉及一种发布信息的检查方法和装置。
背景技术
在互联网上发布商品信息时,商品的信息需要经过检查后,才能最后发布。对商品信息检查的内容主要有:
1)过滤,主要是过滤掉不合格的,不合法的商品信息,包括风险控制的一部分;
2)匹配,匹配商品信息,查看有没有重复发布的商品信息;
从而避免重复发布相同类目的商品信息,以及去除不合格、不合法的商品信息。同时,从实际情况来看,在发布商品信息时,对商品发布信息进行检查是十分必要的,比如,在电子商务领域中的B2B、B2C平台中,就会存在这样几种情况,1)在不同的用户越来越多的时候,不同用户可能发布相同类目的商品信息,而这些相同类目的商品只是在某些维度上采用不同的描述,如在发布商品信息时,对商品发布信息不进行检查则会将这些仅有细小区别的商品信息当成不同的商品信息发布;2)同一个用户也可能发布非常相似的商品信息,而这么做只是为了增加某商品被搜索到的概率,针对上述几种情况,若在发布商品信息时,对商品发布信息不进行检查,则会导致终端用户体验很差,也给商品管理带来困扰,并且浪费了电子商务网站服务器的存储空间。
现有的大多数商品信息发布系统具有检查机制,在数据量小时可以实现以下目的,1)过滤,主要是过滤掉不合格的、不合法的商品信息,包括风险控制的一部分信息;2)匹配,匹配商品信息,查看有没有重复发布的商品信息。但由于在现有的商品信息发布系统中商品信息的表述没有统一的标准,导致相同类目商品无法有效地被检测到,这样使得在对商品信息进行检查时对相同类目商品的匹配检查的速度很慢,而且匹配检查得到的结果也不够准确。也就是说,现有的商品信息发布系统还做不到实时,快速的,准确的匹配商品信息,此外,现有的商品信息发布系统也不能智能的检查和补足缺失的商品信息。
上述情况是针对数据量小的场景,当数据量很大的时候,意味着商品信息发布系统在对商品信息进行检查时,需要对大量的相同类目商品信息进行匹配检查,特别是批量发布商品信息的时候,要求商品信息发布系统做到高效、准确的进行商品信息检查,而现有的商品信息发布系统还做不到实时,快速的,准确的匹配商品信息,此外,现有的商品信息发布系统也不能智能的检查和补足缺失的商品信息,从而导致降低了商品信息发布系统对商品信息进行检查时的工作效率,降低了商品发布信息的质量。
发明内容
本发明提供了一种发布信息的检查方法和装置,以至少解决相关技术中的不能高效地、准确地对商品信息进行检查的问题。
根据本发明的一个方面,提供了一种发布信息的检查方法,其包括:提取待发布信息的关键字段;根据关键字段生成与待发布信息对应的特征码;将生成的特征码与数据库中存储的已发布信息的特征码进行匹配;若匹配成功,则判断出待发布信息与已发布信息重复。
优选地,根据关键字段生成与待发布信息对应的特征码的步骤包括:对关键字段进行MD5(MessageDigestAlgorithm,消息摘要算法第五版)和/或HASH(哈希算法)操作得到特征码。
优选地,将生成的特征码与数据库中存储的已发布信息的特征码进行匹配之后,上述发布信息的检查方法还包括:若匹配不成功,则通过XML(ExtensibleMarkupLanguage,可扩展标记语言)模型对待发布信息进行匹配;将匹配的结果中标识为缺失的信息进行返回。
优选地,通过XML模型对待发布信息进行匹配的步骤包括:将待发布信息转换为XML格式;将转换为XML格式的待发布信息与待发布信息所在的类目的schema文件进行匹配;将待发布信息中无法与schema文件匹配的信息标识为缺失的信息。
优选地,将生成的特征码与数据库中存储的已发布信息的特征码进行匹配之后,上述发布信息的检查方法还包括:若匹配不成功,则将待发布信息通过由已发布信息训练得到的决策树模型生成得到缺失的信息;将生成的缺失的信息进行返回。
优选地,判断出待发布信息与已发布信息重复之后,上述发布信息的检查方法还包括:删除待发布信息。
根据本发明的另一方面,提供了一种发布信息的检查装置,其包括:提取单元,用于提取待发布信息的关键字段;第一生成单元,用于根据关键字段生成与待发布信息对应的特征码;第一匹配单元,用于将生成的特征码与数据库中存储的已发布信息的特征码进行匹配;判断单元,用于在生成的特征码与数据库中存储的已发布信息的特征码匹配成功时,判断出待发布信息与已发布信息重复。
优选地,第一生成单元包括:生成模块,用于对关键字段进行MD5和/或HASH操作得到特征码。
优选地,上述发布信息的检查装置还包括:第二匹配单元,用于在生成的特征码与数据库中存储的已发布信息的特征码匹配不成功时,通过XML模型对待发布信息进行匹配;第一处理单元,用于将匹配的结果中标识为缺失的信息进行返回。
优选地,第二匹配单元包括:转换模块,用于将待发布信息转换为XML格式;匹配模块,用于将转换为XML格式的待发布信息与待发布信息所在的类目的schema文件进行匹配;处理模块,用于将待发布信息中无法与schema文件匹配的信息标识为缺失的信息。
优选地,上述发布信息的检查装置还包括:第二生成单元,用于在将生成的特征码与数据库中存储的已发布信息的特征码进行匹配不成功时,将待发布信息通过由已发布信息训练得到的决策树模型生成得到缺失的信息;第二处理单元,用于将生成的缺失的信息进行返回。
优选地,上述发布信息的检查装置还包括:删除单元,用于在判断出待发布信息与已发布信息重复之后,删除待发布信息。
在本发明中,将待发布信息的关键字段生成特征码,并将待发布信息的特征码与数据库中存储的已发布信息的特征码进行匹配,以判断待发布信息是否与已发布信息重复,因此可以避免对相同特征码的发布信息进行重复发布,另外,相对采用信息内容进行匹配的形式而言,采用数据量更小的特征码进行匹配的形式可以快速地、准确地判断出待发布信息是否与数据库中存储的已发布信息重复,可以实现在待发布信息批量发布时及时地、有效地对待发布信息进行检查,解决了相关技术中的不能高效地、准确地对商品信息进行检查的问题,从而提高了对待发布信息的检查效率,提高了发布信息的质量。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的优选的发布信息的检查系统的结构框图;
图2是根据本发明实施例的另一种优选的发布信息的检查系统的结构框图;
图3是根据本发明实施例的优选的发布信息的检查装置的结构框图;
图4是根据本发明实施例的优选的第一生成单元的结构框图;
图5是根据本发明实施例的另一种优选的发布信息的检查装置的结构框图;
图6是根据本发明实施例的优选的第二匹配单元的结构框图;
图7是根据本发明实施例的又一种优选的发布信息的检查装置的结构框图;
图8是根据本发明实施例的又一种优选的发布信息的检查装置的结构框图;
图9是根据本发明实施例的优选的发布信息的检查方法的流程图。
具体实施方式
下文中将参考附图并结合实施例来详细说明本发明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
在描述本申请的各实施例的进一步细节之前,将参考图1来描述可用于实现本申请的原理的一个合适的计算体系结构。在以下描述中,除非另外指明,否则将参考由一个或多个计算机执行的动作和操作的符号表示来描述本申请的各实施例。由此,可以理解,有时被称为计算机执行的这类动作和操作包括计算机的处理单元对以结构化形式表示数据的电信号的操纵。这一操纵转换了数据或在计算机的存储器系统中的位置上维护它,这以本领域的技术人员都理解的方式重配置或改变了计算机的操作。维护数据的数据结构是具有数据的格式所定义的特定属性的存储器的物理位置。然而,尽管在上述上下文中描述本申请,但它并不意味着限制性的,如本领域的技术人员所理解的,后文所描述的动作和操作的各方面也可用硬件来实现。
转向附图,其中相同的参考标号指代相同的元素,本申请的原理被示为在一个合适的计算环境中实现。以下描述基于所述的本申请的实施例,并且不应认为是关于此处未明确描述的替换实施例而限制本申请。
图1示出了可用于这些设备的一个示例计算机体系结构的示意图。出于描述的目的,所绘的体系结构仅为合适环境的一个示例,并非对本申请的使用范围或功能提出任何局限。也不应将该计算系统解释为对图1所示的任一组件或其组合具有任何依赖或需求。
本申请的原理可以使用其它通用或专用计算或通信环境或配置来操作。适用于本申请的众所周知的计算系统、环境和配置的示例包括但不限于,个人计算机、服务器,多处理器系统、基于微处理的系统、小型机、大型计算机、以及包括任一上述系统或设备的分布式计算环境。
在其最基本的配置中,图1中的发布信息的检查系统100至少包括:一个网站的服务器102以及一个或多个客户端104。服务器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置、用于存储数据的存储装置以及与客户端通信的传输装置;客户端104可以包括:微处理器MCU、与服务器通信的传输装置、与用户交互的显示装置。在本说明书和权利要求书中,“发布信息的检查系统”也可以被定义为能够执行软件、固件或微码来实现功能的任何硬件组件或硬件组件的组合。发布信息的检查系统100甚至可以是分布式的,以实现分布式功能。
如本申请所使用的,术语“模块”、“组件”或“单元”可以指在发布信息的检查系统100上执行的软件对象或例程。此处所描述的不同组件、模块、单元、引擎和服务可被实现为在发布信息的检查系统100上执行(例如,作为单独的线程)的对象或进程。尽管此处所描述的系统和方法较佳地以软件来实现,但是硬件或软件和硬件的组合的实现也是可能并被构想的。
如图1所示,发布信息的检查系统100包括:网站的服务器102和客户端104。在工作过程中,客户端104向所述服务器发送待发布信息;服务器102根据接收到的待发布信息的关键字段生成待发布信息的特征码,并将生成的待发布信息的特征码与数据库中的已发布信息的特征码进行匹配,若匹配成功,则认为上述待发布信息与数据库中的已发布信息重复。
在本优选的实施例中,由于根据待发布信息的关键字段生成特征码,并采用特征码的形式将待发布信息与数据库中的已发布信息进行匹配,有助于提高匹配的效率和准确度,从而解决了相关技术中的不能高效地、准确地对商品信息进行检查的问题,提高了对待发布信息的检查效率,并提高了发布信息的质量。
为了提高对待发布信息的检查效率,并提高发布信息的质量,本申请提供了另一种优选的发布信息的检查系统,该发布信息的检查系统可以设置在上述的服务器102中,以实现其对待发布信息的检查功能,如图2所示,该发布信息的检查系统包括:信息拆分系统202、信息快速检查系统204、信息补足系统206、信息检查规则库系统208、信息XML模型系统210以及信息决策树模型系统212。
上述发布信息的检查系统的工作流程包括:
信息拆分系统202接收待发布信息,并对接收的待发布信息做如下处理:1)在数据量大时,由于单机系统很难在规定时间内对待发布信息完成处理,因此,对接收的待发布信息采用分步式并行计算;2)由于待发布信息的输入的信息格式不符合系统内部的信息格式,因此,信息拆分系统202通过信息检查规则库系统208中的格式转换规则对待发布信息进行信息的格式转换;将上述处理后的待发布信息发送给信息快速检查系统204,信息快速检查系统204对待发布信息进行匹配,以检查待发布信息是否是重复信息,在待发布信息不是重复信息时,信息快速检查系统204通过信息XML模型系统210中的XML模型检查待发布信息是否有缺失信息,若检查出待发布信息有缺失信息时,将有缺失的待发布信息发送给信息补足系统206,信息补足系统206通过信息决策树模型系统212中的决策树模型对有缺失的待发布信息进行匹配,对缺失的信息做出补足建议,并将缺失的信息的补足建议反馈给用户。
实施例1
在上述优选实施例的基础上,为了达到提高对待发布信息的检查效率,提高发布信息的质量的技术效果,本申请提供了一种优选的发布信息的检查装置,该发布信息的检查装置可以设置在上述服务器102中,以实现其对待发布信息的检查作用,具体地,如图3所示,该发布信息的检查装置包括:提取单元302,用于提取待发布信息的关键字段;第一生成单元304,与提取单元302通信,用于根据关键字段生成与待发布信息对应的特征码;第一匹配单元306,与第一生成单元304通信,用于将生成的特征码与数据库中存储的已发布信息的特征码进行匹配;判断单元308,与第一匹配单元306通信用于在生成的特征码与数据库中存储的已发布信息的特征码匹配成功时,判断出待发布信息与已发布信息重复。
在上述优选实施例中,将待发布信息的关键字段生成特征码,并将待发布信息的特征码与数据库中存储的已发布信息的特征码进行匹配,以判断待发布信息是否与已发布信息重复,因此可以避免对相同特征码的发布信息进行重复发布,另外,相对采用信息内容进行匹配的形式而言,采用数据量更小的特征码进行匹配的形式可以快速地、准确地判断出待发布信息是否与数据库中存储的已发布信息重复,可以实现在待发布信息批量发布时及时地、有效地对待发布信息进行检查,解决了相关技术中的不能高效地、准确地对商品信息进行检查的问题,从而提高了对待发布信息的检查效率,提高了发布信息的质量。
优选地,上述待发布信息的关键字段可以是文本形式的字符串。
为了增强本申请的使用灵活性,本申请提供了优选的第一生成单元304,如图4所示,第一生成单元304包括:生成模块3042,用于对关键字段进行MD5和/或HASH操作得到特征码。在本实施例中,可以通过MD5和/或HASH操作得到待发布信息的特征码,可以根据需要选择生成特征码的方法,满足不同的需求,以增强本申请的使用灵活性。
优选地,上述对关键字段进行MD5和/或HASH操作得到特征码的过程可以根据待发布信息的关键字段的内容应用算法公式实现,例如,通过MD5和/或HASH的混合应用,计算出一个整数,以作为该待发布信息的特征码,当然,MD5和HASH只是本申请的优选的示例,也可以根据实际情况选择算法公式,例如,采用字段采样,字符串采样,字符移位,字符码相加的算法来计算特征码,以实现简单地、快速地得到待发布信息的特征码。
为提高本申请的实用性,本申请对上述发布信息的检查装置做了改进,如图5所示,该发布信息的检查装置包括:第二匹配单元502,用于在生成的特征码与数据库中存储的已发布信息的特征码匹配不成功时,通过XML模型对待发布信息进行匹配;第一处理单元504,与第二匹配单元502通信,用于将匹配的结果中标识为缺失的信息进行返回。在本实施例中,在待发布信息的特征码与数据库中存储的已发布信息的特征码匹配不成功时,通过XML模型对待发布信息进行二次匹配,以确定待发布信息的缺失的信息,避免了发布有缺失的待发布信息,有助于提高发布信息的质量,有助于对发布信息的管理,从而提高了本申请的实用性。
为了提高匹配的效率以及准确度,本申请提供了一种优选的第二匹配单元502,如图6所示,该第二匹配单元502包括:转换模块5022,用于将待发布信息转换为XML格式;匹配模块5024,与转换模块5022通信,用于将转换为XML格式的待发布信息与待发布信息所在的类目的schema文件进行匹配;处理模块5026,与匹配模块5024通信,用于将待发布信息中无法与schema文件匹配的信息标识为缺失的信息。在本实施例中,将待发布信息先转换为XML格式,再与待发布信息所在的类目的schema文件进行匹配,与待发布信息所在的类目的schema文件进行匹配,可以实现对待发布信息进行快速的、高效的、准确的检查,同时,将待发布信息先转换为XML格式同样有助于提高检查的效率和准确度,而且,由于匹配是取决于模型定义的,当对匹配模型修改时,可以不用修改程序源代码,实现立即生效,提高了本申请的使用灵活性。
优选地,上述XML模型为根据不同待发布信息的类目建立的不同的信息模型,利用XML表达模型的内容,即XML模型表现为XMLschema文件,同时,待发布信息遵循预定义的格式可以为Excel格式,文本格式,UIEE,XML等格式,在将待发布信息与XML模型匹配前,将待发布信息转换为XML格式的信息,然后将XML格式的待发布信息与同类目的schema文件进行匹配,以快速地、准确地判断出待发布信息是否有信息缺失;同时,在修改XML模型时,可以不修改程序源代码,实现XML模型的修改立即生效,增强了本申请的实施灵活性。
在上述各实施例的基础上,本申请对上述发布信息的检查装置做了进一步的改进,以达到提高对待发布信息的处理效率的技术效果。具体地,如图7所示,该发布信息的检查装置还包括:第二生成单元702,用于在将生成的特征码与数据库中存储的已发布信息的特征码进行匹配不成功时,将待发布信息通过由已发布信息训练得到的决策树模型生成得到缺失的信息;第二处理单元704,与第二生成单元702通信,用于将生成的缺失的信息进行返回。在本实施例中,在待发布信息的特征码与数据库中存储的已发布信息的特征码进行匹配不成功时,通过决策树模型对待发布信息进行匹配,以推断出待发布信息的缺失信息,并将推断出的缺失信息进行返回,以便用户快速地确定出具体的缺失信息,极大地减少了用户和服务方的工作量,用户也可以有针对性地对待发布信息进行补足,有助于提高对待发布信息的处理效率,有助于改善用户体验;同时,决策树模型是以已发布成功的信息做训练集利用机器学习而建立的,提高了推断出的缺失信息的准确性。
优选地,上述决策树模型以发布成功的信息作训练集,利用机器学习建立模型,通过将待发布信息与决策树模型进行匹配,以推断出待发布信息的缺失信息的可能的值,并生成错误报告返回给用户,极大地减少了用户和服务方的工作量,用户也可以有针对性地对待发布信息进行补足,以提高对批量待发布信息的处理效率。
在上述各优选实施例的基础上,本申请对上述发布信息的检查装置做了进一步的改进,如图8所示,该发布信息的检查装置还包括:删除单元802,用于在判断出待发布信息与已发布信息重复之后,删除待发布信息。在本实施例中,对待发布信息进行检查时,若检查出与已发布信息重复的待发布信息,则将该待发布信息删除,以减少重复信息的发布,有助于对信息系统的管理,提高了用户的查询效率。
优选地,上述schema为模式,在本申请中指XML数据文件的数据描述,即元数据。
实施例2
在图1-8的基础上,本申请提供了一种优选的发布信息的检查方法,如图9所示,该发布信息的检查方法包括:
S902:提取待发布信息的关键字段;
S904:根据关键字段生成与待发布信息对应的特征码;
S906:将生成的特征码与数据库中存储的已发布信息的特征码进行匹配;
S908:若匹配成功,则判断出待发布信息与已发布信息重复。
在上述优选实施例中,将待发布信息的关键字段生成特征码,并将待发布信息的特征码与数据库中存储的已发布信息的特征码进行匹配,以判断待发布信息是否与已发布信息重复,因此可以避免对相同特征码的发布信息进行重复发布,另外,相对采用信息内容进行匹配的形式而言,采用数据量更小的特征码进行匹配的形式可以快速地、准确地判断出待发布信息是否与数据库中存储的已发布信息重复,可以实现在待发布信息批量发布时及时地、有效地对待发布信息进行检查,解决了相关技术中的不能高效地、准确地对商品信息进行检查的问题,从而提高了对待发布信息的检查效率,提高了发布信息的质量。
优选地,上述待发布信息的关键字段可以是文本形式的字符串。
为了增强本申请的使用灵活性,本申请提供了一种优选的根据关键字段生成与待发布信息对应的特征码的方法,具体地,该根据关键字段生成与待发布信息对应的特征码的方法包括:对关键字段进行MD5和/或HASH操作得到特征码。在本实施例中,可以通过MD5和/或HASH操作得到待发布信息的特征码,可以根据需要选择生成特征码的方法,满足不同的需求,以增强本申请的使用灵活性。
优选地,上述对关键字段进行MD5和/或HASH操作得到特征码的过程可以根据待发布信息的关键字段的内容应用算法公式实现,例如,通过MD5和/或HASH的混合应用,计算出一个整数,以作为该待发布信息的特征码,当然,MD5和HASH只是本申请的优选的示例,也可以根据实际情况选择算法公式,例如,采用字段采样,字符串采样,字符移位,字符码相加的算法来计算特征码,以实现简单地、快速地得到待发布信息的特征码。
为了提高发布信息的质量、提高本申请的实用性,本申请对上述发布信息的检查方法进行了改进,具体地,该发布信息的检查方法还包括:将生成的特征码与数据库中存储的已发布信息的特征码进行匹配之后,若匹配不成功,则通过XML模型对待发布信息进行匹配;将匹配的结果中标识为缺失的信息进行返回。在本实施例中,在待发布信息的特征码与数据库中存储的已发布信息的特征码匹配不成功时,通过XML模型对待发布信息进行二次匹配,以确定待发布信息的缺失的信息,避免了发布有缺失的待发布信息,有助于提高发布信息的质量,有助于对发布信息的管理,从而提高了本申请的实用性。
为了提高匹配的效率以及准确度,本申请提供了一种优选的通过XML模型对待发布信息进行匹配的方法,具体地,该通过XML模型对待发布信息进行匹配的方法包括:将待发布信息转换为XML格式;将转换为XML格式的待发布信息与待发布信息所在的类目的schema文件进行匹配;将待发布信息中无法与schema文件匹配的信息标识为缺失的信息。在本实施例中,将待发布信息先转换为XML格式,再与待发布信息所在的类目的schema文件进行匹配,与待发布信息所在的类目的schema文件进行匹配,可以实现对待发布信息进行快速的、高效的、准确的检查,同时,将待发布信息先转换为XML格式同样有助于提高检查的效率和准确度,而且,由于匹配是取决于模型定义的,当对匹配模型修改时,可以不用修改程序源代码,实现立即生效,提高了本申请的使用灵活性。
优选地,上述XML模型为根据不同待发布信息的类目建立的不同的信息模型,利用XML表达模型的内容,即XML模型表现为XMLschema文件,同时,待发布信息遵循预定义的格式可以为Excel格式,文本格式,UIEE,XML等格式,在将待发布信息与XML模型匹配前,将待发布信息转换为XML格式的信息,然后将XML格式的待发布信息与同类目的schema文件进行匹配,以快速地、准确地判断出待发布信息是否有信息缺失;同时,在修改XML模型时,可以不修改程序源代码,实现XML模型的修改立即生效,增强了本申请的实施灵活性。
在上述各优选实施例的基础上,本申请对上述发布信息的检查方法做了进一步的改进,以达到提高对待发布信息的处理效率的技术效果。具体地,该发布信息的检查方法包括:在将生成的特征码与数据库中存储的已发布信息的特征码进行匹配之后,若匹配不成功,则将待发布信息通过由已发布信息训练得到的决策树模型生成得到缺失的信息;将生成的缺失的信息进行返回。在本实施例中,在待发布信息的特征码与数据库中存储的已发布信息的特征码进行匹配不成功时,通过决策树模型对待发布信息进行匹配,以推断出待发布信息的缺失信息,并将推断出的缺失信息进行返回,以便用户快速地确定出具体的缺失信息,极大地减少了用户和服务方的工作量,用户也可以有针对性地对待发布信息进行补足,有助于改善用户体验;同时,决策树模型是以已发布成功的信息做训练集利用机器学习而建立的,提高了推断出的缺失信息的准确性。
优选地,上述决策树模型以发布成功的信息作训练集,利用机器学习建立模型,通过将待发布信息与决策树模型进行匹配,以推断出待发布信息的缺失信息的可能的值,并生成错误报告返回给用户,极大地减少了用户和服务方的工作量,用户也可以有针对性地对待发布信息进行补足,以提高对批量待发布信息的处理效率。
在上述各实施例的基础上,本申请对上述发布信息的检查方法做了进一步的改进,以达到提高对待发布信息的处理效率的技术效果。具体地,该发布信息的检查方法包括:在判断出待发布信息与已发布信息重复之后,删除待发布信息,即对待发布信息进行检查时,若检查出与已发布信息重复的待发布信息,则将该待发布信息删除,以减少重复信息的发布,有助于对信息系统的管理,提高了用户的查询效率。
优选地,上述schema为模式,在本申请中指XML数据文件的数据描述,即元数据。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种发布信息的检查方法,其特征在于,包括:
提取待发布信息的关键字段;
根据所述关键字段生成与所述待发布信息对应的特征码;
将所述生成的特征码与数据库中存储的已发布信息的特征码进行匹配;
若匹配成功,则判断出所述待发布信息与所述已发布信息重复;
其中,将所述生成的特征码与所述数据库中存储的已发布信息的特征码进行匹配之后,还包括:
若匹配不成功,则通过XML模型对所述待发布信息进行匹配;将匹配的结果中标识为缺失的信息进行返回;或者
若匹配不成功,则将所述待发布信息通过由所述已发布信息训练得到的决策树模型生成得到缺失的信息;将所述生成的缺失的信息进行返回。
2.根据权利要求1所述的方法,其特征在于,根据所述关键字段生成与所述待发布信息对应的特征码的步骤包括:
对所述关键字段进行消息摘要算法第五版MD5和/或哈希算法HASH操作得到所述特征码。
3.根据权利要求1所述的方法,其特征在于,通过XML模型对所述待发布信息进行匹配的步骤包括:
将所述待发布信息转换为XML格式;
将转换为XML格式的待发布信息与所述待发布信息所在的类目的元数据schema文件进行匹配;
将所述待发布信息中无法与所述schema文件匹配的信息标识为缺失的信息。
4.根据权利要求1所述的方法,其特征在于,判断出所述待发布信息与所述已发布信息重复之后,还包括:
删除所述待发布信息。
5.一种发布信息的检查装置,其特征在于,包括:
提取单元,用于提取待发布信息的关键字段;
第一生成单元,用于根据所述关键字段生成与所述待发布信息对应的特征码;
第一匹配单元,用于将所述生成的特征码与数据库中存储的已发布信息的特征码进行匹配;
判断单元,用于在所述生成的特征码与数据库中存储的已发布信息的特征码匹配成功时,判断出所述待发布信息与所述已发布信息重复;
其中,所述装置还包括:第二匹配单元,用于在所述生成的特征码与所述数据库中存储的已发布信息的特征码匹配不成功时,通过XML模型对所述待发布信息进行匹配;第一处理单元,用于将匹配的结果中标识为缺失的信息进行返回;或者
第二生成单元,用于在将所述生成的特征码与数据库中存储的已发布信息的特征码进行匹配不成功时,将所述待发布信息通过由所述已发布信息训练得到的决策树模型生成得到缺失的信息;第二处理单元,用于将所述生成的缺失的信息进行返回。
6.根据权利要求5所述的装置,其特征在于,所述第一生成单元包括:
生成模块,用于对所述关键字段进行MD5和/或HASH操作得到所述特征码。
7.根据权利要求5所述的装置,其特征在于,所述第二匹配单元包括:
转换模块,用于将所述待发布信息转换为XML格式;
匹配模块,用于将转换为XML格式的待发布信息与所述待发布信息所在的类目的schema文件进行匹配;
处理模块,用于将所述待发布信息中无法与所述schema文件匹配的信息标识为缺失的信息。
8.根据权利要求5所述的装置,其特征在于,还包括:
删除单元,用于在判断出所述待发布信息与所述已发布信息重复之后,删除所述待发布信息。
CN201210015257.5A 2012-01-17 2012-01-17 发布信息的检查方法和装置 Active CN103207878B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201210015257.5A CN103207878B (zh) 2012-01-17 2012-01-17 发布信息的检查方法和装置
HK13110855.8A HK1183536A1 (zh) 2012-01-17 2013-09-24 發布信息的檢查方法和裝置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210015257.5A CN103207878B (zh) 2012-01-17 2012-01-17 发布信息的检查方法和装置

Publications (2)

Publication Number Publication Date
CN103207878A CN103207878A (zh) 2013-07-17
CN103207878B true CN103207878B (zh) 2016-05-04

Family

ID=48755103

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210015257.5A Active CN103207878B (zh) 2012-01-17 2012-01-17 发布信息的检查方法和装置

Country Status (2)

Country Link
CN (1) CN103207878B (zh)
HK (1) HK1183536A1 (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104715374A (zh) * 2013-12-11 2015-06-17 世纪禾光科技发展(北京)有限公司 一种电子商务平台重复产品的治理方法和系统
CN106681524A (zh) * 2015-11-10 2017-05-17 阿里巴巴集团控股有限公司 一种信息处理的方法及装置
CN105512710B (zh) * 2015-12-15 2018-09-04 深圳Tcl数字技术有限公司 生成二维码的方法和装置
CN107172112B (zh) * 2016-03-07 2020-10-02 阿里巴巴集团控股有限公司 一种计算机文件传输方法及装置
CN108257013A (zh) * 2016-12-28 2018-07-06 平安科技(深圳)有限公司 保险产品定义方法及装置
CN109284614A (zh) * 2018-08-10 2019-01-29 五八有限公司 信息验证方法、装置、计算机设备及计算机可读存储介质
CN109271387B (zh) * 2018-09-28 2021-10-15 创新先进技术有限公司 一种数据库的规则发布方法以及装置
CN110278281A (zh) * 2019-06-27 2019-09-24 夏长林 一种电子信息的发布方法以及装置
CN110457634A (zh) * 2019-08-12 2019-11-15 拉扎斯网络科技(上海)有限公司 信息发布方法、装置、电子设备及计算机可读存储介质
CN113128873A (zh) * 2021-04-22 2021-07-16 深圳市鹏兴食安第三方监管有限公司 一种单位食品安全检查方法及装置
CN113112335A (zh) * 2021-05-08 2021-07-13 拉扎斯网络科技(上海)有限公司 店铺的商品信息处理方法、装置及计算机设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101101600A (zh) * 2007-07-10 2008-01-09 北京大学 网络搜索中基于多种规则的元数据自动抽取方法
CN101442731A (zh) * 2008-12-12 2009-05-27 中国移动通信集团安徽有限公司 一种话单剔重方法和装置
CN101606147A (zh) * 2006-08-22 2009-12-16 摩托罗拉公司 在通信系统中从应用服务提供商向客户端提供服务
WO2010113167A1 (en) * 2009-03-30 2010-10-07 Hewlett-Packard Development Company L.P. Deduplication of data stored in a copy volume

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101606147A (zh) * 2006-08-22 2009-12-16 摩托罗拉公司 在通信系统中从应用服务提供商向客户端提供服务
CN101101600A (zh) * 2007-07-10 2008-01-09 北京大学 网络搜索中基于多种规则的元数据自动抽取方法
CN101442731A (zh) * 2008-12-12 2009-05-27 中国移动通信集团安徽有限公司 一种话单剔重方法和装置
WO2010113167A1 (en) * 2009-03-30 2010-10-07 Hewlett-Packard Development Company L.P. Deduplication of data stored in a copy volume

Also Published As

Publication number Publication date
HK1183536A1 (zh) 2013-12-27
CN103207878A (zh) 2013-07-17

Similar Documents

Publication Publication Date Title
CN103207878B (zh) 发布信息的检查方法和装置
US10445170B1 (en) Data lineage identification and change impact prediction in a distributed computing environment
CN104391934B (zh) 数据校验方法和装置
EP4236198A2 (en) Secure provision of undetermined data from an undetermined source into the locking script of a blockchain transaction
US8799869B2 (en) System for ensuring comprehensiveness of requirements testing of software applications
CN104205099B (zh) 用于集中式问题跟踪的方法和系统
CN109284631A (zh) 一种基于大数据的文档脱敏系统及方法
CN102654874A (zh) 单据数据管理方法及系统
CN104461531B (zh) 一种报表系统自定义函数的实现方法
CN103150647A (zh) 报表文件处理方法、服务器和系统
CN112882844A (zh) 基于网络前后端的联调方法、装置及存储介质
CN111079184A (zh) 防护数据泄漏的方法、系统、设备以及存储介质
CN112214602B (zh) 基于幽默度的文本分类方法、装置、电子设备及存储介质
CN113821538A (zh) 一种基于元数据的流式数据处理系统
Blanco et al. Onto-CARMEN: Ontology-driven approach for Cyber–Physical System Security Requirements meta-modelling and reasoning
JP5042148B2 (ja) 情報処理システム、情報処理方法、およびプログラム
CN115114495B (zh) 基于深度学习的适航数据治理辅助方法及其系统
Caroprese et al. P2P deductive databases: a system prototype
CN112084391B (zh) 依赖包信息的获取方法、装置、设备及计算机介质
US11150955B2 (en) Generation and usage of a task-based programming platform
Azuan Exploring Manual Correction as a Source of User Feedback in Pay-As-You-Go Integration
CN114006877A (zh) 消息传输方法、装置、电子设备及存储介质
Walsh et al. Learning web-service task descriptions from traces
CN116128518A (zh) 电子档案管理方法、装置、设备及存储介质
CN116975050A (zh) 一种数据处理方法、装置、设备以及计算机可读存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1183536

Country of ref document: HK

C14 Grant of patent or utility model
GR01 Patent grant
REG Reference to a national code

Ref country code: HK

Ref legal event code: GR

Ref document number: 1183536

Country of ref document: HK