CN108280198B - 榜单生成方法及装置 - Google Patents

榜单生成方法及装置 Download PDF

Info

Publication number
CN108280198B
CN108280198B CN201810082730.9A CN201810082730A CN108280198B CN 108280198 B CN108280198 B CN 108280198B CN 201810082730 A CN201810082730 A CN 201810082730A CN 108280198 B CN108280198 B CN 108280198B
Authority
CN
China
Prior art keywords
word
article
words
initial
item
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810082730.9A
Other languages
English (en)
Other versions
CN108280198A (zh
Inventor
叶孝璐
郭华洋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koubei Shanghai Information Technology Co Ltd
Original Assignee
Koubei Shanghai Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koubei Shanghai Information Technology Co Ltd filed Critical Koubei Shanghai Information Technology Co Ltd
Priority to CN201810082730.9A priority Critical patent/CN108280198B/zh
Publication of CN108280198A publication Critical patent/CN108280198A/zh
Application granted granted Critical
Publication of CN108280198B publication Critical patent/CN108280198B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3334Selection or weighting of terms from queries, including natural language queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/338Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Abstract

本发明公开了一种榜单生成方法及装置,其中,榜单生成方法包括:对物品词词库中的初始物品词进行停用词去除处理,得到处理后的物品词;基于处理后的物品词进行分类,得到多个物品类型,其中,每一物品类型与多个初始物品词对应;针对每一物品类型,对多个初始物品词进行排序,得到物品词榜单,从而提升了所生成的榜单的质量,避免生成一些没有太大实际意义的榜单,进而能够在后续过程中给与用户更好的指导。

Description

榜单生成方法及装置
技术领域
本发明涉及信息处理技术领域,具体涉及一种榜单生成方法及装置。
背景技术
随着信息技术的发展,生成各种相关的排行榜单以进行推荐或者为终端用户的行为提供参考,已成为信息技术应用中的一项重要内容。以本地生活服务平台为例,大部分用户是按照喜欢的物品找一家店消费,物品维度的榜单对用户消费决策至关重要。
然而,现有的生成榜单的方法主要是计算多个物品词的相似度,利用相似度将多个物品词归为一类,生成对应的榜单,然而,这些物品词中很可能包含一些停用词,进而导致所生成的榜单的质量差,无法充分体现榜单的指导价值。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的榜单生成方法及装置。
根据本发明的一个方面,提供了一种榜单生成方法,包括:
对物品词词库中的初始物品词进行停用词去除处理,得到处理后的物品词;
基于处理后的物品词进行分类,得到多个物品类型,其中,每一物品类型与多个初始物品词对应;
针对每一物品类型,对多个初始物品词进行排序,得到物品词榜单。
可选地,对物品词词库中的初始物品词进行停用词去除处理,得到处理后的物品词进一步包括:
针对物品词词库中的每一初始物品词,对初始物品词进行分词处理,得到至少一个词语;
将至少一个词语与停用词词库进行匹配,去除其中的停用词,并将剩余的词语组合得到处理后的物品词。
可选地,将至少一个词语与停用词词库进行匹配,去除其中的停用词,并将剩余的词语组合得到处理后的物品词进一步包括:
从至少一个词语中选择一未曾被选择过的词语,根据停用词词库判断词语是否是停用词;
若词语是停用词,则删除词语;若词语不是停用词,则判断至少一个词语是否都被选择过;
若至少一个词语都被选择过,则将剩余的词语组合得到处理后的物品词。
可选地,基于处理后的物品词进行分类,得到多个物品类型进一步包括:
利用预设算法计算处理后的物品词的最长公共子字符串,得到多个最长公共子字符串;
将具有相同最长公共子字符串的多个初始物品词归一化为同一物品类型。
可选地,在得到多个最长公共子字符串之后,方法还包括:
根据多个最长公共子字符串查询过滤词词库,以确定是否存在与多个最长公共子字符串中任一最长公共子字符串相匹配的词语;
若存在,则删除多个最长公共子字符串中与过滤词词库中词语相匹配的最长公共子字符串。
可选地,将具有相同最长公共子字符串的多个初始物品词归一化为同一物品类型进一步包括:
判断具有相同最长公共子字符串的初始物品词的数量是否大于或等于预设阈值;
若是,则将具有相同最长公共子字符串且数量大于或等于预设阈值的多个初始物品词归一化为同一物品类型;
若否,则删除相应的最长公共子字符串。
可选地,针对每一物品类型,对多个初始物品词进行排序,得到物品词榜单进一步包括:
针对每一物品类型中的每一初始物品词,根据初始物品词的物品词信息计算初始物品词的综合评分;
对多个初始物品词按照综合评分进行排序,得到物品词榜单。
可选地,物品词信息包括以下信息中的一种或多种:物品词对应的销量、关于该物品词的用户评论数量、用户点赞数量。
根据本发明的另一方面,提供了一种榜单生成装置,包括:
处理模块,适于对物品词词库中的初始物品词进行停用词去除处理,得到处理后的物品词;
分类模块,适于基于处理后的物品词进行分类,得到多个物品类型,其中,每一物品类型与多个初始物品词对应;
排序模块,适于针对每一物品类型,对多个初始物品词进行排序,得到物品词榜单。
可选地,处理模块进一步适于:针对物品词词库中的每一初始物品词,对初始物品词进行分词处理,得到至少一个词语;将至少一个词语与停用词词库进行匹配,去除其中的停用词,并将剩余的词语组合得到处理后的物品词。
可选地,处理模块进一步适于:从至少一个词语中选择一未曾被选择过的词语,根据停用词词库判断词语是否是停用词;
若词语是停用词,则删除词语;若词语不是停用词,则判断至少一个词语是否都被选择过;
若至少一个词语都被选择过,则将剩余的词语组合得到处理后的物品词。
可选地,分类模块进一步包括:第一计算单元,适于利用预设算法计算处理后的物品词的最长公共子字符串,得到多个最长公共子字符串;
分类单元,适于将具有相同最长公共子字符串的多个初始物品词归一化为同一物品类型。
可选地,装置还包括:查询模块,适于根据多个最长公共子字符串查询过滤词词库,以确定是否存在与多个最长公共子字符串中任一最长公共子字符串相匹配的词语;
删除模块,适于若存在,则删除多个最长公共子字符串中与过滤词词库中词语相匹配的最长公共子字符串。
可选地,分类单元进一步适于:判断具有相同最长公共子字符串的初始物品词的数量是否大于或等于预设阈值;
若是,则将具有相同最长公共子字符串且数量大于或等于预设阈值的多个初始物品词归一化为同一物品类型;
若否,则删除相应的最长公共子字符串。
可选地,排序模块进一步包括:第二计算单元,适于针对每一物品类型中的每一初始物品词,根据初始物品词的物品词信息计算初始物品词的综合评分;
排序单元,适于对多个初始物品词按照综合评分进行排序,得到物品词榜单。
可选地,物品词信息包括以下信息中的一种或多种:物品词对应的销量、关于该物品词的用户评论数量、用户点赞数量。
根据本发明的又一方面,提供了一种计算设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行上述榜单生成方法对应的操作。
根据本发明的再一方面,提供了一种计算机存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令使处理器执行如上述榜单生成方法对应的操作。
根据本发明提供的方案,对物品词词库中的初始物品词进行停用词去除处理,得到处理后的物品词;基于处理后的物品词进行分类,得到多个物品类型,其中,每一物品类型与多个初始物品词对应;针对每一物品类型,对多个初始物品词进行排序,得到物品词榜单,从而提升了所生成的榜单的质量,避免生成一些没有太大实际意义的榜单,进而能够在后续过程中给与用户更好的指导性。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了根据本发明一个实施例的榜单生成方法的流程示意图;
图2示出了根据本发明另一个实施例的榜单生成方法的流程示意图;
图3示出了根据本发明一个实施例的榜单生成装置的结构程示意图;
图4示出了根据本发明一个实施例的一种计算设备的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
图1示出了根据本发明一个实施例的榜单生成方法的流程示意图。如图1所示,该方法包括以下步骤:
步骤S100,对物品词词库中的初始物品词进行停用词去除处理,得到处理后的物品词。
物品词词库中存储有大量的初始物品词,其中,这些初始物品词的主要来源为:①商户上传的②用户对商户的物品进行评价时所填写的或推荐的③第三方平台提供的,然而不论是商户上传的,还是用户填写的或推荐的,还是第三方平台提供的初始物品词,这些初始物品词可能包含有停用词,其中,停用词是一些修饰词,用于修饰物品等,例如,大份、小份、中辣、特辣、加香菜、长袖、短袖、热卖、商场同款等,这些停用词严重影响了所生成的榜单的质量,例如,所生成的榜单为:杭州大份黄焖鸡米饭中辣排行榜,杭州小份黄焖鸡米饭微辣排行榜,然而这种排行榜的实际意义并不是很大,真正有实际意义的排行榜为:杭州黄焖鸡排行榜,因此,就需要对物品词词库中的初始物品词进行停用词去除处理,以根据处理后的物品词确定物品类型。
步骤S101,基于处理后的物品词进行分类,得到多个物品类型,其中,每一物品类型与多个初始物品词对应。
在得到处理后的物品词之后,可以基于处理后的物品词进行分类,分类的目的在于确定哪些初始物品词可以作为一类来生成榜单,在分类后,每一物品类型与多个初始物品词对应,在本实施例中,每个物品词对应有一物品词ID,虽然对初始物品词进行了停用词去除处理,但是处理后的物品词与初始物品词对应相同的物品词ID,因此,可以确定每一物品类型对应的多个初始物品词。
步骤S102,针对每一物品类型,对多个初始物品词进行排序,得到物品词榜单。
在确定物品类型之后,即确定了哪些初始物品词作为比较对象进行排序,因此,在得到多个物品类型后,针对每一物品类型,可以对该物品类型中的多个初始物品词进行排序,得到物品词榜单。
根据本发明上述实施例提供的方法,对物品词词库中的初始物品词进行停用词去除处理,得到处理后的物品词;基于处理后的物品词进行分类,得到多个物品类型,其中,每一物品类型与多个初始物品词对应;针对每一物品类型,对多个初始物品词进行排序,得到物品词榜单,从而提升了所生成的榜单的质量,避免生成一些没有太大实际意义的榜单,进而能够在后续过程中给与用户更好的指导性。
本发明实施例提供的榜单生成方法可以应用于生成菜品榜单,当然,还可以应用于生成其它单品榜单,例如,连衣裙榜单、海盗船榜单等,这里不做具体限定,下面将结合生成菜品榜单来详细介绍榜单生成方法:
图2示出了根据本发明另一个实施例的榜单生成方法的流程示意图。如图2所示,该方法包括以下步骤:
步骤S200,针对菜品词词库中的每一初始菜品词,对该初始菜品词进行分词处理,得到至少一个词语。
菜品词词库除了存储初始菜品词外,还会存储有店铺标识、菜品词ID、菜品图片、菜品销售数量、用户点赞数量、用户评论数量等,这些数据可以用于后续生成榜单以及向用户展示等,例如,可以根据菜品销售数量、用户点赞数量、用户评论数量计算菜品词的综合评分,依照综合评分对菜品词进行排序,当用户搜索菜品词时,可以将店铺标识、菜品图像显示在用户搜索页面中,供用户参考,这里仅是举例说明,不具有任何限定作用。
为了能够生成高质量的菜品榜单,本实施例需要先去除初始菜品词中的停用词,具体地,先对菜品词词库中的每一初始菜品词进行切分词处理,即将初始菜品词切分成有意义的词语,现有技术中有多种切分词方法,例如,基于字符串匹配的分词方法,基于理解的分词方法和基于统计的分词方法等。本领域技术人员能够根据需求进行选取,或是综合使用多种方法。
步骤S201,将至少一个词语与停用词词库进行匹配,去除其中的停用词,并将剩余的词语组合得到处理后的菜品词。
为了减少停用词对于分类的影响,可以预先设置一个停用词词库,停用词词库存储有作为停用词的词语,根据这个停用词词库可以将初始物品词中的停用词剔除掉,从而有助于后续分类,提升菜品榜单生成质量。
具体地,可以采用如下方法去除停用词:从至少一个词语中选择一未曾被选择过的词语,根据停用词词库判断词语是否是停用词,例如,利用所选取的词语查询停用词词库,若停用词词库中存在与所选取的词语相匹配的词语,说明该词语是停用词,则删除该词语;若未查询到,说明该词语不是停用词,保留该词语,然后判断至少一个词语是否都被选择过,以保证至少一个词语中的任一词语都进行停用词判断;若至少一个词语都被选择过,表明对于至少一个词语中的任一词语已经都判断过该词语是否为停用词,则将剩余的词语组合得到处理后的菜品词。
以“大份黄焖鸡中辣”为例,切分词处理后,得到“大份”、“黄焖鸡”、“中辣”三个词语,从中选择词语“大份”,利用词语“大份”查询停用词词库,在停用词词库中查询到相匹配的词语“大份”,则删除词语“大份”,然后判断至少一个词语是否都被选择过,发现“黄焖鸡”、“中辣”未被选择过,则从中选择一未曾被选择过的词语“黄焖鸡”,继续根据停用词词库判断词语“黄焖鸡”是否是停用词,不是,则保留词语“黄焖鸡”,判断至少一个词语是否都被选择过,“中辣”未被选择过,则从中选择一未曾被选择过的词语“中辣”,继续根据停用词词库判断词语“中辣”是否是停用词,若是,则删除词语“中辣”,然后判断至少一个词语是否都被选择过,若至少一个词语都被选择过,表明对于至少一个词语中的任一词语已经都判断过该词语是否为停用词,则将剩余的词语“黄焖鸡”作为处理后的菜品词。
步骤S202,利用预设算法计算处理后的菜品词的最长公共子字符串,得到多个最长公共子字符串。
最长公共子字符串指子字符串在多个处理后的菜品词中是连续的,且相同部分是最长的,举例说明,两个菜品词分别为:ABCDE和RCDE,则两个菜品词的最长公共子字符串为CDE,本实施例可以利用穷举法或者动态规划法来计算处理后的菜品词的最长公共子字符串,得到多个最长公共子字符串,当然还可以采用其它方法,这里不一一列举。本步骤中确定的最长公共子字符串可以作为后续的菜品类型对初始菜品词进行分类,生成相应菜品类型对应的榜单。
步骤S203,根据多个最长公共子字符串查询过滤词词库,以确定是否存在与多个最长公共子字符串中任一最长公共子字符串相匹配的词语。
虽然,根据步骤S202得到了多个最长公共子字符串,但是很可能存在多个最长公共子字符串中的部分最长公共子字符串并不适于作为菜品类型,例如,步骤S202中所确定的最长公共子字符串为:红烧、煎、炒、炸等,这类词语不能作为菜品类型,因此,预先设置了过滤词词库,该过滤词词库中存储了一些不能作为菜品类型的词语,对于菜品而言,更多是菜的烹饪方法类的词语,当然,还可以是其它词语,这里不做具体限定。
在得到多个最长公共子字符串之后,需要根据多个最长公共子字符串查询过滤词词库,通过查询过滤词词库确定该过滤词词库中是否存在与多个最长公共子字符串中任一最长公共子字符串相匹配的词语。
步骤S204,若存在,则删除多个最长公共子字符串中与过滤词词库中词语相匹配的最长公共子字符串。
如果存在与过滤词词库中词语相匹配的最长公共子字符串,则表明该最长公共子字符串并不能作为菜品类型,可以删除该最长公共子字符串,这样可以先过虑掉一些导致生成的菜品榜单没有太大实际意义的最长公共子字符串,例如,所得到的最长公共子字符串为“红烧”,若不过滤掉最长公共子字符串为“红烧”,则可能生成一个关于红烧的排行榜,而关于红烧的菜品词可能包含红烧肉、红烧鱼等,这种混合在一起的榜单对于用户没有任何指导意义,造成资源的浪费。
在本发明一种可选实施方式中,在执行步骤S203之前,可以先判断最长公共子字符串的长度是否大于或等于预设长度,通过判断最长公共子字符串的长度是否大于或等于预设长度可以将一些最长公共子字符串过滤掉,例如,通过计算确定一些菜品词的最长公共子字符串的长度可能仅包含一个词,而这类词一般没有任何意义,因此,需要先过滤掉这类词,这里的预设长度可以设置为2,这里仅是举例说明,不具有任何限定作用。
步骤S205,对于剩余的最长公共子字符串,判断具有相同最长公共子字符串的初始物品词的数量是否大于或等于预设阈值,若否,则执行步骤S206;若是,则执行步骤S207。
删除多个最长公共子字符串中与过滤词词库中词语相匹配的最长公共子字符串之后,对于剩余的最长公共子字符串,在生成榜单之前,可以先判断一下具有相同最长公共子字符串的初始物品词的数量是否大于或等于预设阈值,以确定对于这些初始物品词是否生成一个榜单,其中,预设阈值可以根据实际需要进行设定,例如,设定为10,这里仅是举例说明,不具有任何限定作用。
步骤S206,删除相应的最长公共子字符串。
若判断出具有相同最长公共子字符串的初始物品词的数量小于预设阈值,则可以删除相应的最长公共子字符串,也就是说,不会生成相应的榜单,然后继续判断下一个最长公共子字符串,直至针对剩余的最长公共子字符串中的每一个最长公共子字符串,都进行了如下判断:判断具有相同最长公共子字符串的初始物品词的数量是否大于或等于预设阈值。
步骤S207,将具有相同最长公共子字符串且数量大于或等于预设阈值的多个初始菜品词归一化为同一菜品类型。
若判断出具有相同最长公共子字符串的初始物品词的数量大于或等于预设阈值,则可以将具有相同最长公共子字符串且数量大于或等于预设阈值的多个初始菜品词归一化为同一菜品类型,菜品类型具体可以为相应的最长公共子字符串。
其中,步骤S203-步骤S207为可选步骤,也就是说,则得到最长公共子字符串之后,可以直接将具有相同最长公共子字符串的多个初始菜品词归一化为同一菜品类型。
步骤S208,针对每一菜品类型中的每一初始菜品词,根据菜品词的菜品词信息计算初始菜品词的综合评分。
在生成榜单之前,需要先确定排序依据,本实施例中的排序依据主要是根据菜品词信息确定的,其中,菜品词信息包括以下信息中的一种或多种:菜品词对应的销量、关于该菜品词的用户评论数量、用户点赞数量,在确定了菜品类型后,对于该菜品类型中的每一初始菜品词,根据菜品词的菜品词信息计算初始菜品词的综合评分,例如,菜品词对应的销量越高,初始菜品词的综合评分越高;用户点赞数量越高,初始菜品词的综合评分越高;关于该菜品词的用户正向评论数量越多,初始菜品词的综合评分越高。
步骤S209,对多个初始菜品词按照综合评分进行排序,得到菜品词榜单。
在计算得到每个初始菜品词的综合评分之后,对于同一菜品类型,可以按照综合评分对多个初始菜品词进行排序,得到菜品词榜单,该榜单会记录有店铺ID、初始菜品词、名次等。
本发明实施例提供的榜单生成方法还可以根据位置信息确定榜单的涵盖范围,例如,榜单是杭州市的店铺关于某一菜品的排名,或者榜单是北京市的店铺关于某一菜品的排名,或者榜单是全国的店铺关于某一菜品的排名,这里不做具体限定。
根据本发明上述实施例提供的方法,通过去除初始菜品词中的停用词,基于处理后的菜品词进行分类,可以提高所生成的榜单的质量,基于最长公共子字符串将多个初始菜品归一化为同一菜品类型,提高了榜单结果的准确性,避免了将一些跨字符的字段相同、或者字段顺序相反的菜品词归为同一菜品类型,导致输出结果较差的问题,通过查询过滤词词库,可以避免生成一些无意义的榜单,节省资源。
图3示出了根据本发明一个实施例的榜单生成装置的结构程示意图。如图3所示,该装置包括:处理模块300、分类模块310、排序模块320。
处理模块300,适于对物品词词库中的初始物品词进行停用词去除处理,得到处理后的物品词。
分类模块310,适于基于处理后的物品词进行分类,得到多个物品类型,其中,每一物品类型与多个初始物品词对应。
排序模块320,适于针对每一物品类型,对多个初始物品词进行排序,得到物品词榜单。
可选地,处理模块300进一步适于:针对物品词词库中的每一初始物品词,对初始物品词进行分词处理,得到至少一个词语;将至少一个词语与停用词词库进行匹配,去除其中的停用词,并将剩余的词语组合得到处理后的物品词。
可选地,处理模块300进一步适于:从至少一个词语中选择一未曾被选择过的词语,根据停用词词库判断词语是否是停用词;
若词语是停用词,则删除词语;若词语不是停用词,则判断至少一个词语是否都被选择过;
若至少一个词语都被选择过,则将剩余的词语组合得到处理后的物品词。
可选地,分类模块310进一步包括:第一计算单元311,适于利用预设算法计算处理后的物品词的最长公共子字符串,得到多个最长公共子字符串;
分类单元312,适于将具有相同最长公共子字符串的多个初始物品词归一化为同一物品类型。
可选地,装置还包括:查询模块330,适于根据多个最长公共子字符串查询过滤词词库,以确定是否存在与多个最长公共子字符串中任一最长公共子字符串相匹配的词语;
删除模块340,适于若存在,则删除多个最长公共子字符串中与过滤词词库中词语相匹配的最长公共子字符串。
可选地,分类单元312进一步适于:判断具有相同最长公共子字符串的初始物品词的数量是否大于或等于预设阈值;
若是,则将具有相同最长公共子字符串且数量大于或等于预设阈值的多个初始物品词归一化为同一物品类型;
若否,则删除相应的最长公共子字符串。
可选地,排序模块320进一步包括:第二计算单元321,适于针对每一物品类型中的每一初始物品词,根据初始物品词的物品词信息计算初始物品词的综合评分;
排序单元322,适于对物品类型中的多个初始物品词按照综合评分进行排序,得到物品词榜单。
可选地,物品词信息包括以下信息中的一种或多种:物品词对应的销量、关于该物品词的用户评论数量、用户点赞数量。
根据本发明上述实施例提供的装置,对物品词词库中的初始物品词进行停用词去除处理,得到处理后的物品词;基于处理后的物品词进行分类,得到多个物品类型,其中,每一物品类型与多个初始物品词对应;针对每一物品类型,对多个初始物品词进行排序,得到物品词榜单,从而提升了所生成的榜单的质量,避免生成一些没有太大实际意义的榜单,进而能够在后续过程中给与用户更好的指导性。
本申请实施例还提供了一种非易失性计算机存储介质,所述计算机存储介质存储有至少一可执行指令,该计算机可执行指令可执行上述任意方法实施例中的榜单生成方法。
图4示出了根据本发明一个实施例的一种计算设备的结构示意图,本发明具体实施例并不对计算设备的具体实现做限定。
如图4所示,该计算设备可以包括:处理器(processor)402、通信接口(Communications Interface)404、存储器(memory)406、以及通信总线408。
其中:
处理器402、通信接口404、以及存储器406通过通信总线408完成相互间的通信。
通信接口404,用于与其它设备比如客户端或其它服务器等的网元通信。
处理器402,用于执行程序410,具体可以执行上述榜单生成方法实施例中的相关步骤。
具体地,程序410可以包括程序代码,该程序代码包括计算机操作指令。
处理器402可能是中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路。计算设备包括的一个或多个处理器,可以是同一类型的处理器,如一个或多个CPU;也可以是不同类型的处理器,如一个或多个CPU以及一个或多个ASIC。
存储器406,用于存放程序410。存储器406可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
程序410具体可以用于使得处理器402执行上述任意方法实施例中的榜单生成方法。程序410中各步骤的具体实现可以参见上述榜单生成实施例中的相应步骤和单元中对应的描述,在此不赘述。所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的设备和模块的具体工作过程,可以参考前述方法实施例中的对应过程描述,在此不再赘述。
在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的榜单生成设备中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims (14)

1.一种榜单生成方法,包括:
对物品词词库中的初始物品词进行停用词去除处理,得到处理后的物品词;
基于处理后的物品词进行分类,得到多个物品类型,其中,每一物品类型与多个初始物品词对应;
针对每一物品类型,对多个初始物品词进行排序,得到物品词榜单;
其中,所述基于处理后的物品词进行分类,得到多个物品类型进一步包括:
利用预设算法计算所述处理后的物品词的最长公共子字符串,得到多个最长公共子字符串;
根据所述多个最长公共子字符串查询过滤词词库,以确定是否存在与多个最长公共子字符串中任一最长公共子字符串相匹配的词语;
若存在,则删除所述多个最长公共子字符串中与所述过滤词词库中词语相匹配的最长公共子字符串;
将具有相同最长公共子字符串的多个初始物品词归一化为同一物品类型。
2.根据权利要求1所述的方法,其中,所述对物品词词库中的初始物品词进行停用词去除处理,得到处理后的物品词进一步包括:
针对物品词词库中的每一初始物品词,对所述初始物品词进行分词处理,得到至少一个词语;
将所述至少一个词语与停用词词库进行匹配,去除其中的停用词,并将剩余的词语组合得到处理后的物品词。
3.根据权利要求2所述的方法,其中,所述将所述至少一个词语与停用词词库进行匹配,去除其中的停用词,并将剩余的词语组合得到处理后的物品词进一步包括:
从所述至少一个词语中选择一未曾被选择过的词语,根据所述停用词词库判断所述词语是否是停用词;
若所述词语是停用词,则删除所述词语;若所述词语不是停用词,则判断所述至少一个词语是否都被选择过;
若所述至少一个词语都被选择过,则将剩余的词语组合得到处理后的物品词。
4.根据权利要求1所述的方法,其中,所述将具有相同最长公共子字符串的多个初始物品词归一化为同一物品类型进一步包括:
判断具有相同最长公共子字符串的初始物品词的数量是否大于或等于预设阈值;
若是,则将具有相同最长公共子字符串且数量大于或等于预设阈值的多个初始物品词归一化为同一物品类型;
若否,则删除相应的最长公共子字符串。
5.根据权利要求1-3任一项所述的方法,其中,所述针对每一物品类型,对多个初始物品词进行排序,得到物品词榜单进一步包括:
针对每一物品类型中的每一初始物品词,根据所述初始物品词的物品词信息计算所述初始物品词的综合评分;
对多个初始物品词按照综合评分进行排序,得到物品词榜单。
6.根据权利要求5所述的方法,其中,所述物品词信息包括以下信息中的一种或多种:物品词对应的销量、关于该物品词的用户评论数量、用户点赞数量。
7.一种榜单生成装置,包括:
处理模块,适于对物品词词库中的初始物品词进行停用词去除处理,得到处理后的物品词;
分类模块,适于基于处理后的物品词进行分类,得到多个物品类型,其中,每一物品类型与多个初始物品词对应;
排序模块,适于针对每一物品类型,对多个初始物品词进行排序,得到物品词榜单;
其中,所述分类模块进一步包括:第一计算单元,适于利用预设算法计算所述处理后的物品词的最长公共子字符串,得到多个最长公共子字符串;
分类单元,适于将具有相同最长公共子字符串的多个初始物品词归一化为同一物品类型;
所述装置还包括:查询模块,适于根据所述多个最长公共子字符串查询过滤词词库,以确定是否存在与多个最长公共子字符串中任一最长公共子字符串相匹配的词语;
删除模块,适于若存在,则删除所述多个最长公共子字符串中与所述过滤词词库中词语相匹配的最长公共子字符串。
8.根据权利要求7所述的装置,其中,所述处理模块进一步适于:针对物品词词库中的每一初始物品词,对所述初始物品词进行分词处理,得到至少一个词语;将所述至少一个词语与停用词词库进行匹配,去除其中的停用词,并将剩余的词语组合得到处理后的物品词。
9.根据权利要求8所述的装置,其中,所述处理模块进一步适于:
从所述至少一个词语中选择一未曾被选择过的词语,根据所述停用词词库判断所述词语是否是停用词;
若所述词语是停用词,则删除所述词语;若所述词语不是停用词,则判断所述至少一个词语是否都被选择过;
若所述至少一个词语都被选择过,则将剩余的词语组合得到处理后的物品词。
10.根据权利要求7所述的装置,其中,所述分类单元进一步适于:判断具有相同最长公共子字符串的初始物品词的数量是否大于或等于预设阈值;
若是,则将具有相同最长公共子字符串且数量大于或等于预设阈值的多个初始物品词归一化为同一物品类型;
若否,则删除相应的最长公共子字符串。
11.根据权利要求7-10任一项所述的装置,其中,所述排序模块进一步包括:
第二计算单元,适于针对每一物品类型中的每一初始物品词,根据所述初始物品词的物品词信息计算所述初始物品词的综合评分;
排序单元,适于对多个初始物品词按照综合评分进行排序,得到物品词榜单。
12.根据权利要求11所述的装置,其中,所述物品词信息包括以下信息中的一种或多种:物品词对应的销量、关于该物品词的用户评论数量、用户点赞数量。
13.一种计算设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如权利要求1-6中任一项所述的榜单生成方法对应的操作。
14.一种计算机存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令使处理器执行如权利要求1-6中任一项所述的榜单生成方法对应的操作。
CN201810082730.9A 2018-01-29 2018-01-29 榜单生成方法及装置 Active CN108280198B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810082730.9A CN108280198B (zh) 2018-01-29 2018-01-29 榜单生成方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810082730.9A CN108280198B (zh) 2018-01-29 2018-01-29 榜单生成方法及装置

Publications (2)

Publication Number Publication Date
CN108280198A CN108280198A (zh) 2018-07-13
CN108280198B true CN108280198B (zh) 2021-03-02

Family

ID=62805523

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810082730.9A Active CN108280198B (zh) 2018-01-29 2018-01-29 榜单生成方法及装置

Country Status (1)

Country Link
CN (1) CN108280198B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112862567B (zh) * 2021-02-25 2022-12-23 华侨大学 一种在线展会的展品推荐方法与系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103246670A (zh) * 2012-02-09 2013-08-14 深圳市腾讯计算机系统有限公司 微博排序、搜索、展示方法和系统
CN105224520A (zh) * 2015-09-28 2016-01-06 北京信息科技大学 一种中文专利文献术语自动识别方法
CN106202481A (zh) * 2016-07-18 2016-12-07 量子云未来(北京)信息科技有限公司 一种感知数据的评价方法和系统
CN106874416A (zh) * 2017-01-23 2017-06-20 腾讯科技(深圳)有限公司 排行榜单生成方法及排行榜单生成装置
CN107230130A (zh) * 2017-04-28 2017-10-03 杭州集盒网络技术有限公司 一种商圈数据显示方法
CN107526795A (zh) * 2017-08-17 2017-12-29 晶赞广告(上海)有限公司 知识库的构建方法及装置、存储介质、计算设备

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103577432B (zh) * 2012-07-26 2017-07-14 阿里巴巴集团控股有限公司 一种商品信息搜索方法和系统
CN104462143B (zh) * 2013-09-24 2018-01-30 高德软件有限公司 连锁品牌词词库、类别词词库建立方法和装置
CN104462301B (zh) * 2014-11-28 2018-05-04 北京奇虎科技有限公司 一种网络数据的处理方法和装置
CN107436896B (zh) * 2016-05-26 2022-03-08 北京搜狗科技发展有限公司 一种输入推荐方法、装置及电子设备
CN107463616B (zh) * 2017-07-03 2020-04-10 上海凡响网络科技有限公司 一种企业信息分析方法及系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103246670A (zh) * 2012-02-09 2013-08-14 深圳市腾讯计算机系统有限公司 微博排序、搜索、展示方法和系统
CN105224520A (zh) * 2015-09-28 2016-01-06 北京信息科技大学 一种中文专利文献术语自动识别方法
CN106202481A (zh) * 2016-07-18 2016-12-07 量子云未来(北京)信息科技有限公司 一种感知数据的评价方法和系统
CN106874416A (zh) * 2017-01-23 2017-06-20 腾讯科技(深圳)有限公司 排行榜单生成方法及排行榜单生成装置
CN107230130A (zh) * 2017-04-28 2017-10-03 杭州集盒网络技术有限公司 一种商圈数据显示方法
CN107526795A (zh) * 2017-08-17 2017-12-29 晶赞广告(上海)有限公司 知识库的构建方法及装置、存储介质、计算设备

Also Published As

Publication number Publication date
CN108280198A (zh) 2018-07-13

Similar Documents

Publication Publication Date Title
JP5449628B2 (ja) マルチステージを使用したカテゴリ情報の決定
JP5575902B2 (ja) クエリのセマンティックパターンに基づく情報検索
JP6301958B2 (ja) 検索語句を構成し、広告を配信し、製品情報を検索するための方法および装置
CN105740268A (zh) 一种信息推送方法和装置
CN107832444B (zh) 基于搜索日志的事件发现方法及装置
CN107067293A (zh) 商家分类方法、装置及电子设备
WO2013192093A1 (en) Search method and apparatus
CN110968765B (zh) 书籍搜索方法、计算设备及计算机存储介质
CN112712409A (zh) 快速拣货方法、装置、计算机设备及存储介质
CN106777201B (zh) 搜索结果页上的推荐数据的排序方法及装置
CN108280198B (zh) 榜单生成方法及装置
CN110990701B (zh) 书籍搜索方法、计算设备及计算机存储介质
CN110362702A (zh) 图片管理方法及设备
JP5622880B2 (ja) アイテム推薦システム、アイテム推薦方法およびアイテム推薦プログラム
CN109003170A (zh) 用于在页面中展示的店铺素材的获取方法及装置
CN109472025B (zh) 菜品名称提取方法及装置
CN111553762A (zh) 提高搜索质量的方法、系统及终端设备
CN111625619B (zh) 查询省略方法、装置、计算机可读介质及电子设备
CN111581492A (zh) 一种内容推荐方法、计算设备及可读存储介质
CN109241360B (zh) 组合字符串的匹配方法及装置和电子设备
WO2016101737A1 (zh) 搜索查询方法和装置
CN111160699A (zh) 一种专家推荐方法及系统
CN106934007B (zh) 关联信息的推送方法及装置
CN111523041B (zh) 热度数据的推荐方法、计算设备及计算机存储介质
CN112183069A (zh) 一种基于历史关键词投放数据的关键词构建方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant