CN110765115A - 一种多个排序类别组合方法 - Google Patents

一种多个排序类别组合方法 Download PDF

Info

Publication number
CN110765115A
CN110765115A CN201910926653.5A CN201910926653A CN110765115A CN 110765115 A CN110765115 A CN 110765115A CN 201910926653 A CN201910926653 A CN 201910926653A CN 110765115 A CN110765115 A CN 110765115A
Authority
CN
China
Prior art keywords
album
service data
phrases
category
under
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910926653.5A
Other languages
English (en)
Inventor
季飞
杨晶生
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Microphone Culture Media Co Ltd
Original Assignee
Shanghai Microphone Culture Media Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Microphone Culture Media Co Ltd filed Critical Shanghai Microphone Culture Media Co Ltd
Priority to CN201910926653.5A priority Critical patent/CN110765115A/zh
Publication of CN110765115A publication Critical patent/CN110765115A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2474Sequence data queries, e.g. querying versioned data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24564Applying rules; Deductive queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • Quality & Reliability (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明属于排序方法组合技术领域,尤其是涉及一种多个排序类别组合方法,包括以下步骤:采集业务数据,对业务数据进行分类和分类存储;根据预先设置的过滤规则分别对各类别下的业务数据进行过滤,并分别从各类别下过滤后的业务数据中提取专辑词组;对从同一业务数据中提取的专辑词组进行排序,并将同一业务数据的排序后的专辑词组进行组合,获得各类别下的各个业务数据的专辑词组组;统计专辑词组在所属类别下的出现次数,分别获取各类别下的专辑词组并进行分类展示。本发明支持多个排序方法组合成最终结果,并且对业务数据进行了过滤和分类,既满足了热度,又满足了新品的曝光需求,所得结果重复性小、可读性高。

Description

一种多个排序类别组合方法
技术领域
本发明涉及排序方法组合技术领域,尤其涉及一种多个排序类别组合方法。
背景技术
在实际业务中,常常会使用排序。通常的排序按照某个特定排序分值结果进行排序。排序分值接近的专辑,特征也很容易接近,导致结果缺乏多样性,满足不同的述求。
另外,由于统计的业务数据为全量数据,且未从文本内容着手做相应统计分析,因此产生的结果没有针对性,不能分领域反映针对此领域的重点数据,所得结果重复性大、可读性差。
为此,我们提出一种多个排序类别组合方法来解决上述问题。
发明内容
本发明的目的是为了解决现有技术中存在的缺点,而提出的一种多个排序类别组合方法。
为了实现上述目的,本发明采用了如下技术方案:
一种多个排序类别组合方法,包括以下步骤:
S1、采集业务数据,对业务数据进行分类和分类存储;
S2、根据预先设置的过滤规则分别对各类别下的业务数据进行过滤,并分别从各类别下过滤后的业务数据中提取专辑词组;
S3、对从同一业务数据中提取的专辑词组进行排序,并将同一业务数据的排序后的专辑词组进行组合,获得各类别下的各个业务数据的专辑词组组;
S4、统计专辑词组在所属类别下的出现次数,分别获取各类别下的专辑词组并进行分类展示。
在上述的一种多个排序类别组合方法中,所述专辑词组内容包括名称,标题,分类和属性等。
在上述的一种多个排序类别组合方法中,所述S1步骤中采集业务数据的装置包括内容库模块,对专辑的聚合可以是基于分类、属性或者交叉。
在上述的一种多个排序类别组合方法中,所述S2步骤中对业务数据进行过滤的装置包括过滤模块,用于对各类别下的业务数据进行过滤。
在上述的一种多个排序类别组合方法中,所述S3步骤中排序组合的装置包括排序模块和排序组件模块,排序模块对内容进行排序,排序组件模块用于内容库的装载以及对内容库中的专辑内容进行排序。
在上述的一种多个排序类别组合方法中,所述S4步骤中统计和展示的装置包括统计模块和展示模块,用于对结果进行聚合、过滤、组装以及输出展示。
在上述的一种多个排序类别组合方法中,所述过滤模块的规则包括:
1、对文本标题不符合预定字数的业务数据进行删除;
2、对发布时间不符合规定的业务数据进行删除;
3、对来源不符合规定的业务数据进行删除;
4、对浏览数不符合规定的业务数据进行删除。
在上述的一种多个排序类别组合方法中,所述排序模块和排序组件模块中的规则包括:
a)、对从同一业务数据中提取的专辑词组进行排序之前,根据预先设置的常用词库对提取的专辑词组中的常用词进行过滤;
b)、将属于同一个文本标题的排序后的专辑词组进行组合;
c)、将同一业务数据的排序后的专辑词组进行组合,获得各类别下的各个业务数据的专辑词组之后,根据预先设置的垃圾词库对专辑词组中的垃圾词组进行过滤。
在上述的一种多个排序类别组合方法中,所述统计模块和展示模块的规则要求包括:
1)、统计专辑词组组在所属类别下不同文本标题中的出现次数,将出现次数大于预定阈值的专辑词组按照预定顺序进行排列,分别获取各类别下的专辑词组;
2)、对同一类别下相同的专辑词组进行合并,搜索各类别下专辑词组所对应的名称、标题和分类属性的链接;
3)、向用户展示热点报告,其中,热点报告包括:专辑词组的所属类别、预定时间段内各类别下的专辑词组、各类别下的专辑词组所对应的热度值、以及各类别下专辑词组所对应的名称、标题和分类属性的链接。
与现有技术相比,本一种多个排序类别组合方法的优点在于:
1、本发明将不同的排序算法融合在一起,满足不同的述求,并且对业务数据进行了过滤和分类,既满足了热度,又满足了新品的曝光需求,所得结果重复性小、可读性高。
2、本发明能够根据预先设置的常用词库对提取的专辑词组中的常用词进行过滤,并且在获得各类别下的各个业务数据的专辑词组之后,根据预先设置的垃圾词库对专辑词组中的垃圾词组进行过滤,减少垃圾词组的出现。
附图说明
图1为本发明提出的一种多个排序类别组合方法的方法步骤图;
图2为本发明提出的一种多个排序类别组合方法的算法结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。
参照图1-2,一种多个排序类别组合方法,包括以下步骤:
S1、采集业务数据,对业务数据进行分类和分类存储;
S2、根据预先设置的过滤规则分别对各类别下的业务数据进行过滤,并分别从各类别下过滤后的业务数据中提取专辑词组;
S3、对从同一业务数据中提取的专辑词组进行排序,并将同一业务数据的排序后的专辑词组进行组合,获得各类别下的各个业务数据的专辑词组组;
S4、统计专辑词组在所属类别下的出现次数,分别获取各类别下的专辑词组并进行分类展示。
其中,专辑词组内容包括名称,标题,分类和属性等。
具体的,S1步骤中采集业务数据的装置包括内容库模块,对专辑的聚合可以是基于分类、属性或者交叉;S2步骤中对业务数据进行过滤的装置包括过滤模块,用于对各类别下的业务数据进行过滤;S3步骤中排序组合的装置包括排序模块和排序组件模块,排序模块对内容进行排序,排序组件模块用于内容库的装载以及对内容库中的专辑内容进行排序;S4步骤中统计和展示的装置包括统计模块和展示模块,用于对结果进行聚合、过滤、组装以及输出展示。
其中,过滤模块的规则包括:
1、对文本标题不符合预定字数的业务数据进行删除;
2、对发布时间不符合规定的业务数据进行删除;
3、对来源不符合规定的业务数据进行删除;
4、对浏览数不符合规定的业务数据进行删除。
排序模块和排序组件模块中的规则包括:
a)、对从同一业务数据中提取的专辑词组进行排序之前,根据预先设置的常用词库对提取的专辑词组中的常用词进行过滤;
b)、将属于同一个文本标题的排序后的专辑词组进行组合;
c)、将同一业务数据的排序后的专辑词组进行组合,获得各类别下的各个业务数据的专辑词组之后,根据预先设置的垃圾词库对专辑词组中的垃圾词组进行过滤。
统计模块和展示模块的规则要求包括:
1)、统计专辑词组组在所属类别下不同文本标题中的出现次数,将出现次数大于预定阈值的专辑词组组按照预定顺序进行排列,分别获取各类别下的专辑词组;
2)、对同一类别下相同的专辑词组进行合并,搜索各类别下专辑词组所对应的名称、标题和分类属性的链接;
3)、向用户展示热点报告,其中,热点报告包括:专辑词组的所属类别、预定时间段内各类别下的专辑词组、各类别下的专辑词组所对应的热度值、以及各类别下专辑词组所对应的名称、标题和分类属性的链接。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其实用新型构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。

Claims (9)

1.一种多个排序类别组合方法,其特征在于,包括以下步骤:
S1、采集业务数据,对业务数据进行分类和分类存储;
S2、根据预先设置的过滤规则分别对各类别下的业务数据进行过滤,并分别从各类别下过滤后的业务数据中提取专辑词组;
S3、对从同一业务数据中提取的专辑词组进行排序,并将同一业务数据的排序后的专辑词组进行组合,获得各类别下的各个业务数据的专辑词组组;
S4、统计专辑词组在所属类别下的出现次数,分别获取各类别下的专辑词组并进行分类展示。
2.根据权利要求1所述的一种多个排序类别组合方法,其特征在于,所述专辑词组内容包括名称,标题,分类和属性等。
3.根据权利要求1所述的一种多个排序类别组合方法,其特征在于,所述S1步骤中采集业务数据的装置包括内容库模块,对专辑的聚合可以是基于分类、属性或者交叉。
4.根据权利要求1所述的一种多个排序类别组合方法,其特征在于,所述S2步骤中对业务数据进行过滤的装置包括过滤模块,用于对各类别下的业务数据进行过滤。
5.根据权利要求1所述的一种多个排序类别组合方法,其特征在于,所述S3步骤中排序组合的装置包括排序模块和排序组件模块,排序模块对内容进行排序,排序组件模块用于内容库的装载以及对内容库中的专辑内容进行排序。
6.根据权利要求1所述的一种多个排序类别组合方法,其特征在于,所述S4步骤中统计和展示的装置包括统计模块和展示模块,用于对结果进行聚合、过滤、组装以及输出展示。
7.根据权利要求4所述的一种多个排序类别组合方法,其特征在于,所述过滤模块的规则包括:
1、对文本标题不符合预定字数的业务数据进行删除;
2、对发布时间不符合规定的业务数据进行删除;
3、对来源不符合规定的业务数据进行删除;
4、对浏览数不符合规定的业务数据进行删除。
8.根据权利要求5所述的一种多个排序类别组合方法,其特征在于,所述排序模块和排序组件模块中的规则包括:
a)、对从同一业务数据中提取的专辑词组进行排序之前,根据预先设置的常用词库对提取的专辑词组中的常用词进行过滤;
b)、将属于同一个文本标题的排序后的专辑词组进行组合;
c)、将同一业务数据的排序后的专辑词组进行组合,获得各类别下的各个业务数据的专辑词组之后,根据预先设置的垃圾词库对专辑词组中的垃圾词组进行过滤。
9.根据权利要求6所述的一种多个排序类别组合方法,其特征在于,所述统计模块和展示模块的规则要求包括:
1)、统计专辑词组组在所属类别下不同文本标题中的出现次数,将出现次数大于预定阈值的专辑词组组按照预定顺序进行排列,分别获取各类别下的专辑词组;
2)、对同一类别下相同的专辑词组进行合并,搜索各类别下专辑词组所对应的名称、标题和分类属性的链接;
3)、向用户展示热点报告,其中,热点报告包括:专辑词组的所属类别、预定时间段内各类别下的专辑词组、各类别下的专辑词组所对应的热度值、以及各类别下专辑词组所对应的名称、标题和分类属性的链接。
CN201910926653.5A 2019-09-27 2019-09-27 一种多个排序类别组合方法 Pending CN110765115A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910926653.5A CN110765115A (zh) 2019-09-27 2019-09-27 一种多个排序类别组合方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910926653.5A CN110765115A (zh) 2019-09-27 2019-09-27 一种多个排序类别组合方法

Publications (1)

Publication Number Publication Date
CN110765115A true CN110765115A (zh) 2020-02-07

Family

ID=69330632

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910926653.5A Pending CN110765115A (zh) 2019-09-27 2019-09-27 一种多个排序类别组合方法

Country Status (1)

Country Link
CN (1) CN110765115A (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102831248A (zh) * 2012-09-18 2012-12-19 北京奇虎科技有限公司 网络热点挖掘方法及装置
CN105005610A (zh) * 2015-07-08 2015-10-28 无锡天脉聚源传媒科技有限公司 一种专辑分类方法和装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102831248A (zh) * 2012-09-18 2012-12-19 北京奇虎科技有限公司 网络热点挖掘方法及装置
CN105005610A (zh) * 2015-07-08 2015-10-28 无锡天脉聚源传媒科技有限公司 一种专辑分类方法和装置

Similar Documents

Publication Publication Date Title
US8583419B2 (en) Latent metonymical analysis and indexing (LMAI)
US10565233B2 (en) Suffix tree similarity measure for document clustering
Glance et al. Blogpulse: Automated trend discovery for weblogs
CN106372226B (zh) 信息检索装置及方法
CN104063497B (zh) 观点处理方法和装置以及搜索方法和装置
US20100125531A1 (en) System and method for the automated filtering of reviews for marketability
CN103064880B (zh) 一种基于搜索信息向用户提供网站选择的方法、装置和系统
CN109359188A (zh) 一种组件编排方法和系统
CN105512300B (zh) 信息过滤方法及系统
CN109582847A (zh) 一种信息处理方法及装置、存储介质
CN110990587A (zh) 基于主题模型的企业关系发现方法及系统
CN108153781A (zh) 提取业务领域的关键词的方法和装置
US10474700B2 (en) Robust stream filtering based on reference document
CN109992665A (zh) 一种基于问题目标特征扩展的分类方法
CN106294689B (zh) 一种基于文本类特征选择进行降维的方法和装置
CN111259223B (zh) 基于情感分析模型的新闻推荐和文本分类方法
JP2000112949A (ja) 情報判別支援装置及び類似情報判別支援プログラムを記録した記録媒体
CN110765115A (zh) 一种多个排序类别组合方法
CN114780712B (zh) 一种基于质量评价的新闻专题生成方法及装置
CN111026940A (zh) 一种面向电网电磁环境的网络舆情及风险信息监测系统、电子设备
JP3693514B2 (ja) 文書検索・分類方法および装置
CN105786929A (zh) 一种信息监测方法及装置
CN112069314B (zh) 一种基于科技文献数据的特定领域态势分析系统
CN113886585A (zh) 物品推荐方法、计算机设备及计算机可读存储介质
JP2022137569A (ja) 情報管理システム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination