CN112948401A - 分词词库更新方法、装置、系统和计算机可读存储介质 - Google Patents

分词词库更新方法、装置、系统和计算机可读存储介质 Download PDF

Info

Publication number
CN112948401A
CN112948401A CN202110032967.8A CN202110032967A CN112948401A CN 112948401 A CN112948401 A CN 112948401A CN 202110032967 A CN202110032967 A CN 202110032967A CN 112948401 A CN112948401 A CN 112948401A
Authority
CN
China
Prior art keywords
keyword
heat
keywords
data table
frequency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110032967.8A
Other languages
English (en)
Inventor
沙烨
金仲伟
张垒
朱磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Observer Information Technology Co ltd
Original Assignee
Shanghai Observer Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Observer Information Technology Co ltd filed Critical Shanghai Observer Information Technology Co ltd
Priority to CN202110032967.8A priority Critical patent/CN112948401A/zh
Publication of CN112948401A publication Critical patent/CN112948401A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种分词词库更新方法、装置、系统和计算机可读存储介质。分词词库更新方法包括:建立数据表;对于用户搜索的关键词进行记录;统计当天与昨天搜索关键词的频率;根据多个算法的公式计算当天关键词中的热词;查询数据表是否存在热词;如果数据表不存在热词,则数据表录入热词;如果数据表存在热词,则进入下一步骤;根据数据表生成新词典文件;向搜索系统发送新词典文件覆盖原词典文件;命令搜索系统重新分词形成新的索引文档。分词词库更新方法实现分词词库自动更新。分词词库自动更新与现有的手动更新相比更加简单、及时、全面。

Description

分词词库更新方法、装置、系统和计算机可读存储介质
技术领域
本发明涉及数据库领域,尤其涉及分词词库更新方法、装置、系统和计算机可读存储介质。
背景技术
Elasticsearch软件可以制作搜索系统,并且采用IK分词插件进行分词。搜索系统对于分词进行搜索。IK分词插件基于关键词库进行分词。但是,各种新词层出不穷。关键词库不能自动收录新词,需要定期手动更新。因此,本领域的技术人员致力于开发一种分词词库更新方法。
发明内容
有鉴于现有技术的上述缺陷,本发明所要解决的技术问题是如何实现分词词库自动更新。
为实现上述目的,本发明提供了一种分词词库更新方法、装置、系统和计算机可读存储介质。
在本发明的一个实施方式中,一种分词词库更新方法包括:
建立数据表;
对于用户搜索的关键词进行记录;
统计当天与昨天搜索所述关键词的频率;
根据多个算法的公式计算当天所述关键词中的热词;
查询所述数据表是否存在所述热词;
如果所述数据表不存在所述热词,则所述数据表录入所述热词;
如果所述数据表存在所述热词,则进入下一步骤;
根据所述数据表生成新词典文件;
向搜索系统发送所述新词典文件覆盖原词典文件;
命令所述搜索系统重新分词形成新的索引文档。
在本发明的另一实施方式中,一种分词词库更新装置包括数据库模块、前台模块、后台模块;
所述数据库模块建立数据表;
所述前台模块对于用户搜索的关键词进行记录;
所述后台模块统计当天与昨天搜索所述关键词的频率;
根据多个算法的公式计算当天所述关键词中的热词;
查询所述数据表是否存在所述热词;
如果所述数据表不存在所述热词,则所述数据表录入所述热词;
如果所述数据表存在所述热词,则进入下一步骤;
根据所述数据表生成新词典文件;
向搜索系统发送所述新词典文件覆盖原词典文件;
命令所述搜索系统重新分词形成新的索引文档。
在本发明的另一实施方式中,一种分词词库更新设备包括分词词库更新装置、搜索系统;
所述分词词库更新装置包括数据库模块、前台模块、后台模块;
所述搜索系统包括分词词库;
所述数据库模块建立数据表;
所述前台模块对于用户搜索的关键词进行记录;
所述后台模块统计当天与昨天搜索所述关键词的频率;
根据多个算法的公式计算当天所述关键词中的热词;
查询所述数据表是否存在所述热词;
如果所述数据表不存在所述热词,则所述数据表录入所述热词;
如果所述数据表存在所述热词,则进入下一步骤;
根据所述数据表生成新词典文件;
向搜索系统发送所述新词典文件覆盖原词典文件;
命令所述搜索系统重新分词形成新的索引文档。
在本发明的另一实施方式中,一种计算机可读存储介质包括计算机程序,所述计算机程序在计算机上运行,所述计算机执行所述分词词库更新方法。
本发明提供的分词词库更新方法具有以下有益效果:通过根据多个算法的公式计算当天所述关键词中的热词,使得所述数据表录入所述热词,并且根据所述数据表生成新词典文件,命令所述搜索系统重新分词形成新的索引文档,从而实现分词词库自动更新。分词词库自动更新与现有的手动更新相比更加简单、及时、全面。
以下将结合附图对本发明的构思、具体结构及产生的技术效果作进一步说明,以充分地了解本发明的目的、特征和效果。
附图说明
图1是本发明分词词库更新方法一个实施例的流程示意图;
图2是本发明分词词库更新方法另一实施例的流程示意图;
图3是本发明分词词库更新方法另一实施例的流程示意图;
图4是本发明分词词库更新方法另一实施例的流程示意图;
图5是本发明分词词库更新装置一个实施例的模块示意图;
图6是本发明分词词库更新设备一个实施例的模块示意图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,遂图示中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。
为了阐释的目的而描述了本发明的一些示例性实施例,需要理解的是,本发明可通过附图中没有具体示出的其他方式来实现。
图1是本发明分词词库更新方法一个实施例的流程示意图。
如图1所示,分词词库更新方法100包括步骤S110至S190B。
步骤S110,建立数据表。
如表1所示,数据表包括三个字段Id、Word、Created_at。第一个字段Id表示编号。第二个字段Word表示关键词。第三个字段Created_at表示创建时间。三个字段Id、Word、Created_at的类型为Int、Varchar、Int。第一种类型Int表示整数类型。第二种类型Varchar表示可变长度字符串。三个字段Id、Word、Created_at 的长度为11、255、11。
表1
类型 长度
Id Int 11
Word Varchar 255
Created_at Int 11
如表2所示,数据表包括三条记录。三条记录的关键词为中国、第三关键词、第二关键词。第一条和第二条记录的关键词中国、第三关键词属于中文关键词。第三条记录的关键词第二关键词属于英文关键词。第一条记录的编号和创建时间为1、2020-12-11 17:27:38。第二条记录的编号和创建时间为2、2020-12-11 17:27:54。第三条记录的编号和创建时间为3、2020-12-11 17:27:58。数据表的关键词来自搜索系统的分词词库和原词典文件。
表2
Figure RE-GDA0003039041910000041
Figure RE-GDA0003039041910000051
步骤S120,对于用户搜索的关键词进行记录。
用户搜索了第一关键词、第二关键词、第三关键词、第四关键词、第五关键词、第六关键词、第七关键词、第八关键词、第九关键词,这些关键词记录下来。
步骤S130,统计当天与昨天搜索关键词的频率。
根据统计,当天搜索第一关键词、第二关键词、第三关键词、第四关键词、第五关键词、第六关键词、第七关键词、第八关键词、第九关键词的频率为3233、 4000、6000、6345、2334、1434、3067、5056、6023。昨天搜索第一关键词、第二关键词、第三关键词、第四关键词、第五关键词、第六关键词、第七关键词、第八关键词、第九关键词的频率为1206、2121、3000、3454、2112、1212、3032、 2043、4024。
步骤S140,根据多个算法的公式计算当天关键词中的热词。
优选的,根据两个算法的公式计算当天关键词中的热词。根据两个算法的计算,当天的热词为第一关键词、第八关键词、第二关键词、第三关键词、第四关键词。
步骤S150,查询数据表是否存在热词。
根据查询,数据表存在两个热词第二关键词、第三关键词。但是,数据表不存在另三个热词第一关键词、第八关键词、第四关键词。
步骤S160,如果数据表不存在热词,则数据表录入热词。
数据表不存在三个热词第一关键词、第八关键词、第四关键词。数据表录入这三个热词第一关键词、第八关键词、第四关键词。
步骤S170,如果数据表存在热词,则进入下一步骤。
数据表存在两个热词,并且录入另三个热词。数据表具有所有热词第一关键词、第八关键词、第二关键词、第三关键词、第四关键词。
步骤S180,根据数据表生成新词典文件。
数据表的数据与新词典文件的数据一致。新词典文件具有所有热词第一关键词、第八关键词、第二关键词、第三关键词、第四关键词。
步骤S190A,向搜索系统发送新词典文件覆盖原词典文件。
原词典文件缺少三个热词第一关键词、第八关键词、第四关键词。新词典文件覆盖原词典文件补充这三个热词第一关键词、第八关键词、第四关键词。
步骤S190B,命令搜索系统重新分词形成新的索引文档。
搜索系统根据新词典文件重建分词词库。分词词库经过更新具有所有热词第一关键词、第八关键词、第二关键词、第三关键词、第四关键词。
本实施例通过根据多个算法的公式计算当天所述关键词中的热词,使得所述数据表录入所述热词,并且根据所述数据表生成新词典文件,命令所述搜索系统重新分词形成新的索引文档,从而实现分词词库自动更新。分词词库自动更新与现有的手动更新相比更加简单、及时、全面。
图2是本发明分词词库更新方法另一实施例的流程示意图。
如图2所示,分词词库更新方法100中计算当天关键词中的热词包括步骤 S142A至S148A。
步骤S142A,根据第一算法的公式B(W)=(Atp+Tp×R)÷((Btp+Atp)+Tp) 计算关键词的第一热度,其中B(W)为关键词的第一热度,Atp为当天搜索关键词的频率,Btp为昨天搜索关键词的频率,Btp与Atp的和TpSum为关键词的频率总和,Tp为关键词的频率总和与关键词的个数之比,R为当天搜索关键词的频率与关键词的频率总和之比的平均值。
如表3所示,关键词包括第一关键词、第二关键词、第三关键词、第四关键词、第五关键词、第六关键词、第七关键词、第八关键词、第九关键词。根据计算,各关键词的第一热度为0.701、0.721、0.673、0.662、0.619、0.642、0.596、 0.698、0.632。
步骤S144A,根据第二算法的公式
Figure RE-GDA0003039041910000061
计算关键词的第二热度,其中
Figure RE-GDA0003039041910000062
为关键词的第二热度。
根据计算,第一关键词、第二关键词、第三关键词、第四关键词、第五关键词、第六关键词、第七关键词、第八关键词、第九关键词的第二热度为﹣0.986、﹣0.634、﹣0.693、﹣0.608、﹣0.1、﹣0.168、﹣0.011、﹣0.906、﹣0.403。
步骤S146A,根据加权平均法的公式
Figure RE-GDA0003039041910000072
计算关键词的加权热度,其中H(W)为关键词的加权热度,α为第一权重,β为第二权重。
第一权重和第二权重设为0.7、0.3。第一关键词、第二关键词、第三关键词、第四关键词、第五关键词、第六关键词、第七关键词、第八关键词、第九关键词的加权热度为0.787、0.695、0.679、0.646、0.463、0.5、0.421、0.76、0.563。
表3
Figure RE-GDA0003039041910000071
步骤S148A,通过加权热度的排名取得热词。
根据关键词的加权热度的排名,第一关键词、第八关键词、第二关键词、第三关键词、第四关键词的加权热度领先。当天的热词为第一关键词、第八关键词、第二关键词、第三关键词、第四关键词。
本实施例根据第一算法的公式计算关键词的第一热度,第一算法消除了关键词个数过少对于热度的影响;同时根据第二算法的公式计算关键词的第二热度,第二算法修正了关键词的热度随着时间的变化;进而根据加权平均法的公式计算关键词的加权热度,加权平均法兼具第一算法和第二算法的优点;从而通过加权热度的排名取得热词,这样的热词非常准确地体现了关键词的热点。
图3是本发明分词词库更新方法另一实施例的流程示意图。
如图3所示,分词词库更新方法100中计算当天关键词中的热词包括步骤 S142B至S148B。
步骤S142B,根据第一算法的公式B(W)=(Atp+Tp×R)÷((Btp+Atp)+Tp) 计算关键词的第一热度,其中B(W)为关键词的第一热度,Atp为当天搜索关键词的频率,Btp为昨天搜索关键词的频率,Btp与Atp的和为关键词的频率总和, Tp为关键词的频率总和与关键词的个数之比,R为当天搜索关键词的频率与关键词的频率总和之比的平均值;
步骤S144B,根据第三算法的公式Score=(P-1)÷(T+2)G计算关键词的第三热度,其中Score为关键词的第三热度,P为用户搜索关键词的次数,T为关键词从出现到现在的时间,G为重力因子;
步骤S146B,根据加权平均法的公式H(W)=α×B(W)+γ×Score计算关键词的加权热度,其中H(W)为关键词的加权热度,α为第一权重,γ为第三权重;
步骤S148B,通过加权热度的排名取得热词。
本实施例根据第一算法的公式计算关键词的第一热度,第一算法消除了关键词个数过少对于热度的影响;同时根据第三算法的公式计算关键词的第三热度,第三算法基于用户搜索关键词的次数这一关键因素;进而根据加权平均法的公式计算关键词的加权热度,加权平均法兼具第一算法和第三算法的优点;从而通过加权热度的排名取得热词,这样的热词非常准确地体现了关键词的热点。
图4是本发明分词词库更新方法另一实施例的流程示意图。
如图4所示,分词词库更新方法100中计算当天关键词中的热词包括步骤 S142C至S148C。
步骤S142C,根据第二算法的公式
Figure RE-GDA0003039041910000091
计算关键词的第二热度,其中
Figure RE-GDA0003039041910000092
为关键词的第二热度,Atp为当天搜索关键词的频率,Btp为昨天搜索关键词的频率;
步骤S144C,根据第三算法的公式Score=(P-1)÷(T+2)G计算关键词的第三热度,其中Score为关键词的第三热度,P为用户搜索关键词的次数,T为关键词从出现到现在的时间,G为重力因子;
步骤S146C,根据加权平均法的公式
Figure RE-GDA0003039041910000095
计算关键词的加权热度,其中H(W)为关键词的加权热度,β为第二权重,γ为第三权重;
步骤S148C,通过加权热度的排名取得热词。
本实施例根据第二算法的公式计算关键词的第二热度,第二算法修正了关键词的热度随着时间的变化;同时根据第三算法的公式计算关键词的第三热度,第三算法基于用户搜索关键词的次数这一关键因素;进而根据加权平均法的公式计算关键词的加权热度,加权平均法兼具第二算法和第三算法的优点;从而通过加权热度的排名取得热词,这样的热词非常准确地体现了关键词的热点。
本发明分词词库更新方法100另一实施例中计算当天关键词中的热词包括:
根据第一算法的公式B(W)=(Atp+Tp×R)÷((Btp+Atp)+Tp)计算关键词的第一热度,其中B(W)为关键词的第一热度,Atp为当天搜索关键词的频率,Btp 为昨天搜索关键词的频率,Btp与Atp的和为关键词的频率总和,Tp为关键词的频率总和与关键词的个数之比,R为当天搜索关键词的频率与关键词的频率总和之比的平均值;
根据第二算法的公式
Figure RE-GDA0003039041910000093
计算关键词的第二热度,其中
Figure RE-GDA0003039041910000094
为关键词的第二热度;
根据第三算法的公式Score=(P-1)÷(T+2)G计算关键词的第三热度,其中Score为关键词的第三热度,P为用户搜索关键词的次数,T为关键词从出现到现在的时间,G为重力因子;
根据加权平均法的公式
Figure RE-GDA0003039041910000101
计算关键词的加权热度,其中H(W)为关键词的加权热度,α为第一权重,β为第二权重,γ为第三权重;
通过加权热度的排名取得热词。
本实施例根据第一算法的公式计算关键词的第一热度,第一算法消除了关键词个数过少对于热度的影响;同时根据第二算法的公式计算关键词的第二热度,第二算法修正了关键词的热度随着时间的变化;另外根据第三算法的公式计算关键词的第三热度,第三算法基于用户搜索关键词的次数这一关键因素;进而根据加权平均法的公式计算关键词的加权热度,加权平均法兼具第一算法、第二算法和第三算法的优点;从而通过加权热度的排名取得热词,这样的热词更加准确地体现了关键词的热点。
图5是本发明分词词库更新装置一个实施例的模块示意图。
如图5所示,分词词库更新装置200包括数据库模块210、前台模块220、后台模块230;
数据库模块210建立数据表;
前台模块220对于用户搜索的关键词进行记录;
后台模块230统计当天与昨天搜索关键词的频率;
根据多个算法的公式计算当天关键词中的热词;
查询数据表是否存在热词;
如果数据表不存在热词,则数据表录入热词;
如果数据表存在热词,则进入下一步骤;
根据数据表生成新词典文件;
向搜索系统发送新词典文件覆盖原词典文件;
命令搜索系统重新分词形成新的索引文档。
如图5所示,分词词库更新装置200的后台模块230根据第一算法的公式B(W)=(Atp+Tp×R)÷((Btp+Atp)+Tp)计算关键词的第一热度,其中B(W)为关键词的第一热度,Atp为当天搜索关键词的频率,Btp为昨天搜索关键词的频率, Btp与Atp的和为关键词的频率总和,Tp为关键词的频率总和与关键词的个数之比,R为当天搜索关键词的频率与关键词的频率总和之比的平均值;
根据第二算法的公式
Figure RE-GDA0003039041910000111
计算关键词的第二热度,其中
Figure RE-GDA0003039041910000112
为关键词的第二热度;
根据加权平均法的公式
Figure RE-GDA0003039041910000113
计算关键词的加权热度,其中H(W)为关键词的加权热度,α为第一权重,β为第二权重;
通过加权热度的排名取得热词。
如图5所示,分词词库更新装置200的后台模块230根据第一算法的公式 B(W)=(Atp+Tp×R)÷((Btp+Atp)+Tp)计算关键词的第一热度,其中B(W)为关键词的第一热度,Atp为当天搜索关键词的频率,Btp为昨天搜索关键词的频率, Btp与Atp的和为关键词的频率总和,Tp为关键词的频率总和与关键词的个数之比,R为当天搜索关键词的频率与关键词的频率总和之比的平均值;
根据第三算法的公式Score=(P-1)÷(T+2)G计算关键词的第三热度,其中Score为关键词的第三热度,P为用户搜索关键词的次数,T为关键词从出现到现在的时间,G为重力因子;
根据加权平均法的公式H(W)=α×B(W)+γ×Score计算关键词的加权热度,其中H(W)为关键词的加权热度,α为第一权重,γ为第三权重;
通过加权热度的排名取得热词。
如图5所示,分词词库更新装置200的后台模块230根据第二算法的公式
Figure RE-GDA0003039041910000114
Figure RE-GDA0003039041910000115
计算关键词的第二热度,其中
Figure RE-GDA0003039041910000116
为关键词的第二热度,Atp 为当天搜索关键词的频率,Btp为昨天搜索关键词的频率;
根据第三算法的公式Score=(P-1)÷(T+2)G计算关键词的第三热度,其中Score为关键词的第三热度,P为用户搜索关键词的次数,T为关键词从出现到现在的时间,G为重力因子;
根据加权平均法的公式
Figure RE-GDA0003039041910000117
计算关键词的加权热度,其中H(W)为关键词的加权热度,β为第二权重,γ为第三权重;
通过加权热度的排名取得热词。
图6是本发明分词词库更新设备一个实施例的模块示意图。
如图6所示,分词词库更新设备300包括分词词库更新装置310、搜索系统 320;
分词词库更新装置310包括数据库模块312、前台模块314、后台模块316;
搜索系统320包括分词词库322;
数据库模块312建立数据表;
前台模块314对于用户搜索的关键词进行记录;
后台模块316统计当天与昨天搜索关键词的频率;
根据多个算法的公式计算当天关键词中的热词;
查询数据表是否存在热词;
如果数据表不存在热词,则数据表录入热词;
如果数据表存在热词,则进入下一步骤;
根据数据表生成新词典文件;
向搜索系统320发送新词典文件覆盖原词典文件;
命令搜索系统320重新分词形成新的索引文档。
本发明还提供一种计算机可读存储介质,包括计算机程序,计算机程序在计算机上运行,计算机执行分词词库更新方法。分词词库更新方法的实施例如上所述,不再赘述。
总而言之,本发明公开了一种分词词库更新方法、装置、系统和计算机可读存储介质。分词词库更新方法包括:建立数据表;对于用户搜索的关键词进行记录;统计当天与昨天搜索关键词的频率;根据多个算法的公式计算当天关键词中的热词;查询数据表是否存在热词;如果数据表不存在热词,则数据表录入热词;如果数据表存在热词,则进入下一步骤;根据数据表生成新词典文件;向搜索系统发送新词典文件覆盖原词典文件;命令搜索系统重新分词形成新的索引文档。分词词库更新方法实现分词词库自动更新。分词词库自动更新与现有的手动更新相比更加简单、及时、全面。
上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本发明的权利要求所涵盖。

Claims (10)

1.一种分词词库更新方法,其特征在于,包括:
建立数据表;
对于用户搜索的关键词进行记录;
统计当天与昨天搜索所述关键词的频率;
根据多个算法的公式计算当天所述关键词中的热词;
查询所述数据表是否存在所述热词;
如果所述数据表不存在所述热词,则所述数据表录入所述热词;
如果所述数据表存在所述热词,则进入下一步骤;
根据所述数据表生成新词典文件;
向搜索系统发送所述新词典文件覆盖原词典文件;
命令所述搜索系统重新分词形成新的索引文档。
2.如权利要求1所述的分词词库更新方法,其特征在于,所述计算当天所述关键词中的热词包括:
根据第一算法的公式B(W)=(Atp+Tp×R)÷((Btp+Atp)+Tp)计算所述关键词的第一热度,其中B(W)为所述关键词的第一热度,Atp为当天搜索所述关键词的频率,Btp为昨天搜索所述关键词的频率,Btp与Atp的和为所述关键词的频率总和,Tp为所述关键词的频率总和与所述关键词的个数之比,R为当天搜索所述关键词的频率与所述关键词的频率总和之比的平均值;
根据第二算法的公式
Figure FDA0002893102820000011
计算所述关键词的第二热度,其中
Figure FDA0002893102820000012
为所述关键词的第二热度;
根据加权平均法的公式
Figure FDA0002893102820000013
计算所述关键词的加权热度,其中H(W)为所述关键词的加权热度,α为第一权重,β为第二权重;
通过所述加权热度的排名取得所述热词。
3.如权利要求1所述的分词词库更新方法,其特征在于,所述计算当天所述关键词中的热词包括:
根据第一算法的公式B(W)=(Atp+Tp×R)÷((Btp+Atp)+Tp)计算所述关键词的第一热度,其中B(W)为所述关键词的第一热度,Atp为当天搜索所述关键词的频率,Btp为昨天搜索所述关键词的频率,Btp与Atp的和为所述关键词的频率总和,Tp为所述关键词的频率总和与所述关键词的个数之比,R为当天搜索所述关键词的频率与所述关键词的频率总和之比的平均值;
根据第三算法的公式Score=(P-1)÷(T+2)G计算所述关键词的第三热度,其中Score为所述关键词的第三热度,P为用户搜索所述关键词的次数,T为所述关键词从出现到现在的时间,G为重力因子;
根据加权平均法的公式H(W)=α×B(W)+γ×Score计算所述关键词的加权热度,其中H(W)为所述关键词的加权热度,α为第一权重,γ为第三权重;
通过所述加权热度的排名取得所述热词。
4.如权利要求1所述的分词词库更新方法,其特征在于,所述计算当天所述关键词中的热词包括:
根据第二算法的公式
Figure FDA0002893102820000021
计算所述关键词的第二热度,其中
Figure FDA0002893102820000022
为所述关键词的第二热度,Atp为当天搜索所述关键词的频率,Btp为昨天搜索所述关键词的频率;
根据第三算法的公式Score=(P-1)÷(T+2)G计算所述关键词的第三热度,其中Score为所述关键词的第三热度,P为用户搜索所述关键词的次数,T为所述关键词从出现到现在的时间,G为重力因子;
根据加权平均法的公式
Figure FDA0002893102820000023
计算所述关键词的加权热度,其中H(W)为所述关键词的加权热度,β为第二权重,γ为第三权重;
通过所述加权热度的排名取得所述热词。
5.一种分词词库更新装置,其特征在于,包括数据库模块、前台模块、后台模块;
所述数据库模块建立数据表;
所述前台模块对于用户搜索的关键词进行记录;
所述后台模块统计当天与昨天搜索所述关键词的频率;
根据多个算法的公式计算当天所述关键词中的热词;
查询所述数据表是否存在所述热词;
如果所述数据表不存在所述热词,则所述数据表录入所述热词;
如果所述数据表存在所述热词,则进入下一步骤;
根据所述数据表生成新词典文件;
向搜索系统发送所述新词典文件覆盖原词典文件;
命令所述搜索系统重新分词形成新的索引文档。
6.如权利要求5所述的分词词库更新装置,其特征在于,所述后台模块根据第一算法的公式B(W)=(Atp+Tp×R)÷((Btp+Atp)+Tp)计算所述关键词的第一热度,其中B(W)为所述关键词的第一热度,Atp为当天搜索所述关键词的频率,Btp为昨天搜索所述关键词的频率,Btp与Atp的和为所述关键词的频率总和,Tp为所述关键词的频率总和与所述关键词的个数之比,R为当天搜索所述关键词的频率与所述关键词的频率总和之比的平均值;
根据第二算法的公式
Figure FDA0002893102820000031
计算所述关键词的第二热度,其中
Figure FDA0002893102820000032
为所述关键词的第二热度;
根据加权平均法的公式
Figure FDA0002893102820000033
计算所述关键词的加权热度,其中H(W)为所述关键词的加权热度,α为第一权重,β为第二权重;
通过所述加权热度的排名取得所述热词。
7.如权利要求5所述的分词词库更新装置,其特征在于,所述后台模块根据第一算法的公式B(W)=(Atp+Tp×R)÷((Btp+Atp)+Tp)计算所述关键词的第一热度,其中B(W)为所述关键词的第一热度,Atp为当天搜索所述关键词的频率,Btp为昨天搜索所述关键词的频率,Btp与Atp的和为所述关键词的频率总和,Tp为所述关键词的频率总和与所述关键词的个数之比,R为当天搜索所述关键词的频率与所述关键词的频率总和之比的平均值;
根据第三算法的公式Score=(P-1)÷(T+2)G计算所述关键词的第三热度,其中Score为所述关键词的第三热度,P为用户搜索所述关键词的次数,T为所述关键词从出现到现在的时间,G为重力因子;
根据加权平均法的公式H(W)=α×B(W)+γ×Score计算所述关键词的加权热度,其中H(W)为所述关键词的加权热度,α为第一权重,γ为第三权重;
通过所述加权热度的排名取得所述热词。
8.如权利要求5所述的分词词库更新装置,其特征在于,所述后台模块根据第二算法的公式
Figure FDA0002893102820000041
计算所述关键词的第二热度,其中
Figure FDA0002893102820000042
为所述关键词的第二热度,Atp为当天搜索所述关键词的频率,Btp为昨天搜索所述关键词的频率;
根据第三算法的公式Score=(P-1)÷(T+2)G计算所述关键词的第三热度,其中Score为所述关键词的第三热度,P为用户搜索所述关键词的次数,T为所述关键词从出现到现在的时间,G为重力因子;
根据加权平均法的公式
Figure FDA0002893102820000043
计算所述关键词的加权热度,其中H(W)为所述关键词的加权热度,β为第二权重,γ为第三权重;
通过所述加权热度的排名取得所述热词。
9.一种分词词库更新设备,其特征在于,包括分词词库更新装置、搜索系统;
所述分词词库更新装置包括数据库模块、前台模块、后台模块;
所述搜索系统包括分词词库;
所述数据库模块建立数据表;
所述前台模块对于用户搜索的关键词进行记录;
所述后台模块统计当天与昨天搜索所述关键词的频率;
根据多个算法的公式计算当天所述关键词中的热词;
查询所述数据表是否存在所述热词;
如果所述数据表不存在所述热词,则所述数据表录入所述热词;
如果所述数据表存在所述热词,则进入下一步骤;
根据所述数据表生成新词典文件;
向搜索系统发送所述新词典文件覆盖原词典文件;
命令所述搜索系统重新分词形成新的索引文档。
10.一种计算机可读存储介质,其特征在于,包括计算机程序,所述计算机程序在计算机上运行,所述计算机执行权利要求1至4任何一项所述的分词词库更新方法。
CN202110032967.8A 2021-01-12 2021-01-12 分词词库更新方法、装置、系统和计算机可读存储介质 Pending CN112948401A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110032967.8A CN112948401A (zh) 2021-01-12 2021-01-12 分词词库更新方法、装置、系统和计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110032967.8A CN112948401A (zh) 2021-01-12 2021-01-12 分词词库更新方法、装置、系统和计算机可读存储介质

Publications (1)

Publication Number Publication Date
CN112948401A true CN112948401A (zh) 2021-06-11

Family

ID=76235182

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110032967.8A Pending CN112948401A (zh) 2021-01-12 2021-01-12 分词词库更新方法、装置、系统和计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN112948401A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113342866A (zh) * 2021-06-22 2021-09-03 广州华多网络科技有限公司 关键词更新方法、装置、计算机设备及存储介质
CN115732036A (zh) * 2022-12-06 2023-03-03 云舟生物科技(广州)股份有限公司 调整转录本基础库存的方法、计算机存储介质及电子设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109977421A (zh) * 2019-04-15 2019-07-05 南京邮电大学 一种程序设计类课程课后答疑系统的知识库建立方法
CN110032283A (zh) * 2018-01-11 2019-07-19 北京京东尚科信息技术有限公司 一种对联想词进行排序的方法和装置
CN111488736A (zh) * 2020-03-31 2020-08-04 上海七印信息科技有限公司 自学习分词方法、装置、计算机设备和存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110032283A (zh) * 2018-01-11 2019-07-19 北京京东尚科信息技术有限公司 一种对联想词进行排序的方法和装置
CN109977421A (zh) * 2019-04-15 2019-07-05 南京邮电大学 一种程序设计类课程课后答疑系统的知识库建立方法
CN111488736A (zh) * 2020-03-31 2020-08-04 上海七印信息科技有限公司 自学习分词方法、装置、计算机设备和存储介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113342866A (zh) * 2021-06-22 2021-09-03 广州华多网络科技有限公司 关键词更新方法、装置、计算机设备及存储介质
CN113342866B (zh) * 2021-06-22 2022-06-21 广州华多网络科技有限公司 关键词更新方法、装置、计算机设备及存储介质
CN115732036A (zh) * 2022-12-06 2023-03-03 云舟生物科技(广州)股份有限公司 调整转录本基础库存的方法、计算机存储介质及电子设备
CN115732036B (zh) * 2022-12-06 2023-11-28 云舟生物科技(广州)股份有限公司 调整转录本基础库存的方法、计算机存储介质及电子设备

Similar Documents

Publication Publication Date Title
Sellis et al. The R+-tree: A dynamic index for multi-dimensional objects
US7409404B2 (en) Creating taxonomies and training data for document categorization
US6701305B1 (en) Methods, apparatus and computer program products for information retrieval and document classification utilizing a multidimensional subspace
US7529735B2 (en) Method and system for mining information based on relationships
EP2368200B1 (en) Interactively ranking image search results using color layout relevance
CN109960756B (zh) 新闻事件信息归纳方法
Singh et al. Vector space model: an information retrieval system
CN112948401A (zh) 分词词库更新方法、装置、系统和计算机可读存储介质
US20180032608A1 (en) Flexible summarization of textual content
CN105975596A (zh) 一种搜索引擎查询扩展的方法及系统
Jin et al. Visual cube and on-line analytical processing of images
Fujii Modeling anchor text and classifying queries to enhance web document retrieval
CN108520033B (zh) 基于超空间模拟语言的增强伪相关反馈模型信息检索方法
CN109885813A (zh) 一种基于词语覆盖度的文本相似度的运算方法、系统、服务器及存储介质
CN103064846B (zh) 检索装置和检索方法
Cheng et al. Predicting the effectiveness of keyword queries on databases
Dupret Latent concepts and the number orthogonal factors in latent semantic analysis
CN111897922A (zh) 基于模式挖掘与词向量相似度计算的中文查询扩展方法
Wei et al. Query based summarization using topic background knowledge
Wahyudi et al. Information retrieval system for searching JSON files with vector space model method
Lavrenko et al. Real-time query expansion in relevance models
CN112199461B (zh) 基于块索引结构的文档检索方法、装置、介质和设备
Artese et al. What is this painting about? Experiments on Unsupervised Keyphrases Extraction algorithms
Triwijoyo et al. Analysis of Document Clustering based on Cosine Similarity and K-Main Algorithms
Batra et al. Content based hidden web ranking algorithm (CHWRA)

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination