CN107247798B - 构建搜索词库的方法和装置 - Google Patents
构建搜索词库的方法和装置 Download PDFInfo
- Publication number
- CN107247798B CN107247798B CN201710500077.9A CN201710500077A CN107247798B CN 107247798 B CN107247798 B CN 107247798B CN 201710500077 A CN201710500077 A CN 201710500077A CN 107247798 B CN107247798 B CN 107247798B
- Authority
- CN
- China
- Prior art keywords
- search
- word
- weight value
- data source
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种构建搜索词库的方法和装置,涉及计算机领域。该方法的一具体实施方式包括:从数据源中确定多个搜索词、以及所述多个搜索词中的任一搜索词对应的搜索次数;获取所述任一搜索词的初始权重值,利用所述初始权重值及该搜索词对应的搜索次数计算该搜索词的实际权重值;选择实际权重值符合预设权重条件的搜索词,构建搜索词库。该实施方式能够在不同的语言环境下基于数据源快速构建搜索词库,同时可提高新物品的曝光度,增强用户体验。
Description
技术领域
本发明涉及计算机领域,尤其涉及一种构建搜索词库的方法和装置。
背景技术
搜索系统是根据一定策略、利用特定的计算机程序搜集信息资源,并根据用户的输入向其返回所需信息的系统。随着互联网技术的飞速发展,搜索系统已成为各互联网应用领域的核心系统。
在搜索系统中,搜索词是指与用户的搜索输入信息密切相关、由该搜索输入信息触发供用户进行选择的系统预设词。例如,在某搜索系统的输入框中输入“茶”,其下拉框即可出现“茶叶”、“茶具”、“茶几”等词,输入框下方位置也可出现“红茶”、“茉莉花茶”等词,所述“茶叶”、“茶具”、“茶几”、“红茶”、“茉莉花茶”即为由搜索输入信息“茶”触发的搜索词。在搜索系统中,搜索词库用于对搜索词进行存储与管理。目前,在通用搜索、专业文献检索等技术领域,优良的搜索词库对于提高搜索效率、提升用户体验至关重要。实际应用中,搜索词库一般通过分析历史搜索数据而建立。
然而,现有的搜索词库的构建方法至少存在以下问题:
1.搜索词库构建流程较为复杂;在初期数据源短缺的情况下,缺乏快速构建搜索词库的能力;
2.在确定搜索词时,没有对与新物品对应的搜索词的权重进行调整,使得新物品的曝光度较低,影响用户体验;
3.现有的搜索词库的更新周期一般较为固定,难以根据数据更迭合理变化,系统可用性较差;
4.现有的搜索词库的构建方法多针对一种特定语言建立,与该种语言耦合度较高,对其它不同语言的适用性较差。
发明内容
有鉴于此,本发明实施例提供一种构建搜索词库的方法和装置,能够在不同的语言环境下基于数据源快速构建搜索词库,同时可提高新物品的曝光度,增强用户体验。
为实现上述目的,根据本发明的一个方面,提供了一种构建搜索词库的方法。
本发明实施例的构建搜索词库的方法包括:从数据源中确定多个搜索词、以及所述多个搜索词中的任一搜索词对应的搜索次数;获取所述任一搜索词的初始权重值,利用所述初始权重值及该搜索词对应的搜索次数计算该搜索词的实际权重值;选择实际权重值符合预设权重条件的搜索词,构建搜索词库。
可选地,所述数据源包括商品数据、和/或日志数据。
可选地,所述搜索词库为基于一个统计周期的数据源构建的该统计周期的搜索词库。
可选地,所述从数据源中确定多个搜索词、以及所述多个搜索词中的任一搜索词对应的搜索次数包括:对所述数据源进行分词处理,获得两两不同的多个搜索词;对于所述多个搜索词中的任一搜索词,统计其在分词处理后的数据源中的出现次数,作为该搜索词对应的搜索次数。
可选地,所述对所述数据源进行分词处理包括:确定高频公共词,利用所述高频公共词对所述数据源进行分词处理。
可选地,所述方法进一步包括:在从所述一个统计周期的数据源中确定多个搜索词、以及所述多个搜索词中的任一搜索词对应的搜索次数之后,将所述多个搜索词与上一个统计周期的搜索词库中的搜索词合并。
可选地,所述方法进一步包括:在计算搜索词的实际权重值之前,确定该搜索词的数据来源;利用该搜索词的数据来源、初始权重值及其对应的搜索次数计算该搜索词的实际权重值。
可选地,所述获取所述任一搜索词的初始权重值包括:获取所述任一搜索词的生命期,利用预设的生命期-初始权重值映射关系确定该搜索词的初始权重值。
可选地,所述方法进一步包括:在构建所述一个统计周期的搜索词库之后,根据该统计周期的数据源的数据量确定下一个统计周期的长度。
为实现上述目的,根据本发明的又一方面,提供了一种构建搜索词库的装置。
本发明实施例的构建搜索词库的装置包括:搜索词确定模块,用于从数据源中确定多个搜索词、以及所述多个搜索词中的任一搜索词对应的搜索次数;权重计算模块,用于获取所述任一搜索词的初始权重值,利用所述初始权重值及该搜索词对应的搜索次数计算该搜索词的实际权重值;词库构建模块,用于选择实际权重值符合预设权重条件的搜索词,构建搜索词库。
可选地,所述数据源包括商品数据、和/或日志数据。
可选地,所述搜索词库为基于一个统计周期的数据源构建的该统计周期的搜索词库。
可选地,所述搜索词确定模块用于:在从所述一个统计周期的数据源中确定多个搜索词、以及所述多个搜索词中的任一搜索词对应的搜索次数之后,将所述多个搜索词与上一个统计周期的搜索词库中的搜索词合并。
可选地,所述权重计算模块用于:获取所述任一搜索词的生命期,利用预设的生命期-初始权重值映射关系确定该搜索词的初始权重值。
可选地,所述装置还包括:周期计算模块,用于在构建所述一个统计周期的搜索词库之后,根据该统计周期的数据源的数据量确定下一个统计周期的长度。
为实现上述目的,根据本发明的又一方面,提供了一种电子设备。
本发明的一种电子设备包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本发明所提供的构建搜索词库的方法。
为实现上述目的,根据本发明的再一方面,提供了一种计算机可读存储介质。
本发明的一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现本发明所提供的构建搜索词库的方法。
根据本发明的技术方案,上述发明中的一个实施例具有如下优点或有益效果:通过确定搜索词及其实际权重值,进而利用实际权重值选择一定的搜索词组成搜索词库,实现了搜索词库的快速构建;在初期数据源短缺的情况下,通过确定高频公共词并利用高频公共词对数据源进行分词,从而增加了初期数据量,提高了搜索词库的准确性;通过为新物品对应的搜索词设置合理的初始权重值,提升了新物品的曝光度,克服了现有技术中由于新物品曝光度较低而影响用户体验的缺陷;通过对数据源数据量的判断,自动调整搜索词库更新周期的长度,从而提升了系统实用性;此外,本发明实施例所提供的构建搜索词库的方法语言通用性较强,可在不同语言环境中、缺乏语言专业人员的情况下实现搜索词库的简便、快速构建。
上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。
附图说明
附图用于更好地理解本发明,不构成对本发明的不当限定。其中:
图1是根据本发明实施例的构建搜索词库的方法的主要步骤示意图;
图2是根据本发明实施例的构建搜索词库的方法的流程示意图;
图3是根据本发明实施例的构建搜索词库的装置的主要部分的示意图;
图4是根据本发明实施例可以应用于其中的示例性系统架构图;
图5是用来实现本发明实施例的构建搜索词库的方法的电子设备的结构示意图。
具体实施方式
以下结合附图对本发明的示范性实施例做出说明,其中包括本发明实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本发明的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
本发明的实施例的技术方案通过确定搜索词及其实际权重值,进而利用实际权重值选择一定的搜索词组成搜索词库,实现了搜索词库的快速构建;在初期数据源短缺的情况下,通过确定高频公共词并利用高频公共词对数据源进行分词,从而增加了初期数据量,提高了搜索词库的准确性;通过为新物品对应的搜索词设置合理的初始权重值,提升了新物品的曝光度,克服了现有技术中由于新物品曝光度较低而影响用户体验的缺陷;通过对数据源数据量的判断,自动调整搜索词库更新周期的长度,从而提升了系统实用性;此外,本发明实施例所提供的构建搜索词库的方法语言通用性较强,可在不同语言环境中、缺乏语言专业人员的情况下实现搜索词库的简便、快速构建。
图1是根据本实施例的构建搜索词库的方法的主要步骤示意图。
如图1所示,本发明实施例的构建搜索词库的方法主要包括如下步骤:
步骤S101:从数据源中确定多个搜索词以及多个搜索词中的任一搜索词对应的搜索次数。
实际应用中,所述数据源可以是一个统计周期的数据源。在本发明的实施例中,统计周期指的是构建搜索词库的周期,即搜索词库的更新周期。例如:统计周期可以是一天、一小时等。数据源可以是与搜索相关的物品数据如商品数据,可以是日志数据,也可以同时包含商品数据与日志数据。一般地,商品数据包括商品名称、商品类目等数据;日志数据包括用于记录用户点击信息的用户搜索日志、用于记录用户搜索框输入信息的用户请求日志。实际应用中,数据源也可以包括工作人员根据实际需要人工添加的其它数据。
具体地,作为一个优选方案,步骤S101可按照以下步骤执行:
1.对数据源进行分词处理,获得两两不同的多个搜索词。
实际应用中,搜索词库构建初期往往会遇到数据源短缺的不利局面,这给搜索词库的快速构建带来困难。在本发明实施例中,在数据处理前期,对数据源进行分词,可增加数据量,便于搜索词库的快速建立。
具体的,对数据源进行分词的步骤如下:
(1)预设一个字数阈值、一个出现次数阈值及多个用于分词的窗口长度;对于长度超过该字数阈值的数据,分别利用每一窗口长度对其进行切分,得到多个词;
(2)对于切分得到的每一个词,判断其出现次数是否大于出现次数阈值;若是,将其作为高频公共词;
(3)利用高频公共词对数据源进行分词,获得两两不同的多个搜索词。
上述高频公共词指的是使用频繁、词频较高、可以用于对数据源进行分词的词。实际应用中,高频公共词也可以以其出现次数结合与上下文的其它词组合出现的频率为标准进行确定。
经过上述分词处理的步骤,即可获得多个不同的搜索词。同时,上述分词方法语言通用性较强,可在不同语言环境中、缺乏语言专业人员的情况下实现分词,为搜索词库的构建提供数据支持。
2.对于多个搜索词中的任一搜索词,统计其在分词处理后的数据源中的出现次数,作为该搜索词对应的搜索次数。
经过步骤S101,可以从数据源中获取多个搜索词及与之对应的搜索次数。之后,可以对上述数据执行数据清洗与数据合并的步骤。
在本发明实施例中,数据清洗按照以下步骤执行:
1.去除访问量大于预设访问量阈值的数据,这种数据可视为爬虫数据;
2.去除没有用户ID或无法判定来源的数据;
3.去除对应于黑名单IP的数据;
4.去除搜索次数小于预设的搜索次数最小值的数据。
实际应用中,商品数据较为规范,往往可不执行上述数据清洗的处理。日志数据杂志较多,必须进行数据清洗。可以理解的是,商品数据也可以根据实际需求选择进行数据清洗。
在本发明实施例中,数据合并可以按照以下步骤执行:
1.将从数据源得到的搜索词及其搜索次数、或者经过数据清洗的包括搜索词及其搜索次数的数据与上一个统计周期的搜索词库中的数据合并。
具体地,上一个统计周期指的是以所述数据源对应的统计周期为起点,在时间轴上溯得到的最近的一个统计周期。上一个统计周期的搜索词库一般包括上一个统计周期的搜索词及其实际权重值。较佳地,在进行合并时,可首先将上一个统计周期搜索词的实际权重值根据预设换算规则换算为搜索次数,之后将上述两个统计周期的搜索词、搜索次数进行合并。具体地,对于只出现在一个统计周期的搜索词,其对应的搜索次数即是合并后的搜索次数;对于出现在两个统计周期的搜索词,两种搜索次数之和即是该搜索词合并后的搜索次数。
经过上述处理,在构建当前的搜索词库时,结合历史搜索词库的数据,这样可以丰富构建词库的数据,解决构建初期数据短缺的问题,同时能够提高搜索词库的准确性。
2.剔除数据中的特殊符号如&、#等,将数据中的大写转换为小写。
3.去除数据中的停用词。
停用词一般可分为两类:一类是功能词如英语中的the、is等;另一类是与搜索关联性较低的词如英语的want等。
4.提取搜索词中的词干。
此步骤包括将搜索词中的复数形式转换为单数形式。
5.在配置文件中为每一搜索词标记数据来源。例如,为来源于商品数据的搜索词增加标记a,为来源于日志数据的搜索词增加标记b,所述数据来源用于后续的实际权重值计算。一般地,来源于商品数据的搜索词的可信度较高,因此标记a的优先级较高。如果一个搜索词有多个数据来源,可只保留优先级最高的数据来源。
具体应用中,搜索词的数据来源可以以键值对的形式存储在配置文件。
经过数据清洗与数据合并后,即可计算搜索词的实际权重值,并以实际权重值为标准确定构建搜索词库的搜索词。
步骤S102:获取任一搜索词的初始权重值,利用初始权重值及该搜索词对应的搜索次数计算该搜索词的实际权重值;
其中,初始权重值为预先为每一搜索词设置的权重值,实际权重值以初始权重值为基础进行计算。一般地,搜索词对应的搜索次数越大,其实际权重值越高。
在本发明实施例中,搜索词的初始权重值按照以下步骤获得:
1.建立生命期-初始权重值映射关系。
具体地,生命期-初始权重值映射关系可以表征搜索词的生命期与其初始权重值的一一对应关系。搜索词的生命期指的是搜索词或搜索词对应的物品在搜索系统中的存在时间,其单位可以是秒、分、小时、或天等。例如:在通用搜索领域,如果搜索词“茶”在当前构建搜索词库时为首次出现,其生命期为0天。又如:在电子商务领域,如果搜索词“电饭煲”在当前构建搜索词库时已存在15天,则其生命期为15天。
现有技术中,生命期较短的搜索词往往由于搜索次数较小,使得其实际权重值较小,易于被隔离在搜索词库之外,导致与该搜索词或该搜索词对应物品的实际需求不符,影响客户体验。因此,在本发明实施例中,建立生命期-初始权重值映射关系,为生命期较短的搜索词设置较高的初始权重值以纠正现有技术的上述偏颇。所述生命期-初始权重值映射关系可设置为以生命期的自变量,以初始权重值为函数值的减函数,即对于不同的搜索词,初始权重值随生命期的增加而减小。
例如:将x作为生命期并以天为单位,y作为初始权重值,生命期-初始权重值映射关系可以是y=100-0.1x。在此映射关系下,生命期为0天的搜索词的初始权重值为100,生命期为100天的搜索词的初始权重值为90,生命期为900天的搜索词的初始权重值为10。
实际应用中,往往将搜索词的初始权重值设置为高于上一个统计周期的搜索词实际权重值的平均值,以提升其曝光度。
可以理解的是,上述生命期-初始权重值映射关系的设置只是可选的其中一种方式,并不作为映射关系设置的限制。实际应用中,工作人员可将生命期-初始权重值映射关系灵活设置为其它各种适用形式。
2.获取搜索词的生命期,确定其初始权重值。
在获取搜索词的初始权重值之后,步骤S102执行以下步骤计算搜索词的实际权重值:
1.将相似度处于预设相似度范围的词分为一组,在同一组搜索词中保留搜索次数最大的搜索词,将剩余搜索词去除。
其中,预设相似度范围可根据应用环境设置,如设置为相似度大于0.8。
2.对数据进行切词处理,进一步增加数据量。
3.对数据进行平滑处理,将搜索次数大于预设的搜索次数最大值的搜索词去除。
实际应用中,搜索次数极大的搜索词往往与误操作、恶意操作相关,需将其去除。
4.对数据进行无结果过滤,将不存在对应搜索结果的搜索词去除。
5.根据搜索词的数据来源调整其实际权重值。具体地,对于配置文件中数据来源标记优先级较高的搜索词,提高其实际权重值;对于配置文件中数据来源标记优先级较低的搜索词,减小其实际权重值。
6.根据搜索词的搜索次数确定其实际权重值。一般地,实际权重值随搜索次数的增加而增加,根据搜索词对应的搜索次数、以及预设的实际权重值-搜索次数映射关系可以确定搜索词的实际权重值。可以理解的是,在实际权重值-搜索次数映射关系中,一般包含搜索词的初始权重值信息,且实际权重值随初始权重值的增加而增加。
可以理解的是,上述实际权重值-搜索次数映射关系可以根据需求灵活设置,上述表达式并不对具体设置方式进行限制。
需要说明的是,对于确定实际权重值的上述步骤1-5,可以根据应用环境选择其中的一个或多个步骤,也可以均不选择,直接选择步骤6进行计算。
又如:执行步骤5、6计算实际权重值。如果来源于商品数据的搜索词的标记为a,来源于日志数据的搜索词的标记为b,则a大于b。于是实际权重值-搜索次数映射关系需要考虑数据来源的不同,可以设置为:其中,i为a或b。
在获得搜索词的实际权重值之后,可以采用以下一种或多种步骤进行该实际权重值的进一步调整:
1.根据搜索词与季节的关联性大小调整其实际权重值。
例如:夏季来临,可在相关领域调整“裙子”、“蚊香”等搜索词的实际权重值。
2.根据搜索词对应的商品种类数量调整其实际权重值。
一般地,对应的商品种类数量越多,其实际权重值越大。
3.根据实际应用环境对实际权重值进行人工调整。例如遇到突发事件、热点事件时,对相应搜索词的实际权重值进行人工调整。
可以理解的是,工作人员可以根据实际需求不采用上述调整步骤的任何一种。
步骤S103:选择实际权重值符合预设权重条件的搜索词,构建搜索词库。
其中,预设权重条件可以根据需求设置,如设置为大于权重阈值。
经过步骤S101、S102、S103,本发明实施例的构建搜索词库的方法可以确定可信度较高的高频搜索词,进而快速构建准确性较高的搜索词库。同时,可以看到,本发明实施例的构建搜索词库的方法语言通用性较强,可在不同语言环境中、缺乏语言专业人员的情况下实现搜索词库的简便、快速构建。
在构建搜索词库之后,较佳地,可以根据当前统计周期的数据源的数据量确定下一个统计周期的长度。可以理解的是,下一个统计周期为以当前统计周期为起点的下一个统计周期,统计周期的长度指的是统计周期的时间跨度,数据源的数据量指的是商品数据的数据量、和/或日志数据的数据量。一般地,下一个统计周期的长度确定之后,下一次构建搜索词库时提取商品数据与日志数据的时间范围即可确定。
实际应用中,搜索系统初期数据量较小,不需频繁更新搜索词库,其统计周期长度较大。当后期数据大量增加时,可缩小统计周期长度以使搜索词库与线上的搜索数据快速同步,保障业务需求。
因此,在本发明实施例中,可将下一个统计周期的长度设置为随当前数据量的增加而减小。例如:将下一个统计周期的长度与当前数据量的函数关系设置为反比变化。可以理解的是,也可根据需求将二者的变化关系设置为其它形式。
此外,在本发明实施例中,构建搜索词库后,可以生成配置文件。该配置文件存储所述下一个统计周期的长度及每一搜索词在最近几次统计周期的实际权重值变化情况。
通过上述设置,本发明的实施例实现了基于当前数据源数据量,自动调整下一更新周期长度的技术效果,提升了系统实用性。
图2是根据本发明实施例的构建搜索词库的方法的流程示意图。如图2所示,本发明实施例的构建搜索词库的方法执行数据清洗、数据合并、计算权重、人工干预、词库生成等步骤。其中的优质词库为上一个统计周期的搜索词库,配置指的是携带有上一个统计周期确定的当前统计周期长度的配置文件。整个流程串行循环,数据滚动更新,可以依据上一个周期的数据自动调节配置,设定更新周期,最终实现从已有数据中提取有效信息,剔除不合格搜索词,建立包含尽可能多的高频搜索词的搜索词库,并且可以自动保证后续更新。
根据本发明实施例的构建搜索词库的方法可以看出,因为采用了确定搜索词及其实际权重值,进而利用实际权重值选择一定的搜索词组成搜索词库的技术手段,所以实现了搜索词库的快速构建;在初期数据源短缺的情况下,因为采用了确定高频公共词并利用高频公共词对数据源进行分词的技术手段,从而增加了初期数据量,提高了搜索词库的准确性;通过为新物品对应的搜索词设置合理的初始权重值,提升了新物品的曝光度,克服了现有技术中由于新物品曝光度较低而影响用户体验的缺陷;通过对数据源数据量的判断,自动调整搜索词库更新周期的长度,从而提升了系统实用性;此外,本发明实施例所提供的构建搜索词库的方法语言通用性较强,可在不同语言环境中、缺乏语言专业人员的情况下实现搜索词库的简便、快速构建。
图3示出了本发明实施例的构建搜索词库的装置的主要部分。
如图3所示,本发明实施例的构建搜索词库的装置300包括搜索词确定模块301、权重计算模块302以及词库构建模块303;
其中:搜索词确定模块301可用于从数据源中确定多个搜索词以及所述多个搜索词中的任一搜索词对应的搜索次数。
权重计算模块302可用于获取所述任一搜索词的初始权重值,利用所述初始权重值及该搜索词对应的搜索次数计算该搜索词的实际权重值。
词库构建模块303可用于选择实际权重值符合预设权重条件的搜索词,构建搜索词库。
作为一个优选方案,所述数据源包括商品数据、和/或日志数据,所述搜索词库为基于一个统计周期的数据源构建的该统计周期的搜索词库。
实际应用中,所述搜索词确定模块301可用于对所述数据源进行分词处理,获得两两不同的多个搜索词;对于所述多个搜索词中的任一搜索词,统计其在分词处理后的数据源中的出现次数,作为该搜索词对应的搜索次数。其中,所述搜索词确定模块301对所述数据源进行分词处理可以是:确定高频公共词,利用所述高频公共词对所述数据源进行分词处理。
在本发明实施例中,所述搜索词确定模块301可用于在从所述一个统计周期的数据源中确定多个搜索词、以及所述多个搜索词中的任一搜索词对应的搜索次数之后,将所述多个搜索词与上一个统计周期的搜索词库中的搜索词合并;还可用于在计算搜索词的实际权重值之前,确定该搜索词的数据来源。
较佳地,在本发明实施例中,权重计算模块302可用于获取任一搜索词的生命期,利用预设的生命期-初始权重值映射关系确定该搜索词的初始权重值;还可用于利用搜索词的数据来源、初始权重值及其对应的搜索次数计算该搜索词的实际权重值。
此外,本发明实施例的构建搜索词库的装置还包括周期计算模块,可用于在构建所述一个统计周期的搜索词库之后,根据该统计周期的数据源的数据量确定下一个统计周期的长度。
从以上描述可以看出,因为采用了确定搜索词及其实际权重值,进而利用实际权重值选择一定的搜索词组成搜索词库的技术手段,所以实现了搜索词库的快速构建;在初期数据源短缺的情况下,因为采用了确定高频公共词并利用高频公共词对数据源进行分词的技术手段,从而增加了初期数据量,提高了搜索词库的准确性;通过为新物品对应的搜索词设置合理的初始权重值,提升了新物品的曝光度,克服了现有技术中由于新物品曝光度较低而影响用户体验的缺陷;通过对数据源数据量的判断,自动调整搜索词库更新周期的长度,从而提升了系统实用性;此外,本发明实施例所提供的构建搜索词库的方法语言通用性较强,可在不同语言环境中、缺乏语言专业人员的情况下实现搜索词库的简便、快速构建。
需要强调的是,本发明实施例的构建搜索词库的方法或构建搜索词库的装置能够适用于各互联网技术领域的搜索词库的构建,如通用搜索领域、专业文献检索领域、电子商务领域等。
图4示出了可以应用本发明实施例的构建搜索词库的方法或构建搜索词库的装置的示例性系统架构400。
如图4所示,系统架构400可以包括终端设备401、402、403,网络404和服务器405(此架构仅仅是示例,具体架构中包含的组件可以根据申请具体情况调整)。网络404用以在终端设备401、402、403和服务器405之间提供通信链路的介质。网络404可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备401、402、403通过网络404与服务器405交互,以接收或发送消息等。终端设备401、402、403上可以安装有各种通讯客户端应用,例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等(仅为示例)。
终端设备401、402、403可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
服务器405可以是提供各种服务的服务器,例如对用户利用终端设备401、402、403所浏览的购物类网站提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的产品信息查询请求等数据进行分析等处理,并将处理结果(例如目标推送信息、产品信息--仅为示例)反馈给终端设备。
需要说明的是,本发明实施例所提供的构建搜索词库的方法一般由服务器405执行,相应地,构建搜索词库的装置一般设置于服务器405中。
应该理解,图4中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
本发明还提供了一种电子设备。
本发明实施例的电子设备包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本发明所提供的构建搜索词库的方法。
下面参考图5,其示出了适于用来实现本发明实施例的电子设备的计算机系统500的结构示意图。图5示出的电子设备仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图5所示,计算机系统500包括中央处理单元(CPU)501,其可以根据存储在只读存储器(ROM)502中的程序或者从存储部分508加载到随机访问存储器(RAM)503中的程序而执行各种适当的动作和处理。在RAM503中,还存储有计算机系统500操作所需的各种程序和数据。CPU501、ROM 502以及RAM 503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。
以下部件连接至I/O接口505:包括键盘、鼠标等的输入部分506;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分507;包括硬盘等的存储部分508;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分509。通信部分509经由诸如因特网的网络执行通信处理。驱动器510也根据需要连接至I/O接口505。可拆卸介质511,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器510上,以便从其上读出的计算机程序根据需要被安装入存储部分508。
特别地,根据本发明公开的实施例,上文的主要步骤图描述的过程可以被实现为计算机软件程序。例如,本发明实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行主要步骤图所示的方法的程序代码。在上述实施例中,该计算机程序可以通过通信部分509从网络上被下载和安装,和/或从可拆卸介质511被安装。在该计算机程序被中央处理单元501执行时,执行本发明的系统中限定的上述功能。
需要说明的是,本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。在本发明中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这根据所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本发明实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中,例如,可以描述为:一种处理器包括搜索词确定模块、权重计算模块和词库构建模块。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定,例如,搜索词确定模块还可以被描述为“向权重计算模块发送搜索词与搜索次数的单元”。
作为另一方面,本发明还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的设备中所包含的;也可以是单独存在,而未装配入该设备中的。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该设备执行时,使得该设备执行的步骤包括:从数据源中确定多个搜索词、以及所述多个搜索词中的任一搜索词对应的搜索次数;获取所述任一搜索词的初始权重值,利用所述初始权重值及该搜索词对应的搜索次数计算该搜索词的实际权重值;选择实际权重值符合预设权重条件的搜索词,构建搜索词库。
根据本发明实施例的技术方案,通过确定搜索词及其实际权重值,进而利用实际权重值选择一定的搜索词组成搜索词库,实现了搜索词库的快速构建;在初期数据源短缺的情况下,通过确定高频公共词并利用高频公共词对数据源进行分词,从而增加了初期数据量,提高了搜索词库的准确性;通过为新物品对应的搜索词设置合理的初始权重值,提升了新物品的曝光度,克服了现有技术中由于新物品曝光度较低而影响用户体验的缺陷;通过对数据源数据量的判断,自动调整搜索词库更新周期的长度,从而提升了系统实用性;此外,本发明实施例所提供的构建搜索词库的方法语言通用性较强,可在不同语言环境中、缺乏语言专业人员的情况下实现搜索词库的简便、快速构建。
上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,取决于设计要求和其他因素,可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。
Claims (14)
1.一种构建搜索词库的方法,其特征在于,包括:
从数据源中确定多个搜索词、以及所述多个搜索词中的任一搜索词对应的搜索次数;
获取所述任一搜索词的生命期,利用预设的生命期-初始权重值映射关系确定该搜索词的初始权重值,利用所述初始权重值及该搜索词对应的搜索次数计算该搜索词的实际权重值;其中,预设的生命期-初始权重值映射关系表征:对于不同的搜索词,初始权重值随生命期的增加而减小,搜索词的生命期指的是搜索词或搜索词对应的物品在搜索系统中的存在时间;
选择实际权重值符合预设权重条件的搜索词,构建搜索词库;
所述从数据源中确定多个搜索词,包括:预设一个字数阈值、一个出现次数阈值及多个用于分词的窗口长度;对于长度超过该字数阈值的数据,分别利用每一窗口长度对其进行切分,得到多个词;对于切分得到的每一个词,判断其出现次数是否大于出现次数阈值;若是,将其作为高频公共词;利用高频公共词对数据源进行分词,获得两两不同的多个搜索词。
2.根据权利要求1所述的方法,其特征在于,所述数据源包括商品数据、和/或日志数据。
3.根据权利要求1所述的方法,其特征在于,所述搜索词库为基于一个统计周期的数据源构建的该统计周期的搜索词库。
4.根据权利要求1所述的方法,其特征在于,所述从数据源中确定多个搜索词、以及所述多个搜索词中的任一搜索词对应的搜索次数包括:
对所述数据源进行分词处理,获得两两不同的多个搜索词;
对于所述多个搜索词中的任一搜索词,统计其在分词处理后的数据源中的出现次数,作为该搜索词对应的搜索次数。
5.根据权利要求3所述的方法,其特征在于,所述方法进一步包括:
在从所述一个统计周期的数据源中确定多个搜索词、以及所述多个搜索词中的任一搜索词对应的搜索次数之后,将所述多个搜索词与上一个统计周期的搜索词库中的搜索词合并。
6.根据权利要求1所述的方法,其特征在于,所述方法进一步包括:
在计算搜索词的实际权重值之前,确定该搜索词的数据来源;
利用该搜索词的数据来源、初始权重值及其对应的搜索次数计算该搜索词的实际权重值。
7.根据权利要求3或5所述的方法,其特征在于,所述方法进一步包括:
在构建所述一个统计周期的搜索词库之后,根据该统计周期的数据源的数据量确定下一个统计周期的长度。
8.一种构建搜索词库的装置,其特征在于,包括:
搜索词确定模块,用于从数据源中确定多个搜索词、以及所述多个搜索词中的任一搜索词对应的搜索次数;
权重计算模块,用于获取所述任一搜索词的生命期,利用预设的生命期-初始权重值映射关系确定该搜索词的初始权重值,利用所述初始权重值及该搜索词对应的搜索次数计算该搜索词的实际权重值;其中,预设的生命期-初始权重值映射关系表征:对于不同的搜索词,初始权重值随生命期的增加而减小;搜索词的生命期指的是搜索词或搜索词对应的物品在搜索系统中的存在时间;
词库构建模块,用于选择实际权重值符合预设权重条件的搜索词,构建搜索词库;
搜索词确定模块进一步用于:预设一个字数阈值、一个出现次数阈值及多个用于分词的窗口长度;对于长度超过该字数阈值的数据,分别利用每一窗口长度对其进行切分,得到多个词;对于切分得到的每一个词,判断其出现次数是否大于出现次数阈值;若是,将其作为高频公共词;利用高频公共词对数据源进行分词,获得两两不同的多个搜索词。
9.根据权利要求8所述的装置,其特征在于,所述数据源包括商品数据、和/或日志数据。
10.根据权利要求8所述的装置,其特征在于,所述搜索词库为基于一个统计周期的数据源构建的该统计周期的搜索词库。
11.根据权利要求10所述的装置,其特征在于,所述搜索词确定模块用于:
在从所述一个统计周期的数据源中确定多个搜索词、以及所述多个搜索词中的任一搜索词对应的搜索次数之后,将所述多个搜索词与上一个统计周期的搜索词库中的搜索词合并。
12.根据权利要求10或11所述的装置,其特征在于,还包括:
周期计算模块,用于在构建所述一个统计周期的搜索词库之后,根据该统计周期的数据源的数据量确定下一个统计周期的长度。
13.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-7中任一所述的方法。
14.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1-7中任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710500077.9A CN107247798B (zh) | 2017-06-27 | 2017-06-27 | 构建搜索词库的方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710500077.9A CN107247798B (zh) | 2017-06-27 | 2017-06-27 | 构建搜索词库的方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107247798A CN107247798A (zh) | 2017-10-13 |
CN107247798B true CN107247798B (zh) | 2021-05-25 |
Family
ID=60013551
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710500077.9A Active CN107247798B (zh) | 2017-06-27 | 2017-06-27 | 构建搜索词库的方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107247798B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107995098A (zh) * | 2017-11-24 | 2018-05-04 | 福建中金在线信息科技有限公司 | 信息推送方法及装置 |
CN110781365B (zh) * | 2018-07-13 | 2023-04-28 | 阿里巴巴集团控股有限公司 | 商品搜索方法、装置、系统及电子设备 |
CN113220983A (zh) * | 2020-02-06 | 2021-08-06 | 北京沃东天骏信息技术有限公司 | 基于深度学习的选品方法和装置 |
CN113744011A (zh) * | 2020-06-17 | 2021-12-03 | 北京沃东天骏信息技术有限公司 | 物品搭配方法和物品搭配装置 |
CN112835919B (zh) * | 2021-02-24 | 2022-04-26 | 武汉联影医疗科技有限公司 | 医学数据库更新方法、装置、计算机设备和存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102298581A (zh) * | 2010-06-23 | 2011-12-28 | 深圳市腾讯计算机系统有限公司 | 一种输入法词库的处理方法和装置 |
CN103870505A (zh) * | 2012-12-17 | 2014-06-18 | 阿里巴巴集团控股有限公司 | 一种查询词推荐方法和查询词推荐系统 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103559313B (zh) * | 2013-11-20 | 2018-02-23 | 北京奇虎科技有限公司 | 搜索方法及装置 |
CN105893626A (zh) * | 2016-05-10 | 2016-08-24 | 中广核工程有限公司 | 一种用于核电工程的索引库创建方法及其采用其方法的索引系统 |
CN106599082B (zh) * | 2016-11-21 | 2020-07-14 | 北京金山安全软件有限公司 | 一种检索方法、相关装置及电子设备 |
-
2017
- 2017-06-27 CN CN201710500077.9A patent/CN107247798B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102298581A (zh) * | 2010-06-23 | 2011-12-28 | 深圳市腾讯计算机系统有限公司 | 一种输入法词库的处理方法和装置 |
CN103870505A (zh) * | 2012-12-17 | 2014-06-18 | 阿里巴巴集团控股有限公司 | 一种查询词推荐方法和查询词推荐系统 |
Also Published As
Publication number | Publication date |
---|---|
CN107247798A (zh) | 2017-10-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107247798B (zh) | 构建搜索词库的方法和装置 | |
CN107480205B (zh) | 一种进行数据分区的方法和装置 | |
CN112527649A (zh) | 一种测试用例的生成方法和装置 | |
CN107609192A (zh) | 一种搜索引擎的补充搜索方法和装置 | |
CN110321252B (zh) | 一种技能服务资源调度的方法和装置 | |
CN111861596B (zh) | 一种文本分类方法和装置 | |
CN110555172A (zh) | 用户关系挖掘方法及装置、电子设备和存储介质 | |
CN111435406A (zh) | 一种纠正数据库语句拼写错误的方法和装置 | |
CN114091426A (zh) | 一种处理数据仓库中字段数据的方法和装置 | |
CN107291835B (zh) | 一种搜索词的推荐方法和装置 | |
CN113836314A (zh) | 知识图谱构建方法、装置、设备以及存储介质 | |
CN112818230A (zh) | 内容推荐方法、装置、电子设备和存储介质 | |
CN110750707A (zh) | 关键词推荐方法、装置和电子设备 | |
CN110554951A (zh) | 一种埋点管理的方法和装置 | |
CN112783887A (zh) | 一种基于数据仓库的数据处理方法及装置 | |
CN113761565B (zh) | 数据脱敏方法和装置 | |
CN108985805B (zh) | 一种选择性执行推送任务的方法和装置 | |
CN110827101B (zh) | 一种店铺推荐的方法和装置 | |
CN107679030B (zh) | 基于用户操作行为数据提取同义词的方法和装置 | |
CN115858815A (zh) | 确定映射信息的方法、广告推荐方法、装置、设备及介质 | |
CN110750708A (zh) | 关键词推荐方法、装置和电子设备 | |
CN115423030A (zh) | 一种设备识别的方法和装置 | |
CN114969444A (zh) | 数据的处理方法、装置、电子设备和存储介质 | |
CN114186147A (zh) | 数据处理方法、装置、电子设备和存储介质 | |
CN113780827A (zh) | 一种物品筛选方法、装置、电子设备及计算机可读介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |