CN113468393A - 索引生成方法、装置、电子设备及存储介质 - Google Patents
索引生成方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN113468393A CN113468393A CN202110643973.7A CN202110643973A CN113468393A CN 113468393 A CN113468393 A CN 113468393A CN 202110643973 A CN202110643973 A CN 202110643973A CN 113468393 A CN113468393 A CN 113468393A
- Authority
- CN
- China
- Prior art keywords
- weight
- field
- key field
- key
- search service
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/313—Selection or weighting of terms for indexing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本公开提供了一种索引生成方法、装置、电子设备及存储介质,属于网络技术领域。本公开实施例中,根据关键字段在各个搜索业务中对于搜索结果的影响程度,确定关键字段在各个搜索业务中的重要性等级。然后,根据关键字段在各个搜索业务中的重要性等级,确定关键字段在各个搜索业务中的相关性权重。根据关键字段在各个搜索业务中的相关性权重,为关键字段构建索引获。这样,一定程度上可以使得设置的相关性权重,更适配于关键字段所属的搜索业务的实际情况,进而可以提高最终构建的索引的准确性,从而提高后续基于该索引进行的搜索操作的准确性。
Description
技术领域
本公开属于网络技术领域,特别是涉及一种索引生成方法、装置、电子设备及存储介质。
背景技术
随着网络技术的不断发展,网络中的网络资源越来越多。例如,网络中的音频、文本、视频等资源越来越多。为了方便用户从大量的网络资源中便捷的获取到自己所需的网络资源,往往需要针对网络资源构建索引,以协助用户对这些网络资源进行搜索访问。为了构建索引,往往需要为网络资源的关键字段的字段内容中的分词,设置相关性权重,以便在搜索环节,根据该相关性权重确定是否召回与该分词关联的网络资源。
现有方式中,往往是直接根据预先设置的与该关键字段的名称绑定的相关性赋值方式,为分词设置相关性权重。但是,不同搜索业务下的网络资源,其所涉及的关键字段等因素不同,这种方式可能会导致为分词设置的相关性权重,并不能适配于该关键字段所属的搜索业务的实际情况,进而导致构建的索引的准确性较差,后续基于该索引进行的搜索操作的准确性较低。
发明内容
为克服相关技术中存在的问题,本公开提供一种索引生成方法、装置、系统、电子设备及存储介质。
依据本公开的第一方面,提供了一种索引生成方法,该方法包括:
根据关键字段在各个搜索业务中对于搜索结果的影响程度,确定所述关键字段在各个所述搜索业务中的重要性等级;
根据所述关键字段在各个所述搜索业务中的重要性等级,确定所述关键字段在各个所述搜索业务中的相关性权重;
根据所述关键字段在各个所述搜索业务中的相关性权重,为所述关键字段构建索引。
可选的,所述根据关键字段在各个搜索业务中对于搜索结果的影响程度,确定所述关键字段在各个所述搜索业务中的重要性等级之前,所述方法还包括:
对于任一所述搜索业务,获取业务方为所述搜索业务设置的字段配置文件;所述字段配置文件用于表征所述搜索业务中网络资源的关键字段所具备的字段属性;
对于任一所述关键字段,根据所述字段配置文件,获取与所述字段属性一一对应的字段内容;
对所述关键字段所具备的字段属性对应的字段内容,进行切词处理,得到所述关键字段对应的分词。
可选的,所述根据所述关键字段在各个所述搜索业务中的重要性等级,确定所述关键字段在各个所述搜索业务中的相关性权重,包括:
对于任一所述搜索业务,根据所述重要性等级对应的相关性赋值方式,确定所述重要性等级对应的相关性权重的权重种类;所述权重种类与所述重要性等级相关,所述相关性赋值方式包括各个所述权重种类对应的赋值方式;
对于任一所述权重种类,根据所述权重种类对应的赋值方式,为所述关键字段的分词设置所述权重种类下的相关性权重。
可选的,所述赋值方式中的赋值权重与所述重要性等级正相关;
所述根据所述权重种类对应的赋值方式,为所述关键字段的分词设置所述权重种类下的相关性权重,包括:
根据所述权重种类对应的赋值方式中的赋值权重,确定所述权重种类下的相关性权重,得到目标相关性权重;
为所述分词设置所述目标相关性权重。
可选的,所述权重种类包括用于衡量所述分词所携带的表意能力的第一权重种类;
所述根据所述权重种类对应的赋值方式中的赋值权重,确定所述权重种类下的相关性权重,包括:
根据所述分词的词频-逆文档频率,为所述分词设置原始分值;
根据所述原始分值以及所述第一权重种类对应的赋值方式中的赋值权重,确定所述第一权重种类下的相关性权重。
可选的,在所述重要性等级为特定重要性等级的情况下,所述权重种类还包括第二权重种类,所述第二权重种类下的相关性权重用于表征所述分词相对目标语义的重要程度,所述目标语义为所述关键字段的字段内容的语义;
所述根据所述权重种类对应的赋值方式中的赋值权重,确定所述权重种类下的相关性权重,还包括:
确定所述分词与所述字段内容的语义相似度;所述语义相似度与所述重要程度正相关;
根据所述语义相似度以及所述第二权重种类对应的赋值方式中的赋值权重,确定所述第二权重种类下的相关性权重。
可选的,所述字段属性包括字段等级属性;
所述根据关键字段在各个搜索业务中对于搜索结果的影响程度,确定所述关键字段在各个所述搜索业务中的重要性等级,包括:
对于任一所述搜索业务,从获取到的各个所述字段属性对应的字段内容中,查找所述字段等级属性对应的字段内容;
将所述字段等级属性对应的字段内容指示的重要性等级,作为所述关键字段在所述搜索业务中的重要性等级。
可选的,所述字段属性包括切词粒度属性;
所述对所述关键字段所具备的字段属性对应的字段内容,进行切词处理,包括:
按照所述切词粒度属性的字段内容所指示的切词粒度,对所述关键字段所具备的特定字段属性的字段内容进行切词处理。
可选的,所述字段属性包括数据类型属性;所述对所述关键字段所具备的字段属性对应的字段内容,进行切词处理之前,所述方法还包括:
从各个所述搜索业务中网络资源的关键字段中,确定同类关键字段;所述同类关键字段的数据类型属性的字段内容所指示的数据类型相同;
基于所述数据类型对应的数据转换方式,对所述同类关键字段所具备的特定字段属性的字段内容进行格式转换。
可选的,所述关键字段的相关性权重包括所述关键字段的分词的相关性权重;所述根据所述关键字段在各个所述搜索业务中的相关性权重,为所述关键字段构建索引,包括:
对于任一所述搜索业务中的网络资源,根据所述关键字段的重要性等级以及所述网络资源的关键字段的字段内容长度,为所述网络资源设置序列标识;所述序列标识的大小与所述重要性等级以及所述字段内容长度负相关;
根据所述分词、所述分词的相关性权重以及所述网络资源的序列标识,生成所述网络资源对应的索引数据;
基于各个所述网络资源对应的索引数据,生成所述索引;其中,序列标识越小的网络资源对应的索引数据,在所述索引中的位置越靠前。
依据本公开的第二方面,提供了一种索引生成装置,该装置包括:
第一获取确定模块,被配置为根据关键字段在各个搜索业务中对于搜索结果的影响程度,确定所述关键字段在各个所述搜索业务中的重要性等级;
设置第二确定模块,被配置为根据所述关键字段在各个所述搜索业务中的重要性等级,确定所述关键字段在各个所述搜索业务中的相关性权重;
构建模块,被配置为根据所述关键字段在各个所述搜索业务中的相关性权重,为所述关键字段构建索引。
可选的,所述装置还包括:
第一获取模块,被配置为在所述第一确定模块根据关键字段在各个搜索业务中对于搜索结果的影响程度,确定所述关键字段在各个所述搜索业务中的重要性等级之前,对于任一所述搜索业务,获取业务方为所述搜索业务设置的字段配置文件;所述字段配置文件用于表征所述搜索业务中网络资源的关键字段所具备的字段属性;
第二获取模块,被配置为对于任一所述关键字段,根据所述字段配置文件,获取与所述字段属性一一对应的字段内容;
切词模块,被配置为对所述关键字段所具备的字段属性对应的字段内容,进行切词处理,得到所述关键字段对应的分词。
可选的,所述第二确定模块,具体被配置为:
对于任一所述搜索业务,根据所述重要性等级对应的相关性赋值方式,确定所述重要性等级对应的相关性权重的权重种类;所述权重种类与所述重要性等级相关,所述相关性赋值方式包括各个所述权重种类对应的赋值方式;
对于任一所述权重种类,根据所述权重种类对应的赋值方式,为所述关键字段的分词设置所述权重种类下的相关性权重。
可选的,所述赋值方式中的赋值权重与所述重要性等级正相关;
所述第二确定模块,具体还被配置为:
根据所述权重种类对应的赋值方式中的赋值权重,确定所述权重种类下的相关性权重,得到目标相关性权重;
为所述分词设置所述目标相关性权重。
可选的,所述权重种类包括用于衡量所述分词所携带的表意能力的第一权重种类;
所述第二确定模块,具体还被配置为:
根据所述分词的词频-逆文档频率,为所述分词设置原始分值;
根据所述原始分值以及所述第一权重种类对应的赋值方式中的赋值权重,确定所述第一权重种类下的相关性权重。
可选的,在所述重要性等级为特定重要性等级的情况下,所述权重种类还包括第二权重种类,所述第二权重种类下的相关性权重用于表征所述分词相对目标语义的重要程度,所述目标语义为所述关键字段的字段内容的语义;
所述第二确定模块,具体还被配置为:
确定所述分词与所述字段内容的语义相似度;所述语义相似度与所述重要程度正相关;
根据所述语义相似度以及所述第二权重种类对应的赋值方式中的赋值权重,确定所述第二权重种类下的相关性权重。
可选的,所述字段属性包括字段等级属性;
所述第一确定模块,具体被配置为:
对于任一所述搜索业务,从获取到的各个所述字段属性对应的字段内容中,查找所述字段等级属性对应的字段内容;
将所述字段等级属性对应的字段内容指示的重要性等级,作为所述关键字段在所述搜索业务中的重要性等级。
可选的,所述字段属性包括切词粒度属性;
所述述切词模块,具体被配置为:
按照所述切词粒度属性的字段内容所指示的切词粒度,对所述关键字段所具备的特定字段属性的字段内容进行切词处理。
可选的,所述字段属性包括数据类型属性;所述装置还包括:
第三确定模块,被配置为在所述切词模块对所述关键字段所具备的字段属性对应的字段内容,进行切词处理之前,从各个所述搜索业务中网络资源的关键字段中,确定同类关键字段;所述同类关键字段的数据类型属性的字段内容所指示的数据类型相同;
转换模块,被配置为基于所述数据类型对应的数据转换方式,对所述同类关键字段所具备的特定字段属性的字段内容进行格式转换。
可选的,所述关键字段的相关性权重包括所述关键字段的分词的相关性权重;所述构建模块,具体被配置为:
对于任一所述搜索业务中的网络资源,根据所述关键字段的重要性等级以及所述网络资源的关键字段的字段内容长度,为所述网络资源设置序列标识;所述序列标识的大小与所述重要性等级以及所述字段内容长度负相关;
根据所述分词、所述分词的相关性权重以及所述网络资源的序列标识,生成所述网络资源对应的索引数据;
基于各个所述网络资源对应的索引数据,生成所述索引;其中,序列标识越小的网络资源对应的索引数据,在所述索引中的位置越靠前。
依据本公开的第三方面,提供了一种电子设备,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现如第一方面中任一项所述的索引生成方法。
依据本公开的第四方面,提供了一种存储介质,当所述存储介质中的指令由电子设备的处理器执行时,使得所述电子设备执行如第一方面中任一项所述的索引生成方法。
依据本公开的第五方面,提供了一种计算机程序产品,所述计算机程序产品包括可读性程序指令,所述可读性程序指令由电子设备的处理器执行时,使得所述电子设备执行如第一方面中任一项所述的索引生成方法。
本公开相比于相关技术,具有如下的优点和积极效果:
本公开实施例提供的索引生成方法,根据关键字段在各个搜索业务中对于搜索结果的影响程度,确定关键字段在各个搜索业务中的重要性等级。然后,根据关键字段在各个搜索业务中的重要性等级,确定关键字段在各个搜索业务中的相关性权重。根据关键字段在各个搜索业务中的相关性权重,为关键字段构建索引。这样,通过将相关性赋值方式与网络资源的关键字段的字段名称解耦,基于关键字段对搜索业务的实际影响程度,为各个关键字段设置重要性等级,并根据重要性等级为关键字段设置相关性权重。一定程度上可以使得设置的相关性权重,更适配于关键字段所属的搜索业务的实际情况,进而可以提高最终构建的索引的准确性,从而提高后续基于该索引进行的搜索操作的准确性。
上述说明仅是本公开技术方案的概述,为了能够更清楚了解本公开的技术手段,而可依照说明书的内容予以实施,并且为了让本公开的上述和其它目的、特征和优点能够更明显易懂,以下特举本公开的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本公开的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1是本公开实施例提供的一种索引生成方法的步骤流程图;
图2是本公开实施例提供的一种索引生成装置的框图;
图3是根据一示例性实施例示出的一种用于索引生成的装置的框图;
图4是根据一示例性实施例示出的一种用于索引生成的装置的框图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
图1是本公开实施例提供的一种索引生成方法的步骤流程图,如图1所示,该方法可以包括:
步骤101、根据关键字段在各个搜索业务中对于搜索结果的影响程度,确定所述关键字段在各个所述搜索业务中的重要性等级。
本公开实施例中,关键字段可以为搜索业务中网络资源具备的关键字段。搜索业务的具体种类可以是根据实际需求设置,不同搜索业务中的网络资源可以不同。示例的,搜索业务可以包括视频搜索、音乐搜索、用户搜索、商品搜索、资讯搜索等多种业务,相应地,搜索业务中的网络资源可以对应包括视频、音乐、用户、商品、资讯,等等。搜索业务中网络资源的关键字段可以是根据实际业务情况预先约定的。不同搜索业务中网络资源的各个关键字段可以是完全不同的字段,也可以存在部分相同字段。示例的,对于视频搜索业务,关键字段可以包括视频标题、视频字幕、视频作者、上传用户名,等等。对于商品搜索业务,关键字段可以包括商品价格、商品评价、商品退货率,上传用户名,等等。对于音乐搜索业务关键字段可以包括歌名、歌手、所属专辑名称、等等。
进一步地,关键字段在各搜索业务中中对于搜索结果的影响程度可以是关键字段在所属的各搜索业务中对搜索结果的影响程度,关键字段所属的搜索业务可以是根据实际需求预先设置的,关键字段所属的搜索业务可以是网络资源具备该关键字段的业务,关键字段所属的搜索业务可以是一个也可以是多个。具体的,可以基于关键字段在所属的搜索业务中对搜索结果的影响程度,将关键字段划分至对应的字段类别中,不同字段类别可以表征不同的重要性等级,进而通过分类实现确定重要性等级。或者,基于关键字段在所属的搜索业务中对搜索结果的影响程度,为该关键字段设置等级标签,该标签可以用于表征该关键字段在该搜索业务中的重要性等级,进而通过设置标签实现确定重要性等级。当然,也可以预先进行分类/设置等级标签的操作,相应地,本步骤中仅需读取该关键字段的字段类别/等级标签,基于字段类别/等级标签即可实现确定重要性等级的操作。
其中,关键字段在所属的搜索业务中对搜索结果的影响程度可以是根据实际情况确定的。示例的,对于视频搜索业务而言,用户在选择视频时,可能会较为关注视频的上传用户,视频的上传用户会较大程度影响用户的决策。因此,在进行视频搜索,向用户返回视频搜索结果的时候,往往会考虑视频的上传用户,即,关键字段“上传用户名”对于视频搜索的搜索结果的影响程度较大。对于商品搜索业务而言,用户在选择商品时,不太会关注视频的上传用户,商品的上传用户对用户决策的影响较小,因此,在进行商品搜索,向用户返回商品搜索结果的时候,往往不太会考虑商品的上传用户,即,关键字段“上传用户名”对于商品搜索的搜索结果的影响程度较小。那么“上传用户名”在视频搜索业务的重要性等级与在商品搜索业务中的重要性等级可以不同。其中,后续对于不同重要性等级的关键字段,可以采用不同的赋值方式。
步骤102、根据所述关键字段在各个所述搜索业务中的重要性等级,确定所述关键字段在各个所述搜索业务中的相关性权重。
本公开实施例中,不同重要性等级的关键字段对于所属搜索业务的搜索结果的影响程度不同,即,不同重要性等级的关键字段相对所属搜索业务的重要程度不同。进一步地,本步骤中以当前待处理的关键字段在搜索业务中的重要性等级,为该关键字段设置在该搜索业务中的相关性权重,一定程度上可以使得设置的相关性权重,更适配于该关键字段所属的搜索业务的实际情况,以及使得设置的相关性权重可以更准确的表征该关键字段的分词与具体该关键字段的网络资源的相关性,进而提高后续构建的索引的准确性。示例的,不同重要性等级可以对应不同的相关性赋值方式。其中,相关性权重可以表征相关性分值,各个重要性等级对应的相关性赋值方式可以是根据实际情况预先设定的,在确定关键字段在各个搜索业务中的相关性权重时,可以基于关键字段在各个搜索业务中的重要性等级对应的相关性赋值方式,确定相关性权重。
示例的,在相关性赋值方式与关键字段的字段名称绑定的情况下,绑定有相关性赋值方式的关键字段的覆盖范围可能较小,例如,可能会出现有些搜索业务不具备该绑定有相关性赋值方式关键字段。如果扩大覆盖范围,又会导致成本过大。又或者,虽然具备该绑定有相关性赋值方式关键字段,但是如果使用所绑定的相关性赋值方式进行赋值,可能会导致最终设置的相关性权重对于该搜索业务而言过高或者过低,出现相关性失真的问题。例如,“上传用户名”对于商品搜索业务的搜索结果的影响程度很小,对于视频搜索业务的搜索结果的影响程度很大,如果为“上传用户名”设置固定的相关性赋值方式,就无法兼顾不同的搜索业务。而本公开实施例中,仅需为各个搜索业务的关键字段设置重要性等级,例如,可以将商品搜索业务的“上传用户名”与视频搜索业务的“上传用户名”设置各自适配的重要性等级,进而可以以各自适配的相关性赋值方式进行相关性打分,这样,可以在避免成本过大的同时,使得最终设置的相关性权重更适配于该关键字段所属的搜索业务,准确性更高。同时,可以避免由于设置的相关性权重不合适,需要进行效果调优的问题。
步骤103、根据所述关键字段在各个所述搜索业务中的相关性权重,为所述关键字段构建索引。
示例的,为关键字段构建索引可以相当于为具备该关键字段的网络资源构建索引。本公开实施例可以基于关键字段在各个搜索业务中的相关性权重,针对具备该关键字段的网络资源构建正排索引以及倒排索引,以得到为关键字段构建的索引。由于相关性权重更适配于关键字段所属的搜索业务,准确性更高,因此,可以使得构建的索引更准确,进而可以提高后续基于该索引进行的搜索操作的准确性。
综上所述,本公开实施例提供的索引生成方法,根据关键字段在各个搜索业务中对于搜索结果的影响程度,确定关键字段在各个搜索业务中的重要性等级。然后,根据关键字段在各个搜索业务中的重要性等级,确定关键字段在各个搜索业务中的相关性权重。根据关键字段在各个搜索业务中的相关性权重,为关键字段构建索引。这样,通过将相关性赋值方式与网络资源的关键字段的字段名称解耦,基于关键字段对搜索业务的实际影响程度,为各个关键字段设置重要性等级,并根据重要性等级为关键字段设置相关性权重。一定程度上可以使得设置的相关性权重,更适配于关键字段所属的搜索业务的实际情况,进而可以提高最终构建的索引的准确性,从而提高后续基于该索引进行的搜索操作的准确性。
可选的,本公开是实施例中还可以在根据关键字段在各个搜索业务中对于搜索结果的影响程度,确定关键字段在各个搜索业务中的重要性等级之前,执行下述步骤:
步骤S21、对于任一所述搜索业务,获取业务方为所述搜索业务设置的字段配置文件;所述字段配置文件用于表征所述搜索业务中网络资源的关键字段所具备的字段属性。
本步骤中,可以先读取业务方设置的初始配置文件,然后通过预设的格式校验工具对初始配置文件进行处理,得到可发布的更加规范的字段配置文件。其中,格式校验工具本质上可以为一个程序,格式校验工具可以用于实现删除重复内容,删除多余符号等操作。最终得到的字段配置文件可以是预设结构化的格式(例如,json格式或者pb格式)。进一步地,不同搜索业务可以对应不同的业务方,搜索业务对应的业务方可以用于实现该搜索业务。业务方可以根据实际使用场景对业务字段进行属性配置,以生成初始配置文件,不同业务方为不同搜索业务设置的初始配置文件可以不同,业务字段即为该搜索业务中网络资源所涉及到的关键字段。
步骤S22、对于任一所述关键字段,根据所述字段配置文件,获取与所述字段属性一一对应的字段内容。
本步骤中,各个关键字段所具备的字段属性与字段属性对应的字段内容一一对应。不同字段属性可以指示不同维度的字段信息,示例的,假设字段属性包括字段标识(identity,id),字段名称、字段别名,等等。相应地,对于关键字段“上传用户名”而言,可以获取上传该网络资源的用户的用户名,以作为关键字段的字段名称对应的字段内容,获取上传该网络资源的用户的用户名id,以作为关键字段的字段id对应的字段内容,获取上传该网络资源的用户的别名,以作为关键字段的字段别名对应的字段内容。
具体实施时,对于任一网络资源,可以根据该网络资源的各个关键字段具备的各字段属性,从预设的业务数据表中逐条拉取相关的数据列,进而得到各字段属性对应的字段内容。其中,业务数据表中的具体内容可以是业务方根据实际情况设置的,业务数据表中的内容可以是从网络资源上传时携带的信息中提取的,或者是从其他信息获取渠道挖掘的。需要说明的是,同一关键字段可能具备多个字段属性,因此,可以按照预设的分割符,例如,制表符,对各个字段属性对应的字段内容进行分隔,以形成同一的资源文件,进而方便后续处理。进一步地,本公开实施例中,对于任一关键字段,可以按照“关键字段所具备的字段属性-字段属性对应的字段内容”的预设格式,存储各个关键字段所具备的字段属性对应的字段内容,以实现各个关键字段所具备的字段属性与字段属性对应的字段内容一一对应,进而方便后续对各个关键字段进行单独处理。其中,按照预设格式存储的数据对,又可以称为建库结构化数据。
步骤S23、对所述关键字段所具备的字段属性对应的字段内容,进行切词处理,得到所述关键字段对应的分词。
示例的,可以将字段内容切分为词语,进而得到关键字段对应的分词。
本公开实施例中,通过获取业务方为搜索业务设置的字段配置文件,获取该字段配置文件中定义的字段属性对应的字段内容,作为关键字段的字段内容,并通过对字段内容进行切分,得到关键字段对应的分词。由于字段配置文件是业务方本身设置的,因此,可以使得基于字段内容得到的分词更符合业务方的实际需求,进而一定程度上提高后续基于这些分词构建的索引的准确性。
在一种现有方式中,往往是在代码中为字段写入默认的属性配置,在需要对字段进行特定操作(例如,新增、删出、修改)时,需要对代码本身进行修改以及更新。例如,在需要新增一个关键字段时,需要在代码中新增该关键字段对应的处理方式、存储方式等等,并更新代码。而本公开实施例中,各个关键字段所具备的字段属性与字段属性对应的字段内容一一对应,通过提供可解释的更具灵活性的配置方式,使得仅需根据需求为新增的关键字段配置字段属性,不需要依赖额外信息进行数据反解,复用原有针对字段属性的处理逻辑即可实现对新增的关键字段的处理,进而一定程度上可以减少重复性开发工作,降低成本。
可选的,在一种实现方式中,关键字段的字段属性中可以包括切词粒度属性。相应地,进行切词处理时,可以按照切词粒度属性的字段内容所指示的切词粒度,对所述关键字段所具备的特定字段属性的字段内容进行切词处理。其中,切词粒度可以用于表征切词类型,切词粒度可以包括单字切词、正常切词、不切词中的一种或多种。特定字段属性可以是根据实际需求设定的,特定字段属性可以是关键字段具备的部分字段属性,也可以是全部字段属性,示例的,特定字段属性可以包括字段名称、字段别名,等等。相较于现有方式中直接对所有关键字段均使用同一默认切词粒度进行切词的方式,本公开实施例中,业务方可以为各个关键字段设置切词粒度属性,以使得对该关键字段进行切词处理时,使用与该关键字段相适配的切词粒度,进而一定程度上可以提高切词效果。
可选的,关键字段的字段属性可以包括数据类型属性。相应地,本公开实施例中还可以从各个所述搜索业务中网络资源的关键字段中,确定同类关键字段;所述同类关键字段的数据类型属性的字段内容所指示的数据类型相同;基于所述数据类型对应的数据转换方式,对所述同类关键字段所具备的特定字段属性的字段内容进行格式转换。
其中,数据类型可以根据实际情况预先划分,示例的,数据类型可以包括文本类型、数值类型、日期类型,又或者可以包括整型、浮点型、字符型,等等。对于所有关键字段,可以对比各个关键字段的数据类型是否相同,以查找同类关键字段。示例的,由于关键字段“点赞数”、“关注数”以及“播放数”均为数值类型,因此,可以将这些关键字段作为同类关键字段。进一步地,由于不同数据类型的数据所具备的特点不同,因此,不同数据类型对应的数据转换方式可以不同。示例的,例如特定字段属性的字段内容为“20210201”。如果字段类型是文本,那么可以直接以“20210201”作为格式转换后的字段内容,如果字段类型是数值,那么可以将“2021万零201”作为格式转换后的字段内容,如果字段类型是日期,那么可以将“2021年2月1号”作为格式转换后的字段内容,以进行后续处理。
本公开实施例中,通过确定同类关键字段,以同类关键字段的数据类型对应的数据转换方式,对同类关键字段所具备的特定字段属性的字段内容统一进行格式转换,一定程度上可以提高转换效率,同时,通过预先对字段内容进行格式转换,可以使得字段内容更加规范,进而提高后续的处理效果。进一步地,在后续新增该数据类型的关键字段时,可以复用该数据转换方式的处理逻辑,避免业务方进行重复性代码开发,进而一定程度上可以解决由于字段数据来源以及格式多样化所带来的字段解析成本较大的问题,降低实现成本。
需要说明的是,字段属性还可以包括表征关键字段是否为数组的数组属性。本公开实施例中还可以在确定同类关键字段之前,先根据数组属性确定关键字段是否为数组。如果关键字段为数组,则可以先基于预设的数组分隔符对字段内容进行分割,然后再执行确定同类关键字段的操作,以方便后续进行处理。如果关键字段不为数组,则可以直接执行确定同类关键字段的操作。示例的,数组分隔符可以为“|”,假设字段内容表征商品的3天、7天、1个月销量:“200|500|3000”,那么可以将数组分隔符分隔开的内容作为一个独立的字段内容,进而得到200、500、3000。进一步地,本公开实施例中,还可以对字段内容进行数据清洗,例如,删除字段内容中多余的空格,以使得字段内容的格式对齐,提高数据质量。本公开实施例中,关键字段的字段属性可配置,针对字段类型、切词粒度、索引类型(即,建库类型)等,为业务方提供了灵活的配置方案,进而一定程度上可以避免业务方进行重复性代码开发,降低业务方的实现成本。在有新的搜索业务接入、或某个搜索业务新增关键字段时,仅需对应进行字段属性配置即可,进而可以降低接入成本。
可选的,关键字段的字段属性可以进一步包括字段等级属性,相应地,上述根据关键字段在各个搜索业务中对于搜索结果的影响程度,确定所述关键字段在各个所述搜索业务中的重要性等级的操作,可以具体包括:
步骤S31、对于任一所述搜索业务,从获取到的各个所述字段属性对应的字段内容中,查找所述字段等级属性对应的字段内容。
示例的,可以按照字段等级名称或者是字段等级标识等信息,查找字段等级属性对应的字段内容。示例的,字段等级属性的名称可以为“IMP”。
步骤S32、将所述字段等级属性对应的字段内容指示的重要性等级,作为所述关键字段在所述搜索业务中的重要性等级。
其中,重要性等级可以包括IMP_H1~IMP_H5这5种等级。当然,也可以包括其他等级,例如,为特殊字段用户名设置的重要性等级IMP_USERNAME、为特殊字段后验信号设置的重要性等级IMP_CLICK,等等,重要性等级可以根据实际需求设置,以便于根据业务逻辑对字段赋值打分进行的个性化处理。示例的,假设该关键字段的字段等级属性指示的重要性等级为IMP_H1,那么可以将IMP_H1作为该关键字段在该搜索业务中的重要性等级。
本公开实施例中,通过设置字段等级属性,基于字段等级属性对应的字段内容指示的重要性等级,即可便捷的确定关键字段在搜索业务中的重要性等级,进而一定程度上可以提高确定效率。
可选的,本公开实施例中关键字段在搜索业务中的重要性等级与在该搜索业务中对于搜索结果的影响程度正相关,相应地,上述根据所述关键字段在各个所述搜索业务中的重要性等级,确定所述关键字段在各个所述搜索业务中的相关性权重的步骤,可以具体包括:
步骤S41、对于任一所述搜索业务,根据所述重要性等级对应的相关性赋值方式,确定所述重要性等级对应的相关性权重的权重种类;所述权重种类与所述重要性等级相关,所述相关性赋值方式包括各个所述权重种类对应的赋值方式。
本步骤中,关键字段在搜索业务中对搜索结果的影响程度越大,关键字段在该搜索业务中的重要性等级可以越高。进一步地,如果重要性等级越高,对应的权重种类可以更多。示例的,针对最高重要性等级IMP_H1,对应的权重种类可以为两种。而对于重要性等级IMP_H2~IMP_H5,对应的权重种类可以为1种。这样,通过为越高的重要性等级设置更多的权重种类,可以使得对重要性等级更高的关键字段的分词设置的相关性权重更丰富,进而可以提高对该关键字段的分词的刻画程度。
步骤S42、对于任一所述权重种类,根据所述权重种类对应的赋值方式,为所述关键字段的分词设置所述权重种类下的相关性权重。
具体实施时,可以根据预设数据,确定重要性等级对应的权重种类。然后根据各个权重种类对应的赋值方式,计算各个权重种类下的相关性权重。
本公开实施例中,为不同的重要性等级针对性的设置所需赋值的权重种类,以及各个权重种类对应的赋值方式,进一步地,根据各个权重种类对应的赋值方式,为该关键字段的分词设置各个权重种类下的相关性权重,一定程度上可以使得最终设置的相关性权重更加符合关键字段的重要程度,进而可以提高赋值效果。
可选的,上述赋值方式中的赋值权重与重要性等级正相关,即,重要性等级越高对应的各个权重种类的赋值方式中,所采用的赋值权重越高。示例的,IMP_H1的赋值权重可以为1,IMP_H5的赋值权重可以为0.2。相应地,上述根据所述权重种类对应的赋值方式,为所述关键字段的分词设置所述权重种类下的相关性权重,可以具体包括:
步骤S51、根据所述权重种类对应的赋值方式中的赋值权重,确定所述权重种类下的相关性权重,得到目标相关性权重。
其中,同一重要性等级中,对应的各个权重种类的赋值方式中的赋值权重,可以根据实际需求设置。这些权重种类对应的赋值方式中的赋值权重可以不同。赋值方式中的赋值权重越高,计算得到的该权重种类下的相关性权重可以越高。
步骤S52、为所述分词设置所述目标相关性权重。
示例的,可以将计算得到的目标相关性权重确定为该分词的相关性权重,以实现设置。
本公开实施例中,通过设置赋值权重与重要性等级正相关,基于赋值方式中的赋值权重,确定目标相关性权重,并为分词设置目标相关性权重。这样,可以使得重要性等级越高的关键字段的分词,被设置上更高的相关性权重,而由于重要性等级越高的关键字段对搜索结果的影响程度较大,因此,一定程度上可以提高后续搜索效果。示例的,假设关键字段“视频标题”属于IMP_H1,“视频字幕”属于IMP_H3。由于IMP_H1的重要等级高于IMP_H3,因此,对于内容相同的同一分词,例如“A国”,该分词出现在“视频标题”时的相关性权重会比出现在“视频字幕”时的相关性权重更高。这样,可以使得后续进行视频搜索时,搜索结果更倾向于将视频标题命中“A国”的视频返回给用户,进而使得返回的结果更符合用户的搜索需求,提高搜索效果。
可选的,在一种实现方式中,上述权重种类可以包括用于衡量所述分词所携带的表意能力的第一权重种类。相应地,所述根据所述权重种类对应的赋值方式中的赋值权重,确定所述权重种类下的相关性权重,可以包括:
步骤S61、根据所述分词的词频-逆文档频率,为所述分词设置原始分值。
其中,分词的词频-逆文档频率(Term Frequency-Inverse Document Frequency,TF-IDF)与该分词在字段内容中出现的第一次数正相关,但同时与该分词在预设语料库中出现的第二次数负相关。示例的,可以将第一次数与第二次数的比值,确定为该分词的词频-逆文档频率。进一步地,如果某个分词在预设语料库中出现的频率较低,比较少见,但是它某个网络资源对应的字段内容中多次出现,那么一定程度上说明这个分词相对该字段内容的表意能力较强,因此,可以基于分词的词频-逆文档频率,确定设置原始分值。具体实施时,可以直接将分词的词频-逆文档频率确定为原始分值,或者,也可以对分词的词频-逆文档频率进行处理,以作为原始分值。其中,原始分值与该分词的词频-逆文档频率正相关。
步骤S62、根据所述原始分值以及所述第一权重种类对应的赋值方式中的赋值权重,确定所述第一权重种类下的相关性权重。
本步骤中,第一权重种类下的相关性权重可以与原始分值以及赋值权重正相关。示例的,可以将原始分值与赋值权重之间的乘积,确定为第一权重种类下的相关性权重。当然,也可以采用其他计算方式,只要确保计算得到的相关性权重与原始分值以及赋值权重正相关即可。
本公开实施例中,根据分词的词频-逆文档频率,为分词设置原始分值,然后,根据原始分值以及第一权重种类对应的赋值方式中的赋值权重,确定第一权重种类下的相关性权重。这样,一定程度上可以确保计算的第一权重种类下的相关性权重,能够较为准确的表征分词所携带的表意能力,进而确保后续设置的相关性权重的准确性。
进一步地,在关键字段的重要性等级为特定重要性等级的情况下,上述权重种类还包括第二权重种类,第二权重种类的下的相关性权重可以用于表征分词相对目标语义的重要程度,目标语义可以为所键字段的字段内容的语义。其中,特定重要性等级可以是根据实际需求设置的。示例的,特定重要性等级可以为最高重要性等级,例如IMP_H1。或者,也可以是最高的前两个重要性等级,例如,IMP_H1以及IMP_H2。相应地,所述根据所述权重种类对应的赋值方式中的赋值权重,确定所述权重种类下的相关性权重,还可以包括:
步骤S71、确定所述分词与所述字段内容的语义相似度;所述语义相似度与所述重要程度正相关。
本步骤中,不同分词对字段内容所表达的语义的重要程度不同,示例的,假设字段内容:“A国的张三”对应的分词为:A国、的、张三,其中,“的”所传递的语义对字段内容整体所传递的语义的贡献程度较小,“的”所传递的语义与字段内容整体所传递的语义的相似度较低,因此,“的”相对字段内容的语义的重要程度较低。而另外两个分词“A国”以及“张三”,所传递的语义与字段内容整体所传递的语义的相似度较高,因此,这两个分词相对字段内容的语义的重要程度较高。具体确定语义相似度时,可以采用语义理解的计算方法,基于向量空间模型的计算方法,等等。
步骤S72、根据所述语义相似度以及所述第二权重种类对应的赋值方式中的赋值权重,确定所述第二权重种类下的相关性权重。
本步骤中,第二权重种类下的相关性权重可以与语义相似度以及赋值权重正相关。示例的,可以将语义相似度与赋值权重之间的乘积,确定为第二权重种类下的相关性权重。当然,也可以采用其他计算方式,只要确保计算得到的相关性权重与语义相似度以及赋值权重正相关即可。示例的,假设“张三”的重要程度最高,“A国”次之,“的”的重要程度最小。那么这三个分词各自对应的第二权重种类下的相关性权重可以依次减小。
本公开实施例中,确定分词与字段内容的语义相似度,其中,语义相似度与重要程度正相关,然后,根据语义相似度以及第二权重种类对应的赋值方式中的赋值权重,确定第二权重种类下的相关性权重。这样,一定程度上可以确保计算的第二权重种类下的相关性权重,能够较为准确的表征分词相对字段内容的语义的重要程度,进而确保后续设置的相关性权重的准确性。
可选的,本发明实施例中关键字段的相关性权重可以包括关键字段的分词的相关性权重,例如,可以包括关键字段的分词在各个权重种类下的相关性权重。上述根据所述关键字段在各个所述搜索业务中的相关性权重,为所述关键字段构建索引的操作,可以具体包括:
步骤S81、对于任一所述搜索业务中的网络资源,根据所述关键字段的重要性等级以及所述网络资源的关键字段的字段内容长度,为所述网络资源设置序列标识;所述序列标识的大小与所述重要性等级以及所述字段内容长度负相关。
本步骤中,可以先确定该网络资源的关键字段的字段内容长度,示例的,可以将该网络资源所有关键字段的字段内容所包含字数,作为字段内容长度。然后根据该网络资源的关键字段的重要性等级,确定该网络资源对应的序列权重。其中,重要性等级越高,序列权重越大。接着,计算序列权重与字段内容长度之间的乘积。最后,可以根据乘积的大小,设置序列标识。其中,乘积越大,序列标识可以越小,该序列标识可以与网络资源一一对应,各个网络资源的序列标识可以从0向上依次累加。由于从0向上依次累加的序列标识更加有序且压缩效率更高,因此通过设置序列标识,一定程度上可以提高后续的处理效率。
步骤S82、根据所述分词、所述分词的相关性权重以及所述网络资源的序列标识,生成所述网络资源对应的索引数据。
本公开实施例中,可以针对每个分词,按照“分词-序列标识集合-相关性权重”的格式形成倒排索引的索引数据。示例的,倒排索引的索引数据可以表示为“分词term-{id0,id1,id2…}-相关性权重”。进一步地,网络资源对应的索引数据还可以包括正排索引的索引数据。示例的,本公开实施例中字段属性可以包括索引类型属性,生成索引数据时,可以先根据索引类型属性的字段内容指示的索引类型,确定目标索引类型。然后根据分词、分词的相关性权重以及序列标识,构建目标索引类型的索引数据。其中,索引类型属性的字段内容可以指示正排索引、倒排索引。对于索引类型为正排索引的关键字段,可以按照“序列标识-索引类型为正排索引的关键字段的字段内容集合”的格式形成索引数据。示例的,正排索引的索引数据可以表示为id0->{"标题A1”,“字幕A2”,“作者A3”},id1->{"标题B1”,“字幕B2”,“作者B3”}。进一步地,对于索引类型为倒排索引的关键字段,可以参照上述描述生成。相较于直接按照默认方式生成索引数据的方式,本公开实施例中,用户可以根据实际需求设置索引类型属性,进而可以使得生成索引数据的环节所生成的索引数据更加符合用户需求。
步骤S83、基于各个所述网络资源对应的索引数据,生成所述索引;其中,序列标识越小的网络资源对应的索引数据,在所述索引中的位置越靠前。
本步骤中,可以按照序列标识由小到大的顺序,将所有网络资源对应的索引数据形成统一的索引集合,即,索引集合中各个网络资源对应的索引数据按照重要性等级以及字段内容长度降序排列,然后,存储至预设数据库中,以供各类垂类业务检索服务使用。其中,索引集合本质可以为索引文件,索引集合的组织结构上可以压缩、预设编码方式(例如,map)等技术,以便于加速后续对索引数据的寻址过程。示例的,假设待处理的网络资源有1亿个,实际处理时,将这些待处理的网络资源拆分成100个任务,每个任务负责100万个网络资源的正排索引/倒排索引的索引数据的构建,最后,可以将所有的索引数据汇总成索引集合,并存入预设数据库。需要说明的是,本公开实施例中,还可以进一步存储其他信息,例如,相关的统计信息。
进一步地,相较于现有方式中直接根据字段名称,以默认排序方式决定索引数据在索引中位置的方式。本公开实施例中,根据关键字段的重要性等级以及网络资源的关键字段的字段内容长度,为网络资源设置序列标识,根据分词、分词的相关性权重以及网络资源的序列标识,生成网络资源对应的索引数据,最后,基于各个网络资源对应的索引数据,生成索引,序列标识越小的网络资源对应的索引数据,在索引中的位置越靠前。这样,一定程度上可以使得重要性等级越高以及字段内容长度越长的网络资源,即,搜索时命中概率的更大的网络资源,被排在更靠前的位置,进而可以提高顺次查找时的查询效率。同时,针对不同搜索业务的网络资源,采用统一的构建流程,进而一定程度上可以降低后期的运维成本。
需要说明的是,本公开实施例中的字段属性还可以包括表征是否为主键的属性,这样可以便捷的确定出搜索场景中,是否需要返回该关键字段。示例的,假设“A国”出现在序列标识为0,10,20的视频中,“B国”出现在序列标识为5,10,20,15的视频中。在实际搜索环节,假设搜索关键词为“A国B国”,那么可以求出交集:序列标识10以及20。进一步通过序列标识10以及20,查询正排索引的索引数据,以获取对应的视频的主键(例如,关键字段:视频标识),并以主键进行排序,并选择返回给用户的搜索结果。这样,业务方可以根据实际需求定制化在字段属性中配置表征是否为主键的属性,使得后续进行搜索时,可以按照为主键的关键字段的字段内容向用户返回搜索结果,进而提高搜索效果。示例的,在实际搜索场景中,搜索系统针对任何一个搜索关键词(query),返回给用户的检索结果数量往往都是有一个截断上限的。以截断上限为100为例,假设默认以固定关键字段“播放数”作为主键,在视频搜索业务下,搜索“铅笔”,搜索结果可以按播放数排序,并取前100条结果返回给用户。在商品搜索业务下,搜索“铅笔”,理论上需要以销量排序,但是由于当前主键默认为“播放数”,因此,可能会导致播放数高但是销量低的结果作为前100条返回给用户,相应的,一部分销量高但播放数低的结果就被挤出了前100条,进而出现召回的有效内容不足的问题。而本公开实施例中,通过配置字段属性即可自定义主键,进而一定程度上可以避免使用默认主键造成的召回问题,进而可以提高搜索效果。
进一步地,本公开实施例中的字段属性还可以包括其他内容,例如,表征各粒度是否使用高级语法的属性、表征是否为原始字段的属性、数组分隔符属性、截断长度属性、截断数量属性,存储格式属性,存储地址属性等等,本公开实施例对此不作限定。本公开实施例可以具体应用于垂直搜索,由于垂直搜索往往会涉及到多种搜索业务,网络资源的来源更为多样化,例如,存在自身平台的用户生产内容(UGC),专业生产内容(PGC),职业生产内容(OGC)及站外抓取内容等多种数据来源。不同搜索业务中字段差异化也较大,例如,商品搜索业务中的价格、销量等信息与视频搜索业务中的播放时长、点赞数、关注数等信息在字段内容、字段类型、存储格式、存储地址等方面都存在很大的差异性。同时,为了用户个性化、多元化的搜索需求,垂直搜索往往需要更高相关性。为此,本公开实施例提供了一种索引生成方法,通过将相关性赋值方式与关键字段的字段名称解耦,基于关键字段相对所属搜索业务的客观重要程度重新定义赋值标准,且灵活的配置关键字段的字段属性。这样,在面对多中搜索业务中网络资源的关键字段时,可以满足相关性赋值通用化同时,确保相关性赋值的精度。
图2是本公开实施例提供的一种索引生成装置的框图,如图2所示,该装置20可以包括:
第一确定模块201,被配置为根据关键字段在各个搜索业务中对于搜索结果的影响程度,确定所述关键字段在各个所述搜索业务中的重要性等级;
第二确定模块202,被配置为根据所述关键字段在各个所述搜索业务中的重要性等级,确定所述关键字段在各个所述搜索业务中的相关性权重;
构建模块203,被配置为根据所述关键字段在各个所述搜索业务中的相关性权重,为所述关键字段构建索引。
本公开实施例提供的索引生成装置,根据关键字段在各个搜索业务中对于搜索结果的影响程度,确定关键字段在各个搜索业务中的重要性等级。然后,根据关键字段在各个搜索业务中的重要性等级,确定关键字段在各个搜索业务中的相关性权重。根据关键字段在各个搜索业务中的相关性权重,为关键字段构建索引。这样,通过将相关性赋值方式与网络资源的关键字段的字段名称解耦,基于关键字段对搜索业务的实际影响程度,为各个关键字段设置重要性等级,并根据重要性等级为关键字段设置相关性权重。一定程度上可以使得设置的相关性权重,更适配于关键字段所属的搜索业务的实际情况,进而可以提高最终构建的索引的准确性,从而提高后续基于该索引进行的搜索操作的准确性。
可选的,所述装置20还包括:
第一获取模块,被配置为在所述第一确定模块根据关键字段在各个搜索业务中对于搜索结果的影响程度,确定所述关键字段在各个所述搜索业务中的重要性等级之前,对于任一所述搜索业务,获取业务方为所述搜索业务设置的字段配置文件;所述字段配置文件用于表征所述搜索业务中网络资源的关键字段所具备的字段属性;
第二获取模块,被配置为对于任一所述关键字段,根据所述字段配置文件,获取与所述字段属性一一对应的字段内容;
切词模块,被配置为对所述关键字段所具备的字段属性对应的字段内容,进行切词处理,得到所述关键字段对应的分词。
可选的,所述第二确定模块202,具体被配置为:
对于任一所述搜索业务,根据所述重要性等级对应的相关性赋值方式,确定所述重要性等级对应的相关性权重的权重种类;所述权重种类与所述重要性等级相关,所述相关性赋值方式包括各个所述权重种类对应的赋值方式;
对于任一所述权重种类,根据所述权重种类对应的赋值方式,为所述关键字段的分词设置所述权重种类下的相关性权重。
可选的,所述赋值方式中的赋值权重与所述重要性等级正相关;
所述第二确定模块202,具体还被配置为:
根据所述权重种类对应的赋值方式中的赋值权重,确定所述权重种类下的相关性权重,得到目标相关性权重;
为所述分词设置所述目标相关性权重。
可选的,所述权重种类包括用于衡量所述分词所携带的表意能力的第一权重种类;
所述第二确定模块202,具体还被配置为:
根据所述分词的词频-逆文档频率,为所述分词设置原始分值;
根据所述原始分值以及所述第一权重种类对应的赋值方式中的赋值权重,确定所述第一权重种类下的相关性权重。
可选的,在所述重要性等级为特定重要性等级的情况下,所述权重种类还包括第二权重种类,所述第二权重种类下的相关性权重用于表征所述分词相对目标语义的重要程度,所述目标语义为所述关键字段的字段内容的语义;
所述第二确定模块202,具体还被配置为:
确定所述分词与所述字段内容的语义相似度;所述语义相似度与所述重要程度正相关;
根据所述语义相似度以及所述第二权重种类对应的赋值方式中的赋值权重,确定所述第二权重种类下的相关性权重。
可选的,所述字段属性包括字段等级属性;
所述第一确定模块201,具体被配置为:
对于任一所述搜索业务,从获取到的各个所述字段属性对应的字段内容中,查找所述字段等级属性对应的字段内容;
将所述字段等级属性对应的字段内容指示的重要性等级,作为所述关键字段在所述搜索业务中的重要性等级。
可选的,所述字段属性包括切词粒度属性;
所述切词模块,具体被配置为:
按照所述切词粒度属性的字段内容所指示的切词粒度,对所述关键字段所具备的特定字段属性的字段内容进行切词处理。
可选的,所述字段属性包括数据类型属性;所述装置20还包括:
第三确定模块,被配置为在所述切词模块对所述关键字段所具备的字段属性对应的字段内容,进行切词处理之前,从各个所述搜索业务中网络资源的关键字段中,确定同类关键字段;所述同类关键字段的数据类型属性的字段内容所指示的数据类型相同;
转换模块,被配置为基于所述数据类型对应的数据转换方式,对所述同类关键字段所具备的特定字段属性的字段内容进行格式转换。
可选的,所述关键字段的相关性权重包括所述关键字段的分词的相关性权重;所述构建模块203,具体被配置为:
对于任一所述搜索业务中的网络资源,根据所述关键字段的重要性等级以及所述网络资源的关键字段的字段内容长度,为所述网络资源设置序列标识;所述序列标识的大小与所述重要性等级以及所述字段内容长度负相关;
根据所述分词、所述分词的相关性权重以及所述网络资源的序列标识,生成所述网络资源对应的索引数据;
基于各个所述网络资源对应的索引数据,生成所述索引;其中,序列标识越小的网络资源对应的索引数据,在所述索引中的位置越靠前。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
根据本公开的一个实施例,提供了一种电子设备,包括:处理器、用于存储处理器可执行指令的存储器,其中,处理器被配置为执行时实现如上述任一个实施例中的索引生成方法中的步骤。
根据本公开的一个实施例,还提供了一种存储介质,当存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如上述任一个实施例中的索引生成方法中的步骤。
根据本公开的一个实施例,还提供了一种计算机程序产品,该计算机程序产品包括可读性程序指令,可读性程序指令由电子设备的处理器执行时,使得电子设备能够执行如上述任一个实施例中的索引生成方法中的步骤。
图3是根据一示例性实施例示出的一种用于索引生成的装置的框图。例如,装置700可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
参照图3,装置700可以包括以下一个或多个组件:处理组件702,存储器704,电力组件706,多媒体组件708,音频组件710,输入/输出(I/O)接口712,传感器组件714,以及通信组件716。
处理组件702通常控制装置700的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理组件702可以包括一个或多个处理器720来执行指令,以完成上述的索引生成方法的全部或部分步骤。此外,处理组件702可以包括一个或多个模块,便于处理组件702和其他组件之间的交互。例如,处理组件702可以包括多媒体模块,以方便多媒体组件708和处理组件702之间的交互。
存储器704被配置为存储各种类型的数据以支持在装置700的操作。这些数据的示例包括用于在装置700上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器704可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电源组件706为装置700的各种组件提供电力。电源组件706可以包括电源管理系统,一个或多个电源,及其他与为装置700生成、管理和分配电力相关联的组件。
多媒体组件708包括在所述装置700和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件708包括一个前置摄像头和/或后置摄像头。当装置700处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
音频组件710被配置为输出和/或输入音频信号。例如,音频组件710包括一个麦克风(MIC),当装置700处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器704或经由通信组件716发送。在一些实施例中,音频组件710还包括一个扬声器,用于输出音频信号。
I/O接口712为处理组件702和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件714包括一个或多个传感器,用于为装置700提供各个方面的状态评估。例如,传感器组件714可以检测到装置700的打开/关闭状态,组件的相对定位,例如所述组件为装置700的显示器和小键盘,传感器组件714还可以检测装置700或装置700一个组件的位置改变,用户与装置700接触的存在或不存在,装置700方位或加速/减速和装置700的温度变化。传感器组件714可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件714还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件714还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件716被配置为便于装置700和其他设备之间有线或无线方式的通信。装置700可以接入基于通信标准的无线网络,如WiFi,运营商网络(如2G、3G、4G或5G),或它们的组合。在一个示例性实施例中,通信组件716经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信组件716还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,装置700可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述索引生成方法。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器704,上述指令可由装置700的处理器720执行以完成上述索引生成方法。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
图4是根据一示例性实施例示出的一种用于索引生成的装置的框图。例如,装置800可以被提供为一服务器。参照图4,装置800包括处理组件822,其进一步包括一个或多个处理器,以及由存储器832所代表的存储器资源,用于存储可由处理组件822的执行的指令,例如应用程序。存储器832中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理组件822被配置为执行指令,以执行上述索引生成方法。
装置800还可以包括一个电源组件826被配置为执行装置800的电源管理,一个有线或无线网络接口850被配置为将装置800连接到网络,和一个输入输出(I/O)接口858。装置800可以操作基于存储在存储器832的操作系统,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM或类似。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。
Claims (10)
1.一种索引生成方法,其特征在于,所述方法包括:
根据关键字段在各个搜索业务中对于搜索结果的影响程度,确定所述关键字段在各个所述搜索业务中的重要性等级;
根据所述关键字段在各个所述搜索业务中的重要性等级,确定所述关键字段在各个所述搜索业务中的相关性权重;
根据所述关键字段在各个所述搜索业务中的相关性权重,为所述关键字段构建索引。
2.根据权利要求1所述的方法,其特征在于,所述根据关键字段在各个搜索业务中对于搜索结果的影响程度,确定所述关键字段在各个所述搜索业务中的重要性等级之前,所述方法还包括:
对于任一所述搜索业务,获取业务方为所述搜索业务设置的字段配置文件;所述字段配置文件用于表征所述搜索业务中网络资源的关键字段所具备的字段属性;
对于任一所述关键字段,根据所述字段配置文件,获取与所述字段属性一一对应的字段内容;
对所述关键字段所具备的字段属性对应的字段内容,进行切词处理,得到所述关键字段对应的分词。
3.根据权利要求1或2所述的方法,其特征在于,所述根据所述关键字段在各个所述搜索业务中的重要性等级,确定所述关键字段在各个所述搜索业务中的相关性权重,包括:
对于任一所述搜索业务,根据所述重要性等级对应的相关性赋值方式,确定所述重要性等级对应的相关性权重的权重种类;所述权重种类与所述重要性等级相关,所述相关性赋值方式包括各个所述权重种类对应的赋值方式;
对于任一所述权重种类,根据所述权重种类对应的赋值方式,为所述关键字段的分词设置所述权重种类下的相关性权重。
4.根据权利要求3所述的方法,其特征在于,所述赋值方式中的赋值权重与所述重要性等级正相关;
所述根据所述权重种类对应的赋值方式,为所述关键字段的分词设置所述权重种类下的相关性权重,包括:
根据所述权重种类对应的赋值方式中的赋值权重,确定所述权重种类下的相关性权重,得到目标相关性权重;
为所述分词设置所述目标相关性权重。
5.根据权利要求4所述的方法,其特征在于,所述权重种类包括用于衡量所述分词所携带的表意能力的第一权重种类;
所述根据所述权重种类对应的赋值方式中的赋值权重,确定所述权重种类下的相关性权重,包括:
根据所述分词的词频-逆文档频率,为所述分词设置原始分值;
根据所述原始分值以及所述第一权重种类对应的赋值方式中的赋值权重,确定所述第一权重种类下的相关性权重。
6.根据权利要求5所述的方法,其特征在于,在所述重要性等级为特定重要性等级的情况下,所述权重种类还包括第二权重种类,所述第二权重种类下的相关性权重用于表征所述分词相对目标语义的重要程度,所述目标语义为所述关键字段的字段内容的语义;
所述根据所述权重种类对应的赋值方式中的赋值权重,确定所述权重种类下的相关性权重,还包括:
确定所述分词与所述字段内容的语义相似度;所述语义相似度与所述重要程度正相关;
根据所述语义相似度以及所述第二权重种类对应的赋值方式中的赋值权重,确定所述第二权重种类下的相关性权重。
7.一种索引生成装置,其特征在于,所述装置包括:
第一确定模块,被配置为根据关键字段在各个搜索业务中对于搜索结果的影响程度,确定所述关键字段在各个所述搜索业务中的重要性等级;
第二确定模块,被配置为根据所述关键字段在各个所述搜索业务中的重要性等级,确定所述关键字段在各个所述搜索业务中的相关性权重;
构建模块,被配置为根据所述关键字段在各个所述搜索业务中的相关性权重,为所述关键字段构建索引。
8.一种电子设备,其特征在于,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现如权利要求1至6中任一项所述的索引生成方法。
9.一种存储介质,其特征在于,当所述存储介质中的指令由电子设备的处理器执行时,使得所述电子设备执行如权利要求1至6中任一项所述的索引生成方法。
10.一种计算机程序产品,其特征在于,所述计算机程序产品包括可读性程序指令,所述可读性程序指令由电子设备的处理器执行时,使得所述电子设备执行如权利要求1至6中任一项所述的索引生成方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110643973.7A CN113468393A (zh) | 2021-06-09 | 2021-06-09 | 索引生成方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110643973.7A CN113468393A (zh) | 2021-06-09 | 2021-06-09 | 索引生成方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113468393A true CN113468393A (zh) | 2021-10-01 |
Family
ID=77869666
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110643973.7A Pending CN113468393A (zh) | 2021-06-09 | 2021-06-09 | 索引生成方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113468393A (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103218364A (zh) * | 2012-01-19 | 2013-07-24 | 阿里巴巴集团控股有限公司 | 一种搜索方法和系统 |
CN105988996A (zh) * | 2015-01-27 | 2016-10-05 | 腾讯科技(深圳)有限公司 | 一种索引文件生成方法及装置 |
CN110619036A (zh) * | 2019-08-25 | 2019-12-27 | 南京理工大学 | 基于改进if-idf算法的全文检索系统 |
CN110941765A (zh) * | 2019-12-04 | 2020-03-31 | 青梧桐有限责任公司 | 搜索意图识别方法、信息搜索方法、装置及电子设备 |
CN111444304A (zh) * | 2019-01-17 | 2020-07-24 | 北京京东尚科信息技术有限公司 | 搜索排序的方法和装置 |
-
2021
- 2021-06-09 CN CN202110643973.7A patent/CN113468393A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103218364A (zh) * | 2012-01-19 | 2013-07-24 | 阿里巴巴集团控股有限公司 | 一种搜索方法和系统 |
CN105988996A (zh) * | 2015-01-27 | 2016-10-05 | 腾讯科技(深圳)有限公司 | 一种索引文件生成方法及装置 |
CN111444304A (zh) * | 2019-01-17 | 2020-07-24 | 北京京东尚科信息技术有限公司 | 搜索排序的方法和装置 |
CN110619036A (zh) * | 2019-08-25 | 2019-12-27 | 南京理工大学 | 基于改进if-idf算法的全文检索系统 |
CN110941765A (zh) * | 2019-12-04 | 2020-03-31 | 青梧桐有限责任公司 | 搜索意图识别方法、信息搜索方法、装置及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107888981B (zh) | 音视频预加载方法、装置、设备及存储介质 | |
CN105912630B (zh) | 一种信息扩展方法及装置 | |
CN105701254B (zh) | 一种信息处理方法和装置、一种用于信息处理的装置 | |
US20170154104A1 (en) | Real-time recommendation of reference documents | |
CN105335414B (zh) | 音乐推荐方法、装置及终端 | |
CN110232137B (zh) | 一种数据处理方法、装置和电子设备 | |
CN108227950B (zh) | 一种输入方法和装置 | |
CN110019645B (zh) | 索引库构建方法、搜索方法及装置 | |
CN109144285B (zh) | 一种输入方法和装置 | |
CN111368141B (zh) | 视频标签的扩展方法、装置、计算机设备和存储介质 | |
CN111966909B (zh) | 视频推荐方法、装置、电子设备及计算机可读存储介质 | |
CN106033418B (zh) | 语音添加、播放方法及装置、图片分类、检索方法及装置 | |
CN104850238A (zh) | 对输入法所产生的候选项进行排序的方法和装置 | |
CN111324700A (zh) | 资源召回方法、装置、电子设备及计算机可读存储介质 | |
CN112784142A (zh) | 一种信息推荐方法及装置 | |
CN112291614A (zh) | 一种视频生成方法及装置 | |
CN111708943A (zh) | 一种搜索结果展示方法、装置和用于搜索结果展示的装置 | |
CN113705210A (zh) | 一种文章大纲生成方法、装置和用于生成文章大纲的装置 | |
TW202117707A (zh) | 資料處理方法、電子設備和電腦可讀儲存介質 | |
CN112541110A (zh) | 一种信息推荐方法、装置和电子设备 | |
CN106850762B (zh) | 一种消息推送方法、服务器及消息推送系统 | |
CN112328809A (zh) | 实体分类方法、装置及计算机可读存储介质 | |
CN110110046B (zh) | 同名实体推荐方法及装置 | |
CN113609380B (zh) | 标签体系更新方法、搜索方法、装置以及电子设备 | |
CN111831132A (zh) | 一种信息推荐方法、装置和电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |