CN114253976A - 基于位图评分的搜索方法和装置 - Google Patents
基于位图评分的搜索方法和装置 Download PDFInfo
- Publication number
- CN114253976A CN114253976A CN202111570577.2A CN202111570577A CN114253976A CN 114253976 A CN114253976 A CN 114253976A CN 202111570577 A CN202111570577 A CN 202111570577A CN 114253976 A CN114253976 A CN 114253976A
- Authority
- CN
- China
- Prior art keywords
- bitmap
- score
- search
- scoring
- dsl query
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 28
- 238000007781 pre-processing Methods 0.000 claims abstract description 8
- 238000004590 computer program Methods 0.000 claims description 8
- 230000002093 peripheral effect Effects 0.000 description 10
- 238000012545 processing Methods 0.000 description 10
- 238000012552 review Methods 0.000 description 10
- 230000001133 acceleration Effects 0.000 description 9
- 238000013500 data storage Methods 0.000 description 8
- 150000001412 amines Chemical class 0.000 description 7
- 230000006870 function Effects 0.000 description 7
- 238000004891 communication Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 230000003287 optical effect Effects 0.000 description 5
- 238000013459 approach Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 2
- 239000000919 ceramic Substances 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 238000012423 maintenance Methods 0.000 description 2
- 230000003190 augmentative effect Effects 0.000 description 1
- 229910002056 binary alloy Inorganic materials 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000006641 stabilisation Effects 0.000 description 1
- 238000011105 stabilization Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2228—Indexing structures
- G06F16/2237—Vectors, bitmaps or matrices
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/242—Query formulation
- G06F16/2433—Query languages
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
提供了一种基于位图评分的搜索方法和装置。所述基于位图评分的搜索方法包括:对搜索关键词进行预处理;基于预处理的搜索关键词根据预定维度来获得具有相关度评分算法的多条领域特定语言DSL查询语句;分别基于DSL查询语句来获得能够识别匹配类型的位图评分DSL查询语句;基于所述DSL查询语句和所述位图评分DSL查询语句,获得所述搜索关键词的搜索结果。
Description
技术领域
本申请涉及搜索领域,更具体地,涉及一种基于位图评分的搜索方法和装置。
背景技术
现有的主流搜索引擎(诸如,ElasticSearch、SOLR等)可通过各自的DSL(DomainSpecific Language,领域特定语言)来构造查询语句,从而进行相应的搜索。
随着搜索业务的复杂化,通常采用两种方法来满足自定义需求。第一种方法是将所有需要打分的文档作为单独的字段,在诸如ElasticSearch的搜索引擎的索引结构新增字段,并通过自定义评分函数来实现整体的综合评分。第二种方法扩展搜索引擎,从搜索引擎中提供返回不同字段匹配状态的功能;具体来说,一般较大的互联网搜索公司有自建的搜索引擎,可以通过扩展特定的功能来满足这种特殊的自定义需求,而诸如ElasticSearch的搜索引擎目前仅在调试应用程序接口(API)中提供了这种功能。
然而,上述两种方式仍搜索耗时长,并且开发和运维成本高。
发明内容
根据本发明的示例性实施例,提供了一种基于位图评分的搜索方法,包括:对搜索关键词进行预处理;基于预处理的搜索关键词根据预定维度来获得具有相关度评分算法的多条领域特定语言(DSL)查询语句;分别基于DSL查询语句来获得能够识别匹配类型的位图评分DSL查询语句;基于所述DSL查询语句和所述位图评分DSL查询语句,获得所述搜索关键词的搜索结果。
所述分别基于DSL查询语句来获得能够识别匹配类型的位图评分DSL查询语句的步骤可包括:分别将DSL查询语句中的相关度评分算法替换为基于位图编码的常量评分算法,其中,所述基于位图编码的常量评分算法为多种匹配类型分配有不同值作为评分。
所述多种匹配类型可包括内容全文匹配、内容短语匹配、标题全文匹配和标题短语匹配中的至少一个。
所述获得所述搜索关键词的搜索结果的步骤可包括:基于所述DSL查询语句来获得所述搜索关键词的第一搜索结果,并基于所述位图评分DSL查询语句来获得所述搜索关键词的第二搜索结果,其中,所述第一搜索结果包括搜索出的至少一个文档和相应的相关度评分,所述第二搜索结果包括搜索出的所述至少一个文档和相应的匹配类型评分;分别为文档的所述相关度评分和文档的所述匹配类型评分分配不同权重以获得文档的最终评分;基于搜索出的所述至少一个文档和相应的最终评分来获得所述搜索关键词的所述搜索结果。
文档的所述匹配类型评分的权重可大于文档的所述相关度评分的权重。
根据本发明的示例性实施例,提供了一种基于位图评分的搜索装置,包括:预处理单元,被配置为对搜索关键词进行预处理;查询语句获得单元,被配置为基于预处理的搜索关键词根据预定维度来获得具有相关度评分算法的多条领域特定语言(DSL)查询语句;位图评分查询语句获得单元,被配置为分别基于DSL查询语句来获得能够识别匹配类型的位图评分DSL查询语句;搜索单元,被配置为基于所述DSL查询语句和所述位图评分DSL查询语句,获得所述搜索关键词的搜索结果。
所述位图评分查询语句获得单元还可被配置为分别将DSL查询语句中的相关度评分算法替换为基于位图编码的常量评分算法,其中,所述基于位图编码的常量评分算法为多种匹配类型分配有不同值作为评分。
所述多种匹配类型可包括内容全文匹配、内容短语匹配、标题全文匹配和标题短语匹配中的至少一个。
所述搜索单元还可被配置为进行以下操作:基于所述DSL查询语句来获得所述搜索关键词的第一搜索结果,并基于所述位图评分DSL查询语句来获得所述搜索关键词的第二搜索结果,其中,所述第一搜索结果包括搜索出的至少一个文档和相应的相关度评分,所述第二搜索结果包括搜索出的所述至少一个文档和相应的匹配类型评分;分别为文档的所述相关度评分和文档的所述匹配类型评分分配不同权重以获得文档的最终评分;基于搜索出的所述至少一个文档和相应的最终评分来获得所述搜索关键词的所述搜索结果。
文档的所述匹配类型评分的权重可大于文档的所述相关度评分的权重。
根据本发明的示例性实施例,提供了一种电子设备,包括存储器和处理器,所述存储器上存储有计算机可执行指令,当所述指令由所述处理器执行时,执行前述的基于位图评分的搜索方法。
根据本发明的示例性实施例,提供了一种计算机可读存储介质,其上存储有计算机可执行指令,当执行所述指令时,执行前述的基于位图评分的搜索方法。
根据本发明的示例性实施例,提供了一种计算机程序产品,包括计算机指令,所述计算机指令被至少一个处理器执行时实现前述的基于位图评分的搜索方法。
根据本发明的示例性实施例,可在粗排召回的架构基础上额外构建位图评分DSL,并在后续精排操作中解析查询结果后获取搜索出的文档与搜索关键词的匹配类型,从而满足业务特定的精排需求以及后续不断迭代的自定义评分需求,并在诸如ElasticSearch的开源搜索引擎的情况下,可不对搜索引擎进行定制开发,节省了开发和运维成本;此外,在并行DSL执行的情况下,单次搜索总耗时不会升高,并且由于搜索引擎会对各类过滤条件有本地内存缓存,搜索引擎的实际负载并不会有大幅升高。
附图说明
通过下面结合附图进行的详细描述,本发明的上述和其它目的和特点将会变得更加清楚,其中:
图1是示出根据本发明示例性实施例的基于位图评分的搜索方法的流程图;
图2是示出根据本发明示例性实施例的获得搜索关键词的搜索结果的流程图;
图3是示出根据本发明示例性实施例的基于位图评分的搜索装置的框图;
图4是示出根据本发明示例性实施例的电子设备的框图;
图5是示出根据本发明示例性实施例的服务器的框图。
具体实施方式
现将详细参照本发明的实施例,所述实施例的示例在附图中示出,其中,相同的标号始终指示相同的部件。以下将通过参照附图来说明所述实施例,以便解释本发明。
需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
在此需要说明的是,在本公开中出现的“若干项之中的至少一项”均表示包含“该若干项中的任意一项”、“该若干项中的任意多项的组合”、“该若干项的全体”这三类并列的情况。例如“包括A和B之中的至少一个”即包括如下三种并列的情况:(1)包括A;(2)包括B;(3)包括A和B。又例如“执行步骤一和步骤二之中的至少一个”,即表示如下三种并列的情况:(1)执行步骤一;(2)执行步骤二;(3)执行步骤一和步骤二。
图1是示出根据本发明示例性实施例的基于位图评分的搜索方法的流程图。
参照图1,在步骤S110,可对搜索关键词进行预处理。
这里,仅作为示例而非限制,用户输入搜索关键字“okr review”,可首先对输入关键字进行预处理,诸如,可对输入关键字进行分词以获得“okr”、“review”,并可基于近义词词表由“review”扩充出“examine”等;此外,由于在后续精排步骤中匹配词长度会影响最终评分,故为了避免英文字符长度比中文字符长度长的问题,还可将搜索关键字的英文字符长度(诸如,“okr review”的英文字符长度为10)除以特定系数(仅作为示例而非限制,3)。
在步骤S120,可基于预处理的搜索关键词根据预定维度来获得具有相关度评分算法的多条DSL查询语句。这里,DSL查询语句可用于获得搜索出的文档并基于相关度评分算法来获得搜索出的文档的相应的评分,并且这里的DSL查询语句可作为粗排DSL查询语句。此外,仅作为示例而非限制,所述预定维度可包括文档类型维度、浏览记录维度等。
更具体地,仅作为示例而非限制,以文档类型维度作为示例,可根据文档类型维度来获得多条DSL查询语句,诸如,如果文档类型包括文件类型、表格类型和其它类型,则可生成三条DSL查询语句,分别用于从文件类型的文档中获得包含“okr”、“review”、“examine”的文件文档,并当文件文档包含“okr review”或“okr examine”时可对该文档附加额外评分;从表格类型的文档中获得包含“okr”、“review”、“examine”的表格文档,并当表格文档包含“okr review”或“okr examine”时可对该文档附加额外评分;从其它类型的文档中获得包含“okr”、“review”、“examine”的其它文档,并当其它文档包含“okr review”或“okrexamine”时可对该文档附加额外评分。此外,仅作为示例而非限制,上述示例的三条DSL查询语句中的评分函数可使用ElasticSearch默认的相关度评分算法。
在步骤S130,可分别基于DSL查询语句来获得能够识别匹配类型的位图评分DSL查询语句。
更具体地,可分别将DSL查询语句中的相关度评分算法替换为基于位图编码的常量评分算法来获得能够识别匹配类型的一条位图评分DSL查询语句,从而可获得能够识别匹配类型的多条位图评分DSL查询语句,其中,基于位图编码的常量评分算法为多种匹配类型分配有不同值作为评分。这里,仅作为示例而非限制,所述多种匹配类型可包括内容全文匹配、内容短语匹配、标题全文匹配和标题短语匹配中的至少一个。
下表1示出多种匹配类型及其相应值,不同值之间可以相互组合。
[表1]
二进制 | 十进制 | 含义 |
0001 | 1 | 内容全文匹配 |
0010 | 2 | 内容短语匹配 |
0100 | 4 | 标题全文匹配 |
1000 | 8 | 标题短语匹配 |
参照表1,通过位图评分DSL查询语句,当搜索出的文档的标题与搜索关键词短语匹配时,使用常量评分算法使该文档评分十进制为8;当搜索出的文档的标题与搜索关键词全文匹配时,使用常量评分算法使该文档评分十进制为4;当搜索出的文档的内容与搜索关键词短语匹配时,使用常量评分算法使该文档评分十进制为2;当搜索出的文档的内容与搜索关键词全文匹配时,使用常量评分算法使该文档评分十进制为1。此外,文档的上述评分可以相互组合,诸如,如果某个文档的位图评分DSL查询结果评分十进制为11(二进制为1011),则可以确定该文档包含标题短语匹配、内容短语匹配和内容全文匹配。应该理解,上表1中列出的值仅为示例而非限制,本领域技术人员可根据实际需要进行修改。
在步骤S140,可基于所述DSL查询语句和所述位图评分DSL查询语句,获得所述搜索关键词的搜索结果。
下面将参照图2更详细地描述步骤S140。
参照图2,在步骤S210,可基于DSL查询语句来获得搜索关键词的第一搜索结果,并基于位图评分DSL查询语句来获得搜索关键词的第二搜索结果,其中,第一搜索结果包括搜索出的至少一个文档和相应的相关度评分,第二搜索结果包括搜索出的所述至少一个文档和相应的匹配类型评分。这里,可由诸如ElasticSearch的搜索引擎使用诸如多线程并行执行多条DSL查询语句和多条位图评分DSL查询语句,并可在预定最大超时时间段内获得查询结果,以提高搜索速度。
在步骤S220,可分别为文档的相关度评分和文档的匹配类型评分分配不同权重以获得文档的最终评分。这里,在获得文档的最终评分时,除了文档的相关度评分和文档的匹配类型评分之外,还可采用其它搜索相关数据一起进行加权,诸如,可基于搜索出的文档的文档编号和用户编号等来获取文档的浏览总次数、浏览总人数、最近浏览时间、点赞、收藏、评论、引用等作为所述其它搜索相关数据,并同样对所述其它搜索相关数据分配权重,并与文档的相关度评分和文档的匹配类型评分一起进行加权。此外,仅作为示例而非限制,可按照业务定义的重打分策略来对上述数据进行加权计算以获得文档的最终评分。此外,仅作为示例而非限制,文档的匹配类型评分的权重可大于文档的相关度评分的权重,或者可直接对文档的匹配类型评分分配高优先级来计算文档的最终评分。
在步骤S230,可基于搜索出的所述至少一个文档和相应的最终评分来获得所述搜索关键词的搜索结果,其中,所述搜索结果可以是按照最终评分排序的所述至少一个文档。
此外,在获得搜索结果之后,还可保存搜索结果,生成唯一页面编号,并显示第一页的搜索结果。如果用户请求的页码大于第一页并且请求参数中包括页面编号,则可直接基于页面编号和页码来像是相应的页面。此外,可响应于用户请求来组装不同的展示字段并向用户返回搜索结果。
需要说明的是,本公开所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等),均为经用户授权或者经过各方充分授权的信息。
图3是示出根据本发明示例性实施例的基于位图评分的搜索装置的框图。
参照图3,根据本发明示例性实施例的基于位图评分的搜索装置300可包括预处理单元310、查询语句获得单元320、位图评分查询语句获得单元330和搜索单元340。
预处理单元310可被配置为对搜索关键词进行预处理。更具体地,预处理单元310还可被配置为对所述搜索关键词进行分词和扩充。
查询语句获得单元320可被配置为基于预处理的搜索关键词根据预定维度来获得具有相关度评分算法的多条领域特定语言DSL查询语句。
位图评分查询语句获得单元330可被配置为分别基于DSL查询语句来获得能够识别匹配类型的位图评分DSL查询语句。更具体地,位图评分查询语句获得单元330还可被配置为分别将DSL查询语句中的相关度评分算法替换为基于位图编码的常量评分算法,其中,基于位图编码的常量评分算法为多种匹配类型分配有不同值作为评分。
搜索单元340可被配置为基于所述DSL查询语句和所述位图评分DSL查询语句,获得所述搜索关键词的搜索结果。更具体地,搜索单元340还可被配置为进行以下操作:基于所述DSL查询语句来获得所述搜索关键词的第一搜索结果,并基于所述位图评分DSL查询语句来获得所述搜索关键词的第二搜索结果,其中,第一搜索结果包括搜索出的至少一个文档和相应的相关度评分,第二搜索结果包括搜索出的所述至少一个文档和相应的匹配类型评分;分别为文档的相关度评分和文档的匹配类型评分分配不同权重以获得文档的最终评分;基于搜索出的所述至少一个文档和相应的最终评分来获得所述搜索关键词的搜索结果。
图4是示出根据本发明示例性实施例的电子设备的框图。该电子设备700例如可以是:智能手机、平板电脑、MP4(Moving Picture Experts Group Audio Layer IV,动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。电子设备400还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。
通常,电子设备400包括有:处理器401和存储器402。
处理器401可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器401可以采用DSP(Digital Signal Processing,数字信号处理)、FPGA(FieldProgrammable Gate Array,现场可编程门阵列)、PLA(Programmable Logic Array,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器401也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称CPU(Central ProcessingUnit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器401可以在集成有GPU(Graphics Processing Unit,图像处理器),GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器401还可以包括AI(Artificial Intelligence,人工智能)处理器,该AI处理器用于处理有关机器学习的计算操作。
存储器402可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器402还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中,存储器402中的非暂态的计算机可读存储介质用于存储至少一个指令,该至少一个指令用于被处理器401所执行以实现如图1所示的方法实施例提供的基于位图评分的搜索方法。
在一些实施例中,电子设备400还可选包括有:外围设备接口403和至少一个外围设备。处理器401、存储器402和外围设备接口403之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口403相连。具体地,外围设备包括:射频电路404、触摸显示屏405、摄像头406、音频电路407、定位组件408和电源409中的至少一种。
外围设备接口403可被用于将I/O(Input/Output,输入/输出)相关的至少一个外围设备连接到处理器401和存储器402。在一些实施例中,处理器401、存储器402和外围设备接口403被集成在同一芯片或电路板上;在一些其他实施例中,处理器401、存储器402和外围设备接口403中的任意一个或两个可以在单独的芯片或电路板上实现,本实施例对此不加以限定。
射频电路404用于接收和发射RF(Radio Frequency,射频)信号,也称电磁信号。射频电路404通过电磁信号与通信网络以及其他通信设备进行通信。射频电路404将电信号转换为电磁信号进行发送,或者,将接收到的电磁信号转换为电信号。可选地,射频电路404包括:天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路404可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于:城域网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity,无线保真)网络。在一些实施例中,射频电路404还可以包括NFC(Near Field Communication,近距离无线通信)有关的电路,本公开对此不加以限定。
显示屏405用于显示UI(User Interface,用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏405是触摸显示屏时,显示屏405还具有采集在显示屏405的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器401进行处理。此时,显示屏405还可以用于提供虚拟按钮和/或虚拟键盘,也称软按钮和/或软键盘。在一些实施例中,显示屏405可以为一个,设置在电子设备400的前面板;在另一些实施例中,显示屏405可以为至少两个,分别设置在电子设备400的不同表面或呈折叠设计;在再一些实施例中,显示屏405可以是柔性显示屏,设置在电子设备400的弯曲表面上或折叠面上。甚至,显示屏405还可以设置成非矩形的不规则图形,也即异形屏。显示屏405可以采用LCD(Liquid Crystal Display,液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。
摄像头组件406用于采集图像或视频。可选地,摄像头组件406包括前置摄像头和后置摄像头。通常,前置摄像头设置在终端的前面板,后置摄像头设置在终端的背面。在一些实施例中,后置摄像头为至少两个,分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种,以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality,虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中,摄像头组件406还可以包括闪光灯。闪光灯可以是单色温闪光灯,也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合,可以用于不同色温下的光线补偿。
音频电路407可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波,并将声波转换为电信号输入至处理器401进行处理,或者输入至射频电路404以实现语音通信。出于立体声采集或降噪的目的,麦克风可以为多个,分别设置在电子设备400的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器401或射频电路404的电信号转换为声波。扬声器可以是传统的薄膜扬声器,也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时,不仅可以将电信号转换为人类可听见的声波,也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中,音频电路407还可以包括耳机插孔。
定位组件408用于定位电子设备400的当前地理位置,以实现导航或LBS(LocationBased Service,基于位置的服务)。定位组件408可以是基于美国的GPS(GlobalPositioning System,全球定位系统)、中国的北斗系统、俄罗斯的格雷纳斯系统或欧盟的伽利略系统的定位组件。
电源409用于为电子设备400中的各个组件进行供电。电源409可以是交流电、直流电、一次性电池或可充电电池。当电源409包括可充电电池时,该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。
在一些实施例中,电子设备400还包括有一个或多个传感器410。该一个或多个传感器410包括但不限于:加速度传感器411、陀螺仪传感器412、压力传感器413、指纹传感器414、光学传感器415以及接近传感器416。
加速度传感器411可以检测以电子设备400建立的坐标系的三个坐标轴上的加速度大小。比如,加速度传感器411可以用于检测重力加速度在三个坐标轴上的分量。处理器401可以根据加速度传感器411采集的重力加速度信号,控制触摸显示屏405以横向视图或纵向视图进行用户界面的显示。加速度传感器411还可以用于游戏或者用户的运动数据的采集。
陀螺仪传感器412可以检测电子设备400的机体方向及转动角度,陀螺仪传感器412可以与加速度传感器411协同采集用户对电子设备400的3D动作。处理器401根据陀螺仪传感器412采集的数据,可以实现如下功能:动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。
压力传感器413可以设置在电子设备400的侧边框和/或触摸显示屏405的下层。当压力传感器413设置在电子设备400的侧边框时,可以检测用户对电子设备400的握持信号,由处理器401根据压力传感器413采集的握持信号进行左右手识别或快捷操作。当压力传感器413设置在触摸显示屏405的下层时,由处理器401根据用户对触摸显示屏405的压力操作,实现对UI上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。
指纹传感器414用于采集用户的指纹,由处理器401根据指纹传感器414采集到的指纹识别用户的身份,或者,由指纹传感器414根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时,由处理器401授权该用户执行相关的敏感操作,该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器414可以被设置电子设备400的正面、背面或侧面。当电子设备400上设置有物理按键或厂商Logo时,指纹传感器414可以与物理按键或厂商Logo集成在一起。
光学传感器415用于采集环境光强度。在一个实施例中,处理器401可以根据光学传感器415采集的环境光强度,控制触摸显示屏405的显示亮度。具体地,当环境光强度较高时,调高触摸显示屏405的显示亮度;当环境光强度较低时,调低触摸显示屏405的显示亮度。在另一个实施例中,处理器401还可以根据光学传感器415采集的环境光强度,动态调整摄像头组件406的拍摄参数。
接近传感器416,也称距离传感器,通常设置在电子设备400的前面板。接近传感器416用于采集用户与电子设备400的正面之间的距离。在一个实施例中,当接近传感器416检测到用户与电子设备400的正面之间的距离逐渐变小时,由处理器401控制触摸显示屏405从亮屏状态切换为息屏状态;当接近传感器416检测到用户与电子设备400的正面之间的距离逐渐变大时,由处理器401控制触摸显示屏405从息屏状态切换为亮屏状态。
本领域技术人员可以理解,图4中示出的结构并不构成对电子设备400的限定,可以包括比图示更多或更少的组件,或者组合某些组件,或者采用不同的组件布置。
图5是示出根据本发明示例性实施例的服务器的示图。参照图5,服务器500包括一个或多个处理处理器510以及存储器520。存储器520可以包括用于执行如上参照图1和图2所述的方法的一个或一个以上的程序。服务器500还可以包括一个电源组件530被配置为执行服务器500的电源管理,一个有线或无线网络接口540被配置为将服务器500连接到网络,和一个输入输出(I/O)接口550。服务器500可以操作基于存储在存储器520的操作系统,例如Windows ServerTM、Mac OS XTM、UnixTM、LinuxTM、FreeBSDTM或类似。
根据本发明的示例性实施例,还可提供一种计算机可读存储介质,其中,当计算机可读存储介质中的指令被至少一个处理器运行时,促使至少一个处理器执行根据本发明示例性实施例的基于位图评分的搜索方法。这里的计算机可读存储介质的示例包括:只读存储器(ROM)、随机存取可编程只读存储器(PROM)、电可擦除可编程只读存储器(EEPROM)、随机存取存储器(RAM)、动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM)、闪存、非易失性存储器、CD-ROM、CD-R、CD+R、CD-RW、CD+RW、DVD-ROM、DVD-R、DVD+R、DVD-RW、DVD+RW、DVD-RAM、BD-ROM、BD-R、BD-R LTH、BD-RE、蓝光或光盘存储器、硬盘驱动器(HDD)、固态硬盘(SSD)、卡式存储器(诸如,多媒体卡、安全数字(SD)卡或极速数字(XD)卡)、磁带、软盘、磁光数据存储装置、光学数据存储装置、硬盘、固态盘以及任何其他装置,所述任何其他装置被配置为以非暂时性方式存储计算机程序以及任何相关联的数据、数据文件和数据结构并将所述计算机程序以及任何相关联的数据、数据文件和数据结构提供给处理器或计算机使得处理器或计算机能执行所述计算机程序。上述计算机可读存储介质中的计算机程序可在诸如客户端、主机、代理装置、服务器等计算机设备中部署的环境中运行,此外,在一个示例中,计算机程序以及任何相关联的数据、数据文件和数据结构分布在联网的计算机系统上,使得计算机程序以及任何相关联的数据、数据文件和数据结构通过一个或多个处理器或计算机以分布式方式存储、访问和执行。
根据本公开的示例性实施例,还可提供一种计算机程序产品,包括计算机指令,该计算机指令可由至少一个处理器执行以完成根据本发明示例性实施例的基于位图评分的搜索方法。
根据本发明的示例性实施例,可在粗排召回的架构基础上额外构建位图评分DSL,并在后续精排操作中解析查询结果后获取搜索出的文档与搜索关键词的匹配类型,从而满足业务特定的精排需求以及后续不断迭代的自定义评分需求,并在诸如ElasticSearch的开源搜索引擎的情况下,可不对搜索引擎进行定制开发,节省了开发和运维成本;此外,在并行DSL执行的情况下,单次搜索总耗时不会升高,并且由于搜索引擎会对各类过滤条件有本地内存缓存,搜索引擎的实际负载并不会有大幅升高。
虽然已经参照特定示例性实施例示出和描述了本发明,但是本领域的技术人员将理解,在不脱离范围由权利要求及其等同物限定的本发明的精神和范围的情况下可作出形式和细节上的各种改变。
Claims (10)
1.一种基于位图评分的搜索方法,包括:
对搜索关键词进行预处理;
基于预处理的搜索关键词根据预定维度来获得具有相关度评分算法的多条领域特定语言DSL查询语句;
分别基于DSL查询语句来获得能够识别匹配类型的位图评分DSL查询语句;
基于所述DSL查询语句和所述位图评分DSL查询语句,获得所述搜索关键词的搜索结果。
2.如权利要求1所述的基于位图评分的搜索方法,其特征在于,所述分别基于DSL查询语句来获得能够识别匹配类型的位图评分DSL查询语句的步骤包括:
分别将DSL查询语句中的相关度评分算法替换为基于位图编码的常量评分算法,
其中,所述基于位图编码的常量评分算法为多种匹配类型分配有不同值作为评分。
3.如权利要求2所述的基于位图评分的搜索方法,其特征在于,所述多种匹配类型包括内容全文匹配、内容短语匹配、标题全文匹配和标题短语匹配中的至少一个。
4.如权利要求2所述的基于位图评分的搜索方法,其特征在于,所述获得所述搜索关键词的搜索结果的步骤包括:
基于所述DSL查询语句来获得所述搜索关键词的第一搜索结果,并基于所述位图评分DSL查询语句来获得所述搜索关键词的第二搜索结果,其中,所述第一搜索结果包括搜索出的至少一个文档和相应的相关度评分,所述第二搜索结果包括搜索出的所述至少一个文档和相应的匹配类型评分;
分别为文档的所述相关度评分和文档的所述匹配类型评分分配不同权重以获得文档的最终评分;
基于搜索出的所述至少一个文档和相应的最终评分来获得所述搜索关键词的所述搜索结果。
5.如权利要求4所述的基于位图评分的搜索方法,其特征在于,文档的所述匹配类型评分的权重大于文档的所述相关度评分的权重。
6.一种基于位图评分的搜索装置,包括:
预处理单元,被配置为对搜索关键词进行预处理;
查询语句获得单元,被配置为基于预处理的搜索关键词根据预定维度来获得具有相关度评分算法的多条领域特定语言DSL查询语句;
位图评分查询语句获得单元,被配置为分别基于DSL查询语句来获得能够识别匹配类型的位图评分DSL查询语句;
搜索单元,被配置为基于所述DSL查询语句和所述位图评分DSL查询语句,获得所述搜索关键词的搜索结果。
7.如权利要求6所述的基于位图评分的搜索方法,其特征在于,所述位图评分查询语句获得单元还被配置为分别将DSL查询语句中的相关度评分算法替换为基于位图编码的常量评分算法,
其中,所述基于位图编码的常量评分算法为多种匹配类型分配有不同值作为评分。
8.一种电子设备,包括存储器和处理器,所述存储器上存储有计算机可执行指令,当所述指令由所述处理器执行时,执行前述权利要求1~5中任一项所述的基于位图评分的搜索方法。
9.一种计算机可读存储介质,其上存储有计算机可执行指令,当执行所述指令时,执行前述权利要求1~5中任一项所述的基于位图评分的搜索方法。
10.一种计算机程序产品,包括计算机指令,所述计算机指令被至少一个处理器执行时实现如权利要求1~5中任一项所述的基于位图评分的搜索方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111570577.2A CN114253976A (zh) | 2021-12-21 | 2021-12-21 | 基于位图评分的搜索方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111570577.2A CN114253976A (zh) | 2021-12-21 | 2021-12-21 | 基于位图评分的搜索方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114253976A true CN114253976A (zh) | 2022-03-29 |
Family
ID=80793668
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111570577.2A Pending CN114253976A (zh) | 2021-12-21 | 2021-12-21 | 基于位图评分的搜索方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114253976A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114969451A (zh) * | 2022-04-27 | 2022-08-30 | 北京达佳互联信息技术有限公司 | 关联度查询方法、装置、设备及存储介质 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106030569A (zh) * | 2013-12-06 | 2016-10-12 | 奎克西公司 | 重构搜索查询的技术 |
CN106528797A (zh) * | 2016-11-10 | 2017-03-22 | 上海轻维软件有限公司 | 基于Elasticsearch的DSL查询方法 |
CN109376270A (zh) * | 2018-09-26 | 2019-02-22 | 青岛聚看云科技有限公司 | 一种数据检索方法和装置 |
CN111046060A (zh) * | 2019-12-11 | 2020-04-21 | 杭州安恒信息技术股份有限公司 | 一种基于Elasticsearch的数据检索方法、装置、设备、介质 |
EP3805943A1 (en) * | 2019-10-10 | 2021-04-14 | Palantir Technologies Inc. | Data retrieval system and method |
CN113486156A (zh) * | 2021-07-30 | 2021-10-08 | 北京鼎普科技股份有限公司 | 一种基于es的关联文档检索方法 |
CN113495984A (zh) * | 2020-03-20 | 2021-10-12 | 华为技术有限公司 | 一种语句检索方法以及相关装置 |
US20210342339A1 (en) * | 2020-04-30 | 2021-11-04 | Forcepoint, LLC | Method for Defining and Computing Analytic Features |
CN113626470A (zh) * | 2021-08-09 | 2021-11-09 | 杭州安恒信息技术股份有限公司 | 一种ElasticSearch查询方法、装置、设备及可读存储介质 |
-
2021
- 2021-12-21 CN CN202111570577.2A patent/CN114253976A/zh active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106030569A (zh) * | 2013-12-06 | 2016-10-12 | 奎克西公司 | 重构搜索查询的技术 |
CN106528797A (zh) * | 2016-11-10 | 2017-03-22 | 上海轻维软件有限公司 | 基于Elasticsearch的DSL查询方法 |
CN109376270A (zh) * | 2018-09-26 | 2019-02-22 | 青岛聚看云科技有限公司 | 一种数据检索方法和装置 |
EP3805943A1 (en) * | 2019-10-10 | 2021-04-14 | Palantir Technologies Inc. | Data retrieval system and method |
CN111046060A (zh) * | 2019-12-11 | 2020-04-21 | 杭州安恒信息技术股份有限公司 | 一种基于Elasticsearch的数据检索方法、装置、设备、介质 |
CN113495984A (zh) * | 2020-03-20 | 2021-10-12 | 华为技术有限公司 | 一种语句检索方法以及相关装置 |
US20210342339A1 (en) * | 2020-04-30 | 2021-11-04 | Forcepoint, LLC | Method for Defining and Computing Analytic Features |
CN113486156A (zh) * | 2021-07-30 | 2021-10-08 | 北京鼎普科技股份有限公司 | 一种基于es的关联文档检索方法 |
CN113626470A (zh) * | 2021-08-09 | 2021-11-09 | 杭州安恒信息技术股份有限公司 | 一种ElasticSearch查询方法、装置、设备及可读存储介质 |
Non-Patent Citations (4)
Title |
---|
XUE TIAN等: "Research and Implementation of Campus Network Search Engine Based on Scrapy Framework and Elasticsearch", 《2020 CHINESE CONTROL AND DECISION CONFERENCE (CCDC)》, 11 August 2020 (2020-08-11), pages 4193 - 4198, XP033809570, DOI: 10.1109/CCDC49329.2020.9164582 * |
携程技术 孙咸伟: "ElasticSearch相关性打分机制", Retrieved from the Internet <URL:https://zhuanlan.zhihu.com/p/27951938> * |
阮士杰: "大数据环境下高效检索算法的研究和实现", 《中国优秀硕士学位论文全文数据库 信息科技辑》, 15 March 2018 (2018-03-15), pages 138 - 2334 * |
陈彦妤: "健康保险智能问答问句理解和答案检索的研究与实现", 《中国优秀硕士学位论文全文数据库 信息科技辑》, 15 June 2019 (2019-06-15), pages 138 - 677 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114969451A (zh) * | 2022-04-27 | 2022-08-30 | 北京达佳互联信息技术有限公司 | 关联度查询方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11250090B2 (en) | Recommended content display method, device, and system | |
CN108763582B (zh) | 文件搜索方法、装置、终端及存储介质 | |
CN109918669B (zh) | 实体确定方法、装置及存储介质 | |
CN108717432B (zh) | 资源查询方法及装置 | |
WO2022057435A1 (zh) | 基于搜索的问答方法及存储介质 | |
CN110414232B (zh) | 恶意程序预警方法、装置、计算机设备及存储介质 | |
WO2022100221A1 (zh) | 检索处理方法、装置及存储介质 | |
CN111339737B (zh) | 实体链接方法、装置、设备及存储介质 | |
CN109902089B (zh) | 利用异构索引的查询方法、装置、电子设备及介质 | |
CN109917988B (zh) | 选中内容显示方法、装置、终端及计算机可读存储介质 | |
CN113987326B (zh) | 资源推荐方法、装置、计算机设备及介质 | |
CN109189978B (zh) | 基于语音消息进行音频搜索的方法、装置及存储介质 | |
CN108416026B (zh) | 索引生成方法、内容搜索方法、装置及设备 | |
WO2021218634A1 (zh) | 内容推送 | |
CN114253976A (zh) | 基于位图评分的搜索方法和装置 | |
CN110149408B (zh) | 业务数据显示方法、装置、终端及服务器 | |
CN112764600A (zh) | 资源处理方法、装置、存储介质及计算机设备 | |
CN114741602A (zh) | 对象推荐方法、目标模型的训练方法、装置及设备 | |
CN112560472B (zh) | 一种识别敏感信息的方法及装置 | |
KR102488359B1 (ko) | 어휘 데이터베이스를 처리하는 방법 및 장치 | |
CN114282494A (zh) | 信息显示方法、装置、电子设备及存储介质 | |
CN110928867B (zh) | 一种数据融合的方法及装置 | |
CN113051485A (zh) | 群组搜索方法、装置、终端及存储介质 | |
CN111597823A (zh) | 中心词提取方法、装置、设备及存储介质 | |
CN111368057B (zh) | 词组查询方法、装置、计算机设备以及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |