CN116776869A - 文档评分方法和电子设备 - Google Patents
文档评分方法和电子设备 Download PDFInfo
- Publication number
- CN116776869A CN116776869A CN202310799079.8A CN202310799079A CN116776869A CN 116776869 A CN116776869 A CN 116776869A CN 202310799079 A CN202310799079 A CN 202310799079A CN 116776869 A CN116776869 A CN 116776869A
- Authority
- CN
- China
- Prior art keywords
- matching
- document
- field
- score
- understanding
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000013077 scoring method Methods 0.000 title abstract description 9
- 238000000034 method Methods 0.000 claims abstract description 50
- 230000011218 segmentation Effects 0.000 claims description 34
- 230000004044 response Effects 0.000 claims description 8
- 238000004590 computer program Methods 0.000 claims description 7
- 238000004422 calculation algorithm Methods 0.000 description 14
- 230000008569 process Effects 0.000 description 12
- 238000012937 correction Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 8
- 238000012545 processing Methods 0.000 description 7
- 238000004891 communication Methods 0.000 description 6
- 238000007726 management method Methods 0.000 description 5
- 238000010295 mobile communication Methods 0.000 description 4
- 238000013459 approach Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 238000012896 Statistical algorithm Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 210000000988 bone and bone Anatomy 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供了文档评分方法和电子设备。在该方法中,电子设备可以基于查询内容按照多路匹配召回策略进行搜索,得到搜索结果。其中,一路匹配召回即可以看作一种匹配召回方式,且各匹配召回方式均对应一个权重。电子设备可以基于不同的匹配召回方式得到匹配文档。对于被至少一种匹配召回方式所召回的同一匹配文档,电子设备可以基于各匹配召回方式对应的权重计算该匹配文档的得分。实施本申请提供的技术方案,考虑了不同匹配召回方式对文档得分的影响。在计算匹配文档的得分时还考虑了匹配值在匹配文档中的位置因子以及长度占比因子,增加了匹配文档得分的公平性。
Description
技术领域
本申请涉及终端技术领域,尤其涉及文档评分方法和电子设备。
背景技术
电子设备中的内容(可搜索内容)随着使用时间的推移会逐渐增加。为了帮助用户快速找到电子设备的内容,电子设备提供了本地搜索功能。该本地搜索功能可以实现在用户输入查询内容之后,基于繁杂的内容进行搜索,进而确定与查询内容匹配的内容,并返回搜索结果。
通常来说,电子设备中的不同内容表示在不同文档中,在确定与查询内容匹配的内容时,电子设备可以返回与该内容关联的文档作为搜索结果。但是返回的文档通常不止一个而是多个,如何对文档进行评分以得到返回的各文档与查询内容的相关性是值得讨论的。
发明内容
本申请提供了一种文档评分方法和电子设备,基于查询内容按照多路匹配召回策略进行搜索确定与查询内容相关的文档时,计算文档的得分时会考虑每一个匹配召回方式的重要性,使得文档评分更客观。
第一方面,本申请提供了一种文档评分方法,该方法包括:电子设备基于N种理解方式分别对查询内容做检索理解,得到N个理解结果;该电子设备确定出该理解结果的匹配文档,该匹配文档与该N个理解结果中的一个或多个理解结果匹配;该电子设备确定该匹配文档的得分;该匹配文档的得分由该匹配文档分别在C个理解方式下的子得分以及该匹配文档在该C个理解方式下的得分占比确定的;该C个理解方式是该匹配文档匹配的C个理解结果所采用的理解方式;C是正整数,C大小与等于1;该匹配文档的得分越高,则该匹配文档与该C个理解结果的匹配度越高;其中,该N个理解结果中有一个理解结果为该查询内容,该N为大于等于2的整数。
上述实施例中,理解方式下的得分占比可以看作说明书中各匹配召回方式对应的权重,一种理解方式即对应一种匹配召回方式,可以参考对表1的描述。电子设备可以基于查询内容按照多路匹配召回策略进行搜索,得到搜索结果。其中,一路匹配召回即可以看作一种匹配召回方式,且各匹配召回方式均对应一个权重。电子设备可以基于不同的匹配召回方式得到匹配文档。对于被至少一种匹配召回方式所召回的同一匹配文档,电子设备可以基于各匹配召回方式对应的权重计算该匹配文档的得分。一个召回方式对应的权重指示了该召回方式在文档评分中的重要性。一个召回方式对应的权重越高,则表示该召回方式在文档评分中的重要性越高。实施本申请提供的技术方案,考虑了不同匹配召回方式对文档得分的影响。
结合第一方面,在一些实施例中,该匹配文档仅匹配一个理解结果,该匹配文档的得分等于该匹配文档在仅匹配的一个理解结果采用的理解方式下的子得分、得分占比的乘积;在该C大于等于2的情况下,该匹配文档的得分由该匹配文档分别在该C个理解结果各自所采用的理解方式下的子得分、得分占比相乘并求和得到的。
结合第一方面,在一些实施例中,该匹配文档中包括Z个匹配字段;该Z个匹配字段为该匹配文档与该C个理解结果中一个理解结果匹配时确定的字段;
该匹配文档在C个理解方式中一个理解方式下的子得分是由该Z个匹配字段各自的字段得分确定的;该Z个匹配字段中一个字段的字段得分越高,则该匹配文档中该一个字段与该一个理解方式得到的理解结果匹配度越高。
结合第一方面,在一些实施例中,该匹配文档与该一个理解方式对应的理解结果匹配时仅确定一个匹配字段,该匹配文档在该一个理解方式下的子得分等于该一个匹配字段的字段得分;在Z大于等于2的情况下,该匹配文档在该一个理解方式下的子得分等于该Z个匹配字段的字段得分之和。
结合第一方面,在一些实施例中,在该Z等于1的情况下,该匹配文档与该一个理解方式对应的理解结果匹配时仅确定一个匹配字段,该匹配文档在该一个理解方式下的子得分等于该一个匹配字段的字段得分与匹配字段的得分占比相乘;在Z大于等于2的情况下,该匹配文档在该一个理解方式下的子得分由该Z个匹配字段的字段得分、匹配字段的得分占比相乘并求和得到的。
上述实施例中,匹配字段的得分占比可以看作匹配字段的字段权重。上述实施例中,除了考虑各匹配召回方式对应的权重以外,还考虑了匹配字段的权重(字段权重),使得匹配文档的得分可以基于重要字段进行调整。
结合第一方面,在一些实施例中,在该C个理解结果中一个理解结果为一个待匹配对象的情况下,该Z个匹配字段中一个匹配字段的字段得分是基于该一个匹配字段与该一个待匹配对象的匹配度确定的;该一个匹配值与该一个待匹配对象相同。
结合第一方面,在一些实施例中,在该C个理解结果中一个理解结果中包括X个待匹配对象的情况下,该Z个匹配字段中一个匹配字段的字段得分是基于该一个匹配字段与所述X个待匹配对象中的部分或者全部待匹配对象的匹配度确定的;该X为整数,X大于或者等于2。
结合第一方面,在一些实施例中,该方法还包括:响应于针对搜索框的操作,该电子设备获取该搜索框中的内容作为该查询内容。
结合第一方面,在一些实施例中,该N种理解方式中至少包括取原查询内容,还包括对查询内容进行分词、对查询内容进行纠错、对查询内容取同音字、对查询内容取拼音首字母、对查询内容取分词同义词中的一个或者多个。
结合第一方面,在一些实施例中,取原查询内容这一理解方式下的得分占比大于其他理解方式下的得分占比。
上述实施例中,查询内容是用户直接输入的内容,可以最大程度反映用户意图,因此将原词召回方式的得分占比(权重)设置为最大时,可以使得匹配文档更接近用户意图。
结合第一方面,在一些实施例中,该方法还包括:该电子设备基于该匹配文档中得分最高的Q个匹配文档进行显示。
第二方面,本申请提供了一种文档评分方法,该方法包括:电子设备基于N种理解方式分别对查询内容做检索理解,得到N个理解结果;该电子设备基于N个理解结果分别与索引库进行匹配,得到各理解结果对应的匹配文档以及各匹配文档的子得分;一个理解结果对应的匹配文档不同,同一个匹配文档存在对应不同理解结果的情况;该N个理解结果中第一理解结果所对应匹配文档的子得分指示了匹配文档中的内容与该第一理解结果的相关性;该第一理解结果为该N个理解结果中的一个理解结果;对于该N个理解结果对应的匹配文档中不同的M个匹配文档,该电子设备基于该M个匹配文档中每一个匹配文档的至少一个子得分以及子得分对应的权重确定该M个匹配文档的得分;该子得分对应的权重为获取该子得分对应的匹配文档时该采用的匹配召回方式对应的权重;该匹配召回方式指示了该电子设备在该索引库中进行匹配以确定匹配文档时所使用的理解结果。
上述实施例中,电子设备可以基于查询内容按照多路匹配召回策略进行搜索,得到搜索结果。其中,一路匹配召回即可以看作一种匹配召回方式,且各匹配召回方式均对应一个权重。电子设备可以基于不同的匹配召回方式得到匹配文档。对于被至少一种匹配召回方式所召回的同一匹配文档,电子设备可以基于各匹配召回方式对应的权重计算该匹配文档的得分。一个召回方式对应的权重指示了该召回方式在文档评分中的重要性。一个召回方式对应的权重越高,则表示该召回方式在文档评分中的重要性越高。实施本申请提供的技术方案,考虑了不同匹配召回方式对文档得分的影响。
结合第二方面,在一些实施例中,该方法还包括:该电子设备将该第一匹配文档的各子得分以及各子得分对应的权重相乘然后相加的结果作为该第一匹配文档的得分。
结合第二方面,在一些实施例中,该方法还包括:该第一理解结果对应的匹配文档中包括第一匹配文档;该第一匹配文档的子得分等于该第一匹配文档中各匹配字段的字段得分之和。
结合第二方面,在一些实施例中,该第一理解结果对应的匹配文档中包括第一匹配文档;该第一匹配文档的子得分等于该第一匹配文档中各匹配字段的字段得分乘以各匹配字段的字段权重之后再求和的结果。
上述实施例中,除了考虑各匹配召回方式对应的权重以外,还考虑了匹配字段的权重(字段权重),使得匹配文档的得分可以基于重要字段进行调整。
结合第二方面,在一些实施例中,在该第一理解结果为一个待匹配对象的情况下,该方法还包括:在该第一理解结果与该索引库进行匹配的过程中确定一个第一匹配值时,基于该第一匹配值与该第一匹配文档确定该第一匹配文档中第一匹配字段的字段得分;该第一匹配字段为该第一匹配值对应的字段;在该第一理解结果完成与该索引库的匹配之后,得到该第一匹配文档中各匹配字段的字段得分。
结合第二方面,在一些实施例中,在该第一理解结果包括X个待匹配对象的情况下,该方法还包括:基于该X个待匹配对象分别与该索引库进行匹配,确定该第一匹配文档中各匹配字段对应的至少一个匹配值;基于各匹配字段对应的至少一个匹配值分别与该第一匹配文档确定该第一匹配文档中各匹配字段对应的至少一个字段子得分;该各匹配字段中包括第二匹配字段,该第二匹配字段对应的至少一个匹配值分别是基于该X个待匹配对象中的不同待匹配对象与该索引库进行匹配时确定的;对于该各匹配字段中每一个匹配字段对应的至少一个字段子得分,该电子设备分别基于该每一个匹配字段对应的至少一个字段子得分得到该第一匹配文档中各匹配字段的字段得分;该电子设备确定该第一匹配文档中该第二匹配字段的字段得分包括:该第二匹配字段对应的一个字段子得分时,将该第二匹配字段对应的一个字段子得分作为该第一匹配文档中该第二匹配字段的字段得分;在该第二匹配字段对应的至少两个字段子得分时,将该第二匹配字段对应的各字段子得分之和作为该第一匹配文档中该第二匹配字段的字段得分。
第三方面,本申请实施例提供了一种电子设备,该电子设备包括:一个或多个处理器和存储器;该存储器与该一个或多个处理器耦合,该存储器用于存储计算机程序代码,该计算机程序代码包括计算机指令,该一个或多个处理器调用该计算机指令以使得该电子设备执行如第一方面中实施的方法。
上述实施例中,电子设备可以基于查询内容按照多路匹配召回策略进行搜索,得到搜索结果。其中,一路匹配召回即可以看作一种匹配召回方式,且各匹配召回方式均对应一个权重。电子设备可以基于不同的匹配召回方式得到匹配文档。对于被至少一种匹配召回方式所召回的同一匹配文档,电子设备可以基于各匹配召回方式对应的权重计算该匹配文档的得分。一个召回方式对应的权重指示了该召回方式在文档评分中的重要性。一个召回方式对应的权重越高,则表示该召回方式在文档评分中的重要性越高。实施本申请提供的技术方案,考虑了不同匹配召回方式对文档得分的影响。
第四方面,本申请实施例提供了一种计算机可读存储介质,包括指令,当该指令在电子设备上运行时,使得该电子设备执行如第一方面中实施的方法。
上述实施例中,电子设备可以基于查询内容按照多路匹配召回策略进行搜索,得到搜索结果。其中,一路匹配召回即可以看作一种匹配召回方式,且各匹配召回方式均对应一个权重。电子设备可以基于不同的匹配召回方式得到匹配文档。对于被至少一种匹配召回方式所召回的同一匹配文档,电子设备可以基于各匹配召回方式对应的权重计算该匹配文档的得分。一个召回方式对应的权重指示了该召回方式在文档评分中的重要性。一个召回方式对应的权重越高,则表示该召回方式在文档评分中的重要性越高。实施本申请提供的技术方案,考虑了不同匹配召回方式对文档得分的影响。
第五方面,本申请实施例提供了一种芯片系统,该芯片系统应用于电子设备,该芯片系统包括一个或多个处理器,该处理器用于调用计算机指令以使得该电子设备执行如第一方面实施的方法。
上述实施例中,电子设备可以基于查询内容按照多路匹配召回策略进行搜索,得到搜索结果。其中,一路匹配召回即可以看作一种匹配召回方式,且各匹配召回方式均对应一个权重。电子设备可以基于不同的匹配召回方式得到匹配文档。对于被至少一种匹配召回方式所召回的同一匹配文档,电子设备可以基于各匹配召回方式对应的权重计算该匹配文档的得分。一个召回方式对应的权重指示了该召回方式在文档评分中的重要性。一个召回方式对应的权重越高,则表示该召回方式在文档评分中的重要性越高。实施本申请提供的技术方案,考虑了不同匹配召回方式对文档得分的影响。
第六方面,本申请实施例提供了一种包含指令的计算机程序产品,当该计算机程序产品在电子设备上运行时,使得该电子设备执行如第一方面实施的方法。
上述实施例中,电子设备可以基于查询内容按照多路匹配召回策略进行搜索,得到搜索结果。其中,一路匹配召回即可以看作一种匹配召回方式,且各匹配召回方式均对应一个权重。电子设备可以基于不同的匹配召回方式得到匹配文档。对于被至少一种匹配召回方式所召回的同一匹配文档,电子设备可以基于各匹配召回方式对应的权重计算该匹配文档的得分。一个召回方式对应的权重指示了该召回方式在文档评分中的重要性。一个召回方式对应的权重越高,则表示该召回方式在文档评分中的重要性越高。实施本申请提供的技术方案,考虑了不同匹配召回方式对文档得分的影响。
可以理解的是,第三方面提供的电子设备、第四方面提供的计算机存储介质、第五方面提供的芯片系统和第六方面提供的计算机程序产品均用于执行本申请实施例所提供的方法。因此,其所能达到其他有益效果可参考对应方法中的有益效果,此处不再赘述。
附图说明
图1示出了电子设备生成可搜索内容的示意图;
图2示出了索引库的一个示意图;
图3示出了电子设备对文档进行评分以及使用评分时涉及的一个示例性流程图;
图4示出了电子设备对文档进行评分以及使用评分时涉及的一个示意图;
图5示出了电子设备基于理解结果中包括一个待匹配对象时得到该理解结果对应的匹配结果时涉及的示例性流程图;
图6示出了电子设备基于理解结果中包括多个待匹配对象时得到该理解结果对应的匹配结果时涉及的示例性流程图;
图7示出了电子设备对搜索结果进行显示时涉及的一个示例性用户界面;
图8是本申请实施例提供的电子设备的结构示意图。
具体实施方式
本申请以下实施例中所使用的术语只是为了描述特定实施例的目的,而并非旨在作为对本申请的限制。如在本申请的说明书和所附权利要求书中所使用的那样,单数表达形式“一个”、“一种”、“所述”、“上述”、“该”和“这一”旨在也包括复数表达形式,除非其上下文中明确地有相反指示。还应当理解,本申请中使用的术语“和/或”是指并包含一个或多个所列出项目的任何或所有可能组合。
以下,术语“第一”、“第二”仅用于描述目的,而不能理解为暗示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征,在本申请实施例的描述中,除非另有说明,“多个”的含义是两个或两个以上。
在一种方案中,电子设备可以基于BM25(best matching 25)算法对与查询内容相关的各文档(匹配文档)进行评分。在一些可能的情况下,BM25算法是基于词频和文档长度的统计算法。BM25算法将文档中的每个词都视为独立的,然后根据每个词的出现频率来确定文档与查询内容之间的相关性得分。其中,词频表示查询内容在一个文档中出现的次数。
但是,BM25算法为文档评分的维度较为单一,没有考虑到不同匹配召回方式对文档得分的影响。在匹配文档较多时,BM25算法难以筛选出相关性真正较高的文档。
且,BM25算法没有考虑到文档的结构信息(例如标题、描述、时间等)对文档得分的影响。结构信息对于文档评分来说是重要的,也应该被纳入考虑范围以提升对文档评分的准确性。
在一些可能的情况下,为了便于描述,文档的相关性得分可以简称为得分,用于指示文档与查询内容之间的相关性。一个文档的得分越高表示该文档与查询内容的相关程度越高。
在另一种方案中,电子设备可以基于查询内容按照多路匹配召回策略进行搜索,得到搜索结果。其中,一路匹配召回即可以看作一种匹配召回方式,且各匹配召回方式均对应一个权重。电子设备可以基于不同的匹配召回方式得到匹配文档。对于被至少一种匹配召回方式所召回的同一匹配文档,电子设备可以基于各匹配召回方式对应的权重计算该匹配文档的得分。一个匹配召回方式对应的权重指示了该匹配召回方式在文档评分中的重要性。一个匹配召回方式对应的权重越高,则表示该匹配召回方式在文档评分中的重要性越高。这样,基于查询内容按照多路匹配召回策略进行搜索确定与查询内容相关的文档时,计算文档的相关性得分时会考虑每一个匹配召回方式的重要性,使得文档评分更客观。
其中,匹配召回方式指示了电子设备在索引库中进行匹配以确定与查询内容相关的文档(匹配文档)时,所使用的理解结果。该理解结果可以是查询内容本身,也可以是基于查询内容所确定的内容。其中,该索引库可以用于记录电子设备中的可搜索内容。一个可搜索内容可以用至少一个字段以及各字段对应的字段值进行表示。而索引库则可以用于记录电子设备中各搜索内容中的字段以及各字段所对应字段值的索引(包括各字段值及其扩展值)。关于可搜索内容以及索引库的相关描述可以参考下述对图1-图3的描述,此处暂不赘述。
在一些可能的情况下,查询内容的理解结果可以指示该查询内容。查询内容的理解结果除了查询内容本身以外,还可以包括但不限于以下理解结果中的一个或者多个。一个理解结果中可以包括至少一个待匹配对象,待匹配对象为基于理解结果在索引库中进行匹配以确定与查询内容相关的文档(匹配文档)时所使用的最小匹配单元。在进行搜索时,电子设备是基于查询结果中的待匹配对象与索引库中的内容进行匹配以确定与匹配文档的。
理解结果1:查询内容对应的分词结果。分词结果是指基于分词技术对查询内容进行分词处理,得到至少一个词语(分词词语)的结果。例如,使用的分词技术为2gram分词,查询内容为:“设置应用”时,得到的分词结果可以为“设置”、“应用”两个词语,其中一个词语就可以看作一个待匹配对象,该词语可以用于在索引库中进行匹配确定与查询内容相关的文档。
理解结果2:查询内容对应的纠错结果。纠错结果是指对查询内容中的错误字符进行纠错所得的纠错后的内容。例如,查询内容为:“设值应用”时,可以对其进行纠错得到纠错后的内容:“设置应用”。该查询内容对应的纠错结果可以看作一个待匹配对象,用于在索引库中进行匹配确定与查询内容相关的文档。
理解结果3:查询内容对应的同音字。同音字是指查询内容的全拼形式,其是对查询内容取全拼的结果。例如,在查询内容为“设置应用”时,其对应的同音字结果可以为“shezhiyingyong”。该查询内容对应的同音字结果可以看作一个待匹配对象,用于在索引库中进行匹配确定与查询内容相关的文档。
在一些可能的情况下,可以通过拼音工具包获取一个查询内容的全拼形式作为查询内容对应的同音字结果。该查询内容对应的同音字结果也可以被称为查询内容对应的拼音结果。
理解结果4:查询内容对应的拼音首字母。拼音首字母是指对查询内容的取全拼首字母得到的结果。例如,在查询内容为“设置应用”时,其对应的拼音首字母结果可以为“szyy”。
理解结果5:查询内容对应的分词同义词。分词同义词是指查询内容对应的分词结果对应的同义词语(分词同义词语)。例如,使用的分词技术为2gram分词,查询内容为:“设置应用”时,得到的分词结果可以为“设置”、“应用”两个词语。则分词同义词可以包括“设置”这一词语的同义词语,以及“应用”这一词语的同义词语。其中一个同义词语就可以看作一个待匹配对象,该同义词语可以用于在索引库中进行匹配确定与查询内容相关的文档。
理解结果6:查询内容对应的内容同义词。内容同义词是指查询内容的同义词。查询内容为:“设置应用”时,该查询内容对应的内容同义词可以为:“设置程序”。该查询内容对应的内容同义词可以看作一个待匹配对象,用于在索引库中进行匹配确定与查询内容相关的文档。
这里应该理解的是,查询内容的理解结果除了前述涉及的理解结果以外,还可以包括其他的理解结果。例如查询内容的关键词结果。关键词结果是指查询内容中的关键词。本申请实施例对此不作限定。
还应该理解的是,一个可搜索内容可以对应至少一个文档。一个文档中可以包括来自同一个可搜索内容用于描述同一内容的各不同字段及各字段对应的字段值。一个文档中各字段值对应的索引(包括各字段值及其扩展值)与该文档均建立了联系。电子设备确定一个与查询内容匹配成功的字段值或者扩展值时,可以映射到该字段值或者扩展值关联的文档(匹配文档),并将该匹配文档召回。
在一些可能的情况下,一个文档与该文档中各字段值对应的索引(包括各字段值及其扩展值)相关联的方式包括:为文档、该文档中各字段值,以及各字段值的扩展值设置相同的标识号,使得电子设备可以通过字段值或者扩展值的标识号找到相同标识号的文档。
下面描述电子设备中的可搜索内容以及索引库。
图1示出了电子设备生成可搜索内容的示意图。
图2示出了索引库的一个示意图。
关于电子设备生成可搜索内容的相关过程以及基于可搜索内容得到索引库的相关描述可以参考下述对图1以及图2的描述。
电子设备中的可搜索内容可以包括电子设备中的本地可搜索内容。例如,在使用应用的过程中产生的数据。
如图1所述,为电子设备使用“笔记”应用时产生的笔记文件(一种可搜索内容)的示例性用户界面。
如图1中(1)所示,用户界面011为电子设备新建笔记时的一个示例性用户界面。用户界面011中示出的新建笔记中可以包括新建笔记中各字段对应的字段值。例如可以包括“标题”字段对应的字段值1101:“工作计划拟定情况”、“时间”字段对应的字段值1102:“2023/1/18:00”、“描述”字段对应的字段值1103:“今年的公作计画”。响应于针对保存控件1104的操作,电子设备可以完成对该笔记的新建。然后,电子设备可以将该新建笔记记录到索引库中便于后续进行搜索。
如图1中(2)所示,用户界面012为电子设备新建笔记时的另一个示例性用户界面。该用户界面012中示出了部分已经新建完成的笔记。电子设备可以将该新建完成的笔记均记录到索引库中。
索引库中可以包括各可搜索内容中的字段值以及各字段值对应的字段,还记录了各字段值的扩展值,一个字段值的扩展值也与该字段值对应的字段相对应。其中,字段值的扩展值可以代表该字段值,字段值的扩展值可以包括但不限于以下扩展值中的一种或者多种:字段值的分词结果、字段值的拼音结果、字段值的同义词等。本申请实施例对此不作限定。
如图2示出了一个示例性索引库。该索引库中可以包括前述用户界面012中涉及的各新建笔记中的字段值,以及各字段值的扩展值(例如拼音结果),还可以包括字段值和扩展值对应的字段。对应相同字段的字段值以及扩展值属于该字段对应的索引。例如索引库中可以包括“标题”字段的索引、“描述”字段的索引等。“标题”字段的索引包括对应“标题”字段的字段值以及扩展值。如图2所示,可以包括:字段值“工作计划拟定情况”以及“工作计划拟定情况”的拼音结果(一种扩展值)“gongzuojihuanidingqingkuang”、字段值“今年一月工作计划”以及对应的拼音结果“jinnianyiyuegongzuojihua”、字段值“去年工作总结”以及对应的拼音结果:“quniangongzuojihua”。“描述”字段的索引包括对应“描述”字段的字段值以及扩展值,具体示例可以参考图2中的内容,此处不再赘述。其他字段的索引可以参考相关描述,此处也不再赘述。
如图2所示,该索引库中每一个字段值以及扩展值均可以关键一个文档。来自同一可搜索内容用于描述同一内容的不同字段以及各字段对应的字段值所关联的文档。例如,文档31中可以包括“工作计划”这一新建笔记中的不同字段以及各字段对应的字段值。文档32中可以包括“今年一月工作计划”这一新建笔记中的不同字段以及各字段对应的字段值。文档33中可以包括“去年工作总结”这一新建笔记中的不同字段以及各字段对应的字段值。
电子设备在获取查询内容之后,可以基于该查询内容对应的至少一个理解结果分别在索引库中进行搜索,确定与各理解结果匹配成功的字段值以及扩展值。并返回匹配成功的字段值以及扩展值关键的文档(匹配文档)作为各理解结果对应的匹配文档。电子设备还可以计算各匹配文档在所对应理解结果向下的子得分。同一理解结果对应的匹配文档不同。不同理解结果对应的匹配文档中可以包括相同的匹配文档,也可以理解为同一匹配文档可以被不同的理解结果召回。这里记各搜索结果对应的匹配文档中包括M个不同的匹配文档。其中,M为大于等于1的整数。
每一个理解结果在索引库中进行匹配得到匹配文档的过程可以看作一路匹配召回,一路匹配召回即可以看作一种匹配召回方式。每一种匹配召回方式均对应一个权重。一种匹配召回方式对应的权重也可以看作该路匹配召回方式所使用的理解结果所对应的权重。
然后,电子设备分别基于M个匹配文档中每一个匹配文档所对应理解结果的权重以及所对应理解结果下的子得分确定每一个匹配文档的得分。其中,对于对应了U个搜索结果的同一匹配文档,电子设备可以U个搜索结果对应的权重以及该匹配文档在U个搜索结果下的子得分计算该匹配文档的得分。
在一些可能的情况下,电子设备基于M个匹配文档的得分中得分最高的Q个匹配文档作为搜索结果进行显示。其中Q为大于等于1的整数。图3示出了电子设备对文档进行评分以及使用评分时涉及的一个示例性流程图。
电子设备对文档进行评分以及使用评分时涉及的过程可以参考下述对图3中步骤S101-步骤S105的描述。
S101.电子设备获取查询内容。
电子设备可以基于搜索服务(例如全局搜索服务)或者搜索应用获取查询内容。
该搜索服务或者搜索应用可以提供一个搜索框,电子设备通过该搜索框接收输入的查询内容。
电子设备可以为用户提供多种输入查询内容的方式,包括但不限于语音输入或者键盘输入等。
在一些可能的情况下,响应于针对“查询”控件的操作,电子设备可以获取输入的查询内容,并且基于查询内容进行搜索。关于该过程的相关描述可以参考下述对步骤S102-步骤S104的描述。
S102.电子设备基于N种理解方式分别对查询内容做query理解,得到N个理解结果,其中一个理解结果为查询内容。
理解方式可以包括取原查询内容,还可以包括对查询内容进行分词、对查询内容进行纠错、对查询内容取同音字、对查询内容取拼音首字母、对查询内容取分词同义词以及对查询内容取内容同义词中的一种或者多种。其中,N为大于等于2的整数。
一种理解方式可以对应一种检索(query)理解,基于一种理解方式分别对查询内容做query理解可以得到一个理解结果。一种理解方式以及该理解方式对应的理解结果还对应一种匹配召回方式。
表1示出了各理解方式、理解结果、匹配召回方式对应的关联关系。
表1
理解方式 | 理解结果 | 匹配召回方式 |
取原查询内容 | 查询内容 | 原词召回 |
对查询内容进行分词 | 至少一个分词词语 | 分词召回 |
对查询内容进行纠错 | 纠错后的内容 | 纠错召回 |
对查询内容取同音字 | 同音字 | 同音字召回 |
对查询内容取拼音首字母 | 拼音首字母 | 拼音首字母召回 |
对查询内容取分词同义词 | 分词同义词语 | 分词同义词召回 |
对查询内容取内容同义词 | 内容同义词 | 内容同义词召回 |
… | … | … |
如表1所示,在理解方式分别为取原查询内容、对查询内容进行分词、对查询内容进行纠错、对查询内容取同音字、对查询内容取拼音首字母、对查询内容取分词同义词以及对查询内容取内容同义词的情况下,得到的理解结果分别为查询内容本身、查询内容对应的至少一个分词词语、查询内容对应的纠错后的内容、查询内容对应的同音字、查询内容对应的拼音首字母、查询内容对应的分词同义词、查询内容对应的内容同义词。
S103.电子设备基于N个理解结果分别与索引库进行匹配,得到各理解结果对应的匹配结果,第i个理解结果对应的匹配结果中包括第i个理解结果与索引库进行匹配时确定的Yi个不同的匹配文档以及各匹配文档的子得分;N个理解结果对应的匹配文档中可以包括M个不同的匹配文档,同一匹配文档可以对应不同理解结果。
在一些可能的情况,两个文档(例如匹配文档)相同是指文档的标识相同。两个文档不同是指文档的标识不相同。
N个理解结果对应的匹配文档中可以包括M个不同的匹配文档,同一匹配文档可以对应不同理解结果。可以理解为,每一个理解结果对应的匹配文档不同,但是不同的理解结果可以对应相同的匹配文档。N个理解结果中包括理解结果A1,理解结果A1对应的匹配文档中包括匹配文档A1,匹配文档A1的子得分指示了匹配文档A1中的内容与理解结果A1的相关性。所述理解结果A1可以为N个理解结果中的任一个理解结果。
在一些可能的情况下,一个理解结果对应的一个匹配文档的子得分等于该匹配文档中所有匹配字段的字段得分之和。其中,一个理解结果对应的一个匹配文档中的各匹配字段不相同。
在一些可能的情况下,一个匹配文档的匹配字段可以为与该匹配文档关联的匹配值对应的字段。一个匹配文档中一个匹配字段的字段得分可以基于该匹配字段对应的匹配值与匹配文档确定。例如,可以基于BM25算法利用一个匹配文档中一个匹配字段对应的匹配值与匹配文档确定该匹配文档中该匹配字段的字段得分。一个匹配文档中第s个匹配字段的字段得分可以表示下述公式(1)。
公式(1)中,BM25s表示一个匹配文档中第s个匹配字段的字段得分,BM25(Th,D)表示将一个匹配文档中第s个匹配字段的第h个匹配值以及该匹配文档输入到BM25算法中得到该匹配文档在第s个匹配字段下的字段子得分,h为大于等于1的整数。Th表示匹配字段对应的第h个匹配值,D表示匹配文档。这里应该理解的是,BM25s=BM25(T1,D)适用于理解结果中只包括一个待匹配对象的情况,这时该第s个匹配字段只包括一个匹配值。该匹配值是基于理解结果进行一次匹配之后确定的匹配成功的字段值或者扩展值之中的匹配部分。在理解结果中包括多个待匹配对象(例如多个分词词语以及多个分词同义词语)的情况下,第s个匹配字段包括一个匹配值或者多个匹配值,不同的匹配值可以是基于不同的待匹配对象进行确定的。此时确定第s个匹配字段的字段得分可以参考公式(1)中的其他部分。其中,r1为大于等于3的整数。
进一步的,一个理解结果对应的一个匹配文档的子得分等于该匹配文档中各匹配字段的字段得分之和。则一个理解结果对应的一个匹配文档的子得分可以基于下述公式(2)进行确定。
公式(2)中,r2为大于等于3的整数。Di表示第i个匹配文档的子得分。BM25g表示第第i个匹配文档在第g个匹配字段下的字段得分。确定BM25g的过程可以参考前述公式(1)此处不再赘述。
在另一些可能的情况下,一个理解结果对应的一个匹配文档的子得分等于该匹配文档中各匹配字段的字段得分乘以各匹配字段对应的字段权重之后再求和的结果。其中,一个理解结果对应的一个匹配文档中的各匹配字段不相同。每一个字段(包括匹配字段)均对应一个字段权重。一个字段对应的字段权重描述了该字段对于文档评分的重要程度,一个字段对应的字段权重越高则该字段对于文档评分越重要,越可以影响匹配文档与查询内容的相关性。关于该匹配文档中各匹配字段的字段得分的相关描述可以参考前述相关内容,此处不再赘述。
此时,理解结果对应的一个匹配文档的子得分可以基于下述公式(3)进行确定。
公式(3)中,FLk表示第L个匹配文档的第k子得分,BM25g表示第L个匹配文档在第g个匹配字段下的字段得分,W1g表示该第g个匹配字段对应的字段权重。确定BM25g的过程可以参考前述公式(1),此处不再赘述。
在一些可能的情况下,由于查询内容是基于“标题”字段的字段值输入的概率最大,因此,“标题”字段的字段权重可以大于其他字段(例如“描述”字段)的字段权重。
也可以理解为,文档评分方法中确定匹配文档得分的方法包括:电子设备基于N种理解方式分别对查询内容做检索理解,得到N个理解结果;该电子设备确定出该理解结果的匹配文档,该匹配文档与该N个理解结果中的一个或多个理解结果匹配;该电子设备确定该匹配文档的得分;该匹配文档的得分由该匹配文档分别在C个理解方式下的子得分以及该匹配文档在该C个理解方式下的权重确定的;该C个理解方式是该匹配文档匹配的C个理解结果所采用的理解方式;C是正整数,C大小与等于1;该匹配文档的得分越高,则该匹配文档与该C个理解结果的匹配度越高;其中,该N个理解结果中有一个理解结果为该查询内容,该N为大于等于2的整数。在该C等于1的情况下,该匹配文档仅匹配一个理解结果,该匹配文档的得分等于该匹配文档在仅匹配的一个理解结果采用的理解方式下的子得分、权重的乘积;在该C大于等于2的情况下,该匹配文档的得分由该匹配文档分别在该C个理解结果各自所采用的理解方式下的子得分、权重相乘并求和得到的。
虽然共计N个理解结果,但是一个匹配文档中包括的理解结果通常小于或者等于N个理解结果,记为C个理解结果。一个匹配文档的得分可以看作是基于C个理解结果分别与索引库进行匹配的结果,所以一个文档的得分可以展现C个理解结果的匹配度。一个匹配文档的得分越高,则该匹配文档与该C个理解结果的匹配度越高。
在该C等于1的情况下,该匹配文档仅匹配一个理解结果,该匹配文档的得分等于该匹配文档在仅匹配的一个理解结果采用的理解方式下的子得分、权重的乘积;
在该C大于等于2的情况下,该匹配文档的得分由该匹配文档分别在该C个理解结果各自所采用的理解方式下的子得分、权重相乘并求和得到的。
该匹配文档中包括Z个匹配字段;该Z个匹配字段为该匹配文档与该C个理解结果中一个理解结果匹配时确定的字段;
该匹配文档在C个理解方式中一个理解方式下的子得分是由该Z个匹配字段各自的字段得分确定的;该Z个匹配字段中一个字段的字段得分越高,则该匹配文档中该一个字段与该一个理解方式得到的理解结果匹配度越高。
在一些可能的情况下,在该Z等于1的情况下,该匹配文档与该一个理解方式对应的理解结果匹配时仅确定一个匹配字段,该匹配文档在该一个理解方式下的子得分等于该一个匹配字段的字段得分;在Z大于等于2的情况下,该匹配文档在该一个理解方式下的子得分等于该Z个匹配字段的字段得分之和。
在另一些可能的情况下,在该Z等于1的情况下,该匹配文档与该一个理解方式对应的理解结果匹配时仅确定一个匹配字段,该匹配文档在该一个理解方式下的子得分等于该一个匹配字段的字段得分与匹配字段的字段权重相乘;在Z大于等于2的情况下,该匹配文档在该一个理解方式下的子得分由该Z个匹配字段的字段得分、匹配字段的字段权重相乘并求和得到的。
在一些可能的情况下,字段得分描述了一个匹配字段对应的全部匹配值与匹配文档的匹配度。匹配召回方式的权重也可以被称为得分占比;匹配字段的字段权重也可以被称为匹配字段的得分占比。
在一些可能的情况下,BM25算法除了考虑前述涉及的词频和文档长度的统计算法。BM25算法还考虑了以下因子中的一个或者多个:
因子1:长度占比因子。电子设备使用的BM25算法还考虑了文档长度对相关性得分的影响:长文档中相同词频的词与短文档中相同词频的词相比,长文档的相关性得分比短文档应该更低。
因子2:位置因子。子设备使用的BM25算法还考虑了与查询内容匹配的内容在文档中的位置。位置越靠前,一个文档的得分越高表示该文档与查询内容的相关程度越高。
在考虑了长度占比因子以及位置因子的情况下,可以使得BM25算法计算的字段得分以及字段子得分可以更加准确。
下面基于图4-图6详细描述电子设备确定匹配文档的子得分的过程。
图4示出了电子设备对文档进行评分以及使用评分时涉及的一个示意图。
图5示出了电子设备基于理解结果中包括一个待匹配对象时得到该理解结果对应的匹配结果时涉及的示例性流程图。
在理解结果中包括一个待匹配对象时,电子设备基于理解结果与索引库进行匹配,得到该理解结果对应的匹配结果的过程可以参考下述对步骤S201-步骤S202的描述。
S201.电子设备在理解结果1中包括一个待匹配对象的情况下,基于理解结果1与索引库进行匹配时,确定一个匹配值的情况下,返回该匹配值关联的文档(匹配文档),并确定该匹配文档中该匹配值所对应匹配字段的字段得分(对应理解结果1),匹配完成之后,得到该理解结果1对应的E1个匹配文档以及各匹配文档的字段得分;E1个匹配文档中存在相同的匹配文档但相同匹配文档对应的匹配字段不同。
如图4所示,以查询内容为:“工作计划”,对查询内容的理解方式为取原查询内容、匹配召回方式为原词匹配为例,对步骤S201进行说明。
此时,理解结果1中只包括一个待匹配对象。该待匹配对象与理解结果1相同,均为查询内容。电子设备基于理解结果1与索引库进行匹配时,确定一个匹配值的情况下,返回该匹配值关联的匹配文档,并确定该匹配文档在该匹配值下的字段得分(对应理解结果1)。此时,一个匹配值关联的匹配文档的字段得分也可以看作该匹配文档中该匹配值所对应字段(匹配字段)的字段得分。关于确定字段得分的相关过程可以参考前述对公式(1)中相关内容的描述,此处不再赘述。
匹配完成之后,得到该理解结果1对应的E1个匹配文档以及各匹配文档的字段得分。其中,匹配完成包括将索引库中全部索引均与理解结果1进行了匹配。如图4所示,以图2中示出的示例性索引库为例,理解结果1为“工作计划”的情况下,与理解结果1对应的E1个匹配文档中可以包括文档31、文档32、文档32,该文档31的字段得分111描述了匹配字段为“标题”字段、匹配值(匹配值1)为“工作计划”时该文档31的字段得分。也可以理解为该文档31在匹配值1或者在“标题”字段下的字段得分。其中,文档32被匹配成功了两次,其中一次匹配成功该文档32的字段得分记为字段得分121。另一次匹配成功该文档32的字段得分为字段得分122。其中,该文档32的字段得分121描述了匹配字段为“标题”字段、匹配值(匹配值2)为“工作计划”时该文档32的字段得分。也可以理解为该文档32在匹配值2或者在“标题”字段下的字段得分。该文档32的字段得分122描述了匹配字段为“描述”字段、匹配值(匹配值3)为“工作计划”时该文档32的字段得分。也可以理解为该文档33在匹配值3或者在“描述”字段下的字段得分。
S202.电子设备基于E1个匹配文档的字段得分确定E1个匹配文档中不同匹配文档的子得分,E1个匹配文档中一个匹配文档的子得分等于该匹配文档各字段得分(对应理解结果1)之和。
对于E1个匹配文档中的每一个具有至少两个字段得分的匹配文档(第一类匹配文档),电子设备分别将每一个第一类匹配文档对应的字段得分相加得到每一个第一类匹配文档对应的子得分。或者,电子设备分别将每一个第一类匹配文档在各匹配字段下的字段得分乘以各匹配字段对应的字段权重再求和得到每一个第一类匹配文档对应的子得分。
对于E1个匹配文档中的每一个具有一个字段得分的匹配文档(第二类匹配文档),电子设备可以将每一个第二类匹配文档对应的字段得分分别作为每一个第二类匹配文档对应的子得分。或者,电子设备分别将每一个第二类匹配文档在匹配字段下的字段得分乘以匹配字段对应的字段权重作为的子得分,得到每一个第二类匹配文档对应的子得分。
如图4所示,在原词召回方式中,E1个匹配文档中的第一类匹配文档可以包括文档32,该文档32具有“标题”字段下的字段得分121,以及“描述”字段下的字段得分122,电子设备可以将该字段得分121以及字段得分122相加得到文档32的子得分12。或者,电子设备可以将字段得分121乘以“标题”字段的字段权重再加上字段得分122乘以“描述”字段的字段权重的结果作为文档32的子得分12。
如图4所示,E1个匹配文档中的第二类匹配文档可以包括文档31,该文档31具有“标题”字段下的字段得分111,电子设备可以将该字段得分111作为文档31的子得分11。或者,电子设备可以将字段得分111乘以“标题”字段的字段权重的结果作为文档31的子得分11。
图6示出了电子设备基于理解结果中包括多个待匹配对象时得到该理解结果对应的匹配结果时涉及的示例性流程图。
在理解结果中包括多个待匹配对象时,电子设备基于理解结果与索引库进行匹配,得到该理解结果对应的匹配结果的过程可以参考下述对步骤S301-步骤S303的描述。
S301.在理解结果1中包括X(大于等于2)个待匹配对象的情况下,电子设备基于理解结果1中X个待匹配对象分别与索引库进行匹配,得到X个待匹配对象对应的子匹配结果,第k个待匹配对象对应的子匹配结果中包括第k个待匹配对象与索引库进行匹配时确定的Zk个匹配文档、各匹配文档的匹配字段以及各匹配文档中各匹配字段的字段子得分,Zk个文档中存在相同的文档且存在相同文档的匹配字段相同的情况。
电子设备基于X个待匹配对象分别与索引库进行匹配,确定匹配文档A1中各匹配字段对应的至少一个匹配值;基于各匹配字段对应的至少一个匹配值分别与匹配文档A1确定匹配文档A1中各匹配字段对应的至少一个字段子得分。
如图4所示,以查询内容为:“工作计划”,对查询内容的理解方式为对查询内容进行分词、匹配召回方式为分词召回为例,对步骤S301进行说明。
此时,理解结果1为“工作”、“计划”这两个词语。其中,“工作”这一词语可以看作一个待匹配对象、“计划”这一词语也可以看作一个待匹配对象。则理解结果1中可以包括两个待匹配对象。电子设备可以基于词语“工作”召回匹配文档,且,基于词语“计划”召回匹配文档。
电子设备可以基于“工作”这一词语在索引库中进行匹配,得到“工作”这一词语对应的子匹配结果:文档31、文档32、文档33以及文档32。各文档的匹配值均为“工作”这一词语。其中,文档31的匹配字段为“标题”字段,文档31中“标题”字段对应的字段子得分记为字段子得分2111。基于“工作”这一词语一次匹配成功时文档32的匹配字段为“标题”字段,字段子得分记为字段子得分2121。基于“工作”这一词语另一次匹配成功时文档32的匹配字段为“描述”字段,字段子得分记为字段子得分2122。文档33的匹配字段为“标题”字段,文档31中“标题”字段对应的字段子得分记为字段子得分2131。
电子设备可以基于“计划”这一词语在索引库中进行匹配,得到“计划”这一词语对应的子匹配结果:文档31、两个文档32。各文档的匹配值均为“计划”这一词语。其中,文档31的匹配字段为“标题”字段,文档31中“标题”字段对应的字段子得分记为字段子得分2211。基于“计划”这一词语一次匹配成功时文档32的匹配字段为“标题”字段,字段子得分记为字段子得分2221。基于“计划”这一词语另一次匹配成功时文档32的匹配字段为“描述”字段,字段子得分记为字段子得分2222。
S302.电子设备将X个匹配对象所确定的各匹配文档中相同匹配文档中匹配字段的字段子得分进行合并,得到该理解结果1对应的E2个匹配文档的字段得分,E2个匹配文档中存在相同的匹配文档但相同匹配文档对应的匹配字段不同。
如图4所示,在分词召回的方式中,文档31中的“标题”字段被匹配中了两次,一次是基于“标题”字段中的“工作”这一匹配值匹配成功的。一次是基于“标题”字段中的“计划”这一匹配值匹配成功的。则电子设备可以将文档31的字段子得分2111与文档31中“标题”字段对应的字段子得分2211相加作为文档31中“标题”字段对应的字段得分211。在分词召回的方式中,对于文档32中“标题”字段,电子设备可以基于文档32中“标题”字段对应的字段子得分2121以及字段子得分2221得到文档32中“标题”字段对应的字段得分221。在分词召回的方式中,对于文档32中“描述”字段,电子设备可以基于文档32中“描述”字段对应的字段子得分2122以及字段子得分2222得到文档32中“描述”字段对应的字段得分222。在分词召回的方式中,对于文档33中“标题”字段,电子设备可以基于文档32中“标题”字段对应的字段子得分2131作为文档33中“标题”字段对应的字段得分231。
基于对步骤S301以及步骤S302的描述,针对X个待匹配对象对应的全部匹配文档中的一个匹配文档(其中记为匹配文档A1)。电子设备可以基于X个待匹配对象分别与索引库进行匹配,确定匹配文档A1中各匹配字段对应的至少一个匹配值;基于各匹配字段对应的至少一个匹配值分别与匹配文档A1确定匹配文档A1中各匹配字段对应的至少一个字段子得分。例如,电子设备可以将匹配文档A1中一个匹配字段中的匹配值以及匹配文档A1输入BM25算法中得到匹配文档A1中该匹配字段的字段子得分。
然后对于匹配文档A中各匹配字段中每一个匹配字段对应的至少一个字段子得分,电子设备分别基于每一个匹配字段对应的至少一个字段子得分得匹配文档A1中各匹配字段的字段得分。
S303.电子设备基于E2个匹配文档的字段得分确定E2个匹配文档中不同匹配文档的子得分,E2个匹配文档中一个匹配文档的子得分等于该匹配文档各字段得分(对应理解结果1)之和。
该步骤S303于前述步骤S202相似。将步骤S202中的E1替换为步骤S303中的E2即可。
如图4所示,在原词召回方式中,E2个匹配文档中的第一类匹配文档可以包括文档32,该文档32具有“标题”字段的字段得分221,以及“描述”字段的字段得分222,电子设备可以将该字段得分221以及字段得分222相加得到文档32的子得分22。或者,电子设备可以将字段得分221乘以“标题”字段的字段权重再加上字段得分222乘以“描述”字段的字段权重的结果作为文档32的子得分22。
如图4所示,E2个匹配文档中的第二类匹配文档可以包括文档31、文档33。其中,该文档31具有“标题”字段下的字段得分211,电子设备可以将该字段得分211作为文档31的子得分21。或者,电子设备可以将字段得分211乘以“标题”字段的字段权重的结果作为文档31的子得分21。该文档33具有“描述”字段下的字段得分231,电子设备可以将该字段得分231作为文档33的子得分23。或者,电子设备可以将字段得分231乘以“描述”字段的字段权重的结果作为文档33的子得分21。关于得到文档33的子得分23的相关过程可以参考前述得到文档31的子得分31的过程,此处不再赘述。
匹配文档的得分由该匹配文档分别在C个理解方式下的子得分以及该匹配文档在该C个理解方式下的权重确定时,步骤S201-步骤S202可以得到:在该C个理解结果中一个理解结果为一个待匹配对象的情况下,该Z个匹配字段中一个匹配字段的字段得分是基于该一个匹配字段与该一个匹配对象的匹配度确定的;该一个匹配值与该一个待匹配对象相同。其中,一个匹配字段与该一个待匹配对象的匹配度可以体现为匹配字段的字段得分。基于一个待匹配对象所确定的匹配字段的字段得分越高,则可以说明该一个待匹配对象与索引库进行匹配时,所确定的匹配字段对应的字段值中的匹配值关联的文档(匹配文档)在本次匹配中与查询内容越相关。
基于步骤S301-步骤S303可以得到:在该C个理解结果中一个理解结果中包括X个待匹配对象的情况下,该Z个匹配字段中一个匹配字段的字段得分是基于该一个匹配字段与X个待匹配对象中的部分或者全部待匹配对象的匹配度确定的;该X为整数,X大于等于2。其中,一个匹配字段与X个待匹配对象中的一个待匹配对象的匹配度可以体现为匹配字段一个的字段子得分。基于X个待匹配对象中的一个待匹配对象所确定的匹配字段的字段子得分越高,则可以说明该X个待匹配对象中的一个待匹配对象与索引库进行匹配时,所确定的匹配字段对应的字段值中的匹配值关联的文档(匹配文档)在本次匹配中与查询内容越相关。
S104.分别基于M个不同匹配文档中每一个匹配文档的至少一个子得分以及子得分对应的权重确定每一个匹配文档的得分;一个子得分对应的权重为获取该子得分所对应的匹配文档时所采取的匹配召回方式对应的权重。
在一些可能的情况下,电子设备可以将M个不同匹配文档中每一个匹配文档的至少一个子得分以及子得分对应的权重相乘然后相加的结果作为每一个匹配文档的得分。对于计算得分的过程参考下述公式(4)。
其中,D(L)表示M个匹配文档第L个文档的得分。其中,FLk表示M个匹配文档第L个文档的第k个子得分,W2表示该第k个子得分对应的权重。
例如,对于M个不同匹配文档中的一个匹配文档(其中记为匹配文档A1),电子设备将匹配文档A1的各子得分以及各子得分对应的权重相乘然后相加的结果作为匹配文档A1的得分。
在一些可能的情况下,电子设备可以将M个不同匹配文档中每一个匹配文档的至少一个子得分以及子得分对应的权重相乘然后相加最后取平均的结果作为每一个匹配文档的得分。
一个子得分对应的权重为获取该子得分所对应的匹配文档时所采取的匹配召回方式对应的权重。在一些可能的情况下,不同的匹配召回方式对应的权重不同。匹配召回方式B1的权重大于其他匹配召回方式的权重;匹配召回方式B1指示了电子设备在索引库中进行匹配以确定匹配文档时所使用的理解结果为查询内容,匹配召回方式B2指示了电子设备在索引库中进行匹配以确定匹配文档时所使用的理解结果为除查询内容以外的其他理解结果。
表2示出了各匹配召回方式对应的权重示例。
表2
匹配召回方式 | 权重 |
原词召回 | 5 |
分词召回 | 4 |
纠错召回 | 3 |
同音字召回 | 2 |
拼音首字母召回 | 2 |
分词同义词召回 | 1 |
内容同义词召回 | 1 |
… | … |
如表2所示,原词召回方式对应的权重高于其他召回方式对应的权重。
应该理解的是,表2是对各匹配召回方式所对应权重的一个示例,不应该构成对本申请实施例的限定。
如图4所示,这里以计算文档31的得分为例进行说明,电子设备可以将原词召回方式下文档31的子得分11乘以原词召回方式的权重+分词召回方式下文档31的子得分21乘以分词召回方式的权重+纠错召回方式下文档31的子得分31乘以纠错召回方式的权重+其他方式下文档31的子得分乘以其他召回方式的权重的结果作为文档31的得分。
S105.电子设备基于M个匹配文档的得分确定其中相关性符合要求的匹配文档作为搜索结果。
在一些可能的情况下,相关性符合要求的匹配文档可以为M个匹配文档中得分最高的M1个匹配文档。
电子设备基于M个匹配文档的得分确定M个匹配文档中得分最高的M1个匹配文档,基于M1个匹配文档进行显示;M1小于或者等于M。
在一些可能的情况下,电子设备基于M个匹配文档的得分确定M个匹配文档中得分最高的M1个匹配文档,基于M1个匹配文档进行显示时,可以将得分越高的文档显示在越前面。
图7示出了电子设备对搜索结果进行显示时涉及的一个示例性用户界面。
如图7所示,用户界面013为查询内容为:“工作计划”的情况下,基于搜索结果进行显示时涉及的一个示例性用户界面。电子设备可以将匹配值最多的文档显示在前面。
下面首先介绍本申请实施例提供的示例性电子设备。
图8是本申请实施例提供的电子设备的结构示意图。
下面以电子设备为例对实施例进行具体说明。应该理解的是,电子设备可以具有比图8中所示的更多的或者更少的部件,可以组合两个或多个的部件,或者可以具有不同的部件配置。图8中所示出的各种部件可以在包括一个或多个信号处理和/或专用集成电路在内的硬件、软件、或硬件和软件的组合中实现。
电子设备可以包括:处理器110,外部存储器接口120,内部存储器121,通用串行总线(universal serial bus,USB)接口130,充电管理模块140,电源管理模块141,电池142,天线1,天线2,移动通信模块150,无线通信模块160,音频模块170,扬声器170A,受话器170B,麦克风170C,耳机接口170D,传感器模块180,按键190,马达191,指示器192,摄像头193,显示屏194以及用户标识模块(subscriber identification module,SIM)卡接口195等。其中传感器模块180可以包括压力传感器180A,陀螺仪传感器180B,气压传感器180C,磁传感器180D,加速度传感器180E,距离传感器180F,接近光传感器180G,指纹传感器180H,温度传感器180J,触摸传感器180K,环境光传感器180L,骨传导传感器180M等。
可以理解的是,本申请实施例示意的结构并不构成对电子设备的具体限定。在本申请另一些实施例中,电子设备可以包括比图示更多或更少的部件,或者组合某些部件,或者拆分某些部件,或者不同的部件布置。图示的部件可以以硬件,软件或软件和硬件的组合实现。
处理器110可以包括一个或多个处理单元,例如:处理器110可以包括应用处理器(application processor,AP),调制解调处理器,图形处理器(graphics processingunit,GPU),图像信号处理器(image signal processor,ISP),控制器,存储器,视频编解码器,数字信号处理器(digital signal processor,DSP),基带处理器,和/或神经网络处理器(neural-network processing unit,NPU)等。其中,不同的处理单元可以是独立的器件,也可以集成在一个或多个处理器中。
在一些实施例中,处理器110可以包括一个或多个接口。接口可以包括集成电路(inter-integrated circuit,I2C)接口,集成电路内置音频(inter-integrated circuitsound,I2S)接口等。
可以理解的是,本申请实施例示意的各模块间的接口连接关系,只是示意性说明,并不构成对电子设备的结构限定。在本申请另一些实施例中,电子设备也可以采用上述实施例中不同的接口连接方式,或多种接口连接方式的组合。
充电管理模块140用于从充电器接收充电输入。
电源管理模块141用于连接电池142,充电管理模块140与处理器110。
电子设备的无线通信功能可以通过天线1,天线2,移动通信模块150,无线通信模块160,调制解调处理器以及基带处理器等实现。
天线1和天线2用于发射和接收电磁波信号。
移动通信模块150可以提供应用在电子设备上的包括2G/3G/4G/5G等无线通信的解决方案。移动通信模块150可以包括至少一个滤波器,开关,功率放大器,低噪声放大器(low noise amplifier,LNA)等。
无线通信模块160可以提供应用在电子设备上的包括无线局域网(wirelesslocal area networks,WLAN)(如无线保真(wireless fidelity,Wi-Fi)网络)等无线通信的解决方案。
电子设备通过GPU,显示屏194,以及应用处理器等实现显示功能。GPU为图像处理的微处理器,连接显示屏194和应用处理器。GPU用于执行数学和几何计算,用于图形渲染。处理器110可包括一个或多个GPU,其执行程序指令以生成或改变显示信息。
电子设备可以通过ISP,摄像头193,视频编解码器,GPU,显示屏194以及应用处理器等实现拍摄功能。
电子设备可以通过音频模块170,扬声器170A,受话器170B,麦克风170C,耳机接口170D,以及应用处理器等实现音频功能。例如音乐播放,录音等。
电子设备的各传感器可以协助电子设备完成与外界信息的交互与采集。例如,压力传感器180A用于感受压力信号;环境光传感器180L用于感知环境光亮度;指纹传感器180H用于采集指纹;温度传感器180J用于检测温度。
按键190包括开机键,音量键等。按键190可以是机械按键。也可以是触摸式按键。电子设备可以接收按键输入,产生与电子设备的用户设置以及功能控制有关的键信号输入。
马达191可以产生振动提示。马达191可以用于来电振动提示,也可以用于触摸振动反馈。
指示器192可以是指示灯,可以用于指示充电状态,电量变化,也可以用于指示消息,未接来电,通知等。
SIM卡接口195用于连接SIM卡。
本申请实施例中,该处理器110可以调用内部存储器121中存储的计算机指令,以使得终端执行本申请实施例中的文档评分方法。
以上所述,以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。
上述实施例中所用,根据上下文,术语“当…时”可以被解释为意思是“如果…”或“在…后”或“响应于确定…”或“响应于检测到…”。类似地,根据上下文,短语“在确定…时”或“如果检测到(所陈述的条件或事件)”可以被解释为意思是“如果确定…”或“响应于确定…”或“在检测到(所陈述的条件或事件)时”或“响应于检测到(所陈述的条件或事件)”。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如DVD)、或者半导体介质(例如固态硬盘)等。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,该流程可以由计算机程序来指令相关的硬件完成,该程序可存储于计算机可读取存储介质中,该程序在执行时,可包括如上述各方法实施例的流程。而前述的存储介质包括:ROM或随机存储记忆体RAM、磁碟或者光盘等各种可存储程序代码的介质。
Claims (13)
1.一种文档评分方法,其特征在于,所述方法包括:
电子设备基于N种理解方式分别对查询内容做检索理解,得到N个理解结果;
所述电子设备确定出所述理解结果的匹配文档,所述匹配文档与所述N个理解结果中的一个或多个理解结果匹配;
所述电子设备确定所述匹配文档的得分;所述匹配文档的得分由所述匹配文档分别在C个理解方式下的子得分以及所述匹配文档在所述C个理解方式下的得分占比确定的;所述C个理解方式是所述匹配文档匹配的C个理解结果所采用的理解方式;C是正整数,C大于或等于1;所述匹配文档的得分越高,则所述匹配文档与所述C个理解结果的匹配度越高;
其中,所述N个理解结果中有一个理解结果为所述查询内容,所述N为大于等于2的整数。
2.根据权利要求1所述的方法,其特征在于,在所述C等于1的情况下,所述匹配文档仅匹配一个理解结果,所述匹配文档的得分等于所述匹配文档在仅匹配的一个理解结果采用的理解方式下的子得分、得分占比的乘积;
在所述C大于或等于2的情况下,所述匹配文档的得分由所述匹配文档分别在所述C个理解结果各自所采用的理解方式下的子得分、得分占比相乘并求和得到的。
3.根据权利要求1或2所述的方法,其特征在于,所述匹配文档中包括Z个匹配字段;所述Z个匹配字段为所述匹配文档与所述C个理解结果中一个理解结果匹配时确定的字段;
所述匹配文档在C个理解方式中一个理解方式下的子得分是由所述Z个匹配字段各自的字段得分确定的;所述Z个匹配字段中一个字段的字段得分越高,则所述匹配文档中所述一个字段与所述一个理解方式得到的理解结果匹配度越高。
4.根据权利要求3所述的方法,其特征在于,在所述Z等于1的情况下,所述匹配文档与所述一个理解方式对应的理解结果匹配时仅确定一个匹配字段,所述匹配文档在所述一个理解方式下的子得分等于所述一个匹配字段的字段得分;
在Z大于等于2的情况下,所述匹配文档在所述一个理解方式下的子得分等于所述Z个匹配字段的字段得分之和。
5.根据权利要求3所述的方法,其特征在于,在所述Z等于1的情况下,所述匹配文档与所述一个理解方式对应的理解结果匹配时仅确定一个匹配字段,所述匹配文档在所述一个理解方式下的子得分等于所述一个匹配字段的字段得分与匹配字段的得分占比相乘;
在Z大于等于2的情况下,所述匹配文档在所述一个理解方式下的子得分由所述Z个匹配字段的字段得分、匹配字段的得分占比相乘并求和得到的。
6.根据权利要求4或5所述的方法,其特征在于,在所述C个理解结果中一个理解结果为一个待匹配对象的情况下,所述Z个匹配字段中一个匹配字段的字段得分是基于所述一个匹配字段与所述一个待匹配对象的匹配度确定的。
7.根据权利要求4或5所述的方法,其特征在于,在所述C个理解结果中一个理解结果中包括X个待匹配对象的情况下,所述Z个匹配字段中一个匹配字段的字段得分是基于所述一个匹配字段与所述X个待匹配对象中的部分或者全部待匹配对象的匹配度确定的;所述X为整数,X大于或者等于2。
8.根据权利要求1-7中任一项所述的方法,其特征在于,所述方法还包括:
响应于针对搜索框的操作,所述电子设备获取所述搜索框中的内容作为所述查询内容。
9.根据权利要求1-8中任一项所述的方法,其特征在于,所述N种理解方式中至少包括取原查询内容,还包括对查询内容进行分词、对查询内容进行纠错、对查询内容取同音字、对查询内容取拼音首字母、对查询内容取分词同义词中的一个或者多个。
10.根据权利要求9所述的方法,其特征在于,取原查询内容这一理解方式下的得分占比大于其他理解方式下的得分占比。
11.根据权利要求1-10中任一项所述的方法,其特征在于,所述方法还包括:
所述电子设备基于所述匹配文档中得分最高的Q个匹配文档进行显示。
12.一种电子设备,其特征在于,包括:一个或多个处理器和存储器;所述存储器与所述一个或多个处理器耦合,所述存储器用于存储计算机程序代码,所述计算机程序代码包括计算机指令,所述一个或多个处理器调用所述计算机指令以使得所述电子设备执行如权利要求1至11中任一项所述的方法。
13.一种计算机可读存储介质,包括指令,其特征在于,当所述指令在电子设备上运行时,使得所述电子设备执行如权利要求1至11中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310799079.8A CN116776869B (zh) | 2023-06-30 | 文档评分方法和电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310799079.8A CN116776869B (zh) | 2023-06-30 | 文档评分方法和电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116776869A true CN116776869A (zh) | 2023-09-19 |
CN116776869B CN116776869B (zh) | 2024-07-05 |
Family
ID=
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030028520A1 (en) * | 2001-06-20 | 2003-02-06 | Alpha Shamim A. | Method and system for response time optimization of data query rankings and retrieval |
CN108664515A (zh) * | 2017-03-31 | 2018-10-16 | 北京三快在线科技有限公司 | 一种搜索方法及装置,电子设备 |
CN112084393A (zh) * | 2020-09-09 | 2020-12-15 | 北京百度网讯科技有限公司 | 用于输出信息的方法、装置、设备以及存储介质 |
CN112597274A (zh) * | 2020-12-18 | 2021-04-02 | 深圳市彬讯科技有限公司 | 基于bm25算法的文档确定方法、装置、设备及存储介质 |
CN114880447A (zh) * | 2022-05-13 | 2022-08-09 | 平安科技(深圳)有限公司 | 信息检索方法、装置、设备及存储介质 |
CN115203379A (zh) * | 2022-09-15 | 2022-10-18 | 太平金融科技服务(上海)有限公司深圳分公司 | 检索方法、装置、计算机设备、存储介质和程序产品 |
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030028520A1 (en) * | 2001-06-20 | 2003-02-06 | Alpha Shamim A. | Method and system for response time optimization of data query rankings and retrieval |
CN108664515A (zh) * | 2017-03-31 | 2018-10-16 | 北京三快在线科技有限公司 | 一种搜索方法及装置,电子设备 |
CN112084393A (zh) * | 2020-09-09 | 2020-12-15 | 北京百度网讯科技有限公司 | 用于输出信息的方法、装置、设备以及存储介质 |
CN112597274A (zh) * | 2020-12-18 | 2021-04-02 | 深圳市彬讯科技有限公司 | 基于bm25算法的文档确定方法、装置、设备及存储介质 |
CN114880447A (zh) * | 2022-05-13 | 2022-08-09 | 平安科技(深圳)有限公司 | 信息检索方法、装置、设备及存储介质 |
CN115203379A (zh) * | 2022-09-15 | 2022-10-18 | 太平金融科技服务(上海)有限公司深圳分公司 | 检索方法、装置、计算机设备、存储介质和程序产品 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109145926B (zh) | 相似图片识别方法及计算机设备 | |
CN107291792B (zh) | 用于确定相关实体的方法和系统 | |
US20170109435A1 (en) | Apparatus and method for searching for information | |
CN109918669B (zh) | 实体确定方法、装置及存储介质 | |
EP3493198A1 (en) | Method and device for determining delay of audio | |
CN109948122B (zh) | 输入文本的纠错方法、装置及电子设备 | |
US11681756B2 (en) | Method and electronic device for quantifying user interest | |
WO2022089098A1 (zh) | 音高调节方法、装置及计算机存储介质 | |
CN107885718B (zh) | 语义确定方法及装置 | |
CN111460117B (zh) | 对话机器人意图语料生成方法、装置、介质及电子设备 | |
CN107885875B (zh) | 检索词的同义变换方法、装置及服务器 | |
US20190278855A1 (en) | Entity resolution based on multiple attributes | |
CN116776869B (zh) | 文档评分方法和电子设备 | |
CN110598067B (zh) | 词语权重获取方法、装置及存储介质 | |
CN111858966B (zh) | 知识图谱的更新方法、装置、终端设备及可读存储介质 | |
CN103294684A (zh) | 关联词汇搜索系统及方法 | |
CN116776869A (zh) | 文档评分方法和电子设备 | |
CN113138677A (zh) | 输入法候选词的确定方法、装置、电子设备和存储介质 | |
CN111553163A (zh) | 文本相关度的确定方法、装置、存储介质及电子设备 | |
US20160147902A1 (en) | Data provision device, data provision method, and data provision program | |
CN108764206A (zh) | 目标图像识别方法和系统、计算机设备 | |
JP2004021677A (ja) | 情報提供システム、情報提供方法、情報提供プログラム及び情報提供プログラムを記録したコンピュータ読み取り可能な記録媒体 | |
CN109725738A (zh) | 一种基于命名实体的信息展示方法、装置及系统 | |
CN114360528A (zh) | 语音识别方法、装置、计算机设备及存储介质 | |
CN112528646A (zh) | 词向量生成方法、终端设备及计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |