CN111753167B - 搜索处理方法、装置、计算机设备和介质 - Google Patents
搜索处理方法、装置、计算机设备和介质 Download PDFInfo
- Publication number
- CN111753167B CN111753167B CN202010577892.7A CN202010577892A CN111753167B CN 111753167 B CN111753167 B CN 111753167B CN 202010577892 A CN202010577892 A CN 202010577892A CN 111753167 B CN111753167 B CN 111753167B
- Authority
- CN
- China
- Prior art keywords
- document
- text
- search
- semantic
- sentence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 24
- 238000000034 method Methods 0.000 claims abstract description 70
- 239000002131 composite material Substances 0.000 claims abstract description 21
- 239000013598 vector Substances 0.000 claims description 141
- 230000006399 behavior Effects 0.000 claims description 23
- 239000012634 fragment Substances 0.000 claims description 14
- 238000003860 storage Methods 0.000 claims description 14
- 238000012545 processing Methods 0.000 claims description 13
- 230000015654 memory Effects 0.000 claims description 12
- 230000004927 fusion Effects 0.000 claims description 11
- 238000004422 calculation algorithm Methods 0.000 claims description 7
- 238000009826 distribution Methods 0.000 claims description 7
- 230000001105 regulatory effect Effects 0.000 claims description 2
- 238000007499 fusion processing Methods 0.000 claims 1
- 238000003058 natural language processing Methods 0.000 abstract description 14
- 230000008569 process Effects 0.000 description 30
- 238000004590 computer program Methods 0.000 description 15
- 238000010586 diagram Methods 0.000 description 14
- 230000006870 function Effects 0.000 description 10
- 230000032683 aging Effects 0.000 description 6
- 238000000605 extraction Methods 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 5
- 230000008520 organization Effects 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 238000005259 measurement Methods 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 238000009825 accumulation Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000009472 formulation Methods 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000012827 research and development Methods 0.000 description 2
- 108010001267 Protein Subunits Proteins 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000002950 deficient Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000010845 search algorithm Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 239000000758 substrate Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Probability & Statistics with Applications (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Fuzzy Systems (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本公开提供了一种搜索处理方法,涉及自然语言处理领域。该方法包括:获取搜索语句;确定知识库中存储的多个文档中的每个文档与搜索语句之间的语义相关度;确定每个文档与搜索语句之间的表面文本相关度;基于每个文档的属性信息,确定针对每个文档的调节因子;基于每个文档的语义相关度、表面文本相关度和调节因子,确定该文档的综合评分;并且,基于多个文档各自的综合评分,从多个文档中选取预定数量个文档,以作为针对搜索语句的搜索结果。本公开还提供了一种搜索处理方法及装置、计算机设备和介质。
Description
技术领域
本公开涉及自然语言处理领域,更具体地,涉及一种搜索处理方法、装置、计算机设备和介质。
背景技术
近年来,互联网搜索引擎获得快速发展,利用互联网搜索引擎可以搜索获得大量信息。然而,针对一些特定信息内容,如企业或组织内部的规章制度、项目文档、工作经验等,作为企业或组织的知识存储,通常是无法通过互联网搜索引擎来搜索获得的。企业或组织经过多年的运作,积累了大量的运营、工作、生产、研发的经验与知识,这些信息内容散落在企业或组织的各个服务器、IT系统,甚至个人的电脑中,这些知识积累可以用于指导企业或组织员工行动、减少操作失误、提升工作效率、降低运营成本等。因此,如何快速、准确地让企业或组织的内部用户获得所需知识,是影响企业或组织运作的核心要件。
发明内容
有鉴于此,本公开提供了一种搜索处理方法、装置、计算机设备和介质。
本公开的一个方面提供了一种搜索处理方法,包括:获取搜索语句;确定知识库中存储的多个文档中的每个文档与搜索语句之间的语义相关度;确定每个文档与搜索语句之间的表面文本相关度;基于每个文档的属性信息,确定针对每个文档的调节因子;基于每个文档的语义相关度、表面文本相关度和调节因子,确定该文档的综合评分;并且,基于多个文档各自的综合评分,从多个文档中选取预定数量个文档,以作为针对搜索语句的搜索结果。
本公开的另一方面提供了一种搜索处理装置,包括:获取模块、第一确定模块、第二确定模块、第三确定模块、综合评分模块和结果选取模块。获取模块用于获取搜索语句。第一确定模块用于确定知识库中存储的多个文档中的每个文档与搜索语句之间的语义相关度。第二确定模块用于确定每个文档与搜索语句之间的表面文本相关度。第三确定模块用于基于每个文档的属性信息,确定针对每个文档的调节因子。综合评分模块用于基于每个文档的语义相关度、表面文本相关度和调节因子,确定该文档的综合评分。结果选取模块用于基于多个文档各自的综合评分,从多个文档中选取预定数量个文档,以作为针对搜索语句的搜索结果。
本公开的另一方面提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上所述的方法。
本公开的另一方面提供了一种计算机可读存储介质,存储有计算机可执行指令,所述指令在被执行时用于实现如上所述的方法。
本公开的另一方面提供了一种计算机程序,所述计算机程序包括计算机可执行指令,所述指令在被执行时用于实现如上所述的方法。
本公开的另一方面提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现上述方法。
根据本公开实施例的搜索处理方法在基于获取到的搜索语句针对知识库中的文档进行搜索时,不仅需要确定搜索语句与文档之间的表面文本相关度,还需要确定搜索语句与文档之间的语义相关度,并根据各文档的属性信息来确定各文档的调节因子。然后综合考虑表面文本相关度、语义相关度和调节因子这三方面因素对各文档进行评估,以得到各文档的综合评分,再根据各文档的综合评分来确定搜索结果。该搜索过程不仅通过表面文本相关度来关注搜索语句和文档的表面字词、表面文本结构之间的关联性,还通过语义相关度对搜索语义和文档在深层语义方面的关联关系进行挖掘和理解,还通过调节因子对文档所具有的多维度属性进行理解和学习,以实现从文档整体层面进行相关度度量,使得搜索结果的准确度和用户满意度均有所提升。
附图说明
通过以下参照附图对本公开实施例的描述,本公开的上述以及其他目的、特征和优点将更为清楚,在附图中:
图1示意性示出了根据本公开实施例的应用搜索处理方法和装置的示例性系统架构;
图2示意性示出了根据本公开实施例的搜索处理方法的流程图;
图3示意性示出了根据本公开另一实施例的搜索处理方法的流程图;
图4A示意性示出了根据本公开另一实施例的搜索处理方法的流程图;
图4B示意性示出了根据本公开实施例的从文档中提取文本片段的示例示意图;
图4C示意性示出了根据本公开实施例的将文本片段转换为句向量的示例示意图;
图4D示意性示出了根据本公开实施例的对句向量进行分组的示例示意图;
图5示意性示出了根据本公开实施例的搜索处理方案的示例示意图;
图6示意性示出了根据本公开另一实施例的搜索处理方法的流程图;
图7示意性示出了根据本公开实施例的搜索处理装置的框图;以及
图8示意性示出了根据本公开实施例的计算机设备的框图。
具体实施方式
以下,将参照附图来描述本公开的实施例。但是应该理解,这些描述只是示例性的,而并非要限制本公开的范围。在下面的详细描述中,为便于解释,阐述了许多具体的细节以提供对本公开实施例的全面理解。然而,明显地,一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本公开的概念。
在此使用的术语仅仅是为了描述具体实施例,而并非意在限制本公开。在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在,但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。
在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义,除非另外定义。应注意,这里使用的术语应解释为具有与本说明书的上下文相一致的含义,而不应以理想化或过于刻板的方式来解释。
在使用类似于“A、B和C等中至少一个”这样的表述的情况下,一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如,“具有A、B和C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。在使用类似于“A、B或C等中至少一个”这样的表述的情况下,一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如,“具有A、B或C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。
本公开的实施例提供了一种搜索处理方法、装置、计算机设备和介质。搜索处理方法可以包括获取过程、确定过程、综合评分过程和结果选取过程。在获取过程中获取搜索语句。在确定过程中,一方面可以确定知识库中存储的多个文档中的每个文档与搜索语句之间的语义相关度;另一方面可以确定每个文档与搜索语句之间的表面文本相关度;再一方面可以基于每个文档的属性信息,确定针对每个文档的调节因子。然后进行综合评分过程,基于每个文档的语义相关度、表面文本相关度和调节因子,确定该文档的综合评分。接着进行结果选取过程,基于多个文档各自的综合评分,从多个文档中选取预定数量个文档,以作为针对搜索语句的搜索结果。
近年来,互联网搜索引擎获得快速发展,利用互联网搜索引擎可以搜索获得大量信息。然而,针对一些特定信息内容,如企业或组织内部的规章制度、项目文档、工作经验等,作为企业或组织的知识存储,通常是无法通过互联网搜索引擎来搜索获得的。企业或组织经过多年的运作,积累了大量的运营、工作、生产、研发的经验与知识,这些信息内容散落在企业或组织的各个服务器、IT系统,甚至个人的电脑中,这些知识积累可以用于指导企业或组织员工行动、减少操作失误、提升工作效率、降低运营成本等。因此,如何快速、准确地让企业或组织的内部用户获得所需知识,是影响企业或组织运作的核心要件。
因此,需要基于企业或组织所积累的知识内容构建知识库,并进一步提供针对该知识库中知识内容的搜索处理方案。图1示意性示出了根据本公开实施例的可以应用搜索处理方法和装置的示例性系统架构100。需要注意的是,图1所示仅为可以应用本公开实施例的系统架构的示例,以帮助本领域技术人员理解本公开的技术内容,但并不意味着本公开实施例不可以用于其他设备、系统、环境或场景。
如图1所示,根据该实施例的系统架构100可以包括多个终端设备110、网络120和服务器130。其中,终端设备110可以是各种终端设备,例如台式机、便携式计算机、智能手机、平板电脑等,在此不做限制。服务器130可以是各种具有一定计算能力的电子设备,在此不做限制。服务器130可以包括搜索引擎131和知识库132。知识库132由多个文档(document)构成。响应于用户输入的搜索语句(query),终端设备110将搜索语句发送至服务器130中的搜索引擎131。搜索引擎131基于搜索语句与知识库中各文档进行匹配,以确定搜索结果并返回给终端设备110。
一种处理方式下,搜索引擎131在获取到用户输入的搜索语句后,基于搜索语句与知识库132中各文档之间的文本表面相关度(Surface Text Relatedness)来进行搜索结果的排序和召回。该搜索过程仅关注搜索语句和知识内容的表面字词、表面文本结构之间的关联性,缺少对知识内容的深层语义的挖掘和理解,缺少针对知识内容整体层面的相关度度量,也缺少对知识内容的多维度属性(例如质量、权威程度、时效性、文本内容、文本结构等)的理解和学习,从而导致搜索结果在准确度和用户满意度上有所欠缺。
根据本公开实施例,提供了一种搜索处理方法。下面通过图例对该方法进行示例性说明。应注意,以下方法中各个操作的序号仅作为该操作的表示以便描述,而不应被看作表示该各个操作的执行顺序。除非明确指出,否则该方法不需要完全按照所示顺序来执行。
图2示意性示出了根据本公开实施例的搜索处理方法的流程图。
如图2所示,该方法可以包括操作S210~操作S260。
在操作S210,获取搜索语句。
示例性地,根据本公开实施例的搜索处理方法可以在如图1所示的服务器侧实施。终端设备接收用户输入的搜索语句并将该搜索语句发送至服务器,使得服务器获取到该搜索语句。
在操作S220,确定知识库中存储的多个文档中的每个文档与搜索语句之间的语义相关度(Semantic Relatedness)。
示例性地,语义相关度基于文本深层语义信息来衡量文本间的关联关系,即在进行相关性度量时需要考虑字词在文本中的真实含义。例如,语义相关度可以包括语义相似度(Semantic Similarity),语义相似度的计算过程可以包括:针对任一文本,可以通过对文本中词语的上下文进行统计分析,动态地构建文本的语义表示。文本的语义表示例如可以包括文本的句向量,可以通过神经网络进行构建。然后基于两个文本的语义表示之间的相似度来确定该两个文本之间的语义相关度。
在操作S230,确定每个文档与搜索语句之间的表面文本相关度。
上文已经说明,表面文本相关度仅关注表面字词、表面文本结构间的关联性,而不对深层语义信息进行挖掘和理解。表面文本相关度例如可以包括浅层词粒度相关度、表面文本相似度(Surface Text Similarity)等。表面文本相似度可以直接针对文档中的原始文本进行计算,作用于字符串序列或字符组合,以文档中的文本和搜索语句中的文本的字符匹配程度或距离作为相关度的衡量标准。例如可以包括编辑距离(LevenshteinDistance,LD)、最长公共子序列(Longest Common Squence,LCS)、汉明距离(HammingDistance)、N元模型(N-Gram)等,在此不做限制。
在操作S240,基于每个文档的属性信息,确定针对每个文档的调节因子。
示例性地,属性信息可以从一个或多个维度来反映文档的特性。可以包括文档的先天属性信息,例如更新时间、文档的标题、文档的正文内容、文档的作者等,也可以包括文档被使用过程中所产生的后天属性信息,例如用户针对文档的行为数据等。
在操作S250,基于每个文档的语义相关度、表面文本相关度和调节因子,确定该文档的综合评分。
示例性地,基于属性信息所确定的调节因子可以用于调节根据搜索语句搜索得到的多个文档之间的排序关系。例如,将多个文档按照语义相关度进行降序排序,可以得到第一序列。将多个文档按照表面文本相关度进行降序排序,可以得到第二序列。在综合考虑语义相关度、表面文本相关度以及调节因子的情况下确定各个文档的综合评分,将多个文档按照综合评分进行降序排序,可以得到第三序列。由于引入了调节因子,使得第三序列与第一序列和第二序列均不相同,第三序列在融合第一序列和第二序列的基础上,还加入了由于文档在一个或多个维度的属性信息的不同而带来的不同程度的评价调整。从而使得多个文档的综合评分不仅能反映出文档与搜索语句的关联程度,还能够反映各文档的属性信息与当前搜索场景的匹配程度。例如,对于与搜索语句的关联程度相同的多个文档来说,质量较高、权威度较高、更新时间较近的文档能够获得更高的综合评分。
在操作S260,基于多个文档各自的综合评分,从多个文档中选取预定数量个文档,以作为针对搜索语句的搜索结果。
示例性地,可以预先设置基准评分,从多个文档中选取综合评分大于基准评分的预定数量个文档,作为针对搜索语句的搜索结果。或者,也可以直接对多个文档的综合评分进行降序排序,从中选择前预定数量个文档,作为针对搜索语句的搜索结果。
本领域技术人员可以理解,根据本公开实施例的搜索处理方法在基于获取到的搜索语句针对知识库中的文档进行搜索时,不仅需要确定搜索语句与文档之间的表面文本相关度,还需要确定搜索语句与文档之间的语义相关度,并根据各文档的属性信息来确定各文档的调节因子。然后综合考虑表面文本相关度、语义相关度和调节因子这三方面因素对各文档进行评估,以得到各文档的综合评分,再根据各文档的综合评分来确定搜索结果。该搜索过程不仅通过表面文本相关度来关注搜索语句和文档的表面字词、表面文本结构之间的关联性,还通过语义相关度对搜索语义和文档在深层语义方面的关联关系进行挖掘和理解,还通过调节因子对文档所具有的多维度属性进行理解和学习,以实现从文档整体层面进行相关度度量,使得搜索结果的准确度和用户满意度均有所提升。
图3示意性示出了根据本公开另一实施例的搜索处理方法的流程图,用于对上述操作S220确定每个文档与搜索语句之间的语义相关度的过程进行示例性说明。
如图3所示,上述确定知识库中每个文档与搜索语句之间的语义相关度的过程可以包括操作S221~操作S225。
在操作S221,获取搜索语句的句向量。
根据本公开的实施例,本操作S221可以利用预先构建的语言模型对搜索语句进行句向量提取,以得到搜索语句的句向量。示例性地,可以利用基于互联网大量数据语料预先训练得到NLP(Natural Language Processing,自然语言处理)语言模型来执行上述句向量提取任务。例如,可以使用深度学习预训练模型BERT(Bidirectional EncoderRepresentation from Transformers,基于转换器的双向编码表示)作为预先构建的NLP语言模型,从搜索语句中提取句子级别的向量表示(sentence embedding),即得到搜索语句的句向量。利用NLP语言模型进行句向量提取过程中可以关注到文本中的上下文关系,有利于针对文本的深层语义的学习,并且前期基于大量数据语料的预训练可以有效增强NLP语言模型的泛化能力。
在操作S222,获取每个文档的正文的语义特征向量和标题的句向量。
根据本公开的实施例,如图4A所示,以知识库中的任一文档D为例,上述操作S222中获取每个文档的正文的语义特征向量的过程例如可以包括操作S2221~操作S2226。
在操作S2221,基于文档D中文本的分布位置,按照从首至尾的顺序从文档D的正文中提取依次排列的M个文本片段,M为大于等于1的整数。
图4B示意性示出了根据本公开实施例的从文档中提取文本片段的示例示意图。如图4B所示,例如,文档D的正文410包括:“他给了我一本书,里面的情节很有趣”,上述从文档D的正文410中提取依次排列的M个文本片段的过程例如可以包括:从文档D的正文410的多个字符中去除预定字符(例如标点符号、停用词“的”、“了”、“很”等),以得到针对文档D的字符序列411:“他给我一本书里面情节有趣”。并且,利用第一滑动窗口421沿第一预定方向对该字符序列411进行扫描,以获得按照扫描顺序依次排列的M个文本片段412。其中,第一滑动窗口421沿扫描方向的尺寸等于M个文本片段412中的每个文本片段412的长度。例如,第一预定方向为字符序列从前至后的位置排序方向。第一滑动窗口421沿扫描方向的尺寸为6个汉字,第一滑动窗口421的扫描步长为6个汉字,则利用第一滑动窗口421扫描上述字符序列可以得到:第一文本片段“他给我一本书”412和第二文本片段“里面情节有趣”412。可以理解,依据本实施例所获取到的M个文本片段的的长度是相同的,以使得后续转换得到的M个句向量具有相同的空间维度数量,便于后续处理。
然后,继续参考图4A,在操作S2222,将依次排列的M个文本片段转换为依次排列的M个句向量。示例性地,与上述操作S221同理,可以利用基于互联网大量数据语料预先训练得到NLP语言模型来执行上述句向量提取任务。例如,可以使用深度学习预训练模型BERT作为预先构建的NLP语言模型,从文本片段中提取句子级别的向量表示,即得到文本片段的句向量。
图4C示意性示出了根据本公开实施例的将文本片段转换为句向量的示例示意图。如图4C所示,预先构建的NLP语言模型430可以包括输入层431、一个或多个隐藏层432和输出层433。在获得M个文本片段412之后,可以按照M个文本片段412的排列顺序,将M个文本片段412依次输入至预先构建的NLP语言模型430的输入层431,利用NLP语言模型430依次对M个文本片段412中的每个文本片段412进行句向量提取,由NLP语言模型430的输出层433输出依次排列的M个句向量413。其中,M个句向量413的排列顺序与M个文本片段412的排列顺序一致。
在获取到依次排列的M个句向量后,继续参考图4A,在操作S2223,可以基于M个句向量的排列顺序将M个句向量划分成多个分组,该多个分组中的每个分组包括P个句向量,P为大于等于1且小于等于M的整数。上述划分得到的多个分组可以用于表征文档D中的多个文本分块。
图4D示意性示出了根据本公开实施例的对句向量进行分组的示例示意图。如图4D所示,示例性地,利用第二滑动窗口422沿第二预定方向对M个句向量413进行扫描,以获得按照扫描顺序依次排列的多个分组414。其中,第二预定方向为M个句向量413的排列方向。
继续参考图4A,根据本公开的实施例,在将M个句向量划分得到多个分组后,可以执行操作S2224,针对多个分组中的每个分组,对该分组的P个句向量进行求和,以得到该分组的特征向量,用于表征与该分组相对应的文本分块的特征向量。例如,针对一个分组,在对该分组中的P个句向量X1~XP进行求和时,将句向量X1~XP各自在第i个空间维度的特征值进行求和,以得到该分组的特征向量在第i个空间维度的特征值,i为正整数。
在操作S2225,计算每个分组的特征向量与搜索语句的句向量之间的语义相关度。
例如,针对每个分组,可以通过衡量该分组的特征向量与搜索语句的句向量之间的相似程度来确定二者之间的语义相关度。例如,计算该分组的特征向量与搜索语句的句向量之间的余弦相似度(Cosine)以作为二者之间的语义相关度,计算该分组的特征向量与搜索语句的句向量之间的欧氏距离(Euclidean Distance)以作为二者之间的语义相关度,等等。任何可以计算向量表示之间相似度的计算方式均可,在此不做限制。
在操作S2226,以文档D的多个分组与搜索语句的句向量之间的语义相关度作为权重,对该文档D的多个分组的特征向量进行加权求和,以得到该文档D的正文的语义特征向量。
例如,针对一个文档D的M个分组Y1~YM,例如M个分组Y1~YM各自与搜索语句的句向量之间的语义相关度分别为α1~αM,则利用α1~αM作为权重,对M个分组Y1~YM各自在第i个空间维度的特征值进行加权求和,以得到该文档D的正文的语义特征向量在第i个空间维度的特征值。其中,M为正整数,i为正整数。在另一实施例中,也可以基于语义相关度α1~αM对M个分组Y1~YM进行排序,选取权重最高的分组的特征向量作为文档D的语义特征向量。
可以理解,上述确定文档D的语义特征向量的过程中,将多个文本片段的句向量融合为文本分块的特征向量,再将多个文本分块的特征向量融合为文档D的正文的的语义特征向量。该语义特征向量可以从全局视野来反映文档D的正文的整体语义信息。
根据本公开的实施例,上述获取文档D的标题的句向量的过程可以包括:利用预先构建的NLP语言模型对文档D的标题进行句向量提取,以得到标题的句向量。针对标题的句向量提取过程与上文中针对搜索语句、针对文档正文的句向量提取过程原理相同,上文已详细说明,在此不再赘述。
继续参考图3,在操作S223,计算每个文档的正文的语义特征向量与搜索语句的句向量之间的第一语义相关度。
在操作S224,计算每个文档的标题的句向量与搜索语句的句向量之间的第二语义相关度。
例如,上述计算第一语义相关度和第二语义相关度中的至少一项可以通过计算余弦相似度或欧式距离等相似度评价指标来确定。或者,利用邻近相似检索算法来确定上述第一语义相关度和第二语义相关度中的至少一项。
在操作S225,选取每个文档的第一语义相关度和第二语义相关度中最大的一项,以作为该文档与搜索语句之间的语义相关度。
在其他实施例中,针对每个文档,也可以仅计算该文档的正文的语义特征向量,并将该文档的正文的语义特征向量与搜索语句的句向量之间的第一语义相关度直接作为该文档与搜索语句之间的语义相关度。
图5示意性示出了根据本公开实施例的搜索处理方案的示例示意图。如图5所示,利用融合模型500对文档的综合评分的计算过程可以结合语义相关度510、文本相关度520以及一个或多个调节因子530。
下面对本公开实施例中根据每个文档的属性信息可以确定下面对确定针对每个文档的调节因子530的过程进行示例性说明。
由于文档质量的好坏直接关系到用户使用搜索引擎的体验,以及用户对搜索结果的满意度。此外,文档权威性的好坏,也会直接影响到用户对搜索结果的置信度。在本公开的一个实施例中,通过文章内容理解技术,对文章质量、文章权威度进行预估和衡量,并将质量预测因子和权威度预测因子引入最终综合评分,通过模型统一调权,提升搜索结果的质量及用户满意度。
在本公开的一个实施例中,对确定每个文档的质量预测因子的过程进行说明。每个文档的属性信息可以包括用于表征每个文档的质量属性的信息,例如包括:每个文档的第一指标数据和第一预定时段内针对每个文档的第一用户行为数据。如图5所示,基于文档的属性信息所确定的针对文档的调节因子530可以包括质量预测因子531。
上述操作S240确定针对每个文档的调节因子的过程可以包括:获取每个文档的第一指标数据和第一预定时段内针对每个文档的第一用户行为数据;将上述第一指标数据和第一用户行为数据转换为第一向量;并且,利用预先构建的质量预测模型,基于针对每个文档的第一向量来对每个文档进行质量预测,以获得针对每个文档的质量预测因子。
示例性地,可以利用深度神经网络(Deep Neural Networls,DNN)构建上述质量预测模型,基于样本文档的第一指标数据和第一用户行为数据转换为样本第一向量,利用样本第一向量和第一标签对质量预测模型进行训练,以得到优化的质量预测模型。第一标签用于表征样本文档的真实质量预测因子。
例如,第一指标数据可以包括如下至少一项:文档的正文的长度信息、文档所包含的图片数量、文档所包含的链接数量、文档所包含的表格数量以及文档的正文中的文本块的分布信息。其中,文本块的分布信息用于表征文档中文本块的分布疏密状态。例如,针对一个阅读顺序从上至下的文档D,可以利用第三滑动窗口对该文档D进行扫描,预设滑动窗口的滑动步长等于滑动窗口的高度,第三滑动窗口的扫描方向为从上至下。每移动一次第三滑动窗口,统计第三滑动窗口中的汉字数量,并与前一次第三滑动窗口中的汉字数量进行比较,如果汉字数量的增加量大于第一阈值则在第一特征值上累加1,如果汉字数量的减少量大于第二阈值则在第二特征值上累加1。第一特征值与第二特征值的初始值可以设置为0,直至扫描完成整个文档D。利用最终得到的第一特征值和第二特征值来表征文档D的文本块的分布信息。此外,第一用户行为数据包括如下至少一项:用户访问数量、用户点赞数量以及用户评论数量。
根据本公开的实施例,根据本公开实施例的搜索处理方法还可以包括对语义相关度进行修正的过程。示例性地,利用质量预测因子Sq和语义相关度Sα进行加权求和,以得到修正的语义相关度Sα‘,计算过程如公式(1)所示。
Sα‘=ω×Sα+(1-ω)×Sq
公式(1)
后续计算每个文档的综合评分可以基于该文档的上述修正的语义相关度、表面文本相关度和调节因子来计算得到。
在本公开的另一个实施例中,在本公开的一个实施例中,对确定每个文档的权威度预测因子的过程进行说明。每个文档的属性信息可以用于表征该文档的权威程度,例如可以包括:每个文档的第二指标数据和第二预定时段内针对每个文档的第二用户行为数据。如图5所示,调节因子530可以包括权威度预测因子532。
上述操作S240确定针对每个文档的调节因子的过程可以包括:获取每个文档的第二指标数据和第二预定时段内针对每个文档的第二用户行为数据;将上述第二指标数据和第二用户行为数据转换为第二向量;并且,利用预先构建的权威度预测模型,基于针对每个文档的第二向量来对每个文档进行权威度预测,以获得针对每个文档的权威度预测因子。
示例性地,可以利用DNN构建上述权威度预测模型,基于样本文档的第二指标数据和第二用户行为数据转换为样本第二向量,利用样本第二向量和第二标签对权威度预测模型进行训练,以得到优化的质量预测模型。其中,第二标签用于表征为样本文档所设置的真实权威度预测因子。
例如,第二指标数据可以包括如下至少一项:文档的知识分级信息、文档的知识类别信息、文档的目录层级信息、文档的标题中至少一个词的词性信息以及文档的正文中的关键词的词性信息。其中词性信息用于表征词性分布状况。并且,第二用户行为数据包括如下至少一项:用户评论内容、用户评论人数以及用户平均停留时长。
在本公开的另一个实施例中,由于搜索结果的时效性直接关系到结果内容的信息量以及用户对结果的满足度。根据本公开的实施例,通过模型拟合文章的时效性因子,在融合排序模型对搜索结果进行时效性干预,给相关度高的新内容新结果进行加权,降权陈旧内容,提升用户搜索的体验。
如图5所示,调节因子530可以包括时效性因子533。每个文档的属性信息可以包括每个文档的更新时间。针对更新时间不同的文档,时效性模型分为两部分,强时效模型(可称为第一时效模型)与弱时效模型(可称为第二时效模型)。第一时效模型用于对更新时间较早的文档进行时效性因子预测。第二时效性用于对更新时间较晚的文档进行时效性因子预测。
图6示意性示出了根据本公开另一实施例的搜索处理方法的流程图,用于对上述操作S240确定针对每个文档的调节因子的过程进行示例性说明。
如图6所示,示例性地,上述操作S240确定针对每个文档的调节因子的过程可以包括如下操作S241~操作S243。
在操作S241,确定每个文档的更新时间是否早于预定时间点。如果是,则执行操作S242。如果否,则执行操作S243。
在操作S242,利用预先构建的第一时效模型,基于每个文档的更新时间点以及预设半衰期区间来确定每个文档的时效性因子。
在操作S243,利用预先构建的第二时效模型,基于每个文档的更新时间、当前时间点以及第三预定时段内针对每个文档的第三用户行为数据来确定每个文档的时效性因子。
例如,可以通过基于更新时间的半衰期函数模型来构建第一时效模型,如公式(2)所示。
其中,α为时效性因子,t为文档的更新时间,T为可调参数,表示半衰期区间。
例如,可以通过退化函数模型来构建第二时效模型,如公式(3)所示。
其中,α为时效性因子,t为文档的更新时间,tn为当前时刻,S(tn,t)表示在当前时刻的在前第三预定时段内针对文档的第三用户行为数据。例如第三用户行为数据可以包括针对每个文档的用户点击量。
如图5所示,根据本公开的实施例,调节因子530可以包括第一统计因子534。每个文档的属性信息包括每个文档中的关键词。上述操作240确定针对每个文档的调节因子的过程可以包括:提取搜索语句中的多个第一关键词,基于多个第一关键词各自的词频-逆文档频率特征,构建第三向量;提取每个文档的标题中的多个第二关键词,基于多个第二关键词各自的词频-逆文档频率特征,构建第四向量;提取每个文档的正文中的多个第三关键词,基于多个第三关键词各自的词频-逆文档频率特征,确定每个文档中的主题段落,并基于主题段落中的第三关键词各自的词频-逆文档频率特征,构建第五向量;并且,基于第三向量和第四向量之间的第一相似度、以及第三向量和第五向量之间的第二相似度,确定第一统计因子。
继续参考图5,根据本公开的实施例,调节因子530可以包括第二统计因子535。每个文档的属性信息包括每个文档的标题和正文。上述确定针对每个文档的调节因子包括:基于可插拔的相似度算法(Pluggable Similarity Algorithms),计算搜索语句与每个文档的标题之间的第三相似度;基于可插拔的相似度算法,计算搜索语句与每个文档的正文之间的第四相似度;并且,基于第三相似度和第四相似度,确定所述第二统计因子。例如,基于BM25相似度算法,计算搜索语句与每个文档的标题之间的第一BM25值;基于BM25相似度算法,计算搜索语句与每个文档的正文之间的第二BM25值;并且,基于第一BM25值和第二BM25值,确定第二统计因子。
根据本公开的实施例,可以预先构建得到融合模型。如图5所示,将样本文档的质量预测因子、权威度预测因子、时效性因子、第一统计因子和第二统计因子中的至少一项、以及表面文本相关度和语义文本相关度加入融合模型,基于输出的针对文档的综合评分和标注标签来对融合模型的参数进行不断优化调整,直至融合模型的目标函数实现收敛,从而得到最终的融合模型。
根据本公开的实施例,上述基于每个文档的语义相关度、表面文本相关度和调节因子,确定每个文档的综合评分的过程可以包括:如图5所示,将各个文档的质量预测因子、权威度预测因子、时效性因子、第一统计因子和第二统计因子中的至少一项、以及表面文本相关度和语义文本相关度加入融合模型,利用预先构建的融合模型对每个文档的语义相关度、表面文本相关度和调节因子进行融合处理,以获得每个文档的综合评分,进而按照综合评分可以对文本进行排序,得到文本的排序结果。可以理解,通过融合模型预测的排序结果,考虑到表面文本相关性、语义相关性、质量、权威性、时效性等方面,使得排序结果更加合理,符合用户需求。
图7示意性示出了根据本公开实施例的搜索处理装置的框图。
如图7所示,搜索处理装置700可以包括:获取模块710、第一确定模块720、第二确定模块730、第三确定模块740、综合评分模块750和结果选取模块760。
获取模块710用于获取搜索语句。
第一确定模块720用于确定知识库中存储的多个文档中的每个文档与搜索语句之间的语义相关度。
第二确定模块730用于确定每个文档与搜索语句之间的表面文本相关度。
第三确定模块740用于基于每个文档的属性信息,确定针对每个文档的调节因子。
综合评分模块750用于基于每个文档的语义相关度、表面文本相关度和调节因子,确定该文档的综合评分。
结果选取模块760用于基于多个文档各自的综合评分,从多个文档中选取预定数量个文档,以作为针对搜索语句的搜索结果。
需要说明的是,装置部分实施例中各模块/单元/子单元等的实施方式、解决的技术问题、实现的功能、以及达到的技术效果分别与方法部分实施例中各对应的步骤的实施方式、解决的技术问题、实现的功能、以及达到的技术效果相同或类似,在此不再赘述。
根据本公开的实施例的模块、子模块、单元、子单元中的任意多个、或其中任意多个的至少部分功能可以在一个模块中实现。根据本公开实施例的模块、子模块、单元、子单元中的任意一个或多个可以被拆分成多个模块来实现。根据本公开实施例的模块、子模块、单元、子单元中的任意一个或多个可以至少被部分地实现为硬件电路,例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC),或可以通过对电路进行集成或封装的任何其他的合理方式的硬件或固件来实现,或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者,根据本公开实施例的模块、子模块、单元、子单元中的一个或多个可以至少被部分地实现为计算机程序模块,当该计算机程序模块被运行时,可以执行相应的功能。
图8示意性示出了根据本公开实施例的适于实现上文描述的方法的计算机设备的框图。图8示出的计算机设备仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图8所示,根据本公开实施例的计算机设备800包括处理器801,其可以根据存储在只读存储器(ROM)802中的程序或者从存储部分808加载到随机访问存储器(RAM)803中的程序而执行各种适当的动作和处理。处理器801例如可以包括通用微处理器(例如CPU)、指令集处理器和/或相关芯片组和/或专用微处理器(例如,专用集成电路(ASIC)),等等。处理器801还可以包括用于缓存用途的板载存储器。处理器801可以包括用于执行根据本公开实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。
在RAM 803中,存储有设备800操作所需的各种程序和数据。处理器801、ROM 802以及RAM 803通过总线804彼此相连。处理器801通过执行ROM 802和/或RAM 803中的程序来执行根据本公开实施例的方法流程的各种操作。需要注意,所述程序也可以存储在除ROM 802和RAM 803以外的一个或多个存储器中。处理器801也可以通过执行存储在所述一个或多个存储器中的程序来执行根据本公开实施例的方法流程的各种操作。
根据本公开的实施例,设备800还可以包括输入/输出(I/O)接口805,输入/输出(I/O)接口805也连接至总线804。设备800还可以包括连接至I/O接口805的以下部件中的一项或多项:包括键盘、鼠标等的输入部分806;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分807;包括硬盘等的存储部分808;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分809。通信部分809经由诸如因特网的网络执行通信处理。驱动器810也根据需要连接至I/O接口805。可拆卸介质811,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器810上,以便于从其上读出的计算机程序根据需要被安装入存储部分808。
本公开还提供了一种计算机程序产品,所述计算机程序产品包括计算机程序,所述计算机程序在被处理器执行时可以实现上述任意实施例的方法。根据本公开的实施例,根据本公开实施例的方法流程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读存储介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分809从网络上被下载和安装,和/或从可拆卸介质811被安装。在该计算机程序被处理器801执行时,执行本公开实施例的系统中限定的上述功能。根据本公开的实施例,上文描述的系统、设备、装置、模块、单元等可以通过计算机程序模块来实现。
本公开还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中描述的设备/装置/系统中所包含的;也可以是单独存在,而未装配入该设备/装置/系统中。上述计算机可读存储介质承载有一个或者多个程序,当上述一个或者多个程序被执行时,实现根据本公开实施例的方法。
根据本公开的实施例,计算机可读存储介质可以是非易失性的计算机可读存储介质,例如可以包括但不限于:便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。例如,根据本公开的实施例,计算机可读存储介质可以包括上文描述的ROM 802和/或RAM 803和/或ROM 802和RAM 803以外的一个或多个存储器。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
本领域技术人员可以理解,本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合,即使这样的组合或结合没有明确记载于本公开中。特别地,在不脱离本公开精神和教导的情况下,本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合。所有这些组合和/或结合均落入本公开的范围。
以上对本公开的实施例进行了描述。但是,这些实施例仅仅是为了说明的目的,而并非为了限制本公开的范围。尽管在以上分别描述了各实施例,但是这并不意味着各个实施例中的措施不能有利地结合使用。本公开的范围由所附权利要求及其等同物限定。不脱离本公开的范围,本领域技术人员可以做出多种替代和修改,这些替代和修改都应落在本公开的范围之内。
Claims (18)
1.一种搜索处理方法,包括:
获取搜索语句;
确定知识库中存储的多个文档中的每个文档与所述搜索语句之间的语义相关度;
确定所述每个文档与所述搜索语句之间的表面文本相关度;
基于所述每个文档的属性信息,确定针对所述每个文档的调节因子;
基于所述语义相关度、所述表面文本相关度和所述调节因子,确定所述每个文档的综合评分;以及
基于所述多个文档各自的综合评分,从所述多个文档中选取预定数量个文档,以作为针对所述搜索语句的搜索结果;
其中,所述确定知识库中存储的多个文档中的每个文档与所述搜索语句之间的语义相关度包括:
获取所述搜索语句的句向量;
获取所述每个文档的正文的语义特征向量和标题的句向量;
计算所述每个文档的正文的语义特征向量与所述搜索语句的句向量之间的第一语义相关度;
计算所述每个文档的标题的句向量与所述搜索语句的句向量之间的第二语义相关度;以及
选取所述第一语义相关度和所述第二语义相关度中最大的一项,以作为所述每个文档与所述搜索语句之间的语义相关度;
其中,获取所述每个文档的正文的语义特征向量包括:
从所述每个文档的正文中提取依次排列的M个文本片段,M为大于等于1的整数;
将所述M个文本片段转换为依次排列的M个句向量;
将所述M个句向量划分成多个分组,所述多个分组中的每个分组包括P个句向量,所述P为大于等于1且小于等于M的整数;
将所述每个分组的所述P个句向量进行求和,以得到所述每个分组的特征向量;
计算所述每个分组的特征向量与所述搜索语句的句向量之间的第三语义相关度;以及
以所述第三语义相关度作为权重,对所述多个分组的特征向量进行加权求和,以得到所述每个文档的正文的语义特征向量。
2. 根据权利要求1所述的方法,其中,所述从所述每个文档的正文中提取依次排列的M个文本片段包括:
从所述每个文档的正文的多个字符中去除预定字符,以得到针对所述每个文档的字符序列;以及
利用第一滑动窗口沿第一预定方向对所述字符序列进行扫描,以获得按照扫描顺序依次排列的所述M个文本片段,其中,所述第一滑动窗口沿扫描方向的尺寸等于所述M个文本片段中的每个文本片段的长度。
3.根据权利要求1所述的方法,其中,所述将所述M个文本片段转换为依次排列的M个句向量包括:
按照所述M个文本片段的排列顺序,利用预先构建的语言模型依次对所述M个文本片段中的每个文本片段进行句向量提取,以得到依次排列的M个句向量。
4.根据权利要求1所述的方法,其中,所述将所述M个句向量划分成多个分组包括:
利用第二滑动窗口沿第二预定方向对所述M个句向量进行扫描,以获得按照扫描顺序依次排列的多组句向量。
5.根据权利要求1所述的方法,其中,所述获取所述搜索语句的句向量包括:
利用预先构建的语言模型对所述搜索语句进行句向量提取,以得到所述搜索语句的句向量。
6.根据权利要求1所述的方法,其中,获取所述每个文档的标题的句向量包括:利用预先构建的语言模型对所述标题进行句向量提取,以得到所述标题的句向量。
7.根据权利要求1所述的方法,其中,所述调节因子包括质量预测因子,所述属性信息包括:所述每个文档的第一指标数据和第一预定时段内针对所述每个文档的第一用户行为数据;
所述确定针对所述每个文档的调节因子包括:
获取所述每个文档的第一指标数据和第一预定时段内针对所述每个文档的第一用户行为数据;
将所述第一指标数据和所述第一用户行为数据转换为第一向量;以及
利用预先构建的质量预测模型,基于所述第一向量来对所述每个文档进行质量预测,以获得针对所述每个文档的质量预测因子。
8. 根据权利要求7所述的方法,其中,
所述第一指标数据包括如下至少一项:文档的正文的长度信息、文档所包含的图片数量、文档所包含的链接数量、文档所包含的表格数量、以及文档的正文中的文本块的分布信息;并且
所述第一用户行为数据包括如下至少一项:用户访问数量、用户点赞数量、以及用户评论数量。
9.根据权利要求7所述的方法,还包括:
利用所述质量预测因子和所述语义相关度进行加权求和,以得到修正的语义相关度,所述每个文档的综合评分是基于所述修正的语义相关度、所述表面文本相关度和所述调节因子来计算得到的。
10.根据权利要求1所述的方法,其中,所述调节因子包括权威度预测因子,所述属性信息包括:所述每个文档的第二指标数据和第二预定时段内针对所述每个文档的第二用户行为数据;
所述确定针对所述每个文档的调节因子包括:
获取所述每个文档的第二指标数据和第二预定时段内针对所述每个文档的第二用户行为数据;
将所述第二指标数据和所述第二用户行为数据转换为第二向量;以及
利用预先构建的权威度预测模型,基于所述第二向量来对所述每个文档进行权威度预测,以获得针对所述每个文档的权威度预测因子。
11. 根据权利要求10所述的方法,其中,
所述第二指标数据包括如下至少一项:文档的知识分级信息、文档的知识类别信息、文档的目录层级信息、文档的标题中至少一个词的词性信息、以及文档的正文中的关键词的词性信息;并且
所述第二用户行为数据包括如下至少一项:用户评论内容、用户评论人数、以及用户平均停留时长。
12.根据权利要求1所述的方法,其中,所述调节因子包括时效性因子,所述属性信息包括所述每个文档的更新时间;
所述确定针对所述每个文档的调节因子包括:
确定所述每个文档的更新时间是否早于预定时间点;
如果是,则利用预先构建的第一时效模型,基于所述更新时间以及预设半衰期区间来确定所述每个文档的时效性因子;以及
如果否,则利用预先构建的第二时效模型,基于所述更新时间、当前时间点以及第三预定时段内针对所述每个文档的第三用户行为数据来确定所述每个文档的时效性因子。
13.根据权利要求1所述的方法,其中,所述调节因子包括第一统计因子,所述属性信息包括所述每个文档中的关键词;
所述确定针对所述每个文档的调节因子包括:
提取所述搜索语句中的多个第一关键词,基于所述多个第一关键词各自的词频-逆文档频率特征,构建第三向量;
提取所述每个文档的标题中的多个第二关键词,基于所述多个第二关键词各自的词频-逆文档频率特征,构建第四向量;
提取所述每个文档的正文中的多个第三关键词,基于所述多个第三关键词各自的词频-逆文档频率特征,确定所述每个文档中的主题段落,并基于所述主题段落中的第三关键词各自的词频-逆文档频率特征,构建第五向量;以及
基于所述第三向量和所述第四向量之间的第一相似度、以及所述第三向量和所述第五向量之间的第二相似度,确定所述第一统计因子。
14.根据权利要求1所述的方法,其中,所述调节因子包括第二统计因子,所述属性信息包括所述每个文档的标题和正文;
所述确定针对所述每个文档的调节因子包括:
基于可插拔的相似度算法,计算所述搜索语句与所述每个文档的标题之间的第三相似度;
基于可插拔的相似度算法,计算所述搜索语句与所述每个文档的正文之间的第四相似度;以及
基于所述第三相似度和所述第四相似度,确定所述第二统计因子。
15.根据权利要求1~14中任一项所述的方法,其中,所述基于所述语义相关度、所述表面文本相关度和所述调节因子,确定所述每个文档的综合评分包括:
利用预先构建的融合模型对所述语义相关度、所述表面文本相关度和所述调节因子进行融合处理,以获得所述每个文档的综合评分。
16.一种搜索处理装置,包括:
获取模块,用于获取搜索语句;
第一确定模块,用于确定知识库中存储的多个文档中的每个文档与所述搜索语句之间的语义相关度;
第二确定模块,用于确定所述每个文档与所述搜索语句之间的表面文本相关度;
第三确定模块,用于基于所述每个文档的属性信息,确定针对所述每个文档的调节因子;
综合评分模块,用于基于所述语义相关度、所述表面文本相关度和所述调节因子,确定所述每个文档的综合评分;以及
结果选取模块,用于基于所述多个文档各自的综合评分,从所述多个文档中选取预定数量个文档,以作为针对所述搜索语句的搜索结果;
其中,所述第一确定模块确定知识库中存储的多个文档中的每个文档与所述搜索语句之间的语义相关度包括:
获取所述搜索语句的句向量;
获取所述每个文档的正文的语义特征向量和标题的句向量;
计算所述每个文档的正文的语义特征向量与所述搜索语句的句向量之间的第一语义相关度;
计算所述每个文档的标题的句向量与所述搜索语句的句向量之间的第二语义相关度;以及
选取所述第一语义相关度和所述第二语义相关度中最大的一项,以作为所述每个文档与所述搜索语句之间的语义相关度;
其中,获取所述每个文档的正文的语义特征向量包括:
从所述每个文档的正文中提取依次排列的M个文本片段,M为大于等于1的整数;
将所述M个文本片段转换为依次排列的M个句向量;
将所述M个句向量划分成多个分组,所述多个分组中的每个分组包括P个句向量,所述P为大于等于1且小于等于M的整数;
将所述每个分组的所述P个句向量进行求和,以得到所述每个分组的特征向量;
计算所述每个分组的特征向量与所述搜索语句的句向量之间的第三语义相关度;以及
以所述第三语义相关度作为权重,对所述多个分组的特征向量进行加权求和,以得到所述每个文档的正文的语义特征向量。
17. 一种计算机设备,包括:
存储器,其上存储有计算机指令;以及
至少一个处理器;
其中,所述处理器执行所述计算机指令时实现根据权利要求1~15中任一项所述的方法。
18.一种计算机可读存储介质,其上存储有计算机指令,所述计算机指令被处理器执行时实现根据权利要求1~15中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010577892.7A CN111753167B (zh) | 2020-06-22 | 2020-06-22 | 搜索处理方法、装置、计算机设备和介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010577892.7A CN111753167B (zh) | 2020-06-22 | 2020-06-22 | 搜索处理方法、装置、计算机设备和介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111753167A CN111753167A (zh) | 2020-10-09 |
CN111753167B true CN111753167B (zh) | 2024-01-12 |
Family
ID=72675667
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010577892.7A Active CN111753167B (zh) | 2020-06-22 | 2020-06-22 | 搜索处理方法、装置、计算机设备和介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111753167B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112507866B (zh) * | 2020-12-03 | 2021-07-13 | 润联软件系统(深圳)有限公司 | 一种汉字字向量生成方法、装置、计算机设备及存储介质 |
CN112765321A (zh) * | 2021-01-22 | 2021-05-07 | 中信银行股份有限公司 | 接口查询方法及装置、设备、计算机可读存储介质 |
CN113254623B (zh) * | 2021-06-23 | 2024-02-20 | 中国银行股份有限公司 | 数据处理方法、装置、服务器、介质及产品 |
CN113342980B (zh) * | 2021-06-29 | 2024-05-17 | 中国平安人寿保险股份有限公司 | Ppt文本挖掘的方法、装置、计算机设备及存储介质 |
CN113836918A (zh) * | 2021-09-29 | 2021-12-24 | 天翼物联科技有限公司 | 文档搜索方法、装置、计算机设备及计算机可读存储介质 |
CN114912431A (zh) * | 2022-06-01 | 2022-08-16 | 北京金山数字娱乐科技有限公司 | 文档搜索方法及装置 |
CN115630144B (zh) * | 2022-12-21 | 2023-04-28 | 中信证券股份有限公司 | 一种文档搜索方法、装置及相关设备 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1363207A2 (en) * | 2002-05-17 | 2003-11-19 | Xerox Corporation | Systems and methods for authoritativeness grading, estimation and sorting of documents in large heterogeneous document collections |
CN101477556A (zh) * | 2009-01-22 | 2009-07-08 | 苏州智讯科技有限公司 | 一种从互联网海量信息中发现热点的方法 |
CN103942265A (zh) * | 2014-03-26 | 2014-07-23 | 北京奇虎科技有限公司 | 推送包含新闻信息的网页的方法和装置 |
CN104899322A (zh) * | 2015-06-18 | 2015-09-09 | 百度在线网络技术(北京)有限公司 | 搜索引擎及其实现方法 |
CN107229738A (zh) * | 2017-06-18 | 2017-10-03 | 杭州电子科技大学 | 一种基于文档评分模型和相关度的学术论文搜索排序方法 |
CN107491547A (zh) * | 2017-08-28 | 2017-12-19 | 北京百度网讯科技有限公司 | 基于人工智能的搜索方法和装置 |
CN110134760A (zh) * | 2019-05-17 | 2019-08-16 | 北京思维造物信息科技股份有限公司 | 一种搜索方法、装置、设备及介质 |
CN110222203A (zh) * | 2019-06-19 | 2019-09-10 | 深圳前海微众银行股份有限公司 | 元数据搜索方法、装置、设备及计算机可读存储介质 |
CN110659921A (zh) * | 2018-06-28 | 2020-01-07 | 上海传漾广告有限公司 | 一种网络广告受众行为与受众兴趣关联的分析方法及系统 |
CN111079442A (zh) * | 2019-12-20 | 2020-04-28 | 北京百度网讯科技有限公司 | 文档的向量化表示方法、装置和计算机设备 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107491518B (zh) * | 2017-08-15 | 2020-08-04 | 北京百度网讯科技有限公司 | 一种搜索召回方法和装置、服务器、存储介质 |
-
2020
- 2020-06-22 CN CN202010577892.7A patent/CN111753167B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1363207A2 (en) * | 2002-05-17 | 2003-11-19 | Xerox Corporation | Systems and methods for authoritativeness grading, estimation and sorting of documents in large heterogeneous document collections |
CN101477556A (zh) * | 2009-01-22 | 2009-07-08 | 苏州智讯科技有限公司 | 一种从互联网海量信息中发现热点的方法 |
CN103942265A (zh) * | 2014-03-26 | 2014-07-23 | 北京奇虎科技有限公司 | 推送包含新闻信息的网页的方法和装置 |
CN104899322A (zh) * | 2015-06-18 | 2015-09-09 | 百度在线网络技术(北京)有限公司 | 搜索引擎及其实现方法 |
CN107229738A (zh) * | 2017-06-18 | 2017-10-03 | 杭州电子科技大学 | 一种基于文档评分模型和相关度的学术论文搜索排序方法 |
CN107491547A (zh) * | 2017-08-28 | 2017-12-19 | 北京百度网讯科技有限公司 | 基于人工智能的搜索方法和装置 |
CN110659921A (zh) * | 2018-06-28 | 2020-01-07 | 上海传漾广告有限公司 | 一种网络广告受众行为与受众兴趣关联的分析方法及系统 |
CN110134760A (zh) * | 2019-05-17 | 2019-08-16 | 北京思维造物信息科技股份有限公司 | 一种搜索方法、装置、设备及介质 |
CN110222203A (zh) * | 2019-06-19 | 2019-09-10 | 深圳前海微众银行股份有限公司 | 元数据搜索方法、装置、设备及计算机可读存储介质 |
CN111079442A (zh) * | 2019-12-20 | 2020-04-28 | 北京百度网讯科技有限公司 | 文档的向量化表示方法、装置和计算机设备 |
Non-Patent Citations (3)
Title |
---|
Document retrieval using entity-based language models;Raviv H 等;ACM Press;全文 * |
基于代码结构知识的软件文档语义搜索方法;林泽琦;邹艳珍;赵俊峰;曹英魁;谢冰;;软件学报(第12期);全文 * |
基于模糊概念和粗糙集的用户兴趣模型研究;杨忠;;时代金融(第10期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN111753167A (zh) | 2020-10-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111753167B (zh) | 搜索处理方法、装置、计算机设备和介质 | |
CN111475729B (zh) | 搜索内容推荐方法及装置 | |
US9846836B2 (en) | Modeling interestingness with deep neural networks | |
CN112131350B (zh) | 文本标签确定方法、装置、终端及可读存储介质 | |
US10217058B2 (en) | Predicting interesting things and concepts in content | |
CN110019732B (zh) | 一种智能问答方法以及相关装置 | |
CN110929038B (zh) | 基于知识图谱的实体链接方法、装置、设备和存储介质 | |
US20130060769A1 (en) | System and method for identifying social media interactions | |
CN104899322A (zh) | 搜索引擎及其实现方法 | |
CN106708929B (zh) | 视频节目的搜索方法和装置 | |
WO2011152925A2 (en) | Detection of junk in search result ranking | |
CN113434636B (zh) | 基于语义的近似文本搜索方法、装置、计算机设备及介质 | |
CN111475725A (zh) | 用于搜索内容的方法、装置、设备和计算机可读存储介质 | |
AU2018226420B2 (en) | Voice assisted intelligent searching in mobile documents | |
US20090327877A1 (en) | System and method for disambiguating text labeling content objects | |
CN106570196B (zh) | 视频节目的搜索方法和装置 | |
CN115248839A (zh) | 一种基于知识体系的长文本检索方法以及装置 | |
CN111382563A (zh) | 文本相关性的确定方法及装置 | |
CN111274366A (zh) | 搜索推荐方法及装置、设备、存储介质 | |
CN111259156A (zh) | 一种面向时间序列的热点聚类方法 | |
CN111460177B (zh) | 影视类表情搜索方法、装置、存储介质、计算机设备 | |
Shah et al. | An automatic text summarization on Naive Bayes classifier using latent semantic analysis | |
US20230282018A1 (en) | Generating weighted contextual themes to guide unsupervised keyphrase relevance models | |
CN115630144A (zh) | 一种文档搜索方法、装置及相关设备 | |
Yang et al. | Court similar case recommendation model based on word embedding and word frequency |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |