CN114186023A - 针对特定搜索场景的搜索处理方法、装置、设备及介质 - Google Patents

针对特定搜索场景的搜索处理方法、装置、设备及介质 Download PDF

Info

Publication number
CN114186023A
CN114186023A CN202111516197.0A CN202111516197A CN114186023A CN 114186023 A CN114186023 A CN 114186023A CN 202111516197 A CN202111516197 A CN 202111516197A CN 114186023 A CN114186023 A CN 114186023A
Authority
CN
China
Prior art keywords
search
relevance
tag
marked
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111516197.0A
Other languages
English (en)
Other versions
CN114186023B (zh
Inventor
陈增
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jindi Technology Co Ltd
Original Assignee
Beijing Jindi Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jindi Technology Co Ltd filed Critical Beijing Jindi Technology Co Ltd
Priority to CN202111516197.0A priority Critical patent/CN114186023B/zh
Publication of CN114186023A publication Critical patent/CN114186023A/zh
Application granted granted Critical
Publication of CN114186023B publication Critical patent/CN114186023B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开提供了一种针对特定搜索场景的搜索处理方法、装置、设备及介质,涉及人工智能和互联网技术领域,具体涉及智能搜索和智能推荐等技术领域。该方法包括:对涉及特定搜索场景的搜索语句中的至少一个分词进行语义标签的标注,以获得与搜索语句关联的至少一个第一语义标签;获取与涉及特定搜索场景的搜索文本关联的至少一个第二语义标签;基于至少一个第一语义标签和至少一个第二语义标签,确定并输出用于表征搜索语句中标注有目标语义标签的分词与搜索文本中标注有目标语义标签的分词之间的相关性的第一相关性表征数据;基于第一相关性表征数据,确定并输出用于表征搜索语句与搜索文本之间的相关性的第二相关性表征数据。

Description

针对特定搜索场景的搜索处理方法、装置、设备及介质
技术领域
本公开实施例涉及互联网技术领域,具体涉及智能搜索和智能推荐等技术领域,可应用于涉及企业、机构、学校等实体的搜索场景,尤其涉及一种针对特定搜索场景的搜索处理方法、装置、电子设备及计算机存储介质。
背景技术
随着互联网网站页面的激增和用户队伍的不断壮大,搜索引擎越来越成为人们上网浏览时的重要工具。目前,在进行目标搜索时,用户可以在搜索引擎或门户网站中输入搜索语句,搜索引擎或门户网站根据输入的搜索语句进行相关信息的搜索,将多条搜索结果展示在网页中。这样,用户就可以在网页中逐条筛选所需的信息。其中,搜索结果包括搜索文本的链接地址,用户点击网页中的搜索文本的链接地址,可以展示根据搜索语句搜索得到的搜索文本。
在搜索业务中,相关性指的是搜索引擎反馈的搜索结果和用户真正的搜索需求是否匹配,即能否满足用户的真实搜索需求,因此,相关性是比较重要的特征。相关性用于搜索业务的各个环节,例如,召回、粗排、精排等。但是在不同的搜索业务中,数据多种多样,行业领域差异化明显,采用不同的算法对不同的搜索业务进行优化,往往能更大程度上提升整体的搜索效果。例如,在搜索企业信息的场景下(如,搜索某个企业),涉及企业搜索场景的搜索语句(以下简称企业搜索语句)一般比较短,并且带有较强的企业语义信息,现有的统计方法在计算企业搜索文本的相关性时,缺少对企业搜索语句的语义理解,导致针对企业搜索文本的相关性的计算结果的准确度不高。
由此可见,如何有效提高搜索文本的相关性的准确度成为当前亟待解决的技术问题。
发明内容
有鉴于此,本公开实施例提供了一种针对特定搜索场景的搜索处理方法、装置、电子设备及计算机存储介质。
根据本公开实施例的第一方面,提供了一种针对特定搜索场景的搜索处理方法,所述方法包括:对涉及特定搜索场景的搜索语句中的至少一个分词进行语义标签的标注,以获得与所述搜索语句关联的至少一个第一语义标签;获取与涉及所述特定搜索场景的搜索文本关联的至少一个第二语义标签,其中,所述至少一个第二语义标签是基于所述搜索文本中的至少一个分词进行语义标签的标注得到的;基于所述至少一个第一语义标签和所述至少一个第二语义标签,确定并输出用于表征所述搜索语句中标注有目标语义标签的分词与所述搜索文本中标注有所述目标语义标签的分词之间的相关性的第一相关性表征数据;基于所述第一相关性表征数据,确定并输出用于表征所述搜索语句与所述搜索文本之间的相关性的第二相关性表征数据。
根据本公开实施例的第二方面,提供了一种针对特定搜索场景的搜索处理装置,所述装置包括:标注模块,用于对涉及特定搜索场景的搜索语句中的至少一个分词进行语义标签的标注,以获得与所述搜索语句关联的至少一个第一语义标签;获取模块,用于获取与涉及所述特定搜索场景的搜索文本关联的至少一个第二语义标签,其中,所述至少一个第二语义标签是基于所述搜索文本中的至少一个分词进行语义标签的标注得到的;第一确定模块,用于基于所述至少一个第一语义标签和所述至少一个第二语义标签,确定并输出用于表征所述搜索语句中标注有目标语义标签的分词与所述搜索文本中标注有所述目标语义标签的分词之间的相关性的第一相关性表征数据;第二确定模块,用于基于所述第一相关性表征数据,确定并输出用于表征所述搜索语句与所述搜索文本之间的相关性的第二相关性表征数据。
根据本公开实施例的第三方面,提供了一种电子设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如第一方面所述的方法。
根据本公开实施例的第四方面,提供了一种计算机存储介质,其上存储有计算机程序,该程序被处理器执行时实现如第一方面所述的方法。
根据本公开实施例的第五方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据第一方面所述的方法。
附图说明
为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开实施例中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1A为本实施例一中针对特定搜索场景的搜索处理方法的流程图;
图1B为根据本实施例一的针对企业搜索文本与搜索语句的相关性的计算过程的示意图;
图2为本实施例二中针对特定搜索场景的搜索处理装置的框图;
图3为本实施例三中电子设备的框图。
具体实施方式
为了使本领域的人员更好地理解本公开实施例中的技术方案,下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本公开实施例一部分实施例,而不是全部的实施例。基于本公开实施例中的实施例,本领域普通技术人员所获得的所有其他实施例,都应当属于本公开实施例保护的范围。
下面结合附图和具体实施例进一步说明本公开。
参照图1A,示出了本实施例一中针对特定搜索场景的搜索处理方法的流程图。
本实施例提供的针对特定搜索场景的搜索处理方法包括以下步骤:
在步骤S101中,对涉及特定搜索场景的搜索语句中的至少一个分词进行语义标签的标注,以获得与所述搜索语句关联的至少一个第一语义标签。
在本实施例中,所述特定搜索场景可以包括企业搜索场景、事业单位搜索场景、银行机构搜索场景,或者学校搜索场景等。所述搜索语句可理解为输入到搜索引擎中或者门户网站中用于搜索信息的语句,例如,“某某公司”、“某某代理机构”等。所述搜索语句中的分词可为所述搜索语句中的词语或者短语等。所述第一语义标签可包括涉及特定搜索场景的以下中的至少一者:地址标签、字号标签、行业标签、后缀标签、人名标签。比如,以企业搜索场景为例,所述第一语义标签可包括以下中的至少一者:企业地址标签、企业字号标签、企业行业标签、企业后缀标签、企业人名标签。可以理解的是,以上描述仅为示例性的,本实施例对此不做任何限定。
在一个具体的例子中,在搜索企业信息的场景下,企业搜索语句和企业语义信息相关。根据企业名称的语义组成,可以将企业语义标签具体设计为企业地址标签、企业字号标签、企业行业标签、企业后缀标签、企业人名标签等。各个标签对于企业语义的贡献程度不同,在相同标签域内,可以计算企业搜索语句中的相关分词与企业搜索文本中对应的分词之间的相关性,再进行聚合。所述企业搜索语句中被企业地址标签标注的企业地址信息可以进一步细化,分为省、市、县等不同层级。所述企业搜索语句中被企业行业标签标注的企业行业信息可以进行聚类或者分类,将企业行业信息规整化。可以理解的是,以上描述仅为示例性的,本实施例对此不做任何限定。
在一些可选实施例中,在对涉及特定搜索场景的搜索语句中的至少一个分词进行语义标签的标注时,可以通过语义标签标注模型,对搜索语句中的至少一个分词进行语义标签的标注,以获得与所述搜索语句关联的至少一个第一语义标签,其中,该至少一个第一语义标签与该至少一个分词一一对应。因此,通过语义标签标注模型,对搜索语句中的至少一个分词进行语义标签的标注,能够快速、准确地获得与所述搜索语句关联的至少一个第一语义标签。可以理解的是,以上描述仅为示例性的,本实施例对此不做任何限定。
在一个具体的例子中,所述语义标签标注模型可以是任意适当的可实现特征提取或目标对象检测的神经网络模型,包括但不限于卷积神经网络、增强学习神经网络、对抗神经网络中的生成网络等。神经网络中具体结构的设置可以由本领域技术人员根据实际需求适当设定,如卷积层的层数、卷积核的大小、通道数等。在搜索企业信息的场景下,所述语义标签标注模型可以为企业语义标签标注模型。所述企业语义标签标注模型可为IDCNN-NER(Iterated Dilated Convolutional Neural Networks-Named Entity Recognition,用于命名实体识别的迭代膨胀卷积神经网络)模型,按照企业语义标签的标签类别,提取企业搜索语句和企业搜索文本中的企业语义标签数据,IDCNN-NER模型相比BERT(BidirectionalEncoder Representation from Transformers,基于变换的双向编码器表示)模型来说比较小,在几乎不影响指标的情况下,在CPU上也能发挥不错的性能。迭代膨胀的卷积神经网络(Iterated Dilated CNN,简称为IDCNN)是4个相同结构的膨胀卷积神经网络模块拼在一起,每个模块里面是膨胀宽度为1、1、2的三层膨胀卷积层,所以称作迭代膨胀的卷积神经网络。具体使用时,膨胀宽度会随着层数的增加而指数增加,这样随着层数的增加,参数数量是线性增加的,而感受野却是指数增加的,可以很快覆盖到全部的输入数据。对应在搜索语句上,输入是向量矩阵,每个向量是搜索语句中的每个词语的语义表征向量,IDCNN对输入搜索语句的每个词语生成一个标签概率分布,加入CRF(Conditional Random Field,条件随机场)层,用维特比算法解码出标注结果;在IDCNN这样的网络模型末端接上CRF层是序列标注的一个很常见的方法,此处不再赘述;IDCNN计算出的是每个词语的各标签概率,而CRF层引入序列的转移概率,最终计算出损失反馈回网络。更具体地,IDCNN-NER模型架构如下:嵌入层为词向量层,用于将输入数据处理成词向量再送入模型,采用分布式向量表示Word2Vec;IDCNN层,用于将嵌入层处理好的字向量或者词向量送入到IDCNN层,经过膨胀卷积神经网络的膨胀卷积操作,对输入的字向量重新计算,得到新的向量表示;投影层,用于从IDCNN层神经网络计算出的向量表示进行线性转换,转换后的维度即为标签的维度,与标签的维度保持一致,再经过Softmax归一化处理,得到概率,假设映射后的向量表示维度为m维,则m维字向量的概率表示组合得到向量,每一维向量可以看作每一类标签的概率,取概率最大的种类得到分类结果,即可完成命名实体识别任务;CRF层,用于通过转移矩阵筛选出最优的结果反馈给用户。可以理解的是,以上描述仅为示例性的,本实施例对此不做任何限定。
示例性的,以搜索语句“北京天眼查科技有限公司张三”为例,执行步骤S101,可以得到如下分词:北京、天眼查、科技、有限公司、张三。因此,对搜索语句“北京天眼查科技有限公司张三”进行标签标注时,可以将“北京”标注为“地址标签”,将“天眼查”标注为“字号标签”,将“科技”标注为“行业标签”,将“有限公司”标注为“后缀标签”,将“张三”标注为“人名标签”。
在步骤S102中,获取与涉及所述特定搜索场景的搜索文本关联的至少一个第二语义标签。
在本实施例中,所述特定搜索场景可以包括企业搜索场景、事业单位搜索场景、银行机构搜索场景,或者学校搜索场景等。所述搜索文本是基于涉及特定搜索场景的搜索语句搜索得到的。换言之,搜索语句是在特定搜索场景下的搜索输入,搜索文本则是针对该搜索语句输出的搜索结果。所述至少一个第二语义标签是基于所述搜索文本中的至少一个分词进行语义标签的标注得到的。具体地,所述至少一个第二语义标签可以是预先基于所述搜索文本中的至少一个分词进行语义标签的标注得到的。所述搜索文本中的分词可为所述搜索文本中的词语或者短语等。所述第二语义标签可包括涉及特定搜索场景的以下中的至少一者:地址标签、字号标签、行业标签、后缀标签、人名标签。比如,以企业搜索场景为例,所述第二语义标签可包括以下中的至少一者:企业地址标签、企业字号标签、企业行业标签、企业后缀标签、企业人名标签。企业搜索文本中被企业地址标签标注的企业地址信息可以进一步细化,分为省、市、县不同层级。所述企业搜索文本中被企业行业标签标注的企业行业信息可以进行聚类或者分类,将企业行业信息规整化。可以理解的是,以上描述仅为示例性的,本实施例对此不做任何限定。
在一些可选实施例中,在预先基于所述搜索文本中的至少一个分词进行语义标签的标注时,通过语义标签标注模型,预先对基于所述搜索文本中的至少一个分词进行语义标签的标注,以获得与所述搜索文本关联的至少一个第二语义标签。籍此,通过语义标签标注模型,预先对基于所述搜索文本中的至少一个分词进行语义标签的标注,能够准确地获得与所述搜索文本关联的至少一个第二语义标签。可以理解的是,以上描述仅为示例性的,本实施例对此不做任何限定。
在一个具体的例子中,所述语义标签标注模型可以是任意适当的可实现特征提取或目标对象检测的神经网络模型,包括但不限于卷积神经网络、增强学习神经网络、对抗神经网络中的生成网络等。神经网络中具体结构的设置可以由本领域技术人员根据实际需求适当设定,如卷积层的层数、卷积核的大小、通道数等。在搜索企业信息的场景下,所述语义标签标注模型可以为企业语义标签标注模型。所述企业语义标签标注模型可为IDCNN-NER模型,按照企业语义标签的标签类别,提取企业搜索语句和企业搜索文本中的企业语义标签数据,IDCNN-NER模型相比BERT模型来说比较小,在几乎不影响指标的情况下,在CPU上也能发挥不错的性能。可以理解的是,以上描述仅为示例性的,本实施例对此不做任何限定。
示例性的,以关于“河南天眼查”的某搜索文本为例,假设该搜索文本进行分词处理后可以获得如下分词:河南、天眼查、科技、有限公司、李四。因此,对分词“河南、天眼查、科技、有限公司、李四”进行标签标注时,可以将“河南”标注为“地址标签”,将“天眼查”标注为“字号标签”,将“科技”标注为“行业标签”,将“有限公司”标注为“后缀标签”,将“李四”标注为“人名标签”。
在步骤S103中,基于所述至少一个第一语义标签和所述至少一个第二语义标签,确定并输出用于表征所述搜索语句中标注有目标语义标签的分词与所述搜索文本中标注有所述目标语义标签的分词之间的相关性的第一相关性表征数据。
在本实施例中,所目标语义标签可包括地址标签、字号标签、行业标签、后缀标签、人名标签。所述搜索语句中标注有目标语义标签的分词可为所述搜索语句中标注有目标语义标签的词语或者短语。所述搜索文本中标注有所述目标语义标签的分词可为所述搜索文本中标注有所述目标语义标签的词语或者短语。所述第一相关性表征数据可为相关性得分。在搜索企业信息的场景下,对于每个企业语义标签类别,可以设置不同的相关性计算策略,例如,打上企业行业标签的行业信息只需要行业信息相似就可以了,但是企业字号标签和企业人名标签需要全匹配,比较严格。在不同的相关性策略下,计算出每个企业语义标签类别的相关性得分。可以理解的是,以上描述仅为示例性的,本实施例对此不做任何限定。
返回参考上述示例,在确定以上搜索语句“北京天眼查科技有限公司张三”与以上关于“河南天眼查”的搜索文本的相关性时,可以先在不同的标签域确定各对应分词的相关性,再基于各对应分词的相关性进行聚类,然后获得以上搜索语句和以上搜索文本的相关性。如,在地址标签域,可以计算“北京”与“河南”的相关性表征数据x1;在字号标签域,可以计算“天眼查”与“天眼查”的相关性表征数据x2;在行业标签域,可以计算“科技”与“科技”的相关性表征数据x3;在后缀标签域,可以计算“有限公司”与“有限公司”的相关性表征数据x4;在人名标签域,可以计算“张三”与“李四”的相关性表征数据x5。最后,可以基于x1~x5计算以上搜索语句“北京天眼查科技有限公司张三”与以上关于“河南天眼查”的搜索文本的相关性表征数据Y。例如,Y可以是x1~x5的加权平均值。
通过上述实施例,因为可以根据搜索语句和对应搜索文本在不同标签域内相关性(即,在多个维度上的相关性),通过聚类确定该搜索语句和该对应搜索文本的整体相关性,所以可以充分挖掘特定场景下使用的搜索语句在多个维度上包含的更多的语义信息,使得最终得到的相关性效果更佳。
在一些可选实施例中,所述目标语义标签包括所述特定搜索场景下的行业标签。在基于所述至少一个第一语义标签和所述至少一个第二语义标签,确定并输出用于表征所述搜索语句中标注有目标语义标签的分词与所述搜索文本中标注有所述目标语义标签的分词之间相关性的第一相关性表征数据时,确定用于表征所述搜索语句中标注有所述行业标签的分词与所述搜索文本中标注有所述行业标签的分词之间的相似度的相似性表征数据;将所述相似性表征数据作为用于表征所述搜索语句中标注有所述行业标签的分词与所述搜索文本中标注有所述行业标签的分词之间的相关性的所述第一相关性表征数据并输出。籍此,通过用于表征所述搜索语句中标注有所述行业标签的分词与所述搜索文本中标注有所述行业标签的分词之间的相似度的相似性表征数据,能够准确地确定用于表征所述搜索语句中标注有所述行业标签的分词与所述搜索文本中标注有所述行业标签的分词之间的相关性的所述第一相关性表征数据。进一步,基于该第一相关性表征数据,可以确定该搜索语句与该搜索文本之间的相关性。可以理解的是,以上描述仅为示例性的,本实施例对此不做任何限定。
在一个具体的例子中,在搜索企业信息的场景下,所述目标语义标签包括企业行业标签。在基于所述至少一个第一语义标签和所述至少一个第二语义标签,确定并输出用于表征所述搜索语句中标注有目标语义标签的分词与所述搜索文本中标注有所述目标语义标签的分词之间的相关性的第一相关性表征数据时,确定用于表征所述企业搜索语句中标注有所述企业行业标签的分词与所述企业搜索文本中标注有所述企业行业标签的分词之间的相似度的相似性表征数据;将所述相似性表征数据作为用于表征所述企业搜索语句中标注有所述企业行业标签的分词与所述企业搜索文本中标注有所述企业行业标签的分词之间的相关性的所述第一相关性表征数据并输出。籍此,通过用于表征所述企业搜索语句中标注有所述企业行业标签的分词与所述企业搜索文本中标注有所述企业行业标签的分词之间的相似度的相似性表征数据,能够准确地确定用于表征所述企业搜索语句中标注有所述企业行业标签的分词与所述企业搜索文本中标注有所述企业行业标签的分词之间的相关性的所述第一相关性表征数据。进一步,基于该第一相关性表征数据,可以确定该搜索语句与该搜索文本之间的相关性。可以理解的是,以上描述仅为示例性的,本实施例对此不做任何限定。
在一个具体的例子中,所述相似性表征数据可为相似性得分。在确定用于表征所述企业搜索语句中标注有所述企业行业标签的分词与所述企业搜索文本中标注有所述企业行业标签的分词之间的相似度的相似性表征数据时,可通过文本相似度模型,预测用于表征所述企业搜索语句中标注有所述企业行业标签的分词与所述企业搜索文本中标注有所述企业行业标签的分词之间的相似度的相似性得分。其中,所述文本相似度模型可以是任意适当的可实现特征提取或目标对象检测的神经网络模型,包括但不限于卷积神经网络、增强学习神经网络、对抗神经网络中的生成网络等。神经网络中具体结构的设置可以由本领域技术人员根据实际需求适当设定,如卷积层的层数、卷积核的大小、通道数等。所述文本相似度模型可为sentence-BERT(Sentence-Bidirectional Encoder Representationfrom Transformers,用于语句的基于变换的双向编码器表示)模型,或者simCLSE(SimpleContrastive Learning of Sentence Embeddings,句子嵌入的简单对比学习)模型。可以理解的是,以上描述仅为示例性的,本实施例对此不做任何限定。
在具体采用Sentence-Bert模型预测用于表征所述企业搜索语句中标注有所述企业行业标签的分词与所述企业搜索文本中标注有所述企业行业标签的分词之间的相似度的相似性得分时,对所述企业搜索语句中标注有所述企业行业标签的分词进行文本特征提取,得到第一文本特征向量。示例性地,可以采用Sentence-Bert模型中的第一ALBert模型对所述企业搜索语句中标注有所述企业行业标签的分词进行文本特征提取,得到的文本特征再经Sentence-Bert模型中的第一池化层进行降维后,得到第一文本特征向量u。然后,对所述企业搜索文本中标注有所述企业行业标签的分词进行文本特征提取,得到第二文本特征向量。示例性地,可以采用Sentence-Bert模型中的第二ALBert模型,对所述企业搜索文本中标注有所述企业行业标签的分词进行文本特征提取,得到的文本特征再经Sentence-Bert模型中的第二池化层进行降维后,得到第二文本特征向量v。接着,确定第一文本特征向量与第二文本特征向量的差向量。具体地,对第一文本特征向量与第二文本特征向量按位求差向量,得到第一文本特征向量与第二文本特征向量的差向量。例如,对第一文本特征向量u与第二文本特征向量v按位求差向量,得到第一文本特征向量u与第二文本特征向量v的差向量|u-v|。紧接着,将第一文本特征向量、第二文本特征向量和差向量进行拼接,得到拼接向量。例如,对第一文本特征向量u、第二文本特征向量v和第一文本特征向量与第二文本特征向量的差向量|u-v|进行拼接,得到拼接向量(u,v,|u-v|)。最后,根据拼接向量,确定用于表征所述企业搜索语句中标注有所述企业行业标签的分词与所述企业搜索文本中标注有所述企业行业标签的分词之间的相似度的相似性得分。具体地,通过将拼接向量乘上一个可训练的权重后,通过softmax分类器,得到相似性得分。例如,首先,将拼接向量(u,v,|u-v|)乘上一个可训练的权重Wt∈R3n*k,得到拼接输入向量Wt(u,v,|u-v|)。其中n是文本特征向量维度,k为类别数。示例性地,n=312,k=2。然后,根据拼接输入向量Wt(u,v,|u-v|),通过softmax分类器,得到相似性得分o:
o=softmax(Wt(u,v,|u-v|))。
可以理解的是,以上描述仅为示例性的,本实施例对此不做任何限定。
返回参考上述示例,在确定以上搜索语句“北京天眼查科技有限公司张三”中标注有“行业标签”的“科技”与以上关于“河南天眼查”的搜索文本中标注有“行业标签”的“科技”的相关性表征数据时,可以采用Sentence-Bert模型预测用于表征搜索语句“北京天眼查科技有限公司张三”中标注有“行业标签”的“科技”与“河南天眼查”的搜索文本中标注有“行业标签”的“科技”之间的相似度的相似性得分,并将该相似性得分作为搜索语句“北京天眼查科技有限公司张三”中标注有“行业标签”的“科技”与以上关于“河南天眼查”的搜索文本中标注有“行业标签”的“科技”的相关性表征数据并输出。其中,采用Sentence-Bert模型预测相似性得分的过程参考上述示例,在此不再赘述。
上述实施例,通过预测搜索语句中标注有行业标签的分词与搜索文本中标注有行业标签的分词之间的相似度得分,可以充分挖掘特定场景下使用的搜索语句在行业维度上包含的更多的语义信息,使得最终能够准确地得到搜索语句中标注有行业标签的分词与搜索文本中标注有行业标签的分词之间的相关性表征数据。
在一些可选实施例中,所述目标语义标签包括所述特定搜索场景下的字号标签。所述基于所述至少一个第一语义标签和所述至少一个第二语义标签,确定并输出用于表征所述搜索语句中标注有目标语义标签的分词与所述搜索文本中标注有所述目标语义标签的分词之间相关性的第一相关性表征数据,包括以下中的至少之一:响应于确定所述搜索语句中标注有所述字号标签的分词与所述搜索文本中标注有所述字号标签的分词相同,将针对所述字号标签预先配置的第一相关性评价值作为用于表征所述搜索语句中标注有所述字号标签的分词与所述搜索文本中标注有所述字号标签的分词之间的相关性的所述第一相关性表征数据并输出;响应于确定所述搜索语句中标注有所述字号标签的分词与所述搜索文本中标注有所述字号标签的分词不相同,将针对所述字号标签预先配置的第二相关性评价值作为用于表征所述搜索语句中标注有所述字号标签的分词与所述搜索文本中标注有所述字号标签的分词之间的相关性的所述第一相关性表征数据并输出。其中,针对所述字号标签预先配置的第一相关性评价值可由本领域技术人员根据实际需要进行设定,本实施例对此不做任何限定,针对所述字号标签预先配置的第二相关性评价值可由本领域技术人员根据实际需要进行设定,本实施例对此不做任何限定。籍此,能够准确地确定用于表征所述搜索语句中标注有所述字号标签的分词与所述搜索文本中标注有所述字号标签的分词之间的相关性的第一相关性表征数据。可以理解的是,以上描述仅为示例性的,本实施例对此不做任何限定。
在一个具体的例子中,在搜索企业信息的场景下,所述目标语义标签可以包括企业字号标签。所述基于所述至少一个第一语义标签和所述至少一个第二语义标签,确定并输出用于表征所述搜索语句中标注有目标语义标签的分词与所述搜索文本中标注有所述目标语义标签的分词之间相关性的第一相关性表征数据,包括以下中的至少之一:响应于确定所述企业搜索语句中标注有所述企业字号标签的分词与所述企业搜索文本中标注有所述企业字号标签的分词相同,将针对所述企业字号标签预先配置的第一相关性评价值作为用于表征所述企业搜索语句中标注有所述企业字号标签的分词与所述企业搜索文本中标注有所述企业字号标签的分词之间的相关性的所述第一相关性表征数据;响应于确定所述企业搜索语句中标注有所述企业字号标签的分词与所述企业搜索文本中标注有所述企业字号标签的分词不相同,将针对所述企业字号标签预先配置的第二相关性评价值作为用于表征所述企业搜索语句中标注有所述企业字号标签的分词与所述企业搜索文本中标注有所述企业字号标签的分词之间的相关性的所述第一相关性表征数据并输出。其中,针对所述企业字号标签预先配置的第一相关性评价值可由本领域技术人员根据实际需要进行设定,本实施例对此不做任何限定,针对所述企业字号标签预先配置的第二相关性评价值可由本领域技术人员根据实际需要进行设定,本实施例对此不做任何限定。籍此,能够准确地确定用于表征所述企业搜索语句中标注有所述企业字号标签的分词与所述企业搜索文本中标注有所述企业字号标签的分词之间的相关性的第一相关性表征数据。可以理解的是,以上描述仅为示例性的,本实施例对此不做任何限定。
返回参考上述示例,在确定以上搜索语句“北京天眼查科技有限公司张三”中标注有“字号标签”的“天眼查”与以上关于“河南天眼查”的搜索文本中标注有“字号标签”的“天眼查”的相关性表征数据时,由于搜索语句“北京天眼查科技有限公司张三”中标注有“字号标签”的“天眼查”与以上关于“河南天眼查”的搜索文本中标注有“字号标签”的“天眼查”相同,将针对字号标签预先配置的相关性评价分数作为搜索语句“北京天眼查科技有限公司张三”中标注有“字号标签”的“天眼查”与以上关于“河南天眼查”的搜索文本中标注有“字号标签”的“天眼查”之间的相关性表征数据。
上述实施例,通过确定搜索语句中标注有字号标签的分词与搜索文本中标注有字号标签的分词是否相同来确定搜索语句中标注有字号标签的分词与搜索文本中标注有字号标签的分词的相关性评价分数,可以充分挖掘特定场景下使用的搜索语句在字号维度上包含的更多的语义信息,使得最终能够准确地得到搜索语句中标注有字号标签的分词与搜索文本中标注有字号标签的分词之间的相关性表征数据。
在一些可选实施例中,所述目标语义标签包括所述特定搜索场景下的人名标签。所述基于所述至少一个第一语义标签和所述至少一个第二语义标签,确定并输出用于表征所述搜索语句中标注有目标语义标签的分词与所述搜索文本中标注有所述目标语义标签的分词之间相关性的第一相关性表征数据,包括以下中的至少之一:响应于确定所述搜索语句中标注有所述人名标签的分词与所述搜索文本中标注有所述人名标签的分词相同,将针对所述人名标签预先配置的第一相关性评价值作为用于表征所述搜索语句中标注有所述人名标签的分词与所述搜索文本中标注有所述人名标签的分词之间的相关性的第一相关性表征数据并输出;响应于确定所述搜索语句中标注有所述人名标签的分词与所述搜索文本中标注有所述人名标签的分词不相同,确定将针对所述人名标签预先配置的第二相关性评价值作为用于表征所述搜索语句中标注有所述人名标签的分词与所述搜索文本中标注有所述人名标签的分词之间的相关性的第一相关性表征数据并输出。其中,针对所述人名标签预先配置的第一相关性评价值可由本领域技术人员根据实际需要进行设定,本实施例对此不做任何限定,针对所述人名标签预先配置的第二相关性评价值可由本领域技术人员根据实际需要进行设定,本实施例对此不做任何限定。籍此,能够准确地确定用于表征所述搜索语句中标注有所述人名标签的分词与所述搜索文本中标注有所述人名标签的分词之间的相关性的第一相关性表征数据。可以理解的是,以上描述仅为示例性的,本实施例对此不做任何限定。
在一个具体的例子中,在搜索企业信息的场景下,所述目标语义标签包括企业人名标签。所述基于所述至少一个第一语义标签和所述至少一个第二语义标签,确定并输出用于表征所述搜索语句中标注有目标语义标签的分词与所述搜索文本中标注有所述目标语义标签的分词之间的相关性的第一相关性表征数据,包括以下中的至少之一:响应于确定所述企业搜索语句中标注有所述企业人名标签的分词与所述企业搜索文本中标注有所述企业人名标签的分词相同,将针对所述企业人名标签预先配置的第一相关性评价值作为用于表征所述企业搜索语句中标注有所述企业人名标签的分词与所述企业搜索文本中标注有所述企业人名标签的分词之间的相关性的第一相关性表征数据;响应于确定所述企业搜索语句中标注有所述企业人名标签的分词与所述企业搜索文本中标注有所述企业人名标签的分词不相同,确定将针对所述企业人名标签预先配置的第二相关性评价值作为用于表征所述企业搜索语句中标注有所述企业人名标签的分词与所述企业搜索文本中标注有所述企业人名标签的分词之间的相关性的第一相关性表征数据并输出。其中,针对所述企业人名标签预先配置的第一相关性评价值可由本领域技术人员根据实际需要进行设定,本实施例对此不做任何限定,针对所述企业人名标签预先配置的第二相关性评价值可由本领域技术人员根据实际需要进行设定,本实施例对此不做任何限定。籍此,能够准确地确定用于表征所述企业搜索语句中标注有所述企业人名标签的分词与所述企业搜索文本中标注有所述企业人名标签的分词之间的相关性的第一相关性表征数据。可以理解的是,以上描述仅为示例性的,本实施例对此不做任何限定。
返回参考上述示例,在确定以上搜索语句“北京天眼查科技有限公司张三”中标注有“人名标签”的“张三”与以上关于“河南天眼查”的搜索文本中标注有“人名标签”的“李四”的相关性表征数据时,由于搜索语句“北京天眼查科技有限公司张三”中标注有“人名标签”的“张三”与以上关于“河南天眼查”的搜索文本中标注有“人名标签”的“李四”不相同,将针对人名标签预先配置的相关性评价分数作为搜索语句“北京天眼查科技有限公司张三”中标注有“人名标签”的“张三”与以上关于“河南天眼查”的搜索文本中标注有“人名标签”的“李四”之间的相关性表征数据。
上述实施例,通过确定搜索语句中标注有人名标签的分词与搜索文本中标注有人名标签的分词是否相同来确定搜索语句中标注有人名标签的分词与搜索文本中标注有人名标签的分词的相关性评价分数,可以充分挖掘特定场景下使用的搜索语句在人名维度上包含的更多的语义信息,使得最终能够准确地得到搜索语句中标注有人名标签的分词与搜索文本中标注有人名标签的分词之间的相关性表征数据。
在一些可选实施例中,所述目标语义标签包括所述特定搜索场景下的地址标签。所述基于所述至少一个第一语义标签和所述至少一个第二语义标签,确定并输出用于表征所述搜索语句中标注有目标语义标签的分词与所述搜索文本中标注有所述目标语义标签的分词之间相关性的第一相关性表征数据,包括:对所述搜索语句中标注有所述地址标签的分词进行标准地址转换,获得所述搜索语句中标注有所述地址标签的分词所对应的第一标准地址,并对所述第一标准地址进行层级地址处理,获得所述第一标准地址对应的第一层级地址;对所述搜索文本中标注有所述地址标签的分词进行标准地址转换,获得所述搜索文本中标注有所述地址标签的分词所对应的第二标准地址,并对所述第二标准地址进行层级地址处理,获得所述第二标准地址对应的第二层级地址;响应于确定所述第一层级地址与所述第二层级地址相同,确定将针对所述地址标签预先配置的第一相关性评价值作为用于表征所述搜索语句中标注有所述地址标签的分词与所述搜索文本中标注有所述地址标签的分词之间的相关性的第一相关性表征数据并输出;响应于确定所述第一层级地址与所述第二层级地址不相同,确定将针对所述地址标签预先配置的第二相关性评价值作为用于表征所述搜索语句中标注有所述地址标签的分词与所述搜索文本中标注有所述地址标签的分词之间的相关性的第一相关性表征数据并输出。其中,针对所述地址标签预先配置的第一相关性评价值可由本领域技术人员根据实际需要进行设定,本实施例对此不做任何限定,针对所述地址标签预先配置的第二相关性评价值可由本领域技术人员根据实际需要进行设定,本实施例对此不做任何限定。籍此,能够准确地确定用于表征所述搜索语句中标注有所述地址标签的分词与所述搜索文本中标注有所述地址标签的分词之间的相关性的第一相关性表征数据。可以理解的是,以上描述仅为示例性的,本实施例对此不做任何限定。
在一个具体的例子中,在搜索企业信息的场景下,所述目标语义标签可以包括企业地址标签。所述基于所述至少一个第一语义标签和所述至少一个第二语义标签,确定并输出用于表征所述搜索语句中标注有目标语义标签的分词与所述搜索文本中标注有所述目标语义标签的分词之间相关性的第一相关性表征数据,包括:对所述企业搜索语句中标注有所述企业地址标签的分词进行标准地址转换,获得所述企业搜索语句中标注有所述企业地址标签的分词所对应的第一标准地址,并对所述第一标准地址进行层级地址处理,获得所述第一标准地址对应的第一层级地址;对所述企业搜索文本中标注有所述企业地址标签的分词进行标准地址转换,获得所述企业搜索文本中标注有所述企业地址标签的分词所对应的第二标准地址,并对所述第二标准地址进行层级地址处理,获得所述第二标准地址对应的第二层级地址;响应于确定所述第一层级地址与所述第二层级地址相同,确定将针对所述企业地址标签预先配置的第一相关性评价值作为用于表征所述企业搜索语句中标注有所述企业地址标签的分词与所述企业搜索文本中标注有所述企业地址标签的分词之间的相关性的第一相关性表征数据并输出;响应于确定所述第一层级地址与所述第二层级地址不相同,确定将针对所述企业地址标签预先配置的第二相关性评价值作为用于表征所述企业搜索语句中标注有所述企业地址标签的分词与所述企业搜索文本中标注有所述企业地址标签的分词之间的相关性的第一相关性表征数据并输出。籍此,能够准确地确定用于表征所述企业搜索语句中标注有所述企业地址标签的分词与所述企业搜索文本中标注有所述企业地址标签的分词之间的相关性的第一相关性表征数据。可以理解的是,以上描述仅为示例性的,本实施例对此不做任何限定。
示例性的,在确定以上搜索语句“阳新兴源农牧技术开发有限公司”中标注有“地址标签”的“阳新”与关于“华新阳新水泥公司”的搜索文本中标注有“地址标签”的“阳新”的相关性表征数据时,首先对搜索语句“阳新兴源农牧技术开发有限公司”中标注有“地址标签”的“阳新”进行标准地址转换,获得搜索语句“阳新兴源农牧技术开发有限公司”中标注有“地址标签”的“阳新”所对应的标准地址“阳新县”,并对标准地址“阳新县”进行层级地址处理,获得对应的层级地址“湖北省黄石市阳新县”;再对搜索文本“华新阳新水泥公司”中标注有“地址标签”的“阳新”进行标准地址转换,获得搜索文本“华新阳新水泥公司”中标注有“地址标签”的“阳新”所对应的标准地址“阳新县”,并对标准地址“阳新县”进行层级地址处理,获得对应的层级地址“湖北省黄石市阳新县”。由于搜索语句“阳新兴源农牧技术开发有限公司”中对应的层级地址“湖北省黄石市阳新县”与关于“华新阳新水泥公司”的搜索文本中对应的层级地址“湖北省黄石市阳新县”相同,将针对地址标签预先配置的相关性评价分数作为搜索语句“阳新兴源农牧技术开发有限公司”中标注有“地址标签”的“阳新”与关于“华新阳新水泥公司”的搜索文本中标注有“地址标签”的“阳新”的相关性表征数据。
上述实施例,通过确定搜索语句中标注有地址标签的分词与搜索文本中标注有地址标签的分词是否相同来确定搜索语句中标注有地址标签的分词与搜索文本中标注有地址标签的分词的相关性评价分数,可以充分挖掘特定场景下使用的搜索语句在地址维度上包含的更多的语义信息,使得最终能够准确地得到搜索语句中标注有地址标签的分词与搜索文本中标注有地址标签的分词之间的相关性表征数据。
在一些可选实施例中,所述目标语义标签包括所述特定搜索场景下的后缀标签。所述基于所述至少一个第一语义标签和所述至少一个第二语义标签,确定并输出用于表征所述搜索语句中标注有目标语义标签的分词与所述搜索文本中标注有所述目标语义标签的分词之间相关性的第一相关性表征数据,包括以下中的至少之一:响应于确定所述搜索语句中标注有所述后缀标签的分词与所述搜索文本中标注有所述后缀标签的分词相同,确定将针对所述后缀标签预先配置的第一相关性评价值作为用于表征所述搜索语句中标注有所述后缀标签的分词与所述搜索文本中标注有所述后缀标签的分词之间的相关性的第一相关性表征数据并输出;响应于确定所述搜索语句中标注有所述后缀标签的分词与所述搜索文本中标注有所述后缀标签的分词不相同,确定将针对所述后缀标签预先配置的第二相关性评价值作为用于表征所述搜索语句中标注有所述后缀标签的分词与所述搜索文本中标注有所述后缀标签的分词之间的相关性的第一相关性表征数据并输出。其中,针对所述后缀标签预先配置的第一相关性评价值可由本领域技术人员根据实际需要进行设定,本实施例对此不做任何限定,针对所述后缀标签预先配置的第二相关性评价值可由本领域技术人员根据实际需要进行设定,本实施例对此不做任何限定。籍此,能够准确地确定用于表征所述搜索语句中标注有所述后缀标签的分词与所述搜索文本中标注有所述后缀标签的分词之间的相关性的第一相关性表征数据。可以理解的是,以上描述仅为示例性的,本实施例对此不做任何限定。
在一个具体的例子中,在搜索企业信息的场景下,所述目标语义标签可以包括企业后缀标签。所述基于所述至少一个第一语义标签和所述至少一个第二语义标签,确定并输出用于表征所述搜索语句中标注有目标语义标签的分词与所述搜索文本中标注有所述目标语义标签的分词之间相关性的第一相关性表征数据,包括:响应于确定所述企业搜索语句中标注有所述企业后缀标签的分词与所述企业搜索文本中标注有所述企业后缀标签的分词相同,确定将针对所述企业后缀标签预先配置的第一相关性评价值作为用于表征所述企业搜索语句中标注有所述企业后缀标签的分词与所述企业搜索文本中标注有所述企业后缀标签的分词之间的相关性的第一相关性表征数据并输出;响应于确定所述企业搜索语句中标注有所述企业后缀标签的分词与所述企业搜索文本中标注有所述企业后缀标签的分词不相同,确定将针对所述企业后缀标签预先配置的第二相关性评价值作为用于表征所述企业搜索语句中标注有所述企业后缀标签的分词与所述企业搜索文本中标注有所述企业后缀标签的分词之间的相关性的第一相关性表征数据并输出。籍此,能够准确地确定用于表征所述企业搜索语句中标注有所述企业后缀标签的分词与所述企业搜索文本中标注有所述企业后缀标签的分词之间的相关性的第一相关性表征数据。可以理解的是,以上描述仅为示例性的,本实施例对此不做任何限定。
返回参考上述示例,在确定以上搜索语句“北京天眼查科技有限公司张三”中标注有“后缀标签”的“有限公司”与以上关于“河南天眼查”的搜索文本中标注有“后缀标签”的“有限公司”的相关性表征数据时,由于搜索语句“北京天眼查科技有限公司张三”中标注有“后缀标签”的“有限公司”与以上关于“河南天眼查”的搜索文本中标注有“后缀标签”的“有限公司”不相同,将针对后缀标签预先配置的相关性评价分数作为搜索语句“北京天眼查科技有限公司张三”中标注有“后缀标签”的“有限公司”与以上关于“河南天眼查”的搜索文本中标注有“后缀标签”的“有限公司”之间的相关性表征数据。
上述实施例,通过确定搜索语句中标注有后缀标签的分词与搜索文本中标注有后缀标签的分词是否相同来确定搜索语句中标注有后缀标签的分词与搜索文本中标注有后缀标签的分词的相关性评价分数,可以充分挖掘特定场景下使用的搜索语句在后缀维度上包含的更多的语义信息,使得最终能够准确地得到搜索语句中标注有后缀标签的分词与搜索文本中标注有后缀标签的分词之间的相关性表征数据。
在步骤S104中,基于所述第一相关性表征数据,确定并输出用于表征所述搜索语句与所述搜索文本之间的相关性的第二相关性表征数据。
在本实施例中,所述第二相关性表征数据可为相关性得分。可以理解的是,以上描述仅为示例性的,本实施例对此不做任何限定。
在一些可选实施例中,还包括:在所述确定并输出用于表征所述搜索语句与所述搜索文本之间的相关性的第二相关性表征数据之前,基于所述搜索语句与所述搜索文本获得的文本统计特征数据,确定用于表征所述搜索语句与所述搜索文本之间在文本统计特征维度的相关性的第三相关性表征数据,在基于所述第一相关性表征数据,确定并输出用于表征所述搜索语句与所述搜索文本之间的相关性的第二相关性表征数据时,基于所述第一相关性表征数据,并结合所述第三相关性表征数据,确定并输出用于表征所述搜索语句与所述搜索文本之间的相关性的第二相关性表征数据。籍此,通过所述搜索语句与所述搜索文本获得的文本统计特征数据,能够准确地确定用于表征所述搜索语句与所述搜索文本之间在文本统计特征维度的相关性的第三相关性表征数据,此外,通过所述第一相关性表征数据,以及所述第三相关性表征数据,能够准确地确定用于表征所述搜索语句与所述搜索文本之间的相关性的第二相关性表征数据。可以理解的是,以上描述仅为示例性的,本实施例对此不做任何限定。
在一个具体的例子中,所述第三相关性表征数据可为相关性得分。在确定用于表征所述搜索语句与所述搜索文本之间在文本统计特征维度的相关性的第三相关性表征数据时,可以采用tf-idf算法、bm25算法,或者n-gram算法,根据所述搜索语句与所述搜索文本获得的文本统计特征数据,计算用于表征所述搜索语句与所述搜索文本之间在文本统计特征维度的相关性的第三相关性表征数据。其中,所述文本统计特征数据可为词频、文本长度,或者逆文本频率指数(Inverse Document Frequency,IDF)等。其中,逆文本频率指数的主要思想是:如果包含词条t的文本越少,也就是n越小,IDF越大,则说明词条t具有很好的类别区分能力。如果某一类文本C中包含词条t的文本数为m,而其它类包含t的文本总数为k,显然所有包含t的文本数n=m+k,当m大的时候,n也大,按照IDF公式得到的IDF的值会小,就说明该词条t类别区分能力不强。但是实际上,如果一个词条在一个类的文本中频繁出现,则说明该词条能够很好代表这个类的文本的特征,这样的词条应该给它们赋予较高的权重,并选出来作为该类文本的特征词以区别与其它类文本。可以理解的是,以上描述仅为示例性的,本实施例对此不做任何限定。
在一个具体的例子中,在基于所述第一相关性表征数据,以及所述第三相关性表征数据,确定用于表征所述搜索语句与所述搜索文本之间的相关性的第二相关性表征数据时,基于所述第一相关性表征数据、所述第三相关性表征数据、所述第一相关性表征数据对应的权重值,以及所述第三相关性表征数据对应的权重值,计算用于表征所述搜索语句与所述搜索文本之间的相关性的第二相关性表征数据。其中,所述第一相关性表征数据对应的权重值和所述第三相关性表征数据对应的权重值可由本领域技术人员根据实际需要进行设定,本实施例对此不做任何限定。可以理解的是,以上描述仅为示例性的,本实施例对此不做任何限定。
返回参考上述示例,在确定以上搜索语句“北京天眼查科技有限公司张三”与以上关于“河南天眼查”的搜索文本的相关性时,可以先在不同的标签域确定各对应分词的相关性,再基于各对应分词的相关性进行聚类,获得以上搜索语句和以上搜索文本的第一相关性表征数据。例如,在地址标签域,可以计算“北京”与“河南”的相关性表征数据x1;在字号标签域,可以计算“天眼查”与“天眼查”的相关性表征数据x2;在行业标签域,可以计算“科技”与“科技”的相关性表征数据x3;在后缀标签域,可以计算“有限公司”与“有限公司”的相关性表征数据x4;在人名标签域,可以计算“张三”与“李四”的相关性表征数据x5。这样,可以基于x1~x5计算以上搜索语句“北京天眼查科技有限公司张三”与以上关于“河南天眼查”的搜索文本的第一相关性表征数据Y。例如,Y可以是x1~x5的加权平均值。然后,根据搜索语句“北京天眼查科技有限公司张三”中的“北京”在搜索文本“河南天眼查”中出现的次数、搜索语句“北京天眼查科技有限公司张三”中的“天眼查”在搜索文本“河南天眼查”中出现的次数、搜索语句“北京天眼查科技有限公司张三”中的“科技”在搜索文本“河南天眼查”中出现的次数、搜索语句“北京天眼查科技有限公司张三”中的“有限公司”在搜索文本“河南天眼查”中出现的次数,以及搜索语句“北京天眼查科技有限公司张三”中的“张三”在搜索文本“河南天眼查”中出现的次数,计算搜索语句“北京天眼查科技有限公司张三”与搜索文本“河南天眼查”之间在文本词频维度的相关性的第三相关性表征数据。例如,计算搜索语句“北京天眼查科技有限公司张三”中的所有分词在搜索文本“河南天眼查”中出现的次数的相加结果,并确定该相加结果所处的范围,再确定该相加结果所处的范围所对应的相关性表征数据为所述第三相关性表征数据。最后,根据所述第一相关性表征数据、所述第三相关性表征数据、所述第一相关性表征数据对应的权重值,以及所述第三相关性表征数据对应的权重值,计算搜索语句“北京天眼查科技有限公司张三”与搜索文本“河南天眼查”之间的相关性的第二相关性表征数据。
上述实施例在计算获得搜索语句和搜索文本的第一相关性表征数据的基础上,根据搜索语句中的分词在搜索文本中出现的次数,计算获得搜索语句与搜索文本之间在文本词频维度的第三相关性表征数据,并结合搜索语句和搜索文本的第一相关性表征数据和搜索语句与搜索文本之间在文本词频维度的第三相关性表征数据,能够更加准确地计算搜索语句与搜索文本之间的第二相关性表征数据。
在一些可选实施例中,还包括:在所述确定并输出用于表征所述搜索语句与所述搜索文本之间的相关性的第二相关性表征数据之前,通过文本相似度预测模型,预测用于表征所述搜索语句与所述搜索文本之间的相似度的相似性表征数据;将所述相似性表征数据作为用于表征所述搜索语句与所述搜索文本之间在深度语义特征维度的相关性的第四相关性表征数据,在基于所述第一相关性表征数据,确定并输出用于表征所述搜索语句与所述搜索文本之间的相关性的第二相关性表征数据时,基于所述第一相关性表征数据、并结合所述第三相关性表征数据和所述第四相关性表征数据,确定并输出用于表征所述搜索语句与所述搜索文本之间的相关性的第二相关性表征数据。籍此,通过用于表征所述搜索语句与所述搜索文本之间的相似度的相似性表征数据,能够准确地确定用于表征所述搜索语句与所述搜索文本之间在深度语义特征维度的相关性的第四相关性表征数据,此外,通过所述第一相关性表征数据、所述第三相关性表征数据,以及所述第四相关性表征数据,能够准确地确定用于表征所述搜索语句与所述搜索文本之间的相关性的第二相关性表征数据。可以理解的是,以上描述仅为示例性的,本实施例对此不做任何限定。
在一个具体的例子中,所述文本相似度模型可以是任意适当的可实现特征提取或目标对象检测的神经网络模型,包括但不限于卷积神经网络、增强学习神经网络、对抗神经网络中的生成网络等。神经网络中具体结构的设置可以由本领域技术人员根据实际需求适当设定,如卷积层的层数、卷积核的大小、通道数等。在搜索企业信息的场景下,所述文本相似度模型可以为企业文本相似度模型。所述企业文本相似度模型可为sentence-BERT模型,或者simCLSE模型。所述企业文本相似度模型还可以采用双塔/交互,有监督/无监督模型。所述相似度表征数据可为相似度得分,所述第四相关性表征数据可为相关性得分。其中,所述sentence-BERT模型预测文本相似性表征数据的过程已经在上述实施例中描述,在此不再赘述。可以理解的是,以上描述仅为示例性的,本实施例对此不做任何限定。
在一些可选实施例中,在基于所述第一相关性表征数据、并结合所述第三相关性表征数据和所述第四相关性表征数据,确定并输出用于表征所述搜索语句与所述搜索文本之间的相关性的第二相关性表征数据时,基于所述第一相关性表征数据、所述第三相关性表征数据、所述第四相关性表征数据、所述第一相关性表征数据对应的权重值、所述第三相关性表征数据对应的权重值,以及所述第四相关性表征数据对应的权重值,计算并输出用于表征所述搜索语句与所述搜索文本之间的相关性的第二相关性表征数据;或者通过文本相关性预测模型,基于所述第一相关性表征数据、所述第三相关性表征数据,以及所述第四相关性表征数据,预测并输出用于表征所述搜索语句与所述搜索文本之间的相关性的第二相关性表征数据。籍此,能够准确地确定用于表征所述搜索语句与所述搜索文本之间的相关性的第二相关性表征数据。可以理解的是,以上描述仅为示例性的,本实施例对此不做任何限定。
在一个具体的例子中,可以基于经验,人工设置所述第一相关性表征数据对应的权重值、所述第三相关性表征数据对应的权重值,以及所述第四相关性表征数据对应的权重值。权重计算方式侧重于人工,可解释强且能够比较好的调节和控制。所述文本相关性预测模型可以是任意适当的可实现特征提取或目标对象检测的神经网络模型,包括但不限于卷积神经网络、增强学习神经网络、对抗神经网络中的生成网络等。神经网络中具体结构的设置可以由本领域技术人员根据实际需求适当设定,如卷积层的层数、卷积核的大小、通道数等。在搜索企业信息的场景下,所述文本相关性预测模型可以为企业文本相关性预测模型。在训练所述企业文本相关性预测模型时,将用户点击搜索文本次数作为标注数据,聚合计算相关性得分。模型计算方式基于模型的聚合,参数是模型学习得出,更客观且泛化性好。可以理解的是,以上描述仅为示例性的,本实施例对此不做任何限定。
返回参考上述示例,在确定以上搜索语句“北京天眼查科技有限公司张三”与以上关于“河南天眼查”的搜索文本的相关性时,可以先在不同的标签域确定各对应分词的相关性,再基于各对应分词的相关性进行聚类,获得以上搜索语句和以上搜索文本的第一相关性表征数据。例如,在地址标签域,可以计算“北京”与“河南”的相关性表征数据x1;在字号标签域,可以计算“天眼查”与“天眼查”的相关性表征数据x2;在行业标签域,可以计算“科技”与“科技”的相关性表征数据x3;在后缀标签域,可以计算“有限公司”与“有限公司”的相关性表征数据x4;在人名标签域,可以计算“张三”与“李四”的相关性表征数据x5。这样,可以基于x1~x5计算以上搜索语句“北京天眼查科技有限公司张三”与以上关于“河南天眼查”的搜索文本的第一相关性表征数据Y。例如,Y可以是x1~x5的加权平均值。然后,根据搜索语句“北京天眼查科技有限公司张三”中的“北京”在搜索文本“河南天眼查”中出现的次数、搜索语句“北京天眼查科技有限公司张三”中的“天眼查”在搜索文本“河南天眼查”中出现的次数、搜索语句“北京天眼查科技有限公司张三”中的“科技”在搜索文本“河南天眼查”中出现的次数、搜索语句“北京天眼查科技有限公司张三”中的“有限公司”在搜索文本“河南天眼查”中出现的次数,以及搜索语句“北京天眼查科技有限公司张三”中的“张三”在搜索文本“河南天眼查”中出现的次数,计算搜索语句“北京天眼查科技有限公司张三”与搜索文本“河南天眼查”之间在文本词频维度的相关性的第三相关性表征数据。例如,计算搜索语句“北京天眼查科技有限公司张三”中的所有分词在搜索文本“河南天眼查”中出现的次数的相加结果,并确定该相加结果所处的范围,再确定该相加结果所处的范围所对应的相关性表征数据为所述第三相关性表征数据。再然后,通过文本相似度预测模型,预测搜索语句“北京天眼查科技有限公司张三”与搜索文本“河南天眼查”之间的相似性表征数据,并确定该相似性表征数据为搜索语句“北京天眼查科技有限公司张三”与搜索文本“河南天眼查”之间在深度语义特征维度的第四相关性表征数据。最后,根据所述第一相关性表征数据、所述第三相关性表征数据、所述第四相关性表征数据、所述第一相关性表征数据对应的权重值、所述第三相关性表征数据对应的权重值,以及所述第四相关性表征数据对应的权重值,计算搜索语句“北京天眼查科技有限公司张三”与搜索文本“河南天眼查”之间的相关性的第二相关性表征数据。
上述实施例在计算获得搜索语句和搜索文本的第一相关性表征数据,以及计算获得搜索语句和搜索文本的第二相关性表征数据的基础上,通过文本相似度预测模型,预测搜索语句与搜索文本之间的相似性表征数据,并确定该相似性表征数据为搜索语句与搜索文本之间在深度语义特征维度的第四相关性表征数据,再结合搜索语句和搜索文本的第一相关性表征数据、搜索语句与搜索文本之间在文本词频维度的第三相关性表征数据,以及搜索语句与搜索文本之间在深度语义特征维度的第四相关性表征数据,能够进一步准确地计算搜索语句与搜索文本之间的第二相关性表征数据。
在一个具体的例子中,如图1B所示,不同的搜索业务模块均可以采用本实施例提供的针对特定搜索场景的搜索处理方法。具体地,不同的搜索业务模块通过在线特征工程中的文本统计特征、语义知识特征(即上述的任意一个或多个标签表征的特征)和深度语义特征计算相关性得分,再通过企业文本相关性预测模型,根据相关性得分,预测企业搜索语句与企业搜索文本的最终的相关性得分。此外,可以通过离线特征工程中的特征数据库中的训练样本,对企业文本相似度模型(简称相似模型)和企业文本相关性预测模型(简称预测模型)进行训练以得到最终可用的模型。其中,所述语义知识特征可用企业语义特征标签的类别表示,所述深度语义特征可由企业文本相似度模型提取。本实施例能够有效提升相关性计算准确度,并具有可解释性,为搜索各模块提供相关性支持。可以理解的是,以上描述仅为示例性的,本实施例对此不做任何限定。
在一个具体的例子中,如果搜索语句为“北京天眼查科技有限公司”,并且搜索文本包括“河南天眼查科技有限公司”,可以利用本实施例提供的方法计算搜索语句“北京天眼查科技有限公司”与搜索文本“河南天眼查科技有限公司”的第一相关性表征数据。具体地,首先对搜索语句“北京天眼查科技有限公司”进行企业语义标签的标注,从而得到搜索语句中的分词“北京”标注有企业地址标签、搜索语句中的分词“天眼查”标注有企业字号标签、搜索语句中的分词“科技”标注有企业行业标签,以及搜索语句中的分词“有限公司”标注有企业后缀标签。类似地,对搜索文本“河南天眼查科技有限公司”进行企业语义标签的标注,从而得到搜索文本中的分词“河南”标注有企业地址标签、搜索文本中的分词“天眼查”标注有企业字号标签、搜索文本中的分词“科技”标注有企业行业标签,以及搜索文本中的分词“有限公司”标注有企业后缀标签。然后,针对搜索语句和搜索文本中标注有相同的企业语义标签的分词计算相关性表征数据。具体地,计算搜索语句中标注有企业地址标签的分词“北京”与搜索文本中标注有企业地址标签的分词“河南”的相关性表征数据,计算搜索语句中标注有企业字号标签的分词“天眼查”与搜索文本中标注有企业字号标签的分词“天眼查”的相关性表征数据,计算搜索语句中标注有企业行业标签的分词“科技”与搜索文本中标注有企业行业标签的分词“科技”的相关性表征数据,以及计算搜索语句中标注有企业后缀标签的分词“有限公司”与搜索文本中标注有企业后缀标签的分词“有限公司”的相关性表征数据。最后,根据搜索语句和搜索文本中标注有相同的企业语义标签的分词之间的相关性表征数据,确定搜索语句和搜索文本之间的相关性表征数据。可以理解的是,以上描述仅为示例性的,本实施例对此不做任何限定。
通过本公开实施例提供的针对特定搜索场景的搜索处理方法,对涉及特定搜索场景的搜索语句中的至少一个分词进行语义标签的标注,以获得与所述搜索语句关联的至少一个第一语义标签,并获取与涉及所述特定搜索场景的搜索文本关联的至少一个第二语义标签,其中,所述至少一个第二语义标签是基于所述搜索文本中的至少一个分词进行语义标签的标注得到的,再基于所述至少一个第一语义标签和所述至少一个第二语义标签,确定并输出用于表征所述搜索语句中标注有目标语义标签的分词与所述搜索文本中标注有所述目标语义标签的分词之间的相关性的第一相关性表征数据,再基于所述第一相关性表征数据,确定并输出用于表征所述搜索语句与所述搜索文本之间的相关性的第二相关性表征数据,与现有的其它方式相比,由于搜索语句和对应搜索文本在不同标签域内对语义的贡献程度不相同,因此可以根据搜索语句和对应搜索文本在不同标签域内相关性(即,在至少一个语义标签上的相关性),确定搜索语句和对应的搜索文本的整体相关性,可以充分挖掘特定场景下使用的搜索语句在至少一个语义标签维度上包含的更多的语义信息,使得最终得到的搜索语句和对应的搜索文本之间的相关性表征数据的准确度更高。
本实施例提供的针对特定搜索场景的搜索处理方法可以由任意适当的具有数据处理能力的设备执行,包括但不限于:摄像头、终端、移动终端、PC机、服务器、车载设备、娱乐设备、广告设备、个人数码助理(PDA)、平板电脑、笔记本电脑、掌上游戏机、智能眼镜、智能手表、可穿戴设备、虚拟显示设备或显示增强设备等。
参照图2,示出了本实施例二中针对特定搜索场景的搜索处理装置的框图。
本实施例提供的针对特定搜索场景的搜索处理装置200包括:标注模块201,用于对涉及特定搜索场景的搜索语句中的至少一个分词进行语义标签的标注,以获得与所述搜索语句关联的至少一个第一语义标签;获取模块202,用于获取与涉及所述特定搜索场景的搜索文本关联的至少一个第二语义标签,其中,所述至少一个第二语义标签是基于所述搜索文本中的至少一个分词进行语义标签的标注得到的;第一确定模块203,用于基于所述至少一个第一语义标签和所述至少一个第二语义标签,确定并输出用于表征所述搜索语句中标注有目标语义标签的分词与所述搜索文本中标注有所述目标语义标签的分词之间的相关性的第一相关性表征数据;第二确定模块204,用于基于所述第一相关性表征数据,确定并输出用于表征所述搜索语句与所述搜索文本之间的相关性的第二相关性表征数据。
可选地,所述目标语义标签包括所述特定搜索场景下的行业标签,所述第一确定模块203,还用于:确定用于表征所述搜索语句中标注有所述行业标签的分词与所述搜索文本中标注有所述行业标签的分词之间的相似度的相似性表征数据;将所述相似性表征数据作为用于表征所述搜索语句中标注有所述行业标签的分词与所述搜索文本中标注有所述行业标签的分词之间的相关性的所述第一相关性表征数据并输出。
可选地,所述目标语义标签包括所述特定搜索场景下的字号标签,所述第一确定模块203,还用于:响应于确定所述搜索语句中标注有所述字号标签的分词与所述搜索文本中标注有所述字号标签的分词相同,将针对所述字号标签预先配置的第一相关性评价值作为用于表征所述搜索语句中标注有所述字号标签的分词与所述搜索文本中标注有所述字号标签的分词之间的相关性的所述第一相关性表征数据并输出;或者,响应于确定所述搜索语句中标注有所述字号标签的分词与所述搜索文本中标注有所述字号标签的分词不相同,将针对所述字号标签预先配置的第二相关性评价值作为用于表征所述搜索语句中标注有所述字号标签的分词与所述搜索文本中标注有所述字号标签的分词之间的相关性的所述第一相关性表征数据并输出。
可选地,所述目标语义标签包括所述特定搜索场景下的人名标签,所述第一确定模块203,还用于:响应于确定所述搜索语句中标注有所述人名标签的分词与所述搜索文本中标注有所述人名标签的分词相同,将针对所述人名标签预先配置的第一相关性评价值作为用于表征所述搜索语句中标注有所述人名标签的分词与所述搜索文本中标注有所述人名标签的分词之间的相关性的第一相关性表征数据并输出;或者,响应于确定所述搜索语句中标注有所述人名标签的分词与所述搜索文本中标注有所述人名标签的分词不相同,确定将针对所述人名标签预先配置的第二相关性评价值作为用于表征所述搜索语句中标注有所述人名标签的分词与所述搜索文本中标注有所述人名标签的分词之间的相关性的第一相关性表征数据并输出。
可选地,所述目标语义标签包括所述特定搜索场景下的地址标签,所述第一确定模块203,还用于:对所述搜索语句中标注有所述地址标签的分词进行标准地址转换,获得所述搜索语句中标注有所述地址标签的分词所对应的第一标准地址,并对所述第一标准地址进行层级地址处理,获得所述第一标准地址对应的第一层级地址;对所述搜索文本中标注有所述地址标签的分词进行标准地址转换,获得所述搜索文本中标注有所述地址标签的分词所对应的第二标准地址,并对所述第二标准地址进行层级地址处理,获得所述第二标准地址对应的第二层级地址;响应于确定所述第一层级地址与所述第二层级地址相同,确定将针对所述地址标签预先配置的第一相关性评价值作为用于表征所述搜索语句中标注有所述地址标签的分词与所述搜索文本中标注有所述地址标签的分词之间的相关性的第一相关性表征数据并输出;或者,响应于确定所述第一层级地址与所述第二层级地址不相同,确定将针对所述地址标签预先配置的第二相关性评价值作为用于表征所述搜索语句中标注有所述地址标签的分词与所述搜索文本中标注有所述地址标签的分词之间的相关性的第一相关性表征数据并输出。
可选地,所述目标语义标签包括所述特定搜索场景下的后缀标签,所述第一确定模块203,还用于:响应于确定所述搜索语句中标注有所述后缀标签的分词与所述搜索文本中标注有所述后缀标签的分词相同,确定将针对所述后缀标签预先配置的第一相关性评价值作为用于表征所述搜索语句中标注有所述后缀标签的分词与所述搜索文本中标注有所述后缀标签的分词之间的相关性的第一相关性表征数据并输出;或者,响应于确定所述搜索语句中标注有所述后缀标签的分词与所述搜索文本中标注有所述后缀标签的分词不相同,确定将针对所述后缀标签预先配置的第二相关性评价值作为用于表征所述搜索语句中标注有所述后缀标签的分词与所述搜索文本中标注有所述后缀标签的分词之间的相关性的第一相关性表征数据并输出。
可选地,在所述第二确定模块204之前,还包括:第三确定模块,用于基于所述搜索语句与所述搜索文本获得的文本统计特征数据,确定用于表征所述搜索语句与所述搜索文本之间在文本统计特征维度的相关性的第三相关性表征数据,其中,所述第二确定模块204,还用于:基于所述第一相关性表征数据,并结合所述第三相关性表征数据,确定并输出用于表征所述搜索语句与所述搜索文本之间的相关性的第二相关性表征数据。
可选地,在所述第二确定模块204之前,还包括:预测模块,用于通过文本相似度预测模型,预测用于表征所述搜索语句与所述搜索文本之间的相似度的相似性表征数据;第四确定模块,用于将所述相似性表征数据作为用于表征所述搜索语句与所述搜索文本之间在深度语义特征维度的相关性的第四相关性表征数据,其中,所述第二确定模块204,包括:确定子模块,用于基于所述第一相关性表征数据、并结合所述第三相关性表征数据和所述第四相关性表征数据,确定并输出用于表征所述搜索语句与所述搜索文本之间的相关性的第二相关性表征数据。
可选地,所述确定子模块,还用于:基于所述第一相关性表征数据、所述第三相关性表征数据、所述第四相关性表征数据、所述第一相关性表征数据对应的权重值、所述第三相关性表征数据对应的权重值,以及所述第四相关性表征数据对应的权重值,计算并输出用于表征所述搜索语句与所述搜索文本之间的相关性的第二相关性表征数据;或者通过文本相关性预测模型,基于所述第一相关性表征数据、所述第三相关性表征数据,以及所述第四相关性表征数据,预测并输出用于表征所述搜索语句与所述搜索文本之间的相关性的第二相关性表征数据。
本实施例提供的针对特定搜索场景的搜索处理装置用于实现前述多个方法实施例中相应的针对特定搜索场景的搜索处理方法,并具有相应的方法实施例的有益效果,在此不再赘述。
参照图3,示出了根据本实施例三的一种电子设备的框图,本公开具体实施例并不对电子设备的具体实现做限定。
如图3所示,该电子设备300可以包括:处理器(processor)302、通信接口(Communications Interface)304、存储器(memory)306、以及通信总线308。
其中:
处理器302、通信接口304、以及存储器306通过通信总线308完成相互间的通信。
通信接口304,用于与其它电子设备或服务器进行通信。
处理器302,用于执行程序310,具体可以执行上述针对特定搜索场景的搜索处理方法实施例中的相关步骤。
具体地,程序310可以包括程序代码,该程序代码包括计算机操作指令。
处理器302可能是中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本公开实施例的一个或多个集成电路。智能设备包括的一个或多个处理器,可以是同一类型的处理器,如一个或多个CPU;也可以是不同类型的处理器,如一个或多个CPU以及一个或多个ASIC。
存储器306,用于存放程序310。存储器306可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
示例性的,程序310可以用于使得处理器302执行以下操作:对涉及特定搜索场景的搜索语句中的至少一个分词进行语义标签的标注,以获得与所述搜索语句关联的至少一个第一语义标签;获取与涉及所述特定搜索场景的搜索文本关联的至少一个第二语义标签,其中,所述至少一个第二语义标签是基于所述搜索文本中的至少一个分词进行语义标签的标注得到的;基于所述至少一个第一语义标签和所述至少一个第二语义标签,确定并输出用于表征所述搜索语句中标注有目标语义标签的分词与所述搜索文本中标注有所述目标语义标签的分词之间的相关性的第一相关性表征数据;基于所述第一相关性表征数据,确定并输出用于表征所述搜索语句与所述搜索文本之间的相关性的第二相关性表征数据。
应该理解,程序310中各步骤的具体实现可以参见上述针对特定搜索场景的搜索处理方法实施例中的相应步骤和单元中对应的描述,在此不赘述。所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的设备和模块的具体工作过程,可以参考前述方法实施例中的对应过程描述,在此不再赘述。
需要指出,根据实施的需要,可将本公开实施例中描述的各个部件/步骤拆分为更多部件/步骤,也可将两个或多个部件/步骤或者部件/步骤的部分操作组合成新的部件/步骤,以实现本公开实施例的目的。
上述根据本公开实施例的方法可在硬件、固件中实现,或者被实现为可存储在记录介质(诸如CD ROM、RAM、软盘、硬盘或磁光盘)中的软件或计算机代码,或者被实现通过网络下载的原始存储在远程记录介质或非暂时机器可读介质中并将被存储在本地记录介质中的计算机代码,从而在此描述的方法可被存储在使用通用计算机、专用处理器或者可编程或专用硬件(诸如ASIC或FPGA)的记录介质上的这样的软件处理。可以理解,计算机、处理器、微处理器控制器或可编程硬件包括可存储或接收软件或计算机代码的存储组件(例如,RAM、ROM、闪存等),当所述软件或计算机代码被计算机、处理器或硬件访问且执行时,实现在此描述的针对特定搜索场景的搜索处理方法。此外,当通用计算机访问用于实现在此示出的针对特定搜索场景的搜索处理方法的代码时,代码的执行将通用计算机转换为用于执行在此示出的针对特定搜索场景的搜索处理方法的专用计算机。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及方法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本公开实施例的范围。
以上实施方式仅用于说明本公开实施例,而并非对本公开实施例的限制,有关技术领域的普通技术人员,在不脱离本公开实施例的精神和范围的情况下,还可以做出各种变化和变型,因此所有等同的技术方案也属于本公开实施例的范畴,本公开实施例的专利保护范围应由权利要求限定。

Claims (13)

1.一种针对特定搜索场景的搜索处理方法,包括:
对涉及特定搜索场景的搜索语句中的至少一个分词进行语义标签的标注,以获得与所述搜索语句关联的至少一个第一语义标签;
获取与涉及所述特定搜索场景的搜索文本关联的至少一个第二语义标签,其中,所述至少一个第二语义标签是基于所述搜索文本中的至少一个分词进行语义标签的标注得到的;
基于所述至少一个第一语义标签和所述至少一个第二语义标签,确定并输出用于表征所述搜索语句中标注有目标语义标签的分词与所述搜索文本中标注有所述目标语义标签的分词之间的相关性的第一相关性表征数据;
基于所述第一相关性表征数据,确定并输出用于表征所述搜索语句与所述搜索文本之间的相关性的第二相关性表征数据。
2.根据权利要求1所述的方法,其中,所述目标语义标签包括所述特定搜索场景下的行业标签,所述基于所述至少一个第一语义标签和所述至少一个第二语义标签,确定并输出用于表征所述搜索语句中标注有目标语义标签的分词与所述搜索文本中标注有所述目标语义标签的分词之间相关性的第一相关性表征数据,包括:
确定用于表征所述搜索语句中标注有所述行业标签的分词与所述搜索文本中标注有所述行业标签的分词之间的相似度的相似性表征数据;
将所述相似性表征数据作为用于表征所述搜索语句中标注有所述行业标签的分词与所述搜索文本中标注有所述行业标签的分词之间的相关性的所述第一相关性表征数据并输出。
3.根据权利要求1所述的方法,其中,所述目标语义标签包括所述特定搜索场景下的字号标签,所述基于所述至少一个第一语义标签和所述至少一个第二语义标签,确定并输出用于表征所述搜索语句中标注有目标语义标签的分词与所述搜索文本中标注有所述目标语义标签的分词之间相关性的第一相关性表征数据,包括以下中的至少之一:
响应于确定所述搜索语句中标注有所述字号标签的分词与所述搜索文本中标注有所述字号标签的分词相同,将针对所述字号标签预先配置的第一相关性评价值作为用于表征所述搜索语句中标注有所述字号标签的分词与所述搜索文本中标注有所述字号标签的分词之间的相关性的所述第一相关性表征数据并输出;
响应于确定所述搜索语句中标注有所述字号标签的分词与所述搜索文本中标注有所述字号标签的分词不相同,将针对所述字号标签预先配置的第二相关性评价值作为用于表征所述搜索语句中标注有所述字号标签的分词与所述搜索文本中标注有所述字号标签的分词之间的相关性的所述第一相关性表征数据并输出。
4.根据权利要求1所述的方法,其中,所述目标语义标签包括所述特定搜索场景下的人名标签,所述基于所述至少一个第一语义标签和所述至少一个第二语义标签,确定并输出用于表征所述搜索语句中标注有目标语义标签的分词与所述搜索文本中标注有所述目标语义标签的分词之间相关性的第一相关性表征数据,包括以下中的至少之一:
响应于确定所述搜索语句中标注有所述人名标签的分词与所述搜索文本中标注有所述人名标签的分词相同,将针对所述人名标签预先配置的第一相关性评价值作为用于表征所述搜索语句中标注有所述人名标签的分词与所述搜索文本中标注有所述人名标签的分词之间的相关性的第一相关性表征数据并输出;
响应于确定所述搜索语句中标注有所述人名标签的分词与所述搜索文本中标注有所述人名标签的分词不相同,确定将针对所述人名标签预先配置的第二相关性评价值作为用于表征所述搜索语句中标注有所述人名标签的分词与所述搜索文本中标注有所述人名标签的分词之间的相关性的第一相关性表征数据并输出。
5.根据权利要求1所述的方法,其中,所述目标语义标签包括所述特定搜索场景下的地址标签,所述基于所述至少一个第一语义标签和所述至少一个第二语义标签,确定并输出用于表征所述搜索语句中标注有目标语义标签的分词与所述搜索文本中标注有所述目标语义标签的分词之间相关性的第一相关性表征数据,包括:
对所述搜索语句中标注有所述地址标签的分词进行标准地址转换,获得所述搜索语句中标注有所述地址标签的分词所对应的第一标准地址,并对所述第一标准地址进行层级地址处理,获得所述第一标准地址对应的第一层级地址;
对所述搜索文本中标注有所述地址标签的分词进行标准地址转换,获得所述搜索文本中标注有所述地址标签的分词所对应的第二标准地址,并对所述第二标准地址进行层级地址处理,获得所述第二标准地址对应的第二层级地址;
响应于确定所述第一层级地址与所述第二层级地址相同,确定将针对所述地址标签预先配置的第一相关性评价值作为用于表征所述搜索语句中标注有所述地址标签的分词与所述搜索文本中标注有所述地址标签的分词之间的相关性的第一相关性表征数据并输出;
响应于确定所述第一层级地址与所述第二层级地址不相同,确定将针对所述地址标签预先配置的第二相关性评价值作为用于表征所述搜索语句中标注有所述地址标签的分词与所述搜索文本中标注有所述地址标签的分词之间的相关性的第一相关性表征数据并输出。
6.根据权利要求1所述的方法,其中,所述目标语义标签包括所述特定搜索场景下的后缀标签,所述基于所述至少一个第一语义标签和所述至少一个第二语义标签,确定并输出用于表征所述搜索语句中标注有目标语义标签的分词与所述搜索文本中标注有所述目标语义标签的分词之间相关性的第一相关性表征数据,包括以下中的至少之一:
响应于确定所述搜索语句中标注有所述后缀标签的分词与所述搜索文本中标注有所述后缀标签的分词相同,确定将针对所述后缀标签预先配置的第一相关性评价值作为用于表征所述搜索语句中标注有所述后缀标签的分词与所述搜索文本中标注有所述后缀标签的分词之间的相关性的第一相关性表征数据并输出;
响应于确定所述搜索语句中标注有所述后缀标签的分词与所述搜索文本中标注有所述后缀标签的分词不相同,确定将针对所述后缀标签预先配置的第二相关性评价值作为用于表征所述搜索语句中标注有所述后缀标签的分词与所述搜索文本中标注有所述后缀标签的分词之间的相关性的第一相关性表征数据并输出。
7.根据权利要求1所述的方法,还包括:在所述确定并输出用于表征所述搜索语句与所述搜索文本之间的相关性的第二相关性表征数据之前,
基于所述搜索语句与所述搜索文本获得的文本统计特征数据,确定用于表征所述搜索语句与所述搜索文本之间在文本统计特征维度的相关性的第三相关性表征数据,
其中,所述基于所述第一相关性表征数据,确定并输出用于表征所述搜索语句与所述搜索文本之间的相关性的第二相关性表征数据,包括:
基于所述第一相关性表征数据,并结合所述第三相关性表征数据,确定并输出用于表征所述搜索语句与所述搜索文本之间的相关性的第二相关性表征数据。
8.根据权利要求7所述的方法,还包括:在所述确定并输出用于表征所述搜索语句与所述搜索文本之间的相关性的第二相关性表征数据之前,
通过文本相似度预测模型,预测用于表征所述搜索语句与所述搜索文本之间的相似度的相似性表征数据;
将所述相似性表征数据作为用于表征所述搜索语句与所述搜索文本之间在深度语义特征维度的相关性的第四相关性表征数据,
其中,所述基于所述第一相关性表征数据,确定并输出用于表征所述搜索语句与所述搜索文本之间的相关性的第二相关性表征数据,包括:
基于所述第一相关性表征数据、并结合所述第三相关性表征数据和所述第四相关性表征数据,确定并输出用于表征所述搜索语句与所述搜索文本之间的相关性的第二相关性表征数据。
9.根据权利要求8所述的方法,其中,所述基于所述第一相关性表征数据、并结合所述第三相关性表征数据和所述第四相关性表征数据,确定并输出用于表征所述搜索语句与所述搜索文本之间的相关性的第二相关性表征数据,包括:
基于所述第一相关性表征数据、所述第三相关性表征数据、所述第四相关性表征数据、所述第一相关性表征数据对应的权重值、所述第三相关性表征数据对应的权重值,以及所述第四相关性表征数据对应的权重值,计算并输出用于表征所述搜索语句与所述搜索文本之间的相关性的第二相关性表征数据;或者
通过文本相关性预测模型,基于所述第一相关性表征数据、所述第三相关性表征数据,以及所述第四相关性表征数据,预测并输出用于表征所述搜索语句与所述搜索文本之间的相关性的第二相关性表征数据。
10.一种针对特定搜索场景的搜索处理装置,包括:
标注模块,用于对涉及特定搜索场景的搜索语句中的至少一个分词进行语义标签的标注,以获得与所述搜索语句关联的至少一个第一语义标签;
获取模块,用于获取与涉及所述特定搜索场景的搜索文本关联的至少一个第二语义标签,其中,所述至少一个第二语义标签是基于所述搜索文本中的至少一个分词进行语义标签的标注得到的;
第一确定模块,用于基于所述至少一个第一语义标签和所述至少一个第二语义标签,确定并输出用于表征所述搜索语句中标注有目标语义标签的分词与所述搜索文本中标注有所述目标语义标签的分词之间的相关性的第一相关性表征数据;
第二确定模块,用于基于所述第一相关性表征数据,确定并输出用于表征所述搜索语句与所述搜索文本之间的相关性的第二相关性表征数据。
11.一种电子设备,包括:
处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如权利要求1-9中任一项所述的方法。
12.一种计算机存储介质,其上存储有计算机程序,该程序被处理器执行时实现如权利要求1-9中任一项所述的方法。
13.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1-9中任一项所述的方法。
CN202111516197.0A 2021-12-07 2021-12-07 针对特定搜索场景的搜索处理方法、装置、设备及介质 Active CN114186023B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111516197.0A CN114186023B (zh) 2021-12-07 2021-12-07 针对特定搜索场景的搜索处理方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111516197.0A CN114186023B (zh) 2021-12-07 2021-12-07 针对特定搜索场景的搜索处理方法、装置、设备及介质

Publications (2)

Publication Number Publication Date
CN114186023A true CN114186023A (zh) 2022-03-15
CN114186023B CN114186023B (zh) 2023-05-26

Family

ID=80543415

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111516197.0A Active CN114186023B (zh) 2021-12-07 2021-12-07 针对特定搜索场景的搜索处理方法、装置、设备及介质

Country Status (1)

Country Link
CN (1) CN114186023B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110019888A (zh) * 2017-12-01 2019-07-16 北京搜狗科技发展有限公司 一种搜索方法及装置
CN110083729A (zh) * 2019-04-26 2019-08-02 北京金山数字娱乐科技有限公司 一种图像搜索的方法及系统
CN110427463A (zh) * 2019-08-08 2019-11-08 腾讯科技(深圳)有限公司 搜索语句响应方法、装置及服务器和存储介质
CN111538908A (zh) * 2020-06-22 2020-08-14 腾讯科技(深圳)有限公司 搜索排序方法、装置、计算机设备和存储介质
CN111723296A (zh) * 2020-08-21 2020-09-29 浙江口碑网络技术有限公司 搜索处理方法、装置及计算机设备
CN113204697A (zh) * 2021-04-29 2021-08-03 五八有限公司 一种搜索方法、装置、电子设备及存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110019888A (zh) * 2017-12-01 2019-07-16 北京搜狗科技发展有限公司 一种搜索方法及装置
CN110083729A (zh) * 2019-04-26 2019-08-02 北京金山数字娱乐科技有限公司 一种图像搜索的方法及系统
CN110427463A (zh) * 2019-08-08 2019-11-08 腾讯科技(深圳)有限公司 搜索语句响应方法、装置及服务器和存储介质
CN111538908A (zh) * 2020-06-22 2020-08-14 腾讯科技(深圳)有限公司 搜索排序方法、装置、计算机设备和存储介质
CN111723296A (zh) * 2020-08-21 2020-09-29 浙江口碑网络技术有限公司 搜索处理方法、装置及计算机设备
CN113204697A (zh) * 2021-04-29 2021-08-03 五八有限公司 一种搜索方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN114186023B (zh) 2023-05-26

Similar Documents

Publication Publication Date Title
US11151177B2 (en) Search method and apparatus based on artificial intelligence
CN111444320B (zh) 文本检索方法、装置、计算机设备和存储介质
WO2021082953A1 (zh) 机器阅读理解方法、设备、存储介质及装置
CN111191078B (zh) 基于视频信息处理模型的视频信息处理方法及装置
CN107273503B (zh) 用于生成同语言平行文本的方法和装置
CN111930929B (zh) 一种文章标题生成方法、装置及计算设备
KR101754473B1 (ko) 문서를 이미지 기반 컨텐츠로 요약하여 제공하는 방법 및 시스템
CN112860866B (zh) 语义检索方法、装置、设备以及存储介质
Wu et al. Learning of multimodal representations with random walks on the click graph
CN104899322A (zh) 搜索引擎及其实现方法
WO2021051574A1 (zh) 英文文本序列标注方法、系统及计算机设备
CN112287069B (zh) 基于语音语义的信息检索方法、装置及计算机设备
WO2023134082A1 (zh) 图像描述语句生成模块的训练方法及装置、电子设备
US20210166014A1 (en) Generating document summary
CN111475603A (zh) 企业标识识别方法、装置、计算机设备及存储介质
CN113434636B (zh) 基于语义的近似文本搜索方法、装置、计算机设备及介质
CN113051368B (zh) 双塔模型训练方法、检索方法、装置及电子设备
WO2021190662A1 (zh) 医学文献排序方法、装置、电子设备及存储介质
CN115917529A (zh) 生成标识在web文档中表达的主题之间的关系的图形数据结构
CN113722438A (zh) 基于句向量模型的句向量生成方法、装置及计算机设备
CN112906380A (zh) 文本中角色的识别方法、装置、可读介质和电子设备
CN112740202A (zh) 使用内容标签执行图像搜索
CN114416995A (zh) 信息推荐方法、装置及设备
CN116822651A (zh) 基于增量学习的大模型参数微调方法、装置、设备及介质
CN112579729A (zh) 文档质量评价模型的训练方法、装置、电子设备和介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant