CN113821711A - 一种垂直搜索方法、装置、电子设备和存储介质 - Google Patents

一种垂直搜索方法、装置、电子设备和存储介质 Download PDF

Info

Publication number
CN113821711A
CN113821711A CN202110640134.XA CN202110640134A CN113821711A CN 113821711 A CN113821711 A CN 113821711A CN 202110640134 A CN202110640134 A CN 202110640134A CN 113821711 A CN113821711 A CN 113821711A
Authority
CN
China
Prior art keywords
entity
historical search
adjacent
data
search result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110640134.XA
Other languages
English (en)
Inventor
毛铁峥
赵子元
颜强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202110640134.XA priority Critical patent/CN113821711A/zh
Publication of CN113821711A publication Critical patent/CN113821711A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9532Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及计算机技术领域,提供一种垂直搜索方法、装置、电子设备和存储介质,用以提高模型训练效果,进而提高垂直搜索相关性,其中,方法包括:在接收到垂直搜索请求后,将垂直搜索请求中包含的目标搜索关键词,输入至基于扩展数据集训练得到的语义匹配模型中,得到设定搜索类型的搜索结果,进而返回包含搜索结果的搜索结果页。这样,通过服务知识图谱中包含的实体关联关系,对初始训练数据进行扩展,增加了数据多样性,从而提高了模型训练效果,提升搜索结果与搜索关键词的相关性。

Description

一种垂直搜索方法、装置、电子设备和存储介质
技术领域
本申请涉及计算机技术领域,提供一种垂直搜索方法、装置、电子设备和存储介质。
背景技术
随着搜索引擎技术的发展,为了满足多样化搜索需求,垂直搜索逐步被广泛应用。垂直搜索是针对某一特定领域而提出的专业搜索服务,例如,公众号搜索、小程序搜索、服务搜索等;其中,服务搜索包含教育、政务、家政等各类领域的服务,例如,当用户输入搜索关键词“保姆”后,在搜索结果中可以显示能够提供保姆服务的服务列表。
由于训练数据的数量有限,因此,对垂直搜索采用的模型进行训练前,需要对训练数据进行扩展。相关技术中通过历史行为数据进行数据扩展,例如,将点击率高的搜索结果作为正样本,将点击率低的搜索结果作为负样本。然而,采用上述数据扩展方案时,难以学习到搜索关键词与搜索结果的相关性,从而导致模型训练效果差,模型准确率低。尤其是在服务搜索中,由于涉及领域知识多且复杂的多个领域,因此模型训练效果更差。
发明内容
本申请实施例提供一种服务搜索方法、装置、电子设备和存储介质,用以解决相关技术中模型训练效果差,搜索结果与搜索关键词的相关性低的问题。
第一方面,本申请实施例提供一种垂直搜索方法,包括:
接收垂直搜索请求,所述垂直搜索请求中包含至少一个目标搜索关键词;
将所述至少一个目标搜索关键词输入至已训练的语义匹配模型中,获得设定搜索类型的搜索结果集合;其中,所述语义匹配模型是基于扩展数据集训练得到的,所述扩展数据集是基于预设的服务知识图谱中包含的实体关联关系,对初始训练数据进行扩展得到的;
返回包含所述搜索结果集合的搜索结果页。
第二方面,本申请实施例提供一种垂直搜索装置,包括:
接收单元,用于接收垂直搜索请求,所述垂直搜索请求中包含至少一个目标搜索关键词;
搜索单元,用于将所述至少一个目标搜索关键词输入至已训练的语义匹配模型中,获得设定搜索类型的搜索结果集合;其中,所述语义匹配模型是基于扩展数据集训练得到的,所述扩展数据集是基于预设的服务知识图谱中包含的实体关联关系,对初始训练数据进行扩展得到的;
发送单元,用于返回包含所述搜索结果集合的搜索结果页。
可选的,所述将一条训练数据中包含的历史搜索结果,与所述历史搜索结果关联的第二相邻实体集合中的各个第二相邻实体进行组合,得到第三组扩展数据之后,所述基于所述至少一组扩展数据,得到所述扩展数据集之前,所述扩展单元还用于:
若所述历史搜索结果与一个第二相邻实体之间的实体关联关系表征:所述历史搜索结果与所述一个第二相邻实体为上下位关系,则将所述历史搜索结果与所述一个第二相邻实体组合得到的扩展数据的标签,设置为一级相关;
若所述历史搜索结果与一个第二相邻实体之间的实体关联关系表征:所述历史搜索结果与所述一个第二相邻实体为同义词关系,则将所述历史搜索结果与所述一个第二相邻实体组合得到的扩展数据的标签,设置为二级相关;
其中,每个标签用于表征相应的历史搜索关键词和对应的历史搜索结果的真实相关性,所述一级相关表征的相关性低于二级相关表征的相关性。
可选的,所述基于所述至少一组扩展数据,得到所述扩展数据集时,所述扩展单元具体用于:
按照设定抽取比例,从第一组扩展数据和第二组扩展数据中,抽取出第五组训练数据;
基于所述第三组扩展数据、第四组扩展数据和第五组扩展数据,获得所述扩展数据集。
可选的,所述将所述至少一个目标搜索关键词输入至已训练的语义匹配模型中,获得设定搜索类型的搜索结果集合时,所述搜索单元还用于:
获得所述搜索结果集合中包含的各个搜索结果,分别与所述至少一个目标搜索关键词的相关度,每个相关度用于表征相应的搜索结果分别与所述至少一个目标搜索关键词之间的相关性;
则所述返回包含所述搜索结果集合的搜索结果页时,所述发送单元具体用于:
基于获得的各个相关度,对所述各个搜索结果进行排序,并返回包含排序后的各个搜索结果的搜索结果页。
第三方面,本申请实施例提供的一种电子设备,包括处理器和存储器,其中,所述存储器存储有计算机程序,当所述计算机程序被所述处理器执行时,使得所述处理器执行上述垂直搜索方法的步骤。
本申请实施例提供一种计算机可读存储介质,其包括计算机程序,当所述计算机程序在电子设备上运行时,所述计算机程序用于使所述电子设备执行上述垂直搜索方法的步骤。
本申请实施例中,在接收到垂直搜索请求后,将垂直搜索请求中包含的目标搜索关键词,输入至基于扩展数据集训练得到的语义匹配模型中,得到设定搜索类型的搜索结果,进而返回包含搜索结果的搜索结果页。这样,通过服务知识图谱中包含的实体关联关系,对初始训练数据进行扩展,可以得到多样化的扩展数据,增加了长尾数据,从而提高了数据差异性,后续基于扩展数据集训练语义匹配模型时,提高了模型训练效果,提高了模型准确率,进而提升了搜索结果与搜索关键词的相关性。
本申请的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本申请而了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1A为本申请实施例中提供的一种可能的应用场景示意图;
图1B为本申请实施例中提供的一种区块链结构的一个可选的示意图;
图1C为本申请实施例中提供的一种区块生成方法的流程示意图;
图2为本申请实施例中提供的一种垂直搜索方法的流程示意图;
图3为本申请实施例中提供的一种操作界面示意图;
图4A为本申请实施例中提供的一种实体属性示意图;
图4B为本申请实施例中提供的一种服务知识图谱的示意图;
图5为本申请实施中提供的一种搜索结果的示意图;
图6为本申请实施例中提供的一种扩展数据集的获得方法的流程示意图;
图7为本申请实施例中提供的一种扩展数据的逻辑示意图;
图8为本申请实施例中提供的一种垂直搜索装置的组成结构示意图;
图9为本申请实施例中提供的一种电子设备的硬件组成结构示意图;
图10为本申请实施例中提供的一种终端设备的硬件组成结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请技术方案的一部分实施例,而不是全部的实施例。基于本申请文件中记载的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请技术方案保护的范围。
下面对本申请实施例中涉及的部分概念进行介绍。
1、垂直搜索,是针对特定领域的专业搜索引擎,是搜索引擎的细分和延伸。通过对数据库中的特定领域的信息进行整合,定向分字段抽取出数据,并对数据进行处理后返回给终端设备。以微信中的搜一搜为例,公众号搜索、小程序搜索等均属于垂直搜索。
2、服务搜索,用于搜索与搜索关键词相关的服务,是一种垂直搜索。以搜索关键词“保姆”为例,服务搜索可以直接提供保姆服务菜单。
3、语义匹配模型,用于获取搜索关键词(query)和搜索结果(doc)之间的相关性,相关性用于描述两个事物间存在相互联系的程度。
例如,参阅表1所示,当搜索关键词为“人乳头瘤病毒(Human Papilloma Virus,HPV)疫苗预约”时,若搜索结果中包含“宫颈癌疫苗预约”和“儿童疫苗预约”,由于儿童疫苗预约疫苗等同于宫颈癌疫苗,属于成人疫苗一种,不属于儿童疫苗,因此,搜索关键词“HPV疫苗预约”与搜索结果“宫颈癌疫苗预约”相关,搜索关键词“HPV疫苗预约”与搜索结果“儿童疫苗预约”无关。
又例如,仍参阅表1所示,当搜索关键词为“医保缴费查询”时,若搜索结果中包含“医保信息查询”和“医保定点查询”,由于缴费查询属于信息查询的一种,因此,搜索关键词“医保缴费查询”与搜索结果“医保信息查询”相关,搜索关键词“医保缴费查询”与搜索结果“医保定点查询”无关。
再例如,仍参阅表1所示,当搜索关键词为“个人纳税查询”时,若搜索结果中包含“税务办理”和“一般纳税人查询”,由于一般纳税人指企业纳税而非个人,因此,搜索关键词“个人纳税查询”与搜索结果“税务办理”相关,搜索关键词“个人纳税查询”与搜索结果“一般纳税人查询”无关。
表1搜索关键词与搜索结果的相关性
Figure BDA0003107268670000051
Figure BDA0003107268670000061
本申请实施例中,语义匹配模型可以采用但不限于基于卷积核的神经网络排序模型(Convolutional Kernel-based Neural Ranking Model,Conv-KNRM)、基于转换器的双向编码表征(Bidirectional Encoder Representations from Transformers,BERT)、深度语义模型(Deep Structured Semantic Models,DSSM)、基于卷积的隐语义模型(Convolutional latent semantic mode,CDSSM或CLSM)、构造匹配矩阵(Match-pyramid)、深度相关匹配模型(Deep Relevance Matching Model,DRMM)等。
以下结合说明书附图对本申请的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本申请,并不用于限定本申请,并且在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
垂直搜索是针对某一特定领域而提出的专业搜索服务,例如,公众号搜索、小程序搜索、服务搜索等,以微信搜一搜为例,当用户输入搜索关键词“保姆”后,在搜索结果中可以显示能够提供保姆服务的服务列表。
垂直搜索通常是基于语义匹配模型实现的,但由于训练数据有限,因此,需要对训练数据进行扩展,以增加训练数据。相关技术中通过历史行为数据进行数据扩展,例如,将点击率高的搜索结果作为正样本,将点击率低且为非服务类型的搜索结果作为负样本。
然而,由于垂直搜索是针对某一特定领域设计的,对于包含大量复杂、不通用的语料的领域,若采用上述数据扩展方案,得到的长尾数据较少,导致模型过拟合,模型训练效果差,进而导致搜索结果与搜索关键词的相关性低。尤其是在服务搜索中,由于服务搜索涉及数据分布差异较大的多个领域,领域知识多且复杂,因此,模型训练效果更差。
例如,参阅表2所示,相关技术中,由于通过基于历史行为的数据增扩展方案,得到的训练数据中无法体现搜索关键词与搜索结果之间的相关性是正相关的,难以学习出搜索关键词与搜索结果之间精准的相关性,因此,搜索关键词“查违章”与搜索结果“交通违章查询”之间的真实相关性,高于搜索关键词“交通路况查询”与搜索结果“交通违章查询”之间的真实相关性”,但是,搜索关键词“查违章”与搜索结果“交通违章查询”之间的预测相关性,低于搜索关键词“交通路况查询”与搜索结果“交通违章查询”之间的预测相关性,显然,相关技术中模型准确性较低。
表2相关技术中搜索关键词与搜索结果的预测相关性
搜索关键词 搜索结果 预测相关性 真实相关性
查违章 交通违章查询 0.90
交通路况查询 交通违章查询 0.92
查询违章 交通违章查询 0.95
驾照换证 驾照查分 0.95
而本申请实施例中,在接收到垂直搜索请求后,将垂直搜索请求中包含的目标搜索关键词,输入至基于扩展数据集训练得到的语义匹配模型中,得到设定搜索类型的搜索结果,进而返回包含搜索结果的搜索结果页。这样,通过服务知识图谱中包含的实体关联关系,对初始训练数据进行扩展,可以得到多样化的扩展数据,增加了长尾数据,从而提高了数据差异性,后续基于扩展数据集训练语义匹配模型时,提高了模型训练效果,提高了模型准确率,进而提升了搜索结果与搜索关键词的相关性。
本申请实施例涉及人工智能(Artificial Intelligence,AI)和机器学习技术,基于人工智能中的语音技术和机器学习(Machine Learning,ML)而设计。
人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
本申请实施例在基于目标搜索关键词获取搜索结果时,采用机器学习的语义匹配模型。在本申请实施例中提出的训练语义匹配模型的方法可分为两部分,包括训练部分和应用部分;其中,训练部分就涉及到机器学习这一技术领域,在训练部分中,通过机器学习这一技术训练语义匹配模型,使用本申请实施例中给出的扩展数据集作为训练数据集来训练语义匹配模型,扩展数据集中的扩展数据输入至语义匹配模型后,获取语义匹配模型的输出结果,结合输出结果,通过优化算法不断调整模型参数;应用部分用于使用在训练部分训练获得的语义匹配模型来对目标搜索关键词进行检测,获得目标搜索关键词的搜索结果。另外,还需要说明的是,本申请实施例中目标搜索关键词可以是在线训练也可以是离线训练,在此不做具体限定。
以下结合说明书附图对本申请的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本申请,并不用于限定本申请,并且在不冲突的情况下,本申请实施例及实施例中的特征可以相互组合。
参阅图1A所示,其为本申请实施例中一种可能的应用场景示意图。在该应用场景中包括终端设备110、服务器120和数据共享系统130。终端设备110、服务器120和数据共享系统130之间通过通信网络进行通信。
在一种可能的实施方式中,通信网络是有线网络或无线网络。终端设备110、服务器120、数据共享系统130之间可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。
用户通过终端设备110登录应用操作界面,终端设备110通过响应用户在应用操作界面触发的操作,向服务器120发送垂直搜索请求,使得服务器120基于垂直搜索请求中包含至少一个目标搜索关键词,进行垂直搜索。例如,服务器基于垂直搜索请求中包含至少一个目标搜索关键词,将至少一个目标搜索关键词输入至已训练的语义匹配模型中,获得设定搜索类型的搜索结果。示例性的,终端设备110响应用户操作之后,还可以接收并呈现服务器120返回的包含搜索结果的搜索结果页。
在本申请实施例中,应用可以是社交软件,例如即时通信软件、短视频软件,还可以是小程序、网页等,在此不做具体限定。其中,终端设备110上安装有应用,服务器120则是与软件或是网页、小程序等相对应的服务器。
在本申请实施例中,终端设备110为用户使用的电子设备,该电子设备可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。各终端设备110通过无线网络与服务器120连接,服务器120可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。
数据共享系统130通过通信网络与服务器120进行通信。示例性的,数据共享系统130用于存储预设的服务知识图谱、初始训练数据集、以及扩展数据集等。
数据共享系统130是指用于进行节点与节点之间数据共享的系统,该数据共享系统中可以包括多个节点131,多个节点131可以是指数据共享系统中各个客户端。每个节点131在进行正常工作可以接收到输入信息,并基于接收到的输入信息维护该数据共享系统内的共享数据。为了保证数据共享系统内的信息互通,数据共享系统中的每个节点之间可以存在信息连接,节点之间可以通过上述信息连接进行信息传输。例如,当数据共享系统中的任意节点接收到输入信息时,数据共享系统中的其他节点便根据共识算法获取该输入信息,将该输入信息作为共享数据中的数据进行存储,使得数据共享系统中全部节点上存储的数据均一致。
对于数据共享系统中的每个节点,均具有与其对应的节点标识,而且数据共享系统中的每个节点均可以存储有数据共享系统中其他节点的节点标识,以便后续根据其他节点的节点标识,将生成的区块广播至数据共享系统中的其他节点。每个节点中可维护一个如下表所示的节点标识列表,将节点名称和节点标识对应存储至该节点标识列表中。其中,节点标识可为网际互连协议(Internet Protocol,IP)地址以及其他任一种能够用于标识该节点的信息,表3中仅以IP地址为例进行说明。
表3节点标识列表
节点名称 节点标识
节点1 117.114.151.174
节点2 117.116.189.145
…… ……
节点N 119.123.789.258
数据共享系统中的每个节点均存储一条相同的区块链。区块链由多个区块组成,参见图1B,区块链由多个区块组成,创始块中包括区块头和区块主体,区块头中存储有输入信息特征值、版本号、时间戳和难度值,区块主体中存储有输入信息;创始块的下一区块以创始块为父区块,下一区块中同样包括区块头和区块主体,区块头中存储有当前区块的输入信息特征值、父区块的区块头特征值、版本号、时间戳和难度值,并以此类推,使得区块链中每个区块中存储的区块数据均与父区块中存储的区块数据存在关联,保证了区块中输入信息的安全性。
在生成区块链中的各个区块时,参见图1C,区块链所在的节点在接收到输入信息时,对输入信息进行校验,完成校验后,将输入信息存储至内存池中,并更新其用于记录输入信息的哈希树;之后,将更新时间戳更新为接收到输入信息的时间,并尝试不同的随机数,多次进行特征值计算,使得计算得到的特征值可以满足下述公式:
SHA256(SHA256(version+prev_hash+merkle_root+ntime+nbits+x))<TARGET
其中,SHA256为计算特征值所用的特征值算法;版本号(version)为区块链中相关区块协议的版本信息;prev_hash为当前区块的父区块的区块头特征值;merkle_root为输入信息的特征值;ntime为更新时间戳的更新时间;nbits为当前难度,在一段时间内为定值,并在超出固定时间段后再次进行确定;x为随机数;TARGET为特征值阈值,该特征值阈值可以根据nbits确定得到。
这样,当计算得到满足上述公式的随机数时,便可将信息对应存储,生成区块头和区块主体,得到当前区块。随后,区块链所在节点根据数据共享系统中其他节点的节点标识,将新生成的区块分别发送给其所在的数据共享系统中的其他节点,由其他节点对新生成的区块进行校验,并在完成校验后将新生成的区块添加至其存储的区块链中。
参阅图2所示,为本申请实施例提供的一种垂直搜索方法的实施流程图,应用于垂直搜索装置,垂直搜索装置可以是服务器120,也可以是部署于服务器120的装置,该方法的具体实施流程如下:
S201、垂直搜索装置接收垂直搜索请求,垂直搜索请求中包含至少一个目标搜索关键词。
本申请实施例中,垂直搜索请求可以是终端设备响应于操作界面中触发的输入操作,向垂直搜索装置发送的。输入操作包括但不限于是指触摸操作、鼠标操作、键盘操作等。
参阅图3所示,其为本申请实施例中提供的一种可能的操作界面,在该操作界面中,包含用于接收用户输入的目标搜索关键词的搜索框、“朋友圈”按钮、“文章”按钮、“公众号”按钮、“音乐”按钮、“小程序”按钮、“音乐”按钮、“表情”按钮。其中,“朋友圈”按钮用于提供朋友圈搜索服务,“文章”按钮用于提供文章搜索服务,“公众号”按钮用于提供公众号搜索服务,类似的,“小程序”按钮、“音乐”按钮、“表情”按钮的功能不再赘述。当用户输入目标搜索关键词后,可以获取朋友圈、文章、公众号等搜索类型的搜索结果。
例如,假设,用户在操作界面中输入目标搜索关键词“保姆”,终端设备响应于操作界面中触发的输入操作,向垂直搜索装置发送垂直搜索请求1。垂直搜索装置接收垂直搜索请求1,其中,垂直搜索请求中包含目标搜索关键词“保姆”。
例如,假设,用户在操作界面中输入目标搜索关键词“空调清洁”,终端设备响应于操作界面中触发的输入操作,向垂直搜索装置发送垂直搜索请求2。垂直搜索装置接收垂直搜索请求2,其中,垂直搜索请求中包含目标搜索关键词“空调清洁”。
考虑到若用户采用中文输入目标搜索关键词,垂直搜索装置需要对用户输入的待处理文本进行分词,以得到至少一个目标搜索关键词。具体的,垂直搜索请求中携带待处理文本,垂直搜索装置接收到垂直搜索请求后,采用预设的切词工具进行分词,得到至少一个目标搜索关键词。其中,预设的切词工具可以采用但不限于jieba分词、语言技术平台(LTP)分词等。
例如,假设,垂直搜索请求中携带的待处理文本为“空调清洁”,垂直搜索装置接收到垂直搜索请求后,采用jieba分词进行分词,得到目标搜索关键词“空调”和目标搜索关键词“清洁”。
S202、垂直搜索装置将至少一个目标搜索关键词输入至已训练的语义匹配模型中,获得设定搜索类型的搜索结果集合;其中,语义匹配模型是基于扩展数据集训练得到的,扩展数据集是基于预设的服务知识图谱中包含的实体关联关系,对初始训练数据进行扩展得到的。
其中,设定搜索类型包括但不限于公众号、服务、文章、音乐、朋友圈、表情等中的一项或多项。
服务知识图谱是指针对给用户提供服务的场景,构建的专门针对服务的知识图谱。服务知识图谱中可以包含服务知识图谱中可以包含一个或多个类目体系,例如,家政类目、教育类目、交通类目等。下文中,仅以家政类目为例,对服务知识图谱进行说明。
每个类目体系下各自包含各个实体,每个实体的属性包括但不限于是服务实体词、服务行为词、服务状态词、服务品牌等中的一项。示例性的,每个实体之间存在实体关联关系,实体关联关系可以包括但不限于上下位关系、同义词关系、扩展词关系等。
参阅图4A所示,服务知识图谱中,包含服务实体词:“家电”和“空调”,其中,“家电”和“空调”属于上下位关系词,也就是说,“家电”和“空调”之间的实体关联关系为上下位关系,“家电”是“空调”的上位实体;包含服务行动词:“清洗”和“清洁”,其中,“清洗”和“清洁”属于同义词,也就是说,“清洗”和“清洁”之间的实体关联关系为同义词关系;包含服务状态词:“到家”;以及包含服务品牌:“家电品牌A”。
参阅图4B所示,其为本申请实施例中提供的服务知识图谱的一种可能的示意图。在图4B中,服务知识图谱中包含以下实体:“家政类目”、“保姆”、“清洗”、“清洁”、“家电”、“洗衣机”、“空调”、“家电品牌A”等。其中,“家政类目”和“保姆”之间的实体关联关系为上下位关系,“家政类目”和“清洗”之间的实体关联关系为上下位关系,“清洗”和“清洁”之间的实体关联关系为同义词关系,“家电”与“洗衣机”之间的实体关联关系为上下位关系,“家电”与“空调”之间的实体关联关系为上下位关系。
例如,假设,垂直搜索装置将目标搜索关键词“保姆”输入至已训练的语义匹配模型中,获得服务类型和公众号类型的搜索结果集合,其中,服务类型的搜索结果包括“A保姆服务”、“B保姆服务”、“C保姆服务”等,公众号类型的搜索结果包括“A公众号”、“B公众号”等。
S203、垂直搜索装置返回包含搜索结果集合的搜索结果页。
例如,参阅图5所示,垂直搜索装置返回包含搜索结果集合的搜索结果页,搜索结果页中至少包含服务类型的搜索结果:“A保姆服务”、“B保姆服务”、“C保姆服务”,以及包含公众号类型的搜索结果:“A公众号”。
为提高搜索效率,在一些实施例中,垂直搜索装置将至少一个目标搜索关键词输入至已训练的语义匹配模型中,获得设定搜索类型的搜索结果时,还获得搜索结果集合中包含的各个搜索结果,分别与至少一个目标搜索关键词的相关度,则垂直搜索装置返回包含搜索结果集合的搜索结果页,包括:
基于获得的各个相关程度,对各个搜索结果进行排序,并返回包含排序后的各个搜索结果的搜索结果页。
其中,每个相关度分别用于表征:相应的搜索结果分别与至少一个目标搜索关键词之间的相关性。相关度可以采用数值表示,也可以采用等级表示,下文中,仅以等级为例进行说明。
例如,假设,搜索结果“A保姆服务”与目标搜索关键词“保姆”的相关度表征,搜索结果“A保姆服务”与目标搜索关键词“保姆”强相关,搜索结果“A公众号”与目标搜索关键词“保姆”的相关度表征,搜索结果“A公众号”与目标搜索关键词“保姆”弱相关,则基于获得的各个相关度,对搜索结果“A保姆服务”和搜索结果“A公众号”进行排序,排序后的各个搜索结果为:“A保姆服务”、“A公众号”,然后返回包含排序后的各个搜索结果的搜索结果页。
为了避免模型过拟合,在一些实施例中,参阅图6所示,扩展数据集可以采用但不限于以下方式获得:
S601、垂直搜索装置获取初始训练数据集,初始训练数据集中,每条训练数据包含至少一个历史搜索关键词和对应的历史搜索结果。
下文中仅以训练数据x为例进行说明,训练数据x为各条训练数据中的任意一条训练数据。
例如,训练数据x中包含历史搜索关键词“空调”“清洗”和对应的历史搜索结果“空调清洁服务”。
需要说明的是,本申请实施例中,考虑到用户采用中文输入历史搜索关键词,垂直搜索装置也可以采用上文提及的切词工具,获取每条训练数据中包含的至少一个历史搜索关键词,由于历史搜索关键词的获取过程和目标搜索关键词的获取过程类似,在此不再赘述。
S602、垂直搜索装置基于预设的服务知识图谱中包含的实体关联关系,从服务知识图谱中,分别确定初始训练数据集中包含的,各个历史搜索关键词各自关联的第一相邻实体集合,和各个历史搜索结果各自关联的第二相邻实体集合。
为了提高模型训练效率,在一些实施例中,垂直搜索装置可以针对初始训练数据集中包含的各个历史搜索关键词,分别执行以下操作,以获取各个历史搜索关键词各自关联的第一相邻实体集合。具体的,以历史搜索关键词x为例,历史搜索关键词x为各个历史搜索关键词中的任意一个历史搜索关键词,针对历史搜索关键词x,执行以下操作:
垂直搜索装置基于预设的服务知识图谱中包含的实体关联关系,获取历史搜索关键词x关联的候选相邻实体集合,其中,历史搜索关键词x关联的候选相邻实体集合中,包含历史搜索关键词x在服务知识图谱中的各个相邻实体;
垂直搜索装置从获得的候选相邻实体集合包含的各个候选相邻实体中,删除目标相邻实体,其中,目标相邻实体为:基于服务知识图谱,在候选相邻实体集合中存在下位实体的实体;
垂直搜索装置将删除了目标相邻实体的候选相邻实体集合,作为历史搜索关键词x关联的第一相邻实体集合。
以历史搜索关键词x为“家电”为例,基于服务知识图谱中包含的实体关联关系,获取“家电”关联的候选相邻实体集合为{“洗衣机”,“空调”、“清洗”},接着,垂直搜索装置从“洗衣机”、“空调”、“清洗”中,删除目标相邻实体“清洗”,然后,垂直搜索装置将删除了目标相邻实体的候选相邻实体集合,作为“家电”关联的第一相邻实体集合:{“洗衣机”,“空调”}。
需要说明的是,本申请实施例中,垂直搜索装置可以采用但不限于N元模型(N-Gram模型),确定各个目标搜索关键词在服务知识图谱中对应的实体,为例便于描述,本申请实施例中,将目标搜索关键词在服务知识图谱中对应的实体,简称为目标搜索关键词。
由于各个历史搜索结果各自关联的第二相邻实体集合的获取过程,与上述各个历史搜索关键词各自关联的第一相邻实体集合的获取过程类似,在此不再赘述。
S603、垂直搜索装置基于获得的各个第一相邻实体集合和各个第二相邻实体集合,组成得到至少一组扩展数据;其中,至少一组扩展数据与各条训练数据均不相同。
为进一步增加训练数据的多样性,提高数据差异性,以提升模型训练效果,在一些实施例中,执行S603时,垂直搜索装置针对初始训练数据集中包含的各条训练数据,执行以下操作中的至少一种:
下面仅以训练数据x和训练数据y为例进行说明。
训练数据x中包含一个历史搜索关键词(A),训练数据x可以表示为<A,B>,其中,A用于表征训练数据x中包含的历史搜索关键词,B用于表征训练数据x中包含的历史搜索结果,其中,A关联的第一相邻实体集合为{A1,A2,A3,……,ANA},B关联的第一相邻实体集合为{B1,B2,B3,……,BNB},其中,NA、NB均为正整数。
训练数据y中包含两个历史搜索关键词(C和D),训练数据y可以表示为<C、D,E>,其中,C、D分别用于表征训练数据y中包含的两个历史搜索关键词,E用于表征训练数据y中包含的历史搜索结果,其中,C关联的第一相邻实体集合为{C1,C2,C3,……CNC},D关联的第一相邻实体集合为{D1,D2,D3,……,DND},E关联的第一相邻实体集合为{E1,E2,E3,……,ENE},其中,NC、ND、NE均为正整数。
操作一:垂直搜索装置将训练数据x中包含的至少一个历史搜索关键词,分别与对应的历史搜索结果关联的第二相邻实体集合中的各个第二相邻实体进行组合,得到第一组扩展数据。
以训练数据x为例,参阅图7所示,垂直搜索装置将A与{B1,B2,B3,……,BNB}进行组合,得到第一组扩展数据:<A,B1>,<A,B2>,……,<A,BNB>。
需要说明的是,本申请实施例中,若历史搜索结果中包含多个关键词,则将至少一个历史搜索关键词,分别与多个键词各自关联的第二相邻实体集合中的各个第二相邻实体进行组合。
以训练数据x为<“清洁”,“家电清洗”>为例,“家电清洗”中包含“家电”和“清洗”,其中,“家电”关联的第二相邻实体集合为{“空调”,“洗衣机”},“清洗”关联的第二相邻实体集合为{“清洗”、“清除”},垂直搜索装置将“清洁”分别与{“空调”,“洗衣机”}{“清洗”、“清除”}进行组合,得到第一组扩展数据:<“清洁”,“空调”>,<“清洁”,“洗衣机”>,<“清洁”,“清洗”>,<“清洁”,“清除”>。
以训练数据y为例,垂直搜索装置将C与{E1,E2,E3,……,ENE}进行组合,以及将D与{E1,E2,E3,……,ENE}进行组合,得到第一组扩展数据:<C,E1>,<C,E2>,……,<C,ENE>,<D,E1>,<D,E2>,……,<D,ENE>。
以训练数据y为<“空调”、“清洁”,“家电”>为例,“家电”关联的第二相邻实体集合为{“空调”,“洗衣机”},垂直搜索装置将“清洁”与{“空调”,“洗衣机”}进行组合,以及将“空调”与{“空调”,“洗衣机”}进行组合,得到第一组扩展数据:<“清洁”,“空调”>,<“清洁”,“洗衣机”>,<“空调”,“空调”>,<“空调”,“洗衣机”>。
需要说明的是,采用操作一得到的第一组扩展数据中,包含的各个扩展数据的标签与相应的训练数据的标签相同,例如,通过训练数据x扩展得到的第一组扩展数据:<A,B1>,<A,B2>,……,<A,BNB>,与训练数据x的标签相同。
操作二:垂直搜索装置将训练数据x中包含的历史搜索结果,与对应的历史搜索关键词关联的第一相邻实体集合中的各个第一相邻实体进行组合,得到第二组扩展数据。
以训练数据x为例,参阅图7所示,垂直搜索装置将B与{A1,A2,A3,……,ANA}进行组合,得到第二组扩展数据:<A1,B>,<A2,B>,……,<ANA,B>。
仍以训练数据x为<“清洁”,“家电清洗”>为例,“清洁”关联的第一相邻实体集合为{“清洗”、“清除”},垂直搜索装置将“家电清洗”与{“清洗”、“清除”}进行组合,得到第二组扩展数据:<“清洗”,“家电清洗”>,<“清除”,“家电清洗”>。
以训练数据y为例,垂直搜索装置将E与{C1,C2,C3,……,CNC}进行组合,以及将E与{D1,D2,D3,……,DND}进行组合,得到第二组扩展数据:<C1,E>,<C2,E>,……,<CNC,E>,<D1,E>,<D2,E>,……,<DND,E>。
仍以训练数据y为<“空调”、“清洁”,“家电”>为例,“空调”关联的第一相邻实体集合为{“制冷设备”},“清洁”关联的第一相邻实体集合为{“清洗”、“清除”},垂直搜索装置将“家电清洗”与{“制冷设备”}组合,以及将“家电”与{“清洗”、“清除”}进行组合,得到第二组扩展数据:<“制冷设备”,“家电”>,<“清洗”,“家电”>,<“清除”,“家电”>。
需要说明的是,采用操作二得到的第二组扩展数据中,包含的各个扩展数据的标签与相应的训练数据的标签相同,例如,通过训练数据x扩展得到的第二组扩展数据:<A1,B>,<A2,B>,……,<ANA,B>,与训练数据x的标签相同。
操作三:垂直搜索装置将训练数据x中包含的历史搜索结果,与历史搜索结果关联的第二相邻实体集合中的各个第二相邻实体进行组合,得到第三组扩展数据。
以训练数据x为例,参阅图7所示,垂直搜索装置将B与{B1,B2,B3,……,BNB}进行组合,得到第三组扩展数据:<B,B1>,<B,B2>,……,<B,BNB>。
仍以训练数据x为<“清洁”,“家电清洗”>为例,“家电清洗”中包含“家电”和“清洗”,其中,“家电”关联的第二相邻实体集合为{“空调”,“洗衣机”},“清洗”关联的第二相邻实体集合为{“清洗”、“清除”},垂直搜索装置将“家电清洗”与{“空调”,“洗衣机”}进行组合,以及将“家电清洗”与{“清洗”、“清除”}进行组合,得到第三组扩展数据:<“家电清洗”,“空调”>,<“家电清洗”,“洗衣机”>,<“家电清洗”,“清洗”>,<“家电清洗”,“清除”>。
为了提高模型训练效率,在一些实施例中,垂直搜索装置可以根据不同实体间的实体关联关系,对第三组扩展数据设置标签。具体的,若历史搜索结果与一个第二相邻实体之间的实体关联关系表征:历史搜索结果与一个第二相邻实体为上下位关系,则垂直搜索装置将历史搜索结果与一个第二相邻实体组合得到的扩展数据的标签,设置为一级相关;
若历史搜索结果与一个第二相邻实体之间的实体关联关系表征:历史搜索结果与一个第二相邻实体为同义词关系,则垂直搜索装置将历史搜索结果与一个第二相邻实体组合得到的扩展数据的标签,设置为二级相关;
其中,每个标签用于表征相应的历史搜索关键词和对应的历史搜索结果的真实相关性,一级相关表征的相关性低于二级相关表征的相关性。
需要说明的是,本申请实施例中,相关性可以采用数值表示,也可以采用等级表示,本申请对此不作限制,下文中,仅以采用等级表示相关性为例进行说明。
以扩展数据<“家电”,“空调”>为例,“家电”与“空调”之间的实体关联关系为上下位关系,因此,垂直搜索装置将<“家电”,“空调”>的标签,设置为一级相关,其中,一级相关表示中度相关。
以扩展数据为<“清洗”,“清洁”>为例,“清洗”与“清洁”之间的实体关联关系为同义词关系,因此,垂直搜索装置将<“清洗”,“清洁”>的标签,设置为二级相关,其中,二级相关表示强相关。
操作四:垂直搜索装置将训练数据x中包含的至少一个历史搜索关键词,分别与对应的历史搜索结果关联的第二相邻实体集合中的部分第二相邻实体进行组合,得到第四组扩展数据。
为了增加训练数据中的负样本,以提高模型训练效果,在一些实施例中,可以采用但不限于以下至少一种方式,得到第四组扩展数据:
方式四-1:垂直搜索装置确定训练数据x中包含的历史搜索结果所属的目标领域类型,并从历史搜索结果关联的第二相邻实体集合中,筛选出所属的领域类型与目标领域类型不同的部分第二相邻实体,以及将至少一个历史搜索关键词分别与部分第二相邻实体进行组合,得到第四组扩展数据。
需要说明的是,本申请实施例中,类目体系也可称为领域类型。
仅以训练数据x为例,参阅图7所示,垂直搜索装置将A与{B1,B2,B3,……,BNB}中的部分第二相邻实体{B1,B2,……,BMB}进行组合,得到第一组扩展数据:<A,B1>,<A,B2>,……,<A,BMB>,其中,B1,B2,……,BMB与B的目标领域类型不同,MB为正整数,MB的取值小于或等于NB
以训练数据x为<“清洁”,“清洗”>为例,假设,“清洗”关联的第二相邻实体集合为{“清洁”、“清除”、“保养”},其中,“清洁”和“清除”所属的目标领域类型均为:家政类目,“保养”所属的目标领域类型为:汽修类目,垂直搜索装置确定“家电清洗”所属的目标领域类型为:家政类目,并从“家电清洗”关联的第二相邻实体集合中,筛选出非家政类目的部分第二相邻实体:{“清洁”、“清除”},以及将“清洁”分别与{“清洁”、“清除”}进行组合,得到第四组扩展数据:<“清洁”,“清洁”>,<“清洁”,“清除”>。
为了更好的学习不同类目体系之间的差别,本申请实施例中,作为一种举例,B1,B2,……,BMB与B的目标领域类型不同,且B1,B2,……,BMB与A的文本相似度超过预设相似度阈值,作为另一种举例,B1,B2,……,BMB与B的目标领域类型不同,且B1,B2,……,BMB与B的文本相似度超过预设相似度阈值。其中,文本相似度可以采用但不限于欧式距离、曼哈顿距离、余弦相似度计算得到。
方式四-2:垂直搜索装置确定训练数据x中包含的历史搜索结果关联的目标上位实体,并从历史搜索结果关联的第二相邻实体集合中,筛选出关联的上位实体与目标上位实体相同的部分第二相邻实体,以及将历史搜索关键词与部分第二相邻实体进行组合,得到第四组扩展数据。
仅以训练数据x为例,参阅图7所示,垂直搜索装置将A与{B1,B2,B3,……,BNB}中的部分第二相邻实体{B1,B2,……,BMB}进行组合,得到第一组扩展数据:<A,B1>,<A,B2>,……,<A,BMB>,其中,B1,B2,……,BMB与B关联的上位实体均相同,MB为正整数,MB的取值小于或等于NB
以训练数据x为<“清洁”,“空调”>为例,假设,“空调”关联的第二相邻实体集合为{“制冷设备”},其中,“空调”的上位实体为“家电”,“制冷设备”的上位实体为“家电”,垂直搜索装置确定“商用电器”与“空调”的上位实体相同,并从“空调”关联的第二相邻实体集合中,筛选出部分第二相邻实体{“制冷设备”},以及将“清洁”与{“制冷设备”}进行组合,得到第四组扩展数据:<“清洁”,“制冷设备”>。
操作五:垂直搜索装置将训练数据x中包含的历史搜索结果,与对应的历史搜索关键词关联的第一相邻实体集合中的部分第一相邻实体进行组合,得到第五组扩展数据。需要说明的是,由于操作五与操作四类似,在此不再赘述。
S604、垂直搜索装置基于至少一组扩展数据,得到扩展数据集。
具体的,垂直搜索装置可以按照设定抽取比例,从第一组扩展数据和第二组扩展数据中,抽取出第五组训练数据;基于第三组扩展数据、第四组扩展数据和第五组扩展数据,获得扩展数据集。
例如,假设,抽取比例为1:1,从第一组扩展数据<A,B1>,<A,B2>,……,<A,BNB>和第二组扩展数据:<A1,B>,<A2,B>,……,<ANA,B>中,抽取出第五组训练数据:<A,B1>,<A2,B>,……,<A,BNB>,然后,垂直搜索装置基于第三组扩展数据:<B,B1>,<B,B2>,……,<B,BNB>、第四组扩展数据:<A,B1>,<A,B2>,……,<A,BMB>和第五组扩展数据:<A1,B>,<A2,B>,……,<AMA,B>,MA为正整数,MA的取值小于或等于NB,得到扩展数据集。
考虑到通过上述操作一至操作五得到的至少一组扩展数据中,存在重复的扩展数据,为了提高模型训练效率,本申请实施例中,垂直搜索装置可以对扩展数据集进行去重处理,后续基于去重了的扩展数据集对语义匹配模型进行训练。
基于相同的发明构思,本申请实施例提供一种垂直搜索装置。参阅图8所示,其为垂直搜索装置800的结构示意图,垂直搜索装置800可以包括接收单元801、搜索单元802和发送单元803,其中,
接收单元801,用于接收垂直搜索请求,所述垂直搜索请求中包含至少一个目标搜索关键词;
搜索单元802,用于将所述至少一个目标搜索关键词输入至已训练的语义匹配模型中,获得设定搜索类型的搜索结果集合;其中,所述语义匹配模型是基于扩展数据集训练得到的,所述扩展数据集是基于预设的服务知识图谱中包含的实体关联关系,对初始训练数据进行扩展得到的;
发送单元803,用于返回包含所述搜索结果集合的搜索结果页。
可选的,垂直搜索装置800还包括扩展单元804,所述扩展单元804用于:
获取初始训练数据集,所述初始训练数据集中,每条训练数据包含至少一个历史搜索关键词和对应的历史搜索结果;
基于预设的服务知识图谱中包含的实体关联关系,从所述服务知识图谱中,分别确定所述初始训练数据集中包含的,各个历史搜索关键词各自关联的第一相邻实体集合,和各个历史搜索结果各自关联的第二相邻实体集合;
基于获得的各个第一相邻实体集合和各个第二相邻实体集合,组成得到至少一组扩展数据;其中,所述至少一组扩展数据与各条训练数据均不相同;
基于所述至少一组扩展数据,得到所述扩展数据集。
可选的,所述基于预设的服务知识图谱中包含的实体关联关系,从所述服务知识图谱中,分别确定所述初始训练数据集中包含的,各个历史搜索关键词各自关联的第一相邻实体集合时,所述扩展单元804具体用于:
针对所述初始训练数据集中包含的各个历史搜索关键词,分别执行以下操作:
基于预设的服务知识图谱中包含的实体关联关系,获取一个历史搜索关键词关联的候选相邻实体集合,其中,所述一个历史搜索关键词关联的候选相邻实体集合中,包含所述一个历史搜索关键词在所述服务知识图谱中的各个相邻实体;
从获得的候选相邻实体集合包含的各个候选相邻实体中,删除目标相邻实体,其中,所述目标相邻实体为:基于所述服务知识图谱,在候选相邻实体集合中存在下位实体的实体;
将删除了目标相邻实体的候选相邻实体集合,作为所述一个历史搜索关键词关联的第一相邻实体集合。
可选的,所述基于获得的各个第一相邻实体集合和各个第二相邻实体集合,组成得到至少一组扩展数据时,所述扩展单元804用于执行以下操作中的至少一种:
针对所述初始训练数据集中包含的各条训练数据,分别执行以下操作:
将一条训练数据中包含的至少一个历史搜索关键词,分别与对应的历史搜索结果关联的第二相邻实体集合中的各个第二相邻实体进行组合,得到第一组扩展数据;
将一条训练数据中包含的历史搜索结果,与对应的至少一个历史搜索关键词各自关联的第一相邻实体集合中的各个第一相邻实体进行组合,得到第二组扩展数据;
将一条训练数据中包含的历史搜索结果,与所述历史搜索结果关联的第二相邻实体集合中的各个第二相邻实体进行组合,得到第三组扩展数据;
将一条训练数据中包含的至少一个历史搜索关键词,分别与对应的历史搜索结果关联的第二相邻实体集合中的部分第二相邻实体进行组合,得到第四组扩展数据;
将一条训练数据中包含的历史搜索结果,与对应的至少一个历史搜索关键词各自关联的第一相邻实体集合中的部分第一相邻实体进行组合,得到第五组扩展数据。
可选的,所述将一条训练数据中包含的至少一个历史搜索关键词,分别与对应的历史搜索结果关联的第二相邻实体集合中的部分第二相邻实体进行组合,得到第四组扩展数据时,所述扩展单元804用于执行以下操作中的至少一种:
确定所述一条训练数据中包含的历史搜索结果所属的目标领域类型,并从所述历史搜索结果关联的第二相邻实体集合中,筛选出所属的领域类型与所述目标领域类型不同的部分第二相邻实体,以及将所述至少一个历史搜索关键词分别与所述部分第二相邻实体进行组合,得到所述第四组扩展数据;
确定所述一条训练数据中包含的历史搜索结果关联的目标上位实体,并从所述历史搜索结果关联的第二相邻实体集合中,筛选出关联的上位实体与所述目标上位实体相同的部分第二相邻实体,以及将所述至少一个历史搜索关键词分别与所述部分第二相邻实体进行组合,得到所述第四组扩展数据。
可选的,所述将一条训练数据中包含的历史搜索结果,与所述历史搜索结果关联的第二相邻实体集合中的各个第二相邻实体进行组合,得到第三组扩展数据之后,所述基于所述至少一组扩展数据,得到所述扩展数据集之前,所述扩展单元804还用于:
若所述历史搜索结果与一个第二相邻实体之间的实体关联关系表征:所述历史搜索结果与所述一个第二相邻实体为上下位关系,则将所述历史搜索结果与所述一个第二相邻实体组合得到的扩展数据的标签,设置为一级相关;
若所述历史搜索结果与一个第二相邻实体之间的实体关联关系表征:所述历史搜索结果与所述一个第二相邻实体为同义词关系,则将所述历史搜索结果与所述一个第二相邻实体组合得到的扩展数据的标签,设置为二级相关;
其中,每个标签用于表征相应的历史搜索关键词和对应的历史搜索结果的真实相关性,所述一级相关表征的相关性低于二级相关表征的相关性。
可选的,所述基于所述至少一组扩展数据,得到所述扩展数据集时,所述扩展单元804具体用于:
按照设定抽取比例,从第一组扩展数据和第二组扩展数据中,抽取出第五组训练数据;
基于所述第三组扩展数据、第四组扩展数据和第五组扩展数据,获得所述扩展数据集。
可选的,所述将所述至少一个目标搜索关键词输入至已训练的语义匹配模型中,获得设定搜索类型的搜索结果集合时,所述搜索单元802还用于:
获得所述搜索结果集合中包含的各个搜索结果,分别与所述至少一个目标搜索关键词的相关度,每个相关度用于表征相应的搜索结果分别与所述至少一个目标搜索关键词之间的相关性;
则所述返回包含所述搜索结果集合的搜索结果页时,所述发送单元具体用于:
基于获得的各个相关度,对所述各个搜索结果进行排序,并返回包含排序后的各个搜索结果的搜索结果页。
为了描述的方便,以上各部分按照功能划分为各模块(或单元)分别描述。当然,在实施本申请时可以把各模块(或单元)的功能在同一个或多个软件或硬件中实现。
关于上述实施例中的装置,其中各个单元执行请求的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
所属技术领域的技术人员能够理解,本申请的各个方面可以实现为系统、方法或程序产品。因此,本申请的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“系统”。
在介绍了本申请示例性实施方式的音频库的生成方法和装置之后,接下来,介绍根据本申请的另一示例性实施方式的电子设备。
图9是根据一示例性实施例示出的一种电子设备900的框图,该装置包括:
处理器910;
用于存储处理器910可执行指令的存储器920;
其中,处理器910被配置为执行指令,以实现本公开实施例中的垂直搜索方法,例如图2或图6中所示的步骤。
在示例性实施例中,还提供了一种包括操作的存储介质,例如包括操作的存储器920,上述操作可由电子设备900的处理器910执行以完成上述方法。可选地,存储介质可以是非临时性计算机可读存储介质,例如,非临时性计算机可读存储介质可以是只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、便携式紧凑盘只读存储器(Compact Disk Read Only Memory,CD-ROM)、磁带、软盘和光数据存储设备等。
基于同一发明构思,参阅图10所示,本申请实施例还提供了一种终端设备1000,该终端设备1000可以为智能手机、平板电脑,手提电脑或PC等电子设备。
该终端设备1000包括显示单元1040、处理器1080以及存储器1020,其中,显示单元1040包括显示面板1041,用于显示由用户输入的信息或提供给用户的信息以及终端设备1000的各种操作界面等,在本申请实施例中主要用于显示终端设备1000中已安装的应用程序的操作界面、快捷窗口等。可选的,可以采用LCD(Liquid Crystal Display,液晶显示器)或OLED(Organic Light-Emitting Diode,有机发光二极管)等形式来配置显示面板1041。
处理器1080用于读取计算机程序,然后执行计算机程序定义的方法,例如处理器1080读取应用,从而在该终端设备1000上运行应用,在显示单元1040上显示操作界面。处理器1080可以包括一个或多个通用处理器,还可包括一个或多个DSP(Digital SignalProcessor,数字信号处理器),用于执行相关操作,以实现本申请实施例所提供的技术方案。
存储器1020一般包括内存和外存,内存可以为RAM,ROM,以及高速缓存(CACHE)等。外存可以为硬盘、光盘、USB盘、软盘或磁带机等。存储器1020用于存储计算机程序和其他数据,该计算机程序包括应用程序等,其他数据可包括操作系统或应用程序被运行后产生的数据,该数据包括系统数据(例如操作系统的配置参数)和用户数据。本申请实施例中程序指令存储在存储器1020中,处理器1080执行存储器1020中的程序指令,实现前文论述的垂直搜索方法。
此外,终端设备1000还可以包括显示单元1040,用于接收输入的数字信息、字符信息或接触式触摸操作/非接触式手势,以及产生与终端设备1000的用户设置以及功能控制有关的信号输入等。具体地,本申请实施例中,该显示单元1040可以包括显示面板1041。显示面板1041例如触摸屏,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在显示面板1041上或在显示面板1041的操作),并根据预先设定的程式驱动相应的连接装置。可选的,显示面板1041可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器1080,并能接收处理器1080发来的命令并加以执行。在本申请实施例中,若用户对操作界面中的控件进行选中操作,则在显示面板1041中的触摸检测装置检测到触摸操作,则将检测到的触摸操作对应的信号发送的触摸控制器,触摸控制器将信号转换成触点坐标发送给处理器1080,处理器1080根据接收到的触点坐标确定用户选中的控件。
其中,显示面板1041可以采用电阻式、电容式、红外线以及表面声波等多种类型实现。除了显示单元1040,终端设备1000还可以包括输入单元1030,输入单元1030可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。图10中是以输入单元1030包括图像输入设备1031和其它输入设备1032为例。
除以上之外,终端设备1000还可以包括用于给其他模块供电的电源1090、音频电路1060、近场通信模块1070和射频(RF)电路1010。终端设备1000还可以包括一个或多个传感器1050,例如加速度传感器、光传感器、压力传感器等。音频电路1060具体包括扬声器1061和麦克风1062等,例如用户可以使用语音控制,终端设备1000可以通过麦克风1062采集用户的声音,可以用户的声音进行控制,并在需要提示用户时,通过扬声器1061播放对应的提示音。
基于同一发明构思,本申请还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述实施例中各种可选实现方式中提供的垂直搜索方法。
在一些可能的实施方式中,本申请提供的垂直搜索方法的各个方面还可以实现为一种程序产品的形式,其包括计算机程序,当程序产品在计算机设备上运行时,计算机程序用于使计算机设备执行本说明书上述描述的根据本申请各种示例性实施方式的垂直搜索方法中的步骤,例如,计算机设备可以执行如图2或图6中所示的步骤。
程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、RAM、ROM、可擦式可编程只读存储器(EPROM或闪存)、光纤、CD-ROM、光存储器件、磁存储器件、或者上述的任意合适的组合。
本申请的实施方式的程序产品可以采用CD-ROM并包括程序代码,并可以在计算装置上运行。然而,本申请的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被命令执行系统、装置或者器件使用或者与其结合使用。
可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由命令执行系统、装置或者器件使用或者与其结合使用的程序。尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

Claims (15)

1.一种垂直搜索方法,其特征在于,包括:
接收垂直搜索请求,所述垂直搜索请求中包含至少一个目标搜索关键词;
将所述至少一个目标搜索关键词输入至已训练的语义匹配模型中,获得设定搜索类型的搜索结果集合;其中,所述语义匹配模型是基于扩展数据集训练得到的,所述扩展数据集是基于预设的服务知识图谱中包含的实体关联关系,对初始训练数据进行扩展得到的;
返回包含所述搜索结果集合的搜索结果页。
2.如权利要求1所述的方法,其特征在于,所述扩展数据集是采用以下方式获得的:
获取初始训练数据集,所述初始训练数据集中,每条训练数据包含至少一个历史搜索关键词和对应的历史搜索结果;
基于预设的服务知识图谱中包含的实体关联关系,从所述服务知识图谱中,分别确定所述初始训练数据集中包含的,各个历史搜索关键词各自关联的第一相邻实体集合,和各个历史搜索结果各自关联的第二相邻实体集合;
基于获得的各个第一相邻实体集合和各个第二相邻实体集合,组成得到至少一组扩展数据;其中,所述至少一组扩展数据与各条训练数据均不相同;
基于所述至少一组扩展数据,得到所述扩展数据集。
3.如权利要求2所述的方法,其特征在于,所述基于预设的服务知识图谱中包含的实体关联关系,从所述服务知识图谱中,分别确定所述初始训练数据集中包含的,各个历史搜索关键词各自关联的第一相邻实体集合,包括:
针对所述初始训练数据集中包含的各个历史搜索关键词,分别执行以下操作:
基于预设的服务知识图谱中包含的实体关联关系,获取一个历史搜索关键词关联的候选相邻实体集合,其中,所述一个历史搜索关键词关联的候选相邻实体集合中,包含所述一个历史搜索关键词在所述服务知识图谱中的各个相邻实体;
从获得的候选相邻实体集合包含的各个候选相邻实体中,删除目标相邻实体,其中,所述目标相邻实体为:基于所述服务知识图谱,在候选相邻实体集合中存在下位实体的实体;
将删除了目标相邻实体的候选相邻实体集合,作为所述一个历史搜索关键词关联的第一相邻实体集合。
4.如权利要求2所述的方法,其特征在于,所述基于获得的各个第一相邻实体集合和各个第二相邻实体集合,组成得到至少一组扩展数据,包括以下操作中的至少一种:
针对所述初始训练数据集中包含的各条训练数据,分别执行以下操作:
将一条训练数据中包含的至少一个历史搜索关键词,分别与对应的历史搜索结果关联的第二相邻实体集合中的各个第二相邻实体进行组合,得到第一组扩展数据;
将一条训练数据中包含的历史搜索结果,与对应的至少一个历史搜索关键词各自关联的第一相邻实体集合中的各个第一相邻实体进行组合,得到第二组扩展数据;
将一条训练数据中包含的历史搜索结果,与所述历史搜索结果关联的第二相邻实体集合中的各个第二相邻实体进行组合,得到第三组扩展数据;
将一条训练数据中包含的至少一个历史搜索关键词,分别与对应的历史搜索结果关联的第二相邻实体集合中的部分第二相邻实体进行组合,得到第四组扩展数据;
将一条训练数据中包含的历史搜索结果,与对应的至少一个历史搜索关键词各自关联的第一相邻实体集合中的部分第一相邻实体进行组合,得到第五组扩展数据。
5.如权利要求4所述的方法,其特征在于,所述将一条训练数据中包含的至少一个历史搜索关键词,分别与对应的历史搜索结果关联的第二相邻实体集合中的部分第二相邻实体进行组合,得到第四组扩展数据,包含以下操作中的至少一种:
确定所述一条训练数据中包含的历史搜索结果所属的目标领域类型,并从所述历史搜索结果关联的第二相邻实体集合中,筛选出所属的领域类型与所述目标领域类型不同的部分第二相邻实体,以及将所述至少一个历史搜索关键词分别与所述部分第二相邻实体进行组合,得到所述第四组扩展数据;
确定所述一条训练数据中包含的历史搜索结果关联的目标上位实体,并从所述历史搜索结果关联的第二相邻实体集合中,筛选出关联的上位实体与所述目标上位实体相同的部分第二相邻实体,以及将所述至少一个历史搜索关键词分别与所述部分第二相邻实体进行组合,得到所述第四组扩展数据。
6.如权利要求4所述的方法,其特征在于,所述将一条训练数据中包含的历史搜索结果,与所述历史搜索结果关联的第二相邻实体集合中的各个第二相邻实体进行组合,得到第三组扩展数据之后,所述基于所述至少一组扩展数据,得到所述扩展数据集之前,还包括:
若所述历史搜索结果与一个第二相邻实体之间的实体关联关系表征:所述历史搜索结果与所述一个第二相邻实体为上下位关系,则将所述历史搜索结果与所述一个第二相邻实体组合得到的扩展数据的标签,设置为一级相关;
若所述历史搜索结果与一个第二相邻实体之间的实体关联关系表征:所述历史搜索结果与所述一个第二相邻实体为同义词关系,则将所述历史搜索结果与所述一个第二相邻实体组合得到的扩展数据的标签,设置为二级相关;
其中,每个标签用于表征相应的历史搜索关键词和对应的历史搜索结果的真实相关性,所述一级相关表征的相关性低于二级相关表征的相关性。
7.如权利要求4所述的方法,其特征在于,所述基于所述至少一组扩展数据,得到所述扩展数据集,包括:
按照设定抽取比例,从第一组扩展数据和第二组扩展数据中,抽取出第五组训练数据;
基于所述第三组扩展数据、第四组扩展数据和第五组扩展数据,获得所述扩展数据集。
8.如权利要求3所述的方法,其特征在于,所述将所述至少一个目标搜索关键词输入至已训练的语义匹配模型中,获得设定搜索类型的搜索结果集合时,还包括:
获得所述搜索结果集合中包含的各个搜索结果,分别与所述至少一个目标搜索关键词的相关度,每个相关度用于表征相应的搜索结果分别与所述至少一个目标搜索关键词之间的相关性;
则所述返回包含所述搜索结果集合的搜索结果页,包括:
基于获得的各个相关度,对所述各个搜索结果进行排序,并返回包含排序后的各个搜索结果的搜索结果页。
9.一种垂直搜索装置,其特征在于,包括:
接收单元,用于接收垂直搜索请求,所述垂直搜索请求中包含至少一个目标搜索关键词;
搜索单元,用于将所述至少一个目标搜索关键词输入至已训练的语义匹配模型中,获得设定搜索类型的搜索结果集合;其中,所述语义匹配模型是基于扩展数据集训练得到的,所述扩展数据集是基于预设的服务知识图谱中包含的实体关联关系,对初始训练数据进行扩展得到的;
发送单元,用于返回包含所述搜索结果集合的搜索结果页。
10.如权利要求9所述的装置,其特征在于,还包括扩展单元,所述扩展单元用于:
获取初始训练数据集,所述初始训练数据集中,每条训练数据包含至少一个历史搜索关键词和对应的历史搜索结果;
基于预设的服务知识图谱中包含的实体关联关系,从所述服务知识图谱中,分别确定所述初始训练数据集中包含的,各个历史搜索关键词各自关联的第一相邻实体集合,和各个历史搜索结果各自关联的第二相邻实体集合;
基于获得的各个第一相邻实体集合和各个第二相邻实体集合,组成得到至少一组扩展数据;其中,所述至少一组扩展数据与各条训练数据均不相同;
基于所述至少一组扩展数据,得到所述扩展数据集。
11.如权利要求10所述的装置,其特征在于,所述基于预设的服务知识图谱中包含的实体关联关系,从所述服务知识图谱中,分别确定所述初始训练数据集中包含的,各个历史搜索关键词各自关联的第一相邻实体集合时,所述扩展单元具体用于:
针对所述初始训练数据集中包含的各个历史搜索关键词,分别执行以下操作:
基于预设的服务知识图谱中包含的实体关联关系,获取一个历史搜索关键词关联的候选相邻实体集合,其中,所述一个历史搜索关键词关联的候选相邻实体集合中,包含所述一个历史搜索关键词在所述服务知识图谱中的各个相邻实体;
从获得的候选相邻实体集合包含的各个候选相邻实体中,删除目标相邻实体,其中,所述目标相邻实体为:基于所述服务知识图谱,在候选相邻实体集合中存在下位实体的实体;
将删除了目标相邻实体的候选相邻实体集合,作为所述一个历史搜索关键词关联的第一相邻实体集合。
12.如权利要求10所述的装置,其特征在于,所述基于获得的各个第一相邻实体集合和各个第二相邻实体集合,组成得到至少一组扩展数据时,所述扩展单元用于执行以下操作中的至少一种:
针对所述初始训练数据集中包含的各条训练数据,分别执行以下操作:
将一条训练数据中包含的至少一个历史搜索关键词,分别与对应的历史搜索结果关联的第二相邻实体集合中的各个第二相邻实体进行组合,得到第一组扩展数据;
将一条训练数据中包含的历史搜索结果,与对应的至少一个历史搜索关键词各自关联的第一相邻实体集合中的各个第一相邻实体进行组合,得到第二组扩展数据;
将一条训练数据中包含的历史搜索结果,与所述历史搜索结果关联的第二相邻实体集合中的各个第二相邻实体进行组合,得到第三组扩展数据;
将一条训练数据中包含的至少一个历史搜索关键词,分别与对应的历史搜索结果关联的第二相邻实体集合中的部分第二相邻实体进行组合,得到第四组扩展数据;
将一条训练数据中包含的历史搜索结果,与对应的至少一个历史搜索关键词各自关联的第一相邻实体集合中的部分第一相邻实体进行组合,得到第五组扩展数据。
13.如权利要求12所述的装置,其特征在于,所述将一条训练数据中包含的至少一个历史搜索关键词,分别与对应的历史搜索结果关联的第二相邻实体集合中的部分第二相邻实体进行组合,得到第四组扩展数据时,所述扩展单元用于执行以下操作中的至少一种:
确定所述一条训练数据中包含的历史搜索结果所属的目标领域类型,并从所述历史搜索结果关联的第二相邻实体集合中,筛选出所属的领域类型与所述目标领域类型不同的部分第二相邻实体,以及将所述至少一个历史搜索关键词分别与所述部分第二相邻实体进行组合,得到所述第四组扩展数据;
确定所述一条训练数据中包含的历史搜索结果关联的目标上位实体,并从所述历史搜索结果关联的第二相邻实体集合中,筛选出关联的上位实体与所述目标上位实体相同的部分第二相邻实体,以及将所述至少一个历史搜索关键词分别与所述部分第二相邻实体进行组合,得到所述第四组扩展数据。
14.一种电子设备,其特征在于,其包括处理器和存储器,其中,所述存储器存储有计算机程序,当所述计算机程序被所述处理器执行时,使得所述处理器执行权利要求1~8中任一所述方法的步骤。
15.一种计算机可读存储介质,其特征在于,其包括计算机程序,当所述计算机程序在电子设备上运行时,所述计算机程序用于使所述电子设备执行权利要求1~8中任一所述方法的步骤。
CN202110640134.XA 2021-06-09 2021-06-09 一种垂直搜索方法、装置、电子设备和存储介质 Pending CN113821711A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110640134.XA CN113821711A (zh) 2021-06-09 2021-06-09 一种垂直搜索方法、装置、电子设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110640134.XA CN113821711A (zh) 2021-06-09 2021-06-09 一种垂直搜索方法、装置、电子设备和存储介质

Publications (1)

Publication Number Publication Date
CN113821711A true CN113821711A (zh) 2021-12-21

Family

ID=78912527

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110640134.XA Pending CN113821711A (zh) 2021-06-09 2021-06-09 一种垂直搜索方法、装置、电子设备和存储介质

Country Status (1)

Country Link
CN (1) CN113821711A (zh)

Similar Documents

Publication Publication Date Title
US9997157B2 (en) Knowledge source personalization to improve language models
EP3158559B1 (en) Session context modeling for conversational understanding systems
US9239875B2 (en) Method for disambiguated features in unstructured text
US20210026910A1 (en) Expert Detection in Social Networks
US8719192B2 (en) Transfer of learning for query classification
EP3729231A1 (en) Domain-specific natural language understanding of customer intent in self-help
CN105518658A (zh) 用于将数据记录分组的设备、系统以及方法
CN102902821A (zh) 基于网络热点话题的图像高级语义标注、检索方法及装置
US20210279622A1 (en) Learning with limited supervision for question-answering with light-weight markov models
CN108920649B (zh) 一种信息推荐方法、装置、设备和介质
Hsu et al. Integrating machine learning and open data into social Chatbot for filtering information rumor
Xiong et al. Affective impression: Sentiment-awareness POI suggestion via embedding in heterogeneous LBSNs
WO2021253238A1 (en) Learning interpretable relationships between entities, relations, and concepts via bayesian structure learning on open domain facts
US11314793B2 (en) Query processing
CN113821711A (zh) 一种垂直搜索方法、装置、电子设备和存储介质
CN111597453B (zh) 用户画像方法、装置、计算机设备及计算机可读存储介质
CN115221954A (zh) 用户画像方法、装置、电子设备以及存储介质
JP2022111020A (ja) 文書類似度学習に基づくディープラーニングモデルの転移学習方法およびコンピュータ装置
Yin et al. An Attention Hierarchical Topic Modeling
CN116186434A (zh) 用于生成标签集合的方法、装置、设备和存储介质
CN114595777A (zh) 一种训练分类模型的方法、装置、计算机设备及存储介质
CN115905416A (zh) 一种数据处理方法和相关装置
CN115934863A (zh) 一种社区发现、针对实体的数据处理方法、装置及设备
CN116911801A (zh) 活动方案生成方法、装置、设备及存储介质
CN116994249A (zh) 一种信息处理方法、装置、设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination