CN117520511A - 基于特征文本的内容主体搜索方法、装置、设备及介质 - Google Patents

基于特征文本的内容主体搜索方法、装置、设备及介质 Download PDF

Info

Publication number
CN117520511A
CN117520511A CN202311552487.XA CN202311552487A CN117520511A CN 117520511 A CN117520511 A CN 117520511A CN 202311552487 A CN202311552487 A CN 202311552487A CN 117520511 A CN117520511 A CN 117520511A
Authority
CN
China
Prior art keywords
main body
keyword
searched
keywords
content
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311552487.XA
Other languages
English (en)
Inventor
张冠群
王思博
元英会
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chaozhou Zhuoshu Big Data Industry Development Co Ltd
Original Assignee
Chaozhou Zhuoshu Big Data Industry Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chaozhou Zhuoshu Big Data Industry Development Co Ltd filed Critical Chaozhou Zhuoshu Big Data Industry Development Co Ltd
Priority to CN202311552487.XA priority Critical patent/CN117520511A/zh
Publication of CN117520511A publication Critical patent/CN117520511A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3325Reformulation based on results of preceding query
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本说明书实施例公开了一种基于特征文本的内容主体搜索方法、装置、设备及介质,涉及计算机技术领域,用于解决现有传统搜索方式维护成本高且场景适应性差的问题,方法包括:获取当前平台中各内容主体所对应的关键词集合,以对关键词集合中各关键词所对应的历史查询记录进行口语语句化处理,获得各关键词所对应的口语语句;对各口语语句进行转换汇总,获得当前平台中各内容主体所对应的特征文本,以基于各内容主体所对应的特征文本确定当前平台的内容主体特征;获取当前平台接收的待搜索关键词,以基于待搜索关键词与所述内容主体特征中各特征文本的匹配度,确定当前待搜索关键词所对应的搜索结果。

Description

基于特征文本的内容主体搜索方法、装置、设备及介质
技术领域
本说明书涉及计算机技术领域,尤其涉及一种基于特征文本的内容主体搜索方法、装置、设备及介质。
背景技术
当前网站与app已经有了非常成熟的内容搜索功能,特别是电商行业,发展除了非常精准的搜索和推荐服务。智能搜索利用语义解析、词语向量、自然语言处理、机器学习等先进技术,能够在海量内容中为用户呈现理想的搜索结果,还能个性化实现平台运营方希望提供的“配套”结果。但是搭建一套电商级别的搜索系统,成本很高,需要有大量的运营数据,对研发人员的要求也很高,很多平台也不需要功能如此强大的搜索能力。因此对于中小型平台来说基于搜索引擎将关键词与目标内容进行匹配的传统搜索是较为常用的搜索推荐方式。
现有的传统搜索是使用搜索引擎将关键词与目标内容进行匹配,通过目标内容的标题、关键词设置,获得相关性的倒排索引,向用户展示搜索结果。但是当前搜索方式比较依赖关键词设置的全面性,需要大量的单个关键词维护,否则难以得到理想的搜索结果。并且对于老年人较为口语化的搜索进行响应的能力较差,使得老年人用户往往难以得到想要的搜索内容,导致使用场景适应性以及搜索效果较差。
发明内容
为了解决上述技术问题,本说明书一个或多个实施例提供了一种基于特征文本的内容主体搜索方法、装置、设备及介质。
本说明书一个或多个实施例采用下述技术方案:
本说明书一个或多个实施例提供一种基于特征文本的内容主体搜索方法,方法包括:
获取当前平台中各内容主体所对应的关键词集合,以对所述关键词集合中各关键词所对应的历史查询记录进行口语语句化处理,获得各关键词所对应的口语语句;
对各口语语句进行转换汇总,获得所述当前平台中各内容主体所对应的特征文本,以基于各内容主体所对应的特征文本确定当前平台的内容主体特征;
获取所述当前平台接收的待搜索关键词,以基于所述待搜索关键词与所述内容主体特征中各特征文本的匹配度,确定当前待搜索关键词所对应的搜索结果。
可选地,在本说明书一个或多个实施例中,获取当前平台中各内容主体所对应的关键词集合,具体包括:
根据所述当前平台的展示主体列表,确定当前平台所对应的内容主体;其中,所述内容主体包括:文章类型主体、资讯类型主体、服务类型主体、商品类型主体、作者类型主体、功能类型主体;
根据所述当前平台中各内容主体的功能描述,确定所述当前平台中各内容主体所对应的关键词,以汇总各所述对应的关键词确定所述当前平台中各内容主体所对应的关键词集合。
可选地,在本说明书一个或多个实施例中,对所述关键词集合中各关键词所对应的历史查询记录进行口语语句化处理,获得各关键词所对应的口语语句,具体包括:
获取所述当前平台的搜索功能所对应的数据库,以基于所述数据库确定所述当前平台的历史查询记录;
并获取各所述历史查询记录所对应的搜索结果,确定各所述搜索结果所对应的标准语句;
提取所述标准语句的搜索关键词,确定搜索关键词与所述历史查询记录的第一匹配度;其中,所述搜索关键词对应于多个历史查询记录;
基于余弦相似度算法获取所述关键词集合中各关键词相对应的搜索关键词,以基于所述搜索关键词与所述历史查询记录的第一匹配度,确定所述关键词集合中各关键词与所述历史查询记录的第一匹配度;
若基于所述第一匹配度大于预设阈值,则将所述历史查询记录所对应的口语语句,作为各所述关键词所对应的口语语句。
可选地,在本说明书一个或多个实施例中,对各口语语句进行转换汇总,获得所述当前平台中各内容主体所对应的特征文本,以基于各内容主体所对应的特征文本确定当前平台的内容主体特征,具体包括:
对各所述口语语句进行汇总获得各所述内容主体所对应的口语语句集合;
对所述口语语句集合中各口语语句基于获取时间戳进行排序,以依次对各所述口语语句进行无缝连接,获得所述当前平台中各内容主体所对应的特征文本;
将各内容主体所对应的特征文本作为所述当前平台中各所述内容主体所对应的内容主体特征,以便于对所述内容主体特征进行维护。
可选地,在本说明书一个或多个实施例中,获取所述当前平台接收的待搜索关键词,以基于所述待搜索关键词与所述内容主体特征中各特征文本的匹配度,确定当前待搜索关键词所对应的搜索结果,具体包括:
接收所述当前平台前端输入的待搜索关键词,对所述待搜索关键词进行字符拆分获得所述待搜索关键词的组成字符;
获取各所述组成字符在所述各特征文本的占比,以汇总各所述组成字符的占比,确定所述待搜索关键词与各所述特征文本的第二匹配度;
若确定所述第二匹配度大于预设搜索匹配度阈值,则确定所述特征文本所对应的内容主体为所述当前待搜索关键词所对应的搜索结果。
可选地,在本说明书一个或多个实施例中,获取所述当前平台接收的待搜索关键词,以基于所述待搜索关键词与所述内容主体特征中各特征文本的匹配度,确定当前待搜索关键词所对应的搜索结果之后,所述方法还包括:
根据各所述内容主体所对应的第二匹配度,确定各所述搜索结果的权重值;
基于所述待搜索关键词所对应的前端ip,确定所述搜索结果的传输通道,以使所述当前平台的搜索引擎基于所述传输通道将所述搜索结果传输到前端展示界面;
基于各所述搜索结果的权重值确定各所述搜索结果的展示位置,以将各所述搜索结果上传到所述前端展示界面对应的展示位置。
可选地,在本说明书一个或多个实施例中,获取所述当前平台接收的待搜索关键词,以基于所述待搜索关键词与所述内容主体特征中各特征文本的匹配度,确定当前待搜索关键词所对应的搜索结果之后,所述方法还包括:
基于所述当前待搜索关键词与所述搜索结果中所述内容主体的匹配关系,确定所述当前待搜索关键词所对应的文本特征;
基于所述当前待搜索关键词对所述对应的文本特征进行扩充,获得所述内容主体更新后的文本特征。
本说明书一个或多个实施例提供一种基于特征文本的内容主体搜索装置,装置包括:
获取单元,用于获取当前平台中各内容主体所对应的关键词集合,以对所述关键词集合中各关键词所对应的历史查询记录进行口语语句;
确定单元,用于对各口语语句进行转换汇总,获得所述当前平台中各内容主体所对应的特征文本,以基于各内容主体所对应的特征文本确定当前平台的内容主体特征;
搜索单元,用于获取所述当前平台接收的待搜索关键词,以基于所述待搜索关键词与所述内容主体特征中各特征文本的匹配度,确定当前待搜索关键词所对应的搜索结果。
本说明书一个或多个实施例提供一种基于特征文本的内容主体搜索设备,设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够:
获取当前平台中各内容主体所对应的关键词集合,以对所述关键词集合中各关键词所对应的历史查询记录进行口语语句;
对各口语语句进行转换汇总,获得所述当前平台中各内容主体所对应的特征文本,以基于各内容主体所对应的特征文本确定当前平台的内容主体特征;
获取所述当前平台接收的待搜索关键词,以基于所述待搜索关键词与所述内容主体特征中各特征文本的匹配度,确定当前待搜索关键词所对应的搜索结果。
本说明书一个或多个实施例提供的一种非易失性计算机存储介质,存储有计算机可执行指令,所述计算机可执行指令设置为:
获取当前平台中各内容主体所对应的关键词集合,以对所述关键词集合中各关键词所对应的历史查询记录进行口语语句;
对各口语语句进行转换汇总,获得所述当前平台中各内容主体所对应的特征文本,以基于各内容主体所对应的特征文本确定当前平台的内容主体特征;
获取所述当前平台接收的待搜索关键词,以基于所述待搜索关键词与所述内容主体特征中各特征文本的匹配度,确定当前待搜索关键词所对应的搜索结果。
本说明书实施例采用的上述至少一个技术方案能够达到以下有益效果:
通过将各个内容主体所对应的关键词转换为对应的口语语句,进而构建形成文本特征,实现了基于文本特征中大量字符对于广泛信息的覆盖,增加了内容被搜索到的概率。并且通过将大量关键词转换为文本特征降低了服务器运行的压力,且基于对整个文本的维护相对于对大量关键词的维护,也降低了平台搜索的维护成本。此外,通过对于口语语句的转换,提高了老年人查询时口语化搜索文本的响应速度,提高了对于场景的适应度。
附图说明
为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1为本说明书实施例提供的一种基于特征文本的内容主体搜索方法流程示意图;
图2为本说明书实施例提供的一种传统搜索的关键词维护界面;
图3为本说明书实施例提供的一种基于特征文本的内容主体搜索方法的文本特征维护界面;
图4为本说明书实施例提供的一种基于特征文本的内容主体搜索方法逻辑示意图;
图5为本说明书实施例提供的一种基于特征文本的内容主体搜索装置内部结构示意图;
图6为本说明书实施例提供的一种基于特征文本的内容主体搜索设备内部结构示意图;
图7为本说明书实施例提供的一种非易失性存储介质内部结构示意图。
具体实施方式
本说明书实施例提供一种基于特征文本的内容主体搜索方法、装置、设备及介质。
为了使本技术领域的人员更好地理解本说明书中的技术方案,下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本说明书保护的范围。
如图1所示,本说明书实施例提供了一种基于特征文本的内容主体搜索方法,由图1可知,本说明书一个或多个实施例中,一种基于特征文本的内容主体搜索方法,具体包括以下步骤:
S101:获取当前平台中各内容主体所对应的关键词集合,以对所述关键词集合中各关键词所对应的历史查询记录进行口语语句化处理,获得各关键词所对应的口语语句。
为了能够将关键词转换为特征文本,从而降低如图2所示的传统方式中需要对大量关键词维护导致的维护成本过高的问题。本说明书实施例中,首先获取当前平台中各个内容主体所对应的关键词集合,可以理解的是内容主体为该当前平台中所能够搜索到的主体例如:文章类型的内容主体、资讯类型的内容主体、服务类型的内容主体、商品类型的内容主体、作者类型的内容主体、功能类型的内容主体等。具体地,在本说明书一个或多个实施例中,获取当前平台中各内容主体所对应的关键词集合,具体包括以下过程:
首先根据当前平台的展示主体列表,确定当前平台所对应的如上述所述的内容主体。然后根据当前平台中各内容主体的功能描述,确定出当前平台中各内容主体所对应的关键词,在某应用场景中各个内容主体所对应的关键词可以基于后台维护人员进行定义设置,在确定出当前平台中各内容主体所对应的关键词之后,汇总各对应的关键词,从而确定出当前平台中各内容主体所对应的关键词集合。
进一步地,在本说明书一个或多个实施例中,对关键词集合中各关键词所对应的历史查询记录进行口语语句化处理,获得各关键词所对应的口语语句,具体包括以下过程:
首先,获取当前平台的搜索功能所对应的数据库,从而根据数据库确定当前平台的历史查询记录。并获取各历史查询记录所对应的搜索结果,确定各搜索结果所对应的标准语句,通过提取标准语句的搜索关键词,确定出搜索关键词与历史查询记录的第一匹配度。其中,需要说明的是搜索关键词对应于多个历史查询记录。为了基于历史查询记录能够对关键词进行口语语句的转换,本说明书基于余弦相似度算法获取关键词集合中各关键词相对应的搜索关键词,以基于搜索关键词与历史查询记录的第一匹配度,确定出关键词集合中各关键词与历史查询记录的第一匹配度。如果根据第一匹配度大于预设阈值,则将历史查询记录所对应的口语语句,作为各关键词所对应的口语语句。通过将关键词转换为口语语句使得文本特征可以覆盖其包含的所有单字和单词,不需要维护多个词语。例如“实时公交查询”,就同时包含了“实时公交”、“公交”、“公交查询”等关键词,不需要多次维护。且口语语句例如:“我要查询社保缴费情况”、“怎么能挂失银行卡”、“我要买一个可以折叠的手机”等,其包含的信息更多,可以应对多样的用户诉求,提高了搜索的场景适应性。
S102:对各口语语句进行转换汇总,获得所述当前平台中各内容主体所对应的特征文本,以基于各内容主体所对应的特征文本确定当前平台的内容主体特征。
基于上述步骤S101获取到口语语句后为了能够以整体文本的形式,向搜索引擎提供内容的相关特征。本说明书实施例中对各个口语语句进行转换汇总后,获得当前平台中各个内容主体所对应的特征文本,从而根据各个内容主体所对应的特征文本确定出如图4所示的内容主体特征。具体地,在本说明书一个或多个实施例中,对各口语语句进行转换汇总,获得当前平台中各内容主体所对应的特征文本,以基于各内容主体所对应的特征文本确定当前平台的内容主体特征,具体包括:
首先对各口语语句进行汇总获得各内容主体所对应的口语语句集合,然后对口语语句集合中各口语语句基于获取时间戳进行排序,以依次对各口语语句进行无缝连接,获得如图3所示的当前平台中各内容主体所对应的特征文本。进而将各内容主体所对应的特征文本作为当前平台中各所述内容主体所对应的内容主体特征,以便于对内容主体特征进行维护降低了对于大量关键词进行维护时产生的高维护成本。
S103:获取所述当前平台接收的待搜索关键词,以基于所述待搜索关键词与所述内容主体特征中各特征文本的匹配度,确定当前待搜索关键词所对应的搜索结果。
为了能够快速匹配到相应的内容主体,将搜索结果进行返回展示,本说明书实施例中,获取当前平台所接收的来自用户上述的待搜索关键词,从而根据待搜索关键词和内容主体特征中各个特征文本的匹配度,确定出当前待搜索关键词所对应的搜索结果。具体地,在本说明书一个或多个实施例中,获取当前平台接收的待搜索关键词,从而基于待搜索关键词与内容主体特征中各特征文本的匹配度,确定当前待搜索关键词所对应的搜索结果,具体包括以下过程:
首先,接收当前平台前端输入的待搜索关键词,对待搜索关键词进行字符拆分获得待搜索关键词的组成字符。例如“我要查询社保缴费情况”,拆分为(“我”“要”“查”“询”“社”“保”“缴”“费”“情”“况”),然后通过获取各组成字符在各特征文本的占比,再汇总各组成字符的占比,确定出待搜索关键词与各个特征文本的第二匹配度。如果确定出第二匹配度大于预设搜索匹配度阈值,那么可以确定出特征文本所对应的内容主体为当前待搜索关键词所对应的搜索结果。
进一步地,在本说明书一个或多个实施例中,获取当前平台接收的待搜索关键词,以基于待搜索关键词与内容主体特征中各特征文本的匹配度,确定当前待搜索关键词所对应的搜索结果之后,方法还包括以下过程:
首先,根据各内容主体所对应的第二匹配度,确定各搜索结果的权重值。根据待搜索关键词所对应的前端ip,确定出搜索结果的传输通道,以使当前平台的搜索引擎基于传输通道将搜索结果传输到前端展示界面。根据各个搜索结果的权重值确定出各搜索结果的展示位置,从而将各个搜索结果上传到前端展示界面对应的展示位置。而为了实现对于文本特征的自动更新,在本说明书一个或多个实施例中,获取当前平台接收的待搜索关键词,以基于待搜索关键词与内容主体特征中各特征文本的匹配度,确定出当前待搜索关键词所对应的搜索结果之后,方法还包括以下步骤:根据当前待搜索关键词与搜索结果中内容主体的匹配关系,确定当前待搜索关键词所对应的文本特征。根据当前待搜索关键词对相对应的文本特征进行扩充,从而获得内容主体更新后的文本特征,实现对于各个内容主体的文本特征的自动更新。
如图5所示,本说明书实施例提供一种基于特征文本的内容特征搜索装置内部结构示意图,由图5可知,本说明书一个或多个实施例中,一种基于特征文本的内容特征搜索装置,装置包括:
获取单元501,用于获取当前平台中各内容主体所对应的关键词集合,以对所述关键词集合中各关键词所对应的历史查询记录进行口语语句;
确定单元502,用于对各口语语句进行转换汇总,获得所述当前平台中各内容主体所对应的特征文本,以基于各内容主体所对应的特征文本确定当前平台的内容主体特征;
搜索单元503,用于获取所述当前平台接收的待搜索关键词,以基于所述待搜索关键词与所述内容主体特征中各特征文本的匹配度,确定当前待搜索关键词所对应的搜索结果。
如图6所示,本说明书实施例提供一种基于特征文本的内容主体搜索设备,由图6可知本说明书一个或多个实施例中,一种基于特征文本的内容主体搜索设备,设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够:
获取当前平台中各内容主体所对应的关键词集合,以对所述关键词集合中各关键词所对应的历史查询记录进行口语语句;
对各口语语句进行转换汇总,获得所述当前平台中各内容主体所对应的特征文本,以基于各内容主体所对应的特征文本确定当前平台的内容主体特征;
获取所述当前平台接收的待搜索关键词,以基于所述待搜索关键词与所述内容主体特征中各特征文本的匹配度,确定当前待搜索关键词所对应的搜索结果。
如图7所示,本说明书实施例提供一种非易失性存储介质的内部结构示意图,由图7可知,本说明书一个或多个实施例中,一种非易失性存储介质,存储有计算机可执行指令701,所述计算机可执行指令701能够:
获取当前平台中各内容主体所对应的关键词集合,以对所述关键词集合中各关键词所对应的历史查询记录进行口语语句;
对各口语语句进行转换汇总,获得所述当前平台中各内容主体所对应的特征文本,以基于各内容主体所对应的特征文本确定当前平台的内容主体特征;
获取所述当前平台接收的待搜索关键词,以基于所述待搜索关键词与所述内容主体特征中各特征文本的匹配度,确定当前待搜索关键词所对应的搜索结果。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置、设备、非易失性计算机存储介质实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
以上所述仅为本说明书的一个或多个实施例而已,并不用于限制本说明书。对于本领域技术人员来说,本说明书的一个或多个实施例可以有各种更改和变化。凡在本说明书的一个或多个实施例的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本说明书的权利要求范围之内。

Claims (10)

1.一种基于特征文本的内容主体搜索方法,其特征在于,所述方法包括:
获取当前平台中各内容主体所对应的关键词集合,以对所述关键词集合中各关键词所对应的历史查询记录进行口语语句化处理,获得各关键词所对应的口语语句;
对各口语语句进行转换汇总,获得所述当前平台中各内容主体所对应的特征文本,以基于各内容主体所对应的特征文本确定当前平台的内容主体特征;
获取所述当前平台接收的待搜索关键词,以基于所述待搜索关键词与所述内容主体特征中各特征文本的匹配度,确定当前待搜索关键词所对应的搜索结果。
2.根据权利要求1所述的一种基于特征文本的内容主体搜索方法,其特征在于,所述获取当前平台中各内容主体所对应的关键词集合,具体包括:
根据所述当前平台的展示主体列表,确定当前平台所对应的内容主体;其中,所述内容主体包括:文章类型主体、资讯类型主体、服务类型主体、商品类型主体、作者类型主体、功能类型主体;
根据所述当前平台中各内容主体的功能描述,确定所述当前平台中各内容主体所对应的关键词,以汇总各所述对应的关键词确定所述当前平台中各内容主体所对应的关键词集合。
3.根据权利要求1所述的一种基于特征文本的内容主体搜索方法,其特征在于,对所述关键词集合中各关键词所对应的历史查询记录进行口语语句化处理,获得各关键词所对应的口语语句,具体包括:
获取所述当前平台的搜索功能所对应的数据库,以基于所述数据库确定所述当前平台的历史查询记录;
并获取各所述历史查询记录所对应的搜索结果,确定各所述搜索结果所对应的标准语句;
提取所述标准语句的搜索关键词,确定搜索关键词与所述历史查询记录的第一匹配度;其中,所述搜索关键词对应于多个历史查询记录;
基于余弦相似度算法获取所述关键词集合中各关键词相对应的搜索关键词,以基于所述搜索关键词与所述历史查询记录的第一匹配度,确定所述关键词集合中各关键词与所述历史查询记录的第一匹配度;
若基于所述第一匹配度大于预设阈值,则将所述历史查询记录所对应的口语语句,作为各所述关键词所对应的口语语句。
4.根据权利要求1所述的一种基于特征文本的内容主体搜索方法,其特征在于,所述对各口语语句进行转换汇总,获得所述当前平台中各内容主体所对应的特征文本,以基于各内容主体所对应的特征文本确定当前平台的内容主体特征,具体包括:
对各所述口语语句进行汇总获得各所述内容主体所对应的口语语句集合;
对所述口语语句集合中各口语语句基于获取时间戳进行排序,以依次对各所述口语语句进行无缝连接,获得所述当前平台中各内容主体所对应的特征文本;
将各内容主体所对应的特征文本作为所述当前平台中各所述内容主体所对应的内容主体特征,以便于对所述内容主体特征进行维护。
5.根据权利要求1所述的一种基于特征文本的内容主体搜索方法,其特征在于,获取所述当前平台接收的待搜索关键词,以基于所述待搜索关键词与所述内容主体特征中各特征文本的匹配度,确定当前待搜索关键词所对应的搜索结果,具体包括:
接收所述当前平台前端输入的待搜索关键词,对所述待搜索关键词进行字符拆分获得所述待搜索关键词的组成字符;
获取各所述组成字符在所述各特征文本的占比,以汇总各所述组成字符的占比,确定所述待搜索关键词与各所述特征文本的第二匹配度;
若确定所述第二匹配度大于预设搜索匹配度阈值,则确定所述特征文本所对应的内容主体为所述当前待搜索关键词所对应的搜索结果。
6.根据权利要求5所述的一种基于特征文本的内容主体搜索方法,其特征在于,获取所述当前平台接收的待搜索关键词,以基于所述待搜索关键词与所述内容主体特征中各特征文本的匹配度,确定当前待搜索关键词所对应的搜索结果之后,所述方法还包括:
根据各所述内容主体所对应的第二匹配度,确定各所述搜索结果的权重值;
基于所述待搜索关键词所对应的前端ip,确定所述搜索结果的传输通道,以使所述当前平台的搜索引擎基于所述传输通道将所述搜索结果传输到前端展示界面;
基于各所述搜索结果的权重值确定各所述搜索结果的展示位置,以将各所述搜索结果上传到所述前端展示界面对应的展示位置。
7.根据权利要求1所述的一种基于特征文本的内容主体搜索方法,其特征在于,获取所述当前平台接收的待搜索关键词,以基于所述待搜索关键词与所述内容主体特征中各特征文本的匹配度,确定当前待搜索关键词所对应的搜索结果之后,所述方法还包括:
基于所述当前待搜索关键词与所述搜索结果中所述内容主体的匹配关系,确定所述当前待搜索关键词所对应的文本特征;
基于所述当前待搜索关键词对所述对应的文本特征进行扩充,获得所述内容主体更新后的文本特征。
8.一种基于特征文本的内容特征搜索装置,其特征在于,所述装置包括:
获取单元,用于获取当前平台中各内容主体所对应的关键词集合,以对所述关键词集合中各关键词所对应的历史查询记录进行口语语句;
确定单元,用于对各口语语句进行转换汇总,获得所述当前平台中各内容主体所对应的特征文本,以基于各内容主体所对应的特征文本确定当前平台的内容主体特征;
搜索单元,用于获取所述当前平台接收的待搜索关键词,以基于所述待搜索关键词与所述内容主体特征中各特征文本的匹配度,确定当前待搜索关键词所对应的搜索结果。
9.一种基于特征文本的内容主体搜索设备,其特征在于,所述设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够:
获取当前平台中各内容主体所对应的关键词集合,以对所述关键词集合中各关键词所对应的历史查询记录进行口语语句;
对各口语语句进行转换汇总,获得所述当前平台中各内容主体所对应的特征文本,以基于各内容主体所对应的特征文本确定当前平台的内容主体特征;
获取所述当前平台接收的待搜索关键词,以基于所述待搜索关键词与所述内容主体特征中各特征文本的匹配度,确定当前待搜索关键词所对应的搜索结果。
10.一种非易失性存储介质,存储有计算机可执行指令,其特征在于,所述计算机可执行指令能够:
获取当前平台中各内容主体所对应的关键词集合,以对所述关键词集合中各关键词所对应的历史查询记录进行口语语句;
对各口语语句进行转换汇总,获得所述当前平台中各内容主体所对应的特征文本,以基于各内容主体所对应的特征文本确定当前平台的内容主体特征;
获取所述当前平台接收的待搜索关键词,以基于所述待搜索关键词与所述内容主体特征中各特征文本的匹配度,确定当前待搜索关键词所对应的搜索结果。
CN202311552487.XA 2023-11-20 2023-11-20 基于特征文本的内容主体搜索方法、装置、设备及介质 Pending CN117520511A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311552487.XA CN117520511A (zh) 2023-11-20 2023-11-20 基于特征文本的内容主体搜索方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311552487.XA CN117520511A (zh) 2023-11-20 2023-11-20 基于特征文本的内容主体搜索方法、装置、设备及介质

Publications (1)

Publication Number Publication Date
CN117520511A true CN117520511A (zh) 2024-02-06

Family

ID=89764043

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311552487.XA Pending CN117520511A (zh) 2023-11-20 2023-11-20 基于特征文本的内容主体搜索方法、装置、设备及介质

Country Status (1)

Country Link
CN (1) CN117520511A (zh)

Similar Documents

Publication Publication Date Title
CN107133345B (zh) 基于人工智能的交互方法和装置
CN109829104B (zh) 基于语义相似度的伪相关反馈模型信息检索方法及系统
CN111008265B (zh) 企业信息搜索方法及装置
CN103838833B (zh) 基于相关词语语义分析的全文检索系统
KR101098703B1 (ko) 다수의 기입 시스템을 가진 언어들에 대한 관련 쿼리들을 식별하기 위한 시스템 및 방법
CN106776869B (zh) 基于神经网络的搜索优化方法、装置以及搜索引擎
CN108334489B (zh) 文本核心词识别方法和装置
US20100191758A1 (en) System and method for improved search relevance using proximity boosting
CN102043843A (zh) 一种用于基于目标应用获取目标词条的方法与获取设备
CN101685448A (zh) 在用户的查询操作与搜索结果之间建立关联的方法和设备
US20230367804A1 (en) Multimedia content publishing method and apparatus, and electronic device and storage medium
CN112307182B (zh) 一种基于问答系统的伪相关反馈的扩展查询方法
Roopak et al. OntoKnowNHS: ontology driven knowledge centric novel hybridised semantic scheme for image recommendation using knowledge graph
CN111475725A (zh) 用于搜索内容的方法、装置、设备和计算机可读存储介质
CN113806588A (zh) 搜索视频的方法和装置
US20090327877A1 (en) System and method for disambiguating text labeling content objects
WO2023122051A1 (en) Contextual clarification and disambiguation for question answering processes
CN111191153A (zh) 一种信息技术咨询服务展示装置
CN114253990A (zh) 数据库查询方法、装置、计算机设备和存储介质
CN111538817A (zh) 人机交互方法和装置
CN117708270A (zh) 企业数据查询方法、装置、设备及存储介质
CN111581482A (zh) 一种基于seo数据多维度关联的数据共享和分析方法及系统
CN116361428A (zh) 一种问答召回方法、装置和存储介质
CN116523041A (zh) 装备领域知识图谱构建方法、检索方法、系统及电子设备
CN116108181A (zh) 客户信息的处理方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination