CN115455271A - 基于搜索查询词的标签生成方法、装置、设备及存储介质 - Google Patents
基于搜索查询词的标签生成方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN115455271A CN115455271A CN202211058587.2A CN202211058587A CN115455271A CN 115455271 A CN115455271 A CN 115455271A CN 202211058587 A CN202211058587 A CN 202211058587A CN 115455271 A CN115455271 A CN 115455271A
- Authority
- CN
- China
- Prior art keywords
- search query
- regular expression
- label
- target
- labels
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/904—Browsing; Visualisation therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9538—Presentation of query results
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及一种基于搜索查询词的标签生成方法、装置、设备及存储介质。所述方法包括:基于日志信息获取多个意图识别类型的搜索查询词,根据预先构建的标签库获取意图识别类型的搜索查询词对应的正则表达式,得到正则表达式集,收集用户输入的待处理搜索查询词并执行预处理操作,得到目标搜索查询词集,将正则表达式集与目标搜索查询词集进行匹配,根据匹配结果生成目标标签。本申请可以自动地挖掘和扩充新标签,无需通过人工更新标签,提高了标签挖掘效率,由于生成的标签来源于用户输入的搜索查询词,因此生成的标签实时性强,能很好地描述视频的意义。
Description
技术领域
本申请涉及计算机技术领域,尤其涉及一种基于搜索查询词的标签生成方法、装置、设备及存储介质。
背景技术
在视频网站,标签用来描述视频的内容,可以用于视频的召回和推荐。通过用户搜索和观看的视频,以及视频所关联的标签,可以用标签来定义用户的兴趣,从而进行用户画像。因此丰富的标签库,既可以增加视频描述的维度,又可以丰富用户的画像与兴趣点,对精准的搜索和推荐有着巨大的作用。
目前,标签的来源主要通过人工来补充或第三方网站来获取,这些方式补充的标签有限,难以再扩充,扩充标签的效率较低,且这些方式扩充的标签通常实时性较低也比较泛化,不能很好地描述视频的意义。
因此,如何提供一种高效挖掘实时性强的标签的方法,已成为本领域技术人员亟待解决的技术问题。
发明内容
鉴于以上内容,本申请提供一种基于搜索查询词的标签生成方法、装置、设备及存储介质,其目的在于提供一种高效挖掘实时性强的标签的方法。
第一方面,本申请提供一种基于搜索查询词的标签生成方法,该方法包括:
基于日志信息获取多个意图识别类型的搜索查询词;
根据预先构建的标签库获取所述意图识别类型的搜索查询词对应的正则表达式,得到正则表达式集;
收集用户输入的待处理搜索查询词并执行预处理操作,得到目标搜索查询词集;
将所述正则表达式集与所述目标搜索查询词集进行匹配,根据匹配结果生成目标标签。
优选地,所述根据预先构建的标签库获取所述意图识别类型的搜索查询词对应的正则表达式,包括:
提取所述意图识别类型的搜索查询词中的标签信息,将所述标签信息与所述标签库的标签进行匹配;
若匹配成功,将所述意图识别类型的搜索查询词中的标签信息替换为预设字符,得到所述意图识别类型的搜索查询词对应的正则表达式。
优选地,在根据预先构建的标签库获取所述意图识别类型的搜索查询词对应的正则表达式,得到正则表达式集之后,所述方法还包括:
筛选出所述正则表达式集中无效的正则表达式;
将所述无效的正则表达式删除。
优选地,所述将所述正则表达式集与所述目标搜索查询词集进行匹配,根据匹配结果生成目标标签,包括:
将所述正则表达式集与所述目标搜索查询词集进行匹配,生成候选标签集;
删除所述候选标签集中的无效标签,得到所述目标标签。
优选地,所述删除所述候选标签集中的无效标签,得到所述目标标签,包括:
从所述候选标签集中筛选出字符长度大于第一预设值的标签、字符长度小于第二预设值的标签及与所述标签库中重复的标签;
将所述候选标签集中字符长度大于第一预设值的标签、字符长度小于第二预设值的标签及与所述标签库重复的标签删除,得到所述目标标签。
优选地,所述基于日志信息获取多个意图识别类型的搜索查询词,包括:
基于所述日志信息获取历史搜索查询词;
利用预先配置的关键词集从所述历史搜索查询词中匹配出所述意图识别类型的搜索查询词。
优选地,所述方法还包括:
将所述目标标签存储至所述标签库。
第二方面,本申请提供一种基于搜索查询词的标签生成装置,该基于搜索查询词的标签生成装置包括:
第一获取模块:用于基于日志信息获取多个意图识别类型的搜索查询词;
第二获取模块:用于根据预先构建的标签库获取所述意图识别类型的搜索查询词对应的正则表达式,得到正则表达式集;
收集模块:用于收集用户输入的待处理搜索查询词并执行预处理操作,得到目标搜索查询词集;
生成模块:用于将所述正则表达式集与所述目标搜索查询词集进行匹配,根据匹配结果生成目标标签。
第三方面,本申请提供一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现第一方面任一项实施例所述的基于搜索查询词的标签生成方法的步骤。
第四方面,本申请提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面任一项实施例所述的基于搜索查询词的标签生成方法的步骤。
本申请实施例提供的上述技术方案与现有技术相比具有如下优点:
本申请提出的基于搜索查询词的标签生成方法、装置、设备及存储介质,通过获取意图识别类的搜索查询词,挖掘出意图识别类的正则表达式,将挖掘出的正则表达式与用户输入的搜索查询词进行匹配,可以自动地生成和扩充新标签,无需通过人工更新标签,节省了大量的人工成本,提高了标签挖掘效率,由于生成的标签来源于用户输入的搜索查询词,因此生成的标签实时性强,能很好地描述视频的意义。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请基于搜索查询词的标签生成方法较佳实施例的流程示意图;
图2为本申请基于搜索查询词的标签生成装置较佳实施例的模块示意图;
图3为本申请电子设备较佳实施例的示意图;
本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本申请,并不用于限定本申请。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
需要说明的是,在本申请中涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本申请要求的保护范围之内。
本申请提供一种基于搜索查询词的标签生成方法。参照图1所示,为本申请基于搜索查询词的标签生成方法的实施例的方法流程示意图。该方法可以由一个电子设备执行,该电子设备可以由软件和/或硬件实现。基于搜索查询词的标签生成方法包括:
步骤S10:基于日志信息获取多个意图识别类型的搜索查询词;
步骤S20:根据预先构建的标签库获取所述意图识别类型的搜索查询词对应的正则表达式,得到正则表达式集;
步骤S30:收集用户输入的待处理搜索查询词并执行预处理操作,得到目标搜索查询词集;
步骤S40:将所述正则表达式集与所述目标搜索查询词集进行匹配,根据匹配结果生成目标标签。
视频网站或视频APP为了向用户推荐符合用户兴趣的视频内容,通常将视频标签作为连接用户和视频内容的桥梁,视频标签可以清楚地反应视频的类型和内容,本实施例以标签为视频标签为例对本申请的方案进行详细说明,应当理解的是,在实际的应用场景中,本申请的标签还可以是其它类型的标签,例如,音乐标签、新闻标签等,在此不对标签的实际应用场景做具体限定。
日志信息可以是pingback日志,根据pingback日志可以获取多个意图识别类型的搜索查询词,例如,意图识别类型的搜索查询词可以是“关于狗狗的电影”、“好看的霸道总裁电视剧”、“关于音乐的综艺”等。用户在使用视频网站或视频APP时,用户的搜索查询、点击、观看行为等会被记录,用户输入的搜索查询词的特征也会被记录,这些特征是通过query解析模块在用户搜索时候分析出来的,因此,搜索查询词是否为意图识别类型的搜索查询词可以直接通过pingback日志获取到,日志可以存放在hive表中。
由于意图识别类型的搜索查询词的构成是“标签+特定的句式”的结构,例如,意图识别类型的搜索查询词“关于狗狗的电影”,该搜索查询词的标签为“狗狗”,该搜索查询词的特定的句式为“关于xx的电影”。因此在获取到多个意图识别类型的搜索查询词之后,可以利用预先构建的标签库中的标签,将意图识别类型的搜索查询词的标签替换成预设字符,从而可以得到多个意图识别类型的搜索查询词对应的正则表达式,即可以获得正则表达式集,具体地,根据预先构建的标签库获取所述意图识别类型的搜索查询词对应的正则表达式,包括:
提取所述意图识别类型的搜索查询词中的标签信息,将所述标签信息与所述标签库的标签进行匹配;
若匹配成功,将所述意图识别类型的搜索查询词中的标签信息替换为预设字符,得到所述意图识别类型的搜索查询词对应的正则表达式。
提取出意图识别类型的搜索查询词中的标签信息,例如,意图识别类型的搜索查询词“关于狗狗的电影”提取出的标签信息为“狗狗”,将标签信息与标签库的标签进行匹配,如果匹配成功说明标签库中存在“狗狗”这个标签,此时将意图识别类型的搜索查询词中的标签信息替换为预设字符,可以得到意图识别类型的搜索查询词对应的正则表达式,例如,将意图识别类型的搜索查询词“关于狗狗的电影”中的标签“狗狗”替换成预设字符“.+”,则该搜索查询词对应的正则表达式“关于.+的电影”。从而可以挖掘出意图识别类的正则表达式。
挖掘出意图识别类型的正则表达式之后,收集用户输入的待处理搜索查询词,待处理搜索查询词可以是用户实时输入的搜索查询词,由于待处理搜索查询词可能包含错别字或包含不合规的字符,为了保证后续生成的目标标签的质量,可以对待处理搜索查询词执行预处理操作,从而得到目标搜索查询词集,例如,预处理操作可以是对待处理搜索查询词中的错别字进行纠错,对特殊字符进行过滤,去除不合规的搜索查询词query(例如,内容低俗的搜索查询词),去除搜索目的为具体专辑长视频的query,(例如,“西游记电视连续剧”),去除搜索次数的长尾query。
得到了意图识别类的正则表达式集和目标搜索查询词集之后,将正则表达式集与目标搜索查询词集进行匹配,匹配成功之后可以得到目标标签,例如,意图识别类的正则表达式集包括“关于.+的电影”、“好看的.+电视剧”,若目标搜索查询词集中包括“关于都市爱情的电影”,则可以得到“.+”对应的标签“都市爱情”,若目标搜索查询词集中包括“好看的古装电视剧”,则可以提取出“.+”对应的标签“古装”,通过意图识别类的正则表达式集和目标搜索查询词集的匹配,可以生成多个标签。
本申请通过获取意图识别类的搜索查询词,挖掘出意图识别类的正则表达式,将正则表达式与用户输入的搜索查询词进行匹配,可以自动地生成和扩充新标签,生成的标签实时性强且能准确地描述视频的意义,无需人工更新标签,节省了大量的人工成本,提高了标签挖掘效率。
在一个实施例中,所述方法还包括:
将所述目标标签存储至所述标签库。
在得到目标标签之后,还可以将目标标签存储至标签库,从而更好地扩充标签库。
在一个实施例中,所述基于日志信息获取多个意图识别类型的搜索查询词,包括:
基于所述日志信息获取历史搜索查询词;
利用预先配置的关键词集从所述历史搜索查询词中匹配出所述意图识别类型的搜索查询词。
利用pingback日志可以获取到预先记录的历史搜索查询词,利用预先配置的关键词集(例如,标签、演员、角色、年份、地区等),匹配出含有关键词的搜索查询词,之后去除该搜索查询词中的停用词,用上下文无关文法确定出含有关键词的搜索查询词中属于意图识别类型的搜索查询词,可以准确地从历史搜索查询词中确定出意图识别类型的搜索查询词。
在一个实施例中,在根据预先构建的标签库获取所述意图识别类型的搜索查询词对应的正则表达式,得到正则表达式集之后,所述方法还包括:
筛选出所述正则表达式集中无效的正则表达式;
将所述无效的正则表达式删除。
由于正则表达式集中可能存在无效的正则表达式,无效的正则表达式包括但不限于可以匹配所有搜索查询词的正则表达式,例如,如果正则表达式中只包含“.+”,其可以匹配到任意字符串,因此该正则表达式为无效的正则表达式,需要删除掉。通过删除无效的正则表达式,后续可以匹配出更实用的目标标签,提高生成的标签的实用性。
在一个实施例中,所述将所述正则表达式集与所述目标搜索查询词集进行匹配,根据匹配结果生成目标标签,包括:
将所述正则表达式集与所述目标搜索查询词集进行匹配,生成候选标签集;
删除所述候选标签集中的无效标签,得到所述目标标签。
将正则表达式集与目标搜索查询词集进行匹配后,可以得到多个候选标签,由于候选标签中可能存在与标签库重复、字数长度过长或字数过短的无效标签,因此需要删除候选标签集中的无效标签。通过删除无效的标签,可以提高目标标签的实用性。
进一步地,所述删除所述候选标签集中的无效标签,得到所述目标标签,包括:
从所述候选标签集中筛选出字符长度大于第一预设值的标签、字符长度小于第二预设值的标签及与所述标签库中重复的标签;
将所述候选标签集中字符长度大于第一预设值的标签、字符长度小于第二预设值的标签及与所述标签库重复的标签删除,得到所述目标标签。
由于字符太长和字符太短的标签在实际应用中,大多数不能准确地描述视频的意义,因此可以筛选出候选标签集中字符长度大于第一预设值(例如,8)的标签和字符长度小于第二预设值(例如,2)的标签并删除,例如,目标搜索查询词“关于光刃啊请再次庇护这座城的电影”,可以匹配出候选标签“光刃啊请再次庇护这座城”,由于该候选标签的字符太长,可以将该候选标签删除。由于候选标签集中可能存在与标签库重复的标签,因此还需要从候选标签集中筛选出与标签库重复的标签并删除,得到最终的目标标签。
参照图2所示,为本申请基于搜索查询词的标签生成装置100的功能模块示意图。
本申请所述基于搜索查询词的标签生成装置100可以安装于电子设备中。根据实现的功能,所述基于搜索查询词的标签生成装置100可以包括第一获取模块110、第二获取模块120、收集模块130及生成模块140。本申请所述模块也可以称之为单元,是指一种能够被电子设备处理器所执行,并且能够完成固定功能的一系列计算机程序段,其存储在电子设备的存储器中。
在本实施例中,关于各模块/单元的功能如下:
第一获取模块110:用于基于日志信息获取多个意图识别类型的搜索查询词;
第二获取模块120:用于根据预先构建的标签库获取所述意图识别类型的搜索查询词对应的正则表达式,得到正则表达式集;
收集模块130:用于收集用户输入的待处理搜索查询词并执行预处理操作,得到目标搜索查询词集;
生成模块140:用于将所述正则表达式集与所述目标搜索查询词集进行匹配,根据匹配结果生成目标标签。
在一个实施例中,基于搜索查询词的标签生成装置100还包括存储模块150,存储模块150用于将所述目标标签存储至所述标签库。
在一个实施例中,所述基于日志信息获取多个意图识别类型的搜索查询词,包括:
基于所述日志信息获取历史搜索查询词;
利用预先配置的关键词集从所述历史搜索查询词中匹配出所述意图识别类型的搜索查询词。
在一个实施例中,所述根据预先构建的标签库获取所述意图识别类型的搜索查询词对应的正则表达式,包括:
提取所述意图识别类型的搜索查询词中的标签信息,将所述标签信息与所述标签库的标签进行匹配;
若匹配成功,将所述意图识别类型的搜索查询词中的标签信息替换为预设字符,得到所述意图识别类型的搜索查询词对应的正则表达式。
在一个实施例中,第二获取模块120还用于:
筛选出所述正则表达式集中无效的正则表达式;
将所述无效的正则表达式删除。
在一个实施例中,所述将所述正则表达式集与所述目标搜索查询词集进行匹配,根据匹配结果生成目标标签,包括:
将所述正则表达式集与所述目标搜索查询词集进行匹配,生成候选标签集;
删除所述候选标签集中的无效标签,得到所述目标标签。
在一个实施例中,所述删除所述候选标签集中的无效标签,得到所述目标标签,包括:
从所述候选标签集中筛选出字符长度大于第一预设值的标签、字符长度小于第二预设值的标签及与所述标签库中重复的标签;
将所述候选标签集中字符长度大于第一预设值的标签、字符长度小于第二预设值的标签及与所述标签库重复的标签删除,得到所述目标标签。
参照图3所示,为本申请电子设备1较佳实施例的示意图。
该电子设备1包括但不限于:存储器11、处理器12、显示器13及通信接口14。所述电子设备1通过通信接口14连接网络。其中,所述网络可以是企业内部网(Intranet)、互联网(Internet)、全球移动通讯系统(Global System of Mobile communication,GSM)、宽带码分多址(Wideband Code Division Multiple Access,WCDMA)、4G网络、5G网络、蓝牙(Bluetooth)、Wi-Fi、通话网络等无线或有线网络。
其中,存储器11至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,所述存储器11可以是所述电子设备1的内部存储单元,例如该电子设备1的硬盘或内存。在另一些实施例中,所述存储器11也可以是所述电子设备1的外部存储设备,例如该电子设备1配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。当然,所述存储器11还可以既包括所述电子设备1的内部存储单元也包括其外部存储设备。本实施例中,存储器11通常用于存储安装于所述电子设备1的操作系统和各类应用软件,例如基于搜索查询词的标签生成程序10的程序代码等。此外,存储器11还可以用于暂时地存储已经输出或者将要输出的各类数据。
处理器12在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器12通常用于控制所述电子设备1的总体操作,例如执行数据交互或者通信相关的控制和处理等。本实施例中,所述处理器12用于运行所述存储器11中存储的程序代码或者处理数据,例如运行基于搜索查询词的标签生成程序10的程序代码等。
显示器13可以称为显示屏或显示单元。在一些实施例中显示器13可以是LED显示器、液晶显示器、触控式液晶显示器以及有机发光二极管(Organic Light-EmittingDiode,OLED)触摸器等。显示器13用于显示在电子设备1中处理的信息以及用于显示可视化的工作界面。
通信接口14可选地可以包括标准的有线接口、无线接口(如WI-FI接口),该通信接口14通常用于在所述电子设备1与其它设备之间建立通信连接。
图3仅示出了具有组件11-14以及基于搜索查询词的标签生成程序10的电子设备1,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。
可选地,所述电子设备1还可以包括用户接口,用户接口可以包括显示器(Display),可选的用户接口还可以包括标准的有线接口、无线接口。可选地,在一些实施例中,显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及有机发光二极管(Organic Light-Emitting Diode,OLED)触摸器等。其中,显示器也可以适当的称为显示屏或显示单元,用于显示在电子设备1中处理的信息以及用于显示可视化的界面。
该电子设备1还可以包括射频(Radio Frequency,RF)电路、传感器和音频电路等等,在此不再赘述。
在上述实施例中,处理器12执行存储器11中存储的基于搜索查询词的标签生成程序10时可以实现如下步骤:
基于日志信息获取多个意图识别类型的搜索查询词;
根据预先构建的标签库获取所述意图识别类型的搜索查询词对应的正则表达式,得到正则表达式集;
收集用户输入的待处理搜索查询词并执行预处理操作,得到目标搜索查询词集;
将所述正则表达式集与所述目标搜索查询词集进行匹配,根据匹配结果生成目标标签。
所述存储设备可以为电子设备1的存储器11,也可以为与电子设备1通讯连接的其它存储设备。
关于上述步骤的详细介绍,请参照上述图2关于基于搜索查询词的标签生成装置100实施例的功能模块图以及图1关于基于搜索查询词的标签生成方法实施例的流程图的说明。
此外,本申请实施例还提出一种计算机可读存储介质,所述计算机可读存储介质可以是非易失性的,也可以是易失性的。该计算机可读存储介质可以是硬盘、多媒体卡、SD卡、闪存卡、SMC、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)、便携式紧致盘只读存储器(CD-ROM)、USB存储器等等中的任意一种或者几种的任意组合。所述计算机可读存储介质中包括存储数据区和存储程序区,存储程序区存储有基于搜索查询词的标签生成程序10,所述基于搜索查询词的标签生成程序10被处理器执行时实现如下操作:
基于日志信息获取多个意图识别类型的搜索查询词;
根据预先构建的标签库获取所述意图识别类型的搜索查询词对应的正则表达式,得到正则表达式集;
收集用户输入的待处理搜索查询词并执行预处理操作,得到目标搜索查询词集;
将所述正则表达式集与所述目标搜索查询词集进行匹配,根据匹配结果生成目标标签。
本申请之计算机可读存储介质的具体实施方式与上述基于搜索查询词的标签生成方法的具体实施方式大致相同,在此不再赘述。
需要说明的是,上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。并且本文中的术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,电子装置,或者网络设备等)执行本申请各个实施例所述的方法。
以上仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。
Claims (10)
1.一种基于搜索查询词的标签生成方法,其特征在于,所述方法包括:
基于日志信息获取多个意图识别类型的搜索查询词;
根据预先构建的标签库获取所述意图识别类型的搜索查询词对应的正则表达式,得到正则表达式集;
收集用户输入的待处理搜索查询词并执行预处理操作,得到目标搜索查询词集;
将所述正则表达式集与所述目标搜索查询词集进行匹配,根据匹配结果生成目标标签。
2.如权利要求1所述的基于搜索查询词的标签生成方法,其特征在于,所述根据预先构建的标签库获取所述意图识别类型的搜索查询词对应的正则表达式,包括:
提取所述意图识别类型的搜索查询词中的标签信息,将所述标签信息与所述标签库的标签进行匹配;
若匹配成功,将所述意图识别类型的搜索查询词中的标签信息替换为预设字符,得到所述意图识别类型的搜索查询词对应的正则表达式。
3.如权利要求1所述的基于搜索查询词的标签生成方法,其特征在于,在根据预先构建的标签库获取所述意图识别类型的搜索查询词对应的正则表达式,得到正则表达式集之后,所述方法还包括:
筛选出所述正则表达式集中无效的正则表达式;
将所述无效的正则表达式删除。
4.如权利要求1所述的基于搜索查询词的标签生成方法,其特征在于,所述将所述正则表达式集与所述目标搜索查询词集进行匹配,根据匹配结果生成目标标签,包括:
将所述正则表达式集与所述目标搜索查询词集进行匹配,生成候选标签集;
删除所述候选标签集中的无效标签,得到所述目标标签。
5.如权利要求4所述的基于搜索查询词的标签生成方法,其特征在于,所述删除所述候选标签集中的无效标签,得到所述目标标签,包括:
从所述候选标签集中筛选出字符长度大于第一预设值的标签、字符长度小于第二预设值的标签及与所述标签库中重复的标签;
将所述候选标签集中字符长度大于第一预设值的标签、字符长度小于第二预设值的标签及与所述标签库重复的标签删除,得到所述目标标签。
6.如权利要求1所述的基于搜索查询词的标签生成方法,其特征在于,所述基于日志信息获取多个意图识别类型的搜索查询词,包括:
基于所述日志信息获取历史搜索查询词;
利用预先配置的关键词集从所述历史搜索查询词中匹配出所述意图识别类型的搜索查询词。
7.如权利要求1所述的基于搜索查询词的标签生成方法,其特征在于,所述方法还包括:
将所述目标标签存储至所述标签库。
8.一种基于搜索查询词的标签生成装置,其特征在于,所述装置包括:
第一获取模块:用于基于日志信息获取多个意图识别类型的搜索查询词;
第二获取模块:用于根据预先构建的标签库获取所述意图识别类型的搜索查询词对应的正则表达式,得到正则表达式集;
收集模块:用于收集用户输入的待处理搜索查询词并执行预处理操作,得到目标搜索查询词集;
生成模块:用于将所述正则表达式集与所述目标搜索查询词集进行匹配,根据匹配结果生成目标标签。
9.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1至7中任一项所述的基于搜索查询词的标签生成方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述基于搜索查询词的标签生成方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211058587.2A CN115455271A (zh) | 2022-08-30 | 2022-08-30 | 基于搜索查询词的标签生成方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211058587.2A CN115455271A (zh) | 2022-08-30 | 2022-08-30 | 基于搜索查询词的标签生成方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115455271A true CN115455271A (zh) | 2022-12-09 |
Family
ID=84301019
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211058587.2A Pending CN115455271A (zh) | 2022-08-30 | 2022-08-30 | 基于搜索查询词的标签生成方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115455271A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115964487A (zh) * | 2022-12-22 | 2023-04-14 | 南阳理工学院 | 基于自然语言的论文标签补充方法、装置及存储介质 |
-
2022
- 2022-08-30 CN CN202211058587.2A patent/CN115455271A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115964487A (zh) * | 2022-12-22 | 2023-04-14 | 南阳理工学院 | 基于自然语言的论文标签补充方法、装置及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10366154B2 (en) | Information processing device, information processing method, and computer program product | |
CN115236260B (zh) | 一种色谱数据储存方法、装置、电子设备及存储介质 | |
CN107133263B (zh) | Poi推荐方法、装置、设备及计算机可读存储介质 | |
CN106991175B (zh) | 一种客户信息挖掘方法、装置、设备以及存储介质 | |
CN110889045B (zh) | 标签分析方法、装置及计算机可读存储介质 | |
CN109299235B (zh) | 知识库搜索方法、装置及计算机可读存储介质 | |
US20210374195A1 (en) | Information processing method, electronic device and storage medium | |
CN109492152B (zh) | 推送定制内容的方法、装置、计算机设备及存储介质 | |
CN111209490A (zh) | 基于用户信息的交友推荐方法、电子装置及存储介质 | |
WO2020056977A1 (zh) | 知识点推送方法、装置及计算机可读存储介质 | |
CN112394908A (zh) | 埋点页面自动生成的方法、装置、计算机设备及存储介质 | |
CN111414375A (zh) | 基于数据库查询的输入推荐方法、电子装置及存储介质 | |
CN112685475A (zh) | 报表查询方法、装置、计算机设备及存储介质 | |
CN112417133A (zh) | 排序模型的训练方法和装置 | |
CN115455271A (zh) | 基于搜索查询词的标签生成方法、装置、设备及存储介质 | |
CN106899755B (zh) | 信息分享方法、信息分享装置及终端 | |
CN113869063A (zh) | 数据推荐方法、装置、电子设备及存储介质 | |
CN111488510A (zh) | 小程序相关词的确定方法、装置、处理设备及搜索系统 | |
CN108255888B (zh) | 一种数据处理方法及系统 | |
CN104850608A (zh) | 在信息展示页面上检索关键字的方法 | |
CN111259259B (zh) | 大学生新闻推荐方法、装置、设备及存储介质 | |
CN115186240A (zh) | 基于关联性信息的社交网络用户对齐方法、装置、介质 | |
CN115203445A (zh) | 多媒体资源搜索方法、装置、设备及介质 | |
CN104424223A (zh) | 一种基于输入法的app搜索与快捷启动方法及相关输入法系统 | |
CN114912003A (zh) | 文档搜索方法、装置、计算机设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |