CN113553851A - 关键词的确定方法、装置、存储介质和计算设备 - Google Patents

关键词的确定方法、装置、存储介质和计算设备 Download PDF

Info

Publication number
CN113553851A
CN113553851A CN202110801839.5A CN202110801839A CN113553851A CN 113553851 A CN113553851 A CN 113553851A CN 202110801839 A CN202110801839 A CN 202110801839A CN 113553851 A CN113553851 A CN 113553851A
Authority
CN
China
Prior art keywords
entity
word
words
intention
score
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110801839.5A
Other languages
English (en)
Inventor
孙翠荣
王炜
解忠乾
姚澜
罗川江
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Netease Cloud Music Technology Co Ltd
Original Assignee
Hangzhou Netease Cloud Music Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Netease Cloud Music Technology Co Ltd filed Critical Hangzhou Netease Cloud Music Technology Co Ltd
Priority to CN202110801839.5A priority Critical patent/CN113553851A/zh
Publication of CN113553851A publication Critical patent/CN113553851A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明的实施方式提供了一种关键词的确定方法、装置、存储介质和计算设备。包括:识别搜索文本信息中的实体词和与所述实体词对应的实体类型;其中,所述实体词包括所述搜索文本信息中反映搜索意图的词;从预先建立的实体词库中查找所述实体词在各个实体类型下的意图分,并基于各个意图分计算所述实体词的综合意图分;基于所述实体词对应的实体类型和综合意图分,从所述实体词中确定用于搜索的关键词。本发明的方法使得最终确定的每个关键词都可以对应一个细粒度的搜索意图,从而可以满足用户不同搜索意图的搜索需求,为用户带来了更好的搜索体验。

Description

关键词的确定方法、装置、存储介质和计算设备
技术领域
本发明的实施方式涉及计算机技术领域,更具体地,本发明的实施方式涉及一种关键词的确定方法、装置、存储介质和计算设备。
背景技术
本部分旨在为权利要求书中陈述的本发明的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。
在资源搜索相关的技术中,提供搜索服务的服务端可以根据用户输入的搜索文字匹配相应的资源,并将匹配到的资源返回给用户。
目前,资源匹配时通常需要借助意图识别技术,通过分析搜索文字预测用户的搜索意图,然后基于用户的搜索意图进行资源匹配,这样匹配到的资源更符合用户实际需求。
发明内容
但是,出于现有意图识别技术的原因,其只能预测粗粒度的单一搜索意图,导致搜索结果不符合用户预期,降低了用户体验。
为此,非常需要一种改进的方案,以从搜索文本信息中确定搜索意图的关键词从而可以细粒度识别用户搜索意图。
在本发明实施方式的第一方面中,提供了一种关键词的确定方法,包括:
识别搜索文本信息中的实体词和与所述实体词对应的实体类型;其中,所述实体词包括所述搜索文本信息中反映搜索意图的词;
从预先建立的实体词库中查找所述实体词在各个实体类型下的意图分,并基于各个意图分计算所述实体词的综合意图分;
基于所述实体词对应的实体类型和综合意图分,从所述实体词中确定用于搜索的关键词。
可选的,所述识别搜索文本信息中的实体词和与所述实体词对应的实体类型,包括:
将接收到的搜索文本信息输入到命名实体识别模型中进行计算;
获取所述命名实体识别模型计算后输出的实体词和与所述实体词对应的实体类型。
可选的,所述命名实体识别模型由embedding模型、双向长短时记忆模型组成;
所述将接收到的搜索文本信息输入到命名实体识别模型中进行计算,包括:
针对接收到的搜索文本信息中的每个单字,做以下处理:
将当前单字输入到embedding模型中的不同维度的embedding层,以获取不同维度下计算出的embedding特征;
将所述不同维度下计算出的embedding特征拼接后,作为双向长短时记忆模型的隐藏层输入,以及将所述搜索文本信息作为双向长短时记忆模型的输入层输入,得到所述双向长短时记忆模型输出层输出的实体词和与所述实体词对应的实体类型。
可选的,所述不同维度包括单字、实体类型、实体长度占比和意图分;
所述将当前单字输入到embedding模型中的不同维度的embedding层,以获取不同维度下计算出的embedding特征,包括:
将当前单字输入到embedding模型中单字embedding层,计算所述当前单字的单字embedding特征;
将当前单字输入到embedding模型中实体类型embedding层,计算所述当前单字的实体类型embedding特征;
将当前单字输入到embedding模型中实体长度占比embedding层,计算所述当前单字的实体长度占比embedding特征;
将当前单字输入到embedding模型中意图分embedding层,计算所述当前单字的意图分embedding特征。
可选的,所述将当前单字输入到embedding模型中实体类型embedding层,计算所述当前单字的实体类型embedding特征,包括:
基于所述实体词库对所述当前单字进行前缀匹配计算,以确定所述搜索文本信息中位于所述实体词库、且包含所述当前单字的目标词;
获取所述实体词库中所述目标词对应的实体类型,并获取预设的与所述实体类型对应的特征值;
将所述特征值输入到embedding模型中实体类型embedding层,将所述特征值映射为实体类型embedding特征。
可选的,所述将当前单字输入到embedding模型中实体长度占比embedding层,计算所述当前单字的实体长度占比embedding特征,包括:
基于所述实体词库对所述当前单字进行前缀匹配计算,以确定所述搜索文本信息中位于所述实体词库、且包含所述当前单字的目标词;
计算所述目标词的长度与所述搜索文本信息的长度的比值,并获取所述比值映射在预设第一数值区间的区间段序号;
将所述区间段序号输入到embedding模型中实体长度占比embedding层,将所述区间段序号映射为实体长度占比embedding特征。
可选的,所述将当前单字输入到embedding模型中意图分embedding层,计算所述当前单字的意图分embedding特征,包括:
基于所述实体词库对所述当前单字进行前缀匹配计算,以确定所述搜索文本信息中位于所述实体词库、且包含所述当前单字的目标词;
获取所述实体词库中所述目标词对应的意图分,并计算所述意图分的对数,获取所述取对数后的值映射在预设第二数值区间的区间段序号;
将所述区间段序号输入到embedding模型中意图分embedding层,将所述区间段序号映射为意图分embedding特征。
可选的,所述基于所述实体词库对所述当前单字进行前缀匹配计算,以确定所述搜索文本信息中位于所述实体词库、且包含所述当前单字的目标词,包括:
在所述实体词库中查询包含所述当前单字的实体词;
将查询到的所述实体词与所述搜索文本信息进行匹配,将位于所述搜索文本信息中的实体词确定为目标词。
可选的,所述命名实体识别模型中还包括对所述双向长短时记忆模型做约束的条件随机场模型;
所述条件随机场模型用于对双向长短时记忆模型的输入序列中每个字进行标签标注;
所述标签标注包括:以B表示实体开始、以I表示实体中间部分、以E表示实体结束部分、以O表示非限定的实体类型。
可选的,所述实体词库通过以下方式建立:
获取更新的实体资源;其中,每条实体资源包括资源标识、资源名称、资源类型、意图分;
对所述资源名称进行标准化格式转换,得到归一化的实体词;
为归一化的实体词关联对应实体资源的资源标识、资源类型和意图分;
在归一化的实体词关联有多个意图分时,将所述多个意图分之和作为所述实体词的意图分。
可选的,所述实体资源还包括热度分;在所述对所述资源名称进行标准化格式转换,得到归一化的实体名之前,还包括:
过滤掉热度分小于预设热度的实体资源。
可选的,所述基于各个意图分计算所述实体词的综合意图分,包括:
计算所述实体词在所述各个实体类型下的意图分之和,得到实体意图分;
基于每个实体类型下的意图分和所述实体意图分,得到各个实体类型的归一化意图分;
将分值最大的归一化意图分确定为所述实体词的综合意图分。
可选的,所述方法还包括:
基于预先建立的tf-idf特征库,确定所述实体词的词权重;
基于所述实体词的综合意图分和词权重,从所述实体词中筛选出必留的实体词;
所述基于所述实体词对应的实体类型和综合意图分,从所述实体词中确定用于搜索的关键词,包括:
基于所述必留的实体词对应的实体类型、综合意图分和词权重,从所述必留的实体词中确定用于搜索的关键词。
可选的,所述基于预先建立的tf-idf特征库,确定所述实体词的词权重,包括:
基于预先建立的tf-idf特征库,获取所述实体词对应的tf-idf特征;
基于所述实体词对应的tf-idf特征,确定所述实体词的词权重。
可选的,所述基于所述实体词对应的tf-idf特征,确定所述实体词的词权重,包括:
将tf-idf特征作为实体词的初始词权重;
针对每个实体词,基于实体词的词类型,在初始词权重基础上计算得到实体词的中间词权重;
计算每个实体词的中间词权重之和;
基于每个实体词的中间词权重和所述中间词权重之和,得到每个实体词的归一化的词权重。
可选的,所述基于实体词的词类型,在初始词权重基础上计算得到实体词的中间词权重,包括:
如果实体词为非单字实体,则提高初始词权重,得到非单字实体的词权重;
如果实体词为限定词实体,则降低初始词权重,得到限定词实体的词权重;
如果实体词为单字实体,则将初始词权重确定为单字实体的词权重。
可选的,所述基于所述实体词的综合意图分和词权重,从所述实体词中筛选出必留的实体词,包括:
在实体词为限定词实体,且词权重大于第一阈值,确定实体词为必留;
在实体词为非单实体的非限定词实体,且综合意图分大于第二阈值、词权重大于第三阈值时,确定实体词为必留;
在实体词为单实体的非限定实体词时,确定实体词为必留。
可选的,所述tf-idf特征库通过以下方式建立:
对历史搜索文本信息进行分词处理,统计分词总数、每个分词的出现次数和包含分词的历史搜索文本信息数量;
计算每个分词的出现次数与分词总数的比值,得到每个分词的词频;
计算以历史搜索文本信息总数为底、包含分词的历史搜索文本信息数量的对数,得到每个分词的逆向文档频率;
计算每个分词的词频与逆向文档频率的乘积,得到每个分词的tf-idf特征。
可选的,所述基于所述必留的实体词对应的实体类型、综合意图分和词权重,从所述必留的实体词中确定用于搜索的关键词,包括:
基于所述实体类型对所述必留的实体词进行分类;
在相同实体类型下,将词权重最大且综合意图分大于阈值的实体词确定为用于搜索的关键词。
可选的,还包括:
基于所确定的关键词进行资源搜索,获取搜索到的资源;
基于所述资源与关键词的相关度,对所述资源进行排序
在本发明实施方式的第二方面中,提供了一种计算机可读存储介质,包括:
当所述计算机可读存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如前任一项所述的关键词的确定方法。
在本发明实施方式的第三方面中,提供了一种关键词的确定装置,包括:
识别单元,识别搜索文本信息中的实体词和与所述实体词对应的实体类型;其中,所述实体词包括所述搜索文本信息中反映搜索意图的词;
计算单元,从预先建立的实体词库中查找所述实体词在各个实体类型下的意图分,并基于各个意图分计算所述实体词的综合意图分;
确定单元,基于所述实体词对应的实体类型和综合意图分,从所述实体词中确定用于搜索的关键词。
在本发明实施方式的第四方面中,提供了一种计算设备,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述可执行指令,以实现如前任一项所述的关键词的确定方法。
根据本发明实施方式提供的细粒度的多搜索意图的识别方案,通过识别搜索文本信息中的实体词和实体类型,结合预先建立的实体词库为每个实体词进行打分以得到每个实体词的综合意图分;最后基于每个实体词的实体类型和综合意图分,确定符合用户实际需求的至少一个关键词。由于最终确定的关键词是根据细粒度的多搜索意图的思路确定的,因此每个关键词都可以对应一个细粒度的搜索意图,这样就可以满足用户不同搜索意图的搜索需求。进而使得搜索结果更为准确、更为符合用户预期。
附图说明
通过参考附图阅读下文的详细描述,本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本发明的若干实施方式,其中:
图1示意性地示出了本发明提供的音乐资源的搜索示意图;
图2示意性地示出了本发明提供的关键词的确定方法示意图;
图3示意性地示出了本发明提供的音乐资源的搜索示意图;
图4示意性地示出了本发明提供的介质示意图;
图5示意性地示出了本发明提供的关键词的确定装置示意图;
图6示意性地示出了本发明提供的计算设备示意图。
在附图中,相同或对应的标号表示相同或对应的部分。
具体实施方式
下面将参考若干示例性实施方式来描述本发明的原理和精神。应当理解,给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本发明,而并非以任何方式限制本发明的范围。相反,提供这些实施方式是为了使本发明更加透彻和完整,并且能够将本发明的范围完整地传达给本领域的技术人员。
本领域技术人员知道,本发明的实施方式可以实现为一种系统、装置、设备、方法或计算机程序产品。因此,本发明可以具体实现为以下形式,即:完全的硬件、完全的软件(包括固件、驻留软件、微代码等),或者硬件和软件结合的形式。
根据本发明的实施方式,提出了一种关键词的确定方法、计算机可读存储介质、装置和计算设备。
在本文中,需要理解的是,附图中的任何元素数量均用于示例而非限制,以及任何命名都仅用于区分,而不具有任何限制含义。
下面参考本发明的若干代表性实施方式,详细阐释本发明的原理和精神。
发明概述
本发明人发现,出于现有意图识别技术的原因,其只能预测粗粒度的单一搜索意图,导致搜索结果不符合用户预期,降低了用户体验。
在介绍了本发明的基本原理之后,下面具体介绍本发明的各种非限制性实施方式。
应用场景总览
首先参考图1所示的一种音乐资源的搜索示意图。在应用搜索场景中,对于用户输入的搜索文本信息(即图中的query“邓紫棋唱歌的泡沫”);经过搜索可以返回图1中所示的多个搜索结果。用户可以点击任意一个搜索结果来播放对应的歌曲。
需要说明的是,上述音乐资源搜索场景仅为一种示例,在实际应用中,本发明还可以应用到其它任意资源的搜索场景中,例如视频资源的搜索、文章资源的搜索、游戏资源的搜索等等。
示例性方法
下面结合图1所示的应用场景,参考图2来描述根据本发明示例性实施方式的关键词的确定的方法。需要注意的是,上述应用场景仅是为了便于理解本发明的精神和原理而示出,本发明的实施方式在此方面不受任何限制。相反,本发明的实施方式可以应用于适用的任何场景。
如图2所示,所述关键词的确定方法,可以包括以下步骤:
步骤210:识别搜索文本信息中的实体词和与所述实体词对应的实体类型;其中,所述实体词包括所述搜索文本信息中反映搜索意图的词;
步骤220:从预先建立的实体词库中查找所述实体词在各个实体类型下的意图分,并基于各个意图分计算所述实体词的综合意图分;
步骤230:基于所述实体词对应的实体类型和综合意图分,从所述实体词中确定用于搜索的关键词。
需要说明的是,该实施例可以应用于提供搜索服务的服务端。所述服务端可以是指用于搜索的服务器、服务器集群或由服务器集群构建的云平台。
在实际应用中,用户可以在与服务端对应的客户端上输入搜索文本信息,并通过客户端将输入的搜索文本信息发送给上述服务端,以使服务端基于搜索文本信息执行本说明书提供的实施例。
通常,服务端本地或者与服务端关联的存储设备中存储有各种资源,服务端可以基于确定的关键词在这些资源中进行匹配,以匹配到与上述关键词相关的至少一个目标资源。
其中,上述实体词库中预先存储了不同实体类型下不同实体词的意图分。具体地,上述实体词库可以通过以下方式建立:
步骤A1,获取更新的实体资源;其中,每条实体资源包括资源标识、资源名称、资源类型、意图分。
以下以音乐资源为例加以说明,服务端可以周期性(例如每天)更新曲库资源库中的音乐资源。每条音乐资源可以包含资源标识(如id)、资源名称、资源类型、热度分和意图分。
例如,单曲资源“错位时空”和歌手资源“陈奕迅”,在曲库资源库中的音乐资源信息格式如下表1所示:
资源id 资源类型 资源名称 热度分 意图分
123829 artist 陈奕迅 199990 5000
569147 song 错位时空 201100 10000
其中,针对音乐资源,资源类型可以包括单曲(song),歌手(artist),专辑(album)和限定词(qualifier)4种类型。
在一示例性的实施例中,服务端可以过滤掉热度分小于预设热度的实体资源。
由于曲库资源库中的音乐资源可能包含一些冷门资源,这些冷门资源可能从来没有给搜索过或者搜索量非常小可以忽略不计。通常,对于这样的冷门资源,其热度分可能为很小甚至为0。
在实际应用中,这种冷门资源属于无用资源,可以将其过滤掉。具体地,热度分小于预设热度的实体资源就可以认为是冷门资源,因此可以将热度分小于预设热度的实体资源过滤掉。
步骤A2,对所述资源名称进行标准化格式转换,得到归一化的实体词。
由于曲库资源库中的音乐资源可能来源于不同的数据源,而不同的数据源对应不同的数据标准,导致曲库资源库中的音乐资源的数据标准并不统一,例如针对同一资源名称,可能存在大小写不一致、包含特殊字符等差异。
基于此,该步骤可以通过标准化格式转换对资源名称进行归一化处理。例如歌手“SHE”做归一化处理后,变为“she”;单曲“She”做归一化处理后,也变为“she”,则归一化后的实体词统一为“she”。
步骤A3,为归一化的实体词关联对应实体资源的资源标识、资源类型和意图分。
由于归一化的实体词可能对应多个实体资源,因此可以将归一化后的实体词关联对应实体资源信息,例如资源标识、资源类型和意图分。
如下表2所示的实体词库的实体资源相关信息:
Figure BDA0003164882180000101
其中,针对实体词“she”,存在2个资源,一个是资源id569278,对应的是歌手(artist)即she这个歌手组合,意图分为200;另一个是资源214250,对于的是单曲(song)即单曲名she,意图分为100。
步骤A4,在归一化的实体词关联有多个意图分时,将所述多个意图分之和作为所述实体词的意图分。
当一个实体词关联有多个意图分时,则需要计算计算一个总的意图分。
以上述表2中的实体词“she”为例,其对应有2个不同音乐资源的意图分200和100,将这2个意图分求和后得到的300作为该实体词“she”最终的意图分。
通过上述示例就可以构建出实体词库,从而在后续实施例中使用。
在介绍了实体词库后,下面对上述步骤210至步骤230中的各步骤进行详细地说明。
步骤210:识别搜索文本信息中的实体词和与所述实体词对应的实体类型;其中,所述实体词包括所述搜索文本信息中反映搜索意图的词。
由于搜索文本信息可能包括一些无意义内容,真正反应搜索意图的实体词只是搜索文本信息中的一部分。因此,服务端在接收到搜索文本信息之后,需要先从搜索文本信息中识别出反映搜索意图的实体词,以及每个实体词对应的实体类型。
在本实施例中,将一个独立资源维度的短语称为实体词,例如“邓紫棋”是歌手实体、泡沫是单曲实体。
在实现时,服务端可以采用例如语义识别、命名实体识别等技术进行识别。
以下以命名实体识别(Named Entity Recognition,NER)技术为例加以说明。
在一示例性的实施例中,上述步骤210,可以包括:
步骤B1:将接收到的搜索文本信息输入到命名实体识别模型中进行计算;
步骤B2:获取所述命名实体识别模型计算后输出的实体词和与所述实体词对应的实体类型。
该示例中,命名实体识别模型用于根据预先定义的实体类型,从输入的文本信息中将实体词和实体类型识别出来。
其中,命名实体识别NER模型是一类算法的总称,以下进一步对命名实体识别模型具体使用的算法进行说明。
在一示例性的实施例中,所述命名实体识别模型由embedding模型、双向长短时记忆模型组成;
相应地,上述步骤B1,将接收到的搜索文本信息输入到命名实体识别模型中进行计算,可以包括:
针对接收到的搜索文本信息中的每个单字,做以下处理:
步骤B11,将当前单字输入到embedding模型中的不同维度的embedding层,以获取不同维度下计算出的embedding特征。
其中,上述不同维度可以包括单字、实体类型、实体长度占比和意图分;即上述步骤B11,可以包括:
步骤B111,将当前单字输入到embedding模型中单字embedding层,计算所述当前单字的单字embedding特征。
举例说明,假设用户输入的搜索文本信息为“邓紫棋唱的泡沫”,首先基于单子将其拆分为7个单字“邓,紫,棋,唱,的,泡,沫”;对于每一个字,依次输入到4个的embedding层。
以单字“邓”为例,输入到单字embedding层(也可以称为char embedding层),计算该单字“邓”对应的单字embedding特征:CharEMD={a1,a2,…,ai,…,a128};其中,CharEMD表示单字embedding特征,该特征具有128维,分别为a1至a128
需要说明的是,此处单字embedding特征的维数128可以是一个经验值,通常维数越多最终识别结果越准确但是占用的计算资源也越多。
步骤B112,将当前单字输入到embedding模型中实体类型embedding层,计算所述当前单字的实体类型embedding特征;
在实现时,可以基于所述实体词库对所述当前单字进行前缀匹配计算,以确定所述搜索文本信息中位于所述实体词库、且包含所述当前单字的目标词;
获取所述实体词库中所述目标词对应的实体类型,并获取预设的与所述实体类型对应的特征值;
将所述特征值输入到embedding模型中实体类型embedding层,将所述特征值映射为实体类型embedding特征。
依然以“邓紫棋唱的泡沫”中的单字“邓”为例,每个实体类型可以预先设有特征值,歌手对应的特征值为1,单曲对应的特征值为2,专辑对应的特征值为3,限定词对应的特征值为4。
其中,上述前缀匹配计算,可以包括:在所述实体词库中查询包含所述当前单字的实体词;将查询到的所述实体词与所述搜索文本信息进行匹配,将位于所述搜索文本信息中的实体词确定为目标词。
首先,在前述实体词库中匹配包含单字“邓”的实体词,假设匹配到“邓伦”和“邓紫棋”;进一步还需要看匹配到的实体词是否位于搜索文本信息中,由于“邓伦”并不在搜索文本信息中,而“邓紫棋”位于搜索文本中,因此,最终可以确定“邓紫棋”为目标词。
在确定了目标词“邓紫棋”后,由于“邓紫棋”属于歌手实体类型,因此可以将歌手对应的特征值1输入到实体类型embedding层,该实体类型embedding层可以将1映射为实体类型embedding特征:EntityEMD={b1,b2,…,bi,…,b16};其中,EntityEMD表示实体类型embedding特征,该特征具有16维,分别为b1至b16
需要说明的是,此处实体类型embedding特征的维数16可以是一个经验值,通常维数越多最终识别结果越准确但是占用的计算资源也越多。
步骤B113,将当前单字输入到embedding模型中实体长度占比embedding层,计算所述当前单字的实体长度占比embedding特征。
在实现时,可以基于所述实体词库对所述当前单字进行前缀匹配计算,以确定所述搜索文本信息中位于所述实体词库、且包含所述当前单字的目标词;
计算所述目标词的长度与所述搜索文本信息的长度的比值,并获取所述比值映射在预设第一数值区间的区间段序号;
将所述区间段序号输入到embedding模型中实体长度占比embedding层,将所述区间段序号映射为实体长度占比embedding特征。
依然以“邓紫棋唱的泡沫”中的单字“邓”为例,如前所示通过前缀匹配计算可以确定目标词为“邓紫棋”。
在确定了目标词“邓紫棋”后,由于“邓紫棋”有3个字,可见其实体长度为3,而搜索文本信息的长度为7(“邓紫棋唱的泡沫”有7个字),因此单字“邓”的实体长度的比值是3/7=0.43。
进一步的,由于比值0.43映射到预设第一数值区间[0,0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8,0.9,1.0]中的第5个区间段[0.4,0.5],因此可以将区间段序号5输入到实体长度占比embedding层,该实体长度占比embedding层可以将5映射为实体长度占比embedding特征:Entity_Cover_RatioEMD={c1,c2,…,ci,…,c16};其中,Entity_Cover_RatioEMD表示实体长度占比embedding特征,该特征具有16维,分别为c1至c16
需要说明的是,此处实体长度占比embedding特征的维数16可以是一个经验值,通常维数越多最终识别结果越准确但是占用的计算资源也越多。
步骤B114,将当前单字输入到embedding模型中意图分embedding层,计算所述当前单字的意图分embedding特征。
在实现时,可以基于所述实体词库对所述当前单字进行前缀匹配计算,以确定所述搜索文本信息中位于所述实体词库、且包含所述当前单字的目标词;
获取所述实体词库中所述目标词对应的意图分,并计算所述意图分的对数,获取所述取对数后的值映射在预设第二数值区间的区间段序号;
将所述区间段序号输入到embedding模型中意图分embedding层,将所述区间段序号映射为意图分embedding特征。
依然以“邓紫棋唱的泡沫”中的单字“邓”为例,如前所示通过前缀匹配计算可以确定目标词为“邓紫棋”。
在确定了目标词“邓紫棋”后,假设查询实体词库获取“邓紫棋”对应的意图分为20000;对该意图分取对数得到log10(20000)=4.3。
进一步的,由于取对数后的值4.3映射在预设第二数值区间[0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15]中的第5个区间段[4,5],因此可以将区间段序号5输入到意图分embedding层,该意图分embedding层可以将5映射为意图分embedding特征:Intent_ScoreEMD={d1,d2,…,di,…,d16};其中,Intent_ScoreEMD表示意图分embedding特征,该特征具有16维,分别为d1至d16
需要说明的是,此处意图分embedding特征的维数16可以是一个经验值,通常维数越多最终识别结果越准确但是占用的计算资源也越多。
步骤B12,将所述不同维度下计算出的embedding特征拼接后,作为双向长短时记忆模型的隐藏层输入,以及将所述搜索文本信息作为双向长短时记忆模型的输入层输入,得到所述双向长短时记忆模型输出层输出的实体词和与所述实体词对应的实体类型。
沿用前述步骤B111-B114中以“邓紫棋唱的泡沫”中的单字“邓”为例的示例,将单字embedding特征:CharEMD={a1,a2,…,ai,…,a128}、实体类型embedding特征:EntityEMD={b1,b2,…,bi,…,b16}、实体长度占比embedding特征:Entity_Cover_RatioEMD={c1,c2,…,ci,…,c16}、意图分embedding特征:Intent_ScoreEMD={d1,d2,…,di,…,d16}进行拼接,得到176维的特征:
ConcatEmbed=[CharEMD,EntityEMD,Entity_Cover_RatioEMD,Intent_ScoreEMD]
={a1,a2,…,a128,b1,b2,…,b16,c1,c2,…,c16,d1,d2,…,d16}
将拼接后ConcatEmbed的176维特征作为双向长短时记忆(Bi-LSTM)模型的隐藏层输入。
该实施例采用双向长短时记忆模型可以解决模型学习过程中梯度消失的问题,以更好应对长序列的输入数据(即长文本的搜索文本信息)。另外,双向长短时记忆模型在预测结果时可以更多的联系上下文,在cell(双向长短时记忆模型的基本单元)中不仅输入前向LSTM的输出,而且输入后向LSTM的输出,最终使得预测结果更为准确。
为了使得模型预测结果更为符合实体词的定义即独立资源维度的短语,还可以为Bi-LSTM配置一个CRF(Conditional Random Fields,条件随机场),使得NER模型结构成为embedding+Bi-LSTM+CRF结构。
其中,CRF用于对Bi-LSTM做约束,通过Bi-LSTM+CRF计算输出实体词和实体类型。
在使用模型做预测时,所述条件随机场模型用于对双向长短时记忆模型的输入序列中每个字进行标签标注;其中,所述标签标注包括:以B表示实体开始、以I表示实体中间部分、以E表示实体结束部分、以O表示非限定的实体类型。其中,所述约束的约束条件包括:以标签B开头以标签E结尾的实体词。另外还可以采用为比特算法(viterbi)从标注的标签中找到概率最大的实体词和实体类型。
举例说明,依然以“邓紫棋唱的泡沫”为例,如果不做CRF约束,则NER结果可能为“邓/I-Artist”、“紫/I-Artist”、“棋/E-Artist”、“唱/O”、“的/E-Song”、“泡/E-Song”、“/E-Song”;这样就会出现以I-Artist开头的歌手实体“邓紫棋”,不符合以标签B开头以标签E结尾的实体词的约束条件。
而如果加入CRF约束后,则NER结果为“邓/B-Artist”、“紫/I-Artist”、“棋/E-Artist”、“唱/O”、“的/O”、“泡/B-Song”、“沫/E-Song”;这样预测的实体“邓紫棋”和“泡沫”的标签都是以B-开头,以E-结尾,符合约束条件。
步骤220:从预先建立的实体词库中查找所述实体词在各个实体类型下的意图分,并基于各个意图分计算所述实体词的综合意图分。
对于识别出的实体词和实体离线,可以通过查询实体词库,得到每个实体词在各个实体类型下的意图分。如果在某个实体类型下没有这个实体词则该实体类型下的意图分为0。
继续以音乐资源为例,音乐资源的资源类型可以包括单曲(song),歌手(artist),专辑(album)和限定词(qualifier)4种类型。那么,每个实体词的意图分包括:单曲意图分intent_scoresong、歌手意图分intent_scoreartist、专辑意图分intent_scorealbum和限定词intent_scorequalifier
在一实施例中,所述基于各个意图分计算所述实体词的综合意图分,可以包括:
步骤C1:计算所述实体词在所述各个实体类型下的意图分之和,得到实体意图分;
上述实体意图分sum_intent_score可以基于如下公式计算得到:
sum_intent_score=
intent_scoresong+intent_scoreartist+intent_scorealbum+intent_scorequalifier
步骤C2:基于每个实体类型下的意图分和所述实体意图分,得到各个实体类型的归一化意图分;
将每个实体类型下的意图分除以所述实体意图分,得到各个实体类型的归一化意图分,计算公式如下:
单曲的归一化意图分norm_intentsong=intent_scoresong/(sum_intent_score+eps)
歌手的归一化意图分norm_intentartist=intent_scoreartist/(sum_intent_score+eps)
专辑的归一化意图分norm_intentalbum=intent_scorealbum/(sum_intent_score+eps)
限定词归一化意图分norm_intentqualifier=intent_scorequalifier/(sum_intent_score+eps)
其中eps=0.0000001,用于防止分母为0的情况。
步骤C3:将分值最大的归一化意图分确定为所述实体词的综合意图分。
依然以“邓紫棋唱的泡沫”为例,识别得到歌手(artist)实体“邓紫棋”和单曲(song)实体“泡沫”。对于“邓紫棋”,查询前述表2中的意图分,得到“邓紫棋”对应artist意图分数是590,对应的song意图分数是10,则归一化的歌手归一化意图分为590/(590+10)=0.983,归一化的单曲意图分为10/(590+10)=0.017;从中选取分值最大的归一化意图分作为该实体词的实体意图分,所以“邓紫棋”的实体意图分数是0.983。
步骤230:基于所述实体词对应的实体类型和综合意图分,从所述实体词中确定用于搜索的关键词。
在实际应用中,一般可以从一个长文本的搜索文本信息中识别出若干个实体词,而针对识别出的实体词还可以进行非必留判断,以确定哪些实体词需要保留,哪些实体词可以删除。为此本专利还提供了以下实施例。
在一示例性的实施例中,在步骤230之前可以包括:
步骤D1,基于预先建立的tf-idf特征库,确定所述实体词的词权重。
其中,所述词权重表示的实体词在搜索文本信息中的重要程度。词权重的取值一般是[0,1]之间。词权重越大,说明实体词在搜索文本信息中越重要,也越需要保留。
其中,所述tf-idf特征库是根据历史搜索文本信息的tf(term frequency,词频)和idf(inverse document frequency,逆向文档频率)构建的。所述tf-idf特征库通过以下方式建立:
对历史搜索文本信息进行分词处理,统计分词总数、每个分词的出现次数和包含分词的历史搜索文本信息数量;
计算每个分词的出现次数与分词总数的比值,得到每个分词的词频;
计算以历史搜索文本信息总数为底、包含分词的历史搜索文本信息数量的对数,得到每个分词的逆向文档频率;
计算每个分词的词频与逆向文档频率的乘积,得到每个分词的tf-idf特征。
在实现时,服务端可以获取预设时长内的历史搜索文本信息,统计历史搜索文本信息总数N。对历史搜索文本信息做分词处理,统计每个分词(wordi)的出现次数Count(wordi)以及包含该分词的历史搜索文本信息数量Docs(Count(wordi,doc),分词总数Sumcount(word)
然后计算词频tf和逆向文档频率df,根据tf和idf最终计算得到tf-idf特征,具体计算公式如下:
tf(wordi)=Count(wordi)/(Sumcount(word)+eps)
idf(wordi)=log(N/Docs(Count(wordi,doc)+eps))
tf-idf=tf*idf
其中eps=0.000001,用于防止出现分母为0的情况。
在一实施例中,上述步骤D1可以包括:
步骤D11,基于预先建立的tf-idf特征库,获取所述实体词对应的tf-idf特征。
步骤D12,基于所述实体词对应的tf-idf特征,确定所述实体词的词权重。
在查询到实体词对应的tf-idf特征后,可以做基于模式规则匹配的词权重打分,具体包括
步骤D121,首先判断搜索文本信息是否是单实体,即识别出的实体词是否就是搜索文本信息;如果是说明是单实体,则可以确定实体词的词权重为1.0;否则,进入步骤D122。
例如,搜索文本信息为“邓紫棋”,识别出的实体词也是“邓紫棋”,显然该搜索文本信息是一个单实体,词权重设为1。
再例如,搜索文本信息为“邓紫棋唱的泡沫”,识别出的实体词有“邓紫棋”,显然不是单实体进入下一步骤。
步骤D122,组合艺人词表查询,如果命中组合艺人词表,组合名实体和艺人实体分别从词表中获取的值给定词权重;否则进入步骤D123。
服务端可以根据艺人和艺人所在的组合,构造了一份组合艺人词表,词表中给出来固定的艺人名权重值和组合名权重值,如下表3所示:
组合文本 组合名 艺人名 组合名权重 艺人名权重
exo鹿晗 exo 鹿晗 0.3 0.7
鹿晗exo exo 鹿晗 0.3 0.7
针对用户输入的query搜索文本信息,可以直接将query与组合艺人词表中的组合文本做匹配。例如用户输入的query“exo鹿晗”在词表中,则该query的词权重结果为“exo/0.3,鹿晗/0.7”。而用户输入的query”邓紫棋唱的泡沫”不在词表中,则进入步骤D123。
通过组合艺人词表查询,可以在用户查询组合中某个艺人时,通过提高该艺人权重,避免查询到组合中其它成员相关的资源。
步骤D123,实体词加限定词组合判断。如果识别出的实体词中包括一个非限定词(例如单曲、歌手、专辑类型)的实体词又包括一个限定词的实体词,则提高非限定词的实体词对应的tf-idf特征值(tf_idfentity)2倍、降低限定词的实体词对应的tf-idf特征值(tf_idfqualifier)2倍,进而归一化词权重;否则进入步骤D124。
其中,非限定词的实体词的权重值boost_tf_idfentity=2*tf_idfentity;限定词的实体词的权重值reduce_tf_idfqualifier=tf_idfqualifier/2;
非限定词的实体词对应的归一化词权重:
Figure BDA0003164882180000191
限定词的实体词对应的归一化词权重:
Figure BDA0003164882180000201
举例说明,假设query为“泡沫抖音版”,识别出的实体词为“泡沫/song”、“抖音版/qualifier”。由于query中包含一个非限定词“泡沫”和一个限定词“抖音版”,符合实体词加限定词组合。
假设从tf-idf特征库查询得到“泡沫”的tf-idf值为19.08、“抖音版”的tf-idf值为9.46;则对非限定词“泡沫”提权2倍19.08×2=38.16,对限定词“抖音版”降权两倍9.46÷2=4.73;然后计算归一化的权重,“泡沫”的词权重为38.16÷(38.16+4.73+eps)=0.89、“抖音版”的词权重为4.73÷(38.16+4.73+eps)=0.11。归一化的词权重结果为:“泡沫/0.89”、“抖音版/0.11”。
而假设query为“邓紫棋唱的泡沫”,识别出的实体词为“邓紫棋/artist”、“唱/qualifier”、“的/qualifier”、“泡沫/song”,包含两个非限定词和两个限定词,不符合实体词加限定词组合,则进入到步骤D124。
步骤D124,二实体组合判断。如果识别出的实体词为两个非限定词的实体词,则对该实体词对应的tf-idf特征值提权1.5倍,然后归一化词权重。否则进步步骤D125。
举例说明,假设query为“邓紫棋泡沫”,识别出的实体词为“邓紫棋/artist”、“泡沫/song”,只包含两个实体词,且均为非限定词。通过查询tf-idf特征库,“邓紫棋”的tf-idf值为18.21、“泡沫”的tf-idf值为19.08。对其提权1.5倍,提权后的tf-idf值为19.08×1.5=28.62,则“邓紫棋”归一化的词权重为18.21÷(18.21+28.62+eps)=0.39,“泡沫”归一化的词权重为28.62÷(18.21+28.62+eps)=0.61。最终的词权重结果为“邓紫棋/0.39”、“泡沫/0.61”。而query“邓紫棋唱的泡沫”不属于二实体组合,则进入到步骤D125。
步骤D125,通用词权重。在实体词均不符合前述几种情况时,可以采用通用词权重计算。
具体地,将tf-idf特征作为实体词的初始词权重;
针对每个实体词,基于实体词的词类型,在初始词权重基础上计算得到实体词的中间词权重;
计算每个实体词的中间词权重之和;
基于每个实体词的中间词权重和所述中间词权重之和,得到每个实体词的归一化的词权重。
该示例中,针对识别出的实体词,可能存在三种情况:单字实体(实体词只有1个字)tf_idfsingle_entity,非单字实体tf_idfmulti_entity,限定词tf_idfqualifier
首先,计算实体词的中间词权重:
如果实体词为非单字实体,则提高初始词权重,得到非单字实体的词权重。例如,对于非单字实体tf_idfmulti_entity提权1.5倍:
boost_tf_idfmulti_entity=1.5*tf_idfmulti_entity
如果实体词为限定词实体,则降低初始词权重,得到限定词实体的词权重。例如,对于限定词tf_idfqualifier降权为0.3倍:
reduce_tf_idfqualifier=0.3*tf_idfqualifier
如果实体词为单字实体,则将初始词权重确定为单字实体的词权重。单字实体tf_idfsingle_entity不变。
然后,计算每个实体词的中间词权重之和:
sum_tf_idf=boost_tf_idfmulti_entity+reduce_tf_idfqualifier+tf_idfsingle_entity
最后,计算实体词归一化的词权重:
针对单字实体,计算单字实体归一化的词权重:
norm_tf_idfsingle_entity=tf_idfsingle_entity/(sum_tf_idf+eps)
针对非单字实体,计算非单字实体归一化的词权重:
norm_tf_idfmulti_entity=boost_tf_idfmulti_entity/(sum_tf_idf+eps)
针对限定词实体,计算限定词实体归一化的词权重:
norm_tf_idfqualifier=reduce_tf_idfqualifier/(sum_tf_idf+eps)
举例说明,假设query为“邓紫棋唱的泡沫”,识别出的实体词为“邓紫棋/artist”、“唱/qualifier”、“的/qualifier”和“泡沫/song”。首先查询“邓紫棋”的tf-idf值为18.21、“唱”的tf-idf值为5.31、“的”tf-idf值为1.02、“泡沫”的tf-idf值为19.08。
由于“邓紫棋”是包含三个字的非单字实体,“泡沫”是包含两个字的非单字实体,所以分别对这两个实体词做1.5倍提权,“邓紫棋”提权后的tf-idf值为1.5×18.21=27.315,“泡沫”提权后的tf-idf值为1.5×19.08=28.62。“唱”和“的”都是限定词,需要做0.3倍降权,“唱”降权后的tf-idf值为0.3×5.31=1.593,“的”降权后的tf-idf值为0.3×1.02=0.306。最后计算归一化后的权重值,“邓紫棋”归一化权重为27.315÷(27.315+28.62+1.593+0.306+eps)=0.472,“唱”归一化权重为1.593÷(27.315+28.62+1.593+0.306+eps)=0.027,“的”归一化权重为0.306÷(27.315+28.62+1.593+0.306+eps)=0.005,“泡沫”的归一化权重为28.62÷(27.315+28.62+1.593+0.306+eps)=0.496。则最终的词权重结果为:“邓紫棋/0.472”、“唱/0.027”、“的/0.005”、“泡沫/0.496”。
步骤D2,基于所述实体词的综合意图分和词权重,从所述实体词中筛选出必留的实体词。
在计算出实体词的综合意图分和词权重后,就可以判断哪些词需要保留(必留)、哪些词需要丢弃(非必留)。对于长文本的搜索文本信息,通过丢弃非必留的实体词,即可以减少后续搜索量,也可以提前排除不符合用户真实意图的资源。
针对非必留判断,可以包括:
步骤D211,首先判断搜索文本信息是否是单实体;在实体词为单实体的非限定实体词时,确定实体词为必留。否则,进入步骤D212。
例如query为“邓紫棋”,识别出的实体词为“邓紫棋/artist”;由于该实体词是歌手类型,是非限定实体词,并且实体词与搜索文本信息相同,是单实体,因此判定“邓紫棋/必留”。
步骤212,组合艺人词表查询。如果命中组合艺人词表,则组合名和艺人名实体都判定为必留词,否则进入步骤123。
例如query“exo鹿晗”,通过查询前述表2所示的组合艺人词表,发现query命中表2组合艺人词表,则判定“exo/必留”、“鹿晗/必留”。
再例如query”邓紫棋唱的泡沫”,由于不包含在表2中,则需要进入步骤124。
步骤124,通用非必留判断。在实体词为限定词实体,且词权重大于第一阈值,确定实体词为必留;
在实体词为非单实体的非限定词实体,且综合意图分大于第二阈值、词权重大于第三阈值时,确定实体词为必留。
其中,所述第一阈值大于第二阈值,第二阈值大于第三阈值。
举例说明,假设query为“王菲版的愿”,识别出的实体词为“王菲/artist”、“/qualifier”、“/qualifier”和“/song”;综合意图分为“王菲/artist/0.9”、“版/qualifier/1.0”、“的/qualifier/1.0”、“愿/song/0.34”;词权重为“王菲/0.72”、“版/0.06”、“的/0.04”、“愿/0.18”。
判断非限定词类型的非必留情况,“王菲”是歌手(artist)实体,综合意图分为0.9大于第二阈值0.2,词权重为0.72大于第三阈值0.1,所以判定为必留。“愿”是歌曲(song)实体而且是只包含一个字的单实体,综合意图分是0.18小于第二阈值0.2,不满足条件判定为非必留。然后判断限定词类型的非必留情况,“版”词权重0.06小于第一阈值0.3,判定为非必留。“的”词权重0.04小于第一阈值0.3,也判定为非必留。则query“王菲版的愿”的非必留判断结果为“王菲/必留”、“版/非必留”、“的/非必留”、“愿/非必留”。
相应地,所述步骤230,包括:
基于所述必留的实体词对应的实体类型、综合意图分和词权重,从所述必留的实体词中确定用于搜索的关键词。
服务端在确定了必留的实体词后,以及一定的规则判定,可以得到细粒度的表示用户实际搜索意图的关键词。
在一示例性的实施例中,可以包括:
基于所述实体类型对所述必留的实体词进行分类;
在相同实体类型下,将词权重最大且综合意图分大于阈值的实体词确定为用于搜索的关键词。
举例说明,假设针对query为“陈奕迅王菲版因为爱情”的非必留判定结果为“陈奕迅/必留”、“王菲/必留”、“版/非必留”、“因为爱情/必留”;保留必留词“陈奕迅”、“王菲”和“因为爱情”。
针对必留词根据实体类型进行分类,将歌手类型的“陈奕迅”和“王菲”归为一类,单曲类型的“因为爱情”为另一类。
针对歌手类型下的“陈奕迅”和“王菲”,按照词权重从高到低排序。假设词权重为”陈奕迅/0.27”、“王菲/0.31”,则歌手类型下词权重排序结果为:王菲(0.31)大于陈奕迅(0.27);可以确定“王菲”为歌声类型下词权重最大的实体词。
进一步,判断歌声类型下的“王菲”和歌曲类型下的“因为爱情”的综合意图分是否大于阈值0.3;假设歌手实体“王菲”的综合意图分为0.96大于0.3,并且“王菲”为歌声类型下词权重最大的实体词;而“陈奕迅”虽然综合意图分0.94也大于0.3,但是其不是歌声类型下词权重最大的实体词。
对于单曲类型,单曲实体“因为爱情”的综合意图分数是0.88大于阈值0.3,而且只有一个单曲实体,因此词权重最高的单曲实体为因为爱情(0.39)。没有专辑类型实体,所以不做判断。
所以最终得到细粒度的意图信息为:“王菲/artist/意图分数0.96/词权重0.31”、“因为爱情/song/意图分数0.88/词权重0.39”。即确定的关键词为“王菲”和“因为爱情”。
通过上述实施例,通过识别搜索文本信息中的实体词和实体类型,结合预先建立的实体词库为每个实体词进行打分以得到每个实体词的综合意图分;最后基于每个实体词的实体类型和综合意图分,确定符合用户实际需求的至少一个关键词。由于最终确定的关键词是根据细粒度的多搜索意图的思路确定的,因此每个关键词都可以对应一个细粒度的搜索意图,这样就可以满足用户不同搜索意图的搜索需求。进而使得搜索结果更为准确、更为符合用户预期。
进一步的,由于已经确定了用于进行搜索的关键词,因此可以利用所述关键词进行搜索。
在一示例性的实施例中,在上述图2基础上还可以包括:
基于所确定的关键词进行资源搜索,获取搜索到的资源;
基于所述资源与关键词的相关度,对所述资源进行排序。
该示例中,在搜索到资源后,通过对资源排序,以将与关键词相关度高的资源优先进行展示。
例如对于query“邓紫棋唱的泡沫”,使用前述实施例确定的关键词“邓紫棋”和“泡沫”进行资源匹配,并对资源排序后可以得到图3所示的搜索结果。图3与图1相比,搜索结果优先展示的不仅符合用户期望的歌曲“泡沫”,而且歌手也是歌曲“泡沫”原唱“邓紫棋”符合用户期望。可见,搜索结果更符合用户的真实需求。
示例性介质
在介绍了本发明示例性实施方式的方法之后,接下来,参考图4对本发明示例性实施方式的介质进行说明。
本示例性实施方式中,可以通过程序产品实现上述方法,如可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在设备,例如个人电脑上运行。然而,本发明的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
该程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RE等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码,程序设计语言包括面向对象的程序设计语言,诸如Java、C++等,还包括常规的过程式程序设计语言,诸如C语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
示例性装置
在介绍了本发明示例性实施方式的介质之后,接下来,参考图5对本发明示例性实施方式的装置进行说明。
图5示意性地示出了根据本发明实施方式的一种关键词的确定装置的框图。该关键词的确定装置可以包括:
识别单元310,识别搜索文本信息中的实体词和与所述实体词对应的实体类型;其中,所述实体词包括所述搜索文本信息中反映搜索意图的词;
计算单元320,从预先建立的实体词库中查找所述实体词在各个实体类型下的意图分,并基于各个意图分计算所述实体词的综合意图分;
确定单元330,基于所述实体词对应的实体类型和综合意图分,从所述实体词中确定用于搜索的关键词。
可选的,所述识别单元310,包括:
将接收到的搜索文本信息输入到命名实体识别模型中进行计算;
获取所述命名实体识别模型计算后输出的实体词和与所述实体词对应的实体类型。
可选的,所述命名实体识别模型由embedding模型、双向长短时记忆模型组成;
所述将接收到的搜索文本信息输入到命名实体识别模型中进行计算,包括:
针对接收到的搜索文本信息中的每个单字,做以下处理:
将当前单字输入到embedding模型中的不同维度的embedding层,以获取不同维度下计算出的embedding特征;
将所述不同维度下计算出的embedding特征拼接后,作为双向长短时记忆模型的隐藏层输入,以及将所述搜索文本信息作为双向长短时记忆模型的输入层输入,得到所述双向长短时记忆模型输出层输出的实体词和与所述实体词对应的实体类型。
可选的,所述不同维度包括单字、实体类型、实体长度占比和意图分;
所述将当前单字输入到embedding模型中的不同维度的embedding层,以获取不同维度下计算出的embedding特征,包括:
第一计算子单元311,将当前单字输入到embedding模型中单字embedding层,计算所述当前单字的单字embedding特征;
第二计算子单元312,将当前单字输入到embedding模型中实体类型embedding层,计算所述当前单字的实体类型embedding特征;
第三计算子单元313,将当前单字输入到embedding模型中实体长度占比embedding层,计算所述当前单字的实体长度占比embedding特征;
第四计算子单元314,将当前单字输入到embedding模型中意图分embedding层,计算所述当前单字的意图分embedding特征。
可选的,所述第二计算子单元312,包括:
基于所述实体词库对所述当前单字进行前缀匹配计算,以确定所述搜索文本信息中位于所述实体词库、且包含所述当前单字的目标词;
获取所述实体词库中所述目标词对应的实体类型,并获取预设的与所述实体类型对应的特征值;
将所述特征值输入到embedding模型中实体类型embedding层,将所述特征值映射为实体类型embedding特征。
可选的,所述第三计算子单元313,包括:
基于所述实体词库对所述当前单字进行前缀匹配计算,以确定所述搜索文本信息中位于所述实体词库、且包含所述当前单字的目标词;
计算所述目标词的长度与所述搜索文本信息的长度的比值,并获取所述比值映射在预设第一数值区间的区间段序号;
将所述区间段序号输入到embedding模型中实体长度占比embedding层,将所述区间段序号映射为实体长度占比embedding特征。
可选的,所述第四计算子单元314,包括:
基于所述实体词库对所述当前单字进行前缀匹配计算,以确定所述搜索文本信息中位于所述实体词库、且包含所述当前单字的目标词;
获取所述实体词库中所述目标词对应的意图分,并计算所述意图分的对数,获取所述取对数后的值映射在预设第二数值区间的区间段序号;
将所述区间段序号输入到embedding模型中意图分embedding层,将所述区间段序号映射为意图分embedding特征。
可选的,所述基于所述实体词库对所述当前单字进行前缀匹配计算,以确定所述搜索文本信息中位于所述实体词库、且包含所述当前单字的目标词,包括:
在所述实体词库中查询包含所述当前单字的实体词;
将查询到的所述实体词与所述搜索文本信息进行匹配,将位于所述搜索文本信息中的实体词确定为目标词。
可选的,所述命名实体识别模型中还包括对所述双向长短时记忆模型做约束的条件随机场模型;
所述条件随机场模型用于对双向长短时记忆模型的输入序列中每个字进行标签标注;
所述标签标注包括:以B表示实体开始、以I表示实体中间部分、以E表示实体结束部分、以O表示非限定的实体类型。
可选的,所述实体词库通过以下方式建立:
实体词库建立单元302,用于获取更新的实体资源;其中,每条实体资源包括资源标识、资源名称、资源类型、意图分;对所述资源名称进行标准化格式转换,得到归一化的实体词;为归一化的实体词关联对应实体资源的资源标识、资源类型和意图分;在归一化的实体词关联有多个意图分时,将所述多个意图分之和作为所述实体词的意图分。
可选的,所述实体资源还包括热度分;在所述对所述资源名称进行标准化格式转换,得到归一化的实体名之前,还包括:
过滤掉热度分小于预设热度的实体资源。
可选的,所述基于各个意图分计算所述实体词的综合意图分,包括:
计算所述实体词在所述各个实体类型下的意图分之和,得到实体意图分;
基于每个实体类型下的意图分和所述实体意图分,得到各个实体类型的归一化意图分;
将分值最大的归一化意图分确定为所述实体词的综合意图分。
可选的,所述装置还包括:
词权重单元322,基于预先建立的tf-idf特征库,确定所述实体词的词权重;
筛选单元324,基于所述实体词的综合意图分和词权重,从所述实体词中筛选出必留的实体词;
所述确定单元330,包括:
基于所述必留的实体词对应的实体类型、综合意图分和词权重,从所述必留的实体词中确定用于搜索的关键词。
可选的,所述词权重单元322,包括:
基于预先建立的tf-idf特征库,获取所述实体词对应的tf-idf特征;
基于所述实体词对应的tf-idf特征,确定所述实体词的词权重。
可选的,所述基于所述实体词对应的tf-idf特征,确定所述实体词的词权重,包括:
将tf-idf特征作为实体词的初始词权重;
针对每个实体词,基于实体词的词类型,在初始词权重基础上计算得到实体词的中间词权重;
计算每个实体词的中间词权重之和;
基于每个实体词的中间词权重和所述中间词权重之和,得到每个实体词的归一化的词权重。
可选的,所述基于实体词的词类型,在初始词权重基础上计算得到实体词的中间词权重,包括:
如果实体词为非单字实体,则提高初始词权重,得到非单字实体的词权重;
如果实体词为限定词实体,则降低初始词权重,得到限定词实体的词权重;
如果实体词为单字实体,则将初始词权重确定为单字实体的词权重。
可选的,所述筛选单元324,包括:
在实体词为限定词实体,且词权重大于第一阈值,确定实体词为必留;
在实体词为非单实体的非限定词实体,且综合意图分大于第二阈值、词权重大于第三阈值时,确定实体词为必留;
在实体词为单实体的非限定实体词时,确定实体词为必留。
可选的,所述tf-idf特征库通过以下方式建立:
特征库建立单元304,对历史搜索文本信息进行分词处理,统计分词总数、每个分词的出现次数和包含分词的历史搜索文本信息数量;计算每个分词的出现次数与分词总数的比值,得到每个分词的词频;计算以历史搜索文本信息总数为底、包含分词的历史搜索文本信息数量的对数,得到每个分词的逆向文档频率;计算每个分词的词频与逆向文档频率的乘积,得到每个分词的tf-idf特征。
可选的,所述基于所述必留的实体词对应的实体类型、综合意图分和词权重,从所述必留的实体词中确定用于搜索的关键词,包括:
基于所述实体类型对所述必留的实体词进行分类;
在相同实体类型下,将词权重最大且综合意图分大于阈值的实体词确定为用于搜索的关键词。
可选的,所述装置还包括:
搜索子单元332,基于所确定的关键词进行资源搜索,获取搜索到的资源;
排序子单元334,基于所述资源与关键词的相关度,对所述资源进行排序。
示例性计算设备
在介绍了本发明示例性实施方式的方法、介质和装置之后,接下来,参考图6对本发明示例性实施方式的计算设备进行说明。
图6显示的计算设备1500仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图6所示,计算设备1500以通用计算设备的形式表现。计算设备1500的组件可以包括但不限于:上述至少一个处理单元1501、上述至少一个存储单元1502,连接不同系统组件(包括处理单元1501和存储单元1502)的总线1503。
总线1503包括数据总线、控制总线和地址总线。
存储单元1502可以包括易失性存储器形式的可读介质,例如随机存取存储器(RAM)15021和/或高速缓存存储器15022,可以进一步包括非易失性存储器形式的可读介质,例如只读存储器(ROM)15023。
存储单元1502还可以包括具有一组(至少一个)程序模块15024的程序/实用工具15025,这样的程序模块15024包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
计算设备1500也可以与一个或多个外部设备1504(例如键盘、指向设备等)通信。
这种通信可以通过输入/输出(I/O)接口1505进行。并且,计算设备1500还可以通过网络适配器1506与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图6所示,网络适配器1506通过总线1503与计算设备1500的其它模块通信。应当理解,尽管图中未示出,可以结合计算设备1500使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
应当注意,尽管在上文详细描述中提及了关键词的确定装置的若干单元/模块或子单元/模块,但是这种划分仅仅是示例性的并非强制性的。实际上,根据本发明的实施方式,上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之,上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。
此外,尽管在附图中以特定顺序描述了本发明方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
虽然已经参考若干具体实施方式描述了本发明的精神和原理,但是应该理解,本发明并不限于所公开的具体实施方式,对各方面的划分也不意味着这些方面中的特征不能组合以进行受益,这种划分仅是为了表述的方便。本发明旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。

Claims (10)

1.一种关键词的确定方法,包括:
识别搜索文本信息中的实体词和与所述实体词对应的实体类型;其中,所述实体词包括所述搜索文本信息中反映搜索意图的词;
从预先建立的实体词库中查找所述实体词在各个实体类型下的意图分,并基于各个意图分计算所述实体词的综合意图分;
基于所述实体词对应的实体类型和综合意图分,从所述实体词中确定用于搜索的关键词。
2.根据权利要求1所述的方法,所述识别搜索文本信息中的实体词和与所述实体词对应的实体类型,包括:
将接收到的搜索文本信息输入到命名实体识别模型中进行计算;
获取所述命名实体识别模型计算后输出的实体词和与所述实体词对应的实体类型。
3.根据权利要求2所述的方法,所述命名实体识别模型由embedding模型、双向长短时记忆模型组成;
所述将接收到的搜索文本信息输入到命名实体识别模型中进行计算,包括:
针对接收到的搜索文本信息中的每个单字,做以下处理:
将当前单字输入到embedding模型中的不同维度的embedding层,以获取不同维度下计算出的embedding特征;
将所述不同维度下计算出的embedding特征拼接后,作为双向长短时记忆模型的隐藏层输入,以及将所述搜索文本信息作为双向长短时记忆模型的输入层输入,得到所述双向长短时记忆模型输出层输出的实体词和与所述实体词对应的实体类型。
4.根据权利要求3所述的方法,所述不同维度包括单字、实体类型、实体长度占比和意图分;
所述将当前单字输入到embedding模型中的不同维度的embedding层,以获取不同维度下计算出的embedding特征,包括:
将当前单字输入到embedding模型中单字embedding层,计算所述当前单字的单字embedding特征;
将当前单字输入到embedding模型中实体类型embedding层,计算所述当前单字的实体类型embedding特征;
将当前单字输入到embedding模型中实体长度占比embedding层,计算所述当前单字的实体长度占比embedding特征;
将当前单字输入到embedding模型中意图分embedding层,计算所述当前单字的意图分embedding特征。
5.根据权利要求3所述的方法,所述命名实体识别模型中还包括对所述双向长短时记忆模型做约束的条件随机场模型;
所述条件随机场模型用于对双向长短时记忆模型的输入序列中每个字进行标签标注;
所述标签标注包括:以B表示实体开始、以I表示实体中间部分、以E表示实体结束部分、以O表示非限定的实体类型。
6.根据权利要求1所述的方法,所述实体词库通过以下方式建立:
获取更新的实体资源;其中,每条实体资源包括资源标识、资源名称、资源类型、意图分;
对所述资源名称进行标准化格式转换,得到归一化的实体词;
为归一化的实体词关联对应实体资源的资源标识、资源类型和意图分;
在归一化的实体词关联有多个意图分时,将所述多个意图分之和作为所述实体词的意图分。
7.根据权利要求1所述的方法,所述基于各个意图分计算所述实体词的综合意图分,包括:
计算所述实体词在所述各个实体类型下的意图分之和,得到实体意图分;
基于每个实体类型下的意图分和所述实体意图分,得到各个实体类型的归一化意图分;
将分值最大的归一化意图分确定为所述实体词的综合意图分。
8.一种关键词的确定装置,包括:
识别单元,识别搜索文本信息中的实体词和与所述实体词对应的实体类型;其中,所述实体词包括所述搜索文本信息中反映搜索意图的词;
计算单元,从预先建立的实体词库中查找所述实体词在各个实体类型下的意图分,并基于各个意图分计算所述实体词的综合意图分;
确定单元,基于所述实体词对应的实体类型和综合意图分,从所述实体词中确定用于搜索的关键词。
9.一种计算机可读存储介质,包括:
当所述计算机可读存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如权利要求1-7中任一项所述的关键词的确定方法。
10.一种计算设备,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述可执行指令,以实现如权利要求1-7中任一项所述的关键词的确定方法。
CN202110801839.5A 2021-07-15 2021-07-15 关键词的确定方法、装置、存储介质和计算设备 Pending CN113553851A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110801839.5A CN113553851A (zh) 2021-07-15 2021-07-15 关键词的确定方法、装置、存储介质和计算设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110801839.5A CN113553851A (zh) 2021-07-15 2021-07-15 关键词的确定方法、装置、存储介质和计算设备

Publications (1)

Publication Number Publication Date
CN113553851A true CN113553851A (zh) 2021-10-26

Family

ID=78103266

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110801839.5A Pending CN113553851A (zh) 2021-07-15 2021-07-15 关键词的确定方法、装置、存储介质和计算设备

Country Status (1)

Country Link
CN (1) CN113553851A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114398469A (zh) * 2021-12-10 2022-04-26 北京百度网讯科技有限公司 搜索词权重的确定方法、装置及电子设备

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170161322A1 (en) * 2015-12-07 2017-06-08 Le Holdings (Beijing) Co., Ltd. Method and electronic device for searching resource
CN107133259A (zh) * 2017-03-22 2017-09-05 北京晓数聚传媒科技有限公司 一种搜索方法和装置
CN109145303A (zh) * 2018-09-06 2019-01-04 腾讯科技(深圳)有限公司 命名实体识别方法、装置、介质以及设备
CN109947902A (zh) * 2019-03-06 2019-06-28 腾讯科技(深圳)有限公司 一种数据查询方法、装置和可读介质
CN111310008A (zh) * 2020-03-20 2020-06-19 北京三快在线科技有限公司 搜索意图识别方法、装置、电子设备和存储介质
CN112632292A (zh) * 2020-12-23 2021-04-09 深圳壹账通智能科技有限公司 业务关键词的提取方法、装置、设备及存储介质
CN112749344A (zh) * 2021-02-04 2021-05-04 北京百度网讯科技有限公司 信息推荐方法、装置、电子设备、存储介质及程序产品
CN112883266A (zh) * 2021-02-18 2021-06-01 深圳市欢太科技有限公司 搜索方法、搜索装置、存储介质与电子设备

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170161322A1 (en) * 2015-12-07 2017-06-08 Le Holdings (Beijing) Co., Ltd. Method and electronic device for searching resource
CN107133259A (zh) * 2017-03-22 2017-09-05 北京晓数聚传媒科技有限公司 一种搜索方法和装置
CN109145303A (zh) * 2018-09-06 2019-01-04 腾讯科技(深圳)有限公司 命名实体识别方法、装置、介质以及设备
CN109947902A (zh) * 2019-03-06 2019-06-28 腾讯科技(深圳)有限公司 一种数据查询方法、装置和可读介质
CN111310008A (zh) * 2020-03-20 2020-06-19 北京三快在线科技有限公司 搜索意图识别方法、装置、电子设备和存储介质
CN112632292A (zh) * 2020-12-23 2021-04-09 深圳壹账通智能科技有限公司 业务关键词的提取方法、装置、设备及存储介质
CN112749344A (zh) * 2021-02-04 2021-05-04 北京百度网讯科技有限公司 信息推荐方法、装置、电子设备、存储介质及程序产品
CN112883266A (zh) * 2021-02-18 2021-06-01 深圳市欢太科技有限公司 搜索方法、搜索装置、存储介质与电子设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
叶铱雷;曹斌;范菁;王俊;陈江斌;: "面向任务型多轮对话的粗粒度意图识别方法", 小型微型计算机系统, no. 08, 15 August 2020 (2020-08-15), pages 1620 - 1626 *
崔建青: "查询意图识别的关键技术研究", 信息科技辑, no. 2017, 15 March 2017 (2017-03-15), pages 138 - 6011 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114398469A (zh) * 2021-12-10 2022-04-26 北京百度网讯科技有限公司 搜索词权重的确定方法、装置及电子设备

Similar Documents

Publication Publication Date Title
US11720572B2 (en) Method and system for content recommendation
CN108829893B (zh) 确定视频标签的方法、装置、存储介质和终端设备
CN107992585B (zh) 通用标签挖掘方法、装置、服务器及介质
CN109408622B (zh) 语句处理方法及其装置、设备和存储介质
US20130060769A1 (en) System and method for identifying social media interactions
US8126897B2 (en) Unified inverted index for video passage retrieval
CN113495900B (zh) 基于自然语言的结构化查询语言语句获取方法及装置
KR101339103B1 (ko) 의미적 자질을 이용한 문서 분류 시스템 및 그 방법
EP3933657A1 (en) Conference minutes generation method and apparatus, electronic device, and computer-readable storage medium
US10409907B2 (en) Tabular data compilation
CN109657053B (zh) 多文本摘要生成方法、装置、服务器及存储介质
WO2010014082A1 (en) Method and apparatus for relating datasets by using semantic vectors and keyword analyses
US9940355B2 (en) Providing answers to questions having both rankable and probabilistic components
WO2022042125A1 (zh) 一种命名实体识别方法
CN110569289B (zh) 基于大数据的列数据处理方法、设备及介质
CN111353021B (zh) 意图识别方法和设备、电子设备和介质
US20120130999A1 (en) Method and Apparatus for Searching Electronic Documents
CN115248839A (zh) 一种基于知识体系的长文本检索方法以及装置
CN113553851A (zh) 关键词的确定方法、装置、存储介质和计算设备
CN114742062B (zh) 文本关键词提取处理方法及系统
CN109165283B (zh) 资源推荐方法、装置、设备及存储介质
CN114201622B (zh) 获取事件信息的方法、装置、电子设备和存储介质
CN113139558A (zh) 确定物品的多级分类标签的方法和装置
CN112989011B (zh) 数据查询方法、数据查询装置和电子设备
CN112926297B (zh) 处理信息的方法、装置、设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination