CN108829865B - 信息检索方法及装置 - Google Patents

信息检索方法及装置 Download PDF

Info

Publication number
CN108829865B
CN108829865B CN201810653725.9A CN201810653725A CN108829865B CN 108829865 B CN108829865 B CN 108829865B CN 201810653725 A CN201810653725 A CN 201810653725A CN 108829865 B CN108829865 B CN 108829865B
Authority
CN
China
Prior art keywords
user
search
candidate
retrieval
subgraph
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810653725.9A
Other languages
English (en)
Other versions
CN108829865A (zh
Inventor
胡伟凤
高雪松
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hisense Co Ltd
Original Assignee
Hisense Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hisense Co Ltd filed Critical Hisense Co Ltd
Priority to CN201810653725.9A priority Critical patent/CN108829865B/zh
Publication of CN108829865A publication Critical patent/CN108829865A/zh
Application granted granted Critical
Publication of CN108829865B publication Critical patent/CN108829865B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及了一种信息检索方法及装置,所述信息检索方法,包括:获取检索关键词,并根据所述检索关键词提取得到用户的用户特征向量,所述检索关键词指示了所述用户请求检索的信息;按照所述用户的用户特征向量对所述用户进行用户分类,确定所述用户所属的候选用户群;获取为所述候选用户群建立的搜索子图集合,并按照所述检索关键词对所述搜索子图集合中的搜索子图进行全图查询,得到包含所述检索关键词的目标搜索子图;通过包含所述检索关键词的目标搜索子图从信息库中得到所述用户请求检索的信息。采用本发明所提供的信息检索方法及装置能够有效提高信息检索效率。

Description

信息检索方法及装置
技术领域
本发明涉及信息检索领域,尤其涉及一种信息检索方法及装置。
背景技术
随着计算机技术的发展,知识图谱作为语义知识查询的基础被越来越广泛地应用到了信息检索领域,即信息库中存储数以百万计的信息,并为此构建相关联的知识图谱,以供用户根据输入的检索信息对知识图谱进行全图查询,进而从知识图谱相关联的信息库中得到相关信息。例如,电视用户可以通过输入自己喜爱的演员名字而在信息库中检索到与演员相关的电视节目。
然而,面临海量用户频繁地请求对知识图谱进行全图查询,将造成知识图谱的查询速度出现瓶颈,进而影响信息检索效率。
发明内容
为了解决上述技术问题,本发明的一个目的在于提供一种信息检索方法及装置。
其中,本发明所采用的技术方案为:
一方面,一种信息检索方法,包括:获取检索关键词,并根据所述检索关键词提取得到所述用户的用户特征向量,所述检索关键词指示了用户请求检索的信息;按照所述用户的用户特征向量对所述用户进行用户分类,确定所述用户所属的候选用户群;获取为所述候选用户群建立的搜索子图集合,并按照所述检索关键词对所述搜索子图集合中的搜索子图进行全图查询,得到包含所述检索关键词的目标搜索子图;通过包含所述检索关键词的目标搜索子图从信息库中得到所述用户请求检索的信息。
在一示例性实施例中,所述按照所述用户的用户特征向量对所述用户进行用户分类,确定所述用户所属的候选用户群,包括:将所述用户的用户特征向量分别输入至用户分类模型的若干单高斯模型,计算得到所述用户针对不同单高斯模型的若干先验概率值,所述单高斯模型与用户群一一对应;根据若干所述先验概率值判断所述用户的用户特征向量是否符合所述用户分类模型;如果所述用户的用户特征向量符合所述用户分类模型,则计算所述用户针对不同单高斯模型的若干后验概率值;将计算得到后验概率值最大的单高斯模型所对应的用户群作为所述用户所属的候选用户群。
在一示例性实施例中,所述按照所述用户的用户特征向量对所述用户进行用户分类,确定所述用户所属的候选用户群,还包括:设置若干用户群,并根据若干所述用户群创建包含若干单高斯模型的混合高斯模型,所述单高斯模型与所述用户群一一对应;获取样本信息,并根据所述样本信息进行用户特征向量提取;根据提取得到的用户特征向量对引入加速因子的所述混合高斯模型进行模型训练;当所述混合高斯模型的参数在所述加速因子作用下使得最大似然函数的期望达到最大时,将所述混合高斯模型作为所述用户分类模型,所述最大似然函数是根据提取得到的用户特征向量计算的。
在一示例性实施例中,所述获取为所述候选用户群建立的搜索子图集合,包括:对所述候选用户群对应的知识图谱中节点进行遍历,以遍历到的节点作为初始节点;将所述初始节点添加至已选节点集合,并将所述知识图谱中所述初始节点的相邻节点添加至候选节点集合;根据所述已选节点集合和所述候选节点集合对所述知识图谱进行搜索子图划分;待所述知识图谱中的节点完成遍历,得到为所述候选用户群建立的所述搜索子图集合,所述搜索子图集合包含至少一搜索子图。
在一示例性实施例中,所述根据所述已选节点集合和所述候选节点集合对所述知识图谱进行搜索子图划分,包括:如果所述候选节点集合非空,则对非空的所述候选节点集合中候选节点进行遍历,计算遍历到的候选节点与所述已选节点集合中已选节点之间的平均距离;如果所述平均距离小于距离阈值,则将遍历到的候选节点添加至所述已选节点集合,并将所述知识图谱中遍历到候选节点的相邻节点添加至所述候选节点集合;直至所述候选节点集合为空,从所述知识图谱中划分得到所包含节点属于所述已选节点集合的搜索子图。
在一示例性实施例中,所述获取为所述候选用户群建立的搜索子图集合,还包括:由所述候选用户群中用户所输入的检索关键词生成所述候选用户群的关键词集合;将所述关键词集合中的关键词添加至节点,并按照关键词的语义关系在两节点之间构建路径,得到所述候选用户群对应的知识图谱。
在一示例性实施例中,所述按照所述检索关键词对所述搜索子图集合中的搜索子图进行全图查询,得到包含所述检索关键词的目标搜索子图,包括:进行所述检索关键词与若干所述搜索子图所包含节点中关键词之间的匹配,根据匹配结果确定包含所述检索关键词的极大搜索子图;如果所述极大搜索子图为单个,则以所述极大搜索子图作为所述目标搜索子图;如果所述极大搜索子图为多个,则根据多个所述极大搜索子图所确定的待合并组进行所述目标搜索子图的合并。
在一示例性实施例中,所述根据多个所述极大搜索子图所确定的待合并组进行所述目标搜索子图的合并,包括:如果多个所述极大搜索子图所确定的待合并组存在多个,则针对每个所述待合并组中的所述极大搜索子图进行遍历;确定遍历到的所述极大搜索子图与所述待合并组中其余所述极大搜索子图之间的连通路径;计算遍历到的所述极大搜索子图中节点经由所确定连通路径,到达其余所述极大搜索子图中节点的平均距离;将平均距离最小的所述待合并组中所述极大搜索子图合并为所述目标搜索子图。
另一方面,一种信息检索装置,包括:检索信息获取模块,用于获取检索关键词,并根据所述检索关键词提取得到所述用户的用户特征向量,所述检索关键词指示了用户请求检索的信息;用户分类模块,用于按照所述用户的用户特征向量对所述用户进行用户分类,确定所述用户所属的候选用户群;子图查询模块,用于获取为所述候选用户群建立的搜索子图集合,并按照所述检索关键词对所述搜索子图集合中的搜索子图进行全图查询,得到包含所述检索关键词的目标搜索子图;信息检索模块,用于通过包含所述检索关键词的目标搜索子图从信息库中得到所述用户请求检索的信息。
在一示例性实施例中,所述用户分类模块包括:第一概率值计算单元,用于将所述用户的用户特征向量分别输入至用户分类模型的若干单高斯模型,计算得到所述用户针对不同单高斯模型的若干先验概率值,所述单高斯模型与用户群一一对应;判断单元,用于根据若干所述先验概率值判断所述用户的用户特征向量是否符合所述用户分类模型;第二概率值计算单元,用于如果所述用户的用户特征向量符合所述用户分类模型,则计算所述用户针对不同单高斯模型的若干后验概率值;用户群定义单元,用于将计算得到后验概率值最大的单高斯模型所对应的用户群作为所述用户所属的候选用户群。
在一示例性实施例中,所述用户分类模块还包括:模型创建单元,用于设置若干用户群,并根据若干所述用户群创建包含若干单高斯模型的混合高斯模型,所述单高斯模型与所述用户群一一对应;特征提取单元,用于获取样本信息,并根据所述样本信息进行用户特征向量提取;模型训练单元,用于根据提取得到的用户特征向量对引入加速因子的所述混合高斯模型进行模型训练;模型定义单元,用于当所述混合高斯模型的参数在所述加速因子作用下使得最大似然函数的期望达到最大时,将所述混合高斯模型作为所述用户分类模型,所述最大似然函数是根据提取得到的用户特征向量计算的。
在一示例性实施例中,所述子图查询模块包括:节点遍历单元,用于对所述候选用户群对应的知识图谱中节点进行遍历,以遍历到的节点作为初始节点;节点添加单元,用于将所述初始节点添加至已选节点集合,并将所述知识图谱中所述初始节点的相邻节点添加至候选节点集合;图谱划分单元,用于根据所述已选节点集合和所述候选节点集合对所述知识图谱进行搜索子图划分;集合定义单元,用于待所述知识图谱中的节点完成遍历,得到为所述候选用户群建立的所述搜索子图集合,所述搜索子图集合包含至少一搜索子图。
在一示例性实施例中,所述图谱划分单元包括:距离计算子单元,用于如果所述候选节点集合非空,则对非空的所述候选节点集合中候选节点进行遍历,计算遍历到的候选节点与所述已选节点集合中已选节点之间的平均距离;节点添加子单元,用于如果所述平均距离小于距离阈值,则将遍历到的候选节点添加至所述已选节点集合,并将所述知识图谱中遍历到候选节点的相邻节点添加至所述候选节点集合;子图定义子单元,用于直至所述候选节点集合为空,从所述知识图谱中划分得到所包含节点属于所述已选节点集合的搜索子图。
在一示例性实施例中,所述子图查询模块还包括:集合生成单元,用于由所述候选用户群中用户所输入的检索关键词生成所述候选用户群的关键词集合;图谱生成单元,用于将所述关键词集合中的关键词添加至节点,并按照关键词的语义关系在两节点之间构建路径,得到所述候选用户群对应的知识图谱。
在一示例性实施例中,所述子图查询模块还包括:关键词匹配单元,用于进行所述检索关键词与若干所述搜索子图所包含节点中关键词之间的匹配,根据匹配结果确定包含所述检索关键词的极大搜索子图;目标子图定义单元,用于如果所述极大搜索子图为单个,则以所述极大搜索子图作为所述目标搜索子图;目标子图合并单元,用于如果所述极大搜索子图为多个,则根据多个所述极大搜索子图所确定的待合并组进行所述目标搜索子图的合并。
在一示例性实施例中,所述目标子图合并单元包括:子图遍历子单元,用于如果多个所述极大搜索子图所确定的待合并组存在多个,则针对每个所述待合并组中的所述极大搜索子图进行遍历;连通路径确定子单元,用于确定遍历到的所述极大搜索子图与所述待合并组中其余所述极大搜索子图之间的连通路径;距离计算子单元,用于计算遍历到的所述极大搜索子图中节点经由所确定连通路径,到达其余所述极大搜索子图中节点的平均距离;子图合并子单元,用于将平均距离最小的所述待合并组中所述极大搜索子图合并为所述目标搜索子图。
另一方面,一种信息检索装置,包括处理器及存储器,所述存储器上存储有计算机可读指令,所述计算机可读指令被所述处理器执行时实现如上所述的信息检索方法。
另一方面,一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的信息检索方法。
在上述技术方案中,通过检索关键词为用户进行用户特征向量的提取,并按照用户的用户特征向量对用户进行用户分类,确定此用户所属的候选用户群,以获取到为候选用户群建立的搜索子图集合,并按照检索关键词对搜索子图集合中的搜索子图进行全图查询,得到包含检索关键词的目标搜索子图,进而通过包含检索关键词的目标搜索子图从信息库中得到用户请求检索的信息。
也就是说,针对为不同用户特征的用户所设置的用户群,知识图谱被预先划分为搜索子图集合中的若干搜索子图,使得根据检索关键词进行的全图查询范围由知识图谱缩小至搜索子图,以此加快了知识图谱的查询速度,从而解决现有技术中存在的信息检索效率不高的问题。
此外,通过引入加速因子作用于混合高斯模型的模型训练,使得混合高斯模型的收敛速度得以加快,进一步有效地加快了知识图谱的查询速度,以此保障了信息检索的高效率。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并于说明书一起用于解释本发明的原理。
图1是根据本发明所涉及的实施环境的示意图。
图2是根据一示例性实施例示出的一种服务器的硬件结构框图。
图3是根据一示例性实施例示出的一种信息检索方法的流程图。
图4是图3对应实施例中步骤310在一个实施例的流程图。
图5是图3对应实施例中步骤330在一个实施例的流程图。
图6是根据一示例性实施例示出的另一种信息检索方法的流程图。
图7是根据一示例性实施例示出的另一种信息检索方法的流程图。
图8是图7对应实施例中步骤550在一个实施例的流程图。
图9是根据一示例性实施例示出的另一种信息检索方法的流程图。
图10是图3对应实施例中步骤350在一个实施例的流程图。
图11是图10对应实施例中步骤357在一个实施例的流程图。
图12是根据本发明所涉及的知识图谱的局部示意图。
图13是根据一示例性实施例示出的一种信息检索装置的框图。
通过上述附图,已示出本发明明确的实施例,后文中将有更详细的描述,这些附图和文字描述并不是为了通过任何方式限制本发明构思的范围,而是通过参考特定实施例为本领域技术人员说明本发明的概念。
具体实施方式
这里将详细地对示例性实施例执行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
如前所述,面临海量用户频繁地请求对知识图谱进行全图查询,将造成知识图谱的查询速度出现瓶颈,进而影响信息检索效率。
为了加快知识图谱的查询速度,提出一种方案是将知识图谱做层级编码转换,为知识图谱构建层次结构的索引树,并提供编码串查询索引树,由于查询范围依然是整个知识图谱,使得查询速度提高有限。
另一种方案则是将知识图谱转存,海量用户分散地向转存后的知识图谱请求全图查询,虽然降低了知识图谱的查询速度出现瓶颈的风险,但是浪费了过多的数据存储媒介,不利于降低信息检索成本。
为此,本发明特提出了一种信息检索方法,有效地提高了信息检索效率,并充分地权衡了知识图谱的查询速度与存储空间之间的关系,相应地,信息检索装置被部署于具有冯诺依曼架构体系的电子设备中,例如,电子设备为服务器,以实现信息检索方法。
图1为一种信息检索方法所涉及的实施环境的示意图。该实施环境包括用户设备110和服务端130。
其中,用户设备110可以是电视机、台式电脑、笔记本电脑、平板电脑、智能手机或者其他可供用户输入检索信息的电子设备,在此不进行限定。
服务端130与用户设备110之间通过无线或者有线预先建立网络连接,以实现用户设备110与服务端130之间的交互。
通过用户设备110与服务端130之间的交互,用户设备100通过用户输入的检索信息向服务端200发起信息检索请求,使得服务端200响应此信息检索请求,而根据检索信息向用户设备100返回用户请求检索的信息。
应当说明的是,根据实际营运的需要,服务端130可以是一台服务器,也可以是由多台服务器构成的服务器集群,甚至于云计算中心,在此也不加以限定。
图2是根据一示例性实施例示出的一种服务器的硬件结构框图。此服务器可用作信息检索方法中的服务端。
需要说明的是,该服务器只是一个适配于本发明的示例,不能认为是提供了对本发明的使用范围的任何限制。该服务器也不能解释为需要依赖于或者必须具有图2中示出的示例性的服务器200中的一个或者多个组件。
该服务器200的硬件结构可因配置或者性能的不同而产生较大的差异,如图2所示,服务器200包括:电源210、接口230、至少一存储器250、以及至少一中央处理器(CPU,Central Processing Units)270。
其中,电源210用于为服务器200上的各硬件设备提供工作电压。
接口230包括至少一有线或无线网络接口231、至少一串并转换接口233、至少一输入输出接口235以及至少一USB接口237等,用于与外部设备通信。
存储器250作为资源存储的载体,可以是只读存储器、随机存储器、磁盘或者光盘等,其上所存储的资源包括操作系统251、应用程序253及数据255等,存储方式可以是短暂存储或者永久存储。其中,操作系统251用于管理与控制服务器200上的各硬件设备以及应用程序253,以实现中央处理器270对海量数据255的计算与处理,其可以是WindowsServerTM、Mac OS XTM、UnixTM、LinuxTM、FreeBSDTM等。应用程序253是基于操作系统251之上完成至少一项特定工作的计算机程序,其可以包括至少一模块(图2中未示出),每个模块都可以分别包含有对服务器200的一系列计算机可读指令。数据255可以是存储于磁盘中的照片、图片等。
中央处理器270可以包括一个或多个以上的处理器,并设置为通过总线与存储器250通信,用于运算与处理存储器250中的海量数据255。
如上面所详细描述的,适用本发明的服务器200将通过中央处理器270读取存储器250中存储的一系列计算机可读指令的形式来完成信息检索方法。
此外,通过硬件电路或者硬件电路结合软件也能同样实现本发明,因此,实现本发明并不限于任何特定硬件电路、软件以及两者的组合。
请参阅图3,在一示例性实施例中,一种信息检索方法适用于图1所示实施环境的服务端,该服务端的结构可以如图2所示。
该种信息检索方法可以由服务端执行,可以包括以下步骤:
步骤310,获取检索关键词,并根据检索关键词提取得到用户的用户特征向量。
首先说明的是,检索关键词,用于指示用户所请求检索的信息。此检索关键词可以是汉字、拼音音节、英文字母、数字、特殊字符或者上述类型的任意组合。例如,检索关键词可以包括若干完整的检索关键词,也可以仅针对检索关键词的前缀。
对于用户设备而言,用户设备将为用户提供一个信息检索入口,如果用户希望检索信息,便可以在此信息检索入口触发相关操作。
例如,用户设备为台式电脑时,信息检索入口是台式电脑所配置显示屏幕中呈现的一输入对话框,用户将通过台式电脑所配置键盘在此输入对话框中输入检索关键词,此时,输入操作即为此信息检索入口触发的相关操作。
又或者,用户设备为电视机时,信息检索入口是电视机所配置遥控器上的语音输入按键,用户将通过按压此语音输入按键输入包含检索关键词的一段语音,此时,按压操作即为此信息检索入口触发的相关操作。值得一提的是,在电视机接收到此包含检索关键词的一段语音之后,首先需要对此段语音进行语音识别,以便于后续针对此段语音所包含的检索关键词进行相关处理,关于语音识别技术在此不详细描述。
当用户在信息检索入口触发相关操作时,用户设备即可获得用户输入的检索关键词,并以此向服务端发起信息检索请求。
对于服务端而言,在用户设备发起信息检索请求之后,便可接收到此信息检索请求,进而得到此信息检索请求中携带的检索关键词。此时,服务端可以实时地根据检索关键词进行信息检索,也可以将此检索关键词存储至指定缓存区,以便于空闲时进行信息检索,例如,空闲可以是指服务端CPU占用率较低,或者,服务端内存充足等。
换而言之,关于检索关键词的获取,在一实施例中,检索关键词从信息检索请求中提取,以便于服务端及时响应信息检索请求,在另一实施例中,检索关键词从服务端的指定缓存区中读取,以便于服务端批量处理信息检索请求。
值得一提的是,服务端为存储检索信息所开辟的指定缓存区与用户设备一一对应,例如,按照用户设备的设备识别码(例如台式电脑的MAC地址)在服务端中开辟指定缓存区,则此指定缓存区仅用于存储由此用户设备上报的检索关键词。
以用户为家庭成员进行说明,应当理解,一个家庭的用户设备可以由多个家庭成员共享,而对于不同家庭而言,考虑家庭成员的组成结构、以及家庭成员的性别、年龄、喜好、工作性质等等,各家庭的家庭成员之间势必存在着共同的特征。那么,来自于不同家庭但存在共同特征的家庭成员很可能借由用户设备来请求检索相同的信息。
由此,本实施例中,首先获取输入检索关键词的用户的特征,以便于后续针对用户的特征缩小对知识图谱进行的全图查询范围,以此来提高信息检索效率。
具体地,根据检索关键词进行用户的用户特征向量提取,此用户特征向量用于唯一地标识用户的特征。即,用户特征向量通过数字形式准确地描述用户的特征,如果用户不同,用户的特征也有所区别,则不同用户的用户特征向量将各不相同。
步骤330,按照用户的用户特征向量对用户进行用户分类,确定用户所属的候选用户群。
在获得用户的用户特征向量之后,便可针对此用户的用户特征向量对此用户进行用户分类,将此用户归属于候选用户群中,此时,全图查询仅会基于此候选用户群对应的知识图谱进行,而并非是针对整个知识图谱,由此,缩小了对知识图谱进行全图查询的范围,进而有利于提高信息检索效率。其中,用户所属的候选用户群,是由与待分类用户存在共同特征的用户所构成的用户群。
步骤350,获取为候选用户群建立的搜索子图集合,并按照检索关键词对搜索子图集合中的搜索子图进行全图查询,得到包含检索关键词的目标搜索子图。
本实施例中,搜索子图集合是根据候选用户群对应的知识图谱建立的,此搜索子图集合包含至少一搜索子图。换句话说,此搜索子图集合中的搜索子图是对候选用户群对应的知识图谱进行划分形成的。
在此,首先对候选用户群对应的知识图谱的构建过程加以说明。
如图9所示,构建过程可以包括以下步骤:
步骤610,获取候选用户群中用户所输入的检索关键词。
步骤630,由检索关键词生成候选用户群的关键词集合。
步骤650,将关键词集合中的关键词添加至节点,并按照关键词的语义关系在两节点之间构建路径,得到候选用户群对应的知识图谱。
也就是说,候选用户群对应的知识图谱,是根据候选用户群的关键词集合中的关键词构建的。其中,检索关键词是由候选用户群中用户的输入提取得到的。例如,用户输入为“明天青岛天气怎么样”,相应地,检索关键词包括“明天”、“青岛”和“天气”。
具体地,知识图谱包括若干分支,每一分支由若干节点以及若干连接在相邻节点之间的路径构成。进一步地,每个节点中存储一关键词,每条路径所具有的距离值是按照相邻节点中关键词的语义关系配置的。
举例来说,如图12所示,节点n1与节点n44、节点n3互为相邻节点,节点n1中关键词为“地区”,节点n44中关键词为“天气”,节点n3中关键词为“青岛”,按照关键词的语义关系,“地区”和“天气”语义关联性不强,则将节点n1与节点n44之间路径的距离值配置为1,“地区”和“青岛”语义关联性强,则将节点n1与节点n3之间路径的距离值配置为0.3。
简言之,知识图谱中,每个节点表示一个关键词,相邻节点之间的路径则表示关键词之间的语义关系和/或语境关系。
进一步地,信息库中数以百万计的信息将以知识图谱中的关键词作为索引,由此构建信息库与知识图谱之间的关联关系,也就是说,用户能够通过知识图谱中的关键词从信息库中检索到以此关键词作为索引的信息。
基于上述,在确定用户所属的候选用户群以及检索关键词之后,便可针对候选用户群的搜索子图集合,按照检索关键词对此搜索子图集合中的搜索子图进行全图查询,以获得目标搜索子图。
全图查询,实质是查找搜索子图中是否包含与检索关键词相匹配的分支,如果包含,则包含与检索关键词相匹配分支的搜索子图即视为目标搜索子图。具体地,将检索关键词与搜索子图各分支中节点所表示的关键词进行匹配。
例如,如图12所示,假设检索关键词包括“明天”、“青岛”和“天气”,则包含检索关键词的目标搜索子图至少包括节点n30、节点n3和节点n44。
步骤370,通过包含检索关键词的目标搜索子图从信息库中得到用户请求检索的信息。
如前所述,信息库与知识图谱之间的关联关系,是基于知识图谱中的关键词作为信息的索引而构建的。
由此,在获得包含检索关键词的目标搜索子图之后,即可将目标搜索子图所包含的检索关键词作为索引,而从信息库中检索得到用户请求检索的信息。
通过如上所述的过程,根据检索关键词进行的全图查询范围由知识图谱缩小至搜索子图,以此加快了知识图谱的查询速度,进而有效地提高了信息检索效率。
请参阅图4,在一示例性实施例中,步骤310可以包括以下步骤:
步骤311,对检索关键词进行文本识别,确定用户的用户属性。
用户属性,实质是用于表征用户的特征,此用户属性包括自然属性、社会属性、内容属性、年龄属性等等。例如,自然属性表征用户的性别和/或家庭中的角色,社会属性可以表征用户的工作性质,内容属性则表征用户的喜好,例如,用户喜欢观看的电视节目,年龄属性表征用户的年龄。
如前所述,来自于不同家庭但存在共同特征的家庭成员可能借由用户设备来请求检索相同的信息,换句话说,如果检索关键词相同,请求检索关键词的用户彼此之间可能存在共同的特征。
基于此,本实施例中,确定用户的用户属性将通过对检索关键词进行文本识别实现。
以用户设备为电视机进行说明,不同家庭的小朋友可能在同一时间段需要观看相同频道的少儿节目,此时,检索关键词可能涉及直播时间段、直播频道名称、直播节目名称等等。那么,通过对此检索关键词进行的文本识别,便可确定请求检索关键词的用户为少儿,进而在后续对此用户进行用户分类时,将此用户归属于少儿用户群。
其中,检索关键词的文本识别包括但不限于:分析用户输入检索关键词的时间属于哪个直播时间段、分析检索关键词中检索关键词是哪个直播频道名称、分析检索关键词中检索关键词是哪个直播节目名称等等。
步骤313,对用户的用户属性进行向量转换处理,生成用户的用户特征向量。
本实施例中,向量转换处理的目的在于对用户的用户属性进行特征数字化,例如,向量转换处理采用word2vector编码方式实现。
当然,在其他实施例中,向量转换处理还可以采用例如One-Hot、n-gram等编码方式实现,本实施例并非以此加以限定。
在上述实施例的作用下,实现了用户特征的向量表示,为后续对用户进行的用户分类提供了准确地数字依据。
请参阅图5,在一示例性实施例中,步骤330可以包括以下步骤:
步骤331,将用户的用户特征向量分别输入至用户分类模型的若干单高斯模型,计算得到用户针对不同单高斯模型的若干先验概率值。
本实施例中,用户分类模型用于根据用户的用户特征向量对用户进行用户分类,此用户分类模型包含若干单高斯模型。其中,单高斯模型与用户群一一对应。也就是说,如果用户所属某个用户群,则用户针对此用户群所对应的单高斯模型的先验概率值最大。
步骤333,根据若干先验概率值判断用户的用户特征向量是否符合用户分类模型。
应当理解,对于用户分类模型而言,不可避免地存在奇异点,即存在先验概率值异常的用户特征向量。
由此,为了保证用户分类的准确性,将根据用户针对不同单高斯模型计算得到的若干先验概率值,判断用户的用户特征向量是否为奇异点,即此用户的用户特征向量是否符合用户分类模型。
如果符合,则跳转执行步骤335,反之,如果不符合,则返回步骤310,重新提取用户的用户特征向量。
本实施例中,奇异点判定是通过拟合度实现的,即用户的用户特征向量与用户分类模型的拟合度是否超过数据拟合度阈值,例如,数据拟合度阈值为0.08。如果超过,则视为用户的用户特征向量符合用户分类模型。
当然,数据拟合度阈值可以根据应用场景的实际需求而灵活地调整,在此并不进行限定。例如,对用户分类的准确性要求较高的应用场景,配置较大的数据拟合度阈值。
值得一提的是,如果用户的用户特征向量与用户分类模型的拟合度未超过数据拟合度阈值,则视为用户的用户特征向量不符合用户分类模型,也可以理解为,对用户进行用户分类失败,此时,将针对整个知识图谱为用户执行信息检索,在此不详细描述。
步骤335,如果用户的用户特征向量符合用户分类模型,则计算用户针对不同单高斯模型的若干后验概率值。
步骤337,将计算得到后验概率值最大的单高斯模型所对应的用户群作为用户所属的候选用户群。
举例来说,假设用户分类模型
Figure BDA0001704858560000111
此用户分类模型包括4个单高斯模型,即,通过用户分类模型,用户可被归类至4个单高斯模型所对应用户群中的任意一个。其中,用户分类模型的参数是通过模型训练得到的,分别为:a表示单高斯模型的先验系数,μ表示单高斯模型均值,∑表示针对若干个用户特征向量的最大似然函数利用EM算法(最大期望算法)推导得到的参数。
假设4个单高斯模型的先验系数a分别为0.1,0.2,0.3,0.4,由此计算得到用户u针对4个单高斯模型的先验概率值分别为P1(u)=0.8,P2(u)=0.1,P3(u)=0.01,P4(u)=0.01。
进一步假设数据拟合度阈值likelihood’=0.08,则用户u的用户特征向量与用户分类模型的拟合度likelihood=0.1×0.8+0.2×0.1+0.3×0.01+0.4×0.01=0.107,由0.107>0.08,即表明用户u的用户特征向量符合用户分类模型。
基于此,进一步计算用户u针对4个单高斯模型的后验概率值
Figure BDA0001704858560000116
Figure BDA0001704858560000117
分别为:
Figure BDA0001704858560000112
Figure BDA0001704858560000113
Figure BDA0001704858560000114
Figure BDA0001704858560000115
由上可知,
Figure BDA0001704858560000118
最大,即判定用户u属于第一个单高斯模型对应的用户群,由此,准确地完成了用户u的用户分类。
请参阅图6,在一示例性实施例中,步骤330之前,如上所述的方法还可以包括以下步骤:
步骤410,设置若干用户群,并根据若干用户群创建包含若干单高斯模型的混合高斯模型,单高斯模型与用户群一一对应。
步骤430,获取样本信息,并根据样本信息进行用户特征向量提取。
如前所述,用户输入的检索关键词,用于指示用户请求检索的信息。
一方面,服务端可以根据此检索关键词向用户设备返回用户请求检索的信息;另一方面,服务端还可以收集此检索关键词作为样本信息,进而通过样本信息对混合高斯模型加以训练,随着样本信息数量的增长,混合高斯模型在训练过程中逐渐收敛,并最终形成用户分类模型。
也就是说,海量的样本信息是生成用户分类模型的基础。
具体地,对样本信息进行文本识别,确定输入此样本信息用户的用户属性,并对此用户的用户属性进行向量转换处理,生成此用户的用户特征向量。
需要说明的是,样本信息本质上仍为检索关键词,因此,根据样本信息提取用户特征向量的过程与根据检索关键词提取用户特征向量的过程实质相同,在此不再详细描述。
步骤450,根据提取得到的用户特征向量对引入加速因子的混合高斯模型进行模型训练。
对于n个样本信息而言,假设提取得到的n个用户特征向量为X={x1,x2,…,xn},则混合高斯模型的概率密度函数如公式1-2所示:
Figure BDA0001704858560000121
Figure BDA0001704858560000122
其中,M为单高斯模型个数,μj为单高斯模型均值,Cj为单高斯模型的协方差矩阵,aj为单高斯模型在混合高斯模型中所占的比例。
如公式1-2所示,混合高斯模型的模型训练实质是对混合高斯模型的参数μj、Cj、aj进行更新,以基于更新的参数使得混合高斯模型收敛。
假设用户特征向量xi是否属于某单高斯模型j用Zij表示,则针对n个用户特征向量X的最大似然函数如公式3所示:
Figure BDA0001704858560000123
利用EM算法求解公式3的参数可得:
Figure BDA0001704858560000124
Figure BDA0001704858560000125
Figure BDA0001704858560000131
由此,混合高斯模型的模型训练转换为对公式4-6所示的参数进行更新,当公式4-6所示的参数使公式3的期望达到最大时,则混合高斯模型视为收敛。
进一步地,aj为单高斯模型在混合高斯模型中所占的比例,也可以理解为,aj表示属于第j个单高斯模型的用户特征向量的个数占用户特征向量总个数(例如n)的比例,如果aj越大,表示属于第j个单高斯模型的用户特征向量的个数越多,则第j个单高斯模型构成用户分类模型的可能性越高,即第j个单高斯模型被保留的概率越大。
假设,|aj-n/M|代表第j个单高斯模型是否被保留的概率量,则-ln(|aj-n/M|)代表第j个单高斯模型被保留的信息量,进而
Figure BDA0001704858560000132
代表第j个单高斯模型被保留的平均信息量,即信息熵。
基于上述,本实施例中,为了加速混合高斯模型的收敛速度,以信息熵作为加速因子引入混合高斯模型参与模型训练,即公式3转变为公式7,如下所示:
Figure BDA0001704858560000133
其中,σ(0≤σ≤1)为权重,M为单高斯模型个数。
此时,利用EM算法求解公式7的参数,当混合高斯模型开始模型训练时,令σ=1,随着混合高斯模型趋于收敛,逐渐更新σ由1减小至0,当σ为0,停止模型训练,视为混合高斯模型收敛为用户分类模型。
在此补充说明的是,加速因子加速了混合高斯模型收敛速度的原因。
根据拉格朗日乘子法求公式7对于aj的偏导数,如公式8所示:
Figure BDA0001704858560000134
由于
Figure BDA0001704858560000135
故而
Figure BDA0001704858560000136
Figure BDA0001704858560000137
时,
Figure BDA0001704858560000138
呈现减少的趋势,且
Figure BDA0001704858560000139
减少越大说明混合高斯模型收敛的速度越快。当
Figure BDA0001704858560000141
减少到指定阈值时(例如,指定阈值为1/M),即认为第j个单高斯模型不保留,进而放弃当前参数aj,同时更新单高斯模型个数为M-1。
步骤470,当混合高斯模型在加速因子作用下快速收敛时,将收敛的混合高斯模型作为用户分类模型。
通过上述过程,用户分类模型的生成不必依赖于混合高斯模型的真正收敛,而取决于σ是否减小为0,亦或者说取决于
Figure BDA0001704858560000142
减少到指定阈值,使得混合高斯模型收敛速度加快,加速了用户分类模型的生成速度,有利于提高用户分类效率,进而有利于促进信息检索效率的提升。
请参阅图7,在一示例性实施例中,步骤350之前,如上所述的方法还可以包括以下步骤:
步骤510,对候选用户群对应的知识图谱中节点进行遍历,以遍历到的节点作为初始节点。
步骤530,将初始节点添加至已选节点集合,并将知识图谱中初始节点的相邻节点添加至候选节点集合。
步骤550,根据已选节点集合和候选节点集合对知识图谱进行搜索子图划分。
如图8所示,在一实施例的具体实现中,步骤550可以包括以下步骤:
步骤551,如果候选节点集合非空,则对非空的候选节点集合中候选节点进行遍历,计算遍历到的候选节点与已选节点集合中已选节点之间的平均距离。
步骤553,如果平均距离小于距离阈值,则将遍历到的候选节点添加至已选节点集合,并将知识图谱中遍历到候选节点的相邻节点添加至候选节点集合。
步骤555,直至候选节点集合为空,从知识图谱中划分得到所包含节点属于已选节点集合的搜索子图。
步骤570,待知识图谱中的节点完成遍历,得到为候选用户群建立的搜索子图集合,搜索子图集合包含至少一搜索子图。
举例来说,假设为候选用户群建立的搜索子图集合为GH
如果候选用户群的关键词集合H={崂山,青岛,珠山,出行,徒步,鞋,伞,防辐射,买东西,卡券,芒果TV,中央一套,电影,电视剧,热播,古装,三国,军事联盟,天气,晴,下雨,明天,音乐,运动,欢快,抒情},则以关键词集合H中的关键词添加至节点,并按照关键词的语义关系在两节点之间构建路径,得到候选用户群对应的知识图谱G,如图12所示。
其中,知识图谱G中,每个节点表示一个关键词,相邻节点之间的路径则表示关键词之间的语义关系。
下文对搜索子图集合GH的建立过程加以说明。
首先,对知识图谱G中的节点进行遍历,以遍历到的节点作为初始节点。应当理解,在知识图谱G中,距离最远的两个节点最有可能属于不同的两个搜索子图,因此,本实施例中,从距离最远的两个节点开始遍历来对知识图谱G进行搜索子图划分。即,从节点“n37”或者节点“n28”开始遍历来划分知识图谱G。
假设以节点“n37”作为初始节点,用R代表搜索子图的已选节点集合,r为已选节点集合R中的已选节点,用C代表搜索子图的候选节点集合,c为候选节点集合C中的候选节点。则,R={“n37”},C={“n33”},循环执行如下过程:
(1)节点“n37”的相邻节点为“n33”,两节点之间路径的距离值W=0.3,则将节点“n33”节点添加至R中,并将节点“n33”的相邻节点添加至C中。
(2)若C非空,依次选取C中的候选节点ci,计算候选节点ci与R中已选节点之间路径的平均距离Dci-R,公式如下:
Figure BDA0001704858560000151
其中,d(r-ci)代表知识图谱G中已选节点r与候选节点ci之间的距离。
min d(r-ci)则代表知识图谱G中已选节点r与候选节点ci之间的最短距离。例如,节点n20与节点n28之间存在多条路径,此两节点之间的最短距离min d(n20-n28)为路径“n20-n22-n28”的距离值之和,即1.3。
r∈R min d(r-ci)即代表知识图谱G中所有已选节点r与候选节点ci之间的距离之和,size(R)则代表候选节点个数。
(2.1)如果
Figure BDA0001704858560000152
γ为距离阈值(例如距离阈值设置为3),则将候选节点ci添加至R中,并将候选节点ci的相邻节点添加至C中。
(2.2)否则,如果
Figure BDA0001704858560000153
则放弃候选节点ci,返回步骤(2)。
(3)若C为空,则从知识图谱G中划分得到所包含节点属于R的搜索子图。
待上述搜索子图划分结束,则继续从知识图谱G中选择未作为初始节点的节点开始搜索子图的划分。
以上循环过程在本实施例中划分搜索子图的过程具体为:
C={n33},R={n37},
Dn33-R=(0.3)/1=0.3<3,则C={n34,n36,n32},R={n33,n37},
Dn34-R=(0.3+0.3)/2=0.3<3,则C={n35,n36,n32},R={n33,n37,n34},
Dn36-R=(0.6+0.3+0.6)/3=0.5<3,则C={n35,n32},R={n33,n37,n34,n36},
Dn32-R=(1.3+1+1.3+1.3)/4=1.23<3,则C={n31},R={n33,n37,n34,n36,n32},
Dn31-R=(1+2.3+2+2.3+2.3)/5=1.98<3,则C={n30},R={n33,n37,n34,n36,n32,n31},
Dn30-R=(0.3+1.3+2.6+2.3+2.6+2.6)/6=1.95<3,则C={n29},R={n33,n37,n34,n36,n32,n31,n30},
Dn29-R=(0.3+0.6+1.6+2.9+2.6+2.9+2.9)/7=1.97<3,则C={n43},R={n33,n37,n34,n36,n32,n31,n30,n29},
Dn43-R=(1+1.3+1.6+2.6+3.9+3.6+3.9+3.9)/8=2.73<3,则C={n5,n27},R={n33,n37,n34,n36,n32,n31,n30,n29,n43},
Dn5-R=(1+2+2.3+2.6+3.6+4.6+4.9+4.9+4.9)/9=3.4>3,则C={n27},R={n33,n37,n34,n36,n32,n31,n30,n29,n43},
Dn44-R=(1+2+2.3+2.6+3.6+4.6+4.9+4.9+4.9)/9=3.4>3,则C={},R={n33,n37,n34,n36,n32,n31,n30,n29,n43}。
当C为空,则搜索子图GH1完成划分,继续对知识图谱G进行新一轮的搜索子图划分。
由此,本实施例中,知识图谱G划分为四个搜索子图:
GH1={n33,n37,n34,n36,n32,n31,n30,n29,n43},
GH2={n28,n21,n22,n26,n27,n25,n19,n20,n17,n18,n16,n23,n24,n15,n12,n9,n10,n11},
GH3={n39,n42,n38,n44,n41,n40,n3,n43,n1,n2,n4,n29,n5,n30,n6,n31},
GH4={n7,n9,n10,n12,n13,n15,n14,n16,n17,n18,n19,n20,n23,n24}。
请参阅图10,在一示例性实施例中,步骤350可以包括以下步骤:
步骤351,对检索关键词进行关键词预处理。
其中,关键词预处理包括但不限于:去重、归一化等等,以此降低检索关键词的重复率,进而有利于后续提高信息检索效率。
例如,“明天去崂山需要带伞么?”中检索关键词包括“明天”、“崂山”和“伞”。
又或者,“明天青岛天气如何?”中检索关键词包括“明天”、“青岛”和“天气”。
步骤353,进行检索关键词与若干搜索子图所包含节点中关键词之间的匹配,根据匹配结果确定包含检索关键词的极大搜索子图。
匹配结果用于指示搜索子图中是否包含所表示关键词与检索关键词相匹配的节点。
如果匹配结果指示搜索子图中包含所表示关键词与检索关键词相匹配的节点,则跳转执行步骤355,将包含所表示关键词与检索关键词相匹配节点的搜索子图视为目标搜索子图。
例如,检索关键词包括“明天”、“青岛”和“天气”,搜索子图GH3的节点n30、节点n3和节点n44分别表示关键词“明天”、“青岛”和“天气”,此时,搜索子图GH3即确定为包含检索关键词的极大搜索子图,进而可视为目标搜索子图。
在此补充说明的是,极大搜索子图,指的是包含所表示关键词与检索关键词相匹配的节点个数最多的搜索子图。
如果匹配结果指示搜索子图中不包含所表示关键词与检索关键词相匹配的节点,也就是说,不存在单个极大搜索子图完全覆盖所有检索关键词,则跳转执行步骤357,以进行目标搜索子图的合并。
例如,检索关键词包括“明天”、“崂山”和“伞”,此时,并不存在单个极大搜索子图包含所有检索关键词,而搜索子图GH3的节点n30和节点n2分别表示关键词“明天”和“崂山”,搜索子图GH2、GH4的节点n10表示关键词“伞”,为此,包含检索关键词的极大搜索子图可以是搜索子图GH3、GH2,还可以是搜索子图GH3、GH4
步骤355,如果极大搜索子图为单个,则以极大搜索子图作为目标搜索子图。
值得一提的是,还可能存在候选用户群对应的知识图谱不包含某个检索关键词的情形,即,任何一个搜索子图都未覆盖此检索关键词,此时,将创建一包含此检索关键词的极大搜索子图。
具体地,将此检索关键词添加至节点,并以此节点作为极大搜索子图的唯一节点,以便于后续与其余极大搜索子图进行目标搜索子图的合并。
步骤357,如果极大搜索子图为多个,则根据多个极大搜索子图所确定的待合并组进行目标搜索子图的合并。
如图11所示,在一实施例的具体实现中,步骤357可以包括以下步骤:
步骤3571,如果多个极大搜索子图所确定的待合并组存在多个,则针对每个待合并组中的极大搜索子图进行遍历。
步骤3573,确定遍历到的极大搜索子图与待合并组中其余极大搜索子图之间的连通路径。
步骤3575,计算遍历到的极大搜索子图中节点经由所确定连通路径,到达其余极大搜索子图中节点的平均距离。
步骤3577,将平均距离最小的待合并组中极大搜索子图合并为目标搜索子图。
举例来说,如前所述,根据匹配结果所确定的包含检索关键词的极大搜索子图可以是GH2、GH3、GH4,那么,由上述三个极大搜索子图所确定的待合并组存在两个,即待合并组既可以是极大搜索子图GH3、GH2,也可以是极大搜索子图GH3、GH4。因此,需要选取其中一个待合并组进行目标搜索子图的合并。
较优地,选取待合并组中紧密程度较高的多个极大搜索子图进行合并,具体合并过程如下:
(1)计算所有待合并组中多个极大搜索子图的紧密程度,即衡量极大搜索子图GH3、GH2之间的平均距离短,还是极大搜索子图GH3、GH4之间的平均距离短:
(1.1)如果待合并的两两极大搜索子图G1(例如GH3)与G2(例如GH2、GH4)之间在知识图谱G中存在连通路径r∈R,R为所有通路的集合。则极大搜索子图G1与G2的紧密程度计算公式如下:
Figure BDA0001704858560000181
其中,P表示极大搜索子图G1与G2之间的平均距离。如果P越小,则待合并的极大搜索子图的紧密程度越高。
sizeof(G1)代表极大搜索子图G1中节点个数,sizeof(G2)代表极大搜索子图G2中节点个数。
Figure BDA0001704858560000182
代表极大搜索子图G1中节点经由连通路径到达极大搜索子图G2中节点的距离。
Figure BDA0001704858560000183
即代表极大搜索子图G1中节点经由连通路径到达极大搜索子图G2中节点的距离之和。
应当理解,极大搜索子图G1中节点至极大搜索子图G2中节点的距离,与极大搜索子图G2中节点至极大搜索子图G1中节点的距离,实质相同,故而,通过
Figure BDA0001704858560000184
计算极大搜索子图G1与G2之间的平均距离。
(1.2)如果待合并的两两极大搜索子图G1与G2之间在知识图谱G中不存在连通路径,则直接在极大搜索子图G1与G2节点之间构建一条连通路径,且为此连通路径配置距离值为直接关系权重(例如直接关系权重为1),由此,形成极大搜索子图G1与G2之间的连通路径r∈R,R为所有通路的集合,仍按照上述计算公式计算极大搜索子图G1与G2的紧密程度。
(2)选取紧密程度最大,即P值最小的待合并组中的极大搜索子图进行合并。
通过上述过程,极大搜索子图GH3、GH2之间存在由节点n5、n7彼此连接构成的连通路径,故极大搜索子图GH3、GH2之间的平均距离为2.47。
极大搜索子图GH3、GH4之间存在由节点n5、n7、n9或者n5、n7、n10或者n5、n7、n11彼此连接构成的连通路径,但此三条连通路径的距离值相同,因此,无论选取上述三条连通路径的哪一条,极大搜索子图GH3、GH4之间的平均距离始终为2.27。
因此,选取平均距离最小(2.27)的待合并组中的极大搜索子图GH3、GH4进行合并,则目标搜索子图为:
{n39,n42,n38,n44,n41,n40,n3,n43,n1,n2,n4,n29,n5,n30,n6,n31,n28,n21,n22,n26,n27,n25,n19,n20,n17,n18,n16,n23,n24,n15,n12,n9,n10,n11,n7}。
可以理解,如果多个极大搜索子图所确定的待合并组仅存在一个,则合并方法与上述完成待合并组选取之后的合并方法一致,在此不重复描述。
下述为本发明装置实施例,可以用于执行本发明所涉及的信息检索方法。对于本发明装置实施例中未披露的细节,请参照本发明所涉及的信息检索方法的方法实施例。
请参阅图13,在一示例性实施例中,一种信息检索装置900包括但不限于:检索信息获取模块910、用户分类模块930、子图查询模块950和信息检索模块970。
其中,检索信息获取模块910用于获取检索关键词,并根据检索关键词提取得到用户的用户特征向量,检索关键词指示了用户请求检索的信息。
用户分类模块930用于按照用户的用户特征向量对用户进行用户分类,确定用户所属的候选用户群。
子图查询模块950用于获取为候选用户群建立的搜索子图集合,并按照检索关键词对搜索子图集合中的搜索子图进行全图查询,得到包含检索关键词的目标搜索子图。
信息检索模块970用于通过包含检索关键词的目标搜索子图从信息库中得到用户请求检索的信息。
需要说明的是,上述实施例所提供的信息检索装置在进行信息检索处理时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即信息检索装置的内部结构将划分为不同的功能模块,以完成以上描述的全部或者部分功能。
另外,上述实施例所提供的信息检索装置与信息检索方法的实施例属于同一构思,其中各个模块执行操作的具体方式已经在方法实施例中进行了详细描述,此处不再赘述。
在一示例性实施例中,一种信息检索装置,包括处理器及存储器。
其中,存储器上存储有计算机可读指令,该计算机可读指令被处理器执行时实现上述各实施例中的信息检索方法。
在一示例性实施例中,一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述各实施例中的信息检索方法。
上述内容,仅为本发明的较佳示例性实施例,并非用于限制本发明的实施方案,本领域普通技术人员根据本发明的主要构思和精神,可以十分方便地进行相应的变通或修改,故本发明的保护范围应以权利要求书所要求的保护范围为准。

Claims (10)

1.一种信息检索方法,其特征在于,包括:
获取检索关键词,并根据所述检索关键词提取得到用户的用户特征向量,所述检索关键词指示了所述用户请求检索的信息;
按照所述用户的用户特征向量对所述用户进行用户分类,确定所述用户所属的候选用户群;
获取为所述候选用户群建立的搜索子图集合,并按照所述检索关键词对所述搜索子图集合中的搜索子图进行全图查询,得到包含所述检索关键词的目标搜索子图;
通过包含所述检索关键词的目标搜索子图,从信息库中得到所述用户请求检索的信息;
其中,所述按照所述用户的用户特征向量对所述用户进行用户分类,确定所述用户所属的候选用户群,包括:
将所述用户的用户特征向量分别输入至用户分类模型的若干单高斯模型,根据若干单高斯模型的计算结果确定所述用户所属的候选用户群,所述单高斯模型与用户群一一对应。
2.如权利要求1所述的方法,其特征在于,所述按照所述用户的用户特征向量对所述用户进行用户分类,确定所述用户所属的候选用户群,包括:
将所述用户的用户特征向量分别输入至用户分类模型的若干单高斯模型,计算得到所述用户针对不同单高斯模型的若干先验概率值,所述单高斯模型与用户群一一对应;
根据若干所述先验概率值判断所述用户的用户特征向量是否符合所述用户分类模型;
如果所述用户的用户特征向量符合所述用户分类模型,则计算所述用户针对不同单高斯模型的若干后验概率值;
将计算得到后验概率值最大的单高斯模型所对应的用户群作为所述用户所属的候选用户群。
3.如权利要求2所述的方法,其特征在于,所述按照所述用户的用户特征向量对所述用户进行用户分类,确定所述用户所属的候选用户群,还包括:
设置若干用户群,并根据若干所述用户群创建包含若干单高斯模型的混合高斯模型,所述单高斯模型与所述用户群一一对应;
获取样本信息,并根据所述样本信息进行用户特征向量提取;
根据提取得到的用户特征向量对引入加速因子的所述混合高斯模型进行模型训练;
当所述混合高斯模型的参数在所述加速因子作用下使得最大似然函数的期望达到最大时,将所述混合高斯模型作为所述用户分类模型,所述最大似然函数是根据提取得到的用户特征向量计算的。
4.如权利要求1所述的方法,其特征在于,所述获取为所述候选用户群建立的搜索子图集合,包括:
对所述候选用户群对应的知识图谱中节点进行遍历,以遍历到的节点作为初始节点;
将所述初始节点添加至已选节点集合,并将所述知识图谱中所述初始节点的相邻节点添加至候选节点集合;
根据所述已选节点集合和所述候选节点集合对所述知识图谱进行搜索子图划分;
待所述知识图谱中的节点完成遍历,得到为所述候选用户群建立的所述搜索子图集合,所述搜索子图集合包含至少一搜索子图。
5.如权利要求4所述的方法,其特征在于,所述根据所述已选节点集合和所述候选节点集合对所述知识图谱进行搜索子图划分,包括:
如果所述候选节点集合非空,则对非空的所述候选节点集合中候选节点进行遍历,计算遍历到的候选节点与所述已选节点集合中已选节点之间的平均距离;
如果所述平均距离小于距离阈值,则将遍历到的候选节点添加至所述已选节点集合,并将所述知识图谱中遍历到候选节点的相邻节点添加至所述候选节点集合;
直至所述候选节点集合为空,从所述知识图谱中划分得到所包含节点属于所述已选节点集合的搜索子图。
6.如权利要求4所述的方法,其特征在于,所述获取为所述候选用户群建立的搜索子图集合,还包括:
由所述候选用户群中用户所输入的检索关键词生成所述候选用户群的关键词集合;
将所述关键词集合中的关键词添加至节点,并按照关键词的语义关系在两节点之间构建路径,得到所述候选用户群对应的知识图谱。
7.如权利要求1所述的方法,其特征在于,所述按照所述检索关键词对所述搜索子图集合中的搜索子图进行全图查询,得到包含所述检索关键词的目标搜索子图,包括:
进行所述检索关键词与若干所述搜索子图所包含节点中关键词之间的匹配,根据匹配结果确定包含所述检索关键词的极大搜索子图;
如果所述极大搜索子图为单个,则以所述极大搜索子图作为所述目标搜索子图;
如果所述极大搜索子图为多个,则根据多个所述极大搜索子图所确定的待合并组进行所述目标搜索子图的合并。
8.如权利要求7所述的方法,其特征在于,所述根据多个所述极大搜索子图所确定的待合并组进行所述目标搜索子图的合并,包括:
如果多个所述极大搜索子图所确定的待合并组存在多个,则针对每个所述待合并组中的所述极大搜索子图进行遍历;
确定遍历到的所述极大搜索子图与所述待合并组中其余所述极大搜索子图之间的连通路径;
计算遍历到的所述极大搜索子图中节点经由所确定连通路径,到达其余所述极大搜索子图中节点的平均距离;
将平均距离最小的所述待合并组中所述极大搜索子图合并为所述目标搜索子图。
9.一种信息检索装置,其特征在于,包括:
检索信息获取模块,用于获取检索关键词,并根据所述检索关键词提取得到用户的用户特征向量,所述检索关键词指示了用户请求检索的信息;
用户分类模块,用于按照所述用户的用户特征向量对所述用户进行用户分类,确定所述用户所属的候选用户群,其中,所述按照所述用户的用户特征向量对所述用户进行用户分类,确定所述用户所属的候选用户群,包括:将所述用户的用户特征向量分别输入至用户分类模型的若干单高斯模型,根据若干单高斯模型的计算结果确定所述用户所属的候选用户群,所述单高斯模型与用户群一一对应;
子图查询模块,用于获取为所述候选用户群建立的搜索子图集合,并按照所述检索关键词对所述搜索子图集合中的搜索子图进行全图查询,得到包含所述检索关键词的目标搜索子图;
信息检索模块,用于通过包含所述检索关键词的目标搜索子图从信息库中得到所述用户请求检索的信息。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至8中任一项所述的信息检索方法。
CN201810653725.9A 2018-06-22 2018-06-22 信息检索方法及装置 Active CN108829865B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810653725.9A CN108829865B (zh) 2018-06-22 2018-06-22 信息检索方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810653725.9A CN108829865B (zh) 2018-06-22 2018-06-22 信息检索方法及装置

Publications (2)

Publication Number Publication Date
CN108829865A CN108829865A (zh) 2018-11-16
CN108829865B true CN108829865B (zh) 2021-04-09

Family

ID=64137889

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810653725.9A Active CN108829865B (zh) 2018-06-22 2018-06-22 信息检索方法及装置

Country Status (1)

Country Link
CN (1) CN108829865B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111523954A (zh) * 2019-02-03 2020-08-11 阿里巴巴集团控股有限公司 信息处理方法、信息展示方法及装置
CN112100446B (zh) * 2019-06-18 2024-05-14 上海赜睿信息科技有限公司 搜索方法、可读存储介质和电子设备
CN112148696A (zh) * 2019-06-26 2020-12-29 广东小天才科技有限公司 一种学习内容分享方法及智能装置
CN110456308B (zh) * 2019-07-08 2021-05-04 广西工业职业技术学院 一种三维空间定位快速搜索方法
CN110941694A (zh) * 2019-10-14 2020-03-31 珠海格力电器股份有限公司 知识图谱的搜索定位方法、系统、电子设备和存储介质
CN110795627B (zh) 2019-10-28 2022-08-19 苏州跃盟信息科技有限公司 信息推荐方法及装置、电子设备
CN111160564B (zh) * 2019-12-17 2023-05-19 电子科技大学 一种基于特征张量的中文知识图谱表示学习方法
CN111241350B (zh) * 2020-01-07 2024-02-02 平安科技(深圳)有限公司 图数据查询方法、装置、计算机设备和存储介质
CN116628129B (zh) * 2023-07-21 2024-02-27 南京爱福路汽车科技有限公司 一种汽车配件搜索方法及系统
CN117972069B (zh) * 2024-04-01 2024-05-28 南京信人智能科技有限公司 一种基于人工智能进行主动对话及知识库向量搜索的方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103488724B (zh) * 2013-09-16 2016-09-28 复旦大学 一种面向图书的阅读领域知识图谱构建方法
CN106162348A (zh) * 2015-04-13 2016-11-23 海信集团有限公司 一种个性化节目推荐方法及装置
CN105302890A (zh) * 2015-10-16 2016-02-03 海信集团有限公司 一种多媒体内容在线推荐的方法及其辅助方法和装置
CN106095858A (zh) * 2016-06-02 2016-11-09 海信集团有限公司 一种音视频搜索方法、装置和终端
CN106407455A (zh) * 2016-09-30 2017-02-15 深圳市华傲数据技术有限公司 基于图数据挖掘的数据处理方法及装置
CN106897273B (zh) * 2017-04-12 2018-02-06 福州大学 一种基于知识图谱的网络安全动态预警方法

Also Published As

Publication number Publication date
CN108829865A (zh) 2018-11-16

Similar Documents

Publication Publication Date Title
CN108829865B (zh) 信息检索方法及装置
Qi et al. Finding all you need: web APIs recommendation in web of things through keywords search
JP7343568B2 (ja) 機械学習のためのハイパーパラメータの識別および適用
Guo et al. Quantization based fast inner product search
CN106503022B (zh) 推送推荐信息的方法和装置
US11734508B2 (en) Method and system for expansion to everyday language by using word vectorization technique based on social network content
WO2020207074A1 (zh) 一种信息推送的方法及设备
WO2022199504A1 (zh) 内容识别方法、装置、计算机设备和存储介质
WO2016197767A2 (zh) 一种表情输入方法、装置、终端和计算机可读存储介质
US11216459B2 (en) Multi-layer semantic search
US10943068B2 (en) N-ary relation prediction over text spans
US20160275196A1 (en) Semantic search apparatus and method using mobile terminal
CN110955831B (zh) 物品推荐方法、装置、计算机设备及存储介质
CN110399515A (zh) 图片检索方法、装置及图片检索系统
CN110717038B (zh) 对象分类方法及装置
CN114328807A (zh) 一种文本处理方法、装置、设备及存储介质
CN116034401A (zh) 用于使用自然语言描述检索视频的系统和方法
CN115221191A (zh) 一种基于数据湖的虚拟列构建方法以及数据查询方法
JP2017045291A (ja) 類似画像検索システム
CN117435685A (zh) 文档检索方法、装置、计算机设备、存储介质和产品
CN115203378B (zh) 基于预训练语言模型的检索增强方法、系统及存储介质
CN113988201B (zh) 一种基于神经网络的多模态情感分类方法
CN112650869B (zh) 图像检索重排序方法、装置、电子设备及存储介质
WO2019230465A1 (ja) 類似性評価装置、その方法、及びプログラム
CN112612965A (zh) 基于图谱标签降噪的素材推荐方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant