CN117851444B

CN117851444B - 一种基于语义理解下的高级搜索方法

Info

Publication number: CN117851444B
Application number: CN202410257241.8A
Authority: CN
Inventors: 石龙; 刘刚; 何立娟
Original assignee: Beijing Guqi Data Technology Co ltd
Current assignee: Beijing Guqi Data Technology Co ltd
Priority date: 2024-03-07
Filing date: 2024-03-07
Publication date: 2024-06-04
Anticipated expiration: 2044-03-07
Also published as: CN117851444A

Abstract

本发明公开了一种基于语义理解下的高级搜索方法，涉及信息搜索技术领域，包括使用知识图谱构建语义关联词表，支持智能提示辅助查询构建；输入多模态信息进行综合查询，结合语音、图像和文本进行语义匹配；建立个性化用户模型，理解并记忆用户搜索意图；对查询进行智能扩展建议，组合涵盖不同语义细节的子查询；进行多源异构图谱融合，丰富潜在语义联想，扩大匹配范围；展示匹配词条之间的语义路径，可视化语义理解过程。本发明支持多模态查询输入，可以更全面捕获用户意图，可以学习用户长期偏好，做出自适应推断。

Description

一种基于语义理解下的高级搜索方法

技术领域

本发明涉及信息搜索技术领域，特别是一种基于语义理解下的高级搜索方法。

背景技术

传统搜索方法主要基于关键词匹配，通过词频、页面排名等统计学习算法实现查询词和文档的匹配程度计算。但随着搜索需求的复杂多样化，keyword匹配方式的局限性日益凸显。为了提高搜索引擎响应各类复杂查询的能力，语义搜索技术应运而生并不断发展。

早期的语义搜索主要依赖人工构建的知识库和词汇本体推断查询意图，理解能力受限。近年来，依托知识图谱、深度学习等技术快速发展，语义搜索技术实现了质的飞跃。以知识图谱为基础，结合NLP和其他AI技术，可以实现对查询语义的深层理解，找到更加准确匹配的搜索结果。

当前语义搜索技术主要存在两个方面的局限性：对查询的语义理解和表示能力仍然较为薄弱，多依赖简单的词向量或模板匹配，无法精确把握语义内涵；语义匹配策略和模型较为单一，不同类型查询使用同一套匹配方案，优化空间有限。

发明内容

鉴于上述语义搜索技术中存在的问题，提出了本发明。

因此，本发明所要解决的问题在于如何提供一种增强对查询多样性语义的理解表达能力，构建更合理有效的语义匹配体系的方法。

为解决上述技术问题，本发明提供如下技术方案：

第一方面，本发明实施例提供了一种基于语义理解下的高级搜索方法，其包括使用知识图谱构建语义关联词表；输入多模态信息进行综合查询，结合语音、图像和文本进行语义匹配；建立个性化用户模型，理解并记忆用户搜索意图；对查询进行智能扩展建议，组合涵盖不同语义细节的子查询；进行多源异构图谱融合，丰富潜在语义联想，扩大匹配范围；展示匹配词条之间的语义路径，可视化语义理解过程。

作为本发明所述基于语义理解下的高级搜索方法的一种优选方案，其中：所述输入多模态信息进行综合查询，结合语音、图像和文本进行语义匹选的步骤如下：支持语音查询，自动将语音识别转化为文本；支持上传或拍摄图像进行视觉搜索；

对文本使用BERT模型编码得到文本语义向量、对语音识别文本使用Wav2Vec语音模型编码、对图像用视觉模型提取图像语义向量；将不同模态的语义向量映射到共同语义空间，进行跨模态相似度计算；返回多模态关联度最高的查询结果。

作为本发明所述基于语义理解下的高级搜索方法的一种优选方案，其中：所述将不同模态的语义向量映射到共同语义空间，进行跨模态相似度计算包括，构建一个跨模态对抗网络，包括编码器、映射器和判别器三部分，每个编码器有独立预训练的功能；三个生成器分别将文本、语音和图像特征映射到共享空间，训练判别器判断映射向量的模态源，通过对抗过程逼近语义空间的模态分布；进行跨模态语义空间匹配：计算空间内向量间的相似度；构建相似度分数矩阵，得到归一化的条件概率；定义权重向量，计算文本匹配分数，返回匹配度最高的结果。

作为本发明所述基于语义理解下的高级搜索方法的一种优选方案，其中：所述建立个性化用户模型，理解并记忆用户搜索意图包括以下步骤：追踪记录用户的搜索查询词、点击文章和停留时长，构建用户-文章点击交互矩阵；使用词向量构建用户兴趣轮廓，训练TextCNN模型预测用户主题偏好；输入新查询词，结合用户兴趣轮廓，预测用户当前兴趣主题，并输出查询与各兴趣主题的相关性概率；在候选文章中检索出与当前查询及历史查询相关度最高的数据，返回用户个性化的、与历史意图关联的搜索结果。

作为本发明所述基于语义理解下的高级搜索方法的一种优选方案，其中：所述预测用户当前兴趣的操作过程为：采集用户搜索词构建词频向量，映射词向量到预定义领域知识图谱概念上，汇总概念词频形成用户语义概要；采用对比学习框架，最大化不同用户向量之间距离，最小化同一用户向量之间距离；输入用户当前搜索词，比较词向量与用户表示距离，并输出邻近用户主题作为推荐。

作为本发明所述基于语义理解下的高级搜索方法的一种优选方案，其中：所述采用对比学习框架包括：遍历用户概要文件向量集合，判断向量词表大小是否符合词表阈值，若不足则扩展；初始化用户表示矩阵，循环训练使同用户向量距离最小化，不同用户向量距离最大化，并判断是否达到收敛条件，若达到则停止训练，若未达到则继续循环训练；所述词表阈值的设置过程为：初始化词向量矩阵，维度为d，训练语义判别模型，输入词向量，输出划分类别；循环调整判别模型边界：缩小边界，减少类别，分别计算类内距离、类间距离评价指标，放宽边界，增加类别，再次分别计算类内距离、类间距离评价指标；比较不同类别划分下的评价指标，并确定边界和类别数；以最小词表为起点，增加划分类别数；对每一规模词表，计算用户主题推荐的准确值，比较不同词表大小的指标，以准确值作为纵坐标，不同大小的词表作为横坐标，每个词表规模对应一个评价指标值，连接离散点得到评价指标随着词表大小的变化曲线；根据指标曲线的整体变化趋势，在指标值峰值点处选择词表规模。

作为本发明所述基于语义理解下的高级搜索方法的一种优选方案，其中：所述比较不同类别划分下的评价指标，并确定边界和类别数的过程为：初始化类别数k，得到初始边界，缩小边界，减少类别数到 k₁；计算新类别下的数据点间的类内距离 D_in，计算各类间中心点的类间距离 D_out；放宽边界，增加类别数到 k₂，新增类别细分原类别，再次计算类内距离 D'_in，类间距离 D'_out；比较分类效果：如果D_in>D'_in且D_out<D'_out，则采用细分类边界进行划分；如果 D_in<D'_in且D_out>D'_out则采用粗分类边界进行划分；重复缩小边界和放宽边界，动态调整类别数，直到找到最优类别数k*，使得类内聚合紧密，类间分离度大。

作为本发明所述基于语义理解下的高级搜索方法的一种优选方案，其中：所述建立个性化用户模型，理解并记忆用户搜索意图包括以下步骤：收集全量文章，提取关键词，通过Word2Vec训练获得文章关键词的词向量表示；使用TextCNN文本分类模型，输入词向量，输出文章类别预测；所有文章标注主题类别标签，获得文章到主题类别的映射；跟踪用户历史搜索词、点击文章，投影到主题类别空间，将用户兴趣抽象为组合激活的基因组。

作为本发明所述基于语义理解下的高级搜索方法的一种优选方案，其中：所述将用户兴趣抽象为组合激活的基因组包括：定义多个兴趣主题作为基因，每个用户由多个兴趣基因组成，每个基因为激活状态或抑制状态的一种；提取用户历史搜索词和文章点击，通过词向量技术，编码为输入变量；输入用户行为编码到基因组网络，计算每个兴趣基因的激活程度，得到用户的兴趣基因组激活状态编码；对新输入的搜索词，提取词向量，与用户基因组激活编码拼接作为输入，全连接网络输出用户当前兴趣分布；计算候选文章与用户当前兴趣分布的匹配度，返回给用户相关度最高的文章。

作为本发明所述基于语义理解下的高级搜索方法的一种优选方案，其中：所述计算每个兴趣基因的激活程度的步骤如下：定义用户的兴趣基因组为[g₁, g₂, ..., g_Z]，其中，Z代表兴趣类别数量；每个基因g_i表示一个兴趣维度，取值为0或1，其中，0表示抑制状态，1表示激活状态；用户的历史兴趣行为编码为[h₁, h₂, ..., h_G]，其中，G是行为数量；对每个基因g_i，聚合所有历史行为对其的激活权重：

a_i= f(Σj w_ij)

其中，f是激活聚合函数，w_ij是每个历史行为h_j与每个基因g_i的相关性权重，表示行为h_j激活基因g_i的程度；将a_i转换为0/1激活状态：若a_i>阈值，则基因g_i为激活状态1；若a_i<=阈值，则基因g_i为抑制状态0；最终用户的兴趣基因组激活编码为[a₁, a₂, ..., a_Z]。

第二方面，本发明实施例提供了一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其中：所述计算机程序被处理器执行时实现如本发明第一方面所述的基于语义理解下的高级搜索方法的任一步骤。

第三方面，本发明实施例提供了一种计算机可读存储介质，其上存储有计算机程序，其中：所述计算机程序被处理器执行时实现如本发明第一方面所述的基于语义理解下的高级搜索方法的任一步骤。

本发明有益效果为，本发明支持多模态查询输入，可以更全面捕获用户意图；个性化用户建模，可以学习用户长期偏好，做出自适应推断；子查询生成覆盖不同语义解释，减少歧义偏差；整体上能够从语音、图像、文本多维度理解用户搜索语义；构建更加合理和有效的语义匹配框架；本发明整个系统流程性强，端到端可落地实现，从数据、模型、框架等全面系统考量，易于建立实际搜索应用与服务。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1为实施例1中基于语义理解下的高级搜索方法的步骤流程图。

图2为实施例1中采用对比学习框架的流程图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合说明书附图对本发明的具体实施方式做详细的说明。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，本领域技术人员可以在不违背本发明内涵的情况下做类似推广，因此本发明不受下面公开的具体实施例的限制。

其次，此处所称的“一个实施例”或“实施例”是指可包含于本发明至少一个实现方式中的特定特征、结构或特性。在本说明书中不同地方出现的“在一个实施例中”并非均指同一个实施例，也不是单独的或选择性的与其他实施例互相排斥的实施例。

实施例1

参照图1和图2，为本发明第一个实施例，该实施例提供了一种基于语义理解下的高级搜索方法，包括以下步骤：

S1：使用知识图谱构建语义关联词表，支持智能提示辅助查询构建。

优选的，构建语义关联词表包括以下步骤：采集构建针对领域的知识图谱，分析实体关系，抽取高频实体及属性词汇，构建实体及属性的语义关联词表(同义词、上下位词等)，用户输入查询时，基于已输入词汇，提供相关语义联想词作为提示，用户选择联想词，协助扩展完善查询语句。

S2：输入多模态信息进行综合查询，结合语音、图像和文本进行语义匹配。

优选的，支持语音查询，自动将语音识别转化为文本；支持上传或拍摄图像进行视觉搜索；对文本使用BERT模型编码得到文本语义向量、对语音识别文本使用Wav2Vec语音模型编码、对图像用视觉模型提取图像语义向量；将不同模态的语义向量映射到共同语义空间，进行跨模态相似度计算；返回多模态关联度最高的查询结果。

进一步的，将不同模态的语义向量映射到共同语义空间，进行跨模态相似度计算包括以下步骤：

构建一个跨模态对抗网络，包括编码器、映射器和判别器三部分：文本编码器使用BERT预训练语言模型；语音编码器使用Wav2Vec语音模型；图像编码器使用EfficientNet视觉模型；每个编码器可独立预训练。

构建跨模态生成对抗网络：3个生成器分别将文本、语音、图像特征映射到共享空间，训练判别器试图判断映射向量的模态源，通过对抗过程逼近语义空间的模态分布；并进行跨模态语义空间匹配：计算空间内向量间的相似度：

输入文本通过BERT网络编码为固定长度语义向量text_vec；输入语音信号通过Wav2Vec网络编码为语义向量audio_vec；输入图像通过EfficientNet视觉模型网络编码为语义向量image_vec；分别对text_vec、audio_vec和image_vec进行L2归一化；

计算文本向量与其他向量的相似度：

text_vecsim =内积(text_vec, audio_vec)

text_imagesim = 内积(text_vec, image_vec)

计算语音、图像向量间相似度：

audio_imagesim =内积(audio_vec, image_vec)

构建相似度分数矩阵sim_matrix，并对sim_matrix的每一行进行softmax归一化，得到归一化的条件概率。

定义权重向量：weight = [w₁, w₂, w₃]；文本匹配分数：

p_{text_match}= w₁×p(audio|text) + w₂×p(image|text)

语音匹配分数：

p_{audio_match}= w₁× p(text|audio) + w₃×p(image|audio)

图像匹配分数：

p_{image_match}= w₂× p p(text|image)+ w₃× p(audio|image)

返回匹配度最高的结果。

初始阶段，编码器、生成器、判别器分别预训练；加入跨模态匹配目标，端到端训练整体网络；微调语义空间，提升匹配效果；在实现时，每个组件可以根据需求自定义网络结构，调整融合策略。

S3：建立个性化用户模型，理解并记忆用户搜索意图。

S3.1：追踪记录用户的搜索查询词、点击文章和停留时长，构建用户-文章点击交互矩阵。

S3.2：使用词向量构建用户兴趣轮廓，训练TextCNN模型预测用户主题偏好。

S3.2.1：收集全量文章，提取关键词，通过Word2Vec训练获得文章关键词的词向量表示。

优选的，对全量文章分词，提取名词和动词作为关键词，将所有文章关键词输入Word2Vec模型进行训练，得到词典和预训练的词向量矩阵；每篇文章由多个关键词词向量的平均值来表示。

S3.2.2：使用TextCNN文本分类模型，输入词向量，输出文章类别预测。

S3.2.3：所有文章标注主题类别标签，获得文章到主题类别的映射。

对文章进行主题类别标注，比如"科技","娱乐","生活"等，得到每篇文章对应的主题类别，构建文章ID到类别标签的映射表。

S3.2.4: 跟踪用户历史搜索词、点击文章，投影到主题类别空间，将用户兴趣抽象为组合激活的基因组，实现更个性化的用户建模。

具体的，构建用户兴趣基因组：定义多个兴趣主题作为基因，每个用户由多个兴趣基因组成，每个基因可以是激活或抑制状态；编码用户历史行为：提取用户历史搜索词和文章点击，通过词向量技术，编码为输入变量；激活用户兴趣基因组：输入用户行为编码到基因组网络，计算每个兴趣基因的激活程度，得到用户的兴趣基因组激活状态编码；预测用户当前兴趣分布：对新输入的搜索词，提取词向量，与用户基因组激活编码拼接作为输入，全连接网络输出用户当前兴趣分布；计算候选文章与用户当前兴趣分布的匹配度，返回给用户相关度最高的文章。

激活用户兴趣基因组包括：初始化用户的U个兴趣基因激活度均为0，将用户历史行为编码输入到基因激活网络；网络包含U个输入节点，分别连接到U个兴趣基因激活单元；如果某历史行为与某基因相关，则提升相应基因激活度，得到用户U个兴趣基因的激活编码。

优选的，计算每个兴趣基因的激活程度的步骤如下：定义用户的兴趣基因组为[g₁, g₂, ..., g_Z],Z代表兴趣类别数量；每个基因g_i表示一个兴趣维度，可以取值为0或1,0表示抑制状态，1表示激活状态；用户的历史兴趣行为编码为[h₁, h₂, ..., h_G],G是行为数量；对每个历史行为h_j，计算它与每个基因g_i的相关性权重w_ij表示行为h_j激活基因g_i的程度；对每个基因g_i，聚合所有历史行为对其的激活权重：

a_i= f(Σj w_ij)

其中，f是激活聚合函数；将a_i转换为0/1激活状态：如果a_i>阈值，则基因g_i为激活状态1；如果a_i<=阈值，基因g_i为抑制状态0；最终用户的兴趣基因组激活编码为[a₁, a₂,..., a_Z]，阈值为设定值。

进一步的，计算候选文章与用户当前兴趣分布的匹配度的步骤如下：用户当前兴趣分布为一个N维向量，具体为P=[p1,p2,...,pN]，表示对N个兴趣类别的偏好分数；对候选文章a，提取关键词，获得文章特征向量Q=[q1,q2,...,qN]；计算文章a与用户当前兴趣的匹配度：

sim(a,P)=cos(P,Q)=P·Q/|P||Q|

sim(a,P)=Pearson(P,Q)=(Σ(pi-p_avg)(qi-q_avg))/σpσq

sim(a,P)=P·Q

sim(a,P)=exp(-γ||P-Q||^2)

其中，pi表示对第i个兴趣类别的偏好分数；qi表示文章对第i个兴趣类别的相关度值；γ为控制敏感度；对所有候选文章a，计算sim(a,P)，得到一个匹配度分数；根据匹配度对候选文章进行排序，匹配度越高的文章越先推荐给用户。

可选地，设置匹配度阈值，过滤与用户兴趣不匹配的文章。

匹配度阈值的设置过程为：计算用户兴趣分布P与所有文章数据集的匹配度，得到匹配度分布；分析匹配度分布的密度，选择低密度区域的匹配度值作为候选阈值；遍历不同的候选阈值，计算推荐的召回率、准确率；选择在指定召回率条件下准确率最高的候选阈值为最终匹配度阈值。

S3.3：输入新查询词，结合用户兴趣轮廓，预测用户当前兴趣主题，并输出查询与各兴趣主题的相关性概率。

优选的，预测用户当前兴趣的操作过程为：采集用户搜索词构建词频向量，映射词向量到预定义领域知识图谱概念上，汇总概念词频形成用户语义概要；采用对比学习框架，最大化不同用户向量之间距离，最小化同一用户向量之间距离；输入用户当前搜索词，比较词向量与用户表示距离，并输出邻近用户主题作为推荐。

采用对比学习框架包括：遍历用户概要文件向量集合，判断向量词表大小是否符合词表阈值，若不足则扩展；初始化用户表示矩阵，循环训练使同用户向量距离最小化，不同用户向量距离最大化，并判断是否达到收敛条件，若达到则停止训练，若未达到则继续循环训练。

其中，词表阈值的设置过程为：初始化词向量矩阵，维度为d，训练语义判别模型，输入词向量，输出划分类别；循环调整判别模型边界：缩小边界，减少类别，分别计算类内距离、类间距离评价指标，放宽边界，增加类别，再次分别计算类内距离、类间距离评价指标；比较不同类别划分下的评价指标，并最终确定边界和类别数；以最小词表为起点，增加划分类别数；对每一规模词表，计算用户主题推荐的准确值，比较不同词表大小的指标，以准确值作为纵坐标，不同大小的词表作为横坐标，每个词表规模对应一个评价指标值，连接这些离散点得到评价指标随着词表大小的变化曲线；分析评价指标曲线的整体变化趋势，在指标值峰值点处选择词表规模。

进一步的，比较不同类别划分下的评价指标，并确定边界和类别数的过程为：初始化类别数k=10，得到初始边界，缩小边界，减少类别数到k=5；原类别合并压缩到5类，计算新类别下的数据点间的类内距离D_in；计算各类间中心点的类间距离D_out；放宽边界，增加类别数到k=15，新增类别细分原类别，再次计算类内距离 D'_in，类间距离 D'_out；比较分类效果：如果D_in>D'_in且D_out<D'_out，则采用细分类边界进行划分；如果D_in<D'_in且D_out>D'_out则采用粗分类边界进行划分；重复缩小边界和放宽边界，动态调整k，直到找到最优类别数k*；使得类内聚合紧密，类间分离度大，最终确定边界和类别数 k=k*。

这种预测用户当前兴趣主题方法通过引入外部知识图谱，从语义层面构建用户向量并采用对比学习的差异化表达，可以增强用户之间的个性化区分度。

其中，具体的收敛条件设置为：迭代轮数T=100轮；损失函数变化阈值ε=1e-5；同用户向量距离变化阈值ε₁=1e-4；不同用户向量距离变化阈值ε₂=1e-4；判断轮数为5。

S3.4：在候选文章中检索出与当前查询及历史查询相关度最高的数据，返回用户个性化的、与历史意图关联的搜索结果。

S4：对查询进行智能扩展建议，组合涵盖不同语义细节的子查询。

S4.1：基于当前查询语句，使用知识图谱技术Expanding query。

具体的，输入原始查询语句分词，词性标注，命名实体识别；匹配知识图谱实体，获取关系路径，构建查询的语义扩展图。

S4.2：针对可能的不同语义解读，构建子查询。

具体的，分析语义扩展图中实体类型；基于页面排名算法计算实体间相关性权重，选择权重最大的几对主要实体，并搜索出它们之间在知识图谱的最短路径，并每条路径构造为一个候选子查询。

S4.3：展示扩展的多个子查询，允许用户检查、选择感兴趣的子查询，支持多选，形成查询组合。

优选的，输入原始查询后，系统基于知识图谱技术，自动扩展出多个候选子查询，在候选子查询列表中，用户可以检查每个子查询的词条，也可以点击词条显示解释，用户可以选择、取消选择感兴趣的子查询，页面会即时更新选中的组合查询，允许用户自行编辑子查询语句，提交定制化的子查询，最终将用户选择的多个子查询进行组合，作为新的扩展查询进行检索，返回更加精准的结果。

S5：进行多源异构图谱融合，丰富潜在语义联想，扩大匹配范围。

识别查询垂直领域，采集该领域知识图谱，构建通用领域背景知识图谱存储为实体-关系模型；采用TransE技术训练实体和关系的向量表达；设置共同空间维度，分别学习投影函数，映射实体到共同空间，使不同图谱的实体向量可比较；在共同空间内，计算任意两实体向量余弦相似度，判断语义相关性；将相关的跨图谱实体相连，形成连接多个知识源的异构图谱。

进一步的，采用TransE技术训练实体和关系的向量表达的过程包括：为每个实体设定一个稠密向量，初始化一个N维向量，N通常为50-100，向量值可随机或基于词向量初始化，一个实体对应一个N维向量；为每个关系设定一个稠密向量，每种关系类型也初始化一个向量，维度大小与实体向量一致，一种关系类型对应一个向量，采用TransE训练实体和关系向量，输入训练三元组(头实体，关系，尾实体)，优化目标：头实体+关系≈尾实体，通过梯度下降迭代更新实体与关系的向量值。

S6：展示匹配词条之间的语义路径，可视化语义理解过程。

基于查询匹配的两个词条，系统自动搜索知识图谱，找到多条连接两个词条的语义关联路径；以节点链路图形式可视化显示语义路径，节点为词条，边为关系；路径边显示关系词，点击节点和边都可以显示说明提示；用户可以勾选、取消选择某条语义路径，强调或过滤该路径；允许用户通过操作节点和边，自定义构建新的语义路径；根据用户选择的语义路径，调整查询语句表达匹配的语义，实现查询意图的可调整。

本实施例还提供一种计算机设备，适用于基于语义理解下的高级搜索方法的情况，包括：存储器和处理器；存储器用于存储计算机可执行指令，处理器用于执行计算机可执行指令，实现如上述实施例提出的基于语义理解下的高级搜索方法。

该计算机设备可以是终端，该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、运营商网络、NFC（近场通信）或其他技术实现。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本实施例还提供一种存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述实施例提出的实现基于语义理解下的高级搜索方法；存储介质可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器（StaticRandom Access Memory, 简称SRAM），电可擦除可编程只读存储器（ElectricallyErasable Programmable Read－Only Memory, 简称EEPROM），可擦除可编程只读存储器（Erasable Programmable Read Only Memory, 简称EPROM），可编程只读存储器（Programmable Red－Only Memory, 简称PROM），只读存储器（Read－Only Memory, 简称ROM），磁存储器，快闪存储器，磁盘或光盘。

综上，本发明支持多模态查询输入，可以更全面捕获用户意图；个性化用户建模，可以学习用户长期偏好，做出自适应推断；子查询生成覆盖不同语义解释，减少歧义偏差；整体上能够从语音、图像、文本多维度理解用户搜索语义；构建更加合理和有效的语义匹配框架；本发明整个系统流程性强，端到端可落地实现，从数据、模型、框架等全面系统考量，易于建立实际搜索应用与服务。

实施例2

参照表1，为本发明第二个实施例，为进一步验证本发明的有益效果，给出了基于语义理解下的高级搜索方法的实验仿真数据。

在学术论文检索和推荐平台上，用户语音查询输入论文主题，转录并解析为文字，系统匹配知识图谱，获取相关实体与概念，扩展查询范围，动态生成覆盖细微语义差异的多个子查询，用户选择感兴趣子查询，系统记录个性化偏好，组合权重语义匹配模型，检索并推荐相关论文。

具体的指标对比如下：

表1 指标对比

指标	基准方法	本方法	提升幅度
				查询转化率	34.7%	57.2%	64.8%
召回率	26.3%	42.1%	60.1%
				Click-Through Rate	15.3%	21.7%	41.8%

表1中，Click-Through Rate指用户对推荐结果的点击转化率；上表明显显示，本发明所述方法在不同指标上均有显著提升，特别是查询解析与理解能力，以及总体检索效果方面，优势明显。

应说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于语义理解下的高级搜索方法，其特征在于：包括：

使用知识图谱构建语义关联词表；

输入多模态信息进行综合搜索，结合语音、图像和文本进行语义匹配；

建立个性化用户模型，理解并记忆用户搜索意图；

对搜索进行智能扩展建议，组合涵盖不同语义细节的子搜索；

进行多源异构图谱融合，丰富潜在语义联想，扩大匹配范围；

展示匹配词条之间的语义路径，可视化语义理解过程；

所述输入多模态信息进行综合搜索，结合语音、图像和文本进行语义匹的步骤如下：

支持语音搜索；

支持上传或拍摄图像进行视觉搜索；

对文本使用BERT模型编码得到文本语义向量、对语音使用Wav2Vec语音模型编码、对图像用视觉模型提取图像语义向量；

将不同模态的语义向量映射到共同语义空间，进行跨模态相似度计算；

返回多模态关联度最高的搜索结果；

所述将不同模态的语义向量映射到共同语义空间，进行跨模态相似度计算包括，构建一个跨模态对抗网络，包括编码器、映射器和判别器三部分，每个编码器有独立预训练的功能；

三个映射器分别将文本、语音和图像特征映射到共享空间，训练判别器判断映射向量的模态源，通过对抗过程逼近语义空间的模态分布；

进行跨模态语义空间匹配：

计算空间内向量间的相似度；

构建相似度分数矩阵，得到归一化的条件概率；

定义权重向量，计算文本匹配分数，返回匹配度最高的结果。

2.如权利要求1所述的基于语义理解下的高级搜索方法，其特征在于：所述建立个性化用户模型，理解并记忆用户搜索意图包括以下步骤：

追踪记录用户的搜索词、点击文章和停留时长，构建用户-文章点击交互矩阵；

使用词向量构建用户兴趣轮廓，训练TextCNN模型预测用户主题偏好；

输入新搜索词，结合用户兴趣轮廓，预测用户当前兴趣主题，并输出所述新搜索词与各兴趣主题的相关性概率；

在候选文章中检索出与所述新搜索词及历史搜索相关度最高的数据，返回用户个性化的、与历史意图关联的搜索结果。

3.如权利要求2所述的基于语义理解下的高级搜索方法，其特征在于：所述预测用户当前兴趣的操作过程为：

采集用户搜索词构建词频向量，映射所述词频向量到预定义领域知识图谱概念上，汇总概念词频形成用户语义概要；

采用对比学习框架，最大化不同用户向量之间距离，最小化同一用户向量之间距离；

输入用户当前搜索词，比较所述词频向量与所述用户向量距离，并输出邻近用户主题作为推荐。

4.如权利要求3所述的基于语义理解下的高级搜索方法，其特征在于：所述采用对比学习框架包括：

遍历用户语义概要文件向量集合，判断向量词表大小是否符合词表阈值，若不足则扩展；

初始化用户向量，循环训练使同用户向量距离最小化，不同用户向量距离最大化，并判断是否达到收敛条件，若达到则停止训练，若未达到则继续循环训练；

所述词表阈值的设置过程为：初始化词向量矩阵，维度为d，训练语义判别模型，输入词向量，输出划分类别；

循环调整判别模型边界：缩小边界，减少类别，分别计算类内距离、类间距离评价指标，放宽边界，增加类别，再次分别计算类内距离、类间距离评价指标；比较不同类别划分下的评价指标，并确定边界和类别数；以最小词表为起点，增加划分类别数；对每一规模词表，计算用户主题推荐的准确值，比较不同词表大小的指标，以准确值作为纵坐标，不同大小的词表作为横坐标，每个词表规模对应一个评价指标值，连接离散点得到评价指标随着词表大小的变化曲线；根据所述变化曲线的整体变化趋势，在指标值峰值点处选择词表规模。

5.如权利要求4所述的基于语义理解下的高级搜索方法，其特征在于：所述比较不同类别划分下的评价指标，并确定边界和类别数的过程为：

初始化类别数k，得到初始边界，缩小边界，减少类别数到 k₁；计算新类别下的数据点间的类内距离 D_in，计算各类间中心点的类间距离 D_out；放宽边界，增加类别数到 k₂，新增类别细分原类别，再次计算类内距离 D'_in，类间距离 D'_out；比较分类效果：如果D_in >D'_in且D_out < D'_out，则采用细分类边界进行划分；如果 D_in< D'_in 且D_out >D'_out，则采用粗分类边界进行划分；重复缩小边界和放宽边界，动态调整类别数，直到找到最优类别数k*，使得类内聚合紧密，类间分离度大。

6.如权利要求5所述的基于语义理解下的高级搜索方法，其特征在于：所述建立个性化用户模型，理解并记忆用户搜索意图包括以下步骤：

收集全量文章，提取关键词，通过Word2Vec训练获得文章关键词的词向量表示；

使用TextCNN文本分类模型，输入词向量，输出文章类别预测；

所有文章标注主题类别标签，获得文章到主题类别的映射；

跟踪用户历史搜索词、点击文章，投影到主题类别空间，将用户兴趣抽象为组合激活的基因组。

7.如权利要求6所述的基于语义理解下的高级搜索方法，其特征在于：所述将用户兴趣抽象为组合激活的基因组包括：

定义多个兴趣主题作为基因，每个用户由多个兴趣基因组成，每个基因为激活状态或抑制状态的一种；

提取用户历史搜索词和文章点击，通过词向量技术，得到用户行为编码；

输入用户行为编码到基因组网络，计算每个兴趣基因的激活程度，得到用户的兴趣基因组激活状态编码；

对新输入的搜索词，提取词向量，与用户的兴趣基因组激活状态编码拼接作为输入，全连接网络输出用户当前兴趣分布；

计算候选文章与用户当前兴趣分布的匹配度，返回给用户相关度最高的文章。

8.如权利要求7所述的基于语义理解下的高级搜索方法，其特征在于：所述计算每个兴趣基因的激活程度的步骤如下：

定义用户的兴趣基因组为[g₁, g₂, ...,g_i,..., g_Z]，其中，Z代表兴趣类别数量；

每个基因g_i表示一个兴趣维度，取值为0或1，其中，0表示抑制状态，1表示激活状态；

用户的历史兴趣行为编码为[h₁, h₂, ...,h_j, ...,h_G]，其中，G是行为数量；

对每个基因g_i，聚合所有历史行为对其的激活权重：

a_i= f(Σj w_ij)

其中，f是激活聚合函数，w_ij是每个历史行为h_j与每个基因g_i的相关性权重，表示行为h_j激活基因g_i的程度；

将a_i转换为0/1激活状态：若a_i>阈值，则基因g_i为激活状态1；若a_i<=阈值，则基因g_i为抑制状态0；

最终用户的兴趣基因组激活状态编码为[a₁, a₂, ...,a_i,..., a_Z]。