CN111680207B - 一种用于确定用户搜索意图的方法及装置 - Google Patents
一种用于确定用户搜索意图的方法及装置 Download PDFInfo
- Publication number
- CN111680207B CN111680207B CN202010167600.2A CN202010167600A CN111680207B CN 111680207 B CN111680207 B CN 111680207B CN 202010167600 A CN202010167600 A CN 202010167600A CN 111680207 B CN111680207 B CN 111680207B
- Authority
- CN
- China
- Prior art keywords
- search
- node
- target
- searched
- entity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 75
- 239000011159 matrix material Substances 0.000 claims abstract description 124
- 239000013598 vector Substances 0.000 claims abstract description 80
- 238000010586 diagram Methods 0.000 claims abstract description 52
- 230000014509 gene expression Effects 0.000 claims description 56
- 230000011218 segmentation Effects 0.000 claims description 46
- 230000006870 function Effects 0.000 claims description 32
- 238000012549 training Methods 0.000 claims description 21
- 238000010276 construction Methods 0.000 claims description 17
- 235000008694 Humulus lupulus Nutrition 0.000 claims description 12
- 230000004913 activation Effects 0.000 claims description 12
- 230000008569 process Effects 0.000 claims description 12
- 238000012216 screening Methods 0.000 claims description 10
- 238000009826 distribution Methods 0.000 claims description 8
- 238000012937 correction Methods 0.000 claims description 4
- 238000012545 processing Methods 0.000 claims description 4
- 238000005516 engineering process Methods 0.000 description 4
- 239000002775 capsule Substances 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Animal Behavior & Ethology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供用于确定用户搜索意图的方法及装置,包括:根据初始实体集构建待搜目标知识图谱及各实体的语义概念特征向量;构建异构节点图及对应的第一邻接矩阵;接收历史搜索点击事件,建立第一邻接矩阵的监督模型;接收当前搜索关键词,根据当前搜索关键词及待搜目标知识图谱生成候选搜索意图扩展实体集;利用监督模型对候选搜索意图扩展实体集进行意图推理,获得搜索意图对应的待扩展搜索关键词结果集;根据待扩展搜索关键词结果集与语义概念特征向量确定搜索意图对应的目标搜索关键词序列;如此,在用户输入的搜索词具有多样性、模糊性和多义性时,可以利用知识图谱及语义概念特征向量对搜索词进行推理、扩展和填充,使得搜索更加清晰。
Description
技术领域
本发明涉及搜索引擎技术领域,尤其涉及一种用于确定用户搜索意图的方法及装置。
背景技术
搜索功能可以辅助用户从海量信息中快速精准获取到所需信息,不仅造就了专业搜索引擎,还是知识社区、娱乐休闲、点评团购、位置导航和电商服务等几乎所有应用必须提供的工具。但是随着信息、数据和服务的爆炸式增长,用户搜索行为呈现出新的特点,主要表现为垂直化、模糊化、多轮化、多意图化和非确定性等。现有技术中以关键词为核心的搜索引擎无法适应新的变化。
为解决上述需求,用户意图检测和表示逐渐成为搜索、问答和对话的核心的功能。其中,以关键词为基础进行意图分类,需要大量的人工标注,也无法适应意图的多样性表达。而基于知识迁移的意图检测采用双向长短期记忆网络LSTM(Long Short-Term Memory)进行低层胶囊网络的特征提取,采用动态协议路由将低层特征转发至高层胶囊网络进行意图表达,虽然能够解决零样本学习问题,但受双向LSTM自身特征影响,仅能反映邻近字词的字面意图,无法检测上下文意图,仍无法适应搜索意图的多样性表达。
综上,现有技术中的搜索技术在用户搜索意图具有多样性、模糊性和多义性的情况时,确保不了搜索结果的命中率,进而不能满足用户的搜索需求。
发明内容
针对现有技术存在的问题,本发明实施例提供了一种用于确定用户搜索意图的方法及装置,用于解决现有技术中的搜索技术在用户搜索意图具有多样性、模糊性和多义性的情况时,确保不了搜索结果的命中率,不能满足用户的搜索需求的技术问题。
本发明提供一种用于确定用户搜索意图的方法,所述方法包括:
根据待搜目标集确定初始实体集,并根据所述初始实体集构建待搜目标知识图谱及各实体的语义概念特征向量;
利用所述待搜目标集与所述初始实体集构建异构节点图,并构建所述异构节点图对应的第一邻接矩阵;
接收至少一个用户输入的历史搜索点击事件,以所述历史搜索点击事件为弱监督目标,建立所述第一邻接矩阵的监督模型,并对所述监督模型进行训练;所述搜索点击事件包括:历史搜索关键词及对应的历史搜索结果;
接收当前用户输入的当前搜索关键词,根据所述当前搜索关键词及所述待搜目标知识图谱生成候选搜索意图扩展实体集;
利用训练后的所述监督模型对所述候选搜索意图扩展实体集进行意图推理,获得所述搜索意图对应的待扩展搜索关键词结果集;
根据所述待扩展搜索关键词结果集与所述语义概念特征向量确定所述搜索意图对应的目标搜索关键词序列。
可选地,根据待搜目标集确定初始实体集,并根据所述初始实体集构建待搜目标知识图谱及各实体的语义概念特征向量,包括:
对所述待搜目标集中的当前待搜目标进行分词处理,形成分词集;
针对所述分词集中的当前分词,以所述当前分词为核心基,利用汉语语言模型ngram及中文分词模型BiLSTM-CRF对所述当前分词进行实体修正,生成初始实体集;所述当前分词为所述分词集中的任一分词;
根据所述当前待搜目标的属性及所述初始实体集中的各分词元素构建待搜目标知识图谱;
基于所述待搜目标知识图谱,构建所述初始实体集中的各实体的语义概念特征向量。
可选地,所述基于所述待搜目标知识图谱,构建所述初始实体集中的各实体的语义概念特征向量,包括:
根据公式wi′=[word2vector(wi′),dr(wi′),r(wi′),n(wi′)]构建所述各实体的语义概念特征向量wi′;其中,所述i为所述初始实体集中的任一实体,所述word2vector(wi′)为词向量函数;所述dr(wi′)为所述第i个实体在所述待搜目标知识图谱上与邻近实体的概率分布;所述r(wi′)为所述第i个实体在待搜目标集的所有知识图谱中出现的概率;所述n(wi′)为所述第i个实体在待搜目标j的知识图谱中的邻居节点成对出现的次数与所述第i个实体在待搜目标j的知识图谱中的邻居节点的数量之间的比值。
可选地,所述利用所述待搜目标集与所述初始实体集构建异构节点图对应的第一邻接矩阵,包括:
将所述待搜目标集中的待搜目标和所述初始实体集中的实体分别作为节点;针对所述初始实体集中的任一实体,将所述初始实体集中的实体与待搜目标之间的连接关系作为边,将各实体之间的连接关系作为边构建所述异构节点图;所述初始实体集中的实体为所述初始实体集中的分词;
针对所述异构节点图中的节点m和节点n,若所述节点m和所述节点n均为实体节点,则确定所述节点m和所述节点n的共现关系表达因子cemn;所述共现关系表达因子cemn为所述节点m和所述节点n在所述待搜目标集中同时出现的次数与所述节点m和所述节点n中任意一个节点在所述待搜目标集中出现次数的比值;
确定所述节点m和所述节点n的共搜关系表达因子csmn;所述共搜关系表达因子csmn为同时搜索所述节点m和所述节点n的用户数量与所述用户搜索所述节点m和所述节点n的总次数的比值;
确定所述节点m和所述节点n的共待搜目标表达因子cdmn;所述共待搜目标表达因子为所述节点m和所述节点n同时出现的次数与所述待搜目标总数量的比值;
确定所述节点m和所述节点n的语义距离表达因子disij;所述语义距离表达因子为所述节点m和所述节点n之间达到的跳数与任意节点之间的最大跳数的比值;
根据所述共现关系表达因子cemn、所述共搜关系表达因子csmn、所述待搜目标表达因子cdmn以及所述共语义距离表达因子dismn构建第一子邻接矩阵A1,所述
若所述节点m和所述节点n均为待搜目标节点时,确定所述节点m与所述节点n的语义相似度crmn;确定同时对所述节点m和所述节点n感兴趣的用户占比cfmn;基于所述语义相似度及所述用户占比构建第二子邻接矩阵A2,所述
若所述节点m和所述节点n为不同类型的节点时,获取所述节点m中所述节点n对应的语义概念特征向量出现的第一数量,以及所述节点m中的待搜目标的总数量;确定所述第一数量及所述节点m中的待搜目标的总数量之间的第一比例因子fmn;
获取对所述节点n感兴趣的第一用户数量以及对所述节点m感兴趣的第二用户数量,确定所述第一用户数量与所述第二用户数量之间的第二比例因子rfmn;基于所述第一比例因子及所述第二比例因子构建第三子邻接矩阵A3,所述
根据所述第一子邻接矩阵、所述第二子邻接矩阵及所述第三子邻接矩阵构建所述异构节点图对应的第一邻接矩阵。
可选地,所述接收至少一个用户输入的历史搜索点击事件,以所述历史搜索点击事件为弱监督目标,建立所述第一邻接矩阵的监督模型,包括:
以所述历史搜索点击事件中的各历史搜索关键词作为各实体r,将对历史搜索结果的点击集合作为目标集合R,所述目标集合R中包括Q个搜索结果;
判断所述目标集合中搜索结果u与所述搜索结果v是否在同一搜索关键词对应的点击集合中,若在,则将所述结果u与所述搜索结果v之间的第一搜索意图关系的置位标识设置为第一标识;若不在,则将所述搜索结果u与所述搜索结果v之间的第一搜索意图关系的置位标识设置为第二标识;所述搜索结果u与所述搜索结果v为所述目标集合中的任意两个搜索结果;
将出现在所述目标集合中的各所述搜索结果与所述实体r之间的第二搜索意图关系的置位标识设置为所述第一标识;
获取所述目标集合中每个搜索结果对应的历史搜索关键词,基于所述每个搜索结果对应的历史搜索关键词确定实体集合Fq,将所述各实体r分别与所述实体集合Fq中所有实体之间的第三搜索意图关系的置位标识设置为所述第一标识;
根据所述第一搜索意图关系的置位标识、所述第二搜索意图关系的置位标识及所述第三搜索意图关系的置位标识建立所述第一邻接矩阵的监督模型;其中,所述第一搜索意图关系标记的置位标识、所述第二搜索意图关系的置位标识标记及所述第三搜索意图关系的置位标识为独热编码one-hot向量。
可选地,所述第一邻接矩阵的监督模型包括:
L=Softmax(Relu(AW+B));其中,所述L为所述第一索意图关系的置位标识、所述第二搜索意图关系的置位标识及所述第三搜索意图关系的置位标识的集合;所述A为所述异构节点图对应的第一邻接矩阵,所述W为待训练的权重矩阵,所述B为预设的偏移量,Relu为训练过程的激活函数,Softmax为分类函数。
可选地,所述接收当前用户输入的当前搜索关键词,根据所述当前搜索关键词及所述待搜目标知识图谱生成候选搜索意图扩展实体集,包括:
对于所述当前搜索关键词,在所述待搜目标知识图谱上以所述当前搜索关键词为核心扩展预设的跳数,生成所述候选搜索意图扩展实体集;其中,所述预设的跳数为1~3。
可选地,所述利用训练后的所述监督模型对所述候选搜索意图扩展实体集进行意图推理,获得所述搜索意图对应的待扩展搜索关键词结果集,包括:
根据所述当前搜索关键词与所述候选搜索意图扩展实体集构建第二邻接矩阵;
基于所述监督模型,利用公式Y=Softmax(Relu(A-1D′kAP+B))对所述第二邻接矩阵进行k阶图卷积,获得卷积结果,对所述卷积结果进行意图推理,获得所述搜索意图对应的搜索关键词初选结果集Y;
基于所述搜索关键词初选结果集中的第一搜索意图关系、第二搜索意图关系及第三搜索意图关系的置位标识,根据所述异构节点图中各实体之间的连接关系确定所述搜索意图对应的待扩展搜索关键词结果集;
其中,k为卷积次数,所述A为所述异构节点图对应的第一邻接矩阵,所述D′为所述第二邻接矩阵,所述P为待训练的权重矩阵,所述B为预设的偏移量,Relu为训练过程的激活函数,Softmax为分类函数。
可选地,根据所述待扩展搜索关键词结果集与所述语义概念特征向量确定所述搜索意图对应的目标搜索关键词序列,包括:
将所述各实体的语义概念特征向量作为对应的实体节点的特征向量;
利用卷积函数D′k=(Relu(A-1D′k-1AP+B))对所述第二邻接矩阵进行k阶卷积,获得卷积结果D′k;
将所述卷积结果与所述各实体节点的特征向量进行矩阵相乘,生成当前特征向量;
将所述当前特征向量分别与所述待扩展搜索关键词集合中各搜索关键词的特征向量进行点积,获得点积结果;
基于预设的筛选数量对各关键词对应的点积结果按照从大到小的顺序进行筛选,获得所述搜索意图对应的目标搜索关键词序列;其中,k为卷积次数,所述A为所述异构节点图对应的第一邻接矩阵,所述D′为所述第二邻接矩阵,所述P为待训练的权重矩阵,所述B为预设的偏移量,Relu为训练过程的激活函数,Softmax为分类函数。
本发明还提供一种用于确定用户搜索意图的装置,所述装置包括:
构建单元,用于根据待搜目标集确定初始实体集,并根据所述初始实体集构建待搜目标知识图谱及各实体的语义概念特征向量;
利用所述待搜目标集与所述初始实体集构建异构节点图,并构建所述异构节点图对应的第一邻接矩阵;
建立单元,用于接收至少一个用户输入的历史搜索点击事件,以所述历史搜索点击事件为弱监督目标,建立所述第一邻接矩阵的监督模型,并对所述监督模型进行训练;所述搜索点击事件包括:历史搜索关键词及对应的历史搜索结果;
生成单元,用于接收当前用户输入的当前搜索关键词,根据所述当前搜索关键词及所述待搜目标知识图谱生成候选搜索意图扩展实体集;
推理单元,用于利用训练后的所述监督模型对所述候选搜索意图扩展实体集进行意图推理,获得所述搜索意图对应的待扩展搜索关键词结果集;
确定单元,用于根据所述待扩展搜索关键词结果集与所述语义概念特征向量确定所述搜索意图对应的目标搜索关键词序列。
本发明实施例提供了一种用于确定用户搜索意图的方法及装置,方法包括:根据待搜目标集确定初始实体集,并根据所述初始实体集构建待搜目标知识图谱及各实体的语义概念特征向量;利用所述待搜目标集与所述初始实体集构建异构节点图,并构建所述异构节点图对应的第一邻接矩阵;接收至少一个用户输入的历史搜索点击事件,以所述历史搜索点击事件为弱监督目标,建立所述第一邻接矩阵的监督模型,并对所述监督模型进行训练;所述搜索点击事件包括:历史搜索关键词及对应的历史搜索结果;接收当前用户输入的当前搜索关键词,根据所述当前搜索关键词及所述待搜目标知识图谱生成候选搜索意图扩展实体集;利用训练后的所述监督模型对所述候选搜索意图扩展实体集进行意图推理,获得所述搜索意图对应的待扩展搜索关键词结果集;根据所述待扩展搜索关键词结果集与所述语义概念特征向量确定所述搜索意图对应的目标搜索关键词序列;如此,在用户输入的搜索词具有多样性、模糊性和多义性时,可以利用知识图谱及语义概念特征向量对用户输入的搜索词(搜索意图)进行推理、扩展和填充,使得搜索更加清晰,更贴合用户的实际搜索意图,确保搜索结果的命中率,满足用户的搜索需求。
附图说明
图1为本发明实施例提供的确定用户搜索意图的方法流程示意图;
图2为本发明实施例提供的当待搜目标为歌曲时,确定的待搜目标知识图谱示意图;
图3为本发明实施例提供的当待搜目标为歌曲时,对应的异构节点图;
图4为本发明实施例提供的确定用户搜索意图的装置结构示意图。
具体实施方式
为了解决现有技术中的搜索技术在用户搜索意图具有多样性、模糊性和多义性的情况时,确保不了搜索结果的命中率,不能满足用户的搜索需求的技术问题。本发明提供了一种用于确定用户搜索意图的方法及装置。
下面通过附图及具体实施例对本发明的技术方案做进一步的详细说明。
实施例一
本实施例提供一种用于确定用户搜索意图的方法,如图1所示,方法包括:
S110,根据待搜目标集确定初始实体集,并根据所述初始实体集构建待搜目标知识图谱及各实体的语义概念特征向量;
待搜目标可以包括多种类型的待搜目标,比如网页、文档、歌曲及地点等。针对每种待搜目标,待搜目标集可以包括至少一个对应的待搜目标。比如当待搜目标为歌曲时,待搜目标集中可以包括多首歌曲。
为了提高用户搜索意图的精准度,根据待搜目标集确定初始实体集,并根据所述初始实体集构建待搜目标知识图谱及各实体的语义概念特征向量。
作为一种可选的实施例,所述根据待搜目标集确定初始实体集,并根据所述初始实体集构建待搜目标知识图谱及各实体的语义概念特征向量,包括:
对所述待搜目标集中的当前待搜目标进行分词处理,以能剔除掉停用词、标点符号等,形成分词集W;
针对分词集中的当前分词wi,以所述当前分词为核心基,利用汉语语言模型ngram及中文分词模型BiLSTM-CRF对所述当前分词进行实体修正,生成初始实体集W′;所述当前分词为所述分词集中的任一分词;
根据所述当前待搜目标的属性及所述初始实体集中的各分词元素构建待搜目标知识图谱;比如,若当前待搜目标为歌曲时,待搜目标的属性可以包括:作词、作曲、歌手、专辑、发行时间和歌曲分类等,那么歌曲对应的待搜目标知识图谱可以如图2所示。
基于待搜目标知识图谱,构建所述初始实体集中的各实体的语义概念特征向量。
作为一种可选的实施例,所述基于待搜目标知识图谱,构建所述初始实体集中的各实体的语义概念特征向量,包括:
根据公式wi′=[word2vector(wi′),dr(wi′),r(wi′),n(wi′)]构建各实体的语义概念特征向量wi′;其中,初始实体集中的实体可以理解为实体集中的分词;所述i为初始实体集中的任一实体,所述word2vector(wi′)是词向量函数,用于对实体进行向量化,反映了在所述初始实体集中第i个实体与邻近实体的概率分布;所述dr(wi′)为所述第i个实体在所述待搜目标知识图谱上与邻近实体的概率分布;所述r(wi′)为第i个实体在待搜目标集的所有知识图谱中出现的概率,所述n(wi′)为所述第i个实体在待搜目标j的知识图谱中的邻居节点成对出现的次数与所述第i个实体在待搜目标j的知识图谱中的邻居节点的数量之间的比值。
这里,可以根据公式确定dr(wi′);其中,j为待搜目标/>J为待搜目标集;(degree(wij′))为实体i在待搜目标j的知识图谱中的连接度,max(degree(wij′))为实体i在待搜目标j的知识图谱中的最大连接度,average(degree(wij′))为实体i在待搜目标j的知识图谱中的平均连接度。
可以根据公式确定r(wi′);其中,count(wij′)为实体i在待搜目标j的知识图谱中出现的次数。
可以根据公式确定n(wi′);其中,neighbor(wij′)为实体i在待搜目标j的知识图谱中的邻居节点的数量,pair(wij′,neighbor(wij′))为实体i在待搜目标j的知识图谱中的邻居节点成对出现的次数。若wi′有N个不重复的成对邻居节点,则n(wi′)为N维向量。
值得注意的是,一个待搜目标对应一个知识图谱,待搜目标集对应多个知识图谱。
S111,利用所述待搜目标集与所述初始实体集构建异构节点图,并构建所述异构节点图对应的第一邻接矩阵;
本步骤中,利用所述待搜目标集与所述初始实体集构建异构节点图,并构建所述异构节点图对应的第一邻接矩阵。
具体的,将待搜目标集中的待搜目标和初始实体集中的实体分别作为节点;针对所述初始实体集中的任一实体,将所述初始实体集中的实体与待搜目标之间的连接关系作为边,将各实体之间的连接关系作为边构建所述异构节点图。可以理解的是,初始实体集中的实体为初始实体集中的分词;待搜目标集中的待搜目标可以包括至少一个。其中,当待搜目标为歌曲时,异构节点图可以由图3所示。
异构节点图构建好之后,针对异构节点图中的节点m和节点n,若节点m和节点n均为实体节点,则确定节点m和节点n的共现关系表达因子cemn;共现关系表达因子cemn为节点m和节点n同时出现的次数与所述节点m和节点n中任意一个节点出现次数的比值。
这里,共现关系表达因子cemn可以根据公式其中,count(wm′,wn′)为节点m和节点n在待搜目标集中同时出现的次数,count(wm′)为节点m在待搜目标集中出现的次数,count(wn′)为节点n在待搜目标集中出现的次数。
确定所述节点m和所述节点n的共搜关系表达因子csmn;所述共搜关系表达因子csmn为同时搜索所述节点m和所述节点n的用户数量与所述用户搜索节点m和节点n的总次数的比值。
这里,共搜关系表达因子csmn可以根据公式确定;其中,count(search(wm′,wn′))为同时搜索所述节点m和所述节点n的用户数量,S为用户搜索节点m和节点n的总次数。
确定所述节点m和所述节点n的共待搜目标表达因子cdmn;所述共待搜目标表达因子为节点m和节点n同时出现的次数与所述待搜目标总数量的比值。
这里,共待搜目标表达因子cdmn可以根据公式确定,其中,count(search(wm′,wn′))为节点m和节点n同时出现的次数,所述S为待搜目标总数量。
确定所述节点m和所述节点n的语义距离表达因子disij;所述语义距离表达因子为所述节点m和所述节点n之间达到的跳数与任意节点之间的最大跳数的比值。
这里,语义距离表达因子disij可以根据公式确定;其中,distant(wm′,wn′)为所述节点m和所述节点n之间达到的跳数;max(distant(wm′,wn′))为任意节点之间的最大跳数。
然后可以根据所述共现关系表达因子cemn、所述共搜关系表达因子csmn、所述待搜目标表达因子cdmn以及所述共语义距离表达因子dismn构建第一子邻接矩阵A1,所述
作为一种可选的实施例,若节点m和节点n均为待搜目标节点时,确定所述节点m与所述节点n的语义相似度crmn;确定同时对所述节点m和所述节点n感兴趣的用户占比cfmn;基于所述语义相似度及所述用户占比构建第二子邻接矩阵A2,所述
其中,节点m与所述节点n的语义相似度crmn可以根据公式确定;其中,hassame(wm′,wn′)为节点m和节点n拥有相同且不重复的实体集合;unique(wm′)为节点m中不重复的实体集合;unique(wn′)为节点n中不重复的实体集合;count(hassame(wm′,wn′))为节点m和节点n拥有相同且不重复的实体集合的数量;count(unique(wm′)+unique(wn′)-hassame(wm′,wn′))为节点m和节点n拥有的实体集合的总数量。
同时对所述节点m和所述节点n感兴趣的用户占比cfmn可以根据公式其中,count(favorite(wm′,wn′))为同时对所述节点m和所述节点n感兴趣的用户数量,favorite(wm′)为对节点m感兴趣的用户数量,favorite(wn′)为对节点n感兴趣的用户数量;count(favorite(wm′)+favorite(wn′)-favorite(wm′,wn′))为对所述节点m和所述节点n感兴趣的用户总数量。
作为一种可选的实施例,若节点m和节点n均为不同类型的节点时(也即一个节点为实体节点,一个节点为待搜目标节点),假设节点m为待搜目标节点,节点n为实体节点时,获取节点m中节点n对应的语义概念特征向量出现的第一数量,以及节点m中的待搜目标的总数量;确定第一数量及节点m中的待搜目标的总数量之间的第一比例因子fmn。
获取对节点n感兴趣的第一用户数量以及对节点m感兴趣的第二用户数量,确定第一用户数量与所述第二用户数量之间的第二比例因子rfmn;基于所述第一比例因子及所述第二比例因子构建第三子邻接矩阵A3,所述
这里,第一数量及节点m中的待搜目标的总数量之间的第一比例因子fmn可以根据公式确定;其中,count(wn′)为节点m中节点n对应的语义概念特征向量出现的第一数量,Tm为节点m中的待搜目标的总数量。
第一用户数量与所述第二用户数量之间的第二比例因子rfmn可以根据公式确定;其中,favorite(wn′)为对节点n感兴趣的第一用户数量,favorite(wm′)为对节点m感兴趣的第二用户数量。
最后根据第一子邻接矩阵、第二子邻接矩阵及第三子邻接矩阵构建异构节点图对应的第一邻接矩阵A。第一邻接矩阵A为:
S112,接收至少一个用户输入的历史搜索点击事件,以所述历史搜索点击事件为弱监督目标,建立所述第一邻接矩阵的监督模型,并对所述监督模型进行训练;所述搜索点击事件包括:历史搜索关键词及对应的历史搜索结果;
第一邻接矩阵构建完成后,接收至少一个用户输入的历史搜索点击事件,以所述历史搜索点击事件为弱监督目标,建立所述第一邻接矩阵的监督模型,并对所述监督模型进行训练;所述搜索点击事件包括:历史搜索关键词及对应的历史搜索结果。
具体的,历史搜索点击事件包括至少一个,以历史搜索点击事件中的各历史搜索关键词作为各实体r;将对历史搜索结果的点击集合作为目标集合R,所述目标集合R中包括Q个搜索结果,分别为Rq;q取值为0,1,……Q-1。
这里可以利用独热编码one-hot编码向量来表示各个搜索结果之间的关系,可以包括:
判断所述目标集合R中搜索结果u与所述搜索结果v是否在同一搜索关键词(实体)对应的点击集合中,若在,则将所述结果u与所述搜索结果v之间的第一搜索意图关系的置位标识设置为第一标识;若不在,则将所述搜索结果u与所述搜索结果v之间的第一搜索意图关系的置位标识设置为第二标识;所述搜索结果u与所述搜索结果v为所述目标集合中的任意两个搜索结果。其中,第一标识代表两者之间具有关系,第二标识代表两者之间没有关系;比如:第一标识可以为1,第二标识可以为0。
同样的道理,将出现在所述目标集合中的各所述搜索结果与所述实体r之间的第二搜索意图关系的置位标识设置为所述第一标识;将没有出现在目标集合中的其他搜索结果与实体r之间的第二搜索意图关系的置位标识设置为第二标识。
获取目标集合中每个搜索结果对应的历史搜索关键词,基于每个搜索结果对应的历史搜索关键词确定实体集合Fq,将各实体r分别与实体集合Fq中所有实体之间的第三搜索意图关系的置位标识设置为第一标识;将各实体r与实体集合Fq之外的实体之间的第三搜索意图关系的置位标识设置为第二标识。
根据所述第一搜索意图关系的置位标识、所述第二搜索意图关系的置位标识及所述第三搜索意图关系的置位标识建立所述第一邻接矩阵的监督模型;其中,第一邻接矩阵的监督模型为弱监督模型,所述第一搜索意图关系标记的置位标识、所述第二搜索意图关系的置位标识标记及所述第三搜索意图关系的置位标识为独热编码one-hot向量。
这里,弱监督模型包括:L=Softmax(Relu(AW+B));其中,所述L为所述第一索意图关系的置位标识、所述第二搜索意图关系的置位标识及所述第三搜索意图关系的置位标识的集合;所述A为所述异构节点图对应的第一邻接矩阵,所述W为待训练的权重矩阵,所述B为预设的偏移量,Relu为训练过程的激活函数,Softmax为与结果相关的分类函数。
S113,接收当前用户输入的当前搜索关键词,根据所述当前搜索关键词及所述待搜目标知识图谱生成候选搜索意图扩展实体集;
第一邻接矩阵的监督模型建立好之后,接收当前用户输入的当前搜索关键词,根据所述当前搜索关键词及所述待搜目标知识图谱生成候选搜索意图扩展实体集。
具体的,对于所述当前搜索关键词,在所述待搜目标知识图谱上以所述当前搜索关键词为核心,以待搜目标知识图谱上各节点的连接关系扩展预设的跳数,生成所述候选搜索意图扩展实体集D;其中,所述预设的跳数为1~3。为了确保搜索意图的推理精度,本申请中的条数为3。
S114,利用训练后的所述监督模型对所述候选搜索意图扩展实体集进行意图推理,获得所述搜索意图对应的待扩展搜索关键词结果集;
候选搜索意图扩展实体集D确定出之后,利用训练后的所述监督模型对所述候选搜索意图扩展实体集进行意图推理,获得所述搜索意图对应的待扩展搜索关键词结果集。
具体的,根据当前搜索关键词与所述候选搜索意图扩展实体集构建第二邻接矩阵D′;其中第二邻接矩阵的构建方式与第一邻接矩阵的构建方式是相同的,在此不再赘述。
基于监督模型,利用公式Y=Softmax(Relu(A-1D′kAP+B))对第二邻接矩阵进行k阶图卷积,获得卷积结果,对所述卷积结果进行意图推理,获得所述搜索意图对应的搜索关键词初选结果集Y;
基于所述搜索关键词初选结果集中的第一搜索意图关系、第二搜索意图关系及第三搜索意图关系的置位标识,根据所述异构节点图中各实体之间的连接关系确定待扩展搜索关键词结果集。
其中,k为卷积次数,所述A为所述异构节点图对应的第一邻接矩阵,所述D′为所述第二邻接矩阵,所述P为待训练的权重矩阵,所述B为预设的偏移量,Relu为训练过程的激活函数,Softmax为分类函数。
S115,根据所述待扩展搜索关键词结果集与所述语义概念特征向量确定所述搜索意图对应的目标搜索关键词序列。
将步骤S110生成的各实体的语义概念特征向量作为对应实体节点的特征向量;
利用卷积函数D′k=(Relu(A-1D′k-1AP+B))对所述第二邻接矩阵进行k阶卷积,获得卷积结果D′k;其中,k为卷积次数,所述A为所述异构节点图对应的第一邻接矩阵,所述D′为所述第二邻接矩阵,所述P为待训练的权重矩阵,所述B为预设的偏移量,Relu为训练过程的激活函数。
利用公式wi″=D′kwi′将所述卷积结果与所述各实体节点的特征向量进行矩阵相乘,生成当前特征向量wi″;
将所述当前特征向量wi″分别与所述待扩展搜索关键词集合中各搜索关键词的特征向量进行点积,获得点积结果;
基于预设的筛选数量对各关键词对应的点积结果按照从大到小的顺序进行筛选,获得所述搜索意图对应的目标搜索关键词序列;其中,预设的筛选数量包括10,也即目标搜索关键词序列包括10个搜索关键词,将这10个搜索关键词作为意图填充后的搜索关键词序列。
最后,可以以目标搜索关键词序列在待搜目标集中进行搜索,获得搜索结果。
这样,充分利用知识图谱的语义特征和对用户输入的搜索意图进行推理、扩展和填充,让搜索意图更加清晰,解决了用户搜索意图多样性、模糊性和多义性时,搜索不精准的的问题,大幅提高了搜索结果的命中率。
基于同样的发明构思,本申请还提供了一种用于确定用户搜索意图的装置,详见实施例二。
实施例二
本实施例提供一种用于确定用户搜索意图的装置,如图4所示,装置包括:构建单元41、建立单元42、生成单元43、推理单元44及确定单元45;其中,
构建单元41,用于根据待搜目标集确定初始实体集,并根据所述初始实体集构建待搜目标知识图谱及各实体的语义概念特征向量;
利用所述待搜目标集与所述初始实体集构建异构节点图,并构建所述异构节点图对应的第一邻接矩阵;
建立单元42,用于接收至少一个用户输入的历史搜索点击事件,以所述历史搜索点击事件为弱监督目标,建立所述第一邻接矩阵的监督模型,并对所述监督模型进行训练;所述搜索点击事件包括:历史搜索关键词及对应的历史搜索结果;
生成单元43,用于接收当前用户输入的当前搜索关键词,根据所述当前搜索关键词及所述待搜目标知识图谱生成候选搜索意图扩展实体集;
推理单元44,用于利用训练后的所述监督模型对所述候选搜索意图扩展实体集进行意图推理,获得所述搜索意图对应的待扩展搜索关键词结果集;
确定单元45,用于根据所述待扩展搜索关键词结果集与所述语义概念特征向量确定所述搜索意图对应的目标搜索关键词序列。
具体的,待搜目标可以包括多种类型的待搜目标,比如网页、文档、歌曲及地点等。针对每种待搜目标,待搜目标集可以包括至少一个对应的待搜目标。比如当待搜目标为歌曲时,待搜目标集中可以包括多首歌曲。
为了提高用户搜索意图的精准度,构建单元41用于根据待搜目标集确定初始实体集,并根据所述初始实体集构建待搜目标知识图谱及各实体的语义概念特征向量。
作为一种可选的实施例,构建单元41,具体用于:
对所述待搜目标集中的当前待搜目标进行分词处理,以能剔除掉停用词、标点符号等,形成分词集W;
针对分词集中的当前分词wi,以所述当前分词为核心基,利用汉语语言模型ngram及中文分词模型BiLSTM-CRF对所述当前分词进行实体修正,生成初始实体集W′;所述当前分词为所述分词集中的任一分词;
根据所述当前待搜目标的属性及所述初始实体集中的各分词元素构建待搜目标知识图谱;比如,若当前待搜目标为歌曲时,待搜目标的属性可以包括:作词、作曲、歌手、专辑、发行时间和歌曲分类等,那么歌曲对应的待搜目标知识图谱可以如图2所示。
基于待搜目标知识图谱,构建所述初始实体集中的各实体的语义概念特征向量。
作为一种可选的实施例,所述构建单元41具体用于:
根据公式wi′=[word2vector(wi′),dr(wi′),r(wi′),n(wi′)]构建各实体的语义概念特征向量wi′;其中,初始实体集中的实体可以理解为实体集中的分词;所述i为初始实体集中的任一实体,所述word2vector(wi′)是词向量函数,用于对实体进行向量化,反映了在所述初始实体集中第i个实体与邻近实体的概率分布;所述dr(wi′)为所述第i个实体在所述待搜目标知识图谱上与邻近实体的概率分布;所述r(wi′)为第i个实体在待搜目标集合的所有知识图谱中出现的概率,所述n(wi′)为实体i在待搜目标j的知识图谱中的邻居节点成对出现的次数与实体i在待搜目标j的知识图谱中的邻居节点的数量之间的比值。
这里,可以根据公式确定dr(wi′);其中,j为待搜目标/>J为待搜目标集;(degree(wij′))为实体i在待搜目标j的知识图谱中的连接度,max(degree(wij′))为实体i在待搜目标j的知识图谱中的最大连接度,average(degree(wij′))为实体i在待搜目标j的知识图谱中的平均连接度。
可以根据公式确定r(wi′);其中,count(wij′)为实体i在待搜目标j的知识图谱中出现的次数。
可以根据公式确定n(wi′);其中,neighbor(wij′)为实体i在待搜目标j的知识图谱中的邻居节点的数量,pair(wij′,neighbor(wij′))为实体i在待搜目标j的知识图谱中的邻居节点成对出现的次数。若wi′有N个不重复的成对邻居节点,则n(wi′)为N维向量。
值得注意的是,一个待搜目标对应一个知识图谱,待搜目标集对应多个知识图谱。
知识图谱与各实体的语义概念特征向量构建完成之后,构建单元41还用于利用所述待搜目标集与所述初始实体集构建异构节点图,并构建所述异构节点图对应的第一邻接矩阵。
具体的,将待搜目标集中的待搜目标和初始实体集中的实体分别作为节点;针对所述初始实体集中的任一实体,将所述初始实体集中的实体与待搜目标之间的连接关系作为边,将各实体之间的连接关系作为边构建所述异构节点图。可以理解的是,初始实体集中的实体为初始实体集中的分词;待搜目标集中的待搜目标可以包括至少一个。其中,当待搜目标为歌曲时,异构节点图可以由图3所示。
异构节点图构建好之后,针对异构节点图中的节点m和节点n,若节点m和节点n均为实体节点,则确定节点m和节点n的共现关系表达因子cemn;共现关系表达因子cemn为节点m和节点n同时出现的次数与所述节点m和节点n中任意一个节点出现次数的比值。
这里,共现关系表达因子cemn可以根据公式其中,count(wm′,wn′)为节点m和节点n在待搜目标集中同时出现的次数,count(wm′)为节点m在待搜目标集中出现的次数,count(wn′)为节点n在待搜目标集中出现的次数。
确定所述节点m和所述节点n的共搜关系表达因子csmn;所述共搜关系表达因子csmn为同时搜索所述节点m和所述节点n的用户数量与所述用户搜索节点m和节点n的总次数的比值。
这里,共搜关系表达因子csmn可以根据公式确定;其中,count(search(wm′,wn′))为同时搜索所述节点m和所述节点n的用户数量,S为用户搜索节点m和节点n的总次数。
确定所述节点m和所述节点n的共待搜目标表达因子cdmn;所述共待搜目标表达因子为节点m和节点n同时出现的次数与所述待搜目标总数量的比值。
这里,共待搜目标表达因子cdmn可以根据公式确定,其中,count(search(wm′,wn′))为节点m和节点n同时出现的次数,所述S为待搜目标总数量。
确定所述节点m和所述节点n的语义距离表达因子disij;所述语义距离表达因子为所述节点m和所述节点n之间达到的跳数与任意节点之间的最大跳数的比值。
这里,语义距离表达因子disij可以根据公式确定;其中,distant(wm′,wn′)为所述节点m和所述节点n之间达到的跳数;max(distant(wm′,wn′))为任意节点之间的最大跳数。
然后可以根据根据所述共现关系表达因子cemn、所述共搜关系表达因子csmn、所述待搜目标表达因子cdmn以及所述共语义距离表达因子dismn构建第一子邻接矩阵A1,所述
作为一种可选的实施例,若节点m和节点n均为待搜目标节点时,确定所述节点m与所述节点n的语义相似度crmn;确定同时对所述节点m和所述节点n感兴趣的用户占比cfmn;基于所述语义相似度及所述用户占比构建第二子邻接矩阵A2,所述
其中,节点m与所述节点n的语义相似度crmn可以根据公式确定;其中,hassame(wm′,wn′)为节点m和节点n拥有相同且不重复的实体集合;unique(wm′)为节点m中不重复的实体集合;unique(wn′)为节点n中不重复的实体集合;count(hassame(wm′,wn′))为节点m和节点n拥有相同且不重复的实体集合的数量;count(unique(wm′)+unique(wn′)-hassame(wm′,wn′))为节点m和节点n拥有的实体集合的总数量。
同时对所述节点m和所述节点n感兴趣的用户占比cfmn可以根据公式其中,count(favorite(wm′,wn′))为同时对所述节点m和所述节点n感兴趣的用户数量,favorite(wm′)为对节点m感兴趣的用户数量,favorite(wn′)为对节点n感兴趣的用户数量;count(favorite(wm′)+favorite(wn′)-favorite(wm′,wn′))为对所述节点m和所述节点n感兴趣的用户总数量。
作为一种可选的实施例,若节点m和节点n均为不同类型的节点时(也即一个节点为实体节点,一个节点为待搜目标节点),假设节点m为待搜目标节点,节点n为实体节点时,获取节点m中节点n对应的语义概念特征向量出现的第一数量,以及节点m中的待搜目标的总数量;确定第一数量及节点m中的待搜目标的总数量之间的第一比例因子fmn。
获取对节点n感兴趣的第一用户数量以及对节点m感兴趣的第二用户数量,确定第一用户数量与所述第二用户数量之间的第二比例因子rfmn;基于所述第一比例因子及所述第二比例因子构建第三子邻接矩阵A3,所述
这里,第一数量及节点m中的待搜目标的总数量之间的第一比例因子fmn可以根据公式确定;其中,count(wn′)为节点m中节点n对应的语义概念特征向量出现的第一数量,Tm为节点m中的待搜目标的总数量。
第一用户数量与所述第二用户数量之间的第二比例因子rfmn可以根据公式确定;其中,favorite(wn′)为对节点n感兴趣的第一用户数量,favorite(wm′)为对节点m感兴趣的第二用户数量。
最后根据第一子邻接矩阵、第二子邻接矩阵及第三子邻接矩阵构建异构节点图对应的第一邻接矩阵A。第一邻接矩阵A为:
第一邻接矩阵构建完成后,建立单元42用于接收至少一个用户输入的历史搜索点击事件,以所述历史搜索点击事件为弱监督目标,建立所述第一邻接矩阵的监督模型,并对所述监督模型进行训练;所述搜索点击事件包括:历史搜索关键词及对应的历史搜索结果。
第一邻接矩阵构建完成后,接收至少一个用户输入的历史搜索点击事件,以所述历史搜索点击事件为弱监督目标,建立所述第一邻接矩阵的监督模型,并对所述监督模型进行训练;所述搜索点击事件包括:历史搜索关键词及对应的历史搜索结果。
具体的,历史搜索点击事件包括至少一个,以历史搜索点击事件中的各历史搜索关键词作为各实体r;将对历史搜索结果的点击集合作为目标集合R,所述目标集合R中包括Q个搜索结果,分别为Rq;q取值为0,1,……Q-1。
这里可以利用独热编码one-hot编码向量来表示各个搜索结果之间的关系,可以包括:
判断所述目标集合R中搜索结果u与所述搜索结果v是否在同一搜索关键词(实体)对应的点击集合中,若在,则将所述结果u与所述搜索结果v之间的第一搜索意图关系的置位标识设置为第一标识;若不在,则将所述搜索结果u与所述搜索结果v之间的第一搜索意图关系的置位标识设置为第二标识;所述搜索结果u与所述搜索结果v为所述目标集合中的任意两个搜索结果。其中,第一标识代表两者之间具有关系,第二标识代表两者之间没有关系;比如:第一标识可以为1,第二标识可以为0。
同样的道理,将出现在所述目标集合中的各所述搜索结果与所述实体r之间的第二搜索意图关系的置位标识设置为所述第一标识;将没有出现在目标集合中的其他搜索结果与实体r之间的第二搜索意图关系的置位标识设置为第二标识。
获取目标集合中每个搜索结果对应的历史搜索关键词,基于每个搜索结果对应的历史搜索关键词确定实体集合Fq,将各实体r分别与实体集合Fq中所有实体之间的第三搜索意图关系的置位标识设置为第一标识;将各实体r与实体集合Fq之外的实体之间的第三搜索意图关系的置位标识设置为第二标识。
根据所述第一搜索意图关系的置位标识、所述第二搜索意图关系的置位标识及所述第三搜索意图关系的置位标识建立所述第一邻接矩阵的监督模型;其中,第一邻接矩阵的监督模型为弱监督模型,所述第一搜索意图关系标记的置位标识、所述第二搜索意图关系的置位标识标记及所述第三搜索意图关系的置位标识为独热编码one-hot向量。
这里,弱监督模型包括:L=Softmax(Relu(AW+B));其中,所述L为所述第一索意图关系的置位标识、所述第二搜索意图关系的置位标识及所述第三搜索意图关系的置位标识的集合;所述A为所述异构节点图对应的第一邻接矩阵,所述W为待训练的权重矩阵,所述B为预设的偏移量,Relu为训练过程的激活函数,Softmax为与结果相关的分类函数。
第一邻接矩阵的监督模型建立好之后,生成单元43用于接收当前用户输入的当前搜索关键词,根据所述当前搜索关键词及所述待搜目标知识图谱生成候选搜索意图扩展实体集。
具体的,对于所述当前搜索关键词,生成单元43在所述待搜目标知识图谱上以所述当前搜索关键词为核心,以待搜目标知识图谱上各节点的连接关系扩展预设的跳数,生成所述候选搜索意图扩展实体集D;其中,所述预设的跳数为1~3。为了确保搜索意图的推理精度,本申请中的条数为3。
候选搜索意图扩展实体集D确定出之后,推理单元44用于利用训练后的所述监督模型对所述候选搜索意图扩展实体集进行意图推理,获得所述搜索意图对应的待扩展搜索关键词结果集。
具体的,根据当前搜索关键词与所述候选搜索意图扩展实体集构建第二邻接矩阵D′;其中第二邻接矩阵的构建方式与第一邻接矩阵的构建方式是相同的,在此不再赘述。
基于监督模型,利用公式Y=Softmax(Relu(A-1D′kAP+B))对第二邻接矩阵进行k阶图卷积,获得卷积结果,对所述卷积结果进行意图推理,获得所述搜索意图对应的搜索关键词初选结果集Y;
基于所述搜索关键词初选结果集中的第一搜索意图关系、第二搜索意图关系及第三搜索意图关系的置位标识,根据所述异构节点图中各实体之间的连接关系确定待扩展搜索关键词结果集。
其中,k为卷积次数,所述A为所述异构节点图对应的第一邻接矩阵,所述D′为所述第二邻接矩阵,所述P为待训练的权重矩阵,所述B为预设的偏移量,Relu为训练过程的激活函数,Softmax为分类函数。
确定单元45用于根据所述待扩展搜索关键词结果集与所述语义概念特征向量确定所述搜索意图对应的目标搜索关键词序列。
将上述生成的各实体的语义概念特征向量作为对应实体节点的特征向量;
利用卷积函数D′k=(Relu(A-1D′k-1AP+B))对所述第二邻接矩阵进行k阶卷积,获得卷积结果D′k;其中,k为卷积次数,所述A为所述异构节点图对应的第一邻接矩阵,所述D′为所述第二邻接矩阵,所述P为待训练的权重矩阵,所述B为预设的偏移量,Relu为训练过程的激活函数。
利用公式wi″=D′kwi′将所述卷积结果与所述各实体节点的特征向量进行矩阵相乘,生成当前特征向量wi″;
将所述当前特征向量wi″分别与所述待扩展搜索关键词集合中各搜索关键词的特征向量进行点积,获得点积结果;
基于预设的筛选数量对各关键词对应的点积结果按照从大到小的顺序进行筛选,获得所述搜索意图对应的目标搜索关键词序列;其中,预设的筛选数量包括10,也即目标搜索关键词序列包括10个搜索关键词,将这10个搜索关键词作为意图填充后的搜索关键词序列。
最后,可以以目标搜索关键词序列在待搜目标集中进行搜索,获得搜索结果。
本发明实施例提供的确定用户搜索意图的方法及装置能够带来的有益效果至少是:
本发明实施例提供了一种用于确定用户搜索意图的方法及装置,方法包括:根据待搜目标集确定初始实体集,并根据所述初始实体集构建待搜目标知识图谱及各实体的语义概念特征向量;利用所述待搜目标集与所述初始实体集构建异构节点图,并构建所述异构节点图对应的第一邻接矩阵;接收至少一个用户输入的历史搜索点击事件,以所述历史搜索点击事件为弱监督目标,建立所述第一邻接矩阵的监督模型,并对所述监督模型进行训练;所述搜索点击事件包括:历史搜索关键词及对应的历史搜索结果;接收当前用户输入的当前搜索关键词,根据所述当前搜索关键词及所述待搜目标知识图谱生成候选搜索意图扩展实体集;利用训练后的所述监督模型对所述候选搜索意图扩展实体集进行意图推理,获得所述搜索意图对应的待扩展搜索关键词结果集;根据所述待扩展搜索关键词结果集与所述语义概念特征向量确定所述搜索意图对应的目标搜索关键词序列;如此,在用户输入的搜索词具有多样性、模糊性和多义性时,可以利用知识图谱及语义概念特征向量对用户输入的搜索词(搜索意图)进行推理、扩展和填充,使得搜索更加清晰,更贴合用户的实际搜索意图,确保搜索结果的命中率,满足用户的搜索需求。
以上所述,仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (9)
1.一种用于确定用户搜索意图的方法,其特征在于,所述方法包括:
根据待搜目标集确定初始实体集,并根据所述初始实体集构建待搜目标知识图谱及各实体的语义概念特征向量;
利用所述待搜目标集与所述初始实体集构建异构节点图,并构建所述异构节点图对应的第一邻接矩阵;
接收至少一个用户输入的历史搜索点击事件,以所述历史搜索点击事件为弱监督目标,建立所述第一邻接矩阵的监督模型,并对所述监督模型进行训练;所述搜索点击事件包括:历史搜索关键词及对应的历史搜索结果;
接收当前用户输入的当前搜索关键词,根据所述当前搜索关键词及所述待搜目标知识图谱生成候选搜索意图扩展实体集;
利用训练后的所述监督模型对所述候选搜索意图扩展实体集进行意图推理,获得所述搜索意图对应的待扩展搜索关键词结果集;
根据所述待扩展搜索关键词结果集与所述语义概念特征向量确定所述搜索意图对应的目标搜索关键词序列;其中,
所述接收至少一个用户输入的历史搜索点击事件,以所述历史搜索点击事件为弱监督目标,建立所述第一邻接矩阵的监督模型,包括:
以所述历史搜索点击事件中的各历史搜索关键词作为各实体r,将对历史搜索结果的点击集合作为目标集合R,所述目标集合R中包括Q个搜索结果;
判断所述目标集合中搜索结果u与所述搜索结果v是否在同一搜索关键词对应的点击集合中,若在,则将所述结果u与所述搜索结果v之间的第一搜索意图关系的置位标识设置为第一标识;若不在,则将所述搜索结果u与所述搜索结果v之间的第一搜索意图关系的置位标识设置为第二标识;所述搜索结果u与所述搜索结果v为所述目标集合中的任意两个搜索结果;
将出现在所述目标集合中的各所述搜索结果与所述实体r之间的第二搜索意图关系的置位标识设置为所述第一标识;
获取所述目标集合中每个搜索结果对应的历史搜索关键词,基于所述每个搜索结果对应的历史搜索关键词确定实体集合Fq,将所述各实体r分别与所述实体集合Fq中所有实体之间的第三搜索意图关系的置位标识设置为所述第一标识;
根据所述第一搜索意图关系的置位标识、所述第二搜索意图关系的置位标识及所述第三搜索意图关系的置位标识建立所述第一邻接矩阵的监督模型;其中,所述第一搜索意图关系标记的置位标识、所述第二搜索意图关系的置位标识标记及所述第三搜索意图关系的置位标识为独热编码one-hot向量。
2.如权利要求1所述的方法,其特征在于,根据待搜目标集确定初始实体集,并根据所述初始实体集构建待搜目标知识图谱及各实体的语义概念特征向量,包括:
对所述待搜目标集中的当前待搜目标进行分词处理,形成分词集;
针对所述分词集中的当前分词,以所述当前分词为核心基,利用汉语语言模型ngram及中文分词模型BiLSTM-CRF对所述当前分词进行实体修正,生成初始实体集;所述当前分词为所述分词集中的任一分词;
根据所述当前待搜目标的属性及所述初始实体集中的各分词元素构建待搜目标知识图谱;
基于所述待搜目标知识图谱,构建所述初始实体集中的各实体的语义概念特征向量。
3.如权利要求2所述的方法,其特征在于,所述基于所述待搜目标知识图谱,构建所述初始实体集中的各实体的语义概念特征向量,包括:
根据公式wi′=[word2vector(wi′),dr(wi′),r(wi′),n(wi′)]构建所述各实体的语义概念特征向量wi′;其中,所述i为所述初始实体集中的任一实体,所述word2vector(wi′)为词向量函数;所述dr(wi′)为所述第i个实体在所述待搜目标知识图谱上与邻近实体的概率分布;所述r(wi′)为所述第i个实体在待搜目标集的所有知识图谱中出现的概率;所述n(wi′)为所述第i个实体在待搜目标j的知识图谱中的邻居节点成对出现的次数与所述第i个实体在待搜目标j的知识图谱中的邻居节点的数量之间的比值。
4.如权利要求1所述的方法,其特征在于,所述利用所述待搜目标集与所述初始实体集构建异构节点图对应的第一邻接矩阵,包括:
将所述待搜目标集中的待搜目标和所述初始实体集中的实体分别作为节点;针对所述初始实体集中的任一实体,将所述初始实体集中的实体与待搜目标之间的连接关系作为边,将各实体之间的连接关系作为边构建所述异构节点图;所述初始实体集中的实体为所述初始实体集中的分词;
针对所述异构节点图中的节点m和节点n,若所述节点m和所述节点n均为实体节点,则确定所述节点m和所述节点n的共现关系表达因子cemn;所述共现关系表达因子cemn为所述节点m和所述节点n在所述待搜目标集中同时出现的次数与所述节点m和所述节点n中任意一个节点在所述待搜目标集中出现次数的比值;
确定所述节点m和所述节点n的共搜关系表达因子csmn;所述共搜关系表达因子csmn为同时搜索所述节点m和所述节点n的用户数量与所述用户搜索所述节点m和所述节点n的总次数的比值;
确定所述节点m和所述节点n的共待搜目标表达因子cdmn;所述共待搜目标表达因子为所述节点m和所述节点n同时出现的次数与所述待搜目标总数量的比值;
确定所述节点m和所述节点n的语义距离表达因子disij;所述语义距离表达因子为所述节点m和所述节点n之间达到的跳数与任意节点之间的最大跳数的比值;
根据所述共现关系表达因子cemn、所述共搜关系表达因子csmn、所述待搜目标表达因子cdmn以及所述语义距离表达因子dismn构建第一子邻接矩阵A1,所述
若所述节点m和所述节点n均为待搜目标节点时,确定所述节点m与所述节点n的语义相似度crmn;确定同时对所述节点m和所述节点n感兴趣的用户占比cfmn;基于所述语义相似度及所述用户占比构建第二子邻接矩阵A2,所述
若所述节点m和所述节点n为不同类型的节点时,获取所述节点m中所述节点n对应的语义概念特征向量出现的第一数量,以及所述节点m中的待搜目标的总数量;确定所述第一数量及所述节点m中的待搜目标的总数量之间的第一比例因子fmn;
获取对所述节点n感兴趣的第一用户数量以及对所述节点m感兴趣的第二用户数量,确定所述第一用户数量与所述第二用户数量之间的第二比例因子rfmn;基于所述第一比例因子及所述第二比例因子构建第三子邻接矩阵A3,所述
根据所述第一子邻接矩阵、所述第二子邻接矩阵及所述第三子邻接矩阵构建所述异构节点图对应的第一邻接矩阵。
5.如权利要求1所述的方法,其特征在于,所述第一邻接矩阵的监督模型包括:
L=Softmax(Relu(AW+B));其中,所述L为所述第一搜索意图关系的置位标识、所述第二搜索意图关系的置位标识及所述第三搜索意图关系的置位标识的集合;所述A为所述异构节点图对应的第一邻接矩阵,所述W为待训练的权重矩阵,所述B为预设的偏移量,Relu为训练过程的激活函数,Softmax为分类函数。
6.如权利要求1所述的方法,其特征在于,所述接收当前用户输入的当前搜索关键词,根据所述当前搜索关键词及所述待搜目标知识图谱生成候选搜索意图扩展实体集,包括:
对于所述当前搜索关键词,在所述待搜目标知识图谱上以所述当前搜索关键词为核心扩展预设的跳数,生成所述候选搜索意图扩展实体集;其中,所述预设的跳数为1~3。
7.如权利要求1所述的方法,其特征在于,所述利用训练后的所述监督模型对所述候选搜索意图扩展实体集进行意图推理,获得所述搜索意图对应的待扩展搜索关键词结果集,包括:
根据所述当前搜索关键词与所述候选搜索意图扩展实体集构建第二邻接矩阵;
基于所述监督模型,利用公式Y=Softmax(Relu(A-1D′kAP+B))对所述第二邻接矩阵进行k阶图卷积,获得卷积结果,对所述卷积结果进行意图推理,获得所述搜索意图对应的搜索关键词初选结果集Y;
基于所述搜索关键词初选结果集中的第一搜索意图关系、第二搜索意图关系及第三搜索意图关系的置位标识,根据所述异构节点图中各实体之间的连接关系确定所述搜索意图对应的待扩展搜索关键词结果集;
其中,k为卷积次数,所述A为所述异构节点图对应的第一邻接矩阵,所述D′为所述第二邻接矩阵,所述P为待训练的权重矩阵,所述B为预设的偏移量,Relu为训练过程的激活函数,Softmax为分类函数。
8.如权利要求1所述的方法,其特征在于,根据所述待扩展搜索关键词结果集与所述语义概念特征向量确定所述搜索意图对应的目标搜索关键词序列,包括:
将所述各实体的语义概念特征向量作为对应的实体节点的特征向量;
利用卷积函数D′k=(Relu(A-1D′k-1AP+B))对第二邻接矩阵进行k阶卷积,获得卷积结果D′k;
将所述卷积结果与所述各实体节点的特征向量进行矩阵相乘,生成当前特征向量;
将所述当前特征向量分别与所述待扩展搜索关键词集合中各搜索关键词的特征向量进行点积,获得点积结果;
基于预设的筛选数量对各关键词对应的点积结果按照从大到小的顺序进行筛选,获得所述搜索意图对应的目标搜索关键词序列;其中,k为卷积次数,所述A为所述异构节点图对应的第一邻接矩阵,所述D′为所述第二邻接矩阵,所述P为待训练的权重矩阵,所述B为预设的偏移量,Relu为训练过程的激活函数,Softmax为分类函数。
9.一种用于确定用户搜索意图的装置,其特征在于,所述装置包括:
构建单元,用于根据待搜目标集确定初始实体集,并根据所述初始实体集构建待搜目标知识图谱及各实体的语义概念特征向量;
利用所述待搜目标集与所述初始实体集构建异构节点图,并构建所述异构节点图对应的第一邻接矩阵;
建立单元,用于接收至少一个用户输入的历史搜索点击事件,以所述历史搜索点击事件为弱监督目标,建立所述第一邻接矩阵的监督模型,并对所述监督模型进行训练;所述搜索点击事件包括:历史搜索关键词及对应的历史搜索结果;
生成单元,用于接收当前用户输入的当前搜索关键词,根据所述当前搜索关键词及所述待搜目标知识图谱生成候选搜索意图扩展实体集;
推理单元,用于利用训练后的所述监督模型对所述候选搜索意图扩展实体集进行意图推理,获得所述搜索意图对应的待扩展搜索关键词结果集;
确定单元,用于根据所述待扩展搜索关键词结果集与所述语义概念特征向量确定所述搜索意图对应的目标搜索关键词序列;其中,
所述接收至少一个用户输入的历史搜索点击事件,以所述历史搜索点击事件为弱监督目标,建立所述第一邻接矩阵的监督模型,包括:
以所述历史搜索点击事件中的各历史搜索关键词作为各实体r,将对历史搜索结果的点击集合作为目标集合R,所述目标集合R中包括Q个搜索结果;
判断所述目标集合中搜索结果u与所述搜索结果v是否在同一搜索关键词对应的点击集合中,若在,则将所述结果u与所述搜索结果v之间的第一搜索意图关系的置位标识设置为第一标识;若不在,则将所述搜索结果u与所述搜索结果v之间的第一搜索意图关系的置位标识设置为第二标识;所述搜索结果u与所述搜索结果v为所述目标集合中的任意两个搜索结果;
将出现在所述目标集合中的各所述搜索结果与所述实体r之间的第二搜索意图关系的置位标识设置为所述第一标识;
获取所述目标集合中每个搜索结果对应的历史搜索关键词,基于所述每个搜索结果对应的历史搜索关键词确定实体集合Fq,将所述各实体r分别与所述实体集合Fq中所有实体之间的第三搜索意图关系的置位标识设置为所述第一标识;
根据所述第一搜索意图关系的置位标识、所述第二搜索意图关系的置位标识及所述第三搜索意图关系的置位标识建立所述第一邻接矩阵的监督模型;其中,所述第一搜索意图关系标记的置位标识、所述第二搜索意图关系的置位标识标记及所述第三搜索意图关系的置位标识为独热编码one-hot向量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010167600.2A CN111680207B (zh) | 2020-03-11 | 2020-03-11 | 一种用于确定用户搜索意图的方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010167600.2A CN111680207B (zh) | 2020-03-11 | 2020-03-11 | 一种用于确定用户搜索意图的方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111680207A CN111680207A (zh) | 2020-09-18 |
CN111680207B true CN111680207B (zh) | 2023-08-04 |
Family
ID=72451400
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010167600.2A Active CN111680207B (zh) | 2020-03-11 | 2020-03-11 | 一种用于确定用户搜索意图的方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111680207B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112487168B (zh) * | 2020-12-11 | 2024-03-08 | 华润数字科技有限公司 | 知识图谱的语义问答方法、装置、计算机设备及存储介质 |
CN112784599B (zh) * | 2020-12-23 | 2024-05-10 | 北京百度网讯科技有限公司 | 诗句的生成方法、装置、电子设备和存储介质 |
CN113486071B (zh) * | 2021-07-27 | 2022-04-26 | 掌阅科技股份有限公司 | 基于电子书的搜索方法、服务端、客户端及系统 |
CN114201587B (zh) * | 2022-02-18 | 2022-06-07 | 广州极天信息技术股份有限公司 | 一种基于本体的搜索意图表达方法及系统 |
CN114741627B (zh) * | 2022-04-12 | 2023-03-24 | 中国人民解放军32802部队 | 面向互联网的辅助信息搜索方法 |
CN116738054B (zh) * | 2023-06-19 | 2024-08-23 | 联洋国融(上海)科技有限公司 | 一种结合用户意图的文本深度分析方法 |
CN116501841B (zh) * | 2023-06-26 | 2023-09-08 | 深圳市唯特视科技有限公司 | 数据模型模糊查询方法、系统及存储介质 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014179418A2 (en) * | 2013-05-03 | 2014-11-06 | Facebook, Inc. | Search intent for queries on online social networks |
CN105550190A (zh) * | 2015-06-26 | 2016-05-04 | 许昌学院 | 面向知识图谱的跨媒体检索系统 |
WO2019024704A1 (zh) * | 2017-08-03 | 2019-02-07 | 阿里巴巴集团控股有限公司 | 实体标注方法、意图识别方法及对应装置、计算机存储介质 |
CN109885660A (zh) * | 2019-02-22 | 2019-06-14 | 上海乐言信息科技有限公司 | 一种知识图谱赋能的基于信息检索的问答系统和方法 |
CN110309321A (zh) * | 2019-07-10 | 2019-10-08 | 电子科技大学 | 一种基于图谱表示学习的知识表示学习方法 |
CN110516260A (zh) * | 2019-08-30 | 2019-11-29 | 腾讯科技(深圳)有限公司 | 实体推荐方法、装置、存储介质及设备 |
CN110704743A (zh) * | 2019-09-30 | 2020-01-17 | 北京科技大学 | 一种基于知识图谱的语义搜索方法及装置 |
CN110765275A (zh) * | 2019-10-14 | 2020-02-07 | 平安医疗健康管理股份有限公司 | 搜索方法、装置、计算机设备和存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3557439A1 (en) * | 2018-04-16 | 2019-10-23 | Tata Consultancy Services Limited | Deep learning techniques based multi-purpose conversational agents for processing natural language queries |
-
2020
- 2020-03-11 CN CN202010167600.2A patent/CN111680207B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014179418A2 (en) * | 2013-05-03 | 2014-11-06 | Facebook, Inc. | Search intent for queries on online social networks |
CN105550190A (zh) * | 2015-06-26 | 2016-05-04 | 许昌学院 | 面向知识图谱的跨媒体检索系统 |
WO2019024704A1 (zh) * | 2017-08-03 | 2019-02-07 | 阿里巴巴集团控股有限公司 | 实体标注方法、意图识别方法及对应装置、计算机存储介质 |
CN109885660A (zh) * | 2019-02-22 | 2019-06-14 | 上海乐言信息科技有限公司 | 一种知识图谱赋能的基于信息检索的问答系统和方法 |
CN110309321A (zh) * | 2019-07-10 | 2019-10-08 | 电子科技大学 | 一种基于图谱表示学习的知识表示学习方法 |
CN110516260A (zh) * | 2019-08-30 | 2019-11-29 | 腾讯科技(深圳)有限公司 | 实体推荐方法、装置、存储介质及设备 |
CN110704743A (zh) * | 2019-09-30 | 2020-01-17 | 北京科技大学 | 一种基于知识图谱的语义搜索方法及装置 |
CN110765275A (zh) * | 2019-10-14 | 2020-02-07 | 平安医疗健康管理股份有限公司 | 搜索方法、装置、计算机设备和存储介质 |
Non-Patent Citations (2)
Title |
---|
宁梦飞 ; .基于符号语义映射神经网络模型的知识图谱表示学习算法.计算机与网络.2020,(02),全文. * |
莫益军 ; 王非 ; 黄本雄 ; 涂来 ; .P2P流媒体系统中基于多点获取的快速启动机制.华中科技大学学报(自然科学版).2008,(06),全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN111680207A (zh) | 2020-09-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111680207B (zh) | 一种用于确定用户搜索意图的方法及装置 | |
CN111783419B (zh) | 地址相似度计算方法、装置、设备和存储介质 | |
Zhai et al. | Deepintent: Learning attentions for online advertising with recurrent neural networks | |
CN108959461B (zh) | 一种基于图模型的实体链接方法 | |
CN110704743B (zh) | 一种基于知识图谱的语义搜索方法及装置 | |
CN102202012B (zh) | 通信网络的社团划分方法与系统 | |
CN102737042B (zh) | 建立问句生成模型的方法和装置以及问句生成方法和装置 | |
Puigcerver | A probabilistic formulation of keyword spotting | |
CN103473327A (zh) | 图像检索方法与系统 | |
CN109508385B (zh) | 一种基于贝叶斯网的网页新闻数据中的人物关系分析方法 | |
CN104731882A (zh) | 一种基于哈希编码加权排序的自适应查询方法 | |
CN105631037A (zh) | 一种图像检索方法 | |
CN105843799A (zh) | 一种基于多源异构信息图模型的学术论文标签推荐方法 | |
CN110377684A (zh) | 一种基于用户反馈的空间关键字个性化语义查询方法 | |
CN104794222A (zh) | 网络表格语义恢复方法 | |
Angelovska et al. | Siamese neural networks for detecting complementary products | |
JP3777456B2 (ja) | 日本語形態素解析方法と装置及び辞書未登録語収集方法と装置 | |
Vázquez et al. | Validation of scientific topic models using graph analysis and corpus metadata | |
CN117271894A (zh) | 一种基于混合网络与dpp的论文推荐方法 | |
US11544277B2 (en) | Query term expansion and result selection | |
CN102637202B (zh) | 一种迭代式概念属性名称自动获取方法和系统 | |
CN113312523B (zh) | 字典生成、搜索关键字推荐方法、装置和服务器 | |
CN114757147B (zh) | 一种基于bert的自动分层树扩展方法 | |
CN109271491A (zh) | 基于非结构化文本信息的云服务推荐方法 | |
CN113420139B (zh) | 一种文本匹配方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |