CN110347701B - 一种面向实体检索查询的目标类型标识方法 - Google Patents
一种面向实体检索查询的目标类型标识方法 Download PDFInfo
- Publication number
- CN110347701B CN110347701B CN201910573649.5A CN201910573649A CN110347701B CN 110347701 B CN110347701 B CN 110347701B CN 201910573649 A CN201910573649 A CN 201910573649A CN 110347701 B CN110347701 B CN 110347701B
- Authority
- CN
- China
- Prior art keywords
- type
- query
- entity
- types
- similarity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2452—Query translation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
Abstract
本发明公开了一种面向实体检索查询的目标类型标识方法,首先构造目标实体类型标识任务训练集,采用DBpedia本体作为类型分类树,通过众包的形式收集查询集DBpedia‑Entity v1中全部查询的目标类型注释;然后对现有自动标识类型方法的语言模型特征、类型标签特征及类型与查询相似性度量方法特征进行分析,共提取N个用于类型学习排序LTR方法的特征;通过学习排序方法对N个特征组成的训练数据进行监督学习,确定查询测试集,进行目标类型标识,输出类型排序结果,本发明解决了现有技术中存在的类型自动标识准确率低以及标识的类型不具有代表性的问题。
Description
技术领域
本发明属于查询理解和语义搜索技术领域,具体涉及一种面向实体检索查询的目标类型标识方法。
背景技术
近年来,实体检索在信息检索占比逐渐上升,其根据用户的查询返回特定实体或实体属性。在实体检索中对查询进行理解,标识出查询的目标实体类型可以帮助提高检索性能以及搜索体验。实体的一个特征是它们具有类型细信息,其中类型可表示为层次结构,即类型分类系统。实体类型的重要性已通过许多实体检索解决方案得到验证,当查询与目标类型信息互补时,可提高实体检索性能。在TREC和INEX等信息检索竞赛的相关实体排名任务中,查询题目提供目标类型,即已知目标实体类型,但这是一种理想化的情况。在实际搜索场景中,由于用户习惯使用单一搜索框架,在查询时要求用户标注类型可能会导致认知过载。为解决这一问题,需要根据查询关键字自动标识目标实体类型。
目标实体类型标识任务的主要目的是从类型分类系统中自动标识查询的最具体目标类型,要求标识出的类型足够涵盖所有相关实体。目标实体类型标识可看作为类型排序任务。
假设知识库中每个实体e都有一个描述文档d及分配给实体e的相关类型其中类型属于类型分类系统对于每个查询q,由一组关键字组成q=(qt 1,qt 2,...,qt |q|),P(q|c)表示给定类型生成查询的概率,返回的目标类型排序结果按此概率降序进行排列。
现有方法主要包括以下两种:
1)以类型为中心方法(CCM)根据属于该类型所有实体的上下文为每个类型构建生成文档(profile),类型的生成文档与查询的文本相似性可代表类型标签与查询语句的相关性:
2)以实体为中心方法(ECM)直接对单个实体进行建模代替创建类型生成文档,根据实体与查询的相关性对实体进行排名,然后查看排名结果排名靠前的K个实体所具有类型,将所有属于类型的实体与查询的相关性得分进行相加,得到类型的最终得分。
其中,Rk(q)是与查询q的相关性Top-K排名的实体集合。scoreM(e,q)为基于标准检索模型方法对实体e的检索得分。w(e,c)表示实体类型关联权重。scoreECM(q,c)表示以实体为中心方法的目标类型得分。
以类型为中心方法CCM与以实体为中心方法ECM从不同方面考虑了目标类型标识任务。现有方法存在以下两点缺陷:第一,以类型为中心方法整体准确率低于以实体为中心方法;第二,以实体为中心方法则更多地返回顶级类型,排序结果中靠前的类型通常与正确的目标类型在分类系统中处于同一分支,类型不够具体,不具有代表性,在进行实体检索时无法过滤不相关实体,影响了知识库在实体检索中使用的正确性和广泛性。但二者之间具有一定的互补性,本发明将这两种方法进行结合并加以利用。
发明内容
本发明的目的是提供一种面向实体检索查询的目标类型标识方法,解决了现有技术中存在的类型自动标识准确率低以及标识的类型不具有代表性的问题。
本发明所采用的技术方案是,一种面向实体检索查询的目标类型标识方法,具体按照以下步骤实施:
步骤1、构造目标实体类型标识任务训练集,采用DBpedia本体作为类型分类树,通过众包的形式收集查询集DBpedia-Entity v1中全部查询的目标类型注释;
步骤2、对现有自动标识类型方法的语言模型特征、类型标签特征及类型与查询相似性度量方法特征进行分析,共提取N个用于类型学习排序LTR方法的特征;
步骤3、通过学习排序方法对步骤2中提取的N个特征组成的训练数据进行监督学习,得到分类结果;
步骤4、确定查询测试集,进行目标类型标识,查询测试集采用从多个与实体相关的基准评估活动中合成的查询,查询包含简短的关键字查询到自然语言查询,任务描述如下:
评估:对于查询q每个返回的类型ci根据其在排序列表中的位置标记一个得分;
步骤5、输出类型排序结果,实现对实体检索查询的目标类型标识。
本发明的特点还在于,
步骤1具体按照以下步骤实施:
步骤1.1、:由语言模型LM实现的以类型为中心的方法CCM-LM、文档检索BM25算法实现的以类型为中心的方法CCM-BM25、语言模型LM实现的以实体为中心的方法ECM-LM、文档检索BM25算法实现的以实体为中心的方法ECM-BM25四种基础检索方法构造目标实体候选类型集合,每种方法选取类型排名结果中的前10种类型,此外,还包括标准目标实体类型,以确保在收集人工注释时考虑到所有候选类型;
步骤1.2:对每个查询的候选类型进行批处理注释,使集合中的类型均成为目标类型的候选,如果某些查询的候选类型数量较大,将其分解为多个子任务,对于每个处于分类树中深度为1的顶级类型,将其所有子类型均放在同一个子任务中;
步骤1.3:对每个查询进行目标类型注释,注释出的类型涵盖所有相关实体,查询的所有候选类型都在一个子任务中,候选类型由在步骤1.2中标注的类型组成,根据其层次结构由顶级类型至最具体类型进行排列。
步骤2中使用文档检索模型BM25和语言模型LM对基于以类型为中心方法CCM和以实体为中心方法ECM进行实现,将以类型为中心方法CCM与以实体为中心方法ECM标识的类型在排序列表中的得分作为类型学习排序LTR方法的语言模型特征,现有自动标识类型方法的语言模型特征如下:
CCM方法根据属于该类型的所有实体的上下文为每个类型构建生成文档,这些类型的表示像文档一样排列,使用标准检索方法对类型文档进行排序,实体的类型中关键字频率计算公式如下:
其中,f(qt,d))是关键字qt在类型描述文档d中出现的频率,w(e,c)表示实体类型关联权重,w(e,c)表达如下:
ECM方法将属于给定类型c的实体与查询q的相关性得分相加总和作为该类型的最终排序得分,计算公式为:
其中,Rk(q)表示与查询q的相关性Top-K排名的实体集合,scoreM(e,q)为基于标准检索模型方法对实体e的检索得分,w(e,c)表示实体类型关联权重,scoreECM(q,c)表示以实体为中心方法的目标类型得分。
步骤2中给定DBpedia本体类型分类树,对类型标签在类型分类树中的特征进行分析,类型标签特征如下:
1)类型深度:提取类型在分类系统中归一化深度作为类型标签特征;
2)子类型数量:提取类型在分类树中子类型数量特征。类型越具体,其在类型分类树中所处的层次越深,该类型的子类型数量就越少;
3)兄弟类型数量:提取类型在分类树中兄弟类型数量特征。类型越具体,其在类型分类树中所处的层次越深,该类型的兄弟类型数量就越多;
4)类型覆盖实体数量:在类型分类系统中分配给类型的实体数量。
步骤2中对类型标签的特异性特征以及类型与查询间的相似性度量特征进行分析,提取类型与查询相似性度量特征,首先,提取,三种基于统计学的类型标签特征;其次,使用Jaccard相似度方法计算类型与查询之间词项相似度,提取三个查询与类型标签之间相似度的特征;最后,使用余弦相似度方法计算查询与类型标签之间的词向量相似度,同样提取三个查询与类型标签之间相似度的特征,类型与查询相似性度量方法特征特征如下:
1)类型标签长度:类型标签长度定义为类型中词项的个数;
2)IDF值总和,类型标签中各个词项w的IDF值的总和,表示为:
Sum_idf(c)=∑w∈cIDF(w) (7);
3)平均IDF值:类型标签中各个词项w的IDF值的平均值,表示为:
Avg_idf(c)=∑w∈cIDF(w)/length(c) (8);
4)基于词项的Jaccard相似度:利用n-gram模型生成查询与类型标签中连续n个词项的集合,通过Jaccard相似度计算词项之间相似度,其中n≤2;
5)基于词项中名词的Jaccard相似度:对上一个特征进行进一步的限制,其中n=1,即只计算单个词项的相似度,且查询与类型标签中通过n-gram模型生成的词项集合中只包含名词;
6)基于词向量的余弦相似度:使用word2vec工具包提供的预训练的词嵌入向量,通过余弦相似度方法计算查询和类型标签的word2vec向量的相似度:
Sim_cos_aggr(q,c)=cos(w2v(q),w2v(c)) (9)
其中,w2v(q)为使用word2vec工具包表示查询q的词向量,w2v(c)为使用word2vec工具包表示类型c的词向量;
7)基于词向量的余弦相似度最大值:通过余弦相似度方法计算查询和类型标签中各个词项的word2vec向量对的相似度最大值:
8)基于词向量的余弦相似度平均值
步骤3具体按照以下步骤实施:
步骤3.1、假设训练集由n个查询qi,i=1,...,n组成,由特征向量表示,其中m(i)是查询qi在步骤1中标注的相应相关性判断,在学习阶段,使用随机森林算法学习排名模型,根据最小化损失函数L(Y,f(x))确定特征组合方式,f(x)表示预测值,Y表示真实值,使得排序模型的输出尽可能准确地预测训练集中的真实标签,在测试阶段,将待测试查询输入到学习得到的排序模型中,根据相关性得分返回排序列表,即为最终排序任务结果;
步骤3.2、采用随机森林回归算法作为监督学习排序方法,构建随机森林步骤如下:假设随机森林中训练集大小为n,每个样本中特征个数为F,首先,通过自抽样方法bootstrap方法从步骤1的训练集中随机有放回地抽取大小为n的训练样本,据此构建对应决策树,每棵决策树的训练集不同,并且训练集中包含重复训练样本;同时,在选择节点特征构建决策树时,从全部F个特征中均匀随机抽取f个特征子集,其中f<<F,在f个特征中选择一个最优分裂特征参与节点分裂,重复以上两个步骤构建决策树,生成随机森林,对每棵决策树的分类结果进行投票,最终分类结果采取多数投票策略。
步骤3具体按照以下步骤实施:
对特征进行排序,分析特征对类型标签的辨别能力,其中,基于词向量的余弦相似度,基于词向量的余弦相似度最大值和基于词向量的余弦相似度平均值三个特征的信息增益值越高,表明类型与查询相似性度量方法特征越有效。
本发明的有益效果是,一种面向实体检索查询的目标类型标识方法,该方法包含语言模型特征、类型标签特征及类型与查询相似性度量方法特征的基于LTR监督学习方法,解决了根据类型层次结构为查询自动标识目标类型的问题,提高了类型标识的准确性以及有效性,并且帮助实体检索提高检索性能以及检索体验。
附图说明
图1是本发明的研究过程流程图;
图2是学习排序方法过程;
图3是随机森林算法示例图;
图4是采用本发明方法与CCM和ECM方法在4种查询集上的类型标注准确率对比结果;
图5是顶级类型示例图。
具体实施方式
下面结合附图和具体实施方式对本发明进行详细说明。
本发明一种面向实体检索查询的目标类型标识方法,流程图如图1所示,具体按照以下步骤实施:
步骤1、构造目标实体类型标识任务训练集,采用DBpedia本体作为类型分类树,通过众包的形式收集查询集DBpedia-Entity v1中全部查询的目标类型注释;
步骤2、对现有自动标识类型方法的语言模型特征、类型标签特征及类型与查询相似性度量方法特征进行分析,共提取N个用于类型学习排序LTR方法的特征;
步骤3、通过学习排序方法对步骤2中提取的N个特征组成的训练数据进行监督学习,得到分类结果;
步骤4、确定查询测试集,进行目标类型标识,查询测试集采用从多个与实体相关的基准评估活动中合成的查询,查询包含简短的关键字查询到自然语言查询,任务描述如下:
评估:对于查询q每个返回的类型ci根据其在排序列表中的位置标记一个得分;
步骤5、输出类型排序结果,实现对实体检索查询的目标类型标识。
其中,步骤1具体按照以下步骤实施:
步骤1.1、:由语言模型LM实现的以类型为中心的方法CCM-LM、文档检索BM25算法实现的以类型为中心的方法CCM-BM25、语言模型LM实现的以实体为中心的方法ECM-LM、文档检索BM25算法实现的以实体为中心的方法ECM-BM25四种基础检索方法构造目标实体候选类型集合,每种方法选取类型排名结果中的前10种类型,此外,还包括标准目标实体类型,以确保在收集人工注释时考虑到所有候选类型;
步骤1.2:对每个查询的候选类型进行批处理注释,使集合中的类型均成为目标类型的候选,如果某些查询的候选类型数量较大,将其分解为多个子任务,对于每个处于分类树中深度为1的顶级类型,将其所有子类型均放在同一个子任务中;
步骤1.3:对每个查询进行目标类型注释,注释出的类型涵盖所有相关实体,查询的所有候选类型都在一个子任务中,候选类型由在步骤1.2中标注的类型组成,根据其层次结构由顶级类型至最具体类型进行排列。
如图2所示,步骤2中使用文档检索模型BM25和语言模型LM对基于以类型为中心方法CCM和以实体为中心方法ECM进行实现,将以类型为中心方法CCM与以实体为中心方法ECM标识的类型在排序列表中的得分作为类型学习排序LTR方法的语言模型特征,现有自动标识类型方法的语言模型特征如下:
CCM方法根据属于该类型的所有实体的上下文为每个类型构建生成文档,这些类型的表示像文档一样排列,使用标准检索方法对类型文档进行排序,实体的类型中关键字频率计算公式如下:
其中,f(qt,d))是关键字qt在类型描述文档d中出现的频率,w(e,c)表示实体类型关联权重,w(e,c)表达如下:
ECM方法将属于给定类型c的实体与查询q的相关性得分相加总和作为该类型的最终排序得分,计算公式为:
其中,Rk(q)表示与查询q的相关性Top-K排名的实体集合,scoreM(e,q)为基于标准检索模型方法对实体e的检索得分,w(e,c)表示实体类型关联权重,scoreECM(q,c)表示以实体为中心方法的目标类型得分。
步骤2中给定DBpedia本体类型分类树,对类型标签在类型分类树中的特征进行分析,类型标签特征如下:
1)类型深度:提取类型在分类系统中归一化深度作为类型标签特征;
2)子类型数量:提取类型在分类树中子类型数量特征。类型越具体,其在类型分类树中所处的层次越深,该类型的子类型数量就越少;
3)兄弟类型数量:提取类型在分类树中兄弟类型数量特征。类型越具体,其在类型分类树中所处的层次越深,该类型的兄弟类型数量就越多;
4)类型覆盖实体数量:在类型分类系统中分配给类型的实体数量。
步骤2中对类型标签的特异性特征以及类型与查询间的相似性度量特征进行分析,提取类型与查询相似性度量特征,首先,提取,三种基于统计学的类型标签特征;其次,使用Jaccard相似度方法计算类型与查询之间词项相似度,提取三个查询与类型标签之间相似度的特征;最后,使用余弦相似度方法计算查询与类型标签之间的词向量相似度,同样提取三个查询与类型标签之间相似度的特征,类型与查询相似性度量方法特征特征如下:
1)类型标签长度:类型标签长度定义为类型中词项的个数;
2)IDF值总和,类型标签中各个词项w的IDF值的总和,表示为:
Sum_idf(c)=∑w∈cIDF(w) (7);
3)平均IDF值:类型标签中各个词项w的IDF值的平均值,表示为:
Avg_idf(c)=∑w∈cIDF(w)/length(c) (8);
4)基于词项的Jaccard相似度:利用n-gram模型生成查询与类型标签中连续n个词项的集合,通过Jaccard相似度计算词项之间相似度,其中n≤2;
5)基于词项中名词的Jaccard相似度:对上一个特征进行进一步的限制,其中n=1,即只计算单个词项的相似度,且查询与类型标签中通过n-gram模型生成的词项集合中只包含名词;
6)基于词向量的余弦相似度:使用word2vec工具包提供的预训练的词嵌入向量,通过余弦相似度方法计算查询和类型标签的word2vec向量的相似度:
Sim_cos_aggr(q,c)=cos(w2v(q),w2v(c)) (9)
其中,w2v(q)为使用word2vec工具包表示查询q的词向量,w2v(c)为使用word2vec工具包表示类型c的词向量;
7)基于词向量的余弦相似度最大值:通过余弦相似度方法计算查询和类型标签中各个词项的word2vec向量对的相似度最大值:
8)基于词向量的余弦相似度平均值
步骤3具体按照以下步骤实施:
如图3所示,步骤3.1、假设训练集由n个查询qi,i=1,...,n组成,由特征向量表示,其中m(i)是查询qi在步骤1中标注的相应相关性判断,在学习阶段,使用随机森林算法学习排名模型,根据最小化损失函数L(Y,f(x))确定特征组合方式,f(x)表示预测值,Y表示真实值,使得排序模型的输出尽可能准确地预测训练集中的真实标签,在测试阶段,将待测试查询输入到学习得到的排序模型中,根据相关性得分返回排序列表,即为最终排序任务结果;
步骤3.2、采用随机森林回归算法作为监督学习排序方法,构建随机森林步骤如下:假设随机森林中训练集大小为n,每个样本中特征个数为F,首先,通过自抽样方法bootstrap方法从步骤1的训练集中随机有放回地抽取大小为n的训练样本,据此构建对应决策树,每棵决策树的训练集不同,并且训练集中包含重复训练样本;同时,在选择节点特征构建决策树时,从全部F个特征中均匀随机抽取f个特征子集,其中f<<F,在f个特征中选择一个最优分裂特征参与节点分裂,重复以上两个步骤构建决策树,生成随机森林,对每棵决策树的分类结果进行投票,最终分类结果采取多数投票策略。
步骤3具体按照以下步骤实施:
对特征进行排序,分析特征对类型标签的辨别能力,其中,基于词向量的余弦相似度,基于词向量的余弦相似度最大值和基于词向量的余弦相似度平均值三个特征的信息增益值越高,表明类型与查询相似性度量方法特征越有效。
本发明一种面向实体检索查询的目标类型标识方法中,DBpedia本体基于维基百科中最常用的信息框手动创建,DBpedia本体在最初创建时已覆盖了大部分知识领域。DBpedia本体目前包含739个类型,这些类型组成了一个最大深度为5层的层次结构,并具有2,681个不同的属性描述。由于DBpedia本体层次结构较浅,为本体的可视化提供便利,可在http://mappings.dbpedia.org/server/ontology/classes/在线浏览完整的DBpedia本体结构。关于顶级类型,类型是一个层次结构,如图5所示。在类型层次结构中层级越深的类型越具体。该结构具有如下规则:
1)所有类型都以根节点“Thing”为祖先类型。2)类型之间用“subclassof”表示上下位关系,如<Artist,subclassof,Person>表示类型“Artist”是“Person”的子类。每个类型都具有唯一父类型。3)类型之间的关系是可以继承的,即属于给定类型的实体也属于该类型的所有祖先类型,例如<Zhang_Yimou,typeof,Actor>,而<Actor,subClassOf,Artist>,所以实体“Zhang_Yimou”也具有类型“Artist”。在所有的类型中,对于每个处于类型层次结构中深度为1的类型节点,定义这种类型为顶级类型。
本发明一种面向实体检索查询的目标类型标识方法的实验验证如下:
实验数据:查询测试集采用从多个与实体相关的基准评估活动中合成的467个查询,查询包含简短的关键字查询到自然语言查询,如表1所示。采用DBpedia Ontology(2015-10版本)作为类型分类系统。
表1查询测试集
<u>查询集</u> | <u>查询数量</u> | <u>查询类型</u> | <u>R1</u> | <u>R2</u> |
<u>SemSearch ES</u> | <u>113</u> | <u>命名实体</u> | <u>12.5</u> | <u>3.0</u> |
<u>INEX-LD</u> | <u>99</u> | <u>关键字查询</u> | <u>23.5</u> | <u>9.2</u> |
<u>QALD-2</u> | <u>140</u> | <u>自然语言查询</u> | <u>28.4</u> | <u>29.8</u> |
<u>List Search</u> | <u>115</u> | <u>实体列表</u> | <u>18.1</u> | <u>12.7</u> |
<u>总和</u> | <u>467</u> | <u>21.0</u> | <u>14.7</u> |
任务描述如下:
评估:对于查询q每个返回的类型ci根据其在排序列表中的位置标记一个得分。
本次实验中将ECM和CCM方法作为LTR的基础检索方法,分别采用语言模型(Language Models,LM)和BM25算法实现。对于LM,使用Dirichlet平滑并将平滑参数设置为2000,对于BM25,将参数设置为1.2,参数设置为0.75。对于LTR方法,采用随机森林回归算法作为监督学习排序方法,将树的数量N设置为1000,并将每个树中的最大特征数m设置为特征集大小的10%。
输出类型排序结果:
使用Gini importance对特征进行排序,来分析特征对类型标签的辨别能力。其中,Sim_cos_aggr(q,c),Sim_cos_max(q,c)和Sim_cos_avg(q,c)三个特征的信息增益值较高,表明查询和类型标签之间的文本相似性特征的有效性。表2为根据信息增益排序由高至低逐个增加特征,根据评估指标NDCG@5对类型排名进行准确率的评估结果。
表2根据信息增益逐步添加特征时LTR方法性能
使用NDCG@1和NDCG@5作为类型排名的评估指标。将本发明方法与CCM和ECM方法进行对比,评估结果如表3所示。根据实验结果观察到基于监督学习的LTR方法优于基础方法。
表3目标类型自动标识方法比较
图4为本发明方法与CCM和ECM方法在4种查询集上的类型标注准确率对比结果。从图4可以看出,本发明方法在每个查询类别中的排序准确率均优于其他两种基础方法,表明LTR方法可以自动标识各种查询的目标类型。其中,在QALD-2查询中表现最佳,这些查询大多是完整且清晰的自然语言问题查询。
Claims (5)
1.一种面向实体检索查询的目标类型标识方法,其特征在于,具体按照以下步骤实施:
步骤1、构造目标实体类型标识任务训练集,采用DBpedia本体作为类型分类树,通过众包的形式收集查询集DBpedia-Entity v1中全部查询的目标类型注释;
所述步骤1具体按照以下步骤实施:
步骤1.1、由语言模型LM实现的以类型为中心的方法CCM-LM、文档检索BM25算法实现的以类型为中心的方法CCM-BM25、语言模型LM实现的以实体为中心的方法ECM-LM、文档检索BM25算法实现的以实体为中心的方法ECM-BM25四种基础检索方法构造目标实体候选类型集合,每种方法选取类型排名结果中的前10种类型,此外,还包括标准目标实体类型,以确保在收集人工注释时考虑到所有候选类型;
步骤1.2、对每个查询的候选类型进行批处理注释,使集合中的类型均成为目标类型的候选,如果某些查询的候选类型数量较大,将其分解为多个子任务,对于每个处于分类树中深度为1的顶级类型,将其所有子类型均放在同一个子任务中;
步骤1.3、对每个查询进行目标类型注释,注释出的类型涵盖所有相关实体,查询的所有候选类型都在一个子任务中,候选类型由在步骤1.2中标注的类型组成,根据其层次结构由顶级类型至最具体类型进行排列;
步骤2、对现有自动标识类型方法的语言模型特征、类型标签特征及类型与查询相似性度量方法特征进行分析,共提取N个用于类型学习排序LTR方法的特征;
所述步骤2中使用文档检索模型BM25和语言模型LM对基于以类型为中心方法CCM和以实体为中心方法ECM进行实现,将以类型为中心方法CCM与以实体为中心方法ECM标识的类型在排序列表中的得分作为类型学习排序LTR方法的语言模型特征,现有自动标识类型方法的语言模型特征如下:
CCM方法根据属于该类型的所有实体的上下文为每个类型构建生成文档,这些类型的表示像文档一样排列,使用标准检索方法对类型文档进行排序,实体的类型中关键字频率计算公式如下:
其中,f(qt,d))是关键字qt在类型描述文档d中出现的频率,w(e,c)表示实体类型关联权重,w(e,c)表达如下:
ECM方法将属于给定类型c的实体与查询q的相关性得分相加总和作为该类型的最终排序得分,计算公式为:
其中,Rk(q)表示与查询q的相关性Top-K排名的实体集合,scoreM(e,q)为基于标准检索模型方法对实体e的检索得分,w(e,c)表示实体类型关联权重,scoreECM(q,c)表示以实体为中心方法的目标类型得分;
步骤3、通过学习1排序方法对步骤2中提取的N个特征组成的训练数据进行监督学习,得到分类结果;
步骤4、确定查询测试集,进行目标类型标识,查询测试集采用从多个与实体相关的基准评估活动中合成的查询,查询包含简短的关键字查询到自然语言查询,任务描述如下:
评估:对于查询q每个返回的类型ci根据其在排序列表中的位置标记一个得分;
步骤5、输出类型排序结果,实现对实体检索查询的目标类型标识。
2.根据权利要求1所述的一种面向实体检索查询的目标类型标识方法,其特征在于,所述步骤2中,对于所述步骤1给定的DBpedia本体类型分类树,对类型标签在类型分类树中的特征进行分析,类型标签特征如下:
1)类型深度:提取类型在分类系统中归一化深度作为类型标签特征;
2)子类型数量:提取类型在分类树中子类型数量特征,类型越具体,其在类型分类树中所处的层次越深,该类型的子类型数量就越少;
3)兄弟类型数量:提取类型在分类树中兄弟类型数量特征,类型越具体,其在类型分类树中所处的层次越深,该类型的兄弟类型数量就越多;
4)类型覆盖实体数量:在类型分类系统中分配给类型的实体数量。
3.根据权利要求2所述的一种面向实体检索查询的目标类型标识方法,其特征在于,所述步骤2中对类型标签的特异性特征以及类型与查询间的相似性度量特征进行分析,提取类型与查询相似性度量特征,首先,提取,三种基于统计学的类型标签特征;其次,使用Jaccard相似度方法计算类型与查询之间词项相似度,提取三个查询与类型标签之间相似度的特征;最后,使用余弦相似度方法计算查询与类型标签之间的词向量相似度,同样提取三个查询与类型标签之间相似度的特征,类型与查询相似性度量方法特征特征如下:
1)类型标签长度:类型标签长度定义为类型中词项的个数;
2)IDF值总和,类型标签中各个词项w的IDF值的总和,表示为:
Sum_idf(c)=∑w∈cIDF(w) (7);
3)平均IDF值:类型标签中各个词项w的IDF值的平均值,表示为:
Avg_idf(c)=∑w∈cIDF(w)/length(c) (8);
4)基于词项的Jaccard相似度:利用n-gram模型生成查询与类型标签中连续n个词项的集合,通过Jaccard相似度计算词项之间相似度,其中n≤2;
5)基于词项中名词的Jaccard相似度:对上一个特征进行进一步的限制,其中n=1,即只计算单个词项的相似度,且查询与类型标签中通过n-gram模型生成的词项集合中只包含名词;
6)基于词向量的余弦相似度:使用word2vec工具包提供的预训练的词嵌入向量,通过余弦相似度方法计算查询和类型标签的word2vec向量的相似度:
Sim_cos_aggr(q,c)=cos(w2v(q),w2v(c)) (9)
其中,w2v(q)为使用word2vec工具包表示查询q的词向量,w2v(c)为使用word2vec工具包表示类型c的词向量;
7)基于词向量的余弦相似度最大值:通过余弦相似度方法计算查询和类型标签中各个词项的word2vec向量对的相似度最大值:
8)基于词向量的余弦相似度平均值
4.根据权利要求3所述的一种面向实体检索查询的目标类型标识方法,其特征在于,所述步骤3具体按照以下步骤实施:
步骤3.1、假设训练集由n个查询qi,i=1,...,n组成,由特征向量表示,其中m(i)是查询qi在步骤1中标注的相应相关性判断,在学习阶段,使用随机森林算法学习排名模型,根据最小化损失函数L(Y,f(x))确定特征组合方式,f(x)表示预测值,Y表示真实值,使得排序模型的输出尽可能准确地预测训练集中的真实标签,在测试阶段,将待测试查询输入到学习得到的排序模型中,根据相关性得分返回排序列表,即为最终排序任务结果;
步骤3.2、采用随机森林回归算法作为监督学习排序方法,构建随机森林步骤如下:假设随机森林中训练集大小为n,每个样本中特征个数为F,首先,通过自抽样方法bootstrap方法从步骤1的训练集中随机有放回地抽取大小为n的训练样本,据此构建对应决策树,每棵决策树的训练集不同,并且训练集中包含重复训练样本;同时,在选择节点特征构建决策树时,从全部F个特征中均匀随机抽取f个特征子集,其中f<<F,在f个特征中选择一个最优分裂特征参与节点分裂,重复以上两个步骤构建决策树,生成随机森林,对每棵决策树的分类结果进行投票,最终分类结果采取多数投票策略。
5.根据权利要求4所述的一种面向实体检索查询的目标类型标识方法,其特征在于,所述步骤3具体按照以下步骤实施:
对特征进行排序,分析特征对类型标签的辨别能力,其中,基于词向量的余弦相似度,基于词向量的余弦相似度最大值和基于词向量的余弦相似度平均值三个特征的信息增益值越高,表明类型与查询相似性度量方法特征越有效。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910573649.5A CN110347701B (zh) | 2019-06-28 | 2019-06-28 | 一种面向实体检索查询的目标类型标识方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910573649.5A CN110347701B (zh) | 2019-06-28 | 2019-06-28 | 一种面向实体检索查询的目标类型标识方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110347701A CN110347701A (zh) | 2019-10-18 |
CN110347701B true CN110347701B (zh) | 2021-07-20 |
Family
ID=68177061
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910573649.5A Active CN110347701B (zh) | 2019-06-28 | 2019-06-28 | 一种面向实体检索查询的目标类型标识方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110347701B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110991181B (zh) * | 2019-11-29 | 2023-03-31 | 腾讯科技(深圳)有限公司 | 用于增强已标注样本的方法和设备 |
CN111400429B (zh) * | 2020-03-09 | 2023-06-30 | 北京奇艺世纪科技有限公司 | 文本条目搜索方法、装置、系统及存储介质 |
CN111914162B (zh) * | 2020-06-01 | 2023-03-17 | 大连厚仁科技有限公司 | 一种基于知识图谱的个性化学习方案引导方法 |
CN112182221B (zh) * | 2020-10-12 | 2022-04-05 | 哈尔滨工程大学 | 一种基于改进随机森林的知识检索优化方法 |
CN113268569B (zh) * | 2021-07-19 | 2021-11-16 | 中国电子科技集团公司第十五研究所 | 基于语义的关联词查找方法及装置、电子设备、存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104050224A (zh) * | 2013-03-15 | 2014-09-17 | 国际商业机器公司 | 组合不同类型强制组件以实现延迟类型评估的方法和系统 |
CN105844335A (zh) * | 2015-01-15 | 2016-08-10 | 克拉玛依红有软件有限责任公司 | 一种基于6w知识表示的自学习方法 |
CN106355628A (zh) * | 2015-07-16 | 2017-01-25 | 中国石油化工股份有限公司 | 图文知识点标注方法和装置、图文标注的修正方法和系统 |
CN110166344A (zh) * | 2018-04-25 | 2019-08-23 | 腾讯科技(深圳)有限公司 | 一种身份标识识别方法、装置以及相关设备 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5681041B2 (ja) * | 2011-06-03 | 2015-03-04 | 富士通株式会社 | 名寄せ規則生成方法、装置、およびプログラム |
-
2019
- 2019-06-28 CN CN201910573649.5A patent/CN110347701B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104050224A (zh) * | 2013-03-15 | 2014-09-17 | 国际商业机器公司 | 组合不同类型强制组件以实现延迟类型评估的方法和系统 |
CN105844335A (zh) * | 2015-01-15 | 2016-08-10 | 克拉玛依红有软件有限责任公司 | 一种基于6w知识表示的自学习方法 |
CN106355628A (zh) * | 2015-07-16 | 2017-01-25 | 中国石油化工股份有限公司 | 图文知识点标注方法和装置、图文标注的修正方法和系统 |
CN110166344A (zh) * | 2018-04-25 | 2019-08-23 | 腾讯科技(深圳)有限公司 | 一种身份标识识别方法、装置以及相关设备 |
Non-Patent Citations (1)
Title |
---|
"深度学习实体关系抽取研究综述∗";鄂海红等;《软件学报》;20190331;第1793-1818页 * |
Also Published As
Publication number | Publication date |
---|---|
CN110347701A (zh) | 2019-10-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110347701B (zh) | 一种面向实体检索查询的目标类型标识方法 | |
US10332007B2 (en) | Computer-implemented system and method for generating document training sets | |
CN106156204B (zh) | 文本标签的提取方法和装置 | |
WO2019214245A1 (zh) | 一种信息推送方法、装置、终端设备及存储介质 | |
US20180341686A1 (en) | System and method for data search based on top-to-bottom similarity analysis | |
US20090307213A1 (en) | Suffix Tree Similarity Measure for Document Clustering | |
CN109408743B (zh) | 文本链接嵌入方法 | |
US9569525B2 (en) | Techniques for entity-level technology recommendation | |
CN111221968B (zh) | 基于学科树聚类的作者消歧方法及装置 | |
Noel et al. | Applicability of Latent Dirichlet Allocation to multi-disk search | |
WO2021112984A1 (en) | Feature and context based search result generation | |
CN106844482B (zh) | 一种基于搜索引擎的检索信息匹配方法及装置 | |
Thushara et al. | A model for auto-tagging of research papers based on keyphrase extraction methods | |
Chauhan et al. | Music mood classification based on lyrical analysis of Hindi songs using Latent Dirichlet Allocation | |
Saha et al. | A large scale study of SVM based methods for abstract screening in systematic reviews | |
Ibrahim et al. | A new weighting scheme and discriminative approach for information retrieval in static and dynamic document collections | |
CN114943285B (zh) | 互联网新闻内容数据智能审核系统 | |
CN115269816A (zh) | 基于信息处理方法的核心人员挖掘方法、装置和存储介质 | |
Pomp et al. | Enhancing Knowledge Graphs with Data Representatives. | |
Qureshi et al. | Exploiting Wikipedia to Identify Domain-Specific Key Terms/Phrases from a Short-Text Collection. | |
Zheng | Individualized Recommendation Method of Multimedia Network Teaching Resources Based on Classification Algorithm in a Smart University | |
Akhtar | A Model-Based Research Material Recommendation System For Individual Users | |
CN107679154A (zh) | 一种基于时间轴的历史题解题方法、系统及介质 | |
CN110909533B (zh) | 资源主题判定方法和系统 | |
Ohkawa et al. | Identifying tips Web sites of a specific query based on search engine suggests and the topic distribution |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |