CN108460011B

CN108460011B - 一种实体概念标注方法及系统

Info

Publication number: CN108460011B
Application number: CN201810101830.1A
Authority: CN
Inventors: 任可欣; 冯知凡; 徐也; 陆超; 张扬; 朱勇
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2018-02-01
Filing date: 2018-02-01
Publication date: 2022-03-25
Anticipated expiration: 2038-02-01
Also published as: CN108460011A

Abstract

本申请提供一种实体概念标注方法及系统，所述方法包括：获取输入文本中实体的候选概念；对实体的候选概念进行不相关概念过滤；对过滤后的候选概念进行重启动随机游走排序，根据排序结果标注实体概念。能够得到最符合输入文本当前语境的实体概念，节省了人力成本，可以在开放的变化的概念集合上进行标注，提升了整体标注的准确率。

Description

一种实体概念标注方法及系统

【技术领域】

本申请涉及自然语言处理技术领域，尤其涉及一种实体概念标注方法及系统。

【背景技术】

短文本理解是一项对于机器智能至关重要但又充满挑战的任务，从应用角度来说，短文本理解有益于众多应用，如搜索query理解，自动问答，推荐系统等；从技术角度来说，通过短文本理解可以用来进行知识挖掘来辅助图谱构建。

短文本理解可以分为几个层次，从上之下依次是：意图\主题、实体概念、实体。

概念标注技术是指在输入的短文本语境下，如query、title，标注并输出短文本中的实体在该语境下的合适的概念，实现对实体进行泛化，以达到实现对文本理解的目的。是信息提取、问答系统、句法分析、机器翻译等应用领域重要的基础工具，作为无结构化文本信息提取的重要步骤。

例如：query＝刘德华冰雨，在该语境下刘德华的最佳概念为歌手；query＝刘德华天下无贼，在该语境下刘德华的最佳概念为演员。

传统的实体概念标注技术方案主要有以下三个：

(1)基于规则和词典的方法。由语言专家手工构造规则模板，选用特征诸如标点符号，关键字，指示词，以模式和字符串匹配为主要技术手段。

(2)基于有监督的机器学习方法。基于已经标注好的样本数据，训练诸如条件随机场，隐马尔可夫模型，RNN等序列标注模型，从而对新数据实现标注。

(3)基于无监督的机器学习方法。依赖建立的知识库(基础数据为实体-概念对)，基于图的游走的模型，实现对短文本的标注。

但是，上述技术方案存在很多问题：

(1)基于规则和字典的方法，需要领域专家配置规则，一般在小数据集上准确较高，但是召回低，并且很难扩展到多领域，领域专家配置规则人力成本较大，并且系统可移植性低，不同的系统需要语言学家重新书写规则，过程耗时建设周期长。

(2)基于有监督的机器学习的方法，目前主流的解决方案，为了取得比较好的训练效果，需要人力标注高质量的训练模型，人力成本较高，由于是从标注的训练数据中学习，对于未收录实体标注效果较差。此外，该方案只能针对封闭的概念集合进行标注，当出现新概念时，无法识别。

(3)基于无监督的机器学习方法，由于图的游走模型鲁棒性较差，当知识库出现不相关的数据时，极易出现bad case，导致整体的标注准确率降低。

【发明内容】

本申请的多个方面提供一种实体概念标注方法及系统，用以减少实体概念标注的人力成本，提高整体标注准确率。

本申请的一方面，提供一种实体概念标注方法，包括：

获取输入文本中实体的候选概念；

对实体的候选概念进行不相关概念过滤；

对过滤后的候选概念进行重启动随机游走排序，根据排序结果标注实体概念。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，获取输入文本中实体的候选概念包括：

对输入文本进行分词及实体识别；

从知识库中拉取所述实体的全部概念作为候选概念。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述知识库是通过整合类别标签和百科实体分类构建的，通过id组织管理实体-概念；

通过识别到的实体从知识库中拉取到相关id，进而通过相关id拉取到全部概念作为候选概念。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，对实体的候选概念进行不相关概念过滤包括：

将输入文本及实体在知识库中对应的id输入预先训练的xgboost模型，得到知识库中实体对应的id满足输入文本语境的概率，过滤概率低于阈值的id对应的概念。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，训练所述xgboost模型包括:

为输入文本标注实体id作为训练样本；

根据所述训练样本，采用梯度下降法对所述xgboost模型进行训练，使输出结果逼近输入文本标注的实体id。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，对过滤后的候选概念进行重启动随机游走排序，根据排序结果标注实体概念包括：

基于知识库、百科文本和查询日志构建输入文本特征；

根据过滤后的候选概念及输入文本特征建立输入文本的初始语义图；

在初始语义图中进行重启动随机排序，将边权重最大的概念标注为实体概念。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，基于知识库、百科文本和查询日志构建输入文本特征包括：

以百科文本作为语料构建实体-概念特征和概念-概念特征，从查询日志中挖掘指示词-概念特征。

本申请的另一方面，提供一种实体概念标注系统，包括：

候选概念获取模块，用于获取输入文本中实体的候选概念；

不相关概念过滤模块，用于对实体的候选概念进行不相关概念过滤；

标注模块，用于对过滤后的候选概念进行重启动随机游走排序，根据排序结果标注实体概念。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述候选概念获取模块具体用于：

对输入文本进行分词及实体识别；

从知识库中拉取所述实体的全部概念作为候选概念。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述知识库是通过整合类别标签和百科实体分类构建的。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述不相关概念过滤模块具体用于：

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述系统还包括模型训练模块，用于:

为输入文本标注实体id作为训练样本；

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述标注模块具体用于：

基于知识库、百科文本和查询日志构建输入文本特征；

本申请的另一方面，提供一种设备，其特征在于，所述设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现任一上述的方法。

本申请的另一方面，提供一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现任一上述的方法。

由所述技术方案可知，采用本实施例提供的技术方案，能够避免现有技术中需要大量的人力成本，并且标注准确率较低的问题。

【附图说明】

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请一实施例提供的实体识别方法的流程示意图；

图2为本申请另一实施例提供的实体识别系统的结构示意图；

图3为适于用来实现本发明实施例的示例性计算机系统/服务器的框图。

【具体实施方式】

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的全部其他实施例，都属于本申请保护的范围。

另外，本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

本发明中涉及的名词解释如下：

实体(Entity)：存在于现实世界中并且可以与其他物体区分开来的物体；

Entity Mention：自由文本中可以表示一个实体的字符串；

概念：从一类实体中抽取出共同特征的基础单元；

短文本：比如query、title等不超过15字符的文本；

知识库：存储实体-概念及概念体系的知识库；

泛化：从实体向其概念的扩展；

类别标签：可以聚合一类实体或者概念的集合名称；

百科实体分类：百科实体中表示该实体概念类别的标签；

指示词：可以用来辅助消歧及理解文本的词语(如试听，可以限制其修饰实体的概念为歌曲等)。

图1为本申请一实施例提供的实体概念标注方法的流程图，如图1所示，包括以下步骤：

步骤S11、获取输入文本中实体的候选概念；

步骤S12、对实体的候选概念进行不相关概念过滤；

步骤S13、对过滤后的候选概念进行重启动随机游走排序，根据排序结果标注实体概念。

在步骤S11的一种优选实现方式中，

获取输入文本中实体的候选概念包括：

子步骤S111、对输入文本进行分词及实体识别；

子步骤S112、从知识库中拉取所述实体的全部概念作为候选概念。

在子步骤S111的一种优选实现方式中，

对输入文本进行分词并进行实体标注；根据知识库实体词典，利用前向最大匹配分词方法对输入文本进行匹配；判断命中知识库实体词典的字符串是否符合预设词性规则，将符合预设词性规则的字符串作为实体修正结果；利用所述实体修正结果对自然语言处理分词得到的实体标注结果进行修正。

在子步骤S112的一种优选实现方式中，

对每一个实体，从知识库中拉取所述实体对应的全部概念作为候选概念。

其中，所述知识库是通过整合类别标签和从百科中获取的百科实体分类构建的，其中，类别标签指可以聚合一类实体或者概念的集合名称，百科实体分类指百科实体中表示该实体概念类别的标签。

知识库中，实体-概念是通过id组织管理，拉取候选概念时，先通过识别到的实体从知识库中拉取到相关的全部id，进而通过id拉取到全部概念。

比如，通过输入文本中识别到的实体“李娜”从知识库中拉取到相关的全部id，李娜id1和李娜id2；进而通过id拉取到全部概念：李娜id1---歌手，音乐人；李娜id2---运动员，将拉取到的全部概念作为候选概念。

为了取得比较好的标注效果，需要依赖大规模的知识库，如果知识库数据过少，除了影响标注结果的召回外，也不利于扩充短文本的特征信息，比如query＝花千骨赵丽颖，如果知识库中有赵丽颖的概念为演员，我们就能推断出花千骨的概念是影视作品，而非小说，因为概念间的关系，影视作品和演员相关性更大。在本实施例中，所述知识库收录了3500万的实体-概念数据和60万的概念数据。

优选地，根据预设的实体词典、概念词典、指示词词典，查询分词得到的每个字符串的类型并进行标注。优选地，根据预设的停用词词典，对分词得到的停用词，不进行标注。

例如，对分词得到的每个term字符串进行类型标注，“花雨溪”、“花千骨”为实体，“试听”为指示词；

在步骤S12的一种优选实现方式中，

优选地，将输入文本及实体在知识库中对应的id输入预先训练的xgboost模型，得到知识库中实体对应的id满足输入文本语境的概率，过滤概率低于阈值的id对应的概念。

例如，输入文本为query＝李娜网球冠军，及实体李娜在库中的id：id1,id2，id3…

xgboost模型的输出为：

李娜网球冠军李娜id1(歌手)0.3

李娜网球冠军李娜id2(运动员)0.8

设立预置过滤<0.55的id，对应的过滤id对应的一系列概念，由于知识库中存储的数据，是通过id组织管理，如李娜id1---歌手，音乐人，通过过滤id，进而可以过滤一系列不相关的概念。

训练所述xgboost模型包括:

为输入文本标注实体id作为训练样本；

所述训练样本来自来自百科首句(自动构建)及少部分query中人工标注的结果(由于query人工标注成本大，因此仅采用少部分query进行人工标准)。

例如，网球冠军李娜的百科摘要首句为“李娜，1982年2月26日出生于湖北省武汉市，中国女子网球运动员。”由于知识库中百科数据也是按照id组织管理，可以得到这句话中李娜的实体id，因此可以构造训练样本正例“李娜，XXX，中国女子网球运动员。李娜id1(网球运动员)1(label值，表示正例)”；其他的李娜皆为负例，比如“李娜，XXX，中国女子网球运动员。李娜id2(歌手)0(label值，表示负例)”。

对query的人工标注方法同理。

优选地，根据所述训练样本，采用梯度下降法对所述xgboost模型进行训练包括：

根据所述训练样本中的实体id，从知识库中获取输入文本的先验特征、字符级别特征及语义特征，其中，

先验特征主要指这个id实体的百科pv归一化后的值，及querylog中该实体百科链接点击的pv的归一化值

字符级别特征主要指query上下文的和对应知识库中实体百科摘要信息、义项描述、分类标签的字符串编辑距离，实体交集个数，比如query＝李娜网球冠军，上下文为网球冠军，计算其与不同李娜的百科摘要，义项描述，分类标签的字符串编辑距离和实体交集个数

语义特征主要指预先训练的实体向量和词向量，主要是计算上下文实体和当前实体的相似度，上下文实体和对应实体百科摘要的相似度。比如，query＝李娜网球冠军，上下文实体为网球冠军，通过预先训练的词向量，将网球和冠军，映射到低维稠密的连续空间，词向量示意如下：

[0.5,-0.44,0.7,0.9,………]

同理，对于不同的李娜，根据id可以从知识库中获取预先训练的实体向量，计算两个向量的余弦值作为相似度。

xgboost模型的输出为实体的某个id是否满足输入文本语境，即是否对应于输入文本的概率。

Xgboost模型是boosting分类器的一种，属于集成学习模型，基本思想是把成百上千个分类准确率较低的树模型组合起来，成为一个准确率很高的模型。模型会不断地迭代，每次迭代就生成一颗新的树。而xbgoost是基于Gradient Boosting的思想，其优化目标就是尽可能的逼近输入的label值，即在生成每一棵树的时候采用梯度下降的思想，以之前生成的所有树为基础，不断的学习残差即与label的差值。

由于图游走排序模型鲁棒性较差，当出现较多不相关概念时(多见同名多歧义实体如花雨溪)，会降低概念排序的准确，因此为了提高整体的准确率，通过不相干概念粗过滤步骤，对实体进行部分歧义消解，过滤在该语境下实体一些不相关的概念，降低输入排序模型的噪声，以达到提高重启动图游走模型的鲁棒性及标注准确率的目的。

在步骤S13的一种优选实现方式中，

优选地，包括以下子步骤：

子步骤S131、基于知识库、百科文本和查询日志构建输入文本特征；

子步骤S132、根据过滤后的候选概念及输入文本特征建立输入文本的初始语义图；

子步骤S133、在初始语义图中进行重启动随机排序，将边权重最大的概念标注为实体概念。

在子步骤S131的一种优选实现方式中，

基于知识库、百科文本和查询日志构建输入文本特征包括：

其中，

(1)实体(用e表示)-概念(用c表示)特征反应的是给定实体，其最可能的概念概率先验分布。以百科文本作为语料，统计实体-概念的共现，归一化后作为实体-概念的先验特征即得到p(t|e)。

(2)概念(用c表示)-概念(用c表示)特征反映是概念间的相关性，比如电影—演员的相关性高于电影—游戏，通过概念间的特征限制，来丰富短文本语境语义，其作用主要有两点：

辅助消歧。比如query＝花千骨赵丽颖，赵丽颖的概念是演员，基于概念-概念间的限制，我们可以知道花千骨最可能的概念是电视剧，非小说，因为电视剧-演员的相关性高于小说-演员。

基于语境的动态标注。比如query＝刘德华冰雨，刘德华即是演员又是歌手，冰雨的概念为歌曲，歌手-歌曲的相关性高于演员-歌曲，从而可以标注出在此语境下，刘德华的上位为歌手。

词向量可以捕捉词语间的相关性，通过以百科文本作为语料预先训练词向量，通过将概念向量化，进而计算余弦值来表征概念-概念之间的特征p(c1|c2)。

(3)指示词指可以用来辅助消歧及理解的term，比如试听，可以限制其修饰实体为歌曲。

本实施例中，限制指示词为动词词性。基于querylog及nlpc句法依存工具从querylog挖掘指示词(用t表示)-概念(用c表示)特征。

采用统计的方式来计算p(c|t)的先验特征，由于无法直接得到指示词和概念的共现，借助实体(用e表示)来计算，即计算指示词-实体的共现，并且通过实体获取其概念，从而得到指示词-概念的共现。

优选地，使用nlpc的句法依存工具，得到querylog中每条query的句法依存结果。基于句法依存结果，只考虑动词作为候选指示词且满足主谓及谓宾关系，通过拉取主谓及谓宾关系的实体的概念上位来计算指示词-概念的共现。归一化共现数据，最终得到p(c|t)。

构建指示词-概念特征，可以扩展消歧语境。

比如，query＝花千骨试听，“试听”可以认为是指示词，可以限制其修饰的实体花千骨为歌曲。

在子步骤S132的一种优选实现方式中，

优选地，基于过滤后的候选概念以及实体-概念、概念-概念、指示词-概念特征，构建输入文本的初始语义图。

所述初始语义图是异构的，其节点包含实体，概念，指示词。

在子步骤S133的一种优选实现方式中，

为了避免传统的随机游走方案造成的语义图的局部收敛，采用重启动随机游走算法。重启动随机游走算法是随机游走算法的改进。从图中的某一个节点出发，每一步面临两个选择，随机选择相邻节点，或者返回开始节点。算法包含一个α参数为重启概率，1-α表示移动到相邻节点的概率，经过迭代到达平稳，平稳后得到的概率分布可被看作是受开始节点影响的分布。重启动随机游走可以捕捉两个节点之间多方面的关系，捕捉语义图的整体结构信息。而随机游走反应的是在语义图中节点的重要度。

在构建的实体-概念语义图中，更关注的是实体及其相关概念节点间的关系，而非节点在整张图中的重要性。因此重启动随机游走比随机游走更适合于基于语境的概念标注问题。整体算法步骤如下：

(1)初始化边权重和点权重

令E表示语义图的边权重，初始化E

令V表示语义图的节点权重，初始化V，其中|T|表示实体和指示词的总个数。

(2)更新节点权重

更新公式Vⁿ＝(1-α)E×V^n-1+αV⁰

其中α表示预先设定的重启动参数，其物理意义表示以一定的概率返回开始节点：

(3)更新边权重

更新公式E＝(1-β)×Vⁿ[c]+β×E

其中β表示预先设定的阻尼系数，其物理意义表示以一定的概率跳转到与其直接相连的节点：

(4)重复步骤(2)(3)直至语义图整体收敛

(5)每一个实体节点出边权重最大连接的概念节点，即为符合当前语境下的最优概念。

当重启动随机游走后，花千骨-歌曲的边关系得到了加强，因此在该语境下，花千骨的最佳概念为歌曲。

根据本实施例所述方法，节省了人力成本，可以在开放的变化的概念集合上进行标注，提升了整体标注的准确率。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

在所述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

图2为本申请一实施例提供的实体概念标注系统的结构图，如图2所示，包括：

候选概念获取模块21，用于获取输入文本中实体的候选概念；

不相关概念过滤模块22，用于对实体的候选概念进行不相关概念过滤；

标注模块23，用于对过滤后的候选概念进行重启动随机游走排序，根据排序结果标注实体概念。

在候选概念获取模块21的一种优选实现方式中，

候选概念获取模块21包括：

实体识别子模块211，用于对输入文本进行分词及实体识别；

拉取子模块212，用于从知识库中拉取所述实体的全部概念作为候选概念。

在实体识别子模块211的一种优选实现方式中，

在拉取子模块212的一种优选实现方式中，

优选地，候选概念获取模块21还包括类型标注子模块213，用于根据预设的实体词典、概念词典、指示词词典，查询分词得到的每个字符串的类型并进行标注。优选地，根据预设的停用词词典，对分词得到的停用词，不进行标注。

在不相关概念过滤模块22的一种优选实现方式中，

xgboost模型的输出为：

李娜网球冠军李娜id1(歌手) 0.3

李娜网球冠军李娜id2(运动员) 0.8

优选地，所述系统还包括模型训练模块24，用于训练所述xgboost模型:

为输入文本标注实体id作为训练样本；

对query的人工标注方法同理。

[0.5,-0.44,0.7,0.9,………]

在标注模块23的一种优选实现方式中，

优选地，标注模块23包括以下子模块：

文本特征构建模块231，用于基于知识库、百科文本和查询日志构建输入文本特征；

语义图建立子模块232，用于根据过滤后的候选概念及输入文本特征建立输入文本的初始语义图；

重启动随机排序子模块233，用于在初始语义图中进行重启动随机排序，将边权重最大的概念标注为实体概念。

在文本特征构建模块231的一种优选实现方式中，

基于知识库、百科文本和查询日志构建输入文本特征包括：

其中，

构建指示词-概念特征，可以扩展消歧语境。

在语义图建立子模块232的一种优选实现方式中，

在重启动随机排序子模块233的一种优选实现方式中，

(1)初始化边权重和点权重

令E表示语义图的边权重，初始化E

(2)更新节点权重

更新公式Vⁿ＝(1-α)E×V^n-1+αV⁰

(3)更新边权重

更新公式E＝(1-β)×Vⁿ[c]+β×E

(4)重复步骤(2)(3)直至语义图整体收敛

根据本实施例所述系统，节省了人力成本，可以在开放的变化的概念集合上进行标注，提升了整体标注的准确率。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，所述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的方法和装置，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。所述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

图3示出了适于用来实现本发明实施方式的示例性计算机系统/服务器012的框图。图3显示的计算机系统/服务器012仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图3所示，计算机系统/服务器012以通用计算设备的形式表现。计算机系统/服务器012的组件可以包括但不限于：一个或者多个处理器或者处理单元016，系统存储器028，连接不同系统组件(包括系统存储器028和处理单元016)的总线018。

总线018表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(ISA)总线，微通道体系结构(MAC)总线，增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。

计算机系统/服务器012典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机系统/服务器012访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

系统存储器028可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(RAM)030和/或高速缓存存储器032。计算机系统/服务器012可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统034可以用于读写不可移动的、非易失性磁介质(图3未显示，通常称为“硬盘驱动器”)。尽管图3中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线018相连。存储器028可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本发明各实施例的功能。

具有一组(至少一个)程序模块042的程序/实用工具040，可以存储在例如存储器028中，这样的程序模块042包括——但不限于——操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块042通常执行本发明所描述的实施例中的功能和/或方法。

计算机系统/服务器012也可以与一个或多个外部设备014(例如键盘、指向设备、显示器024等)通信，在本发明中，计算机系统/服务器012与外部雷达设备进行通信，还可与一个或者多个使得用户能与该计算机系统/服务器012交互的设备通信，和/或与使得该计算机系统/服务器012能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口022进行。并且，计算机系统/服务器012还可以通过网络适配器020与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图3所示，网络适配器020通过总线018与计算机系统/服务器012的其它模块通信。应当明白，尽管图3中未示出，可以结合计算机系统/服务器012使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

处理单元016通过运行存储在系统存储器028中的程序，从而执行本发明所描述的实施例中的功能和/或方法。

上述的计算机程序可以设置于计算机存储介质中，即该计算机存储介质被编码有计算机程序，该程序在被一个或多个计算机执行时，使得一个或多个计算机执行本发明上述实施例中所示的方法流程和/或装置操作。

随着时间、技术的发展，介质含义越来越广泛，计算机程序的传播途径不再受限于有形介质，还可以直接从网络下载等。可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于——无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种实体概念标注方法，其特征在于，包括：

获取输入文本中实体的候选概念；

根据实体id从知识库中获取输入文本的先验特征、字符级别特征及语义特征，得到知识库中实体对应的id满足输入文本语境的概率，以对实体的候选概念进行不相关概念过滤；

2.根据权利要求1所述的方法，其特征在于，获取输入文本中实体的候选概念包括：

对输入文本进行分词及实体识别；

从知识库中拉取所述实体的全部概念作为候选概念。

3.根据权利要求2所述的方法，其特征在于，

所述知识库是通过整合类别标签和百科实体分类构建的，通过id组织管理实体-概念；

4.根据权利要求1所述的方法，其特征在于，对实体的候选概念进行不相关概念过滤包括：

5.根据权利要求4所述的方法，其特征在于，训练所述xgboost模型包括:

为输入文本标注实体id作为训练样本；

6.根据权利要求1所述的方法，其特征在于，对过滤后的候选概念进行重启动随机游走排序，根据排序结果标注实体概念包括：

基于知识库、百科文本和查询日志构建输入文本特征；

7.根据权利要求6所述的方法，其特征在于，

基于知识库、百科文本和查询日志构建输入文本特征包括：

8.一种实体概念标注系统，其特征在于，包括：

候选概念获取模块，用于获取输入文本中实体的候选概念；

不相关概念过滤模块，用于根据实体id从知识库中获取输入文本的先验特征、字符级别特征及语义特征，得到知识库中实体对应的id满足输入文本语境的概率，以对实体的候选概念进行不相关概念过滤；

9.根据权利要求8所述的系统，其特征在于，所述候选概念获取模块具体用于：

对输入文本进行分词及实体识别；

从知识库中拉取所述实体的全部概念作为候选概念。

10.根据权利要求9所述的系统，其特征在于，所述知识库是通过整合类别标签和百科实体分类构建的。

11.根据权利要求8所述的系统，其特征在于，所述不相关概念过滤模块具体用于：

12.根据权利要求11所述的系统，其特征在于，所述系统还包括模型训练模块，用于:

为输入文本标注实体id作为训练样本；

13.根据权利要求8所述的系统，其特征在于，所述标注模块具体用于：

基于知识库、百科文本和查询日志构建输入文本特征；

14.根据权利要求13所述的系统，其特征在于，所述标注模块具体用于：

15.一种设备，其特征在于，所述设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-7中任一所述的方法。

16.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-7中任一所述的方法。