CN106294308A - 命名实体识别方法及装置 - Google Patents
命名实体识别方法及装置 Download PDFInfo
- Publication number
- CN106294308A CN106294308A CN201510256644.1A CN201510256644A CN106294308A CN 106294308 A CN106294308 A CN 106294308A CN 201510256644 A CN201510256644 A CN 201510256644A CN 106294308 A CN106294308 A CN 106294308A
- Authority
- CN
- China
- Prior art keywords
- entity
- probability
- text message
- name
- type
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/289—Object oriented databases
Abstract
本发明公开了一种命名实体识别方法及装置,属于信息处理领域。所述方法包括:从待处理的文本信息中,获取目标命名实体和目标特征词;基于所述目标命名实体,从存储的命名实体、实体类型与实体概率之间的对应关系中,获取多个目标实体类型和多个目标实体概率;基于所述目标特征词和所述多个目标实体类型,从存储的特征词、实体类型与特征词概率之间的对应关系中,获取多个目标特征词概率;基于所述多个目标实体概率和所述多个目标特征词概率,识别所述目标命名实体。本发明基于搜索日志和预设数据库,建立了命名实体、实体类型与实体概率之间的对应关系,以及建立了特征词、实体类型与特征词概率之间的对应关系,从而提高了命名实体识别的准确率。
Description
技术领域
本发明涉及信息处理领域,特别涉及一种命名实体识别方法及装置。
背景技术
命名实体识别是指在文本信息中识别出诸如人名、地名、机构名、电影、小说、游戏等特定实体类型的事物名称或符号的过程。并且命名实体识别一般应用于信息检索、问答系统、句法分析、机器翻译等领域。比如,当命名实体识别应用于机器翻译领域时,当终端接收到待翻译的文本信息时,可以对该文本信息进行命名实体识别,然后根据识别出的命名实体对该文本信息进行翻译,从而提高机器翻译的准确率。
目前,命名实体识别的过程可以包括:当终端接收到待处理的文本信息时,从该待处理的文本信息中识别出目标命名实体,并根据该目标命名实体,从存储的命名实体与实体类型之间的对应关系中,获取该目标命名实体所对应的实体类型,以对该目标命名实体进行识别。
对于只对应一种实体类型的命名实体,上述方法可以准确地识别出命名实体的实体类型,但对于对应多种实体类型的命名实体,上述方法则无法准确地识别出命名实体的实体类型,降低了命名实体识别的准确率。
发明内容
为了解决现有技术的问题,本发明实施例提供了一种命名实体识别方法及装置。所述技术方案如下:
一方面,提供了一种命名实体识别方法,所述方法包括:
从待处理的文本信息中,获取目标命名实体和目标特征词;
基于所述目标命名实体,从存储的命名实体、实体类型与实体概率之间的对应关系中,获取多个目标实体类型和多个目标实体概率;
基于所述目标特征词和所述多个目标实体类型,从存储的特征词、实体类型与特征词概率之间的对应关系中,获取多个目标特征词概率;
基于所述多个目标实体概率和所述多个目标特征词概率,识别所述目标命名实体。
另一方面,提供了一种命名实体识别装置,所述装置包括:
第一获取模块,用于从待处理的文本信息中,获取目标命名实体和目标特征词;
第二获取模块,用于基于所述目标命名实体,从存储的命名实体、实体类型与实体概率之间的对应关系中,获取多个目标实体类型和多个目标实体概率;
第三获取模块,用于基于所述目标特征词和所述多个目标实体类型,从存储的特征词、实体类型与特征词概率之间的对应关系中,获取多个目标特征词概率;
识别模块,用于基于所述多个目标实体概率和所述多个目标特征词概率,识别所述目标命名实体。
本发明实施例提供的技术方案带来的有益效果是:本发明实施例提供的一种命名实体识别方法及装置,命名实体识别装置能够基于搜索日志和预设数据库,建立命名实体、实体类型与实体概率之间的对应关系,以及建立特征词、实体类型与特征词概率之间的对应关系。因此,当命名实体识别装置从待处理的文本信息中,获取到目标命名实体和目标特征词后,可以基于该目标命名实体,从存储的命名实体、实体类型与实体概率之间的对应关系中,获取多个目标实体类型和多个目标实体概率,并基于该目标特征词和该多个目标实体类型,从存储的特征词、实体类型与特征词概率之间的对应关系中,获取多个目标特征词概率,基于该多个目标实体概率和该多个目标特征词概率,识别该目标命名实体,提高了命名实体识别的准确率。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种命名实体识别方法流程图;
图2是本发明实施例提供的另一种命名实体识别方法流程图;
图3是本发明实施例提供的一种命名实体识别装置结构示意图;
图4是本发明实施例提供的另一种命名实体识别装置结构示意图;
图5是本发明实施例提供的一种第一确定模块结构示意图;
图6是本发明实施例提供的另一种第一确定模块结构示意图;
图7是本发明实施例提供的又一种命名实体识别装置结构示意图;
图8是本发明实施例提供的一种第二确定模块结构示意图;
图9是本发明实施例提供的一种第五获取模块结构示意图;
图10是本发明实施例提供的又一种命名实体识别装置结构示意图;
图11是本发明实施例提供的再一种命名实体识别装置结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
在对本发明实施例进行详细地解释说明之前,先对本发明实施例的应用场景予以介绍。命名实体识别一般应用于信息检索、问答系统、句法分析、机器翻译等领域。比如,命名实体识别应用于信息检索领域时,当终端接收到用户输入的文本信息“天龙八部在线观看”后,只有准确识别出该文本信息中包括的命名实体“天龙八部”的实体类型为视频类型时,才能够基于视频类型对用户进行精准的推荐。再比如,命名实体识别应用于机器翻译领域时,当终端接收到用户输入的文本信息“文章马伊俐夫妇”后,只有准确识别出该文本信息中包括的命名实体“文章”的实体类型为人名类型,才能对该文本信息进行准确的翻译。因此,为了提高命名实体识别的准确率,本发明实施例提供了一种命名实体识别方法,具体如下所述。
图1是本发明实施例提供的一种命名实体识别方法的流程图。参见图1,该方法包括:
步骤101,从待处理的文本信息中,获取目标命名实体和目标特征词。
步骤102,基于该目标命名实体,从存储的命名实体、实体类型与实体概率之间的对应关系中,获取多个目标实体类型和多个目标实体概率。
步骤103,基于该目标特征词和该多个目标实体类型,从存储的特征词、实体类型与特征词概率之间的对应关系中,获取多个目标特征词概率。
步骤104,基于该多个目标实体概率和该多个目标特征词概率,识别该目标命名实体。
本发明实施例提供的一种命名实体识别方法,命名实体识别装置能够基于搜索日志和预设数据库,建立命名实体、实体类型与实体概率之间的对应关系,以及建立特征词、实体类型与特征词概率之间的对应关系。因此,当命名实体识别装置从待处理的文本信息中,获取到目标命名实体和目标特征词后,可以基于该目标命名实体,从存储的命名实体、实体类型与实体概率之间的对应关系中,获取多个目标实体类型和多个目标实体概率,并基于该目标特征词和该多个目标实体类型,从存储的特征词、实体类型与特征词概率之间的对应关系中,获取多个目标特征词概率,基于该多个目标实体概率和该多个目标特征词概率,识别该目标命名实体,提高了命名实体识别的准确率。
可选的,基于该目标命名实体,从存储的命名实体、实体类型与实体概率之间的对应关系中,获取多个目标实体类型和多个目标实体概率之前,还包括:
从存储的搜索日志中,获取该搜索日志包括的多个文本信息分别对应的至少一个网址信息和该至少一个网址信息的点击次数,该搜索日志中包括文本信息、网址信息和点击次数之间的对应关系;
基于该多个文本信息分别对应的至少一个网址信息,对该多个文本信息包括的命名实体进行分类,得到多个实体类型;
对于该多个实体类型中的每个实体类型,基于该多个文本信息分别对应的至少一个网址信息的点击次数,分别确定该多个文本信息包括的命名实体属于该实体类型的概率;
将该多个文本信息包括的命名实体、该实体类型和该多个文本信息包括的命名实体属于该实体类型的概率,存储在命名实体、实体类型与实体概率之间的对应关系中。
可选的,基于该多个文本信息分别对应的至少一个网址信息的点击次数,分别确定该多个文本信息包括的命名实体属于该实体类型的概率,包括:
对于该多个文本信息中的每个文本信息,将该文本信息对应的至少一个网址信息的点击次数相加,得到该文本信息的点击总次数;
判断该文本信息的点击总次数是否大于或等于次数阈值;
如果该文本信息的点击总次数大于或等于该次数阈值,则基于该文本信息对应的至少一个网址信息的点击次数和该文本信息的点击总次数,确定该文本信息包括的命名实体属于该实体类型的概率。
可选的,基于该文本信息对应的至少一个网址信息的点击次数和该文本信息的点击总次数,确定该文本信息包括的命名实体属于该实体类型的概率,包括:
从该文本信息对应的至少一个网址信息的点击次数中,选择属于该实体类型的网址信息的点击次数;
基于选择的点击次数和该文本信息的点击总次数,确定该文本信息属于该实体类型的概率,得到文本信息概率;
基于该文本信息包括的命名实体,从该多个文本信息中,选择包括该命名实体的文本信息,得到第一文本信息集合;
确定多个文本信息概率的平均值,得到该文本信息包括的命名实体属于该实体类型的概率,该多个文本信息概率为该第一文本信息集合包括的文本信息属于该实体类型的概率。
可选的,判断所述文本信息的点击总次数是否大于或等于次数阈值之后,还包括:
如果该文本信息的点击总次数小于该次数阈值,则基于该文本信息包括的命名实体,从预设数据库中,获取第一特征向量和该第一特征向量包括的每个特征词的频次,该预设数据库至少包括预设网页数据;
基于第二文本信息集合中每个文本信息包括的命名实体属于该实体类型的概率和该搜索日志,获取实体概率范围包括的多个概率区间对应的第二特征向量和该多个概率区间对应的第二特征向量包括的每个特征词的频次,该第二文本信息集合包括该多个文本信息中点击总次数大于或等于该次数阈值的文本信息;
基于该第一特征向量、该多个概率区间对应的第二特征向量、该第一特征向量包括的每个特征词的频次和该多个概率区间对应的第二特征向量包括的每个特征词的频次,确定该文本信息包括的命名实体属于该实体类型的概率。
可选的,基于第二文本信息集合中每个文本信息包括的命名实体属于该实体类型的概率和该搜索日志,获取实体概率范围包括的多个概率区间对应的第二特征向量和该多个概率区间对应的第二特征向量包括的每个特征词的频次,包括:
对于该多个概率区间中的每个概率区间,基于第二文本信息集合中每个文本信息包括的命名实体属于该实体类型的概率,获取实体概率位于该概率区间的命名实体;
从获取的命名实体中,选择属于该实体类型的第一指定数值个命名实体;
基于选择的命名实体,从该搜索日志中,获取该概率区间对应的第二特征向量和该概率区间对应的第二特征向量包括的每个特征词的频次。
可选的,基于该第一特征向量、该多个概率区间对应的第二特征向量、该第一特征向量包括的每个特征词的频次和该多个概率区间对应的第二特征向量包括的每个特征词的频次,确定该文本信息包括的命名实体属于该实体类型的概率,包括:
对于该多个概率区间中的每个概率区间,选择该第一特征向量和该概率区间对应的第二特征向量中包括的相同特征词,得到多个相同特征词;
从该第一特征向量包括的每个特征词的频次中,选择该多个相同特征词的频次,得到多个第一频次,以及从该概率区间对应的第二特征向量包括的每个特征词的频次中,选择该多个相同特征词的频次,得到多个第二频次;
基于该多个概率区间分别对应的多个第一频次和该多个概率区间分别对应的多个第二频次,确定该第一特征向量和该多个概率区间对应的第二特征向量之间的相似度,得到多个相似度;
基于该多个相似度,确定该文本信息包括的命名实体属于该实体类型的概率。
可选的,将该多个文本信息包括的命名实体、该实体类型和该多个文本信息包括的命名实体属于该实体类型的概率,存储在命名实体、实体类型与实体概率之间的对应关系中之后,还包括:
对于该多个实体类型中的每个实体类型,基于该实体类型、辅助实体类型和该命名实体、实体类型与实体概率之间的对应关系,确定第一命名实体集合和第二命名实体集合,该辅助实体类型为该多个实体类型中除该实体类型之外的任一实体类型;
基于该第一命名实体集合、该第二命名实体集合和该搜索日志,获取多个特征词和该多个特征词属于该实体类型的概率;
将该多个特征词、该实体类型和该多个特征词属于该实体类型的概率,存储在特征词、实体类型与特征词概率之间的对应关系中。
可选的,基于该实体类型、辅助实体类型和该命名实体、实体类型与实体概率之间的对应关系,确定第一命名实体集合和第二命名实体集合,包括:
基于该实体类型,从该命名实体、实体类型与实体概率之间的对应关系中,选择实体概率大于第一概率阈值的命名实体,得到第一命名实体集合;
基于辅助实体类型,从该命名实体、实体类型与实体概率之间的对应关系中,选择实体概率小于第二概率阈值的命名实体,得到第二命名实体集合。
可选的,基于该第一命名实体集合、该第二命名实体集合和该搜索日志,获取多个特征词和该多个特征词属于该实体类型的概率,包括:
从该搜索日志中,获取该第一命名实体集合包括的每个命名实体所在的文本信息和该第二命名实体集合包括的每个命名实体所在的文本信息,得到第三文本信息集合和第四文本信息集合;
从该第三文本信息集合中,分别获取离该第一命名实体集合包括的每个命名实体最近的第二指定数值个词语,得到该多个特征词;
基于该第三文本信息集合和该第四文本信息集合,确定该多个特征词属于该实体类型的概率。
可选的,基于该第三文本信息集合和该第四文本信息集合,确定该多个特征词属于该实体类型的概率,包括:
对于该多个特征词中的每个特征词,从该第三文本信息集合中,获取包括该特征词的文本信息的个数,得到第一实体个数;
从该第四文本信息集合中,获取包括该特征词的文本信息的个数,得到第二实体个数;
基于该第一实体个数和该第二实体个数,计算该特征词属于该实体类型的概率。
上述所有可选技术方案,均可按照任意结合形成本发明的可选实施例,本发明实施例对此不再一一赘述。
图2是本发明实施例提供的一种命名实体识别方法的流程图。参见图2,该方法包括:
步骤201,从存储的搜索日志中,获取该搜索日志包括的多个文本信息分别对应的至少一个网址信息和该至少一个网址信息的点击次数,该搜索日志中包括文本信息、网址信息和点击次数之间的对应关系。
为了对命名实体进行识别,需要在命名实体识别之前,获取命名实体、实体类型与实体概率之间的对应关系,以及特征词、实体类型与特征词概率之间的对应关系,另外,由于搜索日志中包括文本信息、网址信息和点击次数之间的对应关系,因此,可以从存储的搜索日志中,获取该搜索日志包括的文本信息,得到多个文本信息,并基于该多个文本信息,从该搜索日志中,获取该多个文本信息分别对应的至少一个网址信息和该至少一个网址信息的点击次数。
比如,若搜索日志中存储的命名实体、实体类型与实体概率之间的对应关系如表1所示,则可以获取该搜索日志中包括的多个文本信息为“潜伏在线”、“星魂在线观看、“潜伏观看”、“仙剑在线”、“天龙八部高清”、“天龙八部在线”和“平凡的世界在线”等,基于文本信息“潜伏在线”,从该搜索日志中,获取该文本信息对应的至少一个网址信息为“www.youku.com”和“www.4399.com”,其中网址信息“www.youku.com”的点击次数为500次,网址信息“www.4399.com”的点击次数为50次。同样的,还可以从该搜索日志中获取其他的文本信息,及其他的文本信息分别对应的至少一个网址信息和该至少一个网址信息的点击次数,本发明实施例不再一一例举。
需要说明的是,本发明实施例的执行主体可以为终端或者服务器,也即是,命名实体识别装置可以为终端,也可以为服务器,本发明实施例对此不做具体限定。
表1
在本发明实施例中,命名实体识别装置可以基于指定时间段内,用户的网络点击行为来确定搜索日志,具体的操作可以为:当命名实体识别装置接收到用户输入的文本信息后,可以基于该文本信息,获取至少一个与该文本信息相关的网址信息,并将该至少一个网址信息反馈给用户。当用户点击该至少一个网址信息中指定的网址信息时,命名实体识别装置可以基于用户输入的文本信息和该指定的网址信息,从存储的文本信息、网址信息和点击次数之间的对应关系中,查找对应的点击次数,如果查找到,则基于该指定的网址信息的点击次数,对查找的点击次数进行更新,如果未查找到,则基于用户输入的文本信息、该文本信息对应的指定的网址信息和该指定的网址信息的点击次数,在搜索日志包括的文本信息、网址信息和点击次数之间的对应关系中创建对应的记录。
比如,当命名实体识别装置接收到用户输入的文本信息“潜伏在线”后,基于该文本信息,获取至少一个与该文本信息相关的网址信息为“www.youku.com”和“www.4399.com”,如果用户点击的网址信息为“www.youku.com”,且该网址信息的点击次数为1次,则命名实体识别装置可以基于该文本信息“潜伏在线”和该文本信息对应的网址信息“www.youku.com”,从存储的搜索日志中,查找对应的点击次数为499,此时,将查找的点击次数499增加该网址信息“www.youku.com”的点击次数1次,得到对应的点击次数为500次,并对搜索日志中存储的文本信息、网址信息和点击次数之间的对应关系进行更新,得到如上述表1所示的文本信息、网址信息和点击次数之间的对应关系。
可选地,在本发明实施例中,可以通过命名实体识别装置确定搜索日志,当然,实际应用中,还可以通过其他的装置来确定搜索日志,之后,将该搜索日志发送给该命名实体识别装置,本发明实施例对此不做具体限定。
步骤202,基于该多个文本信息分别对应的至少一个网址信息,对该多个文本信息包括的命名实体进行分类,得到多个实体类型。
为了得到多个实体类型,需要从该多个文本信息中,获取该多个文本信息包括的命名实体,并基于该多个文本信息分别对应的至少一个网址信息,对该多个文本信息包括的命名实体进行分类,得到多个实体类型。而基于该多个文本信息分别对应的至少一个网址信息,对该多个文本信息包括的命名实体进行分类,得到多个实体类型的具体操作可以为:对于该多个文本信息中的每个文本信息,对该文本信息对应的至少一个网址信息进行分类,得到多个网址类型,将该多个网址类型确定为该文本信息包括的命名实体的实体类型,进而得到多个实体类型。
比如,对于多个文本信息中的文本信息“潜伏在线”,获取该文本信息对应的至少一个网址信息为“www.youku.com”和www.4399.com”,对该两个网址信息进行分类,得到网址信息“www.youku.com”的网址类型为视频类型,网址信息“www.4399.com”的网址类型为游戏类型,因此,可以将视频类型和游戏类型确定为该文本信息“潜伏在线”中包括的命名实体“潜伏”的实体类型,也即是,该文本信息“潜伏在线”中包括的命名实体“潜伏”的实体类型为视频类型和游戏类型。同理,确定文本信息“星魂在线观看”包括的命名实体“星魂”的实体类型为视频类型和游戏类型;文本信息“潜伏观看”中包括的命名实体“潜伏”的实体类型为视频类型和游戏类型;文本信息“仙剑在线”中包括的命名实体“仙剑”的实体类型为视频类型和游戏类型;文本信息“天龙八部高清”中包括的命名实体“天龙八部”的实体类型为视频类型和游戏类型;文本信息“天龙八部在线”包括的命名实体“天龙八部”的实体类型为视频类型、游戏类型和小说类型;文本信息“平凡的世界在线”中包括的命名实体“平凡的世界”的实体类型为视频类型和小说类型,进而得到多个实体类型为视频类型、游戏类型和小说类型。
需要说明的是,对该多个文本信息分别对应的至少一个网址信息进行分类时,可以通过人工挑选的方法确定网址信息与网址类型之间的对应关系,之后,再通过命名实体识别装置自动进行分类。比如,可以事先基于人工挑选的方法存储网址信息与网址类型之间的对应关系如下述表2所示,之后,命名实体识别装置可以基于该文本信息对应的至少一个网址信息,从存储的网址信息与网址类型之间的对应关系中,获取对应的网址类型,从而得到多个网址类型。本发明实施例不做具体限定。
表2
步骤203,对于该多个实体类型中的每个实体类型,基于该多个文本信息分别对应的至少一个网址信息的点击次数,分别确定该多个文本信息包括的命名实体属于该实体类型的概率。
其中,对于该多个实体类型中的每个实体类型,基于该多个文本信息分别对应的至少一个网址信息的点击次数,分别确定该多个文本信息包括的命名实体属于该实体类型的概率时,可以通过如下(1)-(9)的步骤来实现,包括:
(1)、对于该多个实体类型中的每个实体类型以及该多个文本信息中的每个文本信息,将该文本信息对应的至少一个网址信息的点击次数相加,得到该文本信息的点击总次数。
由于搜索日志中包括多个文本信息,且该多个文本信息分别对应至少一个网址信息,因此,当确定该多个文本信息的点击总次数时,可以分别将该多个文本信息分别对应的至少一个网址信息的点击次数相加,得到该多个文本信息的点击总次数,也即是,对于该多个文本信息中的每个文本信息,将该文本信息对应的至少一个网址信息的点击次数相加,得到该文本信息的点击总次数。
比如,对于该多个实体类型中的视频类型,以及该多个文本信息中的文本信息“潜伏在线”,该文本信息“潜伏在线”对应的至少一个网址信息为“www.youku.com”和“www.4399.com”,其中网址信息“www.youku.com”的点击次数为500次,网址信息“www.4399.com”的点击次数为50次,则将网址信息“www.youku.com”的点击次数500次与网址信息“www.4399.com”的点击次数50次相加后,即可得到文本信息“潜伏在线”的点击总次数为550次。
(2)、判断该文本信息的点击总次数是否大于或等于次数阈值,如果该文本信息的点击总次数大于或等于该次数阈值,则执行步骤(3),如果该文本信息的点击总次数小于该次数阈值,则执行步骤(7)。
在本发明实施例中,命名实体识别装置可以预先设置一个次数阈值,该次数阈值用于判断是否可以直接采用该文本信息的点击总次数和该文本信息对应的至少一个网址信息的点击次数,来确定该文本信息包括的命名实体属于该实体类型的概率,比如,该次数阈值可以为300次,1000次或者2000次等,本发明实施例对此不做具体限定。
因此,如果文本信息的点击总次数大于或等于该次数阈值,则命名实体识别装置可以直接根据该文本信息的点击总次数和该文本信息对应的至少一个网址信息的点击次数,来确定该文本信息包括的命名实体属于该实体类型的概率,也即是执行步骤(3)。如果该文本信息的点击总次数小于该次数阈值,则命名实体装置不可以根据该文本信息的点击总次数和该文本信息对应的至少一个网址信息的点击次数,来确定该文本信息包括的命名实体属于该实体类型的概率,也即是执行步骤(7)。
比如,若命名实体识别装置中预先设置的次数阈值为300次,对于文本信息“潜伏在线”,由于该文本信息的点击总次数为550次,大于次数阈值300次,因此可以基于该文本信息“潜伏在线”的点击总次数和该文本信息“潜伏在线”对应的至少一个网址信息的点击次数,确定该文本信息“潜伏在线”包括的命名实体分别属于该实体类型的概率。
(3)、从该文本信息对应的至少一个网址信息的点击次数中,选择属于该实体类型的网址信息的点击次数。
由于上述步骤202已对该文本信息对应的至少一个网址信息进行分类,且存储了网址信息与网址类型之间的对应关系,因此,命名实体识别装置可以将该实体类型作为网址类型,从该网址信息与网址类型之间的对应关系中,获取对应的网址信息,并将获取的网址信息的点击次数确定为属于该实体类型的网址信息的点击次数。
比如,文本信息“潜伏在线”对应的网址信息为“www.youku.com”和“www.4399.com”,该两个网址信息对应的点击次数分别为500次和50次。将视频类型作为网址类型,并从上述表2存储的网址信息与网址类型之间的对应关系中,获取与视频类型对应的网址信息为“www.youku.com”、“tv.souhu.com”和“www.iqiyi.com”,获取的网址信息中包括文本信息“潜伏在线”对应的网址信息“www.youku.com”,因此可以将网址信息“www.youku.com”的点击次数500次确定为属于视频类型的网址信息的点击次数。
(4)、基于选择的点击次数和该文本信息的点击总次数,确定该文本信息属于该实体类型的概率,得到文本信息概率。
在本发明实施例中,从该至少一个网址信息的点击次数中,选择的属于该实体类型的网址信息的点击次数可以为一个,也可以为多个,当选择的网址信息的点击次数为一个时,可以直接将选择的点击次数除以该文本信息的点击总次数,得到该文本信息属于该实体类型的概率,也即是该文本信息的文本信息概率。而当选择的网址信息的点击次数为多个时,可以将选择的多个网址信息的点击次数相加,并将相加得到的数值除以该文本信息的点击总次数,得到该文本信息属于该实体类型的概率,也即是该文本信息的文本信息概率。
比如,从文本信息“潜伏在线”对应的至少一个网址信息的点击次数中,选择属于视频类型的网址信息为一个,且该网址信息为“www.youku.com”,该网址信息“www.youku.com”的点击次数为500次,因此可以直接将该点击次数500次除以文本信息“潜伏在线”的点击总次数550次,得到文本信息“潜伏在线”属于视频类型的概率为0.91,也即是文本信息“潜伏在线”的文本信息概率为0.91。
(5)、基于该文本信息包括的命名实体,从该多个文本信息中,选择包括该命名实体的文本信息,得到第一文本信息集合。
由于该多个文本信息中可以包括相同的命名实体,因此,基于该文本信息包括的命名实体,可以从该多个文本信息中,获取包括该命名实体的文本信息,从而得到第一文本信息集合。
比如,基于文本信息“潜伏在线”中的命名实体“潜伏”,可以从该多个文本信息中,获取的包括该命名实体“潜伏”的文本信息有“潜伏在线”和“潜伏观看”,从而得到第一文本信息集合{潜伏在线,潜伏观看}。
(6)、确定该多个文本信息概率的平均值,得到该文本信息包括的命名实体属于该实体类型的概率,该多个文本信息概率为第一文本信息集合包括的文本信息属于该实体类型的概率。
在本发明实施例中,通过上述步骤确定出该多个文本信息的文本信息概率之后,也即是,通过上述步骤确定出该多个文本信息分别属于该实体类型的概率之后,为了得到该文本信息包括的命名实体属于该实体类型的概率,可以基于上述步骤(5)获取第一文本信息集合,进而在本步骤中,获取第一文本信息集合包括的每个文本信息属于该实体类型的概率,得到多个文本信息概率。从而计算该多个文本信息概率的平均值,得到该多个文本信息包括的命名实体属于该实体类型的概率。
比如,为了得到文本信息“潜伏在线”中包括的命名实体“潜伏”属于视频类型的概率,可以基于上述步骤(5)获取第一文本信息集合{潜伏在线,潜伏观看},分别获取该第一文本信息集合中“潜伏在线”和“潜伏观看”属于视频类型的概率,得到文本信息“潜伏在线”属于视频类型的概率为0.91,文本信息“潜伏观看”属于视频类型的概率为0.75,则对文本信息“潜伏在线”的文本信息概率0.91和文本信息“潜伏观看”文本信息概率0.75计算平均值后,即可得到该文本信息“潜伏在线”包括的命名实体“潜伏”属于视频类型的概率为0.83。
当该文本信息的点击总次数小于次数阈值时,通过上述步骤(1)-(6)计算该文本信息包括的命名实体属于该实体类型的概率的准确率较低,进而会降低命名实体识别的准确率。因此,该命名实体识别装置可以通过如下步骤(7)-(9)的方式来进行计算,提高计算该文本信息包括的命名实体属于该实体类型的概率的准确性,进而提高命名实体识别的准确率。
(7)、基于该文本信息包括的命名实体,从预设数据库中,获取第一特征向量和该第一特征向量包括的每个特征词的频次,该预设数据库至少包括预设网页数据。
命名实体识别装置基于该文本信息包括的命名实体,从预设数据库中,获取第一特征向量和该第一特征向量包括的每个特征词的频次的具体操作可以为:基于该文本信息包括的命名实体,从预设数据库中,获取包括该命名实体的数据信息,得到多个数据信息,从该多个数据信息中,分别获取距离该命名实体最近的第二指定数值个词语,得到该命名实体的多个特征词,将该命名实体的多个特征词组成第一特征向量,并对该第一特征向量包括的每个特征词,分别统计该特征词在该多个数据信息中出现的次数,得到第一特征向量包括的每个特征词的频次。
比如,当第二指定数值为2时,文本信息“星魂在线观看”的点击总次数为220次,由于文本信息“星魂在线观看”的点击总次数220小于该次数阈值300,因此,基于该文本信息“星魂在线观看”包括的命名实体“星魂”,从预设数据库中,获取包括命名实体“星魂”的数据信息,得到多个数据信息,在该多个数据信息中,可以分别获取距离该命名实体“星魂”最近的2个特征词,假设在本发明实施例中,从该多个数据信息中,获取到该命名实体“星魂”的n个特征词为t1,t2,...,tn,则将这n个特征词进行组合即可得到该命名实体“星魂”的第一特征向量,该第一特征向量可以表示为:N={t1,t2,...,tn},对于第一特征向量N中的每个特征词,分别计算该特征词在该多个数据信息中出现的次数,即可得到每个特征词的频次,比如,特征词t1在该多个文本信息中共出现了x1次,则特征词t1的频次即为x1,特征词t2在该多个文本信息中共出现了x2次,特征词t2的频次即为x2等等。因此,第一特征向量N={t1,t2,...,tn}中每个特征词出现的频次可以表示为X={x1,x2,...,xn}。
需要说明的是,该预设数据库除了包括预设网页数据,还可以包括上述的搜索日志,因此,从预设数据库中,获取包括该命名实体的数据信息,得到的多个数据信息不仅包括预设网络数据中的数据信息,还可以包括搜索日志中包括该命名实体的文本信息,从而可以提高识别该命名实体的准确率。
(8)、基于第二文本信息集合中每个文本信息包括的命名实体属于该实体类型的概率和搜索日志,获取实体概率范围包括的多个概率区间对应的第二特征向量和该多个概率区间对应的第二特征向量包括的每个特征词的频次,该第二文本信息集合包括该多个文本信息中点击总次数大于或等于次数阈值的文本信息。
由于第二文本信息集合包括该多个文本信息中点击总次数大于或等于次数阈值的文本信息,因此,命名实体识别装置可以基于上述步骤(1)至(6)得到第二文本信息集合中每个文本信息包括的命名实体属于该实体类型的概率,之后,命名实体识别装置可以对实体概率范围进行划分,得到多个概率区间,对于该多个概率区间中的每个概率区间,基于第二文本信息集合中每个文本信息包括的命名实体属于该实体类型的概率,获取实体概率位于该概率区间的命名实体,从获取的命名实体中,选择属于该实体类型的第一指定数值个命名实体;并基于选择的命名实体,从搜索日志中,获取该概率区间对应的第二特征向量和该概率区间对应的第二特征向量包括的每个特征词的频次。如此,得到该多个概率区间对应的第二特征向量和该多个概率区间对应的第二特征向量包括的每个特征词的频次。
基于选择的命名实体,从搜索日志中,获取该概率区间对应的第二特征向量和该概率区间对应的第二特征向量包括的每个特征词的频次的具体操作可以为:对于选择的第一指定数值个命名实体中的每个命名实体,基于该命名实体,从搜索日志中,获取包括该命名实体的文本信息,得到至少一个文本信息,从该至少一个文本信息中,分别获取距离该命名实体最近的第二指定数值个词语,得到该命名实体的多个特征词,如此得到选择的第一指定数值个命名实体的特征词。也即是,对于该第一指定数值个命名实体,从包括该第一指定数值个命名实体的文本信息中,分别获取距离该第一指定数值个命名实体最近的第二指定数值个词语,得到该第一指定数值个命名实体的多个特征词。之后,将该第一指定数值个命名实体的多个特征词组成该概率区间对应的第二特征向量,并对该概率区间对应的第二特征向量包括的每个特征词,分别统计该特征词在该多个文本信息中出现的次数,得到该概率区间对应的第二特征向量包括的每个特征词的频次。
比如,将视频类型的实体概率范围划分为5个概率区间,得到概率区间1至概率区间5,其中概率区间1为[0,0.2),概率区间2为[0.2,0.4),概率区间3为[0.4,0.6),概率区间4为[0.6,0.8),概率区间5为[0.8,1]。当第一指定数值为10时,对于视频类型的5个概率区间中的每个概率区间,获取实体概率位于该概率区间的命名实体,从获取的命名实体中,选择属于视频类型的10个命名实体当第二指定数值为2时,对于选择的10个命名实体中的每个命名实体,基于该命名实体,从搜索日志中,获取包括该命名实体的文本信息,得到至少一个文本信息,从该至少一个文本信息中,分别获取距离该命名实体最近的2个特征词,得到包括该10个命名实体的多个文本信息。假设,从包括该10个命名实体的多个文本信息中一共获取了m个特征词t1,t2,...,tm,则将这m个特征词组成该概率区间对应的第二特征向量,则该五个概率区间中概率区间j的第二特征向量可以表示为:Nj={tj1,tj2,...,tjm},其中1≤j≤5,并对该概率区间j对应的第二特征向量中包括的每一个特征词,分别统计该特征词在该多个文本信息中出现的次数,得到的该概率区间j对应的第二特征向量中每个特征词的频次可以为:Yj={yj1,yj2,...,yjm},其中1≤j≤5。
需要说明的是,在本发明实施例中,实体概率范围为0到1,通常命名实体属于某一实体类型的实体概率越接近于1,命名实体识别装置将该命名实体识别为该实体类型的概率越高。对于实体概率范围进行区间划分时,可以划分为5个区间,也可以划分为10个区间或其他任意数值个区间,第一指定数值可以为10,也可以为100或者1000,第二指定数值可以为2,也可以为3或者5,本发明实施例均不做具体限定。
(9)、基于第一特征向量、该多个概率区间对应的第二特征向量、第一特征向量包括的每个特征词的频次和该多个概率区间对应的第二特征向量包括的每个特征词的频次,确定该文本信息包括的命名实体属于该实体类型的概率。
具体地,对于该多个概率区间中的每个概率区间,选择第一特征向量和该概率区间对应的第二特征向量中包括的相同特征词,得到多个相同特征词。从第一特征向量包括的每个特征词的频次中,选择该多个相同特征词的频次,得到多个第一频次,以及从该概率区间对应的第二特征向量包括的每个特征词的频次中,选择该多个相同特征词的频次,得到多个第二频次。如此,得到该多个概率区间分别对应的多个第一频次和该多个概率区间分别对应的多个第二频次,并基于该多个概率区间分别对应的多个第一频次和该多个概率区间分别对应的多个第二频次,确定第一特征向量和该多个概率区间对应的第二特征向量之间的相似度,得到多个相似度。基于该多个相似度,确定该文本信息包括的命名实体属于该实体类型的概率。
其中,基于该多个概率区间分别对应的多个第一频次和该多个概率区间分别对应的多个第二频次,确定第一特征向量和该多个概率区间对应第二特征向量之间的相似度,得到多个相似度的过程可以包括:对于该多个概率区间中的每个概率区间,基于该概率区间对应的多个第一频次和该概率区间对应的多个第二频次,根据如下公式(1),计算该第一特征向量和该概率区间对应的第二特征向量之间的相似度,
上述公式(1)中,N为第一特征向量,Nj为概率区间j对应的第二特征向量,Sim(N,Nj)为第一特征向量N和概率区间j对应的第二特征向量Nj之间的相似度,w为第一特征向量N和概率区间j对应的第二特征向量Nj包括的多个相同特征词的个数,i为多个相同特征词中的第i个特征词,且1≤i≤w,xi为第一特征向量N包括的第i个特征词的第一频次,yji为概率区间j对应的第二特征向量Nj包括的第i个特征词的第二频次。
比如,对于5个概率区间中的概率区间1,选择命名实体“星魂”的第一特征向量N={t1,t2,...,tn}和概率区间1对应的第二特征向量N1={t11,t12,...,t1m}中包括的相同特征词,假设得到了5个相同特征词,该5个相同特征词为t1,t2,t3,t4,t5。从第一特征向量N包括的每个特征词的频次X={x1,x2,...,xn}中选择该5个相同特征词t1,t2,t3,t4,t5的频次分别为x1,x2,x3,x4,x5,得到5个第一频次;再从概率区间1对应的第二特征向量N1包括的每个特征词的频次Y1={y11,y12,...,y1m}中,选择该5个相同特征词t1,t2,t3,t4,t5的频次分别为y11,y12,y13,y14,y15,得到5个第二频次。如此,得到该概率区间1对应的5个第一频次和该概率区间1对应的5个第二频次。
假设概率区间1对应的5个第一频次x1,x2,x3,x4,x5分别为2,3,1,1,2,以及概率区间1对应的5个第二频次y11,y12,y13,y14,y15分别为1,1,3,3,2,将该5个第一频次2,3,1,1,2和5个第二频次1,1,3,3,2代入公式(1),
计算得到该命名实体“星魂”的第一特征向量N和概率区间1的第二特征向量N1之间的相似度Sim(N,N1)为0.76。
其中,基于该多个相似度,确定该文本信息包括的命名实体属于该实体类型的概率的过程可以包括:按照相似度从大到小的顺序,对该多个相似度进行排序,得到相似度顺序,并按照该相似度顺序,从该多个相似度中,选择第三指定数值个相似度,并基于该第三指定数值个相似度,获取第三指定数值个概率区间,该第三指定数值个概率区间与该第三指定数值个相似度对应的第二特征向量一一对应,为了对该第三指定数值个概率区间进行区分,可以对上述步骤(8)中划分的多个概率区间进行编号,比如,第一概率区间的编号为1,概率区间2的编号为2等等。然后计算该第三指定数值个概率区间的编号的平均值,当计算得到的平均值为整数时,直接将该平均值确定为参考概率区间编号;当该平均值不为整数时,将该平均值进行取整,并将取整后的数值确定为该参考概率区间编号。之后,计算该参考概率区间编号对应的概率区间的平均值,得到该文本信息包括的命名实体属于该实体类型的概率。
比如,命名实体“星魂”的第一特征向量N和该5个概率区间对应的第二特征向量N1、N2、N3、N4、N5之间的相似度分别为0.76、0.65、0.81、0.95、0.9,当第三指定数值为3时,按照相似度从大到小的顺序,对该5个相似度进行排序,得到相似度顺序为:0.95>0.9>0.81>0.76>0.65,并按照该相似度顺序,从该多个相似度中,选择3个相似度为0.95、0.9、0.81,并基于该3个相似度,获取对应的3个概率区间分别为概率区间3、概率区间4和概率区间5,计算该3个概率区间的编号3、4和5的平均值为4,由于该平均值为整数,因此,将该平均值4确定为参考概率区间编号,计算该参考概率区间编号4对应的概率区间4的平均值,而概率区间4为[0.6,0.8),因此,计算0.6和0.8的平均值为0.7,因此,确定该文本信息“星魂在线观看”中包括的命名实体“星魂”属于视频类型的实体概率为0.7。
需要说明的是,该第三指定数值是事先设置的,且第三指定数值可以为3,也可以为4或者5等等,本发明实施例不做具体限定。
另外,当该平均值不为整数时,将该平均值进行取整时,可以将该平均值的小数位进行四舍五入;或者对该平均值进行向上取整;或者对该平均值进行向下取整,本发明实施例不做具体限定。
可选的,基于该多个相似度,确定该文本信息包括的命名实体属于该实体类型的概率时,除了上述方法外,还可以包括:从该多个相似度中,选取相似度最高的第二特征向量所对应的概率区间,将该概率区间的平均值确定为该文本信息包括的命名实体属于该实体类型的概率。
比如,从该多个相似度0.76、0.65、0.81、0.95、0.9中,选取最高的相似度为0.95,基于该最高的相似度0.95,获取该最高的相似度对应的第二特征向量N4,以及该第二特征向量N4所对应的概率区间为概率区间4,由于概率区间4为[0.6,0.8),因此,计算0.6和0.8的平均值为0.7,进而确定文本信息“星魂在线观看”中包括的命名实体“星魂”属于视频类型的实体概率为0.7。
可选的,当文本信息的点击总次数小于次数阈值时,本发明实施例不仅可以通过上述(7)-(9)的步骤来确定该文本信息包括的命名实体属于该实体类型的概率,还可以通过如下的方法来确定,包括:基于该文本信息包括的命名实体,从预设数据库中,获取第一特征向量和第一特征向量包括的每个特征词的频次;从第二文本信息集合中每个文本信息包括的命名实体中,选择属于该实体类型的多个命名实体,基于选择的多个命名实体,从搜索日志中,分别获取该多个命名实体对应的第三特征向量,得到多个第三特征向量,以及获取该多个第三特征向量包括的每个特征词的频次;基于第一特征向量、该多个第三特征向量、第一特征向量包括的每个特征词的频次和该多个第三特征向量包括的每个特征词的频次,确定该文本信息包括的命名实体属于该实体类型的概率。
其中,命名实体识别装置基于该文本信息包括的命名实体,从预设数据库中,获取第一特征向量和该第一特征向量包括的每个特征词的频次的方法与上述步骤(7)中的方法相同,本发明实施例在此不再进行详细阐述。
进一步的,基于选择的多个命名实体,从搜索日志中,分别获取该多个命名实体对应的第三特征向量,得到多个第三特征向量,以及获取该多个第三特征向量包括的每个特征词的频次的具体操作可以为:对于选择的多个命名实体中的每个命名实体,基于该命名实体,从搜索日志中,获取包括该命名实体的文本信息,得到多个文本信息,从该多个文本信息中,分别获取距离该命名实体最近的第二指定数值个词语,得到该命名实体的多个特征词,将该多个特征词组成该命名实体对应的第三特征向量,并对该命名实体对应的第三特征向量中包括的每个特征词,分别统计该特征词在该多个文本信息中出现的次数,得到该命名实体对应的第三特征向量包括的每个特征词的频次。如此,得到多个第三特征向量和该多个第三特征向量包括的每个特征词的频次。
基于第一特征向量、该多个第三特征向量、第一特征向量包括的每个特征词的频次和该多个第三特征向量包括的每个特征词的频次,确定该文本信息包括的命名实体属于该实体类型的概率的具体操作可以为:对于该多个第三特征向量中的每个第三特征向量,选择第一特征向量和该第三特征向量中包括的相同特征词,得到多个相同特征词,从第一特征向量包括的每个特征词的频次中,选择该多个相同特征词的频次,得到多个第三频次,以及从该第三特征向量包括的每个特征词的频次中,选择该多个相同特征词的频次,得到多个第四频次。如此,得到该多个第三特征向量分别对应的多个第三频次和多个第四频次。基于该多个第三特征向量分别对应的多个第三频次和多个第四频次,确定第一特征向量和该多个第三特征向量之间的相似度,得到多个相似度。基于该多个相似度,确定该文本信息包括的命名实体属于该实体类型的概率。
其中,基于该多个第三特征向量分别对应的多个第三频次和多个第四频次,确定第一特征向量和该多个第三特征向量之间的相似度,得到多个相似度的过程可以包括:对于该多个第三特征向量中的每个第三特征向量,基于该第三特征向量对应的多个第三频次和多个第四频次,根据上述公式(1)计算该第一特征向量和该第三特征向量之间的相似度,如此,得到第一特征向量和该多个第三特征向量之间的相似度,得到多个相似度。
需要说明的是,基于该第三特征向量对应的多个第三频次和多个第四频次,根据上述公式(1)计算该第一特征向量和该第三特征向量之间的相似度时,上述公式(1)中的N为第一特征向量,Nj为第j个命名实体对应的第三特征向量,Sim(N,Nj)为第一特征向量N和第j个命名实体对应的第三特征向量Nj之间的相似度,w为第一特征向量N和第j个命名实体对应的第三特征向量Nj包括的多个相同特征词的个数,i为多个相同特征词中的第i个特征词,且1≤i≤w,xi为第一特征向量N包括的第i个特征词的第三频次,yji为第j个命名实体对应的第三特征向量Nj包括的第i个特征词的第四频次。
基于该多个相似度,确定该文本信息包括的命名实体属于该实体类型的概率的具体操作可以为:从该多个相似度中,选择最大的相似度,并基于选择的相似度,从该多个第三特征向量中,选择对应的第三特征向量,并将选择的第三特征向量所对应的命名实体属于该实体类型的概率与选择的相似度相乘,得到该文本信息包括的命名实体属于该实体类型的概率。
比如,该多个第三特征向量分别为N1到N6,且该多个相似度分别为0.96、0.88、0.25、0.45、0.58、0.85,从该多个相似度中,选择最大的相似度为0.96,基于该最大的相似度0.96,获取对应的第三特征向量为M1,假设,第三特征向量M1所对应的命名实体为“潜伏”,且该命名实体“潜伏”属于视频类型的实体概率为0.83,计算该实体概率0.83与该最大的相似度0.96的乘积,得到该文本信息“星魂在线观看”包括的命名实体“星魂”属于视频类型的概率为0.8。
步骤204,将该多个文本信息包括的命名实体、该实体类型和该多个文本信息包括的命名实体属于该实体类型的概率,存储在命名实体、实体类型与实体概率之间的对应关系中。
基于上述步骤201至203,确定该多个文本信息包括的命名实体属于该实体类型的概率之后,可以将该多个文本信息包括的命名实体,该实体类型和该多个文本信息包括的命名实体属于该实体类型的概率,存储在命名实体、实体类型与实体概率之间的对应关系中。
比如,对于搜索日志中包括的多个文本信息,该多个文本信息包括的命名实体包括“潜伏”、“天龙八部”、“仙剑”和“星魂”,假如,命名实体“潜伏”属于视频类型的概率为0.83,属于游戏类型的概率为0.17,命名实体“天龙八部”属于视频类型的概率为0.7,属于游戏类型的概率为0.21,属于小说类型的概率为0.09,命名实体“仙剑”属于视频类型的概率为0.2,游戏类型的概率为0.8;命名实体“平凡的世界”属于视频类型的概率为0.25,属于小说类型的概率为0.75;命名实体“星魂”属于视频类型的概率为0.7。因此该多个文本信息包括的命名实体、实体类型与实体概率之间的对应关系可以如表3所示。
表3
步骤205,对于该多个实体类型中的每个实体类型,基于该实体类型、辅助实体类型和该命名实体、实体类型与实体概率之间的对应关系,确定第一命名实体集合和第二命名实体集合,该辅助实体类型为该多个实体类型中除该实体类型之外的任一实体类型。
对于该多个实体类型中的每个实体类型,为了得到第一命名实体集合,可以预先设置该实体类型的第一概率阈值,基于该实体类型,从命名实体、实体类型与实体概率之间的对应关系中,选择实体概率大于第一概率阈值的命名实体,得到第一命名实体集合。之后,从该多个实体类型中选取除该实体类型之外的任一实体类型,将选择的实体类型确定为辅助实体类型,并基于该辅助实体类型,预先设置该辅助实体类型的第二概率阈值,基于辅助实体类型,从该命名实体、实体类型与实体概率之间的对应关系中,选择实体概率小于第二概率阈值的命名实体,得到第二命名实体集合。
比如,对于视频类型,假设预先设置的视频类型的第一概率阈值为0.6,则从命名实体、实体类型与实体概率之间的对应关系中,获取到的实体概率大于0.6的命名实体为“潜伏”、“天龙八部”和“星魂”,因此该视频类型的第一命名实体集合可以为{潜伏,天龙八部,星魂}。进一步的,假设从该多个实体类型中选取的视频类型的辅助实体类型为游戏类型,且预先设置的游戏类型的第二概率阈值为0.4,则从命名实体、实体类型与实体概率之间的对应关系中,获取的实体概率小于0.4的命名实体为“潜伏”和“天龙八部”,因此,第二命名实体集合为{潜伏,天龙八部}。
需要说明的是,第一概率阈值可以为0.6,也可以为0.7或者0.8;第二概率阈值可以为0.4,也可以为0.3或者0.2,本发明实施例不做具体限定。
步骤206,基于第一命名实体集合、第二命名实体集合和该搜索日志,获取多个特征词和该多个特征词属于该实体类型的概率。
具体地,从该搜索日志中,获取该第一命名实体集合包括的每个命名实体所在的文本信息和该第二命名实体集合包括的每个命名实体所在的文本信息,得到第三文本信息集合和第四文本信息集合。从该第三文本信息集合中,分别获取离该第一命名实体集合包括的每个命名实体最近的第二指定数值个词语,得到该多个特征词;基于该第三文本信息集合和该第四文本信息集合,确定该多个特征词属于该实体类型的概率。
其中,基于该第三文本信息集合和该第四文本信息集合,确定该多个特征词属于该实体类型的概率的具体操作可以包括:对于该多个特征词中的每个特征词,从该第三文本信息集合中,获取包括该特征词的文本信息的个数,得到第一实体个数;从该第四文本信息集合中,获取包括该特征词的文本信息的个数,得到第二实体个数;基于第一实体个数和第二实体个数,计算该特征词属于该实体类型的概率。
在本发明实施例中,基于第一实体个数和第二实体个数,计算该特征词属于该实体类型的概率的操作可以为:基于第一实体个数和第二实体个数,根据如下公式(2),计算该特征词属于该实体类型的概率,
上述公式(2)中,P为特征词概率,a为第一实体个数,b为第二实体个数。
比如,第二指定数值为2时,对于视频类型的第一命名实体集合{潜伏,天龙八部,星魂}中的每个命名实体“潜伏”、“天龙八部”和“星魂”,视频类型的第二命名实体集合{潜伏,天龙八部}中的命名实体“潜伏”和“天龙八部”,从搜索日志中获取包括该命名实体的多个文本信息,分别得到的第三文本信息集合可以为{潜伏在线,潜伏观看,星魂在线观看,天龙八部在线,天龙八部高清},第四文本信息集合可以为{潜伏在线,潜伏观看,天龙八部在线,天龙八部高清}。从该第三文本信息集合{潜伏在线,潜伏观看,星魂在线观看,天龙八部在线,天龙八部高清}中分别获取距离命名实体“潜伏”、“天龙八部”和“星魂”最近的2个词语,得到的视频类型的多个特征词为{在线,观看,高清}。对于该多个特征词{在线,观看,高清}中的特征词“在线”,从该第三文本信息集合{潜伏在线,潜伏观看,星魂在线观看,天龙八部在线,天龙八部高清}中,获取的包括特征词“在线”的文本信息为“潜伏在线”,“星魂在线观看”和“天龙八部在线”,因此该特征词“在线”的第一实体个数为3个,从该第四文本信息集合{潜伏在线,潜伏观看,天龙八部在线,天龙八部高清}中,获取包括该特征词“在线”的文本信息为“潜伏在线”和“天龙八部在线”,因此该特征词“在线”的第二实体个数为2个。基于该特征词“在线”的第一实体个数3,第二实体个数2,可以根据公式(2),计算得到该特征词“在线”属于视频类型的概率为0.6。
步骤207,将该多个特征词、该实体类型和该多个特征词属于该实体类型的概率,存储在特征词、实体类型与特征词概率之间的对应关系中。
基于步骤205至207,确定该多个特征词属于该实体类型的概率之后,可以将该多个特征词,该实体类型和该多个特征词属于该实体类型的概率,存储在特征词、实体类型与特征词概率之间的对应关系中。
比如,该多个特征词中特征词“在线”属于视频类型的概率为0.6,属于游戏类型的概率为0.33,特征词“观看”属于视频类型的概率为0.67,以及特征词“高清”属于视频类型的概率为0.5,可以将该多个特征词、该视频类型和该多个特征词属于视频类型的概率存储在如下表4所示的特征词、实体类型与特征词概率之间的对应关系中。
表4
基于步骤201至207所示的方法,确定了命名实体、实体类型与实体概率之间的对应关系,以及特征词、实体类型与特征词概率之间的对应关系之后。当命名实体识别装置接收到待处理的文本信息时,可以基于上述两种对应关系,通过如下的方法,对该待处理文本进行命名实体识别,具体步骤如下。
步骤208,从待处理的文本信息中,获取目标命名实体和目标特征词。
当终端接收到待处理的文本信息时,可以从该文本信息中识别出目标命名实体和目标特征词。比如,当终端接收到的文本信息为“潜伏在线”时,可以获取该文本信息的目标命名实体“潜伏”和目标特征词“在线”。
需要说明的是,在本发明实施例中,从待处理的文本信息中,获取目标命名实体和目标特征词的方法可以参考相关技术,比如,可以对待处理的文本信息进行分词处理,从而得到目标命名实体和目标特征词,本发明实施例对此不进行详细阐述。
步骤209,基于该目标命名实体,从存储的命名实体、实体类型与实体概率之间的对应关系中,获取多个目标实体类型和多个目标实体概率。
在本发明实施例中,由于该目标命名实体可以对应多个实体类型和多个实体概率,因此,命名实体识别装置可以基于该目标命名实体,从存储的命名实体、实体类型与实体概率之间的对应关系中,获取对应的多个实体类型和该多个实体类型对应的多个实体概率,并将获取的多个实体类型确定为多个目标实体类型,以及将获取的多个实体类型对应的多个实体概率确定为多个目标实体概率。
比如,对于目标命名实体“潜伏”,可以从命名实体、实体类型与实体概率之间的对应关系中,获取到目标命名实体“潜伏”对应的多个实体类型分别为视频类型和游戏类型,其中视频类型对应的实体概率为0.83,游戏类型对应的实体概率为0.17,因此,可以将获取的视频类型和游戏类型确定为目标实体类型,并将实体概率0.83和0.17确定为目标实体概率。
步骤210,基于该目标特征词和该多个目标实体类型,从存储的特征词、实体类型与特征词概率之间的对应关系中,获取多个目标特征词概率。
在本发明实施例中,由于该目标特征词可以对应多个实体类型和多个特征词概率,因此,命名实体识别装置可以基于该目标特征词,从存储的特征词、实体类型与特征词概率之间的对应关系中,获取对应的多个实体类型和该多个实体类型对应的多个特征词概率,并将获取的多个实体类型确定为多个目标实体类型,以及将获取的多个实体类型对应的多个特征词概率确定为多个目标特征词概率。
比如,基于目标特征词“在线”,从上述表4所示的特征词、实体类型与特征词概率之间的对应关系中,获取对应的实体类型为视频类型和游戏类型,视频类型对应的特征词概率为0.6,游戏类型对应的特征词概率为0.33,因此,将视频类型和游戏类型确定为目标实体类型,并将视频类型对应的特征词概率0.6确定为该目标特征词“在线”属于视频类型的目标特征词概率,以及将游戏类型对应的特征词概率0.33确定为目标特征词“在线”属于游戏类型的目标特征词概率。
步骤211,基于该多个目标实体概率和该多个目标特征词概率,识别该目标命名实体。
从该多个目标实体概率和该多个目标特征词概率中,获取属于同一实体类型的目标实体概率和目标特征词概率,将属于同一实体类型的目标实体概率和目标特征词概率分别相乘,得到该目标命名实体属于该多个实体类型的概率,从该目标命名实体属于该多个实体类型的概率中,选取概率最大的实体类型,并将选择的实体类型确定为该目标命名实体的实体类型,进而实现该目标命名实体的识别。
比如,基于目标命名实体“潜伏”的多个目标实体概率,目标特征词“在线”的多个目标特征词概率,获取属于视频类型的目标实体概率为0.83,目标特征词概率为0.6,将该属于视频类型的目标实体概率0.83和目标特征词概率0.6相乘,即可得到该目标命名实体“潜伏”属于视频类型的概率为0.5;进一步的,获取属于游戏类型的目标实体概率为0.17,目标特征词概率为0.33,将该属于游戏类型的目标实体概率0.17和目标特征词概率0.33相乘,即可得到该目标命名实体“潜伏”属于游戏类型的概率为0.06。在该两个实体类型概率中,由于该目标命名实体“潜伏”属于视频类型的概率最大,因此将视频类型作为该目标命名实体“潜伏”的实体类型。
可选地,基于该多个目标实体概率和该多个目标特征词概率,识别该目标命名实体的方法还可以包括:从该多个目标实体概率和该多个目标特征词概率中,获取属于同一实体类型的目标实体概率和目标特征词概率,将属于同一实体类型的目标实体概率和目标特征词概率分别相加,得到多个概率数值,从该多个概率数值对应的实体类型中,选取最大的概率数值对应的实体类型,并将选择的实体类型确定为该目标命名实体的实体类型。
比如,对于目标命名实体“潜伏”,目标特征词“在线”,获取属于视频类型的目标实体概率0.83,目标特征词概率为0.6,将该属于视频类型的目标实体概率0.83与目标特征词概率0.6相加后,得到该视频类型的概率数值为1.43;进一步的,获取属于游戏类型的目标实体概率为0.17,目标特征词概率为0.33,将该游戏类型的目标实体概率0.17与目标特征词概率0.33相加后,得到该游戏类型的概率数值为0.5,由于视频类型的概率数值最大,因此将视频类型确定为该目标命名实体“潜伏”的实体类型。
可选地,基于该多个目标实体概率和该多个目标特征词概率,识别该目标命名实体的方法还可以包括:基于该多个目标实体概率,选取该多个目标实体概率中最大的目标实体概率,并将该最大的目标实体概率所对应的实体类型确定为该目标命名实体的实体类型。
比如,对于目标命名实体“潜伏”,从存储的命名实体、实体类型和实体概率中,可以获取该命名实体属于视频类型的目标实体概率为0.83,属于游戏类型的目标实体概率为0.17,由于视频类型的目标实体概率0.83最大,因此可以直接将视频类型确定为该目标命名实体“潜伏”的实体类型。
可选地,基于该多个目标实体概率和该多个目标特征词概率,识别该目标命名实体的方法还可以包括:对于多个实体类型中的每个实体类型,基于该多个目标特征词概率,获取属于该实体类型的目标特征词概率,当属于该实体类型的目标特征词概率大于或等于预设概率阈值,并且属于该实体类型的目标特征词的个数也大于或等于预设个数阈值时,则将该实体类型确定为该目标命名实体的实体类型。
比如,假设目标特征词的预设概率阈值为0.5,预设个数阈值为1,对于文本信息“潜伏在线”中的目标特征词“在线”,从存储的特征词、实体类型和特征词概率中可以获取该目标特征词“在线”属于视频类型的概率为0.6,由于目标特征词“在线”属于视频类型的概率大于预设的概率阈值0.5,且目标特征词个数等于预设个数阈值1,因此可以将视频类型确定为该目标命名实体“潜伏”的实体类型。
需要说明的是,预设概率阈值和预设个数阈值均为事先设置的,预设概率阈值可以为0.85,预设个数阈值可以为5,本发明实施例对此不做具体限定。
综上所述,本发明实施例提供的一种命名实体识别方法,命名实体识别装置能够基于搜索日志和预设数据库,建立命名实体、实体类型与实体概率之间的对应关系,以及建立特征词、实体类型与特征词概率之间的对应关系。因此,当命名实体识别装置从待处理的文本信息中,获取到目标命名实体和目标特征词后,可以基于该目标命名实体,从存储的命名实体、实体类型与实体概率之间的对应关系中,获取多个目标实体类型和多个目标实体概率,并基于该目标特征词和该多个目标实体类型,从存储的特征词、实体类型与特征词概率之间的对应关系中,获取多个目标特征词概率,基于该多个目标实体概率和该多个目标特征词概率,识别该目标命名实体,提高了命名实体识别的准确率。
参见图3,本发明实施例提供了一种命名实体识别装置300,该装置包括:
第一获取模块301,用于从待处理的文本信息中,获取目标命名实体和目标特征词;
第二获取模块302,用于基于该目标命名实体,从存储的命名实体、实体类型与实体概率之间的对应关系中,获取多个目标实体类型和多个目标实体概率;
第三获取模块303,用于基于该目标特征词和该多个目标实体类型,从存储的特征词、实体类型与特征词概率之间的对应关系中,获取多个目标特征词概率;
识别模块304,用于基于该多个目标实体概率和该多个目标特征词概率,识别该目标命名实体。
可选地,参见图4,该装置还包括:
第四获取模块305,用于从存储的搜索日志中,获取该搜索日志包括的多个文本信息分别对应的至少一个网址信息和该至少一个网址信息的点击次数,该搜索日志中包括文本信息、网址信息和点击次数之间的对应关系;
分类模块306,用于基于该多个文本信息分别对应的至少一个网址信息,对该多个文本信息包括的命名实体进行分类,得到多个实体类型;
第一确定模块307,用于对于该多个实体类型中的每个实体类型,基于该多个文本信息分别对应的至少一个网址信息的点击次数,分别确定该多个文本信息包括的命名实体属于该实体类型的概率;
第一存储模块308,用于将该多个文本信息包括的命名实体、该实体类型和该多个文本信息包括的命名实体属于该实体类型的概率,存储在命名实体、实体类型与实体概率之间的对应关系中。
可选的,如图5所示,该第一确定模块307包括:
相加单元3071,用于对于该多个文本信息中的每个文本信息,将该文本信息对应的至少一个网址信息的点击次数相加,得到该文本信息的点击总次数;
判断单元3072,判断该文本信息的点击总次数是否大于或等于次数阈值;
第一确定单元3073,如果该文本信息的点击总次数大于或等于该次数阈值,则基于该文本信息对应的至少一个网址信息的点击次数和该文本信息的点击总次数,确定该文本信息包括的命名实体属于该实体类型的概率。
进一步的,该第一确定单元3073,包括:
第一选择子单元,用于从该文本信息对应的至少一个网址信息的点击次数中,选择属于该实体类型的网址信息的点击次数;
第一确定子单元,用于基于选择的点击次数和该文本信息的点击总次数,确定该文本信息属于该实体类型的概率,得到文本信息概率;
第二选择子单元,用于基于该文本信息包括的命名实体,从该多个文本信息中,选择包括该命名实体的文本信息,得到第一文本信息集合;
第二确定子单元,用于确定多个文本信息概率的平均值,得到该文本信息包括的命名实体属于该实体类型的概率,该多个文本信息概率为该第一文本信息集合包括的文本信息属于该实体类型的概率。
可选的,如图6所示,该第一确定模块307还包括:
第一获取单元3074,用于如果该文本信息的点击总次数小于该次数阈值,则基于该文本信息包括的命名实体,从预设数据库中,获取第一特征向量和该第一特征向量包括的每个特征词的频次,该预设数据库至少包括预设网页数据;
第二获取单元3075,用于基于第二文本信息集合中每个文本信息包括的命名实体属于该实体类型的概率和该搜索日志,获取实体概率范围包括的多个概率区间对应的第二特征向量和该多个概率区间对应的第二特征向量包括的每个特征词的频次,该第二文本信息集合包括该多个文本信息中点击总次数大于或等于该次数阈值的文本信息;
第二确定单元3076,用于基于该第一特征向量、该多个概率区间对应的第二特征向量、该第一特征向量包括的每个特征词的频次和该多个概率区间对应的第二特征向量包括的每个特征词的频次,确定该文本信息包括的命名实体属于该实体类型的概率。
进一步的,该第二获取单元3075包括:
第一获取子单元,用于对于该多个概率区间中的每个概率区间,基于第二文本信息集合中每个文本信息包括的命名实体属于该实体类型的概率,获取实体概率位于该概率区间的命名实体;
第三选择子单元,用于从获取的命名实体中,选择属于该实体类型的第一指定数值个命名实体;
第二获取子单元,用于基于选择的命名实体,从该搜索日志中,获取该概率区间对应的第二特征向量和该概率区间对应的第二特征向量包括的每个特征词的频次。
进一步的,该第二确定单元3076包括:
第四选择子单元,用于对于该多个概率区间中的每个概率区间,选择该第一特征向量和该概率区间对应的第二特征向量中包括的相同特征词,得到多个相同特征词;
第五选择子单元,用于从该第一特征向量包括的每个特征词的频次中,选择该多个相同特征词的频次,得到多个第一频次,以及从该概率区间对应的第二特征向量包括的每个特征词的频次中,选择该多个相同特征词的频次,得到多个第二频次;
第三确定子单元,用于基于该多个概率区间分别对应的多个第一频次和该多个概率区间分别对应的多个第二频次,确定该第一特征向量和该多个概率区间对应的第二特征向量之间的相似度,得到多个相似度;
第四确定子单元,用于基于该多个相似度,确定该文本信息包括的命名实体属于该实体类型的概率。
可选的,如图7所示,该命名实体识别装置300,还包括:
第二确定模块309,用于对于该多个实体类型中的每个实体类型,基于该实体类型、辅助实体类型和该命名实体、实体类型与实体概率之间的对应关系,确定第一命名实体集合和第二命名实体集合,该辅助实体类型为该多个实体类型中除该实体类型之外的任一实体类型;
第五获取模块310,用于基于该第一命名实体集合、该第二命名实体集合和该搜索日志,获取多个特征词和该多个特征词属于该实体类型的概率;
第二存储模块311,将该多个特征词、该实体类型和该多个特征词属于该实体类型的概率,存储在特征词、实体类型与特征词概率之间的对应关系中。
进一步的,如图8所示,该第二确定模块309包括:
第一选择单元3091,用于基于该实体类型,从该命名实体、实体类型与实体概率之间的对应关系中,选择实体概率大于第一概率阈值的命名实体,得到第一命名实体集合;
第二选择单元3092,用于基于辅助实体类型,从该命名实体、实体类型与实体概率之间的对应关系中,选择实体概率小于第二概率阈值的命名实体,得到第二命名实体集合。
进一步的,如图9所示,该第五获取模块310包括:
第三获取单元3101,用于从该搜索日志中,获取该第一命名实体集合包括的每个命名实体所在的文本信息和该第二命名实体集合包括的每个命名实体所在的文本信息,得到第三文本信息集合和第四文本信息集合;
第四获取单元3102,用于从该第三文本信息集合中,分别获取离该第一命名实体集合包括的每个命名实体最近的第二指定数值个词语,得到该多个特征词;
第三确定单元3103,用于基于该第三文本信息集合和该第四文本信息集合,确定该多个特征词属于该实体类型的概率
进一步的,该第三确定单元3103,包括:
第三获取子单元,用于对于该多个特征词中的每个特征词,从该第三文本信息集合中,获取包括该特征词的文本信息的个数,得到第一实体个数;
第四获取子单元,用于从该第四文本信息集合中,获取包括该特征词的文本信息的个数,得到第二实体个数;
计算子单元,用于基于该第一实体个数和该第二实体个数,计算该特征词属于该实体类型的概率。
综上所述,命名实体识别装置能够基于搜索日志和预设数据库,建立命名实体、实体类型与实体概率之间的对应关系,以及建立特征词、实体类型与特征词概率之间的对应关系。因此,当命名实体识别装置从待处理的文本信息中,获取到目标命名实体和目标特征词后,可以基于该目标命名实体,从存储的命名实体、实体类型与实体概率之间的对应关系中,获取多个目标实体类型和多个目标实体概率,并基于该目标特征词和该多个目标实体类型,从存储的特征词、实体类型与特征词概率之间的对应关系中,获取多个目标特征词概率,基于该多个目标实体概率和该多个目标特征词概率,识别该目标命名实体,提高了命名实体识别的准确率。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
请参考图10,其示出了本发明一个实施例提供命名实体识别装置的结构方框图,该命名实体识别装置可以为终端1000,终端1000可以包括通信单元1010、包括有一个或一个以上计算机可读存储介质的存储器1020、输入单元1030、显示单元1040、传感器1050、音频电路1060、WIFI(Wireless Fidelity,无线保真)模块1070、包括有一个或者一个以上处理核心的处理器1080、以及电源1090等部件。本领域技术人员可以理解,图10中示出的终端结构并不构成对终端的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
通信单元1010可用于收发信息或通话过程中,信号的接收和发送,该通信单元1010可以为RF(Radio Frequency,射频)电路、路由器、调制解调器、等网络通信设备。特别地,当通信单元1010为RF电路时,将基站的下行信息接收后,交由一个或者一个以上处理器1080处理;另外,将涉及上行的数据发送给基站。通常,作为通信单元的RF电路包括但不限于天线、至少一个放大器、调谐器、一个或多个振荡器、用户身份模块(SIM)卡、收发信机、耦合器、LNA(LowNoiseAmplifier,低噪声放大器)、双工器等。此外,通信单元1010还可以通过无线通信与网络和其他设备通信。所述无线通信可以使用任一通信标准或协议,包括但不限于GSM(Global System ofMobile communication,全球移动通讯系统)、GPRS(General PacketRadio Service,通用分组无线服务)、CDMA(Code DivisionMultipleAccess,码分多址)、WCDMA(Wideband Code DivisionMultipleAccess,宽带码分多址)、LTE(Long TermEvolution,长期演进)、电子邮件、SMS(ShortMessaging Service,短消息服务)等。存储器1020可用于存储软件程序以及模块,处理器1080通过运行存储在存储器1020的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器1020可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据终端1000的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器1020可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器1020还可以包括存储器控制器,以提供处理器1080和输入单元1030对存储器1020的访问。
输入单元1030可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。优选地,输入单元1030可包括触敏表面1031以及其他输入设备1032。触敏表面1031,也称为触摸显示屏或者触控板,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触敏表面1031上或在触敏表面1031附近的操作),并根据预先设定的程式驱动相应的连接装置。可选的,触敏表面1031可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器1080,并能接收处理器1080发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触敏表面1031。除了触敏表面1031,输入单元1030还可以包括其他输入设备1032。优选地,其他输入设备1032可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。
显示单元1040可用于显示由用户输入的信息或提供给用户的信息以及终端1000的各种图形用户接口,这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。显示单元1040可包括显示面板1041,可选的,可以采用LCD(Liquid Crystal Display,液晶显示器)、OLED(Organic Light-Emitting Diode,有机发光二极管)等形式来配置显示面板1041。进一步的,触敏表面1031可覆盖显示面板1041,当触敏表面1031检测到在其上或附近的触摸操作后,传送给处理器1080以确定触摸事件的类型,随后处理器1080根据触摸事件的类型在显示面板1041上提供相应的视觉输出。虽然在图10中,触敏表面1031与显示面板1041是作为两个独立的部件来实现输入和输入功能,但是在某些实施例中,可以将触敏表面1031与显示面板1041集成而实现输入和输出功能。
终端1000还可包括至少一种传感器1050,比如光传感器、运动传感器以及其他传感器。光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示面板1041的亮度,接近传感器可在终端1000移动到耳边时,关闭显示面板1041和/或背光。作为运动传感器的一种,重力加速度传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;至于终端1000还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。
音频电路1060、扬声器1061,传声器1062可提供用户与终端1000之间的音频接口。音频电路1060可将接收到的音频数据转换后的电信号,传输到扬声器1061,由扬声器1061转换为声音信号输出;另一方面,传声器1062将收集的声音信号转换为电信号,由音频电路1060接收后转换为音频数据,再将音频数据输出处理器1080处理后,经通信单元1010以发送给比如另一终端,或者将音频数据输出至存储器1020以便进一步处理。音频电路1060还可能包括耳塞插孔,以提供外设耳机与终端1000的通信。
为了实现无线通信,该终端上可以配置有无线通信单元1070,该无线通信单元1070可以为WIFI模块。WIFI属于短距离无线传输技术,终端1000通过无线通信单元1070可以帮助用户收发电子邮件、浏览网页和访问流式媒体等,它为用户提供了无线的宽带互联网访问。虽然图中示出了无线通信单元1070,但是可以理解的是,其并不属于终端1000的必须构成,完全可以根据需要在不改变发明的本质的范围内而省略。
处理器1080是终端1000的控制中心,利用各种接口和线路连接整个手机的各个部分,通过运行或执行存储在存储器1020内的软件程序和/或模块,以及调用存储在存储器1020内的数据,执行终端1000的各种功能和处理数据,从而对手机进行整体监控。可选的,处理器1080可包括一个或多个处理核心;优选的,处理器1080可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器1080中。
终端1000还包括给各个部件供电的电源1090(比如电池),优选的,电源可以通过电源管理系统与处理器1080逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源1060还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
尽管未示出,终端1000还可以包括摄像头、蓝牙模块等,在此不再赘述。
在本实施例中,终端还包括有一个或者一个以上的程序,这一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行,所述一个或者一个以上程序包含用于进行本发明实施例提供的命名实体识别方法的指令,包括:
从待处理的文本信息中,获取目标命名实体和目标特征词;
基于该目标命名实体,从存储的命名实体、实体类型与实体概率之间的对应关系中,获取多个目标实体类型和多个目标实体概率;
基于该目标特征词和该多个目标实体类型,从存储的特征词、实体类型与特征词概率之间的对应关系中,获取多个目标特征词概率;
基于该多个目标实体概率和该多个目标特征词概率,识别该目标命名实体。
可选的,基于该目标命名实体,从存储的命名实体、实体类型与实体概率之间的对应关系中,获取多个目标实体类型和多个目标实体概率之前,还包括:
从存储的搜索日志中,获取该搜索日志包括的多个文本信息分别对应的至少一个网址信息和该至少一个网址信息的点击次数,该搜索日志中包括文本信息、网址信息和点击次数之间的对应关系;
基于该多个文本信息分别对应的至少一个网址信息,对该多个文本信息包括的命名实体进行分类,得到多个实体类型;
对于该多个实体类型中的每个实体类型,基于该多个文本信息分别对应的至少一个网址信息的点击次数,分别确定该多个文本信息包括的命名实体属于该实体类型的概率;
将该多个文本信息包括的命名实体、该实体类型和该多个文本信息包括的命名实体属于该实体类型的概率,存储在命名实体、实体类型与实体概率之间的对应关系中。
可选的,基于该多个文本信息分别对应的至少一个网址信息的点击次数,分别确定该多个文本信息包括的命名实体属于该实体类型的概率,包括:
对于该多个文本信息中的每个文本信息,将该文本信息对应的至少一个网址信息的点击次数相加,得到该文本信息的点击总次数;
判断该文本信息的点击总次数是否大于或等于次数阈值;
如果该文本信息的点击总次数大于或等于该次数阈值,则基于该文本信息对应的至少一个网址信息的点击次数和该文本信息的点击总次数,确定该文本信息包括的命名实体属于该实体类型的概率。
可选的,基于该文本信息对应的至少一个网址信息的点击次数和该文本信息的点击总次数,确定该文本信息包括的命名实体属于该实体类型的概率,包括:
从该文本信息对应的至少一个网址信息的点击次数中,选择属于该实体类型的网址信息的点击次数;
基于选择的点击次数和该文本信息的点击总次数,确定该文本信息属于该实体类型的概率,得到文本信息概率;
基于该文本信息包括的命名实体,从该多个文本信息中,选择包括该命名实体的文本信息,得到第一文本信息集合;
确定多个文本信息概率的平均值,得到该文本信息包括的命名实体属于该实体类型的概率,该多个文本信息概率为该第一文本信息集合包括的文本信息属于该实体类型的概率。
可选的,判断所述文本信息的点击总次数是否大于或等于次数阈值之后,还包括:
如果该文本信息的点击总次数小于该次数阈值,则基于该文本信息包括的命名实体,从预设数据库中,获取第一特征向量和该第一特征向量包括的每个特征词的频次,该预设数据库至少包括预设网页数据;
基于第二文本信息集合中每个文本信息包括的命名实体属于该实体类型的概率和该搜索日志,获取实体概率范围包括的多个概率区间对应的第二特征向量和该多个概率区间对应的第二特征向量包括的每个特征词的频次,该第二文本信息集合包括该多个文本信息中点击总次数大于或等于该次数阈值的文本信息;
基于该第一特征向量、该多个概率区间对应的第二特征向量、该第一特征向量包括的每个特征词的频次和该多个概率区间对应的第二特征向量包括的每个特征词的频次,确定该文本信息包括的命名实体属于该实体类型的概率。
可选的,基于第二文本信息集合中每个文本信息包括的命名实体属于该实体类型的概率和该搜索日志,获取实体概率范围包括的多个概率区间对应的第二特征向量和该多个概率区间对应的第二特征向量包括的每个特征词的频次,包括:
对于该多个概率区间中的每个概率区间,基于第二文本信息集合中每个文本信息包括的命名实体属于该实体类型的概率,获取实体概率位于该概率区间的命名实体;
从获取的命名实体中,选择属于该实体类型的第一指定数值个命名实体;
基于选择的命名实体,从该搜索日志中,获取该概率区间对应的第二特征向量和该概率区间对应的第二特征向量包括的每个特征词的频次。
可选的,基于该第一特征向量、该多个概率区间对应的第二特征向量、该第一特征向量包括的每个特征词的频次和该多个概率区间对应的第二特征向量包括的每个特征词的频次,确定该文本信息包括的命名实体属于该实体类型的概率,包括:
对于该多个概率区间中的每个概率区间,选择该第一特征向量和该概率区间对应的第二特征向量中包括的相同特征词,得到多个相同特征词;
从该第一特征向量包括的每个特征词的频次中,选择该多个相同特征词的频次,得到多个第一频次,以及从该概率区间对应的第二特征向量包括的每个特征词的频次中,选择该多个相同特征词的频次,得到多个第二频次;
基于该多个概率区间分别对应的多个第一频次和该多个概率区间分别对应的多个第二频次,确定该第一特征向量和该多个概率区间对应的第二特征向量之间的相似度,得到多个相似度;
基于该多个相似度,确定该文本信息包括的命名实体属于该实体类型的概率。
可选的,将该多个文本信息包括的命名实体、该实体类型和该多个文本信息包括的命名实体属于该实体类型的概率,存储在命名实体、实体类型与实体概率之间的对应关系中之后,还包括:
对于该多个实体类型中的每个实体类型,基于该实体类型、辅助实体类型和该命名实体、实体类型与实体概率之间的对应关系,确定第一命名实体集合和第二命名实体集合,该辅助实体类型为该多个实体类型中除该实体类型之外的任一实体类型;
基于该第一命名实体集合、该第二命名实体集合和该搜索日志,获取多个特征词和该多个特征词属于该实体类型的概率;
将该多个特征词、该实体类型和该多个特征词属于该实体类型的概率,存储在特征词、实体类型与特征词概率之间的对应关系中。
可选的,基于该实体类型、辅助实体类型和该命名实体、实体类型与实体概率之间的对应关系,确定第一命名实体集合和第二命名实体集合,包括:
基于该实体类型,从该命名实体、实体类型与实体概率之间的对应关系中,选择实体概率大于第一概率阈值的命名实体,得到第一命名实体集合;
基于辅助实体类型,从该命名实体、实体类型与实体概率之间的对应关系中,选择实体概率小于第二概率阈值的命名实体,得到第二命名实体集合。
可选的,基于该第一命名实体集合、该第二命名实体集合和该搜索日志,获取多个特征词和该多个特征词属于该实体类型的概率,包括:
从该搜索日志中,获取该第一命名实体集合包括的每个命名实体所在的文本信息和该第二命名实体集合包括的每个命名实体所在的文本信息,得到第三文本信息集合和第四文本信息集合;
从该第三文本信息集合中,分别获取离该第一命名实体集合包括的每个命名实体最近的第二指定数值个词语,得到该多个特征词;
基于该第三文本信息集合和该第四文本信息集合,确定该多个特征词属于该实体类型的概率。
可选的,基于该第三文本信息集合和该第四文本信息集合,确定该多个特征词属于该实体类型的概率,包括:
对于该多个特征词中的每个特征词,从该第三文本信息集合中,获取包括该特征词的文本信息的个数,得到第一实体个数;
从该第四文本信息集合中,获取包括该特征词的文本信息的个数,得到第二实体个数;
基于该第一实体个数和该第二实体个数,计算该特征词属于该实体类型的概率。
本发明实施例能够基于搜索日志和预设数据库,建立命名实体、实体类型与实体概率之间的对应关系,以及建立特征词、实体类型与特征词概率之间的对应关系。因此,当命名实体识别装置从待处理的文本信息中,获取到目标命名实体和目标特征词后,可以基于该目标命名实体,从存储的命名实体、实体类型与实体概率之间的对应关系中,获取多个目标实体类型和多个目标实体概率,并基于该目标特征词和该多个目标实体类型,从存储的特征词、实体类型与特征词概率之间的对应关系中,获取多个目标特征词概率,基于该多个目标实体概率和该多个目标特征词概率,识别该目标命名实体,提高了命名实体识别的准确率。
请参考图11,其示出了本发明一个实施例提供的一种命名实体识别装置的结构示意图。该命名实体识别装置可以为服务器1100,该服务器1100包括中央处理单元(CPU)1101、包括随机存取存储器(RAM)1102和只读存储器(ROM)1103的系统存储器1104,以及连接系统存储器1104和中央处理单元1101的系统总线1105。服务器1100还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统(I/O系统)1106,和用于存储操作系统1113、应用程序1110和其他程序模块1115的大容量存储设备1107。
所述基本输入/输出系统1106包括有用于显示信息的显示器1108和用于用户输入信息的诸如鼠标、键盘之类的输入设备1109。其中所述显示器1108和输入设备1109都通过连接到系统总线1105的输入输出控制器1110连接到中央处理单元1101。所述基本输入/输出系统1106还可以包括输入输出控制器1110以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地,输入输出控制器1110还提供输出到显示屏、打印机或其他类型的输出设备。
所述大容量存储设备1107通过连接到系统总线1105的大容量存储控制器(未示出)连接到中央处理单元1101。所述大容量存储设备1107及其相关联的计算机可读介质为服务器1100提供非易失性存储。也就是说,所述大容量存储设备1107可以包括诸如硬盘或者CD-ROM驱动器之类的计算机可读介质(未示出)。
不失一般性,所述计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、EPROM、EEPROM、闪存或其他固态存储其技术,CD-ROM、DVD或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然,本领域技术人员可知所述计算机存储介质不局限于上述几种。上述的系统存储器1104和大容量存储设备1107可以统称为存储器。
根据本发明的各种实施例,服务器1100还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即服务器1100可以通过连接在所述系统总线1105上的网络接口单元1111连接到网络1112,或者说,也可以使用网络接口单元1111来连接到其他类型的网络或远程计算机系统(未示出)。
所述存储器还包括一个或者一个以上的程序,所述一个或者一个以上程序存储于存储器中,所述一个或者一个以上程序包含用于进行本发明实施例提供的命名实体识别方法的指令,包括:
从待处理的文本信息中,获取目标命名实体和目标特征词;
基于该目标命名实体,从存储的命名实体、实体类型与实体概率之间的对应关系中,获取多个目标实体类型和多个目标实体概率;
基于该目标特征词和该多个目标实体类型,从存储的特征词、实体类型与特征词概率之间的对应关系中,获取多个目标特征词概率;
基于该多个目标实体概率和该多个目标特征词概率,识别该目标命名实体。
可选的,基于该目标命名实体,从存储的命名实体、实体类型与实体概率之间的对应关系中,获取多个目标实体类型和多个目标实体概率之前,还包括:
从存储的搜索日志中,获取该搜索日志包括的多个文本信息分别对应的至少一个网址信息和该至少一个网址信息的点击次数,该搜索日志中包括文本信息、网址信息和点击次数之间的对应关系;
基于该多个文本信息分别对应的至少一个网址信息,对该多个文本信息包括的命名实体进行分类,得到多个实体类型;
对于该多个实体类型中的每个实体类型,基于该多个文本信息分别对应的至少一个网址信息的点击次数,分别确定该多个文本信息包括的命名实体属于该实体类型的概率;
将该多个文本信息包括的命名实体、该实体类型和该多个文本信息包括的命名实体属于该实体类型的概率,存储在命名实体、实体类型与实体概率之间的对应关系中。
可选的,基于该多个文本信息分别对应的至少一个网址信息的点击次数,分别确定该多个文本信息包括的命名实体属于该实体类型的概率,包括:
对于该多个文本信息中的每个文本信息,将该文本信息对应的至少一个网址信息的点击次数相加,得到该文本信息的点击总次数;
判断该文本信息的点击总次数是否大于或等于次数阈值;
如果该文本信息的点击总次数大于或等于该次数阈值,则基于该文本信息对应的至少一个网址信息的点击次数和该文本信息的点击总次数,确定该文本信息包括的命名实体属于该实体类型的概率。
可选的,基于该文本信息对应的至少一个网址信息的点击次数和该文本信息的点击总次数,确定该文本信息包括的命名实体属于该实体类型的概率,包括:
从该文本信息对应的至少一个网址信息的点击次数中,选择属于该实体类型的网址信息的点击次数;
基于选择的点击次数和该文本信息的点击总次数,确定该文本信息属于该实体类型的概率,得到文本信息概率;
基于该文本信息包括的命名实体,从该多个文本信息中,选择包括该命名实体的文本信息,得到第一文本信息集合;
确定多个文本信息概率的平均值,得到该文本信息包括的命名实体属于该实体类型的概率,该多个文本信息概率为该第一文本信息集合包括的文本信息属于该实体类型的概率。
可选的,判断所述文本信息的点击总次数是否大于或等于次数阈值之后,还包括:
如果该文本信息的点击总次数小于该次数阈值,则基于该文本信息包括的命名实体,从预设数据库中,获取第一特征向量和该第一特征向量包括的每个特征词的频次,该预设数据库至少包括预设网页数据;
基于第二文本信息集合中每个文本信息包括的命名实体属于该实体类型的概率和该搜索日志,获取实体概率范围包括的多个概率区间对应的第二特征向量和该多个概率区间对应的第二特征向量包括的每个特征词的频次,该第二文本信息集合包括该多个文本信息中点击总次数大于或等于该次数阈值的文本信息;
基于该第一特征向量、该多个概率区间对应的第二特征向量、该第一特征向量包括的每个特征词的频次和该多个概率区间对应的第二特征向量包括的每个特征词的频次,确定该文本信息包括的命名实体属于该实体类型的概率。
可选的,基于第二文本信息集合中每个文本信息包括的命名实体属于该实体类型的概率和该搜索日志,获取实体概率范围包括的多个概率区间对应的第二特征向量和该多个概率区间对应的第二特征向量包括的每个特征词的频次,包括:
对于该多个概率区间中的每个概率区间,基于第二文本信息集合中每个文本信息包括的命名实体属于该实体类型的概率,获取实体概率位于该概率区间的命名实体;
从获取的命名实体中,选择属于该实体类型的第一指定数值个命名实体;
基于选择的命名实体,从该搜索日志中,获取该概率区间对应的第二特征向量和该概率区间对应的第二特征向量包括的每个特征词的频次。
可选的,基于该第一特征向量、该多个概率区间对应的第二特征向量、该第一特征向量包括的每个特征词的频次和该多个概率区间对应的第二特征向量包括的每个特征词的频次,确定该文本信息包括的命名实体属于该实体类型的概率,包括:
对于该多个概率区间中的每个概率区间,选择该第一特征向量和该概率区间对应的第二特征向量中包括的相同特征词,得到多个相同特征词;
从该第一特征向量包括的每个特征词的频次中,选择该多个相同特征词的频次,得到多个第一频次,以及从该概率区间对应的第二特征向量包括的每个特征词的频次中,选择该多个相同特征词的频次,得到多个第二频次;
基于该多个概率区间分别对应的多个第一频次和该多个概率区间分别对应的多个第二频次,确定该第一特征向量和该多个概率区间对应的第二特征向量之间的相似度,得到多个相似度;
基于该多个相似度,确定该文本信息包括的命名实体属于该实体类型的概率。
可选的,将该多个文本信息包括的命名实体、该实体类型和该多个文本信息包括的命名实体属于该实体类型的概率,存储在命名实体、实体类型与实体概率之间的对应关系中之后,还包括:
对于该多个实体类型中的每个实体类型,基于该实体类型、辅助实体类型和该命名实体、实体类型与实体概率之间的对应关系,确定第一命名实体集合和第二命名实体集合,该辅助实体类型为该多个实体类型中除该实体类型之外的任一实体类型;
基于该第一命名实体集合、该第二命名实体集合和该搜索日志,获取多个特征词和该多个特征词属于该实体类型的概率;
将该多个特征词、该实体类型和该多个特征词属于该实体类型的概率,存储在特征词、实体类型与特征词概率之间的对应关系中。
可选的,基于该实体类型、辅助实体类型和该命名实体、实体类型与实体概率之间的对应关系,确定第一命名实体集合和第二命名实体集合,包括:
基于该实体类型,从该命名实体、实体类型与实体概率之间的对应关系中,选择实体概率大于第一概率阈值的命名实体,得到第一命名实体集合;
基于辅助实体类型,从该命名实体、实体类型与实体概率之间的对应关系中,选择实体概率小于第二概率阈值的命名实体,得到第二命名实体集合。
可选的,基于该第一命名实体集合、该第二命名实体集合和该搜索日志,获取多个特征词和该多个特征词属于该实体类型的概率,包括:
从该搜索日志中,获取该第一命名实体集合包括的每个命名实体所在的文本信息和该第二命名实体集合包括的每个命名实体所在的文本信息,得到第三文本信息集合和第四文本信息集合;
从该第三文本信息集合中,分别获取离该第一命名实体集合包括的每个命名实体最近的第二指定数值个词语,得到该多个特征词;
基于该第三文本信息集合和该第四文本信息集合,确定该多个特征词属于该实体类型的概率。
可选的,基于该第三文本信息集合和该第四文本信息集合,确定该多个特征词属于该实体类型的概率,包括:
对于该多个特征词中的每个特征词,从该第三文本信息集合中,获取包括该特征词的文本信息的个数,得到第一实体个数;
从该第四文本信息集合中,获取包括该特征词的文本信息的个数,得到第二实体个数;
基于该第一实体个数和该第二实体个数,计算该特征词属于该实体类型的概率。
本发明实施例能够基于搜索日志和预设数据库,建立命名实体、实体类型与实体概率之间的对应关系,以及建立特征词、实体类型与特征词概率之间的对应关系。因此,当命名实体识别装置从待处理的文本信息中,获取到目标命名实体和目标特征词后,可以基于该目标命名实体,从存储的命名实体、实体类型与实体概率之间的对应关系中,获取多个目标实体类型和多个目标实体概率,并基于该目标特征词和该多个目标实体类型,从存储的特征词、实体类型与特征词概率之间的对应关系中,获取多个目标特征词概率,基于该多个目标实体概率和该多个目标特征词概率,识别该目标命名实体,提高了命名实体识别的准确率。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (22)
1.一种命名实体识别方法,其特征在于,所述方法包括:
从待处理的文本信息中,获取目标命名实体和目标特征词;
基于所述目标命名实体,从存储的命名实体、实体类型与实体概率之间的对应关系中,获取多个目标实体类型和多个目标实体概率;
基于所述目标特征词和所述多个目标实体类型,从存储的特征词、实体类型与特征词概率之间的对应关系中,获取多个目标特征词概率;
基于所述多个目标实体概率和所述多个目标特征词概率,识别所述目标命名实体。
2.如权利要求1所述的方法,其特征在于,所述基于所述目标命名实体,从存储的命名实体、实体类型与实体概率之间的对应关系中,获取多个目标实体类型和多个目标实体概率之前,还包括:
从存储的搜索日志中,获取所述搜索日志包括的多个文本信息分别对应的至少一个网址信息和所述至少一个网址信息的点击次数,所述搜索日志中包括文本信息、网址信息和点击次数之间的对应关系;
基于所述多个文本信息分别对应的至少一个网址信息,对所述多个文本信息包括的命名实体进行分类,得到多个实体类型;
对于所述多个实体类型中的每个实体类型,基于所述多个文本信息分别对应的至少一个网址信息的点击次数,分别确定所述多个文本信息包括的命名实体属于所述实体类型的概率;
将所述多个文本信息包括的命名实体、所述实体类型和所述多个文本信息包括的命名实体属于所述实体类型的概率,存储在命名实体、实体类型与实体概率之间的对应关系中。
3.如权利要求2所述的方法,其特征在于,所述基于所述多个文本信息分别对应的至少一个网址信息的点击次数,分别确定所述多个文本信息包括的命名实体属于所述实体类型的概率,包括:
对于所述多个文本信息中的每个文本信息,将所述文本信息对应的至少一个网址信息的点击次数相加,得到所述文本信息的点击总次数;
判断所述文本信息的点击总次数是否大于或等于次数阈值;
如果所述文本信息的点击总次数大于或等于所述次数阈值,则基于所述文本信息对应的至少一个网址信息的点击次数和所述文本信息的点击总次数,确定所述文本信息包括的命名实体属于所述实体类型的概率。
4.如权利要求3所述的方法,其特征在于,所述基于所述文本信息对应的至少一个网址信息的点击次数和所述文本信息的点击总次数,确定所述文本信息包括的命名实体属于所述实体类型的概率,包括:
从所述文本信息对应的至少一个网址信息的点击次数中,选择属于所述实体类型的网址信息的点击次数;
基于选择的点击次数和所述文本信息的点击总次数,确定所述文本信息属于所述实体类型的概率,得到文本信息概率;
基于所述文本信息包括的命名实体,从所述多个文本信息中,选择包括所述命名实体的文本信息,得到第一文本信息集合;
确定多个文本信息概率的平均值,得到所述文本信息包括的命名实体属于所述实体类型的概率,所述多个文本信息概率为所述第一文本信息集合包括的文本信息属于所述实体类型的概率。
5.如权利要求3或4所述的方法,其特征在于,所述判断所述文本信息的点击总次数是否大于或等于次数阈值之后,还包括:
如果所述文本信息的点击总次数小于所述次数阈值,则基于所述文本信息包括的命名实体,从预设数据库中,获取第一特征向量和所述第一特征向量包括的每个特征词的频次,所述预设数据库至少包括预设网页数据;
基于第二文本信息集合中每个文本信息包括的命名实体属于所述实体类型的概率和所述搜索日志,获取实体概率范围包括的多个概率区间对应的第二特征向量和所述多个概率区间对应的第二特征向量包括的每个特征词的频次,所述第二文本信息集合包括所述多个文本信息中点击总次数大于或等于所述次数阈值的文本信息;
基于所述第一特征向量、所述多个概率区间对应的第二特征向量、所述第一特征向量包括的每个特征词的频次和所述多个概率区间对应的第二特征向量包括的每个特征词的频次,确定所述文本信息包括的命名实体属于所述实体类型的概率。
6.如权利要求5所述的方法,其特征在于,所述基于第二文本信息集合中每个文本信息包括的命名实体属于所述实体类型的概率和所述搜索日志,获取实体概率范围包括的多个概率区间对应的第二特征向量和所述多个概率区间对应的第二特征向量包括的每个特征词的频次,包括:
对于所述多个概率区间中的每个概率区间,基于第二文本信息集合中每个文本信息包括的命名实体属于所述实体类型的概率,获取实体概率位于所述概率区间的命名实体;
从获取的命名实体中,选择属于所述实体类型的第一指定数值个命名实体;
基于选择的命名实体,从所述搜索日志中,获取所述概率区间对应的第二特征向量和所述概率区间对应的第二特征向量包括的每个特征词的频次。
7.如权利要求5所述的方法,其特征在于,所述基于所述第一特征向量、所述多个概率区间对应的第二特征向量、所述第一特征向量包括的每个特征词的频次和所述多个概率区间对应的第二特征向量包括的每个特征词的频次,确定所述文本信息包括的命名实体属于所述实体类型的概率,包括:
对于所述多个概率区间中的每个概率区间,选择所述第一特征向量和所述概率区间对应的第二特征向量中包括的相同特征词,得到多个相同特征词;
从所述第一特征向量包括的每个特征词的频次中,选择所述多个相同特征词的频次,得到多个第一频次,以及从所述概率区间对应的第二特征向量包括的每个特征词的频次中,选择所述多个相同特征词的频次,得到多个第二频次;
基于所述多个概率区间分别对应的多个第一频次和所述多个概率区间分别对应的多个第二频次,确定所述第一特征向量和所述多个概率区间对应的第二特征向量之间的相似度,得到多个相似度;
基于所述多个相似度,确定所述文本信息包括的命名实体属于所述实体类型的概率。
8.如权利要求2所述的方法,其特征在于,所述将所述多个文本信息包括的命名实体、所述实体类型和所述多个文本信息包括的命名实体属于所述实体类型的概率,存储在命名实体、实体类型与实体概率之间的对应关系中之后,还包括:
对于所述多个实体类型中的每个实体类型,基于所述实体类型、辅助实体类型和所述命名实体、实体类型与实体概率之间的对应关系,确定第一命名实体集合和第二命名实体集合,所述辅助实体类型为所述多个实体类型中除所述实体类型之外的任一实体类型;
基于所述第一命名实体集合、所述第二命名实体集合和所述搜索日志,获取多个特征词和所述多个特征词属于所述实体类型的概率;
将所述多个特征词、所述实体类型和所述多个特征词属于所述实体类型的概率,存储在特征词、实体类型与特征词概率之间的对应关系中。
9.如权利要求8所述的方法,其特征在于,所述基于所述实体类型、辅助实体类型和所述命名实体、实体类型与实体概率之间的对应关系,确定第一命名实体集合和第二命名实体集合,包括:
基于所述实体类型,从所述命名实体、实体类型与实体概率之间的对应关系中,选择实体概率大于第一概率阈值的命名实体,得到第一命名实体集合;
基于辅助实体类型,从所述命名实体、实体类型与实体概率之间的对应关系中,选择实体概率小于第二概率阈值的命名实体,得到第二命名实体集合。
10.如权利要求8或9所述的方法,其特征在于,所述基于所述第一命名实体集合、所述第二命名实体集合和所述搜索日志,获取多个特征词和所述多个特征词属于所述实体类型的概率,包括:
从所述搜索日志中,获取所述第一命名实体集合包括的每个命名实体所在的文本信息和所述第二命名实体集合包括的每个命名实体所在的文本信息,得到第三文本信息集合和第四文本信息集合;
从所述第三文本信息集合中,分别获取离所述第一命名实体集合包括的每个命名实体最近的第二指定数值个词语,得到所述多个特征词;
基于所述第三文本信息集合和所述第四文本信息集合,确定所述多个特征词属于所述实体类型的概率。
11.如权利要求10所述的方法,其特征在于,所述基于所述第三文本信息集合和所述第四文本信息集合,确定所述多个特征词属于所述实体类型的概率,包括:
对于所述多个特征词中的每个特征词,从所述第三文本信息集合中,获取包括所述特征词的文本信息的个数,得到第一实体个数;
从所述第四文本信息集合中,获取包括所述特征词的文本信息的个数,得到第二实体个数;
基于所述第一实体个数和所述第二实体个数,计算所述特征词属于所述实体类型的概率。
12.一种命名实体识别装置,其特征在于,所述装置包括:
第一获取模块,用于从待处理的文本信息中,获取目标命名实体和目标特征词;
第二获取模块,用于基于所述目标命名实体,从存储的命名实体、实体类型与实体概率之间的对应关系中,获取多个目标实体类型和多个目标实体概率;
第三获取模块,用于基于所述目标特征词和所述多个目标实体类型,从存储的特征词、实体类型与特征词概率之间的对应关系中,获取多个目标特征词概率;
识别模块,用于基于所述多个目标实体概率和所述多个目标特征词概率,识别所述目标命名实体。
13.如权利要求12所述的装置,其特征在于,所述装置还包括:
第四获取模块,用于从存储的搜索日志中,获取所述搜索日志包括的多个文本信息分别对应的至少一个网址信息和所述至少一个网址信息的点击次数,所述搜索日志中包括文本信息、网址信息和点击次数之间的对应关系;
分类模块,用于基于所述多个文本信息分别对应的至少一个网址信息,对所述多个文本信息包括的命名实体进行分类,得到多个实体类型;
第一确定模块,用于对于所述多个实体类型中的每个实体类型,基于所述多个文本信息分别对应的至少一个网址信息的点击次数,分别确定所述多个文本信息包括的命名实体属于所述实体类型的概率;
第一存储模块,用于将所述多个文本信息包括的命名实体、所述实体类型和所述多个文本信息包括的命名实体属于所述实体类型的概率,存储在命名实体、实体类型与实体概率之间的对应关系中。
14.如权利要求13所述的装置,其特征在于,所述第一确定模块包括:
相加单元,用于对于所述多个文本信息中的每个文本信息,将所述文本信息对应的至少一个网址信息的点击次数相加,得到所述文本信息的点击总次数;
判断单元,判断所述文本信息的点击总次数是否大于或等于次数阈值;
第一确定单元,如果所述文本信息的点击总次数大于或等于所述次数阈值,则基于所述文本信息对应的至少一个网址信息的点击次数和所述文本信息的点击总次数,确定所述文本信息包括的命名实体属于所述实体类型的概率。
15.如权利要求14所述的装置,其特征在于,所述第一确定单元包括:
第一选择子单元,用于从所述文本信息对应的至少一个网址信息的点击次数中,选择属于所述实体类型的网址信息的点击次数;
第一确定子单元,用于基于选择的点击次数和所述文本信息的点击总次数,确定所述文本信息属于所述实体类型的概率,得到文本信息概率;
第二选择子单元,用于基于所述文本信息包括的命名实体,从所述多个文本信息中,选择包括所述命名实体的文本信息,得到第一文本信息集合;
第二确定子单元,用于确定多个文本信息概率的平均值,得到所述文本信息包括的命名实体属于所述实体类型的概率,所述多个文本信息概率为所述第一文本信息集合包括的文本信息属于所述实体类型的概率。
16.如权利要求14或15所述的装置,其特征在于,所述第一确定模块还包括:
第一获取单元,用于如果所述文本信息的点击总次数小于所述次数阈值,则基于所述文本信息包括的命名实体,从预设数据库中,获取第一特征向量和所述第一特征向量包括的每个特征词的频次,所述预设数据库至少包括预设网页数据;
第二获取单元,用于基于第二文本信息集合中每个文本信息包括的命名实体属于所述实体类型的概率和所述搜索日志,获取实体概率范围包括的多个概率区间对应的第二特征向量和所述多个概率区间对应的第二特征向量包括的每个特征词的频次,所述第二文本信息集合包括所述多个文本信息中点击总次数大于或等于所述次数阈值的文本信息;
第二确定单元,用于基于所述第一特征向量、所述多个概率区间对应的第二特征向量、所述第一特征向量包括的每个特征词的频次和所述多个概率区间对应的第二特征向量包括的每个特征词的频次,确定所述文本信息包括的命名实体属于所述实体类型的概率。
17.如权利要求16所述的装置,其特征在于,所述第二获取单元包括:
第一获取子单元,用于对于所述多个概率区间中的每个概率区间,基于第二文本信息集合中每个文本信息包括的命名实体属于所述实体类型的概率,获取实体概率位于所述概率区间的命名实体;
第三选择子单元,用于从获取的命名实体中,选择属于所述实体类型的第一指定数值个命名实体;
第二获取子单元,用于基于选择的命名实体,从所述搜索日志中,获取所述概率区间对应的第二特征向量和所述概率区间对应的第二特征向量包括的每个特征词的频次。
18.如权利要求16所述的装置,其特征在于,所述第二确定单元包括:
第四选择子单元,用于对于所述多个概率区间中的每个概率区间,选择所述第一特征向量和所述概率区间对应的第二特征向量中包括的相同特征词,得到多个相同特征词;
第五选择子单元,用于从所述第一特征向量包括的每个特征词的频次中,选择所述多个相同特征词的频次,得到多个第一频次,以及从所述概率区间对应的第二特征向量包括的每个特征词的频次中,选择所述多个相同特征词的频次,得到多个第二频次;
第三确定子单元,用于基于所述多个概率区间分别对应的多个第一频次和所述多个概率区间分别对应的多个第二频次,确定所述第一特征向量和所述多个概率区间对应的第二特征向量之间的相似度,得到多个相似度;
第四确定子单元,用于基于所述多个相似度,确定所述文本信息包括的命名实体属于所述实体类型的概率。
19.如权利要求13所述的装置,其特征在于,所述装置还包括:
第二确定模块,用于对于所述多个实体类型中的每个实体类型,基于所述实体类型、辅助实体类型和所述命名实体、实体类型与实体概率之间的对应关系,确定第一命名实体集合和第二命名实体集合,所述辅助实体类型为所述多个实体类型中除所述实体类型之外的任一实体类型;
第五获取模块,用于基于所述第一命名实体集合、所述第二命名实体集合和所述搜索日志,获取多个特征词和所述多个特征词属于所述实体类型的概率;
第二存储模块,将所述多个特征词、所述实体类型和所述多个特征词属于所述实体类型的概率,存储在特征词、实体类型与特征词概率之间的对应关系中。
20.如权利要求19所述的装置,其特征在于,所述第二确定模块包括:
第一选择单元,用于基于所述实体类型,从所述命名实体、实体类型与实体概率之间的对应关系中,选择实体概率大于第一概率阈值的命名实体,得到第一命名实体集合;
第二选择单元,用于基于辅助实体类型,从所述命名实体、实体类型与实体概率之间的对应关系中,选择实体概率小于第二概率阈值的命名实体,得到第二命名实体集合。
21.如权利要求19或20所述的装置,其特征在于,所述第五获取模块包括:
第三获取单元,用于从所述搜索日志中,获取所述第一命名实体集合包括的每个命名实体所在的文本信息和所述第二命名实体集合包括的每个命名实体所在的文本信息,得到第三文本信息集合和第四文本信息集合;
第四获取单元,用于从所述第三文本信息集合中,分别获取离所述第一命名实体集合包括的每个命名实体最近的第二指定数值个词语,得到所述多个特征词;
第三确定单元,用于基于所述第三文本信息集合和所述第四文本信息集合,确定所述多个特征词属于所述实体类型的概率。
22.如权利要求21所述的装置,其特征在于,所述第三确定单元包括:
第三获取子单元,用于对于所述多个特征词中的每个特征词,从所述第三文本信息集合中,获取包括所述特征词的文本信息的个数,得到第一实体个数;
第四获取子单元,用于从所述第四文本信息集合中,获取包括所述特征词的文本信息的个数,得到第二实体个数;
计算子单元,用于基于所述第一实体个数和所述第二实体个数,计算所述特征词属于所述实体类型的概率。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510256644.1A CN106294308B (zh) | 2015-05-19 | 2015-05-19 | 命名实体识别方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510256644.1A CN106294308B (zh) | 2015-05-19 | 2015-05-19 | 命名实体识别方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106294308A true CN106294308A (zh) | 2017-01-04 |
CN106294308B CN106294308B (zh) | 2020-06-30 |
Family
ID=57632712
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510256644.1A Active CN106294308B (zh) | 2015-05-19 | 2015-05-19 | 命名实体识别方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106294308B (zh) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107608955A (zh) * | 2017-08-31 | 2018-01-19 | 张国喜 | 一种汉藏命名实体互译方法及装置 |
CN108304375A (zh) * | 2017-11-13 | 2018-07-20 | 广州腾讯科技有限公司 | 一种信息识别方法及其设备、存储介质、终端 |
CN108304368A (zh) * | 2017-04-20 | 2018-07-20 | 腾讯科技(深圳)有限公司 | 文本信息的类型识别方法和装置及存储介质和处理器 |
CN108460026A (zh) * | 2017-02-22 | 2018-08-28 | 华为技术有限公司 | 一种翻译方法及装置 |
CN109033070A (zh) * | 2018-06-19 | 2018-12-18 | 深圳市元征科技股份有限公司 | 一种数据处理方法、服务器及计算机可读介质 |
CN109933788A (zh) * | 2019-02-14 | 2019-06-25 | 北京百度网讯科技有限公司 | 类型确定方法、装置、设备和介质 |
CN110858196A (zh) * | 2018-08-21 | 2020-03-03 | 湖南共睹互联网科技有限责任公司 | 交易保障平台的数据库建立方法及装置 |
CN110909535A (zh) * | 2019-12-06 | 2020-03-24 | 北京百分点信息科技有限公司 | 命名实体校对方法、装置、可读存储介质及电子设备 |
CN111353021A (zh) * | 2020-02-28 | 2020-06-30 | 百度在线网络技术(北京)有限公司 | 意图识别方法和设备、电子设备和介质 |
CN111581975A (zh) * | 2020-05-09 | 2020-08-25 | 北京明朝万达科技股份有限公司 | 案件的笔录文本的处理方法、装置、存储介质和处理器 |
CN112507167A (zh) * | 2020-12-10 | 2021-03-16 | 北京达佳互联信息技术有限公司 | 一种识别视频合集的方法、装置、电子设备及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110231347A1 (en) * | 2010-03-16 | 2011-09-22 | Microsoft Corporation | Named Entity Recognition in Query |
CN102314507A (zh) * | 2011-09-08 | 2012-01-11 | 北京航空航天大学 | 一种中文命名实体识别歧义消解方法 |
CN103268348A (zh) * | 2013-05-28 | 2013-08-28 | 中国科学院计算技术研究所 | 一种用户查询意图识别方法 |
-
2015
- 2015-05-19 CN CN201510256644.1A patent/CN106294308B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110231347A1 (en) * | 2010-03-16 | 2011-09-22 | Microsoft Corporation | Named Entity Recognition in Query |
CN102314507A (zh) * | 2011-09-08 | 2012-01-11 | 北京航空航天大学 | 一种中文命名实体识别歧义消解方法 |
CN103268348A (zh) * | 2013-05-28 | 2013-08-28 | 中国科学院计算技术研究所 | 一种用户查询意图识别方法 |
Non-Patent Citations (1)
Title |
---|
HONGPING HU ET AL.: "Chinese Named Entity Recognition with CRFs: Two Levels", 《2008 INTERNATIONAL CONFERENCE ON COMPUTATIONAL INTELLIGENCE AND SECURITY》 * |
Cited By (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108460026B (zh) * | 2017-02-22 | 2021-02-12 | 华为技术有限公司 | 一种翻译方法及装置 |
CN108460026A (zh) * | 2017-02-22 | 2018-08-28 | 华为技术有限公司 | 一种翻译方法及装置 |
US11244108B2 (en) | 2017-02-22 | 2022-02-08 | Huawei Technologies Co., Ltd. | Translation method and apparatus |
CN108304368B (zh) * | 2017-04-20 | 2022-02-08 | 腾讯科技(深圳)有限公司 | 文本信息的类型识别方法和装置及存储介质和处理器 |
CN108304368A (zh) * | 2017-04-20 | 2018-07-20 | 腾讯科技(深圳)有限公司 | 文本信息的类型识别方法和装置及存储介质和处理器 |
US10929600B2 (en) | 2017-04-20 | 2021-02-23 | Tencent Technology (Shenzhen) Company Limited | Method and apparatus for identifying type of text information, storage medium, and electronic apparatus |
CN107608955B (zh) * | 2017-08-31 | 2021-02-09 | 张国喜 | 一种汉藏命名实体互译方法及装置 |
CN107608955A (zh) * | 2017-08-31 | 2018-01-19 | 张国喜 | 一种汉藏命名实体互译方法及装置 |
CN108304375A (zh) * | 2017-11-13 | 2018-07-20 | 广州腾讯科技有限公司 | 一种信息识别方法及其设备、存储介质、终端 |
CN108304375B (zh) * | 2017-11-13 | 2022-01-07 | 广州腾讯科技有限公司 | 一种信息识别方法及其设备、存储介质、终端 |
CN109033070B (zh) * | 2018-06-19 | 2022-04-15 | 深圳市元征科技股份有限公司 | 一种数据处理方法、服务器及计算机可读介质 |
CN109033070A (zh) * | 2018-06-19 | 2018-12-18 | 深圳市元征科技股份有限公司 | 一种数据处理方法、服务器及计算机可读介质 |
CN110858196A (zh) * | 2018-08-21 | 2020-03-03 | 湖南共睹互联网科技有限责任公司 | 交易保障平台的数据库建立方法及装置 |
CN110858196B (zh) * | 2018-08-21 | 2022-04-12 | 湖南共睹互联网科技有限责任公司 | 交易保障平台的数据库建立方法及装置 |
CN109933788A (zh) * | 2019-02-14 | 2019-06-25 | 北京百度网讯科技有限公司 | 类型确定方法、装置、设备和介质 |
CN109933788B (zh) * | 2019-02-14 | 2023-05-23 | 北京百度网讯科技有限公司 | 类型确定方法、装置、设备和介质 |
CN110909535A (zh) * | 2019-12-06 | 2020-03-24 | 北京百分点信息科技有限公司 | 命名实体校对方法、装置、可读存储介质及电子设备 |
CN110909535B (zh) * | 2019-12-06 | 2023-04-07 | 北京百分点科技集团股份有限公司 | 命名实体校对方法、装置、可读存储介质及电子设备 |
CN111353021A (zh) * | 2020-02-28 | 2020-06-30 | 百度在线网络技术(北京)有限公司 | 意图识别方法和设备、电子设备和介质 |
CN111353021B (zh) * | 2020-02-28 | 2023-08-18 | 百度在线网络技术(北京)有限公司 | 意图识别方法和设备、电子设备和介质 |
CN111581975A (zh) * | 2020-05-09 | 2020-08-25 | 北京明朝万达科技股份有限公司 | 案件的笔录文本的处理方法、装置、存储介质和处理器 |
CN112507167A (zh) * | 2020-12-10 | 2021-03-16 | 北京达佳互联信息技术有限公司 | 一种识别视频合集的方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN106294308B (zh) | 2020-06-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106294308A (zh) | 命名实体识别方法及装置 | |
CN104219617B (zh) | 服务获取方法及装置 | |
CN104217717B (zh) | 构建语言模型的方法及装置 | |
CN108334539B (zh) | 对象推荐方法、移动终端及计算机可读存储介质 | |
CN104112213B (zh) | 推荐信息的方法及装置 | |
CN107464162A (zh) | 商品关联方法、装置及计算机可读存储介质 | |
CN108038192A (zh) | 应用搜索方法和装置、电子设备、计算机可读存储介质 | |
CN106210755A (zh) | 一种播放直播视频的方法、装置和系统 | |
CN107948748A (zh) | 推荐视频的方法、设备、移动终端及计算机存储介质 | |
CN106445339A (zh) | 一种双屏终端显示立体图像的方法和装置 | |
CN106708676A (zh) | 接口测试方法及装置 | |
CN106332020A (zh) | 短信合并方法、装置及终端设备 | |
CN108335687A (zh) | 音频信号底鼓节拍点的检测方法以及终端 | |
CN104699501B (zh) | 一种运行应用程序的方法及装置 | |
CN106708554A (zh) | 程序运行方法及装置 | |
CN105447583A (zh) | 一种预测用户离网的方法及装置 | |
CN106210919A (zh) | 一种播放主播歌唱视频的方法、装置和系统 | |
CN111027854A (zh) | 一种基于企业大数据的综合画像指数生成方法及相关设备 | |
CN106126411A (zh) | 一种对被测程序代码进行测试的方法和装置 | |
CN104951637B (zh) | 一种获取训练参数的方法及装置 | |
CN104091600B (zh) | 一种歌声位置检测方法及装置 | |
CN104063400B (zh) | 数据搜索方法和装置 | |
CN106791153A (zh) | 应用推送消息分类显示方法、装置及移动终端 | |
CN106126726A (zh) | 一种文件夹场景的展现方法及相关设备 | |
CN106705988B (zh) | 路况展示方法、装置及计算机设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |