CN103186556B

CN103186556B - 得到和搜索结构化语义知识的方法及对应装置

Info

Publication number: CN103186556B
Application number: CN201110447926.1A
Authority: CN
Inventors: 赵世奇; 方高林; 王海峰
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2011-12-28
Filing date: 2011-12-28
Publication date: 2016-09-07
Anticipated expiration: 2031-12-28
Also published as: CN103186556A

Abstract

本发明提供了一种得到和搜索结构化语义知识的方法及对应装置，从已有语料中抽取出实体类型E的实体e_i；从搜索日志中获取所有包含E的搜索项(query)，从query中E之前出现的实词抽取候选需求限定词d_m，构成候选需求限定词集合{d_m}；从大规模语料库中抽取出包含属于E的e_i且包含{d_m}中至少一个候选需求限定词的句子，从句子中选择出现次数满足第二出现次数要求的候选需求限定词作为需求限定词c_j，确定所抽取句子中c_j和e_i构成的词语对<c_j，e_i>；将<c_j，e_i>存入实体类型E对应的结构化数据库。获取到用户输入的包含需求限定词c和实体类型E的query时，从所述EKBase中搜索所述c对应的所有实体e并包含在搜索结果中返回给用户。

Description

得到和搜索结构化语义知识的方法及对应装置

【技术领域】

本发明涉及计算机技术领域，特别涉及一种得到和搜索结构化语义知识的方法及对应装置。

【背景技术】

随着计算机技术的不断发展，搜索引擎逐渐成为人们获取信息的主要工具，其中实体相关的搜索在搜索引擎技术中占有很大比重，其中一类为搜索满足需求约束的某种类型的实体。例如，用户在搜索引擎中输入搜索项(query)“战争电影”，即要搜索以战争作为需求限定的电影类型的实体；再如，用户在搜索引擎中输入query“澳大利亚动物”，即要搜索以澳大利亚作为需求限定的动物类型的实体。这些query的共同特征是都采用了“需求限定词+实体类型”的形式，想要获得的是具体的实体。

然而，在现有的搜索引擎技术中，当用户输入“需求限定词+实体类型”式的query时，搜索引擎返回的往往是与该query相关的页面，用户需要通过点击并进入相应页面并浏览具体页面内容来搜寻对应的具体实体，甚至搜索引擎返回的页面可能无法满足用户的搜索需求，显然就会浪费网络资源和用户的时间，甚至无法达到搜索的目的。究其原因，正是因为现有技术中尚没有一种好的方式能够将需求限定词、实体类型和实体对应构成的结构化信息挖掘出来，从而无法实现基于此的结构化搜索。

【发明内容】

有鉴于此，本发明提供了一种得到和搜索结构化语义知识的方法及对应装置，以便于在用户输入“需求限定词+实体类型”的query进行搜索时，在满足用户搜索需求的同时节约网络资源和用户的时间。

具体技术方案如下：

一种得到结构化语义知识的方法，该方法包括：

S1、对已有语料进行分词处理和命名实体识别，抽取出实体类型E的实体e_i；

S2、从搜索日志中获取所有包含所述E的query，从query中所述E之前出现的实词抽取候选需求限定词d_m，构成候选需求限定词集合{d_m}；

S3、从大规模语料库中抽取出包含属于所述E的e_i且包含所述{d_m}中至少一个候选需求限定词的句子，从句子中选择出现次数满足第二出现次数要求的候选需求限定词作为需求限定词c_j，确定所抽取句子中c_j和e_i构成的词语对<c_j，e_i>；

S4、将<c_j，e_i>存入实体类型E对应的结构化数据库EKBase。

根据本发明一优选实施例，步骤S1中所述已有语料包括：随机抽取的网页资源构成的网页语料库，或者，利用已有实体平台上的实体进行搜索后，从搜索结果中抽取排在前N1个的标题或网页片段(snippets)构成的网页语料库，所述N1为预设的正整数。

根据本发明一优选实施例，步骤S1中在所述命名实体识别之后进一步包括：对命名实体识别结果中的实体进行命名实体验证，根据验证结果将不属于所述E的实体从命名实体识别结果中删除。

根据本发明一优选实施例，在所述步骤S2中进一步包括：统计各候选需求限定词在所述query中的出现次数，将出现次数不满足第一出现次数要求的候选需求限定词从所述{d_m}中过滤掉。

根据本发明一优选实施例，所述步骤S3具体包括：针对各实体e_i分别执行以下步骤：

S31、从大规模语料库中抽取包含实体e_i的句子；

S32、从抽取的句子中利用命名实体验证的方式确定实体e_i属于所述E的句子；

S33、从所述步骤S32确定的句子中筛选出包含所述{d_m}中至少一个候选需求限定词的句子；

S34、统计所述{d_m}中各候选需求限定词在所述步骤S33筛选出的句子中的出现次数，选择出现次数满足第二出现次数要求的候选需求限定词作为需求限定词c_j，确定所述<c_j，e_i>。

根据本发明一优选实施例，该方法还包括：

将冷门需求限定词与所述E构成的组合作为query进行搜索，抽取出搜索结果中的实体，将抽取出的实体与所述冷门需求限定词构成的词语对添加到所述EKBase。

根据本发明一优选实施例，在所述步骤S3和所述步骤S4之间还包括以下步骤S5至S7：

S5、利用所述步骤S3确定的<c_j，e_i>作为query进行搜索，得到包含c_j和e_i的句子；

S6、利用命名实体验证的方式从所述步骤S5得到的句子中抽取出e_i属于实体类型E的句子S_k；

S7、对各句子S_k进行支持度评分，将支持度评分满足预设评分要求的句子确定为支持句子，仅保留支持句子所包含的<c_j，e_i>；

所述步骤S4中，进一步在所述EKBase中存入c_j和e_i共现的支持句子数量、含有e_i的支持句子数量以及含有e_i且e_i属于所述E的句子数量。

根据本发明一优选实施例，步骤S7中所述对各句子S_k进行支持度评分具体包括：

S71、从各句子S_k中抽取各n元词组n-gram，所述n为预设的一个或多个正整数；

S72、基于n-gram的出现次数或者包含实体e_i的次数确定各n-gram的支持度sup(n-gram)；

S73、将支持度大于预设支持度阈值的n-gram作为频繁模式，基于句子中包含的频繁模式的支持度对各句子S_k进行支持度评分。

根据本发明一优选实施例，在所述步骤S73中按照为句子S_k进行支持度评分；

其中，N为选取的n的个数，FP为属于频繁模式的n-gram集合。

根据本发明一优选实施例，所述命名实体验证具体包括：抽取实体的上下文，确定上下文中是否包含预设的所述E对应的关键词列表中的关键词，如果是，则确定所述实体属于所述E；否则确定所述实体不属于所述E。

一种搜索结构化语义知识的方法，该方法包括：

A1、获取用户输入的包含需求限定词c和实体类型E的搜索项query；

A2、在所述E对应的结构化数据库EKBase中搜索所述c对应的所有实体e；

A3、将搜索得到的实体e包含在搜索结果中返回给所述用户；

其中所述E对应的EKBase是通过上述的得到结构化语义知识的方法建立的。

根据本发明一优选实施例，如果所述需求限定词c为一个，则从所述EKBase中搜索所述c对应的所有实体e；

如果所述需求限定词c为多个，则从所述EKBase中搜索与各需求限定词c均对应的实体e。

根据本发明一优选实施例，在所述步骤A3中还包括：将搜索得到的实体e依据P(e|c，E)进行排序；

所述P(e|c，E)＝P(c|E，e)×P(E|e)×P(e)，

其中，

P (c | E, e) = \underset{i &Element; φ}{Π} \frac{freq (c_{i}, E, e)}{freq (E, e)},

P (E | e) = \frac{freq (E, e)}{freq (e)},

P (e) = \frac{{freq}_{QL} (e)}{\underset{y &Element; QL}{Σ} {freq}_{QL} (y)},

φ为得到e的所有需求限定词构成的集合，freq(c_i，E，e)为φ中各需求限定词c_i与e共现的支持句子数量，freq(E，e)为含有e且e属于所述E的句子数量，freq(e)为含有e的句子数量，freq_QL(e)为搜索日志中包含e的query的搜索总数量，为搜索日志中所有query的搜索总数量。

根据本发明一优选实施例，在所述步骤A3中将排序结果在前N个的实体e包含在搜索结果中返回给所述用户。

一种得到结构化语义知识的装置，该装置包括：

实体抽取单元，用于对已有语料进行分词处理和命名实体识别，抽取出实体类型E的实体e_i；

候选集合确定单元，用于从搜索日志中获取所有包含所述E的搜索项query，从query中所述E之前出现的实词抽取候选需求限定词d_m，构成候选需求限定词集合{d_m}；

词语对确定单元，用于从大规模语料库中抽取出包含属于所述E的e_i且包含所述{d_m}中至少一个候选需求限定词的句子，从这些句子中选择出现次数满足第二出现次数要求的候选需求限定词作为需求限定词c_j，确定所抽取句子中c_j和e_i构成的词语对<c_j，e_i>；

数据库形成单元，用于将<c_j，e_i>存入实体类型E对应的结构化数据库EKBase。

根据本发明一优选实施例，所述已有语料包括：随机抽取的网页资源构成的网页语料库，或者，利用已有实体平台上的实体进行搜索后，从搜索结果中抽取排在前N1个的标题或网页片段snippets构成的网页语料库，所述N1为预设的正整数。

根据本发明一优选实施例，所述实体抽取单元还用于对命名实体识别结果中的实体进行命名实体验证，根据验证结果将不属于所述E的实体从命名实体识别结果中删除。

根据本发明一优选实施例，所述候选集合确定单元还用于统计各候选需求限定词在所述query中的出现次数，将出现次数不满足第一出现次数要求的候选需求限定词从所述{d_m}中过滤掉。

根据本发明一优选实施例，所述词语对确定单元具体包括：

句子抽取子单元，用于从大规模语料库中抽取包含实体e_i的句子；

句子确定子单元，用于从所述句子抽取子单元抽取的句子中利用命名实体验证的方式确定实体e_i属于所述E的句子；

句子筛选子单元，用于从所述句子确定子单元确定的句子中筛选出包含所述{d_m}中至少一个候选需求限定词的句子；

词语对确定子单元，用于统计所述{d_m}中各候选需求限定词在所述句子筛选子单元筛选出的句子中的出现次数，选择出现次数满足第二出现次数要求的候选需求限定词作为需求限定词c_j，确定所述<c_j，e_i>。

根据本发明一优选实施例，该装置还包括：

补充添加单元，用于将冷门需求限定词与所述E构成的组合作为query进行搜索，抽取出搜索结果中的实体，将抽取出的实体与所述冷门需求限定词构成的词语对添加到所述EKBase。

根据本发明一优选实施例，该装置还包括：

句子扩展单元，用于利用所述词语对确定单元确定的<c_j，e_i>作为query进行搜索，得到包含c_j和e_i的句子；

句子抽取单元，用于利用命名实体验证的方式从所述句子扩展单元得到的句子中抽取出e_i属于实体类型E的句子S_k；

支持度评分单元，用于对各句子S_k进行支持度评分，将支持度评分满足预设评分要求的句子确定为支持句子，仅保留支持句子所包含的<c_j，e_i>，并提供给所述数据库形成单元；

所述数据库形成单元将所述支持度评分单元提供的<c_j，e_i>存入所述EKBase，并在所述EKBase中存入c_j和e_i共现的支持句子数量、含有e_i的支持句子数量以及含有e_i且e_i属于所述E的句子数量。

根据本发明一优选实施例，所述支持度评分单元具体包括：

词组抽取子单元，用于从各句子S_k中抽取各n元词组n-gram，所述n为预设的一个或多个正整数；

第一计算子单元，用于基于n-gram的出现次数或者包含实体e_i的次数确定各n-gram的支持度sup(n-gram)；

第二计算子单元，用于将支持度大于预设支持度阈值的n-gram作为频繁模式，基于句子中包含的频繁模式的支持度对各句子S_k进行支持度评分。

根据本发明一优选实施例，所述第二计算子单元按照为句子S_k进行支持度评分；

其中，N为选取的n的个数，FP为属于频繁模式的n-gram集合。

一种搜索结构化语义知识的装置，该装置包括：

搜索项获取单元，用于获取用户输入的包含需求限定词c和实体类型E的搜索项query；

数据库搜索单元，用于在所述E对应的结构化数据库EKBase中搜索所述c对应的所有实体e；

结果发送单元，用于将所述数据库搜索单元搜索得到的实体e包含在搜索结果中返回给所述用户；

其中所述E对应的EKBase是通过上述得到结构化语义知识的装置建立的。

根据本发明一优选实施例，如果所述需求限定词c为一个，则所述数据库搜索单元从所述EKBase中搜索所述c对应的所有实体e；

如果所述需求限定词c为多个，则所述数据库搜索单元从所述EKBase中搜索与各需求限定词c均对应的实体e。

根据本发明一优选实施例，该装置还包括：

实体排序单元，用于将所述数据库搜索单元搜索得到的实体e依据P(e|c，E)进行排序；

所述P(e|c，E)＝P(c|E，e)×P(E|e)×P(e)，

其中，

P (c | E, e) = \underset{i &Element; φ}{Π} \frac{freq (c_{i}, E, e)}{freq (E, e)},

P (E | e) = \frac{freq (E, e)}{freq (e)},

P (e) = \frac{{freq}_{QL} (e)}{\underset{y &Element; QL}{Σ} {freq}_{QL} (y)},

根据本发明一优选实施例，所述结果发送单元将排序结果排在前N个的实体e包含在搜索结果中返回给所述用户。

由以上技术方案可以看出，通过本发明提供的方法和装置能够挖掘出属于实体类型E的实体e_i以及e_i的需求限定词c_j，并将这一结构化信息存入数据库，以便当用户输入包含需求限定词和实体类型的query时，能够通过查询数据库中的结构化信息返回用户需求的具体实体，使用户能够快速方便地得到需求的实体，不必通过点击搜索结果中的具体页面来获取想要的实体信息，节约了网络资源和用户的时间。

【附图说明】

图1为本发明实施例一提供的得到结构化语义知识的方法流程图；

图2为本发明实施例二提供的得到结构化语义知识的方法流程图；

图3为本发明实施例二提供的对句子进行支持度评分的方法流程图；

图4为本发明实施例三提供的搜索结构化语义知识的方法流程图；

图5为本发明实施例三提供的展现搜索结果的实例图；

图6为本发明实施例四提供的得到结构化语义知识的装置结构图；

图7为本发明实施例五提供的搜索结构化语义知识的结构图；

图8为本发明实施例六提供的搜索结构化语义知识的装置结构图。

【具体实施方式】

为了使本发明的目的、技术方案和优点更加清楚，下面结合附图和具体实施例对本发明进行详细描述。

本发明的主要思路是，预先针对各实体类型抽取出实体，然后针对实体的需求限定词打上标签，例如“运动员”实体类型的实体“林丹”的需求限定词包括“羽毛球”、“奥运”、“亚运会”、“苏迪曼杯”等，这些需求限定词在文本中都是对“林丹”的语义限定或描述，基于此构建结构化数据库，从而在进行结构化搜索时，能够通过查询该结构化数据库找到满足需求限定的实体类型的实体。

下面通过实施例一和实施例二对结构化语义知识的得到过程进行详细描述，通过实施例三对结构化语义知识的搜索过程进行详细描述。

实施例一、

图1为本发明实施例一提供的得到结构化语义知识的方法流程图，如图1所示，针对各实体类型分别执行以下步骤：

步骤101：对已有语料进行分词处理和命名实体(NE)识别，抽取出实体类型E的实体e_i，构成实体集合{e_i}。

在本步骤中采用的语料可以包括但不限于以下两种：其一、网页语料库，例如随机抽取200G的网页资源构成网页语料库；其二、利用已有实体平台(例如电影专题的站点、歌曲专题的站点、图书专题的站点等)上的实体进行搜索，从各搜索结果中抽取排在前N1个的title和/或snippets构成网页语料库，N1为预设的正整数。

在此，NE识别可以采用已有的NE识别技术。优选地，为了保证NE识别的准确性，可以进一步对NE识别结果进行NE验证，具体为：抽取NE识别结果中实体的上下文，确定该上下文中是否包含该实体所属实体类型对应的关键词列表，如果是，则保留该实体，否则将该实体从NE识别结果中删除。

其中，关键词列表是针对各实体类型预先设置的，例如针对“电影”实体类型，将“影片”、“主演”、“上映”等设置于“电影”实体类型对应的关键词列表中，该关键词列表可以采用人工设置的方式得到，也可以基于种子实体自动挖掘的方式得到。如果某语料中存在“活着近期在各大影院上映”，则NE识别结果中“活着”的上下文中存在关键词列表中的“上映”，因此，“活着”为电影类型的实体，而不是普通动词，验证该NE识别结果正确。

执行完本步骤之后，就得到了实体类型E对应的实体集合{e_i}。在下面步骤中将抽取需求限定词。

本发明涉及的实体类型例如：游戏、电影、歌曲、动漫、软件等类别

步骤102：从搜索日志(querylog)中获取所有包含实体类型E的query，从该query中E之前的实词抽取候选需求限定词d_m，构成候选需求限定词集合{d_m}。

在query中E之前任何的实词都有可能作为一个需求限定词，但并不是所有的需求限定词都具有抽取价值的，这很大程度上取决于需求限定词在query中的出现次数。因此，作为一种优选的实施方式，统计各候选需求限定词在query中的出现次数，将出现次数不满足第一出现次数要求的候选需求限定词从候选需求限定词集合{d_m}中过滤掉。其中，第一出现次数要求包括但不限于：出现次数超过第一出现次数阈值，或者，出现次数排在前N2个，N2为预设正整数。例如N2为3000。

例如，假设E为“电影”实体类别，则在querylog中获取所有包含“电影”的query，获取“电影”之前的所有实词，然后将所有实体统计出现次数，仅保留出现次数超过预设出现次数阈值的实词，得到候选需求限定词集合{d_m}。

步骤103：从大规模语料库中抽取出包含属于实体类型E的e_i且包含候选需求限定词集合{d_m}中至少一个候选需求限定词的句子，从这些句子中选择出现次数满足第二出现次数要求的候选需求限定词作为需求限定词c_j，确定所抽取句子中的<c_j，e_i>，<c_j，e_i>为c_j和e_i构成的词语对。

在本步骤中可以针对{e_i}中的各实体e_i分别执行以下步骤S1至S3。

步骤S1、从大规模语料库中抽取包含实体e_i的句子。

步骤S2、从抽取的句子中利用步骤101所述的NE验证方式确定实体e_i属于实体类型E的句子。

步骤S3、从步骤S2确定的句子中筛选出包含{d_m}中至少一个候选需求限定词的句子。

步骤S4、统计{d_m}中各候选需求限定词在步骤S3筛选出的句子中的出现次数，选择出现次数满足第二出现次数要求的候选需求限定词作为需求限定词c_j，确定所抽取句子中的<c_j，e_i>。其中，第二出现次数要求包括但不限于：出现次数超过预设的第二出现次数阈值，或者出现次数排在前N3个，N3为预设的正整数。

本步骤结束后，就得到了实体类型E对应的一系列的<c_j，e_i>，然而，对于一些较难从常用预料中抽取出的需求限定词，例如“减肥蔬菜”中“蔬菜”的需求限定词“减肥”，为了照顾到这种情况，可以将冷门需求限定词与实体类型E构成的组合作为query到搜索引擎中进行搜索，抽取出搜索结果中的实体，将该实体与冷门需求限定词构成的词语对添加到实体类型E对应的<c_j，e_i>，其中冷门需求限定词可以预先人工配置为冷门需求限定词列表的形式。

步骤104：将<c_j，e_i>存入实体类型E对应的结构化数据库EKBase。

在得到需求限定词和实体构成的各词语对<c_j，e_i>后，可以用<c_j，e_i>构成实体类型E对应的结构化数据库EKBase，本发明实施例中并不具体限制EKBase中的数据存储方式，例如可以采用实体类型E作为<c_j，e_i>索引的方式，也可以采用E和c_j作为e_i倒排索引的方式，还可以直接以E、c_j和e_i构成一个表项的方式等等。

基于实施例一所述的方式获得的词语对<c_j，e_i>中可能会含有大量的噪声，也就是说，有些<c_j，e_i>只是恰好出现在同一个句子中，但两者并不存在c_j具有限定功能的语义关联，因此，一种优选的实施方式需要对<c_j，e_i>进行进一步的噪声过滤，保留真正有语义关联的词语对，下面通过实施例二进行详细描述。

实施例二、

图2为本发明实施例二提供的得到结构化语义知识的方法流程图，如图2所示，针对各实体类型分别执行以下步骤。

步骤201同步骤101。

步骤202同步骤102。

步骤203同步骤103。

步骤204：利用步骤203抽取的句子中<c_j，e_i>构成query进行搜索，得到包含c_j和e_i的句子，从这些句子中抽取出e_i属于实体类型E的句子S_k。

由于通过上述方式抽取出的包含c_j和e_i的句子可能数量很少，在此可以利用<c_j，e_i>构成的query进行进一步的搜索，获得更多包含c_j和e_i的句子，然后利用上述的NE验证方式验证e_i是否属于E，仅保留其中e_i属于E的句子S_k。

步骤205：对各句子S_k进行支持度评分，仅保留支持度评分满足预设评分要求的句子包含的<c_j，e_i>。

在此，若在某个句子中c_j和e_i确实具有限定的语义关系，则该句子称为支持句子。通常支持句子中含有更多一致性的表达，可以采用有限数量的模板表达，而其他句子表达则千差万别，基于此可以采用基于频繁模式(frequent pattern)的支持句子过滤方法。

具体地，对各句子S_k进行支持度评分的方式可以如图3所示，包括步骤P301至步骤304：

步骤301：从各句子中抽取各n元词组(n-gram)。

在此，对n-gram的概念进行简单介绍，所谓n-gram就是最小粒度的n个词语按顺序出现的组合，其中n为预设的一个或多个正整数，例如取1、2、3和4。

例如：句子“林丹获得2011年英国世界羽毛球锦标赛男单冠军”，抽取出的1-gram为：“林丹”、“获得”、“2011年”、“英国”、“世界”、“羽毛球”、“锦标赛”、“男单”和“冠军”。

抽取出的2-gram为：“林丹获得”、“获得2011年”、“2011年英国”、“英国世界”、“世界羽毛球”、“羽毛球锦标赛”、“锦标赛男单”、“男单冠军”。

抽取出的3-gram为：“林丹获得2011年”、“获得2011年英国”、“2011年英国世界”、“英国世界羽毛球”、“世界羽毛球锦标赛”、“羽毛球锦标赛男单”、“锦标赛男单冠军”。

抽取出的4-gram为：“林丹获得2011年英国”、“获得2011年英国世界”、“2011年英国世界羽毛球”、“英国世界羽毛球锦标赛”、“世界羽毛球锦标赛男单”和“羽毛球锦标赛男单冠军”。

步骤302：基于出现次数或者包含实体e_i的次数确定各n-gram的支持度sup(n-gram)。

在此可以对各n-gram的出现次数进行统计，将出现次数作为各n-gram的支持度，也可以统计各n-gram包含实体e_i的次数，将包含实体e_i的次数作为各n-gram的支持度。

步骤303：将支持度大于预设支持度阈值的n-gram作为频繁模式。

步骤304：基于句子中包含的频繁模式的支持度对各句子进行支持度评分。

在本步骤中，句子S_k的支持度评分score(S_k)可以采用如下公式：

score (S_{k}) = \frac{1}{N} Σ_{n = 1}^{N} P_{n} (S_{k}) - - - (1)

其中，

P_{n} (S_{k}) = \frac{\underset{n - gram &Element; FP}{\underset{n - gram &Element; S_{k}}{Σ}} \sup (n - gram)}{\underset{n - gram &Element; S_{k}}{Σ} \sup (n - gram)} - - - (2)

N为选取的n的个数，例如，如果n取1、2、3和4，那么N为4。FP为属于频繁模式的n-gram集合。公式(2)体现了句子S_k对于长度为n的频繁模式的匹配状况，公式(1)体现了句子S_k对于各种长度的频繁模式的匹配状况平均值。

执行完图3所示流程后得到各句子的支持度评分，重新参见图1中的步骤205，将支持度评分满足预设评分要求的句子确定为支持句子，仅保留支持句子中的<c_j，e_i>，其中评分要求可以包括但不限于：评分超过预设评分阈值，或者评分排在前N4个，N4为预设的正整数。

步骤206：将<c_j，e_i，freq>存入实体类型E对应的结构化数据库EKBase。

<c_j，e_i，freq>为c_j，e_i和freq构成的三元组，freq为c_j和e_i共现的支持句子数量，还会进一步在EKBase中记录分别含有各e_i且e_i属于E的句子数量，即句子S_k中各e_i分别所在的句子数量，以及含有e_i的支持句子数量。

实施例三、

图4为本发明实施例三提供的搜索结构化语义知识的方法流程图，如图4所示，该方法可以包括以下步骤：

步骤401：获取用户输入的包含需求限定词c和实体类型E的query。

本实施例中涉及的query为“需求限定词+实体类型”的query，例如“战争电影”、“澳大利亚动物”、“羽毛球运动员”等。

用户还有可能输入的query中包含多个需求限定词，即需求限定词c为{c₁，c₂，…，c_z}，z为正整数。例如，用户输入query“2011最新搞笑电影”，其中实体类型为“电影”，需求限定词有：“2011”、“最新”、“搞笑”。

步骤402：在实体类型E的EKBase数据库中搜索需求限定词c对应的所有实体e。

在此，如果需求限定词c为一个，则直接从EKBase数据库中搜索c对应的所有实体e即可。

如果需求限定词c为多个，则从EKBase数据库中搜索与各需求限定词c均对应的实体e。

步骤403：将搜索得到的实体e包含在搜索结果中返回给用户。

其中，在返回搜索得到的实体e时，可以对实体e进行排序，排序可以依据P(e|c，E)进行。

P(e|c，E)＝P(c|E，e)×P(E|e)×P(e) (3)

其中，p(c|E，e)为e属于实体类型E前提下同时出现c的概率，计算公式可以为：

P (c | E, e) = \underset{i &Element; φ}{Π} \frac{freq (c_{i}, E, e)}{freq (E, e)} - - - (4)

φ为得到e的所有需求限定词构成的集合，freq(c_i，E，e)为φ中各需求限定词c_i与e共现的支持句子数量，freq(E，e)为含有e且e属于实体类型E的句子数量。

P (E | e) = \frac{freq (E, e)}{freq (e)} - - - (5)

freq(e)为含有e的句子数量。

P (e) = \frac{{freq}_{QL} (e)}{\underset{y &Element; QL}{Σ} {freq}_{QL} (y)} - - - (6)

freq_QL(e)为querylog中包含e的query的搜索总数量，为querylog中所有query的搜索总数量。

另外，在搜索结果中也可以仅保留排序结果在前N个的实体包含在搜索结果中返回给用户，N为预设的正整数。

在本发明实施例中，可以将通过图4所示方式搜索到的实体在搜索结果中突出展示给用户，例如可以排在搜索结果的首位，如图5所示，当用户输入“羽毛球运动员”时，通过图4所示方式搜索到“运动员”对应的EKBase中“羽毛球”对应的实体包括：林丹、鲍春来、陶菲克、李宗伟、王适娴、陈金、张宁、谢杏芳、李龙大、王仪涵、傅海峰等，在搜索结果中将这些实体结果排在最前面展示给用户。

以上是对本发明所提供的方法进行的详细描述，下面结合实施例对本发明提供的装置进行详细描述。

实施例四、

图6为本发明实施例四提供的得到结构化语义知识的装置结构图，如图6所示，该装置可以包括：实体抽取单元600、候选集合确定单元610、词语对确定单元620和数据库形成单元630。

实体抽取单元600对已有语料进行分词处理和NE识别，抽取出实体类型E的实体e_i。

其中已有语料可以包括但不限于以下两种：其一、随机抽取的网页资源构成的网页语料库，其二、利用已有实体平台上的实体进行搜索后，从搜索结果中抽取排在前N1个的title或snippets构成的网页语料库，N1为预设的正整数。

在此，NE识别可以采用已有的NE识别技术。优选地，为了保证NE识别的准确性，实体抽取单元600还可以进一步对NE识别结果中的实体进行NE验证，根据验证结果将不属于E的实体从NE识别结果中删除。

候选集合确定单元610从querylog中获取所有包含E的query，从query中E之前出现的实词抽取候选需求限定词d_m，构成候选需求限定词集合{d_m}。

在query中E之前任何的实词都有可能作为一个需求限定词，但并不是所有的需求限定词都具有抽取价值的，这很大程度上取决于需求限定词在query中的出现次数。因此，作为一种优选的实施方式，候选集合确定单元610进一步统计各候选需求限定词在query中的出现次数，将出现次数不满足第一出现次数要求的候选需求限定词从{d_m}中过滤掉。其中，第一出现次数要求包括但不限于：出现次数超过第一出现次数阈值，或者，出现次数排在前N2个，N2为预设正整数。例如N2为3000。

词语对确定单元620从大规模语料库中抽取出包含属于E的e_i且包含{d_m}中至少一个候选需求限定词的句子，从这些句子中选择出现次数满足第二出现次数要求的候选需求限定词作为需求限定词c_j，确定所抽取句子中c_j和e_i构成的词语对<c_j，e_i>。

数据库形成单元630将<c_j，e_i>存入实体类型E对应的结构化数据库EKBase。

其中，词语对确定单元620可以具体包括：句子抽取子单元621、句子确定子单元622、句子筛选子单元623以及词语对确定子单元624。

句子抽取子单元621从大规模语料库中抽取包含实体e_i的句子。

句子确定子单元622从句子抽取子单元621抽取的句子中利用NE验证的方式确定实体e_i属于E的句子。

句子筛选子单元623从句子确定子单元622确定的句子中筛选出包含{d_m}中至少一个候选需求限定词的句子。

词语对确定子单元624统计{d_m}中各候选需求限定词在句子筛选子单元623筛选出的句子中的出现次数，选择出现次数满足第二出现次数要求的候选需求限定词作为需求限定词c_j，确定<c_j，e_i>。其中，第二出现次数要求包括但不限于：出现次数超过预设的第二出现次数阈值，或者出现次数排在前N3个，N3为预设的正整数。

除此之外，为了照顾到一些较难从常用预料中抽取出的需求限定词，该装置还包括：补充添加单元640，用于将冷门需求限定词与E构成的组合作为query进行搜索，抽取出搜索结果中的实体，将抽取出的实体与冷门需求限定词构成的词语对添加到EKBase。

基于实施例四所述的装置获得的词语对<c_j，e_i>中可能会含有大量的噪声，也就是说，有些<c_j，e_i>只是恰好出现在同一个句子中，但两者并不存在具有c_j限定功能的语义关联，因此，一种优选的实施方式需要对<c_j，e_i>进行进一步的噪声过滤，保留真正有语义关联的词语对，下面通过实施例五进行详细描述。

实施例五、

图7为本发明实施例五提供的搜索结构化语义知识的结构图，与实施例四不同的是，该实施例五中提供的装置进一步包括：句子扩展单元650、句子抽取单元660和支持度评分单元670。

句子扩展单元650利用词语对确定单元620确定的<c_j，e_i>作为query进行搜索，得到包含c_j和e_i的句子。

句子抽取单元660利用NE验证的方式从句子扩展单元650得到的句子中抽取出e_i属于实体类型E的句子S_k。

支持度评分单元670对各句子S_k进行支持度评分，将支持度评分满足预设评分要求的句子确定为支持句子，仅保留支持句子所包含的<c_j，e_i>，并提供给数据库形成单元630。

这种情况下，数据库形成单元630将支持度评分单元670提供的<c_j，e_i>存入EKBase，并在EKBase中存入c_j和e_i共现的支持句子数量、含有e_i的支持句子数量以及含有e_i且e_i属于E的句子数量。

其中，支持度评分单元670可以具体包括：词组抽取子单元671、第一计算子单元672以及第二计算子单元673。

词组抽取子单元671从各句子S_k中抽取各n-gram，n为预设的一个或多个正整数。

第一计算子单元672基于n-gram的出现次数或者包含实体e_i的次数确定各n-gram的支持度sup(n-gram)。

第二计算子单元673将支持度大于预设支持度阈值的n-gram作为频繁模式，基于句子中包含的频繁模式的支持度对各句子S_k进行支持度评分。

具体地，第二计算子单元673可以按照为句子S_k进行支持度评分。

其中，N为选取的n的个数，FP为属于频繁模式的n-gram集合。

实施例四和五中涉及的NE验证具体包括：抽取实体的上下文，确定上下文中是否包含预设的E对应的关键词列表中的关键词，如果是，则确定实体属于E；否则确定实体不属于E。

实施例六、

图8为本发明实施例六提供的搜索结构化语义知识的装置结构图，如图8所示，该装置可以包括：搜索项获取单元800、数据库搜索单元810以及结果发送单元820。

搜索项获取单元800获取用户输入的包含需求限定词c和实体类型E的query。

数据库搜索单元810在E对应的结构化数据库EKBase中搜索c对应的所有实体e。

如果需求限定词c为一个，则数据库搜索单元810从EKBase中搜索c对应的所有实体e。如果需求限定词c为多个，则数据库搜索单元810从EKBase中搜索与各需求限定词c均对应的实体e。

结果发送单元820将数据库搜索单元810搜索得到的实体e包含在搜索结果中返回给用户。

其中E对应的EKBase是通过实施例四或实施例五所示的挖掘结构化信息的装置建立的。

除此之外，该装置还可以包括：实体排序单元830，用于将数据库搜索单元810搜索得到的实体e依据P(e|c，E)进行排序后提供给所述结果发送单元820。

P(e|c，E)＝P(c|E，e)×P(E|e)×P(e)，

其中，

P (c | E, e) = \underset{i &Element; φ}{Π} \frac{freq (c_{i}, E, e)}{freq (E, e)},

P (E | e) = \frac{freq (E, e)}{freq (e)},

P (e) = \frac{{freq}_{QL} (e)}{\underset{y &Element; QL}{Σ} {freq}_{QL} (y)},

φ为得到e的所有需求限定词构成的集合，freq(c_i，E，e)为φ中各需求限定词c_i与e共现的支持句子数量，freq(E，e)为含有e且e属于E的句子数量，freq(e)为含有e的句子数量，freq_QL(e)为搜索日志中包含e的query的搜索总数量，为搜索日志中所有query的搜索总数量。

基于此，结果发送单元820可以将排序结果排在前N个的实体e包含在搜索结果中返回给用户。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种得到结构化语义知识的方法，其特征在于，该方法包括：

S2、从搜索日志中获取所有包含所述E的搜索项query，从query中所述E之前出现的实词抽取候选需求限定词d_m，构成候选需求限定词集合{d_m}；

S3、从大规模语料库中抽取出包含属于所述E的e_i且包含所述{d_m}中至少一个候选需求限定词的句子，从句子中选择出现次数满足第二出现次数要求的候选需求限定词作为需求限定词c_j，确定所抽取句子中c_j和e_i构成的词语对<c_j,e_i>；

S4、将<c_j,e_i>存入实体类型E对应的结构化数据库EKBase。

2.根据权利要求1所述的方法，其特征在于，步骤S1中所述已有语料包括：随机抽取的网页资源构成的网页语料库，或者，利用已有实体平台上的实体进行搜索后，从搜索结果中抽取排在前N1个的标题或网页片段snippets构成的网页语料库，所述N1为预设的正整数。

3.根据权利要求1所述的方法，其特征在于，步骤S1中在所述命名实体识别之后进一步包括：对命名实体识别结果中的实体进行命名实体验证，根据验证结果将不属于所述E的实体从命名实体识别结果中删除。

4.根据权利要求1所述的方法，其特征在于，在所述步骤S2中进一步包括：统计各候选需求限定词在所述query中的出现次数，将出现次数不满足第一出现次数要求的候选需求限定词从所述{d_m}中过滤掉。

5.根据权利要求1所述的方法，其特征在于，所述步骤S3具体包括：针对各实体e_i分别执行以下步骤：

S31、从大规模语料库中抽取包含实体e_i的句子；

S34、统计所述{d_m}中各候选需求限定词在所述步骤S33筛选出的句子中的出现次数，选择出现次数满足第二出现次数要求的候选需求限定词作为需求限定词c_j，确定所述<c_j,e_i>。

6.根据权利要求1所述的方法，其特征在于，该方法还包括：

7.根据权利要求1所述的方法，其特征在于，在所述步骤S3和所述步骤S4之间还包括以下步骤S5至S7：

S5、利用所述步骤S3确定的<c_j,e_i>作为query进行搜索，得到包含c_j和e_i的句子；

S7、对各句子S_k进行支持度评分，将支持度评分满足预设评分要求的句子确定为支持句子，仅保留支持句子所包含的<c_j,e_i>；

8.根据权利要求7所述的方法，其特征在于，步骤S7中所述对各句子S_k进行支持度评分具体包括：

9.根据权利要求8所述的方法，其特征在于，在所述步骤S73中按照为句子Sk进行支持度评分；

其中，N为选取的n的个数，FP为属于频繁模式的n-gram集合。

10.根据权利要求3、5或7所述的方法，其特征在于，所述命名实体验证具体包括：抽取实体的上下文，确定上下文中是否包含预设的所述E对应的关键词列表中的关键词，如果是，则确定所述实体属于所述E；否则确定所述实体不属于所述E。

11.一种搜索结构化语义知识的方法，其特征在于，该方法包括：

A3、将搜索得到的实体e包含在搜索结果中返回给所述用户；

其中所述E对应的EKBase是通过权利要求1至9任一权项所述的得到结构化语义知识的方法建立的。

12.根据权利要求11所述的搜索结构化语义知识的方法，其特征在于，如果所述需求限定词c为一个，则从所述EKBase中搜索所述c对应的所有实体e；

13.根据权利要求11所述的搜索结构化语义知识的方法，其特征在于，当所述E对应的EKBase是通过权利要求7、8或9所述的得到结构化语义知识的方法建立时，在所述步骤A3中还包括：将搜索得到的实体e依据P(e|c,E)进行排序；

所述P(e|c,E)＝P(c|E,e)×P(E|e)×P(e)，

其中，

φ为得到e的所有需求限定词构成的集合，freq(c_i,E,e)为φ中各需求限定词c_i与e共现的支持句子数量，freq(E,e)为含有e且e属于所述E的句子数量，freq(e)为含有e的句子数量，freq_QL(e)为搜索日志中包含e的query的搜索总数量，为搜索日志中所有query的搜索总数量。

14.根据权利要求13所述的方法，其特征在于，在所述步骤A3中将排序结果在前N个的实体e包含在搜索结果中返回给所述用户，N为预设的正整数。

15.一种搜索结构化语义知识的装置，其特征在于，该装置包括：

词语对确定单元，用于从大规模语料库中抽取出包含属于所述E的e_i且包含所述{d_m}中至少一个候选需求限定词的句子，从这些句子中选择出现次数满足第二出现次数要求的候选需求限定词作为需求限定词c_j，确定所抽取句子中c_j和e_i构成的词语对<c_j,e_i>；

数据库形成单元，用于将<c_j,e_i>存入实体类型E对应的结构化数据库EKBase。

16.根据权利要求15所述的装置，其特征在于，所述已有语料包括：随机抽取的网页资源构成的网页语料库，或者，利用已有实体平台上的实体进行搜索后，从搜索结果中抽取排在前N1个的标题或网页片段snippets构成的网页语料库，所述N1为预设的正整数。

17.根据权利要求15所述的装置，其特征在于，所述实体抽取单元还用于对命名实体识别结果中的实体进行命名实体验证，根据验证结果将不属于所述E的实体从命名实体识别结果中删除。

18.根据权利要求15所述的装置，其特征在于，所述候选集合确定单元还用于统计各候选需求限定词在所述query中的出现次数，将出现次数不满足第一出现次数要求的候选需求限定词从所述{d_m}中过滤掉。

19.根据权利要求15所述的装置，其特征在于，所述词语对确定单元具体包括：

词语对确定子单元，用于统计所述{d_m}中各候选需求限定词在所述句子筛选子单元筛选出的句子中的出现次数，选择出现次数满足第二出现次数要求的候选需求限定词作为需求限定词c_j，确定所述<c_j,e_i>。

20.根据权利要求15所述的装置，其特征在于，该装置还包括：

21.根据权利要求15所述的装置，其特征在于，该装置还包括：

句子扩展单元，用于利用所述词语对确定单元确定的<c_j,e_i>作为query进行搜索，得到包含c_j和e_i的句子；

支持度评分单元，用于对各句子S_k进行支持度评分，将支持度评分满足预设评分要求的句子确定为支持句子，仅保留支持句子所包含的<c_j,e_i>，并提供给所述数据库形成单元；

所述数据库形成单元将所述支持度评分单元提供的<c_j,e_i>存入所述EKBase，并在所述EKBase中存入c_j和e_i共现的支持句子数量、含有e_i的支持句子数量以及含有e_i且e_i属于所述E的句子数量。

22.根据权利要求21所述的装置，其特征在于，所述支持度评分单元具体包括：

23.根据权利要求22所述的装置，其特征在于，所述第二计算子单元按照为句子S_k进行支持度评分；

其中，N为选取的n的个数，FP为属于频繁模式的n-gram集合。

24.根据权利要求17、19或21所述的装置，其特征在于，所述命名实体验证具体包括：抽取实体的上下文，确定上下文中是否包含预设的所述E对应的关键词列表中的关键词，如果是，则确定所述实体属于所述E；否则确定所述实体不属于所述E。

25.一种搜索结构化语义知识的装置，其特征在于，该装置包括：

其中所述E对应的EKBase是通过权利要求15至23任一权项所述的得到结构化语义知识的装置建立的。

26.根据权利要求25所述的搜索结构化语义知识的装置，其特征在于，如果所述需求限定词c为一个，则所述数据库搜索单元从所述EKBase中搜索所述c对应的所有实体e；

27.根据权利要求25所述的搜索结构化语义知识的装置，其特征在于，当所述E对应的EKBase是通过权利要求21、22或23所述的得到结构化语义知识的装置建立时，该装置还包括：

实体排序单元，用于将所述数据库搜索单元搜索得到的实体e依据P(e|c,E)进行排序；

所述P(e|c,E)＝P(c|E,e)×P(E|e)×P(e)，

其中，

28.根据权利要求27所述的搜索结构化语义知识的装置，其特征在于，所述结果发送单元将排序结果排在前N个的实体e包含在搜索结果中返回给所述用户，N为预设的正整数。