CN106528676A

CN106528676A - 基于人工智能的实体语义检索处理方法及装置

Info

Publication number: CN106528676A
Application number: CN201610930147.XA
Authority: CN
Inventors: 李婷婷; 孙珂; 王超越
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2016-10-31
Filing date: 2016-10-31
Publication date: 2017-03-22
Anticipated expiration: 2036-10-31
Also published as: CN106528676B

Abstract

本申请公开了一种基于人工智能的实体语义检索处理方法及装置。其中，该方法包括：对用户生成内容数据和用户检索行为数据进行挖掘，获取第一实体标签集合；根据标签模糊匹配算法和第一实体标签集合对描述各实体的用户数据进行处理，从用户数据中抽取与每个实体对应的第二实体标签集合；根据预设的过滤策略从与每个实体对应的第二实体标签集合中筛选出与每个实体对应的目标实体标签集合，以便根据与每个实体对应的目标实体标签集合进行基于实体语义的检索处理。由此，能够自动化获取每个实体对应的全面性的目标实体标签集合，提高了目标实体标签集合的丰富性，以使实体语义检索更加灵活准确。

Description

基于人工智能的实体语义检索处理方法及装置

技术领域

本申请涉及计算机技术领域，尤其涉及一种基于人工智能的实体语义检索处理方法及装置。

背景技术

人工智能(Artificial Intelligence，简称AI)。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学的一个分支，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器，该领域的研究包括机器人、语音识别、图像识别、自然语言处理和专家系统等。

实体代表着现实世界上存在的可触知的独一无二的存在事物，可以是一个人、一本书、一部电影、一家公司。每个实体可以被其自身具备的特性描述和区分，如：一个人可以根据年龄、身高、出生背景、爱好、职业、经历、成就加以描述或区分，一部电影可以被他的导演、主演、年份、主题曲、适合人群、题材等加以描述和区分等。

在实际互联网应用中，每个标签表示了实体某方面的特性，足够的标签也可以唯一定位一个实体。相关技术中，通过实体数据库建设的方式即实体数据库围绕实体及其属性进行建模。例如，人物类实体为其建设年龄、职业、爱好、出生地、配偶等属性，电影类实体为其建设上映时间、导演、主演、类型等属性。

然而，上述方式的自动化不高，且不能保证属性的全面性。导致基于实体数据库的实体语义检索不够灵活准确。

发明内容

本申请的目的旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本申请的第一个目的在于提出一种基于人工智能的实体语义检索处理方法，能够自动化获取每个实体对应的全面性的目标实体标签集合，提高了目标实体标签集合的丰富性，以使实体语义检索更加灵活准确。

本申请的第二个目的在于提出一种基于人工智能的实体语义检索处理装置。

本申请的第三个目的在于提出了另一种基于人工智能的实体语义检索处理装置。

本申请的第四个目的在于提出了一种非临时性计算机可读存储介质。

本申请的第五个目的在于提出了一种计算机程序产品。

为达上述目的，根据本申请第一方面实施例提出的一种基于人工智能的实体语义检索处理方法，包括以下步骤：对用户生成内容数据和用户检索行为数据进行挖掘，获取第一实体标签集合；根据标签模糊匹配算法和所述第一实体标签集合对描述各实体的用户数据进行处理，从所述用户数据中抽取与每个实体对应的第二实体标签集合；根据预设的过滤策略从与每个实体对应的第二实体标签集合中筛选出与每个实体对应的目标实体标签集合，以便根据与每个实体对应的目标实体标签集合进行基于实体语义的检索处理。

本申请实施例的基于人工智能的实体语义检索处理方法，首先对用户生成内容数据和用户检索行为数据进行挖掘，获取第一实体标签集合，然后根据标签模糊匹配算法和第一实体标签集合对描述各实体的用户数据进行处理，从用户数据中抽取与每个实体对应的第二实体标签集合，最后根据预设的过滤策略从与每个实体对应的第二实体标签集合中筛选出与每个实体对应的目标实体标签集合，以便根据与每个实体对应的目标实体标签集合进行基于实体语义的检索处理。

为达上述目的，根据本申请的第二方面实施例提出的一种基于人工智能的实体语义检索处理装置，包括：挖掘模块，用于对用户生成内容数据和用户检索行为数据进行挖掘，获取第一实体标签集合；处理模块，用于根据标签模糊匹配算法和所述第一实体标签集合对描述各实体的用户数据进行处理，从所述用户数据中抽取与每个实体对应的第二实体标签集合；筛选模块，用于根据预设的过滤策略从与每个实体对应的第二实体标签集合中筛选出与每个实体对应的目标实体标签集合，以便根据与每个实体对应的目标实体标签集合进行基于实体语义的检索处理。

本申请实施例的基于人工智能的实体语义检索处理装置，首先对用户生成内容数据和用户检索行为数据进行挖掘，获取第一实体标签集合，然后根据标签模糊匹配算法和第一实体标签集合对描述各实体的用户数据进行处理，从用户数据中抽取与每个实体对应的第二实体标签集合，最后根据预设的过滤策略从与每个实体对应的第二实体标签集合中筛选出与每个实体对应的目标实体标签集合，以便根据与每个实体对应的目标实体标签集合进行基于实体语义的检索处理。

为达上述目的，根据本申请的第三方面实施例提出的一种基于人工智能的实体语义检索处理装置，包括：处理器；用于存储处理器可执行指令的存储器；其中，所述处理器被配置为：

对用户生成内容数据和用户检索行为数据进行挖掘，获取第一实体标签集合；

根据标签模糊匹配算法和所述第一实体标签集合对描述各实体的用户数据进行处理，从所述用户数据中抽取与每个实体对应的第二实体标签集合；

根据预设的过滤策略从与每个实体对应的第二实体标签集合中筛选出与每个实体对应的目标实体标签集合，以便根据与每个实体对应的目标实体标签集合进行基于实体语义的检索处理。

为达上述目的，根据本申请的第四方面实施例提出的一种非临时性计算机可读存储介质，当所述存储介质中的指令由移动终端的处理器被执行时，使得移动终端能够执行一种基于人工智能的实体语义检索处理方法，所述方法包括：

为达上述目的，根据本申请的第五方面实施例提出的一种计算机程序产品，当所述计算机程序产品中的指令处理器执行时，执行一种基于人工智能的实体语义检索处理方法，所述方法包括：

本申请附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本申请的实践了解到。

附图说明

本申请的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1是根据本申请一个实施例的基于人工智能的实体语义检索处理方法的流程图；

图2是根据本申请另一个实施例的基于人工智能的实体语义检索处理方法的流程图；

图3是根据本申请一个实施例的垂类站点的示意图；

图4是根据本申请又一个实施例的基于人工智能的实体语义检索处理方法的流程图；

图5是根据本申请一个实施例的垂类的样本语料的示意图；

图6是根据本申请再一个实施例的基于人工智能的实体语义检索处理方法的流程图；

图7是根据本申请还一个实施例的基于人工智能的实体语义检索处理方法的流程图；

图8是根据本申请一个实施例的基于标签模糊匹配挖掘出的新实体标签的示意图；

图9是根据本申请一个实施例的基于人工智能的实体语义检索处理装置的结构示意图；

图10是根据本申请另一个实施例的基于人工智能的实体语义检索处理装置的结构示意图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本申请，而不能理解为对本申请的限制。

下面参考附图描述本申请实施例的基于人工智能的实体语义检索处理方法及装置。

通常，在实际的互联网应用中，用户根据实际需要进行实体检索。例如“北京有哪些博物馆”、“推荐几部适合高中生看的书”和“章子怡主演的电影”等等。

目前，大多基于社区型问答数据或者直接将用户查询与数据库中的查询进行相似度匹配反馈结果。然而，上述方式不能自动化建立获取每个实体对应的标签，且每个实体具有的标签并不全面，导致基于上述方式的实体语义检索不够灵活准确。

为了解决上述问题，本申请提出一种基于人工智能的实体语义检索处理方法，该方法通过对用户生成内容数据和用户检索行为数据进行挖掘，并结合标签模糊匹配算法和预设的过滤策略处理，得到较高自动化、全面性的每个实体对应的目标实体标签集合，提高了目标实体标签集合的丰富性，以使实体语义检索更加灵活准确。具体如下：

图1是根据本申请一个实施例的基于人工智能的实体语义检索处理方法的流程图。

如图1所示，本申请实施例的基于人工智能的实体语义检索处理方法包括以下步骤：

步骤101，对用户生成内容数据和用户检索行为数据进行挖掘，获取第一实体标签集合。

具体地，能够描述和区别一个实体的特性统称为实体标签。实体标签可以是一个词、一个短语等。每一个实体具有很多实体标签，实体可以被实体标签划分成某个实体的集合，足够的实体标签也可以唯一确定一个实体。

由此，可以对用户生成内容数据和用户检索行为数据进行挖掘，获取多个实体标签组合为实体标签集合。其中，挖掘的方法有很多种，可以根据实际应用需要选择。例如，可以是基于垂类网站的结构化标签挖掘、基于样本实体标签的标签挖掘、基于模糊匹配的标签挖掘和基于中心元素的标签生成等方法中的一种或者多种。

步骤102，根据标签模糊匹配算法和第一实体标签集合对描述各实体的用户数据进行处理，从用户数据中抽取与每个实体对应的第二实体标签集合。

具体地，描述实体的用户数据有很多种，例如可以是实体评论语料、贴吧中的答案等等。以实体评论语料作为各实体的用户数据为例，具体描述如何根据标签模糊匹配算法和第一实体标签集合对实体评论语料进行处理，以从实体评论语料中抽取与每个实体对应的第二实体标签集合。

首先使用第一实体标签集合，对实体标签进行切词并使用动词和名词建立倒排索引，接着对实体评论语料进行切词，从左往右顺序处理，如果当前词是名词或动词，根据当前词在倒排索引中检索回一个实体标签集合，最后以当前词为中心，依次计算和第一实体标签集合是否满足模糊匹配，如果匹配成功，获取第二实体标签添加到第二实体标签集合。

其中，以当前词为中心，依次计算和第一实体标签集合是否满足模糊匹配，如果匹配成功，获取第二实体标签添加到第二实体标签集合具体可以理解如下：

首先以当前词的位置i中心，选取[i-l-d_m，i+l+d_m]的片段S和第一实体标签进行匹配计算。其中，l为第一实体标签集合j的长度，d_m为允许增加、删除的最大长度。

进一步地，当前片段S中某个词和第一实体标签集合j中某个词匹配则算改词匹配。在[i-l-d_m，i+l+d_m]中以第一个匹配词pos_b和最后一个匹配词pos_e限定的第二实体标签集合A为模糊匹配抽取结果。

进一步地，如果第一实体标签集合j和第二实体标签集合A的个数小于d_m，则根据对比第一实体标签集合j观察第二实体标签集合A是否存在插入、删除、替换以及调序情况输出第二实体标签集合A。

步骤103，根据预设的过滤策略从与每个实体对应的第二实体标签集合中筛选出与每个实体对应的目标实体标签集合，以便根据与每个实体对应的目标实体标签集合进行基于实体语义的检索处理。

具体地，描述各实体的用户数据一般是网站上用户针对某个实体进行的各方面带有主观性质的评论。由此，一般带有用户的主观情感，同时标签模糊匹配算法也会带来一定的错误概率。

为了提高每个实体对应的第二实体标签集合的准确性，可以根据预设的过滤策略从与每个实体对应的第二实体标签集合中筛选出与每个实体对应的目标实体标签集合。

其中，预设的过滤策略有很多种，可以根据实际应用需要进行选择设置。举例说明如下：

第一种示例，将与每个第二实体标签对应的权值集合与预设的垂类置信度阈值进行比较，将权值集合小于垂类置信度对应的第二实体标签从第二实体标签集合中删除。

第二示例，根据预设算法计算第二实体标签集合中每两个第二实体标签之间的一致度，将每两个第二实体标签之间的一致度与对应阈值进行比较，将一致度小于阈值对应的第二实体标签从第二实体标签集合中删除。

由此，获取准确性更高的目标实体标签集合，从而根据与每个实体对应的目标实体标签集合进行基于实体语义的检索处理更加灵活准确。

图2是根据本申请另一个实施例的基于人工智能的实体语义检索处理方法的流程图。

如图2所示，本申请实施例的基于人工智能的实体语义检索处理方法包括以下步骤：

步骤201，使用网页爬虫从垂类网站抓取网页内容。

步骤202，确定网页内容中实体标签所在的网页位置。

步骤203，解析网页的Html抽取对应网页位置的文本信息，获取第一实体标签添加到第一实体标签集合。

具体地，很多垂直领域都有相应的垂类站点介绍相关重要实体信息供用户查询、评论和交流。例如，影视类目的豆瓣电影、时光网；餐饮类目的大众点评、糯米；汽车类目的汽车之家等等。同时，百度百科、Wikipedia等百科类网站的各板块也有对各垂类实体的详细介绍。

图3是根据本申请一个实施例的垂类站点的示意图。如图3所示，可以看到对电影“这个杀手不太冷”的评论“经典”、“人性”等。

由此，使用网页爬虫从垂类网站抓取网页内容，可以通过人工、预设算法等方式指定实体标签所在的网页位置，例如图3中的图片下面。通过预设算法等解析网页的Html抽取对应网页位置的文本信息，最后获取第一实体标签添加到第一实体标签集合。

步骤204，设置与标签模糊匹配算法的匹配类型对应的匹配权值。

具体地，标签模糊匹配算法的匹配类型有很多种。例如，完全匹配类型、调序匹配类型、替换型匹配类型、删除型匹配类型、插入型匹配类型、替换调序型匹配类型、删除调序型匹配类型和插入型调序匹配类型等。

设置上述与标签模糊匹配算法的匹配类型对应的匹配权值。例如，完全匹配类型对应的匹配权值为2、调序匹配类型对应的匹配权值1.5、替换型匹配类型对应的匹配权值为1.2、删除型匹配类型对应的匹配权值为1、插入型匹配类型对应的匹配权值为1、替换调序型匹配类型对应的匹配权值为0.5、删除调序型匹配类型对应的匹配权值为0.5和插入型调序匹配类型对应的匹配权值为0.5等。

步骤205，根据标签模糊匹配算法和第一实体标签集合对描述各实体的用户数据进行处理，从用户数据中抽取与每个实体对应的第二实体标签集合，与每个实体对应的第二实体标签集合中包括：与每个第二实体标签对应的权值集合。

步骤206，根据第二实体标签集合中与每个第二实体标签对应的权值集合确定第二实体标签的平均权值。

步骤207，应用预设算法对平均权值和第二实体标签集合中的最大权值确定实体置信度阈值。

步骤208，将与每个第二实体标签对应的权值集合与实体置信度阈值进行比较，将权值集合小于实体置信度对应的第二实体标签从第二实体标签集合中删除。

具体地，首先通过公式计算得到第二实体标签的平均权值以及应用预设算法对平均权值和第二实体标签集合中的最大权值确定实体置信度阈值。其中，确定实体置信度阈值的方式有很多种，可以通过预设算法或者公式等确定。例如通过公式(1)：

其中，为第二实体标签集合中的最大权值；w_avg为第二实体标签的平均权值。

进一步地，对每个实体基于公式(1)设定的实体置信度阈值λ₂。每个第二实体标签对应的权值集合大于上述实体置信度阈值才能保留。

本申请实施例的基于人工智能的实体语义检索处理方法，首先使用网页爬虫从垂类网站抓取网页内容，确定网页内容中实体标签所在的网页位置，解析网页的Html抽取对应网页位置的文本信息，获取第一实体标签添加到第一实体标签集合，然后设置与标签模糊匹配算法的匹配类型对应的匹配权值，并基于第二实体标签集合中与每个第二实体标签对应的权值集合计算确定实体置信度阈值将权值集合小于实体置信度阈值对应的第二实体标签从第二实体标签集合中删除。由此，进一步提高目标实体标签集合的准确性。

图4是根据本申请又一个实施例的基于人工智能的实体语义检索处理方法的流程图。

如图4所示，本申请实施例的基于人工智能的实体语义检索处理方法包括以下步骤：

步骤301，基于正则匹配从预先配置的样本语料中抽取样本实体标签集合。

步骤302，以样本实体标签集合为种子，泛化输入信息中包含的样本实体标签形成新的样本语料，进而从新的样本语料中抽取第一实体标签添加到第一实体标签集合。

具体地，用户常常用某些句式的查询表述自己对实体的检索需求，如：“推荐几部适合孩子看的电影”、“哪些大学的美女比较多”、“附近有没有什么装修古典别致的餐厅”。根据用户使用查询的特点，基于样本语料和正则匹配挖掘实体标签。

图5是根据本申请一个实施例的垂类的样本语料的示意图。如图5所示：首先可以通过人工、预设算法等方式预先配置少量的样本语料，基于正则匹配从预先配置的样本语料中抽取样本实体标签集合，然后以样本实体标签集合为种子，泛化输入信息中包含的样本实体标签形成新的样本语料，进而从新的样本语料中抽取第一实体标签添加到第一实体标签集合。

步骤303，设置与标签模糊匹配算法的匹配类型对应的匹配权值。

需要说明的是，需要说明的是，步骤S303的描述与上述步骤S204相对应，因此对的步骤S303的描述参考上述步骤S204的描述，在此不再赘述。

步骤304，根据标签模糊匹配算法和第一实体标签集合对描述各实体的用户数据进行处理，从用户数据中抽取与每个实体对应的第二实体标签集合。

需要说明的是，需要说明的是，步骤S304的描述与上述步骤S102相对应，因此对的步骤S304的描述参考上述步骤S102的描述，在此不再赘述。

步骤305，将与每个第二实体标签对应的权值集合与预设的垂类置信度阈值进行比较，将权值集合小于垂类置信度对应的第二实体标签从第二实体标签集合中删除。

具体地，预设的垂类置信度阈值可以根据实际需要进行设置，一般是一个经验性质的值。从而，将与每个第二实体标签对应的权值集合与预设的垂类置信度阈值进行比较，只要权值集合小于垂类置信度阈值对应的第二实体标签都从第二实体标签集合中删除。

需要说明的是，为了进一步提高目标实体标签集合的准确性，可以与通过第二方面实施例中的预设的过滤策略相结合，只要权值集合小于垂类置信度阈值或者是实体置信度阈值对应的第二实体标签都从第二实体标签集合中删除。以保证过滤掉置信度比较低的第二实体标签。

本申请实施例的基于人工智能的实体语义检索处理方法，首先基于正则匹配从预先配置的样本语料中抽取样本实体标签集合，以样本实体标签集合为种子，泛化输入信息中包含的样本实体标签形成新的样本语料，进而从新的样本语料中抽取第一实体标签添加到第一实体标签集合，然后设置与标签模糊匹配算法的匹配类型对应的匹配权值，并基于预设的垂类置信度阈值将权值集合小于预设的垂类置信度阈值对应的第二实体标签从第二实体标签集合中删除。由此，进一步提高目标实体标签集合的准确性。

图6是根据本申请再一个实施例的基于人工智能的实体语义检索处理方法的流程图。

如图6所示，本申请实施例的基于人工智能的实体语义检索处理方法包括以下步骤：

步骤401，使用当前实体标签集合作为种子，对实体标签进行切词和词性标注。

步骤402，合并每个实体标签中连续的名词性片段得到中心元素。

步骤403，根据中心元素在实体标签的上下文构成词向量表示中心元素。

步骤404，根据上下文构成词向量计算中心元素的语义相似度。

步骤405，基于自底向上的层次聚类方式，根据中心元素的语义相似度聚类，得到聚类结果。

步骤406，对聚类结果中任意的两个中心元素在实体标签中相互替换生成第一实体标签添加到第一实体标签集合。

具体地，实体标签可以是一个词也可以是一个完成的语义片段等，而语义片段中通常有一个代表中心元素，如修饰电影的实体标签和实体标签的中心元素：适合老人看、年轻人喜欢看、反映人性、揭露社会黑暗。可以看出“老年人”和“年轻人”、“人性”和“社会黑暗”间存在语义同位的关系，老年人喜欢看、揭露人性也是两个合理的实体标签。

其中，计算中心元素的语义相似度方式有很多种，例如通过

其中，聚类结果可以理解为C＝<B₁,B₂,…,B_n>。

进而，对与集合B_i任意的两个中心元素b₁和b₂，可以将它们在实体标签中相互替换生成新的实体标签。如：<老年人+年轻人>+年轻人喜欢等于老年人喜欢。

步骤407，根据标签模糊匹配算法和第一实体标签集合对描述各实体的用户数据进行处理，从用户数据中抽取与每个实体对应的第二实体标签集合。

需要说明的是，需要说明的是，步骤S407的描述与上述步骤S102相对应，因此对的步骤S407的描述参考上述步骤S102的描述，在此不再赘述。

步骤408，根据预设算法计算第二实体标签集合中每两个第二实体标签之间的一致度。

步骤409，将每两个第二实体标签之间的一致度与对应阈值进行比较，将一致度小于阈值对应的第二实体标签从第二实体标签集合中删除。

具体地，垂类的某些实体标签之间潜在包含了语义一致性关系，如电影中“适合孩子看”和“童话故事”、美食垂类描述餐厅的“环境好”和“装修豪华”间存在一致性，反之“适合孩子看”和“恐怖片”、“环境好”和“环境吵闹”间存在不一致性。

由此，通过实体标签在描述实体上的一致性方面，通过公式(2)计算实体标签之间的一致性程度。再计算实体对应的每一个实体标签与其它所有实体标签之间一致性均值C_tag(一般是一个经验性质的值)作为过滤条件。当实体标签的C_tag小于阈值(一般一个经验性质的值)则会过滤掉。由此，进一步提高目标实体标签集合的准确性。

本申请实施例的基于人工智能的实体语义检索处理方法，通过将每两个第二实体标签之间的一致度与对应阈值进行比较，将一致度小于阈值对应的第二实体标签从第二实体标签集合中删除，由此，进一步提高目标实体标签集合的准确性。

图7是根据本申请还一个实施例的基于人工智能的实体语义检索处理方法的流程图。

如图7所示，本申请实施例的基于人工智能的实体语义检索处理方法包括以下步骤：

步骤501，使用当前挖掘的实体标签集合，对实体标签进行切词并使用动词和名词建立倒排索引。

步骤502，垂类网站的文本语料进行切词，从左往右顺序处理，如果当前词是名词或动词，根据当前词在倒排索引中检索回一个实体标签集合。

步骤503，以当前词为中心，依次计算和候选集合的实体标签是否满足模糊匹配，如果匹配成功，获取第一实体标签添加到第一实体标签集合。

具体地，在垂类的很多文本语料中也会包含描述电影的实体标签，如电影和餐厅的评论语料、人物的百科介绍等。基于已有的实体标签集合作为种子，使用标签模糊匹配算法获取更丰富的实体标签集合。

根据标签模糊匹配算法抽取实体标签结果有很多种类型。例如如图8所示：将其分为三种类型：插入型匹配类型、删除型匹配类型、替换型匹配类型，同时这三种类型还分为是否有调序。图7中分别分布举例说明了插入型匹配类型、删除型匹配类型、替换型匹配类型的标签模糊匹配算法挖掘出的新实体标签。

需要说明的是，具体的基于标签模糊匹配算法获取第一实体标签添加到第一实体标签集合的过程可以参见步骤102中根据标签模糊匹配算法和第一实体标签集合对描述各实体的用户数据进行处理，从用户数据中抽取与每个实体对应的第二实体标签集合的具体描述。

步骤504，根据标签模糊匹配算法和第一实体标签集合对描述各实体的用户数据进行处理，从用户数据中抽取与每个实体对应的第二实体标签集合。

步骤505，根据预设的过滤策略从与每个实体对应的第二实体标签集合中筛选出与每个实体对应的目标实体标签集合。

需要说明的是，需要说明的是，步骤S504-S505的描述与上述步骤S102-S103相对应，因此对的步骤S504-S505的描述参考上述步骤S102-S103的描述，在此不再赘述。

步骤506，在线实体检索过程中，根据标签模糊匹配算法以及目标实体标签集合，从用户输入的查询语句中抽取查询实体标签。

需要说明的是，具体的基于标签模糊匹配算法以及目标实体标签集合，从用户输入的查询语句中抽取查询实体标签的过程可以参见步骤102中根据标签模糊匹配算法和第一实体标签集合对描述各实体的用户数据进行处理，从用户数据中抽取与每个实体对应的第二实体标签集合的具体描述。

步骤507，根据查询实体标签，从与目标实体标签集合对应的实体中确定目标实体反馈给用户。

具体地，从与目标实体标签集合对应的实体中确定目标实体反馈给用户的方式有很多种，例如可以直接通过预设算法从与目标实体标签集合对应的实体中确定目标实体反馈给用户，或者是根据具体公式的计算确定与目标实体标签集合对应的实体中确定目标实体反馈给用户等等。

在本实施例中，可以根据预设的与标签模糊匹配算法的匹配类型对应的匹配权值，确定与每个查询实体标签对应的权值集合，再根据查询实体标签之前的关系以及与每个查询实体标签对应的权值集合从与目标实体标签集合对应的实体中确定目标实体反馈给用户。

举例而言，用户实体检索分为三种类型：单实体标签检索、多实体标签求和型、多实体标签求差型。比如如下面的三个查询：“推荐几部适合儿童看的电影”、“有什么适合儿童看的动画电影”、“哪些恐怖但不算血腥的电影”。

首先，可以使用停用词删除、实体标签包含名词子元素归一、实体标签子元素排序等对上述查询语句中的实体标签进行规范化。在规范化后的实体标签在实体标签之前的关系以及与每个查询实体标签对应的权值集合中确定实体标签对应的实体和权重。然后判断多实体标签之间的关联方式，确定合并策略。最后按照权重的降序将实体检索结果返回给用户。

需要说明的是，反馈给用户的目标实体可以根据实际需要进行调整，从与目标实体标签集合对应的实体中确定目标实体反馈给用户的方式不同，最后确定的目标实体不同。

本申请实施例的基于人工智能的实体语义检索处理方法，在线实体检索过程中，根据标签模糊匹配算法以及目标实体标签集合，从用户输入的查询语句中抽取查询实体标签，根据查询实体标签，从与目标实体标签集合对应的实体中确定目标实体反馈给用户。由此，实体语义检索更加灵活准确，全面性实体标签集合，满足用户查询需求。

为了实现上述实施例，本申请还提出了一种基于人工智能的实体语义检索处理装置。

图9是根据本申请一个实施例的基于人工智能的实体语义检索处理装置的结构示意图。

如图9所示，该基于人工智能的实体语义检索处理装置包括：挖掘模块91、处理模块92和筛选模块93。

其中，挖掘模块91用于对用户生成内容数据和用户检索行为数据进行挖掘，获取第一实体标签集合。

处理模块92用于根据标签模糊匹配算法和第一实体标签集合对描述各实体的用户数据进行处理，从用户数据中抽取与每个实体对应的第二实体标签集合。

筛选模块93用于根据预设的过滤策略从与每个实体对应的第二实体标签集合中筛选出与每个实体对应的目标实体标签集合，以便根据与每个实体对应的目标实体标签集合进行基于实体语义的检索处理。

在本申请的一个实施例中，挖掘模块91用于：使用网页爬虫从垂类网站抓取网页内容；确定网页内容中实体标签所在的网页位置；解析网页的Html抽取对应网页位置的文本信息，获取第一实体标签添加到第一实体标签集合。

在本申请的一个实施例中，挖掘模块91用于：基于正则匹配从预先配置的样本语料中抽取样本实体标签集合；以样本实体标签集合为种子，泛化输入信息中包含的样本实体标签形成新的样本语料，进而从新的样本语料中抽取第一实体标签添加到第一实体标签集合。

在本申请的一个实施例中，挖掘模块91用于：使用当前实体标签集合作为种子，对实体标签进行切词和词性标注；合并每个实体标签中连续的名词性片段得到中心元素；根据中心元素在实体标签的上下文构成词向量表示中心元素；根据上下文构成词向量计算中心元素的语义相似度；基于自底向上的层次聚类方式，根据中心元素的语义相似度聚类，得到聚类结果；对聚类结果中任意的两个中心元素在实体标签中相互替换生成第一实体标签添加到第一实体标签集合。

在本申请的一个实施例中，挖掘模块91用于：使用当前挖掘的实体标签集合，对实体标签进行切词并使用动词和名词建立倒排索引；对垂类网站的文本语料进行切词，从左往右顺序处理，如果当前词是名词或动词，根据当前词在倒排索引中检索回一个实体标签集合；以当前词为中心，依次计算和候选集合的实体标签是否满足模糊匹配，如果匹配成功，获取第一实体标签添加到第一实体标签集合。

本发明实施例提供的基于人工智能的实体语义检索处理装置与上述几种实施例提供的基于人工智能的实体语义检索处理方法相对应，因此在前述基于人工智能的实体语义检索处理方法的实施方式也适用于本实施例提供的基于人工智能的实体语义检索处理装置，在本实施例中不再详细描述。

在图9的基础上，如图10所示，该基于人工智能的实体语义检索处理装置还包括：设置模块94、查询模块95和确定模块96。

其中，设置模块94用于设置与标签模糊匹配算法的匹配类型对应的匹配权值。

其中，与每个实体对应的第二实体标签集合中包括：与每个第二实体标签对应的权值集合。

筛选模块93用于：根据第二实体标签集合中与每个第二实体标签对应的权值集合确定实体标签的平均权值；应用预设算法对平均权值和第二实体标签集合中的最大权值确定实体置信度阈值；将与每个第二实体标签对应的权值集合与实体置信度阈值进行比较，将权值集合小于实体置信度阈值对应的第二实体标签从第二实体标签集合中删除。

筛选模块93用于：将与每个第二实体标签对应的权值集合与预设的垂类置信度阈值进行比较，将权值集合小于垂类置信度阈值对应的第二实体标签从第二实体标签集合中删除。

筛选模块93还用于：根据预设算法计算第二实体标签集合中每两个第二实体标签之间的一致度；将每两个第二实体标签之间的一致度与对应阈值进行比较，将一致度小于阈值对应的第二实体标签从第二实体标签集合中删除。

查询模块95用于在线实体检索过程中，根据标签模糊匹配算法以及目标实体标签集合，从用户输入的查询语句中抽取查询实体标签。

确定模块96用于根据查询实体标签，从与目标实体标签集合对应的实体中确定目标实体反馈给用户。

确定模块96还用于：根据预设的与标签模糊匹配算法的匹配类型对应的匹配权值，确定与每个查询实体标签对应的权值集合；根据查询实体标签之前的关系以及与每个查询实体标签对应的权值集合从与目标实体标签集合对应的实体中确定目标实体反馈给用户。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

尽管上面已经示出和描述了本申请的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本申请的限制，本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种基于人工智能的实体语义检索处理方法，其特征在于，包括以下步骤：

2.如权利要求1所述的方法，其特征在于，所述对用户生成内容数据和用户检索行为数据进行挖掘，获取第一实体标签集合，包括：

使用网页爬虫从垂类网站抓取网页内容；

确定所述网页内容中实体标签所在的网页位置；

解析网页的Html抽取对应网页位置的文本信息，获取第一实体标签添加到所述第一实体标签集合。

3.如权利要求1所述的方法，其特征在于，所述对用户生成内容数据和用户检索行为数据进行挖掘，获取第一实体标签集合，包括：

基于正则匹配从预先配置的样本语料中抽取样本实体标签集合；

以所述样本实体标签集合为种子，泛化输入信息中包含的样本实体标签形成新的样本语料，进而从所述新的样本语料中抽取第一实体标签添加到所述第一实体标签集合。

4.如权利要求1所述的方法，其特征在于，所述对用户生成内容数据和用户检索行为数据进行挖掘，获取第一实体标签集合，包括：

使用当前实体标签集合作为种子，对实体标签进行切词和词性标注；

合并每个实体标签中连续的名词性片段得到中心元素；

根据所述中心元素在所述实体标签的上下文构成词向量表示中心元素；

根据所述上下文构成词向量计算所述中心元素的语义相似度；

基于自底向上的层次聚类方式，根据所述中心元素的语义相似度聚类，得到聚类结果；

对所述聚类结果中任意的两个中心元素在所述实体标签中相互替换生成第一实体标签添加到所述第一实体标签集合。

5.如权利要求1所述的方法，其特征在于，所述对用户生成内容数据和用户检索行为数据进行挖掘，获取第一实体标签集合，包括：

使用当前挖掘的实体标签集合，对实体标签进行切词并使用动词和名词建立倒排索引；

对垂类网站的文本语料进行切词，从左往右顺序处理，如果当前词是名词或动词，根据当前词在所述倒排索引中检索回一个实体标签集合；

以当前词为中心，依次计算和候选集合的实体标签是否满足模糊匹配，如果匹配成功，获取第一实体标签添加到所述第一实体标签集合。

6.如权利要求1所述的方法，其特征在于，在所述根据标签模糊匹配算法和所述第一实体标签集合对描述各实体的用户数据进行处理之前，还包括：

设置与标签模糊匹配算法的匹配类型对应的匹配权值；

所述与每个实体对应的第二实体标签集合中包括：与每个第二实体标签对应的权值集合；

所述根据预设的过滤策略从与每个实体对应的第二实体标签集合中筛选出与每个实体对应的目标实体标签集合，包括：

根据所述第二实体标签集合中与每个第二实体标签对应的权值集合确定所述第二实体标签的平均权值；

应用预设算法对所述平均权值和所述第二实体标签集合中的最大权值确定实体置信度阈值；

将与每个第二实体标签对应的权值集合与所述实体置信度阈值进行比较，将权值集合小于所述实体置信度阈值对应的第二实体标签从所述第二实体标签集合中删除。

7.如权利要求6所述的方法，其特征在于，所述根据预设的过滤策略从与每个实体对应的第二实体标签集合中筛选出与每个实体对应的目标实体标签集合，包括：

将与每个第二实体标签对应的权值集合与预设的垂类置信度阈值进行比较，将权值集合小于所述垂类置信度阈值对应的第二实体标签从所述第二实体标签集合中删除。

8.如权利要求1所述的方法，其特征在于，所述根据预设的过滤策略从与每个实体对应的第二实体标签集合中筛选出与每个实体对应的目标实体标签集合，包括：

根据预设算法计算所述第二实体标签集合中每两个第二实体标签之间的一致度；

将每两个第二实体标签之间的一致度与对应阈值进行比较，将一致度小于所述阈值对应的第二实体标签从所述第二实体标签集合中删除。

9.如权利要求1-8任一所述的方法，其特征在于，所述根据与每个实体对应的目标实体标签集合进行基于实体语义的检索处理，包括：

在线实体检索过程中，根据标签模糊匹配算法以及所述目标实体标签集合，从用户输入的查询语句中抽取查询实体标签；

根据所述查询实体标签，从与所述目标实体标签集合对应的实体中确定目标实体反馈给所述用户。

10.如权利要求9所述的方法，其特征在于，所述根据所述查询实体标签，从与所述目标实体标签集合对应的实体中确定目标实体反馈给所述用户，包括：

根据预设的与标签模糊匹配算法的匹配类型对应的匹配权值，确定与每个查询实体标签对应的权值集合；

根据所述查询实体标签之前的关系以及与每个查询实体标签对应的权值集合从与所述目标实体标签集合对应的实体中确定目标实体反馈给所述用户。

11.一种基于人工智能的实体语义检索处理装置，其特征在于，包括：

挖掘模块，用于对用户生成内容数据和用户检索行为数据进行挖掘，获取第一实体标签集合；

处理模块，用于根据标签模糊匹配算法和所述第一实体标签集合对描述各实体的用户数据进行处理，从所述用户数据中抽取与每个实体对应的第二实体标签集合；

筛选模块，用于根据预设的过滤策略从与每个实体对应的第二实体标签集合中筛选出与每个实体对应的目标实体标签集合，以便根据与每个实体对应的目标实体标签集合进行基于实体语义的检索处理。

12.如权利要求11所述的装置，其特征在于，所述挖掘模块用于：

使用网页爬虫从垂类网站抓取网页内容；

确定所述网页内容中实体标签所在的网页位置；

13.如权利要求11所述的装置，其特征在于，所述挖掘模块还用于：

14.如权利要求11所述的装置，其特征在于，所述挖掘模块还用于：

合并每个实体标签中连续的名词性片段得到中心元素；

15.如权利要求11所述的装置，其特征在于，所述挖掘模块还用于：

16.如权利要求11所述的装置，其特征在于，还包括：

设置模块，用于设置与标签模糊匹配算法的匹配类型对应的匹配权值；

所述筛选模块用于：

根据所述第二实体标签集合中与每个第二实体标签对应的权值集合确定实体标签的平均权值；

17.如权利要求16所述的装置，其特征在于，所述筛选模块还用于：

18.如权利要求11所述的装置，其特征在于，所述筛选模块还用于：

19.如权利要求11-18任一所述的装置，其特征在于，还包括：

查询模块，用于在线实体检索过程中，根据标签模糊匹配算法以及所述目标实体标签集合，从用户输入的查询语句中抽取查询实体标签；

确定模块，用于根据所述查询实体标签，从与所述目标实体标签集合对应的实体中确定目标实体反馈给所述用户。

20.如权利要求19所述的装置，其特征在于，所述确定模块用于：