CN109933692B

CN109933692B - 建立映射关系的方法和装置、信息推荐的方法和装置

Info

Publication number: CN109933692B
Application number: CN201910257911.5A
Authority: CN
Inventors: 李千; 史亚冰; 梁海金; 张扬; 朱勇
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2019-04-01
Filing date: 2019-04-01
Publication date: 2022-04-08
Anticipated expiration: 2039-04-01
Also published as: CN109933692A

Abstract

本公开提供了一种建立映射关系的方法，该方法包括：识别半结构化数据的标题，所述半结构化数据包括标题和内容；从所述半结构化数据中提取至少一个目标信息，并根据所提取的所述目标信息建立目标信息集合；建立所述半结构化数据的标题和所述目标信息集合之间的映射关系。本公开还提供了一种建立映射关系的装置、信息推荐的方法和装置。

Description

建立映射关系的方法和装置、信息推荐的方法和装置

技术领域

本公开实施例涉及数据库技术领域，特别涉及建立映射关系的方法和装置、信息推荐的方法和装置。

背景技术

当用户就实体集合进行检索或提出问题时，需要给用户推荐与实体集合对应的实体，现在与实体集合对应的实体可通过以下方式得出：

1)采用人工方法将实体与实体集合进行对应，但这种方法需要人工参与，耗时较长、准确度较低；

2)通过分析结构化数据得出实体集合与实体的对应关系，但该方法仅适用于具有特定结构的结构化数据，对于非结构化数据、半结构化数据，或具体结构不同的结构化数据，并不适用。

发明内容

本公开实施例提供一种建立映射关系的方法和装置、信息推荐的方法和装置。

第一方面，本公开实施例提供了一种建立映射关系的方法，包括：

识别半结构化数据的标题，所述半结构化数据包括标题和内容；

从所述半结构化数据中提取至少一个目标信息，并根据所提取的所述目标信息建立目标信息集合；

建立所述半结构化数据的标题和所述目标信息集合之间的映射关系。

在一些实施例中，所述从所述半结构化数据中提取至少一个目标信息包括：

从所述半结构化数据中提取至少一个第一信息，所述至少一个第一信息中的每一个第一信息均包括多个具有并列关系的子信息；

从所述至少一个第一信息中提取至少一个目标信息。

在一些实施例中，所述从所述半结构化数据中提取至少一个第一信息包括：

根据具有并列关系的符号从所述半结构化数据中提取至少一个第一信息；

和/或，

从所述半结构化数据的锚点列表目录和/或标题列表目录中提取至少一个第一信息。

在一些实施例中，所述从所述至少一个第一信息中提取至少一个目标信息包括：

采用句法分析和/或词法分析从所述至少一个第一信息中提取至少一个初始信息，所有所述初始信息构成初始信息集合；

从所述初始信息集合中筛选出满足第一预设条件的、无重复的初始信息作为目标信息。

在一些实施例中，所述第一预设条件包括以下项目中的至少一种：

所述初始信息在所述初始信息集合中出现的次数大于或者等于第一阈值；

所述初始信息和所述半结构化数据的标题在预设的第一数据库中的共现次数大于或者等于第二阈值；

所述初始信息在所述半结构化数据的目标段落中出现的次数大于或者等于第三阈值。

在一些实施例中，在所述从所述半结构化数据中提取至少一个目标信息后，还包括：

对所提取的所述目标信息中的一个目标信息，从预设的第二数据库中筛选出与该目标信息匹配的第二信息作为目标匹配信息，所述第二数据库包括多个第二信息以及与每个所述第二信息对应的属性信息；

关联该目标信息和目标匹配信息。

在一些实施例中，所述从预设的第二数据库中筛选出与该目标信息匹配的第二信息作为目标匹配信息包括：

从预设的第二数据库中，筛选出至少一个与所述目标信息存在匹配可能的第二信息作为匹配信息；

分别计算每个所述匹配信息与所述半结构化数据的相似度；

筛选出对应的相似度满足第二预设条件的匹配信息作为目标匹配信息。

在一些实施例中，所述分别计算每个所述匹配信息与所述半结构化数据的相似度包括：

计算所述半结构化数据的第一向量，分别计算每个所述匹配信息的第二向量；

分别计算每个所述第二向量与所述第一向量的相似度，作为所述第二向量对应的所述匹配信息与该半结构化数据的相似度；

其中，所述第一向量由至少一个属性参数的值构成，所述第二向量由至少一个属性参数的值构成，且所述第一向量和所述第二向量所包括的属性参数相同。

在一些实施例中，所述第一向量中的每一个属性参数的值，是根据该属性参数在该半结构化数据中是否出现得到的；

所述第二向量中的每一个属性参数的值，是根据该属性参数在所述第二向量对应的所述匹配信息的属性信息中是否出现得到的。

在一些实施例中，在所述关联该目标信息和目标匹配信息后，还包括：

接收针对该目标信息的属性获取请求；

反馈与该目标信息关联的目标匹配信息的属性信息。

在一些实施例中，所述半结构化数据的标题为实体集合；

所述目标信息为实体。

在一些实施例中，所述半结构化数据的标题包括预设的关键词。

在一些实施例中，在所述建立所述半结构化数据的标题和所述目标信息集合之间的映射关系后，还包括：

将所述映射关系加入到第四数据库。

根据所述目标信息集合标引所述半结构化数据。

第二方面，本公开实施例提供了一种信息推荐的方法，包括：

接收检索请求，所述检索请求包括检索词；

获取标题为所述检索词的半结构化数据；

反馈所述目标信息集合。

第三方面，本公开实施例提供了一种建立映射关系的装置，包括：

标题识别单元，用于识别半结构化数据的标题，所述半结构化数据包括标题和内容；

第一提取单元，用于从所述半结构化数据中提取至少一个目标信息，并根据所提取的所述目标信息建立目标信息集合；

映射关系建立单元，用于建立所述半结构化数据的标题和所述目标信息集合之间的映射关系。

在一些实施例中，所述第一提取单元包括：

第一提取子单元，用于从所述半结构化数据中提取至少一个第一信息，所述至少一个第一信息中的每一个第一信息均包括多个具有并列关系的子信息；

第二提取子单元，用于从所述至少一个第一信息中提取至少一个目标信息。

在一些实施例中，所述第一提取子单元用于：

和/或，

在一些实施例中，所述第二提取子单元用于：

在一些实施例中，所述装置还包括：

筛选单元，用于对所提取的所述目标信息中的一个目标信息，从预设的第二数据库中筛选出与该目标信息匹配的第二信息作为目标匹配信息，所述第二数据库包括多个第二信息以及与每个所述第二信息对应的属性信息；

关联单元，用于关联该目标信息和目标匹配信息。

在一些实施例中，所述筛选单元包括：

第一筛选子单元，用于从预设的第二数据库中，筛选出至少一个与所述目标信息存在匹配可能的第二信息作为匹配信息；

相似度计算子单元，用于分别计算每个所述匹配信息与所述半结构化数据的相似度；

第二筛选子单元，用于筛选出对应的相似度满足第二预设条件的匹配信息作为目标匹配信息。

在一些实施例中，所述相似度计算子单元用于：

在一些实施例中，所述装置还包括：

第一接收单元，用于接收针对该目标信息的属性获取请求；

第一反馈单元，用于反馈与该目标信息关联的目标匹配信息的属性信息。

在一些实施例中，所述半结构化数据的标题为实体集合；

所述目标信息为实体。

在一些实施例中，所述装置还包括：

加入单元，用于将所述映射关系加入到第四数据库。

在一些实施例中，所述装置还包括：

标引单元，用于根据所述目标信息集合标引所述半结构化数据。

第四方面，本公开实施例提供了一种信息推荐的装置，包括：

第二接收单元，用于接收检索请求，所述检索请求包括检索词；

获取单元，用于获取标题为所述检索词的半结构化数据；

第二提取单元，用于从所述半结构化数据中提取至少一个目标信息，并根据所提取的所述目标信息建立目标信息集合；

第二反馈单元，用于反馈所述目标信息集合。

第五方面，本公开实施例提供了一种硬件设备，包括：

一个或多个处理器；

存储装置，其上存储有一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如上任意一种建立映射关系的方法或信息推荐的方法。

第六方面，本公开实施例提供了一种计算机可读介质，其上存储有计算机程序，其中，所述程序被处理器执行时实现如上任意一种建立映射关系的方法或信息推荐的方法。

本公开实施例提供的建立映射关系的方法中，通过分析半结构化数据得出半结构化数据的标题与其中特定的目标信息的映射关系，即得出了与标题相关的信息，从而可用于为用户推荐信息、完善知识图谱等。而且，以上方法是自动实现的，不依赖人工，效率和准确度高。另外，以上方法可用于任何具有标题的半结构化数据，而不限于特定的结构化数据，故其适用范围广泛，可充分利用已有的数据资源。

附图说明

附图用来提供对本公开实施例的进一步理解，并且构成说明书的一部分，与本公开的实施例一起用于解释本公开，并不构成对本公开的限制。通过参考附图对详细示例实施例进行描述，以上和其它特征和优点对本领域技术人员将变得更加显而易见，在附图中：

图1为本公开实施例的一种建立映射关系的方法的流程图；

图2为本公开实施例的另一种建立映射关系的方法中步骤S200的流程图；

图3为本公开实施例的另一种建立映射关系的方法中部分步骤的流程；

图4为本公开实施例的另一种建立映射关系的方法中部分步骤的流程图；

图5为本公开实施例的另一种建立映射关系的方法中部分步骤的流程图；

图6为本公开实施例的一种信息推荐的方法的流程图；

图7为本公开实施例的一种建立映射关系的装置的组成框图；

图8为本公开实施例的另一种建立映射关系的装置的组成框图；

图9为本公开实施例的一种信息推荐的装置的组成框图。

具体实施方式

为使本领域的技术人员更好地理解本公开的技术方案，下面结合附图对本公开提供的终端通信的方法、装置、硬件设备和计算机可读介质进行详细描述。

在下文中将参考附图更充分地描述示例实施例，但是所述示例实施例可以以不同形式来体现且不应当被解释为限于本文阐述的实施例。反之，提供这些实施例的目的在于使本公开透彻和完整，并将使本领域技术人员充分理解本公开的范围。

如本文所使用的，术语“和/或”包括一个或多个相关列举条目的任何和所有组合。

本文所使用的术语仅用于描述特定实施例，且不意欲限制本公开。

本公开实施例不限于附图中所示的实施例，而是包括基于制造工艺而形成的配置的修改。因此，附图中例示的区具有示意性属性，并且图中所示区的形状例示了元件的区的具体形状，但并不旨在是限制性的。

除非另外限定，否则本文所用的所有术语(包括技术和科学术语)的含义与本领域普通技术人员通常理解的含义相同。还将理解，诸如那些在常用字典中限定的那些术语应当被解释为具有与其在相关技术以及本公开的背景下的含义一致的含义，且将不解释为具有理想化或过度形式上的含义，除非本文明确如此限定。

下面对公开中提出的术语进行简单介绍。

实体(或称概念)，其是指现实世界中存在或曾经存在的实际物质体或抽象概念，例如人物、物品、结构、产品、建筑、地点、国家、组织、事件、艺术作品、科学技术、科学定理等。

实体集合，其是代表由多个实体构成的集合的概念。例如，实体集合“太阳系八大行星”代表“水星”、“金星”、“地球”、“火星”、“木星”、“土星”、“天王星”、“海王星”八个实体的集合。再如，实体集合“牛顿三大定律”代表“牛顿第一定律”、“牛顿第二定律”、“牛顿第三定律”三个实体的集合。

知识图谱，其是表示不同实体间的关系以及实体的属性的数据库。在知识图谱中，以实体为节点；实体与实体之间，以及实体与其对应的属性的值(属性-值，key-value)之间通过边相连，从而构成结构化的、网络状的数据库。其中，实体与实体间的连接(边)表示实体间的关系，如实体张三(人物)为实体李四(人物)的父亲；而实体与其对应的属性值之间的连接(边)表示实体的某个属性为某个值，如实体张三(人物)的身高属性的值为172厘米。

数据，其是指携带有一定信息量的、相对独立的、数字化的信息。例如，一个数据可为一篇文章、一个网页(如知识百科网页)等。

半结构化数据，其是指具有一定结构性、但并不具有完全规整的结构的数据。本公开实施例中的半结构化数据必然包括标题和与标题相关的内容，其中，半结构化数据的内容可再分为目录、摘要、章节、段落等不同部分，或者，半结构化数据的内容也可不再细分。具体的，以上半结构化数据可以是某网页(如知识百科网页)、某文章，也可以是从网页或文章转化得到的特定格式(如json格式)的数据。

A与B共现，其是指词语A和词语B共同出现在一个数据中。

数据库，其是一个或多个数据按照一定形式组成的数据集合。一个数据库中的全部数据可集中存储在一起，如数据库可为存储在特定服务器上的知识图谱；或者，一个数据库中的全部数据也可分布式存储，例如，若多个存储在不同服务器上的网页经过一个检索引擎的标引分类，从而可被该检索引擎检索到，则它们也是一个数据库。

图1为本公开实施例的一种建立映射关系的方法的流程图。

第一方面，本公开实施例提供一种建立映射关系的方法，参照图1，其包括：

S100、识别半结构化数据的标题，半结构化数据包括标题和内容。

本公开实施例中的半结构化数据必然包括标题和与标题相关的内容，由于具有一定的结构，故其标题可被识别出来。

具体的，半结构化数据可为知识百科网页或提取自知识百科网页的数据。当然，半结构化数据也可为其它的文章、网页，或为提取自其它的文章、网页的数据等。

在一些实施例中，半结构化数据的标题为实体集合；而后续的目标信息为实体。

半结构化数据的标题可为代表多个实体的集合的概念的实体集合，如“太阳系八大行星”、“牛顿三大定律”等；相应的，后续提取的目标信息为该实体集合所包括的实体。

在一些实施例中，半结构化数据的标题包括预设的关键词。

可根据标题是否具有预设的关键词对半结构化数据进行筛选，从而仅对标题中具有特定关键词的半结构化数据进行处理，如仅对标题为实体集合的半结构化数据进行处理。

其中，目标关键词可为数字，如一、二、……、八、1、2、3、……、9等，因为具有数字的标题往往代表实体集合，如“太阳系八大行星”、“牛顿三大定律”等。

当然，目标关键词也可不含数字，而是特定的、表示合称的词，如“英国的科学家”即表示所有国际为英国的科学家的集合。

S200、从半结构化数据中提取至少一个目标信息，并根据所提取的目标信息建立目标信息集合。

根据预定的算法，从半结构化数据中提取目标信息，该目标信息是半结构化数据中与标题密切相关的信息，而所有提取的目标信息构成目标信息集合。

S300、建立半结构化数据的标题和目标信息集合之间的映射关系。

由于目标信息是与半结构化数据的标题相关的，故将以上提取得到的目标信息集合与半结构化数据的标题对应起来，以表明目标信息集合中的各目标信息与半结构化数据的标题的相关性，例如表明多个实体对应一个实体集合。

本公开实施例提供的建立映射关系的方法中，通过分析半结构化数据得出半结构化数据的标题与其中特定的目标信息的映射关系，即得出了与标题相关的信息，从而可用于反馈用户检索、为用户推荐信息、完善知识图谱等。而且，以上方法是自动实现的，不依赖人工，效率和准确度高。另外，以上方法可用于任何具有标题的半结构化数据，而不限于具有特定结构的结构化数据，故其适用范围广泛，可充分利用已有的数据资源。

图2为本公开实施例的另一种建立映射关系的方法中步骤S200的流程图。

参照图2，在一些实施例中，以上步骤S200包括：

S201、从半结构化数据中提取至少一个第一信息，至少一个第一信息中的每一个第一信息均包括多个具有并列关系的子信息。

将半结构化数据中包括并列的内容(子信息)的部分提取出来，作为第一信息。第一信息中并列的子信息可为多个并列的词、短语、短句等，如第一信息“水星、金星、地球”中的“水星”、“金星”、“地球”就是三个并列的子信息；或者，第一信息中并列的子信息也可为多段并列的文本，如第一信息中包括分别对水星、金星、地球进行介绍的三段文字，则这三段文字即为三个并列的子信息。

在标题为实体集合的半结构化数据中，对实体集合对应的多个实体往往采用并列形式进行介绍，故具有并列的子信息的第一信息中有更大概率包括需要提取的实体(目标信息)。

在一些实施例中，本步骤(S201)具体包括：

根据具有并列关系的符号从半结构化数据中提取至少一个第一信息；

和/或，

从半结构化数据的锚点列表目录和/或标题列表目录中提取至少一个第一信息。

并列的子信息间往往具有表示并列关系的符号，该符号可为标点符号，如“、”、“；”、“/”、“&”，或者，该符号也可为文字符号，如“和”、“或”、“或者”等。因此，可将半结构化数据中包括具有并列关系的符号的部分提取出来，作为第一信息。

在半结构化数据中，往往具有锚点或标题。其中，锚点是插入在页面中的一种超链接，通过该超链接可跳转至页面的指定位置，其可作为半结构化数据不同部分的分界；而标题则是指页面中各部分内容的总结性题目。在标题为实体集合的半结构化数据中，对实体集合对应的各实体的介绍往往是并列的，并用锚点或标题的形式表达，故锚点列表目录或标题列表目录中往往包括多个需要提取的实体(目标信息)，可用其作为第一信息。

S202、从至少一个第一信息中提取至少一个目标信息。

在提取得到包括目标信息的第一信息后，继续从中提取出目标信息。其中，目标信息可以是第一信息中的并列的子信息，也可以是从子信息中进一步提取出的信息。

在一些实施例中，本步骤(S202)具体包括：

S2021、采用句法分析和/或词法分析从至少一个第一信息中提取至少一个初始信息，所有初始信息构成初始信息集合。

通过句法分析、词法分析技术等，从第一信息中提取出相对独立的、具有一定实际意义的词作为初始信息，并用初始信息构成初始信息集合。

当然，此时提取的初始信息的数量一般多于最终的目标信息的数量。例如，对标题为“太阳系八大行星”的半结构化数据，从其中提取出的初始信息可包括“水星”、“金星”、“地球”、“火星”、“木星”、“土星”、“天王星”、“海王星”等实体(目标信息)，同时也可包括“直径”、“质量”、“表面温度”等其它用于描述这些实体的相关信息。

需要说明的是，由于同样的词可能在一个第一信息中多次出现，或者在多个第一信息中分别出现，故每个词可能被多次提取，因此初始信息集合中可能包括重复的信息，如包括8个“地球”、4个“直径”等。

S2022、从初始信息集合中筛选出满足第一预设条件的、无重复的初始信息作为目标信息。

在初始信息集合中，选出满足第一预设条件的初始信息作为目标信息，且保证最终的目标信息无重复。

其中，保证目标信息无重复的方式是多样的。例如，可先判断初始信息集合中的每个初始信息是否符合第一预设条件，再将全部符合第一预设条件的初始信息(可能有重复)去重，以去重后剩下的无重复的初始信息为目标信息。或者，也可在判断出初始信息集合中的某个初始信息符合第一预设条件后进行记录，从而后续不再对初始信息集合中的同样的初始信息进行提取，以保证提取出的符合第一预设条件的初始信息就是无重复的，可直接作为目标信息。

在一些实施例中，第一预设条件包括以下项目中的至少一种：

第一，初始信息在初始信息集合中出现的次数大于或者等于第一阈值。

第二，初始信息和半结构化数据的标题在预设的第一数据库中的共现次数大于或者等于第二阈值。

第三，初始信息在半结构化数据的目标段落中出现的次数大于或者等于第三阈值。

根据不同的需求，第一预设条件的具体标准可包括多种：

第一，初始信息集合中的初始信息存在重复，因此，可通过初始信息在初始信息集合中出现的次数(也就是其被提取的次数)是否达到第一阈值判断其是否为目标信息。例如，假设第一阈值为6，若在初始信息集合中“地球”出现8次，“直径”出现4次，则判断“地球”为目标信息，“直径”不是目标信息。

第二，目标信息与半结构化数据的标题是高度相关的，故它们在其它的数据中也应有较大的概率同时出现(共现)，因此，可判断初始信息与半结构化数据的标题在第一数据库的每条数据中是否共现，并根据总的共现次数是否达到第二阈值判断初始信息是否为目标信息。例如，假设第二阈值为4，若在初始信息集合中“地球”出现8次，“直径”出现4次，而“地球”与半结构化数据的标题“太阳系八大行星”在第一数据库中的共现次数为6次，“直径”与半结构化数据的标题“太阳系八大行星”在第一数据库中的共现次数为1次，则判断“地球”为目标信息，“直径”不是目标信息。其中，第一数据库的形式是多样的，其可为已有的知识图谱，也可为被一个检索引擎标引分类的全部网页。

第三，在半结构化数据的特定位置出现的信息具有较高的重要性，因此，可通过初始信息在半结构化数据的特定段落中出现的次数是否达到第三阈值，判断初始信息是否为目标信息。例如，假设特定段落为半结构化数据的摘要，第三阈值为3，若“地球”在初始信息集合中出现8次，在半结构化数据的摘要中出现3次，而“直径”在初始信息集合中出现4次，在半结构化数据的摘要中未出现，则判断“地球”为目标信息，“直径”不是目标信息。

当然，应当理解，第一预设条件中，以上各标准可单独存在，也可同时存在，即，可以是初始信息符合以上标准中的一条就符合第一预设条件，也可以是初始信息必须同时符合以上标准中的多条才符合第一预设条件。

图3为本公开实施例的另一种建立映射关系的方法中部分步骤的流程图。

参照图3，在一些实施例中，在以上步骤S200后，还包括：

S401、对所提取的目标信息中的一个目标信息，从预设的第二数据库中筛选出与该目标信息匹配的第二信息作为目标匹配信息，第二数据库包括多个第二信息以及与每个第二信息对应的属性信息。

在得到与标题相关的目标信息后，用户可能还需要了解与目标信息相关的内容。因此，若已有的第二数据库(如知识图谱)中存在与该目标信息的实际意义相同的第二信息，则可将该第二信息作为与目标信息对应的目标匹配信息，由此，该目标匹配信息的相关内容(如属性信息)也就是目标信息的相关内容。

在一些实施例中，本步骤(S401)可包括：

S4011、从预设的第二数据库中，筛选出至少一个与目标信息存在匹配可能的第二信息作为匹配信息。

从第二数据库中，筛选出有可能与目标信息匹配的第二信息作为匹配信息，如可以是只要名称与匹配信息有至少部分相同的第二信息就作为匹配信息。

当然，此时每个目标信息可能对应多个第二信息，且这些第二信息所代表的实际意义并不一定都与目标信息相同，即这些第二信息并不一定都是最终的目标匹配信息。例如，对于目标信息“牛顿”，假设其实际意义是英国的科学家牛顿，而第二数据库中可能存在“科学家牛顿”和“力学单位牛顿”两个第二信息，由于名称中均有牛顿，故这两个第二信息均可能被认定为是目标信息“牛顿”的匹配信息。

S4012、分别计算每个匹配信息与半结构化数据的相似度。

计算各匹配信息与半结构化数据的相似度，由于目标信息是来自半结构化数据的，故其也就确定了各匹配信息与目标信息的相关程度。

在一些实施例中，本步骤(S4012)具体包括：

S40121、计算半结构化数据的第一向量，分别计算每个匹配信息的第二向量。

其中，第一向量由至少一个属性参数的值构成，第二向量由至少一个属性参数的值构成，且第一向量和第二向量所包括的属性参数相同。

为比较半结构化数据和匹配信息，可分别计算得出二者对应的第一向量和第二向量。第一向量和第二向量均包括相同的属性参数(或者说项目)，如“出生时间”、“去世时间”、“国籍”等，但第一向量和第二向量中相同属性参数对应的值可相同也可以不同。例如，第一向量可为(a1,b1,c1)，第二向量可为(a2,b2,c2)，即二者对应的属性参数均为a、b、c，但其中a1和a2的值、b1和b2的值、c1和c2的值可分别独立的相同或不同。

在一些实施例中，第一向量中的每一个属性参数的值，是根据该属性参数在该半结构化数据中是否出现得到的；第二向量中的每一个属性参数的值，是根据该属性参数在第二向量对应的匹配信息的属性信息中是否出现得到的。

也就是说，可仅通过属性参数在半结构化数据或第二信息的属性信息(如属性-值信息)中是否出现确定属性信息在相应向量中的取值。例如，对“出生时间”这一属性参数，若“出生时间”这个词在半结构化数据或属性信息中出现，则相应向量中其对应的值就为1，反之则为0。由于数据格式的多样性，故从数据中获得属性参数的具体对应的内容(如具体的出生年月日)是比较困难的，而对实际意义相同的信息，与其相关的属性参数往往也比较类似，如科学家“牛顿”对应的半结构化数据或属性信息中往往会出现“出生时间”、“去世时间”、“国籍”等属性参数，而力学单元“牛顿”对应的半结构化数据或属性信息中，则一般不会出现以上的“出生时间”、“去世时间”、“国籍”等，因此，向量的值可仅根据属性参数在相应数据中是否出现确定，以简化计算过程。

S40122、分别计算每个第二向量与第一向量的相似度，作为第二向量对应的匹配信息与该半结构化数据的相似度。

通过比较两向量中同样属性参数的值是否相同，即可确定两向量的相似度。由于计算具有相同属性参数的向量的相似度的方式是多样的，故在此不再详细描述。

S4013、筛选出对应的相似度满足第二预设条件的匹配信息作为目标匹配信息。

根据以上计算得到的各匹配信息的第二向量与半结构化数据的第一向量的相似度，选取对应较高相似度的匹配信息作为目标匹配信息。

当然，以上相似度的判断标准是多样的。例如，可以是大于或等于第四阈值的相似度对应的匹配信息为目标匹配信息，或者，也可以是最大相似度对应的匹配信息为目标匹配信息，或者，也可以是最大且大于或等于第五阈值的相似度对应的匹配信息为目标匹配信息等。

S402、关联该目标信息和目标匹配信息。

在得到目标匹配信息后，通过将目标匹配的ID和目标信息的ID关联等方式，将目标匹配信息与目标信息关联起来，以备后续应用。

在一些实施例中，在以上S402步骤后，还包括：

S403、接收针对该目标信息的属性获取请求。

S404、反馈与该目标信息关联的目标匹配信息的属性信息。

在建立关联后，当接收到针对目标信息的属性获取请求时(如用户点击目标信息以要求获取其相关内容)，则可提供(如显示)与目标信息关联的目标匹配信息的属性信息，以供用户了解关于该目标信息的更多内容。

图4为本公开实施例的另一种建立映射关系的方法中部分步骤的流程图。

参照图4，在一些实施例中，在以上S300步骤后，还包括：

S500、将映射关系加入到第四数据库。

在建立标题与目标信息的映射关系后，还可将映射关系存储到第四数据库中，从而新建第四数据库，或者完善第四数据库的内容。

具体的，第四数据库可为知识图谱。

图5为本公开实施例的另一种建立映射关系的方法中部分步骤的流程图。

参照图5，在一些实施例中，在以上S300步骤后，还包括：

S600、根据目标信息集合标引半结构化数据。

在建立标题与目标信息的映射关系后，还可根据目标信息集合对半结构化数据(如网页)进行标引(或者说分类)，以确定半结构化数据是与目标信息集合中的目标信息相关的。这样，后续可根据目标信息检索到该半结构化数据(网页)，提高检索效率和准确度。

当然，应当理解，以上S401～S404、S500、S600步骤，只要分别在各自要求的步骤后进行即可，而S401～S404、S500、S600步骤本身并无必然的执行顺序关系。

当然，应当理解，在建立以上映射关系后，还可根据该映射关系进行其它的操作。例如，当用户就半结构化数据的标题进行检索或需要向用户推荐与半结构化数据的标题相关的内容时，可根据映射关系找到与半结构化数据的标题对应的目标信息集合，并向用户提供目标信息集合。

当然，应当理解，以上描述的是建立一个半结构化数据的标题与目标信息的映射关系的过程，而如果要分别建立多个半结构化数据的标题与目标信息的映射关系，则可多次进行以上发过程。例如，可依次对预设的数据库(如某网站的知识百科网页)中的多个半结构化数据进行以上过程，并将所有建立的映射关系加入一个数据库(如第四数据库)中，以获得一个新的数据库(如知识图谱)。

图6为本公开实施例的一种信息推荐的方法的流程图。

第二方面，本公开实施例提供一种信息推荐的方法，参照图6，其包括：

S701、接收检索请求，检索请求包括检索词。

S702、获取标题为检索词的半结构化数据。

S703、从半结构化数据中提取至少一个目标信息，并根据所提取的目标信息建立目标信息集合。

S704、反馈目标信息集合。

当用户进行检索(如输入检索词或输入实质上针对检索词的提问)时，可从用户的检索请求中提取出检索词，并找到标题为检索词的半结构化数据，再按照以上方法从半结构化数据中找出与其标题相关的目标信息，并将目标信息集合作为检索结果反馈给用户。

由此，当用户进行检索(如检索某个实体集合)，可在不经人工干预的情况下自动向用户提供准确的检索结果(如与实体集合对应的实体)，提高检索速度和正确率，降低人工成本。

图7为本公开实施例的一种建立映射关系的装置的组成框图。

第三方面，本公开实施例提供一种建立映射关系的装置，参照图7，其包括：

标题识别单元，用于识别半结构化数据的标题，半结构化数据包括标题和内容；

第一提取单元，用于从半结构化数据中提取至少一个目标信息，并根据所提取的目标信息建立目标信息集合；

映射关系建立单元，用于建立半结构化数据的标题和目标信息集合之间的映射关系。

图8为本公开实施例的另一种建立映射关系的装置的组成框图。

参照图8，在一些实施例中，第一提取单元包括：

第一提取子单元，用于从半结构化数据中提取至少一个第一信息，至少一个第一信息中的每一个第一信息均包括多个具有并列关系的子信息；

第二提取子单元，用于从至少一个第一信息中提取至少一个目标信息。

在一些实施例中，第一提取子单元用于：

和/或，

在一些实施例中，第二提取子单元用于：

采用句法分析和/或词法分析从至少一个第一信息中提取至少一个初始信息，所有初始信息构成初始信息集合；

从初始信息集合中筛选出满足第一预设条件的、无重复的初始信息作为目标信息。

初始信息在初始信息集合中出现的次数大于或者等于第一阈值；

初始信息和半结构化数据的标题在预设的第一数据库中的共现次数大于或者等于第二阈值；

初始信息在半结构化数据的目标段落中出现的次数大于或者等于第三阈值。

在一些实施例中，该装置还包括：

筛选单元，用于对所提取的目标信息中的一个目标信息，从预设的第二数据库中筛选出与该目标信息匹配的第二信息作为目标匹配信息，第二数据库包括多个第二信息以及与每个第二信息对应的属性信息；

关联单元，用于关联该目标信息和目标匹配信息。

在一些实施例中，筛选单元包括：

第一筛选子单元，用于从预设的第二数据库中，筛选出至少一个与目标信息存在匹配可能的第二信息作为匹配信息；

相似度计算子单元，用于分别计算每个匹配信息与半结构化数据的相似度；

在一些实施例中，相似度计算子单元用于：

计算半结构化数据的第一向量，分别计算每个匹配信息的第二向量；

分别计算每个第二向量与第一向量的相似度，作为第二向量对应的匹配信息与该半结构化数据的相似度；

在一些实施例中，第一向量中的每一个属性参数的值，是根据该属性参数在该半结构化数据中是否出现得到的；

第二向量中的每一个属性参数的值，是根据该属性参数在第二向量对应的匹配信息的属性信息中是否出现得到的。

在一些实施例中，该装置还包括：

第一接收单元，用于接收针对该目标信息的属性获取请求；

在一些实施例中，半结构化数据的标题为实体集合；

目标信息为实体。

在一些实施例中，半结构化数据的标题包括预设的关键词。

在一些实施例中，该装置还包括：

加入单元，用于将映射关系加入到第四数据库。

在一些实施例中，该装置还包括：

标引单元，用于根据目标信息集合标引半结构化数据。

图9为本公开实施例的一种信息推荐的装置的组成框图。

第四方面，本公开实施例提供一种信息推荐的装置，参照图9，其包括：

第二接收单元，用于接收检索请求，检索请求包括检索词；

获取单元，用于获取标题为检索词的半结构化数据；

第二提取单元，用于从半结构化数据中提取至少一个目标信息，并根据所提取的目标信息建立目标信息集合；

第二反馈单元，用于反馈目标信息集合。

第五方面，本公开实施例提供一种硬件设备，其包括：

一个或多个处理器；

第六方面，本公开实施例提供一种计算机可读介质，其上存储有计算机程序，其中，所述程序被处理器执行时实现如上任意一种建立映射关系的方法或信息推荐的方法。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、系统、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中，在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分；例如，一个物理组件可以具有多个功能，或者一个功能或步骤可以由若干物理组件合作执行。某些物理组件或所有物理组件可以被实施为由处理器，如中央处理器、数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。这样的软件可以分布在计算机可读介质上，计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的，术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其它数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其它存储器技术、CD-ROM、数字多功能盘(DVD)或其它光盘存储、磁盒、磁带、磁盘存储或其它磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其它的介质。此外，本领域普通技术人员公知的是，通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其它传输机制之类的调制数据信号中的其它数据，并且可包括任何信息递送介质。

本文已经公开了示例实施例，并且虽然采用了具体术语，但它们仅用于并仅应当被解释为一般说明性含义，并且不用于限制的目的。在一些实例中，对本领域技术人员显而易见的是，除非另外明确指出，否则可单独使用与特定实施例相结合描述的特征、特性和/或元素，或可与其它实施例相结合描述的特征、特性和/或元件组合使用。因此，本领域技术人员将理解，在不脱离由所附的权利要求阐明的本公开的范围的情况下，可进行各种形式和细节上的改变。

Claims

1.一种建立映射关系的方法，包括：

识别半结构化数据的标题，所述半结构化数据包括标题和内容，所述半结构化数据的标题用于代表多个实体的集合的概念的实体集合；

从所述半结构化数据中提取至少一个目标信息，并根据所提取的所述目标信息建立目标信息集合；所述目标信息为所述实体集合所包括的实体；

建立所述半结构化数据的标题和所述目标信息集合之间的映射关系，所述映射关系用于表明所述目标信息集合中的多个实体属于一个所述实体集合；

所述从所述半结构化数据中提取至少一个目标信息包括：从所述半结构化数据中提取至少一个第一信息，其中，所述提取是将所述半结构化数据中包括的并列的内容作为子信息进行提取，所述至少一个第一信息中的每一个第一信息均包括多个具有并列关系的子信息；从所述至少一个第一信息中提取至少一个目标信息；

所述从所述至少一个第一信息中提取至少一个目标信息，包括：

采用句法分析和/或词法分析从至少一个第一信息中提取至少一个初始信息，所有初始信息构成初始信息集合；其中，所述初始信息是所述第一信息中包含的相对独立的、具有一定实际意义的词；所述词包括实体信息和描述实体的相关信息；

从所述初始信息集合中筛选出满足第一预设条件的、无重复的所述实体信息作为目标信息。

2.根据权利要求1所述的方法，其中，所述从所述半结构化数据中提取至少一个第一信息包括：

和/或，

3.根据权利要求1所述的方法，其中，所述第一预设条件包括以下项目中的至少一种：

4.根据权利要求1所述的方法，其中，在所述从所述半结构化数据中提取至少一个目标信息后，还包括：

关联该目标信息和目标匹配信息。

5.根据权利要求4所述的方法，其中，所述从预设的第二数据库中筛选出与该目标信息匹配的第二信息作为目标匹配信息包括：

分别计算每个所述匹配信息与所述半结构化数据的相似度；

6.根据权利要求5所述的方法，其中，所述分别计算每个所述匹配信息与所述半结构化数据的相似度包括：

7.根据权利要求6所述的方法，其中，

所述第一向量中的每一个属性参数的值，是根据该属性参数在该半结构化数据中是否出现得到的；

8.根据权利要求4中所述的方法，其中，在所述关联该目标信息和目标匹配信息后，还包括：

接收针对该目标信息的属性获取请求；

反馈与该目标信息关联的目标匹配信息的属性信息。

9.根据权利要求1至8中任意一项所述的方法，其中，

所述半结构化数据的标题包括预设的关键词。

10.根据权利要求1至8中任意一项所述的方法，其中，在所述建立所述半结构化数据的标题和所述目标信息集合之间的映射关系后，还包括：

将所述映射关系加入到第四数据库。

11.根据权利要求1至8中任意一项所述的方法，其中，在所述建立所述半结构化数据的标题和所述目标信息集合之间的映射关系后，还包括：

根据所述目标信息集合标引所述半结构化数据。

12.一种信息推荐的方法，包括：

接收检索请求，所述检索请求包括检索词；

获取标题为所述检索词的半结构化数据，且所述标题用于代表多个实体的集合的概念的实体集合；

从所述半结构化数据中提取至少一个目标信息，并根据所提取的所述目标信息建立目标信息集合；其中，所述目标信息集合中的多个实体属于一个所述实体集合；

反馈所述目标信息集合；

其中，所述从所述半结构化数据中提取至少一个目标信息包括：从所述半结构化数据中提取至少一个第一信息，其中，所述提取是将所述半结构化数据中包括的并列的内容作为子信息进行提取，所述至少一个第一信息中的每一个第一信息均包括多个具有并列关系的子信息；从所述至少一个第一信息中提取至少一个目标信息；

采用句法分析和/或词法分析从至少一个第一信息中提取至少一个初始信息，所有初始信息构成初始信息集合；其中，所述初始信息是所述第一信息中包含的相对独立的、具有一定实际意义的词，且所述词包括：实体信息和描述实体的相关信息；从所述初始信息集合中筛选出满足第一预设条件的、无重复的所述实体信息作为目标信息。

13.一种建立映射关系的装置，包括：

标题识别单元，用于识别半结构化数据的标题，所述半结构化数据包括标题和内容，所述结构化数据的标题用于代表多个实体的集合的概念的实体集合；

第一提取单元，用于从所述半结构化数据中提取至少一个目标信息，并根据所提取的所述目标信息建立目标信息集合；所述目标信息为所述实体集合所包括的实体；

映射关系建立单元，用于建立所述半结构化数据的标题和所述目标信息集合之间的映射关系；其中，所述映射关系用于表明所述目标信息集合中的多个实体属于一个所述实体集合；

所述第一提取单元包括：第一提取子单元，用于从所述半结构化数据中提取至少一个第一信息，其中，所述提取是将所述半结构化数据中包括的并列的内容作为子信息进行提取，所述至少一个第一信息中的每一个第一信息均包括多个具有并列关系的子信息；第二提取子单元，用于从所述至少一个第一信息中提取至少一个目标信息；

其中，所述第二提取子单元，用于采用句法分析和/或词法分析从至少一个第一信息中提取至少一个初始信息，所有初始信息构成初始信息集合；其中，所述初始信息是所述第一信息中包含的相对独立的、具有一定实际意义的词，且所述词包括：实体信息和描述实体的相关信息；从所述初始信息集合中筛选出满足第一预设条件的、无重复的所述实体信息作为目标信息。

14.根据权利要求13所述的装置，其中，所述第一提取子单元用于：

和/或，

15.根据权利要求13所述的装置，其中，所述第一预设条件包括以下项目中的至少一种：

16.根据权利要求13所述的装置，其中，还包括：

关联单元，用于关联该目标信息和目标匹配信息。

17.根据权利要求16所述的装置，其中，所述筛选单元包括：

18.根据权利要求17所述的装置，其中，所述相似度计算子单元用于：

19.根据权利要求18所述的装置，其中，

20.根据权利要求16所述的装置，其中，还包括：

第一接收单元，用于接收针对该目标信息的属性获取请求；

21.根据权利要求13至20中任意一项所述的装置，其中，

所述半结构化数据的标题包括预设的关键词。

22.根据权利要求13至20中任意一项所述的装置，其中，还包括：

加入单元，用于将所述映射关系加入到第四数据库。

23.根据权利要求13至20中任意一项所述的装置，其中，还包括：

24.一种信息推荐的装置，包括：

获取单元，用于获取标题为所述检索词的半结构化数据，且所述标题用于代表多个实体的集合的概念的实体集合；

第二提取单元，用于从所述半结构化数据中提取至少一个目标信息，并根据所提取的所述目标信息建立目标信息集合；其中，所述目标信息集合中的多个实体属于一个所述实体集合；

第二反馈单元，用于反馈所述目标信息集合；

其中，所述第二提取单元在用于从所述半结构化数据中提取至少一个目标信息时，具体用于：从所述半结构化数据中提取至少一个第一信息，其中，所述提取是将所述半结构化数据中包括的并列的内容作为子信息进行提取，所述至少一个第一信息中的每一个第一信息均包括多个具有并列关系的子信息；从所述至少一个第一信息中提取至少一个目标信息；

所述第二提取单元在用于从所述至少一个第一信息中提取至少一个目标信息，具体用于：采用句法分析和/或词法分析从至少一个第一信息中提取至少一个初始信息，所有初始信息构成初始信息集合；其中，所述初始信息是所述第一信息中包含的相对独立的、具有一定实际意义的词，且所述词包括：实体信息和描述实体的相关信息；从所述初始信息集合中筛选出满足第一预设条件的、无重复的所述实体信息作为目标信息。

25.一种硬件设备，包括：

一个或多个处理器；

存储装置，其上存储有一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1至12中任意一项所述的方法。

26.一种计算机可读介质，其上存储有计算机程序，所述程序被处理器执行时实现如权利要求1至12中任意一项所述的方法。