CN111241302B

CN111241302B - 职位信息图谱生成方法、装置、设备和介质

Info

Publication number: CN111241302B
Application number: CN202010041798.XA
Authority: CN
Inventors: 黄昉; 李双婕; 史亚冰; 蒋烨; 张扬; 朱勇
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-01-15
Filing date: 2020-01-15
Publication date: 2023-09-15
Anticipated expiration: 2040-01-15
Also published as: CN111241302A

Abstract

本申请实施例公开了一种职位信息图谱生成方法、装置、设备和介质，涉及知识图谱技术，其中，该方法包括：识别语料中每个语句中的触发词，其中，触发词用于表示就职或者卸任的实体关系；确定触发词在每个语句中的位置；根据触发词的位置，抽取每个语句中的实体对、以及实体关系的时间区间；基于实体关系、实体对、以及实体关系的时间区间，生成职位信息图谱。本申请实施例可以减少职位信息抽取的人力成本，提高职位信息抽取的泛化性。

Description

职位信息图谱生成方法、装置、设备和介质

技术领域

本申请实施例涉及计算机技术，具体涉及知识图谱技术，尤其涉及一种职位信息图谱生成方法、装置、设备和介质。

背景技术

知识抽取任务是知识图谱构建中最重要的任务之一，主要是通过自动化或者半自动化的技术，在互联网的海量网页与自然语言文本中，抽取出可用的知识单元，用于补充知识图谱中的实体对属性与实体关系。知识单元通常以SPO三元组的形式构成，包括实体(S)、实体属性/实体对之间的关系(P)以及实体属性值/关联实体(O)这3个要素。

通常，官方发布的政治人物任免的新闻的表述比较正式，表达任免信息的句法比较相似，因此，可以通过设计正则表达式，从官方任免公告或者可靠的新闻来源中直接抽取具体的职位信息。然而，上述实现方式存在以下问题：

1)人力成本高，需要根据句法样式设计正则表达式，针对不同的数据来源和表述方式，还需要做相应的修改；

2)泛化性差，只能针对少量的比较正式的文本进行抽取，不能自适应泛化到其他的新闻语料中。

发明内容

本申请实施例公开一种职位信息图谱生成方法、装置、设备和介质，以减少人力成本，提高职位信息抽取的泛化性。

第一方面，本申请实施例公开了一种职位信息图谱生成方法，包括：

识别语料中每个语句中的触发词，其中，所述触发词用于表示就职或者卸任的实体关系；

确定所述触发词在每个语句中的位置；

根据所述触发词的位置，抽取每个语句中的实体对、以及所述实体关系的时间区间；

基于所述实体关系、实体对、以及所述实体关系的时间区间，生成职位信息图谱。

上述申请中的一个实施例具有如下优点或有益效果：提出了一种基于包含时间区间的结构化数据格式生成职位信息图谱的方式，对构建职位信息图谱的数据格式进行了统一的规范化；由于本实施例对职位信息的抽取不依赖预先设置的正则表达式，减少了人为修改正则表达式的成本消耗，提高了职位信息抽取的泛化性。

可选的，所述识别语料中每个语句中的触发词，包括：

对所述语料中的每个语句进行分词，得到每个语句中的多个词语；

将所述多个词语分别在预先确定的触发词表中进行匹配；

将匹配成功的词语确定为所述触发词。

可选的，在将所述多个词语分别在预先确定的触发词表中进行匹配之前，所述方法还包括：

将通过对所述语料中的每个语句进行分词得到的各词语进行词性标注；

根据知识抽取需求，以及词性标注的动词在所述语料中的词频信息，确定所述触发词表。

可选的，根据所述触发词的位置，抽取每个语句中的实体对、以及所述实体关系的时间区间，包括：

根据所述触发词的位置，确定每个语句中的其他词语与所述触发词的距离；

基于每个语句的分词序列、所述触发词的位置、以及每个语句中的其他词语与所述触发词的距离，利用预先训练的特征提取模型，对每个语句进行特征提取；

基于每个语句的提取特征，对每个语句中的词语进行分类标注，得到所述实体对、以及所述实体关系的时间区间。

上述申请中的一个实施例具有如下优点或有益效果：将语句中各词语与触发词的位置关系进行考虑，可以使得语句特征分析过程中携带各词语的位置信息，提高了词语分类标注结果的准确性。

可选的，所述方法还包括：

将训练语料集中每个语句的分词序列、每个语句中触发词的位置、以及每个语句中的其他词语与触发词的距离，作为训练输入；

将所述训练语料集中每个语句中关于实体对和实体关系的时间区间的标记结果，作为训练输出；

基于所述训练输入和所述训练输出，训练得到多元数据抽取模型，使得利用所述多元数据抽取模型执行所述特征提取和所述分类标注操作。

可选的，在基于所述实体关系、实体对、以及所述实体关系的时间区间，生成职位信息图谱之前，所述方法还包括：

如果每个语句中主体和客体之间的对应关系为一对多，则根据每个语句中主体和客体的位置关系，对实体对进行筛选，得到最终的实体对。

如果每个语句中主体和客体之间的对应关系为多对多，则根据每个语句中的标点符号对每个语句进行切分，得到多个短语；

将包含所述触发词的短语中的主体和客体确定为最终的实体对。

上述申请中的一个实施例具有如下优点或有益效果：通过根据各种预设的约束条件，对抽取得到的实体对进行过滤，进一步提高了最终用于构建图谱的实体对的准确性，排除了词语分类标注输出结果中的错误。

如果所述触发词用于表示卸任的实体关系，则将所述实体关系的时间区间中的时间起点替换时间终点，并将所述时间起点设置为空值。

上述申请中的一个实施例具有如下优点或有益效果：对于卸任类的实体关系，通过时间起点和终点的替换操作，可以使得实体关系的时间信息更加符合实际，排除知识抽取过程中的错误。

可选的，每个实体对中的客体包括地点、部门和职位；

在基于所述实体关系、实体对、以及所述实体关系的时间区间，生成职位信息图谱之前，所述方法还包括：

如果抽取的实体对中客体缺乏所述地点和部门中的任意一个，则按照职位在每个语句中的出现顺序，将在前职位对应的地点和部门作为在后职位的地点和部门。

上述申请中的一个实施例具有如下优点或有益效果：保证了职位信息抽取的全面性。

可选的，所述职位信息图谱中的知识采用五元组数据形式，分别包括主体、实体关系、客体、关系生效时间起点、关系失效时间终点。

第二方面，本申请实施例还公开了一种职位信息图谱生成装置，包括：

触发词识别模块，用于识别语料中每个语句中的触发词，其中，所述触发词用于表示就职或者卸任的实体关系；

触发词位置确定模块，用于确定所述触发词在每个语句中的位置；

数据抽取模块，用于根据所述触发词的位置，抽取每个语句中的实体对、以及所述实体关系的时间区间；

图谱生成模块，用于基于所述实体关系、实体对、以及所述实体关系的时间区间，生成职位信息图谱。

第三方面，本申请实施例还公开了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如本申请实施例任一所述的职位信息图谱生成方法。

第四方面，本申请实施例还公开了一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行如本申请实施例任一所述的职位信息图谱生成方法。

根据本申请实施例的技术方案，通过基于触发词在所属语句中的位置，抽取实体对、以及实体关系的目标时间区间，提出了一种基于包含时间区间的结构化数据格式生成职位信息图谱的方式，对构建职位信息图谱的数据格式进行了统一的规范化，使得职位信息图谱中可以准确的表达每个实体对的实体关系的有效期限；并且，由于本实施例对职位信息的抽取不依赖预先设置的正则表达式，减少了人为修改正则表达式的成本消耗，提高了职位信息抽取的泛化性。上述可选方式所具有的其他效果将在下文中结合具体实施例加以说明。

附图说明

附图用于更好地理解本方案，不构成对本申请的限定。其中：

图1是根据本申请实施例公开的一种职位信息图谱生成方法的流程图；

图2是根据本申请实施例公开的另一种职位信息图谱生成方法的流程图；

图3是根据本申请实施例公开的一种职位信息抽取的流程示意图；

图4是根据本申请实施例公开的一种职位信息图谱生成装置的结构示意图；

图5是根据本申请实施例公开的一种电子设备的框图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

图1是根据本申请实施例公开的一种职位信息图谱生成方法的流程图，本实施例可以适用于抽取职位信息，构建职位信息图谱的情况。本实施例方法可以由职位信息图谱生成装置来执行，该装置可以采用软件和/或硬件的方式实现，并可集成在任意的具有计算能力的电子设备上，例如服务器等。

如图1所示，本实施例公开的职位信息图谱生成方法可以包括：

S101、识别语料中每个语句中的触发词，其中，触发词用于表示就职或者卸任的实体关系。

在本实施例中，根据当前知识抽取需求，可以从多个网络数据来源中收集初始语料，然后通过关键词识别与匹配，对该初始语料进行筛选等预处理，得到由包含触发词的文本构成的语料，其中，用于语料筛选的关键词可以是触发词本身，也可以是用于表示实体对中主体或客体的词语。

可选的，识别语料中每个语句中的触发词，包括：

对语料中的每个语句进行分词，得到每个语句中的多个词语；

将多个词语分别在预先确定的触发词表中进行匹配；

将匹配成功的词语确定为触发词。

其中，语句分词可以采用现有技术中任意可用的方法实现，本实施例不作具体限定，例如基于统计的中文分词方法、基于字符串匹配的分词方法、基于理解的分词方法等。由于本实施例中涉及实体关系包括就职和卸任两类，预先收集的触发词表可以按照实体关系类型进行区分，有助于提高后续触发词匹配的效率。触发词表即预先统计的与就职或者卸任具有相同或相近含义的词语集合，并且，优选为动词集合。

进一步的，在将多个词语分别在预先确定的触发词表中进行匹配之前，本实施例方法还包括：

将通过对语料中的每个语句进行分词得到的各词语进行词性标注；

根据知识抽取需求，以及词性标注的动词在语料中的词频信息，确定触发词表。其中，知识抽取需求即用于表示当前是抽取关于就职的知识，还是抽取关于卸任的知识。词性标注可以使用自然语言处理中任意可用的词性标注方法实现，例如基于字符串匹配的字典查找方法、基于隐马尔科夫模型的词性标注方法等。词频信息用于表示分词得到的各词语在语料中出现的频率，例如，可以使用语料中词频前100的动词构成触发词表。

S102、确定触发词在每个语句中的位置。

其中，如果存在触发词处于所属语句的结尾，则认为该语句不包括任何的职位信息，不需要对该语句执行后续的知识抽取操作。

S103、根据触发词的位置，抽取每个语句中的实体对、以及实体关系的时间区间。

示例性的，针对每个包括触发词的语句，可以将该触发词在语句中的位置确定为原点，然后按照其他词语在语句中的出现顺序，确定其他词语相对于该触发词的距离，从而实现对语句中每个词语的位置表示，基于该位置表示，利用任意可用的知识抽取模型抽取出每个语句中的实体对、以及实体关系的时间区间，其中，该时间区间用于表示实体关系有效的期限，相比于现有知识图谱中时间点的零散表达，通过抽取实体关系有效的时间区间，可以提高知识图谱中的时间信息表达精度。

可选的，在基于实体关系、实体对、以及实体关系的时间区间，生成职位信息图谱之前，本实施例方法还包括：如果触发词用于表示卸任的实体关系，则将实体关系的时间区间中的时间起点替换时间终点，并将时间起点设置为空值。对于卸任类的实体关系，通过时间起点和终点的替换操作，可以使得实体关系的时间信息更加符合实际，排除知识抽取过程中的错误。

进一步的，在基于实体关系、实体对、以及实体关系的时间区间，生成职位信息图谱之前，本实施例方法还包括：统计针对同一实体对和实体关系的多个时间区间；对多个时间区间进行融合处理，得到针对同一实体对和实体关系的最终的时间区间。当语料较多时，经过知识抽取，每个实体对的实体关系可能对应多个时间区间，例如至少两个时间区间，为确保知识图谱中每个实体关系的时间区间的准确性和全面性，则需要对得到的多个时间区间进行融合处理，例如，错误时间区间的去除、以及按照时间顺序对不同时间区间进行拼接或者去重等。可选的，对多个时间区间进行融合处理，得到针对同一实体对和实体关系的最终的时间区间，包括：按照多个时间区间中每个时间区间的置信度，对多个时间区间进行筛选；按照时间顺序对筛选后的时间区间进行整合，例如时间区间的拼接或者去重等，得到针对同一实体对和实体关系的最终的时间区间。

其中，每个时间区间的置信度可以根据预先确定的语料来源的优先级进行确定，例如语料来源的优先级越高，从该语料中抽取出的时间区间的置信度越高；也可以通过统计抽取出同一时间区间的数据源在语料中的数量，根据该数量动态确定该时间区间的置信度，本实施例不作具体限定。当前语料中可以包括多个数据源，例如不同网址的网页文本等，多个数据源可以分别对应不同的语料来源，也可以对应相同的语料来源。语料来源可以按照信息发布方进行区分。

示例性的，按照多个时间区间中每个时间区间的置信度，对多个时间区间进行筛选，包括：统计多个时间区间中每个时间区间对应的数据源在语料中的数量；根据统计的数量，确定每个时间区间的置信度；按照置信度，对多个时间区间进行筛选。例如，多个时间区间分别为a、b、c，抽取出时间区间a的数据源在语料中的数量为x1，抽取出时间区间b的数据源在语料中的数量为x2，抽取出时间区间c的数据源在语料中的数量为x3，x1>x2>x3，则时间区间a、b、c的置信度依次减小，可以将置信度小于置信度阈值的时间区间丢弃，置信度阈值可以适应性设置。

S104、基于实体关系、实体对、以及实体关系的时间区间，生成职位信息图谱。

可选的，职位信息图谱中的知识采用五元组数据形式，分别包括主体、实体关系、客体、关系生效时间起点(from值)、关系失效时间终点(to值)，关系生效时间起点和关系失效时间终点组成时间区间，从而实现对构建职位信息图谱的数据格式的统一化和规范化。当然，如果存在增加其他的论元数据的需求时，职位信息图谱中的知识也可以采用多于五维论元的数据形式，从而达到数据可灵活扩展的效果。

根据本申请实施例的技术方案，通过基于触发词在所属语句中的位置，抽取实体对、以及实体关系的目标时间区间，提出了一种基于包含时间区间的结构化数据格式生成职位信息图谱的方式，对构建职位信息图谱的数据格式进行了统一的规范化，使得职位信息图谱中可以准确的表达每个实体对的实体关系的有效期限；并且，由于本实施例对职位信息的抽取不依赖预先设置的正则表达式，减少了人为修改正则表达式的成本消耗，提高了职位信息抽取的泛化性。

图2是根据本申请实施例公开的另一种职位信息图谱生成方法的流程图，基于上述技术方案进一步优化与扩展，并可以与上述各个可选实施方式进行结合。如图2所示，该方法包括：

S201、识别语料中每个语句中的触发词，其中，触发词用于表示就职或者卸任的实体关系。

S202、确定触发词在每个语句中的位置。

S203、根据触发词的位置，确定每个语句中的其他词语与触发词的距离。其中，每个语句中的词语包括单字词语。

S204、基于每个语句的分词序列、触发词的位置、以及每个语句中的其他词语与触发词的距离，利用预先训练的特征提取模型，对每个语句进行特征提取。

其中，特征提取模型可以基于现有技术中任意可用的语句特征提取思想训练得到，例如基于双向长短时间记忆网络(Bidirectional Long Short-Term Memory，LSTM)的特征提取模型。按照通用的语法结构，实体对中的主体和客体与触发词在语句中的位置关系具有一定的规律性，将语句中各词语与触发词的位置关系进行考虑，可以使得语句特征分析过程中携带各词语的位置信息，有助于提高后续词语分类标注结果的准确性。

S205、基于每个语句的提取特征，对每个语句中的词语进行分类标注，得到实体对、以及实体关系的时间区间。

通过对每个语句中的词语进行分类标注，将每个语句中的词语按照构建图谱采用的多元数据中包括的多个论元进行分类，示例性的，词语分类标注可以利用预先训练的分类标注模型实现，包括但不限于基于条件随机场(conditional random field，CRF)的分类标注模型等。由于表征实体关系的触发词已经预先确定，因此，每个语句中词语的最终分类标注，可以将实体关系再次标注输出，也可以不进行标注输出，本实施例不作具体限定。此外，模型输出的标注结果通常需要经过解码才能转换为直观的多元数据，关于解码的具体过程与分类标注模型的类型有关，基于现有技术本领域技术人员可以获知解码过程的实现。

可选的，本实施例方法还包括：

将训练语料集中每个语句中关于实体对和实体关系的时间区间的标记结果，作为训练输出；

基于训练输入和训练输出，训练得到多元数据抽取模型，使得利用多元数据抽取模型执行特征提取和分类标注操作。

图3作为示例，示出了本实施例提供的一种职位信息抽取的流程示意图，不应理解为对本实施例的具体限定。如图3所示，原句是：2008年-2012年郭某某任x市市长，经识别得到的触发词为“任”，将触发词的位置标记为0，分词得到的其他各单字与该触发词的距离分别可以表示为：-8、-7、-6、-5、-4、-3、-2、-1、1、2、3、4，该距离表示只是作为一种示例，还可以采用其他的表示形式；然后将该语句的分词序列、触发词的位置、以及其他字与触发词的距离，输入基于双向长短时间记忆网络和条件随机场的多元数据抽取模型中，具体的，是以向量表示的形式通过向量(embedding)层输入双向长短时间记忆网络中，经模型处理得到该语句中的实体对、实体关系、以及实体关系的时间区间。示例性的，该语句中词语分类标注的结果可以如下：

2008年(T1)-2012年(T2)郭某某(S)任(P)x市市长(O)。

此外，多元数据抽取模型采用的标注序列可以为BIOE结构。通过对标注结果利用BIOE结构进行约束，可以提升词语分类标注结果的质量，将具有完整BIOE结构的标注结果确定为正确的标注结果，否则在构建职位信息知识图谱过程中不予采用。

可选的，在本实施例中，每个实体对中的客体包括地点、部门和职位；在基于实体关系、实体对、以及实体关系的时间区间，生成职位信息图谱之前，本实施例方法还包括：如果抽取的实体对中客体缺乏地点和部门中的任意一个，则按照职位在每个语句中的出现顺序，将在前职位对应的地点和部门作为在后职位的地点和部门。

示例性的，可以首先利用职位词典、地点词典按照完全匹配的方式，将抽取得到的每个实体对中的客体拆分为地点、部门、职位三个成分；如果按照各职位在句子中出现的顺序排列，在后的职位缺少对应的地点、部门两个元素中的任意一个，则利用在前职位的地点和部门信息进行填充，从而使得针对每个实体对，都能得到完整的客体信息，保证职位信息抽取的全面性。其中，职位词典、地点词典是预先定义的词语数据库，可以根据实际情况进行统计设置。

S206、基于实体关系、实体对、以及实体关系的时间区间，生成职位信息图谱。

在上述技术方案的基础上，可选的，在基于实体关系、实体对、以及实体关系的时间区间，生成职位信息图谱之前，本实施例方法还包括：根据预设的约束条件，对抽取得到的实体对进行过滤，以得到最终的实体对，进一步提高最终用于构建图谱的实体对的准确性，排除词语分类标注输出结果中的错误。其中，约束条件包括：针对每个实体对，实体关系对应的时间区间的数量，以及实体对中主体和客体在语句中的位置关系等，可以根据实际需求进行适应性设置，本实施例不作具体限定。

示例性一：在基于实体关系、实体对、以及实体关系的时间区间，生成职位信息图谱之前，本实施例方法还包括：针对每个实体对，确定实体关系对应的时间区间的数量；如果得到的数量大于或等于2，则将该实体对舍弃。即本实施例中可以只保留对应一个时间区间的实体关系，否则抽取的职位信息直接丢弃。

示例性二：在基于实体关系、实体对、以及实体关系的时间区间，生成职位信息图谱之前，本实施例方法还包括：如果每个语句中抽取的主体和客体之间的对应关系为一对多，则根据每个语句中主体和客体的位置关系，对实体对进行筛选，得到最终的实体对。例如，如果每个语句中一个主体对应多个客体，则保留该主体位置之后的所有客体作为有效的客体，将该主体和各有效客体进行两两组合，得到最终的实体对；如果每个语句中多个主体对应一个客体，则可以保留该客体之前的所有主体作为有效主体，将各有效主体和该客体进行两两组合，得到最终的实体对。

示例性三：在基于实体关系、实体对、以及实体关系的时间区间，生成职位信息图谱之前，本实施例方法还包括：

将包含触发词的短语中的主体和客体确定为最终的实体对。如果每个短语中的主体和客体出现上述一对多的对应关系，则可以利用上述处理方式进行实体对的过滤，以保证最终得到的实体对的准确性。

综合而言，本实施例公开的基于包含时间区间的统一和规范的结构化数据格式，构建职位信息图谱的方案至少包括以下有益技术效果：

1)泛化性好：本实施例可以实现针对自由文本的执行信息抽取，可以从广泛的新闻、公告等多种来源中抽取职位信息，不需要针对特定的具有规范性的公告来执行职位信息抽取；

2)人工成本低：由于本实施例不依赖于正则表达式，对于新的文本类型、新的表达方式，不需要人工重新定义抽取规则，可以依靠抽取模型本身的泛化性抽取出正确的职位信息；

3)覆盖率高：由于可用于抽取的文本类型更多，来源更广，能够抽取到的任职信息也随之丰富，不仅能够对重要的职位进行抽取，对于级别相对较低的职位信息，即使在官方公告中未提及，通过多源的新闻页面也可以抽取到，确保了职位信息的全面性。

图4是根据本申请实施例公开的一种职位信息图谱生成装置的结构示意图，本实施例可以适用于抽取职位信息，构建职位信息图谱的情况。本实施例装置可以采用软件和/或硬件的方式实现，并可集成在任意的具有计算能力的电子设备上，例如服务器等。

如图4所示，本实施例公开的职位信息图谱生成装置300包括触发词识别模块301、触发词位置确定模块302、数据抽取模块303和图谱生成模块304，其中：

触发词识别模块301，用于识别语料中每个语句中的触发词，其中，触发词用于表示就职或者卸任的实体关系；

触发词位置确定模块302，用于确定触发词在每个语句中的位置；

数据抽取模块303，用于根据触发词的位置，抽取每个语句中的实体对、以及实体关系的时间区间；

图谱生成模块304，用于基于实体关系、实体对、以及实体关系的时间区间，生成职位信息图谱。

可选的，触发词识别模块301包括：

分词单元，用于对语料中的每个语句进行分词，得到每个语句中的多个词语；

词语匹配单元，用于将多个词语分别在预先确定的触发词表中进行匹配；

触发词确定单元，用于将匹配成功的词语确定为触发词。

可选的，触发词识别模块301还包括：

词性标注单元，用于词语匹配单元执行将多个词语分别在预先确定的触发词表中进行匹配的操作之前，将通过对语料中的每个语句进行分词得到的各词语进行词性标注；

触发词表确定单元，用于根据知识抽取需求，以及词性标注的动词在语料中的词频信息，确定触发词表。

可选的，数据抽取模块303包括：

距离确定单元，用于根据触发词的位置，确定每个语句中的其他词语与触发词的距离；

特征提取单元，用于基于每个语句的分词序列、触发词的位置、以及每个语句中的其他词语与触发词的距离，利用预先训练的特征提取模型，对每个语句进行特征提取；

知识抽取单元，用于基于每个语句的提取特征，对每个语句中的词语进行分类标注，得到实体对、以及实体关系的时间区间。

可选的，数据抽取模块303还包括：

模型训练输入确定单元，用于将训练语料集中每个语句的分词序列、每个语句中触发词的位置、以及每个语句中的其他词语与触发词的距离，作为训练输入；

模型训练输出确定单元，用于将训练语料集中每个语句中关于实体对和实体关系的时间区间的标记结果，作为训练输出；

模型训练单元，用于基于训练输入和训练输出，训练得到多元数据抽取模型，使得利用多元数据抽取模型执行特征提取和分类标注操作。

可选的，数据抽取模块303还包括：

第一实体对确定单元，用于图谱生成模块304执行基于实体关系、实体对、以及实体关系的时间区间，生成职位信息图谱的操作之前，如果每个语句中主体和客体之间的对应关系为一对多，则根据每个语句中主体和客体的位置关系，对实体对进行筛选，得到最终的实体对。

可选的，数据抽取模块303还包括：

第二实体对确定单元，用于图谱生成模块304执行基于实体关系、实体对、以及实体关系的时间区间，生成职位信息图谱的操作之前，如果每个语句中主体和客体之间的对应关系为多对多，则根据每个语句中的标点符号对每个语句进行切分，得到多个短语；

将包含触发词的短语中的主体和客体确定为最终的实体对。

可选的，数据抽取模块303还包括：

时间替换单元，用于图谱生成模块304执行基于实体关系、实体对、以及实体关系的时间区间，生成职位信息图谱的操作之前，如果触发词用于表示卸任的实体关系，则将实体关系的时间区间中的时间起点替换时间终点，并将时间起点设置为空值。

可选的，每个实体对中的客体包括地点、部门和职位；相应的，数据抽取模块303还包括：

客体信息补充单元，用于图谱生成模块304执行基于实体关系、实体对、以及实体关系的时间区间，生成职位信息图谱的操作之前，如果抽取的实体对中客体缺乏地点和部门中的任意一个，则按照职位在每个语句中的出现顺序，将在前职位对应的地点和部门作为在后职位的地点和部门。

可选的，职位信息图谱中的知识采用五元组数据形式，分别包括主体、实体关系、客体、关系生效时间起点、关系失效时间终点。

本申请实施例所公开的职位信息图谱生成装置300可执行本申请实施例所公开的职位信息图谱生成方法，具备执行方法相应的功能模块和有益效果。本实施例中未详尽描述的内容可以参考本申请任意方法实施例中的描述。

根据本申请的实施例，本申请还提供了一种电子设备和一种可读存储介质。

如图5所示，图5是用于实现本申请实施例中职位信息图谱生成方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请实施例的实现。

如图5所示，该电子设备包括：一个或多个处理器401、存储器402，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如，耦合至接口的显示设备)上显示图形用户界面(Graphical User Interface，GUI)的图形信息的指令。在其它实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个电子设备，各个设备提供部分必要的操作，例如，作为服务器阵列、一组刀片式服务器、或者多处理器系统。图5中以一个处理器401为例。

存储器402即为本申请实施例所提供的非瞬时计算机可读存储介质。其中，所述存储器存储有可由至少一个处理器执行的指令，以使所述至少一个处理器执行本申请实施例所提供的职位信息图谱生成方法。本申请实施例的非瞬时计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本申请实施例所提供的职位信息图谱生成方法。

存储器402作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，如本申请实施例中职位信息图谱生成方法对应的程序指令/模块，例如，附图4所示的触发词识别模块301、触发词位置确定模块302、数据抽取模块303和图谱生成模块304。处理器401通过运行存储在存储器402中的非瞬时软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例中的职位信息图谱生成方法。

存储器402可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据职位信息图谱生成方法的电子设备的使用所创建的数据等。此外，存储器402可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中，存储器402可选包括相对于处理器401远程设置的存储器，这些远程存储器可以通过网络连接至用于实现本实施例中职位信息图谱生成方法的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

用于实现本实施例中职位信息图谱生成方法的电子设备还可以包括：输入装置403和输出装置404。处理器401、存储器402、输入装置403和输出装置404可以通过总线或者其他方式连接，图5中以通过总线连接为例。

输入装置403可接收输入的数字或字符信息，以及产生与用于实现本实施例中职位信息图谱生成方法的电子设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置404可以包括显示设备、辅助照明装置和触觉反馈装置等，其中，辅助照明装置例如发光二极管(Light Emitting Diode，LED)；触觉反馈装置例如，振动电机等。该显示设备可以包括但不限于，液晶显示器(Liquid Crystal Display，LCD)、LED显示器和等离子体显示器。在一些实施方式中，显示设备可以是触摸屏。

此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用集成电路(Application Specific Integrated Circuit，ASIC)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

这些计算程序，也称作程序、软件、软件应用、或者代码，包括可编程处理器的机器指令，并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置，例如，磁盘、光盘、存储器、可编程逻辑装置(Programmable Logic Device，PLD)，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置，例如，阴极射线管(Cathode Ray Tube，CRT)或者LCD监视器；以及键盘和指向装置，例如，鼠标或者轨迹球，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈，例如，视觉反馈、听觉反馈、或者触觉反馈；并且可以用任何形式，包括声输入、语音输入或者、触觉输入，来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统，例如，作为数据服务器，或者实施在包括中间件部件的计算系统，例如，应用服务器，或者实施在包括前端部件的计算系统，例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互，或者实施在包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信，例如通信网络，来将系统的部件相互连接。通信网络的示例包括：局域网(Local Area Network，LAN)、广域网(Wide Area Network，WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

1.一种职位信息图谱生成方法，其特征在于，包括：

确定所述触发词在每个语句中的位置；

基于所述实体关系、实体对、以及所述实体关系的时间区间，生成职位信息图谱；

其中，在基于所述实体关系、实体对、以及所述实体关系的时间区间，生成职位信息图谱之前，所述方法还包括：

根据预设的约束条件，对抽取得到的实体对进行过滤，得到最终的实体对；其中，所述约束条件包括：针对每个实体对，实体关系对应的时间区间的数量，以及实体对中主体和客体在语句中的位置关系。

2.根据权利要求1所述的方法，其特征在于，所述识别语料中每个语句中的触发词，包括：

将所述多个词语分别在预先确定的触发词表中进行匹配；

将匹配成功的词语确定为所述触发词。

3.根据权利要求2所述的方法，其特征在于，在将所述多个词语分别在预先确定的触发词表中进行匹配之前，所述方法还包括：

4.根据权利要求1所述的方法，其特征在于，根据所述触发词的位置，抽取每个语句中的实体对、以及所述实体关系的时间区间，包括：

5.根据权利要求4所述的方法，其特征在于，所述方法还包括：

6.根据权利要求1所述的方法，其特征在于，在基于所述实体关系、实体对、以及所述实体关系的时间区间，生成职位信息图谱之前，所述方法还包括：

7.根据权利要求1所述的方法，其特征在于，在基于所述实体关系、实体对、以及所述实体关系的时间区间，生成职位信息图谱之前，所述方法还包括：

8.根据权利要求1所述的方法，其特征在于，在基于所述实体关系、实体对、以及所述实体关系的时间区间，生成职位信息图谱之前，所述方法还包括：

9.根据权利要求1所述的方法，其特征在于，每个实体对中的客体包括地点、部门和职位；

10.根据权利要求1所述的方法，其特征在于，所述职位信息图谱中的知识采用五元组数据形式，分别包括主体、实体关系、客体、关系生效时间起点、关系失效时间终点。

11.一种职位信息图谱生成装置，其特征在于，包括：

图谱生成模块，用于基于所述实体关系、实体对、以及所述实体关系的时间区间，生成职位信息图谱；

其中，在基于所述实体关系、实体对、以及所述实体关系的时间区间，生成职位信息图谱之前，所述装置还用于：

12. 一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-10中任一项所述的职位信息图谱生成方法。

13.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使所述计算机执行权利要求1-10中任一项所述的职位信息图谱生成方法。