CN109670051A

CN109670051A - 知识图谱挖掘方法、装置、设备和存储介质

Info

Publication number: CN109670051A
Application number: CN201811534395.8A
Authority: CN
Inventors: 郭辉; 林义明; 戴祥鹰
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2018-12-14
Filing date: 2018-12-14
Publication date: 2019-04-23

Abstract

本发明实施例公开了一种知识图谱挖掘方法、装置、设备和存储介质。该方法包括：根据实体的候选表征集和/或各用户对话语料，生成各候选实体表征对；根据各用户对话语料中包括的实体信息和表征信息，确定各候选实体表征对的权重；根据各候选实体表征对的权重，确定实体的关键表征。本发明实施例避免了工作人员对实体和表征关系确定时的主观影响因素，降低了实体和表征关系确定的人工经验成本以及复杂的逻辑推理过程，提高了实体下有效表征的确定效率和准确度。

Description

知识图谱挖掘方法、装置、设备和存储介质

技术领域

本发明实施例涉及数据挖掘技术领域，尤其涉及一种知识图谱挖掘方法、装置、设备和存储介质。

背景技术

随着社会的发展，社会中的事物和现象越趋向于多元化，进而对信息的正确判断尤为重要。

现有技术中，人们通常通过经验来直观的判断；或者，采用基于专家的经验和推理规则，设计得到的基于人工智能的实体判断系统，通过用户对于表征数据的输入来得到判断结果。

然而，现有技术中无论人工还是电子判断方式，均需要完全依赖于专家的经验知识，进而导致系统设计时所需的专家成本较高，耗费人力的投入量大；且由于经验中的主观影响因素较大，推理逻辑复杂，进而难以将经验进行标准化处理集成在系统中，降低知识图谱挖掘效率和准确度。

发明内容

本发明实施例提供了一种知识图谱挖掘方法、装置、设备和存储介质，能够有效地挖掘知识图谱，提高了实体下有效表征的确定效率和准确度。

第一方面，本发明实施例提供了一种知识图谱挖掘方法，包括：

根据实体的候选表征集和/或各用户对话语料，生成各候选实体表征对；

根据各用户对话语料中包括的实体信息和表征信息，确定各候选实体表征对的权重；

根据各候选实体表征对的权重，确定实体的关键表征。

第二方面，本发明实施例提供了一种知识图谱挖掘装置，包括：

实体表征对生成模块，用于根据实体的候选表征集和/或各用户对话语料，生成各候选实体表征对；

实体表征对权重确定模块，用于根据各用户对话语料中包括的实体信息和表征信息，确定各候选实体表征对的权重；

关键表征确定模块，用于根据各候选实体表征对的权重，确定实体的关键表征。

第三方面，本发明实施例提供了一种设备，包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现本发明任意实施例所述的知识图谱挖掘方法。

第四方面，本发明实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现本发明任意实施例所述的知识图谱挖掘方法。

本发明实施例通过挖掘文本语料，确定实体与表征的关联关系，生成实体表征对；从而依据语料中包括的实体信息和表征信息，确定实体表征对的权重，为有效表征的确定提供依据。本发明实施例避免了工作人员对实体和表征关系确定时的主观影响因素，降低了实体和表征关系确定的人工经验成本以及复杂的逻辑推理过程，提高了实体下有效表征的确定效率和准确度。

附图说明

图1为本发明实施例一提供的一种知识图谱挖掘方法的流程图；

图2为本发明实施例二提供的基于候选表征图确定各候选表征权重的流程图；

图3为本发明实施例二提供的候选症状图的示例图；

图4为本发明实施例二提供的基于词语向量表示确定各候选实体表征对权重的流程图；

图5为本发明实施例二提供的基于TF-IDF确定各候选实体表征对权重的流程图；

图6为本发明实施例三提供的一种知识图谱挖掘装置的结构示意图；

图7为本发明实施例四提供的一种设备的结构示意图。

具体实施方式

下面结合附图和实施例对本发明实施例作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明实施例，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明实施例相关的部分而非全部结构。

实施例一

图1为本发明实施例一提供的一种知识图谱挖掘方法的流程图，本实施例可适用于挖掘实体与表征相关性的知识图谱的情况，该方法可由一种知识图谱挖掘装置来执行。该方法具体包括如下：

S110、根据实体的候选表征集和/或各用户对话语料，生成各候选实体表征对。

在本发明具体实施例中，实体可以是指需要进行判断的事物或虚拟的概念等，表征是指事物或虚拟的概念等表现出来的可感知且可用来识别的现象。相应的，实体由至少一个表征来体现，实体是由至少一个表征构建的主体。进而通过对表征的判断来确定实体。

示例性的，在医疗领域中，实体可以为疾病，表征可以为疾病所表现出来的症状。症状是疾病过程中机体内的一系列机能、代谢和形态结构异常变化所引起的患者主观上的异常感觉或某些客观病态改变，是医生向患者进行疾病调查的第一步，是问诊的主要内容，是诊断、鉴别诊断疾病的重要线索和主要依据。因此，疾病和病症之间具有一定的相关性，当患者患有某种疾病时，患者的机体可以出现关联的症状，而当患者存在某些症状时，则患者可能已经患有关联的疾病。

相应的，在挖掘包括实体与表征关系的知识图谱时，可以将实体下已知的表征构成实体的候选表征集，从而实体与其对应的表征构成实体表征对。还可以获取用户对话语料，通过挖掘用户对话语料中的实体词语和表征词语，构建实体表征对。还可以同时依据实体的候选表征集和用户对话语料对表征集进行修正，综合确定实体表征对。其中，实体表征对中的表征可能是众多实体中普遍存在，也可能是该实体特有的，进而挖掘包括实体与表征关系的知识图谱的关键在于确定实体与表征的相关性，将最能够体现实体的表征与该实体的相关性设置为最大，从而提高智能化诊断的准确性。

具体的，候选表征集可以是依据经验确定，也可以是通过教科书等权威资料确定。用户对话语料可以是语音语料也可以是文本语料，可以是各行业领域下工作人员或用户之间的对话，例如医生问诊时与患者的对话录音，或者是医生的问诊记录，或者是患者的病历等。进而通过语音识别或文本转换等技术，确定用户对话语料，从中挖掘的实体词语和表征词语，构建实体表征对。本实施例不对实体的候选表征集和用户对话语料的获取方式和形式进行限定，任何能够表示实体与表征信息的样本都可以应用于本实施例中。

示例性的，以疾病为实体，以症状为表征。假设疾病普通感冒的症状通常包括鼻塞、打喷嚏和流鼻涕等，相应的，症状{鼻塞，打喷嚏，流鼻涕}可以作为疾病普通感冒的候选症状集，进而可以生成{普通感冒，鼻塞}、{普通感冒，打喷嚏}和{普通感冒，流鼻涕}等候选疾病症状对。假设源自呼吸内科的至少一个医患对话语料中，医生通过对患者的问诊，确定了患者存在打喷嚏、流鼻涕以及头痛等症状，且医生给出的确诊结果为普通感冒，进而可以生成{普通感冒，打喷嚏}、{普通感冒，流鼻涕}和{普通感冒，头痛}等候选疾病症状对。相应的，若同时依据示例中疾病普通感冒的候选症状集和源自呼吸内科的至少一个医患对话语料，则可以生成{普通感冒，鼻塞}、{普通感冒，打喷嚏}、{普通感冒，流鼻涕}和{普通感冒，头痛}等候选疾病症状对。

S120、根据各用户对话语料中包括的实体信息和表征信息，确定各候选实体表征对的权重。

在本发明具体实施例中，用户对话语料中包括的实体信息和表征信息可以是指实体词语和表征词语在用户对话语料中的出现特征，例如共现关系、相似度或出现频次等。实体表征对的权重表现了实体表征对中表征与实体之间的相关性，可以理解的是，实体表征对的权重越大，则实体表征对中表征与实体之间的相关性越高，该表征对于该实体的影响越大，且越能够反映该实体的存在，相应的，赋予该实体表征对的权重越大。

具体的，本实施例可以针对具体的一个实体，以表征越重要则其出现越频繁为原则，以实体所在领域中标准知识图谱中实体下标注的表征为基准，例如实体相关的教科书等，生成实体表征图谱矩阵。并将大量的用户对话语料作为样本语料，生成实体表征矩阵。首先将实体表征图谱矩阵中的各个表征的初始权重设置为0，通过遍历用户对话语料下实体表征矩阵，统计标准医学知识图谱中的实体表征对在用户对话语料中的出现次数，即如果实体表征矩阵中存在实体表征图谱矩阵中的实体表征对，则将实体表征图谱矩阵中的表征的权重加1，以此类推。并通过该统计权重与样本语料中全部表征的出现次数之比进行权重的归一化处理，作为反映各实体与病症相关性的权重。

此外，可以借鉴于网页排名的思路，利用PageRank算法或TextRank算法等排序算法，通过将各候选实体表征对中同一实体包括的各候选表征作为节点，构成节点集，并根据各候选表征在用户对话语料中的共现关系，以具有共现关系的两个表征节点之间构建无向边，从而形成候选表征图。基于候选表征图，利用排序算法的计算公式，迭代计算各候选表征的权重直至收敛，确定各候选表征的权重。

本实施例还可以对用户对话语料进行分词处理，基于神经网络模型确定用户对话语料中各实体词语的向量表示，以及对话语料中各表征词语的向量表示。从而在量化表示的实体词语和表征词语的向量表示的基础上，通过计算各实体词语的向量表示与各表征词语的向量表示的相似度，来确定各候选表征对的权重。

进一步的，本实施例还可以借鉴文档摘要提取的思路，利用TF-IDF(TermFrequency–Inverse Document Frequency，词频-逆文本频率指数)统计算法，通过对用户对话语料中实体表征对的词频和逆文本频率指数的统计，计算各候选实体表征对的权重。

S130、根据各候选实体表征对的权重，确定实体的关键表征。

在本发明具体实施例中，实体的关键表征是指与实体的相关性越大，最能够体现该实体的表征。进而可以依据各候选实体表征对的权重对各表征进行排序，确定权重值最大的数个表征作为该实体的关键表征。

本实施例通过对实体和病症关系的挖掘，无需借助医学专家的经验或推理规则，在用户对话语料的基础上，挖掘出各实体与表征的相关性，即各实体表征对的权重。从而在给定实体或表征的情况下，即可依据挖掘出的实体表征对的权重，确定最相关的表征或实体，避免了人工经验的判断以及复杂的推理过程，加快了实体诊断的效率和准确度，同时使得实体表征关系的判断标准化，为计算机等设备对实体的智能判断提供了依据。

本实施例的技术方案，通过挖掘文本语料，确定实体与表征的关联关系，生成实体表征对；从而依据语料中包括的实体信息和表征信息，确定实体表征对的权重，为有效表征的确定提供依据。本发明实施例避免了工作人员对实体和表征关系确定时的主观影响因素，降低了实体和表征关系确定的人工经验成本以及复杂的逻辑推理过程，提高了实体下有效表征的确定效率和准确度。

实施例二

本实施例在上述实施例一的基础上，提供了知识图谱挖掘方法的一个优选实施方式，能够基于多种方式确定实体表征对的权重。具体的，所述根据各用户对话语料中包括的实体信息和表征信息，确定各候选实体表征对的权重，还可以包括：将各候选实体表征对中同一实体的各候选表征作为节点集，根据各候选表征的共现关系确定节点边，构建候选表征图，基于所述候选表征图，采用排序算法确定各候选表征的权重；或者，将各用户对话语料作为训练语料，确定各用户对话语料中包括的词语的向量表示，根据各用户对话语料中包括的实体词语的向量表示，与各候选表征词语的向量表示，确定各候选实体表征对的权重；或者，确定各候选实体表征对在各用户对话语料中的词频，确定各候选实体表征对在各用户对话语料中的逆文本频率指数，根据各候选实体表征对的词频和逆文本频率指数，确定各候选实体表征对的权重。

图2为基于候选表征图确定各候选表征权重的流程图，如图2所示，该权重确定方式具体包括如下：

S210、将各候选实体表征对中同一实体包括的各候选表征作为节点，根据各候选表征的共现关系确定节点边，构建候选表征图。

在本发明具体实施例中，在指定长度的窗口中共同出现的词语即具有共现关系，其中窗口可以为指定长度的串口，也可以为自适应调整长度的窗口。候选表征图表现了同一实体下各表征之间的共现关系。相应的，在构建候选表征图时，可以按照各表征在用户对话语料中的出现顺序进行排列，构成节点集合，通过指定长度或长度可自适应调整的窗口遍历节点集合，将窗口中共同出现的表征视为具有共现关系。进而以各表征词语作为独立的节点，根据表征的共现关系，将具有共现关系的两个节点之间构造无向边，从而形成候选表征图。

示例性的，以医患对话语料为用户对话语料，以疾病为实体，以症状为表征。假设依据所有医患对话语料中，确定疾病普通感冒包括的症状构成的节点集为{鼻塞，打喷嚏，流鼻涕，头痛，咽喉肿痛，体温高于37度}，假设窗口长度为3，则使用窗口遍历节点集中的所有词语，确定候选症状图如图3所示。其中，症状鼻塞分别与症状{鼻塞，打喷嚏}具有共现关系，症状打喷嚏分别与症状{鼻塞，流鼻涕，头痛}具有共现关系，症状流鼻涕分别与症状{鼻塞，打喷嚏，头痛，咽喉肿痛}具有共现关系，症状头痛分别与症状{打喷嚏，流鼻涕，咽喉肿痛，体温高于37度}具有共现关系，症状咽喉肿痛分别与症状{流鼻涕，头痛，体温高于37度}具有共现关系，症状体温高于37度分别与症状{头痛，咽喉肿痛}具有共现关系。且每两个具有共现关系的症状构成症状对。以症状为节点，通过将具有共现关系的两个症状节点之间构建连接节点的边，从而构成候选症状图。

S220、基于候选表征图，采用排序算法确定各候选表征的权重。

在本发明具体实施例中，排序算法是指能够对待排序对象进行权重计算，并依据权重进行排序的算法。本实施例中，可以采用PageRank算法，或者采用基于PageRank算法进一步改进的TextRank算法，从而按照算法中的计算公式计算各候选表征的权重。

示例性的，以PageRank算法为例，构建候选实体表征图G＝(V，E)，其中，V表示一个实体下所有用户对话语料中包括的表征构成的节点集合，E表示节点之间边的集合，均是无向边。则利用如下公式计算各候选实体表征对的权重：其中，S(V_i)表示一个实体中单个表征V_i的重要性，d表示阻尼系数，一般可以设置为0.85，In(V_i)表示与该单个表征V_i存在的共现关系的表征的集合，Out(V_j)表示同一实体包括的表征V_j的总集合，|Out(V_j)|表示集合中元素的个数。PageRank算法需要使用上面的公式多次迭代直至收敛，才能得到各候选表征的权重计算结果。

图4为基于词语向量表示确定各候选实体表征对权重的流程图，如图4所示，该权重确定方式具体包括如下：

S410、将各用户对话语料作为训练语料，确定各用户对话语料中包括的词语的向量表示。

在本发明具体实施例中，可以利用词向量(Word embedding)来分析表征的重要性，采用词向量生成模型，将用户对话语料作为训练语料输入至词向量生成模型中，以此生成用户对话语料中包括的词语的向量表示。

可选的，基于实体词集和表征词集，对所述各用户对话语料进行分词；基于神经网络模型，将各用户对话语料中包括的各词语作为训练语料，确定各词语的向量表示。

本实施例中，实体词集可以是囊括几乎所有实体的词语集合，相应的，将所有实体可能产生的表征构成表征词集。其中，还可以对实体词集和表征词集中的词语进行扩展，以确定同一实体或表征的不同表示方式，扩大实体或表征的识别范围。并以实体词集和表征词集为标准，对用户对话语料进行分词处理，确定用户对话语料中保留实体和表征的词语。从而将用户对话语料中分词后的实体词语和表征词语作为训练语料，输入至词向量生成模型中，通过模型的输出确定各实体词语和各表征词语的向量表示。

本实施例中，词向量生成模型可以采用神经网络模型、单词共生矩阵的降维以及概率模型等。示例性的，常用的词向量生成模型可以为基于神经网络模型的Word2vec模型，将词映射到对应的向量表示。

S420、根据各用户对话语料中包括的各实体词语的向量表示，以及各候选表征词语的向量表示，确定各候选实体表征对的权重。

在本发明具体实施例中，通过将用户对话语料中包括的实体词语和表征词语向量化，则依据各个词语的向量表示即可定量地去度量并挖掘各词语之间的关系，从而确定各候选实体表征对的权重。

示例性的，可以通过计算各实体词语的向量表示与各表征词语的向量表示的相似度，来确定各候选表征对的权重。可以理解的是，相似度越高则表征与实体的相关性越大，对应候选实体表征的权重越大。

图5为基于TF-IDF确定各候选实体表征对权重的流程图，如图5所示，该权重确定方式具体包括如下：

S510、确定各候选实体表征对在各用户对话语料中的词频。

在本发明具体实施例中，在候选实体表征对的基础上，统计各个候选表征对在各用户对话语料中的出现次数，同时统计各用户对话语料中所有表征的出现次数，并依据各个候选表征对在各用户对话语料中的出现次数与用户对话语料中所有表征的出现次数，对候选表征出现次数进行归一化，即确定各候选实体表征对在各用户对话语料中的词频(Term Frequency，TF)。本实施例中，可以基于词语扩展后的候选实体表征对进行词频的统计，以此最大范围地统计代表同一实体或同一表征的词语在各用户对话语料中的出现次数。

S520、确定各候选实体表征对在各用户对话语料中的逆文本频率指数。

在本发明具体实施例中，依据各个候选表征对在各用户对话语料中的出现次数与用户对话语料中所有表征的出现次数，按照如下公式计算各候选实体表征的逆文本频率指数(Inverse Document Frequency，IDF)：IDF＝ln(用户对话语料中所有表征的出现次数/用户对话语料中单个候选表征的出现次数)，以此降低对于各实体普遍存在的表征的重要性。

S530、根据各候选实体表征对的词频和逆文本频率指数，确定各候选实体表征对的权重。

在本发明具体实施例中，通过将上述确定的实体表征对的TF以及该表征的IDF相乘，得到各实体表征对的TF×IDF。并根据所有用户对话语料中各个实体表征对的TF×IDF，对各个实体表征对的TF×IDF进行归一化处理，从而得到各个实体表征对的权重。例如，将同一实体下所有表征的TF×IDF求和，通过将各实体表征对的TF×IDF除以该实体下所有表征对的TF×IDF之和，以此得到各个实体表征对的权重。其中，对于出现频次较多但与实体相关性较低的表征，即各实体普遍存在的表征，IDF可以降低该普遍存在的表征的重要性，以此突显出与实体相关性较高的表征，提高相关性较高的表征的最终权重。

本实施例的技术方案，根据各用户对话语料中包括的实体信息和表征信息，来确定各候选实体表征对的权重。其中，用户对话语料中包括的实体信息和表征信息可以为实体表征对的出现次数、各候选表征的共现关系、各实体词语和各表征词语的向量表示之间的相似度以及出现频率统计信息等，实现了从大量的样本语料中挖掘实体与表征的相关性。本发明实施例避免了工作人员对实体和表征关系确定时的主观影响因素，降低了实体和表征关系确定的人工经验成本以及复杂的逻辑推理过程，提高了实体下有效表征的确定效率和准确度。从而在给定实体的情况下，能够有效确定对应表征的相关性，提高实体诊断效率和准确性。

实施例三

图6为本发明实施例三提供的一种知识图谱挖掘装置的结构示意图，本实施例可适用于挖掘实体与表征相关性的知识图谱的情况，该装置可实现本发明任意实施例所述的知识图谱挖掘方法。该装置具体包括：

实体表征对生成模块610，用于根据实体的候选表征集和/或各用户对话语料，生成各候选实体表征对；

实体表征对权重确定模块620，用于根据各用户对话语料中包括的实体信息和表征信息，确定各候选实体表征对的权重；

关键表征确定模块630，用于根据各候选实体表征对的权重，确定实体的关键表征。

可选的，所述实体表征对权重确定模块620，包括：

候选表征图构建单元，用于将各候选实体表征对中同一实体包括的各候选表征作为节点，根据各候选表征的共现关系确定节点边，构建候选表征图；

第一权重确定单元，用于基于所述候选表征图，采用排序算法确定各候选表征的权重。

可选的，所述实体表征对权重确定模块620，包括：

向量表示确定单元，用于将各用户对话语料作为训练语料，确定各用户对话语料中包括的词语的向量表示；

第二权重确定单元，用于根据各用户对话语料中包括的各实体词语的向量表示，以及各候选表征词语的向量表示，确定各候选实体表征对的权重。

可选的，所述向量表示确定单元，包括：

语料分词子单元，用于基于实体词集和表征词集，对所述各用户对话语料进行分词；

语料训练子单元，用于基于神经网络模型，将所述各用户对话语料中包括的各词语作为训练语料，确定各词语的向量表示。

可选的，所述实体表征对权重确定模块620，包括：

词频确定单元，用于确定各候选实体表征对在各用户对话语料中的词频；

逆文本频率指数确定单元，用于确定各候选实体表征对在各用户对话语料中的逆文本频率指数；

第三权重确定单元，用于根据各候选实体表征对的词频和逆文本频率指数，确定各候选实体表征对的权重。

本实施例的技术方案，通过各个功能模块之间的相互配合，实现了实体的候选表征集的获取、用户对话语料的获取、候选实体表征对的生成、候选表征图的构建、语料的分词、语料中实体词语的向量表示的确定、候选表征词语的向量表示的确定、语料中各候选实体表征对的词频的确定、语料中各候选实体表征对的逆文本频率指数的确定、各候选实体表征对的权重的确定以及实体下关键表征的确定等功能。本发明实施例避免了工作人员对实体和表征关系确定时的主观影响因素，降低了实体和表征关系确定的人工经验成本以及复杂的逻辑推理过程，提高了实体下有效表征的确定效率和准确度。从而在给定实体的情况下，能够有效确定对应表征的相关性，提高实体诊断效率和准确性。

实施例四

图7为本发明实施例四提供的一种设备的结构示意图，图7示出了适于用来实现本发明实施例实施方式的示例性设备的框图。图7显示的设备仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

图7显示的设备12仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图7所示，设备12以通用计算设备的形式表现。设备12的组件可以包括但不限于：一个或者多个处理器16，系统存储器28，连接不同系统组件(包括系统存储器28和处理器16)的总线18。

总线18表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(ISA)总线，微通道体系结构(MAC)总线，增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。

设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被设备12访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

系统存储器28可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(RAM)30和/或高速缓存存储器32。设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统34可以用于读写不可移动的、非易失性磁介质(图7未显示，通常称为“硬盘驱动器”)。尽管图7中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线18相连。系统存储器28可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本发明实施例各实施例的功能。

具有一组(至少一个)程序模块42的程序/实用工具40，可以存储在例如系统存储器28中，这样的程序模块42包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明实施例所描述的实施例中的功能和/或方法。

设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信，还可与一个或者多个使得用户能与该设备12交互的设备通信，和/或与使得该设备12能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且，设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器20通过总线18与设备12的其它模块通信。应当明白，尽管图中未示出，可以结合设备12使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

处理器16通过运行存储在系统存储器28中的程序，从而执行各种功能应用以及数据处理，例如实现本发明实施例所提供的知识图谱挖掘方法。

实施例五

本发明实施例五还提供一种计算机可读存储介质，其上存储有计算机程序(或称为计算机可执行指令)，该程序被处理器执行时用于执行一种知识图谱挖掘方法，该方法包括：

根据各候选实体表征对的权重，确定实体的关键表征。

本发明实施例的计算机存储介质，可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明实施例操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如”C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或设备上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明实施例进行了较为详细的说明，但是本发明实施例不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种知识图谱挖掘方法，其特征在于，包括：

根据各候选实体表征对的权重，确定实体的关键表征。

2.根据权利要求1所述的方法，其特征在于，所述根据各用户对话语料中包括的实体信息和表征信息，确定各候选实体表征对的权重，包括：

将各候选实体表征对中同一实体包括的各候选表征作为节点，根据各候选表征的共现关系确定节点边，构建候选表征图；

基于所述候选表征图，采用排序算法确定各候选表征的权重。

3.根据权利要求1所述的方法，其特征在于，所述根据各用户对话语料中包括的实体信息和表征信息，确定各候选实体表征对的权重，包括：

将各用户对话语料作为训练语料，确定各用户对话语料中包括的词语的向量表示；

根据各用户对话语料中包括的各实体词语的向量表示，以及各候选表征词语的向量表示，确定各候选实体表征对的权重。

4.根据权利要求3所述的方法，其特征在于，所述将各用户对话语料作为训练语料，确定各用户对话语料中包括的词语的向量表示，包括：

基于实体词集和表征词集，对所述各用户对话语料进行分词；

基于神经网络模型，将所述各用户对话语料中包括的各词语作为训练语料，确定各词语的向量表示。

5.根据权利要求1所述的方法，其特征在于，所述根据各用户对话语料中包括的实体信息和表征信息，确定各候选实体表征对的权重，包括：

确定各候选实体表征对在各用户对话语料中的词频；

确定各候选实体表征对在各用户对话语料中的逆文本频率指数；

根据各候选实体表征对的词频和逆文本频率指数，确定各候选实体表征对的权重。

6.一种知识图谱挖掘装置，其特征在于，包括：

7.根据权利要求6所述的装置，其特征在于，所述实体表征对权重确定模块，包括：

8.根据权利要求6所述的装置，其特征在于，所述实体表征对权重确定模块，包括：

9.根据权利要求8所述的装置，其特征在于，所述向量表示确定单元，包括：

10.根据权利要求6所述的装置，其特征在于，所述实体表征对权重确定模块，包括：

11.一种设备，其特征在于，包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-5中任一项所述的知识图谱挖掘方法。

12.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-5中任一项所述的知识图谱挖掘方法。