CN109670051A - 知识图谱挖掘方法、装置、设备和存储介质 - Google Patents

知识图谱挖掘方法、装置、设备和存储介质 Download PDF

Info

Publication number
CN109670051A
CN109670051A CN201811534395.8A CN201811534395A CN109670051A CN 109670051 A CN109670051 A CN 109670051A CN 201811534395 A CN201811534395 A CN 201811534395A CN 109670051 A CN109670051 A CN 109670051A
Authority
CN
China
Prior art keywords
characterization
entity
candidate
user session
corpus
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811534395.8A
Other languages
English (en)
Inventor
郭辉
林义明
戴祥鹰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201811534395.8A priority Critical patent/CN109670051A/zh
Publication of CN109670051A publication Critical patent/CN109670051A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例公开了一种知识图谱挖掘方法、装置、设备和存储介质。该方法包括:根据实体的候选表征集和/或各用户对话语料,生成各候选实体表征对;根据各用户对话语料中包括的实体信息和表征信息,确定各候选实体表征对的权重;根据各候选实体表征对的权重,确定实体的关键表征。本发明实施例避免了工作人员对实体和表征关系确定时的主观影响因素,降低了实体和表征关系确定的人工经验成本以及复杂的逻辑推理过程,提高了实体下有效表征的确定效率和准确度。

Description

知识图谱挖掘方法、装置、设备和存储介质
技术领域
本发明实施例涉及数据挖掘技术领域,尤其涉及一种知识图谱挖掘方法、装置、设备和存储介质。
背景技术
随着社会的发展,社会中的事物和现象越趋向于多元化,进而对信息的正确判断尤为重要。
现有技术中,人们通常通过经验来直观的判断;或者,采用基于专家的经验和推理规则,设计得到的基于人工智能的实体判断系统,通过用户对于表征数据的输入来得到判断结果。
然而,现有技术中无论人工还是电子判断方式,均需要完全依赖于专家的经验知识,进而导致系统设计时所需的专家成本较高,耗费人力的投入量大;且由于经验中的主观影响因素较大,推理逻辑复杂,进而难以将经验进行标准化处理集成在系统中,降低知识图谱挖掘效率和准确度。
发明内容
本发明实施例提供了一种知识图谱挖掘方法、装置、设备和存储介质,能够有效地挖掘知识图谱,提高了实体下有效表征的确定效率和准确度。
第一方面,本发明实施例提供了一种知识图谱挖掘方法,包括:
根据实体的候选表征集和/或各用户对话语料,生成各候选实体表征对;
根据各用户对话语料中包括的实体信息和表征信息,确定各候选实体表征对的权重;
根据各候选实体表征对的权重,确定实体的关键表征。
第二方面,本发明实施例提供了一种知识图谱挖掘装置,包括:
实体表征对生成模块,用于根据实体的候选表征集和/或各用户对话语料,生成各候选实体表征对;
实体表征对权重确定模块,用于根据各用户对话语料中包括的实体信息和表征信息,确定各候选实体表征对的权重;
关键表征确定模块,用于根据各候选实体表征对的权重,确定实体的关键表征。
第三方面,本发明实施例提供了一种设备,包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本发明任意实施例所述的知识图谱挖掘方法。
第四方面,本发明实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本发明任意实施例所述的知识图谱挖掘方法。
本发明实施例通过挖掘文本语料,确定实体与表征的关联关系,生成实体表征对;从而依据语料中包括的实体信息和表征信息,确定实体表征对的权重,为有效表征的确定提供依据。本发明实施例避免了工作人员对实体和表征关系确定时的主观影响因素,降低了实体和表征关系确定的人工经验成本以及复杂的逻辑推理过程,提高了实体下有效表征的确定效率和准确度。
附图说明
图1为本发明实施例一提供的一种知识图谱挖掘方法的流程图;
图2为本发明实施例二提供的基于候选表征图确定各候选表征权重的流程图;
图3为本发明实施例二提供的候选症状图的示例图;
图4为本发明实施例二提供的基于词语向量表示确定各候选实体表征对权重的流程图;
图5为本发明实施例二提供的基于TF-IDF确定各候选实体表征对权重的流程图;
图6为本发明实施例三提供的一种知识图谱挖掘装置的结构示意图;
图7为本发明实施例四提供的一种设备的结构示意图。
具体实施方式
下面结合附图和实施例对本发明实施例作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明实施例,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明实施例相关的部分而非全部结构。
实施例一
图1为本发明实施例一提供的一种知识图谱挖掘方法的流程图,本实施例可适用于挖掘实体与表征相关性的知识图谱的情况,该方法可由一种知识图谱挖掘装置来执行。该方法具体包括如下:
S110、根据实体的候选表征集和/或各用户对话语料,生成各候选实体表征对。
在本发明具体实施例中,实体可以是指需要进行判断的事物或虚拟的概念等,表征是指事物或虚拟的概念等表现出来的可感知且可用来识别的现象。相应的,实体由至少一个表征来体现,实体是由至少一个表征构建的主体。进而通过对表征的判断来确定实体。
示例性的,在医疗领域中,实体可以为疾病,表征可以为疾病所表现出来的症状。症状是疾病过程中机体内的一系列机能、代谢和形态结构异常变化所引起的患者主观上的异常感觉或某些客观病态改变,是医生向患者进行疾病调查的第一步,是问诊的主要内容,是诊断、鉴别诊断疾病的重要线索和主要依据。因此,疾病和病症之间具有一定的相关性,当患者患有某种疾病时,患者的机体可以出现关联的症状,而当患者存在某些症状时,则患者可能已经患有关联的疾病。
相应的,在挖掘包括实体与表征关系的知识图谱时,可以将实体下已知的表征构成实体的候选表征集,从而实体与其对应的表征构成实体表征对。还可以获取用户对话语料,通过挖掘用户对话语料中的实体词语和表征词语,构建实体表征对。还可以同时依据实体的候选表征集和用户对话语料对表征集进行修正,综合确定实体表征对。其中,实体表征对中的表征可能是众多实体中普遍存在,也可能是该实体特有的,进而挖掘包括实体与表征关系的知识图谱的关键在于确定实体与表征的相关性,将最能够体现实体的表征与该实体的相关性设置为最大,从而提高智能化诊断的准确性。
具体的,候选表征集可以是依据经验确定,也可以是通过教科书等权威资料确定。用户对话语料可以是语音语料也可以是文本语料,可以是各行业领域下工作人员或用户之间的对话,例如医生问诊时与患者的对话录音,或者是医生的问诊记录,或者是患者的病历等。进而通过语音识别或文本转换等技术,确定用户对话语料,从中挖掘的实体词语和表征词语,构建实体表征对。本实施例不对实体的候选表征集和用户对话语料的获取方式和形式进行限定,任何能够表示实体与表征信息的样本都可以应用于本实施例中。
示例性的,以疾病为实体,以症状为表征。假设疾病普通感冒的症状通常包括鼻塞、打喷嚏和流鼻涕等,相应的,症状{鼻塞,打喷嚏,流鼻涕}可以作为疾病普通感冒的候选症状集,进而可以生成{普通感冒,鼻塞}、{普通感冒,打喷嚏}和{普通感冒,流鼻涕}等候选疾病症状对。假设源自呼吸内科的至少一个医患对话语料中,医生通过对患者的问诊,确定了患者存在打喷嚏、流鼻涕以及头痛等症状,且医生给出的确诊结果为普通感冒,进而可以生成{普通感冒,打喷嚏}、{普通感冒,流鼻涕}和{普通感冒,头痛}等候选疾病症状对。相应的,若同时依据示例中疾病普通感冒的候选症状集和源自呼吸内科的至少一个医患对话语料,则可以生成{普通感冒,鼻塞}、{普通感冒,打喷嚏}、{普通感冒,流鼻涕}和{普通感冒,头痛}等候选疾病症状对。
S120、根据各用户对话语料中包括的实体信息和表征信息,确定各候选实体表征对的权重。
在本发明具体实施例中,用户对话语料中包括的实体信息和表征信息可以是指实体词语和表征词语在用户对话语料中的出现特征,例如共现关系、相似度或出现频次等。实体表征对的权重表现了实体表征对中表征与实体之间的相关性,可以理解的是,实体表征对的权重越大,则实体表征对中表征与实体之间的相关性越高,该表征对于该实体的影响越大,且越能够反映该实体的存在,相应的,赋予该实体表征对的权重越大。
具体的,本实施例可以针对具体的一个实体,以表征越重要则其出现越频繁为原则,以实体所在领域中标准知识图谱中实体下标注的表征为基准,例如实体相关的教科书等,生成实体表征图谱矩阵。并将大量的用户对话语料作为样本语料,生成实体表征矩阵。首先将实体表征图谱矩阵中的各个表征的初始权重设置为0,通过遍历用户对话语料下实体表征矩阵,统计标准医学知识图谱中的实体表征对在用户对话语料中的出现次数,即如果实体表征矩阵中存在实体表征图谱矩阵中的实体表征对,则将实体表征图谱矩阵中的表征的权重加1,以此类推。并通过该统计权重与样本语料中全部表征的出现次数之比进行权重的归一化处理,作为反映各实体与病症相关性的权重。
此外,可以借鉴于网页排名的思路,利用PageRank算法或TextRank算法等排序算法,通过将各候选实体表征对中同一实体包括的各候选表征作为节点,构成节点集,并根据各候选表征在用户对话语料中的共现关系,以具有共现关系的两个表征节点之间构建无向边,从而形成候选表征图。基于候选表征图,利用排序算法的计算公式,迭代计算各候选表征的权重直至收敛,确定各候选表征的权重。
本实施例还可以对用户对话语料进行分词处理,基于神经网络模型确定用户对话语料中各实体词语的向量表示,以及对话语料中各表征词语的向量表示。从而在量化表示的实体词语和表征词语的向量表示的基础上,通过计算各实体词语的向量表示与各表征词语的向量表示的相似度,来确定各候选表征对的权重。
进一步的,本实施例还可以借鉴文档摘要提取的思路,利用TF-IDF(TermFrequency–Inverse Document Frequency,词频-逆文本频率指数)统计算法,通过对用户对话语料中实体表征对的词频和逆文本频率指数的统计,计算各候选实体表征对的权重。
S130、根据各候选实体表征对的权重,确定实体的关键表征。
在本发明具体实施例中,实体的关键表征是指与实体的相关性越大,最能够体现该实体的表征。进而可以依据各候选实体表征对的权重对各表征进行排序,确定权重值最大的数个表征作为该实体的关键表征。
本实施例通过对实体和病症关系的挖掘,无需借助医学专家的经验或推理规则,在用户对话语料的基础上,挖掘出各实体与表征的相关性,即各实体表征对的权重。从而在给定实体或表征的情况下,即可依据挖掘出的实体表征对的权重,确定最相关的表征或实体,避免了人工经验的判断以及复杂的推理过程,加快了实体诊断的效率和准确度,同时使得实体表征关系的判断标准化,为计算机等设备对实体的智能判断提供了依据。
本实施例的技术方案,通过挖掘文本语料,确定实体与表征的关联关系,生成实体表征对;从而依据语料中包括的实体信息和表征信息,确定实体表征对的权重,为有效表征的确定提供依据。本发明实施例避免了工作人员对实体和表征关系确定时的主观影响因素,降低了实体和表征关系确定的人工经验成本以及复杂的逻辑推理过程,提高了实体下有效表征的确定效率和准确度。
实施例二
本实施例在上述实施例一的基础上,提供了知识图谱挖掘方法的一个优选实施方式,能够基于多种方式确定实体表征对的权重。具体的,所述根据各用户对话语料中包括的实体信息和表征信息,确定各候选实体表征对的权重,还可以包括:将各候选实体表征对中同一实体的各候选表征作为节点集,根据各候选表征的共现关系确定节点边,构建候选表征图,基于所述候选表征图,采用排序算法确定各候选表征的权重;或者,将各用户对话语料作为训练语料,确定各用户对话语料中包括的词语的向量表示,根据各用户对话语料中包括的实体词语的向量表示,与各候选表征词语的向量表示,确定各候选实体表征对的权重;或者,确定各候选实体表征对在各用户对话语料中的词频,确定各候选实体表征对在各用户对话语料中的逆文本频率指数,根据各候选实体表征对的词频和逆文本频率指数,确定各候选实体表征对的权重。
图2为基于候选表征图确定各候选表征权重的流程图,如图2所示,该权重确定方式具体包括如下:
S210、将各候选实体表征对中同一实体包括的各候选表征作为节点,根据各候选表征的共现关系确定节点边,构建候选表征图。
在本发明具体实施例中,在指定长度的窗口中共同出现的词语即具有共现关系,其中窗口可以为指定长度的串口,也可以为自适应调整长度的窗口。候选表征图表现了同一实体下各表征之间的共现关系。相应的,在构建候选表征图时,可以按照各表征在用户对话语料中的出现顺序进行排列,构成节点集合,通过指定长度或长度可自适应调整的窗口遍历节点集合,将窗口中共同出现的表征视为具有共现关系。进而以各表征词语作为独立的节点,根据表征的共现关系,将具有共现关系的两个节点之间构造无向边,从而形成候选表征图。
示例性的,以医患对话语料为用户对话语料,以疾病为实体,以症状为表征。假设依据所有医患对话语料中,确定疾病普通感冒包括的症状构成的节点集为{鼻塞,打喷嚏,流鼻涕,头痛,咽喉肿痛,体温高于37度},假设窗口长度为3,则使用窗口遍历节点集中的所有词语,确定候选症状图如图3所示。其中,症状鼻塞分别与症状{鼻塞,打喷嚏}具有共现关系,症状打喷嚏分别与症状{鼻塞,流鼻涕,头痛}具有共现关系,症状流鼻涕分别与症状{鼻塞,打喷嚏,头痛,咽喉肿痛}具有共现关系,症状头痛分别与症状{打喷嚏,流鼻涕,咽喉肿痛,体温高于37度}具有共现关系,症状咽喉肿痛分别与症状{流鼻涕,头痛,体温高于37度}具有共现关系,症状体温高于37度分别与症状{头痛,咽喉肿痛}具有共现关系。且每两个具有共现关系的症状构成症状对。以症状为节点,通过将具有共现关系的两个症状节点之间构建连接节点的边,从而构成候选症状图。
S220、基于候选表征图,采用排序算法确定各候选表征的权重。
在本发明具体实施例中,排序算法是指能够对待排序对象进行权重计算,并依据权重进行排序的算法。本实施例中,可以采用PageRank算法,或者采用基于PageRank算法进一步改进的TextRank算法,从而按照算法中的计算公式计算各候选表征的权重。
示例性的,以PageRank算法为例,构建候选实体表征图G=(V,E),其中,V表示一个实体下所有用户对话语料中包括的表征构成的节点集合,E表示节点之间边的集合,均是无向边。则利用如下公式计算各候选实体表征对的权重:其中,S(Vi)表示一个实体中单个表征Vi的重要性,d表示阻尼系数,一般可以设置为0.85,In(Vi)表示与该单个表征Vi存在的共现关系的表征的集合,Out(Vj)表示同一实体包括的表征Vj的总集合,|Out(Vj)|表示集合中元素的个数。PageRank算法需要使用上面的公式多次迭代直至收敛,才能得到各候选表征的权重计算结果。
图4为基于词语向量表示确定各候选实体表征对权重的流程图,如图4所示,该权重确定方式具体包括如下:
S410、将各用户对话语料作为训练语料,确定各用户对话语料中包括的词语的向量表示。
在本发明具体实施例中,可以利用词向量(Word embedding)来分析表征的重要性,采用词向量生成模型,将用户对话语料作为训练语料输入至词向量生成模型中,以此生成用户对话语料中包括的词语的向量表示。
可选的,基于实体词集和表征词集,对所述各用户对话语料进行分词;基于神经网络模型,将各用户对话语料中包括的各词语作为训练语料,确定各词语的向量表示。
本实施例中,实体词集可以是囊括几乎所有实体的词语集合,相应的,将所有实体可能产生的表征构成表征词集。其中,还可以对实体词集和表征词集中的词语进行扩展,以确定同一实体或表征的不同表示方式,扩大实体或表征的识别范围。并以实体词集和表征词集为标准,对用户对话语料进行分词处理,确定用户对话语料中保留实体和表征的词语。从而将用户对话语料中分词后的实体词语和表征词语作为训练语料,输入至词向量生成模型中,通过模型的输出确定各实体词语和各表征词语的向量表示。
本实施例中,词向量生成模型可以采用神经网络模型、单词共生矩阵的降维以及概率模型等。示例性的,常用的词向量生成模型可以为基于神经网络模型的Word2vec模型,将词映射到对应的向量表示。
S420、根据各用户对话语料中包括的各实体词语的向量表示,以及各候选表征词语的向量表示,确定各候选实体表征对的权重。
在本发明具体实施例中,通过将用户对话语料中包括的实体词语和表征词语向量化,则依据各个词语的向量表示即可定量地去度量并挖掘各词语之间的关系,从而确定各候选实体表征对的权重。
示例性的,可以通过计算各实体词语的向量表示与各表征词语的向量表示的相似度,来确定各候选表征对的权重。可以理解的是,相似度越高则表征与实体的相关性越大,对应候选实体表征的权重越大。
图5为基于TF-IDF确定各候选实体表征对权重的流程图,如图5所示,该权重确定方式具体包括如下:
S510、确定各候选实体表征对在各用户对话语料中的词频。
在本发明具体实施例中,在候选实体表征对的基础上,统计各个候选表征对在各用户对话语料中的出现次数,同时统计各用户对话语料中所有表征的出现次数,并依据各个候选表征对在各用户对话语料中的出现次数与用户对话语料中所有表征的出现次数,对候选表征出现次数进行归一化,即确定各候选实体表征对在各用户对话语料中的词频(Term Frequency,TF)。本实施例中,可以基于词语扩展后的候选实体表征对进行词频的统计,以此最大范围地统计代表同一实体或同一表征的词语在各用户对话语料中的出现次数。
S520、确定各候选实体表征对在各用户对话语料中的逆文本频率指数。
在本发明具体实施例中,依据各个候选表征对在各用户对话语料中的出现次数与用户对话语料中所有表征的出现次数,按照如下公式计算各候选实体表征的逆文本频率指数(Inverse Document Frequency,IDF):IDF=ln(用户对话语料中所有表征的出现次数/用户对话语料中单个候选表征的出现次数),以此降低对于各实体普遍存在的表征的重要性。
S530、根据各候选实体表征对的词频和逆文本频率指数,确定各候选实体表征对的权重。
在本发明具体实施例中,通过将上述确定的实体表征对的TF以及该表征的IDF相乘,得到各实体表征对的TF×IDF。并根据所有用户对话语料中各个实体表征对的TF×IDF,对各个实体表征对的TF×IDF进行归一化处理,从而得到各个实体表征对的权重。例如,将同一实体下所有表征的TF×IDF求和,通过将各实体表征对的TF×IDF除以该实体下所有表征对的TF×IDF之和,以此得到各个实体表征对的权重。其中,对于出现频次较多但与实体相关性较低的表征,即各实体普遍存在的表征,IDF可以降低该普遍存在的表征的重要性,以此突显出与实体相关性较高的表征,提高相关性较高的表征的最终权重。
本实施例的技术方案,根据各用户对话语料中包括的实体信息和表征信息,来确定各候选实体表征对的权重。其中,用户对话语料中包括的实体信息和表征信息可以为实体表征对的出现次数、各候选表征的共现关系、各实体词语和各表征词语的向量表示之间的相似度以及出现频率统计信息等,实现了从大量的样本语料中挖掘实体与表征的相关性。本发明实施例避免了工作人员对实体和表征关系确定时的主观影响因素,降低了实体和表征关系确定的人工经验成本以及复杂的逻辑推理过程,提高了实体下有效表征的确定效率和准确度。从而在给定实体的情况下,能够有效确定对应表征的相关性,提高实体诊断效率和准确性。
实施例三
图6为本发明实施例三提供的一种知识图谱挖掘装置的结构示意图,本实施例可适用于挖掘实体与表征相关性的知识图谱的情况,该装置可实现本发明任意实施例所述的知识图谱挖掘方法。该装置具体包括:
实体表征对生成模块610,用于根据实体的候选表征集和/或各用户对话语料,生成各候选实体表征对;
实体表征对权重确定模块620,用于根据各用户对话语料中包括的实体信息和表征信息,确定各候选实体表征对的权重;
关键表征确定模块630,用于根据各候选实体表征对的权重,确定实体的关键表征。
可选的,所述实体表征对权重确定模块620,包括:
候选表征图构建单元,用于将各候选实体表征对中同一实体包括的各候选表征作为节点,根据各候选表征的共现关系确定节点边,构建候选表征图;
第一权重确定单元,用于基于所述候选表征图,采用排序算法确定各候选表征的权重。
可选的,所述实体表征对权重确定模块620,包括:
向量表示确定单元,用于将各用户对话语料作为训练语料,确定各用户对话语料中包括的词语的向量表示;
第二权重确定单元,用于根据各用户对话语料中包括的各实体词语的向量表示,以及各候选表征词语的向量表示,确定各候选实体表征对的权重。
可选的,所述向量表示确定单元,包括:
语料分词子单元,用于基于实体词集和表征词集,对所述各用户对话语料进行分词;
语料训练子单元,用于基于神经网络模型,将所述各用户对话语料中包括的各词语作为训练语料,确定各词语的向量表示。
可选的,所述实体表征对权重确定模块620,包括:
词频确定单元,用于确定各候选实体表征对在各用户对话语料中的词频;
逆文本频率指数确定单元,用于确定各候选实体表征对在各用户对话语料中的逆文本频率指数;
第三权重确定单元,用于根据各候选实体表征对的词频和逆文本频率指数,确定各候选实体表征对的权重。
本实施例的技术方案,通过各个功能模块之间的相互配合,实现了实体的候选表征集的获取、用户对话语料的获取、候选实体表征对的生成、候选表征图的构建、语料的分词、语料中实体词语的向量表示的确定、候选表征词语的向量表示的确定、语料中各候选实体表征对的词频的确定、语料中各候选实体表征对的逆文本频率指数的确定、各候选实体表征对的权重的确定以及实体下关键表征的确定等功能。本发明实施例避免了工作人员对实体和表征关系确定时的主观影响因素,降低了实体和表征关系确定的人工经验成本以及复杂的逻辑推理过程,提高了实体下有效表征的确定效率和准确度。从而在给定实体的情况下,能够有效确定对应表征的相关性,提高实体诊断效率和准确性。
实施例四
图7为本发明实施例四提供的一种设备的结构示意图,图7示出了适于用来实现本发明实施例实施方式的示例性设备的框图。图7显示的设备仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
图7显示的设备12仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图7所示,设备12以通用计算设备的形式表现。设备12的组件可以包括但不限于:一个或者多个处理器16,系统存储器28,连接不同系统组件(包括系统存储器28和处理器16)的总线18。
总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。
设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被设备12访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
系统存储器28可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)30和/或高速缓存存储器32。设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统34可以用于读写不可移动的、非易失性磁介质(图7未显示,通常称为“硬盘驱动器”)。尽管图7中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18相连。系统存储器28可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明实施例各实施例的功能。
具有一组(至少一个)程序模块42的程序/实用工具40,可以存储在例如系统存储器28中,这样的程序模块42包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明实施例所描述的实施例中的功能和/或方法。
设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信,还可与一个或者多个使得用户能与该设备12交互的设备通信,和/或与使得该设备12能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且,设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器20通过总线18与设备12的其它模块通信。应当明白,尽管图中未示出,可以结合设备12使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
处理器16通过运行存储在系统存储器28中的程序,从而执行各种功能应用以及数据处理,例如实现本发明实施例所提供的知识图谱挖掘方法。
实施例五
本发明实施例五还提供一种计算机可读存储介质,其上存储有计算机程序(或称为计算机可执行指令),该程序被处理器执行时用于执行一种知识图谱挖掘方法,该方法包括:
根据实体的候选表征集和/或各用户对话语料,生成各候选实体表征对;
根据各用户对话语料中包括的实体信息和表征信息,确定各候选实体表征对的权重;
根据各候选实体表征对的权重,确定实体的关键表征。
本发明实施例的计算机存储介质,可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明实施例操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如”C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或设备上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明实施例进行了较为详细的说明,但是本发明实施例不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (12)

1.一种知识图谱挖掘方法,其特征在于,包括:
根据实体的候选表征集和/或各用户对话语料,生成各候选实体表征对;
根据各用户对话语料中包括的实体信息和表征信息,确定各候选实体表征对的权重;
根据各候选实体表征对的权重,确定实体的关键表征。
2.根据权利要求1所述的方法,其特征在于,所述根据各用户对话语料中包括的实体信息和表征信息,确定各候选实体表征对的权重,包括:
将各候选实体表征对中同一实体包括的各候选表征作为节点,根据各候选表征的共现关系确定节点边,构建候选表征图;
基于所述候选表征图,采用排序算法确定各候选表征的权重。
3.根据权利要求1所述的方法,其特征在于,所述根据各用户对话语料中包括的实体信息和表征信息,确定各候选实体表征对的权重,包括:
将各用户对话语料作为训练语料,确定各用户对话语料中包括的词语的向量表示;
根据各用户对话语料中包括的各实体词语的向量表示,以及各候选表征词语的向量表示,确定各候选实体表征对的权重。
4.根据权利要求3所述的方法,其特征在于,所述将各用户对话语料作为训练语料,确定各用户对话语料中包括的词语的向量表示,包括:
基于实体词集和表征词集,对所述各用户对话语料进行分词;
基于神经网络模型,将所述各用户对话语料中包括的各词语作为训练语料,确定各词语的向量表示。
5.根据权利要求1所述的方法,其特征在于,所述根据各用户对话语料中包括的实体信息和表征信息,确定各候选实体表征对的权重,包括:
确定各候选实体表征对在各用户对话语料中的词频;
确定各候选实体表征对在各用户对话语料中的逆文本频率指数;
根据各候选实体表征对的词频和逆文本频率指数,确定各候选实体表征对的权重。
6.一种知识图谱挖掘装置,其特征在于,包括:
实体表征对生成模块,用于根据实体的候选表征集和/或各用户对话语料,生成各候选实体表征对;
实体表征对权重确定模块,用于根据各用户对话语料中包括的实体信息和表征信息,确定各候选实体表征对的权重;
关键表征确定模块,用于根据各候选实体表征对的权重,确定实体的关键表征。
7.根据权利要求6所述的装置,其特征在于,所述实体表征对权重确定模块,包括:
候选表征图构建单元,用于将各候选实体表征对中同一实体包括的各候选表征作为节点,根据各候选表征的共现关系确定节点边,构建候选表征图;
第一权重确定单元,用于基于所述候选表征图,采用排序算法确定各候选表征的权重。
8.根据权利要求6所述的装置,其特征在于,所述实体表征对权重确定模块,包括:
向量表示确定单元,用于将各用户对话语料作为训练语料,确定各用户对话语料中包括的词语的向量表示;
第二权重确定单元,用于根据各用户对话语料中包括的各实体词语的向量表示,以及各候选表征词语的向量表示,确定各候选实体表征对的权重。
9.根据权利要求8所述的装置,其特征在于,所述向量表示确定单元,包括:
语料分词子单元,用于基于实体词集和表征词集,对所述各用户对话语料进行分词;
语料训练子单元,用于基于神经网络模型,将所述各用户对话语料中包括的各词语作为训练语料,确定各词语的向量表示。
10.根据权利要求6所述的装置,其特征在于,所述实体表征对权重确定模块,包括:
词频确定单元,用于确定各候选实体表征对在各用户对话语料中的词频;
逆文本频率指数确定单元,用于确定各候选实体表征对在各用户对话语料中的逆文本频率指数;
第三权重确定单元,用于根据各候选实体表征对的词频和逆文本频率指数,确定各候选实体表征对的权重。
11.一种设备,其特征在于,包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-5中任一项所述的知识图谱挖掘方法。
12.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-5中任一项所述的知识图谱挖掘方法。
CN201811534395.8A 2018-12-14 2018-12-14 知识图谱挖掘方法、装置、设备和存储介质 Pending CN109670051A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811534395.8A CN109670051A (zh) 2018-12-14 2018-12-14 知识图谱挖掘方法、装置、设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811534395.8A CN109670051A (zh) 2018-12-14 2018-12-14 知识图谱挖掘方法、装置、设备和存储介质

Publications (1)

Publication Number Publication Date
CN109670051A true CN109670051A (zh) 2019-04-23

Family

ID=66144844

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811534395.8A Pending CN109670051A (zh) 2018-12-14 2018-12-14 知识图谱挖掘方法、装置、设备和存储介质

Country Status (1)

Country Link
CN (1) CN109670051A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110287270A (zh) * 2019-06-14 2019-09-27 北京百度网讯科技有限公司 实体关系挖掘方法及设备
CN110379520A (zh) * 2019-06-18 2019-10-25 北京百度网讯科技有限公司 医疗知识图谱的挖掘方法及装置、计算机设备及可读介质
CN111241412A (zh) * 2020-04-24 2020-06-05 支付宝(杭州)信息技术有限公司 一种确定用于信息推荐的图谱的方法、系统、及装置
CN111986815A (zh) * 2020-08-31 2020-11-24 平安医疗健康管理股份有限公司 基于共现关系的项目组合挖掘方法及相关设备
CN112597309A (zh) * 2020-12-25 2021-04-02 西南电子技术研究所(中国电子科技集团公司第十研究所) 实时识别突发事件微博数据流的检测系统
CN115036034A (zh) * 2022-08-11 2022-09-09 之江实验室 一种基于患者表征图的相似患者识别方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106815293A (zh) * 2016-12-08 2017-06-09 中国电子科技集团公司第三十二研究所 一种面向情报分析的构建知识图谱的系统及方法
CN107391906A (zh) * 2017-06-19 2017-11-24 华南理工大学 基于神经网络和图谱结构的健康饮食知识网络构建方法
CN107633005A (zh) * 2017-08-09 2018-01-26 广州思涵信息科技有限公司 一种基于课堂教学内容的知识图谱构建、对比系统及方法
US20180060733A1 (en) * 2016-08-31 2018-03-01 International Business Machines Corporation Techniques for assigning confidence scores to relationship entries in a knowledge graph
CN108776684A (zh) * 2018-05-25 2018-11-09 华东师范大学 知识图谱中边权重的优化方法、装置、介质、设备及系统
CN108874878A (zh) * 2018-05-03 2018-11-23 众安信息技术服务有限公司 一种知识图谱的构建系统及方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180060733A1 (en) * 2016-08-31 2018-03-01 International Business Machines Corporation Techniques for assigning confidence scores to relationship entries in a knowledge graph
CN106815293A (zh) * 2016-12-08 2017-06-09 中国电子科技集团公司第三十二研究所 一种面向情报分析的构建知识图谱的系统及方法
CN107391906A (zh) * 2017-06-19 2017-11-24 华南理工大学 基于神经网络和图谱结构的健康饮食知识网络构建方法
CN107633005A (zh) * 2017-08-09 2018-01-26 广州思涵信息科技有限公司 一种基于课堂教学内容的知识图谱构建、对比系统及方法
CN108874878A (zh) * 2018-05-03 2018-11-23 众安信息技术服务有限公司 一种知识图谱的构建系统及方法
CN108776684A (zh) * 2018-05-25 2018-11-09 华东师范大学 知识图谱中边权重的优化方法、装置、介质、设备及系统

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110287270A (zh) * 2019-06-14 2019-09-27 北京百度网讯科技有限公司 实体关系挖掘方法及设备
CN110287270B (zh) * 2019-06-14 2021-09-14 北京百度网讯科技有限公司 实体关系挖掘方法及设备
CN110379520A (zh) * 2019-06-18 2019-10-25 北京百度网讯科技有限公司 医疗知识图谱的挖掘方法及装置、计算机设备及可读介质
CN111241412A (zh) * 2020-04-24 2020-06-05 支付宝(杭州)信息技术有限公司 一种确定用于信息推荐的图谱的方法、系统、及装置
CN111241412B (zh) * 2020-04-24 2020-08-07 支付宝(杭州)信息技术有限公司 一种确定用于信息推荐的图谱的方法、系统、及装置
CN111986815A (zh) * 2020-08-31 2020-11-24 平安医疗健康管理股份有限公司 基于共现关系的项目组合挖掘方法及相关设备
CN111986815B (zh) * 2020-08-31 2024-06-18 深圳平安医疗健康科技服务有限公司 基于共现关系的项目组合挖掘方法及相关设备
CN112597309A (zh) * 2020-12-25 2021-04-02 西南电子技术研究所(中国电子科技集团公司第十研究所) 实时识别突发事件微博数据流的检测系统
CN115036034A (zh) * 2022-08-11 2022-09-09 之江实验室 一种基于患者表征图的相似患者识别方法及系统
CN115036034B (zh) * 2022-08-11 2022-11-08 之江实验室 一种基于患者表征图的相似患者识别方法及系统

Similar Documents

Publication Publication Date Title
CN112668671B (zh) 预训练模型的获取方法和装置
CN109670051A (zh) 知识图谱挖掘方法、装置、设备和存储介质
CN112131366B (zh) 训练文本分类模型及文本分类的方法、装置及存储介质
US11775760B2 (en) Man-machine conversation method, electronic device, and computer-readable medium
CN109509556A (zh) 知识图谱生成方法、装置、电子设备及计算机可读介质
Daumé III et al. A large-scale exploration of effective global features for a joint entity detection and tracking model
WO2019087033A1 (en) Protecting cognitive systems from gradient based attacks through the use of deceiving gradients
US10956463B2 (en) System and method for generating improved search queries from natural language questions
CN109670029A (zh) 用于确定问题答案的方法、装置、计算机设备及存储介质
CN108920467A (zh) 多义词词义学习方法及装置、搜索结果显示方法
CN109522551A (zh) 实体链接方法、装置、存储介质及电子设备
Guo et al. Context-aware graph inference with knowledge distillation for visual dialog
CN112199717A (zh) 一种基于少量公共数据的隐私模型训练方法及装置
CN113723094B (zh) 文本处理方法、模型训练方法、设备及存储介质
CN111694941B (zh) 一种回复信息确定方法、装置、存储介质及电子设备
Abdelrahman et al. A survey on semantic similarity measures between concepts in health domain
Ni et al. A hybrid siamese neural network for natural language inference in cyber-physical systems
CN111368555B (zh) 一种数据识别方法、装置、存储介质和电子设备
Lu et al. Span-based event coreference resolution
US11281855B1 (en) Reinforcement learning approach to decode sentence ambiguity
CN116402166A (zh) 一种预测模型的训练方法、装置、电子设备及存储介质
CN111339252A (zh) 一种搜索方法、装置及存储介质
CN116956869A (zh) 文本标准化方法、装置、电子设备及存储介质
CN113158682B (zh) 产品名称识别方法、装置、电子设备和介质
Zhang et al. Bi-LSTM-CRF network for clinical event extraction with medical knowledge features

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination