CN110309316A - 一种知识图谱向量的确定方法、装置、终端设备和介质 - Google Patents

一种知识图谱向量的确定方法、装置、终端设备和介质 Download PDF

Info

Publication number
CN110309316A
CN110309316A CN201810587003.8A CN201810587003A CN110309316A CN 110309316 A CN110309316 A CN 110309316A CN 201810587003 A CN201810587003 A CN 201810587003A CN 110309316 A CN110309316 A CN 110309316A
Authority
CN
China
Prior art keywords
entity
processed
theme
knowledge mapping
knowledge
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810587003.8A
Other languages
English (en)
Other versions
CN110309316B (zh
Inventor
曹洋
卢菁
冯亚伟
李彪
范欣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201810587003.8A priority Critical patent/CN110309316B/zh
Publication of CN110309316A publication Critical patent/CN110309316A/zh
Application granted granted Critical
Publication of CN110309316B publication Critical patent/CN110309316B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种知识图谱向量的确定方法、装置、终端设备和介质,属于计算机技术领域,该方法包括,获取各待处理实体的文本信息,并基于各待处理实体的文本信息,确定每一个待处理实体对应于每一个设定主题的主题分布概率,并基于主题分布概率,获得主题知识图谱,以及基于知识图谱和主题知识图谱合并获得的扩展知识图谱,分别确定每一个待处理实体的知识图谱向量。这样,基于文本信息确定的主题分布概率,获得主题知识图谱,并基于主题知识图谱对知识图谱进行了扩展,有效融合了文本信息和图谱结构信息,进而丰富了知识图谱向量的表示意义。

Description

一种知识图谱向量的确定方法、装置、终端设备和介质
技术领域
本申请涉及计算机技术领域,尤其涉及一种知识图谱向量的确定方法、装置、终端设备和介质。
背景技术
知识图谱又称为科学知识图谱,在图书情报界称为知识域可视化或知识领域映射地图,是显示知识发展进程与结构关系的一系列各种不同的图形。用于通过可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。其中,知识图谱通常采用三元组结构进行表示,即实体-关系-实体。例如,一个三元组结构为【百合】-(门)-【被子植物门】。
现有技术下,为提高对知识图谱的应用效率,通常基于知识图谱的三元组结构,获得实体的知识图谱向量。
但是,三元组结构信息只是众多知识信息中的一部分,尚有大量其它信息没有得到有效利用。因此,需要一种知识图谱向量方案,能够融合多源异质的相关信息对知识图谱进行知识表示。
发明内容
本申请实施例提供一种知识图谱向量的确定方法、装置、终端设备和介质,用以在基于知识图谱获得实体的知识图谱向量时,丰富知识图谱向量的表示意义。
第一方面,提供一种知识图谱向量的确定方法,包括:
获取各待处理实体的文本信息,并基于各待处理实体的文本信息,分别确定每一个待处理实体对应于每一个设定主题的主题分布概率;
基于确定出的各主题分布概率,确定各待处理实体与各主题之间的关联关系得到主题知识图谱;
获取存储的各待处理实体之间的知识图谱,并基于主题知识图谱和知识图谱,获得各待处理实体和各主题之间的扩展知识图谱;
基于确定出的扩展知识图谱,分别确定每一个待处理实体的知识图谱向量。
这样,充分融合了文本信息,对知识图谱进行了扩展,扩展知识图谱的信息覆盖度高,进而丰富了知识图谱向量的表示意义。
较佳的,基于确定出的各主题分布概率,确定各待处理实体与各主题之间的关联关系得到主题知识图谱,具体包括:
分别针对每一个待处理实体对应于每一个主题的主题分布概率,执行以下步骤:确定该主题分布概率高于预设分布概率门限值时,将该主题分布概率对应的待处理实体和主题进行关联;
基于确定出的各个待处理实体和主题的关联关系,获得主题知识图谱。
这样,通过预设分布概率门限值,筛选出关联的各待处理实体和主题。
较佳的,在基于主题知识图谱和知识图谱,获得各待处理实体和各主题之间的扩展知识图谱之前,进一步包括:
分别针对每一个待处理实体,执行以下步骤:根据该待处理实体对应于每一个主题的主题分布概率,确定该待处理实体对应的主题向量;
分别针对每两个待处理实体,执行以下步骤:确定该两个待处理实体的主题向量之间的距离,若该两个待处理实体的主题向量之间的距离高于预设距离门限值,则将该两个待处理实体建立关联;
基于建立关联的各待处理实体,更新主题知识图谱。
这样,通过文本信息,扩展了各待处理实体之间的关联。
较佳的,基于确定出的扩展知识图谱,分别确定每一个待处理实体的知识图谱向量,具体包括:
针对扩展知识图谱中的节点,执行以下步骤:基于预设的控制返回参数和深度参数,分别确定该节点跳转到扩展知识图谱中每一相邻节点的随机游走概率;其中,节点包括待处理实体和主题,控制返回参数用于确定一个节点返回至为上一个节点时的随机游走概率,深度参数用于确定一个节点跳转至与上一个节点非相邻的节点时的随机游走概率;
基于扩展知识图谱中各节点之间的随机游走概率,获得扩展知识图谱的各随机游走序列;
基于确定出的各随机游走序列,分别确定每一个待处理实体的知识图谱向量。
这样,扩展后的知识图谱即扩展知识图谱,信息覆盖度高,丰富了知识图谱向量的表示意义。
较佳的,在基于确定出的扩展知识图谱,分别确定每一个待处理实体的知识图谱向量之后,进一步包括:
分别确定各待处理实体的知识图谱向量之间的距离;
基于各待处理实体的知识图谱向量之间的距离,分别确定每两个待处理实体之间的相似度。
这样,就可以根据各知识图谱向量之间的距离,确定待处理实体之间的相似度。
第二方面,一种知识图谱向量的确定装置,包括:
第一确定单元,用于获取各待处理实体的文本信息,并基于各待处理实体的文本信息,分别确定每一个待处理实体对应于每一个设定主题的主题分布概率;
第二确定单元,用于基于确定出的各主题分布概率,确定各待处理实体与各主题之间的关联关系得到主题知识图谱;
获得单元,用于获取存储的各待处理实体之间的知识图谱,并基于主题知识图谱和知识图谱,获得各待处理实体和各主题之间的扩展知识图谱;
第三确定单元,用于基于确定出的扩展知识图谱,分别确定每一个待处理实体的知识图谱向量。
较佳的,在基于确定出的各主题分布概率,确定各待处理实体与各主题之间的关联关系得到主题知识图谱时,第二确定单元具体用于:
分别针对每一个待处理实体对应于每一个主题的主题分布概率,执行以下步骤:确定该主题分布概率高于预设分布概率门限值时,将该主题分布概率对应的待处理实体和主题进行关联;
基于确定出的各个待处理实体和主题的关联关系,获得主题知识图谱。
较佳的,在基于主题知识图谱和知识图谱,获得各待处理实体和各主题之间的扩展知识图谱之前,获得单元还用于:
分别针对每一个待处理实体,执行以下步骤:根据该待处理实体对应于每一个主题的主题分布概率,确定该待处理实体对应的主题向量;
分别针对每两个待处理实体,执行以下步骤:确定该两个待处理实体的主题向量之间的距离,若该两个待处理实体的主题向量之间的距离高于预设距离门限值,则将该两个待处理实体建立关联;
基于建立关联的各待处理实体,更新主题知识图谱。
较佳的,在基于确定出的扩展知识图谱,分别确定每一个待处理实体的知识图谱向量时,第三确定单元具体用于:
针对扩展知识图谱中的节点,执行以下步骤:基于预设的控制返回参数和深度参数,分别确定该节点跳转到扩展知识图谱中每一相邻节点的随机游走概率;其中,节点包括待处理实体和主题,控制返回参数用于确定一个节点返回至为上一个节点时的随机游走概率,深度参数用于确定一个节点跳转至与上一个节点非相邻的节点时的随机游走概率;
基于扩展知识图谱中各节点之间的随机游走概率,获得扩展知识图谱的各随机游走序列;
基于确定出的各随机游走序列,分别确定每一个待处理实体的知识图谱向量。
较佳的,在基于确定出的扩展知识图谱,分别确定每一个待处理实体的知识图谱向量之后,第三确定单元还用于:
分别确定各待处理实体的知识图谱向量之间的距离;
基于各待处理实体的知识图谱向量之间的距离,分别确定每两个待处理实体之间的相似度。
第三方面,提供一种终端设备,包括至少一个处理单元、以及至少一个存储单元,其中,存储单元存储有计算机程序,当程序被处理单元执行时,使得处理单元执行上述任意一种知识图谱向量的确定方法的步骤。
第四方面,提供一种计算机可读介质,其存储有可由终端设备执行的计算机程序,当程序在终端设备上运行时,使得终端设备执行上述任意一种知识图谱向量的确定方法的步骤。
本申请实施例提供的一种知识图谱向量的确定方法、装置、终端设备和介质中,获取各待处理实体的文本信息,并基于各待处理实体的文本信息,确定每一个待处理实体对应于每一个设定主题的主题分布概率,并基于主题分布概率,获得主题知识图谱,以及基于知识图谱和主题知识图谱合并获得的扩展知识图谱,分别确定每一个待处理实体的知识图谱向量。这样,基于文本信息确定的主题分布概率,获得主题知识图谱,并基于主题知识图谱对知识图谱进行了扩展,有效融合了文本信息和图谱结构信息,进而丰富了知识图谱向量的表示意义。
本申请的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本申请而了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本申请实施方式中提供的一种终端设备的结构示意图;
图2a为本申请实施方式中一种知识图谱向量的确定及应用的流程示意图;
图2b为本申请实施方式中一种知识图谱向量的确定方法的实施流程图;
图3a为本申请实施方式中提供的一种图谱示例图;
图3b为本申请实施方式中提供的一种节点跳转示意图;
图3c为本申请实施方式中提供的一种随机游走示意图;
图3d为本申请实施方式中提供的一种知识图谱向量生成的示意图;
图3e为本申请实施方式中提供的一种用户画像扩展示例图;
图3f为本申请实施方式中提供的一种话题推荐示例图一;
图3g为本申请实施方式中提供的一种关联阅读示例图一;
图3h为本申请实施方式中提供的一种话题推荐示例图二;
图3i为本申请实施方式中提供的一种关联阅读示例图二;
图3j为本申请实施方式中提供的一种实体识别示例图;
图4为本申请实施方式中一种知识图谱向量的确定装置的结构示意图;
图5为本申请实施方式中终端设备结构示意图。
具体实施方式
为了在基于知识图谱获得实体的知识图谱向量时,丰富知识图谱向量的表示意义精确性,本申请实施例提供了一种知识图谱向量的确定方法、装置、终端设备和介质。
首先,对本申请实施例中涉及的部分用语进行说明,以便于本领域技术人员理解。
1、终端设备:可以安装各类应用程序,并且能够将已安装的应用程序中提供的实体进行显示的设备,该电子设备可以是移动的,也可以是固定的,。例如,手机、平板电脑、车载设备、个人数字助理(personal digital assistant,PDA)或其它能够实现上述功能的电子设备等。
2、知识图谱:又称为科学知识图谱,在图书情报界称为知识域可视化或知识领域映射地图,是显示知识发展进程与结构关系的一系列各种不同的图形。用于通过可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。知识图谱本质上是一种语义网络。其结点代表实体(entity)或者概念(concept),边代表实体/概念之间的各种语义关系。其中,知识图谱通常采用三元组结构进行表示,即实体-关系-实体。
现有技术,通常基于文本信息,训练实体的文本向量,基于知识图谱,训练实体的结构向量,通过训练过程,让实体的文本向量和结构向量尽可能接近,从而实现文本与知识库融合的表示。但是,当文本信息与知识图谱分别呈现的是实体的不同方面的特征时,该方法并不适用,适用范围较小。
有鉴于此,本申请实施例提供了一种知识图谱向量的确定方法、装置、终端设备和介质,获取各待处理实体的文本信息,并基于各待处理实体的文本信息,确定每一个待处理实体对应于每一个设定主题的主题分布概率,并基于主题分布概率,获得主题知识图谱,以及基于知识图谱和主题知识图谱合并获得的扩展知识图谱,分别确定每一个待处理实体的知识图谱向量。这样,基于文本信息确定的主题分布概率,获得主题知识图谱,并基于主题知识图谱对知识图谱进行了扩展,有效融合了文本信息和图谱结构信息,进而丰富了知识图谱向量的表示意义。
本申请实施例提供的一种知识图谱向量的确定方法,可应用于终端设备中,该终端设备可以为手机、平板电脑、PDA(Personal Digital Assistant,掌上电脑)等。
图1示出了一种终端设备100的结构示意图。参阅图1所示,终端设备100包括:处理器110、存储器120、电源130、显示单元140、输入单元150。
处理器110是终端设备100的控制中心,利用各种接口和线路连接各个部件,通过运行或执行存储在存储器120内的软件程序和/或数据,执行终端设备100的各种功能,从而对终端设备进行整体监控。
可选的,处理器110可包括一个或多个处理单元;优选的,处理器110可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器110中。在一些实施例中,处理器、存储器、可以在单一芯片上实现,在一些实施例中,它们也可以在独立的芯片上分别实现。
存储器120可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、各种应用程序等;存储数据区可存储根据终端设备100的使用所创建的数据等。此外,存储器120可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件等。
终端设备100还包括给各个部件供电的电源130(比如电池),电源可以通过电源管理系统与处理器110逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗等功能。
显示单元140可用于显示由用户输入的信息或提供给用户的信息以及终端设备100的各种菜单等,本申请实施例中主要用于显示终端设备100中各应用程序的显示界面以及显示界面中显示的文本、图片等实体。显示单元140可以包括显示面板141。显示面板141可以采用液晶显示屏(Liquid Crystal Display,LCD)、有机发光二极管(Organic Light-Emitting Diode,OLED)等形式来配置。
输入单元150可用于接收用户输入的数字或字符等信息。输入单元150可包括触控面板151以及其他输入设备152。其中,触控面板151,也称为触摸屏,可收集用户在其上或附近的触摸操作(比如用户使用手指、触摸笔等任何适合的物体或附件在触控面板151上或在触控面板151附近的操作)。
具体的,触控面板151可以检测用户的触摸操作,并检测触摸操作带来的信号,将这些信号转换成触点坐标,发送给处理器110,并接收处理器110发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板151。其他输入设备152可以包括但不限于物理键盘、功能键(比如音量控制按键、开关机按键等)、轨迹球、鼠标、操作杆等中的一种或多种。
当然,触控面板151可覆盖显示面板141,当触控面板151检测到在其上或附近的触摸操作后,传送给处理器110以确定触摸事件的类型,随后处理器110根据触摸事件的类型在显示面板141上提供相应的视觉输出。虽然在图1中,触控面板151与显示面板141是作为两个独立的部件来实现终端设备100的输入和输出功能,但是在某些实施例中,可以将触控面板151与显示面板141集成而实现终端设备100的输入和输出功能。
终端设备100还可包括一个或多个传感器,例如压力传感器、重力加速度传感器、接近光传感器等。当然,根据具体应用中的需要,上述终端设备100还可以包括摄像头等其它部件,由于这些部件不是本申请实施例中重点使用的部件,因此,在图1中没有示出,且不再详述。
本领域技术人员可以理解,图1仅仅是终端设备的举例,并不构成对终端设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件。
参阅图2a所示,为本申请实施例中一种知识图谱向量的确定及应用的流程示意图。首先,终端设备获取各待处理实体的文本信息,并基于各待处理实体的文本信息,获取各待处理实体对应的主题向量,其中,待处理实体对应的主题向量包括待处理实体分别对应于每一个设定主题的主题分布概率。然后,终端设备基于各主题向量,确定各待处理实体和各主题的关联关系,获得主题知识图谱。进一步地,终端设备将主题知识图谱和存储的知识图谱合并,获得扩展知识图谱,并基于扩展知识图谱,分别确定每一个待处理实体的知识图谱向量。这样,终端设备就可以基于各知识图谱向量之间的距离,确定各待处理实体之间的相似度,进而将相似度,应用于相似新闻话题推荐或用户画像扩展等。
参阅图2b所示,为本申请提供的一种知识图谱向量的确定方法的实施流程图。在下文的介绍过程中,结合图1所示的终端设备的结构示意图对该方法进行详细说明,该方法的具体实施流程如下:
步骤200:终端设备基于获取的各待处理实体的文本信息,分别确定每一个待处理实体对应于每一个设定主题的主题分布概率。
具体的,首先,终端设备100获取各待处理实体的文本信息,并分别确定各文本信息中的每一个词对应每一个设定主题的第一概率,以及每一个主题对应每一个词的第二概率。
然后,终端设备100基于获取的各第一概率和第二概率,分别确定每一个待处理实体对应于每一个设定主题的主题分布概率。
可选的,执行步骤200时,终端设备100可以获取各待处理实体的文本信息,并基于各待处理实体的文本信息,采用预设的文档主题生成模型,分别确定每一个待处理实体对应于每一个设定主题的主题分布概率。所谓文档主题生成模型,用于假设一篇文章的每个词都是通过"以一定概率选择了某个主题,并从这个主题中以一定概率选择某个词语"这样一个过程得到的,将每一个文本信息转化为一个指定维度的主题向量。其中,文档到主题服从多项式分布,主题到词服从多项式分布。一个待处理实体的主题向量中包含该待处理实体分别对应每一个主题的主题分布概率。可选的,文档主题生成模型可以为三层贝叶斯概率模型(Latent Dirichlet Allocation,LDA)。
其中,待处理实体为知识图谱中的实体,可以为人物、作品、地点、数值、身高等。知识图谱本质上是一种语义网络。其节点代表实体(entity)或者概念(concept),边代表实体/概念之间的各种语义关系。知识图谱通常采用三元组结构进行表示,即实体-关系-实体。实体可以由若干个关系类型表示,例如,人物这类实体有生日、身高、妻子等关系类型。电影实体有导演、演员、制片国家、上映日期等。通过实体的关系类型可以将不同的实体建立关联关系。
例如:刘德华(实体)-妻子(关系类型)-朱丽倩(实体)。
又例如,刘德华(实体)-电影作品(关系类型)-无间道(实体)。
又例如,无间道(实体)-制片国家/地区(关系类型)-中国香港(实体)。
步骤210:终端设备基于确定出的各主题分布概率,确定各待处理实体与各主题之间的关联关系得到主题知识图谱。
具体的,终端设备100分别针对每一个待处理实体对应于每一个主题的主题分布概率,执行以下步骤:
首先,终端设备100确定一个主题分布概率高于预设分布概率门限值时,将该主题分布概率对应的待处理实体和主题进行关联。
例如,预设分布概率门限值为0.8。
然后,终端设备100基于确定出的各待处理实体和主题的关联关系,获得主题知识图谱。
即在确定主题分布概率高于预设分布概率门限值时,将对应的待处理实体和主题进行连线,获得主题知识图谱。例如,参阅图3a所示,为一种图谱示例图,其中,图3a所示的主题谱图中,A与主题2关联,B和D分别与主题1相关联。
这样,就可以根据文本信息,获得包含各待处理实体与各主题的关联关系的主题知识图谱。其中,主题知识图谱也是一种知识图谱,均采用三元组结构。主题知识图谱中的节点包括各待处理实体和各主题。
进一步地,终端设备100还可以对主题知识图谱进行更新,具体流程如下:
首先,终端设备100分别针对每一个待处理实体,执行以下步骤:
根据一个待处理实体对应于每一个主题的主题分布概率,确定该待处理实体对应的主题向量。可选的,可以采用文档主题生成模型直接确定各待处理实的主题向量。
然后,终端设备100分别针对每两个待处理实体,执行以下步骤:
确定两个待处理实体的主题向量之间的距离,若该两个待处理实体的主题向量之间的距离高于预设距离门限值,则建立该两个待处理实体之间的关联。
最后,终端设备基于建立关联的各待处理实体,更新主题知识图谱。
若两个待处理实体的主题向量之间的距离较小,说明两个待处理实体的相似度较高,这样,就可以将各相似度较高的各待处理实体也建立关联,从而对主题知识图谱进行扩展。
显然,主题知识图谱承载了待处理实体的文本信息,充分融合了文本信息。
本申请实施例中,仅以在确定主题知识图谱之后,获取各待处理实体的文本信息,并基于各待处理实体的文本信息更新主题知识图谱。在实际应用中,可以在获得扩展知识图谱之前的任一步骤更新主题知识图谱,在此不再赘述。
步骤220:终端设备获取存储的各待处理实体之间的知识图谱,并基于主题知识图谱和知识图谱,获得各待处理实体和各主题之间的扩展知识图谱。
具体的,终端设备100获取存储的各待处理实体之间的知识图谱,将主题知识图谱和知识图谱融合(即合并),获得各待处理实体和各主题之间的扩展知识图谱。
例如,参阅图3a所示,知识图谱包括A、B、C和D,其中,B和D分别与C相关联,主题谱图中,A与主题2关联,B和D分别与主题1相关联。则终端设备100将知识图谱与主题知识图谱融合后,获得扩展知识图谱。其中,扩展知识图谱中A与主题2关联,B和D分别与主题1相关联,并分别与C关联。
这样,就可以基于知识图谱,以及待处理实体的文本信息,对知识图谱进行了扩展,获得扩展知识图谱,不仅包含了知识图谱中的三元组结构,还充分融合了待处理实体的文本信息,提高了扩展知识图谱的信息覆盖率。
本申请实施例中,并不需要区分各实体之间的关系的类型,可选的,可以将各实体之间的关系设定为同一类型,以便后续知识图谱向量的确定。
步骤230:终端设备基于确定出的扩展知识图谱,分别确定每一个待处理实体的知识图谱向量。
具体的,首先,终端设备100针对扩展知识图谱中的每一个节点,执行以下步骤:
基于预设的控制返回参数和深度参数,分别确定一个节点即当前节点跳转至扩展知识图谱中每一相邻节点的随机游走概率。
其中,节点包括实体和主题,控制返回参数用于确定当前节点返回至为上一个节点时的随机游走概率,深度参数用于确定当前节点跳转至与上一个节点非相邻的节点时的随机游走概率。扩展知识图谱中的各节点包括待处理实体以及主题。
可选的,终端设备100确定随机游走概率时,可以先采用以下公式:
其中,t为当前节点的上一个节点,x为当前节点的相邻节点,A(t,x)为当前节点跳转至下一相邻节点x时的随机游走概率,p为控制返回参数,q为深度参数,dtx为x节点与节点t的关系。dtx=0表示x节点即为t节点,dtx=1表示x节点为t节点的相邻节点,dtx=2表示x节点为t节点的非相邻节点,P和q为正数。
可选的,为便于后续数据处理,终端设备100可以将各A(t,x)进一步进行归一化,获得当前节点跳转至每一相邻节点的归一化后的随机游走概率。
例如,参阅图3b所示,为节点跳转示意图。假设当前节点为v节点,并且v节点的上一个节点为t节点,控制返回参数为p,深度参数为q。则v节点跳转至t节点的随机游走概率为A(t,x)=1/p。x1节点与t节点相邻,则v节点跳转至x1节点的随机游走概率为A(t,x)=m。x2节点和x3节点均与t节点不相邻,则v节点跳转至x2节点或x3节点的随机游走概率均为A(t,x)=1/q。进一步地,将各随机游走概率进行归一化,获得各归一化后的各随机游走概率。
然后,终端设备100基于确定出的各节点之间的随机游走概率,获得指定序列数目的指定步长的随机游走序列。
其中,指定序列数目为随机游走序列的总数目,数值为总节点数目与预设节点轮次数目的乘积。节点轮次数为各种以同一节点为随机游走序列的起始点的序列次数。预设步长为一个随机游走序列的总节点数目。
这样,通过引入两个控制返回参数和深度参数,将宽度优先搜索和深度优先搜索引入随机游走序列的生成过程,采用以上公式,通过返回参数和深度参数,控制随机游走序列的跳转概率,进而计算各随机游走概率。
例如,参阅图3c所示,为随机游走示意图。其中,若q很小,则随机游走序列偏向深度游走,如,u-s4-s5-s6-s9-s8-s,若p很小,则随机游走序列偏向返回刚经过的上一个节点(如,u节点上一个节点s1,s2或s3)。
接着,终端设备100基于各随机游走序列,分别确定每一个待处理实体的知识图谱向量。
例如,参阅图3d所示,为知识图谱向量生成的示意图,扩展知识图谱中包含节点1-6,基于扩展知识图谱中各个节点之间的随机游走概率,获得各随机游走序列,以及基于各随机游走序列,通过skip-gram模型,获得各知识图谱向量,如,ui-1,ui,ui+1和ui+2,其中,u为向量,i为节点。
可选的,分别确定每一个待处理实体的知识图谱向量时,可以采用Skip-Gram算法得到。即类比word2vec算法,将节点作为单词,通过随机游走,将随机游走序列作为句子,通过Skip-Gram算法获得节点的知识图谱向量。
步骤240:终端设备基于各知识图谱向量之间的距离,确定各待处理实体之间的相似度,根据各相似度,进行待处理实体的应用。
下面通过具体的三个应用场景,对基于知识图谱向量的应用进行进一步举例说明。
应用场景一,扩展用户画像,具体应用如下:
参阅图3e所示,为用户画像扩展示例图,假设用户的原始画像包含的各标签为:车祸,汪星人,交通事故和萌宠。则终端设备获取各原始画像的标签以及存储的各标签的知识图谱向量,并基于各图谱向量,分别计算每一个存储的标签与每一个原始画像的标签之间的距离,得到相似度。然后,终端设备针对每一个存储的标签执行以下步骤:确定一个存储的标签分别与原始画像的每一个标签之间的相似度与相应权重的加权和,获得该存储的标签与原始画像之间的相似度加权。最后,终端设备根据各相似度加权和,筛选出与原始画像相似度较高的标签,并根据筛选出的标签,扩展原始画像。
这样,就可以确定存储的各标签与原始画像之间的相似度,并根据相似度对原始画像进行扩展。
应用场景二,相关话题推荐,具体应用如下:
参阅图3f所示,为话题推荐示例图一。假设当前新闻话题为图3f所示的话题,则终端设备将新闻话题作为待处理实体(即,节点),将话题内容作为新闻话题的文本信息。终端设备基于当前新闻话题以及存储的各新闻话题的话题内容,确定每一个新闻话题的知识图谱向量,并分别计算当前新闻话题与每一个新闻话题的知识图谱之间的距离,获得各相似度。最后,基于获得的各相似度,筛选出与当前新闻话题相关联的新闻话题,以及参阅图3g所示,为关联阅读示例图一,向用户进行关联阅读的推荐。又例如,参阅图3h所示,为话题推荐图二,参阅图3i所示,为关联阅读示例图二。终端设备采用知识图谱向量的确定方法,确定图3i所示的各新闻话题为图3h所示的新闻话题的关联话题,并向用户进行话题推荐。
这样,就可以确定各个新闻话题之间的相似度,从而可以推荐相关联的新闻话题。
应用场景三,实体识别,具体应用如下:
参阅图3j所示,为实体识别示例图。终端设备将正文中的“姓名”作为待处理实体,并将正文作为相应的文本信息。以姓名为“曹XX”为例则终端设备基于“曹XX”以及正文,采用知识图谱向量的确定方法,获得该“曹XX”的知识图谱向量,以及数据库中存储的每一个“曹XX”(即,可能存在多个不同的人的名字相同)的知识图谱向量,则基于各“曹XX”的知识图谱向量之间的距离,在数据库中选取存储的与该“曹XX”最相似的目标“曹XX”,并在数据库中获取存储的目标“曹XX”关联的人物(即数据中已经分别存储了每一个人相关的人物),如父亲或子女等。
这样,就可以通过知识图谱向量,识别正文中的人的具体身份,精准地获取存储的相关联的人物等。
基于同一发明构思,本申请实施例中还提供了一种知识图谱向量的确定装置,由于上述装置及设备解决问题的原理与一种知识图谱向量的确定方法相似,因此,上述装置的实施可以参见方法的实施,重复之处不再赘述。
如图4所示,其为本申请实施例提供的一种知识图谱向量的确定装置的结构示意图,包括:
第一确定单元40,用于获取各待处理实体的文本信息,并基于各待处理实体的文本信息,分别确定每一个待处理实体对应于每一个设定主题的主题分布概率;
第二确定单元41,用于基于确定出的各主题分布概率,确定各待处理实体与各主题之间的关联关系得到主题知识图谱;
获得单元42,用于获取存储的各待处理实体之间的知识图谱,并基于主题知识图谱和知识图谱,获得各待处理实体和各主题之间的扩展知识图谱;
第三确定单元43,用于基于确定出的扩展知识图谱,分别确定每一个待处理实体的知识图谱向量。
较佳的,在基于确定出的各主题分布概率,确定各待处理实体与各主题之间的关联关系得到主题知识图谱时,第二确定单元41具体用于:
分别针对每一个待处理实体对应于每一个主题的主题分布概率,执行以下步骤:确定该主题分布概率高于预设分布概率门限值时,将该主题分布概率对应的待处理实体和主题进行关联;
基于确定出的各个待处理实体和主题的关联关系,获得主题知识图谱。
较佳的,在基于主题知识图谱和知识图谱,获得各待处理实体和各主题之间的扩展知识图谱之前,获得单元42还用于:
分别针对每一个待处理实体,执行以下步骤:根据该待处理实体对应于每一个主题的主题分布概率,确定该待处理实体对应的主题向量;
分别针对每两个待处理实体,执行以下步骤:确定该两个待处理实体的主题向量之间的距离,若该两个待处理实体的主题向量之间的距离高于预设距离门限值,则将该两个待处理实体建立关联;
基于建立关联的各待处理实体,更新主题知识图谱。
较佳的,在基于确定出的扩展知识图谱,分别确定每一个待处理实体的知识图谱向量时,第三确定单元43具体用于:
针对扩展知识图谱中的节点,执行以下步骤:基于预设的控制返回参数和深度参数,分别确定该节点跳转到扩展知识图谱中每一相邻节点的随机游走概率;其中,节点包括待处理实体和主题,控制返回参数用于确定一个节点返回至为上一个节点时的随机游走概率,深度参数用于确定一个节点跳转至与上一个节点非相邻的节点时的随机游走概率;
基于扩展知识图谱中各节点之间的随机游走概率,获得扩展知识图谱的各随机游走序列;
基于确定出的各随机游走序列,分别确定每一个待处理实体的知识图谱向量。
较佳的,在基于确定出的扩展知识图谱,分别确定每一个待处理实体的知识图谱向量之后,第三确定单元43还用于:
分别确定各待处理实体的知识图谱向量之间的距离;
基于各待处理实体的知识图谱向量之间的距离,分别确定每两个待处理实体之间的相似度。
本申请实施例提供的一种知识图谱向量的确定方法、装置、终端设备和介质中,获取各待处理实体的文本信息,并基于各待处理实体的文本信息,确定每一个待处理实体对应于每一个设定主题的主题分布概率,并基于主题分布概率,获得主题知识图谱,以及基于知识图谱和主题知识图谱合并获得的扩展知识图谱,分别确定每一个待处理实体的知识图谱向量。这样,基于文本信息确定的主题分布概率,获得主题知识图谱,并基于主题知识图谱对知识图谱进行了扩展,有效融合了文本信息和图谱结构信息,进而丰富了知识图谱向量的表示意义。为了描述的方便,以上各部分按照功能划分为各模块(或单元)分别描述。当然,在实施本申请时可以把各模块(或单元)的功能在同一个或多个软件或硬件中实现。
基于同一技术构思,本申请实施例还提供了一种终端设备500,参照图5所示,终端设备500用于实施上述各个方法实施例记载的方法,例如实施图2b所示的实施例,终端设备500可以包括存储器501、处理器502、输入单元503和显示面板504。
所述存储器501,用于存储处理器502执行的计算机程序。存储器501可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据终端设备500的使用所创建的数据等。处理器502,可以是一个中央处理单元(central processing unit,CPU),或者为数字处理单元等等。输入单元503,可以用于获取用户输入的用户指令。所述显示面板504,用于显示由用户输入的信息或提供给用户的信息,本申请实施例中,显示面板504主要用于显示终端设备中各应用程序的显示界面以及各显示界面中显示的控件实体。可选的,显示面板504可以采用液晶显示器(liquidcrystal display,LCD)或OLED(organic light-emitting diode,有机发光二极管)等形式来配置显示面板504。
本申请实施例中不限定上述存储器501、处理器502、输入单元503和显示面板504之间的具体连接介质。本申请实施例在图5中以存储器501、处理器502、输入单元503、显示面板504之间通过总线505连接,总线505在图5中以粗线表示,其它部件之间的连接方式,仅是进行示意性说明,并不引以为限。所述总线505可以分为地址总线、数据总线、控制总线等。为便于表示,图5中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
存储器501可以是易失性存储器(volatile memory),例如随机存取存储器(random-access memory,RAM);存储器501也可以是非易失性存储器(non-volatilememory),例如只读存储器,快闪存储器(flash memory),硬盘(hard disk drive,HDD)或固态硬盘(solid-state drive,SSD)、或者存储器501是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。存储器501可以是上述存储器的组合。
处理器502,用于实现如图2b所示的实施例,包括:
所述处理器502,用于调用所述存储器501中存储的计算机程序执行如实施图2b所示的实施例。
本申请实施例还提供了一种计算机可读存储介质,存储为执行上述处理器所需执行的计算机可执行指令,其包含用于执行上述处理器所需执行的程序。
在一些可能的实施方式中,本申请提供的一种知识图谱向量的确定方法的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在终端设备上运行时,所述程序代码用于使所述终端设备执行本说明书上述描述的根据本申请各种示例性实施方式的一种知识图谱向量的确定方法中的步骤。例如,所述终端设备可以执行如实施图2b所示的实施例。
所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
本申请的实施方式的用于一种知识图谱向量的确定的程序产品可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在计算设备上运行。然而,本申请的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于——无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本申请操作的程序代码,所述程序设计语言包括面向实体的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
应当注意,尽管在上文详细描述中提及了装置的若干单元或子单元,但是这种划分仅仅是示例性的并非强制性的。实际上,根据本申请的实施方式,上文描述的两个或更多单元的特征和功能可以在一个单元中具体化。反之,上文描述的一个单元的特征和功能可以进一步划分为由多个单元来具体化。
此外,尽管在附图中以特定顺序描述了本申请方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

Claims (10)

1.一种知识图谱向量的确定方法,其特征在于,包括:
获取各待处理实体的文本信息,并基于各待处理实体的文本信息,分别确定每一个待处理实体对应于每一个设定主题的主题分布概率;
基于确定出的各主题分布概率,确定各待处理实体与各主题之间的关联关系得到主题知识图谱;
获取存储的各待处理实体之间的知识图谱,并基于所述主题知识图谱和所述知识图谱,获得各待处理实体和各主题之间的扩展知识图谱;
基于确定出的扩展知识图谱,分别确定每一个待处理实体的知识图谱向量。
2.如权利要求1所述的方法,其特征在于,在基于所述主题知识图谱和所述知识图谱,获得各待处理实体和各主题之间的扩展知识图谱之前,进一步包括:
分别针对每一个待处理实体,执行以下步骤:根据该待处理实体对应于每一个主题的主题分布概率,确定该待处理实体对应的主题向量;
分别针对每两个待处理实体,执行以下步骤:确定该两个待处理实体的主题向量之间的距离,若该两个待处理实体的主题向量之间的距离高于预设距离门限值,则将该两个待处理实体建立关联;
基于建立关联的各待处理实体,更新所述主题知识图谱。
3.如权利要求2所述的方法,其特征在于,在基于确定出的扩展知识图谱,分别确定每一个待处理实体的知识图谱向量之后,进一步包括:
分别确定各待处理实体的知识图谱向量之间的距离;
基于各待处理实体的知识图谱向量之间的距离,分别确定每两个待处理实体之间的相似度。
4.如权利要求1、2或3所述的方法,其特征在于,基于确定出的各主题分布概率,确定各待处理实体与各主题之间的关联关系得到主题知识图谱,具体包括:
分别针对每一个待处理实体对应于每一个主题的主题分布概率,执行以下步骤:确定该主题分布概率高于预设分布概率门限值时,将该主题分布概率对应的待处理实体和主题进行关联;
基于确定出的各个待处理实体和主题的关联关系,获得主题知识图谱。
5.一种知识图谱向量的确定装置,其特征在于,包括:
第一确定单元,用于获取各待处理实体的文本信息,并基于各待处理实体的文本信息,分别确定每一个待处理实体对应于每一个设定主题的主题分布概率;
第二确定单元,用于基于确定出的各主题分布概率,确定各待处理实体与各主题之间的关联关系得到主题知识图谱;
获得单元,用于获取存储的各待处理实体之间的知识图谱,并基于所述主题知识图谱和所述知识图谱,获得各待处理实体和各主题之间的扩展知识图谱;
第三确定单元,用于基于确定出的扩展知识图谱,分别确定每一个待处理实体的知识图谱向量。
6.如权利要求5所述的装置,其特征在于,在基于所述主题知识图谱和所述知识图谱,获得各待处理实体和各主题之间的扩展知识图谱之前,所述获得单元还用于:
分别针对每一个待处理实体,执行以下步骤:根据该待处理实体对应于每一个主题的主题分布概率,确定该待处理实体对应的主题向量;
分别针对每两个待处理实体,执行以下步骤:确定该两个待处理实体的主题向量之间的距离,若该两个待处理实体的主题向量之间的距离高于预设距离门限值,则将该两个待处理实体建立关联;
基于建立关联的各待处理实体,更新所述主题知识图谱。
7.如权利要求6所述的装置,其特征在于,在基于确定出的扩展知识图谱,分别确定每一个待处理实体的知识图谱向量之后,所述第三确定单元还用于:
分别确定各待处理实体的知识图谱向量之间的距离;
基于各待处理实体的知识图谱向量之间的距离,分别确定每两个待处理实体之间的相似度。
8.如权利要求5、6或7所述的装置,其特征在于,在基于确定出的各主题分布概率,确定各待处理实体与各主题之间的关联关系得到主题知识图谱时,所述第二确定单元具体用于:
分别针对每一个待处理实体对应于每一个主题的主题分布概率,执行以下步骤:确定该主题分布概率高于预设分布概率门限值时,将该主题分布概率对应的待处理实体和主题进行关联;
基于确定出的各个待处理实体和主题的关联关系,获得主题知识图谱。
9.一种终端设备,其特征在于,包括至少一个处理单元、以及至少一个存储单元,其中,所述存储单元存储有计算机程序,当所述程序被所述处理单元执行时,使得所述处理单元执行权利要求1~4任一权利要求所述方法的步骤。
10.一种计算机可读介质,其特征在于,其存储有可由终端设备执行的计算机程序,当所述程序在终端设备上运行时,使得所述终端设备执行权利要求1~4任一所述方法的步骤。
CN201810587003.8A 2018-06-08 2018-06-08 一种知识图谱向量的确定方法、装置、终端设备和介质 Active CN110309316B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810587003.8A CN110309316B (zh) 2018-06-08 2018-06-08 一种知识图谱向量的确定方法、装置、终端设备和介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810587003.8A CN110309316B (zh) 2018-06-08 2018-06-08 一种知识图谱向量的确定方法、装置、终端设备和介质

Publications (2)

Publication Number Publication Date
CN110309316A true CN110309316A (zh) 2019-10-08
CN110309316B CN110309316B (zh) 2022-10-25

Family

ID=68073913

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810587003.8A Active CN110309316B (zh) 2018-06-08 2018-06-08 一种知识图谱向量的确定方法、装置、终端设备和介质

Country Status (1)

Country Link
CN (1) CN110309316B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111241213A (zh) * 2020-01-23 2020-06-05 北京明略软件系统有限公司 一种构建知识图谱的方法、装置、计算机存储介质及终端
CN111241282A (zh) * 2020-01-14 2020-06-05 北京百度网讯科技有限公司 文本主题生成方法、装置及电子设备
CN111753027A (zh) * 2020-06-29 2020-10-09 中国科学院文献情报中心 一种面向多实体的隐式知识图谱表示的方法及装置
CN112446741A (zh) * 2020-12-10 2021-03-05 华院数据技术(上海)有限公司 一种基于概率知识图谱的用户画像方法及系统
CN112668309A (zh) * 2020-11-25 2021-04-16 紫光云技术有限公司 一种融合压缩dom树结构向量的网络行为预测模型
CN113032527A (zh) * 2021-03-25 2021-06-25 北京轮子科技有限公司 用于问答系统的信息生成方法、装置、终端设备
CN113127644A (zh) * 2019-12-31 2021-07-16 奇安信科技集团股份有限公司 安全知识图谱的构建方法和系统
CN113297854A (zh) * 2021-07-27 2021-08-24 平安科技(深圳)有限公司 文本到知识图谱实体的映射方法、装置、设备及存储介质
CN114331789A (zh) * 2022-03-07 2022-04-12 联通高新大数据人工智能科技(成都)有限公司 一种廉洁知识智能推荐方法、装置、设备及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140297677A1 (en) * 2013-03-29 2014-10-02 Canon Kabushiki Kaisha Recommendation apparatus, recommendation method, and storage medium
WO2014173882A1 (fr) * 2013-04-23 2014-10-30 Thales Procédé et dispositif d'extraction automatique de thèmes à partir d'au moins un document contenant du texte
US20160378851A1 (en) * 2015-06-25 2016-12-29 International Business Machines Corporation Knowledge Canvassing Using a Knowledge Graph and a Question and Answer System
CN106326440A (zh) * 2016-08-26 2017-01-11 北京光年无限科技有限公司 一种面向智能机器人的人机交互方法及装置
CN106960025A (zh) * 2017-03-19 2017-07-18 北京工业大学 一种基于领域知识图谱的个性化文献推荐方法
CN107122444A (zh) * 2017-04-24 2017-09-01 北京科技大学 一种法律知识图谱自动构建方法
CN107861939A (zh) * 2017-09-30 2018-03-30 昆明理工大学 一种融合词向量和主题模型的领域实体消歧方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140297677A1 (en) * 2013-03-29 2014-10-02 Canon Kabushiki Kaisha Recommendation apparatus, recommendation method, and storage medium
WO2014173882A1 (fr) * 2013-04-23 2014-10-30 Thales Procédé et dispositif d'extraction automatique de thèmes à partir d'au moins un document contenant du texte
US20160378851A1 (en) * 2015-06-25 2016-12-29 International Business Machines Corporation Knowledge Canvassing Using a Knowledge Graph and a Question and Answer System
CN106326440A (zh) * 2016-08-26 2017-01-11 北京光年无限科技有限公司 一种面向智能机器人的人机交互方法及装置
CN106960025A (zh) * 2017-03-19 2017-07-18 北京工业大学 一种基于领域知识图谱的个性化文献推荐方法
CN107122444A (zh) * 2017-04-24 2017-09-01 北京科技大学 一种法律知识图谱自动构建方法
CN107861939A (zh) * 2017-09-30 2018-03-30 昆明理工大学 一种融合词向量和主题模型的领域实体消歧方法

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113127644B (zh) * 2019-12-31 2024-03-15 奇安信科技集团股份有限公司 安全知识图谱的构建方法和系统
CN113127644A (zh) * 2019-12-31 2021-07-16 奇安信科技集团股份有限公司 安全知识图谱的构建方法和系统
CN111241282A (zh) * 2020-01-14 2020-06-05 北京百度网讯科技有限公司 文本主题生成方法、装置及电子设备
CN111241282B (zh) * 2020-01-14 2023-09-08 北京百度网讯科技有限公司 文本主题生成方法、装置及电子设备
CN111241213A (zh) * 2020-01-23 2020-06-05 北京明略软件系统有限公司 一种构建知识图谱的方法、装置、计算机存储介质及终端
CN111753027A (zh) * 2020-06-29 2020-10-09 中国科学院文献情报中心 一种面向多实体的隐式知识图谱表示的方法及装置
CN111753027B (zh) * 2020-06-29 2023-03-14 中国科学院文献情报中心 一种面向多实体的隐式知识图谱表示的方法及装置
CN112668309B (zh) * 2020-11-25 2023-03-07 紫光云技术有限公司 一种融合压缩dom树结构向量的网络行为预测方法
CN112668309A (zh) * 2020-11-25 2021-04-16 紫光云技术有限公司 一种融合压缩dom树结构向量的网络行为预测模型
CN112446741A (zh) * 2020-12-10 2021-03-05 华院数据技术(上海)有限公司 一种基于概率知识图谱的用户画像方法及系统
CN112446741B (zh) * 2020-12-10 2022-02-15 华院计算技术(上海)股份有限公司 一种基于概率知识图谱的用户画像方法及系统
CN113032527B (zh) * 2021-03-25 2023-08-22 北京轮子科技有限公司 用于问答系统的信息生成方法、装置、终端设备
CN113032527A (zh) * 2021-03-25 2021-06-25 北京轮子科技有限公司 用于问答系统的信息生成方法、装置、终端设备
CN113297854A (zh) * 2021-07-27 2021-08-24 平安科技(深圳)有限公司 文本到知识图谱实体的映射方法、装置、设备及存储介质
CN114331789A (zh) * 2022-03-07 2022-04-12 联通高新大数据人工智能科技(成都)有限公司 一种廉洁知识智能推荐方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN110309316B (zh) 2022-10-25

Similar Documents

Publication Publication Date Title
CN110309316A (zh) 一种知识图谱向量的确定方法、装置、终端设备和介质
Ens et al. Ivy: Exploring spatially situated visual programming for authoring and understanding intelligent environments
CN107924342B (zh) 从移动应用竖井向授权的第三方应用的自动化数据传送
CN105103221B (zh) 对文本到语音发音问题检测的语音识别辅助评估
CN107924679A (zh) 输入理解处理期间在响应选择中的延迟绑定
CN108733438A (zh) 应用程序与数字助理集成
US10417492B2 (en) Conversion of static images into interactive maps
CN108780463A (zh) 社交图的生成和管理
CN108242235A (zh) 电子设备及其语音识别方法
US20160203194A1 (en) User terminal for displaying image and image display method thereof
CN103631491B (zh) 用于处理用户定制页面的方法及其移动装置
CN103927113A (zh) 便携式终端及在便携式终端中提供触觉效果的方法
US9569101B2 (en) User interface apparatus in a user terminal and method for supporting the same
EP3349115A1 (en) Human machine interaction method and device for user terminal, and user terminal
CN102054217B (zh) 基于元模型的工具中的实体变形
CN104571521B (zh) 手写记录装置和手写记录方法
CN104423800A (zh) 电子设备以及执行其应用程序的方法
CN112163642A (zh) 一种风控规则获取方法、装置、介质及设备
JP7242994B2 (ja) ビデオイベント識別方法、装置、電子デバイス及び記憶媒体
CN111738015B (zh) 文章情感极性分析方法、装置、电子设备及存储介质
KR20150027885A (ko) 전자 필기 운용 방법 및 이를 지원하는 전자 장치
CN104252247A (zh) 触笔速记
CN103235697A (zh) 一种手写输入方法及装置
CN103294805A (zh) 数据仓库个性化维度表的创建方法和装置
CN107111441A (zh) 多级用户界面

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant