CN110188168B - 语义关系识别方法和装置 - Google Patents

语义关系识别方法和装置 Download PDF

Info

Publication number
CN110188168B
CN110188168B CN201910440759.4A CN201910440759A CN110188168B CN 110188168 B CN110188168 B CN 110188168B CN 201910440759 A CN201910440759 A CN 201910440759A CN 110188168 B CN110188168 B CN 110188168B
Authority
CN
China
Prior art keywords
entity word
entity
text
semantic
pair
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910440759.4A
Other languages
English (en)
Other versions
CN110188168A (zh
Inventor
鄂海红
宋美娜
赵文
张文静
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Posts and Telecommunications
Original Assignee
Beijing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Posts and Telecommunications filed Critical Beijing University of Posts and Telecommunications
Priority to CN201910440759.4A priority Critical patent/CN110188168B/zh
Publication of CN110188168A publication Critical patent/CN110188168A/zh
Application granted granted Critical
Publication of CN110188168B publication Critical patent/CN110188168B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本申请提出一种语义关系识别方法和装置,其中,方法包括:通过获取待识别语义关系的一对文本信息和知识图谱,将知识图谱输入预设的图神经网络,获取图神经网络根据实体词节点之间的相似度和关系属性计算的实体词集合,获取一对文本信息中每个文本信息包含的第一实体词,并确定与第一实体词的相关度满足预设条件的第二实体词节点,在实体词集合中确定与第二实体词对应的实体词向量,并根据第二实体词对应的实体词向量生成针对每个文本信息的候选语义向量,根据一对文本信息之间的相似实体词和候选语义向量计算每个文本信息的目标候选语义向量,并根据目标候选语义向量确定一对文本信息之间的语义相似度。由此,提高了语义关系识别的准确度。

Description

语义关系识别方法和装置
技术领域
本申请涉及深度学习技术领域,尤其涉及一种语义关系识别方法和装置。
背景技术
随着互联网技术的发展,在互联网技术的应用中,能够理解用户输入语句的语义,并针对用户的问题能够匹配合适的内容,是互联网智能化必不可少的一步。语义匹配作为自然语言理解的基础且富有挑战的任务之一,广泛应用于信息检索、内容推荐、智能问答、问答系统、复述识别、阅读理解等互联网应用场景中。
然而现有的语义匹配系统中,没有真正的理解语义内容,更多的基于句子间关键词的匹配。例如,在网页搜索中,我们需要度量用户查询和网页标题的语义相关性;在关键词推荐中,我们需要度量关键词和其他关键词之间的相似度。比如用户输入“搜索附近的快餐店”,系统后端的知识库中没有实际储存快餐店,而是保存了大量实体店的名称,那么语义匹配成功的概率很低。
在数据量如此庞大的今天,开源的结构化数据的集成也越来越完善,包含各种实体、属性、关系的知识图谱构建技术也日益成熟。如何充分利用大量的结构化数据,加强系统对于语句的理解,更进一步增强语义匹配的精确程度,是目前迫切解决的问题。
发明内容
本申请旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本申请提出一种语义关系识别方法,以解决现有技术中语义理解不充分导致语义识别准确度较低的技术问题。
本申请第一方面实施例提出了一种语义关系识别方法,所述方法包括:
获取待识别语义关系的一对文本信息和知识图谱,其中,所述知识图谱中包含多个通过边相连的实体词节点,所述多个实体词节点之间的边表示对应实体词之间的关系属性;
将所述知识图谱输入预设的图神经网络,获取所述图神经网络根据所述实体词节点之间的相似度和所述关系属性计算的实体词集合,其中,所述实体词集合中包含与所述每个实体词节点对应的实体词向量;
获取所述一对文本信息中每个文本信息中包含的第一实体词,并确定与所述第一实体词的相关度满足预设条件的第二实体词节点;
在所述实体词集合中确定与所述第二实体词对应的实体词向量,并根据所述第二实体词对应的实体词向量生成针对所述每个文本信息的候选语义向量;
根据所述一对文本信息之间的相似实体词和所述候选语义向量计算所述每个文本信息的目标候选语义向量,并根据所述目标候选语义向量确定所述一对文本信息之间的语义相似度。
本申请实施例的语义关系识别方法,通过获取待识别语义关系的一对文本信息和知识图谱,其中,知识图谱中包含多个通过边相连的实体词节点,多个实体词节点之间的边表示对应实体词之间的关系属性;将知识图谱输入预设的图神经网络,获取图神经网络根据实体词节点之间的相似度和关系属性计算的实体词集合,其中,实体词集合中包含与每个实体词节点对应的实体词向量;
获取一对文本信息中每个文本信息中包含的第一实体词,并确定与第一实体词的相关度满足预设条件的第二实体词节点;在实体词集合中确定与第二实体词对应的实体词向量,并根据第二实体词对应的实体词向量生成针对每个文本信息的候选语义向量;根据一对文本信息之间的相似实体词和候选语义向量计算每个文本信息的目标候选语义向量,并根据目标候选语义向量确定一对文本信息之间的语义相似度。由此,提高了语义关系识别的准确度。
本申请第二方面实施例提出了语义关系识别装置,包括:
第一获取模块,用于获取待识别语义关系的一对文本信息和知识图谱,其中,所述知识图谱中包含多个通过边相连的实体词节点,所述多个实体词节点之间的边表示对应实体词之间的关系属性;
第二获取模块,用于将所述知识图谱输入预设的图神经网络,获取所述图神经网络根据所述实体词节点之间的相似度和所述关系属性计算的实体词集合,其中,所述实体词集合中包含与所述每个实体词节点对应的实体词向量;
确定模块,用于获取所述一对文本信息中每个文本信息中包含的第一实体词,并确定与所述第一实体词的相关度满足预设条件的第二实体词节点;
第一生成模块,用于在所述实体词集合中确定与所述第二实体词对应的实体词向量,并根据所述第二实体词对应的实体词向量生成针对所述每个文本信息的候选语义向量;
处理模块,用于根据所述一对文本信息之间的相似实体词和所述候选语义向量计算所述每个文本信息的目标候选语义向量,并根据所述目标候选语义向量确定所述一对文本信息之间的语义相似度。
本申请实施例的语义关系识别装置,通过获取待识别语义关系的一对文本信息和知识图谱,其中,知识图谱中包含多个通过边相连的实体词节点,多个实体词节点之间的边表示对应实体词之间的关系属性;将知识图谱输入预设的图神经网络,获取图神经网络根据实体词节点之间的相似度和关系属性计算的实体词集合,其中,实体词集合中包含与每个实体词节点对应的实体词向量;
获取一对文本信息中每个文本信息中包含的第一实体词,并确定与第一实体词的相关度满足预设条件的第二实体词节点;在实体词集合中确定与第二实体词对应的实体词向量,并根据第二实体词对应的实体词向量生成针对每个文本信息的候选语义向量;根据一对文本信息之间的相似实体词和候选语义向量计算每个文本信息的目标候选语义向量,并根据目标候选语义向量确定一对文本信息之间的语义相似度。由此,提高了语义关系识别的准确度。
本申请附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到。
附图说明
本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本申请实施例提供的一种语义关系识别方法的流程示意图;
图2为本申请实施例提供的另一种语义关系识别方法的流程示意图;
图3为本申请实施例提供的一种语义关系识别装置的结构示意图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本申请,而不能理解为对本申请的限制。
下面参考附图描述本申请实施例的语义关系识别方法和装置。
图1为本申请实施例提供的一种语义关系识别方法的流程示意图。
本申请实施例以该语义关系识别方法被配置于语义关系识别装置中来举例说明,该语义关系识别装置可以应用于任一计算机设备中,以使该计算机设备可以执行语义关系识别功能。
其中,计算机设备可以为个人电脑(Personal Computer,简称PC)、云端设备、移动设备等,移动设备例如可以为手机、平板电脑、个人数字助理、穿戴式设备、车载设备等具有各种操作系统、触摸屏和/或显示屏的硬件设备。
如图1所示,该语义关系识别方法包括以下步骤:
步骤101,获取待识别语义关系的一对文本信息和知识图谱,其中,知识图谱中包含多个通过边相连的实体词节点,多个实体词节点之间的边表示对应实体词之间的关系属性。
本申请实施例中,待识别语义关系的一对文本信息,可以是用户以语音的形式输入的,也可以是用户手动输入的,也可以是从服务器下载的,在此不做限定。
本实施例中,知识图谱主要目标是用来描述真实世界中存在的各种实体和概念,以及他们之间的强关系。这里我们用多个通过边相连的实体词节点表示各种实体,多个实体词节点之间的边表示对应实体词之间的关系属性。例如,在用知识图谱表示公司和员工的之间的关系时,用实体词节点表示公司和员工,用连接公司和员工这两个实体词的边表示公司和员工之间的雇佣关系。
需要说明的是,本实施例中的知识图谱可以是从服务器下载的,也可以是用户自己构建的,在此不做限定。
步骤102,将知识图谱输入预设的图神经网络,获取图神经网络根据实体词节点之间的特征相似度和关系属性计算的实体词集合,其中,实体词集合中包含与每个实体词节点对应的实体词向量。
其中,预设的图神经网络可以为带有注意力机制的图神经网络,通过带有注意力机制的图神经网络融合知识图谱中子图的信息,使得提取出来的语义更充分。
需要说明的是,预设的图神经网络不限于带有注意力机制的图神经网络,为了减少系统复杂度,提升系统的运行效率,也可以采用其他图神经网络,在此不做限定。
在通过预设的图神经网络处理知识图谱时,一层图神经网络将中心节点的一阶邻近点的信息组合成中心节点的特征。k层的图神经网络则将k阶邻近点的输入特征组合成为中心节点特征。
具体地,将知识图谱输入预设的图神经网络,以使图神经网络根据实体词之间的关系属性获取第一评分,并根据实体词节点之间的相似度确定第二评分。其中,第一评分,用于确定实体词之间的关系属性的重要性;第二评分,用于确定实体词节点之间的特征相似度。
作为本实施例的一种可能的实现方式,图神经网络可以通过如下公式(1)计算得到知识图谱中各实体词之间的关系属性的重要性。公式(1)具体如下:
Figure BDA0002071940590000041
其中,Wr∈RF是可训练的参数,
Figure BDA0002071940590000042
为连接实体词节点i和实体词节点j之间的边,Iij为实体词节点i和实体词节点j之间关系属性的重要性。
作为本实施例的一种可能的实现方式,图神经网络可以通过如下公式(2)计算得到知识图谱中各实体词节点之间的特征相似度。公式(2)具体如下:
Figure BDA0002071940590000051
其中,Wh∈RF′×F为可训练的参数,a2F′×1为一层前馈神经网络,;是拼接操作,
Figure BDA0002071940590000052
Figure BDA0002071940590000053
分别为实体词集中第i个实体词节点特征和第j个实体词节点特征,Sij为实体词节点i和实体词节点j之间的特征相似度。
进一步的,获取图神经网络根据实体词之间的关系属性计算得到的第一评分和实体词节点之间的特征相似度计算的第二评分,得到实体词节点间的权重,进而根据各实体词节点间的权重获取每个实体词节点对应的实体词向量。
作为一种可能的实现方式,可以将第一评分和第二评分相乘,得到实体词节点间的权重,具体的计算过程如公式(3):
Eij=Iij×Sij
其中,Eij为实体词节点i与实体词节点j之间的权重,Iij为实体词节点i和实体词节点j之间关系属性的重要性,Sij为实体词节点i和实体词节点j之间的特征相似度。
为了让实体词节点i的所有邻节点的权重易于比较,需要对Eij执行归一化操作,具体见如下公式(4):
Figure BDA0002071940590000054
进而,按照不同权重将邻节点的特征
Figure BDA0002071940590000055
加到中心节点新特征表达中,具体见公式(5):
Figure BDA0002071940590000056
其中,Ni是实体词节点i和其邻节点的集合,每个实体词节点i的邻节点按照它对i的重要程度αij,加入到实体词节点i的新特征中。实体词节点i的新特征
Figure BDA0002071940590000057
融合了它周围节点的信息。Wh是对所有节点特征的筛选和降维。在训练过程中,
Figure BDA0002071940590000058
能够为实体词之间的关系属性打上合理的分数。
Figure BDA0002071940590000059
能为节点选择出更合适的特征加入到中心节点。
步骤103,获取一对文本信息中每个文本信息中包含的第一实体词,并确定与第一实体词的相关度满足预设条件的第二实体词节点。
本实施例中,对获取的一对文本信息进行拆词,得到每个文本信息中包含的第一实体词,计算第一实体词和实体词集合中实体词的相似度,确定实体词集合中实体词与第一实体词的相似度大于预设阈值的实体词为第二实体词节点。
步骤104,在实体词集合中确定与第二实体词对应的实体词向量,并根据第二实体词对应的实体词向量生成针对每个文本信息的候选语义向量。
具体地,在实体词集合中查找与第二实体词对应的实体词向量,并将查找到的第二实体词对应的实体词向量与第二实体词拼接,生成针对每个文本信息的候选语义向量。
在一种可能的情况下,在实体词集合中未查找与第二实体词对应的实体词向量,此时可以将第二实体词与空实体拼接。
步骤105,根据一对文本信息之间的相似实体词和候选语义向量计算每个文本信息的目标候选语义向量,并根据目标候选语义向量确定一对文本信息之间的语义相似度。
本实施例中,通过公式(6)计算一对文本信息中实体词的相似度,得到相似实体词。公式(6)如下:
Figure BDA0002071940590000061
其中,βij为实体词的相似度,pi表示为第一文本信息中的实体词,将hj表示为第二文本信息中的实体词。
进而,根据预设的计算公式将一对文本信息中的相似实体词对应的候选语义向量单元对齐处理,其中,计算公式如下公式(7):
Figure BDA0002071940590000062
Figure BDA0002071940590000063
进一步的,为了减少工作量,通过最大池和平均池对对齐处理后的每个文本信息的候选语义向量下采样,得到一对文本信息对应的第一文本向量和第二文本向量。其中,可以通如下公式(8)进行采样。
Figure BDA0002071940590000064
Figure BDA0002071940590000065
Vp=[Vp,ave;Vp,max]
Vh=[Vh,ave;Vh,max]
其中,Vp和Vh分别为一对文本信息对应的第一文本向量和第二文本向量。
将第一向量、第二向量、第一向量和第二向量的差以及第一向量与第二向量的各个元素乘积,拼接成目标语义向量。将目标语义向量输入预设分类模型,即可得到一对文本信息的关系,也就是这对文本信息之间相似或者不相似。
本申请实施例的语义关系识别方法,通过获取待识别语义关系的一对文本信息和知识图谱,其中,知识图谱中包含多个通过边相连的实体词节点,多个实体词节点之间的边表示对应实体词之间的关系属性;将知识图谱输入预设的图神经网络,获取图神经网络根据实体词节点之间的相似度和关系属性计算的实体词集合,其中,实体词集合中包含与每个实体词节点对应的实体词向量;
获取一对文本信息中每个文本信息中包含的第一实体词,并确定与第一实体词的相关度满足预设条件的第二实体词节点;在实体词集合中确定与第二实体词对应的实体词向量,并根据第二实体词对应的实体词向量生成针对每个文本信息的候选语义向量;根据一对文本信息之间的相似实体词和候选语义向量计算每个文本信息的目标候选语义向量,并根据目标候选语义向量确定一对文本信息之间的语义相似度。由此,提高了语义关系识别的准确度。
在一种场景下,可以在本实施例的语义匹配系统中输入查询文本,进而得到对应的搜索文本,下面结合图2对具体的实现过程进行详细介绍,图2为本申请实施例提供的另一种语义关系识别方法的流程示意图。
如图2所示,该方法包括以下步骤:
步骤201,接收用户输入的查询文本。
本实施例中,查询文本,是用户通过语音方式或者手动方式输入的用于查询的文本信息。例如,用户在搜索框中输入“查找附近的快餐店”。其中,“查找附近的快餐店”为查询文本。
步骤202,获取与查询文本相关的第一文本信息,并根据语义相似度获取与第一文本信息相似度大于预设阈值的第二文本信息。
本实施例中,根据用户输入的查询文本,获取到与查询文本相关的第一文本信息,并根据语义相似度获取与第一文本信息的相似度大于预设阈值的第二文本信息。
举例来说,查询文本为“查找附近的快餐店”,第一文本信息可以为“快餐店”,此时,可以根据语义相似度得到与“快餐店”的相似度大于预设阈值的第二文本信息,例如,水饺店、网吧、便利店等等。
步骤203,根据第一文本信息和第二文本信息生成与查询文本对应的搜索文本。
本实施例中,根据第一文本信息,以及与第一文本信息的相似度大于预设阈值的第二文本信息,可以得到与查询文本对应的搜索文本。
继续以上述示例为例,第一文本信息为“快餐店”、第二文本信息为“水饺店”、“网吧”、“便利店”时,搜索文本可以为“水饺店”。
本实施例中,通过接收用户输入的查询文本,获取与查询文本相关的第一文本信息,并根据语义相似度获取与第一文本信息相似度大于预设阈值的第二文本信息,根据第一文本信息和第二文本信息生成与查询文本对应的搜索文本。由此,通过输入的查询文本,生成与查询文本对应的搜索文本,提高了语义匹配的准确度。
为了实现上述实施例,本申请实施例还提出一种语义关系识别装置。
图3为本申请实施例提供的一种语义关系识别装置的结构示意图。
如图3所示,该语义关系识别装置100包括:第一获取模块110、第二获取模块120、确定模块130、第一生成模块140以及处理模块150。
第一获取模块110,用于获取待识别语义关系的一对文本信息和知识图谱,其中,知识图谱中包含多个通过边相连的实体词节点,多个实体词节点之间的边表示对应实体词之间的关系属性。
第二获取模块120,用于将知识图谱输入预设的图神经网络,获取图神经网络根据实体词节点之间的相似度和关系属性计算的实体词集合,其中,实体词集合中包含与每个实体词节点对应的实体词向量。
确定模块130,用于获取一对文本信息中每个文本信息中包含的第一实体词,并确定与第一实体词的相关度满足预设条件的第二实体词节点。
第一生成模块140,用于在实体词集合中确定与第二实体词对应的实体词向量,并根据第二实体词对应的实体词向量生成针对每个文本信息的候选语义向量。
处理模块150,用于根据一对文本信息之间的相似实体词和候选语义向量计算每个文本信息的目标候选语义向量,并根据目标候选语义向量确定一对文本信息之间的语义相似度。
作为一种可能的实现方式,第二获取模块120,具体用于:
将知识图谱输入预设的图神经网络,以使图神经网络根据实体词之间的关系属性获取第一评分,并根据实体词节点之间的相似度确定第二评分;
获取图神经网络根据第一评分和所述第二评分获取的每个实体词节点对应的实体词向量。
作为另一种可能的实现方式,确定模块130,具体用于:
对每个文本信息进行拆词获取对应的第一实体词;计算第一实体词和实体词集合中实体词的相似度;确定相似度大于预设阈值的第二实体词。
作为另一种可能的实现方式,处理模块150,具体用于:
获取一对文本信息中的相似实体词;根据预设的计算公式将一对文本信息中的相似实体词对应的候选语义向量单元对齐处理,并对对齐处理后的每个文本信息的候选语义向量下采样,获取每个文本信息的目标语义向量;将一对文本信息的目标语义向量输入预设分类模型,获取语义关系。
作为另一种可能的实现方式,语义关系识别装置100,还包括:
接收模块,用于接收用户输入的查询文本。
第三获取模块,用于获取与查询文本相关的第一文本信息,并根据语义相似度获取与第一文本信息相似度大于预设阈值的第二文本信息。
第二生成模块,用于根据第一文本信息和第二文本信息生成与查询文本对应的搜索文本。
本申请实施例的语义关系识别装置,通过获取待识别语义关系的一对文本信息和知识图谱,其中,知识图谱中包含多个通过边相连的实体词节点,多个实体词节点之间的边表示对应实体词之间的关系属性;将知识图谱输入预设的图神经网络,获取图神经网络根据实体词节点之间的相似度和关系属性计算的实体词集合,其中,实体词集合中包含与每个实体词节点对应的实体词向量;
获取一对文本信息中每个文本信息中包含的第一实体词,并确定与第一实体词的相关度满足预设条件的第二实体词节点;在实体词集合中确定与第二实体词对应的实体词向量,并根据第二实体词对应的实体词向量生成针对每个文本信息的候选语义向量;根据一对文本信息之间的相似实体词和候选语义向量计算每个文本信息的目标候选语义向量,并根据目标候选语义向量确定一对文本信息之间的语义相似度。由此,提高了语义关系识别的准确度。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体向量、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体向量、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的向量进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术向量的数量。由此,限定有“第一”、“第二”的向量可以明示或者隐含地包括至少一个该向量。在本申请的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本申请的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如,如果用硬件来实现和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本申请各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本申请的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本申请的限制,本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (10)

1.一种语义关系识别方法,其特征在于,所述方法包括以下步骤:
获取待识别语义关系的一对文本信息和知识图谱,其中,所述知识图谱中包含多个通过边相连的实体词节点,所述多个实体词节点之间的边表示对应实体词之间的关系属性;
将所述知识图谱输入预设的图神经网络,获取所述图神经网络根据所述实体词节点之间的特征相似度和所述关系属性计算的实体词集合,其中,所述实体词集合中包含与所述每个实体词节点对应的实体词向量;
获取所述一对文本信息中每个文本信息中包含的第一实体词,并确定与所述第一实体词的相关度满足预设条件的第二实体词节点;
在所述实体词集合中确定与所述第二实体词对应的实体词向量,并根据所述第二实体词对应的实体词向量生成针对所述每个文本信息的候选语义向量;
根据所述一对文本信息之间的相似实体词和所述候选语义向量计算所述每个文本信息的目标候选语义向量,具体地,获取所述一对文本信息中的相似实体词,根据预设的计算公式将所述一对文本信息中的相似实体词对应的候选语义向量单元对齐处理,并对对齐处理后的所述每个文本信息的候选语义向量下采样,获取所述每个文本信息的目标语义向量,并根据所述目标候选语义向量确定所述一对文本信息之间的语义相似度。
2.如权利要求1所述的方法,其特征在于,所述将所述知识图谱输入预设的图神经网络,获取所述图神经网络根据所述实体词节点之间的特征相似度和所述关系属性计算的实体词集,包括:
将所述知识图谱输入所述预设的图神经网络,以使所述图神经网络根据所述实体词之间的关系属性获取第一评分,并根据所述实体词节点之间的特征相似度确定第二评分;
获取所述图神经网络根据所述第一评分和所述第二评分获取的所述每个实体词节点对应的所述实体词向量。
3.如权利要求1所述的方法,其特征在于,所述获取所述一对文本信息中每个文本信息中包含的第一实体词,并确定与所述第一实体词的相关度满足预设条件的第二实体词节点,包括:
对所述每个文本信息进行拆词获取对应的所述第一实体词;
计算所述第一实体词和所述实体词集合中实体词的相似度;
确定所述相似度大于预设阈值的所述第二实体词。
4.如权利要求1所述的方法,其特征在于,所述根据所述目标候选语义向量确定所述一对文本信息之间的语义相似度,包括:
将所述一对文本信息的目标语义向量输入预设分类模型,获取所述语义关系。
5.如权利要求1所述的方法,其特征在于,还包括:
接收用户输入的查询文本;
获取与所述查询文本相关的第一文本信息,并根据所述语义相似度获取与所述第一文本信息相似度大于预设阈值的第二文本信息;
根据所述第一文本信息和所述第二文本信息生成与所述查询文本对应的搜索文本。
6.一种语义关系识别装置,其特征在于,所述装置包括:
第一获取模块,用于获取待识别语义关系的一对文本信息和知识图谱,其中,所述知识图谱中包含多个通过边相连的实体词节点,所述多个实体词节点之间的边表示对应实体词之间的关系属性;
第二获取模块,用于将所述知识图谱输入预设的图神经网络,获取所述图神经网络根据所述实体词节点之间的相似度和所述关系属性计算的实体词集合,其中,所述实体词集合中包含与所述每个实体词节点对应的实体词向量;
确定模块,用于获取所述一对文本信息中每个文本信息中包含的第一实体词,并确定与所述第一实体词的相关度满足预设条件的第二实体词节点;
第一生成模块,用于在所述实体词集合中确定与所述第二实体词对应的实体词向量,并根据所述第二实体词对应的实体词向量生成针对所述每个文本信息的候选语义向量;
处理模块,用于根据所述一对文本信息之间的相似实体词和所述候选语义向量计算所述每个文本信息的目标候选语义向量,具体地,获取所述一对文本信息中的相似实体词,根据预设的计算公式将所述一对文本信息中的相似实体词对应的候选语义向量单元对齐处理,并对对齐处理后的所述每个文本信息的候选语义向量下采样,获取所述每个文本信息的目标语义向量,并根据所述目标候选语义向量确定所述一对文本信息之间的语义相似度。
7.如权利要求6所述的装置,其特征在于,所述第二获取模块,具体用于:
将所述知识图谱输入所述预设的图神经网络,以使所述图神经网络根据所述实体词之间的关系属性获取第一评分,并根据所述实体词节点之间的相似度确定第二评分;
获取所述图神经网络根据所述第一评分和所述第二评分获取的所述每个实体词节点对应的所述实体词向量。
8.如权利要求6所述的装置,其特征在于,所述确定模块,具体用于:
对所述每个文本信息进行拆词获取对应的所述第一实体词;
计算所述第一实体词和所述实体词集合中实体词的相似度;
确定所述相似度大于预设阈值的所述第二实体词。
9.如权利要求6所述的装置,其特征在于,所述处理模块,具体用于:
获取所述一对文本信息中的相似实体词;
根据预设的计算公式将所述一对文本信息中的相似实体词对应的候选语义向量单元对齐处理,并对对齐处理后的所述每个文本信息的候选语义向量下采样,获取所述每个文本信息的目标语义向量;
将所述一对文本信息的目标语义向量输入预设分类模型,获取所述语义关系。
10.如权利要求6所述的装置,其特征在于,所述装置,还包括:
接收模块,用于接收用户输入的查询文本;
第三获取模块,用于获取与所述查询文本相关的第一文本信息,并根据所述语义相似度获取与所述第一文本信息相似度大于预设阈值的第二文本信息;第二生成模块,用于根据所述第一文本信息和所述第二文本信息生成与所述查询文本对应的搜索文本。
CN201910440759.4A 2019-05-24 2019-05-24 语义关系识别方法和装置 Active CN110188168B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910440759.4A CN110188168B (zh) 2019-05-24 2019-05-24 语义关系识别方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910440759.4A CN110188168B (zh) 2019-05-24 2019-05-24 语义关系识别方法和装置

Publications (2)

Publication Number Publication Date
CN110188168A CN110188168A (zh) 2019-08-30
CN110188168B true CN110188168B (zh) 2021-09-03

Family

ID=67717788

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910440759.4A Active CN110188168B (zh) 2019-05-24 2019-05-24 语义关系识别方法和装置

Country Status (1)

Country Link
CN (1) CN110188168B (zh)

Families Citing this family (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110688838B (zh) * 2019-10-08 2023-07-18 北京金山数字娱乐科技有限公司 一种成语同义词列表的生成方法及装置
CN110795572B (zh) * 2019-10-29 2022-05-17 腾讯科技(深圳)有限公司 一种实体对齐方法、装置、设备及介质
CN110866190B (zh) * 2019-11-18 2021-05-14 支付宝(杭州)信息技术有限公司 训练用于表征知识图谱的图神经网络模型的方法及装置
CN112860949B (zh) * 2019-11-27 2024-09-17 国网电子商务有限公司 一种图谱特征的提取方法和装置
CN111159423B (zh) * 2019-12-27 2023-04-07 北京明略软件系统有限公司 一种实体关联方法、装置及计算机可读存储介质
CN113128226B (zh) * 2019-12-31 2024-09-27 阿里巴巴集团控股有限公司 命名实体识别方法、装置、电子设备及计算机存储介质
CN113128509A (zh) * 2019-12-31 2021-07-16 广东爱因智能数字营销有限公司 一种图像语义要素提取方法
CN111177391B (zh) * 2019-12-31 2023-08-08 北京明略软件系统有限公司 获取社交舆情声量的方法和装置及计算机可读存储介质
CN111259671B (zh) 2020-01-15 2023-10-31 北京百度网讯科技有限公司 文本实体的语义描述处理方法、装置及设备
CN111241838B (zh) * 2020-01-15 2023-10-31 北京百度网讯科技有限公司 文本实体的语义关系处理方法、装置及设备
CN111428044B (zh) * 2020-03-06 2024-04-05 中国平安人寿保险股份有限公司 多模态获取监管识别结果的方法、装置、设备及存储介质
CN111401928B (zh) * 2020-04-01 2022-04-12 支付宝(杭州)信息技术有限公司 基于图数据确定文本的语义相似度的方法及装置
CN111666969B (zh) * 2020-04-22 2021-11-23 北京百度网讯科技有限公司 计算图文相似度的方法、装置、电子设备和可读存储介质
CN111753198B (zh) * 2020-06-22 2024-01-12 北京百度网讯科技有限公司 信息推荐方法和装置、以及电子设备和可读存储介质
CN111814658B (zh) * 2020-07-07 2024-02-09 西安电子科技大学 基于语义的场景语义结构图检索方法
CN111598239B (zh) * 2020-07-27 2020-11-06 江苏联著实业股份有限公司 一种基于图神经网络提取文章的过程体系的方法和装置
CN112069822B (zh) * 2020-09-14 2024-09-06 上海秒针网络科技有限公司 一种词向量表示的获取方法、装置、设备及可读介质
CN112507715B (zh) * 2020-11-30 2024-01-16 北京百度网讯科技有限公司 确定实体之间关联关系的方法、装置、设备和存储介质
CN112632910A (zh) * 2020-12-21 2021-04-09 北京惠及智医科技有限公司 手术编码方法以及电子设备、存储装置
CN112905891B (zh) * 2021-03-05 2021-12-10 中国科学院计算机网络信息中心 基于图神经网络的科研知识图谱人才推荐方法及装置
CN112966513B (zh) * 2021-03-05 2023-08-01 北京百度网讯科技有限公司 用于实体链接的方法和装置
CN113157727B (zh) * 2021-05-24 2022-12-13 腾讯音乐娱乐科技(深圳)有限公司 提供召回结果的方法、设备和存储介质
CN113360665A (zh) * 2021-05-31 2021-09-07 无锡智眼慧驾科技有限公司 一种知识库文档和知识图谱实体关联的方法及系统
CN113392648B (zh) * 2021-06-02 2022-10-18 北京三快在线科技有限公司 实体关系获取方法及装置
CN113254620B (zh) * 2021-06-21 2022-08-30 中国平安人寿保险股份有限公司 基于图神经网络的应答方法、装置、设备及存储介质
CN113468891A (zh) * 2021-07-27 2021-10-01 支付宝(杭州)信息技术有限公司 文本处理方法以及装置
CN114492370B (zh) * 2022-01-29 2023-09-01 北京百度网讯科技有限公司 网页识别方法、装置、电子设备和介质
CN115238679B (zh) * 2022-07-14 2024-09-17 腾讯科技(深圳)有限公司 同义词的挖掘方法、装置、计算机可读介质及电子设备
CN116467414B (zh) * 2023-04-14 2024-09-10 腾讯科技(深圳)有限公司 一种数据验证方法、装置、设备以及计算机可读存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101079026A (zh) * 2007-07-02 2007-11-28 北京百问百答网络技术有限公司 文本相似度、词义相似度计算方法和系统及应用系统
CN101770453A (zh) * 2008-12-31 2010-07-07 华建机器翻译有限公司 基于领域本体结合机器学习模型的汉语文本共指消解方法
CN103544255A (zh) * 2013-10-15 2014-01-29 常州大学 基于文本语义相关的网络舆情信息分析方法
CN108563766A (zh) * 2018-04-19 2018-09-21 天津科技大学 食品检索的方法及装置
CN108647233A (zh) * 2018-04-02 2018-10-12 北京大学深圳研究生院 一种用于问答系统的答案排序方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101599071B (zh) * 2009-07-10 2012-04-18 华中科技大学 对话文本主题的自动提取方法
US9430463B2 (en) * 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US11068658B2 (en) * 2016-12-07 2021-07-20 Disney Enterprises, Inc. Dynamic word embeddings

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101079026A (zh) * 2007-07-02 2007-11-28 北京百问百答网络技术有限公司 文本相似度、词义相似度计算方法和系统及应用系统
CN101770453A (zh) * 2008-12-31 2010-07-07 华建机器翻译有限公司 基于领域本体结合机器学习模型的汉语文本共指消解方法
CN103544255A (zh) * 2013-10-15 2014-01-29 常州大学 基于文本语义相关的网络舆情信息分析方法
CN108647233A (zh) * 2018-04-02 2018-10-12 北京大学深圳研究生院 一种用于问答系统的答案排序方法
CN108563766A (zh) * 2018-04-19 2018-09-21 天津科技大学 食品检索的方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"文本蕴含关系识别与知识获取研究进展及展望";郭茂盛等;《计算机学报》;20170430;第889-910页 *

Also Published As

Publication number Publication date
CN110188168A (zh) 2019-08-30

Similar Documents

Publication Publication Date Title
CN110188168B (zh) 语义关系识别方法和装置
CN110569496B (zh) 实体链接方法、装置及存储介质
US7739276B2 (en) Method, system, and medium for retrieving photo using multimodal information
CN112667794A (zh) 一种基于孪生网络bert模型的智能问答匹配方法及系统
CN110413760B (zh) 人机对话方法、装置、存储介质及计算机程序产品
US20110099133A1 (en) Systems and methods for capturing and managing collective social intelligence information
US8032469B2 (en) Recommending similar content identified with a neural network
CN111090771B (zh) 歌曲搜索方法、装置及计算机存储介质
WO2013138516A1 (en) Publishing product information
CN111539197A (zh) 文本匹配方法和装置以及计算机系统和可读存储介质
CN112307364B (zh) 一种面向人物表征的新闻文本发生地抽取方法
WO2018176913A1 (zh) 搜索方法、装置及非临时性计算机可读存储介质
CN109635157A (zh) 模型生成方法、视频搜索方法、装置、终端及存储介质
Jin et al. Entity linking at the tail: sparse signals, unknown entities, and phrase models
US12067061B2 (en) Systems and methods for automated information retrieval
CN113515589B (zh) 数据推荐方法、装置、设备以及介质
CN109857873A (zh) 推荐实体的方法和装置、电子设备、计算机可读介质
CN113821588A (zh) 文本处理方法、装置、电子设备及存储介质
CN112925912B (zh) 文本处理方法、同义文本召回方法及装置
CN114461783A (zh) 关键词生成方法、装置、计算机设备、存储介质和产品
CN114328800A (zh) 文本处理方法、装置、电子设备和计算机可读存储介质
CN114077834A (zh) 确定相似文本的方法、装置以及存储介质
KR20070118154A (ko) 정보 처리 장치 및 방법, 및 프로그램 기록 매체
CN112818221B (zh) 实体的热度确定方法、装置、电子设备及存储介质
CN114385777A (zh) 文本数据处理方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant