CN111401928A - 基于图数据确定文本的语义相似度的方法及装置 - Google Patents

基于图数据确定文本的语义相似度的方法及装置 Download PDF

Info

Publication number
CN111401928A
CN111401928A CN202010252268.XA CN202010252268A CN111401928A CN 111401928 A CN111401928 A CN 111401928A CN 202010252268 A CN202010252268 A CN 202010252268A CN 111401928 A CN111401928 A CN 111401928A
Authority
CN
China
Prior art keywords
node
vector
text
graph data
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010252268.XA
Other languages
English (en)
Other versions
CN111401928B (zh
Inventor
杨明晖
崔恒斌
陈晓军
陈显玲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alipay Hangzhou Information Technology Co Ltd
Original Assignee
Alipay Hangzhou Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alipay Hangzhou Information Technology Co Ltd filed Critical Alipay Hangzhou Information Technology Co Ltd
Priority to CN202010252268.XA priority Critical patent/CN111401928B/zh
Publication of CN111401928A publication Critical patent/CN111401928A/zh
Application granted granted Critical
Publication of CN111401928B publication Critical patent/CN111401928B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/01Customer relationship services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Marketing (AREA)
  • Finance (AREA)
  • Economics (AREA)
  • Development Economics (AREA)
  • Accounting & Taxation (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本说明书实施例提供了利用图数据确定文本的语义相似度的构思,在该技术构思下,图数据中的节点对应语料库中的句子和词,相关联的句子和词、词和词之间通过连接边连接,各个节点对应有能够表达相应词或句子的语义信息的节点表达向量。在对图数据的数据预处理过程中,能够利用大量无监督数据构建图数据,来描述词和句子、词和词之间的关系,并通过少量有监督数据优化处理模型的模型参数,使得相似文本的向量表示可以相互影响,从而通过图数据对文本和词汇进行有效的向量表达。在确定文本的语义相似度时,通过图数据获取待确定语义相似度文本的向量,利用向量相似度确定文本语义相似度。如此,可以提高文本语义相似度的通用性、准确度、有效性。

Description

基于图数据确定文本的语义相似度的方法及装置
技术领域
本说明书一个或多个实施例涉及计算机技术领域,尤其涉及基于图数据进行文本向量表达的方法和装置,以及基于图数据通过计算机确定文本相似度的方法和装置。
背景技术
随着人工智能技术的发展,越来越多的业务可以通过机器学习模型来完成。机器学习模型对自然语言的处理,也是重要的研究方向。例如,在智能客服领域,通常需要对文本的语义进行识别,确定用户提问所对应的标准问题,从而为用户提供合适的答案。这种情况下,很多方案都涉及文本相似度问题,也就是,用户提问的自然语言表达文本与标准问题文本之间的相似程度。
常规技术中,诸如jaccard系数、余弦相似度之类的简单文本相似度方法,只考虑字词本身,不包含整体语义信息,所以虽然在简单样本上效果较好,但很难处理语义复杂的情况。基于神经网络模型的算法,如CNN、RNN、Transformer(编码)等,能较好地捕捉语义信息,在大部分数据集上可以取得更好的结果,然而这些神经网络模型通常依赖大量有监督数据才能获得比较好的效果。
在一些数据量大,语义表达复杂(如云客服)的场景下,虽然累积了大量的语料,然后针对单个业务很难收集高质量的标注数据,训练文本相似度模型效果有限。因此,需要提供一种通用度高的文本相似度确定方法,不依赖数量庞大的监督数据,仍然可以为各种业务场景确定准确的相似度文本。
发明内容
本说明书一个或多个实施例描述了一种基于图数据确定文本相似度的方法及装置,用以解决背景技术提到的一个或多个问题。
根据第一方面,提供了一种基于图数据进行文本向量表达的方法,所述图数据包括,分别与对应于语料库中的各个词汇的若干词节点、分别对应于语料库中的各个句子的若干句子节点,以及具有关联关系的词节点和词节点之间、词节点和句子节点之间对应的连接边,各个节点分别对应有节点表达向量;
所述方法包括:利用预设的处理模型处理所述图数据,所述处理模型用于遍历所述图数据中的各个节点,以针对所述图数据中的各个节点,执行邻居节点向量融合操作,从而更新各个节点的节点表达向量; 获取第一样本中,由第一样本文本和第二样本文本构成的样本文本对,所述样本文本对还对应有样本相似性标签;根据更新后的图数据,分别确定与所述第一样本文本对应的第一样本向量,以及与所述第二样本文本对应的第二样本向量;利用预定的相似度模型确定所述第一样本向量与所述第二样本向量的相似度;基于所述相似度与所述样本相似性标签进行对比,从而根据对比结果调整所述处理模型的模型参数;利用调整后的处理模型处理图数据,遍历图数据中的各个节点,执行所述邻居节点向量融合操作,以进一步更新各个节点的节点表达向量,从而使得所述图数据用于与确定文本的语义相似度相关的业务。
在一个实施例中,所述图数据包括第一节点,所述处理模型针对所述第一节点,执行的所述邻居节点向量融合操作包括:获取所述第一节点的至少一个邻居节点当前分别对应的各个邻居节点表达向量;对各个邻居节点表达向量进行融合,得到第一融合结果;将所述第一融合结果与所述第一节点的当前节点表达向量进行融合,得到第二融合结果;根据所述第二融合结果,更新所述第一节点的节点表达向量。
在一个进一步的实施例中,各个连接边对应有边权重,所述对各个邻居节点表达向量进行融合,得到第一融合结果包括:将各个邻居节点表达向量按照各自对应的边权重进行加权平均得到的平均向量,作为所述第一融合结果。
在另一个进一步的实施例中,所述将所述第一融合结果与所述第一节点的当前节点表达向量进行融合,得到第二融合结果包括:将所述第一融合结果和所述第一节点的当前节点表达向量拼接成2m维列向量;利用列数为2m的辅助权重矩阵,与所述2m维列向量的乘积,确定所述第二融合结果。
在一个实施例中,在所述第一样本文本与所述图数据中的第一句子节点对应的句子一致的情况下,所述根据更新后的图数据,分别确定与所述第一样本文本对应的第一样本向量,以及与所述第二样本文本对应的第二样本向量包括:获取所述第一句子节点当前的节点表达向量,作为所述第一样本文本对应的第一样本向量。
在一个实施例中,在所述第一样本文本与所述图数据中的各个句子节点对应的句子都不一致的情况下,所述从更新后的图数据中,获取与第一样本对应的两个文本表达向量包括:将所述第一样本文本进行分词,得到若干候选词;从所述图数据中获取各个候选词分别对应的各个词节点的节点表达向量;将各个候选词分别对应的各个词节点的节点表达向量进行融合,得到所述第一样本文本对应的第一样本向量。
在一个实施例中,所述预定的相似度模型为余弦相似度模型。
在一个实施例中,所述若干词节点包括具有关联关系的第一词节点和第二词节点,所述第一词节点和所述第二词节点之间的连接边的边权重,与所述第一词节点与所述第二词节点在语料库中的共现频次正相关,与所述第一词节点在语料库中的出现频次及所述第二词节点在语料库中的出现频次负相关。
在一个实施例中,所述若干句子节点包括第二句子节点,所述若干词节点包括与所述第二句子节点具有关联关系的第三词节点,所述第二句子节点与所述第三词节点之间的连接边的边权重为,与所述第三词节点对应的词汇在所述第二句子节点中的出现频次正相关,与所述第三词节点对应的词汇在语料库的出现频次负相关。
根据第二方面,提供了一种基于图数据确定文本语义相似度的方法,所述图数据包括分别与对应于语料库中的各个词汇的若干词节点、分别对应于语料库中的各个句子的若干句子节点,以及具有关联关系的词节点和词节点之间、词节点和句子节点之间对应的连接边,所述连接边根据节点之间的关联性对应有边权重,各个节点分别对应有通过第一方面提供的方法确定的各个节点表达向量;
所述方法包括:获取待确定语义相似度的第一文本、第二文本;根据所述图数据,分别确定与所述第一文本对应的第一向量、与所述第二文本对应的第二向量;
利用预定的相似度模型确定所述第一向量与所述第二向量的向量相似度;按照所述向量相似度确定所述第一文本与所述第二文本的语义相似性。
根据一方面的实施例,在所述第一文本与所述图数据中的第三句子节点对应的句子一致的情况下,所述根据所述图数据,分别确定与所述第一文本对应的第一向量、与所述第二文本对应的第二向量包括:获取所述第三句子节点当前的节点表达向量,作为所述第一文本对应的第一向量。
根据另一方面的实施例,在所述第一文本与所述图数据中的各个句子节点对应的句子都不一致的情况下,所述根据所述图数据,分别确定与所述第一文本对应的第一向量、与所述第二文本对应的第二向量包括:将所述第一文本进行分词,得到针对所述第一文本的若干候选词;从所述图数据中获取针对所述第一文本的各个候选词分别对应的各个词节点的节点表达向量;将针对所述第一文本的各个候选词分别对应的各个词节点的节点表达向量进行融合,得到所述第一文本对应的第一向量。
根据第三方面,提供一种基于图数据进行文本向量表达的装置,所述图数据包括,分别与对应于语料库中的各个词汇的若干词节点、分别对应于语料库中的各个句子的若干句子节点,以及具有关联关系的词节点和词节点之间、词节点和句子节点之间分别对应的连接边,各个节点分别对应有节点表达向量;
所述装置包括:
融合单元,配置为利用预设的处理模型处理所述图数据,所述处理模型用于遍历所述图数据中的各个节点,以针对所述图数据中的各个节点,执行邻居节点向量融合操作,从而更新各个节点的节点表达向量;
获取单元,配置为获取第一样本中,由第一样本文本和第二样本文本构成的样本文本对,所述样本文本对还对应有样本相似性标签;
向量确定单元,配置为根据更新后的图数据,分别确定与所述第一样本文本对应的第一样本向量,以及与所述第二样本文本对应的第二样本向量;
相似度确定单元,配置为利用预定的相似度模型确定所述第一样本向量与所述第二样本向量的相似度;
调整单元,配置为基于所述相似度与所述样本相似性标签进行对比,从而根据对比结果调整所述处理模型的模型参数;
所述融合单元还配置为,利用调整后的处理模型处理图数据,遍历图数据中的各个节点,执行所述邻居节点向量融合操作,以进一步更新各个节点的节点表达向量,从而使得所述图数据用于与确定文本的语义相似度相关的业务。
根据第四方面,提供一种基于图数据确定文本语义相似度的装置,所述图数据包括分别与对应于语料库中的各个词汇的若干词节点、分别对应于语料库中的各个句子的若干句子节点,以及具有关联关系的词节点和词节点之间、词节点和句子节点之间分别对应的连接边,所述连接边根据节点之间的关联性对应有边权重,各个节点分别对应有通过第三方面提供的装置确定的各个节点表达向量;
所述基于图数据确定文本语义相似度的装置包括:
获取单元,配置为获取待确定语义相似度的第一文本、第二文本;
向量确定单元,配置为根据所述图数据,分别确定与所述第一文本对应的第一向量、与所述第二文本对应的第二向量;
向量相似度确定单元,配置为利用预定的相似度模型确定所述第一向量与所述第二向量的向量相似度;
语义相似度确定单元,配置为按照所述向量相似度确定所述第一文本与所述第二文本的语义相似性。
根据第五方面,提供了一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行第一方面或第二方面的方法。
根据第六方面,提供了一种计算设备,包括存储器和处理器,其特征在于,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现第一方面或第二方面的方法。
通过本说明书实施例提供的方法和装置,提供了利用图数据确定文本的语义相似度的构思,在该技术构思下,图数据中的节点对应语料库中的句子和词,针对相关联的句子和词、词和词,相应节点之间分别通过连接边连接。各个节点对应有能够表达相应词或句子的语义信息的节点表达向量。在对图数据的数据预处理过程中,能够利用大量无监督数据构建图数据,来描述词和句子、词和词之间的关系,并通过少量有监督数据(样本文本对)优化处理模型的模型参数,使得相似文本的向量表示可以相互影响,从而处理模型更准确地聚合图数据中各个节点的邻居节点信息。在确定文本的语义相似度时,通过图数据获取待确定语义相似度的文本的向量,根据向量相似度确定文本的语义相似度。如此,可以提供更通用、准确、有效的文本语义相似度确定方法。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1示出适用于本说明书的技术构思的一个具体例子的图数据示意图;
图2示出本说明书技术构思中对业务模型进行数据预处理的实施架构示意图;
图3示出根据一个实施例的基于图数据进行文本向量表达的方法流程图;
图4示出一个具体例子的通过处理模型处理图数据更新节点表达向量的效果示意图;
图5示出根据一个实施例的基于图数据确定文本的语义相似度的方法流程图;
图6示出根据一个实施例的基于图数据进行文本向量表达的装置的示意性框图;
图7示出根据一个实施例的基于图数据确定文本的语义相似度的装置的示意性框图。
具体实施方式
下面结合附图,对本说明书提供的方案进行描述。
图1示出了适用于本说明书实施架构的图数据的示意图。适用于本说明书实施架构的图数据可以描述语料库中的句子和词汇,以及他们之间的关系。在图数据中,句子和词汇分别对应各个节点,每个节点都可以通过相应的节点向量表示。节点之间的连接关系通过连接边表示。其中,语料库可以包括各种途径或来源获取的语料数据,例如可以是新闻语料、日常聊天语料、外交语料、专业学术语料(如农业、医学等专业语料),还可以是各种网络平台的客服语料等等。
在图1中,给出了针对包含两个句子的语料库的图数据。这两个句子用虚线大圆对应的节点表示,分别为“欠款怎么提前还”、“借钱怎么预约”。两个句子中涉及的词汇有“欠款”、“怎么”、“提前”、“还”、“借钱”、“预约”等,图1中通过实线小圆对应的节点表示。其中,每个句子分别与其中包含的词汇之间具有关联关系,在同一个句子中具有共现关系的词汇之间具有关联关系。如图1所示,具有关联关系的节点通过连接边连接。
在可选的实现方式中,连接边还可以对应有边权重。一方面,词和词对应的节点之间的边权重可以与两个词汇在语料库的共现频次正相关,与两个词汇在语料库各自的出现频次负相关。例如可以通过点互信息 (Pointwise Mutual Information,PMI)来描述。点互信息可以通过概率来描述两个事物(这里是两个词汇)之间的相关性。例如,PMI(x,y)=P(x,y)/(P(x)P(y)),其中,P(x,y)为事物x和y的共现概率。通常,如果两个事物相互独立(毫不相关),那么它们共现的概率为0,PMI指标为0。对于两个词汇来说,共现概率可以理解为两个词汇在语料库中同时出现的频次。各个词汇自身的频率可以通过其在语料库中同时出现的频次来表示。另一方面,句子和词之间的连接边的边权重可以与词在句子中的出现频次正相关,与词在语料库中的出现频次负相关。例如可以通过词频逆向文本频率(TF-IDF)来表示。其中,句子A中的词汇b的TF-IDF可以与词汇b在句子A中出现的频次正相关,与词汇b在语料库中出现的频次负相关。
对于这样的图数据,可以描述语料库中句子和词汇之间的关联关系。为了使得图数据能够更好地描述句子和词汇的语义特点,可以进一步对图数据进行预处理,以使得图数据可以用来通过向量表达文本,进而图数据用于确定文本相似度。可以理解,在计算机中,语义特点可以用向量来描述,因此,图数据中各个节点都可以对应有节点表达向量。对图数据进行数据预处理的目的,在于为图数据中的各个节点确定合适的节点表达向量,使得节点表达向量可以准确地描述相应词或句子的语义特征,以用于文本相似度的确定。
图2是本说明书技术构思下,对图数据进行预处理的一个实施架构示意图。为了明确图2中的预处理流程的顺序性,在图2中标出了一部分序号,在以下对图2的描述中,按照序号标示的按顺序进行。通过对图数据的预处理,可以实现基于图数据对文本进行向量表达。
参考图2所示,在对图数据进行数据预处理之前,先对图数据进行初始化,得到初始图数据。具体地,是利用语料库中的语料创建图数据并对图数据的节点表达向量进行初始化。可以理解,图数据创建后,连接关系可以是固定的,后续预处理过程侧重于调节节点表达向量。但不排除在可能的设计中,更改节点的连接关系,或者增加新的节点。在一个实施例中,可以将各个节点分别对应的各个节点向量进行随机初始化,也就是随机生成预定维数的向量作为节点向量。在另一个实施例中,可以将词节点的初始节点向量确定为相应词向量,句子的初始节点向量随机初始化。在又一个实施例中,还可以将词节点的初始节点向量确定为相应词向量,句子的初始节点向量确定为与该句子相关的各个词汇对应的各个节点向量的加权和得到的向量。
为了使得节点表达向量可以更好地描述相应节点的语义信息,可以将邻居节点的节点表达向量融合到当前节点的节点表达向量中。在此可以称为邻居节点向量融合操作。邻居节点向量融合操作可以通过预定的处理模型进行处理,这里的处理模型例如是包括加权平均、拼接、取最大值、图神经网络等至少一种方式的处理模型。处理模型对图数据的处理过程可以看作是对图数据的无监督处理过程。其中,处理模型可以对图数据中的各个节点进行k次遍历。例如处理模型为图神经网络时,图神经网络的隐层数量可以为k。其中,k可以是预先设定的值,例如为2-10之间的数。可以理解的是,用于对图数据进行处理的处理模型可以包括有模型参数,例如权重参数等,模型参数可以随机初始化,或者具有预设的初始值。
在图2中,假设经过处理模型处理后,图数据中的节点表达向量发生了改变,为了描述方便,图2中把对应有新的节点表达向量的图数据称为第一图数据。进一步地,可以针对第一图数据,通过第一样本的检测,训练处理模型。值得说明的是,这里的第一样本也可以理解为第一批样本,即包含一个或多个样本。一个训练样本可以包括一个样本文本对,以及对应的相似性标签。其中,一个样本文本对包括两个样本文本。值得说明的是,这里的样本包括的文本对中的文本是经过标注的用于调整图数据的语义表达的文本,其可以是语料库中的文本,也可以是语料库之外的文本,还可以一部分是语料库中的文本、一部分是语料库外的文本,本说明书对此不作限定。在可选的实现中,用于构建图数据的语料库还可以是训练样本集。
针对这两个样本文本,可以根据第一图数据,分别获取相应的文本向量。接着,基于两个样本文本分别对应的两个向量的对比,确定当前图数据对应的节点表达向量对样本文本对中的两个样本文本的相似性表现能力,该相似性表现能力例如通过向量相似度描述。利用两个样本文本的向量相似度与相应相似度标签(例如语义相同用1表示,否则用0表示)比较,向使得向量相似度接近相似度标签的方向调整处理模型的模型参数。调整模型参数的过程可以针对k次迭代中每次迭代过程的反向调整。
如图2所示,调整模型参数后的处理模型可以称为第一处理模型。通过第一样本调整处理模型的模型参数的过程可以看作对处理模型的有监督训练过程。
进一步地,通过调整模型参数后的处理模型(图2中的第一处理模型)再对图数据进一步处理,以调整各个节点分别对应的各个节点表达向量。其中,在一个实施例中,可以在第一图数据的基础上,进行进一步处理(如图2所示)。在另一个实施例中,可以在初始图数据的基础上,利用第一处理模型再次进行处理。图2中将处理模型再次处理后的图模型称为第二图模型,再通过第二样本,在第二图模型上进行检测,从而调整第一处理模型的模型参数。以此类推,经过处理模型处理图数据以更新节点表达向量、在处理后的图数据上检测样本预测结果处理模型、经过处理模型处理图数据以更新节点表达向量……的循环过程。直至在某次更新后的图数据上检测到样本的预测结果对应的指标满足预定条件,例如准确度大于设定阈值、召回率大于设定阈值、F1分数(如准确度与召回率的比值)大于预定阈值,等等,将此时的图数据作为最终的图数据。可选地,这里说的最终的图数据可以理解为包含最终的节点表达向量的图数据,或者是对应有最终的节点表达向量的图数据。同时,将此时的处理模型作为最终的处理模型。
如此,通过图模型的无监督处理和对处理模型的有监督调节交替进行,无需大量的单个业务领域标注样本的训练,具有一定的通用性,并且可以加快模型收敛速度。可选地,每次使用的样本可以是不同领域的样本文本对,增加图数据的通用性。可以理解的是,在图2示出的数据预处理得到基于图数据的文本向量表达过程中,至少可以经历两次处理模型对图数据的处理流程,以及通过样本对处理模型的模型参数调整过程。也就是说,至少将第二图数据作为最终图数据,相应地,将第一处理模型作为最终处理模型。
在通过图数据预测文本相似度时,可以直接从最终的图模型中获取待预测文本相似度的两个文本对应的文本向量,如果待预测文本与图模型中的句子节点一致,将句子节点的节点表达向量作为相应的文本向量,如果待预测文本与图模型中的句子节点不一致,对待预测文本分词后获取相应词节点的节点表达向量,并融合成文本向量。之后,对待预测文本相似度的两个文本对应的两个文本向量确定相似度,即为这两个文本的相似度。可见,通过图数据,不仅丰富了文本的语义信息,而且预测过程大大得到简化。对于图数据中不存在的文本,也能准确获取包含语义信息的文本向量,大大提高了预测文本相似度的有效性。
下面详细描述基于图数据进行文本向量表达的过程。
图3示出一个实施例的基于图数据进行文本向量表达的流程。这里的图数据通过语料库中的语料构建,语料库中的句子和词汇分别对应各个节点,例如句子对应句子节点,词汇对应词节点。具有关联关系的词节点和词节点之间、词节点和句子节点之间通过连接边进行连接。例如,语料库中一个词汇和另一个词汇在同一个句子中共现,则它们之间可以具有连接关系。一个词汇在一个句子中出现,它们之间也可以具有连接关系。可选地,连接边还可以对应有边权重,如前述记载,在此不再赘述。
如图3所示,基于图数据进行文本向量表达的方法可以包括以下步骤:步骤301,利用预设的处理模型处理图数据,处理模型用于遍历图数据中的各个节点,以针对图数据中的各个节点,执行邻居节点向量融合操作,从而更新各个节点的节点表达向量;步骤302,获取第一样本中,由第一样本文本和第二样本文本构成的样本文本对,样本文本对还对应有样本相似性标签;步骤303,根据更新后的图数据,分别确定与第一样本文本对应的第一样本向量,以及与第二样本文本对应的第二样本向量;步骤304,利用预定的相似度模型确定第一样本向量与第二样本向量的相似度;步骤305,将上述相似度与样本相似性标签进行对比,从而根据对比结果调整处理模型的模型参数;步骤306,利用调整后的处理模型处理图数据,遍历图数据中的各个节点,执行邻居节点向量融合操作,以进一步更新各个节点的节点表达向量,从而使得图数据用于与确定文本相似度相关的业务。
首先,在步骤301中,利用预设的处理模型处理图数据。这里,处理模型可以是用于遍历图数据中的各个节点,以针对图数据中的各个节点,执行邻居节点向量融合操作,从而更新各个节点的节点表达向量的模型。该处理模型例如可以通过图神经网络实现,或者通过包含加权求和、求平均、取最大值、拼接等等中的至少一种方式的其他模型实现,在此不作限定。
处理模型对图数据的处理过程可以如图4所示。对于当前图数据中的任一个节点,利用其邻居节点的向量融合结果,更新该节点。例如针对节点X9,可以将其邻居节点X7、X8、X……等等节点的节点表达向量的融合结果来更新节点X9的节点表达向量。针对节点X7,通过其邻居节点X4、X8、X9、X6等更新节点X7的节点表达向量。
如图4所示,处理模型对图数据的处理可以多次(如k次)迭代进行,每次迭代过程都可以遍历图数据中的各个节点。也就是对各个节点的节点表达向量都进行一次更新。如此,经过k次迭代,可以融合节点的k阶邻居节点包含的信息。
以图数据中的第一节点(可以是任意节点)为例,根据一个实施方式,可以将第一节点看作其自身的零阶邻居节点,邻居节点向量融合操作可以通过诸如加权平均、拼接、取最大值等至少一种方式将第一节点的邻居节点进行融合。以将各个邻居节点的节点表达向量加权平均方式为例,一阶邻居节点的加权权重可以为与相应连接边的边权重正相关的数,当前节点自身的加权权重可以是预定值,或者根据一阶邻居节点与第一节点之间的连接边的边权重确定的值(例如是与各个一阶邻居节点对应的边权重之和正相关的数)。此时,描述加权权重和边权重正相关关系的系数可以作为模型参数。再例如,将各个邻居节点分别对应的各个节点表达向量拼接成邻居节点表达向量(列向量)的情况下,还可以通过辅助权重矩阵,对拼接后的向量降维,以免向量维度膨胀性增大。如,第一节点对应的辅助权重矩阵可以是行数与节点表达向量维数一致,列数与第一节点的邻居节点表达向量拼接向量维数一致的矩阵。此时,辅助权重矩阵的每一行上的各个元素也可以理解为,相应邻居节点表达向量的相应维度的元素针对第一节点相应向量维度的重要度系数。此时,可以利用辅助权重矩阵与该邻居节点表达向量的乘积,作为邻居节点向量融合操作得到的融合结果,并根据该融合结果更新第一节点的节点表达向量。此时,辅助权重矩阵可以作为模型参数。
仍以图数据中的第一节点为例,根据另一个实施方式,可以先获取第一节点的至少一个邻居节点当前分别对应的各个邻居节点表达向量,然后对各个邻居节点表达向量进行融合,得到第一融合结果,再将第一融合结果与所述第一节点的当前节点表达向量进行融合,得到第二融合结果,然后利用辅助权重矩阵处理第二融合结果,利用该处理结果,可以更新第一节点的节点表达向量。其中,“对各个邻居节点表达向量进行融合,得到第一融合结果”、“将第一融合结果与所述第一节点的当前节点表达向量进行融合,得到第二融合结果”的融合过程均可以采用与前述的融合相似的过程,在此不再赘述。融合过程中引入的相关参数为模型参数。
如图4所示,在图数据中遍历各个节点(对各个节点分别执行一次邻居节点向量融合操作),可以看作针对图数据完成一次邻居节点向量融合,全部节点的节点表达向量被更新一次。图4中的一次图数据的邻居节点向量融合也可以通过一层图神经网络实现。k层的图神经网络可以完成k次图数据的邻居节点向量融合。
在k次邻居节点融合的迭代过程中,每次迭代过程可以遍历各个节点,并将当前节点(如第一节点)及其邻居节点的前一次融合后的向量(第1次邻居节点融合利用初始节点向量)进行融合,从而得到当前节点在当前次融合后的表达向量,并作为下一次迭代的基础。
作为一个具体示例,在第t次迭代过程中,当前节点i(如第一节点)的邻居节点向量的融合向量(如前述的第一融合结果)可以为,节点i的各个邻居节点的节点向量的加权平均。例如可以表示为:
Figure 861320DEST_PATH_IMAGE002
其中,j是节点i的任意邻居节点,
Figure DEST_PATH_IMAGE003
表示节点i和节点j之间的连接边权重,
Figure 16225DEST_PATH_IMAGE004
表示节点i的邻居节点集合,
Figure DEST_PATH_IMAGE005
为节点j前一次融合后的节点表达向量。当t=1时,
Figure 955975DEST_PATH_IMAGE005
为节点j的初始节点表达向量。
可以理解,针对邻居节点向量融合的迭代操作是为了挖掘当前节点的更丰富的语义特征,上式仅作为当前节点i的邻居节点向量融合表达式,同时还要考虑其自身原有的节点表达向量。也就是将自身节点表达向量与邻居节点表达向量的融合结果进一步进行融合(如得到上述的第二融合结果),这里的融合可以采用加和、求平均、拼接等多种方式实现。
以拼接为例,在一个具体例子中,融合结果例如可以表示为拼接形式:
Figure 708030DEST_PATH_IMAGE006
。拼接后的向量维度为拼接前的向量维度的2倍。进一步地,为了防止向量维度的急剧增加,可以利用辅助权重矩阵对拼接后的矩阵进行降维处理。假设拼接前的向量维度为m,拼接后的向量为2m,为了描述方便,假设这里的拼接向量为2m维的列向量,则可以利用一个m'行,2m列的辅助矩阵与该拼接向量相乘,得到m'维的向量。通常,m'可以与m相等。例如记为:
Figure 937017DEST_PATH_IMAGE008
其中,
Figure DEST_PATH_IMAGE009
表示拼接,W为辅助权重矩阵(作为模型参数,初始的辅助权重矩阵可以随机赋值或设定为预定值),用于描述拼接向量的各个元素的权重,并控制节点表达向量的维数,
Figure 610575DEST_PATH_IMAGE010
为sigmoid函数,用于将函数值映射到预定区间(如0到1区间)。在可选的方案中,辅助权重矩阵W至少为当前次迭代过程中的通用矩阵。
至此,得到当前节点i在第t次迭代确定的表达向量。如图4所示,对每个节点执行相似的操作,可以完成第t次对图数据中的各个节点的节点表达向量的更新。当以上处理模型通过图神经网络实现时,相当于经过第t层图神经网络对图数据的处理。
其中,k可以是预先设置的数值,例如2-10之间的自然数。经过预设次数k的邻居节点向量融合的迭代后,各个节点对应的向量被赋予了更多的语义信息,可以加快图数据的预处理速度。可以理解的是,经过步骤301对图数据的预处理步骤,在不使用相似性文本样本的情况下进行,因此也可以理解为无监督的预训练过程。通过无监督预训练,可以减少样本数量。接着,在步骤302中,获取第一样本中,由第一样本文本和第二样本文本构成的样本文本对,样本文本对还对应有样本相似性标签。这里,样本文本对中的第一样本文本和第二样本文本,可以是语料库中的文本,也可以是其他来源的文本在此不作限定。其中,一个样本文本对可以对应两个样本文本,以及预先标注的相似性标签,例如相似(如用1表示)或不相似(如用0表示)。
值得说明的是,这里的样本文本可以是一个句子,也可以是多个短语。例如句子“借的钱怎么分期偿还”,或者多个短语“我上个月借了3000元”、“想提前还”、“怎么操作”等等。
另外,与图2中的描述一致地,本步骤302中的第一样本可以是一个训练样本(对应一个样本文本对),也可以包括多个训练样本(对应多个样本文本对)。
进一步地,可以利用上述样本文本对,对处理模型进行有监督的训练。在步骤303中,根据更新后的图数据,分别确定与第一样本文本对应的第一样本向量,以及与第二样本文本对应的第二样本向量。可以理解,本说明书的技术构思下,图数据可以用于确定文本相似度,而图数据将语料库中的句子和词汇都通过节点表达向量描述它们的语义,因此,通过图数据,可以确定第一样本文本对应的第一样本向量,以及与第二样本文本对应的第二样本向量。
具体地,对于第一样本中一个包含句子A(也可以称之为第一样本文本)和句子B(也可以称之为第二样本文本)的样本,可以从第一图数据中获取句子A和句子B当前分别对应的向量a(也可以称之为第一样本向量)和向量b(也可以称之为第二样本向量)。其中,对应于语料库中的文本的通常是句子节点,在句子A或者句子B与第一图数据中的某个句子节点对应的句子(如第一句子)一致时,可以直接获取该句子节点当前的节点表达向量,作为句子A或者句子B对应的样本向量。对于不存在于语料库中的文本,也不存在与图数据中,则可以通过词汇对文本进行表达,于是,在句子A或者句子B和第一图数据中的任意句子都不一致时,可以对句子A或者句子B先进行分词处理,得到至少一个候选词。然后,在图数据中查询各个候选词分别对应的各个词节点当前的节点表达向量,再将各个候选词分别对应的各个词节点当前的节点表达向量进行融合,得到句子A或句子B对应的样本向量。其中,将各个候选词分别对应的各个词节点当前的节点表达向量进行融合的方式例如可以包括但不限于,加权平均、求和、取最大值等等中的至少一种。如此,将不在语料库中的样本文本作为训练数据,也有利于提高图数据针对语料库中没有出现的文本在语义表达上的正确性。可选地,如果分词得到的某个候选词不在图数据中,还可以在上述过程中获取该候选词的词向量(如word2Vec词向量)作为相应词汇对应的表达向量,进而得到相应样本文本对应的样本向量。
在步骤304中,利用预定的相似度模型确定第一样本向量与第二样本向量的相似度。这里,预定的相似度模型例如可以是余弦相似度、方差之类的向量相似性确定模型。
以余弦相似度为例,假设向量a和向量b都是n维的向量,向量与a向量b的余弦相似度可以为,向量a和向量b中相应元素的乘积之和,与向量a的模和向量b的模的乘积的比值,如:
Figure 481579DEST_PATH_IMAGE012
其中,
Figure DEST_PATH_IMAGE013
分别为向量a和向量b的第i维度的元素值。在余弦相似度的对比方式下,对比结果在0-1之间取值。余弦相似度越靠近1,第一向量和第二向量越相似,反之,余弦相似度越靠近0,第一向量和第二向量越接近垂直(相似性越低)。
接着,通过步骤305,将上述相似度与样本相似性标签进行对比,从而根据对比结果调整处理模型的模型参数。通常,相似性标签可以表示为与相似度确定方式相对应的表示方式。例如,当上述相似度为余弦相似度时,相似性标签可以表示为:具有相同语义用1表示,不具有相同语义用0表示。
将句子A和句子B是否具有相同语义的样本标签与该相似度进行比较,可以调整处理模型中的模型参数,以训练用于处理图数据的处理模型。可以理解,在k次迭代过程中,各次迭代过程中的辅助参数可以相同也可以不相同,在一次迭代过程中,不同节点之间的腐竹参数也可以相同或不相同,相应地,模型参数的规模、调整复杂度都不相同。可选地,各次迭代过程中的辅助参数可以相同,例如,在处理模型为图神经网络的情况下,每层图神经网络对应一个辅助矩阵。
在一个实施例中,用
Figure 169699DEST_PATH_IMAGE014
表示作为样本文本对对应的两个向量的相似度,用
Figure DEST_PATH_IMAGE015
(0或1)表示样本的相似性标签,可以将损失函数记为:
Figure DEST_PATH_IMAGE017
或者:
Figure DEST_PATH_IMAGE019
其中,由于确定样本文本对中的两个样本文本对应的样本向量的节点表达向量是k次迭代的语义综合,与各次迭代中处理模型的模型参数(如辅助权重矩阵W)相关联,因此,可以通过调整模型参数使得损失函数趋于减小。当各迭代层具有不同的模型参数时,可以反向逐层调整各层的辅助权重矩阵。例如在处理模型为图神经网络时,从第k层图神经网络的辅助矩阵Wk,逐级向前调整到第1层图神经网络的辅助矩阵W1
值得说明的是,当样本中的句子为语料库之外的句子时,可以将该句子进行分词处理,获取各个相关词汇,并利用相关词汇的当前表达向量融合得到句子的当前向量。
在该步骤305中,可以利用单个样本文本对的损失函数调整处理模型的模型参数,也可以利用多个样本文本对的损失函数之和调整模型参数,在此不做限定。
通过步骤303、步骤304、步骤305,对处理模型的模型参数进行调整,相当于通过图数据在样本文本对上的相似性表达能力,对处理模型进行了有监督的训练。
进一步地,根据步骤306,利用调整后的处理模型处理图数据,遍历图数据中的各个节点,执行邻居节点向量融合操作,以进一步更新各个节点的节点表达向量,从而使得图数据用于与确定文本相似度相关的业务。
根据一个可能的设计,可以利用调整模型参数后的处理模型重新在初始图数据的基础上执行k次迭代的邻居节点向量融合操作,得到各个节点的节点表达向量。
根据另一个可能的设计,可以在步骤301中更新后的图数据(如图2中的第一图数据等)的基础上,利用调整模型参数后的处理模型,再执行k次迭代的邻居节点向量融合操作,得到对应新的节点表达向量的新的图数据(如图2中的第二图数据)。
如果更新后各个节点的节点表达向量在测试集上的预定指标(例如准确度、召回率等)满足预定条件,则将当前的图数据作为最终的图数据。否则,利用新的样本(如图2示出的低二样本)进一步调整处理模型的模型参数,以此类推,直至确定出最终的图数据。
图2示出的实施场景或图3示出的流程,均至少经历无监督调整节点表达向量—有监督调整处理模型的模型参数—无监督调整节点表达向量的过程。这种反复调整的过程,一方面可以节约样本数量,另一方面可以加快模型参数的收敛。
之所以最终落在无监督调整节点表达向量,是因为,调整处理模型的目的,在于处理模型能够更有效地处理图模型,得到更准确的节点表达向量。这是基于本说明书发明构思下利用图数据进行文本相似度判断的思路紧密相关的。下面对本说明书技术构思下的确定文本相似度的方法进行详细的描述。
图5示出一个实施例的基于图数据确定文本语义相似度的流程。其中,这里的图模型可以是通过图2或图3示出的方式进行文本向量表达的图数据。在该图数据中,各个节点对应各个节点表达向量。图数据中的单个节点对应语料库中的单个词或单个句子。该流程的执行主体可以是具有一定计算能力的系统、设备、装置、平台或服务器。
如图5所示,基于图数据确定文本语义相似度的方法可以包括以下步骤:步骤501,获取待确定相似度的第一文本、第二文本;步骤502,根据所述图数据,分别确定与第一文本对应的第一向量、与第二文本对应的第二向量;步骤503,利用预定的相似度模型确定第一向量与第二向量的向量相似度;步骤504,按照上述向量相似度确定第一文本和第二文本的语义相似度。
首先,在步骤501中,获取待预测语义相似度的第一文本、第二文本。可以理解,这里的文本可以是一个句子或多个句子拼接成的一个句子。具体的句子内容与业务场景相关。例如在智能客服场景下,第一文本可以是用户在智能客服平台提出的问题。
接着,在步骤502中,根据图数据,分别确定与第一文本对应的第一向量、与第二文本对应的第二向量。由于图数据中的节点表达向量可以描述相应句子或词的语义信息,因此,可以根据图数据中各个节点对应的节点表达向量,确定与第一文本、第二文本分别对应的第一向量、第二向量。
在第一文本/第二文本与图数据中的某个句子一致的情况下,可以直接获取相应句子的节点向量,作为第一文本/第二文本对应的第一向量/第二向量。
在第一文本/第二文本与图数据中的各个句子都不一致的情况下,可以对第一文本/第二文本进行分词处理,分词得到的各个词汇为候选词。从图数据中获取各个候选词的表达向量,将这些候选词的表达向量进行融合,如加和、求平均、加权平均等,得到第一文本/第二文本对应的第一向量/第二向量。可选地,如果分词得到的某个候选词不在图数据中,还可以在上述过程中获取该候选词的词向量(如word2Vec词向量)作为相应词汇对应的表达向量,进而得到相应样本文本对应的样本向量。
值得说明的是,第一文本、第二文本分别对应的第一向量、第二向量,由于在图数据训练过程中融合了邻居节点的信息,包含了更丰富的语义特征,而不局限于字面含义本身。其可能涵盖近义表达、相关表达等等。也正因为如此,即使样本文本或预测文本跨领域,也可以根据词汇和句子的相关性,从图数据中获取较准确的语义向量,而无需通过相应领域的标准样本单独训练预测模型。
步骤503,利用预定的相似度模型确定第一向量和第二向量的向量相似度。这里,预定的相似度模型例如可以是诸如余弦相似度、方差之类的描述向量相似度的模型进行。
其中,相似度模型为余弦相似度时,余弦相似度在0-1之间取值,余弦相似度越靠近1,第一向量和第二向量越趋于平行,甚至重合,两个向量的向量相似度越大,反之,余弦相似度越靠近0,第一向量和第二向量越接近垂直(相似性越低),向量相似度越小。因此,第一向量和第二向量的向量相似度可以与余弦相似度正相关。
相似度模型为方差时,方差越大,向量相似度越小,方差越接近0,向量相似度越大。方差为0时,第一向量和第二向量重合。第一向量和第二向量的向量相似度可以与方差负相关。
步骤504,按照上述向量相似度确定第一文本与第二文本的语义相似度。可以理解,第一文本、第二文本对应的向量包含了相应的语义信息,因此,向量相似度可以反映出两个文本的语义相似度。因此,第一文本与第二文本的文本相似度与步骤503中确定的向量相似度具有一致性。这里,文本相似度可以和向量相似度正相关。当相关系数取1,且不包含常数项时,步骤503中确定的向量相似度可以作为这里的文本相似度。
回顾以上过程,本说明书实施例提供的基于图数据进行文本向量表达,以及利用图数据确定文本的语义相似度的方法,在图数据预处理过程中,可以采用无监督和有监督交替的方式进行,如此,可以减少样本需求量,加快图数据进行文本向量表达的训练速度。同时,采用对邻居节点进行向量融合来确定当前节点的表达向量的图数据形式,充分考虑句子和词、词和词之间的关联性,提高对应的节点表达向量的表达能力。
在本说明书的实施架构下,能够利用大量无监督数据构建图数据,来描述词和句子、词和词之间的关系,并通过少量有监督数据(样本文本对)优化处理模型的模型参数,使得相似文本的向量表示可以相互影响,从而处理模型更准确地聚合图数据中各个节点的邻居节点信息。总之,本说明书的实施方式不仅提供了更有效的文本语义相似度确定架构,还提供了该架构下的有效数据预处理方式,在语料库包含多领域数据的情况下,还打破领域界限,提供更通用的确定语义相似度的图数据,从而提高文本相似度的准确度和有效性。
根据另一方面的实施例,还提供一种基于图数据进行文本向量表达的装置。其中,这里的图数据可以通过向量表达文本和词汇,以用于确定文本的语义相似度。图数据可以包括,分别与对应于语料库中的各个词汇的若干词节点、分别对应于语料库中的各个句子的若干句子节点,以及具有关联关系的词节点和词节点之间、词节点和句子节点之间分别对应的连接边,各个节点分别对应有节点表达向量。
图6示出根据一个实施例的基于图数据进行文本向量表达的装置的示意性框图。如图6所示,装置600包括:融合单元61,配置为利用预设的处理模型处理上述图数据,处理模型用于遍历图数据中的各个节点,以针对图数据中的各个节点,执行邻居节点向量融合操作,从而更新各个节点的节点表达向量; 获取单元62,配置为获取第一样本中,由第一样本文本和第二样本文本构成的样本文本对,样本文本对还对应有样本相似性标签;向量确定单元63,配置为根据更新后的图数据,分别确定与第一样本文本对应的第一样本向量,以及与第二样本文本对应的第二样本向量;相似度确定单元64,配置为利用预定的相似度模型确定第一样本向量与第二样本向量的相似度;调整单元65,配置为基于相似度与样本相似性标签进行对比,从而根据对比结果调整处理模型的模型参数;融合单元61还配置为,利用调整后的处理模型处理图数据,遍历图数据中的各个节点,执行邻居节点向量融合操作,以进一步更新各个节点的节点表达向量,从而使得图数据用于与确定文本的语义相似度相关的业务。
根据一个实施例,图数据包括第一节点,融合单元61进一步可以配置为针对第一节点,执行以下邻居节点向量融合操作:
获取第一节点的至少一个邻居节点当前分别对应的各个邻居节点表达向量;
对各个邻居节点表达向量进行融合,得到第一融合结果;
将第一融合结果与第一节点的当前节点表达向量进行融合,得到第二融合结果;
根据第二融合结果,更新第一节点的节点表达向量。
在一个进一步的实施例中,各个连接边对应有边权重,融合单元61进一步可以配置为通过以下方式对各个邻居节点表达向量进行融合,得到第一融合结果:
将各个邻居节点表达向量按照各自对应的边权重进行加权平均得到的平均向量,作为所述第一融合结果。
在另一个进一步的实施例中,融合单元61进一步可以配置为,通过以下方式得到所述第二融合结果:
将第一融合结果和第一节点的当前节点表达向量拼接成2m维列向量;
利用列数为2m的辅助权重矩阵,与所述2m维列向量的乘积,确定第二融合结果。
根据一方面的实施方式,在第一样本文本与图数据中的第一句子节点对应的句子一致的情况下,向量确定单元63进一步配置为:
获取第一句子节点当前的节点表达向量,作为第一样本文本对应的第一样本向量。
根据另一方面的实施方式,在第一样本文本与图数据中的各个句子节点对应的句子都不一致的情况下,向量确定单元63进一步配置为:
将所述第一样本文本进行分词,得到若干候选词;
从所述图数据中获取各个候选词分别对应的各个词节点的节点表达向量;
将各个候选词分别对应的各个词节点的节点表达向量进行融合,得到所述第一样本文本对应的第一样本向量。
在一个实施例中,预定的相似度模型为余弦相似度模型。
在一个可能的设计中,图数据中的若干词节点包括具有关联关系的第一词节点和第二词节点,第一词节点和所述第二词节点之间的连接边的边权重,与第一词节点、第二词节点在语料库中的共现频次正相关,与第一词节点在语料库中的出现频次及第二词节点在语料库中的出现频次负相关。
在另一个可能的设计中,图数据中的若干句子节点包括第二句子节点,若干词节点包括与第二句子节点具有关联关系的第三词节点,第二句子节点与第三词节点之间的连接边的边权重为,与第三词节点对应的词汇在第二句子节点中的出现频次正相关,与第三词节点对应的词汇在语料库的出现频次负相关。
值得说明的是,图6所示的装置600是与图3示出的方法实施例相对应的装置实施例,图3示出的方法实施例中的相应描述同样适用于装置600,在此不再赘述。
根据另一方面的实施例,还提供一种利用图数据确定文本的语义相似度的装置。其中,这里的图数据可以包括,分别与对应于语料库中的各个词汇的若干词节点、分别对应于语料库中的各个句子的若干句子节点,以及具有关联关系的词节点和词节点之间、词节点和句子节点之间分别对应的连接边,各个节点分别对应有节点表达向量。各个节点表达向量可以是通过装置600的数据预处理过程最终确定的。
图7示出根据一个实施例的基于图数据确定文本语义相似度的装置的示意性框图。如图7所示,装置700包括:
获取单元71,配置为获取待确定语义相似度的第一文本、第二文本;
向量确定单元72,配置为根据图数据,分别确定与第一文本对应的第一向量、与第二文本对应的第二向量;
向量相似度确定单元73,配置为利用预定的相似度模型确定第一向量与第二向量的向量相似度;
语义相似度确定单元74,配置为按照向量相似度确定第一文本与第二文本的语义相似性。
其中,在第一文本/第二文本与图数据中的某个句子一致的情况下,向量确定单元72可以直接获取相应句子的节点向量,作为第一文本/第二文本对应的第一向量/第二向量。
在第一文本/第二文本与图数据中的各个句子都不一致的情况下,向量确定单元72可以对第一文本/第二文本进行分词处理,分词得到的各个词汇为候选词。从图数据中获取各个候选词的表达向量,将这些候选词的表达向量进行融合,如加和、求平均、加权平均等,得到第一文本/第二文本对应的第一向量/第二向量。
值得说明的是,图7所示的装置700是与图5示出的方法实施例相对应的装置实施例,图5示出的方法实施例中的相应描述同样适用于装置700,在此不再赘述。
根据另一方面的实施例,还提供一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行结合图3或图5所描述的方法。
根据再一方面的实施例,还提供一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现结合图3或图5所描述的方法。
本领域技术人员应该可以意识到,在上述一个或多个示例中,本说明书实施例所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时,可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。
以上所述的具体实施方式,对本说明书的技术构思的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本说明书的技术构思的具体实施方式而已,并不用于限定本说明书的技术构思的保护范围,凡在本说明书实施例的技术方案的基础之上,所做的任何修改、等同替换、改进等,均应包括在本说明书的技术构思的保护范围之内。

Claims (23)

1.一种基于图数据进行文本向量表达的方法,所述图数据包括,分别对应于语料库中的各个词汇的若干词节点、分别对应于语料库中的各个句子的若干句子节点,以及具有关联关系的词节点和词节点之间、词节点和句子节点之间分别对应的连接边,各个节点分别对应有节点表达向量;所述方法包括:
利用预设的处理模型处理所述图数据,所述处理模型用于遍历所述图数据中的各个节点,以针对所述图数据中的各个节点,执行邻居节点向量融合操作,从而更新各个节点的节点表达向量;
获取第一样本中,由第一样本文本和第二样本文本构成的样本文本对,所述样本文本对还对应有样本相似性标签;
根据更新后的图数据,分别确定与所述第一样本文本对应的第一样本向量,以及与所述第二样本文本对应的第二样本向量;
利用预定的相似度模型确定所述第一样本向量与所述第二样本向量的相似度;
基于所述相似度与所述样本相似性标签进行对比,从而根据对比结果调整所述处理模型的模型参数;
利用调整后的处理模型处理图数据,遍历图数据中的各个节点,执行所述邻居节点向量融合操作,以进一步更新各个节点的节点表达向量,从而使得所述图数据用于与确定文本的语义相似度相关的业务。
2.根据权利要求1所述的方法,其中,所述图数据包括第一节点,所述处理模型针对所述第一节点,执行的所述邻居节点向量融合操作包括:
获取所述第一节点的至少一个邻居节点当前分别对应的各个邻居节点表达向量;
对各个邻居节点表达向量进行融合,得到第一融合结果;
将所述第一融合结果与所述第一节点的当前节点表达向量进行融合,得到第二融合结果;
根据所述第二融合结果,更新所述第一节点的节点表达向量。
3.根据权利要求2所述的方法,其中,各个连接边对应有边权重,所述对各个邻居节点表达向量进行融合,得到第一融合结果包括:
将各个邻居节点表达向量按照各自对应的边权重进行加权平均得到的平均向量,作为所述第一融合结果。
4.根据权利要求2所述的方法,其中,所述将所述第一融合结果与所述第一节点的当前节点表达向量进行融合,得到第二融合结果包括:
将所述第一融合结果和所述第一节点的当前节点表达向量拼接成2m维列向量;
利用列数为2m的辅助权重矩阵,与所述2m维列向量的乘积,确定所述第二融合结果。
5.根据权利要求1所述的方法,其中,在所述第一样本文本与所述图数据中的第一句子节点对应的句子一致的情况下,所述根据更新后的图数据,分别确定与所述第一样本文本对应的第一样本向量,以及与所述第二样本文本对应的第二样本向量包括:
获取所述第一句子节点当前的节点表达向量,作为所述第一样本文本对应的第一样本向量。
6.根据权利要求1所述的方法,其中,在所述第一样本文本与所述图数据中的各个句子节点对应的句子都不一致的情况下,所述从更新后的图数据中,获取与第一样本对应的两个文本表达向量包括:
将所述第一样本文本进行分词,得到若干候选词;
从所述图数据中获取各个候选词分别对应的各个词节点的节点表达向量;
将各个候选词分别对应的各个词节点的节点表达向量进行融合,得到所述第一样本文本对应的第一样本向量。
7.根据权利要求1所述的方法,其中,所述预定的相似度模型为余弦相似度模型。
8.根据权利要求1所述的方法,其中,所述若干词节点包括具有关联关系的第一词节点和第二词节点,所述第一词节点和所述第二词节点之间的连接边对应有第一边权重,所述第一边权重与所述第一词节点与所述第二词节点在语料库中的共现频次正相关,与所述第一词节点在语料库中的出现频次及所述第二词节点在语料库中的出现频次负相关。
9.根据权利要求1所述的方法,其中,所述若干句子节点包括第二句子节点,所述若干词节点包括与所述第二句子节点具有关联关系的第三词节点,所述第二句子节点与所述第三词节点之间的连接边对应有第二边权重,所述第二边权重与所述第三词节点对应的词汇在所述第二句子节点中的出现频次正相关,与所述第三词节点对应的词汇在语料库的出现频次负相关。
10.一种基于图数据确定文本语义相似度的方法,所述图数据包括,分别对应于语料库中的各个词汇的若干词节点、分别对应于语料库中的各个句子的若干句子节点,以及具有关联关系的词节点和词节点之间、词节点和句子节点之间分别对应的连接边,所述连接边根据节点之间的关联性对应有边权重,各个节点分别对应有通过权利要求1所述的方法确定的各个节点表达向量;所述方法包括:
获取待确定语义相似度的第一文本、第二文本;
根据所述图数据,分别确定与所述第一文本对应的第一向量、与所述第二文本对应的第二向量;
利用预定的相似度模型确定所述第一向量与所述第二向量的向量相似度;
按照所述向量相似度确定所述第一文本与所述第二文本的语义相似性。
11.根据权利要求10所述的方法,其中,在所述第一文本与所述图数据中的第三句子节点对应的句子一致的情况下,所述根据所述图数据,分别确定与所述第一文本对应的第一向量、与所述第二文本对应的第二向量包括:
获取所述第三句子节点当前的节点表达向量,作为所述第一文本对应的第一向量。
12.根据权利要求10所述的方法,其中,在所述第一文本与所述图数据中的各个句子节点对应的句子都不一致的情况下,所述根据所述图数据,分别确定与所述第一文本对应的第一向量、与所述第二文本对应的第二向量包括:
将所述第一文本进行分词,得到针对所述第一文本的若干候选词;
从所述图数据中获取针对所述第一文本的各个候选词分别对应的各个词节点的节点表达向量;
将针对所述第一文本的各个候选词分别对应的各个词节点的节点表达向量进行融合,得到所述第一文本对应的第一向量。
13.一种基于图数据进行文本向量表达的装置,所述图数据包括,分别对应于语料库中的各个词汇的若干词节点、分别对应于语料库中的各个句子的若干句子节点,以及具有关联关系的词节点和词节点之间、词节点和句子节点之间分别对应的连接边,各个节点分别对应有节点表达向量;所述装置包括:
融合单元,配置为利用预设的处理模型处理所述图数据,所述处理模型用于遍历所述图数据中的各个节点,以针对所述图数据中的各个节点,执行邻居节点向量融合操作,从而更新各个节点的节点表达向量;
获取单元,配置为获取第一样本中,由第一样本文本和第二样本文本构成的样本文本对,所述样本文本对还对应有样本相似性标签;
向量确定单元,配置为根据更新后的图数据,分别确定与所述第一样本文本对应的第一样本向量,以及与所述第二样本文本对应的第二样本向量;
相似度确定单元,配置为利用预定的相似度模型确定所述第一样本向量与所述第二样本向量的相似度;
调整单元,配置为基于所述相似度与所述样本相似性标签进行对比,从而根据对比结果调整所述处理模型的模型参数;
所述融合单元还配置为,利用调整后的处理模型处理图数据,遍历图数据中的各个节点,执行所述邻居节点向量融合操作,以进一步更新各个节点的节点表达向量,从而使得所述图数据用于与确定文本的语义相似度相关的业务。
14.根据权利要求13所述的装置,其中,所述图数据包括第一节点,所述融合单元进一步配置为针对所述第一节点,执行以下邻居节点向量融合操作:
获取所述第一节点的至少一个邻居节点当前分别对应的各个邻居节点表达向量;
对各个邻居节点表达向量进行融合,得到第一融合结果;
将所述第一融合结果与所述第一节点的当前节点表达向量进行融合,得到第二融合结果;
根据所述第二融合结果,更新所述第一节点的节点表达向量。
15.根据权利要求14所述的装置,其中,各个连接边对应有边权重,所述融合单元进一步配置为通过以下方式对各个邻居节点表达向量进行融合,得到第一融合结果:
将各个邻居节点表达向量按照各自对应的边权重进行加权平均得到的平均向量,作为所述第一融合结果。
16.根据权利要求14所述的装置,其中,所述融合单元进一步配置为,通过以下方式得到所述第二融合结果:
将所述第一融合结果和所述第一节点的当前节点表达向量拼接成2m维列向量;
利用列数为2m的辅助权重矩阵,与所述2m维列向量的乘积,确定所述第二融合结果。
17.根据权利要求13所述的装置,其中,在所述第一样本文本与所述图数据中的第一句子节点对应的句子一致的情况下,所述向量确定单元进一步配置为:
获取所述第一句子节点当前的节点表达向量,作为所述第一样本文本对应的第一样本向量。
18.根据权利要求13所述的装置,其中,在所述第一样本文本与所述图数据中的各个句子节点对应的句子都不一致的情况下,所述向量确定单元进一步配置为:
将所述第一样本文本进行分词,得到若干候选词;
从所述图数据中获取各个候选词分别对应的各个词节点的节点表达向量;
将各个候选词分别对应的各个词节点的节点表达向量进行融合,得到所述第一样本文本对应的第一样本向量。
19.一种基于图数据确定文本语义相似度的装置,所述图数据包括,分别对应于语料库中的各个词汇的若干词节点、分别对应于语料库中的各个句子的若干句子节点,以及具有关联关系的词节点和词节点之间、词节点和句子节点之间对应的连接边,所述连接边根据节点之间的关联性对应有边权重,各个节点分别对应有通过权利要求13所述的装置确定的各个节点表达向量;所述基于图数据确定文本语义相似度的装置包括:
获取单元,配置为获取待确定语义相似度的第一文本、第二文本;
向量确定单元,配置为根据所述图数据,分别确定与所述第一文本对应的第一向量、与所述第二文本对应的第二向量;
向量相似度确定单元,配置为利用预定的相似度模型确定所述第一向量与所述第二向量的向量相似度;
语义相似度确定单元,配置为按照所述向量相似度确定所述第一文本与所述第二文本的语义相似性。
20.根据权利要求19所述的装置,其中,在所述第一文本与所述图数据中的第三句子节点对应的句子一致的情况下,所述向量确定单元进一步配置为:
获取所述第三句子节点当前的节点表达向量,作为所述第一文本对应的第一向量。
21.根据权利要求19所述的装置,其中,在所述第一文本与所述图数据中的各个句子节点对应的句子都不一致的情况下,所述向量确定单元进一步配置为:
将所述第一文本进行分词,得到针对所述第一文本的若干候选词;
从所述图数据中获取针对所述第一文本的各个候选词分别对应的各个词节点的节点表达向量;
将针对所述第一文本的各个候选词分别对应的各个词节点的节点表达向量进行融合,得到所述第一文本对应的第一向量。
22.一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行权利要求1-12中任一项的所述的方法。
23.一种计算设备,包括存储器和处理器,其特征在于,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现权利要求1-12中任一项所述的方法。
CN202010252268.XA 2020-04-01 2020-04-01 基于图数据确定文本的语义相似度的方法及装置 Active CN111401928B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010252268.XA CN111401928B (zh) 2020-04-01 2020-04-01 基于图数据确定文本的语义相似度的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010252268.XA CN111401928B (zh) 2020-04-01 2020-04-01 基于图数据确定文本的语义相似度的方法及装置

Publications (2)

Publication Number Publication Date
CN111401928A true CN111401928A (zh) 2020-07-10
CN111401928B CN111401928B (zh) 2022-04-12

Family

ID=71431444

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010252268.XA Active CN111401928B (zh) 2020-04-01 2020-04-01 基于图数据确定文本的语义相似度的方法及装置

Country Status (1)

Country Link
CN (1) CN111401928B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111737406A (zh) * 2020-07-28 2020-10-02 腾讯科技(深圳)有限公司 文本检索方法、装置及设备、文本检索模型的训练方法
CN111930894A (zh) * 2020-08-13 2020-11-13 腾讯科技(深圳)有限公司 长文本匹配方法及装置、存储介质、电子设备
CN112241460A (zh) * 2020-10-27 2021-01-19 上海明略人工智能(集团)有限公司 辅助推荐关键词的方法、装置、电子设备及存储介质
CN112699658A (zh) * 2020-12-31 2021-04-23 科大讯飞华南人工智能研究院(广州)有限公司 文本比对方法及相关装置
US20220075948A1 (en) * 2020-09-10 2022-03-10 International Business Machines Corporation Knowledge graph fusion
CN114385805A (zh) * 2021-12-15 2022-04-22 北京理工大学 一种提高深度文本匹配模型适应性的小样本学习方法
CN115858765A (zh) * 2023-01-08 2023-03-28 山东谷联网络技术有限公司 一种基于数据对比分析的自动评分的智能考试平台
CN112699658B (zh) * 2020-12-31 2024-05-28 科大讯飞华南人工智能研究院(广州)有限公司 文本比对方法及相关装置

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140229161A1 (en) * 2013-02-12 2014-08-14 International Business Machines Corporation Latent semantic analysis for application in a question answer system
CN106202042A (zh) * 2016-07-06 2016-12-07 中央民族大学 一种基于图的关键词抽取方法
CN106547739A (zh) * 2016-11-03 2017-03-29 同济大学 一种文本语义相似度分析方法
US9645999B1 (en) * 2016-08-02 2017-05-09 Quid, Inc. Adjustment of document relationship graphs
US9710544B1 (en) * 2016-05-19 2017-07-18 Quid, Inc. Pivoting from a graph of semantic similarity of documents to a derivative graph of relationships between entities mentioned in the documents
CN108132927A (zh) * 2017-12-07 2018-06-08 西北师范大学 一种融合图结构与节点关联的关键词提取方法
CN109783817A (zh) * 2019-01-15 2019-05-21 浙江大学城市学院 一种基于深度强化学习的文本语义相似计算模型
CN110188168A (zh) * 2019-05-24 2019-08-30 北京邮电大学 语义关系识别方法和装置
CN110287312A (zh) * 2019-05-10 2019-09-27 平安科技(深圳)有限公司 文本相似度的计算方法、装置、计算机设备及计算机存储介质
CN110390085A (zh) * 2019-07-04 2019-10-29 东软集团股份有限公司 文本相似度的分析方法、分析装置、存储介质和电子设备
CN110516040A (zh) * 2019-08-14 2019-11-29 出门问问(武汉)信息科技有限公司 文本间的语义相似性比较方法、设备及计算机存储介质
CN110598002A (zh) * 2019-08-14 2019-12-20 广州视源电子科技股份有限公司 知识图库构建方法、装置、计算机存储介质和电子设备

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140229161A1 (en) * 2013-02-12 2014-08-14 International Business Machines Corporation Latent semantic analysis for application in a question answer system
US9710544B1 (en) * 2016-05-19 2017-07-18 Quid, Inc. Pivoting from a graph of semantic similarity of documents to a derivative graph of relationships between entities mentioned in the documents
CN106202042A (zh) * 2016-07-06 2016-12-07 中央民族大学 一种基于图的关键词抽取方法
US9645999B1 (en) * 2016-08-02 2017-05-09 Quid, Inc. Adjustment of document relationship graphs
CN106547739A (zh) * 2016-11-03 2017-03-29 同济大学 一种文本语义相似度分析方法
CN108132927A (zh) * 2017-12-07 2018-06-08 西北师范大学 一种融合图结构与节点关联的关键词提取方法
CN109783817A (zh) * 2019-01-15 2019-05-21 浙江大学城市学院 一种基于深度强化学习的文本语义相似计算模型
CN110287312A (zh) * 2019-05-10 2019-09-27 平安科技(深圳)有限公司 文本相似度的计算方法、装置、计算机设备及计算机存储介质
CN110188168A (zh) * 2019-05-24 2019-08-30 北京邮电大学 语义关系识别方法和装置
CN110390085A (zh) * 2019-07-04 2019-10-29 东软集团股份有限公司 文本相似度的分析方法、分析装置、存储介质和电子设备
CN110516040A (zh) * 2019-08-14 2019-11-29 出门问问(武汉)信息科技有限公司 文本间的语义相似性比较方法、设备及计算机存储介质
CN110598002A (zh) * 2019-08-14 2019-12-20 广州视源电子科技股份有限公司 知识图库构建方法、装置、计算机存储介质和电子设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
QIAOLI HU ET AL.: "An integrative measure of graph- and vector-based semantic similarity using information content distance", 《201S IEEE INTERNATIONAL CONFERENCE ON BIOINFORMATICS AND BIOMEDICINE (BIBM)》 *
吴江宁 等: "基于图结构的中文文本表示方法研究", 《情报学报》 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111737406A (zh) * 2020-07-28 2020-10-02 腾讯科技(深圳)有限公司 文本检索方法、装置及设备、文本检索模型的训练方法
CN111737406B (zh) * 2020-07-28 2022-11-29 腾讯科技(深圳)有限公司 文本检索方法、装置及设备、文本检索模型的训练方法
CN111930894A (zh) * 2020-08-13 2020-11-13 腾讯科技(深圳)有限公司 长文本匹配方法及装置、存储介质、电子设备
CN111930894B (zh) * 2020-08-13 2022-10-28 腾讯科技(深圳)有限公司 长文本匹配方法及装置、存储介质、电子设备
US20220075948A1 (en) * 2020-09-10 2022-03-10 International Business Machines Corporation Knowledge graph fusion
US11783131B2 (en) * 2020-09-10 2023-10-10 International Business Machines Corporation Knowledge graph fusion
CN112241460A (zh) * 2020-10-27 2021-01-19 上海明略人工智能(集团)有限公司 辅助推荐关键词的方法、装置、电子设备及存储介质
CN112699658A (zh) * 2020-12-31 2021-04-23 科大讯飞华南人工智能研究院(广州)有限公司 文本比对方法及相关装置
CN112699658B (zh) * 2020-12-31 2024-05-28 科大讯飞华南人工智能研究院(广州)有限公司 文本比对方法及相关装置
CN114385805A (zh) * 2021-12-15 2022-04-22 北京理工大学 一种提高深度文本匹配模型适应性的小样本学习方法
CN114385805B (zh) * 2021-12-15 2024-05-10 北京理工大学 一种提高深度文本匹配模型适应性的小样本学习方法
CN115858765A (zh) * 2023-01-08 2023-03-28 山东谷联网络技术有限公司 一种基于数据对比分析的自动评分的智能考试平台

Also Published As

Publication number Publication date
CN111401928B (zh) 2022-04-12

Similar Documents

Publication Publication Date Title
CN111401928B (zh) 基于图数据确定文本的语义相似度的方法及装置
CN111737474B (zh) 业务模型的训练和确定文本分类类别的方法及装置
CN110147457B (zh) 图文匹配方法、装置、存储介质及设备
CN108829822B (zh) 媒体内容的推荐方法和装置、存储介质、电子装置
CN109784405B (zh) 基于伪标签学习和语义一致性的跨模态检索方法及系统
CN111931490B (zh) 文本纠错方法、装置及存储介质
CN111382573A (zh) 用于答案质量评估的方法、装置、设备和存储介质
CN112749737A (zh) 图像分类方法及装置、电子设备、存储介质
CN114743029A (zh) 一种图像文本匹配的方法
CN110852071A (zh) 知识点检测方法、装置、设备及可读存储介质
US20220253630A1 (en) Optimized policy-based active learning for content detection
CN114282528A (zh) 一种关键词提取方法、装置、设备及存储介质
CN113536784A (zh) 文本处理方法、装置、计算机设备和存储介质
CN110852066B (zh) 一种基于对抗训练机制的多语言实体关系抽取方法及系统
CN115861995A (zh) 一种视觉问答方法、装置及电子设备和存储介质
CN110851600A (zh) 基于深度学习的文本数据处理方法及装置
CN115204301A (zh) 视频文本匹配模型训练、视频文本匹配方法和装置
Avram et al. UPB at SemEval-2021 task 8: extracting semantic information on measurements as multi-turn question answering
He et al. Distant supervised relation extraction via long short term memory networks with sentence embedding
CN111221880A (zh) 特征组合方法、装置、介质和电子设备
CN115329755B (zh) 实体链接模型处理方法、装置和实体链接处理方法、装置
CN116523032B (zh) 一种图像文本双端迁移攻击方法、装置和介质
CN117556275B (zh) 相关度模型数据处理方法、装置、计算机设备和存储介质
CN111858961B (zh) 用于知识图谱中节点和链接的多语言知识匹配方法及装置
Kulkarni et al. Deep Reinforcement-Based Conversational AI Agent in Healthcare System

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant