CN111241412A - 一种确定用于信息推荐的图谱的方法、系统、及装置 - Google Patents
一种确定用于信息推荐的图谱的方法、系统、及装置 Download PDFInfo
- Publication number
- CN111241412A CN111241412A CN202010329694.9A CN202010329694A CN111241412A CN 111241412 A CN111241412 A CN 111241412A CN 202010329694 A CN202010329694 A CN 202010329694A CN 111241412 A CN111241412 A CN 111241412A
- Authority
- CN
- China
- Prior art keywords
- nodes
- node
- vector representation
- determining
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 59
- 239000013598 vector Substances 0.000 claims abstract description 197
- 230000002776 aggregation Effects 0.000 claims abstract description 23
- 238000004220 aggregation Methods 0.000 claims abstract description 23
- 239000011159 matrix material Substances 0.000 claims description 80
- 238000012545 processing Methods 0.000 claims description 48
- 238000013528 artificial neural network Methods 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 8
- 238000010801 machine learning Methods 0.000 claims description 3
- 238000003860 storage Methods 0.000 description 34
- 230000008569 process Effects 0.000 description 22
- 230000015654 memory Effects 0.000 description 17
- 238000010586 diagram Methods 0.000 description 11
- 230000014509 gene expression Effects 0.000 description 10
- 230000006870 function Effects 0.000 description 9
- 238000012986 modification Methods 0.000 description 9
- 230000004048 modification Effects 0.000 description 9
- 238000012549 training Methods 0.000 description 5
- 230000008901 benefit Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 4
- 238000009223 counseling Methods 0.000 description 4
- 239000000463 material Substances 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000004590 computer program Methods 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 230000000644 propagated effect Effects 0.000 description 3
- 238000012935 Averaging Methods 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 2
- 238000003491 array Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 238000010295 mobile communication Methods 0.000 description 2
- 238000007792 addition Methods 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000000712 assembly Effects 0.000 description 1
- 238000000429 assembly Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000010977 jade Substances 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000003607 modifier Substances 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 241000894007 species Species 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本说明书实施例公开了一种确定用于信息推荐的图谱的方法、系统、及装置。所述方法包括:获取构建目标图谱的多个节点;所述节点至少包括词语节点,以及知识点节点;若所述节点为词语节点,将该节点对应的词语的向量表示作为该节点的向量表示;若所述节点为知识点节点,基于与所述知识点节点相关的词语的向量表示,确定对应于所述知识点节点的向量表示;对于任意两个节点:基于所述两个节点的类型,确定所述两个节点之间的边权,并将所述边权作为所述两个节点之间的关联关系;基于节点的向量表示,以及节点与节点之间的关联关系,进行至少一轮图聚合迭代,以更新所述图谱中节点的向量表示。
Description
技术领域
本说明书涉及数据处理领域,特别涉及一种确定用于信息推荐的图谱的方法、系统及装置。
背景技术
随着科技的发展,人工智能的出现为以往需要耗费大量人工成本的行业提供了新的解决方案,例如,人工客服。智能客服机器人可以解答用户的简单文本提问,但不擅长处理复杂、模糊的提问。由于用户会发送复杂或者模糊的问题,导致智能客服机器人并不能给用户推荐准确的信息,这增加了智能客服机器人处理难度,以及降低用户的体验。
发明内容
本说明书实施例之一提供一种确定用于信息推荐的图谱的方法。所述方法包括:获取构建图谱的多个节点;所述节点至少包括词语节点,以及知识点节点;若所述节点为词语节点,将该节点对应的词语的向量表示作为该节点的向量表示;若所述节点为知识点节点,基于与所述知识点节点相关的词语的向量表示,确定对应于所述知识点节点的向量表示;对于任意两个节点:基于所述两个节点的类型,确定所述两个节点之间的边权,并将所述边权作为所述两个节点之间的关联关系;基于节点的向量表示,以及节点与节点之间的关联关系,进行至少一轮图聚合迭代,以更新所述图谱中节点的向量表示。
本说明书实施例之一提供一种利用确定的图谱进行的信息推荐方法。所述方法包括:获取输入信息;利用所述图谱,确定所述输入信息在所述图谱中对应的节点;所述图谱如确定用于信息推荐的图谱的方法确定;基于所述节点的向量表示,以及所述节点的邻接节点的向量表示,确定推荐节点;将与所述推荐节点相关的信息作为输出。
本说明书实施例之一提供一种确定用于信息推荐的图谱的系统。所述系统包括第一获取模块、第一确定模块、以及更新模块;所述第一获取模块,用于获取构建图谱的多个节点;所述节点至少包括词语节点,以及知识点节点;若所述节点为词语节点,将该节点对应的词语的向量表示作为该节点的向量表示;若所述节点为知识点节点,基于与所述知识点节点相关的词语的向量表示,确定对应于所述知识点节点的向量表示;对于任意两个节点:所述第一确定模块,用于基于所述两个节点的类型,确定所述两个节点之间的边权,并将所述边权作为所述两个节点之间的关联关系;所述更新模块,用于基于节点的向量表示,以及节点与节点之间的关联关系,进行至少一轮图聚合迭代,以更新所述图谱中节点的向量表示。
本说明书实施例之一提供一种利用图谱进行的信息推荐系统。所述系统包括第二获取模块、第二确定模块、第三确定模块以及输出模块;所述第二获取模块,用于获取输入信息;所述第二确定模块,用于利用所述图谱,确定所述输入信息在所述图谱中对应的节点;所述图谱由如确定用于信息推荐的图谱的方法确定;所述第三确定模块,用于基于所述节点的向量表示,以及所述节点的邻接节点的向量表示,确定推荐节点;所述输出模块,用于将与所述推荐节点相关的信息作为输出。
本说明书实施例之一提供一种确定用于信息推荐的图谱的装置。所述装置包括处理器,所述处理器用于执行以上所述的确定用于信息推荐的图谱的方法。
本说明书实施例之一提供一种利用确定的图谱进行信息推荐的装置。所述装置包括处理器,所述处理器用于执行以上所述的利用确定的图谱进行信息推荐的方法。
附图说明
本说明书将以示例性实施例的方式进一步说明,这些示例性实施例将通过附图进行详细描述。这些实施例并非限制性的,在这些实施例中,相同的编号表示相同的结构,其中:
图1是根据本说明书一些实施例所示的信息推荐系统的应用场景100的示意图;
图2是根据本说明书一些实施例所示的确定用于信息推荐的图谱的示例性流程图;
图3是根据本说明书一些实施例所示的更新初始图谱的示例性流程图;
图4是根据本说明书一些实施例所示的利用目标图谱进行信息推荐的示例性流程图;
图5是根据本说明书一些实施例所示的确定用于信息推荐的图谱的系统模块图;
图6是根据本说明书一些实施例所示的利用目标图谱进行信息推荐的系统模块图;以及
图7是根据本说明书一些实施例所示的图谱的示意图。
具体实施方式
为了更清楚地说明本说明书实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单的介绍。显而易见地,下面描述中的附图仅仅是本说明书的一些示例或实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图将本说明书应用于其它类似情景。除非从语言环境中显而易见或另做说明,图中相同标号代表相同结构或操作。
应当理解,本文使用的“系统”、“装置”、“单元”和/或“模组”是用于区分不同级别的不同组件、元件、部件、部分或装配的一种方法。然而,如果其他词语可实现相同的目的,则可通过其他表达来替换所述词语。
如本说明书和权利要求书中所示,除非上下文明确提示例外情形,“一”、“一个”、“一种”和/或“该”等词并非特指单数,也可包括复数。一般说来,术语“包括”与“包含”仅提示包括已明确标识的步骤和元素,而这些步骤和元素不构成一个排它性的罗列,方法或者设备也可能包含其它的步骤或元素。
本说明书中使用了流程图用来说明根据本说明书的实施例的系统所执行的操作。应当理解的是,前面或后面操作不一定按照顺序来精确地执行。相反,可以按照倒序或同时处理各个步骤。同时,也可以将其他操作添加到这些过程中,或从这些过程移除某一步或数步操作。
在一些应用场景下,智能客服机器人可以提供气泡推荐功能,用户通过点击气泡获取知识或服务。所述气泡可以理解为文本框,其具有一定的形状,如圆形、长方形等,其对应具有特定含义的本文。在一些实施例中,为用户提供固定的气泡,每个气泡对应一个固定的功能。这需要专门的配置和开发。在又一些实施例中,当用户点击一个气泡时,会为用户推荐与气泡相关联的细化知识或服务。但此方案在气泡产生上依赖人工标注,且没有共现的词语之间无法建立连接。本说明书所披露的又一些实施例所涉及的确定用于信息推荐的图谱以及基于以上图谱进行信息推荐的方法,依赖无监督数据,不需要人工标注。且本方法使用图结构,使得没有共现的词语之间也能建立联系,可以挖掘深层次的表示信息。
图1是根据本说明书一些实施例所示的信息推荐系统的应用场景100的示意图。
如图1所示,应用场景100可以包含处理设备110、网络120、用户终端130、以及存储设备140。应用场景100可以至少包括云客服场景。用户通过使用用户终端130向处理设备110发送咨询数据,处理设备110可以确定与接收到的咨询数据最相关的推荐信息,并将该推荐信息返回至用户终端130。
处理设备110可以执行一个或多个本说明书中描述的功能。例如,处理设备110可以用于构建目标图谱,并利用目标图谱向用户进行信息推荐。处理设备110的使用者可以是服务提供者,该服务提供者可以根据自身所提供的服务内容,或历史上多个用户的咨询数据,构建目标图谱,并基于目标图谱向新老用户推荐信息。所推荐的信息可以是与服务提供者所提供的服务相关的知识,或请求服务的链接等。在一些实施例中,处理设备110可以是独立的服务器或者服务器组。该服务器组可以是集中式的或者分布式的(如:处理设备110可以是分布系统)。在一些实施例中该处理设备110可以是区域的或者远程的。例如,处理设备110可通过网络访问存储于用户终端130、存储设备140中的信息和/或资料。在一些实施例中,处理设备110可直接与用户终端130、存储设备140直接连接以访问存储于其中的信息和/或资料。在一些实施例中,处理设备110可在云平台上执行。例如,该云平台可包括私有云、公共云、混合云、社区云、分散式云、内部云等中的一种或其任意组合。
在一些实施例中,处理设备110可包含一个或多个处理设备(例如,单芯处理设备或多核多芯处理设备)。仅仅作为范例,所述处理设备可包含中央处理器(CPU)、专用集成电路(ASIC)、专用指令处理器(ASIP)、图形处理器(GPU)、物理处理器(PPU)、数字信号处理器(DSP)、现场可编程门阵列(FPGA)、可编辑逻辑电路(PLD)、控制器、微控制器单元、精简指令集电脑(RISC)、微处理器等或以上任意组合。
网络120可以促进应用场景100中的各个部件间的数据和/或信息的交换。例如,处理设备110可以将推荐的信息通过网络120发送至用户终端130。在一些实施例中,应用场景100中的一个或多个组件(用户终端130、存储设备140)可通过网络120发送数据和/或信息给应用场景100中的其他组件。在一些实施例中,网络120可是任意类型的有线或无线网络。例如,网络120可包括有线网络、光纤网络、远程通信网络、内部网络、互联网、局域网(LAN)、广域网(WAN)、无线局域网(WLAN)、城域网(MAN)、广域网(WAN)、公共交换电话网络(PSTN)、蓝牙网络、紫蜂网络、近场通讯(NFC)网络、全球移动通讯系统(GSM)网络、码分多址(CDMA)网络、时分多址(TDMA)网络、通用分组无线服务(GPRS)网络、增强数据速率GSM演进(EDGE)网络、宽带码分多址接入(WCDMA)网络、高速下行分组接入(HSDPA)网络、长期演进(LTE)网络、用户数据报协议(UDP)网络、传输控制协议/互联网协议(TCP/IP)网络、短讯息服务(SMS)网络、无线应用协议(WAP)网络、超宽带(UWB)网络、移动通信(1G、2G、3G、4G、5G)网络、Wi-Fi、Li-Fi、窄带物联网(NB-IoT)、红外通信等中的一种或多种组合。在一些实施例中,网络120可包括一个或多个网络接入点。例如,网络120可包含有线或无线网络接入点。通过这些接入点,应用场景100中的一个或多个组件可连接到网络120上以交换数据和/或信息。
用户终端130可以是一种具有信息发送和/或接收功能的设备。例如,用户终端130可以将使用者所键入的咨询数据发送至处理设备110,并接收推荐系统110所返回的关于咨询数据的回复。在一些实施例中,用户终端可包括智能手机130-1、平板电脑130-2、笔记本电脑130-3等中的一种或任意组合。上述示例仅用于说明用户终端130范围的广泛性而非对其范围的限制。在一些实施例中,用户终端130上可以安装有多种应用程序,例如,电脑程序、移动应用程序(手机APP)等。所述应用程序可以由服务提供者制作并发布,用户进行下载并安装至用户终端130中。且用户可以通过该应用程序向服务提供者进行咨询。
存储设备140可以存储数据和/或指令。数据可以包括构建图谱所需要的数据、构建完成的图谱、知识点、面向用户的推荐数据,例如关于服务提供者所提供的服务的说明。指令可以是处理设备110实现如本说明书所披露的功能时所需的指令。在一些实施例中,存储设备140还可以从用户终端130处获取数据,例如,用户在历史上所输入的咨询/查询数据。在一些实施例中,存储设备140可包括大容量存储器、可移动存储器、易失性读写存储器、只读存储器(ROM)等或其任意组合。示例性的大容量存储器可以包括磁盘、光盘、固态磁盘等。示例性可移动存储器可以包括闪存驱动器、软盘、光盘、存储卡、压缩盘、磁带等。示例性易失性读写存储器可以包括随机存取存储器(RAM)。示例性RAM可包括动态随机存取存储器(DRAM)、双倍数据速率同步动态随机存取存储器(DDRSDRAM)、静态随机存取存储器(SRAM)、晶闸管随机存取存储器(T-RAM)和零电容随机存取存储器(Z-RAM)等。示例性只读存储器可以包括掩模型只读存储器(MROM)、可编程只读存储器(PROM)、可擦除可编程只读存储器(PEROM)、电可擦除可编程只读存储器(EEPROM)、光盘只读存储器(CD-ROM)和数字多功能磁盘只读存储器等。在一些实施例中,存储设备140可以在单个中央服务器、或通过通信链路连接的多个服务器或多个个人设备中实现。存储设备140也可以由多个个人设备和云服务器实现。存储设备140还可以在云平台上实现。例如,该云平台可包括私有云、公共云、混合云、社区云、分散式云、内部云等或以上任意组合。
在一些实施例中,存储设备140可与网络120连接以与应用场景100中的一个或多个组件(例如,处理设备110、用户终端130等)通讯。应用场景100中的一个或多个组件可通过网络120访问存储于存储设备140中的数据或指令。在一些实施例中,存储设备140可直接与应用场景100中的一个或多个组件(例如,处理设备110、用户终端130等)连接或通讯。在一些实施例中,存储设备140可以是处理设备110的一部分。
应当注意的是,以上应用场景100中的各个部件的描述仅仅是为了示例和说明,而不限定本说明书的适用范围。对于本领域技术人员来说,在本说明书的指导下可以对应用场景100中的部件进行添加或减少。然而,这些改变仍在本说明书的范围之内。
图2是根据本说明书一些实施例所示的确定用于信息推荐的图谱(或称为目标图谱)的示例性流程图。在一些实施例中,流程200可以由信息推荐系统500,或图1所示的处理设备110实现。例如,流程200可以以程序或指令的形式存储在存储装置(如存储设备140)中,所述程序或指令在被执行时,可以实现流程200。如图2所示,流程200可以包括以下步骤。
步骤202,获取构建目标图谱的多个节点;所述节点至少包括词语节点,以及知识点节点。
该步骤可以由第一获取模块510执行。
在一些实施例中,所述目标图谱可以是指为用户进行信息推荐时所使用的图谱,其包含有多个节点以及节点之间的关联信息,每个节点可以对应于一份信息。在使用时,所述目标图谱可以根据用户的输入,确定最相关的节点,并将所述节点所对应的信息向用户推荐。构成所述目标图谱的多个节点,可以至少包括词语节点,以及知识点节点。所述词语节点所对应的信息可以是一个词语,在进行信息推荐可以直接将词语节点对应的词语推荐给用户。所述知识点节点所对应的信息可以是一个知识点。所述知识点可以由标题以及正文组成,标题可以是一个问题,正文可以是该问题的答案。在进行信息推荐时可以根据标题确定是否与用户的输入最相关,若是,则将正文推荐给用户。在所述目标图谱中,任意的两个节点中具有一定的关联关系。在进行信息推荐时,节点间的关联关系可以用于确定与用户的输入最相关的节点。
参照图7,图7是根据本说明书一些实施例所示的目标图谱的示意图。如图7所示,方框用来表示词语节点,方框中的内容为该词语节点对应的词语。如图7中的“相册”、“尺寸”、“照片”、“包邮”、“优惠券”等。词语节点所对应的词语,可以是在进行信息推荐时所使用的关键词,其与待推荐的信息关系紧密。也可以是用户在进行信息咨询时所输入的高频词,其可以链接到一份或多份待推荐的信息。图7中的圆框用来表示知识点节点,圆框中的内容为该知识点节点的标题,如图7,中的“相册有哪些尺寸”、“照片有哪些尺寸”、“能不能包邮”、“优惠券怎么用”等。知识点节点所对应的问答内容(即标题与正文)可以是在信息推荐时用户想要获得的信息支持内容,其可以是由使用应用场景100的一方(例如,服务提供者)的服务范围或服务内容确定的。例如,假定信息推荐100的使用者是一家摄影馆,则知识点节点所对应的问答内容可以是与摄影相关比如开业时间、所提供的摄影类型比如证件照写真照、成品相框的大小尺寸、是否可以邮寄、邮寄是否包邮等等。
图7中的节点与节点之间的连线,则可以表示两个节点之间的关联关系。例如,词语节点“相册”与“尺寸”之间的连线,可以是表示两个词语共同出现的频率比如在一个语句、一个段落中共同出现的频率。频率越高,两者之间的关系越紧密。又例如,词语节点“相册”与知识点节点“相册有哪些尺寸”之间的连线,可以是表示相册在对“相册有哪些尺寸”的回答或解释中是否占比关键。占比关键则说明该回答或解释与相册关系紧密。在进行信息推荐时,可以根据用户的输入将目标图谱与用户的输入最相关的内容推荐给用户。目标图谱的构建在本流程图后续部分有详细描述,以及可以参考图3。关于信息推荐的描述可以参考本说明书图4部分。
在一些实施例中,所述多个节点可以是预先存储在存储设备,例如,处理设备110自带的存储设备,或存储设备140中。其可以是根据用户在历史上的咨询或自身的服务范围确定并预先存储的。第一获取模块510可以与存储设备进行通信后,读取所述多个节点。
在一些实施例中,可以基于各个节点的类型分别确定对应于每个节点的向量表示。可以理解,每个节点所对应的内容(例如,词语或知识点)可以通过向量的方式表示。例如,通过词嵌入的方式将词语、短语、语句、或段落映射成数字,通过数学方式在向量空间中表达,有益于数据的处理。节点与节点的关联关系,在本说明书中也可以是使用一个量化数据进行体现,以表示两个节点之间的关联紧密程度。
在一些实施例中,第一获取模块510可以根据节点类型(词语节点以及知识点节点)的不同,为每个节点确定其对应的向量表示。若所述节点为词语节点,第一获取模块510可以将该节点对应的词语的向量表示作为该节点的向量表示,可以利用词向量表示模型确定对应于所述词语的向量表示。所述词向量表示模型包括机器学习模型,例如,人工神经网络。示例性的词向量表示模型可以是词嵌入模型,包括但不限于word2vec、glove、ELMo、BERT等。其输入可以是词语,输出可以是该词语对应的词向量。第一获取模块510可以通过词嵌入模型确定每个词语对应的向量,进而每个对应的向量表示作为该词语对应的词语节点的向量表示。例如,假定两个词语节点分别对应的两个词语为“相册”、以及“尺寸”。第一获取模块510可以将以上两个词语输入至词嵌入模型中,获取到“相册”、“尺寸”分别对应的词语向量V1以及V2,并将V1以及V2这两个向量分别作为以上两个词语节点的向量表示。
在一些实施例中,若所述节点为知识点节点,第一获取模块510可以基于与所述知识点节点相关的词语的向量表示,确定对所述知识点节点的向量表示。所述与知识点节点相关的词语,可以是知识点中所包括的词语,也可以是与知识点节点具有关联关系的词语节点所对应的词语。例如,知识点节点“相册有哪些尺寸”中包括的词语可以有“相册”、“尺寸”,则与该知识点节点相关的词语为“相册”、“尺寸”。又例如,与知识点节点“相册有哪些尺寸”具有关联关系的词语节点对应的词语为“相册”、“尺寸”,则以上两个词语可以作为所述与知识点节点相关的词语。
在一些实施例中,第一获取模块510可以首先获取来自知识点节点对应的知识点的一个或多个词语,并确定所述一个或多个词语的向量表示。随后,第一获取模块510可以对一个或多个所述向量表示进行运算,将运算结果作为对应于所述知识点节点的向量表示。所述运算可以是一个或多个向量表示的求和运算或平均运算等,平均运算可包括加权平均,或算术平均。作为示例,假定来自知识点节点“相册有哪些尺寸”的词语包括“相册”和“尺寸”,两个词语对应的词语向量分别为V1以及V2,其可以基于词向量表示模型确定。第一获取模块510可以通过将两个词语向量进行平均计算,例如,算术平均计算得到向量V3。则V3将被作为知识点节点“相册有哪些尺寸”的向量表示。
步骤204,对于任意两个节点:基于所述两个节点的类型,确定两个节点之间的边权,并将所述边权作为节点与节点之间的关联关系。该步骤可以由第一确定模块520执行。
在一些实施例中,在确定节点与节点之间的关联关系时,第一确定模块520可以基于两个节点的类型以执行不同的处理。第一确定模块520可以首先确定两个节点是否为同一类节点,并基于确定结果,确定两个节点之间的边权,然后将所述边权作为两个节点之间的关联关系。
在一些实施例中,若所述两个节点同为词语节点,第一确定模块520可以基于两个词语节点对应的词语之间共现频率确定所述两个节点之间的边权。所述共现频率可以是指两个词语在文本中同时出现的概率。概率越大,两个词语之间的关系越紧密,关联度越高。第一确定模块520可以通过点互信息算法(PMI,point-wise mutual information)确定所述共现频率。若所述两个节点中一个节点为词语节点,另一个节点为知识点节点,第一确定模块520可以基于词语节点的词语相对于知识点节点对应的知识点(包括标题和正文)的重要程度确定两个节点之间的边权。该重要程度可以理解为词语在知识点节点的内容中的被说明程度。例如,假定某一知识点节点的内容是对某一词语的解释说明(比如词语是服务提供者所提供的一项服务,知识点节点对其进行了说明),则可以认为该词语相对于该知识点节点的重要程度高。反之,若词语仅仅是知识点节点的一个构成元素,则可以认为该词语相对于该知识点节点的重要程度低。第一确定模块520可以使用词频-逆向文件频率(TF-IDF,term frequency-inversed document frequency)衡量基于词语节点的词语相对于知识点节点对应的知识点的重要程度。若两个节点同为知识点节点,则第一确定模块520可以直接将两个节点之间的边权确定为0。参照图7,目标图谱中,两个节点之间的连线可以表示两个节点之间具备有关联关系,其可以使用PMI值(两个方框(词语节点)之间的连线),或TF-IDF值(方框与圆框(词语节点与知识点节点)之间的连线)。两个节点之间也可以没有连线,比如两个知识点节点的关联关系为0,则两个知识点节点之间不存在连线。
步骤206,基于节点的向量表示,以及节点与节点之间的关联关系,进行至少一轮图聚合迭代,以更新所述图谱中节点的向量表示。
该步骤可以由更新模块530执行。
在一些实施例中,可以将步骤202与步骤204确定的节点的向量表示及边权看作所述图谱的初始表达,而具有初始表达的图谱,可以理解是一个尚未具备信息推荐功能的图谱,需要进行更新其节点的向量表示以得到更加完善的图谱的表达。
在一些实施例中,所述图谱的初始表达可以利用矩阵表示。作为示例,由多个节点的向量表示构成的图谱矩阵X,以及多个节点之间的关联关系构成的关系矩阵R,可以用来表示所述图谱的初始表达。假设构成所述图谱的共有N个节点,其中每个节点的向量为300维的向量,则图谱矩阵X可以为N*300的矩阵,或者为300*N的矩阵。而对于关系矩阵R,则可以是一个N*N的矩阵,每一行或一列可以是一个节点与其他节点之间的关联关系(例如,边权)。而节点相较与自身,则边权可以是1。
在一些实施例中,更新模块530可以对图谱的表达进行至少一轮图聚合迭代,以更新图谱的表达。在一些实施例中,图聚合可以理解为基于图谱中至少一个节点和/或边权的向量表示进行运算,利用运算结果更新图谱中另外至少一个节点和/或边权向量表示的处理过程。例如,对于每一个节点,在一轮迭代中,更新模块530可以利用该节点的邻接节点的向量表示,更新该节点的向量表示。作为示例,更新模块530可以对该节点的邻接节点在当前迭代轮次中的向量表示进行运算,例如,加权(该节点与邻接节点间的边权作为权重)平均运算,并利用运算结果更新该节点的向量表示。
在一些实施例中,更新模块530可以利用关系矩阵R更新所述图谱中节点的向量表示,以达到更新所述图谱的表达的目的。在一轮迭代中,更新模块530可以利用多个节点在当前迭代轮次中的向量表示,以获取向量表示矩阵,例如,前述示例中的图谱矩阵X。同时,更新模块530可以基于节点与节点之间的关联关系,确定对应于所述多个节点的邻接矩阵,例如,前述示例中的关系矩阵R。随后,更新模块530可以将向量表示矩阵与邻接矩阵进行运算,利用运算结果更新所述图谱中各节点的向量表示。例如,使用关系矩阵R对图谱矩阵X进行加权聚合,以更新图谱矩阵X。
在一些实施例中,更新模块530利用基于神经网络的聚合模型,更新所述图谱中节点的向量表示。更新模块530可以利用基于神经网络的聚合模型,处理由利用所述多个节点的向量表示获取的向量表示矩阵,以及基于节点与节点之间的关联关系确定的对应于所述多个节点的邻接矩阵,以获得更新后的向量表示矩阵,并基于所述更新后的向量表示矩阵更新所述图谱中节点的向量表示。所述基于神经网络的聚合模型可以包括GCN(GraphConvolutional Network,图卷积网络)、GAT(Graph Attention Networks,图神经网络)等。假定向量表示矩阵以X表示(例如,图谱矩阵X),邻接矩阵以R表示(例如,关系矩阵R),以GCN为例,更新模块530可以将X与R输入至GCN中,在GCN内部,向量表示矩阵X、邻接矩阵R与GCN的模型参数W进行运算后,GCN可以将图谱节点的向量表示由X转化为X’。 X’可以指更新后的向量表示矩阵。可以理解,更新后的向量表示矩阵 X’能否准确表示图谱的信息,在一定程度上依赖于GCN模型参数W的准确性。
在一些实施例中,需要对GCN进行训练,以优化其模型参数W。在实际应用中,可以根据具体的应用场景确定GCN的预测任务,并基于预测任务对GCN进行训练。以预测两个节点的相关度作为预测任务为例,GCN可以作为预测模型的一部分,该预测模型的输入为两个节点,预测模型可以基于GCN对这两个节点的向量表示(如向量表示矩阵X’)计算这两个节点的相关度并输出。在GCN训练阶段,GCN的模型参数W为随机初始值,此时X’也是不准确的,预测模型的输入层接收训练样本的输入节点A、B,基于这两个输入节点在X’中对应的向量表示确定两个节点的相似度y,基于y与训练样本的相关度真实值的差异构造损失函数,调节GCN的模型参数W以使损失函数最小化。其中,真实值可以表示为“0”或“1”,例如,某推荐系统向用户输出A,之后用点击了B,说明节点A与节点B相关,其真实值为1,反之为0。随着训练的深入,模型参数W训练好。同时,图谱节点的向量表示矩阵X’也能更反映图谱的信息。需要说明的是,所述损失函数可以基于具体的训练任务确定,本说明书对此不做任何限制。
关于图谱中节点的向量表示的更新的其他描述,可以参考本说明书图3部分。
应当注意的是,上述有关流程200的描述仅仅是为了示例和说明,而不限定本说明书的适用范围。对于本领域技术人员来说,在本说明书的指导下可以对流程200进行各种修正和改变。然而,这些修正和改变仍在本说明书的范围之内。
图3是根据本说明书一些实施例所示的更新图谱的初始表达的示例性流程图。在一些实施例中,流程300可以由信息推荐系统500,或图1所示的处理设备110实现。例如,流程200可以以程序或指令的形式存储在存储装置(如存储设备140)中,所述程序或指令在被执行时,可以实现流程200。在一些实施例中,流程300可以是描述一轮迭代的具体过程。在一些实施例中,流程300可以由更新模块530执行。如图3所示,流程300可以包括以下步骤。
步骤302,利用所述多个节点在当前迭代轮次中的向量表示,获取向量表示矩阵。
在一些实施例中,更新模块530可以排列所述多个节点在当前迭代轮次中的向量表示,以获取所述向量表示矩阵。作为示例,假定构成所述图谱的共有N个节点,其中每个节点的向量为300维的向量,则更新模块530可以按行排列节点的向量,以构成N*300的向量表示矩阵,或者按列排列节点的向量,以构成300*N的向量表示矩阵。
步骤304,基于节点与节点之间的关联关系,确定对应于所述多个节点的邻接矩阵。
在一些实施例中,所述多个节点之间的关联关系可以使用矩阵的形式表示,如步骤206中所提到的关系矩阵R。在本说明书中,该关系矩阵R也可以被称为邻接矩阵A,用以表示某一节点与其他所有节点之间的关联关系。假定总共有N个节点,则邻接矩阵A为N*N的矩阵。矩阵中第i行第j列的数表示节点i与节点j之间的关联关系,比如边权。出于说明的目的,以下示出了一个简略的邻接矩阵A:而对于关系矩阵R,则可以是一个N*N的矩阵,每一行或一列可以是一个节点与其他节点之间的关联关系(例如,边权)。而节点相较与自身,则边权可以是1
其中,表示第i个节点和第j个节点之间的关联关系。当第i个节点和第j个节点都为词语节点时,;当第i个节点为词语节点,第j个节点为知识点节点时,;当i=j时,即,第i个节点相对于其本身,;当第i个节点和第j个节点都为知识点节点时,,表明两个知识点节点之间没有关联关系。
步骤306,将所述向量表示矩阵与所述邻接矩阵进行运算,利用运算结果更新所述图谱中各节点的向量表示。
在一些实施例中,更新模块530可以利用邻接矩阵A,对向量表示矩阵(此处赋予标号X)进行加权平均计算。例如,根据加权平均算法的公式aggregate(X)=A*X,通过邻接矩阵A对向量表示矩阵X进行计算,将计算结果X’中包含的各向量作为当前迭代轮次更新后的节点的向量表示。
在一些实施例中,在一轮迭代里,更新模块530也可以是针对每个节点单独进行更新。对于任一节点,更新模块530可以基于节点与节点之间的关联关系,确定该节点的邻接节点。所述邻接节点可以是与该节点直接相接的节点,可以理解为两个节点之间存在关联关系(例如两个节点之间有边权比如PMI或TD-IDF)。参阅图7,图7中所示的词语节点“照片”的邻接节点可以是词语节点“尺寸”、词语节点“包邮”、知识点节点“照片有哪些尺寸”。词语节点“照片”与以上节点之间都是通过一条连线直接相连。在确定该节点的邻接节点后,更新模块530可以基于该节点与邻接节点之间的边权对邻接节点的向量表示进行加权平均运算,将运算结果作为更新后的该节点的向量表示。例如,词语节点“照片”的邻接节点是词语节点“尺寸”、词语节点“包邮”、知识点节点“照片有哪些尺寸”,在更新词语节点“照片”的向量表示时,可以将这三个邻接节点的向量表示进行加权平均,将计算结果作为词语节点“照片”更新后的向量表示。其中,加权平均算法中各邻接节点的向量表示的权重可以基于该节点与各邻接节点的关联关系确定。例如,邻接矩阵A中元素的值可以用作所述权重。
以上描述了一轮迭代的过程。更新模块530可以依据以上描述对所述图谱中的初始表达进行一次或以上迭代的更新(例如,更新一次或以上次的节点的向量表示),以获得所述图谱的最终表达。可以理解,可以对图谱中的每个节点的向量表示按照步骤304的方式进行更新,当每个节点都被更新过设定次数后,可以认为更新完成。或者,进行不断的更新,直到每个节点的向量表示的变化小于设定阈值。作为示例,经过一次更新迭代,图谱矩阵X将被更新为X’=aggregate(X)=A*X。进行下一次迭代,图谱矩阵X将被更新为X’’=aggregate(X’)=A*X’。在进行第三次迭代时,图谱矩阵X将被更新为X’’’= aggregate(X’’)=A*X’’。以此类推。所述迭代的轮次次数可以预先设定,例如,3次,5次,7次等,本说明书不对其进行限制。迭代完成后,经过数次更新后的图谱矩阵X联合关系矩阵R(即,邻接矩阵A)可以作为目标图谱。
应当注意的是,上述有关流程300的描述仅仅是为了示例和说明,而不限定本说明书的适用范围。对于本领域技术人员来说,在本说明书的指导下可以对流程300进行各种修正和改变。然而,这些修正和改变仍在本说明书的范围之内。
图4是根据本说明书一些实施例所示的利用目标图谱进行信息推荐的示例性流程图。在一些实施例中,流程300可以由信息推荐系统600,或图1所示的处理设备110实现。例如,流程400可以以程序或指令的形式存储在存储装置(如存储设备140)中,所述程序或指令在被执行时,可以实现流程400。如图4所示,流程300可以包括以下步骤。
步骤402,获取输入信息。
该步骤可以由信息第二获取模块610执行。
在一些实施例中,所述输入信息可以是用户从预先向用户提供的候选词语中选中的一个或多个词语。例如,在进行信息推荐时,处理设备110(或信息推荐系统600)可以将向用户提供的候选词语发送至用户终端130上并显示。显示的形式可以是多个气泡推荐,每个气泡对应一个候选词语。用户可以通过点击候选词语中的一个或多个,向处理设备110(或信息推荐系统600)进行点击反馈。反馈内容即为所述输入信息。例如,预先向用户提供的候选词语有“照片”、“上衣”、“鞋子”、“尺寸”等,用户从中选择了“照片”这一个词语,则输入信息为词语“照片”。当用户从中选择了“照片”、“尺寸”两个词语,则输入信息为词语“照片”以及“尺寸”。在一些实施例中,所述预先向用户提供的候选词语可以是历史上用户进行咨询时所出现的高频词语,也可以是处理设备110(或信息推荐系统600)的使用者(例如服务提供者)所提供的服务相关的词语。假定服务提供者所提供的服务为网络衣物售贩,则预先向用户提供的候选词语可以包括“尺寸”、“优惠”、“包邮”等。
步骤404,利用所述图谱,确定所述输入信息在所述图谱中对应的节点。
该步骤可以由第二确定模块620执行。
在一些实施例中,所述图谱可以为所述目标图谱。关于目标图谱的具体描述,可以参照本说明书图2与图3中的相关内容。
在一些实施例中,第二确定模块620可以将所述输入信息中的词语,与在所述目标图谱中的词语节点对应的词语进行比对,以确定所述输入信息对应的节点。例如,假定输入信息包括词语“照片”,则第二确定模块620可以将词语“照片”在目标图谱中对应的词语节点“照片”确定为所述输入信息对应的节点。假定输入信息包括词语“照片”、“尺寸”,则第二确定模块620可以将词语“照片”、“尺寸”在目标图谱中对应的词语节点“照片”、以及词语节点“尺寸”确定为所述输入信息对应的节点。
步骤406,基于所述节点的向量表示,以及所述节点的邻接节点的向量表示,确定推荐节点。
该步骤可以由第三确定模块630执行。
关于节点的向量表示、以及节点的邻接节点的向量表示的相关内容可以参照本说明书中图2及图3中的相关描述。
在一些实施例中,第三确定模块630可以分别确定所述节点的向量表示与该节点的每一个邻接节点的向量表示之间的距离。所述距离可以是闵可夫斯基距离、欧式距离、曼哈顿距离、切比雪夫距离、夹角余弦、汉明距离、杰卡德相似系数等。第三确定模块630可以将所述距离最近(比如距离值最小)对应的节点确定为推荐节点。参照图7,假定输入信息为词语“照片”,第三确定模块630可以确定词语节点“照片”的向量表示,与词语节点“照片”的邻接节点词语节点“尺寸”、词语节点“包邮”、知识点节点“照片有哪些尺寸”、各自的向量表示之间的距离,并将对应距离最近的一个或多个节点确定为推荐节点。
步骤408,将与所述推荐节点相关的信息作为输出。
该步骤可以由输出模块640执行。
在一些实施例中,当所述推荐节点只包括知识点节点时,输出模块640可以将知识点节点对应的知识点正文作为相关信息输出。例如,假定用户选择两个词语“照片”、“尺寸”作为输入信息,根据步骤404及步骤406确定知识点节点“照片有哪些尺寸”为推荐节点。推荐节点中只包含知识点节点,则输出模块640可以关于知识点“照片有哪些尺寸”对应的知识点正文比如“1寸2.5*3.5(cm),2寸3.6*4.7 (cm),3寸5.8*8.4(cm)”作为输出,并推荐给用户。
在一些实施例中,当所述推荐节点包括有词语节点时,处理设备110(或信息推荐系统600)可以将推荐节点对应的词语再次推荐给用户,让用户从中选择词语,并基于用户的选择再次确定推荐节点。例如,当所述推荐节点确定为词语节点“尺寸”以及词语节点“照片”时,处理设备110(或信息推荐系统600)可以将词语“尺寸”以及“照片”再次推荐给用户进行选择。若用户再次选择了词语“照片”,则处理设备110(或信息推荐系统600)可以重复步骤402至406,重新确定推荐节点。若重新确定的推荐节点包括知识点节点“照片有哪些尺寸”,输出模块640可以将知识点“照片有哪些尺寸”对应的正文比如“1寸2.5*3.5(cm),2寸3.6*4.7 (cm),3寸5.8*8.4(cm)”作为输出,并推荐给用户。若重新确定的推荐节点任然不包括词语节点,则以上过程将再次重复一遍,直至推荐节点中包括至少一个知识点节点。
应当注意的是,上述有关流程确定用于信息推荐的图谱方法的描述仅仅是为了示例和说明,而不限定本说明书的适用范围。对于本领域技术人员来说,在本说明书的指导下可以对流程确定用于信息推荐的图谱方法进行各种修正和改变。然而,这些修正和改变仍在本说明书的范围之内。例如,在流程确定用于信息推荐的图谱方法中添加其他步骤,例如,存储步骤、检验步骤等。
图5是根据本说明书一些实施例所示的确定用于信息推荐的图谱的系统500的模块图。
如图5所示,该确定用于信息推荐的图谱的系统500可以包括第一获取模块510、第一确定模块520、以及更新模块530。
第一获取模块510可以用于获取构建目标图谱的多个节点。所述目标图谱可以是指为用户进行信息推荐时所使用的图谱,其包含有多个节点,每个节点可以对应于一份信息。所述节点至少包括词语节点,以及知识点节点。所述词语节点所对应的信息可以是一个词语。所述知识点节点所对应的信息可以是一个知识点。所述知识点可以由标题以及正文组成,标题可以是一个问题,正文可以是该问题的答案。在一些实施例中,所述多个节点可以是预先存储在存储设备,例如,处理设备110自带的存储设备,或存储设备140中。其可以是根据用户在历史上的咨询或自身的服务范围确定并预先存储的。第一获取模块510可以与存储设备进行通信后,读取所述多个节点。
在一些实施例中,第一获取模块510可以根据节点类型(词语节点以及知识点节点)的不同,为每个节点确定其对应的向量表示。若所述节点为词语节点,第一获取模块510可以将该节点对应的词语的向量表示作为该节点的向量表示。若所述节点为知识点节点,第一获取模块510可以基于与所述知识点节点相关的词语的向量表示,确定对所述知识点节点的向量表示。
第一确定模块520可以基于所述两个节点的类型,确定两个节点之间的边权,并将所述边权作为节点与节点之间的关联关系。第一确定模块520可以对于任意两个节点执行以上操作。在一些实施例中,在确定节点与节点之间的关联关系时,第一确定模块520可以基于两个节点的类型以执行不同的处理。第一确定模块520可以首先确定两个节点是否为同一类节点,并基于确定结果,确定两个节点之间的边权,然后将所述边权作为两个节点之间的关联关系。若所述两个节点同为词语节点,第一确定模块520可以基于两个词语节点对应的词语之间共现频率确定所述两个节点之间的边权。若所述两个节点中一个节点为词语节点,另一个节点为知识点节点,第一确定模块520可以基于词语节点的词语相对于知识点节点对应的知识点(包括标题和正文)的重要程度确定两个节点之间的边权。若两个节点同为知识点节点,则第一确定模块520可以直接将两个节点之间的边权确定为0。
更新模块530可以基于节点的向量表示,以及节点与节点之间的关联关系,进行至少一轮图聚合迭代,以更新所述图谱中节点的向量表示。在一些实施例中,对于每一个节点,更新模块530可以利用节点的邻接节点的向量表示,更新节点的向量表示。作为示例,更新模块530可以对邻接节点的向量表示进行运算,例如,加权平均运算,并利用运算结果更新节点的向量表示。更新模块530也可以利用节点与节点间的关联关系更新所述图谱中节点的向量表示,以确定所述目标图谱。更新模块530还可以利用基于神经网络的聚合模型,更新所述初始图谱中节点的向量表示。
关于系统500的模块的更多描述可以参见本说明书流程图部分,例如,图2至图3。
图6是根据本说明书一些实施例所示的利用目标图谱进行的信息推荐的系统600的模块图。
如图6所示,该利用确定的图谱进行的信息推荐的系统600可以包括第二获取模块610、第二确定模块620、第三确定模块630和输出模块640。
第二获取模块610可以用于获取输入信息。在一些实施例中,所述输入信息可以是用户从预先向用户提供的候选词语中选中的一个或多个词语。例如,在进行信息推荐时,处理设备110(或信息推荐系统600)可以将向用户提供的候选词语发送至用户终端130上并显示。显示的形式可以是多个气泡推荐,每个气泡对应一个候选词语。用户可以通过点击候选词语中的一个或多个,向处理设备110(或信息推荐系统600)进行点击反馈。反馈内容即为所述输入信息。
第二确定模块620可以用于利用所述图谱,确定所述输入信息在所述图谱中对应的节点。在一些实施例中,所述图谱可以为所述目标图谱。第二确定模块620可以将所述输入信息中的词语,与在所述目标图谱中的词语节点对应的词语进行比对,以确定所述输入信息对应的节点。
第三确定模块630可以用于基于所述节点的向量表示,以及所述节点的邻接节点的向量表示,确定推荐节点。在一些实施例中,第三确定模块630可以分别确定所述节点的向量表示与该节点的每一个邻接节点的向量表示之间的距离,并将所述距离最近(比如距离值最小)对应的节点确定为推荐节点。
输出模块640可以用于将与所述推荐节点相关的信息作为输出。在一些实施例中,当所述推荐节点只包括知识点节点时,输出模块640可以将知识点节点对应的知识点正文作为相关信息输出。当所述推荐节点包括有词语节点时,系统600可以再一次获取用户的输入信息,并再次确定推荐节点直到推荐节点中包括至少一个知识点节点。此时,输出模块640可以向用户输出该至少一个知识点节点。
关于系统600的模块的更多描述可以参考本说明书流程图部分,例如,图4。
应当理解,图5和图6所示的系统及其模块可以利用各种方式来实现。例如,在一些实施例中,系统及其模块可以通过硬件、软件或者软件和硬件的结合来实现。其中,硬件部分可以利用专用逻辑来实现;软件部分则可以存储在存储器中,由适当的指令执行系统,例如微处理器或者专用设计硬件来执行。本领域技术人员可以理解上述的方法和系统可以使用计算机可执行指令和/或包含在处理器控制代码中来实现,例如在诸如磁盘、CD或DVD-ROM的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本说明书的系统及其模块不仅可以有诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现,也可以用例如由各种类型的处理器所执行的软件实现,还可以由上述硬件电路和软件的结合(例如,固件)来实现。
需要注意的是,以上对于候选项显示、确定系统及其模块的描述,仅为描述方便,并不能把本说明书限制在所举实施例范围之内。可以理解,对于本领域的技术人员来说,在了解该系统的原理后,可能在不背离这一原理的情况下,对各个模块进行任意组合,或者构成子系统与其他模块连接。例如,图5中披露的第一确定模块520、以及第二确定模块530,或图6中披露的第三确定模块620、以及第四确定模块630可以是一个系统中的不同模块,也可以是一个模块实现上述的两个或两个以上模块的功能。又例如,各个模块可以共用一个存储模块,各个模块也可以分别具有各自的存储模块。诸如此类的变形,均在本说明书的保护范围之内。
本说明书实施例可能带来的有益效果包括但不限于:(1)本说明书通过向用户推荐更准确且具有区分度的词语,供用户进行选择,进而向用户回复更准确的信息,提高回复信息的准确度,降低云客服机器人的处理难度,及提高用户体验。(2)本说明书通过采用每个节点的邻接节点来优化其节点的向量表示,可以获取到两个节点之间更加精确的关联程度,使得为用户推荐的词语以及回复信息更加准确。(3)本说明书通过图谱的邻接信息训练模型,依赖无监督数据,避免了对人工打标数据的依赖。需要说明的是,不同实施例可能产生的有益效果不同,在不同的实施例里,可能产生的有益效果可以是以上任意一种或几种的组合,也可以是其他任何可能获得的有益效果。
上文已对基本概念做了描述,显然,对于本领域技术人员来说,上述详细披露仅仅作为示例,而并不构成对本说明书的限定。虽然此处并没有明确说明,本领域技术人员可能会对本说明书进行各种修改、改进和修正。该类修改、改进和修正在本说明书中被建议,所以该类修改、改进、修正仍属于本说明书示范实施例的精神和范围。
同时,本说明书使用了特定词语来描述本说明书的实施例。如“一个实施例”、“一实施例”、和/或“一些实施例”意指与本说明书至少一个实施例相关的某一特征、结构或特点。因此,应强调并注意的是,本说明书中在不同位置两次或多次提及的“一实施例”或“一个实施例”或“一个替代性实施例”并不一定是指同一实施例。此外,本说明书的一个或多个实施例中的某些特征、结构或特点可以进行适当的组合。
此外,本领域技术人员可以理解,本说明书的各方面可以通过若干具有可专利性的种类或情况进行说明和描述,包括任何新的和有用的工序、机器、产品或物质的组合,或对他们的任何新的和有用的改进。相应地,本说明书的各个方面可以完全由硬件执行、可以完全由软件(包括固件、常驻软件、微码等)执行、也可以由硬件和软件组合执行。以上硬件或软件均可被称为“数据块”、“模块”、“引擎”、“单元”、“组件”或“系统”。此外,本说明书的各方面可能表现为位于一个或多个计算机可读介质中的计算机产品,该产品包括计算机可读程序编码。
计算机存储介质可能包含一个内含有计算机程序编码的传播数据信号,例如在基带上或作为载波的一部分。该传播信号可能有多种表现形式,包括电磁形式、光形式等,或合适的组合形式。计算机存储介质可以是除计算机可读存储介质之外的任何计算机可读介质,该介质可以通过连接至一个指令执行系统、装置或设备以实现通讯、传播或传输供使用的程序。位于计算机存储介质上的程序编码可以通过任何合适的介质进行传播,包括无线电、电缆、光纤电缆、RF、或类似介质,或任何上述介质的组合。
本说明书各部分操作所需的计算机程序编码可以用任意一种或多种程序语言编写,包括面向对象编程语言如Java、Scala、Smalltalk、Eiffel、JADE、Emerald、C++、C#、VB.NET、Python等,常规程序化编程语言如C语言、Visual Basic、Fortran 2003、Perl、COBOL 2002、PHP、ABAP,动态编程语言如Python、Ruby和Groovy,或其他编程语言等。该程序编码可以完全在用户计算机上运行、或作为独立的软件包在用户计算机上运行、或部分在用户计算机上运行部分在远程计算机运行、或完全在远程计算机或服务器上运行。在后种情况下,远程计算机可以通过任何网络形式与用户计算机连接,比如局域网(LAN)或广域网(WAN),或连接至外部计算机(例如通过因特网),或在云计算环境中,或作为服务使用如软件即服务(SaaS)。
此外,除非权利要求中明确说明,本说明书所述处理元素和序列的顺序、数字字母的使用、或其他名称的使用,并非用于限定本说明书流程和方法的顺序。尽管上述披露中通过各种示例讨论了一些目前认为有用的发明实施例,但应当理解的是,该类细节仅起到说明的目的,附加的权利要求并不仅限于披露的实施例,相反,权利要求旨在覆盖所有符合本说明书实施例实质和范围的修正和等价组合。例如,虽然以上所描述的系统组件可以通过硬件设备实现,但是也可以只通过软件的解决方案得以实现,如在现有的服务器或移动设备上安装所描述的系统。
同理,应当注意的是,为了简化本说明书披露的表述,从而帮助对一个或多个发明实施例的理解,前文对本说明书实施例的描述中,有时会将多种特征归并至一个实施例、附图或对其的描述中。但是,这种披露方法并不意味着本说明书对象所需要的特征比权利要求中提及的特征多。实际上,实施例的特征要少于上述披露的单个实施例的全部特征。
一些实施例中使用了描述成分、属性数量的数字,应当理解的是,此类用于实施例描述的数字,在一些示例中使用了修饰词“大约”、“近似”或“大体上”来修饰。除非另外说明,“大约”、“近似”或“大体上”表明所述数字允许有±20%的变化。相应地,在一些实施例中,说明书和权利要求中使用的数值参数均为近似值,该近似值根据个别实施例所需特点可以发生改变。在一些实施例中,数值参数应考虑规定的有效数位并采用一般位数保留的方法。尽管本说明书一些实施例中用于确认其范围广度的数值域和参数为近似值,在具体实施例中,此类数值的设定在可行范围内尽可能精确。
针对本说明书引用的每个专利、专利申请、专利申请公开物和其他材料,如文章、书籍、说明书、出版物、文档等,特此将其全部内容并入本说明书作为参考。与本说明书内容不一致或产生冲突的申请历史文件除外,对本说明书权利要求最广范围有限制的文件(当前或之后附加于本说明书中的)也除外。需要说明的是,如果本说明书附属材料中的描述、定义、和/或术语的使用与本说明书所述内容有不一致或冲突的地方,以本说明书的描述、定义和/或术语的使用为准。
最后,应当理解的是,本说明书中所述实施例仅用以说明本说明书实施例的原则。其他的变形也可能属于本说明书的范围。因此,作为示例而非限制,本说明书实施例的替代配置可视为与本说明书的教导一致。相应地,本说明书的实施例不仅限于本说明书明确介绍和描述的实施例。
Claims (20)
1.一种确定用于信息推荐的图谱的方法,其中,所述方法包括:
获取构建图谱的多个节点;所述节点至少包括词语节点,以及知识点节点;若所述节点为词语节点,将该节点对应的词语的向量表示作为该节点的向量表示;若所述节点为知识点节点,基于与所述知识点节点相关的词语的向量表示,确定对应于所述知识点节点的向量表示;
对于任意两个节点:基于所述两个节点的类型,确定所述两个节点之间的边权,并将所述边权作为所述两个节点之间的关联关系;
基于节点的向量表示,以及节点与节点之间的关联关系,进行至少一轮图聚合迭代,以更新所述图谱中节点的向量表示。
2.根据权利要求1所述的方法,其中,
词语的向量表示通过以下方式确定:
利用词向量表示模型确定对应于所述词语的向量表示,所述词向量表示模型包括机器学习模型;
所述基于与所述知识点节点相关的词语的向量表示,确定对应与所述知识点节点的向量表示,包括:
获取来自知识点节点对应的知识点的一个或多个词语;
确定所述一个或多个词语的向量表示;
对一个或多个所述向量表示进行运算,将运算结果作为对应于所述知识点节点的向量表示。
3.根据权利要求1所述的方法,其中,所述基于所述两个节点的类型,确定所述两个节点之间的边权,包括:
若所述两个节点同为词语节点,基于两个节点对应的词语之间共现频率确定所述两个节点之间的边权;
若所述两个节点中一个节点为词语节点,另一个节点为知识点节点,基于词语节点对应的词语相对于知识点结点对应的知识点的重要程度确定两个节点之间的边权;
若所述两个节点同为知识点节点,确定两个节点之间的边权为零。
4.根据权利要求1所示的方法,其中,所述至少一轮图聚合迭代中的一轮,包括:
对于任一节点:
基于节点与节点之间的关联关系,确定该节点的邻接节点;
基于该节点与邻接节点之间的边权对邻接节点在当前迭代轮次中的向量表示进行加权运算,利用运算结果更新该节点的向量表示。
5.根据权利要求1所述的方法,其中,所述至少一轮图聚合迭代中的一轮,包括:
利用所述多个节点在当前迭代轮次中的向量表示,获取向量表示矩阵;
基于节点与节点之间的关联关系,确定对应于所述多个节点的邻接矩阵;
将所述向量表示矩阵与所述邻接矩阵进行运算,利用运算结果更新所述图谱中各节点的向量表示。
6.根据权利要求1所述的方法,其中,所述基于节点的向量表示,以及节点与节点之间的关联关系,进行至少一轮图聚合迭代,以更新所述图谱中节点的向量表示,包括:
利用所述多个节点的向量表示,获取向量表示矩阵;
基于节点与节点之间的关联关系,确定对应于所述多个节点的邻接矩阵;
利用基于神经网络的聚合模型,处理所述向量表示矩阵以及所述邻接矩阵以获得更新后的向量表示矩阵;所述基于神经网络的聚合模型至少包括GCN、或GAT;
基于所述更新后的向量表示矩阵更新所述图谱中节点的向量表示。
7.一种利用图谱进行的信息推荐方法,其中,所述方法包括:
获取输入信息;
利用所述图谱,确定所述输入信息在所述图谱中对应的节点;所述图谱如权利要求1-6中任意一项所述的方法确定;
基于所述节点的向量表示,以及所述节点的邻接节点的向量表示,确定推荐节点;
将与所述推荐节点相关的信息作为输出。
8.根据权利要求7所述的方法,其中,所述输入信息为用户从预先向用户提供的候选词语中选中的一个或多个词语。
9.根据权利要求7所述的方法,其中,所述与所述推荐节点相关的信息包括与所述推荐节点相关的知识点。
10.一种确定用于信息推荐的图谱的系统,其中,所述系统包括第一获取模块、第一确定模块、以及更新模块;
所述第一获取模块,用于获取构建图谱的多个节点;所述节点至少包括词语节点,以及知识点节点;若所述节点为词语节点,将该节点对应的词语的向量表示作为该节点的向量表示;若所述节点为知识点节点,基于与所述知识点节点相关的词语的向量表示,确定对应于所述知识点节点的向量表示;
对于任意两个节点:所述第一确定模块,用于基于所述两个节点的类型,确定所述两个节点之间的边权,并将所述边权作为所述两个节点之间的关联关系;
所述更新模块,用于基于节点的向量表示,以及节点与节点之间的关联关系,进行至少一轮图聚合迭代,以更新所述图谱中节点的向量表示。
11.根据权利要求10所述的系统,其中,为获取词语的向量表示,所述第一获取模块用于:
利用词向量表示模型确定对应于所述词语的向量表示;所述词向量表示模型包括机器学习模型;
为基于与所述知识点节点相关的词语的向量表示,确定对应与所述知识点节点的向量表示,所述第一获取模块用于:
获取来自知识点节点对应的知识点的一个或多个词语;
确定所述一个或多个词语的向量表示;
对一个或多个所述向量表示进行运算,将运算结果作为对应于所述知识点节点的向量表示。
12.根据权利要求10所述的系统,其中,为基于所述两个节点的类型,确定两个节点之间的边权,所述第一确定模块用于:
若所述两个节点同为词语节点,基于两个节点对应的词语之间共现频率确定所述两个节点之间的边权;
若所述两个节点中一个节点为词语节点,另一个节点为知识点节点,基于词语节点对应的词语相对于知识点结点对应的知识点的重要程度确定两个节点之间的边权;
若所述两个节点同为知识点节点,确定两个节点之间的边权为零。
13.根据权利要求10所述的系统,其中,为进行所述至少一轮图聚合迭代中的一轮,所述更新模块用于:
对于任一节点:
基于节点与节点之间的关联关系,确定该节点的邻接节点;
基于该节点与邻接节点之间的边权对邻接节点在当前迭代轮次中的向量表示进行加权运算,利用运算结果更新该节点的向量表示。
14.根据权利要求10所述的系统,其中,为进行所述至少一轮图聚合迭代中的一轮,所述更新模块用于:
利用所述多个节点在当前迭代轮次中的向量表示,获取向量表示矩阵;
基于节点与节点之间的关联关系,确定对应于所述多个节点的邻接矩阵;
将所述向量表示矩阵与所述邻接矩阵进行运算,利用运算结果更新所述图谱中各节点的向量表示。
15.根据权利要求10所述的系统,其中,为基于节点的向量表示,以及节点与节点之间的关联关系,进行至少一轮图聚合迭代,以更新所述图谱中节点的向量表示,所述更新模块用于:
利用所述多个节点的向量表示,获取向量表示矩阵;
基于节点与节点之间的关联关系,确定对应于所述多个节点的邻接矩阵;
利用基于神经网络的聚合模型,处理所述向量表示矩阵以及所述邻接矩阵以获得更新后的向量表示矩阵;所述基于神经网络的聚合模型至少包括GCN、或GAT;
基于所述更新后的向量表示矩阵更新所述图谱中节点的向量表示。
16.一种利用图谱进行的信息推荐系统,其中,所述系统包括第二获取模块、第二确定模块、第三确定模块以及输出模块;
所述第二获取模块,用于获取输入信息;
所述第二确定模块,用于利用所述图谱,确定所述输入信息在所述图谱中对应的节点;所述图谱由如权利要求1-6中任意一项所述的方法确定;
所述第三确定模块,用于基于所述节点的向量表示,以及所述节点的邻接节点的向量表示,确定推荐节点;
所述输出模块,用于将与所述推荐节点相关的信息作为输出。
17.根据权利要求16所述的系统,其中,所述输入信息为用户从预先向用户提供的候选词语中选中的一个或多个词语。
18.根据权利要求16所述的系统,其中,所述与所述推荐节点相关的信息包括与所述推荐节点相关的知识点。
19.一种确定用于信息推荐的图谱的装置,其中,所述装置包括处理器,所述处理器用于执行如权利要求1-6中任意一项所述的方法。
20.一种利用图谱进行的信息推荐装置,其中,所述装置包括处理器,所述处理器用于执行如权利要求7-9中任意一项所述的方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010329694.9A CN111241412B (zh) | 2020-04-24 | 2020-04-24 | 一种确定用于信息推荐的图谱的方法、系统、及装置 |
PCT/CN2021/088763 WO2021213448A1 (zh) | 2020-04-24 | 2021-04-21 | 确定用于信息推荐的图谱 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010329694.9A CN111241412B (zh) | 2020-04-24 | 2020-04-24 | 一种确定用于信息推荐的图谱的方法、系统、及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111241412A true CN111241412A (zh) | 2020-06-05 |
CN111241412B CN111241412B (zh) | 2020-08-07 |
Family
ID=70864714
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010329694.9A Active CN111241412B (zh) | 2020-04-24 | 2020-04-24 | 一种确定用于信息推荐的图谱的方法、系统、及装置 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN111241412B (zh) |
WO (1) | WO2021213448A1 (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111695501A (zh) * | 2020-06-11 | 2020-09-22 | 青岛大学 | 一种基于操作系统内核调用数据的设备软故障检测方法 |
CN111723292A (zh) * | 2020-06-24 | 2020-09-29 | 携程计算机技术(上海)有限公司 | 基于图神经网络的推荐方法、系统、电子设备及存储介质 |
CN112256834A (zh) * | 2020-10-28 | 2021-01-22 | 中国科学院声学研究所 | 一种基于内容及文献的海洋科学数据推荐系统 |
WO2021213448A1 (zh) * | 2020-04-24 | 2021-10-28 | 支付宝(杭州)信息技术有限公司 | 确定用于信息推荐的图谱 |
CN114254073A (zh) * | 2021-09-28 | 2022-03-29 | 航天科工网络信息发展有限公司 | 一种基于动态知识图谱的文本分析方法 |
CN117094529A (zh) * | 2023-10-16 | 2023-11-21 | 浙江挚典科技有限公司 | 一种钢筋避让方案推荐方法 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115080706B (zh) * | 2022-08-18 | 2022-11-08 | 京华信息科技股份有限公司 | 一种企业关系图谱的构建方法及系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105824802A (zh) * | 2016-03-31 | 2016-08-03 | 清华大学 | 一种获取知识图谱向量化表示的方法以及装置 |
US20170249399A1 (en) * | 2014-07-16 | 2017-08-31 | Baidu Online Network Technology (Beijing) Co., Ltd | Method And Apparatus For Displaying Recommendation Result |
CN107545000A (zh) * | 2016-06-28 | 2018-01-05 | 百度在线网络技术(北京)有限公司 | 基于知识图谱的信息推送方法及装置 |
CN108846104A (zh) * | 2018-06-20 | 2018-11-20 | 北京师范大学 | 一种基于教育知识图谱的问答分析与处理方法及系统 |
CN109670051A (zh) * | 2018-12-14 | 2019-04-23 | 北京百度网讯科技有限公司 | 知识图谱挖掘方法、装置、设备和存储介质 |
CN110362723A (zh) * | 2019-05-31 | 2019-10-22 | 平安国际智慧城市科技股份有限公司 | 一种题目特征表示方法、装置及存储介质 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109086434B (zh) * | 2018-08-13 | 2021-07-13 | 华中师范大学 | 一种基于主题图的知识聚合方法及系统 |
US20200084084A1 (en) * | 2018-09-06 | 2020-03-12 | Ca, Inc. | N-gram based knowledge graph for semantic discovery model |
CN110516697B (zh) * | 2019-07-15 | 2021-08-31 | 清华大学 | 基于证据图聚合与推理的声明验证方法及系统 |
CN111241412B (zh) * | 2020-04-24 | 2020-08-07 | 支付宝(杭州)信息技术有限公司 | 一种确定用于信息推荐的图谱的方法、系统、及装置 |
-
2020
- 2020-04-24 CN CN202010329694.9A patent/CN111241412B/zh active Active
-
2021
- 2021-04-21 WO PCT/CN2021/088763 patent/WO2021213448A1/zh active Application Filing
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170249399A1 (en) * | 2014-07-16 | 2017-08-31 | Baidu Online Network Technology (Beijing) Co., Ltd | Method And Apparatus For Displaying Recommendation Result |
CN105824802A (zh) * | 2016-03-31 | 2016-08-03 | 清华大学 | 一种获取知识图谱向量化表示的方法以及装置 |
CN107545000A (zh) * | 2016-06-28 | 2018-01-05 | 百度在线网络技术(北京)有限公司 | 基于知识图谱的信息推送方法及装置 |
CN108846104A (zh) * | 2018-06-20 | 2018-11-20 | 北京师范大学 | 一种基于教育知识图谱的问答分析与处理方法及系统 |
CN109670051A (zh) * | 2018-12-14 | 2019-04-23 | 北京百度网讯科技有限公司 | 知识图谱挖掘方法、装置、设备和存储介质 |
CN110362723A (zh) * | 2019-05-31 | 2019-10-22 | 平安国际智慧城市科技股份有限公司 | 一种题目特征表示方法、装置及存储介质 |
Non-Patent Citations (2)
Title |
---|
SHUO YANG 等: "Efficiently Answering Technical Questions-A Knowledge Graph Approach", 《PROCEEDINGS OF THE THIRTY-FIRST AAAI CONFERENCE ON ARTIFICIAL INTELLIGENCE (AAAI-17)》 * |
韩路 等: "基于贝叶斯网的知识图谱链接预测", 《计算机科学与探索》 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021213448A1 (zh) * | 2020-04-24 | 2021-10-28 | 支付宝(杭州)信息技术有限公司 | 确定用于信息推荐的图谱 |
CN111695501A (zh) * | 2020-06-11 | 2020-09-22 | 青岛大学 | 一种基于操作系统内核调用数据的设备软故障检测方法 |
CN111723292A (zh) * | 2020-06-24 | 2020-09-29 | 携程计算机技术(上海)有限公司 | 基于图神经网络的推荐方法、系统、电子设备及存储介质 |
CN111723292B (zh) * | 2020-06-24 | 2023-07-07 | 携程计算机技术(上海)有限公司 | 基于图神经网络的推荐方法、系统、电子设备及存储介质 |
CN112256834A (zh) * | 2020-10-28 | 2021-01-22 | 中国科学院声学研究所 | 一种基于内容及文献的海洋科学数据推荐系统 |
CN114254073A (zh) * | 2021-09-28 | 2022-03-29 | 航天科工网络信息发展有限公司 | 一种基于动态知识图谱的文本分析方法 |
CN117094529A (zh) * | 2023-10-16 | 2023-11-21 | 浙江挚典科技有限公司 | 一种钢筋避让方案推荐方法 |
CN117094529B (zh) * | 2023-10-16 | 2024-02-13 | 浙江挚典科技有限公司 | 一种钢筋避让方案推荐方法 |
Also Published As
Publication number | Publication date |
---|---|
WO2021213448A1 (zh) | 2021-10-28 |
CN111241412B (zh) | 2020-08-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111241412B (zh) | 一种确定用于信息推荐的图谱的方法、系统、及装置 | |
US11227190B1 (en) | Graph neural network training methods and systems | |
CN110651280B (zh) | 投影神经网络 | |
Chen et al. | An adaptive functional autoregressive forecast model to predict electricity price curves | |
CN112529115B (zh) | 一种对象聚类方法和系统 | |
US11030265B2 (en) | Cross-platform data matching method and apparatus, computer device and storage medium | |
CN111353033B (zh) | 一种训练文本相似度模型的方法和系统 | |
US10878058B2 (en) | Systems and methods for optimizing and simulating webpage ranking and traffic | |
CN105320724A (zh) | 用于优化用于学习排序的非凸函数的新探索 | |
US11403700B2 (en) | Link prediction using Hebbian graph embeddings | |
US20240265251A1 (en) | Network Model Training Method and Apparatus, Electronic Apparatus and Computer-readable Storage Medium | |
Cao et al. | Calibrating a cellular automata model for understanding rural–urban land conversion: A Pareto front-based multi-objective optimization approach | |
US20220138502A1 (en) | Graph neural network training methods and systems | |
Henriques et al. | Carto‐SOM: cartogram creation using self‐organizing maps | |
Müller et al. | Representing sparse Gaussian DAGs as sparse R-vines allowing for non-Gaussian dependence | |
CN113343091A (zh) | 面向产业和企业的科技服务推荐计算方法、介质及程序 | |
US20230351153A1 (en) | Knowledge graph reasoning model, system, and reasoning method based on bayesian few-shot learning | |
CN110309281A (zh) | 基于知识图谱的问答方法、装置、计算机设备及存储介质 | |
Schuster et al. | Markov chain importance sampling—a highly efficient estimator for MCMC | |
Asimit et al. | Statistical inference for a new class of multivariate Pareto distributions | |
Marks et al. | Applying bootstrap methods to system reliability | |
US20170155571A1 (en) | System and method for discovering ad-hoc communities over large-scale implicit networks by wave relaxation | |
Lecoutre et al. | New results for computing Blaker’s exact confidence interval for one parameter discrete distributions | |
Kuzman | Poletsky theory of discs in almost complex manifolds | |
CN114969577A (zh) | 兴趣点推荐方法和兴趣点推荐模型的训练方法、装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |