CN111538827B - 基于内容和图神经网络的判例推荐方法、装置及存储介质 - Google Patents

基于内容和图神经网络的判例推荐方法、装置及存储介质 Download PDF

Info

Publication number
CN111538827B
CN111538827B CN202010350837.4A CN202010350837A CN111538827B CN 111538827 B CN111538827 B CN 111538827B CN 202010350837 A CN202010350837 A CN 202010350837A CN 111538827 B CN111538827 B CN 111538827B
Authority
CN
China
Prior art keywords
node
characteristic information
information
case
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010350837.4A
Other languages
English (en)
Other versions
CN111538827A (zh
Inventor
杨俊�
张敏
马为之
刘奕群
马少平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN202010350837.4A priority Critical patent/CN111538827B/zh
Publication of CN111538827A publication Critical patent/CN111538827A/zh
Application granted granted Critical
Publication of CN111538827B publication Critical patent/CN111538827B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本公开涉及一种基于内容和图神经网络的判例推荐方法、装置及存储介质,所述方法包括:根据目标用户的日志数据,从判例库中确定出多个候选判例;根据所述目标用户的兴趣特征信息及所述多个候选判例的第一特征信息,分别预测所述目标用户对各个候选判例的评分,其中,所述兴趣特征信息包括目标用户的长期兴趣特征和短期兴趣特征,所述长期兴趣特征及所述第一特征信息是通过图神经网络确定的;根据所述评分及预设的推荐数量,确定向所述目标用户推荐的目标判例。根据本公开实施例的判例推荐方法能够有效提高判例推荐的准确性。

Description

基于内容和图神经网络的判例推荐方法、装置及存储介质
技术领域
本公开涉及计算机技术领域,尤其涉及一种基于内容和图神经网络的判例推荐方法、装置及存储介质。
背景技术
随着信息化法治建设,司法信息系统收集、存储的法律法规、法律文书和用户历史记录越来越多,可以为基于上述信息的推荐算法提供支持。
现有的司法信息系统中的推荐算法,仅向用户推荐热度最高的内容,或使用传统的基于协同过滤或内容的推荐方法,或使用基于知识图谱的算法进行推荐。但是,由于司法领域的知识兼有结构信息和内容信息,现有的推荐算法仅能刻画部分信息,使用现有的推荐算法进行推荐时,准确性较差。
发明内容
有鉴于此,本公开提出了一种基于内容和图神经网络的判例推荐技术方案。
根据本公开的一方面,提供了一种基于内容和图神经网络的判例推荐方法,所述方法包括:
根据目标用户的日志数据,从判例库中确定出多个候选判例;
根据所述目标用户的兴趣特征信息及所述多个候选判例的第一特征信息,分别预测所述目标用户对各个候选判例的评分,其中,所述兴趣特征信息包括目标用户的长期兴趣特征和短期兴趣特征,所述长期兴趣特征及所述第一特征信息是通过图神经网络确定的;
根据所述评分及预设的推荐数量,确定向所述目标用户推荐的目标判例。
在一种可能的实现方式中,所述方法还包括:
根据多个用户的日志数据、预设的法律知识图谱及所述判例库中的多个判例,确定异质信息网络,所述异质信息网络包括多个节点及多条边,所述节点的类型包括用户节点、判例节点、查询词节点、法律节点、法条节点及案由节点,所述边用于表示节点之间的连接关系;
根据所述异质信息网络及各个节点对应的内容,分别确定各个节点的第二特征信息,所述第二特征信息包括节点的内容特征及结构特征;
对于任一节点,根据所述节点的第二特征信息及所述节点的关联节点的第二特征信息,通过图神经网络进行聚合处理,得到所述节点在所述图神经网络的多个层级的特征信息,所述节点的关联节点为与所述节点存在连接关系的节点;
将所述节点的第二特征信息及所述节点在所述图神经网络的多个层级的特征信息进行拼接,得到所述节点的第三特征信息,
其中,所述目标用户的长期兴趣特征包括与所述目标用户对应的用户节点的第三特征信息;
所述候选判例的第一特征信息包括与所述候选判例对应的判例节点的第三特征信息。
在一种可能的实现方式中,所述方法还包括:
根据所述目标用户对所述判例库中多个第一判例的查看时间及预设数量,从所述多个第一判例中,确定出查看时间最近的多个第二判例;
根据与所述多个第二判例对应的判例节点的第三特征信息,确定所述目标用户的短期兴趣特征。
在一种可能的实现方式中,根据所述异质信息网络及各个节点对应的内容,分别确定各个节点的第二特征信息,包括:
根据所述异质信息网络中的各个节点对应的内容,分别确定各个节点的内容特征;
根据各个节点的内容特征及预设的初始值,确定所述异质信息网络中各个节点的第四特征信息及各条边的特征信息,其中,所述节点的第四特征信息包括所述节点的内容特征及结构特征;
根据所述异质信息网络,确定多个三元组,所述三元组包括头节点、头节点与尾节点的连接关系及尾节点;
根据所述多个三元组中头节点的特征信息、连接关系的特征信息及尾节点的特征信息,通过特征表示网络,分别确定各个三元组的损失,其中,所述头节点的特征信息包括与所述头节点对应的节点的第四特征信息,所述尾节点的特征信息包括与所述尾节点对应的节点的第四特征信息,所述连接关系的特征信息包括与所述连接关系对应的边的特征信息;
根据各个三元组的损失,分别确定各个三元组中头节点的特征信息的调整值、连接关系的特征信息的调整值及尾节点的特征信息的调整值;
根据各个三元组中头节点的特征信息的调整值、连接关系的特征信息的调整值及尾节点的特征信息的调整值,对所述异质信息网络中各个节点的第四特征信息中的结构特征及各条边的特征信息进行调整,得到各个节点的调整后的第四特征信息及各条边的调整后的特征信息;
将各个节点的调整后的第四特征信息,确定为各个节点的第二特征信息。
在一种可能的实现方式中,所述图神经网络的层级数为N,N为正整数,
根据所述节点的第二特征信息及所述节点的关联节点的第二特征信息,通过图神经网络进行聚合处理,得到所述节点在所述图神经网络的多个层级的特征信息,包括:
将所述节点的第二特征信息及所述节点的关联节点的第二特征信息,输入图神经网络第1层进行聚合处理,得到所述节点的第1级特征信息;
将所述节点的第i级特征信息及所述节点的关联节点的第i级特征信息,输入图神经网络第i+1层进行聚合处理,得到所述节点的第i+1级特征信息,其中i为整数,且1≤i≤N-1。
在一种可能的实现方式中,将所述节点的第i级特征信息及所述节点的关联节点的第i级特征信息,输入图神经网络第i+1层进行聚合处理,得到所述节点的第i+1级特征信息,包括:
根据所述节点与关联节点的连接关系,通过图神经网络第i+1层,对与所述节点存在相同连接关系的关联节点的第i级特征信息进行池化处理,得到所述节点的与各个连接关系对应的第i+1级中间特征信息;
将所述节点的与各个连接关系对应的第i+1级中间特征信息的加权和,确定为所述节点的第i+1级关联特征信息;
通过所述图神经网络第i+1层,对所述节点的第i级特征信息及所述节点的第i+1级关联特征信息进行聚合处理,得到所述节点的第i+1级特征信息。
在一种可能的实现方式中,根据所述目标用户的兴趣特征信息及所述多个候选判例的第一特征信息,分别预测所述目标用户对各个候选判例的评分,包括:
将所述目标用户的兴趣特征信息及所述多个候选判例的第一特征信息,输入预测网络中进行处理,分别预测所述目标用户对各个候选判例的评分。
在一种可能的实现方式中,所述方法还包括:
根据预设的训练集,训练所述特征表示网络、所述图神经网络及所述预测网络,其中,所述训练集包括多个正样本及多个负样本。
根据本公开的另一方面,提供了一种基于内容和图神经网络的判例推荐装置,所述装置包括:
候选判例确定模块,用于根据目标用户的日志数据,从判例库中确定出多个候选判例;
评分预测模块,用于根据所述目标用户的兴趣特征信息及所述多个候选判例的第一特征信息,分别预测所述目标用户对各个候选判例的评分,其中,所述兴趣特征信息包括目标用户的长期兴趣特征和短期兴趣特征,所述长期兴趣特征及所述第一特征信息是通过图神经网络确定的;
目标判例确定模块,用于根据所述评分及预设的推荐数量,确定向所述目标用户推荐的目标判例。
根据本公开的另一方面,提供了一种非易失性计算机可读存储介质,其上存储有计算机程序指令,其特征在于,所述计算机程序指令被处理器执行时实现上述方法。
根据本公开的实施例,能够根据目标用户的日志数据,从判例库中确定出多个候选判例,并根据目标用户的长期兴趣特征、短期兴趣特征及多个候选判例的第一特征信息(其中长期兴趣特征及第一特征信息是通过图神经网络确定的),预测目标用户对各个候选判例的评分,根据该评分及推荐数量,确定出向目标用户推荐的目标判例,从而可以在确定向用户推荐的目标判例时,通过图神经网络确定用户的长期兴趣特征及候选判例的特征信息,并将用户的长期兴趣特征、短期兴趣特征及候选判例的特征信息相结合,来预测用户对候选判例的评分,根据该评分来确定推荐的目标判例,可提高评分预测的准确性,进而提高判例推荐的准确性。
根据下面参考附图对示例性实施例的详细说明,本公开的其它特征及方面将变得清楚。
附图说明
包含在说明书中并且构成说明书的一部分的附图与说明书一起示出了本公开的示例性实施例、特征和方面,并且用于解释本公开的原理。
图1示出根据本公开的实施例的基于内容和图神经网络的判例推荐方法的流程图。
图2示出根据本公开的实施例的基于内容和图神经网络的判例推荐方法的应用场景的示意图。
图3示出根据本公开的实施例的基于内容和图神经网络的判例推荐装置的框图。
具体实施方式
以下将参考附图详细说明本公开的各种示例性实施例、特征和方面。附图中相同的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面,但是除非特别指出,不必按比例绘制附图。
在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。
另外,为了更好的说明本公开,在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解,没有某些具体细节,本公开同样可以实施。在一些实例中,对于本领域技术人员熟知的方法、手段、元件和电路未作详细描述,以便于凸显本公开的主旨。
本公开实施例所述的基于内容和图神经网络的判例推荐方法,可应用于处理器,该处理器可以是通用处理器,例如CPU(Central Processing Unit,中央处理器),也可以是用于执行人工智能运算的人工智能处理器(IPU),例如GPU(Graphics Processing Unit,图形处理单元)、NPU(Neural-Network Processing Unit,神经网络处理单元)、DSP(DigitalSignal Process,数字信号处理单元)等。本公开对处理器的具体类型不作限制。
本公开实施例所述的案由,是人民法院对诉讼案件所涉及的法律关系的性质进行概括后形成的案件名称。《中华人民共和国刑法》及《民事案件案由规定》定义了多种案由,例如:抢劫罪、所有权纠纷、合同纠纷等。
图1示出根据本公开的实施例的基于内容和图神经网络的判例推荐方法的流程图。如图1所示,所述方法包括:
在步骤S11中,根据目标用户的日志数据,从判例库中确定出多个候选判例;
在步骤S12中,根据所述目标用户的兴趣特征信息及所述多个候选判例的第一特征信息,分别预测所述目标用户对各个候选判例的评分,其中,所述兴趣特征信息包括目标用户的长期兴趣特征和短期兴趣特征,所述长期兴趣特征及所述第一特征信息是通过图神经网络确定的;
在步骤S13中,根据所述评分及预设的推荐数量,确定向所述目标用户推荐的目标判例。
根据本公开的实施例,能够根据目标用户的日志数据,从判例库中确定出多个候选判例,并根据通过图神经网络确定的该目标用户的长期兴趣特征、短期兴趣特征及多个候选判例的第一特征信息(其中长期兴趣特征及第一特征信息是通过图神经网络确定的),预测目标用户对各个候选判例的评分,根据该评分及推荐数量,确定出向目标用户推荐的目标判例,从而可以在确定向用户推荐的目标判例时,通过图神经网络确定用户的兴趣特征信息及候选判例的特征信息,并将用户的长期兴趣特征、短期兴趣特征及候选判例的特征信息相结合,来预测用户对候选判例的评分,根据该评分来确定推荐的目标判例,可提高评分预测的准确性,进而提高判例推荐的准确性。
在一种可能的实现方式中,所述基于内容和图神经网络的判例推荐方法,可应用于司法信息系统中需要进行判例推荐的场景。例如,用户登录司法信息系统后,根据预设的推荐数量,可向用户推荐预测评分最高的多个目标判例,以供用户查看。再例如,用户登录司法信息系统后,进行查询,输入查询词后,司法信息系统可确定出与查询词匹配的多个判例,可结合该判例推荐方法,预测用户对与查询词匹配的各个判例的评分,并根据推荐数量,按照评分从高到低的顺序,确定出多个目标判例,将确定出的多个目标判例作为匹配度高的查询结果,放在查询结果列表的前列,以供用户查看。应当理解,本领域技术人员可根据实际情况确定所述基于内容的判例推荐方法的具体应用场景,本公开对此不作限制。
在一种可能的实现方式中,可在步骤S11中,根据目标用户的日志数据,从判例库中确定出多个候选判例。其中,日志数据可包括预设时段内(例如1年内、2年内等)目标用户在司法信息系统中的登录、退出、查询、查看等操作的相关记录数据。可根据目标用户的日志数据中与判例相关的信息(例如,目标用户查询或查看过的判例、法条、案由等),从判例库中确定出多个候选判例。例如,候选判例可包括与目标用户查看过的判例包括的案由相同的判例,候选判例可包括与目标用户查看过的判例引用的法条相同的判例等。本公开对候选判例的具体确定依据及确定方式均不作限制。
在一种可能的实现方式中,确定出多个候选判例后,可在步骤S12中,根据目标用户的兴趣特征信息及多个候选判例的第一特征信息,分别预测目标用户对各个候选判例的评分。该评分可表示预测的用户对候选判例的关注度,评分越高,关注度越高。
在一种可能的实现方式中,目标用户的兴趣特征信息可包括目标用户的长期兴趣特征和短期兴趣特征。长期兴趣特征可用于表示目标用户对判例的长期偏好,可根据预设时段内目标用户的日志数据来确定;短期兴趣特征可用于表示目标用户对判例的短期偏好,可根据用户近期查看的预设数量的判例来确定。可通过池化、聚合、拼接等多种处理方式,确定目标用户的长期兴趣特征和短期兴趣特征。其中,长期兴趣特征还可通过图神经网络来确定。本公开对此不作限制。
在一种可能的实现方式中,候选判例的第一特征信息可融合候选判例的内容特征、结构特征以及司法信息系统中与其存在连接关系的其他对象的特征信息。可通过图神经网络来确定候选判例的第一特征信息。其中,候选判例的内容特征可用于表示候选判例包括的内容信息,例如候选判例的基本事实、裁判分析及判决结果等;候选判例的结构特征可用于表示候选判例与司法信息系统中其他对象之间的关系。司法信息系统中的其他对象可例如包括法律、法条、案由等。
在一种可能的实现方式中,可根据目标用户的兴趣特征信息及多个候选判例的第一特征信息,通过特征匹配等方式,分别预测目标用户对各个候选判例的评分。
在一种可能的实现方式中,步骤S12可包括:将所述目标用户的兴趣特征信息及所述多个候选判例的第一特征信息,输入预测网络中进行处理,分别预测所述目标用户对各个候选判例的评分。其中,预测网络可以是多层神经网络(MLP,Multi-Layer Perceptron)。本领域技术人员可根据实际情况确定预测网络的具体类型及结构,本公开对此不作限制。通过预测网络来预测目标用户对各个候选判例的评分,可提高处理效率。
在一种可能的实现方式中,可通过下述公式(1)来预测目标用户u对候选判例v的评分y(u,v):
其中,表示目标用户u的长期兴趣特征,/>表示目标用户u的短期兴趣特征,/>表示候选判例v的第一特征信息,||表示拼接。
在一种可能的实现方式中,可在步骤S13中,根据所述评分及预设的推荐数量,确定向所述目标用户推荐的目标判例。其中,预设的推荐数量可根据实际情况进行设置,本公开对此不作限制。
在一种可能的实现方式中,在得到预测的目标用户对各个候选判例的评分后,可通过比较、排序、取最大值等多种方式,从多个候选判例中选取出推荐数量的判例,并将选取出的判例确定为向目标用户推荐的目标判例。
举例来说,假设多个候选判例的数量为K(其中K为正整数),分别表示为v0,v1,v2,…,vK-1,可将目标用户u的兴趣特征信息及多个候选判例的第一特征信息,输入多层神经网络MLP中进行处理,预测出目标用户u对K个候选判例的评分,分别表示为y(u,v0),y(u,v1),y(u,v2),…,y(u,vK-1);可按照评分由高到低,对候选判例排序;在预设的推荐数量为M时(其中M为正整数,且M≤K),可将排序后的K个候选判例中的前M个候选判例确定为向目标用户u推荐的M个目标判例。
在一种可能的实现方式中,所述方法还可包括:
根据多个用户的日志数据、预设的法律知识图谱及所述判例库中的多个判例,确定异质信息网络,所述异质信息网络包括多个节点及多条边,所述节点的类型包括用户节点、判例节点、查询词节点、法律节点、法条节点及案由节点,所述边用于表示节点之间的连接关系;
根据所述异质信息网络及各个节点对应的内容,分别确定各个节点的第二特征信息,所述第二特征信息包括节点的内容特征及结构特征;
对于任一节点,根据所述节点的第二特征信息及所述节点的关联节点的第二特征信息,通过图神经网络进行聚合处理,得到所述节点在所述图神经网络的多个层级的特征信息,所述节点的关联节点为与所述节点存在连接关系的节点;
将所述节点的第二特征信息及所述节点在所述图神经网络的多个层级的特征信息进行拼接,得到所述节点的第三特征信息,
其中,所述目标用户的长期兴趣特征包括与所述目标用户对应的用户节点的第三特征信息;
所述候选判例的第一特征信息包括与所述候选判例对应的判例节点的第三特征信息。
在一种可能的实现方式中,预设的法律知识图谱可用于描述司法领域中的法律、法条、案由三类对象以及各个对象之间的关系。其中,各个对象之间的关系可根据实际情况设置,例如“法律”包括“法条”、“法条”定义“案由”等。
在一种可能的实现方式中,在确定异质信息网络时,可首先对多个用户的日志数据进行处理。多个用户可包括司法信息系统的所有用户,其日志数据可包括预设时段内(例如1年内、2年内等)各个用户在司法信息系统中的登录、退出、查询、查看等操作的相关记录数据,例如:各个用户查看的判例、查询时输入的查询词、每个查询词对应的查询结果等记录数据。可对日志数据进行信息提取,确定出用户、判例、查询词三类对象,并确定出各个对象之间的关系,例如:“用户”查询“查询词”、“用户”看到“判例”、“用户”查看“判例”、“查询词”查询到“判例”。其中,用户看到的判例包括在用户当前页面显示的判例,例如,当前页面显示判例的查询结果,那么,在当前页面显示的判例均为用户看到的判例,而在其他页面的判例,则为用户未看到的判例;用户查看的判例包括用户打开并查看内容的判例。
在一种可能的实现方式中,可通过判例将用户日志与法律知识图谱进行实体链接,建立异质信息网络。在进行实体链接时,可分别对判例库中的各个判例的文书全文进行文本匹配,获取各个判例的文书中包括的法条及案由,建立判例与法律、法条、案由之间的关系:“判例”包括“法律”、“判例”包括“法条”、“判例”包括“案由”;还可通过文本匹配的方式,确定查询词中包括的案由,建立查询词与案由之间的关系:“查询词”包括“案由”,从而可根据日志数据、法律知识图谱及判例库中的多个判例,建立包括多个节点及多条边的异质信息网络,其中,边用于表示节点之间的连接关系。异质信息网络中节点的类型可包括用户节点、判例节点、查询词节点、法律节点、法条节点及案由节点。
在一种可能的实现方式中,建立异质信息网络后,可根据异质信息网络及各个节点对应的内容,分别确定各个节点的第二特征信息,第二特征信息可包括节点的内容特征及结构特征。其中,内容特征可包括节点的类型、文本特征、图像特征等,可对该节点对应的内容进行特征提取、量化、特征交互等处理,得到该节点的内容特征;结构特征可根据异质信息网络中该节点的连接关系来确定。
在一种可能的实现方式中,确定各个节点的第二特征信息后,对于任一节点,可根据该节点的第二特征信息及该节点的关联节点的第二特征信息,通过图神经网络进行聚合处理,得到节点在图神经网络的多个层级的特征信息,节点的关联节点为与节点存在连接关系的节点。
也就是说,对于任一节点,可将该节点的第二特征信息及与该节点存在连接关系的关联节点的第二特征信息,输入图神经网络进行聚合处理,得到该节点在图神经网络的多个层级的特征信息。例如,图神经网络的层级为3,通过图神经网络进行聚合处理后,可得到该节点在图神经网络的3个层级的特征信息,即图神经网络的各个层级的输出中,均包括该节点在该层级的特征信息。
在一种可能的实现方式中,可将节点的第二特征信息及节点在图神经网络的多个层级的特征信息进行拼接,得到节点的第三特征信息。
在得到各个节点的第三特征信息后,可分别确定目标用户的长期兴趣特征及候选判例的第一特征信息。其中,目标用户的长期兴趣特征包括与目标用户对应的用户节点的第三特征信息;候选判例的第一特征信息包括与候选判例对应的判例节点的第三特征信息。
在本实施例中,能够根据日志数据、法律知识图谱及判例库中的多个判例,建立异质信息网络,并确定异质信息网络中各个节点的、包括内容特征及结构特征的第二特征信息,然后通过图神经网络,对各个节点及其关联节点的第二特征信息进行聚合处理,得到各个节点在图神经网络的多个层级的特征信息,并将各个节点的第二特征信息及其在图神经网络的多个层级的特征信息进行拼接,得到各个节点的第三特征信息,从而可确定出目标用户的长期兴趣特征及候选判例的第一特征信息。由于异质信息网络中包括用户节点、判例节点、查询词节点、法律节点、法条节点及案由节点,经过聚合及拼接处理,可使得各个节点的第三特征信息中,不仅融合了节点的内容特征和结构特征,还融合了其关联节点的特征信息,从而提高了各个节点的第三特征信息的准确性,进而可提高目标用户的长期兴趣特征及候选判例的第一特征信息的准确性。
在一种可能的实现方式中,根据所述异质信息网络及各个节点对应的内容,分别确定各个节点的第二特征信息,可包括:
根据所述异质信息网络中的各个节点对应的内容,分别确定各个节点的内容特征;
根据各个节点的内容特征及预设的初始值,确定所述异质信息网络中各个节点的第四特征信息及各条边的特征信息,其中,所述节点的第四特征信息包括所述节点的内容特征及结构特征;
根据所述异质信息网络,确定多个三元组,所述三元组包括头节点、头节点与尾节点的连接关系及尾节点;
根据所述多个三元组中头节点的特征信息、连接关系的特征信息及尾节点的特征信息,通过特征表示网络,分别确定各个三元组的损失,其中,所述头节点的特征信息包括与所述头节点对应的节点的第四特征信息,所述尾节点的特征信息包括与所述尾节点对应的节点的第四特征信息,所述连接关系的特征信息包括与所述连接关系对应的边的特征信息;
根据各个三元组的损失,分别确定各个三元组中头节点的特征信息的调整值、连接关系的特征信息的调整值及尾节点的特征信息的调整值;
根据各个三元组中头节点的特征信息的调整值、连接关系的特征信息的调整值及尾节点的特征信息的调整值,对所述异质信息网络中各个节点的第四特征信息中的结构特征及各条边的特征信息进行调整,得到各个节点的调整后的第四特征信息及各条边的调整后的特征信息;
将各个节点的调整后的第四特征信息,确定为各个节点的第二特征信息。
在一种可能的实现方式中,在确定各个节点的第二特征信息时,可首先根据异质信息网络中各个节点对应的内容,分别确定各个节点的内容特征。其中,节点对应的内容可以为多种类型,例如数字、文本、图像、标签等。应当理解,各个节点对应的内容可根据实际情况确定,本公开对此不作限制。
在一种可能的实现方式中,根据各个节点对应的内容,确定其内容特征时,内容的类型不同,使用的处理方式可能不同。例如,在各个节点对应的内容包括数字(例如用于表示节点的类型的数字)、标签等可枚举的内容时,可通过深分箱法、独热编码等方式,对该内容进行量化处理,得到对应的特征;在各个节点对应的内容包括文本时,可对该文本进行特征提取,并通过词向量模型word2vec、基于转换器(Transformer)的双向编码器表示模型BERT(Bidirectional Encoder Representation from Transformers)等模型进行量化处理,得到各个节点的文本特征;在各个节点对应的内容包括图像时,可通过卷积神经网络CNN(Convolutional Neural Networks)、密集连接卷积网络DenseNet(Densely ConnectedConvolutional Networks)、残差网络ResNet(Residual Network)等神经网络,对该图像进行特征提取,得到该各个节点的图像特征。
在一种可能的实现方式中,在节点对应的内容包括多种类型时,可通过上述方法,分别确定该节点的各种类型的内容对应的特征,然后通过多层神经网络、自动编码器、卷积神经网络CNN、双向长短时记忆网络Bi-LSTM(Bi-directional Long Short-Term Memory)等神经网络对该节点的各种类型的内容对应的特征进行特征交互处理,使得该节点的各种类型的内容对应的特征可以深度交互,从而得到该节点的内容特征。
在一种可能的实现方式中,可通过下述公式(2)来确定节点的内容特征E:
E=G(f0(x0),f1(x1),…,fQ-1(xQ-1)) (2)
其中,Q为正整数,用于表示节点对应的内容的类型的数量,x0表示第1种类型对应的内容,x1表示第2种类型对应的内容,xQ-1表示第Q种类型对应的内容,f0(x0)表示通过模型f0(x)确定的x0的特征,f1(x1)表示通过模型f1(x)确定的x1的特征,fQ-1(xQ-1)表示通过模型fQ-1(x)确定的xQ-1的特征,G(·)表示特征交互函数。
在一种可能的实现方式中,在节点的类型为用户节点时,可将用户查看过的判例对应的节点的内容特征的平均值,确定为与该用户对应的用户节点的内容特征。
在一种可能的实现方式中,确定出各个节点的内容特征后,可根据各个节点的内容特征及预设的初始值,确定异质信息网络中各个节点的第四特征信息及各条边的特征信息,其中,所述节点的第四特征信息包括所述节点的内容特征及结构特征。
也就是说,对于异质信息网络中任一节点,该节点的第四特征信息包括通过上述方式确定的内容特征以及根据预设的初始值确定的结构特征;对于异质信息网络中的任一条边,其特征信息也可根据预设的初始值进行确定。其中,预设的初始值可以随机设置。
在一种可能的实现方式中,可根据所述异质信息网络,确定多个三元组,所述三元组包括头节点、头节点与尾节点的连接关系及尾节点。可将任一三元组可表示为(h,r,t),其中,h表示头节点,t表示尾节点,r表示头节点h与尾节点t的连接关系。
在一种可能的实现方式中,确定出多个三元组后,可确定出各个三元组中的头节点的特征信息、连接关系的特征信息及尾节点的特征信息。可将异质信息网络中与头节点对应的节点的第四特征信息,确定为头节点的特征信息,将异质信息网络中与尾节点对应的节点的第四特征信息,确定为尾节点的特征信息,将异质信息网络中与连接关系对应的边的特征信息,确定为连接关系的特征信息。
可根据多个三元组中头节点的特征信息、连接关系的特征信息及尾节点的特征信息,通过特征表示网络,确定各个三元组的损失。其中,特征表示网络可以是知识表示模型,例如:嵌入表示模型TransE(Translating Embedding)、实体与关系表示模型TransR(Translating Relation)或全息表示模型HolE(Holegraphic Embeddings)等。
可分别将三元组中头节点的特征信息、连接关系的特征信息及尾节点的特征信息,输入特征表示网络进行处理,特征表示网络可根据三元组关系,确定各个三元组的损失。
在一种可能的实现方式中,在特征表示网络为TransR时,可通过下述公式(3)来确定与三元组(h,r,t)的损失f(h,r,t):
其中,e′h表示头节点h的特征信息,e′h=hc||h′s,hc表示头节点h的特征信息中的内容特征,h′s表示头节点h的特征信息中的结构特征,e′t表示尾节点t的特征信息,e′t=tc||t′s,tc表示尾节点t的特征信息中的内容特征,t′s表示尾节点t的特征信息中的结构特征,er表示连接关系r的特征信息,Wr为TransR中与连接关系r对应的参数。
在一种可能的实现方式中,分别确定各个三元组的损失后,可根据各个三元组的损失,分别确定所述头节点的特征信息的调整值、连接关系的特征信息的调整值及所述尾节点的特征信息的调整值;并根据所述头节点的特征信息的调整值、连接关系的特征信息的调整值及所述尾节点的特征信息的调整值,对所述异质信息网络中各个节点的第四特征信息中的结构特征及各条边的特征信息进行调整,得到各个节点的调整后的第四特征信息及各条边的调整后的特征信息。也就是说,各个节点的第四特征信息中的结构特征及各条边的特征信息为可训练特征。在调整过程中,各个节点的第四特征信息中的内容特征保持不变。
在一种可能的实现方式中,在异质信息网络中存在节点复用时,即存在一个节点出现在多个三元组中时,可分别确定各个三元组中该节点的特征信息的调整值,并根据多个调整值对该节点的第四特征信息中的结构特征进行调整。
在一种可能的实现方式中,可使用上述方式,对各个节点的第四特征信息进行多个轮次的调整,并在各个三元组的损失满足预设条件(例如,小于或等于预设阈值)时,停止调整,得到各个节点的调整后的第四特征信息;将各个节点的最新的第四特征信息,确定为各个节点的第二特征信息。
在本实施例中,确定异质信息网络中各个节点的第四特征信息及各条边的特征信息后,可将异质信息网络表示为多个三元组,并通过特征表示网络确定各个三元组的损失;根据各个三元组的损失,可分别确定各个头节点、连接关系及尾节点的特征信息的调整值;根据该调整值,可对异质信息网络中各个节点的第四特征信息中的结构特征及各条边的特征信息进行调整,得到各个节点的调整后的第四特征信息及各条边的调整后的特征信息,可使用上述方式对各个节点的第四特征信息及各条边的特征信息进行多个轮次的调整,并将各个节点的最新的第四特征信息,确定为各个节点的第二特征信息,从而可以对异质信息网络中的各个节点进行统一表示,并将各个节点的内容特征融入到结构特征的学习中,提高各个节点的第二特征信息的准确性。
在一种可能的实现方式中,所述图神经网络的层级数为N,N为正整数,根据所述节点的第二特征信息及所述节点的关联节点的第二特征信息,通过图神经网络进行聚合处理,得到所述节点在所述图神经网络的多个层级的特征信息,包括:
将所述节点的第二特征信息及所述节点的关联节点的第二特征信息,输入图神经网络第1层进行聚合处理,得到所述节点的第1级特征信息;
将所述节点的第i级特征信息及所述节点的关联节点的第i级特征信息,输入图神经网络第i+1层进行聚合处理,得到所述节点的第i+1级特征信息,其中i为整数,且1≤i≤N-1。
在一种可能的实现方式中,在图神经网络的层级数为N时,可将节点的的第二特征信息及该节点的关联节点的第二特征信息,输入图神经网络第1层进行聚合处理,得到该节点的第1级特征信息;然后可将该节点的第1级特征信息及该节点的关联节点的第1级特征信息,输入图神经网络的第2层进行聚合处理,得到该节点的第2级特征信息;可将该节点的第i级特征信息及该节点的关联节点的第i级特征信息,输入图神经网络第i+1层进行聚合处理,得到该节点的第i+1级特征信息;以此类推,可以得到该节点在图神经网络的N个层级的特征信息。
在本实施例中,能够通过图神经网络,对节点与其关联节点的特征信息进行多层聚合,得到该节点在图神经网络的多个层级的特征信息,可使得该节点在图神经网络的各个层级的特征信息,均融合了关联节点的特征信息,从而可提高该节点在图神经网络的各个层级的特征信息的准确性。
在一种可能的实现方式中,将所述节点的第i级特征信息及所述节点的关联节点的第i级特征信息,输入图神经网络第i+1层进行聚合处理,得到所述节点的第i+1级特征信息,可包括:
根据所述节点与关联节点的连接关系,通过图神经网络第i+1层,对与所述节点存在相同连接关系的关联节点的第i级特征信息进行池化处理,得到所述节点的与各个连接关系对应的第i+1级中间特征信息;
将所述节点的与各个连接关系对应的第i+1级中间特征信息的加权和,确定为所述节点的第i+1级关联特征信息;
通过所述图神经网络第i+1层,对所述节点的第i级特征信息及所述节点的第i+1级关联特征信息进行聚合处理,得到所述节点的第i+1级特征信息。
在一种可能的实现方式中,可根据节点与其关联节点的连接关系,通过图神经网络第i+1层,对与节点存在相同连接关系的关联节点的第i级特征信息进行池化处理,得到所述节点的与各个连接关系对应的第i+1级中间特征信息。
对于任一节点a,可通过下述公式(4)来确定节点a的与连接关系r对应的第i+1级中间特征信息
其中,表示与节点a的连接关系为r的关联节点的集合,j表示/>中的关联节点j,/>表示/>中的关联节点j的第i级特征信息。
之后,可将该节点的与各个连接关系对应的第i+1级中间特征信息的加权和,确定为该节点的第i+1级关联特征信息,可通过下述公式(5)来确定节点a的第i+1级关联特征信息
其中,
在上述公式中,R表示节点a的连接关系的集合,μ(a,r)表示与连接关系r对应的权重,r′表示R中的任一连接关系,表示节点a的与连接关系r′对应的第i+1级中间特征信息,/>表示节点a的第i级特征信息,σ为非线性激活函数,w表示参数矩阵,b表示偏置。
在一种可能的实现方式中,上述公式(5)中的σ可根据实际情况进行设置。例如σ可以为sigmoid函数,x表示变量。本公开对具体的非线性激活函数不作限制。
在一种可能的实现方式中,可通过所述图神经网络第i+1层,对所述节点的第i级特征信息及所述节点的第i+1级关联特征信息进行聚合处理,得到所述节点的第i+1级特征信息。
可通过下述公式(6)来确定节点a的第i+1级特征信息
其中,H(·)表示聚合函数。
在一种可能的实现方式中,上述公式(6)中的聚合函数H(·)可根据实际情况进行设置。例如,在图神经网络的第i+1层为全连接层时,聚合函数为LeayReLU(·),可将上述公式(6)表示为:
其中,wi表示全连接层的权重,bi表示全连接层的偏重,LeayReLU为非线性激活函数,x表示变量,λ表示固定参数,例如λ=0.1。
在本实施例中,通过图神经网络第i+1层,对节点的第i级特征信息及其关联节点的第i级特征信息进行池化、加权、聚合等处理,确定出该节点的第i+1级特征信息,使得节点的第i+1级特征信息融合了关联节点的第i级特征信息。
在一种可能的实现方式中,通过上述方式,确定出节点在图神经网络的多个层级的特征信息后,可将该节点的第二特征信息与该节点在图神经网络的多个层级的特征信息进行拼接,得到该节点的第三特征信息。
例如,对于任一节点a,其第二特征信息表示为节点a在神经网络的N个层级的特征信息分别表示为/>可通过下述公式(7)来确定节点a的第三特征信息/>
对于目标用户u,其长期兴趣特征包括与该目标用户对应的用户节点的第三特征信息,可将目标用户u的长期兴趣特征表示为对于候选判例v,其第一特征信息包括与该候选判例对应的判例节点的第三特征信息,可将候选判例v的第一特征信息表示为/>
在一种可能的实现方式中,所述方法还可包括:根据所述目标用户对所述判例库中多个第一判例的查看时间及预设数量,从所述多个第一判例中,确定出查看时间最近的多个第二判例;根据与所述多个第二判例对应的判例节点的第三特征信息,确定所述目标用户的短期兴趣特征。
在一种可能的实现方式中,在确定目标用户的短期兴趣特征时,可首先从判例库中确定出目标用户查看过的多个第一判例,然后根据目标用户对多个第一判例的查看时间及预设数量,按照查看时间由近及远的顺序,从多个第一判例中,确定出查看时间最近的多个的第二判例。
在一种可能的实现方式中,可根据与多个第二判例对应的判例节点的第三特征信息,确定目标用户的短期兴趣特征。可将与多个第二判例对应的判例节点的第三特征信息,输入循环神经网络(例如长短时记忆网络LSTM,Long Short-Term Memory)中进行处理,将其输出结果(例如LSTM的最后一层隐状态)确定为目标用户的短期兴趣特征。本公开对循环神经网络的具体类型不作限制。
在一种可能的实现方式中,在循环神经网络为长短时记忆网络LSTM时,可通过下述公式(8)来确定目标用户u的短期兴趣特征
其中,P表示第二判例的数量,表示与第P个第二判例对应的判例节点的第三特征信息,/>表示与第P-1个第二判例对应的判例节点的第三特征信息,/>表示与第1个第二判例对应的判例节点的第三特征信息。
在本实施例中,能够根据目标用户对多个第一判例的查看时间及预设数量,从多个第一判例中,确定出查看时间最近的多个第二判例,并根据与多个第二判例对应的判例节点的第三特征信息,确定目标用户的短期兴趣特征,从而可根据目标用户最近查看的判例的特征信息,来确定目标用户的短期兴趣特征。可根据预设的时间间隔(例如1天、7天等),对目标用户的短期兴趣特征进行更新,从而提高目标用户的短期兴趣特征的准确性。
在一种可能的实现方式中,所述方法还可包括:根据预设的训练集,训练所述特征表示网络、所述图神经网络及所述预测网络,其中,所述训练集包括多个正样本及多个负样本。
在一种可能的实现方式中,训练集可包括多个三元组的正样本及负样本,其中,每个三元组至少存在一个与其对应的负样本。可根据多个三元组的正样本及负样本,对特征表示网络进行训练。
在一种可能的实现方式中,可通过下述公式(9)来确定特征表示网络的网络损失Lkg
Lkg=∑(h,r,t,t′)∈S-ln(f(h,r,t)-f(h,r,t′)) (9)
其中,S表示训练集,t′表示与头节点h不存在连接关系的节点,或与头节点h的连接关系不为r的节点,(h,r,t′)表示与三元组(h,r,t)对应的负样本,f(h,r,t)表示三元组(h,r,t)的损失,f(h,r,t′)表示三元组(h,r,t′)的损失。
在一种可能的实现方式中,可根据上述网络损失Lkg,对特征表示网络的网络参数进行调整。还可根据上述网络损失Lkg,确定三元组(h,r,t)中头节点的特征信息的调整值、连接关系的特征信息的调整值及尾节点的特征信息的调整值,并根据该调整值,对异质信息网络中对应节点的第四特征信息中的结构特征及对应边的特征信息进行调整,得到各个节点的调整后的第四特征信息及各条边的调整后的特征信息。
在一种可能的实现方式中,训练轮次不同,与各个三元组对应的负样本可能不同,通过这种方式,可增强训练效果,提高训练速度。
在一种可能的实现方式中,在特征表示网络满足第一训练结束条件时,可结束训练。其中,第一训练结束条件可包括在特征表示网络的网络损失Lkg降低到一定程度或收敛于一定阈值内,或训练轮次达到第一预设轮次,或其他条件。本领域技术人员可根据实际情况设置第一训练结束条件,本公开对此不作限制。
在一种可能的实现方式中,训练集可包括与多个用户对应的判例正样本及判例负样本,其中,判例正样本包括用户查看过的判例,判例负样本包括用户未查看的判例。可根据训练集中的多个判例正样本及多个判例负样本,对图神经网络及预测网络进行训练。
在一种可能的实现方式中,可通过下述公式(10)来确定图神经网络及预测网络的网络损失Lrec
Lrec=∑(q,z,z′)∈S-ln(y(q,z)-y(q,z′)) (10)
其中,q表示任一用户,z表示与用户q对应的判例正样本,z′与用户q对应的判例负样本,y(q,z)表示预测的用户q对判例z的评分,y(q,z′)表示预测的用户q对判例z′的评分。
在一种可能的实现方式中,可根据上述网络损失Lrec,对图神经网络及预测网络的网络参数进行调整。还可根据上述网络损失Lrec,对异质信息网络中各个节点的第二特征信息进行调整。
在一种可能的实现方式中,训练轮次不同,与各个用户对应的判例负样本可能不同,通过这种方式,可增强训练效果,提高训练速度。
在一种可能的实现方式中,在图神经网络及预测网络满足第二训练结束条件时,可结束训练。其中,第二训练结束条件可包括在图神经网络及预测网络的网络损失Lrec降低到一定程度或收敛于一定阈值内,或训练轮次达到第二预设轮次,或其他条件。本领域技术人员可根据实际情况设置第二训练结束条件,本公开对此不作限制。
图2示出根据本公开的实施例的基于内容和图神经网络的判例推荐方法的应用场景的示意图。如图2所示,可首先在步骤S201中,根据司法信息系统中多个用户的日志数据、法律知识图谱及判例库,通过实体链接技术,建立异质信息网络;然后在步骤S202中,根据异质信息网络中各个节点的类型及其对应的内容,确定各个节点的内容特征,并在步骤S203中,将异质信息网络表示为多个三元组,并通过特征表示网络,确定各个节点的第二特征信息,实现各个节点的统一表示;
然后可在步骤S204中,通过图神经网络对各个节点及其关联节点进行聚合处理,得到各个节点在图神经网络中的多个层级的特征信息,在步骤S205中,将各个节点的第二特征信息与其在图神经网络中的多个层级的特征信息进行拼接,确定各个节点的第三特征信息,在步骤S206中,确定各个用户的兴趣特征信息及各个判例的第一特征信息,其中,兴趣特征信息可包括长期兴趣特征和短期兴趣特征,可将与各个判例对应的判例节点的第三特征信息确定为各个判例的第一特征信息,将与各个用户对应的用户节点的第三特征信息确定为各个用户的长期兴趣特征,可根据用户近期查看的预设数量的判例的第一特征信息,确定各个用户的短期兴趣特征;
可在步骤S207中,根据上述步骤中的多个三元组、各个用户的兴趣特征信息、各个判例的第一特征信息等,建立训练集,训练集中包括多个正样本及多个负样本,并对特征表示网络、图神经网络、预测网络进行训练,并在步骤S208中判断是否满足训练结束条件,如果不满足训练结束条件,则执行步骤S212,执行下一轮训练;如果满足训练结束条件,则结束训练,则执行步骤S209;
可在步骤S209中,根据目标用户的日志数据,从判例库中确定出多个候选判例,之后在步骤S210中,根据目标用户的兴趣特征信息及多个候选判例的第一特征信息,分别预测所述目标用户对各个候选判例的评分,其中,兴趣特征信息包括目标用户的长期兴趣特征和短期兴趣特征;最后可在步骤S211中,根据预测的评分及预设的推荐数量,确定向目标用户推荐的目标判例。
下面结合具体示例对基于内容和图神经网络的判例推荐方法进行说明。
该示例中多个用户的日志数据为某司法信息系统中2019年1月1月-11月31日期间的日志数据。
可首先对多个用户的日志数据进行处理,从日志数据中确定出用户、判例、查询词三类对象,并确定各个对象之间的关系,包括:用户”查询“查询词”、“用户”看到“判例”、“用户”查看“判例”、“查询词”查询到“判例”;
然后,可通过判例将用户日志与预设的法律知识图谱进行实体链接,建立异质信息网络。其中,法律知识图谱中法律、法条、案由三类对象,各个对象之间的关系为:“法律”包括“法条”、“法条”定义“案由”。对判例进行实体链接时,可分别对判例库中的各个判例的文书全文进行文本匹配,获取各个判例的文书中包括的法条及案由,建立判例与法律、法条、案由之间的关系:“判例”包括“法律”、“判例”包括“法条”、“判例”包括“案由”;还可通过文本匹配的方式,确定查询词中包括的案由,建立查询词与案由之间的关系:“查询词”包括“案由”。
建立的异质信息网络的节点的类型为6种,节点之间的连接关系为10种,除用户节点外,其他类型的节点均有对应的文本。下面的表1示出了异质信息网络中的节点的数量统计;表2示出了异质信息网络中的连接关系的数量统计,表3示出了异质信息网络中的节点对应的文本。
表1异质信息网络中的节点的数量统计
表2异质信息网络中的连接关系的数量统计
表3异质信息网络中的节点对应的文本
建立异质信息网络后,可通过BERT预训练模型对各个节点对应的内容进行处理,得到各个节点的内容特征,并通过自动编码器降低内容特征的维度。其中,自动编码器可在最大程度地保留信息的同时降低维度。
可首先通过关键词,将各个节点对应的文本,分为刑事文书和民事文书两类;然后分别使用与刑事文书对应的BERT预训练模型、与民事文书对应的BERT预训练模型进行处理,得到各个节点的内容特征的向量表示,向量维度为768维。对于有多段文本的情况,例如判例和案由,可将各段文本的向量表示进行池化处理,得到节点的内容特征的向量表示。应当理解,向量维度还可以是其他维度,可根据实际情况进行设置,本公开对此不作限制。
确定出各个节点的内容特征的向量表示后,可使用自动编码器,对各个节点的内容特征进行降维处理。自动编码器包括编码器和解码器两个部分,编码器和解码器均包括3个层级,分别定义如下:
/>
其中,表示输入的内容特征,维度为768,/>表示/>经过编码器压缩后的输出,维度为32,/>表示/>经过解码器解码后的输出,维度为768;/> 为编码器的参数,编码器包括3个层级,/>表示编码器第1层级的输出,维度为256,/>表示编码器第2层级的输出,维度为128,;/> 为解码器的参数,解码器包括3个层级,/>表示解码器第1层级的输出,维度为128,/>表示解码器第2层级的输出,维度为256。
自动编码器的网络损失Le可定义为输入向量与解码器的输出向量的/>之间的欧式距离:/>
可将768维的各个节点的内容特征输入自动编码器,并使用自适应矩阵优化器Adam进行训练,在训练50轮之后停止,最终确定的各个节点的32维的向量即为降维后的各个节点的内容特征。
然后,可根据降维后的各个节点的内容特征及预设的初始值,确定各个节点的第四特征信息及各条边的特征信息,其中,第四特征信息包括节点的内容特征和结构特征(内容特征和结构特征的向量维度均为32);将异质信息网络表示为多个三元组,并通过特征表示网络确定多个三元组的损失,并根据该损失,确定出各个三元组中的头节点、连接关系及尾节点的特征信息调整值,进而对各个节点的第四特征信息中的结构特征及各条边的特征信息进行调整,得到各个节点的调整后的第四特征信息及各条边的调整后的特征信息。
可对特征表示网络进行多次调整,使用上述公式(9)确定其网络损失。在特征表示网络在满足第一训练结束条件时,停止训练,并将各个节点的最新的第四特征信息确定为其第二特征信息,从而得到异质信息网络中各个节点的统一表示。
在得到异质信息网络中各个节点的统一表示后,可通过图神经网络,对各个节点及其关联节点进行聚合处理,得到各个节点在图神经网络中的多个层级的特征信息,可使用上述公式(7),将各个节点的第二特征信息与其在图神经网络中的多个层级的特征信息进行拼接,确定各个节点的第三特征信息。然后,可将与各个判例对应的判例节点的第三特征信息确定为各个判例的第一特征信息,将与各个用户对应的用户节点的第三特征信息确定为各个用户的长期兴趣特征;根据用户近期查看的预设数量的判例的第一特征信息,使用上述公式(8),确定各个用户的短期兴趣特征。
然后,可根据多个三元组、各个用户的兴趣特征信息、各个判例的第一特征信息等,建立训练集,训练集中包括多个正样本及多个负样本,并对特征表示网络、图神经网络、预测网络进行交替训练,网络损失可使用上述公式(9)和(10)来确定,训练轮次为400轮。
在每一轮训练结束后,可在验证集上计算召回率,当召回率为历史最好时,对历史最好召回率进行更新,并将本轮神经网络的参数作为最好参数进行存储。当连续50轮最好召回率未更新时,停止训练。训练得到的神经网络的参数即为最近一次存储得到的最好参数。
在一种可能的实现方式中,也可将训练得到的各个用户的兴趣特征信息、各个判例的第一特征信息进行保存,以供判例推荐时使用。在实际使用过程红,各个用户的兴趣特征信息及各个判例的第一特征信息也可根据预设的时间间隔(例如1天、7天等)进行更新。
在进行判例推荐时,可根据目标用户的日志数据,从判例库中确定出多个候选判例;根据目标用户的兴趣特征信息及多个候选判例的第一特征信息,分别预测所述目标用户对各个候选判例的评分,并根据预测的评分及预设的推荐数量,确定向目标用户推荐的目标判例。
在一种可能的实现方式中,可将多个召回率(例如前1名召回率Recall@1、前5名召回率Recall@5、前10名召回率Recall@10)及归一化折损累计增益作为评价指标,来评价推荐方法的效果。评价指标的数值越大,表示对应方法的效果越好。经验证,与其他算法(例如,基于采样的图神经网络算法、基于内容的推荐算法、基于知识图谱的推荐方法等)相比,本公开实施例所述的基于内容和图神经网络的判例推荐方法的评价指标的数值最大,其推荐效果越好。此外,经显著性检验,本公开实施例所述的基于内容和图神经网络的判例推荐方法,在显著性指标0.01水平上也显著优于其他算法。
根据本公开的实施例,能够根据目标用户的日志数据,从判例库中确定出多个候选判例,并根据目标用户的长期兴趣特征、短期兴趣特征及多个候选判例的第一特征信息(其中长期兴趣特征及第一特征信息是通过图神经网络确定的),预测目标用户对各个候选判例的评分,根据该评分及推荐数量,确定出向目标用户推荐的目标判例,从而可以在确定向用户推荐的目标判例时,通过图神经网络确定用户的长期兴趣特征及候选判例的特征信息,并将用户的长期兴趣特征、短期兴趣特征及候选判例的特征信息相结合,来预测用户对候选判例的评分,根据该评分来确定推荐的目标判例,可提高评分预测的准确性,进而提高判例推荐的准确性。
根据本公开的实施例,可通过实体链接技术,建立查询词与法律知识图谱的联系,从而可将查询词加入异质信息网络中。通过图神经网络的聚合处理,异质信息网络中与查询词存在连接关系的节点均融合了查询词的相关信息,从而可使得用户的兴趣特征信息、候选判例的特征信息中也融合了查询词的相关信息。通过这种方式,不仅可以充分利用查询词,而且还可提高判例推荐的准确性及判例查询的召回率。
需要说明的是,尽管以上述实施例作为示例介绍了基于内容和图神经网络的判例推荐方法如上,但本领域技术人员能够理解,本公开应不限于此。事实上,用户完全可根据个人喜好和/或实际应用场景灵活设定各步骤,只要符合本公开的技术方案即可。
图3示出根据本公开的实施例的基于内容和图神经网络的判例推荐装置的框图。如图3所示,所述装置包括:
候选判例确定模块31,用于根据目标用户的日志数据,从判例库中确定出多个候选判例;
评分预测模块32,用于根据所述目标用户的兴趣特征信息及所述多个候选判例的第一特征信息,分别预测所述目标用户对各个候选判例的评分,其中,所述兴趣特征信息包括目标用户的长期兴趣特征和短期兴趣特征,所述长期兴趣特征及所述第一特征信息是通过图神经网络确定的;
目标判例确定模块33,用于根据所述评分及预设的推荐数量,确定向所述目标用户推荐的目标判例。
在一种可能的实现方式中,所述装置还包括:
异质信息网络建立模块,用于根据多个用户的日志数据、预设的法律知识图谱及所述判例库中的多个判例,确定异质信息网络,所述异质信息网络包括多个节点及多条边,所述节点的类型包括用户节点、判例节点、查询词节点、法律节点、法条节点及案由节点,所述边用于表示节点之间的连接关系;
特征信息确定模块,用于根据所述异质信息网络及各个节点对应的内容,分别确定各个节点的第二特征信息,所述第二特征信息包括节点的内容特征及结构特征;
聚合模块,对于任一节点,根据所述节点的第二特征信息及所述节点的关联节点的第二特征信息,通过图神经网络进行聚合处理,得到所述节点在所述图神经网络的多个层级的特征信息,所述节点的关联节点为与所述节点存在连接关系的节点;
拼接模块,用于将所述节点的第二特征信息及所述节点在所述图神经网络的多个层级的特征信息进行拼接,得到所述节点的第三特征信息,
其中,所述目标用户的长期兴趣特征包括与所述目标用户对应的用户节点的第三特征信息;所述候选判例的第一特征信息包括与所述候选判例对应的判例节点的第三特征信息。
在一种可能的实现方式中,所述装置还包括:
判例选取模块,用于根据所述目标用户对所述判例库中多个第一判例的查看时间及预设数量,从所述多个第一判例中,确定出查看时间最近的多个第二判例;
短期兴趣特征确定模块,用于根据与所述多个第二判例对应的判例节点的第三特征信息,确定所述目标用户的短期兴趣特征。
在一种可能的实现方式中,所述装置还包括:
训练模块,用于根据预设的训练集,训练所述特征表示网络、所述图神经网络及所述预测网络,其中,所述训练集包括多个正样本及多个负样本。
根据本公开的另一方面,还提供了一种非易失性计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令被处理器执行时实现上述方法。
以上已经描述了本公开的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims (9)

1.一种基于内容和图神经网络的判例推荐方法,其特征在于,所述方法包括:
根据目标用户的日志数据,从判例库中确定出多个候选判例;
根据所述目标用户的兴趣特征信息及所述多个候选判例的第一特征信息,分别预测所述目标用户对各个候选判例的评分,其中,所述兴趣特征信息包括目标用户的长期兴趣特征和短期兴趣特征,所述长期兴趣特征及所述第一特征信息是通过图神经网络确定的;
根据所述评分及预设的推荐数量,确定向所述目标用户推荐的目标判例;
所述方法还包括:
根据多个用户的日志数据、预设的法律知识图谱及所述判例库中的多个判例,确定异质信息网络,所述异质信息网络包括多个节点及多条边,所述节点的类型包括用户节点、判例节点、查询词节点、法律节点、法条节点及案由节点,所述边用于表示节点之间的连接关系;
根据所述异质信息网络及各个节点对应的内容,分别确定各个节点的第二特征信息,所述第二特征信息包括节点的内容特征及结构特征;
对于任一节点,根据所述节点的第二特征信息及所述节点的关联节点的第二特征信息,通过图神经网络进行聚合处理,得到所述节点在所述图神经网络的多个层级的特征信息,所述节点的关联节点为与所述节点存在连接关系的节点;
将所述节点的第二特征信息及所述节点在所述图神经网络的多个层级的特征信息进行拼接,得到所述节点的第三特征信息,
其中,所述目标用户的长期兴趣特征包括与所述目标用户对应的用户节点的第三特征信息;
所述候选判例的第一特征信息包括与所述候选判例对应的判例节点的第三特征信息;
根据多个用户的日志数据、预设的法律知识图谱及所述判例库中的多个判例,确定异质信息网络,包括:
通过所述多个判例将所述多个用户的日志数据与所述预设的法律知识图谱进行实体链接,确定所述异质信息网络。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
根据所述目标用户对所述判例库中多个第一判例的查看时间及预设数量,从所述多个第一判例中,确定出查看时间最近的多个第二判例;
根据与所述多个第二判例对应的判例节点的第三特征信息,确定所述目标用户的短期兴趣特征。
3.根据权利要求1所述的方法,其特征在于,根据所述异质信息网络及各个节点对应的内容,分别确定各个节点的第二特征信息,包括:
根据所述异质信息网络中的各个节点对应的内容,分别确定各个节点的内容特征;
根据各个节点的内容特征及预设的初始值,确定所述异质信息网络中各个节点的第四特征信息及各条边的特征信息,其中,所述节点的第四特征信息包括所述节点的内容特征及结构特征;
根据所述异质信息网络,确定多个三元组,所述三元组包括头节点、头节点与尾节点的连接关系及尾节点;
根据所述多个三元组中头节点的特征信息、连接关系的特征信息及尾节点的特征信息,通过特征表示网络,分别确定各个三元组的损失,其中,所述头节点的特征信息包括与所述头节点对应的节点的第四特征信息,所述尾节点的特征信息包括与所述尾节点对应的节点的第四特征信息,所述连接关系的特征信息包括与所述连接关系对应的边的特征信息;
根据各个三元组的损失,分别确定各个三元组中头节点的特征信息的调整值、连接关系的特征信息的调整值及尾节点的特征信息的调整值;
根据各个三元组中头节点的特征信息的调整值、连接关系的特征信息的调整值及尾节点的特征信息的调整值,对所述异质信息网络中各个节点的第四特征信息中的结构特征及各条边的特征信息进行调整,得到各个节点的调整后的第四特征信息及各条边的调整后的特征信息;
将各个节点的调整后的第四特征信息,确定为各个节点的第二特征信息。
4.根据权利要求1所述的方法,其特征在于,所述图神经网络的层级数为N,N为正整数,
根据所述节点的第二特征信息及所述节点的关联节点的第二特征信息,通过图神经网络进行聚合处理,得到所述节点在所述图神经网络的多个层级的特征信息,包括:
将所述节点的第二特征信息及所述节点的关联节点的第二特征信息,输入图神经网络第1层进行聚合处理,得到所述节点的第1级特征信息;
将所述节点的第i级特征信息及所述节点的关联节点的第i级特征信息,输入图神经网络第i+1层进行聚合处理,得到所述节点的第i+1级特征信息,其中i为整数,且1≤i≤N-1。
5.根据权利要求4所述的方法,其特征在于,将所述节点的第i级特征信息及所述节点的关联节点的第i级特征信息,输入图神经网络第i+1层进行聚合处理,得到所述节点的第i+1级特征信息,包括:
根据所述节点与关联节点的连接关系,通过图神经网络第i+1层,对与所述节点存在相同连接关系的关联节点的第i级特征信息进行池化处理,得到所述节点的与各个连接关系对应的第i+1级中间特征信息;
将所述节点的与各个连接关系对应的第i+1级中间特征信息的加权和,确定为所述节点的第i+1级关联特征信息;
通过所述图神经网络第i+1层,对所述节点的第i级特征信息及所述节点的第i+1级关联特征信息进行聚合处理,得到所述节点的第i+1级特征信息。
6.根据权利要求3所述的方法,其特征在于,根据所述目标用户的兴趣特征信息及所述多个候选判例的第一特征信息,分别预测所述目标用户对各个候选判例的评分,包括:
将所述目标用户的兴趣特征信息及所述多个候选判例的第一特征信息,输入预测网络中进行处理,分别预测所述目标用户对各个候选判例的评分。
7.根据权利要求6所述的方法,其特征在于,所述方法还包括:
根据预设的训练集,训练所述特征表示网络、所述图神经网络及所述预测网络,其中,所述训练集包括多个正样本及多个负样本。
8.一种基于内容和图神经网络的判例推荐装置,其特征在于,所述装置包括:
候选判例确定模块,用于根据目标用户的日志数据,从判例库中确定出多个候选判例;
评分预测模块,用于根据所述目标用户的兴趣特征信息及所述多个候选判例的第一特征信息,分别预测所述目标用户对各个候选判例的评分,其中,所述兴趣特征信息包括目标用户的长期兴趣特征和短期兴趣特征,所述长期兴趣特征及所述第一特征信息是通过图神经网络确定的;
目标判例确定模块,用于根据所述评分及预设的推荐数量,确定向所述目标用户推荐的目标判例;
所述装置还包括:
异质信息网络建立模块,用于根据多个用户的日志数据、预设的法律知识图谱及所述判例库中的多个判例,确定异质信息网络,所述异质信息网络包括多个节点及多条边,所述节点的类型包括用户节点、判例节点、查询词节点、法律节点、法条节点及案由节点,所述边用于表示节点之间的连接关系;
特征信息确定模块,用于根据所述异质信息网络及各个节点对应的内容,分别确定各个节点的第二特征信息,所述第二特征信息包括节点的内容特征及结构特征;
聚合模块,用于对于任一节点,根据所述节点的第二特征信息及所述节点的关联节点的第二特征信息,通过图神经网络进行聚合处理,得到所述节点在所述图神经网络的多个层级的特征信息,所述节点的关联节点为与所述节点存在连接关系的节点;
拼接模块,用于将所述节点的第二特征信息及所述节点在所述图神经网络的多个层级的特征信息进行拼接,得到所述节点的第三特征信息,
其中,所述目标用户的长期兴趣特征包括与所述目标用户对应的用户节点的第三特征信息;
所述候选判例的第一特征信息包括与所述候选判例对应的判例节点的第三特征信息;
所述异质信息网络建立模块,还用于:
通过所述多个判例将所述多个用户的日志数据与所述预设的法律知识图谱进行实体链接,确定所述异质信息网络。
9.一种非易失性计算机可读存储介质,其上存储有计算机程序指令,其特征在于,所述计算机程序指令被处理器执行时实现权利要求1至7中任意一项所述的方法。
CN202010350837.4A 2020-04-28 2020-04-28 基于内容和图神经网络的判例推荐方法、装置及存储介质 Active CN111538827B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010350837.4A CN111538827B (zh) 2020-04-28 2020-04-28 基于内容和图神经网络的判例推荐方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010350837.4A CN111538827B (zh) 2020-04-28 2020-04-28 基于内容和图神经网络的判例推荐方法、装置及存储介质

Publications (2)

Publication Number Publication Date
CN111538827A CN111538827A (zh) 2020-08-14
CN111538827B true CN111538827B (zh) 2023-09-05

Family

ID=71967928

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010350837.4A Active CN111538827B (zh) 2020-04-28 2020-04-28 基于内容和图神经网络的判例推荐方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN111538827B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112016601B (zh) * 2020-08-17 2022-08-05 华东师范大学 基于知识图谱增强小样本视觉分类的网络模型构建方法
CN111950268A (zh) * 2020-08-17 2020-11-17 珠海格力电器股份有限公司 垃圾信息的检测方法、设备和存储介质
CN112084335B (zh) * 2020-09-09 2022-04-12 电子科技大学 一种基于信息融合的社交媒体用户账号分类方法
CN112184341B (zh) * 2020-11-10 2022-07-08 电子科技大学 一种基于档案网络的美食推荐方法
CN112465226B (zh) * 2020-11-27 2023-01-20 上海交通大学 一种基于特征交互和图神经网络的用户行为预测方法
CN113312471B (zh) * 2021-07-30 2021-11-09 南京铉盈网络科技有限公司 一种基于协同过滤推荐算法用于案例推荐的方法与系统
CN113836273A (zh) * 2021-11-23 2021-12-24 天津汇智星源信息技术有限公司 基于复杂语境的法律咨询方法及相关设备
CN114936907B (zh) * 2022-06-15 2024-04-30 山东大学 一种基于节点类型交互的商品推荐方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110188208A (zh) * 2019-06-04 2019-08-30 河海大学 一种基于知识图谱的信息资源查询推荐方法和系统
CN110309427A (zh) * 2018-05-31 2019-10-08 腾讯科技(深圳)有限公司 一种对象推荐方法、装置及存储介质
CN110717106A (zh) * 2019-10-14 2020-01-21 支付宝(杭州)信息技术有限公司 信息推送的方法及装置
CN110782044A (zh) * 2019-10-29 2020-02-11 支付宝(杭州)信息技术有限公司 多方联合训练图神经网络的方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180060973A1 (en) * 2016-09-01 2018-03-01 Facebook, Inc. Systems and methods for pacing page recommendations

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110309427A (zh) * 2018-05-31 2019-10-08 腾讯科技(深圳)有限公司 一种对象推荐方法、装置及存储介质
CN110188208A (zh) * 2019-06-04 2019-08-30 河海大学 一种基于知识图谱的信息资源查询推荐方法和系统
CN110717106A (zh) * 2019-10-14 2020-01-21 支付宝(杭州)信息技术有限公司 信息推送的方法及装置
CN110782044A (zh) * 2019-10-29 2020-02-11 支付宝(杭州)信息技术有限公司 多方联合训练图神经网络的方法及装置

Also Published As

Publication number Publication date
CN111538827A (zh) 2020-08-14

Similar Documents

Publication Publication Date Title
CN111538827B (zh) 基于内容和图神经网络的判例推荐方法、装置及存储介质
CN110598206A (zh) 文本语义识别方法、装置、计算机设备和存储介质
CN108550065B (zh) 评论数据处理方法、装置及设备
CN111563143B (zh) 一种新词的确定方法及装置
CN112464656A (zh) 关键词抽取方法、装置、电子设备和存储介质
US20230177626A1 (en) Systems and methods for determining structured proceeding outcomes
CN115878904A (zh) 基于深度学习的知识产权个性化推荐方法、系统及介质
CN112487827A (zh) 问题回答方法及电子设备、存储装置
CN111783903A (zh) 文本处理方法、文本模型的处理方法及装置、计算机设备
CN112188312A (zh) 用于确定新闻的视频素材的方法和装置
CN113836896A (zh) 一种基于深度学习的专利文本摘要生成方法和装置
CN113656699B (zh) 用户特征向量确定方法、相关设备及介质
CN110569355A (zh) 一种基于词块的观点目标抽取和目标情感分类联合方法及系统
CN112598405B (zh) 一种基于大数据的商业项目数据管理方法及系统
CN112330442A (zh) 基于超长行为序列的建模方法及装置、终端、存储介质
CN110162535B (zh) 用于执行个性化的搜索方法、装置、设备以及存储介质
US20230237093A1 (en) Video recommender system by knowledge based multi-modal graph neural networks
CN115618297A (zh) 识别异常企业的方法及其装置
CN114693409A (zh) 产品匹配方法、装置、计算机设备、存储介质和程序产品
CN113868481A (zh) 组件获取方法、装置及电子设备和存储介质
CN112507709A (zh) 文档匹配方法以及电子设备、存储装置
CN112559695A (zh) 一种基于图神经网络的聚合特征提取方法及装置
CN111611981A (zh) 信息识别方法和装置及信息识别神经网络训练方法和装置
CN114548083B (zh) 标题生成方法、装置、设备及介质
CN113792163B (zh) 多媒体推荐方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant