CN117708350B - 企业政策的信息关联方法、装置及电子设备 - Google Patents

企业政策的信息关联方法、装置及电子设备 Download PDF

Info

Publication number
CN117708350B
CN117708350B CN202410166254.4A CN202410166254A CN117708350B CN 117708350 B CN117708350 B CN 117708350B CN 202410166254 A CN202410166254 A CN 202410166254A CN 117708350 B CN117708350 B CN 117708350B
Authority
CN
China
Prior art keywords
knowledge
graph
source text
text information
entity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202410166254.4A
Other languages
English (en)
Other versions
CN117708350A (zh
Inventor
冉淋源
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Grass Root Intelligent Innovation Technology Co ltd
Original Assignee
Chengdu Grass Root Intelligent Innovation Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Grass Root Intelligent Innovation Technology Co ltd filed Critical Chengdu Grass Root Intelligent Innovation Technology Co ltd
Priority to CN202410166254.4A priority Critical patent/CN117708350B/zh
Publication of CN117708350A publication Critical patent/CN117708350A/zh
Application granted granted Critical
Publication of CN117708350B publication Critical patent/CN117708350B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及一种企业政策的信息关联方法、装置及电子设备,该方法包括:获取政策源数据;政策源数据包括多个源文本信息;基于源文本信息对应的发布机构对源文本信息进行分类处理,获取分类数据集合;对分类数据集合进行命名实体识别,获取多个命名实体集合;每个命名实体集合对应一个源文本信息;依次将每个命名实体集合输入至构建的知识图学习模型,输出每个源文本信息对应的知识子图;基于多个知识子图以及发布机构的关联关系,构建目标知识图;目标知识图关联不同发布机构对应的命名实体。通过上述目标知识图的查询,能够可以帮助企业及时准确地获取想要了解的全面的政策信息以及相关联的政策信息,以确保企业能够正确应用政策并充分受益。

Description

企业政策的信息关联方法、装置及电子设备
技术领域
本发明涉及数据处理技术领域,尤其是一种企业政策的信息关联方法、装置及电子设备。
背景技术
在企业的发展过程中,了解国家、地方和行业协会的政策要求是至关重要的。只有这样,企业才能遵守国家法律制度、了解行业运行规则、充分利用政策优势、扩大企业规模并提升市场竞争力,从而确保企业能够顺利发展。然而,对于初创企业来说,由于信息渠道较少,获取政策的途径较为困难,因此政策对企业发展的支持力度有限。这可能导致企业在发展过程中因缺乏对政策的了解而误入误区,进而影响企业的发展。
发明内容
为解决上述现有技术问题,本发明提供一种企业政策的信息关联方法、装置及电子设备。
第一方面,本申请实施例提供一种企业政策的信息关联方法,其特征在于,包括:获取政策源数据;其中,所述政策源数据包括多个源文本信息;基于所述源文本信息对应的发布机构对所述源文本信息进行分类处理,获取分类数据集合;对所述分类数据集合进行命名实体识别,获取多个命名实体集合;其中,每个所述命名实体集合对应一个源文本信息;依次将每个命名实体集合输入至构建的知识图学习模型,输出每个源文本信息对应的知识子图;基于多个所述知识子图以及发布机构的关联关系,构建目标知识图;其中,所述目标知识图关联不同发布机构对应的命名实体。
在第一方面的一种可选的实施方式中,所述知识图学习模型为关系图卷积网络模型;所述关系图卷积网络模型的向前传递更新参数为:;其中,/>表示命名实体与命名实体之间的关系,在所述知识子图中的表现形式为边,在初始化时,边的生成是随机的;/>表示对于/>中第/>个实体/>在第/>层图卷积层的表征;/>表示对于/>中第/>个实体/>在第/>层图卷积层的表征;/>表示第/>个发布机构对应的第个源文本信息的命令实体集合;/>表示边/>在第/>层图卷积层的权重,该权重表示命名实体与命名实体之间的关联度;/>表示激活函数。
在第一方面的一种可选的实施方式中,在所述依次将每个命名实体集合输入至构建的知识图学习模型,输出每个源文本信息对应的知识子图之后,所述方法还包括:针对每个知识子图:获取该知识子图中的边的权重;响应于该知识子图中存在权重低于预设阈值的边,将该边进行去除。
在第一方面的一种可选的实施方式中,所述基于多个所述知识子图以及发布机构的关联关系,构建目标知识图,包括:将多个所述知识子图进行实体消歧,生成多个机构知识子图;其中,所述机构知识子图表征同一发布机构下的多个命名实体之间的关联关系;基于多个所述机构知识子图以及所述发布机构的关联关系,构建所述目标知识图。
在第一方面的一种可选的实施方式中,采用如下公式进行实体消歧:;其中,/>和/>均为同一发布机构中的实体,/>为/>所匹配到的最优/>,而/>表示实体相关性函数:/>;其中,/>为一个对角矩阵;/>表示实体/>在第/>层图卷积层的表征;/>表示实体/>在第/>层图卷积层的表征;/>表示转置;将/>相连接,以得到所述机构知识子图。
在第一方面的一种可选的实施方式中,所述方法还包括:获取企业用户输入的关键词;确定与所述企业用户所在行业所对应的第一机构知识子图;将所述关键词以所述第一机构知识子图为初始查找位置,遍历所述目标知识图,获取存在关联关系的第一知识子图;输出与所述第一知识子图对应的源文本信息。
在第一方面的一种可选的实施方式中,所述获取政策源数据,包括:通过对指定网站地址进行爬取和/或采用关键词对公开信息进行爬取,获取多个源文本信息;将所述多个源文本信息通过唯一标识符作为索引存储至文件数据库;在所述输出与所述第一知识子图对应的源文本信息之前,所述方法还包括:从所述文件数据库中查找出与所述第一知识子图对应的源文本信息。
在第一方面的一种可选的实施方式中,所述获取存在关联关系的第一知识子图,包括:获取与所述关键词匹配到的关键节点对应的N级节点;其中,N为正整数;确定所述第一知识子图;其中,所述第一知识子图包括所述N级节点对应的知识子图,以及与所述关键词匹配到的所述N级节点以下的节点对应的知识子图。
第二方面,本申请实施例提供一种企业政策的信息关联装置,包括:数据收集模块,用于获取政策源数据;其中,所述政策源数据包括多个源文本信息;数据分析模块,用于基于所述源文本信息对应的发布机构对所述源文本信息进行分类处理,获取分类数据集合;对所述分类数据集合进行命名实体识别,获取多个命名实体集合;其中,每个所述命名实体集合对应一个源文本信息;依次将每个命名实体集合输入至构建的知识图学习模型,输出每个源文本信息对应的知识子图;基于多个所述知识子图以及发布机构的关联关系,构建目标知识图;其中,所述目标知识图关联不同发布机构对应的命名实体。
第三方面,本申请实施例提供一种电子设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述第一方面任一项所述的方法。
本发明的有益效果包括:综上,本申请实施例提供一种企业政策的信息关联方法,首先,获取政策源数据,然后基于源文本信息对应的发布机构对所述源文本信息进行分类处理,获取分类数据集合;接着,对分类数据集合进行命名实体识别,获取多个命名实体集合;再依次将每个命名实体集合输入至构建的知识图学习模型,输出每个源文本信息对应的知识子图;最后,基于多个知识子图以及发布机构的关联关系,构建目标知识图。在得到目标知识图之后,企业用户可以直接基于知识大图快速且准确地查找获悉政策信息。而现有技术中,企业用户只能够通过已知的搜索引擎去查找相关的政策信息,一来,存在漏查的情况,即对于所要了解的政策查找不全面,二来,也无法获悉相关联的其他机构颁布的政策信息。而通过上述方式构建的目标知识图,能够涵盖多个发布机构所对应的政策信息(即综合考虑了不同发布机构的政策信息与政策信息之间的相关性)。通过上述目标知识图的查询,能够可以帮助企业及时准确地获取想要了解的全面的政策信息以及相关联的政策信息,以确保企业能够正确应用政策并充分受益。通过上述方式,企业可以更好地、全面地了解政策要求,确保企业的发展路径与政策要求一致,避免不必要的风险和损失。
附图说明
图1为本发明实施例所提供的一种企业政策的信息关联方法的步骤流程图;
图2为本发明实施例所提供的另一种企业政策的信息关联方法的步骤流程图;
图3为本发明实施例所提供的一种企业政策的信息关联装置的模块框图;
图4为本发明实施例所提供的另一种企业政策的信息关联装置的模块框图;
图5为本发明实施例所提供的一种电子设备的模块框图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本申请实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其他实施例中也可以实现本申请。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本申请的描述。
应当理解,当在本申请说明书和所附权利要求书中使用时,术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
如在本申请说明书和所附权利要求书中所使用的那样,术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。
另外,在本申请说明书和所附权利要求书的描述中,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
在本申请说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此,在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例,而是意味着“一个或多个但不是所有的实施例”,除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”,除非是以其他方式另外特别强调。
目前,对于初创企业来说,由于信息渠道较少,获取政策的途径较为困难,因此政策对企业发展的支持力度有限。这可能导致企业在发展过程中因缺乏对政策的了解而误入误区,进而影响企业的发展。
鉴于上述问题,本申请提出以下实施例以解决上述技术问题。
请参阅图1,本申请实施例提供一种企业政策的信息关联方法,包括:步骤101~步骤105。
步骤101:获取政策源数据。
其中,政策源数据包括多个源文本信息。政策源数据可以从网络中获取,并将每个从网络中获取的政策源数据统一处理为文本信息,以便于存储和后续的使用。
步骤102:基于源文本信息对应的发布机构对源文本信息进行分类处理,获取分类数据集合。
在这里,可以基于每个源文本信息的发布机构来对不同的源文本信息进行分类处理,进而得到分类数据集合。在这里,/>表示第/>个发布机构的数据集合;即,中包括第/>个发布机构对应的源文本信息。
示例性的,源文本信息A、源文本信息B以及源文本信息D来源于机构Q,则将源文本信息A、源文本信息B以及源文本信息D归于一类。源文本信息C、源文本信息E来源于机构M,则将源文本信息C、源文本信息E归于一类。
需要说明的是,源文本信息的发布机构可以根据特定的关键词匹配模板进行文字筛选来确定。
特定的关键词即为机构的名称。比如,特定的关键词为机构M,则从源文本信息进行匹配,筛选出该源文本信息中是否出现机构M,若出现,则确定出该源文本信息的来源为机构M。通过该方式,能够灵活且准确地确定出源文本信息的发布机构。
此外,源文本信息的发布机构还可以根据该源文本信息的获取网站确定。
比如,源文本信息A的获取来源为网站Q,由于网站Q为机构Q的官方网站,进而可以确定出源文本信息A的发布机构为机构Q。可见,通过该方式,能够较为快速地确定出源文本信息A的发布机构。
步骤103:对分类数据集合进行命名实体识别,获取多个命名实体集合。
其中,每个命名实体集合对应一个源文本信息。
在这里,可以采用预训练的Bert实现对分类数据集合中的各源文本信息中的命名实体进行识别,进而得到多个命名实体集合。
在这里,所有的命令实体数据可以将其通过如下形式定义,具体为:。其中,/>表示第个发布机构对应的所有实体(与/>对应)。/>表示第/>个源文本信息的命名实体集合;即,/>对应第/>个发布机构的第/>个源文本信息的命名实体。
步骤104:依次将每个命名实体集合输入至构建的知识图学习模型,输出每个源文本信息对应的知识子图。
然后,依次将每个命名实体集合()输入至构建的知识图学习模型中,获取与每个源文本信息对应的知识子图。
需要说明的是,每个知识子图中包括命名实体,以及命名实体之间的关系(关系在图中以边的形式表现)。
步骤105:基于多个知识子图以及发布机构的关联关系,构建目标知识图。
其中,目标知识图关联不同发布机构对应的命名实体。
即,最后,将已经得到的多个知识子图结合发布机构的关联关系进行合并,以构建关联多个发布机构对应的命名实体的知识大图。此处的发布机构的关联关系可以根据发布机构之间的关系进行设定。比如,存在关联关系的发布机构之间关系设定为1,不存在关联关系的发布机构之间的关系设定为0。示例性的,机构A和机构B之间具有一定的关联性,则可以将二者相关联的知识子图进行连接。
在构建好上述目标知识图之后,企业用户可以直接基于知识大图快速且准确地查找获悉政策信息。
综上,本申请实施例提供一种企业政策的信息关联方法,首先,获取政策源数据,然后基于源文本信息对应的发布机构对所述源文本信息进行分类处理,获取分类数据集合;接着,对分类数据集合进行命名实体识别,获取多个命名实体集合;再依次将每个命名实体集合输入至构建的知识图学习模型,输出每个源文本信息对应的知识子图;最后,基于多个知识子图以及发布机构的关联关系,构建目标知识图。在得到目标知识图之后,企业用户可以直接基于知识大图快速且准确地查找获悉政策信息。而现有技术中,企业用户只能够通过已知的搜索引擎去查找相关的政策信息,一来,存在漏查的情况,即对于所要了解的政策查找不全面,二来,也无法获悉相关联的其他机构颁布的政策信息。而通过上述方式构建的目标知识图,能够涵盖多个发布机构所对应的政策信息(即综合考虑了不同发布机构的政策信息与政策信息之间的相关性)。通过上述目标知识图的查询,能够可以帮助企业及时准确地获取想要了解的全面的政策信息以及相关联的政策信息,以确保企业能够正确应用政策并充分受益。通过上述方式,企业可以更好地、全面地了解政策要求,确保企业的发展路径与政策要求一致,避免不必要的风险和损失。
可选地,在一实施例中,知识图学习模型为关系图卷积网络模型(Relational-Graph Convolutional Network,R-GCN)。其中,该网络模型用于学习命名实体和关系的连续表征。
该关系图卷积网络模型的向前传递更新参数为:
其中,表示命名实体与命名实体之间的关系,在知识子图中的表现形式为边,在初始化时,边的生成是随机的;/>表示对于/>中第/>个实体/>在第/>层图卷积层的表征;表示对于/>中第/>个实体/>在第/>层图卷积层的表征;/>表示第/>个发布机构对应的第/>个源文本信息的命令实体集合;/>表示边/>在第/>层图卷积层的权重,该权重表示命名实体与命名实体之间的关联度;/>表示激活函数。
即,在本申请实施例中,将命名实体之间边权重也作为模型更新参数,以保证后续所输出的知识子图的准确性、可靠性。
可选地,在一实施例中,在依次将每个命名实体集合输入至构建的知识图学习模型,输出每个源文本信息对应的知识子图之后,该方法还包括:针对每个知识子图:获取该知识子图中的边的权重;响应于该知识子图中存在权重低于预设阈值的边,将该边进行去除。
换言之,在得到每个源文本信息对应的知识子图之后,可能会出现多余的或者无效的边,此时,可以根据上一步得到的各个边的权重来对多余的或者无效的边进行去除。具体的,将权重低于预设阈值的边进行去除。
上述的预设阈值可以根据实际情况进行设定,在数值上本申请不作限定。
通过将知识子图中的多余的或者无效地边进行去除,以简化知识子图的复杂度的同时,也不影响知识子图数据的关联性,同时,也避免多余或者无效边造成地干扰。
可选地,在一实施例中,上述步骤105基于多个知识子图以及发布机构的关联关系,构建目标知识图,包括:将多个知识子图进行实体消歧,生成多个机构知识子图;其中,机构知识子图表征同一发布机构下的多个命名实体之间的关联关系;基于多个机构知识子图以及发布机构的关联关系,构建目标知识图。
需要说明的是,由于一个知识子图对应一个源文本信息,因此,一个知识子图只能够表述一个源文本信息内部命名实体之间的关系,并不能够将不同源文本信息中的命名实体进行关联,并且不同源文本信息的命名实体之间的表述可能也会存在差异,如“奖金”和“奖赏”,因此,此处先将多个知识子图进行实体消歧,进而获取同一发布机构所对应的机构知识子图。机构知识子图也可以理解为通过实体消歧的方式,将属于同一个发布机构下的多个知识子图相连接而得到。然后,再基于多个机构知识子图以及发布机构的关联关系,构建目标知识图。
需要说明的是,从多个机构知识子图到目标知识图的构建过程中,也可以再次采用实体消歧的方式实现结合。
通过上述方式,以实现由实体到知识子图、到机构知识子图、再到目标知识图的依次构建,以进一步地提高构建的目标知识图的完整性和准确性,同时,通过上述依次构建的方式,也便于后续问题的溯源。
综上,本申请实施例提出了一种企业政策的信息匹配方式,针对现有技术没有考虑政策信息与政策信息关联性的问题,利用基于图卷积神经网络所构建的知识学习模型对Bert模型所抽取的命名实体做二次embedding,并将实体之间边权重也作为模型更新参数,随后通过阈值的方式根据权重大小对无用边进行裁剪,最后通过预设机构关联关系将由裁剪后的子图所构建的机构知识子图合并为目标知识图。
可选地,于本申请实施例中,采用如下公式进行实体消歧,包括:
其中,和/>均为同一发布机构中的实体,/>为/>所匹配到的最优/>,而/>表示实体相关性函数:/>
其中,为一个对角矩阵;/>表示实体/>在第/>层图卷积层的表征;/>表示实体/>在第/>层图卷积层的表征;/>表示转置;将/>与/>相连接,以得到机构知识子图。
请参阅图2,可选地,在前述实施例的基础上,该方法还可以包括:步骤201~步骤204。
步骤201:获取企业用户输入的关键词。
即,企业用户可以输入一些与需要查询的政策相关的关键词。
步骤202:确定与企业用户所在行业所对应的第一机构知识子图。
然后,确定企业用户所在行业所对应的第一机构知识子图。比如,该企业为互联网企业,则确定出与互联网对应的机构,并获取与该机构对应的第一机构知识子图。
步骤203:将关键词以第一机构知识子图为初始查找位置,遍历目标知识图,获取存在关联关系的第一知识子图。
接着,以第一机构知识子图为初始查找位置,通过关键词对目标知识图进行遍历,获取存在关联关系的第一知识子图。
步骤204:输出与第一知识子图对应的源文本信息。
最后,输出与第一知识子图所对应的源文本信息。需要说明的是,在这里,考虑到政策信息与企业自身信息的关联性,即,以与企业相关的第一机构知识子图为初始查找位置,通过该方式进行遍历,能够提高企业用户对于相关政策信息获取的效率以及准确性。
综上,本申请实施例提出了一种企业政策的信息匹配方式,针对现有技术没有考虑政策信息与政策信息、政策信息与企业自身信息关联性的问题,利用基于图卷积神经网络所构建的知识学习模型对Bert模型所抽取的命名实体做二次embedding,并将实体之间边权重也作为模型更新参数,随后通过阈值的方式根据权重大小对无用边进行裁剪,最后通过预设机构关联关系将由裁剪后的子图所构建的机构知识子图合并为目标知识图。最后输入一些与需要查询的政策相关的关键词,以企业所在行业的职能机构所发布的机构知识子图中的与任意查询关键词相匹配的节点为起点,对目标知识图进行遍历,获得所需政策信息。
可选地,获取政策源数据,可以具体包括:通过对指定网站地址进行爬取和/或采用关键词对公开信息进行爬取,获取多个源文本信息;将多个源文本信息通过唯一标识符作为索引存储至文件数据库。
相应的,在输出与第一知识子图对应的源文本信息之前,该方法还包括:从文件数据库中查找出与第一知识子图对应的源文本信息。
具体的,收集相关机构公开发布在互联网上的政策信息,包括但不限于文件、新闻、公告等。在实施例中可以通过任意一种数据爬取框架,如Scrapy、BeautifulSoup、Selenium等,通过指定网站地址或关键词对公开信息进行爬取,获取后的数据统一处理为文本信息,并存放于文件数据库中,每一个文件均与文本信息有唯一标识符作为索引。
可选地,上述获取存在关联关系的第一知识子图,还可以具体包括:获取与关键词匹配到的关键节点对应的N级节点;其中,N为正整数;确定第一知识子图;其中,第一知识子图包括N级节点对应的知识子图,以及与关键词匹配到的N级节点以下的节点对应的知识子图。
示例性的,N可以为2,则获取与关键词匹配到的关键节点对应的2级节点,并确定出第一知识子图,该第一知识子图包括2级节点对应的知识子图,以及与关键词匹配到的2级节点以下的节点对应的知识子图(即,1级节点对应的知识子图)。
下面再结合一个完整的示例对本申请实施例提供的企业政策的信息关联方法进行说明,包括:
首先,进行数据收集。数据收集包括:收集相关机构公开发布在互联网上的政策信息,包括但不限于文件、新闻、公告等。在实施例中可以通过任意一种数据爬取框架,如Scrapy、BeautifulSoup、Selenium等,通过指定网站地址或关键词对公开信息进行爬取,获取后的数据统一处理为文本信息,并存放于文件数据库中,每一个文件均与文本信息有唯一标识符作为索引。
然后,进行数据分析。数据分析包括:
Step1:获取源文本信息,对每个源文本信息采用特定关键词进行模板匹配,特定关键词为可以区分源文本信息发布机构的词,如“发布机构A”、“发布机构B”等。
Step2:根据上述特定关键词将源文件按照机构进行分类得到分类数据集合,/>中包括第/>个发布机构对应的源文本信息。
Step3:利用预训练的Bert实现对源文本信息的命名实体进行识别,得到中的命名实体:
其中,表示第/>个发布机构对应的所有实体(与/>对应)。/>表示第/>个源文本信息的命名实体集合;即,/>对应第/>个发布机构的第/>个源文本信息的命名实体。
Step4:作为输入,基于R-GCN构建了知识图学习模型,学习实体和关系的连续表征,模型的向前传递更新定义如下:
其中,表示命名实体与命名实体之间的关系,在所述知识子图中的表现形式为边,在初始化时,边的生成是随机的;/>表示对于/>中第/>个实体/>在第/>层图卷积层的表征;/>表示对于/>中第/>个实体/>在第/>层图卷积层的表征;/>表示第/>个发布机构对应的第/>个源文本信息的命令实体集合;/>表示边/>在第/>层图卷积层的权重,该权重表示命名实体与命名实体之间的关联度;/>表示激活函数。
Step5:通过Step4过后,得到了各源文本信息的知识子图,此时的知识子图是一个完全图,当中一些边是多余的或是无效的,此时根据边的权重与预设的阈值对低于阈值的边进行去除。
Step6:子图只表述了源文本信息内部实体之间的关系,但是没有将不同源文本信息之间的实体进行关联,不同源文本信息之间实体的表述可能不太一致,因此还需要对实体进行消歧,消歧的核心表述如下:
其中,和/>均为同一发布机构中的实体,/>为/>所匹配到的最优/>,而/>表示实体相关性函数:/>
其中,为一个对角矩阵;/>表示实体/>在第/>层图卷积层的表征;/>表示实体/>在第/>层图卷积层的表征;/>表示转置;将/>与/>相连接,以得到机构知识子图。
Step7:通过预先设置的各机构之间的关联关系,将所有机构知识子图连接为一个完整的目标知识图
最后,进行数据推送。数据推送包括:
Step1:输入一些与需要查询的政策相关的关键词,以企业所在行业的职能机构所发布的机构知识子图中的与任意查询关键词相匹配的节点为起点,对目标知识图进行遍历,可以使用任意一种遍历方式,遍历的终止条件可以为访问到最后访问到的关键词节点的二级节点,记录所遍历过的子图,并做标记。
Step2:获取被标记的子图所对应的源文本信息所对应的原始文件,并推送给企业用户。
请参阅图3,基于同一发明构思,本申请实施例还提供一种企业政策的信息关联装置300,包括:
数据收集模块301,用于获取政策源数据;其中,所述政策源数据包括多个源文本信息。
数据分析模块302,用于基于所述源文本信息对应的发布机构对所述源文本信息进行分类处理,获取分类数据集合;对所述分类数据集合进行命名实体识别,获取多个命名实体集合;其中,每个所述命名实体集合对应一个源文本信息;依次将每个命名实体集合输入至构建的知识图学习模型,输出每个源文本信息对应的知识子图;基于多个所述知识子图以及发布机构的关联关系,构建目标知识图;其中,所述目标知识图关联不同发布机构对应的命名实体。
可选地,所述知识图学习模型为关系图卷积网络模型;所述关系图卷积网络模型的向前传递更新参数为:;其中,/>表示命名实体与命名实体之间的关系,在所述知识子图中的表现形式为边,在初始化时,边的生成是随机的;/>表示对于/>中第/>个实体/>在第/>层图卷积层的表征;/>表示对于/>中第/>个实体/>在第层图卷积层的表征;/>表示第/>个发布机构对应的第/>个源文本信息的命令实体集合;/>表示边/>在第/>层图卷积层的权重,该权重表示命名实体与命名实体之间的关联度;表示激活函数。
可选地,数据分析模块302,还具体用于针对每个知识子图:获取该知识子图中的边的权重;响应于该知识子图中存在权重低于预设阈值的边,将该边进行去除。
可选地,数据分析模块302,还具体用于将多个所述知识子图进行实体消歧,生成多个机构知识子图;其中,所述机构知识子图表征同一发布机构下的多个命名实体之间的关联关系;基于多个所述机构知识子图以及所述发布机构的关联关系,构建所述目标知识图。
可选地,采用如下公式进行实体消歧:;其中,/>和/>均为同一发布机构中的实体,/>为/>所匹配到的最优/>,而/>表示实体相关性函数:;其中,/>为一个对角矩阵;/>表示实体/>在第/>层图卷积层的表征;/>表示实体/>在第/>层图卷积层的表征;/>表示转置;将/>与/>相连接,以得到所述机构知识子图。
请参阅图4,可选地,该装置还包括信息推送模块303。
信息推送模块303,用于获取企业用户输入的关键词;确定与所述企业用户所在行业所对应的第一机构知识子图;将所述关键词以所述第一机构知识子图为初始查找位置,遍历所述目标知识图,获取存在关联关系的第一知识子图;输出与所述第一知识子图对应的源文本信息。
信息推送模块303,还具体用于通过对指定网站地址进行爬取和/或采用关键词对公开信息进行爬取,获取多个源文本信息;将所述多个源文本信息通过唯一标识符作为索引存储至文件数据库;以及从所述文件数据库中查找出与所述第一知识子图对应的源文本信息。
信息推送模块303,还具体用于获取与所述关键词匹配到的关键节点对应的N级节点;其中,N为正整数;确定所述第一知识子图;其中,所述第一知识子图包括所述N级节点对应的知识子图,以及与所述关键词匹配到的所述N级节点以下的节点对应的知识子图。
请参阅图5,本申请实施例还提供一种电子设备500,包括:处理器501、存储器502以及配置在存储器502中的计算机程序503,处理器501与存储器502连接,处理器501在执行计算机程序503时实现如上述实施例所提供的企业政策的信息关联方法。
该电子设备500可以是服务器、个人计算机,笔记本电脑等等。
本领域技术人员可以理解,图5仅仅是电子设备500的举例,并不构成对电子设备500的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件。
所称处理器501可以是中央处理单元(Central Processing Unit,CPU),该处理器501还可以是其他通用处理器、数字信号处理器 (Digital Signal Processor,DSP)、专用集成电路 (Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA) 或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器502在一些实施例中可以是电子设备500的内部存储单元,例如电子设备500的硬盘或内存。所述存储器502在另一些实施例中也可以是电子设备500的外部存储设备,例如电子设备500上配备的插接式硬盘,智能存储卡(Smart Media Card, SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,存储器502还可以既包括电子设备500的内部存储单元也包括外部存储设备。
需要说明的是,上述装置/单元之间的信息交互、执行过程等内容,由于与本申请方法实施例基于同一构思,其具体功能及带来的技术效果,具体可参见方法实施例部分,此处不再赘述。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现可实现上述各个方法实施例中的步骤。
本申请实施例提供了一种计算机程序产品,当计算机程序产品在移动终端上运行时,使得移动终端执行时实现可实现上述各个方法实施例中的步骤。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实现上述实施例方法中的全部或部分流程,可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质至少可以包括:能够将计算机程序代码携带到拍照装置/电子设备的任何实体或装置、记录介质、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,RandomAccess Memory)、电载波信号、电信信号以及软件分发介质。例如U盘、移动硬盘、磁碟或者光盘等。在某些司法管辖区,根据立法和专利实践,计算机可读介质不可以是电载波信号和电信信号。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其他实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件,或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
在本申请所提供的实施例中,应该理解到,所揭露的装置/网络设备和方法,可以通过其他的方式实现。例如,以上所描述的装置/网络设备实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其他的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
以上所述实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。

Claims (9)

1.一种企业政策的信息关联方法,其特征在于,包括:
获取政策源数据;其中,所述政策源数据包括多个源文本信息;
基于所述源文本信息对应的发布机构对所述源文本信息进行分类处理,获取分类数据集合;
对所述分类数据集合进行命名实体识别,获取多个命名实体集合;其中,每个所述命名实体集合对应一个源文本信息;
依次将每个命名实体集合输入至构建的知识图学习模型,输出每个源文本信息对应的知识子图;
基于多个所述知识子图以及发布机构的关联关系,构建目标知识图;其中,所述目标知识图关联不同发布机构对应的命名实体;
其中,所述知识图学习模型为关系图卷积网络模型;所述关系图卷积网络模型的向前传递更新参数为:
其中,r表示命名实体与命名实体之间的关系,在所述知识子图中的表现形式为边,在初始化时,边的生成是随机的;表示对于/>中第j个实体ej在第l层图卷积层的表征;表示对于/>中第j个实体ej在第l+1层图卷积层的表征;/>表示第N个发布机构对应的第MN个源文本信息的命令实体集合;/>表示边r在第l层图卷积层的权重,该权重表示命名实体与命名实体之间的关联度;σ(·)表示激活函数。
2.根据权利要求1所述的企业政策的信息关联方法,其特征在于,在所述依次将每个命名实体集合输入至构建的知识图学习模型,输出每个源文本信息对应的知识子图之后,所述方法还包括:
针对每个知识子图:获取该知识子图中的边的权重;
响应于该知识子图中存在权重低于预设阈值的边,将该边进行去除。
3.根据权利要求1所述的企业政策的信息关联方法,其特征在于,所述基于多个所述知识子图以及发布机构的关联关系,构建目标知识图,包括:
将多个所述知识子图进行实体消歧,生成多个机构知识子图;其中,所述机构知识子图表征同一发布机构下的多个命名实体之间的关联关系;
基于多个所述机构知识子图以及所述发布机构的关联关系,构建所述目标知识图。
4.根据权利要求3所述的企业政策的信息关联方法,其特征在于,采用如下公式进行实体消歧:
其中,ej和ei均为同一发布机构中的实体,为ei所匹配到的最优ej,而ψ(ej,ei)表示实体相关性函数:/>
其中,B为一个对角矩阵;表示实体ej在第L层图卷积层的表征;/>表示实体ei在第L层图卷积层的表征;(·)T表示转置;将ei与/>相连接,以得到所述机构知识子图。
5.根据权利要求4所述的企业政策的信息关联方法,其特征在于,所述方法还包括:
获取企业用户输入的关键词;
确定与所述企业用户所在行业所对应的第一机构知识子图;
将所述关键词以所述第一机构知识子图为初始查找位置,遍历所述目标知识图,获取存在关联关系的第一知识子图;
输出与所述第一知识子图对应的源文本信息。
6.根据权利要求5所述的企业政策的信息关联方法,其特征在于,所述获取政策源数据,包括:
通过对指定网站地址进行爬取和/或采用关键词对公开信息进行爬取,获取多个源文本信息;
将所述多个源文本信息通过唯一标识符作为索引存储至文件数据库;
在所述输出与所述第一知识子图对应的源文本信息之前,所述方法还包括:
从所述文件数据库中查找出与所述第一知识子图对应的源文本信息。
7.根据权利要求5所述的企业政策的信息关联方法,其特征在于,所述获取存在关联关系的第一知识子图,包括:
获取与所述关键词匹配到的关键节点对应的N级节点;其中,N为正整数;
确定所述第一知识子图;其中,所述第一知识子图包括所述N级节点对应的知识子图,以及与所述关键词匹配到的所述N级节点以下的节点对应的知识子图。
8.一种企业政策的信息关联装置,其特征在于,包括:
数据收集模块,用于获取政策源数据;其中,所述政策源数据包括多个源文本信息;
数据分析模块,用于基于所述源文本信息对应的发布机构对所述源文本信息进行分类处理,获取分类数据集合;对所述分类数据集合进行命名实体识别,获取多个命名实体集合;其中,每个所述命名实体集合对应一个源文本信息;依次将每个命名实体集合输入至构建的知识图学习模型,输出每个源文本信息对应的知识子图;基于多个所述知识子图以及发布机构的关联关系,构建目标知识图;其中,所述目标知识图关联不同发布机构对应的命名实体;
其中,所述知识图学习模型为关系图卷积网络模型;所述关系图卷积网络模型的向前传递更新参数为:
其中,r表示命名实体与命名实体之间的关系,在所述知识子图中的表现形式为边,在初始化时,边的生成是随机的;表示对于/>中第j个实体ej在第l层图卷积层的表征;表示对于/>中第j个实体ej在第l+1层图卷积层的表征;/>表示第N个发布机构对应的第MN个源文本信息的命令实体集合;/>表示边r在第l层图卷积层的权重,该权重表示命名实体与命名实体之间的关联度;σ(·)表示激活函数。
9.一种电子设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的方法。
CN202410166254.4A 2024-02-06 2024-02-06 企业政策的信息关联方法、装置及电子设备 Active CN117708350B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410166254.4A CN117708350B (zh) 2024-02-06 2024-02-06 企业政策的信息关联方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410166254.4A CN117708350B (zh) 2024-02-06 2024-02-06 企业政策的信息关联方法、装置及电子设备

Publications (2)

Publication Number Publication Date
CN117708350A CN117708350A (zh) 2024-03-15
CN117708350B true CN117708350B (zh) 2024-05-14

Family

ID=90162922

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410166254.4A Active CN117708350B (zh) 2024-02-06 2024-02-06 企业政策的信息关联方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN117708350B (zh)

Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108563620A (zh) * 2018-04-13 2018-09-21 上海财梵泰传媒科技有限公司 文本自动写作方法和系统
US10248910B2 (en) * 2015-10-28 2019-04-02 Fractal Industries, Inc. Detection mitigation and remediation of cyberattacks employing an advanced cyber-decision platform
CN110968776A (zh) * 2018-09-30 2020-04-07 北京国双科技有限公司 政策知识的推荐方法、装置存储介质及处理器
CN111930966A (zh) * 2020-10-07 2020-11-13 杭州实在智能科技有限公司 一种用于数字政务的智能政策匹配方法及系统
US10860962B2 (en) * 2015-10-28 2020-12-08 Qomplx, Inc. System for fully integrated capture, and analysis of business information resulting in predictive decision making and simulation
CN112214615A (zh) * 2020-10-19 2021-01-12 平安国际智慧城市科技股份有限公司 基于知识图谱的政策文件处理方法、装置和存储介质
CN112667825A (zh) * 2021-01-19 2021-04-16 深圳市信联征信有限公司 基于知识图谱的智能推荐方法、装置、设备及存储介质
CN113761208A (zh) * 2021-09-17 2021-12-07 福州数据技术研究院有限公司 一种基于知识图谱的科技创新资讯分类方法和存储设备
CN114398477A (zh) * 2022-01-19 2022-04-26 平安国际智慧城市科技股份有限公司 基于知识图谱的政策推荐方法及其相关设备
CN115510247A (zh) * 2022-10-20 2022-12-23 国家电网有限公司大数据中心 一种电碳政策知识图谱构建方法、装置、设备及存储介质
CN116361487A (zh) * 2023-04-19 2023-06-30 中电云数智科技有限公司 一种多源异构政策知识图谱构建和存储方法及系统
CN116595173A (zh) * 2023-05-06 2023-08-15 上海东普信息科技有限公司 政策信息管理的数据处理方法、装置、设备及存储介质
CN116719997A (zh) * 2023-06-13 2023-09-08 深圳中科闻歌科技有限公司 政策信息推送方法、装置及电子设备
CN116842269A (zh) * 2023-07-17 2023-10-03 企知道科技有限公司 一种基于政策图谱的政策推荐方法、装置以及电子设备
CN117371531A (zh) * 2023-10-30 2024-01-09 国网冀北电力有限公司智能配电网中心 一种碳政策知识图谱构建系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170124497A1 (en) * 2015-10-28 2017-05-04 Fractal Industries, Inc. System for automated capture and analysis of business information for reliable business venture outcome prediction

Patent Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10248910B2 (en) * 2015-10-28 2019-04-02 Fractal Industries, Inc. Detection mitigation and remediation of cyberattacks employing an advanced cyber-decision platform
US10860962B2 (en) * 2015-10-28 2020-12-08 Qomplx, Inc. System for fully integrated capture, and analysis of business information resulting in predictive decision making and simulation
CN108563620A (zh) * 2018-04-13 2018-09-21 上海财梵泰传媒科技有限公司 文本自动写作方法和系统
CN110968776A (zh) * 2018-09-30 2020-04-07 北京国双科技有限公司 政策知识的推荐方法、装置存储介质及处理器
CN111930966A (zh) * 2020-10-07 2020-11-13 杭州实在智能科技有限公司 一种用于数字政务的智能政策匹配方法及系统
CN112214615A (zh) * 2020-10-19 2021-01-12 平安国际智慧城市科技股份有限公司 基于知识图谱的政策文件处理方法、装置和存储介质
CN112667825A (zh) * 2021-01-19 2021-04-16 深圳市信联征信有限公司 基于知识图谱的智能推荐方法、装置、设备及存储介质
CN113761208A (zh) * 2021-09-17 2021-12-07 福州数据技术研究院有限公司 一种基于知识图谱的科技创新资讯分类方法和存储设备
CN114398477A (zh) * 2022-01-19 2022-04-26 平安国际智慧城市科技股份有限公司 基于知识图谱的政策推荐方法及其相关设备
CN115510247A (zh) * 2022-10-20 2022-12-23 国家电网有限公司大数据中心 一种电碳政策知识图谱构建方法、装置、设备及存储介质
CN116361487A (zh) * 2023-04-19 2023-06-30 中电云数智科技有限公司 一种多源异构政策知识图谱构建和存储方法及系统
CN116595173A (zh) * 2023-05-06 2023-08-15 上海东普信息科技有限公司 政策信息管理的数据处理方法、装置、设备及存储介质
CN116719997A (zh) * 2023-06-13 2023-09-08 深圳中科闻歌科技有限公司 政策信息推送方法、装置及电子设备
CN116842269A (zh) * 2023-07-17 2023-10-03 企知道科技有限公司 一种基于政策图谱的政策推荐方法、装置以及电子设备
CN117371531A (zh) * 2023-10-30 2024-01-09 国网冀北电力有限公司智能配电网中心 一种碳政策知识图谱构建系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于知识图谱的循证政策中科学证据推荐研究;任超等;《图书情报工作》;20230225;第108-118页 *
基于知识图谱的循证政策中科学证据推荐研究——以新冠肺炎疫情防控政策为例;任超等;《 图书情报工作》;20230225;第108-118页 *

Also Published As

Publication number Publication date
CN117708350A (zh) 2024-03-15

Similar Documents

Publication Publication Date Title
Dhanaraj et al. Random forest bagging and x-means clustered antipattern detection from sql query log for accessing secure mobile data
US20140172754A1 (en) Semi-supervised data integration model for named entity classification
Im et al. Linked tag: image annotation using semantic relationships between image tags
CN111881447B (zh) 恶意代码片段智能取证方法及系统
WO2017121076A1 (zh) 信息推送方法和装置
WO2017181866A1 (en) Making graph pattern queries bounded in big graphs
CN113641833B (zh) 服务需求匹配方法及装置
US20120265760A1 (en) Random Walk on Query Pattern Graph for Query Task Classification
CN115730087A (zh) 基于知识图谱的矛盾纠纷分析和预警方法及其应用
CN116881430B (zh) 一种产业链识别方法、装置、电子设备及可读存储介质
US20160321345A1 (en) Chain understanding in search
Du et al. ExpSeeker: Extract public exploit code information from social media
CN116089732B (zh) 基于广告点击数据的用户偏好识别方法及系统
CN112765966A (zh) 联想词去重方法及装置、计算机可读存储介质和电子设备
CN117708350B (zh) 企业政策的信息关联方法、装置及电子设备
CN110895703B (zh) 法律文书案由识别方法及装置
US20200090817A1 (en) System and method for secure drug discovery information processing
CN111813964B (zh) 基于生态环境的数据处理方法及相关设备
CN103377381A (zh) 识别图像的内容属性的方法和装置
CN112348041A (zh) 日志分类、日志分类训练方法及装置、设备、存储介质
US20200019647A1 (en) Detection of missing entities in a graph schema
CN113741864B (zh) 基于自然语言处理的语义化服务接口自动设计方法与系统
CN116189215A (zh) 自动审核方法、装置、电子设备及存储介质
CN111782916A (zh) 用于生成业务资讯报告的方法及装置
Vanamala Machine Learning Based Approach to Recommend Attack Patterns for Software Requirements Specifications

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant