CN115168567B - 一种基于知识图谱的对象推荐方法 - Google Patents
一种基于知识图谱的对象推荐方法 Download PDFInfo
- Publication number
- CN115168567B CN115168567B CN202211091554.8A CN202211091554A CN115168567B CN 115168567 B CN115168567 B CN 115168567B CN 202211091554 A CN202211091554 A CN 202211091554A CN 115168567 B CN115168567 B CN 115168567B
- Authority
- CN
- China
- Prior art keywords
- official document
- text
- entity
- triple
- attribute
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供一种基于知识图谱的对象推荐方法,所述方法包括:确定所述公文文本对应的原始文本标签集合、时间属性、地域属性和部门属性;基于当前公文文本与公文知识图谱的匹配关系,确定当前公文文本对应的扩展文本标签集合;根据扩展文本标签集合以及当前公文文本的类型,在公文数据库中确定推荐对象。本发明实施例在构建公文知识图谱时使用了时间属性、地域属性和部门属性等公文文本的特征作为三元组的实体关系,并使用公文知识图谱扩展了公文标签的丰富度,并在使用知识图谱时同时考虑到了文本标签的匹配和公文属性的匹配,还在公文对象推荐时利用文本类型的匹配值调整了公文推荐的排序,使得公文对象推荐的结果更具鲁棒性。
Description
技术领域
本申请涉及计算机技术领域,特别涉及一种基于知识图谱的对象推荐方法。
背景技术
知识图谱这一概念自被提出以来,由于其包含丰富的实体对象以及实体对象之间的关系等丰富信息,已经被应用于各种对象推荐系统中,包括文本、商品、人的推荐系统等。随着电子公文审批系统以及公文数据库系统的普及,对于以相似公文智能推荐为目标的对象推荐方法的应用需求逐渐提高。例如在进行公文审批时,对象推荐方法能为用户在公文数据库中检索公文时节省大量时间,提高检索效率。
当前流行的基于知识图谱的文本推荐方法通常是从文本匹配的角度来构建知识图谱,再以知识图谱中的三元组作为训练数据集,采用机器学习的方式进行文本推荐模型的训练。这类方法本质上还是基于文本的字面特征相似度进行文本推荐,一般适用于通用文本的推荐,但是由于没有考虑到公文作为一种专业文本的特殊性,当应用于公文推荐时会导致推荐结果准确性较低,例如:公文文本的审批文本都具有一定的时效属性、地域属性和部门属性,例如即使若干年前的一篇目标公文与用户输入的当前公文相似度较高,或者出自A城市的一篇目标公文与用户输入的出自B城市的当前公文相似度较高,该目标公文的审批文本作为审批当前文本时的推荐对象时,其推荐价值也会相对较低; 此外,公文还可分为决议、报告、函件等多种类型,通用文本推荐方法要么仅在同一类型的公文之间进行推荐,要么会将所有类型的公文当做一个整体的数据集并在之中确定推荐对象,两类方法都未能考虑到不同类型公文之间具有不同的相似程度,因此所采用的推荐方法均存在鲁棒性较低的问题。
因此,对于以相似公文智能推荐为目标的对象推荐方法,采用通用文本推荐方法来推荐公文文本,会导致推荐的准确率显著降低,无法满足公文写作和审批用户的需求。
发明内容
本申请实施例的目的在于提供一种基于知识图谱的对象推荐方法,包括:
一种基于知识图谱的对象推荐方法,所述方法包括:
获取用户输入的当前公文文本,并确定所述当前公文文本对应的原始文本标签集合、时间属性、地域属性和部门属性;
基于所述当前公文文本对应的原始文本标签集合、时间属性、地域属性和部门属性,与公文知识图谱的匹配关系,确定所述当前公文文本对应的扩展文本标签集合;其中,所述匹配关系包括所述当前公文文本对应的原始文本标签集合与所述公文知识图谱中三元组的头实体或尾实体的匹配关系,以及所述当前公文文本对应的时间属性、地域属性和部门属性与所述公文知识图谱中三元组的实体关系之间的匹配关系;
根据所述当前公文文本对应的扩展文本标签集合以及所述当前公文文本的类型,在公文数据库中确定目标公文文本和/或目标公文文本的审批信息作为推荐对象。
可选地,所述公文知识图谱通过如下方式生成:
根据所述公文数据库的历史公文文本,获取第一三元组集合;其中,所述第一三元组集合中的每一目标三元组是基于公文数据库中的某一历史公文文本生成的;每一目标三元组的头实体为所述历史公文文本中的第一标签,尾实体为所述历史公文文本中与所述第一标签关联的第二标签,所述实体关系为表征所述历史公文文本的时间属性、地域属性和部门属性的特征向量;
将所述第一三元组集合中头实体和尾实体相同或相反的目标三元组进行合并,得到第二三元组集合;
根据所述第二三元组集合生成所述公文知识图谱。
可选地,所述根据所述公文数据库的历史公文文本,获取第一三元组集合,具体包括:
在所述公文数据库的任一公文文本进行高频实词搜索,提取所述公文文本的第一标签;
根据预设大小的窗口在所述第一标签邻近文本中搜索与所述第一标签对应的第二标签;
以所述第一标签为头实体、以所述第二标签为尾实体、以表征所述公文文本的时间属性、地域属性和部门属性的特征向量为实体关系,生成对应的第一三元组;
根据所有生成的所述第一三元组,得到第一三元组集合。
可选地,所述将所述第一三元组集合中头实体和尾实体相同或相反的目标三元组进行合并,得到第二三元组集合,具体包括:
在所述第一三元组集合中,若某一第一三元组的头实体和尾实体与另一第一三元组的头实体和尾实体分别相同或在公文字典中为近义关系,或者,某一第一三元组的头实体和尾实体与另一第一三元组的尾实体和头实体分别相同或在公文字典中为近义关系,则将两个第一三元组合并为第二三元组;
根据合并得到的所有第二三元组,得到第二三元组集合。
可选地,若某一第一三元组的头实体和尾实体与另一第一三元组的头实体和尾实体分别相同或在公文字典中为近义关系,或者,某一第一三元组的头实体和尾实体与另一第一三元组的尾实体和头实体分别相同或在公文字典中为近义关系,所述第二三元组的头实体和尾实体分别为所述某一第一三元组的头实体和尾实体。
可选地,若某一第一三元组的头实体和/或尾实体与另一第一三元组的头实体和/或尾实体分别在公文字典中为近义关系,或者,某一第一三元组的头实体和/或尾实体与另一第一三元组的尾实体和/或头实体分别在公文字典中为近义关系,所述第二三元组的头实体和/或尾实体的属性值分别为所述另一第一三元组的头实体和/或尾实体。
可选地,所述第二三元组的实体关系为所述某一第一三元组和所述另一第一三元组的实体关系的平均值。
可选地,所述根据所述当前公文文本对应的扩展文本标签集合以及所述当前公文文本的类型,在公文数据库中确定目标公文文本和/或目标公文文本的审批信息作为推荐对象,具体包括:
基于所述当前公文文本对应的扩展文本标签集合在所述公文数据库中进行标签匹配,确定潜在目标公文文本的第一排序结果;
根据所述当前公文文本的类型与潜在目标公文文本类型的匹配值,调整所述潜在目标公文文本的第一排序结果,得到潜在目标公文文本的第二排序结果;
将所述潜在目标公文文本的第二排序结果中排名靠前的目标公文文本和/或目标公文文本的审批信息作为推荐对象。
可选地,所述基于所述当前公文文本对应的原始文本标签集合、时间属性、地域属性和部门属性,与公文知识图谱的匹配关系,确定所述当前公文文本对应的扩展文本标签集合,具体包括:
基于所述当前公文文本对应的原始文本标签集合与所述公文知识图谱中三元组的头实体或尾实体的匹配关系,以及所述当前公文文本对应的时间属性、地域属性和部门属性与所述公文知识图谱中三元组的实体关系之间的匹配关系,在所述公文知识图谱中查找与所述当前公文文本对应的扩展标签;
将所述扩展标签合并到所述原始文本标签集合中,得到所述当前公文文本对应的扩展文本标签集合。
可选地,所述原始文本标签集合是对所述当前公文文本进行实体抽取后得到的;所述时间属性、地域属性和部门属性是在电子公文系统中提取得到的。
本发明实施例提供的对象推荐方法,基于公文对象推荐场景的特点,在构建公文知识图谱时使用了时间属性、地域属性和部门属性等公文文本的特征作为三元组的实体关系,并使用公文知识图谱扩展了公文标签的丰富度,并在使用知识图谱时同时考虑到了文本标签的匹配和公文属性的匹配,还在公文对象推荐时利用文本类型的匹配值调整了公文推荐的排序,使得公文对象推荐的结果更具鲁棒性,满足了公文写作和审批用户的需求。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍。
图1为本发明实施例提供的基于知识图谱的对象推荐方法的流程示意图;
图2为本发明实施例提供的公文文本与公文知识图谱匹配方法的流程示意图;
图3为本发明实施例提供的对象推荐方法的流程示意图;
图4为本发明实施例提供的公文知识图谱生成方法的流程示意图;
图5为本发明实施例提供的基于知识图谱的对象推荐装置的结构示意图;
图6为本发明实施例提供的电子设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。
相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本申请的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
知识图谱这一概念自被提出以来,由于其包含丰富的实体对象以及实体对象之间的关系等丰富信息,已经被应用于各种对象推荐系统中,包括文本、商品、人的推荐系统等。随着电子公文审批系统以及公文数据库系统的普及,对于以相似公文智能推荐为目标的对象推荐方法的应用需求逐渐提高。例如在进行公文审批时,对象推荐方法能为用户在公文数据库中检索公文时节省大量时间,提高检索效率。
当前流行的基于知识图谱的文本推荐方法通常是从文本匹配的角度来构建知识图谱,再以知识图谱中的三元组作为训练数据集,采用机器学习的方式进行文本推荐模型的训练。这类方法本质上还是基于文本的字面特征相似度进行文本推荐,一般适用于通用文本的推荐,但是由于没有考虑到公文作为一种专业文本的特殊性,当应用于公文推荐时会导致推荐结果准确性较低,例如:公文文本的审批文本都具有一定的时效属性、地域属性和部门属性,例如即使若干年前的一篇目标公文与用户输入的当前公文相似度较高,或者出自A城市的一篇目标公文与用户输入的出自B城市的当前公文相似度较高,该目标公文的审批文本作为审批当前文本时的推荐对象时,其推荐价值也会相对较低; 此外,公文还可分为决议、报告、函件等多种类型,通用文本推荐方法要么仅在同一类型的公文之间进行推荐,要么会将所有类型的公文当做一个整体的数据集并在之中确定推荐对象,两类方法都未能考虑到不同类型公文之间具有不同的相似程度,因此所采用的推荐方法均存在鲁棒性较低的问题。
基于此,本发明实施例提供了一种基于知识图谱的对象推荐方法。附图1示出了本发明实施例提供的基于知识图谱的对象推荐方法对象推荐方法的流程示意图。
步骤S110,获取用户输入的当前公文文本,并确定所述当前公文文本对应的原始文本标签集合、时间属性、地域属性和部门属性。
本发明实施例应用于基于公文的对象推荐的应用场景。用户在获取到一份公文文本时,需要参考其他同类公文进行阅读或写作,或需要参考同类公文的审批信息进行公文审批内容的写作。本发明实施例中的公文可以包括公告、通知、请示、函件等政务、商务或其他公务领域的文件类型。通用的文本对象推荐方法应用于公文对象推荐时未能考虑到公文文本的特殊性,因此存在推荐结果鲁棒性较低的问题。
本发明实施例采用了基于知识图谱的对象推荐方法,但在构建和应用知识图谱时考虑到了公文文本的特殊性。本步骤中首先要根据获取的用户输入的当前公文文本,确定所述当前公文文本对应的原始文本标签集合。原始文本标签集合是从当前公文文本中提取的关键词的集合,用于后续从知识图谱中查找与原始文本标签相关的更多文本标签,扩展文本标签的维度,从而在公文数据库中更准确地匹配出相应的推荐对象。原始文本标签集合,可以有用户手动筛选确定,也可以根据高频词统计的方式确定,有可以采用现有的知识图谱实体抽取方法来确定,本发明实施例不作具体限定。
此外,本步骤中还需要确定当前公文文本对应的时间属性、地域属性和部门属性。时间属性是指该公文文本的生成、签发或生效的时间,代表了公文这类文本具有的时效性,同一类型的公文在不同的时间范围内文本语言结构、作用时效、可推荐价值都有所不同。地域属性是指该公文文本作用的地域范围,不同公文的作用的行政范围不同,相互之间可推荐价值较低;有些公文的作用范围较大,其对于包含的作用范围较小的公文具有较高的推荐价值。部门属性是指该公文所述的部门类型,当部门类型相同时,公文之间潜在的推荐价值较高。公文文本对应的时间属性、地域属性和部门属性通常可以在电子公文系统中进行获取。
步骤S120,基于所述当前公文文本对应的原始文本标签集合、时间属性、地域属性和部门属性,与公文知识图谱的匹配关系,确定所述当前公文文本对应的扩展文本标签集合。
在获取了当前公文文本对应的原始文本标签集合、时间属性、地域属性和部门属性之后,本步骤需要根据上述信息在知识图谱中查找到其他与当前公文文本匹配的文本标签,得到当前公文文本对应的扩展文本标签集合。本步骤对于文本标签的扩展是考虑到公文中词汇的表达方式存在多样性,将原始文本标签集合扩展后可以得到更为丰富的语料信息,从而得到更为鲁棒和丰富的推荐结果。
以下对本步骤中当前公文文本对应的原始文本标签集合、时间属性、地域属性和部门属性,与公文知识图谱的匹配过程进行描述。具体地,所述匹配关系包括所述当前公文文本对应的原始文本标签集合与所述公文知识图谱中三元组的头实体或尾实体的匹配关系,以及所述当前公文文本对应的时间属性、地域属性和部门属性与所述公文知识图谱中三元组的实体关系之间的匹配关系。
知识图谱通常以三元组,即头实体(head)、实体关系(relation)和尾实体(tail)的方式进行存储。三元组可显示图谱内部结构和关系的特征。本发明实施例中的公文知识图谱中三元组的头实体和尾实体分别用于表述公文文本中具有语义关系的一对关键词。实体关系用于描述头实体和尾实体之间的关系属性,其存储有一特征向量,该特征向量中包含了时间属性、地域属性和部门属性等维度的信息。
因此,如附图2所示,本步骤S120可以进一步描述为如下具体步骤S121-S122:
步骤S121,基于所述当前公文文本对应的原始文本标签集合与所述公文知识图谱中三元组的头实体或尾实体的匹配关系,以及所述当前公文文本对应的时间属性、地域属性和部门属性与所述公文知识图谱中三元组的实体关系之间的匹配关系,在所述公文知识图谱中查找与所述当前公文文本对应的扩展标签。
对于原始文本标签集合中的任一文本标签,如果查找到公文知识图谱中的某个节点与其匹配,即与公文知识图谱中三元组的头实体或尾实体进行匹配,那么公文知识图谱中与该节点相连的其他节点所代表的文本标签就是本步骤中候选的扩展标签。可以理解的是,该文本标签和该潜在的扩展标签构成了公文知识图谱中一三元组的头实体和尾实体。
然而,该潜在的扩展标签是否能用于当前公文文本,还需要进行实体关系的匹配验证。即,当前公文文本对应的实体关系所表征的时间属性、地域属性和部门属性,与所述公文知识图谱中对应三元组的实体关系所表征的之间的时间属性、地域属性和部门属性之间的匹配。在实际计算过程中,需要计算两个特征向量的相似度。如果两者相似度超过预设的阈值,代表该潜在的扩展标签可以作为当前公文文本的扩展标签。
步骤S122,将所述扩展标签合并到所述原始文本标签集合中,得到所述当前公文文本对应的扩展文本标签集合。
在对原始文本标签集合中的每一个原始文本标签进行如步骤S121的操作后,每一个原始文本标签都可能在公文知识图谱中找到若干扩展标签。当所有确定的扩展标签合并到原始文本标签集合时,会出现部分扩展标签与原始文本标签重复的情况,此时需要进行去重处理后得到当前公文文本对应的扩展文本标签集合。
步骤S130,根据所述当前公文文本对应的扩展文本标签集合以及所述当前公文文本的类型,在公文数据库中确定目标公文文本和/或目标公文文本的审批信息作为推荐对象。
当获取到当前公文文本对应的扩展文本标签集合后,如果直接使用扩展文本标签集合到公文数据库中确定推荐对象,仍有可能被推荐得到词汇和句子上相似度较高但实际公文内容像差较远的推荐对象。这是因为公文在词法、句法、表达方式上用词中性且严谨,类似的词汇在不同类型的公文中都会出现,但体现的含义却完全不同。因此,在公文数据库中确定推荐对象时,还需要考虑到当前公文文本的类型与潜在推荐对象之类文本类型的关联程度。
因此,如附图3所示,本步骤S130的内容可以具体描述如下。
步骤S131,基于所述当前公文文本对应的扩展文本标签集合在所述公文数据库中进行标签匹配,确定潜在目标公文文本的第一排序结果。
本步骤中首先将当前公文文本对应的扩展文本标签集合与公文数据库中的潜在目标公文文本的文本内容进行匹配。匹配的方式可以是基于词汇的匹配,也可以是基于正则表达式的匹配等,本步骤不作具体限定。在进行标签匹配时,可以限制预设的词汇频率,仅在潜在目标公文文本中出现一定频率的词汇作为命中的词汇。词汇命中的次数可以作为该标签的命中权重。
对于任一潜在目标公文文本而言,当前公文文本对应的扩展文本标签集合中的每一个标签都与该潜在目标公文文本产生一个命中的权重计算结果。综合计算出扩展文本标签集合中的所有标签对于该潜在目标公文文本的权重均值,可以得到当前公文文本与该潜在目标公文文本的初步匹配值。从而对于整个公文数据库而言,根据该初步匹配值可以得到当前公文文本对应的潜在目标公文文本的第一排序结果。
步骤S132,根据所述当前公文文本的类型与潜在目标公文文本类型的匹配值,调整所述潜在目标公文文本的第一排序结果,得到潜在目标公文文本的第二排序结果。
在得到第一排序结果后,需要根据当前公文文本的潜在目标公文文本的文本类型的匹配度对第一排序结果进行调整,因为第一排序结果仅考虑到了文本字面上的匹配度。
本步骤中,在计算不同类型的公文文本的匹配度时,可以预先对所有公文类型进行分类,如公告、通知、请示、函件、纪要、决定、决议等。其次,可以预先对不同类型的公文进行分析,预先设定好各种公文类型中两两之间的匹配值,例如决定和决议之间具有的匹配值较高,可以赋予0.95的匹配值;函件和会议纪要之间的匹配值较低,可以赋予0.2的匹配值。本发明实施例也可以根据用户实际需求制定其他的公文分类方式和权值设定方法。可以理解的是,设定好的各种公文类型中两两之间的匹配值可以构成一个查找表或矩阵的数据形式,以供本步骤在执行时进行调用。
因此,在基于初步匹配值的第一排序结果的基础上,将初步匹配值与本步骤中的公文类型匹配值相乘后,可以得到当前公文文本与该潜在目标公文文本的最终匹配值。从而对于整个公文数据库而言,基于该最终匹配值可以得到当前公文文本对应的潜在目标公文文本的第二排序结果。
步骤S133,将所述潜在目标公文文本的第二排序结果中排名靠前的目标公文文本和/或目标公文文本的审批信息作为推荐对象。
在得到当前公文文本对应的潜在目标公文文本的第二排序结果之后,可以将排名靠前目标公文文本和/或目标公文文本的审批信息作为推荐对象,提供给用户。如果用户在获取到一份公文文本时,需要参考其他同类公文进行阅读或写作,可以直接将目标公文文本提供给用户;如果用户需要参考同类公文的审批信息进行公文审批内容的写作,可以进一步提取目标公文文本的审批信息提供给用户。在另一种实施方式中,也可以将所有第二排序结果提供给用户后,让用户进行手动的阅读和筛选。
本发明实施例提供的对象推荐方法,基于公文对象推荐场景的特点,在构建公文知识图谱时使用了时间属性、地域属性和部门属性等公文文本的特征作为三元组的实体关系,并使用公文知识图谱扩展了公文标签的丰富度,并在使用知识图谱时同时考虑到了文本标签的匹配和公文属性的匹配,还在公文对象推荐时利用文本类型的匹配值调整了公文推荐的排序,使得公文对象推荐的结果更具鲁棒性,满足了公文写作和审批用户的需求。
基于上述实施例,附图4示出了本发明实施例中公文知识图谱的生成方法,具体内容如下。
步骤S210,据所述公文数据库的历史公文文本,获取第一三元组集合。
本发明实施例中的公文知识图谱是根据公文数据库中已有的全部历史公文文本生成的。可以理解的是,当公文数据库不断更新时,可以定期的更新公文知识图谱。
知识图谱通常以三元组,即头实体、实体关系和尾实体的方式进行存储。本步骤中,需要通过构建三元组的方式来生成知识图谱,所构建的多个三元组形成的集合可以用于生成知识图谱。三元组中头实体、实体关系和尾实体存储的数据结构和内容是根据本发明实施例解决的技术问题确定的。
本步骤中首先要构建多个第一三元组所组成的第一三元组集合。所述第一三元组集合中的每一目标三元组是基于公文数据库中的某一历史公文文本生成的。每一目标三元组的头实体为所述历史公文文本中的第一标签,尾实体为所述历史公文文本中与所述第一标签关联的第二标签,所述实体关系为表征所述历史公文文本的时间属性、地域属性和部门属性的特征向量。
具体地,在所述公文数据库的任一公文文本进行高频实词搜索,提取所述公文文本的第一标签。根据预设大小的窗口在所述第一标签邻近文本中搜索与所述第一标签对应的第二标签;以所述第一标签为头实体、以所述第二标签为尾实体、以表征所述公文文本的时间属性、地域属性和部门属性的特征向量为实体关系,生成对应的第一三元组;根据所有生成的所述第一三元组,得到第一三元组集合。
可以理解的是第一三元组中的头实体和尾实体属于文本意义上的关联词汇,例如两个通常会同时采用的词汇,且两个词汇之间的举例在预设的搜索窗口大小以内。实体关系用于描述头实体和尾实体之间的关系属性,其存储有一特征向量,该特征向量中包含了时间属性、地域属性和部门属性等维度的信息。该特征向量的每一维度信息可以是对应的系统代码。
由此可见,本步骤中的第一三元组有效利用了三元组结构中的实体关系存储了与公文对象推荐密切相关的信息,进而使得所构建的知识图谱更详细地记载了公文对象推荐场景中的更多有效信息。
步骤S220,将所述第一三元组集合中头实体和尾实体相同或相反的目标三元组进行合并,得到第二三元组集合。
在根据步骤S210遍历了公文数据库中的每一历史公文文本后,所生成的大量第一三元组必然存在较多词汇重复的三元组,重复的三元组在构建知识图谱时属于冗余信息,会增加知识图谱的信息量并降低知识图谱的访问效率,需要进行去重合并处理,即根据第一三元组集合得到合并后的第二三元组集合,具体的做法如下。
在所述第一三元组集合中,若某一第一三元组的头实体和尾实体与另一第一三元组的头实体和尾实体分别相同或在公文字典中为近义关系,或者,某一第一三元组的头实体和尾实体与另一第一三元组的尾实体和头实体分别相同或在公文字典中为近义关系,则将两个第一三元组合并为第二三元组。也就是说,词汇重复的多个三元组,具体的判断条件为头实体和尾实体中所包含的词汇存在相同或相近的情况。相同指的是文字上完全相同的两个词汇,相近指的是通过查询公文词典两个词汇在字典意义上为近义词汇的情形。
此外,由于三元组中头实体和尾实体不存在顺序性,位置可以交换,因此在判断三元组词汇重复时包含两种情形:(1)三元组1的头实体和三元组2的头实体相同或相近,三元组1的尾实体和三元组2的尾实体相同或相近;(2)三元组1的头实体和三元组2的尾实体相同或相近,三元组1的尾实体和三元组2的头实体相同或相近。上述两种情形均属于三元组需要合并的情形。
具体地,若某一第一三元组的头实体和尾实体与另一第一三元组的头实体和尾实体分别相同或在公文字典中为近义关系,或者,某一第一三元组的头实体和尾实体与另一第一三元组的尾实体和头实体分别相同或在公文字典中为近义关系,所述第二三元组的头实体和尾实体分别为所述某一第一三元组的头实体和尾实体。也就是说,在三元组1和2进行合并的情形下,可以以任何一个三元组的头实体和尾实体作为合并后的第二三元组的头实体和尾实体,例如以三元组1的头实体作为第二三元组的头实体,以三元组1的尾实体作为第二三元组的尾实体。
此外,若某一第一三元组的头实体和/或尾实体与另一第一三元组的头实体和/或尾实体分别在公文字典中为近义关系,或者,某一第一三元组的头实体和/或尾实体与另一第一三元组的尾实体和/或头实体分别在公文字典中为近义关系,所述第二三元组的头实体和/或尾实体的属性值分别为所述另一第一三元组的头实体和尾实体。
即,在三元组1和2进行合并的情形下,且三元组1和2中的头实体和/或尾实体存在近义的情形时,简单地合并会导致近义信息的丢失。此时,需要利用到知识图谱中三元组可以存储属性信息的特性。例如,三元组1和2的头实体为相近关系,尾实体为相同关系。在合并时,可以将三元组1的头实体作为第二三元组的头实体,以三元组1的尾实体作为第二三元组的尾实体,再将三元组2的头实体作为第二三元组的头实体的属性信息。这样一来,即没有破坏知识图谱三元组本身的数据结构,也没有丢失近义的两个词汇或多个词汇的信息,在后续使用知识图谱中可以搜索到更丰富准确的文本标签。
在上述第一三元组合并的情形中,尽管两个第一三元组的头实体和尾实体之间存在相同或相近的关系,但两个第一三元组的实体关系之间可能存在较大的不同,因为两个第一三元组可能提取自不同的历史公文文本中,相应地时间属性、地域属性和部门属性等信息都不尽相同。因此,在第一三元组合并的情形中,需要将合并的两个第一三元组的实体关系求平均处理,即所述第二三元组的实体关系为所述某一第一三元组和所述另一第一三元组的实体关系的平均值,数据中是实体关系中两个特征向量各维度的对应值所表征的系统代码的平均值。在统计学意义上看,知识图谱中具有关联关系的两个词汇最频繁地出现在哪个时间、地域和部门,在合并后的第二三元组的属性信息中均会得到体现,从而准确地反应出该三元组在公文对象推荐应用场景下的属性信息,进而能够为当前公文文本提供准确的扩展标签。
步骤S230,根据所述第二三元组集合生成所述公文知识图谱。
当合并得到多个第二三元组形成第二三元组集合后,可以根据第二三元组集合生成公文知识图谱,生成知识图谱的过程此处不再赘述。
基于上述任一实施例,附图5示出了本发明实施例提供的基于知识图谱的对象推荐装置的结构示意图,具体内容如下:
输入模块501,用于获取用户输入的当前公文文本,并确定所述当前公文文本对应的原始文本标签集合、时间属性、地域属性和部门属性。
匹配模块502,用于基于所述当前公文文本对应的原始文本标签集合、时间属性、地域属性和部门属性,与公文知识图谱的匹配关系,确定所述当前公文文本对应的扩展文本标签集合;其中,所述匹配关系包括所述当前公文文本对应的原始文本标签集合与所述公文知识图谱中三元组的头实体或尾实体的匹配关系,以及所述当前公文文本对应的时间属性、地域属性和部门属性与所述公文知识图谱中三元组的实体关系之间的匹配关系。
推荐模块503,用于根据所述当前公文文本对应的扩展文本标签集合以及所述当前公文文本的类型,在公文数据库中确定目标公文文本和/或目标公文文本的审批信息作为推荐对象。
本发明实施例提供的对象推荐装置,基于公文对象推荐场景的特点,在构建公文知识图谱时使用了时间属性、地域属性和部门属性等公文文本的特征作为三元组的实体关系,并使用公文知识图谱扩展了公文标签的丰富度,并在使用知识图谱时同时考虑到了文本标签的匹配和公文属性的匹配,还在公文对象推荐时利用文本类型的匹配值调整了公文推荐的排序,使得公文对象推荐的结果更具鲁棒性,满足了公文写作和审批用户的需求。
基于上述任一实施例,附图6示出了本发明实施例提供的电子设备的实体结构示意图,该电子设备可以包括:处理器(processor)610、通信接口(CommunicationsInterface)620、存储器(memory)630和通信总线640,其中,处理器610,通信接口620,存储器630通过通信总线640完成相互间的通信。处理器610可以调用存储器630中的逻辑指令,以执行如下方法:
获取用户输入的当前公文文本,并确定所述当前公文文本对应的原始文本标签集合、时间属性、地域属性和部门属性;
基于所述当前公文文本对应的原始文本标签集合、时间属性、地域属性和部门属性,与公文知识图谱的匹配关系,确定所述当前公文文本对应的扩展文本标签集合;其中,所述匹配关系包括所述当前公文文本对应的原始文本标签集合与所述公文知识图谱中三元组的头实体或尾实体的匹配关系,以及所述当前公文文本对应的时间属性、地域属性和部门属性与所述公文知识图谱中三元组的实体关系之间的匹配关系;
根据所述当前公文文本对应的扩展文本标签集合以及所述当前公文文本的类型,在公文数据库中确定目标公文文本和/或目标公文文本的审批信息作为推荐对象。
此外,上述的存储器630中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明实施例还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各实施例提供的方法,例如包括:
获取用户输入的当前公文文本,并确定所述当前公文文本对应的原始文本标签集合、时间属性、地域属性和部门属性;
基于所述当前公文文本对应的原始文本标签集合、时间属性、地域属性和部门属性,与公文知识图谱的匹配关系,确定所述当前公文文本对应的扩展文本标签集合;其中,所述匹配关系包括所述当前公文文本对应的原始文本标签集合与所述公文知识图谱中三元组的头实体或尾实体的匹配关系,以及所述当前公文文本对应的时间属性、地域属性和部门属性与所述公文知识图谱中三元组的实体关系之间的匹配关系;
根据所述当前公文文本对应的扩展文本标签集合以及所述当前公文文本的类型,在公文数据库中确定目标公文文本和/或目标公文文本的审批信息作为推荐对象。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (9)
1.一种基于知识图谱的对象推荐方法,其特征在于,所述方法包括:
获取用户输入的当前公文文本,并确定所述当前公文文本对应的原始文本标签集合、时间属性、地域属性和部门属性;
基于所述当前公文文本对应的原始文本标签集合、时间属性、地域属性和部门属性,与公文知识图谱的匹配关系,确定所述当前公文文本对应的扩展文本标签集合;所述匹配关系包括所述当前公文文本对应的原始文本标签集合与所述公文知识图谱中三元组的头实体或尾实体的匹配关系,以及所述当前公文文本对应的时间属性、地域属性和部门属性与所述公文知识图谱中三元组的实体关系之间的匹配关系;
根据所述当前公文文本对应的扩展文本标签集合以及所述当前公文文本的类型,在公文数据库中确定目标公文文本和/或目标公文文本的审批信息作为推荐对象;
所述公文知识图谱通过如下方式生成:
根据所述公文数据库的历史公文文本,获取第一三元组集合;其中,所述第一三元组集合中的每一目标三元组是基于公文数据库中的某一历史公文文本生成的;每一目标三元组的头实体为所述历史公文文本中的第一标签,尾实体为所述历史公文文本中与所述第一标签关联的第二标签,所述实体关系为表征所述历史公文文本的时间属性、地域属性和部门属性的特征向量;
将所述第一三元组集合中头实体和尾实体相同或相反的目标三元组进行合并,得到第二三元组集合;
根据所述第二三元组集合生成所述公文知识图谱。
2.根据权利要求1所述的对象推荐方法,其特征在于,所述根据所述公文数据库的历史公文文本,获取第一三元组集合,具体包括:
在所述公文数据库的任一公文文本进行高频实词搜索,提取所述公文文本的第一标签;
根据预设大小的窗口在所述第一标签邻近文本中搜索与所述第一标签对应的第二标签;
以所述第一标签为头实体、以所述第二标签为尾实体、以表征所述公文文本的时间属性、地域属性和部门属性的特征向量为实体关系,生成对应的第一三元组;
根据所有生成的所述第一三元组,得到第一三元组集合。
3.根据权利要求1所述的对象推荐方法,其特征在于,所述将所述第一三元组集合中头实体和尾实体相同或相反的目标三元组进行合并,得到第二三元组集合,具体包括:
在所述第一三元组集合中,若某一第一三元组的头实体和尾实体与另一第一三元组的头实体和尾实体分别相同或在公文字典中为近义关系,或者,某一第一三元组的头实体和尾实体与另一第一三元组的尾实体和头实体分别相同或在公文字典中为近义关系,则将两个第一三元组合并为第二三元组;
根据合并得到的所有第二三元组,得到第二三元组集合。
4.根据权利要求3所述的对象推荐方法,其特征在于,若某一第一三元组的头实体和尾实体与另一第一三元组的头实体和尾实体分别相同或在公文字典中为近义关系,或者,某一第一三元组的头实体和尾实体与另一第一三元组的尾实体和头实体分别相同或在公文字典中为近义关系,所述第二三元组的头实体和尾实体分别为所述某一第一三元组的头实体和尾实体。
5.根据权利要求3所述的对象推荐方法,其特征在于,若某一第一三元组的头实体和/或尾实体与另一第一三元组的头实体和/或尾实体分别在公文字典中为近义关系,或者,某一第一三元组的头实体和/或尾实体与另一第一三元组的尾实体和/或头实体分别在公文字典中为近义关系,所述第二三元组的头实体和/或尾实体的属性值分别为所述另一第一三元组的头实体和/或尾实体。
6.根据权利要求3所述的对象推荐方法,其特征在于,所述第二三元组的实体关系为所述某一第一三元组和所述另一第一三元组的实体关系的平均值。
7.根据权利要求1所述的对象推荐方法,其特征在于,所述根据所述当前公文文本对应的扩展文本标签集合以及所述当前公文文本的类型,在公文数据库中确定目标公文文本和/或目标公文文本的审批信息作为推荐对象,具体包括:
基于所述当前公文文本对应的扩展文本标签集合在所述公文数据库中进行标签匹配,确定潜在目标公文文本的第一排序结果;
根据所述当前公文文本的类型与潜在目标公文文本类型的匹配值,调整所述潜在目标公文文本的第一排序结果,得到潜在目标公文文本的第二排序结果;
将所述潜在目标公文文本的第二排序结果中排名靠前的目标公文文本和/或目标公文文本的审批信息作为推荐对象。
8.根据权利要求1所述的对象推荐方法,其特征在于,所述基于所述当前公文文本对应的原始文本标签集合、时间属性、地域属性和部门属性,与公文知识图谱的匹配关系,确定所述当前公文文本对应的扩展文本标签集合,具体包括:
基于所述当前公文文本对应的原始文本标签集合与所述公文知识图谱中三元组的头实体或尾实体的匹配关系,以及所述当前公文文本对应的时间属性、地域属性和部门属性与所述公文知识图谱中三元组的实体关系之间的匹配关系,在所述公文知识图谱中查找与所述当前公文文本对应的扩展标签;
将所述扩展标签合并到所述原始文本标签集合中,得到所述当前公文文本对应的扩展文本标签集合。
9.根据权利要求1所述的对象推荐方法,其特征在于,所述原始文本标签集合是对所述当前公文文本进行实体抽取后得到的;所述时间属性、地域属性和部门属性是在电子公文系统中提取得到的。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211091554.8A CN115168567B (zh) | 2022-09-07 | 2022-09-07 | 一种基于知识图谱的对象推荐方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211091554.8A CN115168567B (zh) | 2022-09-07 | 2022-09-07 | 一种基于知识图谱的对象推荐方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115168567A CN115168567A (zh) | 2022-10-11 |
CN115168567B true CN115168567B (zh) | 2022-12-02 |
Family
ID=83481843
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211091554.8A Active CN115168567B (zh) | 2022-09-07 | 2022-09-07 | 一种基于知识图谱的对象推荐方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115168567B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115619442A (zh) * | 2022-12-21 | 2023-01-17 | 北京仁科互动网络技术有限公司 | 销售机会生成方法、装置、电子设备及存储介质 |
CN118051604A (zh) * | 2024-01-09 | 2024-05-17 | 海南大学 | 一种基于知识图谱的推荐新闻方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111666401A (zh) * | 2020-05-29 | 2020-09-15 | 平安科技(深圳)有限公司 | 基于图结构的公文推荐方法、装置、计算机设备及介质 |
CN112364172A (zh) * | 2020-10-16 | 2021-02-12 | 上海晏鼠计算机技术股份有限公司 | 一种政务公文领域知识图谱构建方法 |
CN112784066A (zh) * | 2021-03-15 | 2021-05-11 | 中国平安人寿保险股份有限公司 | 基于知识图谱的信息反馈方法、装置、终端和存储介质 |
CN113157931A (zh) * | 2021-01-20 | 2021-07-23 | 青岛海信网络科技股份有限公司 | 一种融合图谱构建方法及装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI774117B (zh) * | 2020-11-09 | 2022-08-11 | 財團法人資訊工業策進會 | 知識圖譜建置系統與知識圖譜建置方法 |
-
2022
- 2022-09-07 CN CN202211091554.8A patent/CN115168567B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111666401A (zh) * | 2020-05-29 | 2020-09-15 | 平安科技(深圳)有限公司 | 基于图结构的公文推荐方法、装置、计算机设备及介质 |
CN112364172A (zh) * | 2020-10-16 | 2021-02-12 | 上海晏鼠计算机技术股份有限公司 | 一种政务公文领域知识图谱构建方法 |
CN113157931A (zh) * | 2021-01-20 | 2021-07-23 | 青岛海信网络科技股份有限公司 | 一种融合图谱构建方法及装置 |
CN112784066A (zh) * | 2021-03-15 | 2021-05-11 | 中国平安人寿保险股份有限公司 | 基于知识图谱的信息反馈方法、装置、终端和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN115168567A (zh) | 2022-10-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108536852B (zh) | 问答交互方法和装置、计算机设备及计算机可读存储介质 | |
CN109815308B (zh) | 意图识别模型的确定及检索意图识别方法、装置 | |
WO2021093755A1 (zh) | 问题的匹配方法及装置、问题的回复方法及装置 | |
CN115168567B (zh) | 一种基于知识图谱的对象推荐方法 | |
US7249312B2 (en) | Attribute scoring for unstructured content | |
CA2556202C (en) | Method and apparatus for fundamental operations on token sequences: computing similarity, extracting term values, and searching efficiently | |
CN111046133A (zh) | 基于图谱化知识库的问答方法、设备、存储介质及装置 | |
CN112667794A (zh) | 一种基于孪生网络bert模型的智能问答匹配方法及系统 | |
CN111400493A (zh) | 基于槽位相似度的文本匹配方法、装置、设备及存储介质 | |
CN112699645B (zh) | 语料标注方法、装置及设备 | |
CN113569011B (zh) | 文本匹配模型的训练方法、装置、设备及存储介质 | |
CN112988784B (zh) | 数据查询方法、查询语句生成方法及其装置 | |
CN111126060A (zh) | 一种主题词的提取方法、装置、设备及存储介质 | |
CN111881283A (zh) | 一种业务关键词库创建方法、智能聊天引导方法及装置 | |
CN111782793A (zh) | 智能客服处理方法和系统及设备 | |
CN112989010A (zh) | 数据查询方法、数据查询装置和电子设备 | |
CN111859940A (zh) | 一种关键词提取方法、装置、电子设备及存储介质 | |
CN115062621A (zh) | 标签提取方法、装置、电子设备和存储介质 | |
CN111209372A (zh) | 一种关键词的确定方法、装置、电子设备和存储介质 | |
Wei et al. | Online education recommendation model based on user behavior data analysis | |
CN111523311B (zh) | 一种搜索意图识别方法及装置 | |
CN113191145A (zh) | 关键词的处理方法、装置、电子设备和介质 | |
CN111309288B (zh) | 适用于银行业务的软件需求规格文件的分析方法及装置 | |
CN112231513A (zh) | 一种学习视频推荐方法、装置及系统 | |
CN115659961B (zh) | 用于提取文本观点的方法、装置以及计算机存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |