CN115577095A - 一种基于图论的电力标准信息推荐方法 - Google Patents

一种基于图论的电力标准信息推荐方法 Download PDF

Info

Publication number
CN115577095A
CN115577095A CN202211587871.9A CN202211587871A CN115577095A CN 115577095 A CN115577095 A CN 115577095A CN 202211587871 A CN202211587871 A CN 202211587871A CN 115577095 A CN115577095 A CN 115577095A
Authority
CN
China
Prior art keywords
vector
power standard
knowledge
text
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211587871.9A
Other languages
English (en)
Other versions
CN115577095B (zh
Inventor
周育忠
涂亮
林正平
王宏
杨宇亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CSG Electric Power Research Institute
Original Assignee
CSG Electric Power Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CSG Electric Power Research Institute filed Critical CSG Electric Power Research Institute
Priority to CN202211587871.9A priority Critical patent/CN115577095B/zh
Publication of CN115577095A publication Critical patent/CN115577095A/zh
Application granted granted Critical
Publication of CN115577095B publication Critical patent/CN115577095B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供一种基于图论的电力标准信息推荐方法,通过获取用户信息和电力标准信息,得到相应的用户向量和物品偏移向量;基于电力标准信息从预先构建的电力标准知识图谱中获取对应的结构化知识,以及,基于电力标准信息,确定出对应的文本知识;再对结构化知识和文本知识进行向量化,分别得到结构化向量和文本化向量;进一步确定出物品向量;再基于用户向量和物品向量,计算电力标准信息的推荐指数。这样的方式,可以将预先构建的电力标准知识图谱利用起来,结合到协同过滤的推荐方法中,提升在电力技术领域中对于电力标准信息的个性化推荐,有利于提升个性化推荐的效果。

Description

一种基于图论的电力标准信息推荐方法
技术领域
本申请涉及电力技术领域,具体而言,涉及一种基于图论的电力标准信息推荐方法。
背景技术
在信息化的今天,人们需要面对的信息量呈指数级增长。那么,如何从海量的信息中将用户可能更需要的信息推送给用户,以达到双赢的目的,是目前面临的重要问题。
当下,推荐系统已经在电商、社交平台、个性化内容推荐等领域发挥了重要作用,成了现代互联网应用场景中不可或缺的一部分。
但对于一些垂直领域的技术文档、文献、资讯等的个性化推荐上,依旧依赖于传统的推荐方式,例如基于协同过滤的推荐系统、基于内容的推荐系统、混合推荐系统等。例如,针对电力技术领域中电力标准知识相关的内容推荐,也通常是依赖于传统的推荐方式,未能将电力标准知识图谱利用起来,结合到推荐系统中。
发明内容
本申请实施例的目的在于提供一种基于图论的电力标准信息推荐方法,以利用电力标准知识图谱实现电力标准信息的个性化推荐。
为了实现上述目的,本申请的实施例通过如下方式实现:
第一方面,本申请实施例提供一种基于图论的电力标准信息推荐方法,包括:获取用户信息和电力标准信息,其中,用户信息用于反映用户的基本信息和兴趣偏好,电力标准信息为包含电力标准知识的文献;基于所述用户信息生成用户向量;基于所述电力标准信息,确定出物品偏移向量;基于所述电力标准信息,从预先构建的电力标准知识图谱中获取对应的结构化知识,以及,基于所述电力标准信息,确定出对应的文本知识;对所述结构化知识和所述文本知识进行向量化,分别得到结构化向量和文本化向量;基于所述物品偏移向量、所述结构化向量和所述文本化向量,确定出物品向量;基于所述用户向量和所述物品向量,计算电力标准信息的推荐指数。
在本申请实施例中,通过获取用户信息和电力标准信息,得到相应的用户向量和物品偏移向量;基于电力标准信息从预先构建的电力标准知识图谱中获取对应的结构化知识,以及,基于电力标准信息,确定出对应的文本知识;再对结构化知识和文本知识进行向量化,分别得到结构化向量和文本化向量;进一步确定出物品向量;再基于用户向量和物品向量,计算电力标准信息的推荐指数。这样的方式,可以将预先构建的电力标准知识图谱利用起来,结合到协同过滤的推荐方法中,提升在电力技术领域中对于电力标准信息的个性化推荐,有利于提升个性化推荐的效果。
结合第一方面,在第一方面的第一种可能的实现方式中,基于所述电力标准信息,从预先构建的电力标准知识图谱中获取对应的结构化知识,包括:获取所述电力标准信息对应的a个关键词;基于a个关键词,从预先构建的电力标准知识图谱中获取对应的b个三元组(hrt),其中,ba,三元组(hrt)中hrt分别表示头实体、关系和尾实体。
在该实现方式中,通过获取电力标准信息对应的a个关键词(可能一部分是实体类的关键词,一部分是属性类关键词),进一步从预先构建的电力标准知识图谱中获取对应的b个三元组(hrt),这样可以快速准确地得到电力标准信息对应的结构化知识。
结合第一方面的第一种可能的实现方式,在第一方面的第二种可能的实现方式中,基于所述电力标准信息,确定出对应的文本知识,包括:针对每个三元组(hrt),从预先构建的电力标准知识图谱中确定出其头实体h的属性;从所述电力标准信息中获取对应此头实体h的关键词的文本内容;将此头实体h的属性与对应此头实体h的关键词的文本内容进行组合,得到此三元组(hrt)对应的子文本知识;共计得到b个子文本知识,作为所述电力标准信息对应的文本知识。
在该实现方式中,这样的方式得到的文本知识更加全面,能够利用电力标准知识图谱中头实体的属性实现对头实体对应关键词的内容补充,从而丰富文本知识,有利于提高个性化推荐的准确性。
结合第一方面的第二种可能的实现方式,在第一方面的第三种可能的实现方式中,对所述结构化知识和所述文本知识进行向量化,分别得到结构化向量和文本化向量,包括:利用Bayesian TransR对每个三元组(hrt)进行向量化,得到对应的b个结构化子向量,b个结构化子向量的集合视为所述结构化向量;利用Bayesian SDAE对每个子文本知识进行向量化,得到对应的b个文本化子向量,b个文本化子向量的集合视为所述文本化向量。
结合第一方面的第三种可能的实现方式,在第一方面的第四种可能的实现方式中,基于所述物品偏移向量、所述结构化向量和所述文本化向量,确定出物品向量,包括:将所述物品偏移向量与b个结构化子向量及b个文本化子向量分别对应进行融合,得到对应b个关键词的b组物品分向量。
在该实现方式中,此种方式将物品偏移向量与b个结构化子向量及b个文本化子向量分别对应进行融合,得到对应b个关键词的b组物品分向量,能够使得到的用于计算推荐指数的物品向量更加准确全面地反映电力标准信息的特征,有利于提升推荐的准确性和有效性。
结合第一方面的第四种可能的实现方式,在第一方面的第五种可能的实现方式中,基于所述用户向量和所述物品向量,计算电力标准信息的推荐指数,包括:针对b组物品分向量中的每一组物品分向量,基于此组物品分向量与所述用户向量进行计算,得到对应此组物品分向量的推荐指数分量,共计计算出对应b组物品分向量的b个推荐指数分量;基于b个推荐指数分量,计算出所述电力标准信息的推荐指数。
在该实现方式中,通过将每一组物品分向量与用户向量进行计算,得到对应b组物品分向量的b个推荐指数分量,进一步计算出电力标准信息的推荐指数,这样能够更加综合地考虑到电力标准信息的内容是否符合用户的偏好。
结合第一方面,或者结合第一方面的第一种至第五种中任一可能的实现方式,在第一方面的第六种可能的实现方式中,在获取用户信息和电力标准信息之前,所述方法还包括:构建电力标准知识图谱的本体结构,所述本体结构包含实体、属性及实体间关系;获取包含电力标准知识的基础数据,并对所述基础数据进行知识抽取,抽取出实体、属性及实体间关系;基于抽取的知识进行知识融合;采用Neo4j图数据库对知识融合后的知识进行存储,以构建出所述电力标准知识图谱。
在该实现方式中,这样能够实现电力标准知识图谱的构建。
结合第一方面的第六种可能的实现方式,在第一方面的第七种可能的实现方式中,所述基础数据为纯文本数据,或者,所述基础数据为文本数据与公式图像,对所述基础数据进行知识抽取,抽取出实体、属性及实体间关系,包括:对所述基础数据进行预处理,得到多个文本信息,或者得到多个文本信息和至少一个图像信息;针对每个文本信息,将该文本信息分词后输入至Bert子模型,得到对应的向量序列,然后将得到的向量序列输入至BGRU子模型中,输出用于揭示该文本信息中各个单词对应各个标签分值的状态矩阵,再将所述状态矩阵输入至CRF子模型,计算最优标签序列,实现对实体的提取和属性的提取;针对每个图像信息,将该图像信息输入至外部调用的公式识别子工具中,得到转换的文本信息,对转换的文本信息进行处理,得到至少一个公式文本,将每个公式文本一同输入至WordBert子模型,得到对应的向量序列,然后将得到的向量序列输入至BGRU子模型中,输出用于揭示该转换的文本信息中各个公式文本对应各个标签分值的状态矩阵,再将所述状态矩阵输入至CRF子模型,计算最优标签序列,实现对属性的提取;以及,将抽取实体和属性的向量序列处理后再输入至关系抽取子模型,实现对实体间关系的抽取。
在该实现方式中,对基础数据进行预处理,得到多个文本信息,或者得到多个文本信息和至少一个图像信息。针对每个文本信息,将该文本信息分词后输入至Bert子模型,得到对应的向量序列,然后将得到的向量序列输入至BGRU子模型中,输出用于揭示该文本信息中各个单词对应各个标签分值的状态矩阵,再将状态矩阵输入至CRF子模型,计算最优标签序列,实现对实体的提取和属性的提取。这样的方式可以通过设计的模型实现电力标准知识中实体和属性的联合抽取,不仅可以保证知识抽取的可靠性,还能够保证抽取的效率。而针对每个图像信息,将该图像信息输入至外部调用的公式识别子工具中,得到转换的文本信息,对转换的文本信息进行处理,得到至少一个公式文本,将每个公式文本一同输入至WordBert子模型,得到对应的向量序列,然后将得到的向量序列输入至BGRU子模型中,输出用于揭示该转换的文本信息中各个公式文本对应各个标签分值的状态矩阵,再将状态矩阵输入至CRF子模型,计算最优标签序列,实现对属性的提取。这样的方式可以通过设计的模型实现电力标准知识中针对公式图像中相关知识的抽取(均属于属性),有效克服了电力标准知识抽取困难(由于存在公式图像用于表征数值限定、计算方式等相关信息的数据,现有技术无法实现有效的知识抽取)的问题,不仅能够保证公式图像中相关知识的抽取,还可以保证此类知识抽取的可靠性。并且,针对公式文本采用设计的WordBert子模型,不涉及分词操作,不仅可以减少处理过程,还能够有效保留信息,避免传统Bert模型中分词导致的公式信息提取错误的问题。而将抽取实体和属性的向量序列处理后再输入至关系抽取子模型,实现对实体间关系的抽取,可以利用Bert子模型已经处理得到的向量序列来进行后续的关系处理,且能够进行相应处理后再进行关系的抽取,不仅可以有效减少知识抽取的工作量(因为不需要再进行重复的实体抽取过程),还由于已经确定了实体,在关系抽取的过程中能够事半功倍。
结合第一方面的第七种可能的实现方式,在第一方面的第八种可能的实现方式中,将该文本信息分词后输入至Bert子模型,得到对应的向量序列,然后将得到的向量序列输入至BGRU子模型中,输出用于揭示该文本信息中各个单词对应各个标签分值的状态矩阵,再将所述状态矩阵输入至CRF子模型,计算最优标签序列,实现对实体的提取和属性的提取,包括:将文本信息进行分词后得到长度为
Figure 138358DEST_PATH_IMAGE001
的分词文本
Figure 746056DEST_PATH_IMAGE002
;然后将分词文本
Figure 922960DEST_PATH_IMAGE003
输入至Bert子模型,得到分词文本
Figure 500572DEST_PATH_IMAGE002
对应的向量序列
Figure 954687DEST_PATH_IMAGE004
Figure 857921DEST_PATH_IMAGE005
,其中,
Figure 397487DEST_PATH_IMAGE006
,向量序列
Figure 44369DEST_PATH_IMAGE004
为Bert子模型的最后一层中分词文本
Figure 352990DEST_PATH_IMAGE002
对应的隐藏状态,
Figure 161546DEST_PATH_IMAGE007
为起始符,
Figure 922829DEST_PATH_IMAGE008
为结束符,
Figure 373402DEST_PATH_IMAGE009
为Bert子模型的隐藏状态维数;将向量序列
Figure 395584DEST_PATH_IMAGE004
中各个词向量序列
Figure 515987DEST_PATH_IMAGE010
作为BGRU子模型中各个时间步的输入;再将BGRU子模型中正向GRU输出的隐状态序列
Figure 154779DEST_PATH_IMAGE011
和反向GRU输出的隐状态序列
Figure 18830DEST_PATH_IMAGE012
进行计算,得到向量序列
Figure 895519DEST_PATH_IMAGE013
对应的隐状态序列
Figure 452402DEST_PATH_IMAGE014
Figure 312911DEST_PATH_IMAGE015
Figure 845566DEST_PATH_IMAGE016
为BGRU子模型的隐藏状态维数;然后将隐状态序列
Figure 717707DEST_PATH_IMAGE014
Figure 570126DEST_PATH_IMAGE016
维映射到
Figure 793297DEST_PATH_IMAGE017
维,
Figure 858205DEST_PATH_IMAGE017
为标签数;再计算每个分词分类到
Figure 850431DEST_PATH_IMAGE017
个标签的标签分值,得到状态矩阵
Figure 873751DEST_PATH_IMAGE018
Figure 380956DEST_PATH_IMAGE019
,是一个列向量;之后将状态矩阵
Figure 515134DEST_PATH_IMAGE018
输入至CRF子模型中;基于CRF子模型中引入的约束矩阵
Figure 627446DEST_PATH_IMAGE020
和输入的状态矩阵
Figure 556088DEST_PATH_IMAGE021
Figure 753851DEST_PATH_IMAGE022
,利用以下公式计算每个标签序列
Figure 426141DEST_PATH_IMAGE023
的总分值:
Figure 252015DEST_PATH_IMAGE024
,其中,
Figure 226924DEST_PATH_IMAGE025
表示标签序列
Figure 771038DEST_PATH_IMAGE023
的总分值,
Figure 122385DEST_PATH_IMAGE026
为调节因子,
Figure 68344DEST_PATH_IMAGE027
表示状态矩阵
Figure 479734DEST_PATH_IMAGE021
中第
Figure 245564DEST_PATH_IMAGE028
个分词分类到第
Figure 259657DEST_PATH_IMAGE029
个标签的概率,
Figure 201068DEST_PATH_IMAGE030
表示由标签序列
Figure 642413DEST_PATH_IMAGE023
中第
Figure 770907DEST_PATH_IMAGE029
个标签转移至第
Figure 588690DEST_PATH_IMAGE031
个标签的概率;再基于每个标签序列
Figure 243662DEST_PATH_IMAGE023
的总分值
Figure 996854DEST_PATH_IMAGE025
,代入以下公式计算最优标签序列
Figure 996997DEST_PATH_IMAGE032
Figure 228258DEST_PATH_IMAGE033
,其中,
Figure 3316DEST_PATH_IMAGE034
为所有可能的标签序列的集合。
在该实现方式中,可以实现Bert+BGRU+CRF模型的构建,可以先进行分词后利用Bert模型处理,实现实体和属性的联合提取,提升实体及属性提取的准确性,降低模型设计难度。而引入的约束矩阵
Figure 661831DEST_PATH_IMAGE020
对状态矩阵
Figure 155129DEST_PATH_IMAGE021
进行约束,可以避免输出不合法的标签序列。并且,在计算每个标签序列
Figure 190081DEST_PATH_IMAGE023
的总分值时引入调节因子
Figure 819646DEST_PATH_IMAGE026
,可以在实体和属性联合提取的过程中,具有更强的适用性,保证实体和属性提取的准确性,克服实体与属性提取过程中需求的约束矩阵
Figure 914641DEST_PATH_IMAGE020
差异的问题。
结合第一方面的第八种可能的实现方式,在第一方面的第九种可能的实现方式中,将抽取实体和属性的向量序列处理后再输入至关系抽取子模型,实现对实体间关系的抽取,包括:基于提取的实体,对分词文本
Figure 895235DEST_PATH_IMAGE002
对应的向量序列
Figure 468299DEST_PATH_IMAGE004
中的对应向量进行标记;将标记后的向量序列
Figure 952370DEST_PATH_IMAGE035
输入至关系抽取子模型中;针对向量序列
Figure 342900DEST_PATH_IMAGE035
中带标记的标记向量,对所有标记向量进行二元互组,以使每个标记向量与其他标记向量之间均具有配对的组合关系;针对每个具有组合关系的标记向量对,将标记向量对的两个标记向量进行拼接,得到组合向量;计算每个组合向量在各个关系类别下的分值;分别获取每个组合向量对应的最优分值并进行排序,淘汰排序最末的一个最优分值,针对每个剩余最优分值,确定其组合向量对应的实体之间具有对应关系类别的实体间关系,实现对实体间关系的抽取。
在该实现方式中,基于提取的实体,对分词文本
Figure 420577DEST_PATH_IMAGE002
对应的向量序列
Figure 187545DEST_PATH_IMAGE004
中的对应向量进行标记;将标记后的向量序列
Figure 401488DEST_PATH_IMAGE035
输入至关系抽取子模型中;针对向量序列
Figure 962920DEST_PATH_IMAGE035
中带标记的标记向量,对所有标记向量进行二元互组,以使每个标记向量与其他标记向量之间均具有配对的组合关系;针对每个具有组合关系的标记向量对,将标记向量对的两个标记向量进行拼接,得到组合向量;计算每个组合向量在各个关系类别下的分值;分别获取每个组合向量对应的最优分值并进行排序,淘汰排序最末的一个最优分值,针对每个剩余最优分值,确定其组合向量对应的实体之间具有对应关系类别的实体间关系,实现对实体间关系的抽取。这样可以通过多实体二元互组的方式,快速高效且准确地实现对实体间关系的提取,且能够考虑到各个实体间的关系。
为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的电力标准知识图谱的构建方法的流程图。
图2为本申请实施例提供的电力标准知识图谱构建模型的示意图。
图3为本申请实施例提供的基于图论的电力标准信息推荐方法的流程图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。
为了便于对本方案的理解,此处先对电力标准知识图谱的构建过程进行介绍。
请参阅图1,图1为本申请实施例提供的电力标准知识图谱的构建方法的流程图。在本实施例中,电力标准知识图谱的构建方法可以包括步骤S11、步骤S12、步骤S13和步骤S14。
为了实现电力标准知识图谱的构建,首先执行步骤S11。
步骤S11:构建电力标准知识图谱的本体结构,所述本体结构包含实体、属性及实体间关系。
在本实施例中,为了实现电力标准知识图谱的构建,需要构建本体结构。考虑到电力标准知识图谱的领域,可以采用自顶而下和自底而上的方式构建本体结构,预先设计一部分本体结构,如:电力标准名称(例如建筑防雷设计规范)-指标(例如防雷装置)、指标(防雷装置)-下层指标(防雷线)等,并在后续的知识抽取过程中,发现和添加新的本体结构。
而后,可以执行步骤S12。
步骤S12:获取包含电力标准知识的基础数据,并对所述基础数据进行知识抽取,抽取出实体、属性及实体间关系。
为了便于理解,可结合参阅图1和图2,图2为本申请实施例提供的电力标准知识图谱构建模型的示意图。
在本实施例中,获取包含电力标准知识的基础数据,可以通过收集文档、爬取网页等方式实现。例如,可以爬取网页中关于电力标准知识的资料,也可以从构建的数据集中获取(由于电力标准知识属于一个非常垂直的领域,且知识相对稳定)。而包含电力标准知识的基础数据,可以是纯文本数据(例如word文档、PDF文档、TXT文档等),也可以是文本数据与公式图像的结合(例如含公式的PDF文档、含公式图像的word文档等),基础数据可以是对网页爬取得到的数据进行处理后整理得到的文档。
得到包含电力标准知识的基础数据后,可以对基础数据进行知识抽取,抽取出实体、属性及实体间关系。
在本实施例中,可以对基础数据进行预处理,得到多个文本信息,或者得到多个文本信息和至少一个图像信息。
示例性的,针对基础数据中的文本数据,可以基于句子分隔符将基础数据中的文本数据拆分为多个文本信息。由于此项技术已经非常成熟,此处不过多赘述。
若基础数据中存在公式图像,那么,针对基础数据中的每个公式图像,可以对该公式图像进行处理,得到对应的图像信息。例如,可以将公式图像输入Mathpix,得到输出的公式,输出的Latex格式可以转换为tex,再使用MathType,将Latex转成MathML格式,即纯文本格式,可用于得到Word文档。
然后,针对每个图像信息,可以为该图像信息赋值编号,以及,为公式图像在文本数据中所在段落和相邻段落对应的所有文本信息赋值同一编号,建立图像信息与文本信息的关联关系。这样的方式可以针对文本信息和图像信息建立关联关系,从而便于后续确定属性所归属的实体对象,保证知识图谱的准确性和可靠性。
为了实现对文本信息的知识抽取(实体与属性的联合抽取),针对每个文本信息,可以将该文本信息分词后输入至Bert子模型,得到对应的向量序列。
示例性的,可以将文本信息进行分词后得到长度为
Figure 527893DEST_PATH_IMAGE001
的分词文本
Figure 567394DEST_PATH_IMAGE002
,然后将分词文本
Figure 26057DEST_PATH_IMAGE003
输入至Bert子模型,得到分词文本
Figure 633756DEST_PATH_IMAGE002
对应的向量序列
Figure 545080DEST_PATH_IMAGE004
Figure 263637DEST_PATH_IMAGE005
,其中,
Figure 842386DEST_PATH_IMAGE006
,向量序列
Figure 480041DEST_PATH_IMAGE004
为Bert子模型的最后一层中分词文本
Figure 19606DEST_PATH_IMAGE002
对应的隐藏状态,
Figure 666488DEST_PATH_IMAGE007
为起始符,
Figure 975110DEST_PATH_IMAGE008
为结束符,
Figure 49245DEST_PATH_IMAGE009
为Bert子模型的隐藏状态维数(例如100维、200维等)。
得到Bert子模型输出的向量序列
Figure 544949DEST_PATH_IMAGE036
后,可以将得到的向量序列
Figure 470222DEST_PATH_IMAGE036
输入至BGRU子模型中,BGRU子模型则输出用于揭示该文本信息中各个单词对应各个标签分值的状态矩阵。
示例性的,可以将向量序列
Figure 757984DEST_PATH_IMAGE004
中各个词向量序列
Figure 878387DEST_PATH_IMAGE010
分别作为BGRU子模型中各个时间步(需用到
Figure 517179DEST_PATH_IMAGE037
个时间步)的输入,然将BGRU子模型中正向GRU输出的隐状态序列
Figure 381230DEST_PATH_IMAGE011
和反向GRU输出的隐状态序列
Figure 257919DEST_PATH_IMAGE012
进行计算,得到向量序列
Figure 939436DEST_PATH_IMAGE013
对应的隐状态序列
Figure 409731DEST_PATH_IMAGE014
Figure 936528DEST_PATH_IMAGE015
Figure 74248DEST_PATH_IMAGE016
为BGRU子模型的隐藏状态维数。
此处,正向GRU输出的隐状态序列
Figure 926666DEST_PATH_IMAGE011
与反向GRU输出的隐状态序列
Figure 884258DEST_PATH_IMAGE011
计算求得隐状态序列
Figure 480325DEST_PATH_IMAGE014
可以采用以下方式:将正向GRU输出的隐状态序列
Figure 331606DEST_PATH_IMAGE011
与反向GRU输出的隐状态序列
Figure 964713DEST_PATH_IMAGE011
按位相加后求均值(为了进一步提升精度,还可以采用按位加权相加的方式求均值),得到隐状态序列
Figure 799813DEST_PATH_IMAGE014
得到隐状态序列
Figure 809358DEST_PATH_IMAGE014
后,可以将隐状态序列
Figure 515145DEST_PATH_IMAGE014
Figure 584733DEST_PATH_IMAGE016
维映射到
Figure 375971DEST_PATH_IMAGE017
维,
Figure 313840DEST_PATH_IMAGE017
为标签数,再计算每个分词分类到
Figure 280659DEST_PATH_IMAGE017
个标签的标签分值,得到状态矩阵
Figure 380202DEST_PATH_IMAGE018
Figure 799682DEST_PATH_IMAGE019
Figure 275663DEST_PATH_IMAGE038
是一个列向量。
得到状态矩阵
Figure 96988DEST_PATH_IMAGE021
后,可以将状态矩阵输入至CRF子模型,计算最优标签序列,实现对实体的提取和属性的提取。
示例性的,可以将状态矩阵
Figure 367433DEST_PATH_IMAGE018
输入至CRF子模型中,基于CRF子模型中引入的约束矩阵
Figure 274209DEST_PATH_IMAGE020
和输入的状态矩阵
Figure 305879DEST_PATH_IMAGE021
Figure 106345DEST_PATH_IMAGE022
,利用以下公式(1)计算每个标签序列
Figure 688636DEST_PATH_IMAGE023
的总分值:
Figure 207342DEST_PATH_IMAGE024
,(1)
其中,
Figure 900492DEST_PATH_IMAGE025
表示标签序列
Figure 555464DEST_PATH_IMAGE023
的总分值,
Figure 636552DEST_PATH_IMAGE026
为调节因子,
Figure 376975DEST_PATH_IMAGE027
表示状态矩阵
Figure 608237DEST_PATH_IMAGE021
中第
Figure 383295DEST_PATH_IMAGE028
个分词分类到第
Figure 307388DEST_PATH_IMAGE029
个标签的概率,
Figure 800686DEST_PATH_IMAGE030
表示由标签序列
Figure 835639DEST_PATH_IMAGE023
中第
Figure 465203DEST_PATH_IMAGE029
个标签转移至第
Figure 560198DEST_PATH_IMAGE031
个标签的概率。
然后,可以基于每个标签序列
Figure 9634DEST_PATH_IMAGE023
的总分值
Figure 972911DEST_PATH_IMAGE025
,代入以下公式(2)计算最优标签序列
Figure 597927DEST_PATH_IMAGE032
Figure 988457DEST_PATH_IMAGE033
,(2)
其中,
Figure 800555DEST_PATH_IMAGE034
为所有可能的标签序列的集合。
另外,为了保证引入的约束矩阵
Figure 301944DEST_PATH_IMAGE020
的适用性,可以在CRF子模型中加入损失函数(如公式(3)所示),在训练阶段,通过最小化该损失函数来学习约束矩阵
Figure 781467DEST_PATH_IMAGE020
Figure 342898DEST_PATH_IMAGE039
,(3)
其中,
Figure 766926DEST_PATH_IMAGE040
为正确的标签序列,
Figure 947372DEST_PATH_IMAGE034
为所有可能的标签序列的集合。
通过设计的模型实现电力标准知识中实体和属性的联合抽取,不仅可以保证知识抽取的可靠性,还能够保证抽取的效率。由于采用了Bert+BGRU+CRF模型的构建,可以先进行分词后利用Bert模型处理,实现实体和属性的联合提取,提升实体及属性提取的准确性,降低模型设计难度。而引入的约束矩阵
Figure 671614DEST_PATH_IMAGE020
对状态矩阵
Figure 279313DEST_PATH_IMAGE021
进行约束,可以避免输出不合法的标签序列。并且,在计算每个标签序列
Figure 930917DEST_PATH_IMAGE023
的总分值时引入调节因子
Figure 915054DEST_PATH_IMAGE026
,可以在实体和属性联合提取的过程中,具有更强的适用性,保证实体和属性提取的准确性,克服实体与属性提取过程中需求的约束矩阵
Figure 228224DEST_PATH_IMAGE020
差异导致的问题(属性与实体采用同一标准的约束矩阵会导致实体提取精度高但属性提取精度低,或者实体提取精度低但属性提取精度高的问题)。
为了实现对图像信息的知识抽取(对属性的抽取),针对每个图像信息,可以将该图像信息输入至外部调用的公式识别子工具中,得到转换的文本信息。然后可以对转换的文本信息进行处理,得到至少一个公式文本。
示例性的,可以对转换的文本信息进行识别,确定出其中是否存在目标符号“=”。若不存在目标符号“=”,确定转换的文本信息为一个公式文本;若存在目标符号“=”,以目标符号“=”将转换的文本信息进行拆分,得到多个公式文本(如果有4个目标符号“=”,则可以拆成5个公式文本)。
利用“=”可以将公式涉及的属性拆分为属性标识部分(例如属性的符号表示)和属性限定部分(例如属性的数值限定、参数取值范围限定等),有的甚至包含属性的中间推导过程。
针对每个公式文本,可以将每个公式文本一同输入至WordBert子模型,得到对应的向量序列。此处,每个公式文本表示对同一图像数据转换得到的文本信息进行拆分后的公式文本。
可以将公式文本组合
Figure 865878DEST_PATH_IMAGE041
输入至WordBert子模型,得到公式文本组合
Figure 139865DEST_PATH_IMAGE042
对应的向量序列
Figure 521168DEST_PATH_IMAGE043
Figure 954423DEST_PATH_IMAGE044
,其中,
Figure 903924DEST_PATH_IMAGE045
,向量序列
Figure 789841DEST_PATH_IMAGE043
为WordBert子模型的最后一层中公式文本组合
Figure 709255DEST_PATH_IMAGE042
对应的隐藏状态,
Figure 872383DEST_PATH_IMAGE007
为起始符,
Figure 117420DEST_PATH_IMAGE008
为结束符,
Figure 365999DEST_PATH_IMAGE009
为WordBert子模型的隐藏状态维数(例如为100、200,与Bert子模型的隐藏状态维数保持一致)。
然后可以将得到的向量序列输入至BGRU子模型中,输出用于揭示该转换的文本信息中各个公式文本对应各个标签分值的状态矩阵。
示例性的,可以将向量序列
Figure 354683DEST_PATH_IMAGE043
各个公式向量序列
Figure 637897DEST_PATH_IMAGE010
作为BGRU子模型中各个时间步的输入,再将BGRU子模型中正向GRU输出的隐状态序列
Figure 53835DEST_PATH_IMAGE046
和反向GRU输出的隐状态序列
Figure 789710DEST_PATH_IMAGE012
进行计算,得到向量序列
Figure 316506DEST_PATH_IMAGE013
对应的隐状态序列
Figure 313281DEST_PATH_IMAGE047
Figure 634541DEST_PATH_IMAGE048
Figure 857712DEST_PATH_IMAGE016
为BGRU子模型的隐藏状态维数。再将隐状态序列
Figure 188199DEST_PATH_IMAGE047
Figure 180426DEST_PATH_IMAGE016
维映射到
Figure 938166DEST_PATH_IMAGE017
维,
Figure 648633DEST_PATH_IMAGE017
为标签数,计算每个公式分类到
Figure 782811DEST_PATH_IMAGE017
个标签的标签分值,得到状态矩阵
Figure 629544DEST_PATH_IMAGE049
Figure 552327DEST_PATH_IMAGE019
Figure 609145DEST_PATH_IMAGE038
是一个列向量。此处的过程与前文介绍的BGRU子模型的运行过程类似,因此不再赘述。
得到状态矩阵
Figure 422380DEST_PATH_IMAGE049
之后,可以将状态矩阵输入至CRF子模型,计算最优标签序列。
示例性的,可以将状态矩阵
Figure 248253DEST_PATH_IMAGE049
输入至CRF子模型中;基于输入的状态矩阵
Figure 488742DEST_PATH_IMAGE021
,利用以下公式(4)计算每个标签序列
Figure 767276DEST_PATH_IMAGE023
的总分值:
Figure 118623DEST_PATH_IMAGE050
(4)
其中,
Figure 64583DEST_PATH_IMAGE025
表示标签序列
Figure 475972DEST_PATH_IMAGE023
的总分值,
Figure 241803DEST_PATH_IMAGE027
表示状态矩阵
Figure 521475DEST_PATH_IMAGE021
中第
Figure 197307DEST_PATH_IMAGE028
个分量分类到第
Figure 904231DEST_PATH_IMAGE029
个标签的概率。
基于每个标签序列
Figure 298304DEST_PATH_IMAGE023
的总分值
Figure 850508DEST_PATH_IMAGE025
,可以代入以下公式(5)计算最优标签序列
Figure 646425DEST_PATH_IMAGE032
Figure 258672DEST_PATH_IMAGE033
,(5)
其中,
Figure 140041DEST_PATH_IMAGE034
为所有可能的标签序列的集合。
需要说明的是,本实施例中针对基于WordBert子模型输出的向量序列
Figure 761515DEST_PATH_IMAGE043
确定的状态矩阵
Figure 270994DEST_PATH_IMAGE049
,采用了与基于Bert子模型输出的向量序列
Figure 195087DEST_PATH_IMAGE004
确定的状态矩阵
Figure 422806DEST_PATH_IMAGE018
所不同的计算方式来计算标签序列
Figure 457758DEST_PATH_IMAGE023
的总分值,是由于对此两种情况得到的状态矩阵采用分化的计算方法效果要更好一些。当然,基于WordBert子模型输出的向量序列
Figure 352902DEST_PATH_IMAGE043
确定的状态矩阵
Figure 41372DEST_PATH_IMAGE049
,在计算标签序列
Figure 366175DEST_PATH_IMAGE023
的总分值时,也可以沿用公式(1)的计算方法,因为公式(1)的方法也考虑了实体与属性(特别是文本信息的公式)的差异而引入了调节因子
Figure 63872DEST_PATH_IMAGE026
,但相对来说,在仅用于属性提取时,公式(1)的效果相较于公式(4)的效果还是要略微逊色一些,但公式(1)的方法相较于不作分化处理而对实体与属性进行标签序列
Figure 819382DEST_PATH_IMAGE023
的总分值计算的情况,表现会好很多。
由此,可以实现基于公式图像对属性的提取。
这样的方式可以通过设计的模型实现电力标准知识中针对公式图像中相关知识的抽取(均属于属性),有效克服了电力标准知识抽取困难(由于存在公式图像用于表征数值限定、计算方式等相关信息的数据,现有技术无法实现有效的知识抽取)的问题,不仅能够保证公式图像中相关知识的抽取,还可以保证此类知识抽取的可靠性。并且,不必进行分词操作,而WordBert子模型也不需要利用分词的文本进行训练,而是利用整句(特别是公式、字符、运算符等)进行训练,能够大大提升对公式类属性提取的准确性。针对公式文本采用设计的WordBert子模型,不涉及分词操作,不仅可以减少处理过程,还能够有效保留信息,避免传统Bert模型中分词导致的公式信息提取错误的问题。
实现对实体和属性的提取后,可以将抽取实体和属性的向量序列处理后再输入至关系抽取子模型,实现对实体间关系的抽取。
而将抽取实体和属性的向量序列处理后再输入至关系抽取子模型,实现对实体间关系的抽取,可以利用Bert子模型已经处理得到的向量序列来进行后续的关系处理,且能够进行相应处理后再进行关系的抽取,不仅可以有效减少知识抽取的工作量(因为不需要再进行重复的实体抽取过程),还由于已经确定了实体,在关系抽取的过程中能够事半功倍。
示例性的,可以基于提取的实体,对分词文本
Figure 819699DEST_PATH_IMAGE002
对应的向量序列
Figure 22010DEST_PATH_IMAGE004
中的对应向量进行标记。
例如,分词文本
Figure 398765DEST_PATH_IMAGE002
对应的向量序列
Figure 2921DEST_PATH_IMAGE004
中,
Figure 439719DEST_PATH_IMAGE051
对应的分词被抽取为实体,那么,可以对向量序列
Figure 129326DEST_PATH_IMAGE004
中的对应向量进行标记,得到标记后的向量序列
Figure 309772DEST_PATH_IMAGE052
然后可以将标记后的向量序列
Figure 768435DEST_PATH_IMAGE035
输入至关系抽取子模型中。此处的关系抽取子模型,属于基于Bert的关系抽取模型。
针对向量序列
Figure 376134DEST_PATH_IMAGE035
中带标记的标记向量,对所有标记向量进行二元互组,以使每个标记向量与其他标记向量之间均具有配对的组合关系,以使每个标记向量与其他标记向量之间均具有配对的组合关系,以标记向量对进行表示。
接前文例子,针对标记后的向量序列
Figure 287458DEST_PATH_IMAGE052
,对所有标记向量(
Figure 396228DEST_PATH_IMAGE053
)进行二元互组,得到三种分组的标记向量对:(
Figure 584764DEST_PATH_IMAGE054
)、(
Figure 487998DEST_PATH_IMAGE055
)和(
Figure 761985DEST_PATH_IMAGE056
)。
针对每个具有组合关系的标记向量对,将标记向量对的两个标记向量进行拼接,得到组合向量。此处的拼接方式可以为:标记向量对的两个标记向量首尾拼接,得到对应的组合向量。例如,标记向量对(
Figure 408867DEST_PATH_IMAGE054
)拼接后得到组合向量
Figure 717488DEST_PATH_IMAGE057
,标记向量对(
Figure 526044DEST_PATH_IMAGE055
)拼接后得到组合向量
Figure 677540DEST_PATH_IMAGE058
,标记向量对(
Figure 737900DEST_PATH_IMAGE056
)拼接后得到组合向量
Figure 25662DEST_PATH_IMAGE059
然后可以计算每个组合向量在各个关系类别下的分值,可以得到对应的分值向量
Figure 411644DEST_PATH_IMAGE060
,其中,
Figure 784856DEST_PATH_IMAGE061
表示第
Figure 648907DEST_PATH_IMAGE062
个组合向量在各个关系类别下的分值构成的分值向量,
Figure 56755DEST_PATH_IMAGE063
为关系类别的数量。
之后可以基于向量序列
Figure 348059DEST_PATH_IMAGE061
确定出最优分值,最优分值对应的关系类别即表示该组合向量之间的关系类别。再对最优分值进行排序,剔除排序最末尾的一个最优分值。
针对每个剩余的最优分值,可以确定其组合向量对应的实体之间具有对应关系类别的实体间关系,实现对实体间关系的抽取。这样可以通过多实体二元互组的方式,快速高效且准确地实现对实体间关系的提取,且能够考虑到各个实体间的关系。
对于属性与实体的对应关系,可以在实体与属性的联合抽取过程中去作对应;也可以在确定出实体和属性之后,对属性和实体进行归属划分;还可以通过包装器的方式从网页上抽取实体与属性之间的归属关系(例如,通过输入URL,利用工具进行网页爬取,利用包装器抽取网页提供的实体对应属性后对已提取的属性作归属划分),此处不作限定。
另外,需要说明的是,针对电力标准知识的数据来源,针对每个文档(特别是内容属于规范性文件的文档,如:工业与民用电力装置过电压保护设计规范、工业与民用电力装置接地设计规范、建筑防雷设计规范、爆炸和火灾危险场所电力装置设计规范等),可以对标题进行单独的提取,提取一个基础的实体对象,并抽取编制时间、应用场景、出版单位等关键属性,作为后续智能问答、个性化推荐等电力标准知识图谱的应用中的重要因素。
抽取实体、属性及实体间关系后,可以进一步执行步骤S13。
步骤S13:基于抽取的知识进行知识融合。
在本实施例中,知识融合的方式较多,主要是需要进行实体对齐和实体消歧。例如,可以采用基于字符串相似度的Jaccard算法实现实体对齐和实体消歧。
在进行知识融合后,可以执行步骤S14。
步骤S14:采用Neo4j图数据库对知识融合后的知识进行存储,以构建出所述电力标准知识图谱。
在本实施例中,可以采用边抽取边存储的策略:知识抽取的结果以JSON格式的数据暂存于内存中,而后通过Python的py2neo库提交至Neo4j图数据库实现持久化存储。
通过这样的方式,可以实现电力标准知识图谱的构建。
本方案中采用了984个标注的基础数据构建了数据集,按照7:2:1划分为训练集(689个)、验证集(197个)和测试集(98个),对模型进行训练、验证和测试,以精确率、召回率和F1值作为评价指标,对模型的效果进行验证:
(1)精确率P表示模型预测的精确程度,计算公式如下:
Figure 208567DEST_PATH_IMAGE064
,(6)
其中,M表示模型预测为正的样本集,T表示真实为正的样本集。
(2)召回率R表示模型预测的全面程度,计算公式如下:
Figure 876309DEST_PATH_IMAGE065
,(7)
(3)F1值为精确率P与召回率R的结合,计算公式如下:
Figure 138663DEST_PATH_IMAGE066
,(8)
基于对模型的效果验证,得到的相关评价数据为:精确率P≈0.84,召回率R≈0.90,F1≈0.87。可见,模型的表现是很不错的,提取电力标准知识的效果佳。
而基于构建的电力标准知识图谱,可以进一步实现基于图论的电力标准信息推荐方法。
请参阅图3,图3为本申请实施例提供的基于图论的电力标准信息推荐方法的流程图。基于图论的电力标准信息推荐方法可以包括步骤S21、步骤S22、步骤S23、步骤S24、步骤S25、步骤S26和步骤S27。
为了实现对电力标准信息的推荐,可以执行步骤S21。
步骤S21:获取用户信息和电力标准信息,其中,用户信息用于反映用户的基本信息和兴趣偏好,电力标准信息为包含电力标准知识的文献。
在本实施例中,可以获取用户信息和电力标准信息。用户信息的获取,可以是来源于构建的用户画像(包含用户的基本信息、兴趣偏好等)和用户实时录入的信息、当前查看的信息等,此处不作限定。而电力标准信息,则可以是资源池中等待推荐的包含电力标准知识的文献、资讯等。
获取用户信息后,可以执行步骤S22。
步骤S22:基于所述用户信息生成用户向量。
在本实施例中,由于用户向量的构建方式已经非常成熟,此处不过多赘述,例如可以采用聚类的方式获取用户相关的关键词(例如从个人介绍、浏览记录、搜索记录等提取关键词),基于这些关键词进行偏好判断,1表示偏好、0表示不偏好,由此构建出一个s维的用户向量。
需要说明的是,本实施例中涉及的用户向量、物品向量等,均具有一致的维度,保证多向量处理(例如融合、加权计算等)的基础和计算推荐指数的可行性。
获取电力标准信息后,可以执行步骤S23。
步骤S23:基于所述电力标准信息,确定出物品偏移向量。
在本实施例中,基于电力标准信息确定出物品偏移向量的方式,也是具有很成熟的处理方式了,此处不过多赘述,例如通过特征提取的方式获得物品偏移向量,也通过item2vec的方式,或者构建item网络后通过deepwalk等一类游走算法获得物品偏移向量,此处不作限定。
确定出用户向量和物品偏移向量后,可以执行步骤S24。
步骤S24:基于所述电力标准信息,从预先构建的电力标准知识图谱中获取对应的结构化知识,以及,基于所述电力标准信息,确定出对应的文本知识。
在本实施例中,可以基于电力标准信息,从预先构建的电力标准知识图谱中获取对应的结构化知识。
示例性的,可以先确定出电力标准信息对应的a个关键词。然后基于a个关键词,从预先构建的电力标准知识图谱中获取对应的b个三元组(hrt),其中,ba,三元组(hrt)中hrt分别表示头实体、关系和尾实体。由于a个关键词中可能一部分是实体类的关键词,一部分是属性类关键词,因此,ba。通过这样的方式可以快速准确地得到电力标准信息对应的结构化知识。
获取电力标准信息对应的结构化知识后,可以基于电力标准信息,确定出对应的文本知识。
示例性的,针对每个三元组(hrt),可以从预先构建的电力标准知识图谱中确定出其头实体h的属性。然后可以从电力标准信息中获取对应此头实体h的关键词的文本内容,并将此头实体h的属性与对应此头实体h的关键词的文本内容进行组合(可以进行去重后组合,也可以不采取去重操作),得到此三元组(hrt)对应的子文本知识。共计得到b个子文本知识,作为电力标准信息对应的文本知识。
这样的方式得到的文本知识更加全面,能够利用电力标准知识图谱中头实体的属性实现对头实体对应关键词的内容补充,从而丰富文本知识,有利于提高个性化推荐的准确性。
确定出电力标准信息对应的结构化知识和文本知识后,可以执行步骤S25。
步骤S25:对所述结构化知识和所述文本知识进行向量化,分别得到结构化向量和文本化向量。
在本实施例中,可以对结构化知识和文本知识进行向量化,分别得到结构化向量和文本化向量。
示例性的,针对结构化知识的向量化,可以利用Bayesian TransR对每个三元组(hrt)进行向量化,得到对应的b个结构化子向量,b个结构化子向量的集合则可以视为结构化向量。以及,可以利用Bayesian SDAE对每个子文本知识进行向量化,得到对应的b个文本化子向量,b个文本化子向量的集合则可以视为文本化向量。
得到结构化向量和文本化向量后,可以进一步执行步骤S26。
步骤S26:基于所述物品偏移向量、所述结构化向量和所述文本化向量,确定出物品向量。
在本实施例中,可以基于物品偏移向量、结构化向量和文本化向量,确定出物品向量。
示例性的,可以将物品偏移向量分别与b个结构化子向量及b个文本化子向量分别对应进行融合,得到对应b个关键词的b组物品分向量。
例如,b个结构化子向量及b个文本化子向量,可以按照其对应的关键词进行分组,对应同一实体关键词的结构化子向量和文本化子向量划分为一组,共计b组。而物品偏移向量可以分别与每一组进行融合(例如相加、同或运算等方式),从而得到b组物品分向量。
此种方式将物品偏移向量与b个结构化子向量及b个文本化子向量分别对应进行融合,得到对应b个关键词的b组物品分向量,能够使得到的用于计算推荐指数的物品向量更加准确全面地反映电力标准信息的特征,有利于提升推荐的准确性和有效性。
得到对应b个关键词的b组物品分向量后,可以执行步骤S27。
步骤S27:基于所述用户向量和所述物品向量,计算电力标准信息的推荐指数。
在本实施例中,可以基于用户向量和物品向量,计算电力标准信息的推荐指数。
示例性的,针对b组物品分向量中的每一组物品分向量,可以采用以下方式:
基于此组物品分向量与用户向量进行计算(例如点乘),得到对应此组物品分向量的推荐指数分量,共计计算出对应b组物品分向量的b个推荐指数分量。然后可以基于b个推荐指数分量,计算出电力标准信息的推荐指数(例如加权求和,可以设计为电力标准信息中出现次数越多的实体关键词,权重值越高)。
通过将每一组物品分向量与用户向量进行计算,得到对应b组物品分向量的b个推荐指数分量,进一步计算出电力标准信息的推荐指数,这样能够更加综合地考虑到电力标准信息的内容是否符合用户的偏好。
需要说明的是,对于模型的构建和训练,可以参阅CKE(Collaborative KnowledgeBase Embedding,协同知识图谱嵌入)推荐系统框架给出的方式(可参阅论文:Collaborative Knowledge Base Embedding for Recommender Systems,Fuzheng Zhang,Nicholas Jing Yuan, Defu Lian, Xing Xie,Wei-Ying Ma,Microsoft Research;BigData Research Center,University of Electronic Science and Technology ofChina),与其类似,但不同之处在于本方案并未采用图像知识,以及本方案针对多个关键词的分量进行分别的融合得到多组物品分向量。但模型的架构设计和训练方式与之类似,因此此处不过多赘述。
综上所述,本申请实施例提供一种基于图论的电力标准信息推荐方法,通过获取用户信息和电力标准信息,得到相应的用户向量和物品偏移向量;基于电力标准信息从预先构建的电力标准知识图谱中获取对应的结构化知识,以及,基于电力标准信息,确定出对应的文本知识;再对结构化知识和文本知识进行向量化,分别得到结构化向量和文本化向量;进一步确定出物品向量;再基于用户向量和物品向量,计算电力标准信息的推荐指数。这样的方式,可以将预先构建的电力标准知识图谱利用起来,结合到协同过滤的推荐方法中,提升在电力技术领域中对于电力标准信息的个性化推荐,有利于提升个性化推荐的效果。
在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。
以上所述仅为本申请的实施例而已,并不用于限制本申请的保护范围,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (10)

1.一种基于图论的电力标准信息推荐方法,其特征在于,包括:
获取用户信息和电力标准信息,其中,用户信息用于反映用户的基本信息和兴趣偏好,电力标准信息为包含电力标准知识的文献;
基于所述用户信息生成用户向量;
基于所述电力标准信息,确定出物品偏移向量;
基于所述电力标准信息,从预先构建的电力标准知识图谱中获取对应的结构化知识,以及,基于所述电力标准信息,确定出对应的文本知识;
对所述结构化知识和所述文本知识进行向量化,分别得到结构化向量和文本化向量;
基于所述物品偏移向量、所述结构化向量和所述文本化向量,确定出物品向量;
基于所述用户向量和所述物品向量,计算电力标准信息的推荐指数。
2.根据权利要求1所述的基于图论的电力标准信息推荐方法,其特征在于,基于所述电力标准信息,从预先构建的电力标准知识图谱中获取对应的结构化知识,包括:
获取所述电力标准信息对应的a个关键词;
基于a个关键词,从预先构建的电力标准知识图谱中获取对应的b个三元组(hrt),其中,ba,三元组(hrt)中hrt分别表示头实体、关系和尾实体。
3.根据权利要求2所述的基于图论的电力标准信息推荐方法,其特征在于,基于所述电力标准信息,确定出对应的文本知识,包括:
针对每个三元组(hrt),从预先构建的电力标准知识图谱中确定出其头实体h的属性;
从所述电力标准信息中获取对应此头实体h的关键词的文本内容;
将此头实体h的属性与对应此头实体h的关键词的文本内容进行组合,得到此三元组(hrt)对应的子文本知识;
共计得到b个子文本知识,作为所述电力标准信息对应的文本知识。
4.根据权利要求3所述的基于图论的电力标准信息推荐方法,其特征在于,对所述结构化知识和所述文本知识进行向量化,分别得到结构化向量和文本化向量,包括:
利用Bayesian TransR对每个三元组(hrt)进行向量化,得到对应的b个结构化子向量,b个结构化子向量的集合视为所述结构化向量;
利用Bayesian SDAE对每个子文本知识进行向量化,得到对应的b个文本化子向量,b个文本化子向量的集合视为所述文本化向量。
5.根据权利要求4所述的基于图论的电力标准信息推荐方法,其特征在于,基于所述物品偏移向量、所述结构化向量和所述文本化向量,确定出物品向量,包括:
将所述物品偏移向量与b个结构化子向量及b个文本化子向量分别对应进行融合,得到对应b个关键词的b组物品分向量。
6.根据权利要求5所述的基于图论的电力标准信息推荐方法,其特征在于,基于所述用户向量和所述物品向量,计算电力标准信息的推荐指数,包括:
针对b组物品分向量中的每一组物品分向量,基于此组物品分向量与所述用户向量进行计算,得到对应此组物品分向量的推荐指数分量,共计计算出对应b组物品分向量的b个推荐指数分量;
基于b个推荐指数分量,计算出所述电力标准信息的推荐指数。
7.根据权利要求1~6中任一项所述的基于图论的电力标准信息推荐方法,其特征在于,在获取用户信息和电力标准信息之前,所述方法还包括:
构建电力标准知识图谱的本体结构,所述本体结构包含实体、属性及实体间关系;
获取包含电力标准知识的基础数据,并对所述基础数据进行知识抽取,抽取出实体、属性及实体间关系;
基于抽取的知识进行知识融合;
采用Neo4j图数据库对知识融合后的知识进行存储,以构建出所述电力标准知识图谱。
8.根据权利要求7所述的基于图论的电力标准信息推荐方法,其特征在于,所述基础数据为纯文本数据,或者,所述基础数据为文本数据与公式图像,对所述基础数据进行知识抽取,抽取出实体、属性及实体间关系,包括:
对所述基础数据进行预处理,得到多个文本信息,或者得到多个文本信息和至少一个图像信息;
针对每个文本信息,将该文本信息分词后输入至Bert子模型,得到对应的向量序列,然后将得到的向量序列输入至BGRU子模型中,输出用于揭示该文本信息中各个单词对应各个标签分值的状态矩阵,再将所述状态矩阵输入至CRF子模型,计算最优标签序列,实现对实体的提取和属性的提取;
针对每个图像信息,将该图像信息输入至外部调用的公式识别子工具中,得到转换的文本信息,对转换的文本信息进行处理,得到至少一个公式文本,将每个公式文本一同输入至WordBert子模型,得到对应的向量序列,然后将得到的向量序列输入至BGRU子模型中,输出用于揭示该转换的文本信息中各个公式文本对应各个标签分值的状态矩阵,再将所述状态矩阵输入至CRF子模型,计算最优标签序列,实现对属性的提取;
以及,将抽取实体和属性的向量序列处理后再输入至关系抽取子模型,实现对实体间关系的抽取。
9.根据权利要求8所述的基于图论的电力标准信息推荐方法,其特征在于,将该文本信息分词后输入至Bert子模型,得到对应的向量序列,然后将得到的向量序列输入至BGRU子模型中,输出用于揭示该文本信息中各个单词对应各个标签分值的状态矩阵,再将所述状态矩阵输入至CRF子模型,计算最优标签序列,实现对实体的提取和属性的提取,包括:
将文本信息进行分词后得到长度为
Figure 665203DEST_PATH_IMAGE001
的分词文本
Figure 175819DEST_PATH_IMAGE002
;然后将分词文本
Figure 424398DEST_PATH_IMAGE003
输入至Bert子模型,得到分词文本
Figure 413082DEST_PATH_IMAGE002
对应的向量序列
Figure 696296DEST_PATH_IMAGE004
Figure 112234DEST_PATH_IMAGE005
,其中,
Figure 848109DEST_PATH_IMAGE006
,向量序列
Figure 906064DEST_PATH_IMAGE004
为Bert子模型的最后一层中分词文本
Figure 371680DEST_PATH_IMAGE002
对应的隐藏状态,
Figure 833885DEST_PATH_IMAGE007
为起始符,
Figure 181690DEST_PATH_IMAGE008
为结束符,
Figure 387543DEST_PATH_IMAGE009
为Bert子模型的隐藏状态维数;将向量序列
Figure 769983DEST_PATH_IMAGE004
中各个词向量序列
Figure 668669DEST_PATH_IMAGE010
作为BGRU子模型中各个时间步的输入;再将BGRU子模型中正向GRU输出的隐状态序列
Figure 503770DEST_PATH_IMAGE011
和反向GRU输出的隐状态序列
Figure 247735DEST_PATH_IMAGE012
进行计算,得到向量序列
Figure 682084DEST_PATH_IMAGE013
对应的隐状态序列
Figure 282830DEST_PATH_IMAGE014
Figure 605227DEST_PATH_IMAGE015
Figure 152883DEST_PATH_IMAGE016
为BGRU子模型的隐藏状态维数;然后将隐状态序列
Figure 244336DEST_PATH_IMAGE014
Figure 875037DEST_PATH_IMAGE016
维映射到
Figure 294517DEST_PATH_IMAGE017
维,
Figure 770498DEST_PATH_IMAGE017
为标签数;再计算每个分词分类到
Figure 591823DEST_PATH_IMAGE017
个标签的标签分值,得到状态矩阵
Figure 127847DEST_PATH_IMAGE018
Figure 34623DEST_PATH_IMAGE019
,是一个列向量;
之后将状态矩阵
Figure 48715DEST_PATH_IMAGE018
输入至CRF子模型中;基于CRF子模型中引入的约束矩阵
Figure 990127DEST_PATH_IMAGE020
和输入的状态矩阵
Figure 697051DEST_PATH_IMAGE021
Figure 91124DEST_PATH_IMAGE022
,利用以下公式计算每个标签序列
Figure 908907DEST_PATH_IMAGE023
的总分值:
Figure 439245DEST_PATH_IMAGE024
,其中,
Figure 317072DEST_PATH_IMAGE025
表示标签序列
Figure 198440DEST_PATH_IMAGE023
的总分值,
Figure 819914DEST_PATH_IMAGE026
为调节因子,
Figure 470338DEST_PATH_IMAGE027
表示状态矩阵
Figure 253487DEST_PATH_IMAGE028
中第
Figure 622151DEST_PATH_IMAGE029
个分词分类到第
Figure 781737DEST_PATH_IMAGE030
个标签的概率,
Figure 552247DEST_PATH_IMAGE031
表示由标签序列
Figure 506296DEST_PATH_IMAGE023
中第
Figure 362257DEST_PATH_IMAGE030
个标签转移至第
Figure 997638DEST_PATH_IMAGE032
个标签的概率;再基于每个标签序列
Figure 481708DEST_PATH_IMAGE023
的总分值
Figure 747605DEST_PATH_IMAGE025
,代入以下公式计算最优标签序列
Figure 159038DEST_PATH_IMAGE033
Figure 926005DEST_PATH_IMAGE034
,其中,
Figure 405528DEST_PATH_IMAGE035
为所有可能的标签序列的集合。
10.根据权利要求9所述的基于图论的电力标准信息推荐方法,其特征在于,将抽取实体和属性的向量序列处理后再输入至关系抽取子模型,实现对实体间关系的抽取,包括:
基于提取的实体,对分词文本
Figure 966960DEST_PATH_IMAGE002
对应的向量序列
Figure 531933DEST_PATH_IMAGE004
中的对应向量进行标记;将标记后的向量序列
Figure DEST_PATH_IMAGE036
输入至关系抽取子模型中;
针对向量序列
Figure 305854DEST_PATH_IMAGE036
中带标记的标记向量,对所有标记向量进行二元互组,以使每个标记向量与其他标记向量之间均具有配对的组合关系;
针对每个具有组合关系的标记向量对,将标记向量对的两个标记向量进行拼接,得到组合向量;
计算每个组合向量在各个关系类别下的分值;
分别获取每个组合向量对应的最优分值并进行排序,淘汰排序最末的一个最优分值,针对每个剩余最优分值,确定其组合向量对应的实体之间具有对应关系类别的实体间关系,实现对实体间关系的抽取。
CN202211587871.9A 2022-12-12 2022-12-12 一种基于图论的电力标准信息推荐方法 Active CN115577095B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211587871.9A CN115577095B (zh) 2022-12-12 2022-12-12 一种基于图论的电力标准信息推荐方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211587871.9A CN115577095B (zh) 2022-12-12 2022-12-12 一种基于图论的电力标准信息推荐方法

Publications (2)

Publication Number Publication Date
CN115577095A true CN115577095A (zh) 2023-01-06
CN115577095B CN115577095B (zh) 2023-05-02

Family

ID=84590612

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211587871.9A Active CN115577095B (zh) 2022-12-12 2022-12-12 一种基于图论的电力标准信息推荐方法

Country Status (1)

Country Link
CN (1) CN115577095B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116108162A (zh) * 2023-03-02 2023-05-12 广东工业大学 一种基于语义增强的复杂文本推荐方法及系统
CN117493645A (zh) * 2023-12-29 2024-02-02 同略科技有限公司 一种基于大数据的电子档案推荐系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020182413A1 (en) * 2019-03-14 2020-09-17 Siemens Aktiengesellschaft Recommender system for data integration
CN112148889A (zh) * 2020-09-23 2020-12-29 平安直通咨询有限公司上海分公司 一种推荐列表的生成方法及设备
WO2022116537A1 (zh) * 2020-12-04 2022-06-09 上海帜讯信息技术股份有限公司 一种资讯推荐方法、装置、电子设备和存储介质
CN114706989A (zh) * 2021-12-01 2022-07-05 山西云时代研发创新中心有限公司 一种基于技术创新资产为知识库的智能推荐方法
CN115080694A (zh) * 2022-06-27 2022-09-20 国网甘肃省电力公司电力科学研究院 一种基于知识图谱的电力行业信息分析方法及设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020182413A1 (en) * 2019-03-14 2020-09-17 Siemens Aktiengesellschaft Recommender system for data integration
CN112148889A (zh) * 2020-09-23 2020-12-29 平安直通咨询有限公司上海分公司 一种推荐列表的生成方法及设备
WO2022116537A1 (zh) * 2020-12-04 2022-06-09 上海帜讯信息技术股份有限公司 一种资讯推荐方法、装置、电子设备和存储介质
CN114706989A (zh) * 2021-12-01 2022-07-05 山西云时代研发创新中心有限公司 一种基于技术创新资产为知识库的智能推荐方法
CN115080694A (zh) * 2022-06-27 2022-09-20 国网甘肃省电力公司电力科学研究院 一种基于知识图谱的电力行业信息分析方法及设备

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116108162A (zh) * 2023-03-02 2023-05-12 广东工业大学 一种基于语义增强的复杂文本推荐方法及系统
CN116108162B (zh) * 2023-03-02 2024-03-08 广东工业大学 一种基于语义增强的复杂文本推荐方法及系统
CN117493645A (zh) * 2023-12-29 2024-02-02 同略科技有限公司 一种基于大数据的电子档案推荐系统
CN117493645B (zh) * 2023-12-29 2024-04-12 同略科技有限公司 一种基于大数据的电子档案推荐系统

Also Published As

Publication number Publication date
CN115577095B (zh) 2023-05-02

Similar Documents

Publication Publication Date Title
CN111160031A (zh) 一种基于词缀感知的社交媒体命名实体识别方法
CN115577095A (zh) 一种基于图论的电力标准信息推荐方法
CN113569050B (zh) 基于深度学习的政务领域知识图谱自动化构建方法和装置
CN111858940B (zh) 一种基于多头注意力的法律案例相似度计算方法及系统
CN105843796A (zh) 一种微博情感倾向分析方法及装置
CN112069312B (zh) 一种基于实体识别的文本分类方法及电子装置
CN111832290A (zh) 用于确定文本相关度的模型训练方法、装置、电子设备及可读存储介质
CN115292520B (zh) 一种面向多源移动应用知识图谱构建方法
CN113987125A (zh) 基于神经网络的文本结构化信息提取方法、及其相关设备
CN113434636A (zh) 基于语义的近似文本搜索方法、装置、计算机设备及介质
CN115934955A (zh) 一种电力标准知识图谱构建方法、知识问答系统及装置
CN115718792A (zh) 一种基于自然语义处理和深度学习的敏感信息提取方法
CN112650858A (zh) 应急协助信息的获取方法、装置、计算机设备及介质
CN112015907A (zh) 一种学科知识图谱快速构建方法、装置及存储介质
CN111813874A (zh) 太赫兹知识图谱构建方法及系统
CN114973286A (zh) 文档要素抽取方法、装置、设备及存储介质
CN113220964B (zh) 一种基于网信领域短文本的观点挖掘方法
Mahima et al. A text-based hybrid approach for multiple emotion detection using contextual and semantic analysis
CN113420119B (zh) 基于知识卡片的智能问答方法、装置、设备及存储介质
CN114443961A (zh) 一种内容过滤科技成果推荐方法、模型及存储介质
Mohtasseb et al. More blogging features for author identification
Kumar et al. Deep learning-based emotion classification of Hindi text from social media
CN110837740B (zh) 一种基于词典改进lda模型的评论方面观点级挖掘方法
Pham Sensitive keyword detection on textual product data: an approximate dictionary matching and context-score approach
Liu et al. An Efficient Machine-Generated Data Modeling Approach Based on Domain-Aware Knowledge for Intelligent Consumer Electronics

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant