CN115577095B - 一种基于图论的电力标准信息推荐方法 - Google Patents

一种基于图论的电力标准信息推荐方法 Download PDF

Info

Publication number
CN115577095B
CN115577095B CN202211587871.9A CN202211587871A CN115577095B CN 115577095 B CN115577095 B CN 115577095B CN 202211587871 A CN202211587871 A CN 202211587871A CN 115577095 B CN115577095 B CN 115577095B
Authority
CN
China
Prior art keywords
vector
text
knowledge
power standard
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211587871.9A
Other languages
English (en)
Other versions
CN115577095A (zh
Inventor
周育忠
涂亮
林正平
王宏
杨宇亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CSG Electric Power Research Institute
Original Assignee
CSG Electric Power Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CSG Electric Power Research Institute filed Critical CSG Electric Power Research Institute
Priority to CN202211587871.9A priority Critical patent/CN115577095B/zh
Publication of CN115577095A publication Critical patent/CN115577095A/zh
Application granted granted Critical
Publication of CN115577095B publication Critical patent/CN115577095B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供一种基于图论的电力标准信息推荐方法,通过获取用户信息和电力标准信息,得到相应的用户向量和物品偏移向量;基于电力标准信息从预先构建的电力标准知识图谱中获取对应的结构化知识,以及,基于电力标准信息,确定出对应的文本知识;再对结构化知识和文本知识进行向量化,分别得到结构化向量和文本化向量;进一步确定出物品向量;再基于用户向量和物品向量,计算电力标准信息的推荐指数。这样的方式,可以将预先构建的电力标准知识图谱利用起来,结合到协同过滤的推荐方法中,提升在电力技术领域中对于电力标准信息的个性化推荐,有利于提升个性化推荐的效果。

Description

一种基于图论的电力标准信息推荐方法
技术领域
本申请涉及电力技术领域,具体而言,涉及一种基于图论的电力标准信息推荐方法。
背景技术
在信息化的今天,人们需要面对的信息量呈指数级增长。那么,如何从海量的信息中将用户可能更需要的信息推送给用户,以达到双赢的目的,是目前面临的重要问题。
当下,推荐系统已经在电商、社交平台、个性化内容推荐等领域发挥了重要作用,成了现代互联网应用场景中不可或缺的一部分。
但对于一些垂直领域的技术文档、文献、资讯等的个性化推荐上,依旧依赖于传统的推荐方式,例如基于协同过滤的推荐系统、基于内容的推荐系统、混合推荐系统等。例如,针对电力技术领域中电力标准知识相关的内容推荐,也通常是依赖于传统的推荐方式,未能将电力标准知识图谱利用起来,结合到推荐系统中。
发明内容
本申请实施例的目的在于提供一种基于图论的电力标准信息推荐方法,以利用电力标准知识图谱实现电力标准信息的个性化推荐。
为了实现上述目的,本申请的实施例通过如下方式实现:
第一方面,本申请实施例提供一种基于图论的电力标准信息推荐方法,包括:获取用户信息和电力标准信息,其中,用户信息用于反映用户的基本信息和兴趣偏好,电力标准信息为包含电力标准知识的文献;基于所述用户信息生成用户向量;基于所述电力标准信息,确定出物品偏移向量;基于所述电力标准信息,从预先构建的电力标准知识图谱中获取对应的结构化知识,以及,基于所述电力标准信息,确定出对应的文本知识;对所述结构化知识和所述文本知识进行向量化,分别得到结构化向量和文本化向量;基于所述物品偏移向量、所述结构化向量和所述文本化向量,确定出物品向量;基于所述用户向量和所述物品向量,计算电力标准信息的推荐指数。
在本申请实施例中,通过获取用户信息和电力标准信息,得到相应的用户向量和物品偏移向量;基于电力标准信息从预先构建的电力标准知识图谱中获取对应的结构化知识,以及,基于电力标准信息,确定出对应的文本知识;再对结构化知识和文本知识进行向量化,分别得到结构化向量和文本化向量;进一步确定出物品向量;再基于用户向量和物品向量,计算电力标准信息的推荐指数。这样的方式,可以将预先构建的电力标准知识图谱利用起来,结合到协同过滤的推荐方法中,提升在电力技术领域中对于电力标准信息的个性化推荐,有利于提升个性化推荐的效果。
结合第一方面,在第一方面的第一种可能的实现方式中,基于所述电力标准信息,从预先构建的电力标准知识图谱中获取对应的结构化知识,包括:获取所述电力标准信息对应的 a个关键词;基于 a个关键词,从预先构建的电力标准知识图谱中获取对应的 b个三元组( hrt),其中, ba,三元组( hrt)中 hrt分别表示头实体、关系和尾实体。
在该实现方式中,通过获取电力标准信息对应的 a个关键词(可能一部分是实体类的关键词,一部分是属性类关键词),进一步从预先构建的电力标准知识图谱中获取对应的 b个三元组( hrt),这样可以快速准确地得到电力标准信息对应的结构化知识。
结合第一方面的第一种可能的实现方式,在第一方面的第二种可能的实现方式中,基于所述电力标准信息,确定出对应的文本知识,包括:针对每个三元组( hrt),从预先构建的电力标准知识图谱中确定出其头实体 h的属性;从所述电力标准信息中获取对应此头实体 h的关键词的文本内容;将此头实体 h的属性与对应此头实体 h的关键词的文本内容进行组合,得到此三元组( hrt)对应的子文本知识;共计得到 b个子文本知识,作为所述电力标准信息对应的文本知识。
在该实现方式中,这样的方式得到的文本知识更加全面,能够利用电力标准知识图谱中头实体的属性实现对头实体对应关键词的内容补充,从而丰富文本知识,有利于提高个性化推荐的准确性。
结合第一方面的第二种可能的实现方式,在第一方面的第三种可能的实现方式中,对所述结构化知识和所述文本知识进行向量化,分别得到结构化向量和文本化向量,包括:利用Bayesian TransR对每个三元组( hrt)进行向量化,得到对应的 b个结构化子向量, b个结构化子向量的集合视为所述结构化向量;利用Bayesian SDAE对每个子文本知识进行向量化,得到对应的 b个文本化子向量, b个文本化子向量的集合视为所述文本化向量。
结合第一方面的第三种可能的实现方式,在第一方面的第四种可能的实现方式中,基于所述物品偏移向量、所述结构化向量和所述文本化向量,确定出物品向量,包括:将所述物品偏移向量与 b个结构化子向量及 b个文本化子向量分别对应进行融合,得到对应 b个关键词的 b组物品分向量。
在该实现方式中,此种方式将物品偏移向量与 b个结构化子向量及 b个文本化子向量分别对应进行融合,得到对应 b个关键词的 b组物品分向量,能够使得到的用于计算推荐指数的物品向量更加准确全面地反映电力标准信息的特征,有利于提升推荐的准确性和有效性。
结合第一方面的第四种可能的实现方式,在第一方面的第五种可能的实现方式中,基于所述用户向量和所述物品向量,计算电力标准信息的推荐指数,包括:针对 b组物品分向量中的每一组物品分向量,基于此组物品分向量与所述用户向量进行计算,得到对应此组物品分向量的推荐指数分量,共计计算出对应 b组物品分向量的 b个推荐指数分量;基于 b个推荐指数分量,计算出所述电力标准信息的推荐指数。
在该实现方式中,通过将每一组物品分向量与用户向量进行计算,得到对应 b组物品分向量的 b个推荐指数分量,进一步计算出电力标准信息的推荐指数,这样能够更加综合地考虑到电力标准信息的内容是否符合用户的偏好。
结合第一方面,或者结合第一方面的第一种至第五种中任一可能的实现方式,在第一方面的第六种可能的实现方式中,在获取用户信息和电力标准信息之前,所述方法还包括:构建电力标准知识图谱的本体结构,所述本体结构包含实体、属性及实体间关系;获取包含电力标准知识的基础数据,并对所述基础数据进行知识抽取,抽取出实体、属性及实体间关系;基于抽取的知识进行知识融合;采用Neo4j图数据库对知识融合后的知识进行存储,以构建出所述电力标准知识图谱。
在该实现方式中,这样能够实现电力标准知识图谱的构建。
结合第一方面的第六种可能的实现方式,在第一方面的第七种可能的实现方式中,所述基础数据为纯文本数据,或者,所述基础数据为文本数据与公式图像,对所述基础数据进行知识抽取,抽取出实体、属性及实体间关系,包括:对所述基础数据进行预处理,得到多个文本信息,或者得到多个文本信息和至少一个图像信息;针对每个文本信息,将该文本信息分词后输入至Bert子模型,得到对应的向量序列,然后将得到的向量序列输入至BGRU子模型中,输出用于揭示该文本信息中各个单词对应各个标签分值的状态矩阵,再将所述状态矩阵输入至CRF子模型,计算最优标签序列,实现对实体的提取和属性的提取;针对每个图像信息,将该图像信息输入至外部调用的公式识别子工具中,得到转换的文本信息,对转换的文本信息进行处理,得到至少一个公式文本,将每个公式文本一同输入至WordBert子模型,得到对应的向量序列,然后将得到的向量序列输入至BGRU子模型中,输出用于揭示该转换的文本信息中各个公式文本对应各个标签分值的状态矩阵,再将所述状态矩阵输入至CRF子模型,计算最优标签序列,实现对属性的提取;以及,将抽取实体和属性的向量序列处理后再输入至关系抽取子模型,实现对实体间关系的抽取。
在该实现方式中,对基础数据进行预处理,得到多个文本信息,或者得到多个文本信息和至少一个图像信息。针对每个文本信息,将该文本信息分词后输入至Bert子模型,得到对应的向量序列,然后将得到的向量序列输入至BGRU子模型中,输出用于揭示该文本信息中各个单词对应各个标签分值的状态矩阵,再将状态矩阵输入至CRF子模型,计算最优标签序列,实现对实体的提取和属性的提取。这样的方式可以通过设计的模型实现电力标准知识中实体和属性的联合抽取,不仅可以保证知识抽取的可靠性,还能够保证抽取的效率。而针对每个图像信息,将该图像信息输入至外部调用的公式识别子工具中,得到转换的文本信息,对转换的文本信息进行处理,得到至少一个公式文本,将每个公式文本一同输入至WordBert子模型,得到对应的向量序列,然后将得到的向量序列输入至BGRU子模型中,输出用于揭示该转换的文本信息中各个公式文本对应各个标签分值的状态矩阵,再将状态矩阵输入至CRF子模型,计算最优标签序列,实现对属性的提取。这样的方式可以通过设计的模型实现电力标准知识中针对公式图像中相关知识的抽取(均属于属性),有效克服了电力标准知识抽取困难(由于存在公式图像用于表征数值限定、计算方式等相关信息的数据,现有技术无法实现有效的知识抽取)的问题,不仅能够保证公式图像中相关知识的抽取,还可以保证此类知识抽取的可靠性。并且,针对公式文本采用设计的WordBert子模型,不涉及分词操作,不仅可以减少处理过程,还能够有效保留信息,避免传统Bert模型中分词导致的公式信息提取错误的问题。而将抽取实体和属性的向量序列处理后再输入至关系抽取子模型,实现对实体间关系的抽取,可以利用Bert子模型已经处理得到的向量序列来进行后续的关系处理,且能够进行相应处理后再进行关系的抽取,不仅可以有效减少知识抽取的工作量(因为不需要再进行重复的实体抽取过程),还由于已经确定了实体,在关系抽取的过程中能够事半功倍。
结合第一方面的第七种可能的实现方式,在第一方面的第八种可能的实现方式中,将该文本信息分词后输入至Bert子模型,得到对应的向量序列,然后将得到的向量序列输入至BGRU子模型中,输出用于揭示该文本信息中各个单词对应各个标签分值的状态矩阵,再将所述状态矩阵输入至CRF子模型,计算最优标签序列,实现对实体的提取和属性的提取,包括:将文本信息进行分词后得到长度为的分词文本;然后将分词文本输入至Bert子模型,得到分词文本对应的向量序列,其中,,向量序列为Bert子模型的最后一层中分词文本对应的隐藏状态,为起始符,为结束符,为Bert子模型的隐藏状态维数;将向量序列中各个词向量序列作为BGRU子模型中各个时间步的输入;再将BGRU子模型中正向GRU输出的隐状态序列和反向GRU输出的隐状态序列进行计算,得到向量序列对应的隐状态序列为BGRU子模型的隐藏状态维数;然后将隐状态序列维映射到维,为标签数;再计算每个分词分类到个标签的标签分值,得到状态矩阵,是一个列向量;之后将状态矩阵输入至CRF子模型中;基于CRF子模型中引入的约束矩阵和输入的状态矩阵,利用以下公式计算每个标签序列的总分值:,其中,表示标签序列的总分值,为调节因子,表示状态矩阵中第个分词分类到第个标签的概率,表示由标签序列 中第个标签转移至第个标签的概率;再基于每个标签序列的总分值,代入以下公式计算最优标签序列,其中,为所有可能的标签序列的集合。
在该实现方式中,可以实现Bert+BGRU+CRF模型的构建,可以先进行分词后利用Bert模型处理,实现实体和属性的联合提取,提升实体及属性提取的准确性,降低模型设计难度。而引入的约束矩阵对状态矩阵进行约束,可以避免输出不合法的标签序列。并且,在计算每个标签序列的总分值时引入调节因子,可以在实体和属性联合提取的过程中,具有更强的适用性,保证实体和属性提取的准确性,克服实体与属性提取过程中需求的约束矩阵差异的问题。
结合第一方面的第八种可能的实现方式,在第一方面的第九种可能的实现方式中,将抽取实体和属性的向量序列处理后再输入至关系抽取子模型,实现对实体间关系的抽取,包括:基于提取的实体,对分词文本对应的向量序列中的对应向量进行标记;将标记后的向量序列输入至关系抽取子模型中;针对向量序列中带标记的标记向量,对所有标记向量进行二元互组,以使每个标记向量与其他标记向量之间均具有配对的组合关系;针对每个具有组合关系的标记向量对,将标记向量对的两个标记向量进行拼接,得到组合向量;计算每个组合向量在各个关系类别下的分值;分别获取每个组合向量对应的最优分值并进行排序,淘汰排序最末的一个最优分值,针对每个剩余最优分值,确定其组合向量对应的实体之间具有对应关系类别的实体间关系,实现对实体间关系的抽取。
在该实现方式中,基于提取的实体,对分词文本对应的向量序列中的对应向量进行标记;将标记后的向量序列输入至关系抽取子模型中;针对向量序列中带标记的标记向量,对所有标记向量进行二元互组,以使每个标记向量与其他标记向量之间均具有配对的组合关系;针对每个具有组合关系的标记向量对,将标记向量对的两个标记向量进行拼接,得到组合向量;计算每个组合向量在各个关系类别下的分值;分别获取每个组合向量对应的最优分值并进行排序,淘汰排序最末的一个最优分值,针对每个剩余最优分值,确定其组合向量对应的实体之间具有对应关系类别的实体间关系,实现对实体间关系的抽取。这样可以通过多实体二元互组的方式,快速高效且准确地实现对实体间关系的提取,且能够考虑到各个实体间的关系。
为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的电力标准知识图谱的构建方法的流程图。
图2为本申请实施例提供的电力标准知识图谱构建模型的示意图。
图3为本申请实施例提供的基于图论的电力标准信息推荐方法的流程图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。
为了便于对本方案的理解,此处先对电力标准知识图谱的构建过程进行介绍。
请参阅图1,图1为本申请实施例提供的电力标准知识图谱的构建方法的流程图。在本实施例中,电力标准知识图谱的构建方法可以包括步骤S11、步骤S12、步骤S13和步骤S14。
为了实现电力标准知识图谱的构建,首先执行步骤S11。
步骤S11:构建电力标准知识图谱的本体结构,所述本体结构包含实体、属性及实体间关系。
在本实施例中,为了实现电力标准知识图谱的构建,需要构建本体结构。考虑到电力标准知识图谱的领域,可以采用自顶而下和自底而上的方式构建本体结构,预先设计一部分本体结构,如:电力标准名称(例如建筑防雷设计规范)-指标(例如防雷装置)、指标(防雷装置)-下层指标(防雷线)等,并在后续的知识抽取过程中,发现和添加新的本体结构。
而后,可以执行步骤S12。
步骤S12:获取包含电力标准知识的基础数据,并对所述基础数据进行知识抽取,抽取出实体、属性及实体间关系。
为了便于理解,可结合参阅图1和图2,图2为本申请实施例提供的电力标准知识图谱构建模型的示意图。
在本实施例中,获取包含电力标准知识的基础数据,可以通过收集文档、爬取网页等方式实现。例如,可以爬取网页中关于电力标准知识的资料,也可以从构建的数据集中获取(由于电力标准知识属于一个非常垂直的领域,且知识相对稳定)。而包含电力标准知识的基础数据,可以是纯文本数据(例如word文档、PDF文档、TXT文档等),也可以是文本数据与公式图像的结合(例如含公式的PDF文档、含公式图像的word文档等),基础数据可以是对网页爬取得到的数据进行处理后整理得到的文档。
得到包含电力标准知识的基础数据后,可以对基础数据进行知识抽取,抽取出实体、属性及实体间关系。
在本实施例中,可以对基础数据进行预处理,得到多个文本信息,或者得到多个文本信息和至少一个图像信息。
示例性的,针对基础数据中的文本数据,可以基于句子分隔符将基础数据中的文本数据拆分为多个文本信息。由于此项技术已经非常成熟,此处不过多赘述。
若基础数据中存在公式图像,那么,针对基础数据中的每个公式图像,可以对该公式图像进行处理,得到对应的图像信息。例如,可以将公式图像输入Mathpix,得到输出的公式,输出的Latex格式可以转换为tex,再使用MathType,将Latex转成MathML格式,即纯文本格式,可用于得到Word文档。
然后,针对每个图像信息,可以为该图像信息赋值编号,以及,为公式图像在文本数据中所在段落和相邻段落对应的所有文本信息赋值同一编号,建立图像信息与文本信息的关联关系。这样的方式可以针对文本信息和图像信息建立关联关系,从而便于后续确定属性所归属的实体对象,保证知识图谱的准确性和可靠性。
为了实现对文本信息的知识抽取(实体与属性的联合抽取),针对每个文本信息,可以将该文本信息分词后输入至Bert子模型,得到对应的向量序列。
示例性的,可以将文本信息进行分词后得到长度为的分词文本,然后将分词文本输入至Bert子模型,得到分词文本对应的向量序列,其中,,向量序列为Bert子模型的最后一层中分词文本对应的隐藏状态,为起始符,为结束符,为Bert子模型的隐藏状态维数(例如100维、200维等)。
得到Bert子模型输出的向量序列后,可以将得到的向量序列输入至BGRU子模型中,BGRU子模型则输出用于揭示该文本信息中各个单词对应各个标签分值的状态矩阵。
示例性的,可以将向量序列中各个词向量序列分别作为BGRU子模型中各个时间步(需用到个时间步)的输入,然将BGRU子模型中正向GRU输出的隐状态序列和反向GRU输出的隐状态序列进行计算,得到向量序列对应的隐状态序列为BGRU子模型的隐藏状态维数。
此处,正向GRU输出的隐状态序列与反向GRU输出的隐状态序列计算求得隐状态序列可以采用以下方式:将正向GRU输出的隐状态序列与反向GRU输出的隐状态序列按位相加后求均值(为了进一步提升精度,还可以采用按位加权相加的方式求均值),得到隐状态序列
得到隐状态序列后,可以将隐状态序列维映射到维,为标签数,再计算每个分词分类到个标签的标签分值,得到状态矩阵是一个列向量。
得到状态矩阵后,可以将状态矩阵输入至CRF子模型,计算最优标签序列,实现对实体的提取和属性的提取。
示例性的,可以将状态矩阵输入至CRF子模型中,基于CRF子模型中引入的约束矩阵和输入的状态矩阵,利用以下公式(1)计算每个标签序列的总分值:
,(1)
其中,表示标签序列的总分值,为调节因子,表示状态矩阵中第个分词分类到第个标签的概率,表示由标签序列中第个标签转移至第个标签的概率。
然后,可以基于每个标签序列的总分值,代入以下公式(2)计算最优标签序列
,(2)
其中,为所有可能的标签序列的集合。
另外,为了保证引入的约束矩阵的适用性,可以在CRF子模型中加入损失函数(如公式(3)所示),在训练阶段,通过最小化该损失函数来学习约束矩阵
,(3)
其中,为正确的标签序列,为所有可能的标签序列的集合。
通过设计的模型实现电力标准知识中实体和属性的联合抽取,不仅可以保证知识抽取的可靠性,还能够保证抽取的效率。由于采用了Bert+BGRU+CRF模型的构建,可以先进行分词后利用Bert模型处理,实现实体和属性的联合提取,提升实体及属性提取的准确性,降低模型设计难度。而引入的约束矩阵对状态矩阵进行约束,可以避免输出不合法的标签序列。并且,在计算每个标签序列的总分值时引入调节因子,可以在实体和属性联合提取的过程中,具有更强的适用性,保证实体和属性提取的准确性,克服实体与属性提取过程中需求的约束矩阵差异导致的问题(属性与实体采用同一标准的约束矩阵会导致实体提取精度高但属性提取精度低,或者实体提取精度低但属性提取精度高的问题)。
为了实现对图像信息的知识抽取(对属性的抽取),针对每个图像信息,可以将该图像信息输入至外部调用的公式识别子工具中,得到转换的文本信息。然后可以对转换的文本信息进行处理,得到至少一个公式文本。
示例性的,可以对转换的文本信息进行识别,确定出其中是否存在目标符号“=”。若不存在目标符号“=”,确定转换的文本信息为一个公式文本;若存在目标符号“=”,以目标符号“=”将转换的文本信息进行拆分,得到多个公式文本(如果有4个目标符号“=”,则可以拆成5个公式文本)。
利用“=”可以将公式涉及的属性拆分为属性标识部分(例如属性的符号表示)和属性限定部分(例如属性的数值限定、参数取值范围限定等),有的甚至包含属性的中间推导过程。
针对每个公式文本,可以将每个公式文本一同输入至WordBert子模型,得到对应的向量序列。此处,每个公式文本表示对同一图像数据转换得到的文本信息进行拆分后的公式文本。
可以将公式文本组合输入至WordBert子模型,得到公式文本组合对应的向量序列,其中,,向量序列为WordBert子模型的最后一层中公式文本组合对应的隐藏状态,为起始符,为结束符,为WordBert子模型的隐藏状态维数(例如为100、200,与Bert子模型的隐藏状态维数保持一致)。
然后可以将得到的向量序列输入至BGRU子模型中,输出用于揭示该转换的文本信息中各个公式文本对应各个标签分值的状态矩阵。
示例性的,可以将向量序列各个公式向量序列作为BGRU子模型中各个时间步的输入,再将BGRU子模型中正向GRU输出的隐状态序列和反向GRU输出的隐状态序列进行计算,得到向量序列对应的隐状态序列为BGRU子模型的隐藏状态维数。再将隐状态序列维映射到维,为标签数,计算每个公式分类到个标签的标签分值,得到状态矩阵是一个列向量。此处的过程与前文介绍的BGRU子模型的运行过程类似,因此不再赘述。
得到状态矩阵之后,可以将状态矩阵输入至CRF子模型,计算最优标签序列。
示例性的,可以将状态矩阵输入至CRF子模型中;基于输入的状态矩阵,利用以下公式(4)计算每个标签序列的总分值:(4)
其中,表示标签序列的总分值,表示状态矩阵中第个分量分类到第个标签的概率。
基于每个标签序列的总分值,可以代入以下公式(5)计算最优标签序列 ,(5)
其中,为所有可能的标签序列的集合。
需要说明的是,本实施例中针对基于WordBert子模型输出的向量序列确定的状态矩阵,采用了与基于Bert子模型输出的向量序列确定的状态矩阵所不同的计算方式来计算标签序列的总分值,是由于对此两种情况得到的状态矩阵采用分化的计算方法效果要更好一些。当然,基于WordBert子模型输出的向量序列确定的状态矩阵,在计算标签序列的总分值时,也可以沿用公式(1)的计算方法,因为公式(1)的方法也考虑了实体与属性(特别是文本信息的公式)的差异而引入了调节因子,但相对来说,在仅用于属性提取时,公式(1)的效果相较于公式(4)的效果还是要略微逊色一些,但公式(1)的方法相较于不作分化处理而对实体与属性进行标签序列的总分值计算的情况,表现会好很多。
由此,可以实现基于公式图像对属性的提取。
这样的方式可以通过设计的模型实现电力标准知识中针对公式图像中相关知识的抽取(均属于属性),有效克服了电力标准知识抽取困难(由于存在公式图像用于表征数值限定、计算方式等相关信息的数据,现有技术无法实现有效的知识抽取)的问题,不仅能够保证公式图像中相关知识的抽取,还可以保证此类知识抽取的可靠性。并且,不必进行分词操作,而WordBert子模型也不需要利用分词的文本进行训练,而是利用整句(特别是公式、字符、运算符等)进行训练,能够大大提升对公式类属性提取的准确性。针对公式文本采用设计的WordBert子模型,不涉及分词操作,不仅可以减少处理过程,还能够有效保留信息,避免传统Bert模型中分词导致的公式信息提取错误的问题。
实现对实体和属性的提取后,可以将抽取实体和属性的向量序列处理后再输入至关系抽取子模型,实现对实体间关系的抽取。
而将抽取实体和属性的向量序列处理后再输入至关系抽取子模型,实现对实体间关系的抽取,可以利用Bert子模型已经处理得到的向量序列来进行后续的关系处理,且能够进行相应处理后再进行关系的抽取,不仅可以有效减少知识抽取的工作量(因为不需要再进行重复的实体抽取过程),还由于已经确定了实体,在关系抽取的过程中能够事半功倍。
示例性的,可以基于提取的实体,对分词文本对应的向量序列中的对应向量进行标记。
例如,分词文本对应的向量序列中,对应的分词被抽取为实体,那么,可以对向量序列中的对应向量进行标记,得到标记后的向量序列
然后可以将标记后的向量序列输入至关系抽取子模型中。此处的关系抽取子模型,属于基于Bert的关系抽取模型。
针对向量序列中带标记的标记向量,对所有标记向量进行二元互组,以使每个标记向量与其他标记向量之间均具有配对的组合关系,以使每个标记向量与其他标记向量之间均具有配对的组合关系,以标记向量对进行表示。
接前文例子,针对标记后的向量序列,对所有标记向量()进行二元互组,得到三种分组的标记向量对:()、()和()。
针对每个具有组合关系的标记向量对,将标记向量对的两个标记向量进行拼接,得到组合向量。此处的拼接方式可以为:标记向量对的两个标记向量首尾拼接,得到对应的组合向量。例如,标记向量对()拼接后得到组合向量,标记向量对()拼接后得到组合向量,标记向量对()拼接后得到组合向量
然后可以计算每个组合向量在各个关系类别下的分值,可以得到对应的分值向量,其中,表示第个组合向量在各个关系类别下的分值构成的分值向量,为关系类别的数量。
之后可以基于向量序列确定出最优分值,最优分值对应的关系类别即表示该组合向量之间的关系类别。再对最优分值进行排序,剔除排序最末尾的一个最优分值。
针对每个剩余的最优分值,可以确定其组合向量对应的实体之间具有对应关系类别的实体间关系,实现对实体间关系的抽取。这样可以通过多实体二元互组的方式,快速高效且准确地实现对实体间关系的提取,且能够考虑到各个实体间的关系。
对于属性与实体的对应关系,可以在实体与属性的联合抽取过程中去作对应;也可以在确定出实体和属性之后,对属性和实体进行归属划分;还可以通过包装器的方式从网页上抽取实体与属性之间的归属关系(例如,通过输入URL,利用工具进行网页爬取,利用包装器抽取网页提供的实体对应属性后对已提取的属性作归属划分),此处不作限定。
另外,需要说明的是,针对电力标准知识的数据来源,针对每个文档(特别是内容属于规范性文件的文档,如:工业与民用电力装置过电压保护设计规范、工业与民用电力装置接地设计规范、建筑防雷设计规范、爆炸和火灾危险场所电力装置设计规范等),可以对标题进行单独的提取,提取一个基础的实体对象,并抽取编制时间、应用场景、出版单位等关键属性,作为后续智能问答、个性化推荐等电力标准知识图谱的应用中的重要因素。
抽取实体、属性及实体间关系后,可以进一步执行步骤S13。
步骤S13:基于抽取的知识进行知识融合。
在本实施例中,知识融合的方式较多,主要是需要进行实体对齐和实体消歧。例如,可以采用基于字符串相似度的Jaccard算法实现实体对齐和实体消歧。
在进行知识融合后,可以执行步骤S14。
步骤S14:采用Neo4j图数据库对知识融合后的知识进行存储,以构建出所述电力标准知识图谱。
在本实施例中,可以采用边抽取边存储的策略:知识抽取的结果以JSON格式的数据暂存于内存中,而后通过Python的py2neo库提交至Neo4j图数据库实现持久化存储。
通过这样的方式,可以实现电力标准知识图谱的构建。
本方案中采用了984个标注的基础数据构建了数据集,按照7:2:1划分为训练集(689个)、验证集(197个)和测试集(98个),对模型进行训练、验证和测试,以精确率、召回率和F1值作为评价指标,对模型的效果进行验证:
(1)精确率P表示模型预测的精确程度,计算公式如下:
,(6)
其中,M表示模型预测为正的样本集,T表示真实为正的样本集。
(2)召回率R表示模型预测的全面程度,计算公式如下:
,(7)
(3)F1值为精确率P与召回率R的结合,计算公式如下:
,(8)
基于对模型的效果验证,得到的相关评价数据为:精确率P≈0.84,召回率R≈0.90,F1≈0.87。可见,模型的表现是很不错的,提取电力标准知识的效果佳。
而基于构建的电力标准知识图谱,可以进一步实现基于图论的电力标准信息推荐方法。
请参阅图3,图3为本申请实施例提供的基于图论的电力标准信息推荐方法的流程图。基于图论的电力标准信息推荐方法可以包括步骤S21、步骤S22、步骤S23、步骤S24、步骤S25、步骤S26和步骤S27。
为了实现对电力标准信息的推荐,可以执行步骤S21。
步骤S21:获取用户信息和电力标准信息,其中,用户信息用于反映用户的基本信息和兴趣偏好,电力标准信息为包含电力标准知识的文献。
在本实施例中,可以获取用户信息和电力标准信息。用户信息的获取,可以是来源于构建的用户画像(包含用户的基本信息、兴趣偏好等)和用户实时录入的信息、当前查看的信息等,此处不作限定。而电力标准信息,则可以是资源池中等待推荐的包含电力标准知识的文献、资讯等。
获取用户信息后,可以执行步骤S22。
步骤S22:基于所述用户信息生成用户向量。
在本实施例中,由于用户向量的构建方式已经非常成熟,此处不过多赘述,例如可以采用聚类的方式获取用户相关的关键词(例如从个人介绍、浏览记录、搜索记录等提取关键词),基于这些关键词进行偏好判断,1表示偏好、0表示不偏好,由此构建出一个 s维的用户向量。
需要说明的是,本实施例中涉及的用户向量、物品向量等,均具有一致的维度,保证多向量处理(例如融合、加权计算等)的基础和计算推荐指数的可行性。
获取电力标准信息后,可以执行步骤S23。
步骤S23:基于所述电力标准信息,确定出物品偏移向量。
在本实施例中,基于电力标准信息确定出物品偏移向量的方式,也是具有很成熟的处理方式了,此处不过多赘述,例如通过特征提取的方式获得物品偏移向量,也通过item2vec的方式,或者构建item网络后通过deepwalk等一类游走算法获得物品偏移向量,此处不作限定。
确定出用户向量和物品偏移向量后,可以执行步骤S24。
步骤S24:基于所述电力标准信息,从预先构建的电力标准知识图谱中获取对应的结构化知识,以及,基于所述电力标准信息,确定出对应的文本知识。
在本实施例中,可以基于电力标准信息,从预先构建的电力标准知识图谱中获取对应的结构化知识。
示例性的,可以先确定出电力标准信息对应的 a个关键词。然后基于 a个关键词,从预先构建的电力标准知识图谱中获取对应的 b个三元组( hrt),其中, ba,三元组( hrt)中 hrt分别表示头实体、关系和尾实体。由于 a个关键词中可能一部分是实体类的关键词,一部分是属性类关键词,因此, ba。通过这样的方式可以快速准确地得到电力标准信息对应的结构化知识。
获取电力标准信息对应的结构化知识后,可以基于电力标准信息,确定出对应的文本知识。
示例性的,针对每个三元组( hrt),可以从预先构建的电力标准知识图谱中确定出其头实体 h的属性。然后可以从电力标准信息中获取对应此头实体 h的关键词的文本内容,并将此头实体 h的属性与对应此头实体 h的关键词的文本内容进行组合(可以进行去重后组合,也可以不采取去重操作),得到此三元组( hrt)对应的子文本知识。共计得到 b个子文本知识,作为电力标准信息对应的文本知识。
这样的方式得到的文本知识更加全面,能够利用电力标准知识图谱中头实体的属性实现对头实体对应关键词的内容补充,从而丰富文本知识,有利于提高个性化推荐的准确性。
确定出电力标准信息对应的结构化知识和文本知识后,可以执行步骤S25。
步骤S25:对所述结构化知识和所述文本知识进行向量化,分别得到结构化向量和文本化向量。
在本实施例中,可以对结构化知识和文本知识进行向量化,分别得到结构化向量和文本化向量。
示例性的,针对结构化知识的向量化,可以利用Bayesian TransR对每个三元组( hrt)进行向量化,得到对应的 b个结构化子向量, b个结构化子向量的集合则可以视为结构化向量。以及,可以利用Bayesian SDAE对每个子文本知识进行向量化,得到对应的 b个文本化子向量, b个文本化子向量的集合则可以视为文本化向量。
得到结构化向量和文本化向量后,可以进一步执行步骤S26。
步骤S26:基于所述物品偏移向量、所述结构化向量和所述文本化向量,确定出物品向量。
在本实施例中,可以基于物品偏移向量、结构化向量和文本化向量,确定出物品向量。
示例性的,可以将物品偏移向量分别与 b个结构化子向量及 b个文本化子向量分别对应进行融合,得到对应 b个关键词的 b组物品分向量。
例如, b个结构化子向量及 b个文本化子向量,可以按照其对应的关键词进行分组,对应同一实体关键词的结构化子向量和文本化子向量划分为一组,共计 b组。而物品偏移向量可以分别与每一组进行融合(例如相加、同或运算等方式),从而得到 b组物品分向量。
此种方式将物品偏移向量与 b个结构化子向量及 b个文本化子向量分别对应进行融合,得到对应 b个关键词的 b组物品分向量,能够使得到的用于计算推荐指数的物品向量更加准确全面地反映电力标准信息的特征,有利于提升推荐的准确性和有效性。
得到对应 b个关键词的 b组物品分向量后,可以执行步骤S27。
步骤S27:基于所述用户向量和所述物品向量,计算电力标准信息的推荐指数。
在本实施例中,可以基于用户向量和物品向量,计算电力标准信息的推荐指数。
示例性的,针对 b组物品分向量中的每一组物品分向量,可以采用以下方式:
基于此组物品分向量与用户向量进行计算(例如点乘),得到对应此组物品分向量的推荐指数分量,共计计算出对应 b组物品分向量的 b个推荐指数分量。然后可以基于 b个推荐指数分量,计算出电力标准信息的推荐指数(例如加权求和,可以设计为电力标准信息中出现次数越多的实体关键词,权重值越高)。
通过将每一组物品分向量与用户向量进行计算,得到对应 b组物品分向量的 b个推荐指数分量,进一步计算出电力标准信息的推荐指数,这样能够更加综合地考虑到电力标准信息的内容是否符合用户的偏好。
需要说明的是,对于模型的构建和训练,可以参阅CKE(Collaborative KnowledgeBase Embedding,协同知识图谱嵌入)推荐系统框架给出的方式(可参阅论文:Collaborative Knowledge Base Embedding for Recommender Systems,Fuzheng Zhang,Nicholas Jing Yuan, Defu Lian, Xing Xie,Wei-Ying Ma,Microsoft Research;BigData Research Center,University of Electronic Science and Technology ofChina),与其类似,但不同之处在于本方案并未采用图像知识,以及本方案针对多个关键词的分量进行分别的融合得到多组物品分向量。但模型的架构设计和训练方式与之类似,因此此处不过多赘述。
综上所述,本申请实施例提供一种基于图论的电力标准信息推荐方法,通过获取用户信息和电力标准信息,得到相应的用户向量和物品偏移向量;基于电力标准信息从预先构建的电力标准知识图谱中获取对应的结构化知识,以及,基于电力标准信息,确定出对应的文本知识;再对结构化知识和文本知识进行向量化,分别得到结构化向量和文本化向量;进一步确定出物品向量;再基于用户向量和物品向量,计算电力标准信息的推荐指数。这样的方式,可以将预先构建的电力标准知识图谱利用起来,结合到协同过滤的推荐方法中,提升在电力技术领域中对于电力标准信息的个性化推荐,有利于提升个性化推荐的效果。
在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。
以上所述仅为本申请的实施例而已,并不用于限制本申请的保护范围,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (8)

1.一种基于图论的电力标准信息推荐方法,其特征在于,包括:
获取用户信息和电力标准信息,其中,用户信息用于反映用户的基本信息和兴趣偏好,电力标准信息为包含电力标准知识的文献;
基于所述用户信息生成用户向量;
基于所述电力标准信息,确定出物品偏移向量;
基于所述电力标准信息,从预先构建的电力标准知识图谱中获取对应的结构化知识,以及,基于所述电力标准信息,确定出对应的文本知识;
对所述结构化知识和所述文本知识进行向量化,分别得到结构化向量和文本化向量;
基于所述物品偏移向量、所述结构化向量和所述文本化向量,确定出物品向量;
基于所述用户向量和所述物品向量,计算电力标准信息的推荐指数;
其中,基于所述电力标准信息,从预先构建的电力标准知识图谱中获取对应的结构化知识,包括:
获取所述电力标准信息对应的a个关键词;基于a个关键词,从预先构建的电力标准知识图谱中获取对应的b个三元组(h,r,t),其中,b≤a,三元组(h,r,t)中h、r、t分别表示头实体、关系和尾实体;
其中,基于所述电力标准信息,确定出对应的文本知识,包括:
针对每个三元组(h,r,t),从预先构建的电力标准知识图谱中确定出其头实体h的属性;从所述电力标准信息中获取对应此头实体h的关键词的文本内容;将此头实体h的属性与对应此头实体h的关键词的文本内容进行组合,得到此三元组(h,r,t)对应的子文本知识;共计得到b个子文本知识,作为所述电力标准信息对应的文本知识。
2.根据权利要求1所述的基于图论的电力标准信息推荐方法,其特征在于,对所述结构化知识和所述文本知识进行向量化,分别得到结构化向量和文本化向量,包括:
利用Bayesian TransR对每个三元组(h,r,t)进行向量化,得到对应的b个结构化子向量,b个结构化子向量的集合视为所述结构化向量;
利用Bayesian SDAE对每个子文本知识进行向量化,得到对应的b个文本化子向量,b个文本化子向量的集合视为所述文本化向量。
3.根据权利要求2所述的基于图论的电力标准信息推荐方法,其特征在于,基于所述物品偏移向量、所述结构化向量和所述文本化向量,确定出物品向量,包括:
将所述物品偏移向量与b个结构化子向量及b个文本化子向量分别对应进行融合,得到对应b个关键词的b组物品分向量。
4.根据权利要求3所述的基于图论的电力标准信息推荐方法,其特征在于,基于所述用户向量和所述物品向量,计算电力标准信息的推荐指数,包括:
针对b组物品分向量中的每一组物品分向量,基于此组物品分向量与所述用户向量进行计算,得到对应此组物品分向量的推荐指数分量,共计计算出对应b组物品分向量的b个推荐指数分量;
基于b个推荐指数分量,计算出所述电力标准信息的推荐指数。
5.根据权利要求1~4中任一项所述的基于图论的电力标准信息推荐方法,其特征在于,在获取用户信息和电力标准信息之前,所述方法还包括:
构建电力标准知识图谱的本体结构,所述本体结构包含实体、属性及实体间关系;
获取包含电力标准知识的基础数据,并对所述基础数据进行知识抽取,抽取出实体、属性及实体间关系;
基于抽取的知识进行知识融合;
采用Neo4j图数据库对知识融合后的知识进行存储,以构建出所述电力标准知识图谱。
6.根据权利要求5所述的基于图论的电力标准信息推荐方法,其特征在于,所述基础数据为纯文本数据,或者,所述基础数据为文本数据与公式图像,对所述基础数据进行知识抽取,抽取出实体、属性及实体间关系,包括:
对所述基础数据进行预处理,得到多个文本信息,或者得到多个文本信息和至少一个图像信息;
针对每个文本信息,将该文本信息分词后输入至Bert子模型,得到对应的向量序列,然后将得到的向量序列输入至BGRU子模型中,输出用于揭示该文本信息中各个单词对应各个标签分值的状态矩阵,再将所述状态矩阵输入至CRF子模型,计算最优标签序列,实现对实体的提取和属性的提取;
针对每个图像信息,将该图像信息输入至外部调用的公式识别子工具中,得到转换的文本信息,对转换的文本信息进行处理,得到至少一个公式文本,将每个公式文本一同输入至WordBert子模型,得到对应的向量序列,然后将得到的向量序列输入至BGRU子模型中,输出用于揭示该转换的文本信息中各个公式文本对应各个标签分值的状态矩阵,再将所述状态矩阵输入至CRF子模型,计算最优标签序列,实现对属性的提取;
以及,将抽取实体和属性的向量序列处理后再输入至关系抽取子模型,实现对实体间关系的抽取。
7.根据权利要求6所述的基于图论的电力标准信息推荐方法,其特征在于,将该文本信息分词后输入至Bert子模型,得到对应的向量序列,然后将得到的向量序列输入至BGRU子模型中,输出用于揭示该文本信息中各个单词对应各个标签分值的状态矩阵,再将所述状态矩阵输入至CRF子模型,计算最优标签序列,实现对实体的提取和属性的提取,包括:
将文本信息进行分词后得到长度为n的分词文本w;然后将分词文本w=([CLS],w1,w2,...,wn,[SEP])输入至Bert子模型,得到分词文本w对应的向量序列l=(l0,l1,l2,...,ln,ln+1),li∈Rn×L,其中,i∈[0,n+1],向量序列l=(l0,l1,l2,...,ln,ln+1)为Bert子模型的最后一层中分词文本w对应的隐藏状态,[CLS]为起始符,[SEP]为结束符,L为Bert子模型的隐藏状态维数;
将向量序列l=(l0,l1,l2,...,ln,ln+1)中各个词向量序列li作为BGRU子模型中各个时间步的输入;再将BGRU子模型中正向GRU输出的隐状态序列
Figure FDA0004075348270000051
和反向GRU输出的隐状态序列
Figure FDA0004075348270000052
进行计算,得到向量序列l对应的隐状态序列hn+1,hn+1∈Rn×H,H为BGRU子模型的隐藏状态维数;然后将隐状态序列hn+1从H维映射到k维,k为标签数;再计算每个分词分类到k个标签的标签分值,得到状态矩阵E=(e0,e1,e2,...,en,en+1),ei∈Rk,是一个列向量;
之后将状态矩阵E=(e0,e1,e2,...,en,en+1)输入至CRF子模型中;基于CRF子模型中引入的约束矩阵F和输入的状态矩阵E,F∈R(k+2)×(k+2),利用以下公式计算每个标签序列
Figure FDA0004075348270000053
的总分值:
Figure FDA0004075348270000054
Figure FDA0004075348270000055
其中,
Figure FDA0004075348270000056
表示标签序列
Figure FDA0004075348270000057
的总分值,α为调节因子,
Figure FDA0004075348270000058
表示状态矩阵E中第i个分词分类到第j个标签的概率,
Figure FDA0004075348270000059
表示由标签序列
Figure FDA00040753482700000510
中第j个标签转移至第j+1个标签的概率;再基于每个标签序列
Figure FDA00040753482700000511
的总分值
Figure FDA00040753482700000512
代入以下公式计算最优标签序列
Figure FDA00040753482700000513
Figure FDA00040753482700000514
其中,
Figure FDA00040753482700000515
为所有可能的标签序列的集合。
8.根据权利要求7所述的基于图论的电力标准信息推荐方法,其特征在于,将抽取实体和属性的向量序列处理后再输入至关系抽取子模型,实现对实体间关系的抽取,包括:
基于提取的实体,对分词文本w对应的向量序列l=(l0,l1,l2,...,ln,ln+1)中的对应向量进行标记;
将标记后的向量序列l′输入至关系抽取子模型中;
针对向量序列l′中带标记的标记向量,对所有标记向量进行二元互组,以使每个标记向量与其他标记向量之间均具有配对的组合关系;
针对每个具有组合关系的标记向量对,将标记向量对的两个标记向量进行拼接,得到组合向量;
计算每个组合向量在各个关系类别下的分值;
分别获取每个组合向量对应的最优分值并进行排序,淘汰排序最末的一个最优分值,针对每个剩余最优分值,确定其组合向量对应的实体之间具有对应关系类别的实体间关系,实现对实体间关系的抽取。
CN202211587871.9A 2022-12-12 2022-12-12 一种基于图论的电力标准信息推荐方法 Active CN115577095B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211587871.9A CN115577095B (zh) 2022-12-12 2022-12-12 一种基于图论的电力标准信息推荐方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211587871.9A CN115577095B (zh) 2022-12-12 2022-12-12 一种基于图论的电力标准信息推荐方法

Publications (2)

Publication Number Publication Date
CN115577095A CN115577095A (zh) 2023-01-06
CN115577095B true CN115577095B (zh) 2023-05-02

Family

ID=84590612

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211587871.9A Active CN115577095B (zh) 2022-12-12 2022-12-12 一种基于图论的电力标准信息推荐方法

Country Status (1)

Country Link
CN (1) CN115577095B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116108162B (zh) * 2023-03-02 2024-03-08 广东工业大学 一种基于语义增强的复杂文本推荐方法及系统
CN117493645B (zh) * 2023-12-29 2024-04-12 同略科技有限公司 一种基于大数据的电子档案推荐系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115080694A (zh) * 2022-06-27 2022-09-20 国网甘肃省电力公司电力科学研究院 一种基于知识图谱的电力行业信息分析方法及设备

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3709189A1 (en) * 2019-03-14 2020-09-16 Siemens Aktiengesellschaft Recommender system for data integration
CN112148889A (zh) * 2020-09-23 2020-12-29 平安直通咨询有限公司上海分公司 一种推荐列表的生成方法及设备
CN112395506A (zh) * 2020-12-04 2021-02-23 上海帜讯信息技术股份有限公司 一种资讯推荐方法、装置、电子设备和存储介质
CN114706989A (zh) * 2021-12-01 2022-07-05 山西云时代研发创新中心有限公司 一种基于技术创新资产为知识库的智能推荐方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115080694A (zh) * 2022-06-27 2022-09-20 国网甘肃省电力公司电力科学研究院 一种基于知识图谱的电力行业信息分析方法及设备

Also Published As

Publication number Publication date
CN115577095A (zh) 2023-01-06

Similar Documents

Publication Publication Date Title
CN115577095B (zh) 一种基于图论的电力标准信息推荐方法
CN109977416B (zh) 一种多层次自然语言反垃圾文本方法及系统
CN113051916B (zh) 一种社交网络中基于情感偏移感知的交互式微博文本情感挖掘方法
CN112395410B (zh) 一种基于实体抽取的产业舆情推荐方法、装置及电子设备
CN113569050B (zh) 基于深度学习的政务领域知识图谱自动化构建方法和装置
CN112035675A (zh) 医疗文本标注方法、装置、设备及存储介质
CN112434164B (zh) 一种兼顾话题发现和情感分析的网络舆情分析方法及系统
CN113360582B (zh) 基于bert模型融合多元实体信息的关系分类方法及系统
CN110955750A (zh) 评论区域和情感极性的联合识别方法、装置、电子设备
CN115409018B (zh) 基于大数据的公司舆情监测系统及其方法
CN110826315B (zh) 使用神经网络系统识别短文本时效性的方法
Jagdish et al. Identification of end-user economical relationship graph using lightweight blockchain-based BERT model
CN115017879A (zh) 文本对比方法、计算机设备及计算机存储介质
CN114925702A (zh) 文本相似度识别方法、装置、电子设备及存储介质
CN114547670A (zh) 利用差分隐私词嵌入扰动的敏感文本脱敏方法
CN111368066A (zh) 获取对话摘要的方法、装置和计算机可读存储介质
CN112966503A (zh) 方面级情感分析方法
CN112989053A (zh) 一种期刊推荐方法及装置
CN112084783A (zh) 基于民航不文明旅客的实体识别方法及系统
CN108427769B (zh) 一种基于社交网络的人物兴趣标签提取方法
CN114297375A (zh) 网络安全实体与关系的网络模型的训练方法及抽取方法
CN110516069B (zh) 一种基于FastText-CRF的引文元数据抽取方法
CN114328894A (zh) 文档处理方法、装置、电子设备及介质
CN114022233A (zh) 一种新型的商品推荐方法
CN110765108A (zh) 一种基于群智数据融合的假消息早期检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant