CN116502646A - 一种语义漂移检测方法、装置、电子设备及存储介质 - Google Patents
一种语义漂移检测方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN116502646A CN116502646A CN202310224345.4A CN202310224345A CN116502646A CN 116502646 A CN116502646 A CN 116502646A CN 202310224345 A CN202310224345 A CN 202310224345A CN 116502646 A CN116502646 A CN 116502646A
- Authority
- CN
- China
- Prior art keywords
- entity
- semantic
- detection model
- preset
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 261
- 238000012549 training Methods 0.000 claims abstract description 92
- 238000000605 extraction Methods 0.000 claims abstract description 87
- 239000013598 vector Substances 0.000 claims description 82
- 230000006870 function Effects 0.000 claims description 65
- 238000000034 method Methods 0.000 claims description 50
- 230000015654 memory Effects 0.000 claims description 23
- 238000013528 artificial neural network Methods 0.000 claims description 22
- 238000004590 computer program Methods 0.000 claims description 16
- 238000012545 processing Methods 0.000 claims description 14
- 230000008569 process Effects 0.000 description 28
- 238000010586 diagram Methods 0.000 description 15
- 238000002372 labelling Methods 0.000 description 9
- 238000004891 communication Methods 0.000 description 8
- 239000012634 fragment Substances 0.000 description 4
- 238000010276 construction Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000006403 short-term memory Effects 0.000 description 3
- 230000003993 interaction Effects 0.000 description 2
- 230000007787 long-term memory Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000008520 organization Effects 0.000 description 2
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000003930 cognitive ability Effects 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 229920001971 elastomer Polymers 0.000 description 1
- 239000000806 elastomer Substances 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/288—Entity relationship models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y04—INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
- Y04S—SYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
- Y04S10/00—Systems supporting electrical power generation, transmission or distribution
- Y04S10/50—Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Computing Systems (AREA)
- Business, Economics & Management (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Economics (AREA)
- Public Health (AREA)
- Water Supply & Treatment (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种语义漂移检测方法、装置、电子设备及存储介质。其中,该语义漂移检测方法,包括:获取待识别文本数据;根据预设知识抽取框架获取所述待识别文本数据中实体文本的实体类型以及实体关系,其中,所述知识抽取框架包括实体抽取框架和实体关系抽取框架;基于预设语义漂移检测模型对所述实体类型以及所述实体关系进行语义漂移检测,确定语义漂移情况,其中,所述预设语义漂移检测模型基于标记电力数据集、电力种子集以及未标记电力数据训练生成。本发明实施例,实现便捷检测电力领域数据的语义漂移情况,降低人工检测的成本,进而可以剔除低质量的数据,构建高质量电力领域知识图谱。
Description
技术领域
本发明涉及数据处理技术领域,尤其涉及一种语义漂移检测方法、装置、电子设备及存储介质。
背景技术
电力领域知识图谱旨在充分利用电力物联网所承载的数据信息,以结构化方式刻画电力系统中的概念、实体、事件及其间的关系,为电力行业产业提供一种更为有效的跨媒体大数据组织、管理和认知能力。
在构建知识图谱过程中,需要对不同来源、不同结构的数据中进行知识提取,形成结构化数据存入到知识图谱。为了减少构建知识图谱对人工标注数据的依赖,可以采用知识库与非结构化文本对齐来自动构建大量训练数据。但它的假设过于肯定,因此会引入大量的噪声,存在语义漂移现象。当电力领域数据存在语义漂移现象时,会造成构建电力知识图谱的数据不准确,进而造成电力领域知识图谱的关联程度弱的问题。电力人员使用电力领域知识图谱进行作业时,可能会存在生产安全问题。所以,检测电力领域数据的语义漂移,进而剔除低质量的数据,构建高质量电力知识图谱成为了目前亟待解决的问题。
发明内容
本发明提供了一种语义漂移检测方法、装置、电子设备及存储介质,以实现电力领域数据语义漂移的快速检测,便于构建高质量电力领域知识图谱。
根据本发明的一方面,提供了一种语义漂移检测方法,其中,该方法包括:
获取待识别文本数据;
根据预设知识抽取框架获取待识别文本数据中实体文本的实体类型以及实体关系,其中,知识抽取框架包括实体抽取框架和实体关系抽取框架;
基于预设语义漂移检测模型对实体类型以及实体关系进行语义漂移检测,确定语义漂移情况,其中,预设语义漂移检测模型基于标记电力数据集、电力种子集以及未标记电力数据训练生成。
根据本发明的另一方面,提供了一种语义漂移检测装置,其特征在于,包括:
文本数据获取模块,用于获取待识别文本数据;
实体获取模块,用于根据预设知识抽取框架获取待识别文本数据中实体文本的实体类型以及实体关系,其中,知识抽取框架包括实体抽取框架和实体关系抽取框架;
语义漂移检测模块,用于基于预设语义漂移检测模型对实体类型以及实体关系进行语义漂移检测,确定语义漂移情况,其中,预设语义漂移检测模型基于标记电力数据集、电力种子集以及未标记电力数据训练生成。
根据本发明的另一方面,提供了一种电子设备,该电子设备包括:
至少一个处理器;
以及与至少一个处理器通信连接的存储器;
其中,存储器存储有可被至少一个处理器执行的计算机程序,计算机程序被至少一个处理器执行,以使至少一个处理器能够执行本发明任一实施例的语义漂移检测方法。
根据本发明的另一方面,提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机指令,计算机指令用于使处理器执行时实现本发明任一实施例的语义漂移检测方法。
本发明实施例的技术方案,通过获取待识别文本数据,根据预设知识抽取框架获取待识别文本数据中实体文本以及实体关系,基于预设语义漂移检测模型对实体语义以及实体关系进行语义漂移检测,确定语义漂移情况,实现检测电力领域数据的语义漂移情况,降低人工检测的成本,进而可以剔除低质量的数据,构建高质量电力领域知识图谱。
应当理解,本部分所描述的内容并非旨在标识本发明的实施例的关键或重要特征,也不用于限制本发明的范围。本发明的其它特征将通过以下的说明书而变得容易理解。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本发明实施例一提供的一种语义漂移检测方法的流程图;
图2是根据本发明实施例二提供的一种语义漂移检测方法的流程图;
图3是根据本发明实施例三提供的一种预设语义漂移检测模型的训练流程图;
图4是根据本发明实施例三提供的一种实体语义检测模型的训练流程图;
图5是根据本发明实施例三提供的一种关系语义检测模型的训练流程图;
图6是根据本发明实施例四提供的一种语义漂移检测的架构图;
图7是根据本发明实施例四提供的一种预设知识抽取框架的结构示意图;
图8是根据本发明实施例四提供的一种预设语义漂移检测模型的结构示意图;
图9是根据本发明实施例四提供的Transformer encoder的结构示意图;
图10是根据本发明实施例四提供的Block的结构示意图;
图11为本发明实施例五提供的一种语义漂移检测装置的结构示意图;
图12是实现本发明实施例的语义漂移检测方法的电子设备的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
实施例一
图1是根据本发明实施例一提供的一种语义漂移检测方法的流程图,本实施例可适用于检测数据文本中语义漂移的情况,该方法可以由一种语义漂移检测装置来执行,该语义漂移检测装置可以采用硬件和/或软件的形式实现,该语义漂移检测装置可配置于电子设备中。如图1所示,该方法包括:
S110、获取待识别文本数据。
其中,待识别文本数据可以是指等待检测语义漂移的文本数据。在实际的操作过程中,待识别文本数据可以包括电力领域结构化数据、电力领域半结构化数据和电力领域非结构化数据,示例性的,电力领域专业知识、各电力领域设备的型号等数据均属于待识别文本数据。当然,待识别文本数据也可以不限于电力领域数据,如金融领域、消费领域也在本发明的保护范围之内。在待识别文本中,可以存在一个或者多个实体文本,不同的实体文本之间可以存在一定的关系。
在发明实施例中,待识别文本数据可以存储于电子设备本地或者数据库中,可以通过在本地设备或者数据库中调取待识别文本数据。在实际的操作中,可以在本地设备选取存储待识别文本数据的文件,获取待识别文本数据;或者,可以提取数据中存储的文本数据作为待识别文本数据;又或者,可以在电力数据网站中下载电力文本数据作为待识别文本数据。
S120、根据预设知识抽取框架获取待识别文本数据中实体文本的实体类型以及实体关系,其中,知识抽取框架包括实体抽取框架和实体关系抽取框架。
其中,预设知识抽取框架可以是预先设置的从不同来源、不同结构的数据中进行知识提取的抽取框架。预设知识抽取框架可以包括实体抽取框架和实体关系抽取框架,通过实体抽取框架可以抽取待识别文本数据中的实体文本以及对应的实体类型,实体关系抽取框架可以抽取待识别文本数据中的实体关系,也就是说,通过预设指示抽取框架可以同时获取待识别文本数据中实体文本以及实体关系。其中,实体文本可以是指具有实体意义的文本,实体类型可以是用于描述实体特征或者特点。在一实施例中,实体文本可以包括但不限于具体的电力设备名称、日期、时间等。示例性的,实体文本可以包括但不限于变压器、设备型号等;实体类型可以包括但不限于设备、处所、设施等;实体关系可以是指文本数据中实体间的语义关系,可以包括但不限于物理位置关系、部分与整体关系、附属关系等。
在发明实施例中,可以提取预设知识抽取框架,通过预设知识抽取框架获取待识别文本数据中实体文本以及实体关系。在实际的操作过程中,在一个待识别文本数据中可以包括一个或者多个实体文本和实体关系,每个实体文本均对应一个实体类型,将待识别文本数据输入至预设知识框架,抽取待识别文本数据包含的实体文本和实体关系,确定实体文本的实体类型。可以通过实体抽取框架抽取待识别文本数据中的实体文本,通过实体关系框架抽取待识别文本数据中的实体关系。其中,预设知识抽取框架可以由神经网络或者命名实体识别工具组成,示例性的,可以包括前馈神经网络、Label Studio、Pythonjieba库等。
在一实施例中,当预设知识抽取框架是基于神经网络构成时,可以将待识别文本数据进行文本序列化,通过双向长短期记忆网络对待识别文本数据进行词性标注,根据前馈神经网络的softmax损失函数计算每个词组标注类型的概率,确定实体文本以及实体文本对应的实体类型。在一实施例中,也可以采用BIO标注法或者BIOES标注法确定待识别文本数据中的实体文本。在实际的操作过程中,在对待识别文本数据进行词性标注后,可以采用分类器确定实体的字符位置,采用就近匹配原则配对实体与实体之间的关系,确定待识别文本数据中实体对的实体关系。在一实施例中,通过预设知识抽取框架可以生成实体文本1、实体文本2与两个实体文本之间的实体关系的三元组标注数据。在一实施例中,当预设知识抽取框架为Label Studio等命名实体标注工具时,可以将待识别文本数据输入命名实体标注工具,通过命名实体标注工具确定待识别文本数据中实体文本的实体类型以及实体关系。
S130、基于预设语义漂移检测模型对实体类型以及实体关系进行语义漂移检测,确定语义漂移情况,其中,预设语义漂移检测模型基于标记电力数据集、电力种子集以及未标记电力数据训练生成。
其中,预设语义漂移检测模型可以是指预先设置的检测语义漂移的模型,预设语义漂移检测模型可以是基于标记电力数据集、电力种子数据集和未标记电力数据训练生成。在实际的操作过程中,预设语义漂移检测模型可以是基于Transformer网络搭建,通过预设语义漂移检测模型,可以确定实体语义以及实体关系是否发生语义漂移。其中,标记电力数据集可以包括已经标注好的电力数据对,例如三元组标注数据,可以作为训练集对预设语义漂移检测模型进行训练。其中,可以根据电力种子集对未标记电力数据进行标注作为测试集,对预设语义漂移检测模型的训练进行测试。其中,语义漂移情况可以包括语义漂移和语义未漂移。
在实际的操作过程中,可以提取预先创建的预设语义漂移检测模型,将抽取的实体文本、实体类型和实体关系输入预设语义漂移检测模式,确定实体类型和实体关系是否出现语义漂移情况。其中,预设语义漂移检测模型可以是通过标记电力数据集、电力种子集以及未标记电力数据训练生成。在实际的操作过程中,当实体类型或者实体关系中任意一个发生漂移时,可以认为发生语义漂移,当实体类型和实体关系均未发生漂移时,可以认为未发生语义漂移。
本发明实施例,通过获取待识别文本数据,根据预设知识抽取框架获取待识别文本数据中实体文本以及实体关系,基于预设语义漂移检测模型对实体语义以及实体关系进行语义漂移检测,确定语义漂移情况,实现便捷检测电力领域数据的语义漂移情况,降低人工检测的成本,进而可以剔除低质量的数据,构建高质量电力领域知识图谱。
在一实施例中,根据预设知识抽取框架获取所述待识别文本数据中实体文本以及实体关系之后,还包括:将实体文本进行实体对齐。
其中,实体对齐可以判断两个或者多个不同信息来源的实体是否指向真实世界中同一个对象,可以将具有相同名称的实体文本聚集在一起。在实际的操作过程中,通过预设知识框架抽取的实体文本可能存在缺失的情况,可以通过对实体文本进行实体对齐获取完整的实体文本。
在发明实施例中,实体对齐的方式可以包括多种,示例性的,包括但不限于通过Elasticsearch全文检索。在实际的操作过程中,可以将实体文本进行分词,并将分词后的实体文本作为关键词在待识别文本数据中全文检索,获取包含实体文本的文本作为候选文本。将实体文本分解为多个片段,分别与候选实体计算相似度,并对候选实体进行排序,将输出分值最大的实体作为对齐后的实体文本。
实施例二
图2是根据本发明实施例二提供的一种语义漂移检测方法的流程图,本实施例是在上述实施例的基础上对一种语义漂移检测方法的进一步说明。如图2所示,该方法包括:
S210、获取待识别文本数据。
S220、将待识别文本数据文本序列化处理生成待识别文本序列,调用预设知识抽取框架中双向长短期记忆网络对待识别文本序列进行词性标注。
其中,待识别文本序列可以是指待识别文本数据通过文本序列化处理生成的文本与数字对应的序列,在实际的操作过程中,文本序列化的方式可以不作限制。预设知识抽取框架可以是预先设置的,是用于抽取待识别文本数据的抽取框架。在实际的操作过程中,预设知识抽取框架可以包括实体抽取框架和实体关系抽取框架。其中,双向长短期记忆网络是由前向长短期记忆网络和后向长短期记忆网络组成。
在发明实施例中,可以将待识别文本数据通过文本序列化处理生成待识别文本序列,调用预设知识抽取框架中双向长短期记忆网络,通过双向长短期记忆网络的编码器对待识别文本序列的字符位置进行标注。在实际的操作过程中,可以将待识别文本序列输入至双向长短期记忆网络,双向长短期记忆网络的编码器可以对待识别文本序列每个位置进行词性标注。在一实施例中,也可以采用BIO标注法或者BIOES标注法确定对待识别文本数据中的每个位置进行标注。
S230、按照预设知识抽取框架中前馈神经网络的softmax损失函数确定待识别文本数据的实体文本以及对应实体文本的实体类型。
在发明实施例中,可以通过调用知识抽取框架中前馈神经网络,根据softmax损失函数确定待识别文本数据的实体文本以及对应实体文本的实体类型。在实际的操作过程中,可以获取词性标注后的待识别文本数据输入至前馈神经网络,前馈神经网络基于softmax损失函数计算每个词的标注类型概率,确定待识别文本数据的实体文本以及对应实体文本的实体类型。在一实施例中,可以将标注类型概率最大值对应的标注类型作为实体文本以及对应实体文本的实体类型。
S240、调用预设知识抽取框架内的基于前馈神经网络的预测分类器对词性标注进行分类,确定待识别文本数据中实体文本对应的关系语义。
其中,预测分类器可以是基于前馈神经网络的分类器,可以用于判断每一个位置的词性标注结果是否为实体文本开始或结束位置。
在发明实施例中,可以调用预设知识抽取框架中基于前馈神经网络的预测分类器,判断每个位置的词性标注结果是否为实体文本开始或者结束位置。确定实体文本后,可以采用就近匹配原则对实体文本进行配对,根据预设知识抽取框架预测两个实体文本之间的关系,确定为实体文本对应的关系语义。在一实施例中,可以基于前馈神经网络的softmax损失函数预测两个实体文本之间的关系。通过softmax损失函数确定每个语义关系的概率,确定语义关系概率值最大值对应的语义关系作为该实体文本对应的关系语义,进而确定待识别文本数据中各实体文本对应的关系语义。在一实施例中,在输入基于前馈神经网络的预测分类器之前,可以经过stacking,使不同的网络能够提取数据中不同的信息。
S250、将实体文本进行实体对齐。
S260、基于预设语义漂移检测模型对实体语义以及实体关系进行语义漂移检测,确定语义漂移情况。
在发明实施例中,可以提取预先创建的预设语义漂移检测模型,将经过实体对齐的实体文本、实体类型和实体关系输入预设语义漂移检测模式,确定实体类型和实体关系是否出现语义漂移情况。
在一实施例中,语义漂移情况可以包括以下至少之一:
当待识别文本数据中实体类型与预设实体类型的相似度值大于预设相似度阈值时,确认实体类型未发生语义漂移。
当基于预设语义漂移检测模型输出的实体关系包含于待识别文本数据时,确认实体关系未发生语义漂移;
当实体类型和实体关系均未发生语义漂移,确认待识别文本数据未发生语义漂移;
当实体类型和/或实体关系均发生语义漂移,确认待识别文本数据发生语义漂移。
其中,预设实体类型可以是指预先存储的已经识别的实体类型。预设相似度阈值可以是判断待识别文本数据中实体类型是否发生语义漂移的参数,当实体类型与预设实体类型的相似度值大于预设相似度阈值时,可以认为实体类型未发生语义漂移;当实体类型与预设实体类型的相似度值小于预设相似度阈值时,可以认为实体类型发生语义漂移。其中,预设相似度阈值可以是预先设置的,可以是检测人员根据语义漂移检测需求进行设置的,预设相似度阈值越大,检测语义漂移精度越高。
在发明实施例中,当实体文本、实体类型和实体语义输入至预设语义漂移检测模型后,可以通过Embedding层将实体文本转换为对应的实体向量和语义向量,根据实体文本查询预先存储的对应的预设实体文本,计算实体文本与提取的预设实体文本的相似度值,当实体类型与预设实体类型的相似度值大于预设相似度阈值时,可以认为实体类型与预先存储的预设实体类型相同,确认实体类型未发生语义漂移。语义向量可以经过全连接网络进行多分类,输出各分类任务概率值,选择具有最大值对应的认为作为预测标签,并将预测标签作为预设语义漂移检测模型输出的实体关系,当输出的实体关系包含于待识别文本数据时,可以确认实体关系未发生语义漂移。在实际的操作过程中,当实体类型和实体关系均未发生语义漂移时,可以认为待识别文本数据未发生语义漂移;当实体类型或实体关系任一项发生语义漂移时,可以认为待识别文本数据发生语义漂移;当实体类型和实体关系均发生语义漂移,可以认为待识别文本数据发生语义漂移。
本发明实施例,通过获取待识别文本数据,将待识别文本数据文本序列化处理生成待识别文本序列,调用预设知识抽取框架中双向长短期记忆网络对待识别文本序列进行词性标注,按照预设知识抽取框架中前馈神经网络的softmax损失函数识别确定待识别文本的实体文本以及对应实体文本的实体类型,调用预设知识抽取框架内的基于前馈神经网络的预测分类器对词性标注进行分类,确定识别文本中实体文本对应的关系语义,将实体文本进行实体对齐,基于预设语义漂移检测模型对实体语义以及实体关系进行语义漂移检测,确定语义漂移情况,实现通过预设知识抽取框架联合抽取实体文本和实体关系,可以识别每个电力领域实体潜在的多种关系,提升知识抽取的能力。通过预设语义漂移检测模型对实体语义以及实体关系进行语义漂移检测,更快速确定电力领域数据的语义漂移情况。
实施例三
图3是根据本发明实施例三提供的一种预设语义漂移检测模型的训练流程图,本实施例可适用于训练预设语义漂移检测模型的情况,预设语义漂移检测模型包括实体语义检测模型和关系语义检测模型,预设语义漂移检测模型包括输入层、共享层和两个任务层,相应的,如图3所示,预设语义漂移检测模型的训练,包括:
S310、获取预先存储的标记电力数据集,将标记电力数据集作为训练集。
其中,标记电力数据集可以是预先构建的用于存储电力领域标注实体类型和实体类型的数据集。在一实施例中,标记电力数据集中存储的数据可以包括标记的电力领域文本数据,其中,标记的电力领域文本数据可以包括标注实体文本、实体文本对应的实体类型、任意两个实体对应实体关系是否相同以及实体关系。在一实施例中,任意两个实体对应实体关系是否相同可以通过相似标签标记,例如,当两个实体文本对应的实体关系相同时,可以标记相似标签为1,当两个实体文本对应的实体关系不相同时,可以标记相似标签为0。
在发明实施例中,标记电力数据集可以预先存储于电子设备本地或者云端服务器中,可以在电子设备本地或者云端服务器中查找标记电力数据集,并提取标记电力数据集作为训练集,用于训练预设语义漂移检测模型。
S320、将训练集输入预先构建的预设语义漂移检测模型进行训练,其中,预设语义漂移检测模型的综合损失函数由实体语义检测模型和关系语义检测模型确定。
其中,预设语义漂移检测模型包括实体语义检测模型和关系语义检测模型,预设语义漂移检测模型包括输入层、共享层和两个任务层。
其中,预设语义漂移检测模型为多任务模型,实体语义检测模型可以是用于检测实体语义是否发生语义漂移的模型;关系语义检测模型可以是用于检测语义关系是否发生语义漂移的模型。预设语义监测模型可以是由实体语义检测模型和关系语义检测模型组成。预设语义漂移检测模型可用包括输入层、共享层和两个任务层。在实际的操作中,输入层可以是用于对输入的实体文本、实体类型和实体关系进行处理。共享层可以是用于将实体文本向量化,为后续的任务层作特征提取的工作。任务层可以包括实体语义检测任务层和关系语义检测任务层,其中,实体语义检测任务层可以用于检测实体语义的语义漂移情况,关系语义任务层可以用于检测关系语义的语义漂移情况。在一实施例中,预设语义漂移检测模型可以是基于Transformer网络搭建,分享层包括Embedding层和TransformerEncoder编码层。实体语义检测任务层可以计算两个实体文本的相似度值,进而确定实体语义漂移情况。关系语义检测任务层可以通过全连接网络,重新确定实体关系,进而确定语义漂移情况。
其中,综合损失函数可以是用于度量预设语义漂移检测模型预测值与真实值的差异程度的运算函数,损失函数越小,模型的鲁棒性越好。预设语义漂移检测模型的综合损失函数可以由实体语义检测模型和关系语义检测模型确定。在一实施例中,综合损失函数可以由实体语义检测模型和关系语义检测模型确定,示例性的,综合损失函数可以包括:
其中σ1,σ2是噪声参数,分别控制着L1(W)、L2(W)损失的相对权重,若噪声参数σ越大,则对应的损失函数L(W)的权重就越小,但由于模型的会尽可能的让损失函数为0,则会使得σ变得很大,完全忽视了数据的影响,因此对噪声项增加了正则化项logσ。
在发明实施例中,可以将训练集输入预先构建的预设语义漂移检测模型,对预先构建的预设语义漂移检测模型进行训练,直至达到综合损失函数预设值,完成预设语义漂移检测模型的训练。
本发明实施例,通过获取预先存储的标记电力数据集,将标记电力数据集作为训练集,将训练集输入预先构建的预设语义漂移检测模型进行训练,完成了预先构建的预设语义漂移检测模型的训练,进而可以通过预先构建的预设语义漂移检测模型检测语义漂移,提升用户的使用体验。
在一实施例中,预设语义漂移检测模型的训练包括实体语义检测模型的训练和关系语义检测模型的训练。
在一实施例中,图4是根据本发明实施例三提供的一种实体语义检测模型的训练流程图,如图4所示,实体语义检测模型的训练包括:
S321、将训练集中两个实体文本以及相似标签输入实体语义检测模型,获取训练集对应的实体向量。
其中,实体语义检测模型为孪生网络架构,两个实体文本可以是训练集中同一数据中的任意两个实体文本。相似标签可以是根据两个实体文本的实体类型相似程度确定的,相似标签可以包括相似和不相似。在实际的操作过程中,相似标签可以通过值域为[0,1]的实数进行表示,其中,相似可以为1,不相似可以为0,数值越大表示两个实体文本对应的实体类型越相似。实体向量可以是指实体文本对应的向量,不同的实体文本可以对应不同的实体向量。在一实施例中,两个实体文本以及相似标签的输入格式可以为两个实体文本和相似标签,并用\t分隔符进行区分。
在发明实施例中,训练集中同一数据中的两个实体文本可以组成实例对,每组实例对可以对应一个相似标签。可以将训练集中两个实体文本以及相似标签输入实体语义检测模型,确定训练集对应的实体向量。在实际的操作过程中,实体文本输入至实体语义检测模型后,可以先确定实体文本在源数据的正整数索引,通过one-hot向量对正整数索引进行转换,捕获文本与文本之间的关系,确定初始文本向量。再通过Transformer中的Encoder编码器通过与残差相加,确定训练集中每个实体文本对应的实体向量。其中,Transformer中的Encoder编码器可以认为是多个Block组成,每个Block在Self-attention的基础上增加了残差连接+Layer Norm+FC,更准确确定训练集对应的实体向量。
S322、调用预设函数确定不同实体文本的实体向量之间的相似度值。
其中,预设函数可以是预先设置的,用于确定不同实体的实体向量之间的相似度值的函数,在实际的操作过程中,预设函数可以包括但不限于distance函数和cos函数。其中,相似度值可以是一个值域为[0,1]的实数,表明两个实体文本共享同一个关系类型的概率,分数越高则两个实例表达相同关系的概率越大。
在发明实施例中,可以提取预设函数,根据预设函数确定不同实体的实体向量之间的相似度值。在实际的操作过程中,当预设函数为distance函数时,distance函数可以包括s(x,y)=σ(ws T(fs(x)-fs(y))2+bs),其中,fs(x),fs(y)分别代表通过Encoder编码器的输出函数,x、y表示为实体向量。σ()表示sigmoid函数、ws表示权重、bs表示偏置。将两个实体文本的实体向量输入预设函数中,计算两个实体向量之间的相似度值。
S323、在相似度值大于预设相似度阈值时,确定实体语义检测模型训练完成,否则,确定相似度值与预设相似度阈值的平均绝对误差损失。
其中,预设相似度阈值可以是预先设置的,用于确定实体语义检测模型是否完成训练的阈值,预设相似度阈值可以是根据业务人员需求确定。
在发明实施例中,当相似度值大于预设相似度阈值时,可以认为实体语义检测模型训练完成,此时,可以停止对实体语义检测模型的训练。当相似度值小于或等于预设相似度阈值时,可以认为实体语义检测模型未训练完成,可以计算相似度值与预设相似度阈值的平均绝对误差损失,平均绝对误差损失可以作为实体语义检测模型的损失函数。示例性的,平均误差损失函数可以包括:其中h(x)表示预测分值,y表示真实分值(0,1)。
S324、按照平均绝对误差损失优化实体语义检测模型的权重和参数后重新训练实体语义检测模型。
在发明实施例中,可以按照平均绝对误差损失优化实体语义检测模型的权重和参数,优化权重和参数后,可以根据上述步骤重新训练实体语义检测模型,直至相似度值大于预设相似度阈值,完成实体语义检测模型的训练。
本发明实施例,通过将训练集中两个实体文本以及相似标签输入实体语义检测模型,获取训练集对应的实体向量,调用预设函数确定不同实体文本的实体向量之间的相似度值,在相似度值大于预设相似度阈值时,确定实体语义检测模型训练完成,否则,确定相似度值与预设相似度阈值的平均绝对误差损失,按照平均绝对误差损失优化实体语义检测模型的权重和参数后重新训练实体语义检测模型,实现实体语义检测模型的训练,通过将平均绝对误差损失函数作为优化的目标函数,提高了实体语义检测模型的精度,提升用户的使用体验。
在一实施例中,图5是根据本发明实施例三提供的一种关系语义检测模型的训练流程图,如图5所示,关系语义检测模型的训练包括:
S325、将训练集中实体关系以及关系标签输入关系语义检测模型,获取训练集对应的语义向量。
其中,关系向量可以是指实体关系对应的向量,不同实体关系可以对应不同的语义向量。其中,关系标签可以包括正样本标签和负样本标签,通过训练负样本,可以降低误检测率、误识别率,提高网络模型的泛化能力。在一实施例中,实体关系以及关系标签的输入格式可以为实体关系和关系标签,并用\t分隔符进行区分。
在发明实施例中,实体关系输入至实体语义检测模型后,可以先确定实体关系对应文本在源数据的正整数索引,通过one-hot向量对正整数索引进行转换,捕获文本与文本之间的关系,确定初始语义向量。再通过Transformer中的Encoder编码器通过与残差相加,确定训练集中每个实体关系文本对应的语义向量。
在一实施例中,S321和S325在实际的操作过程中,可以同时将训练集中两个实体文本、相似标签、实体关系以及关系标签输入至预设语义漂移检测模型,确定训练集对应的实体向量和语义向量。
S326、调用全连接网络确定对不同语义向量进行多分类,生成至少两个分类任务概率值,选择具有最大值对应的标签为预测标签。
其中,全连接网络的结构是最基本的神经网络/深度神经网络层,全连接层的每一个节点都与上一层的所有节点相连。全连接网络可以用于对不同语义向量进行多分类。
在发明实施例中,可以将语义向量输入至全连接网络,根据全连接网络对语义向量进行多分类,确定每个分类任务的概率值,确定预测标签。在实际的操作过程中,当语义向量输入至全连接网络后,全连接网络可以对语义向量进行分类,并根据分类任务对语义向量每个分类任务评估预测值,并选择具有最大值对应的标签为预测标签。
S327、在预测标签的正确概率值大于预设概率阈值时,确定实体语义检测模型训练完成,否则,确定正确概率值与预设概率阈值的交叉熵损失。
其中,预设概率阈值可以是预先设置的,用于确定关系语义检测模型是否完成训练的阈值,预设概率阈值可以是根据业务人员需求确定。其中,正确概率值可以是通过预测标签与输入的关系标签进行确定,当预测标签与关系标签相同,可以认为预测标签正确,根据预测标签正确的数量除以中预测标签的数量,可以确定预测标签的正确概率值。
在发明实施例中,可以根据预测标签与输入的关系标签确定正确概率值,当正确概率值大于预设概率阈值时,认为关系语义检测模型训练完成,此时,可以停止对关系语义检测模型的训练。当正确概率值小于或者等于预设概率阈值时,认为关系语义检测模型未训练完成,可以计算正确概率值与预设概率阈值的交叉熵损失。交叉熵损失函数可以作为关系语义检测模型的损失函数。示例性的,交叉熵损失函数可以包括:
S328、按照交叉熵损失优化关系语义检测模型的权重和参数后重新训练关系语义检测模型。
在发明实施例中,可以按照交叉熵损失优化关系语义检测模型的权重和参数,优化权重和参数后,可以根据上述步骤重新训练关系语义检测模型,直至预测标签的正确概率值大于预设概率阈值,完成关系语义检测模型的训练。
本发明实施例,通过将训练集中实体关系以及关系标签输入关系语义检测模型,获取训练集对应的语义向量,调用全连接网络确定对不同语义向量进行多分类,生成至少两个分类任务概率值,选择具有最大值对应的标签为预测标签,在预测标签的正确概率值大于预设概率阈值时,确定实体语义检测模型训练完成,否则,确定正确概率值与预设概率阈值的交叉熵损失,按照交叉熵损失优化关系语义检测模型的权重和参数后重新训练关系语义检测模型,实现关系语义检测模型的训练,通过将交叉熵损失函数作为优化的目标函数,提高了关系语义检测模型的精度,提升用户的使用体验。
实施例四
图6是根据本发明实施例四提供的一种语义漂移检测的架构图。如图6所示,语义漂移检测的架构图可以包括知识抽取模块、实体对齐模块和语义漂移检测模块。
其中,待识别文本数据可以包括结构化数据、半结构化数据、非结构化数据三种,通过知识抽取可以从待识别文本数据中获取信息。其中知识抽取的可以包括实体抽取和关系抽取。
在一实施例中,指示抽取模块可以采用联合抽取的预设知识抽取框架,联合抽取实体+关系的三元组信息,包括实体间的多关系抽取。
图7是根据本发明实施例四提供的一种预设知识抽取框架的结构示意图。如图7所示,预设知识抽取框架可以包括:双向长短期记忆网络编码器(Bi-directional LongShort-Term Memory Encoder,BiLSTM Encoder)、实体识别模块和关系识别模块。
其中,BiLSTM Encoder是由BiLSTM(Bi-directional Long Short-Term Memory)构成的,BiLSTM是由前向LSTM与后向LSTM组合而成,可以经过BiLSTM encoder对编码向量进行累加。在实际的操作过程中,可以将待识别文本数据文本序列化处理生成待识别文本序列,输入至BiLSTM Encoder,对待识别文本数据中的每个位置进行标注,并确定词向量。
其中,实体识别模块,用于自动发现具体的设备名称、组织机构名、地名、日期、时间等实体文本。在实际的操作过程中,可以在BiLSTM Encoder获取到词向量,将词向量输入至前馈神经网络,通过softmax损失函数计算每个词的标注类型概率,从而抽取具体的实体文本和实体类型。
其中,关系识别模块,用于将识别好的实体向量与经过BiLSTM encoder编码向量进行累加。每一个位置的编码结果用两个分类器进行分类,来判断其是否是实体文本的开始或结束位置,对于待识别文本中存在多个实体的情况,可以采用就近匹配原则进行配对,最终输出实体关系以及对应的实体文本对,也就是三元组。
在一实施例中,实体对齐模块,可用于判断相同或不同数据集中的多个实体是否指向客观世界同一实体,解决一个实体对应多个名称的问题。本方案种主要采用通用实体库(例如实体库、同义词库等)+领域实体库(例如领域第三方实体库)通过实体文本的对比,完成异构数据之间实体对齐。在实际的操作过程中,可以将抽取到的实体文本在索引字段中检索,获取候选实体(候选实体指的是es检索出来的文本)。通过以下公式计算得分,设置较低的得分门限,筛选候选文本。Score=M和Q的交集字数/M的字数。其中,M为候选实体,Q为query文本。通过遍历query的片段(将query切片,切成Q[1:2]、Q[1:3]、...、Q[n-1,:n]),与候选实体分别计算相似度,公式如下:Score=1-distance(M,P)/(len(M)+len(P)),其中,M为候选实体,P为query片段,distance为编辑距离。通过以下公式,对候选实体排序:Score+a*len(P)-b*len(M),其中,P为query片段,M为候选实体,a为匹配长度权重,b为候选实体长度权重。按照排序结果,输出分值最大的实体文本即为对齐实体文本。
在一实施例中,语义漂移检测模块可以包括预设语义漂移检测模型,预设语义漂移检测模型构建可以包括实体语义检测模型和关系语义检测模型。在一实施例中,预设语义漂移检测模型可以采用Transformer encoder+Attention+Multi-Tasks作为多任务学习模型,完成实体语义检测认任务、关系语义检测任务2个检测任务。
图8是根据本发明实施例四提供的一种预设语义漂移检测模型的结构示意图。如图8所示,预设语义漂移检测模型可以包括输入层(Input层)、分享层(Share层)和两个任务层。
其中,输入层可以对输入的训练集进行处理,根据任务类型可以有两种输入,针对实体语义漂移检测任务,实例输入样本格式可以为:实体文本、实体文本和实体标签,并用\t分隔符进行区分。针对关系语义检测任务,实例输入样本格式可以为:实体关系和关系标签,并用\t分隔符进行区分。
在一实施例中,训练集输入后,可以进入分享层中的Embedding层,实体文本和实体关系输入分享层后,可以先确定实体文本在源数据的正整数索引,通过one-hot向量对正整数索引进行转换,捕获文本与文本之间的关系,确定初始文本向量和初始关系向量。再通过Transformer中的Encoder编码器通过与残差相加,确定训练集中每个实体文本对应的实体向量和关系向量。
其中,Transformer中的Encoder编码器可以认为是多个Block组成,图9是根据本发明实施例四提供的Transformer encoder的结构示意图。如图9所示,每个Block在Self-attention的基础上增加了残差连接+Layer Norm+FC,更准确确定训练集对应的实体向量。
在一实施例中,图10是根据本发明实施例四提供的Block的结构示意图。其中,单个Block中的具体实现步骤可以包括:
步骤1:原始的输入向量b与输出向量a残差相加得到向量a+b;
步骤2:将向量a+b通过Layer Norm得到向量c;
步骤3:将向量c通过FC layer得到向量d;
步骤4:向量c与向量d残差相加,得到向量e;
步骤5:向量e通过Layer Norm输出向量f,此时得到的输出向量f才是Encoder中单个Block中的一个输出向量。
其中,一个残差块(shortcut connections/skip connections)分为直接映射部分(xl)和残差部分F(xl,Wl),可以表示为:X1=X1+(X1,W1),在一实施例中,Layer Norm计算公式可以包括:
其中,E[x]为期望,Var[x]为方差。
在一实施例中,实体向量可以进入实体语义检测任务,实体语义检测任务采用了孪生网络构架,输入是两个实体向量,输出是一个值域为[0,1]的实数,该值表明2个实体文本共享同一个关系类型的概率。在实际的操作过程中,预设函数可以包括distance函数,distance函数可以包括s(x,y)=σ(ws T(fs(x)-fs(y))2+bs),其中,fs(x),fs(y)分别代表通过Encoder编码器的输出函数,其中,x、y表示为实体向量。σ()表示sigmoid函数,ws表示权重和bs表示偏置。可以将平均绝对误差损失作为优化的目标函数,将两个实体文本的实体向量输入预设函数中,计算两个实体向量之间的相似度值,在相似度值大于预设相似度阈值时,确定实体语义检测模型训练完成,否则,确定相似度值与预设相似度阈值的平均绝对误差损失,按照平均绝对误差损失优化实体语义检测模型的权重和参数后重新训练实体语义检测模型。
在一实施例中,语义向量可以进入关系语义检测任务,关系语义检测任务由一个线性层组成,并选择将所有关系组织成一个多分类问题,不同的关系可以互相作为负例。在实际的操作过程中,可以将语义向量输入至全连接网络,根据全连接网络对语义向量进行多分类,确定每个分类任务的概率值,确定预测标签。在实际的操作过程中,当语义向量输入至全连接网络后,全连接网络可以对语义向量进行分类,并根据分类任务对语义向量每个分类任务评估预测值,并选择具有最大值对应的标签为预测标签。可以采用交叉熵损失作为优化的目标函数,在预测标签的正确概率值大于预设概率阈值时,确定实体语义检测模型训练完成,否则,确定正确概率值与预设概率阈值的交叉熵损失,按照交叉熵损失优化关系语义检测模型的权重和参数后重新训练关系语义检测模型。
在一实施例中,预设语义漂移检测模型的综合损失函数由上述两个任务的损失函数统一计算得到,其中,综合损失函数可以是用于度量预设语义漂移检测模型预测值与真实值的差异程度的运算函数,损失函数越小,模型的鲁棒性越好。预设语义漂移检测模型的综合损失函数可以由实体语义检测模型和关系语义检测模型确定。在一实施例中,综合损失函数可以由实体语义检测模型和关系语义检测模型确定,示例性的,综合损失函数可以包括:
其中σ1,σ2是噪声参数,分别控制着L1(W)、L2(W)损失的相对权重,若噪声参数σ越大,则对应的损失函数L(W)的权重就越小,但由于模型的会尽可能的让损失函数为0,则会使得σ变得很大,完全忽视了数据的影响,因此对噪声项增加了正则化项logσ。
实施例五
图11为本发明实施例五提供的一种语义漂移检测装置的结构示意图。如图11所示,该装置包括:文本数据获取模块51,实体获取模块52和语义漂移检测模块53。
其中,文本数据获取模块51,用于获取待识别文本数据。
实体获取模块52,用于根据预设知识抽取框架获取待识别文本数据中实体文本的实体类型以及实体关系,其中,知识抽取框架包括实体抽取框架和实体关系抽取框架。
语义漂移检测模块53,用于基于预设语义漂移检测模型对实体类型以及实体关系进行语义漂移检测,确定语义漂移情况,其中,预设语义漂移检测模型基于标记电力数据集、电力种子集以及未标记电力数据训练生成。
本发明实施例,通过文本数据获取模块获取待识别文本数据,实体获取模块根据预设知识抽取框架获取待识别文本数据中实体文本以及实体关系,语义漂移检测模基于预设语义漂移检测模型对实体语义以及实体关系进行语义漂移检测,确定语义漂移情况,实现便捷检测电力领域数据的语义漂移情况,降低人工检测的成本,进而可以剔除低质量的数据,构建高质量电力领域知识图谱。
在一实施例中,实体获取模块52,包括:
词性标注单元,用于将待识别文本数据文本序列化处理生成待识别文本序列,调用预设知识抽取框架中双向长短期记忆网络对待识别文本序列进行词性标注;
类型确定单元,用于按照预设知识抽取框架中前馈神经网络的softmax损失函数确定待识别文本数据的实体文本以及对应实体文本的实体类型;
语义确定单元,用于调用预设知识抽取框架内的基于前馈神经网络的预测分类器对词性标注进行分类,确定待识别文本数据中实体文本对应的关系语义。
在一实施例中,一种语义漂移检测装置,还包括:
实体对齐模块,用于将实体文本进行实体对齐。
在一实施例中,语义漂移检测模块53中语义漂移情况,包括以下至少之一:
当待识别文本数据中实体类型与预设实体类型的相似度值大于预设相似度阈值时,确认实体类型未发生语义漂移;
当基于预设语义漂移检测模型输出的实体关系包含于待识别文本数据时,确认实体关系未发生语义漂移;
当实体类型和实体关系均未发生语义漂移,确认待识别文本数据未发生语义漂移;
当实体类型和/或实体关系均发生语义漂移,确认待识别文本数据发生语义漂移。
在一实施例中,语义漂移检测模块53中预设语义漂移检测模型包括实体语义检测模型和关系语义检测模型,预设语义漂移检测模型包括输入层、共享层和两个任务层,相应的,预设语义漂移检测模型的训练,包括:
获取预先存储的标记电力数据集,将标记电力数据集作为训练集;
将训练集输入预先构建的预设语义漂移检测模型进行训练,其中,预设语义漂移检测模型的综合损失函数由实体语义检测模型和关系语义检测模型确定。
在一实施例中,实体语义检测模型的训练包括:
将电力数据集中两个实体文本以及相似标签输入实体语义检测模型,获取训练集对应的实体向量;
调用预设函数确定不同实体文本的实体向量之间的相似度值;
在相似度值大于预设相似度阈值时,确定实体语义检测模型训练完成,否则,确定相似度值与预设相似度阈值的平均绝对误差损失;
按照平均绝对误差损失优化实体语义检测模型的权重和参数后重新训练实体语义检测模型。
在一实施例中,关系语义检测模型的训练包括:
将训练集中实体关系以及关系标签输入关系语义检测模型,获取训练集对应的语义向量;
调用全连接网络确定对不同特征向量进行多分类,生成至少两个分类任务概率值,选择具有最大值对应的标签为预测标签;
在预测标签的正确概率值大于预设概率阈值时,确定实体语义检测模型训练完成,否则,确定正确概率值与预设概率阈值的交叉熵损失;
按照交叉熵损失优化关系语义检测模型的权重和参数后重新训练关系语义检测模型。
本发明实施例所提供的一种语义漂移检测装置可执行本发明任意实施例所提供的一种语义漂移检测方法,具备执行方法相应的功能模块和有益效果。
实施例六
图12是实现本发明实施例的语义漂移检测方法的电子设备10的结构示意图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备(如头盔、眼镜、手表等)和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本发明的实现。
如图12所示,电子设备10包括至少一个处理器11,以及与至少一个处理器11通信连接的存储器,如只读存储器(ROM)12、随机访问存储器(RAM)13等,其中,存储器存储有可被至少一个处理器执行的计算机程序,处理器11可以根据存储在只读存储器(ROM)12中的计算机程序或者从存储单元18加载到随机访问存储器(RAM)13中的计算机程序,来执行各种适当的动作和处理。在RAM 13中,还可存储电子设备10操作所需的各种程序和数据。处理器11、ROM 12以及RAM 13通过总线14彼此相连。输入/输出(I/O)接口15也连接至总线14。
电子设备10中的多个部件连接至I/O接口15,包括:输入单元16,例如键盘、鼠标等;输出单元17,例如各种类型的显示器、扬声器等;存储单元18,例如磁盘、光盘等;以及通信单元19,例如网卡、调制解调器、无线通信收发机等。通信单元19允许电子设备10通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
处理器11可以是各种具有处理和计算能力的通用和/或专用处理组件。处理器11的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的处理器、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。处理器11执行上文所描述的各个方法和处理,例如一种语义漂移检测方法。
在一些实施例中,一种语义漂移检测方法可被实现为计算机程序,其被有形地包含于计算机可读存储介质,例如存储单元18。在一些实施例中,计算机程序的部分或者全部可以经由ROM 12和/或通信单元19而被载入和/或安装到电子设备10上。当计算机程序加载到RAM 13并由处理器11执行时,可以执行上文描述的一种语义漂移检测方法的一个或多个步骤。备选地,在其他实施例中,处理器11可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行一种语义漂移检测方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本发明的方法的计算机程序可以采用一个或多个编程语言的任何组合来编写。这些计算机程序可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器,使得计算机程序当由处理器执行时使流程图和/或框图中所规定的功能/操作被实施。计算机程序可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本发明的上下文中,计算机可读存储介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的计算机程序。计算机可读存储介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。备选地,计算机可读存储介质可以是机器可读信号介质。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在电子设备上实施此处描述的系统和技术,该电子设备具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给电子设备。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)、区块链网络和互联网。
计算系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务中,存在的管理难度大,业务扩展性弱的缺陷。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发明中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本发明的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。
Claims (10)
1.一种语义漂移检测方法,其特征在于,包括:
获取待识别文本数据;
根据预设知识抽取框架获取所述待识别文本数据中实体文本的实体类型以及实体关系,其中,所述知识抽取框架包括实体抽取框架和实体关系抽取框架;
基于预设语义漂移检测模型对所述实体类型以及所述实体关系进行语义漂移检测,确定语义漂移情况,其中,所述预设语义漂移检测模型基于标记电力数据集、电力种子集以及未标记电力数据训练生成。
2.根据权利要求1所述的方法,其特征在于,所述根据预设知识抽取框架获取所述待识别文本数据中实体文本的实体类型以及实体关系,包括:
将所述待识别文本数据文本序列化处理生成待识别文本序列,调用所述预设知识抽取框架中双向长短期记忆网络对所述待识别文本序列进行词性标注;
按照所述预设知识抽取框架中前馈神经网络的softmax损失函数确定待识别文本数据的实体文本以及对应实体文本的实体类型;
调用所述预设知识抽取框架内的基于前馈神经网络的预测分类器对所述词性标注进行分类,确定所述待识别文本数据中所述实体文本对应的关系语义。
3.根据权利要求1所述的方法,其特征在于,根据预设知识抽取框架获取所述待识别文本数据中实体文本的实体类型以及实体关系之后,还包括:
将所述实体文本进行实体对齐。
4.根据权利要求1所述的方法,其特征在于,所述语义漂移情况,包括以下至少之一:
当所述待识别文本数据中实体类型与预设实体类型的相似度值大于预设相似度阈值时,确认所述实体类型未发生语义漂移;
当基于所述预设语义漂移检测模型输出的实体关系包含于所述待识别文本数据时,确认所述实体关系未发生语义漂移;
当所述实体类型和实体关系均未发生语义漂移,确认所述待识别文本数据未发生语义漂移;
当所述实体类型和/或实体关系均发生语义漂移,确认所述待识别文本数据发生语义漂移。
5.根据权利要求1所述的方法,其特征在于,所述预设语义漂移检测模型包括实体语义检测模型和关系语义检测模型,所述预设语义漂移检测模型包括输入层、共享层和两个任务层,相应的,所述预设语义漂移检测模型的训练,包括:
获取预先存储的标记电力数据集,将所述标记电力数据集作为训练集;
将所述训练集输入预先构建的所述预设语义漂移检测模型进行训练,其中,所述预设语义漂移检测模型的综合损失函数由所述实体语义检测模型和所述关系语义检测模型确定。
6.根据权利要求5所述的方法,其特征在于,所述实体语义检测模型的训练包括:
将所述训练集中两个实体文本以及相似标签输入所述实体语义检测模型,获取所述训练集对应的实体向量;
调用预设函数确定不同实体文本的所述实体向量之间的相似度值;
在所述相似度值大于相似度阈值时,确定所述实体语义检测模型训练完成,否则,确定所述相似度值与所述阈值的平均绝对误差损失;
按照所述平均绝对误差损失优化所述实体语义检测模型的权重和参数后重新训练所述实体语义检测模型。
7.根据权利要求5所述的方法,其特征在于,所述关系语义检测模型的训练包括:
将训练集中实体关系以及关系标签输入所述关系语义检测模型,获取所述训练集对应的语义向量;
调用全连接网络确定对不同特征向量进行多分类,生成至少两个分类任务概率值,选择具有最大值对应的标签为预测标签;
在所述预测标签的正确概率值大于概率阈值时,确定所述实体语义检测模型训练完成,否则,确定所述正确概率值与所述阈值的交叉熵损失;
按照所述交叉熵损失优化所述关系语义检测模型的权重和参数后重新训练所述关系语义检测模型。
8.一种语义漂移检测装置,其特征在于,包括:
文本数据获取模块,用于获取待识别文本数据;
实体获取模块,用于根据预设知识抽取框架获取所述待识别文本数据中实体文本的实体类型以及实体关系,其中,所述知识抽取框架包括实体抽取框架和实体关系抽取框架;
语义漂移检测模块,用于基于预设语义漂移检测模型对所述实体类型以及所述实体关系进行语义漂移检测,确定语义漂移情况,其中,所述预设语义漂移检测模型基于标记电力数据集、电力种子集以及未标记电力数据训练生成。
9.一种电子设备,其特征在于,所述电子设备包括:
至少一个处理器;
以及与所述至少一个处理器通信连接的存储器;
其中,所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-7中任一项所述的语义漂移检测方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行时实现权利要求1-7中任一项所述的语义漂移检测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310224345.4A CN116502646A (zh) | 2023-03-09 | 2023-03-09 | 一种语义漂移检测方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310224345.4A CN116502646A (zh) | 2023-03-09 | 2023-03-09 | 一种语义漂移检测方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116502646A true CN116502646A (zh) | 2023-07-28 |
Family
ID=87327410
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310224345.4A Pending CN116502646A (zh) | 2023-03-09 | 2023-03-09 | 一种语义漂移检测方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116502646A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116911313A (zh) * | 2023-09-12 | 2023-10-20 | 深圳须弥云图空间科技有限公司 | 一种语义漂移文本的识别方法及装置 |
CN117556365A (zh) * | 2024-01-12 | 2024-02-13 | 山东建筑大学 | 一种流程数据漂移检测模型训练、漂移检测方法及装置 |
-
2023
- 2023-03-09 CN CN202310224345.4A patent/CN116502646A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116911313A (zh) * | 2023-09-12 | 2023-10-20 | 深圳须弥云图空间科技有限公司 | 一种语义漂移文本的识别方法及装置 |
CN116911313B (zh) * | 2023-09-12 | 2024-02-20 | 深圳须弥云图空间科技有限公司 | 一种语义漂移文本的识别方法及装置 |
CN117556365A (zh) * | 2024-01-12 | 2024-02-13 | 山东建筑大学 | 一种流程数据漂移检测模型训练、漂移检测方法及装置 |
CN117556365B (zh) * | 2024-01-12 | 2024-04-09 | 山东建筑大学 | 一种流程数据漂移检测模型训练、漂移检测方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Batra et al. | Integrating StockTwits with sentiment analysis for better prediction of stock price movement | |
CN112036167B (zh) | 数据处理方法、装置、服务器及存储介质 | |
CN110727779A (zh) | 基于多模型融合的问答方法及系统 | |
CN116502646A (zh) | 一种语义漂移检测方法、装置、电子设备及存储介质 | |
CN107193796B (zh) | 一种舆情事件检测方法及装置 | |
CN108984775B (zh) | 一种基于商品评论的舆情监控方法及系统 | |
CN113255320A (zh) | 基于句法树和图注意力机制的实体关系抽取方法及装置 | |
CN113157886B (zh) | 一种自动问答生成方法、系统、终端及可读存储介质 | |
CN113553412B (zh) | 问答处理方法、装置、电子设备和存储介质 | |
CN110888980A (zh) | 基于知识增强的注意力神经网络的隐式篇章关系识别方法 | |
CN112131352A (zh) | 一种网页文本类不良信息的检测方法与检测系统 | |
CN113191148A (zh) | 一种基于半监督学习和聚类的轨道交通实体识别方法 | |
CN115688920A (zh) | 知识抽取方法、模型的训练方法、装置、设备和介质 | |
CN116304745B (zh) | 基于深层次语义信息的文本话题匹配方法及系统 | |
CN116089873A (zh) | 模型训练方法、数据分类分级方法、装置、设备及介质 | |
CN113051922A (zh) | 一种基于深度学习的三元组抽取方法及系统 | |
CN115310443A (zh) | 模型训练方法、信息分类方法、装置、设备及存储介质 | |
CN112989792A (zh) | 事例检测方法和电子设备 | |
CN114692778A (zh) | 用于智能巡检的多模态样本集生成方法、训练方法及装置 | |
CN117632654A (zh) | 一种运维风险等级评估方法、装置、电子设备及存储介质 | |
CN111859979A (zh) | 讽刺文本协同识别方法、装置、设备及计算机可读介质 | |
CN116383517A (zh) | 动态传播特征增强的多模态谣言检测方法及系统 | |
CN114443904B (zh) | 视频查询方法、装置、计算机设备及计算机可读存储介质 | |
CN115640399A (zh) | 一种文本分类的方法、装置、设备及存储介质 | |
CN114694098A (zh) | 基于图像识别与知识图谱的电网基建施工风险管控方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |