CN111325019A - 词库的更新方法及装置、电子设备 - Google Patents

词库的更新方法及装置、电子设备 Download PDF

Info

Publication number
CN111325019A
CN111325019A CN202010072472.3A CN202010072472A CN111325019A CN 111325019 A CN111325019 A CN 111325019A CN 202010072472 A CN202010072472 A CN 202010072472A CN 111325019 A CN111325019 A CN 111325019A
Authority
CN
China
Prior art keywords
new
data
audit
word
corpus
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010072472.3A
Other languages
English (en)
Inventor
尚颖
马薇
徐光兵
黄松
李彦龙
梁卫泉
丁勇
王端瑞
侯本忠
张永强
闫丽飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Corp of China SGCC
State Grid Beijing Electric Power Co Ltd
Fujian Yirong Information Technology Co Ltd
Original Assignee
State Grid Corp of China SGCC
State Grid Beijing Electric Power Co Ltd
Fujian Yirong Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Corp of China SGCC, State Grid Beijing Electric Power Co Ltd, Fujian Yirong Information Technology Co Ltd filed Critical State Grid Corp of China SGCC
Priority to CN202010072472.3A priority Critical patent/CN111325019A/zh
Publication of CN111325019A publication Critical patent/CN111325019A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种词库的更新方法及装置、电子设备。其中,该方法包括:获取审计新语料,其中,审计新语料中包括:审计基础词和电力资料语句;对审计新语料进行标注处理,得到基础样本数据;采用新词检索模型识别基础样本数据中的新词,其中,新词检索模型是基于多组数据训练得到的,多组数据中的每组数据包括:词库词语和新词预测概率;基于新词更新审计资料词库。本发明解决了相关技术中提取语料时容易遗漏专业术语,导致术语资料库的数据质量不均衡、数据不全面的技术问题。

Description

词库的更新方法及装置、电子设备
技术领域
本发明涉及电力数据处理技术领域,具体而言,涉及一种词库的更新方法及装置、电子设备。
背景技术
在电力领域中,对不经过处理的原始语料进行词语分析时,未登陆词是一个很大的问题,未登录词是指没有被收录在电力分词词表中但必须切分出来的词,包括各类专有名词(人名、地名、企业名等)、缩写词、新增词汇等。而且未登陆词大多是电力领域的专业术语,因此术语发现是一个需要迫切解决的问题,术语的发现直接影响语料库的好坏,在术语发现过程中,主要的工作是完成术语提取,即从待处理语料中提取出术语,以保证术语库的全面性和准确性。
当前,电网公司数字化审计领域的各类审计对象、审计依据及审计结果均为电子文档,其中涉及到审计业务及电力相关专业领域的大量术语,在数据处理过程中需要使用审计术语库,但是当前的审计术语库更新存在较大的弊端,例如,基于统计信息的方式对语料的质量依赖度高,极易造成提取关键词不够准确、检索命中率不高的问题。而根据网络数据采集后再进行领域分类,无法避免采集数据质量不均衡、采集不全面等实际情况,从而导致采用这种方式提取的术语内容存在很大弊端,术语库使用效果大大降低。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种词库的更新方法及装置、电子设备,以至少解决相关技术中提取语料时容易遗漏专业术语,导致术语资料库的数据质量不均衡、数据不全面的技术问题。
根据本发明实施例的一个方面,提供了一种词库的更新方法,包括:获取审计新语料,其中,所述审计新语料中包括:审计基础词和电力资料语句;对所述审计新语料进行标注处理,得到基础样本数据;采用新词检索模型识别所述基础样本数据中的新词,其中,所述新词检索模型是基于多组数据训练得到的,所述多组数据中的每组数据包括:词库词语和新词预测概率;基于所述新词更新审计资料词库。
可选地,对所述审计新语料进行标注处理,得到基础样本数据的步骤,包括:采用正则表达式标注所述审计新语料中新词样本数据;和/或,接收新词实体信息,并基于所述新词实体信息标注所述审计新语料中的新词样本,其中,所述新词实体信息用于指示所述审计新语料中未出现在所述审计资料词库的新词信息。
可选地,在获取审计新语料之后,所述更新方法还包括:对所述审计新语料的头空格和尾空格进行清理;对所述审计新语料中的换行字符进行清理;将多行语料进行拼接处理;将所述审计新语料中的繁体字符转换为简体字符,以完成新语料预处理。
可选地,在采用新词检索模型识别所述基础样本数据中的新词之前,所述更新方法还包括:采用条件随机模型训练所述基础样本数据,得到第一训练数据;采用预设分词模型BERT训练所述基础样本数据,得到第二训练数据;利用所述第一训练数据和所述第二训练数据构建所述新词检索模型;采用所述新词检索模型识别预处理后的审计新语料中的初始新词,得到新词候选词。
可选地,在采用新词检索模型识别所述基础样本数据中的新词之前,所述更新方法还包括:获取电网历史数据,其中,所述电网历史数据至少包括:电力审计历史数据;基于所述电网历史数据构建审计资料词库,其中,所述审计资料词库至少包括:电力行业息的审计词汇。
可选地,在采用新词检索模型识别所述基础样本数据中的新词之后,所述更新方法还包括:接收新词的审计批注信息;基于所述审计批注信息,确认是否将所述新词录入所述审计资料词库。
根据本发明实施例的另一方面,还提供了一种词库的更新装置,包括:获取单元,用于获取审计新语料,其中,所述审计新语料中包括:审计基础词和电力资料语句;标注单元,用于对所述审计新语料进行标注处理,得到基础样本数据;识别单元,用于采用新词检索模型识别所述基础样本数据中的新词,其中,所述新词检索模型是基于多组数据训练得到的,所述多组数据中的每组数据包括:词库词语和新词预测概率;更新单元,用于基于所述新词更新审计资料词库。
可选地,所述标注单元包括:第一标注模块,用于采用正则表达式标注所述审计新语料中新词样本数据;和/或,第二标注模块,用于接收新词实体信息,并基于所述新词实体信息标注所述审计新语料中的新词样本,其中,所述新词实体信息用于指示所述审计新语料中未出现在所述审计资料词库的新词信息。
可选地,所述词库的更新装置还包括:第一清理单元,用于在获取审计新语料之后,对所述审计新语料的头空格和尾空格进行清理;第二清理单元,用于对所述审计新语料中的换行字符进行清理;拼接单元,用于将多行语料进行拼接处理;转换单元,用于将所述审计新语料中的繁体字符转换为简体字符,以完成新语料预处理。
可选地,所述词库的更新装置还包括:第一训练单元,用于在采用新词检索模型识别所述基础样本数据中的新词之前,采用条件随机模型训练所述基础样本数据,得到第一训练数据;第二训练单元,用于采用预设分词模型BERT训练所述基础样本数据,得到第二训练数据;构建单元,用于利用所述第一训练数据和所述第二训练数据构建所述新词检索模型;第一识别模块,用于采用所述新词检索模型识别预处理后的审计新语料中的初始新词,得到新词候选词。
可选地,所述词库的更新装置还包括:获取单元,用于在采用新词检索模型识别所述基础样本数据中的新词之前,获取电网历史数据,其中,所述电网历史数据至少包括:电力审计历史数据;构建模块,用于基于所述电网历史数据构建审计资料词库,其中,所述审计资料词库至少包括:电力行业息的审计词汇。
可选地,所述词库的更新装置还包括:接收单元,用于在采用新词检索模型识别所述基础样本数据中的新词之后,接收新词的审计批注信息;录入单元,用于基于所述审计批注信息,确认是否将所述新词录入所述审计资料词库。
根据本发明实施例的另一方面,还提供了一种电子设备,包括:处理器;以及存储器,用于存储所述处理器的可执行指令;其中,所述处理器配置为经由执行所述可执行指令来执行上述任意一项所述的词库的更新方法。
根据本发明实施例的另一方面,还提供了一种存储介质,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行上述任意一项所述的词库的更新方法。
在本发明实施例中,获取审计新语料,然后对审计新语料进行标注处理,得到基础样本数据,之后可采用新词检索模型识别基础样本数据中的新词,最后基于新词更新审计资料词库。在该实施例中,可以通过基础标注和检索模型,快速实现语料标注,并采用机器学习算法对语料进行识别,能够得到更为全面的审计资料词库,实时更新最新使用的专业术语,资料词库数据质量更为均衡,使领域词汇发现效果及效率都得到大幅提升,从而解决相关技术中提取语料时容易遗漏专业术语,导致术语资料库的数据质量不均衡、数据不全面的技术问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的一种可选的词库的更新方法的流程图;
图2是根据本发明实施例的一种可选的词库的更新装置的示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
本发明实施例可应用于电力专业领域,尤其是电力审计场景,为解决现有技术中存在的资料库中的数据不均衡、采集不全面等问题,避免遗漏专业术语,本发明技术方案采用基于深度学习预训练语言模型BERT,通过规则标注+机器学习算法方式实现专有词汇提取,并结合审计基础语料库进行过滤筛选,最终得出包含高质量审计专有词汇的审计资料词库。
BERT模型,Bidirectional Encoder Representation from Transformers,是一种深度学习语言模型,使用了海量的语料进行训练,使模型具有非常强的语义特征表示能力,本发明基于BERT+CRF方式可以解决传统统计方法、词共现概率等无法包含丰富的语义表征能力的问题。
CRF模型,条件随机模型。
在基础语料处理的问题上不管是传统统计信息方法还是词共现方法,都需要进行分词处理,不可避免会涉及到分词算法准确率的问题。因此本发明创新的提出了一种通过规则标注+BERT+CRF的识别方法,能够快速实现语料标注,并采用机器学习算法对语料进行识别,使领域词汇发现效果及效率都得到大幅提升,得到较为全面、准确的审计资料词库。下面结合各实施例来说明本发明
根据本发明实施例,提供了一种词库的更新方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图1是根据本发明实施例的一种可选的词库的更新方法的流程图,如图1所示,该方法包括如下步骤:
步骤S102,获取审计新语料,其中,审计新语料中包括:审计基础词和电力资料语句;
步骤S104,对审计新语料进行标注处理,得到基础样本数据;
步骤S106,采用新词检索模型识别基础样本数据中的新词,其中,新词检索模型是基于多组数据训练得到的,多组数据中的每组数据包括:词库词语和新词预测概率;
步骤S108,基于新词更新审计资料词库。
通过上述步骤,可以先获取审计新语料,然后对审计新语料进行标注处理,得到基础样本数据,之后可采用新词检索模型识别基础样本数据中的新词,最后基于新词更新审计资料词库。在该实施例中,可以通过基础标注和检索模型,快速实现语料标注,并采用机器学习算法对语料进行识别,能够得到更为全面的审计资料词库,实时更新最新使用的专业术语,资料词库数据质量更为均衡,使领域词汇发现效果及效率都得到大幅提升,从而解决相关技术中提取语料时容易遗漏专业术语,导致术语资料库的数据质量不均衡、数据不全面的技术问题。
在本发明实施例,在更新资料词库(可理解为术语资料库,或者审计术语库)时,涉及到语料预处理、语料标注、用模型训练样本语料库、用模型识别新增语料、术语筛选。
下面结合上述各步骤来说明本发明。
步骤S102,获取审计新语料,其中,审计新语料中包括:审计基础词和电力资料语句。
本发明实施例主要是针对电力审计领域,涉及到的语料内容包含了审计基础词和电力资料语句。
可选的,在获取审计新语料之后,更新方法还包括:对审计新语料的头空格和尾空格进行清理;对审计新语料中的换行字符进行清理;将多行语料进行拼接处理;将审计新语料中的繁体字符转换为简体字符,以完成新语料预处理。
在进行语料预处理过程中,可以对语料的头尾空格、换行等无意义字符进行清理;将多行的语料拼接成一行;将语料中繁体转换成简体等操作,便于后续对语料进行标注、识别。
在完成新语料预处理后,可以进行语料标注操作。
步骤S104,对审计新语料进行标注处理,得到基础样本数据。
在本发明实施例中,对审计新语料进行标注处理,得到基础样本数据的步骤,包括:采用正则表达式标注审计新语料中新词样本数据;和/或,接收新词实体信息,并基于新词实体信息标注审计新语料中的新词样本,其中,新词实体信息用于指示审计新语料中未出现在审计资料词库的新词信息。
对预处理后的语料进行规则标注(当然也可以接收人工输入标注内容),生成CRF训练模型的基础样本数据。其中,规则提取用正则表达式快速标注样本数据,人工标注则用于标注哪些无明显规则的实体信息数据。
在对审计新语料进行标注后,可以训练BERF模型和CRF模型。
作为本发明可选的实施例,在采用新词检索模型识别基础样本数据中的新词之前,更新方法还包括:采用条件随机模型训练基础样本数据,得到第一训练数据;采用预设分词模型BERT训练基础样本数据,得到第二训练数据;利用第一训练数据和第二训练数据构建新词检索模型;采用新词检索模型识别预处理后的审计新语料中的初始新词,得到新词候选词。
对语料标注后的数据,采用BERF模型和CRF模型进行训练,形成基于机器学习的新词检索模型,以通过新词检索模型,对新的语料数据经过语料预处理后,进行模型识别,生成新词候选词。
在训练并使用模型后,可以进行候选词筛选。
另一种可选的,在采用新词检索模型识别基础样本数据中的新词之前,更新方法还包括:获取电网历史数据,其中,电网历史数据至少包括:电力审计历史数据;基于电网历史数据构建审计资料词库,其中,审计资料词库至少包括:电力行业息的审计词汇。
对海量的电力审计历史数据,可构建包含丰富的电力行业信息的审计基础资料库,本发明实施例中通过审计基础资料库进行全文搜索,匹配过滤,得到审计结果中应用过的审计词汇,提高审计专有词库的精准度。
步骤S106,采用新词检索模型识别基础样本数据中的新词,其中,新词检索模型是基于多组数据训练得到的,多组数据中的每组数据包括:词库词语和新词预测概率。
可选的,在采用新词检索模型识别基础样本数据中的新词之后,更新方法还包括:接收新词的审计批注信息;基于审计批注信息,确认是否将新词录入审计资料词库。
步骤S108,基于新词更新审计资料词库。
在本发明实施例中,识别基础样本数据中的新词后,还可以接收外部人工审核信息,以确定新词是否需要更新至审计资料词库,保存更新的新词语。
本发明实施例,通过上述各步骤,提出一种基于深度学习预训练语言模型BERT,结合规则提取+CRF机器学习算法结合的方式,无需切分语料,可能更为全面、准确的得到电力审计新词,具有不受语料分词影响、语义理解能力强、覆盖全面的有益效果。
下面结合另一种可选的实施例来说明本发明。
图2是根据本发明实施例的一种可选的词库的更新装置的示意图,如图2所示,该更新装置还包括:获取单元21、标注单元23、识别单元25、更新单元27,其中,
获取单元21,用于获取审计新语料,其中,审计新语料中包括:审计基础词和电力资料语句;
标注单元23,用于对审计新语料进行标注处理,得到基础样本数据;
识别单元25,用于采用新词检索模型识别基础样本数据中的新词,其中,新词检索模型是基于多组数据训练得到的,多组数据中的每组数据包括:词库词语和新词预测概率;
更新单元27,用于基于新词更新审计资料词库。
上述词库的更新装置,可以通过获取单元21获取审计新语料,然后通过标注单元23对审计新语料进行标注处理,得到基础样本数据,之后可通过识别单元25采用新词检索模型识别基础样本数据中的新词,最后通过更新单元27基于新词更新审计资料词库。在该实施例中,可以通过基础标注和检索模型,快速实现语料标注,并采用机器学习算法对语料进行识别,能够得到更为全面的审计资料词库,实时更新最新使用的专业术语,资料词库数据质量更为均衡,使领域词汇发现效果及效率都得到大幅提升,从而解决相关技术中提取语料时容易遗漏专业术语,导致术语资料库的数据质量不均衡、数据不全面的技术问题。
可选的,标注单元包括:第一标注模块,用于采用正则表达式标注审计新语料中新词样本数据;和/或,第二标注模块,用于接收新词实体信息,并基于新词实体信息标注审计新语料中的新词样本,其中,新词实体信息用于指示审计新语料中未出现在审计资料词库的新词信息。
另一种可选的,词库的更新装置还包括:第一清理单元,用于在获取审计新语料之后,对审计新语料的头空格和尾空格进行清理;第二清理单元,用于对审计新语料中的换行字符进行清理;拼接单元,用于将多行语料进行拼接处理;转换单元,用于将审计新语料中的繁体字符转换为简体字符,以完成新语料预处理。
在本发明实施例中,词库的更新装置还包括:第一训练单元,用于在采用新词检索模型识别基础样本数据中的新词之前,采用条件随机模型训练基础样本数据,得到第一训练数据;第二训练单元,用于采用预设分词模型BERT训练基础样本数据,得到第二训练数据;构建单元,用于利用第一训练数据和第二训练数据构建新词检索模型;第一识别模块,用于采用新词检索模型识别预处理后的审计新语料中的初始新词,得到新词候选词。
可选的,词库的更新装置还包括:获取单元,用于在采用新词检索模型识别基础样本数据中的新词之前,获取电网历史数据,其中,电网历史数据至少包括:电力审计历史数据;构建模块,用于基于电网历史数据构建审计资料词库,其中,审计资料词库至少包括:电力行业息的审计词汇。
可选的,词库的更新装置还包括:接收单元,用于在采用新词检索模型识别基础样本数据中的新词之后,接收新词的审计批注信息;录入单元,用于基于审计批注信息,确认是否将新词录入审计资料词库。
上述的词库的更新装置还可以包括处理器和存储器,上述获取单元21、标注单元23、识别单元25、更新单元27等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
上述处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来更新审计资料词库。
上述存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
根据本发明实施例的另一方面,还提供了一种电子设备,包括:处理器;以及存储器,用于存储处理器的可执行指令;其中,处理器配置为经由执行可执行指令来执行上述任意一项的词库的更新方法。
根据本发明实施例的另一方面,还提供了一种存储介质,存储介质包括存储的程序,其中,在程序运行时控制存储介质所在设备执行上述任意一项的词库的更新方法。
本申请还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序:获取审计新语料,其中,审计新语料中包括:审计基础词和电力资料语句;对审计新语料进行标注处理,得到基础样本数据;采用新词检索模型识别基础样本数据中的新词,其中,新词检索模型是基于多组数据训练得到的,多组数据中的每组数据包括:词库词语和新词预测概率;基于新词更新审计资料词库。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.一种词库的更新方法,其特征在于,包括:
获取审计新语料,其中,所述审计新语料中包括:审计基础词和电力资料语句;
对所述审计新语料进行标注处理,得到基础样本数据;
采用新词检索模型识别所述基础样本数据中的新词,其中,所述新词检索模型是基于多组数据训练得到的,所述多组数据中的每组数据包括:词库词语和新词预测概率;
基于所述新词更新审计资料词库。
2.根据权利要求1所述的更新方法,其特征在于,对所述审计新语料进行标注处理,得到基础样本数据的步骤,包括:
采用正则表达式标注所述审计新语料中新词样本数据;和/或,
接收新词实体信息,并基于所述新词实体信息标注所述审计新语料中的新词样本,其中,所述新词实体信息用于指示所述审计新语料中未出现在所述审计资料词库的新词信息。
3.根据权利要求1所述的更新方法,其特征在于,在获取审计新语料之后,所述更新方法还包括:
对所述审计新语料的头空格和尾空格进行清理;
对所述审计新语料中的换行字符进行清理;
将多行语料进行拼接处理;
将所述审计新语料中的繁体字符转换为简体字符,以完成新语料预处理。
4.根据权利要求3所述的更新方法,其特征在于,在采用新词检索模型识别所述基础样本数据中的新词之前,所述更新方法还包括:
采用条件随机模型训练所述基础样本数据,得到第一训练数据;
采用预设分词模型BERT训练所述基础样本数据,得到第二训练数据;
利用所述第一训练数据和所述第二训练数据构建所述新词检索模型;
采用所述新词检索模型识别预处理后的审计新语料中的初始新词,得到新词候选词。
5.根据权利要求4所述的更新方法,其特征在于,在采用新词检索模型识别所述基础样本数据中的新词之前,所述更新方法还包括:
获取电网历史数据,其中,所述电网历史数据至少包括:电力审计历史数据;
基于所述电网历史数据构建审计资料词库,其中,所述审计资料词库至少包括:电力行业息的审计词汇。
6.根据权利要求1所述的更新方法,其特征在于,在采用新词检索模型识别所述基础样本数据中的新词之后,所述更新方法还包括:
接收新词的审计批注信息;
基于所述审计批注信息,确认是否将所述新词录入所述审计资料词库。
7.一种词库的更新装置,其特征在于,包括:
获取单元,用于获取审计新语料,其中,所述审计新语料中包括:审计基础词和电力资料语句;
标注单元,用于对所述审计新语料进行标注处理,得到基础样本数据;
识别单元,用于采用新词检索模型识别所述基础样本数据中的新词,其中,所述新词检索模型是基于多组数据训练得到的,所述多组数据中的每组数据包括:词库词语和新词预测概率;
更新单元,用于基于所述新词更新审计资料词库。
8.根据权利要求7所述的更新装置,其特征在于,所述标注单元包括:
第一标注模块,用于采用正则表达式标注所述审计新语料中新词样本数据;和/或,
第二标注模块,用于接收新词实体信息,并基于所述新词实体信息标注所述审计新语料中的新词样本,其中,所述新词实体信息用于指示所述审计新语料中未出现在所述审计资料词库的新词信息。
9.一种电子设备,其特征在于,包括:
处理器;以及
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行权利要求1至6中任意一项所述的词库的更新方法。
10.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行权利要求1至6中任意一项所述的词库的更新方法。
CN202010072472.3A 2020-01-21 2020-01-21 词库的更新方法及装置、电子设备 Pending CN111325019A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010072472.3A CN111325019A (zh) 2020-01-21 2020-01-21 词库的更新方法及装置、电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010072472.3A CN111325019A (zh) 2020-01-21 2020-01-21 词库的更新方法及装置、电子设备

Publications (1)

Publication Number Publication Date
CN111325019A true CN111325019A (zh) 2020-06-23

Family

ID=71171013

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010072472.3A Pending CN111325019A (zh) 2020-01-21 2020-01-21 词库的更新方法及装置、电子设备

Country Status (1)

Country Link
CN (1) CN111325019A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111950265A (zh) * 2020-08-25 2020-11-17 中国电子科技集团公司信息科学研究院 一种领域词库构建方法和装置
CN112364628A (zh) * 2020-11-20 2021-02-12 创优数字科技(广东)有限公司 一种新词识别方法、装置、电子设备及存储介质
CN112632985A (zh) * 2020-12-18 2021-04-09 国网北京市电力公司 语料的处理方法、装置、存储介质及处理器

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180365616A1 (en) * 2017-06-20 2018-12-20 Walmart Apollo, Llc Systems and methods for management of inventory audits
CN109858010A (zh) * 2018-11-26 2019-06-07 平安科技(深圳)有限公司 领域新词识别方法、装置、计算机设备和存储介质
CN110083831A (zh) * 2019-04-16 2019-08-02 武汉大学 一种基于BERT-BiGRU-CRF的中文命名实体识别方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180365616A1 (en) * 2017-06-20 2018-12-20 Walmart Apollo, Llc Systems and methods for management of inventory audits
CN109858010A (zh) * 2018-11-26 2019-06-07 平安科技(深圳)有限公司 领域新词识别方法、装置、计算机设备和存储介质
CN110083831A (zh) * 2019-04-16 2019-08-02 武汉大学 一种基于BERT-BiGRU-CRF的中文命名实体识别方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111950265A (zh) * 2020-08-25 2020-11-17 中国电子科技集团公司信息科学研究院 一种领域词库构建方法和装置
CN112364628A (zh) * 2020-11-20 2021-02-12 创优数字科技(广东)有限公司 一种新词识别方法、装置、电子设备及存储介质
CN112632985A (zh) * 2020-12-18 2021-04-09 国网北京市电力公司 语料的处理方法、装置、存储介质及处理器

Similar Documents

Publication Publication Date Title
CN110781276A (zh) 文本抽取方法、装置、设备及存储介质
CN111325019A (zh) 词库的更新方法及装置、电子设备
CN110413998B (zh) 一种面向电力行业的自适应中文分词方法及其系统、介质
CN108027814B (zh) 停用词识别方法与装置
CN108363691B (zh) 一种用于电力95598工单的领域术语识别系统及方法
CN112163424A (zh) 数据的标注方法、装置、设备和介质
CN110008473B (zh) 一种基于迭代方法的医疗文本命名实体识别标注方法
CN107526721B (zh) 一种对电商产品评论词汇的歧义消除方法及装置
CN110941702A (zh) 一种法律法规和法条的检索方法及装置、可读存储介质
CN116628173B (zh) 一种基于关键字提取的智能客服信息生成系统及生成方法
CN110910175A (zh) 一种旅游门票产品画像生成方法
CN114416979A (zh) 一种文本查询方法、设备和存储介质
CN112541077A (zh) 一种用于电网用户服务评价的处理方法及系统
CN114266256A (zh) 一种领域新词的提取方法及系统
CN112395881A (zh) 物料标签的构建方法、装置、可读存储介质及电子设备
CN114222000B (zh) 信息推送方法、装置、计算机设备和存储介质
CN114970502A (zh) 一种应用于数字政府的文本纠错方法
CN107480126B (zh) 一种工程材料类别智能识别方法
CN113378024A (zh) 一种基于深度学习面向公检法领域的相关事件识别方法
CN111104422B (zh) 一种数据推荐模型的训练方法、装置、设备及存储介质
CN110705285A (zh) 一种政务文本主题词库构建方法、装置、服务器及可读存储介质
CN112632985A (zh) 语料的处理方法、装置、存储介质及处理器
CN112115362B (zh) 一种基于相似代码识别的编程信息推荐方法及装置
CN114298048A (zh) 命名实体识别方法及装置
CN114756617A (zh) 一种工程档案结构化数据提取方法、系统、设备和存介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination