CN113157903A

CN113157903A - 一种面向多领域的电力词库构建方法

Info

Publication number: CN113157903A
Application number: CN202011585288.5A
Authority: CN
Inventors: 王红凯; 冯珺; 刘瀚琳; 潘思辰; 王嘉琦; 赵帅; 彭梁英; 王仲锋; 丁雪花; 王永平; 汪娟玉; 蒋斌; 刘晓枫
Original assignee: Zhejiang Huayun Information Technology Co Ltd; Information and Telecommunication Branch of State Grid Zhejiang Electric Power Co Ltd
Current assignee: Zhejiang Huayun Information Technology Co Ltd; Information and Telecommunication Branch of State Grid Zhejiang Electric Power Co Ltd
Priority date: 2020-12-28
Filing date: 2020-12-28
Publication date: 2021-07-23

Abstract

本发明公开了一种面向多领域的电力词库构建方法，解决了现有技术的不足，包括以下步骤：步骤1，收集电力相关文档，对电力相关文档的文字信息进行提取，在文字信息中枚举出所有文本片段，文本片段的长度小于设定阈值；步骤2，根据词法相关统计指标对文本片段进行过滤，过滤后的文本片段为候选新词，所有候选新词构成候选词库；步骤3，候选词库中的候选新词与常用词汇进行比较，若候选新词是常用词汇，则将该候选新词舍弃，若候选新词不是常用词汇，则将该候选新词定义为正式新词；步骤4，所有的正式新词构成专业词库。

Description

一种面向多领域的电力词库构建方法

技术领域

本发明涉及数据处理技术领域，尤其是指一种面向多领域的电力词库构建方法。

背景技术

现有的电力词库构建，一般都是通过人工进行筛查选取，存在如下问题：

(1)大量电力文本类的专业资料数据资源尚未得到利用

电力行业积累了大量的文本数据，包括电网数据库中的文本片段、内外网电力相关文档，如电力科技论文、项目报告、电力规程、电力操作手册等，这些文本化的资料及非结构化数据尚未得到充分利用。

(2)人工智能应用缺乏电力专业主题词库支持

词库是有一定结构的、有代表的、可被计算机程序检索的、具有一定规模的语料集合。人工智能的应用技术研究依赖于基础语料的积累，尤其是在电力专业领域，若没有专业化的主题词库支撑，相关专业领域的应用会受制约，或是重复做较大的语料筛选清洗工作。

(3)缺少一套涵盖识别、纠错、生成、服务应用的电力词库生产运营管理机制。目前很多专业词库的积累很大一部分依赖于专家等人共梳理确认的方式，缺少一套从识别、纠错、生成到服务应用的专业词汇生成、管理、对外服务的在线管理机制，加速专业语料的积累，便于人工智能应用的使用。

发明内容

本发明的目的是克服现有技术中的缺点，提供一种面向多领域的电力词库构建方法。

本发明的目的是通过下述技术方案予以实现：

一种面向多领域的电力词库构建方法，包括以下步骤：

步骤1，收集电力相关文档，对电力相关文档的文字信息进行提取，在文字信息中枚举出所有文本片段，文本片段的长度小于设定阈值；

步骤2，根据词法相关统计指标对文本片段进行过滤，过滤后的文本片段为候选新词，所有候选新词构成候选词库；

步骤3，候选词库中的候选新词与常用词汇进行比较，若候选新词是常用词汇，则将该候选新词舍弃，若候选新词不是常用词汇，则将该候选新词定义为正式新词；

步骤4，所有的正式新词构成专业词库。

在词库构建的初期，由于数据样本较少，无法采取复杂的有监督学习算法进行自动抽取，选择基于统计特征的无监督学习算法。主要利用统计指标的阈值进行新词过滤。

作为一种优选方案，所述的词法相关统计指标包括词频、凝固度和自由度。

作为一种优选方案，所述的词频对文本片段进行过滤的具体方式为：统计文本片段在电力相关文档出现的次数，若某一个文本片段在电力相关文档出现的次数大于设定的次数，表示该文本片段为候选新词。

作为一种优选方案，所述的凝固度对文本片段进行过滤的具体方式为：对于两个文本片段a和b，统计a和b成对出现的次数、a出现的次数和b出现的次数，然后计算出成对出现的概率p(ab)，a出现的概率p(a)和b出现的概率p(b)，由此计算出a和b之间的凝固度，公式如下：

凝固度越高则表示a和b越凝固，若凝固度大于设定的阈值，则文本片段a和b进行组合构成候选新词。如果a、b两个文字片段只是碰巧走到一起，应该会统计出p(ab)≈p(a)*p(b)，它们之间没有任何关联，凝固度≈1；如果a、b两个文字片段极其相关，则必定同时出现，应该统计有p(a)≈p(ab)，凝固度≈1/p(b)，一般情况下远远大于1。

作为一种优选方案，所述的自由度对文本片段进行过滤的具体方式为：判断一个文本片段的自由运用程度，自由运用程度定义为：文本片段的左邻字和右邻字信息熵中的较小值，公式如下：

H(x)＝-∑(x∈X)P(x)log₂P(x)

自由度＝min(H(左邻字)，H(右邻字))

其中H(x)为字的信息熵；若自由度大于设定的阈值，则该文本片段作为候选新词，若自由度小于设定的阈值，则将信息熵中的较小值对应的左邻字或右邻字预该文本片段进行组合，对组合后的文本片段重新通过自由度对文本片段进行过滤。例如在“俄罗”右侧100％的概率会搭配“斯”，通过本方案就能构建一个候选新词。

作为一种优选方案，所述的候选新词还包括网络爬虫获取的词语和人工进行标注的词语。

作为一种优选方案，所述的步骤4构建专业词库后，还对专业词库进行更新，更新的方式为构建词库自动抽取模型，对于新的电力相关文档，通过词库自动抽取模型对新的电力相关文档中的新词进行提取，提取出的新词加入电力词库完成对电力词库的更新。

作为一种优选方案，还对所述的词库自动抽取模型进行训练，训练的具体过程为：用专业词库标注一篇电力相关文档，电力相关文档中带有标注的标签，带标签的电力相关文档用于训练的样本集，基于训练样本集，训练可自动识别专业词汇的自动抽取模型，若干个训练样本集对自动抽取模型进行训练，提高自动抽取模型对电力专业词库识别、生产、迭代的能力。

自动抽取模型是一个近似于中文命名实体识别的序列标注模型。通过大量识别文本中包括人名、地名、机构名、专业领域、时间、数量、货币、比例数值等具有特定意义的实体词汇，训练得出一个可以自动标注文本的专业名词的标注识别模型。

本发明的有益效果是：本发明建立的电力专业词库，形成一套涵盖识别、纠错、生成、服务应用的电力词库在线生产运营管理机制，并通过改造数据运营服务平台原有的全局搜索功能，验证电力词库的对外服务能力，最终形成人工智能基础服务能力基础组件之一，统一对外提供电力专业词汇的基础服务，提升浙江电力人工智能研发水平与应用能力，促进电力人工智能领域的创新发展。

附图说明

图1是本发明的一种电力专业词库构建流程图；

图2是本发明的一种电力专业词库更新流程图。

具体实施方式

下面结合附图和实施例对本发明进一步描述。

实施例：

一种面向多领域的电力词库构建方法，如图1所示，包括以下步骤：

步骤4，所有的正式新词构成专业词库。

所述的词法相关统计指标包括词频、凝固度和自由度。

所述的词频对文本片段进行过滤的具体方式为：统计文本片段在电力相关文档出现的次数，若某一个文本片段在电力相关文档出现的次数大于设定的次数，表示该文本片段为候选新词。

所述的凝固度对文本片段进行过滤的具体方式为：对于两个文本片段a和b，统计a和b成对出现的次数、a出现的次数和b出现的次数，然后计算出成对出现的概率p(ab)，a出现的概率p(a)和b出现的概率p(b)，由此计算出a和b之间的凝固度，公式如下：

所述的自由度对文本片段进行过滤的具体方式为：判断一个文本片段的自由运用程度，自由运用程度定义为：文本片段的左邻字和右邻字信息熵中的较小值，公式如下：

H(x)＝-∑(x∈X)P(x)log₂P(x)

自由度＝min(H(左邻字)，H(右邻字))

所述的候选新词还包括网络爬虫获取的词语和人工进行标注的词语。

所述的步骤4构建专业词库后，还对专业词库进行更新，更新的方式为构建词库自动抽取模型，对于新的电力相关文档，通过词库自动抽取模型对新的电力相关文档中的新词进行提取，提取出的新词加入电力词库完成对电力词库的更新。

还对所述的词库自动抽取模型进行训练，训练的具体过程如图2所示：用专业词库标注一篇电力相关文档，电力相关文档中带有标注的标签，带标签的电力相关文档用于训练的样本集，基于训练样本集，训练可自动识别专业词汇的自动抽取模型，若干个训练样本集对自动抽取模型进行训练，提高自动抽取模型对电力专业词库识别、生产、迭代的能力。

以上所述的实施例只是本发明的一种较佳的方案，并非对本发明作任何形式上的限制，在不超出权利要求所记载的技术方案的前提下还有其它的变体及改型。

Claims

1.一种面向多领域的电力词库构建方法，其特征是，包括以下步骤：

步骤4，所有的正式新词构成专业词库。

2.根据权利要求1所述的一种面向多领域的电力词库构建方法，其特征是，所述的词法相关统计指标包括词频、凝固度和自由度。

3.根据权利要求2所述的一种面向多领域的电力词库构建方法，其特征是，所述的词频对文本片段进行过滤的具体方式为：统计文本片段在电力相关文档出现的次数，若某一个文本片段在电力相关文档出现的次数大于设定的次数，表示该文本片段为候选新词。

4.根据权利要求2所述的一种面向多领域的电力词库构建方法，其特征是，所述的凝固度对文本片段进行过滤的具体方式为：对于两个文本片段a和b，统计a和b成对出现的次数、a出现的次数和b出现的次数，然后计算出成对出现的概率p(ab)，a出现的概率p(a)和b出现的概率p(b)，由此计算出a和b之间的凝固度，公式如下：

凝固度越高则表示a和b越凝固，若凝固度大于设定的阈值，则文本片段a和b进行组合构成候选新词。

5.根据权利要求2所述的一种面向多领域的电力词库构建方法，其特征是，所述的自由度对文本片段进行过滤的具体方式为：判断一个文本片段的自由运用程度，自由运用程度定位为：文本片段的左邻字和右邻字信息熵中的较小值，公式如下：

H(x)＝-∑(x∈X)P(x)log₂P(x)

自由度＝min(H(左邻字)，H(右邻字))

其中H(x)为字的信息熵；若自由度大于设定的阈值，则该文本片段作为候选新词，若自由度小于设定的阈值，则将信息熵中的较小值对应的左邻字或右邻字预该文本片段进行组合，对组合后的文本片段重新通过自由度对文本片段进行过滤。

6.根据权利要求1所述的一种面向多领域的电力词库构建方法，其特征是，所述的候选新词还包括网络爬虫获取的词语和人工进行标注的词语。

7.根据权利要求1所述的一种面向多领域的电力词库构建方法，其特征是，所述的步骤4构建专业词库后，还对专业词库进行更新，更新的方式为构建词库自动抽取模型，对于新的电力相关文档，通过词库自动抽取模型对新的电力相关文档中的新词进行提取，提取出的新词加入电力词库完成对电力词库的更新。

8.根据权利要求6所述的一种面向多领域的电力词库构建方法，其特征是，还对所述的词库自动抽取模型进行训练，训练的具体过程为：用专业词库标注一篇电力相关文档，电力相关文档中带有标注的标签，带标签的电力相关文档用于训练的样本集，基于训练样本集，训练可自动识别专业词汇的自动抽取模型，若干个训练样本集对自动抽取模型进行训练，提高自动抽取模型对电力专业词库识别、生产、迭代的能力。