CN113157903A - 一种面向多领域的电力词库构建方法 - Google Patents
一种面向多领域的电力词库构建方法 Download PDFInfo
- Publication number
- CN113157903A CN113157903A CN202011585288.5A CN202011585288A CN113157903A CN 113157903 A CN113157903 A CN 113157903A CN 202011585288 A CN202011585288 A CN 202011585288A CN 113157903 A CN113157903 A CN 113157903A
- Authority
- CN
- China
- Prior art keywords
- word
- text
- electric power
- words
- degree
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种面向多领域的电力词库构建方法,解决了现有技术的不足,包括以下步骤:步骤1,收集电力相关文档,对电力相关文档的文字信息进行提取,在文字信息中枚举出所有文本片段,文本片段的长度小于设定阈值;步骤2,根据词法相关统计指标对文本片段进行过滤,过滤后的文本片段为候选新词,所有候选新词构成候选词库;步骤3,候选词库中的候选新词与常用词汇进行比较,若候选新词是常用词汇,则将该候选新词舍弃,若候选新词不是常用词汇,则将该候选新词定义为正式新词;步骤4,所有的正式新词构成专业词库。
Description
技术领域
本发明涉及数据处理技术领域,尤其是指一种面向多领域的电力词库构建方法。
背景技术
现有的电力词库构建,一般都是通过人工进行筛查选取,存在如下问题:
(1)大量电力文本类的专业资料数据资源尚未得到利用
电力行业积累了大量的文本数据,包括电网数据库中的文本片段、内外网电力相关文档,如电力科技论文、项目报告、电力规程、电力操作手册等,这些文本化的资料及非结构化数据尚未得到充分利用。
(2)人工智能应用缺乏电力专业主题词库支持
词库是有一定结构的、有代表的、可被计算机程序检索的、具有一定规模的语料集合。人工智能的应用技术研究依赖于基础语料的积累,尤其是在电力专业领域,若没有专业化的主题词库支撑,相关专业领域的应用会受制约,或是重复做较大的语料筛选清洗工作。
(3)缺少一套涵盖识别、纠错、生成、服务应用的电力词库生产运营管理机制。目前很多专业词库的积累很大一部分依赖于专家等人共梳理确认的方式,缺少一套从识别、纠错、生成到服务应用的专业词汇生成、管理、对外服务的在线管理机制,加速专业语料的积累,便于人工智能应用的使用。
发明内容
本发明的目的是克服现有技术中的缺点,提供一种面向多领域的电力词库构建方法。
本发明的目的是通过下述技术方案予以实现:
一种面向多领域的电力词库构建方法,包括以下步骤:
步骤1,收集电力相关文档,对电力相关文档的文字信息进行提取,在文字信息中枚举出所有文本片段,文本片段的长度小于设定阈值;
步骤2,根据词法相关统计指标对文本片段进行过滤,过滤后的文本片段为候选新词,所有候选新词构成候选词库;
步骤3,候选词库中的候选新词与常用词汇进行比较,若候选新词是常用词汇,则将该候选新词舍弃,若候选新词不是常用词汇,则将该候选新词定义为正式新词;
步骤4,所有的正式新词构成专业词库。
在词库构建的初期,由于数据样本较少,无法采取复杂的有监督学习算法进行自动抽取,选择基于统计特征的无监督学习算法。主要利用统计指标的阈值进行新词过滤。
作为一种优选方案,所述的词法相关统计指标包括词频、凝固度和自由度。
作为一种优选方案,所述的词频对文本片段进行过滤的具体方式为:统计文本片段在电力相关文档出现的次数,若某一个文本片段在电力相关文档出现的次数大于设定的次数,表示该文本片段为候选新词。
作为一种优选方案,所述的凝固度对文本片段进行过滤的具体方式为:对于两个文本片段a和b,统计a和b成对出现的次数、a出现的次数和b出现的次数,然后计算出成对出现的概率p(ab),a出现的概率p(a)和b出现的概率p(b),由此计算出a和b之间的凝固度,公式如下:
凝固度越高则表示a和b越凝固,若凝固度大于设定的阈值,则文本片段a和b进行组合构成候选新词。如果a、b两个文字片段只是碰巧走到一起,应该会统计出p(ab)≈p(a)*p(b),它们之间没有任何关联,凝固度≈1;如果a、b两个文字片段极其相关,则必定同时出现,应该统计有p(a)≈p(ab),凝固度≈1/p(b),一般情况下远远大于1。
作为一种优选方案,所述的自由度对文本片段进行过滤的具体方式为:判断一个文本片段的自由运用程度,自由运用程度定义为:文本片段的左邻字和右邻字信息熵中的较小值,公式如下:
H(x)=-∑(x∈X)P(x)log2P(x)
自由度=min(H(左邻字),H(右邻字))
其中H(x)为字的信息熵;若自由度大于设定的阈值,则该文本片段作为候选新词,若自由度小于设定的阈值,则将信息熵中的较小值对应的左邻字或右邻字预该文本片段进行组合,对组合后的文本片段重新通过自由度对文本片段进行过滤。例如在“俄罗”右侧100%的概率会搭配“斯”,通过本方案就能构建一个候选新词。
作为一种优选方案,所述的候选新词还包括网络爬虫获取的词语和人工进行标注的词语。
作为一种优选方案,所述的步骤4构建专业词库后,还对专业词库进行更新,更新的方式为构建词库自动抽取模型,对于新的电力相关文档,通过词库自动抽取模型对新的电力相关文档中的新词进行提取,提取出的新词加入电力词库完成对电力词库的更新。
作为一种优选方案,还对所述的词库自动抽取模型进行训练,训练的具体过程为:用专业词库标注一篇电力相关文档,电力相关文档中带有标注的标签,带标签的电力相关文档用于训练的样本集,基于训练样本集,训练可自动识别专业词汇的自动抽取模型,若干个训练样本集对自动抽取模型进行训练,提高自动抽取模型对电力专业词库识别、生产、迭代的能力。
自动抽取模型是一个近似于中文命名实体识别的序列标注模型。通过大量识别文本中包括人名、地名、机构名、专业领域、时间、数量、货币、比例数值等具有特定意义的实体词汇,训练得出一个可以自动标注文本的专业名词的标注识别模型。
本发明的有益效果是:本发明建立的电力专业词库,形成一套涵盖识别、纠错、生成、服务应用的电力词库在线生产运营管理机制,并通过改造数据运营服务平台原有的全局搜索功能,验证电力词库的对外服务能力,最终形成人工智能基础服务能力基础组件之一,统一对外提供电力专业词汇的基础服务,提升浙江电力人工智能研发水平与应用能力,促进电力人工智能领域的创新发展。
附图说明
图1是本发明的一种电力专业词库构建流程图;
图2是本发明的一种电力专业词库更新流程图。
具体实施方式
下面结合附图和实施例对本发明进一步描述。
实施例:
一种面向多领域的电力词库构建方法,如图1所示,包括以下步骤:
步骤1,收集电力相关文档,对电力相关文档的文字信息进行提取,在文字信息中枚举出所有文本片段,文本片段的长度小于设定阈值;
步骤2,根据词法相关统计指标对文本片段进行过滤,过滤后的文本片段为候选新词,所有候选新词构成候选词库;
步骤3,候选词库中的候选新词与常用词汇进行比较,若候选新词是常用词汇,则将该候选新词舍弃,若候选新词不是常用词汇,则将该候选新词定义为正式新词;
步骤4,所有的正式新词构成专业词库。
在词库构建的初期,由于数据样本较少,无法采取复杂的有监督学习算法进行自动抽取,选择基于统计特征的无监督学习算法。主要利用统计指标的阈值进行新词过滤。
所述的词法相关统计指标包括词频、凝固度和自由度。
所述的词频对文本片段进行过滤的具体方式为:统计文本片段在电力相关文档出现的次数,若某一个文本片段在电力相关文档出现的次数大于设定的次数,表示该文本片段为候选新词。
所述的凝固度对文本片段进行过滤的具体方式为:对于两个文本片段a和b,统计a和b成对出现的次数、a出现的次数和b出现的次数,然后计算出成对出现的概率p(ab),a出现的概率p(a)和b出现的概率p(b),由此计算出a和b之间的凝固度,公式如下:
凝固度越高则表示a和b越凝固,若凝固度大于设定的阈值,则文本片段a和b进行组合构成候选新词。如果a、b两个文字片段只是碰巧走到一起,应该会统计出p(ab)≈p(a)*p(b),它们之间没有任何关联,凝固度≈1;如果a、b两个文字片段极其相关,则必定同时出现,应该统计有p(a)≈p(ab),凝固度≈1/p(b),一般情况下远远大于1。
所述的自由度对文本片段进行过滤的具体方式为:判断一个文本片段的自由运用程度,自由运用程度定义为:文本片段的左邻字和右邻字信息熵中的较小值,公式如下:
H(x)=-∑(x∈X)P(x)log2P(x)
自由度=min(H(左邻字),H(右邻字))
其中H(x)为字的信息熵;若自由度大于设定的阈值,则该文本片段作为候选新词,若自由度小于设定的阈值,则将信息熵中的较小值对应的左邻字或右邻字预该文本片段进行组合,对组合后的文本片段重新通过自由度对文本片段进行过滤。例如在“俄罗”右侧100%的概率会搭配“斯”,通过本方案就能构建一个候选新词。
所述的候选新词还包括网络爬虫获取的词语和人工进行标注的词语。
所述的步骤4构建专业词库后,还对专业词库进行更新,更新的方式为构建词库自动抽取模型,对于新的电力相关文档,通过词库自动抽取模型对新的电力相关文档中的新词进行提取,提取出的新词加入电力词库完成对电力词库的更新。
还对所述的词库自动抽取模型进行训练,训练的具体过程如图2所示:用专业词库标注一篇电力相关文档,电力相关文档中带有标注的标签,带标签的电力相关文档用于训练的样本集,基于训练样本集,训练可自动识别专业词汇的自动抽取模型,若干个训练样本集对自动抽取模型进行训练,提高自动抽取模型对电力专业词库识别、生产、迭代的能力。
自动抽取模型是一个近似于中文命名实体识别的序列标注模型。通过大量识别文本中包括人名、地名、机构名、专业领域、时间、数量、货币、比例数值等具有特定意义的实体词汇,训练得出一个可以自动标注文本的专业名词的标注识别模型。
以上所述的实施例只是本发明的一种较佳的方案,并非对本发明作任何形式上的限制,在不超出权利要求所记载的技术方案的前提下还有其它的变体及改型。
Claims (8)
1.一种面向多领域的电力词库构建方法,其特征是,包括以下步骤:
步骤1,收集电力相关文档,对电力相关文档的文字信息进行提取,在文字信息中枚举出所有文本片段,文本片段的长度小于设定阈值;
步骤2,根据词法相关统计指标对文本片段进行过滤,过滤后的文本片段为候选新词,所有候选新词构成候选词库;
步骤3,候选词库中的候选新词与常用词汇进行比较,若候选新词是常用词汇,则将该候选新词舍弃,若候选新词不是常用词汇,则将该候选新词定义为正式新词;
步骤4,所有的正式新词构成专业词库。
2.根据权利要求1所述的一种面向多领域的电力词库构建方法,其特征是,所述的词法相关统计指标包括词频、凝固度和自由度。
3.根据权利要求2所述的一种面向多领域的电力词库构建方法,其特征是,所述的词频对文本片段进行过滤的具体方式为:统计文本片段在电力相关文档出现的次数,若某一个文本片段在电力相关文档出现的次数大于设定的次数,表示该文本片段为候选新词。
5.根据权利要求2所述的一种面向多领域的电力词库构建方法,其特征是,所述的自由度对文本片段进行过滤的具体方式为:判断一个文本片段的自由运用程度,自由运用程度定位为:文本片段的左邻字和右邻字信息熵中的较小值,公式如下:
H(x)=-∑(x∈X)P(x)log2P(x)
自由度=min(H(左邻字),H(右邻字))
其中H(x)为字的信息熵;若自由度大于设定的阈值,则该文本片段作为候选新词,若自由度小于设定的阈值,则将信息熵中的较小值对应的左邻字或右邻字预该文本片段进行组合,对组合后的文本片段重新通过自由度对文本片段进行过滤。
6.根据权利要求1所述的一种面向多领域的电力词库构建方法,其特征是,所述的候选新词还包括网络爬虫获取的词语和人工进行标注的词语。
7.根据权利要求1所述的一种面向多领域的电力词库构建方法,其特征是,所述的步骤4构建专业词库后,还对专业词库进行更新,更新的方式为构建词库自动抽取模型,对于新的电力相关文档,通过词库自动抽取模型对新的电力相关文档中的新词进行提取,提取出的新词加入电力词库完成对电力词库的更新。
8.根据权利要求6所述的一种面向多领域的电力词库构建方法,其特征是,还对所述的词库自动抽取模型进行训练,训练的具体过程为:用专业词库标注一篇电力相关文档,电力相关文档中带有标注的标签,带标签的电力相关文档用于训练的样本集,基于训练样本集,训练可自动识别专业词汇的自动抽取模型,若干个训练样本集对自动抽取模型进行训练,提高自动抽取模型对电力专业词库识别、生产、迭代的能力。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011585288.5A CN113157903A (zh) | 2020-12-28 | 2020-12-28 | 一种面向多领域的电力词库构建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011585288.5A CN113157903A (zh) | 2020-12-28 | 2020-12-28 | 一种面向多领域的电力词库构建方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113157903A true CN113157903A (zh) | 2021-07-23 |
Family
ID=76878074
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011585288.5A Pending CN113157903A (zh) | 2020-12-28 | 2020-12-28 | 一种面向多领域的电力词库构建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113157903A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113486654A (zh) * | 2021-07-28 | 2021-10-08 | 焦点科技股份有限公司 | 一种基于先验主题聚类的敏感词库构建与扩展方法 |
CN113609844A (zh) * | 2021-07-30 | 2021-11-05 | 国网山西省电力公司晋城供电公司 | 一种基于混合模型和聚类算法的电力专业词库构建方法 |
CN114186557A (zh) * | 2022-02-17 | 2022-03-15 | 阿里巴巴达摩院(杭州)科技有限公司 | 主题词确定方法、设备及存储介质 |
CN114385792A (zh) * | 2022-03-23 | 2022-04-22 | 北京零点远景网络科技有限公司 | 一种工单数据提取词语的方法、装置、设备及存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108268440A (zh) * | 2017-01-04 | 2018-07-10 | 普天信息技术有限公司 | 一种未登录词识别方法 |
CN109582787A (zh) * | 2018-11-05 | 2019-04-05 | 远光软件股份有限公司 | 一种火力发电领域语料数据的实体分类方法及装置 |
-
2020
- 2020-12-28 CN CN202011585288.5A patent/CN113157903A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108268440A (zh) * | 2017-01-04 | 2018-07-10 | 普天信息技术有限公司 | 一种未登录词识别方法 |
CN109582787A (zh) * | 2018-11-05 | 2019-04-05 | 远光软件股份有限公司 | 一种火力发电领域语料数据的实体分类方法及装置 |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113486654A (zh) * | 2021-07-28 | 2021-10-08 | 焦点科技股份有限公司 | 一种基于先验主题聚类的敏感词库构建与扩展方法 |
CN113486654B (zh) * | 2021-07-28 | 2024-04-26 | 焦点科技股份有限公司 | 一种基于先验主题聚类的敏感词库构建与扩展方法 |
CN113609844A (zh) * | 2021-07-30 | 2021-11-05 | 国网山西省电力公司晋城供电公司 | 一种基于混合模型和聚类算法的电力专业词库构建方法 |
CN113609844B (zh) * | 2021-07-30 | 2024-03-08 | 国网山西省电力公司晋城供电公司 | 一种基于混合模型和聚类算法的电力专业词库构建方法 |
CN114186557A (zh) * | 2022-02-17 | 2022-03-15 | 阿里巴巴达摩院(杭州)科技有限公司 | 主题词确定方法、设备及存储介质 |
CN114385792A (zh) * | 2022-03-23 | 2022-04-22 | 北京零点远景网络科技有限公司 | 一种工单数据提取词语的方法、装置、设备及存储介质 |
CN114385792B (zh) * | 2022-03-23 | 2022-06-24 | 北京零点远景网络科技有限公司 | 一种工单数据提取词语的方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110442760B (zh) | 一种问答检索系统的同义词挖掘方法及装置 | |
CN110298032A (zh) | 文本分类语料标注训练系统 | |
CN113157903A (zh) | 一种面向多领域的电力词库构建方法 | |
Creutz | Unsupervised segmentation of words using prior distributions of morph length and frequency | |
CN109960724A (zh) | 一种基于tf-idf的文本摘要方法 | |
CN111737975A (zh) | 文本内涵质量的评估方法、装置、设备及存储介质 | |
CN112395395B (zh) | 文本关键词提取方法、装置、设备及存储介质 | |
CN107315797A (zh) | 一种网络新闻获取及文本情感预测系统 | |
CN104765769A (zh) | 一种基于词矢量的短文本查询扩展及检索方法 | |
CN110879831A (zh) | 基于实体识别技术的中医药语句分词方法 | |
CN110781679B (zh) | 一种基于关联语义链网络的新闻事件关键词挖掘方法 | |
CN112926345B (zh) | 基于数据增强训练的多特征融合神经机器翻译检错方法 | |
CN111897917B (zh) | 基于多模态自然语言特征的轨道交通行业术语提取方法 | |
CN112051986B (zh) | 基于开源知识的代码搜索推荐装置及方法 | |
CN109241277A (zh) | 基于新闻关键词的文本向量加权的方法及系统 | |
CN109522396B (zh) | 一种面向国防科技领域的知识处理方法及系统 | |
CN113065341A (zh) | 一种环境类投诉举报文本自动标注和分类方法 | |
CN114266256A (zh) | 一种领域新词的提取方法及系统 | |
CN114265935A (zh) | 一种基于文本挖掘的科技项目立项管理辅助决策方法及系统 | |
CN112989813A (zh) | 一种基于预训练语言模型的科技资源关系抽取方法及装置 | |
CN110287493B (zh) | 风险短语识别方法、装置、电子设备及存储介质 | |
WO2021128529A1 (zh) | 一种技术趋势预测方法和系统 | |
Ao et al. | News keywords extraction algorithm based on TextRank and classified TF-IDF | |
CN115238040A (zh) | 一种钢铁材料学知识图谱构建方法及系统 | |
CN112632969B (zh) | 一种增量式行业词典更新方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |