CN114330336A

CN114330336A - 一种基于左右信息熵和互信息的新词发现方法以及装置

Info

Publication number: CN114330336A
Application number: CN202111391884.4A
Authority: CN
Inventors: 黄敬林; 林振天; 池少宁; 杨梦琳
Original assignee: State Grid Information and Telecommunication Co Ltd; Fujian Yirong Information Technology Co Ltd; Great Power Science and Technology Co of State Grid Information and Telecommunication Co Ltd
Current assignee: State Grid Information and Telecommunication Co Ltd; Fujian Yirong Information Technology Co Ltd; Great Power Science and Technology Co of State Grid Information and Telecommunication Co Ltd
Priority date: 2021-11-19
Filing date: 2021-11-19
Publication date: 2022-04-12

Abstract

本发明提供一种基于左右信息熵和互信息的新词发现方法以及装置，方法包括：从文本中选择设定规则的语句数据，并进行处理，得到处理数据；将处理数据进行分词操作，得到分词数据；根据分词数据建立字典树；基于字典树，并根据互信息和信息熵从分词数据中获取新词，并进行存储；可以提高信息存储效率以及检索的准确性，提高办公效率。

Description

一种基于左右信息熵和互信息的新词发现方法以及装置

技术领域

本发明涉及计算机技术领域，特别涉及一种基于左右信息熵和互信息的新词发现方法以及装置。

背景技术

公文领域相关的文本数据是一种非常重要的非结构化数据，蕴涵着大量有助于提升公司核心竞争力和经营效益的信息。由于与公司相关的新词汇，总是被不断地创造出来，这些新词不可能被及时完全收录，因此，新词识别是构建公文领域专业词库中的关键一步，为公司智能化办公打下基础，也为其他实际应用场景提供技术支撑。

因为公文所针对的问题，总是存在于特定的时间范围之内，公文的写作、传递和办理，都要求迅速及时，所以现有技术已不足以支撑公文的处理，使得公司内部公文类的“新词”没有被充分发现和利用，使得办公效率下降。

发明内容

本发明要解决的技术问题，在于提供一种基于左右信息熵和互信息的新词发现方法以及装置，可以提高信息存储效率以及检索的准确性，提高办公效率。

第一方面，本发明提供了一种基于左右信息熵和互信息的新词发现方法，包括：

步骤1、从文本中选择设定规则的语句数据，并进行处理，得到处理数据；

步骤2、将处理数据进行分词操作，得到分词数据；

步骤3、根据分词数据建立字典树；

步骤4、基于字典树，并根据互信息和信息熵从分词数据中获取新词，并进行存储。

进一步地，所述步骤4进一步具体为：基于字典树，利用左右信息熵和互信息进行成词概率的计算，计算候选词语的得分score＝MI+min(左熵，右熵)，以得分高低进行排序，取出设定前N个待选词，若前面的待选词在属于后面待选词一部分，则删除后面待选词；并比较词库中是否存在该待选词，若是存在，则不进行存储，若不存在，则进行存储。

进一步地，所述步骤1进一步具体为：通过设置正则表达式，从文本中提取引号中的内容，并进行过滤单字和长句处理，将含有“、”的文本分成单个词语，得到语句数据，之后对语句数据进行非中文字符和停用词过滤，得到处理数据。

进一步地，所述步骤3进一步具体为：将每个字与其右邻的字组成二元组，使用3-gram的方式来构建节点，并使用字典树对存储分词和统计词频。

第二方面，本发明提供了一种基于左右信息熵和互信息的新词发现装置，包括：

处理模块，从文本中选择设定规则的语句数据，并进行处理，得到处理数据；

分词模块，将处理数据进行分词操作，得到分词数据；

字典模块，根据分词数据建立字典树；

存储模块，基于字典树，并根据互信息和信息熵从分词数据中获取新词，并进行存储。

进一步地，所述存储模块进一步具体为：基于字典树，利用左右信息熵和互信息进行成词概率的计算，计算候选词语的得分score＝MI+min(左熵，右熵)，以得分高低进行排序，取出设定前N个待选词，若前面的待选词在属于后面待选词一部分，则删除后面待选词；并比较词库中是否存在该待选词，若是存在，则不进行存储，若不存在，则进行存储。

进一步地，所述处理模块进一步具体为：通过设置正则表达式，从文本中提取引号中的内容，并进行过滤单字和长句处理，将含有“、”的文本分成单个词语，得到语句数据，之后对语句数据进行非中文字符和停用词过滤，得到处理数据。

进一步地，所述字典模块进一步具体为：将每个字与其右邻的字组成二元组，使用3-gram的方式来构建节点，并使用字典树对存储分词和统计词频。

本发明实施例中提供的一个或多个技术方案，至少具有如下技术效果或优点：

本申请实施例提供的一种基于左右信息熵和互信息的新词发现方法以及装置，提出利用更优化的基于字典树的构建、计算互信息及左右信息熵的新词发现技术，对公文数据进行新词的提取，并可以将其应用于公文领域专业词库的构建及其他不同场景，通过新词发现，找到公文文本中特定的词汇，构建公司内部的词库，可以提高信息存储效率以及检索的准确性，提高办公效率。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

下面参照附图结合实施例对本发明作进一步的说明。

图1为本发明方法的示意图；

图2为本发明实施例一中方法中的流程图；

图3为本发明实施例二中装置的结构示意图。

具体实施方式

本申请实施例通过提供一种基于左右信息熵和互信息的新词发现方法以及装置，解决了现有技术中对于公文处理速度慢，办公效率低的技术问题，本发明通过对所有与公文领域相关的数据(如：会议通知、公开文件以及相关新闻等)进行分析梳理，再利用新词发现技术提炼出数据中所存在的业务新词，从而应用于构建公司专业数据词库及其他不同场景，为推动本公司所涉及行业中的数据共享、企业内部数据开放指明方向。

本申请实施例中的技术方案，总体思路如下：

该技术主要涉及对来源于公司公文领域相关的公开文件、会议通知、活动通知等数据进行新词发现。该系统主要运用正则表达式规则以及基于字典树的构建和利用互信息及左右信息熵进行的新词发现技术来分析、梳理所有与公文领域相关的文本数据，提炼出所涉及领域应有的业务术语从而进行新词的标记。重点需解决：数据预处理、字典树的构建、互信息和信息熵的计算。如图1所示，本发明分析现有的公文文本数据设计的算法具体步骤如下：

其中，互信息MI：互信息是用来衡量两个事物之间关系紧密程度的统计量，表现出了词语中各个汉字的结合程度。将互信息大于阈值的候选组统计入新词候选集。

信息熵：熵是一种表示信息量的指标，熵越高就意味着信息含量越大，不确定性越高，越难以预测。左右信息熵是通过计算一个字符片段左边和右边的信息熵，通过信息熵的值来反映了一个词是否有丰富的左右搭配，如果达到一定阈值则可认为两个片段可以成为一个新词。

字典树：字典树用于存储键值对，存储的键值对中键值类型往往是字符串。字典树中的键值不直接存储在节点中，而是根据树中节点的位置决定。一个节点的所有后代都具有一样的前缀，且根节点往往存储空字符串。

1)提取引号中的词；由于根据语料库的特点引号内的文本有很多可以作为新词，通过正则化的方法提取引号中的内容，并且进行过滤单字和长句的处理，将含有“、”的文本分成单个词语。

2)数据预处理；根据成词规则过滤掉文本中的非中文字符和停用词。因为会议通知中的时间和地点等信息不具有新词，则采用正则表达式规则保留其主要内容的部分；例如：例如：“11月15日，XX同志参加新能源发展总结大会(第一会议室)”，这一句中时间和地点是不存在新词的数据，主要是从中间内容部分中提取新词，则这里需采用正则表达式保留中间主要内容部分。

3)对步骤2)中处理后的数据进行分词，即进行Jieba分词操作。

4)建立字典树；将每个字与其右邻的字组成二元组，使用3-gram的方式来构建节点，并使用字典树对存储分词和统计词频。

5)利用互信息和信息熵进行新词发现。利用左右信息熵和互信息进行成词概率的计算，计算候选词语的得分score＝MI+min(左熵，右熵)，以得分高低进行排序，取出前5个，若前面的待选词在属于后面待选词一部分，则删除后面待选词，例如：新能源这个词排第一位，新能源发展这个词排第三位，这就是前面的待选词属于后面待选词的一部分，那这样排序后面的等待成为新词的词就可以删除。

6)将提取的新词放入词库，并于与词库中已有的词进行对比，假如词库中已经包含该词，则不再重复加入。从而保证词库中的每一个词都是唯一的，不会重复出现。

7)最后根据不同场景的实际需求，可以通过专业人员的筛选将步骤5中被删除的新词重新添加进词库，例如：由于存在“碳达峰”，而“碳达峰碳中和”被删除，此时，专业人员可以将“碳达峰碳中和”重新添加至词库中，以完善词库；也可以通过专业人员直接添加热词作为新词来完善词库。

实施例一

如图2所示，本实施例提供一种基于左右信息熵和互信息的新词发现方法，包括：

步骤1、通过设置正则表达式，从文本中提取引号中的内容，并进行过滤单字和长句处理，将含有“、”的文本分成单个词语，得到语句数据，之后对语句数据进行非中文字符和停用词过滤，得到处理数据；

步骤2、将处理数据进行分词操作，得到分词数据；

步骤3、将每个字与其右邻的字组成二元组，使用3-gram的方式来构建节点，并使用字典树对存储分词和统计词频；

步骤4、基于字典树，利用左右信息熵和互信息进行成词概率的计算，计算候选词语的得分score＝MI+min(左熵，右熵)，以得分高低进行排序，取出设定前N个待选词，若前面的待选词在属于后面待选词一部分，则删除后面待选词；并比较词库中是否存在该待选词，若是存在，则不进行存储，若不存在，则进行存储。

基于同一发明构思，本申请还提供了与实施例一中的方法对应的装置，详见实施例二。

实施例二

如图3所示，在本实施例中提供了一种基于左右信息熵和互信息的新词发现装置，包括：

处理模块，通过设置正则表达式，从文本中提取引号中的内容，并进行过滤单字和长句处理，将含有“、”的文本分成单个词语，得到语句数据，之后对语句数据进行非中文字符和停用词过滤，得到处理数据；

分词模块，将处理数据进行分词操作，得到分词数据；

字典模块，将每个字与其右邻的字组成二元组，使用3-gram的方式来构建节点，并使用字典树对存储分词和统计词频；

存储模块，基于字典树，利用左右信息熵和互信息进行成词概率的计算，计算候选词语的得分score＝MI+min(左熵，右熵)，以得分高低进行排序，取出设定前N个待选词，若前面的待选词在属于后面待选词一部分，则删除后面待选词；并比较词库中是否存在该待选词，若是存在，则不进行存储，若不存在，则进行存储。

由于本发明实施例二所介绍的装置，为实施本发明实施例一的方法所采用的装置，故而基于本发明实施例一所介绍的方法，本领域所属人员能够了解该装置的具体结构及变形，故而在此不再赘述。凡是本发明实施例一的方法所采用的装置都属于本发明所欲保护的范围。

虽然以上描述了本发明的具体实施方式，但是熟悉本技术领域的技术人员应当理解，我们所描述的具体的实施例只是说明性的，而不是用于对本发明的范围的限定，熟悉本领域的技术人员在依照本发明的精神所作的等效的修饰以及变化，都应当涵盖在本发明的权利要求所保护的范围内。

Claims

1.一种基于左右信息熵和互信息的新词发现方法，其特征在于：包括：

步骤2、将处理数据进行分词操作，得到分词数据；

步骤3、根据分词数据建立字典树；

2.根据权利要求1所述的一种基于左右信息熵和互信息的新词发现方法，其特征在于：所述步骤4进一步具体为：基于字典树，利用左右信息熵和互信息进行成词概率的计算，计算候选词语的得分score＝MI+min(左熵，右熵)，以得分高低进行排序，取出设定前N个待选词，若前面的待选词在属于后面待选词一部分，则删除后面待选词；并比较词库中是否存在该待选词，若是存在，则不进行存储，若不存在，则进行存储。

3.根据权利要求1所述的一种基于左右信息熵和互信息的新词发现方法，其特征在于：所述步骤1进一步具体为：通过设置正则表达式，从文本中提取引号中的内容，并进行过滤单字和长句处理，将含有“、”的文本分成单个词语，得到语句数据，之后对语句数据进行非中文字符和停用词过滤，得到处理数据。

4.根据权利要求1所述的一种基于左右信息熵和互信息的新词发现方法，其特征在于：所述步骤3进一步具体为：将每个字与其右邻的字组成二元组，使用3-gram的方式来构建节点，并使用字典树对存储分词和统计词频。

5.一种基于左右信息熵和互信息的新词发现装置，其特征在于：包括：

分词模块，将处理数据进行分词操作，得到分词数据；

字典模块，根据分词数据建立字典树；

6.根据权利要求5所述的一种基于左右信息熵和互信息的新词发现装置，其特征在于：所述存储模块进一步具体为：基于字典树，利用左右信息熵和互信息进行成词概率的计算，计算候选词语的得分score＝MI+min(左熵，右熵)，以得分高低进行排序，取出设定前N个待选词，若前面的待选词在属于后面待选词一部分，则删除后面待选词；并比较词库中是否存在该待选词，若是存在，则不进行存储，若不存在，则进行存储。

7.根据权利要求5所述的一种基于左右信息熵和互信息的新词发现装置，其特征在于：所述处理模块进一步具体为：通过设置正则表达式，从文本中提取引号中的内容，并进行过滤单字和长句处理，将含有“、”的文本分成单个词语，得到语句数据，之后对语句数据进行非中文字符和停用词过滤，得到处理数据。

8.根据权利要求5所述的一种基于左右信息熵和互信息的新词发现装置，其特征在于：所述字典模块进一步具体为：将每个字与其右邻的字组成二元组，使用3-gram的方式来构建节点，并使用字典树对存储分词和统计词频。