CN112579775B

CN112579775B - 非结构化文本的分类方法及计算机可读存储介质

Info

Publication number: CN112579775B
Application number: CN202011514745.1A
Authority: CN
Inventors: 林宇彬; 黄晓予; 张诗鸣; 杨迪珊; 颜磊; 胡臻达; 张成炜; 傅本钊; 张劲波; 程诺; 熊莹
Original assignee: State Grid Fujian Electric Power Co Ltd; Economic and Technological Research Institute of State Grid Fujian Electric Power Co Ltd
Current assignee: State Grid Fujian Electric Power Co Ltd; Economic and Technological Research Institute of State Grid Fujian Electric Power Co Ltd
Priority date: 2020-12-21
Filing date: 2020-12-21
Publication date: 2022-11-22
Anticipated expiration: 2040-12-21
Also published as: CN112579775A

Abstract

本发明公开了一种非结构化文本的分类方法及计算机可读存储介质，方法包括：构建评审专业词汇库；对待分类的修改意见文本进行清洗，并根据清洗后的修改意见文本，切分得到单字的顺序数组；根据评审专业词汇库，构建顺序数组对应的前缀词典，并根据前缀词典，形成有向无环图；分别计算有向无环图中各路径的概率；判断最大概率值是否大于或等于预设的阈值；若是，则根据最大概率值对应的路径，得到最优分词结果；若否，则根据马尔科夫模型，对顺序数组进行中文分词，得到最优分词结果；将最优分词结果与预设的典型修改意见进行模糊匹配，并根据模糊匹配的结果对修改意见文本进行分类。本发明可实现修改意见的自动分类。

Description

非结构化文本的分类方法及计算机可读存储介质

技术领域

本发明涉及文本分类技术领域，尤其涉及一种非结构化文本的分类方法及计算机可读存储介质。

背景技术

当前，面对国资委对国网公司经营绩效的更高要求和社会降低电价预期的双重压力，以及电量增速趋缓、电价空间收窄的新常态，电网精准投资已成为公司提质增效，降本节支，提升稳健经营水平的重要举措。项目可研评审是项目投资决策之前，论证把关项目建设必要性、可行性、经济性的重要工作，是投资决策的重要参考依据，是落实公司精准投资战略举措的重要抓手。

评审专家针对报审项目可行性研究报告提出的修改意见，是电网基建项目的重点关注内容，蕴含了丰富的信息。自然语言处理是计算机科学领域与人工智能领域中的一个重要方向，它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。如何基于自然语言处理技术，将专家修改意见“标签化”以辅助项目质量提升是目前有待解决的问题。

发明内容

本发明所要解决的技术问题是：提供一种非结构化文本的分类方法及计算机可读存储介质，可实现修改意见的自动分类，提高修改意见分类统计的自动化水平。

为了解决上述技术问题，本发明采用的技术方案为：一种非结构化文本的分类方法，其特征在于，包括：

构建评审专业词汇库，所述评审专业词汇库包括历史修改意见中的词语及其词频；

对待分类的修改意见文本进行清洗，并根据清洗后的修改意见文本，切分得到单字的顺序数组；

根据所述评审专业词汇库，构建所述顺序数组对应的前缀词典，并根据所述前缀词典，形成有向无环图；

分别计算所述有向无环图中各路径的概率；

判断最大概率值是否大于或等于预设的阈值；

若是，则根据最大概率值对应的路径，得到最优分词结果；

若否，则根据马尔科夫模型，对所述顺序数组进行中文分词，得到最优分词结果；

将所述最优分词结果与预设的典型修改意见进行模糊匹配，并根据模糊匹配的结果对所述修改意见文本进行分类，标记所述修改意见文本的类型。

本发明还提出了一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现如上所述的方法的步骤。

本发明的有益效果在于：通过对修改意见文本进行清洗，避免特殊字符对分词结果的干扰；通过利用前缀词典或马尔科夫模型对清洗后的修改意见文本进行中文分词，可得到最优分词结果，后续根据最优分词结果进行匹配分类，提高修改意见文本的分类准确性。本发明可实现修改意见的自动分类，提高修改意见分类统计的自动化水平。

附图说明

图1为本发明的一种非结构化文本的分类方法的流程图；

图2为本发明实施例一的方法流程图；

图3为本发明实施例一的单字的顺序数组的示意图；

图4为本发明实施例一的有向无环图的示意图。

具体实施方式

为详细说明本发明的技术内容、所实现目的及效果，以下结合实施方式并配合附图详予说明。

请参阅图1，一种非结构化文本的分类方法，其特征在于，包括：

分别计算所述有向无环图中各路径的概率；

判断最大概率值是否大于或等于预设的阈值；

若是，则根据最大概率值对应的路径，得到最优分词结果；

从上述描述可知，本发明的有益效果在于：可实现修改意见的自动分类，提高修改意见分类统计的自动化水平。

进一步地，对待分类的修改意见文本进行清洗，并根据清洗后的修改意见文本，切分得到单字的顺序数组具体为：

若所述修改意见文本中包含预设的特殊字符，且所述特殊字符不存在于所述评审专业词汇库中，则将所述特殊字符从所述修改意见文本中分离；

将所述修改意见文本切分为单字，并按照语句顺序进行排序，得到单字的顺序数组。

由上述描述可知，通过对修改意见文本进行清洗，避免特殊字符对分词结果的干扰，且可提高分词效率。

进一步地，所述构建评审专业词汇库，所述评审专业词汇库包括历史修改意见中的词语及其词频具体为：

获取评审项目的历史修改意见；

分析统计所述历史修改意见中的词语及其词频，得到评审专业词汇库；

将所述评审专业词汇库中的评审专业词汇更新至统计词典。

由上述描述可知，通过分析统计历史修改意见中的词语及其词频，辅助专业词汇的准确提取。

进一步地，所述根据所述评审专业词汇库，构建所述顺序数组对应的前缀词典，并根据所述前缀词典，形成有向无环图具体为：

在所述统计词典中获取包含所述顺序数组中的单字的词汇及其词频，得到前缀词典；

根据所述前缀词典中的词汇，对所述顺序数组中的单字进行有向边的连接，形成有向无环图。

进一步地，所述分别计算所述有向无环图中各路径的概率具体为：

根据一有向边对应的词汇的词频以及所述前缀词典中各词汇的词频之和，计算所述一有向边的权重；

根据一路径中的各有向边的权重，计算所述一路径的概率。

进一步地，所述根据最大概率值对应的路径，得到最优分词结果具体为：

将最大概率值对应的路径中的各有向边对应的词汇，作为最优分词结果。

由上述描述可知，

进一步地，所述根据马尔科夫模型，对所述顺序数组进行中文分词，得到最优分词结果具体为：

根据马尔科夫模型，将所述顺序数组作为观测序列，计算对应的隐藏序列；

根据所述隐藏序列中各字符对应字符类型，对所述顺序数组进行划分，得到最优分词结果，所述字符类型包括词语的起始字、词语的中间字、词语的结束字以及单字成词。

由上述描述可知，评审专业词汇库中的词汇可能无法覆盖修改意见文本中的所有词汇，则可能出现词汇被识别为单个字符的情况，此时若采用基于前缀词典的方式计算最大概率路径，则路径的最大概率值较低，分词结果不够准确。因此，此时采用马尔科夫模型来进行分词，可提高分词准确度。

实施例一

请参照图2-4，本发明的实施例一为：一种非结构化文本的分类方法，可应用于对电网基建项目可研评审修改意见的分类，如图2所示，包括如下步骤：

S1：构建评审专业词汇库。具体地，汇总近两年评审项目中包括变电、线路、土建、通信、技经等专业的历史修改意见，通过训练统计词语及其词频，进一步地，还可以分析词语的词性，例如：(“核实”，“动词”，1236次)、(“工程量”，“名词”，730次)、(“间隔”，“名词”，228次)、(“出线”，“名词”，195次)等。将这些评审专业词汇更新至统计词典，辅助专业词汇的准确提取。

S2：获取待分类的修改意见文本，对待分类的修改意见文本进行清洗，并根据清洗后的修改意见文本，切分得到单字的顺序数组。

具体地，若所述修改意见文本中包含预设的特殊字符，且所述特殊字符不存在于所述评审专业词汇库中，则将所述特殊字符从所述修改意见文本中分离，并将所述特殊字符标记为未知词性。其中，所述特殊字符一般是由于输入法等原因输入的，如〖〗、€、￡、∞、

等。

然后将所述修改意见切分为单字，并按照语句顺序进行排序，得到单字的顺序数组。例如，假设修改意见文本为“补充地理位置图。”，其对应的单字的顺序数组如图3所示。

S3：根据所述评审专业词汇库，构建所述顺序数组对应的前缀词典，并根据所述前缀词典，形成有向无环图；

具体地，在所述统计词典中获取包含所述顺序数组中的单字的词汇及其词频，得到前缀词典；根据所述前缀词典中的词汇，对所述顺序数组中的单字进行有向边的连接，形成有向无环图。进一步地，前缀词典中也可以包含词汇的词性。

例如，以“补充地理位置图”为例，假设得到的前缀词典如下(数字表示词频)：

补，13402，动词；

补充，235078，动词；

充，3658，动词；

地，6583，名词/副词；

理，1065，名词/动词；

地理，17860，名词；

位，8677，名词；

置，547，动词；

位置，104366，名词；

地理位置，2053，名词；

图，52483，名词；

位置图，1038，名词；

地理位置图，839，名词。

可以得知，对于“补”，有“补”、“补充”2种划分方式；对于“充”，只有1种划分方式；对于“地”，因为统计词典中“地理位”的词频为0(即统计词典中没有该词汇)，因此有“地”、“地理”、“地理位置”、“地理位置图”4中划分方式；对于“理”，只有1种划分方式；对于“位”，有“位”、“位置”、“位置图”3中划分方式；对于“置”，只有1种划分方式；对于“图”，只有1种划分方式。也就是说，对于“补充地理位置图”，可划分得到的词汇包括“补”、“补充”、“充”、“地”、“理”、“地理”、“位”、“置”、“位置”、“地理位置”、“图”、“位置图”和“地理位置图”。

每个词汇都会有一个连接的有向边，字本身都会有一个自我连接的边。“补充地理位置图”对应的有向无环图如图4所示(图4中未示出字本身自我连接的有向边；图4中直线形的有向边无含义，不作为后续路径中边)。

S4：分别计算所述有向无环图中各路径的概率。

具体地，一条路径的概率为该路径中各有向边的权重之积，而一条有向边的权重的计算公式为p＝freq/total，其中，freq为该有向边对应的词汇的词频，total为有向无环图中所有有向边对应的词汇的词频之和，也即前缀词典中所有词汇的词频之和。

可以推知，当有向无环图中各有向边的权重相同时，路径中包含的有向边的数量越少，路径的概率越大。

例如，以“地理位置图”为例，可得到六条路径，分别为：地/理/位/置/图、地理/位/置/图、地理/位置/图、地理/位置图、地理位置/图、地理位置图。

假设用索引位置代表字符，则2:[2，3，5，6]代表可以组成[地，地理，地理位置，地理位置图]四种路径。

给每条路径中的边加上权重，从而将分词转换成了求最大概率路径。上述例子中。由于“地理位置图”这五个字没有与其他字的路径，也就是说这五个字的分词是独立的，它们的最大概率路径必定也是整个句子的最大概率路径的子路径。而“地理位置图”这五个字总共有六条路径，分别为[地，理，位，置，图]、[地理，位，置，图]、[地理，位置，图]、[地理，位置图]、[地理位置，图]、[地理位置图]。每条边的权重即这个词的概率为：p＝freq/total，freq代表这个词的频率(即前缀词典中的词频)，total为所有词的词频之和。

根据上述前缀词典，可计算得到p([地，理，位，置，图])<p([地理，位，置，图])<p([地理，位置，图])<p([地理，位置图])<p([地理位置，图])<p([地理位置图])。

以此类推，可以得知，“补充地理位置图”中的最大概率路径为：[补充、地理位置图]。

S5：判断最大概率值是否大于或等于预设的阈值，即判断各路径的概率中的最大值是否大于或等于预设的阈值，若是，则执行步骤S6，若否，则执行步骤S7。其中，阈值根据修改意见文本的字数而定，字数越多，阈值越小。

S6：根据最大概率值对应的路径，得到最优分词结果。即将最大概率值对应的路径中的各有向边对应的词汇，作为最优分词结果。然后执行步骤S8。

例如，“补充地理位置图”的最大概率路径为[补充、地理位置图]，则最优分词结果即为“补充”、“地理位置图”。

S7：根据马尔科夫模型，对所述顺序数组进行中文分词，得到最优分词结果。

马尔科夫模型的两个基本假设如下：

1、齐次马尔科夫性假设，即假设隐藏的马尔科夫链在任意时刻t的状态只依赖于其前一时刻的状态，与其他时刻的状态及观测无关，也与时刻t无关；

2、观测独立性假设，即假设任意时刻的观测只依赖于该时刻的马尔科夫链的状态，与其它观测和状态无关。

基于马尔科夫模型的分词由两部分组成：观测序列X与隐藏序列Y。观测序列X即输入的字符，本实施例中为所述顺序数组，隐藏序列Y是要预测的序列。

观测序列以“补充地理位置图”为例，基于马尔科夫模型的分词将字符分类为以下4种：B代表该字是词语中的起始字、M代表是词语中的中间字、E代表是词语中的结束字，S则代表是单字成词。基于马尔科夫模型的分词就是要预测所有字符的BEMS概率。

观测序列“补充地理位置图”对应的隐藏序列为：“BEBMMME”。预测该隐藏序列的逻辑如下：

1)首字状态概率

状态初始概率表示每个词初始状态的概率，一个词中的第一个字属于{B、M、E、S}，由于开头的第一个字只可能是每个词的首字(B)或者单字成词(S)，因此，第一个字为E和M的概率都是0。

首字的概率分布如下所示：

P＝{'B':-0.26268660809250016,

'E':-3.14e+100,

'M':-3.14e+100,

'S':-1.4652633398537678}

其中的概率值都是取对数之后的结果(可以让概率相乘转变为概率相加)，其中-3.14e+100代表负无穷，对应的概率值就是0。

2)状态转移

一阶的马尔科夫链最大的特点就是当前时刻T＝i的状态states(i)，只和T＝i时刻之前的n个状态有关，即{states(i-1),states(i-2),...,states(i-n)}。状态转移概率，其实就是一个嵌套的词典，标识了下一个字发生状态转移的概率，如下所示：

P＝{'B':{'E':-0.510825623765990,'M':-0.916290731874155},

'E':{'B':-0.5897149736854513,'S':-0.8085250474669937},

'M':{'E':-0.33344856811948514,'M':-1.2603623820268226},

'S':{'B':-0.7211965654669841,'S':-0.6658631448798212}}

P['B']['E']代表的含义就是从状态B转移到状态E的概率，从上述状态转移概率可知，P['B']['E']＝-0.510825623765990，即表示当前状态是B，下一个状态是E的概率对数是-0.510825623765990，对应的概率值是0.6(以无理数e为底数，概率对数为指数，计算得到概率值)。同理，当前状态是B，下一个状态是M的概率是0.4。可以看出，当处于一个词的开头时，下一个字是结尾的概率要远高于下一个字是中间字的概率，这是因为两个字的词比多个字的词更常见。

3)最大概率路径计算

按照马尔科夫模型预测，使用动态规划求解最大概率路径(一条路径对应着一个状态序列，概率最大的状态序列即为隐藏序列)。

根据动态规划原理，最优路径具有这样的特性：最优路径的子路径也一定是最优的，因为假设存在一条比原来子路径更优的子路径，那么将此子路径与原来路径相连，就会形成一条比原来的路径更优的路径，这是矛盾的。

根据这个原理，从点S出发，对于第一个状态X₁的各个节点，不妨假定有n₁个，计算出点S到这些节点的概率p(S,X_1i)，i＝1,2,…,n₁，其中X_1i代表任意第一个状态的节点，X_1i∈{S,B,M,E}。因为只有一步，所以这些概率都是S到它们各自的最大概率。

对于第二个状态X₂的所有节点，要计算出从S到它们的最大概率。对于特定的节点，从S到它的路径可以经过第一个状态的n₁个中的任何一个节点X_1i，对应的路径概率就是：p(S,X_2i)＝p(S,X_1i)×p(X_1i,X_2i)，由于X₁有n₁种可能，通过计算，可以找到最大概率值，即：p(S,X_2i)_max＝max_i＝1,n1p(S,X_1i)×p(X_1i,X_2i)。

接下来，类似地按照上述方法从第二个状态走到第三个状态，一直走到最后一个状态，就得到了最大概率路径。

进一步地，从图4中构建的有向无环图可以看到，文本切分的路径有多条，对于一个节点，只知道这个节点会指向后面哪些节点，但是很难直接知道有哪些前面的节点会指向这个节点。因此，采用从后往前的方式计算最大概率路径，基于动态规划，每到达一个节点，其前面的节点到终点的路径概率就可以计算出来。

通过上述方法，可得到观测序列“补充地理位置图”对应的隐藏序列为：“BEBMMME”。根据隐藏序列中“B”和“E”的位置，对顺序数组进行划分，得到“补充”、“地理位置图”，即最优分词结果。

S8：将所述最优分词结果与预设的典型修改意见进行模糊匹配，并根据模糊匹配的结果对所述修改意见文本进行分类，标记所述修改意见文本的类型。

其中，典型修改意见由评审专家梳理，例如，“导线截面选择设计深度不足”、“无功补偿配置未结合工程实际情况进行计算和论证”、“消弧线圈接地装置配置不合理”等。

具体地，先进行语义解析，例如，最优分词结果中的“补充”与“增补”、“补齐”均表示相同的意思。进而与典型修改意见进行模糊匹配，为修改意见文本打上“标签”，例如，示例的修改意见文本匹配程度最高的是“变电土建专业”、“材料缺失”、“地理位置图”。

本实施例通过对修改意见文本的分类汇总，进一步统计电网基建项目中，高频次的问题主要集中在哪些专业，具体问题的分布情况，辅助管理单位调整对策，促进项目质效提升。

本实施例基于自然语言处理技术，将专家修改意见“标签化”，通过评审常见问题的分析总结，形成技术问题及设计质量负面清单，辅助项目质量提升。

实施例二

本实施例是对应上述实施例的一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现如下步骤：

分别计算所述有向无环图中各路径的概率；

判断最大概率值是否大于或等于预设的阈值；

若是，则根据最大概率值对应的路径，得到最优分词结果；

进一步地，所述对待分类的修改意见文本进行清洗，并根据清洗后的修改意见文本，切分得到单字的顺序数组具体为：

获取评审项目的历史修改意见；

将所述评审专业词汇库中的评审专业词汇更新至统计词典。

根据一路径中的各有向边的权重，计算所述一路径的概率。

综上所述，本发明提供的一种非结构化文本的分类方法及计算机可读存储介质，通过对修改意见文本进行清洗，避免特殊字符对分词结果的干扰；通过利用前缀词典或马尔科夫模型对清洗后的修改意见文本进行中文分词，可得到最优分词结果，后续根据最优分词结果进行匹配分类，提高修改意见文本的分类准确性。本发明可实现修改意见的自动分类，提高修改意见分类统计的自动化水平。

以上所述仅为本发明的实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等同变换，或直接或间接运用在相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种非结构化文本的分类方法，其特征在于，包括：

分别计算所述有向无环图中各路径的概率，其中，一路径的概率为所述一路径中各有向边的权重之积，一有向边的权重为所述一有向边对应的词汇的词频与所述有向无环图中各有向边对应的词汇的词频之和的商；

判断最大概率值是否大于或等于预设的阈值；

若是，则根据最大概率值对应的路径，得到最优分词结果；

2.根据权利要求1所述的非结构化文本的分类方法，其特征在于，所述对待分类的修改意见文本进行清洗，并根据清洗后的修改意见文本，切分得到单字的顺序数组具体为：

3.根据权利要求1所述的非结构化文本的分类方法，其特征在于，所述构建评审专业词汇库，所述评审专业词汇库包括历史修改意见中的词语及其词频具体为：

获取评审项目的历史修改意见；

将所述评审专业词汇库中的评审专业词汇更新至统计词典。

4.根据权利要求3所述的非结构化文本的分类方法，其特征在于，所述根据所述评审专业词汇库，构建所述顺序数组对应的前缀词典，并根据所述前缀词典，形成有向无环图具体为：

5.根据权利要求4所述的非结构化文本的分类方法，其特征在于，所述分别计算所述有向无环图中各路径的概率具体为：

根据一路径中的各有向边的权重，计算所述一路径的概率。

6.根据权利要求5所述的非结构化文本的分类方法，其特征在于，所述根据最大概率值对应的路径，得到最优分词结果具体为：

7.根据权利要求1所述的非结构化文本的分类方法，其特征在于，所述根据马尔科夫模型，对所述顺序数组进行中文分词，得到最优分词结果具体为：

8.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1-7任一项所述的方法的步骤。