CN113270092A

CN113270092A - 一种基于lda算法的调度语音关键词提取方法

Info

Publication number: CN113270092A
Application number: CN202110508716.2A
Authority: CN
Inventors: 朱余启; 单祖植; 陈汝昌; 莫熙; 蒋迪; 史文博; 尹世豪; 伞晨峻; 赵海麟
Original assignee: Yunnan Power Grid Co Ltd
Current assignee: Yunnan Power Grid Co Ltd
Priority date: 2021-05-11
Filing date: 2021-05-11
Publication date: 2021-08-17

Abstract

本发明涉及一种基于LDA算法的调度语音关键词提取方法，包括以下步骤：确定调度语音关键词的特征；在调度电话录音转为文本过程中，生成候选关键词；根据LDA算法对各个候选关键词进行打分，然后输出topK个分值最高的候选关键词作为关键词；根据关键词检索文档的目录及段落内容，进行文档的选取并推送给调控中心，调控中心据此实现调控功能。本发明设计合理，其从调度电话录音数据中提取调度术语，自动分析出文本中比较重要的词作为关键词，并将关键词相关调阅的文档推送给调控中心，实现相应的调度控制功能，具有识别速度快、准确率高且易于实现等特点。

Description

一种基于LDA算法的调度语音关键词提取方法

技术领域

本发明属于电力调度自动化技术领域，涉及调度语音语义分析方法，尤其是一种基于LDA算法的调度语音关键词提取方法。

背景技术

随着电网调控一体化的改革深入，电力调度员面对越来越多的海量监控信息，往往受困于表象数据、资料，难以及时快速调取所关心信息，因此，迫切需要增加相应的智能化指挥辅助系统减轻人员工作压力。

调度电话录音数据是电力调度系统中重要的数据，目前，科研人员已经开始使用智能语音识别和语义技术来对调度电话录音进行识别和分析，将调度电话录音数据转换文本数据。由于调度电话录音数据的特殊性，现有技术手段很难对其进行准确识别，难以提取出语音数据中的调度语音关键词，因此，如何快速调取调度电话数据中的关键词并将识别后的文档推送给电力调度人员是目前迫切需要解决的问题。

发明内容

本发明的目的在于克服现有技术的不足，提供一种设计合理、准确可靠的基于LDA算法的调度语音关键词提取方法。

本发明解决现有的技术问题是采取以下技术方案实现的：

一种基于LDA算法的调度语音关键词提取方法，包括以下步骤：

步骤1、确定调度语音关键词的特征；

步骤2、在调度电话录音转为文本过程中，从调度电话录音数据中提取调度术语，生成候选关键词；

步骤3、根据LDA算法对各个候选关键词进行打分，然后输出topK个分值最高的候选关键词作为关键词；

步骤4、根据关键词检索文档的目录及段落内容，进行文档的选取并推送给调控中心，调控中心据此实现调控功能。

进一步，所述关键词的特征包括短语特征、统计特征和上下文特征；

进一步，所述短语特征为指观察关键词自身得到的特征，包括短语长度、标注序列、词干、大小写及特殊符号。

进一步，所述统计特征是对整个训练集和当前文本统计各单词得到的特征，包括短语频率和TF-IDF特征。

进一步，所述上下文特征是关键词在文本中的特征，包括前后特征、位置特征和引用特征。

进一步，所述步骤2的具体实现方法包括以下步骤：

步骤2.1、采用基于规则和基于统计的方法进行词性标注；

步骤2.2、使用正则规则提取名词性短语。

进一步，所述基于统计的方法采用隐式马尔可夫模型或最大熵模型。

进一步，所述正则规则是：NP＝(NN│JJ)(NN)，其中，NN为匹配名词单复数和专有名词单复数，JJ为匹配形容词及其比较级、最高级。

进一步，所述步骤3对各个候选关键词进行打分的方法为：采用gensim自带的LDAmodel进行LDA评分。

本发明的优点和积极效果是：

本发明设计合理，其从调度电话录音数据中提取调度术语，在语音识别一段内容后，首先抽取出候选词，然后对各个候选关键词采用LDA算法打分，输出topK个分值最高的候选词作为关键词，从而自动分析出文本中比较重要的词作为关键词，并将关键词相关调阅的文档推送给调控中心，实现相应的调度控制功能，本发明具有识别速度快、准确率高且易于实现等特点，成功为语义解析提供了可靠的保障，可广泛用于电力调控中心实现电力调度控制功能。

附图说明

图1为本发明的LDA模型示意图。

具体实施方式

以下结合附图对本发明实施例做进一步详述。

本发明基于LDA(Latent Dirichlet Allocation)模型实现，LDA模型就是“投影后类内方差最小，类间方差最大”。我们要将数据在低维度上进行投影，投影后希望每一种类别数据的投影点尽可能的接近，而不同类别的数据的类别中心之间的距离尽可能的大。如图1所示，假设我们有两类数据分别为深色和浅色，这些数据特征是二维的，我们希望将这些数据投影到一维的一条直线，让每一种类别数据的投影点尽可能的接近，而深色和浅色数据中心之间的距离尽可能的大。

基于上述设计思想，本发明的一种基于LDA算法的调度语音关键词提取方法，包括以下步骤：

步骤1、确定调度语音关键词的特征。

特征是用在监督学习中表示一个关键词的属性。机器学习模型不能仅仅根据候选词自身判断是否是关键词，还需要更多的信息。

在确定关键词的特征时，需要根据短语长度、标注序列、词干、大小写、特殊符号等短语特征，统计特征频率。本专利使用TF-IDF统计方法，评估一个字词对于一个文件集或一个语料库中的一份文件的重要程度，字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。

在本专利申请中，将关键词的特征分为以下几组：短语特征、统计特征、上下文特征。

其中：

1、短语特征：短语特征是指观察关键词自身可以得到的特征。

很多情况下我们可以根据候选词的长度，词性标注等属性做出判断是否可能是关键词。这一类特征我们也可以通过规则筛选候选词，但利用机器学习模型在训练集上学习，可以避免主观判断错误。短语特征包含以下部分：

(1)短语长度：这里的短语长度是指关键词中词的数量，比如关键词“machinelearning”的长度为2。不同领域中关键词的短语长度变化很大，新闻可能较短，科技论文的关键词可能是一个很长的复合词。即便是本专利关注的电力调度领域，关键词的长度仍然变化幅度较大，从单个单词到长度超过10的短语均有标注。我们无法凭直觉处理短语长度特征乃至短语特征这类特征，但这可以作为描述关键词的一个属性送入机器学习的特征集合。

(2)标注序列POS：POS是指对关键词作词性标注得到的标注序列。可以从词性标注序列得到很多有用的信息，例如完全有名词构成的短语，或者以诸如介词结尾这种不完整的短语不可能是关键词短语。

(3)词干：英文中的词干是指一个单词在变化中不改变的部分。例如常见的名词单复数，形容词的比较级、最高级，动词的时态变化。使用词干可以消除不必要的干扰，增加关键词的准确性。

(4)大小写：这里的大小写特征特定作用于英文文档中。英文中除了句首首字母大写外，专有名词会全部大写或者首字母大写。本专利区分以下几类作为特征：短语各单词首字母均大写，全部大写或全部小写。

(5)特殊符号：特殊符号是指除英文大小写字母以外的字母，包括标点符号，以及科技文献中常见的希腊字母。通常来说特殊符号越多，越不可能是关键词。考虑到完全是特殊符号的短语可能是专有名词，也可能是关键词。

2、统计特征：是对整个训练集和当前文本统计各单词得到的特征，而不能仅仅通过处理短语得到。

统计特征主要是短语频率和TF-IDF等特征，分别说明如下：

(1)短语频率(Term Frequency)：关键词的频率是衡量一个单词是否重要的显著特征。

(2)词频-逆向文件频率(TF-IDF，term frequency–inverse documentfrequency)：对于某个特定文件的词语t_i来说，其词频计算公式为：

上式中n_i,j是该词在文件中出现的次数，而分母是文件中所有字词出现的次数和。虽然关键词不等价于高频短语，但通常认为词频越高，成为关键词可能性越大。另一方面考虑到冠词、介词等虚词出现频率虽然高，却没有实际含义，这就是下面逆文档频率处理的情形。

3、上下文特征：对关键词在文本中的特征，例如出现的位置等，通常出现在文档开头的短语较中间才出现的词更重要。上下文特征分别说明如下：

(1)前后特征：前后特征是指在包围关键词前后的单词特征。通常关键词位于句首或者句尾，前后的的词有明显的分界线，本专利中加入了前后单词以及词性标注结果作为特征，来区分关键词的边界。

(2)位置特征：即关键词第一次在文档中出现的位置。通常来说，关键词会出现在文章起始部分，对对长文档来说更是如此。本专利中处理的文档长度较短，文档开头没有综述性的论述，位置特征的效果可能会弱化。另外关键词第一次出现和最后一次出现的距离跨度也是一个重要指标，因为关键词通常会贯穿全文，跨度较长，这点同样对长文档更有效。

(3)引用特征:引用特征是指关键词与最近出现引用的距离。严格来讲，这应该属于文本的结构性特征，而对于科技论文而言，引用具有统一的格式，形如方括号包括的数字，例如“[1]”，夹杂在文本中间。通常引用的内容是简练概括的，与关键词关系密切。

步骤2、在调度电话录音转为文本过程中，从调度电话录音数据中提取调度术语，生成候选关键词：使用的方法是词性标注配合模式匹配，提取名词短语。

通常来说一个句子的单词会聚合成组块(chunking)短语，例如常见的名词短语组块，动词组块等。查看标注的数据集发现，大部分关键词都是名词短语组块，可以通过规则进行模式匹配高效提取这类关键词。

本步骤的具体实现方法包括以下步骤：

步骤2.1、词性标注：词性标注有基于规则和基于统计的方法。

本步骤采用的统计方法包括隐式马尔可夫模型、最大熵模型等进行词性标注，其准确率超过95％。

步骤2.2、提取名词性短语：本专利提取名词性短语使用的正则规则是：NP＝(NN│JJ)(NN)。其中NN匹配名词单复数，专有名词单复数，JJ匹配形容词及其比较级、最高级，本方法考虑到平衡候选词数目和召回率选取的规则。

步骤3、根据LDA算法对各个候选关键词进行打分，然后输出topK个分值最高的候选词作为关键词。

LDA是文档主题生成模型，主题生成模型是一种统计模型用于发现文档集合中出现的抽象“主题”。主题建模是一种常用的文本挖掘工具，用于在文本体中发现隐藏的语义结构。LDA也称三层贝叶斯概率模型，包含词、主题和文档三层结构；利用文档中单词的共现关系来对单词按主题聚类，得到“文档-主题”和“主题-单词”2个概率分布。

本步骤采用gensim自带的LDAmodel进行LDA评分，其将文档集中每篇文档的主题以概率分布的形式给出，从而通过分析一些文档抽取出它们的主题(分布)出来后，便可以根据主题(分布)进行主题聚类或文本分类。同时，它是一种典型的词袋模型，即一篇文档是由一组词构成，词与词之间没有先后顺序的关系。

本步骤的实现原理是：候选的关键词与抽取的主题计算相似度并进行排序，得到最终的关键词。其关键点是：计算候选关键词和抽取的主题相似度：每个主题由N个单词*概率的集合来代表。每个文本属于k个主题，把k个主题所包含的词赋予该文档，便得到每个文档的候选词关键词。如果文档分词后得到的词语在候选关键词中，那么将其作为关键词提取出来。

步骤4、文档推送:根据关键词检索文档的目录及段落内容，进行文档的选取并推送给调控中心，调控中心据此实现调控功能。

需要强调的是，本发明所述的实施例是说明性的，而不是限定性的，因此本发明包括并不限于具体实施方式中所述的实施例，凡是由本领域技术人员根据本发明的技术方案得出的其他实施方式，同样属于本发明保护的范围。

Claims

1.一种基于LDA算法的调度语音关键词提取方法，其特征在于：包括以下步骤：

步骤1、确定调度语音关键词的特征；

2.根据权利要求1所述的一种基于LDA算法的调度语音关键词提取方法，其特征在于：所述关键词的特征包括短语特征、统计特征和上下文特征。

3.根据权利要求2所述的一种基于LDA算法的调度语音关键词提取方法，其特征在于：所述短语特征为指观察关键词自身得到的特征，包括短语长度、标注序列、词干、大小写及特殊符号。

4.根据权利要求2所述的一种基于LDA算法的调度语音关键词提取方法，其特征在于：所述统计特征是对整个训练集和当前文本统计各单词得到的特征，包括短语频率和TF-IDF特征。

5.根据权利要求2所述的一种基于LDA算法的调度语音关键词提取方法，其特征在于：所述上下文特征是关键词在文本中的特征，包括前后特征、位置特征和引用特征。

6.根据权利要求1所述的一种基于LDA算法的调度语音关键词提取方法，其特征在于：所述步骤2的具体实现方法包括以下步骤：

步骤2.1、采用基于规则和基于统计的方法进行词性标注；

步骤2.2、使用正则规则提取名词性短语。

7.根据权利要求6所述的一种基于LDA算法的调度语音关键词提取方法，其特征在于：所述基于统计的方法采用隐式马尔可夫模型或最大熵模型。

8.根据权利要求6所述的一种基于LDA算法的调度语音关键词提取方法，其特征在于：所述正则规则是：NP＝(NN│JJ)(NN)，其中，NN为匹配名词单复数和专有名词单复数，JJ为匹配形容词及其比较级、最高级。

9.根据权利要求1所述的一种基于LDA算法的调度语音关键词提取方法，其特征在于：所述步骤3对各个候选关键词进行打分的方法为：采用gensim自带的LDAmodel进行LDA评分。