CN108170680A

CN108170680A - 基于隐马尔科夫模型的关键词识别方法、终端设备及存储介质

Info

Publication number: CN108170680A
Application number: CN201711480960.2A
Authority: CN
Inventors: 龚黎立; 章正道; 俞碧洪; 许剑峰; 朱振水; 李程; 阮赐兴; 黄艺森; 戴祖安
Original assignee: Xiamen Meiya Pico Information Co Ltd
Current assignee: Xiamen Meiya Pico Information Co Ltd
Priority date: 2017-12-29
Filing date: 2017-12-29
Publication date: 2018-06-15

Abstract

本发明涉及一种基于隐马尔科夫模型关键词识别方法，包括以下步骤：S1、构建隐马尔科夫模型，隐马尔科夫模型包括五个元素：隐含状态S、可观测状态O、初始状态概率矩阵π、隐含状态转移概率矩阵A和观测状态矩阵B；S2、将目标文章通过分词算法拆分成词语+词性的格式后，输入已经构建好的隐马尔科夫模型中，获得可观测状态序列O，然后将可观测状态序列O输入构建好的隐马尔科夫模型，得到模型μ；S3、利用构建好的隐马尔科夫模型μ和得到的观测状态序列O＝{O₁,O₂,….O_T}，通过维特比算法，计算隐藏状态的最大可能值，从而识别每个词是否为关键词。本发明实现较好的通用性，可同时针对较长文章及短小文章提取关键词，识别的准确性高。

Description

基于隐马尔科夫模型的关键词识别方法、终端设备及存储介质

技术领域

本发明涉及一种基于隐马尔科夫模型的关键词识别方法、终端设备及存储介质。

背景技术

目前国内对语句观点的识别主要技术分为三类：

1、基于词典与规则匹配的识别方法：主要使用情感词本体或者情感词典作为识别的基础；

2、基于统计的识别方法：主要使用了支持向量机(SVM)，朴素贝叶斯(NaiveBayes)等在已经标注好的语料上进行训练，然后使用了训练所得到的分类器进行分类；

3、基于LDA主题模型的识别方法：主要使用LDA主题模型，不考虑文档中词的顺序，将每一篇文章看成是所有主题的混合分布，而主题又看成是词汇库中所有词的混合分布的方式进行识别分析。

目前国内对语句观点识别的三种方法中，头两种方式，基于词典与规则匹配的识别和基于统计的识别，很少考虑到微博内容的聚集性的特点，在对微博等短小文章的观点判断上会出现偏差；而第三种方式，基于LDA主题模型的识别方式在微博等短小文章的判断上有一定优势，但对于大段的文章判断会出现一定的偏差。

隐马尔科夫模型主要用于解决连续数据的概率问题，目前主要用于分词、语音识别或数据走势预测(如股票走势预测)等方面，在关键词提取上，隐马尔科夫模型主要为配合textRank算法，从词频、词性等方面加权提取关键词，因此难以用于微博等短小文章的关键词判断。

发明内容

本发明旨在提供一种基于隐马尔科夫模型关键词识别方法，以解决上述问题。为此，本发明采用的具体技术方案如下：

一种基于隐马尔科夫模型的关键词识别方法，包括以下步骤：

S1、构建隐马尔科夫模型，隐马尔科夫模型包括五个元素：隐含状态S、可观测状态O、初始状态概率矩阵π、隐含状态转移概率矩阵A和观测状态矩阵B，具体包括以下过程：

S11、构建隐含状态S，隐含状态S包括“MI”、“I”和“N”三种隐含状态，分别表示为主关键词、次关键词、一般词汇；

S12、构建可观测状态O，可观测状态O包括中文中包括的各个常用词汇及词性的排列组合和分别表示句首、句尾、段首和段尾的“SS”、“SE”、“PS”和“PE”四个状态，通过中文分词后的输入的序列得到可观测状态O；

S13、构建初始状态概率矩阵π，由于中文语句的特殊性，初始状态固定为段首；

S14、构建隐含状态转移概率矩阵A，通过标注好的语句进行训练，获得隐含状态转移概率矩阵A；

S15、构建观测状态矩阵B，通过标注好的语句进行训练，获得观测状态矩阵B；

S2、将目标文章通过分词算法拆分成词语+词性的格式后，输入已经构建好的隐马尔科夫模型中，获得可观测状态序列O＝{O₁,O₂,…,O_T}，然后将可观测状态序列O输入构建好的隐马尔科夫模型，得到模型μ；

S3、利用构建好的隐马尔科夫模型μ和得到的观测状态序列O＝{O₁,O₂,…,O_T}，通过维特比算法，计算隐藏状态的最大可能值，从而识别每个词是否为关键词。

进一步地，步骤S14的具体过程为：输入人工标注好关键词的语句或段落文本，获取每个词的隐含状态S_i，通过S_i和S_i+1的关系统计出隐含状态转移矩阵A。

进一步地，步骤S15的具体过程为：输入人工标注好关键词的语句或段落文本，获取每个词的可观测状态O_i，通过O_i和O_i+1的关系统计出观测状态转移矩阵B。

进一步地，步骤S3中的隐藏状态的最大可能值通过下面公式计算：

其中，P为概率集合，q_i为每个对应观测状态O对应于S_i的概率，a_ij为观测状态转移矩阵的由i转变为j的概率，b_i为当前节点隐藏状态转移矩阵的转变概率；步骤S3的具体过程如下：

S31、初始化：

δ₁(i)＝π_ib_i(O₁),1≤i≤N，

ψ₁(i)＝0，

其中，π_i为初始状态，ψ₁(i)为反向指针的初始化；

S32、归纳计算，通过隐藏状态的初始概率和相应的观测状态的概率计算出t节点的可能路径，再经由可能路径计算出t节点的局部概率：

ψ_t(j)＝argmax_1≤i≤N[δ_t-1(i)·a_ij]·b_j(O_t),2≤t≤T,1≤i≤N，

其中，T表示总的节点数，N表示t节点的观测状态的个数；

S33、终结，通过上一步得出的路径的集合统计出每个节点的最可能路径，再通过最可能路径计算出t节点的最可能的隐藏状态：

其中，表示可能路径集合，表示可能路径中隐藏状态的概率；

S34、路径回溯：

其中，表示t节点之前的每个对应观测状态O对应于S_i的概率的集合。

本发明还提供了一种基于隐马尔科夫模型的关键词识别终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其中，所述处理器执行所述计算机程序时实现如上所述方法的步骤。

本发明还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其中，所述计算机程序被处理器执行时实现如上所述方法的步骤。

本发明采用上述技术方案，具有的有益效果是：本发明实现较好的通用性，可同时针对较长文章及短小文章提取关键词，识别的准确性高。

附图说明

图1是根据本发明实施例的基于隐马尔科夫模型关键词识别方法的流程图；

图2是图1中的步骤S3中的维特比算法的流程图。

具体实施方式

为进一步说明各实施例，本发明提供有附图。这些附图为本发明揭露内容的一部分，其主要用以说明实施例，并可配合说明书的相关描述来解释实施例的运作原理。配合参考这些内容，本领域普通技术人员应能理解其他可能的实施方式以及本发明的优点。图中的组件并未按比例绘制，而类似的组件符号通常用来表示类似的组件。

现结合附图和具体实施方式对本发明进一步说明。如图1所示，一种基于隐马尔科夫模型的关键词识别方法，可包括以下步骤：

S1、构建隐马尔科夫模型。隐马尔科夫模型可以用五个元素来描述，包括两个状态集合和三个概率矩阵，构建隐马尔科夫模型主要为构建这五个元素：隐含状态S、可观测状态O、初始状态概率矩阵π、隐含状态转移概率矩阵A和观测状态矩阵B。具体包括以下过程：

S11、构建隐含状态S。隐马尔科夫模型是一个双重随机的模型，其中模型隐藏状态S的转换过程是不可观测的，如同语句中观点的关键词一样，无法用明确的标准来定义。在利用隐马尔科夫模型进行观点判断中，采用三种隐含状态，分别为“MI”，“I”，“N”，分别表示为主关键词、次关键词、一般词汇，以此来构建隐马尔科夫模型的三种隐藏状态。

S12、构建可观测状态O。可观测状态O包括中文中包括的各个常用词汇及词性的排列组合和分别表示句首、句尾、段首和段尾的“SS”、“SE”、“PS”和“PE”四个状态，通过中文分词后的输入的序列得到可观测状态O。

S13、构建初始状态概率矩阵π。由于中文语句的特殊性，初始状态固定为段首。

S14、构建隐含状态转移概率矩阵A。通过标注好的语句进行训练，获得隐含状态转移概率矩阵A。具体过程为：输入人工标注好关键词的语句或段落文本，获取每个词的隐含状态S_i，通过S_i和S_i+1的关系统计出隐含状态转移矩阵A。更具体地，输入用于训练材料(标注好关键词、观点的语句或段落文本)，利用分词的算法，将输入的句料拆分成词+词性的格式的观测状态(词相同但词性不同看做两个不同的观测状态)；将观测状态和隐含状态相互结合，输入隐马尔科夫模型，统计观测状态1之后出现的所有观测状态1…n中出现的隐藏状态(MI、I、N)的概率，由此可以获得观测状态1之后的隐藏状态转移概率矩阵；依次循环可以获得所有观测状态之后的隐藏状态转移概率矩阵。

S15、构建观测状态矩阵B。通过标注好的语句进行训练，获得观测状态矩阵B。具体过程为：输入人工标注好关键词的语句或段落文本，获取每个词的可观测状态O_i，通过O_i和O_i+1的关系统计出观测状态转移矩阵B。更具体地，输入用于训练材料(标注好关键词、观点的语句或段落文本)，利用分词的算法，将输入的句料拆分成词+词性的格式的观测状态(词相同但词性不同看做两个不同的观测状态)；将观测状态和隐含状态相互结合，输入隐马尔科夫模型，统计观测状态1之后出现不同隐藏状态(MI、I、N)下的观测状态2….n的概率，由此可获得在不同隐藏状态下的观测状态转移矩阵B。

S2、将目标文章通过分词算法拆分成词语+词性的格式后，输入已经构建好的隐马尔科夫模型中，获得可观测状态序列O＝{O₁,O₂,…,O_T}，然后将可观测状态序列O输入构建好的隐马尔科夫模型，得到模型μ。

S3、利用构建好的隐马尔科夫模型μ和得到的观测状态序列O＝{O₁,O₂,…,O_T}，通过维特比算法，计算隐藏状态的最大可能值，从而识别每个词是否为关键词。如图2所示，步骤S3中的隐藏状态的最大可能值通过下面公式计算：

其中，P为概率集合，q_t为每个对应观测状态O对应于S_i的概率，a_ij为观测状态转移矩阵的由i转变为j的概率，b_i为当前节点隐藏状态转移矩阵的转变概率；所述步骤S3的具体过程如下：

S31、初始化：

δ₁(i)＝π_ib_i(O₁),1≤i≤N，

ψ₁(i)＝0，

其中，π_i为初始状态，ψ₁(i)为反向指针的初始化，第一个节点无前节点，因此值为0。

ψ_t(j)＝argmax_1≤i≤N[δ_t-1(i)·a_ij]·b_j(O_t),2≤t≤T,1≤i≤N，

其中，T表示总的节点数，N表示t节点的观测状态的个数；

S34、路径回溯：

在本发明的实施例中，还提供了一种基于隐马尔科夫模型的关键词识别终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其中，所述处理器执行所述计算机程序时实现如上所述方法的步骤。

进一步地，该终端设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。该终端设备可包括，但不仅限于，处理器、存储器。本领域技术人员可以理解，上述终端设备的组成结构仅仅是基于隐马尔科夫模型的关键词识别终端设备的示例，并不构成对基于隐马尔科夫模型的关键词识别终端设备的限定，可以包括比上述更多或更少的部件，或者组合某些部件，或者不同的部件，例如基于隐马尔科夫模型的关键词识别终端设备还可以包括输入输出设备、网络接入设备、总线等，本发明实施例对此不做限定。

进一步地，所称处理器可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，所述处理器是基于隐马尔科夫模型的关键词识别终端设备的控制中心，利用各种接口和线路连接整个基于隐马尔科夫模型的关键词识别终端设备的各个部分。

所述存储器可用于存储所述计算机程序和/或模块，所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块，以及调用存储在存储器内的数据，实现所述基于隐马尔科夫模型的关键词识别终端设备的各种功能。所述存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现本发明实施例上述方法的步骤。

基于隐马尔科夫模型的关键词识别终端设备集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

本发明提供一种新的方法来获取文章中的观点及关键词。发明人在隐马尔科夫模型配合textRank算法基础上，去除textRank在词频上对算法的影响，对隐马尔科夫重新建模，将词性与词结合放入隐马尔科夫转移矩阵中，同时针对现有隐马尔科夫模型进行修改，将原有的一个隐藏状态转移矩阵变为多元的隐藏状态转移矩阵(即隐藏状态转移矩阵是会根据上下文的变化而发生变化的)，建立新的模型，从“语义”(词与词之间的前后关联性)上判断文章的关键词，从而实现较好的通用性，可同时针对较长文章及短小文章提取关键词。

本发明的最大的特点是利用整个文章上下文的词语及语句直接的关联性来判断观点及关键词，是较为通用的模型，可以通过输入训练的数据不同构建针对不同环境的模型，从而提高对这类数据判断的准确性。如可输入体育相关的微博数据进行训练，可构建出判断微博上与体育相关的博文的关键词和观点的模型，提高针对该类数据判断的准确性。

尽管结合优选实施方案具体展示和介绍了本发明，但所属领域的技术人员应该明白，在不脱离所附权利要求书所限定的本发明的精神和范围内，在形式上和细节上可以对本发明做出各种变化，均为本发明的保护范围。

Claims

1.基于隐马尔科夫模型的关键词识别方法，其特征在于，包括以下步骤：

S1、构建隐马尔科夫模型，隐马尔科夫模型包括五个元素：隐含状态S、可观测状态O、初始状态概率矩阵π、隐含状态转移概率矩阵A和观测状态转移矩阵B，具体包括以下过程：

S15、构建观测状态转移矩阵B，通过标注好的语句进行训练，获得观测状态转移矩阵B；

2.如权利要求1所述的基于隐马尔科夫模型的关键词识别方法，其特征在于，步骤S14的具体过程为：输入人工标注好关键词的语句或段落文本，获取每个词的隐含状态S_i，通过S_i和S_i+1的关系统计出隐含状态转移矩阵A。

3.如权利要求1所述的基于隐马尔科夫模型的关键词识别方法，其特征在于，步骤S15的具体过程为：输入人工标注好关键词的语句或段落文本，获取每个词的可观测状态O_i，通过O_i和O_i+1的关系统计出观测状态转移矩阵B。

4.如权利要求1所述的基于隐马尔科夫模型的关键词识别方法，其特征在于，步骤S3中的隐藏状态的最大可能值通过下面公式计算：

S31、初始化：

δ₁(i)＝π_ib_i(O₁),1≤i≤N，

ψ₁(i)＝0，

其中，π_i为初始状态，ψ₁(i)为反向指针的初始化；

ψ_t(j)＝arg max_1≤i≤N[δ_t-1(i)·a_ij]·b_j(O_t),2≤t≤T,1≤i≤N，

其中，T表示总的节点数，N表示t节点的观测状态的个数；

S34、路径回溯：

5.一种基于隐马尔科夫模型的关键词识别终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1-4中任一项所述方法的步骤。

6.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-4中任一项所述方法的步骤。