CN111767734A

CN111767734A - 一种基于多层隐马模型的分词方法及系统

Info

Publication number: CN111767734A
Application number: CN202010531204.3A
Authority: CN
Inventors: 李强; 余祥; 朱峰; 陈立哲; 李腾飞; 顾正海
Original assignee: Anhui Lvben Technology Co ltd
Current assignee: Anhui Lvben Technology Co ltd
Priority date: 2020-06-11
Filing date: 2020-06-11
Publication date: 2020-10-13

Abstract

本发明公开了一种基于多层隐马模型的分词方法及系统，属于人工智能技术领域，包括：对输入的原始字符串进行预处理，得到初步分词的二元切分词图；利用多层隐马模型对原始字符串进行未登录词识别，以对初步分词的二元切分词图进行修正，得到修正后的二元切分词图；利用基于词分类的隐马模型对修正后的二元切分词图进行处理，得到所述原始字符串对应的分词序列。本发明有效将机器学习算法和词典相结合，兼顾运行效率和准确率。

Description

一种基于多层隐马模型的分词方法及系统

技术领域

本发明涉及人工智能技术领域，特别涉及一种基于多层隐马模型的分词方法及系统。

背景技术

分词算法是人工智能技术领域自然语言处理中比较基础的部分，对语料进行分词，分词的结果可以应用于搜索、语义分析等各种领域。而中文本身的复杂性及语言规则的不确定性，使中文分词技术成为分词技术中的难点。

目前常用的分词方法一般有：基于词典分词算法也称字符串匹配分词算法(正向最大匹配法、逆向最大匹配法和双向匹配分词法等)和基于统计的机器学习算法(如HMM、CRF、SVM、深度学习等算法等)。这些分词方法存在的缺陷在于：基于词典的分词算法是应用最广泛、分词速度最快的，但分词准确率有待提高，尤其是在处理复杂命名实体以及专用名词时的准确率不高；基于统计的机器学习算法需要基于语料库进行标注训练，效率上会有一定影响，准确率受语料库的影响也较大。

发明内容

本发明的目的在于提供一种分词结果准确的多层隐马模型分词方法，有效将机器学习算法和词典相结合，兼顾运行效率和准确率。

为实现以上目的，采用一种基于多层隐马模型的分词方法，包括如下步骤：

对输入的原始字符串进行预处理，得到初步分词的二元切分词图；

利用多层隐马模型对原始字符串进行未登录词识别，以对初步分词的二元切分词图进行修正，得到修正后的二元切分词图；

利用基于词分类的隐马模型对修正后的二元切分词图进行处理，得到所述原始字符串对应的分词序列。

进一步地，所述对输入的原始字符串进行预处理，得到初步分词的二元切分词图，包括：

对所述原始字符串进行原子切分，得到所述原始字符串对应的原子分词序列；

采取N-GRAM方法对原子分词序列进行处理，得到能覆盖歧义的最佳N个分词结果；

由N个分词结果中最大概率的分词结果形成所述初步分词的二元切分词图。

进一步地，所述未登录词包括未登录词中的人名、地名、机构名和专用词，所述多层隐马模型包括人名识别隐马模型、地名识别隐马模型以及机构名和专用词识别隐马模型。

进一步地，所述利用多层隐马模型对原始字符串进行未登录词识别，以对初步分词的二元切分词图进行修正，得到修正后的二元切分词图，包括：

利用所述人名识别隐马模型对所述能覆盖歧义的最佳N个分词结果进行人名识别，得到人名识别结果，并利用人名识别结果对所述初步分词的二元切分词图进行人名修正，得到人名修正后的二元切分词图；

利用所述地名识别隐马模型对人名识别结果进行地名识别，得到地名识别结果，并利用地名识别结果对人名修正后的二元切分词图进行修正，得到地名修正后的二元切分词图；

利用所述机构名和专用词识别隐马模型对地名识别结果进行识别，得到机构名及专用词识别结果，并利用机构名及专用词识别结果对所述地名修正后的二元切分词图进行修正，得到所述修正后的二元切分词图。

进一步地，所述利用所述人名识别隐马模型对所述能覆盖歧义的最佳N个分词结果进行人名识别，得到人名识别结果，包括：

将熟语料库中已标注的句子按照人名角色进行划分，并对人名角色信息进行统计，抽取出人名角色信息；

使用N-Best viterbi算法对所述能覆盖歧义的最佳N个分词结果进行角色的自动标注，得到概率最大的标注结果；

利用抽取出的人名角色信息对概率最大的标注结果进行修正，得到所述人名识别结果。

进一步地，所述利用所述地名识别隐马模型对人名识别结果进行地名识别，得到地名识别结果，包括：

将熟语料库中已标注的句子按照地名角色进行划分，并对地名角色信息进行统计，抽取出地名角色信息；

使用N-Best viterbi算法对所述人名识别结果进行角色的自动标注，得到概率最大的标注结果；

利用抽取出的地名角色信息对概率最大的标注结果进行修正，得到所述地名识别结果。

进一步地，所述利用所述机构名和专用词识别隐马模型对地名识别结果进行识别，得到机构名及专用词识别结果，包括：

将熟语料库中已标注的句子按照机构名及专用词角色进行划分，并对机构名及专用词角色信息进行统计，抽取出机构名及专用词角色信息；

利用抽取出的机构名及专用词角色信息对概率最大的标注结果进行修正，得到所述机构名及专用词识别结果。

进一步地，所述利用基于词分类的隐马模型对修正后的二元切分词图进行处理，得到所述原始字符串对应的分词序列，包括：

对所述修正后的二元切分词图中的词进行分类，得到每个词对应的词类；

利用基于词分类的隐马模型对每个词对应的词类进行处理，得到所述原始字符串对应的分词序列，其中基于词分类的隐马模型为：

其中，W^#表示分词序列，词w_i作为观察值，词w_i对应的词类c_i作为状态值，W为观察序列，表示n词数量。

第二方面，采用一种基于多层隐马模型的分词系统，包括：预处理模块、修正模块和分词模块，其中：

预处理模块用于对输入的原始字符串进行预处理，得到初步分词的二元切分词图；

修正模块用于利用多层隐马模型对原始字符串进行未登录词识别，以对初步分词的二元切分词图进行修正，得到修正后的二元切分词图；

分词模块用于利用基于词分类的隐马模型对修正后的二元切分词图进行处理，得到所述原始字符串对应的分词序列。

第三方面，采用一种计算机可读存储设备，所述存储设备存储有计算机程序，所述计算机程序被执行时实现上述基于多层隐马模型的分词方法。

与现有技术相比，本发明存在以下技术效果：本发明中采用的多层隐马模型是将多层隐马模型进行简单嵌套，通过共用一个二元切分词图共同完成分词，相较于传统分词方法，将基于词典的分词和基于统计的机器学习分词方法相结合，通过隐马模型对文本中出现的未登录词进行识别，并且不断进行修正，将不同类别的未登录词识别分开，在保证识别准确率的同时，计算复杂度较低且实现简单，具有较高的识别效率。

附图说明

下面结合附图，对本发明的具体实施方式进行详细描述：

图1是一种基于多层隐马模型的分词方法流程图；

图2是多层隐马模型的工作流程图；

图3是短文本“教学科研”的N-gram模型切分路径示意图；

图4是初步分词的二元切分词图；

图5是人名修正后的二元切分词图；

图6是修正后的二元切分词图；

图7是一种基于多层隐马模型的分词系统的结构图。

具体实施方式

为了更进一步说明本发明的特征，请参阅以下有关本发明的详细说明与附图。所附图仅供参考与说明之用，并非用来对本发明的保护范围加以限制。

如图1所示，本实施例公开了一种基于多层隐马模型的分词方法，包括如下步骤S1至S3：

S1、对输入的原始字符串进行预处理，得到初步分词的二元切分词图；

S2、利用多层隐马模型对原始字符串进行未登录词识别，以对初步分词的二元切分词图进行修正，得到修正后的二元切分词图；

S3、利用基于词分类的隐马模型对修正后的二元切分词图进行处理，得到所述原始字符串对应的分词序列。

进一步地，上述步骤S1：对输入的原始字符串进行预处理，得到初步分词的二元切分词图，具体包括如下细分步骤S11至S12：

S11、对所述原始字符串进行原子切分，得到所述原始字符串对应的原子分词序列；

S12、采取N-GRAM方法对原子分词序列进行处理，得到能覆盖歧义的最佳N个分词结果；

S13、由N个分词结果中最大概率的分词结果形成所述初步分词的二元切分词图。

需要说明的是，本实施例中对输入的原始字符串进行原子切分，得到原始字符串对应的原子分词序列，然后对原子分词序列进行N-Gram分词处理，可以取N＝2或3。N-Gram分词后会得到根据概率大小排列的能覆盖歧义的N个分词结果，取最大概率分词结果形成二元切分词图。

具体来说：原子切分就是将句子中的每个原子分词划分出来，得到句子的原子分词序列。原子分词包括单字、标点符号、数字、连续英文字母、数字和特殊符号组成的字符串等。原子切分的步骤为：

1)对原始字串进行简单的逐个字符划分，包括数字、特殊字符、字母和单字；

2)将其中的数字或英文字母和后续的数字或英文字母作为一个原子分词，如3.14作为一个原子分词，2012作为一个原子分词，NUDT作为一个原子分词等。

具体来说：N-gram模型是一种语言模型(Language Model，LM)，其是一个基于概率的判别模型。其基本思想是文本中的每个词仅仅依赖于其前面的N-1个词。例如对短文本“教学科研”进行分词切分，有以下5种切分方式：

1)教学/科研

2)教/学科/研

3)教学/科/研

4)教/学/科研；

5)教/学/科/研。

将这些切法用有向无环图表示，结点为词语，边为条件概率，如图3所示。根据最大似然原理，分词的过程转为了在图3中求解最佳路径的问题，即可以利用动态规划算法进行求解一条路径在图3中的概率最大，作为最大概率的分词结果；将最大概率的分词结果送到二元切分词图，供后面的多层隐马模型进行命名实体识别，对初步分词的二元切分图进行使用和修正，如“张本华2012年毕业于安徽大学。”识别出“2012年”和“毕业于”词后初步分词的二元切分词图如图4所示。

需要说明的是，本实施例通过预处理过程找到原始字符串的多个最短路径粗分结果，先根据词典进行简单的分词划分，可进一步提高处理的效率，后面的多层隐马模型可以专注于处理命名实体。

进一步地，上述多层隐马模型识别的命名实体为人名、地名、机构名和专用词等未登录词，所述多层隐马模型包括人名识别隐马模型、地名识别隐马模型以及机构名和专用词识别隐马模型。其中，机构名和专用词识别隐马模型用于识别嵌套了简单人名和地名等未登录词的复杂机构名和专用词，包含人名未登录词的机构名、包含地名未登录词的机构名、包含人名和地名未登录词的机构名或包含人名和地名未登录词的专用词。

本实施例中的人名识别隐马模型、地名识别隐马模型以及机构名和专用词识别隐马模型均采用隐马尔可夫模型(Hidden Markov Model，HMM)，且均采用N-Best策略。

需要说明的是，传统中单层隐马模型准确率有待提高，多层复杂嵌套的方式时间复杂度和空间复杂度都较大；本实施例中多层隐马模型简单嵌套，分层处理不同命名实体，时间复杂度与单层隐马模型相当，且后面的隐马模型可以不断修正前面隐马模型的输出结果，如地名识别隐马模型中可以对前面包含人名的地名进行纠正，机构名和专用词识别隐马模型可以对包含人名或地名的机构名，以及包括多个简单词的复杂专用词进行识别纠正。

进一步地，上述步骤S2：利用多层隐马模型对原始字符串进行未登录词识别，以对初步分词的二元切分词图进行修正，得到修正后的二元切分词图，包括如下细分步骤S21至S22：

S21、利用所述人名识别隐马模型对所述能覆盖歧义的最佳N个分词结果进行人名识别，得到人名识别结果，并利用人名识别结果对所述初步分词的二元切分词图进行人名修正，得到人名修正后的二元切分词图；

S22、利用所述地名识别隐马模型对人名识别结果进行地名识别，得到地名识别结果，并利用地名识别结果对人名修正后的二元切分词图进行修正，得到地名修正后的二元切分词图；

S23、利用所述机构名和专用词识别隐马模型对地名识别结果进行识别，得到机构名及专用词识别结果，并利用机构名及专用词识别结果对所述地名修正后的二元切分词图进行修正，得到所述修正后的二元切分词图。

需要说明的是，未登录词识别包括人名、地名、机构名和专用词识别，依次进行。因为地名中可能包括人名，机构名和专用词中可能包括人名或地名。这里每一层识别都是基于隐马模型进行的，是一个迭代的过程。本方法通过将人名识别、地名识别以及机构名识别等命名实体识别融合到一个模型中，不针对专门的医疗、旅游等专业，适用性广。本实施例使用多层HMM实际是若干个层次的简单HMM的组合，不再是对HMM修改后更复杂的数学模型，时间和空间的开销较小。

进一步地，上述步骤S21中：利用所述人名识别隐马模型对所述能覆盖歧义的最佳N个分词结果进行人名识别，得到人名识别结果，具体体过程如下：

S211、将熟语料库中已标注的句子按照人名角色进行划分，并对人名角色信息进行统计，抽取出人名角色信息；即基于已标注的熟语料库(如已标注的人民日报语料库)，将熟语料库中已标注的句子按照人名角色进行划分(包括姓氏B、名首字C、名末字D、单名E、前缀F、后缀G、人名上文K、人名下文L、无关词A等)，并进行角色信息统计，完成人名角色信息自动抽取。具体过程如下：

获取熟语料库中标注好的句子，根据词性标注nf(姓氏)，nl(名)或者nr(姓名)定位出中国人名，标注将中国人名以外的词的标注换成角色A；若人名前面的片断p和人名首部f成为新词pf，将pf标注为U(上文与姓成词)，否则将p标为K(若p原来标注的角色是A)或M(若p原来标注的角色是L)。

若人名尾部t和人名后面的片断n成为新词tn，将tn标注为V(人名末字与下文成词)，否则将n标为L；分别对姓、双名首字、双名末字、单名、前缀、后缀相应地标注为角色B、C、D、E、F、G，内部成词的情况，相应地标注为X、Y、Z；在句子的角色序列中，将角色不是A的词存入人名识别词典，统计其出现次数即所有不同角色的出现次数和相邻角色的共同出现次数，完成人名角色信息抽取。

S212、使用N-Best viterbi算法对所述能覆盖歧义的最佳N个分词结果进行角色的自动标注，得到概率最大的标注结果，具体过程如下：

W＝(w₁,w₂,…,w_m)是分词后的一个词语切分序列，

T＝(t₁,t₂,…,t_m)是W的某个可能的角色标注序列，最终标注结果T^#即概率最大的角色序列：

将词w_i作为观察值，角色t_i作为状态值，W为观察序列，T为隐藏在W后的状态序列，这是一个隐马尔科夫链，引入隐马模型计算得到：

S213、利用抽取出的人名角色信息对概率最大的标注结果进行修正，得到所述人名识别结果，具体过程如下：

将角色为U(上文与姓组成词)的片断pf分裂为KB(若f为姓)、KC(若f为双名首字)或KE(若f为单名)；将角色为V(人名末字与下文成词)的片断tn分裂为DL(若t为双名末字)或EL(若t为单名)；对分裂处理后的角色序列在姓名识别模式集中进行模式串最大匹配，输出对应片段组成人名；通过限制规则排除错误人名，如人名中出现特殊符号等。“限制规则”人名中不允许出现特殊符号、数字、字母和汉字混合等。

利用人名识别结果对所述初步分词的二元切分词图进行人名修正，得到人名修正后的二元切分词图如图5所示。

需要说明的是，本步骤的作用是先给文本做一个粗分，将词典中已知的简单词识别出来，如常见的毕业、合肥、书籍等。粗分结果是一个词的列表，将这个列表中的所有词在词典中进行依次检索和匹配，识别出人名。

进一步地，上述步骤S22中：利用所述地名识别隐马模型对人名识别结果进行地名识别，得到地名识别结果，具体过程如下：

S221、将熟语料库中已标注的句子按照地名角色进行划分，并对地名角色信息进行统计，抽取出地名角色信息，具体为：

将熟语料库中标注后的句子中所有的词按地名角色(包括地名首字、地名中部、地名末字、前缀、后缀、地名上下文、无关词、连接词等)进行划分，完成地名角色信息自动抽取。

S222、使用N-Best viterbi算法对所述人名识别结果进行角色的自动标注，得到概率最大的标注结果；

S223、利用抽取出的地名角色信息对概率最大的标注结果进行修正，得到所述地名识别结果。

需要说明的是，这里的地名识别过程与人名识别过程类似，区别为角色使用地名角色。

进一步地，上述步骤S23中：利用所述机构名和专用词识别隐马模型对地名识别结果进行识别，得到机构名及专用词识别结果，具体过程如下：

S231、将熟语料库中已标注的句子按照机构名及专用词角色进行划分，并对机构名及专用词角色信息进行统计，抽取出机构名及专用词角色信息，具体为：

熟语料库中已标注的句子中所有的词按机构名角色进行划分，包括一般性前缀、地名前缀、特殊前缀、机构名前缀、上文、下文、无关词、连接词、特征词等。

S232、使用N-Best viterbi算法对所述人名识别结果进行角色的自动标注，得到概率最大的标注结果；

S233、利用抽取出的机构名及专用词角色信息对概率最大的标注结果进行修正，得到所述机构名及专用词识别结果。

需要说明的是，这里的机构名及专用词识别过程与人名识别过程类似，区别为角色使用机构名及专用词角色。最终得到的修正后的二元切分词图如图6所示。

进一步地，上述步骤S3：利用基于词分类的隐马模型对修正后的二元切分词图进行处理，得到所述原始字符串对应的分词序列，包括如下步骤S31至S32：

S31、对所述修正后的二元切分词图中的词进行分类，得到每个词对应的词类；

需要说明的是，该步骤在多层隐马模型完成人名、地名、机构名等未登录词的基础上进行。把所有词进行分类，包括登录词、未登录词中的人名、未登录词中的地名、未登录词中的机构名和专用词、未登录词中的数词、未登录词中的时间词、开始或结束标记等。其中，词典中已有的每个词对应的类即词本身，故词类总数为：|Dict|+6，|Dict|为词典的词数。

原子分词序列S的某个可能的分词结果为W＝(w₁,w₂,…,w_n)，W对应的词类别序列为C＝(c₁,c₂,…,c_n)，同时，取概率最大的分词结果W^#作为最终的分词结果，则W^#＝argmax_WP(W)，将词w_i作为观察值，词类c_i作为状态值，则W为观察序列，C为隐藏在W后的状态序列，是一个隐马尔科夫链，引入隐马模型计算得到如步骤S32。

S32、利用基于词分类的隐马模型对每个词对应的词类进行处理，得到所述原始字符串对应的分词序列，其中基于词分类的隐马模型为：

如果词w_i在词典中，则c_i＝w_i，p(w_i|c_i)＝1；所以主要针对未登录词w_i计算p(w_i|c_i)。在二元切分词图中，有向边的权值为相邻类的转移概率p(c_i|c_i-1)，最终所求的分词结果就是从初始节点到最终节点的最短路径，可采取贪心算法快速求解。

如图7所示，本实施例公开了一种基于多层隐马模型的分词系统，包括预处理模块10、修正模块20和分词模块30，其中：

预处理模块10用于对输入的原始字符串进行预处理，得到初步分词的二元切分词图；

修正模块20用于利用多层隐马模型对原始字符串进行未登录词识别，以对初步分词的二元切分词图进行修正，得到修正后的二元切分词图；

分词模块30用于利用基于词分类的隐马模型对修正后的二元切分词图进行处理，得到所述原始字符串对应的分词序列。

需要说明的是，本实施例公开的一种基于多层隐马模型的分词系统对应与上述实施例公开的基于多层隐马模型的分词方法，具体技术细节和效果类似，该处不再赘述。

另外，本实施例还公开了一种计算机可读存储设备，所述存储设备存储有计算机程序，所述计算机程序被执行时实现上述实施例中的基于多层隐马模型的分词方法。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于多层隐马模型的分词方法，其特征在于，包括：

2.如权利要求1所述的基于多层隐马模型的分词方法，其特征在于，所述对输入的原始字符串进行预处理，得到初步分词的二元切分词图，包括：

3.如权利要求2所述的基于多层隐马模型的分词方法，其特征在于，所述未登录词包括未登录词中的人名、地名、机构名和专用词，所述多层隐马模型包括人名识别隐马模型、地名识别隐马模型以及机构名和专用词识别隐马模型。

4.如权利要求3所述的基于多层隐马模型的分词方法，其特征在于，所述利用多层隐马模型对原始字符串进行未登录词识别，以对初步分词的二元切分词图进行修正，得到修正后的二元切分词图，包括：

5.如权利要求4所述的基于多层隐马模型的分词方法，其特征在于，所述利用所述人名识别隐马模型对所述能覆盖歧义的最佳N个分词结果进行人名识别，得到人名识别结果，包括：

6.如权利要求4所述的基于多层隐马模型的分词方法，其特征在于，所述利用所述地名识别隐马模型对人名识别结果进行地名识别，得到地名识别结果，包括：

7.如权利要求4所述的基于多层隐马模型的分词方法，其特征在于，所述利用所述机构名和专用词识别隐马模型对地名识别结果进行识别，得到机构名及专用词识别结果，包括：

8.如权利要求1所述的基于多层隐马模型的分词方法，其特征在于，所述利用基于词分类的隐马模型对修正后的二元切分词图进行处理，得到所述原始字符串对应的分词序列，包括：

9.一种基于多层隐马模型的分词系统，其特征在于，包括：预处理模块、修正模块和分词模块，其中：

10.一种计算机可读存储设备，所述存储设备存储有计算机程序，其特征在于，所述计算机程序被执行时实现如权利要求1～8任一项所述方法。