CN110489544A

CN110489544A - 一种基于马尔可夫链的语料库文本分类方法

Info

Publication number: CN110489544A
Application number: CN201910547151.1A
Authority: CN
Inventors: 肖清林
Original assignee: Central Mdt Infotech Ltd Of United States Of Xiamen
Current assignee: Central Mdt Infotech Ltd Of United States Of Xiamen
Priority date: 2019-06-24
Filing date: 2019-06-24
Publication date: 2019-11-22

Abstract

一种基于马尔可夫链的语料库文本分类方法，包括以下具体步骤：提取语料库中的原始数据，并对语料库中的文本进行分词；将分词结果输入分类模型；对分词结果中的每一个字进行拆分，并依次输入字向量模型；获得该分词属于各个词性的第一概率；将获取的分词结果输入隐马尔科夫模型，获取该分词属于各个词性的第二概率；通过第一概率与第二概率进行计算确定该分词结果的词性；查询用户访问该语料库的原始数据，获取用户使用该语料库中分词的词性；查询用户的当前使用的分词词性和所有未使用的分词词性；并根据所有用户对该用户的当前未使用的分词词性进行计算；根据相关度由高到低对语料库文本进行排序。

Description

一种基于马尔可夫链的语料库文本分类方法

技术领域

本发明涉及语料库文本分类技术领域，尤其涉及一种基于马尔可夫链的语料库文本分类方法。

背景技术

语料库指经科学取样和加工的大规模电子文本库。借助计算机分析工具，研究者可开展相关的语言理论及应用研究；语料库是语料库语言学研究的基础资源，也是经验主义语言研究方法的主要资源。应用于词典编纂，语言教学，传统语言研究，自然语言处理中基于统计或实例的研究等方面；在信息技术领域中，对于语料库的分类尤为重要，现有技术中往往按照词性进行分类，无法根据需要向用户推荐相关联的语料，使用颇为不便。

为解决上述问题，本申请中提出一种基于马尔可夫链的语料库文本分类方法。

发明内容

(一)发明目的

为解决背景技术中存在的在信息技术领域中，对于语料库的分类尤为重要，现有技术中往往按照词性进行分类，无法根据需要向用户推荐相关联的语料，使用颇为不便的技术问题，本发明提出一种基于马尔可夫链的语料库文本分类方法，本发明中在用户使用语料库时，计算语料库中词语的词性，并根据用户的初始状态向量和转移概率向量计算相关度，并将相关度高的语料文本进行推送，便于用户使用。

(二)技术方案

为解决上述问题，本发明提供了一种基于马尔可夫链的语料库文本分类方法，包括以下具体步骤：

S1、提取语料库中的原始数据，并对语料库中的文本进行分词；获得分词结果；

S2、将分词结果输入分类模型；用于对分词结果进行分类确定词性；

S3、对分词结果中的每一个字进行拆分，并依次输入字向量模型；字向量模型用于获取分词结果中每个字所对应的向量；

S4、计算分词结果中每一个字所对应向量的余弦值；获取分词结果中每个字所对应向量余弦值的乘积；获得该分词属于各个词性的第一概率；

S5、将获取的分词结果输入隐马尔科夫模型，获取该分词属于各个词性的第二概率；

S6、通过第一概率与第二概率进行计算确定该分词结果的词性；

S7、查询用户访问该语料库的原始数据，获取用户使用该语料库中分词的词性，并基于朴素贝叶斯算法，计算用户对该分词词性的喜欢的概率和不喜欢的概率；使用过的分词词性喜欢的概率和不喜欢的概率之和记为初始状态概率；初始状态概率使用向量形式表示；

S8、查询用户的当前使用的分词词性和所有未使用的分词词性；并根据所有用户对该用户的当前未使用的分词词性进行计算，获得用户对每一个未使用分词词性的喜欢的概率和不喜欢的概率；未使用过的分词词性喜欢的概率和不喜欢的概率之和记为当前用户的转移概率，所获得的结果使用向量表示；

S9、根据用户的初始状态向量和转移概率向量的余弦值计算相关度；

S10、根据相关度由高到低对语料库文本进行排序。

优选的，分词结果中包含中文词语序列和英文词语序列。

优选的，S4中一个分词具有多个词性，分别编号A1、A2……An；该分词属于各个词性的第一概率分别为P1、P2……Pn，n为正整数；A1与P1相对应、A2 与P2相对应……An与Pn相对应。

优选的，S5中该分词属于各个词性的第二概率分别为Q1、Q2……Qn；A1与 Q1相对应、A2与Q2相对应……An与Qn相对应；S6中分别计算P1与Q1的乘积、P2与Q2的乘积……Pn与Qn的乘积；根据乘积数值的大小排序，确定分词的词性。

优选的，将分词结果依次输入字向量模型之前，还包括：获取样本数据，样本数据中包括：样本文本，样本文本对应的分词结果，以及分词结果的中文词语序列中各中文词语的词性；根据样本数据对初始的隐马尔可夫模型进行训练，得到所述隐马尔可夫模型。

本发明的上述技术方案具有如下有益的技术效果：本发明中，先对语料库中的文本进行分词，并对分词结果进行分类；其中，分词结果中包含中文词语序列和英文词语序列；之后对分词结果中的每一个字进行拆分，并依次输入字向量模型；字向量模型用于获取分词结果中每个字所对应的向量；并根据所获得的字向量，计算出该分词属于各个词性的第一概率和第二概率，根据第一概率与第二概率的乘积数值的大小排序，确定分词的词性；之后分别获取用户的初始状态向量和转移概率向量，并利用向量的余弦值计算相关度，并根据相关度由高到低对语料库文本进行排序；从而使的用户在使用语料库时，能够将相关度高的语料文本进行推送，便于用户使用。

附图说明

图1为本发明提出的基于马尔可夫链的语料库文本分类方法的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明了，下面结合具体实施方式并参照附图，对本发明进一步详细说明。应该理解，这些描述只是示例性的，而并非要限制本发明的范围。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本发明的概念。

如图1所示，本发明提出的一种基于马尔可夫链的语料库文本分类方法，包括以下具体步骤：

S10、根据相关度由高到低对语料库文本进行排序。

本发明中，先对语料库中的文本进行分词，并对分词结果进行分类；其中，分词结果中包含中文词语序列和英文词语序列；之后对分词结果中的每一个字进行拆分，并依次输入字向量模型；字向量模型用于获取分词结果中每个字所对应的向量；并根据所获得的字向量，计算出该分词属于各个词性的第一概率和第二概率，根据第一概率与第二概率的乘积数值的大小排序，确定分词的词性；之后分别获取用户的初始状态向量和转移概率向量，并利用向量的余弦值计算相关度，并根据相关度由高到低对语料库文本进行排序；从而使的用户在使用语料库时，能够将相关度高的语料文本进行推送，便于用户使用。

在一个可选的实施例中，分词结果中包含中文词语序列和英文词语序列。

在一个可选的实施例中，S4中一个分词具有多个词性，分别编号A1、A2…… An；该分词属于各个词性的第一概率分别为P1、P2……Pn，n为正整数；A1与 P1相对应、A2与P2相对应……An与Pn相对应。

在一个可选的实施例中，S5中该分词属于各个词性的第二概率分别为Q1、 Q2……Qn；A1与Q1相对应、A2与Q2相对应……An与Qn相对应；S6中分别计算P1与Q1的乘积、P2与Q2的乘积……Pn与Qn的乘积；根据乘积数值的大小排序，确定分词的词性。

在一个可选的实施例中，将分词结果依次输入字向量模型之前，还包括：获取样本数据，样本数据中包括：样本文本，样本文本对应的分词结果，以及分词结果的中文词语序列中各中文词语的词性；根据样本数据对初始的隐马尔可夫模型进行训练，得到所述隐马尔可夫模型。

应当理解的是，本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理，而不构成对本发明的限制。因此，在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。此外，本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。

Claims

1.一种基于马尔可夫链的语料库文本分类方法，其特征在于，包括以下具体步骤：

S10、根据相关度由高到低对语料库文本进行排序。

2.根据权利要求1所述的基于马尔可夫链的语料库文本分类方法，其特征在于，分词结果中包含中文词语序列和英文词语序列。

3.根据权利要求1所述的基于马尔可夫链的语料库文本分类方法，其特征在于，S4中一个分词具有多个词性，分别编号A1、A2……An；该分词属于各个词性的第一概率分别为P1、P2……Pn，n为正整数；A1与P1相对应、A2与P2相对应……An与Pn相对应。

4.根据权利要求3所述的基于马尔可夫链的语料库文本分类方法，其特征在于，S5中该分词属于各个词性的第二概率分别为Q1、Q2……Qn；A1与Q1相对应、A2与Q2相对应……An与Qn相对应；S6中分别计算P1与Q1的乘积、P2与Q2的乘积……Pn与Qn的乘积；根据乘积数值的大小排序，确定分词的词性。

5.根据权利要求1所述的基于马尔可夫链的语料库文本分类方法，其特征在于，将分词结果依次输入字向量模型之前，还包括：获取样本数据，样本数据中包括：样本文本，样本文本对应的分词结果，以及分词结果的中文词语序列中各中文词语的词性；根据样本数据对初始的隐马尔可夫模型进行训练，得到所述隐马尔可夫模型。