CN110489544A - 一种基于马尔可夫链的语料库文本分类方法 - Google Patents

一种基于马尔可夫链的语料库文本分类方法 Download PDF

Info

Publication number
CN110489544A
CN110489544A CN201910547151.1A CN201910547151A CN110489544A CN 110489544 A CN110489544 A CN 110489544A CN 201910547151 A CN201910547151 A CN 201910547151A CN 110489544 A CN110489544 A CN 110489544A
Authority
CN
China
Prior art keywords
speech
probability
participle
word
corpus
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910547151.1A
Other languages
English (en)
Inventor
肖清林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Central Mdt Infotech Ltd Of United States Of Xiamen
Original Assignee
Central Mdt Infotech Ltd Of United States Of Xiamen
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Central Mdt Infotech Ltd Of United States Of Xiamen filed Critical Central Mdt Infotech Ltd Of United States Of Xiamen
Priority to CN201910547151.1A priority Critical patent/CN110489544A/zh
Publication of CN110489544A publication Critical patent/CN110489544A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

一种基于马尔可夫链的语料库文本分类方法,包括以下具体步骤:提取语料库中的原始数据,并对语料库中的文本进行分词;将分词结果输入分类模型;对分词结果中的每一个字进行拆分,并依次输入字向量模型;获得该分词属于各个词性的第一概率;将获取的分词结果输入隐马尔科夫模型,获取该分词属于各个词性的第二概率;通过第一概率与第二概率进行计算确定该分词结果的词性;查询用户访问该语料库的原始数据,获取用户使用该语料库中分词的词性;查询用户的当前使用的分词词性和所有未使用的分词词性;并根据所有用户对该用户的当前未使用的分词词性进行计算;根据相关度由高到低对语料库文本进行排序。

Description

一种基于马尔可夫链的语料库文本分类方法
技术领域
本发明涉及语料库文本分类技术领域,尤其涉及一种基于马尔可夫链的语料库文本分类方法。
背景技术
语料库指经科学取样和加工的大规模电子文本库。借助计算机分析工具,研究者可开展相关的语言理论及应用研究;语料库是语料库语言学研究的基础资源,也是经验主义语言研究方法的主要资源。应用于词典编纂,语言教学,传统语言研究,自然语言处理中基于统计或实例的研究等方面;在信息技术领域中,对于语料库的分类尤为重要,现有技术中往往按照词性进行分类,无法根据需要向用户推荐相关联的语料,使用颇为不便。
为解决上述问题,本申请中提出一种基于马尔可夫链的语料库文本分类方法。
发明内容
(一)发明目的
为解决背景技术中存在的在信息技术领域中,对于语料库的分类尤为重要,现有技术中往往按照词性进行分类,无法根据需要向用户推荐相关联的语料,使用颇为不便的技术问题,本发明提出一种基于马尔可夫链的语料库文本分类方法,本发明中在用户使用语料库时,计算语料库中词语的词性,并根据用户的初始状态向量和转移概率向量计算相关度,并将相关度高的语料文本进行推送,便于用户使用。
(二)技术方案
为解决上述问题,本发明提供了一种基于马尔可夫链的语料库文本分类方法,包括以下具体步骤:
S1、提取语料库中的原始数据,并对语料库中的文本进行分词;获得分词结果;
S2、将分词结果输入分类模型;用于对分词结果进行分类确定词性;
S3、对分词结果中的每一个字进行拆分,并依次输入字向量模型;字向量模型用于获取分词结果中每个字所对应的向量;
S4、计算分词结果中每一个字所对应向量的余弦值;获取分词结果中每个字所对应向量余弦值的乘积;获得该分词属于各个词性的第一概率;
S5、将获取的分词结果输入隐马尔科夫模型,获取该分词属于各个词性的第二概率;
S6、通过第一概率与第二概率进行计算确定该分词结果的词性;
S7、查询用户访问该语料库的原始数据,获取用户使用该语料库中分词的词性,并基于朴素贝叶斯算法,计算用户对该分词词性的喜欢的概率和不喜欢的概率;使用过的分词词性喜欢的概率和不喜欢的概率之和记为初始状态概率;初始状态概率使用向量形式表示;
S8、查询用户的当前使用的分词词性和所有未使用的分词词性;并根据所有用户对该用户的当前未使用的分词词性进行计算,获得用户对每一个未使用分词词性的喜欢的概率和不喜欢的概率;未使用过的分词词性喜欢的概率和不喜欢的概率之和记为当前用户的转移概率,所获得的结果使用向量表示;
S9、根据用户的初始状态向量和转移概率向量的余弦值计算相关度;
S10、根据相关度由高到低对语料库文本进行排序。
优选的,分词结果中包含中文词语序列和英文词语序列。
优选的,S4中一个分词具有多个词性,分别编号A1、A2……An;该分词属于各个词性的第一概率分别为P1、P2……Pn,n为正整数;A1与P1相对应、A2 与P2相对应……An与Pn相对应。
优选的,S5中该分词属于各个词性的第二概率分别为Q1、Q2……Qn;A1与 Q1相对应、A2与Q2相对应……An与Qn相对应;S6中分别计算P1与Q1的乘积、P2与Q2的乘积……Pn与Qn的乘积;根据乘积数值的大小排序,确定分词的词性。
优选的,将分词结果依次输入字向量模型之前,还包括:获取样本数据,样本数据中包括:样本文本,样本文本对应的分词结果,以及分词结果的中文词语序列中各中文词语的词性;根据样本数据对初始的隐马尔可夫模型进行训练,得到所述隐马尔可夫模型。
本发明的上述技术方案具有如下有益的技术效果:本发明中,先对语料库中的文本进行分词,并对分词结果进行分类;其中,分词结果中包含中文词语序列和英文词语序列;之后对分词结果中的每一个字进行拆分,并依次输入字向量模型;字向量模型用于获取分词结果中每个字所对应的向量;并根据所获得的字向量,计算出该分词属于各个词性的第一概率和第二概率,根据第一概率与第二概率的乘积数值的大小排序,确定分词的词性;之后分别获取用户的初始状态向量和转移概率向量,并利用向量的余弦值计算相关度,并根据相关度由高到低对语料库文本进行排序;从而使的用户在使用语料库时,能够将相关度高的语料文本进行推送,便于用户使用。
附图说明
图1为本发明提出的基于马尔可夫链的语料库文本分类方法的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明了,下面结合具体实施方式并参照附图,对本发明进一步详细说明。应该理解,这些描述只是示例性的,而并非要限制本发明的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本发明的概念。
如图1所示,本发明提出的一种基于马尔可夫链的语料库文本分类方法,包括以下具体步骤:
S1、提取语料库中的原始数据,并对语料库中的文本进行分词;获得分词结果;
S2、将分词结果输入分类模型;用于对分词结果进行分类确定词性;
S3、对分词结果中的每一个字进行拆分,并依次输入字向量模型;字向量模型用于获取分词结果中每个字所对应的向量;
S4、计算分词结果中每一个字所对应向量的余弦值;获取分词结果中每个字所对应向量余弦值的乘积;获得该分词属于各个词性的第一概率;
S5、将获取的分词结果输入隐马尔科夫模型,获取该分词属于各个词性的第二概率;
S6、通过第一概率与第二概率进行计算确定该分词结果的词性;
S7、查询用户访问该语料库的原始数据,获取用户使用该语料库中分词的词性,并基于朴素贝叶斯算法,计算用户对该分词词性的喜欢的概率和不喜欢的概率;使用过的分词词性喜欢的概率和不喜欢的概率之和记为初始状态概率;初始状态概率使用向量形式表示;
S8、查询用户的当前使用的分词词性和所有未使用的分词词性;并根据所有用户对该用户的当前未使用的分词词性进行计算,获得用户对每一个未使用分词词性的喜欢的概率和不喜欢的概率;未使用过的分词词性喜欢的概率和不喜欢的概率之和记为当前用户的转移概率,所获得的结果使用向量表示;
S9、根据用户的初始状态向量和转移概率向量的余弦值计算相关度;
S10、根据相关度由高到低对语料库文本进行排序。
本发明中,先对语料库中的文本进行分词,并对分词结果进行分类;其中,分词结果中包含中文词语序列和英文词语序列;之后对分词结果中的每一个字进行拆分,并依次输入字向量模型;字向量模型用于获取分词结果中每个字所对应的向量;并根据所获得的字向量,计算出该分词属于各个词性的第一概率和第二概率,根据第一概率与第二概率的乘积数值的大小排序,确定分词的词性;之后分别获取用户的初始状态向量和转移概率向量,并利用向量的余弦值计算相关度,并根据相关度由高到低对语料库文本进行排序;从而使的用户在使用语料库时,能够将相关度高的语料文本进行推送,便于用户使用。
在一个可选的实施例中,分词结果中包含中文词语序列和英文词语序列。
在一个可选的实施例中,S4中一个分词具有多个词性,分别编号A1、A2…… An;该分词属于各个词性的第一概率分别为P1、P2……Pn,n为正整数;A1与 P1相对应、A2与P2相对应……An与Pn相对应。
在一个可选的实施例中,S5中该分词属于各个词性的第二概率分别为Q1、 Q2……Qn;A1与Q1相对应、A2与Q2相对应……An与Qn相对应;S6中分别计算P1与Q1的乘积、P2与Q2的乘积……Pn与Qn的乘积;根据乘积数值的大小排序,确定分词的词性。
在一个可选的实施例中,将分词结果依次输入字向量模型之前,还包括:获取样本数据,样本数据中包括:样本文本,样本文本对应的分词结果,以及分词结果的中文词语序列中各中文词语的词性;根据样本数据对初始的隐马尔可夫模型进行训练,得到所述隐马尔可夫模型。
应当理解的是,本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理,而不构成对本发明的限制。因此,在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。此外,本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。

Claims (5)

1.一种基于马尔可夫链的语料库文本分类方法,其特征在于,包括以下具体步骤:
S1、提取语料库中的原始数据,并对语料库中的文本进行分词;获得分词结果;
S2、将分词结果输入分类模型;用于对分词结果进行分类确定词性;
S3、对分词结果中的每一个字进行拆分,并依次输入字向量模型;字向量模型用于获取分词结果中每个字所对应的向量;
S4、计算分词结果中每一个字所对应向量的余弦值;获取分词结果中每个字所对应向量余弦值的乘积;获得该分词属于各个词性的第一概率;
S5、将获取的分词结果输入隐马尔科夫模型,获取该分词属于各个词性的第二概率;
S6、通过第一概率与第二概率进行计算确定该分词结果的词性;
S7、查询用户访问该语料库的原始数据,获取用户使用该语料库中分词的词性,并基于朴素贝叶斯算法,计算用户对该分词词性的喜欢的概率和不喜欢的概率;使用过的分词词性喜欢的概率和不喜欢的概率之和记为初始状态概率;初始状态概率使用向量形式表示;
S8、查询用户的当前使用的分词词性和所有未使用的分词词性;并根据所有用户对该用户的当前未使用的分词词性进行计算,获得用户对每一个未使用分词词性的喜欢的概率和不喜欢的概率;未使用过的分词词性喜欢的概率和不喜欢的概率之和记为当前用户的转移概率,所获得的结果使用向量表示;
S9、根据用户的初始状态向量和转移概率向量的余弦值计算相关度;
S10、根据相关度由高到低对语料库文本进行排序。
2.根据权利要求1所述的基于马尔可夫链的语料库文本分类方法,其特征在于,分词结果中包含中文词语序列和英文词语序列。
3.根据权利要求1所述的基于马尔可夫链的语料库文本分类方法,其特征在于,S4中一个分词具有多个词性,分别编号A1、A2……An;该分词属于各个词性的第一概率分别为P1、P2……Pn,n为正整数;A1与P1相对应、A2与P2相对应……An与Pn相对应。
4.根据权利要求3所述的基于马尔可夫链的语料库文本分类方法,其特征在于,S5中该分词属于各个词性的第二概率分别为Q1、Q2……Qn;A1与Q1相对应、A2与Q2相对应……An与Qn相对应;S6中分别计算P1与Q1的乘积、P2与Q2的乘积……Pn与Qn的乘积;根据乘积数值的大小排序,确定分词的词性。
5.根据权利要求1所述的基于马尔可夫链的语料库文本分类方法,其特征在于,将分词结果依次输入字向量模型之前,还包括:获取样本数据,样本数据中包括:样本文本,样本文本对应的分词结果,以及分词结果的中文词语序列中各中文词语的词性;根据样本数据对初始的隐马尔可夫模型进行训练,得到所述隐马尔可夫模型。
CN201910547151.1A 2019-06-24 2019-06-24 一种基于马尔可夫链的语料库文本分类方法 Pending CN110489544A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910547151.1A CN110489544A (zh) 2019-06-24 2019-06-24 一种基于马尔可夫链的语料库文本分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910547151.1A CN110489544A (zh) 2019-06-24 2019-06-24 一种基于马尔可夫链的语料库文本分类方法

Publications (1)

Publication Number Publication Date
CN110489544A true CN110489544A (zh) 2019-11-22

Family

ID=68546289

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910547151.1A Pending CN110489544A (zh) 2019-06-24 2019-06-24 一种基于马尔可夫链的语料库文本分类方法

Country Status (1)

Country Link
CN (1) CN110489544A (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102982131A (zh) * 2012-11-16 2013-03-20 杭州东信北邮信息技术有限公司 一种基于马尔科夫链的图书推荐方法
CN108073570A (zh) * 2018-01-04 2018-05-25 焦点科技股份有限公司 一种基于隐马尔可夫模型的词义消歧方法
CN108170674A (zh) * 2017-12-27 2018-06-15 东软集团股份有限公司 词性标注方法和装置、程序产品及存储介质
CN108959865A (zh) * 2017-05-25 2018-12-07 阿里巴巴集团控股有限公司 一种验证方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102982131A (zh) * 2012-11-16 2013-03-20 杭州东信北邮信息技术有限公司 一种基于马尔科夫链的图书推荐方法
CN108959865A (zh) * 2017-05-25 2018-12-07 阿里巴巴集团控股有限公司 一种验证方法及装置
CN108170674A (zh) * 2017-12-27 2018-06-15 东软集团股份有限公司 词性标注方法和装置、程序产品及存储介质
CN108073570A (zh) * 2018-01-04 2018-05-25 焦点科技股份有限公司 一种基于隐马尔可夫模型的词义消歧方法

Similar Documents

Publication Publication Date Title
CN109241255B (zh) 一种基于深度学习的意图识别方法
CN108108351B (zh) 一种基于深度学习组合模型的文本情感分类方法
CN107480143B (zh) 基于上下文相关性的对话话题分割方法和系统
CN106649260B (zh) 基于评论文本挖掘的产品特征结构树构建方法
CN110825877A (zh) 一种基于文本聚类的语义相似度分析方法
CN106598959B (zh) 一种确定双语语句对互译关系方法及系统
CN105183717B (zh) 一种基于随机森林和用户关系的osn用户情感分析方法
CN110895559B (zh) 模型训练、文本处理方法、装置以及设备
CN104077407B (zh) 一种智能数据搜索系统及方法
CN104156349B (zh) 基于统计词典模型的未登录词发现和分词系统及方法
WO2015149533A1 (zh) 一种基于网页内容分类进行分词处理的方法和装置
CN104778256B (zh) 一种领域问答系统咨询的快速可增量聚类方法
CN111353306B (zh) 基于实体关系和依存Tree-LSTM的联合事件抽取的方法
CN111858935A (zh) 一种航班点评的细粒度情感分类系统
CN101645083A (zh) 一种基于概念符号的文本领域的获取系统及方法
CN114139533A (zh) 一种面向中文小说领域的文本内容审核方法
KR20200052412A (ko) 인공지능 채용 시스템 및 상기 시스템의 채용 방법
CN108363691A (zh) 一种用于电力95598工单的领域术语识别系统及方法
CN103678287A (zh) 一种关键词翻译统一的方法
CN112445894A (zh) 基于人工智能的商务智能系统及其分析方法
CN107341142B (zh) 一种基于关键词提取分析的企业关系计算方法及系统
CN105354184A (zh) 一种使用优化的向量空间模型实现文档自动分类的方法
CN113360647B (zh) 一种基于聚类的5g移动业务投诉溯源分析方法
CN111178080A (zh) 一种基于结构化信息的命名实体识别方法及系统
CN114138969A (zh) 文本处理方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20191122