CN107832307A - 基于无向图与单层神经网络的中文分词方法 - Google Patents

基于无向图与单层神经网络的中文分词方法 Download PDF

Info

Publication number
CN107832307A
CN107832307A CN201711218709.9A CN201711218709A CN107832307A CN 107832307 A CN107832307 A CN 107832307A CN 201711218709 A CN201711218709 A CN 201711218709A CN 107832307 A CN107832307 A CN 107832307A
Authority
CN
China
Prior art keywords
character
chinese
word
neural networks
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201711218709.9A
Other languages
English (en)
Other versions
CN107832307B (zh
Inventor
夏睿
何声欢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Science and Technology
Original Assignee
Nanjing University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Science and Technology filed Critical Nanjing University of Science and Technology
Priority to CN201711218709.9A priority Critical patent/CN107832307B/zh
Publication of CN107832307A publication Critical patent/CN107832307A/zh
Application granted granted Critical
Publication of CN107832307B publication Critical patent/CN107832307B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Abstract

本发明公开了一种基于无向图与单层神经网络的中文分词方法,首先根据标注集,对给定的训练中文文本进行标注,统计其初始状态系数和状态转移系数;然后根据字典资源文件,对中文文本的每个字符依据其上下文进行特征抽取,得到文本特征;根据所有文本特征,构建特征函数集合,将文本特征转换特征向量;接着将特征向量送给单层神经网络训练分类器模型进行训练,直至模型收敛;再使用单层神经网络模型,对测试数据进行分类,根据统计的初始状态系数、状态转移系数,使用维特比算法进行最优标注序列的求解;最后将最优标注序列与测试原始文本结合,生成分词文本。本发明训练速度更快,消耗资源更少,泛化能力更强。

Description

基于无向图与单层神经网络的中文分词方法
技术领域
本发明涉及机器学习、自然语言处理领域,具体是涉及一种基于无向图与单层神经网络的中文分词方法。
背景技术
中文分词是文本分类、信息检索、信息过滤、情感分析、文献自动标引、摘要自动生成等中文信息处理中的关键技术及难点。不同于英语、葡萄牙语等语言,中文的词与词之间没有明显的分隔符号。而词又是理解句子的最小单位,这就导致分词成为中文信息处理非常重要的第一步。随着计算机与网络技术的不断发展,当今互联网已进入社交媒体时代。越来越多的用户乐于在网络上分享自己对产品或事物观点和体验。对于海量的主观文本信息,仅依靠人工进行跟踪、组织和管理已难以实现,如何利用计算机技术对海量的中文文本进行自动分词,已逐渐成为当下最迫切的需求。
传统的方法有基于词典的方法、基于规则的方法和基于统计的方法。基于词典的方法、基于规则的方法人工干预较多,基于统计的方法利用机器学习进行中文分词,降低人工成本。基于统计方法中,基于字标注的中文分词方法是近年来最为有效的分词方法,常采用的模型有隐马尔可夫模型、最大熵模型、条件随机场模型等等。但这类方法往往具有较为复杂的模型结构,计算资源开销较大。
发明内容
本发明的目的在于提供一种基于无向图与单层神经网络的中文分词方法,模型更为简单、泛化能力强,计算资源开销小。
实现本发明目的的技术解决方案为:一种基于无向图与单层神经网络的中文分词方法,包括以下步骤:
步骤1、根据标注集,对给定的训练中文文本进行标注,统计其初始状态系数和状态转移系数;
步骤2、根据字典资源文件,对中文文本的每个字符依据其上下文进行特征抽取,得到文本特征;根据所有文本特征,构建特征函数集合,将文本特征转换特征向量;
步骤3、将步骤2得到的特征向量送给单层神经网络训练分类器模型进行训练,直至模型收敛;
步骤4、使用步骤3得到的单层神经网络模型,对测试数据进行分类,根据步骤1统计的初始状态系数、状态转移系数,使用维特比算法进行最优标注序列的求解;
步骤5、将步骤4得到的最优标注序列与测试原始文本结合,生成分词文本。
本发明与现有技术相比,其显著优点为:1)本发明使用单层神经网络模型,相比于隐马尔科夫模型、条件随机场模型,涉及的模型参数更少,训练速度更快,消耗资源更少;2)本发明借鉴了生成式模型隐马尔科夫模型的优点,引入了一阶马尔科夫假设,保留了转移系数矩阵;借鉴了判别式模型条件随机场的优点,引入了特征函数,有助于提高模型的泛化能力。
附图说明
图1为本发明方法的流程图。
具体实施方式
下面结合附图和具体实施例进一步说明本发明方案。
如图1所示,基于无向图与单层神经网络的中文分词方法,主要分为五个阶段,具体步骤如下:
步骤1、根据标注集,对给定的训练中文文本进行标注,统计其初始状态系数和状态转移系数,具体为:
步骤1.1、对于给定训练文本,读取每一个句子,根据切分情况得到每个字符的标注;
步骤1.2、统计初始状态系数π,即句子第一个字符位置上标注的分布,统计状态转移系数矩阵α,即句子内部标注之间转移情况的分布。
本发明使用的标注集是4-tag标注集,即BMES标注系统,分别代表词首、词中、词尾和单独成词。
步骤2、根据字典资源文件,对中文文本的每个字符依据其上下文进行特征抽取,得到文本特征;根据所有文本特征,构建特征函数集合,将文本特征转换特征向量,具体为:
步骤2.1、根据特征工程模板文件和字典资源文件,对每个字符依据其上下文生成特定的文本特征,统计出现的特征数目,为每个特征分配唯一序号;
步骤2.2、根据每个特征的唯一序号,将字符对应的所有特征表示成一个特征向量。
本发明中,使用的特征工程模板文件如下:
1)Cn(n=-2,-1,0,1,2)
2)CnCn+1(n=-2,-1,0,1)
3)C-1C1
4)MWL0,t0
5)Cnt0(n=-1,0,1)
6)T(C-1)T(C0)T(C1)
7)N(C-1)N(C0)N(C1)
8)F(C-1)F(C0)F(C1)
其中,Cn表示相对位置为n的字符;MWL0,t0分别表示字典资源文件中,当前字符所属最长词的长度及对应的标注;T(Cn)表示取得字符的类别号,分为6类,分别是:0.阿拉伯数字(ANum)、1.中文数字1(CNum1)、2.中文数字2(CNum2)、3.英文字母(EngLetter)、4.日期(Date)及5.其他(Others);N(Cn)表示取得字符的中国人名用字类别号,分为6类,分表是:0.常见姓(Frequency Surname)、1.普通姓(Common Surname)、2.人名用字(Given Name)、3.both 0+2、4.both 1+2及5.其他(Others);F(Cn)所取得字符的外国人名用字类别号,分为2类,分表是:非外国人名常用字及外国人名常用字。
使用的字典资源文件包括阿拉伯数字字符表、中文数字字符表、英文字母字符表、日期常用字字符表、中国人名常用字字符表和外国人名常用字字符表。
步骤3、将步骤2得到的特征向量送给单层神经网络训练分类器模型进行训练,直至模型收敛;
步骤4、使用步骤3得到的单层神经网络模型,对测试数据进行分类,根据步骤1统计的初始状态系数、状态转移系数,使用维特比算法进行最优标注序列的求解,具体为:
步骤4.1、进行单层神经网络预测,得到基于softmax归一化后的概率:
式中,P(yt=i|wt)表示位置t上被标注为类别i的概率,其中L表示标注集的大小,θi表示类别i对应的神经网络单元权值向量,wt为位置t上的字符xt表示成的特征向量,所有xt构成长度为T的中文句子s=(x1,x2,…,xT);
步骤4.2、根据得到的概率进行维特比解码,求解出最优标注序列Y=(y1,y2,…,yT)。
步骤5、将步骤4得到的最优标注序列Y=(y1,y2,…,yT)与测试原始文本结合,生成分词文本。
实施例
下面结合示例描述方案,以便于对方案进行理解。
1)对于给定训练中文文本,首先需要对其进行预处理,预处理的内容包括统计初始状态系数和状态转移系数,以表1为例;
表1 分词文本预处理
2)对给定的训练中文文本进行特征抽取,依赖于人工制定的特征工程,对每个字符依据其上下文进行特征抽取,得到文本特征;统计文本特征,构建特征函数集合,根据该集合将文本特征转换特征向量。
以表1中的句子“我爱北京天安门。”为例,假设当前字符为“北”,上下文特征具体如表2所示:
表2 上下文特征
进一步的,对每个字符生成基于字典资源文件的特征、字符类别特征,具体如下:
A)首先根据字典资源文件,查询得知当前字符“北”的MWL0,t0=20,M,于是得到了有关字典资源的特征;
B)查询相关字符类别文件,得到最后三个特征的特征码:T(C-1)T(C0)T(C1)=555、N(C-1)N(C0)N(C1)=222和F(C-1)F(C0)F(C1)=110。
字典特征及字符类别特征都以文本形式,与上下文特征一同进行特征统计,即统称为文本特征。字典特征及字符类别特征的样例如表3所示。
表3 字典特征及字符类别特征
记录出现的所有特征,并为每一个特征分配一个唯一的序号,组成特征函数集合。根据特征函数集合,查询每个特征对应的唯一序号,根据序号生成特征向量。假设特征函数集合大小为|F|,则特征向量维度也为|F|,其中对应特征序号的维度上置1,其他维度上均为0。特征向量的文本表示如表4所示:
表4 特征向量的文本表示
其中,为0的维度未写明,冒号前是对应特征的维度,即序号。
3)使用2)生成的特征向量,训练基于无向图与单层神经网络的分类器。
4)对测试数据进行分类,根据1)统计的初始状态系数π和状态转移系数α,使用维特比算法进行最有标注序列的求解。
5)将4)得到的最优标注序列与原始文本结合,生成分词文本,根据句子中每个字符对应的标注,重组成词,从而得到分词文本。重组过程如表5所示:
表5 由标注重组文本
如上表所示,分词文本中,由空白字符分隔各个词语。

Claims (8)

1.基于无向图与单层神经网络的中文分词方法,其特征在于,包括以下步骤:
步骤1、根据标注集,对给定的训练中文文本进行标注,统计其初始状态系数和状态转移系数;
步骤2、根据字典资源文件,对中文文本的每个字符依据其上下文进行特征抽取,得到文本特征;根据所有文本特征,构建特征函数集合,将文本特征转换特征向量;
步骤3、将步骤2得到的特征向量送给单层神经网络训练分类器模型进行训练,直至模型收敛;
步骤4、使用步骤3得到的单层神经网络模型,对测试数据进行分类,根据步骤1统计的初始状态系数、状态转移系数,使用维特比算法进行最优标注序列的求解;
步骤5、将步骤4得到的最优标注序列与测试原始文本结合,生成分词文本。
2.根据权利要求1所述的基于无向图与单层神经网络的中文分词方法,其特征在于,步骤1使用的标注集是4-tag标注集,即BMES标注系统,分别代表词首、词中、词尾和单独成词。
3.根据权利要求1所述的基于无向图与单层神经网络的中文分词模型,其特征在于,步骤1具体为:
步骤1.1、对于给定训练文本,读取每一个句子,根据切分情况得到每个字符的标注;
步骤1.2、统计初始状态系数π,即句子第一个字符位置上标注的分布,统计状态转移系数矩阵α,即句子内部标注之间转移情况的分布。
4.根据权利要求1所述的基于无向图与单层神经网络的中文分词方法,其特征在于,所述步骤2具体为:
步骤2.1、根据特征工程模板文件和字典资源文件,对每个字符依据其上下文生成特定的文本特征,统计出现的特征数目,为每个特征分配唯一序号;
步骤2.2、根据每个特征的唯一序号,将字符对应的所有特征表示成一个特征向量。
5.根据权利要求1所述的基于无向图与单层神经网络的中文分词模型,其特征在于,步骤2使用的特征工程模板文件如下:
1)Cn(n=-2,-1,0,1,2)
2)CnCn+1(n=-2,-1,0,1)
3)C-1C1
4)MWL0,t0
5)Cnt0(n=-1,0,1)
6)T(C-1)T(C0)T(C1)
7)N(C-1)N(C0)N(C1)
8)F(C-1)F(C0)F(C1)
其中,Cn表示相对位置为n的字符;MWL0,t0分别表示字典资源文件中,当前字符所属最长词的长度及对应的标注;T(Cn)表示取得字符的类别号,N(Cn)表示取得字符的中国人名用字类别号,F(Cn)表示取得字符的外国人名用字类别号。
6.根据权利要求5所述的基于无向图与单层神经网络的中文分词方法,其特征在于:T(Cn)、N(Cn)和F(Cn)具体为:
A)T(Cn)所取得字符的类别号,分为6类,分别是:0.阿拉伯数字(ANum)、1.中文数字1(CNum1)、2.中文数字2(CNum2)、3.英文字母(EngLetter)、4.日期(Date)及5.其他(Others);
B)N(Cn)所取得字符的中国人名用字类别号,分为6类,分表是:0.常见姓(FrequencySurname)、1.普通姓(Common Surname)、2.人名用字(Given Name)、3.both 0+2、4.both 1+2及5.其他(Others);
C)F(Cn)所取得字符的外国人名用字类别号,分为2类,分表是:非外国人名常用字及外国人名常用字。
7.根据权利要求1所述的基于无向图与单层神经网络的中文分词方法,其特征在于:步骤2使用的字典资源文件包括阿拉伯数字字符表、中文数字字符表、英文字母字符表、日期常用字字符表、中国人名常用字字符表和外国人名常用字字符表。
8.根据权利要求1所述的基于无向图与单层神经网络的中文分词方法,其特征在于,步骤4中采用维特比算法结合统计的初始状态系数及状态转移系数进行解码,具体为:
步骤4.1、进行单层神经网络预测,得到基于softmax归一化后的概率:
<mrow> <mi>P</mi> <mrow> <mo>(</mo> <msub> <mi>y</mi> <mi>t</mi> </msub> <mo>=</mo> <mi>i</mi> <mo>|</mo> <msub> <mi>w</mi> <mi>t</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <msup> <mi>e</mi> <mrow> <msub> <mi>&amp;theta;</mi> <mi>i</mi> </msub> <msub> <mi>w</mi> <mi>t</mi> </msub> </mrow> </msup> <mo>/</mo> <msubsup> <mo>&amp;Sigma;</mo> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>L</mi> </msubsup> <msup> <mi>e</mi> <mrow> <msub> <mi>&amp;theta;</mi> <mi>k</mi> </msub> <msub> <mi>w</mi> <mi>t</mi> </msub> </mrow> </msup> </mrow>
式中,P(yt=i|wt)表示位置t上被标注为类别i的概率,其中L表示标注集的大小,θi表示类别i对应的神经网络单元权值向量,wt为位置t上的字符xt表示成的特征向量,所有xt构成长度为T的中文句子s=(x1,x2,…,xT);
步骤4.2、根据得到的概率进行维特比解码,求解出最优标注序列Y=(y1,y2,…,yT)。
CN201711218709.9A 2017-11-28 2017-11-28 基于无向图与单层神经网络的中文分词方法 Active CN107832307B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711218709.9A CN107832307B (zh) 2017-11-28 2017-11-28 基于无向图与单层神经网络的中文分词方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711218709.9A CN107832307B (zh) 2017-11-28 2017-11-28 基于无向图与单层神经网络的中文分词方法

Publications (2)

Publication Number Publication Date
CN107832307A true CN107832307A (zh) 2018-03-23
CN107832307B CN107832307B (zh) 2021-02-23

Family

ID=61646292

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711218709.9A Active CN107832307B (zh) 2017-11-28 2017-11-28 基于无向图与单层神经网络的中文分词方法

Country Status (1)

Country Link
CN (1) CN107832307B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109284388A (zh) * 2018-10-29 2019-01-29 深兰科技(上海)有限公司 字符数字唯一可译深度模型的文本分类方法及存储介质
CN109284358A (zh) * 2018-09-05 2019-01-29 普信恒业科技发展(北京)有限公司 一种中文地址名词分层级的方法和装置
CN109472020A (zh) * 2018-10-11 2019-03-15 重庆邮电大学 一种特征对齐中文分词方法
CN109492217A (zh) * 2018-10-11 2019-03-19 平安科技(深圳)有限公司 一种基于机器学习的分词方法及终端设备

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102081667A (zh) * 2011-01-23 2011-06-01 浙江大学 基于Base64编码的中文文本分类方法
CN104866472A (zh) * 2015-06-15 2015-08-26 百度在线网络技术(北京)有限公司 分词训练集的生成方法和装置
CN105373529A (zh) * 2015-10-28 2016-03-02 甘肃智呈网络科技有限公司 一种基于隐马尔科夫模型的智能分词方法
CN105550200A (zh) * 2015-12-02 2016-05-04 北京信息科技大学 一种面向专利摘要的中文分词方法
CN105718586A (zh) * 2016-01-26 2016-06-29 中国人民解放军国防科学技术大学 分词的方法及装置
CN107145484A (zh) * 2017-04-24 2017-09-08 北京邮电大学 一种基于隐多粒度局部特征的中文分词方法
CN107168957A (zh) * 2017-06-12 2017-09-15 云南大学 一种中文分词方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102081667A (zh) * 2011-01-23 2011-06-01 浙江大学 基于Base64编码的中文文本分类方法
CN104866472A (zh) * 2015-06-15 2015-08-26 百度在线网络技术(北京)有限公司 分词训练集的生成方法和装置
CN105373529A (zh) * 2015-10-28 2016-03-02 甘肃智呈网络科技有限公司 一种基于隐马尔科夫模型的智能分词方法
CN105550200A (zh) * 2015-12-02 2016-05-04 北京信息科技大学 一种面向专利摘要的中文分词方法
CN105718586A (zh) * 2016-01-26 2016-06-29 中国人民解放军国防科学技术大学 分词的方法及装置
CN107145484A (zh) * 2017-04-24 2017-09-08 北京邮电大学 一种基于隐多粒度局部特征的中文分词方法
CN107168957A (zh) * 2017-06-12 2017-09-15 云南大学 一种中文分词方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
JIA HE 等: "Chinese word segmentation based on the improved Particle Swarm Optimization neural networks", 《2008 IEEE CONFERENCE ON CYBERNETICS AND INTELLIGENT SYSTEMS》 *
朱聪慧 等: "基于无向图序列标注模型的中文分词词性标注一体化系统", 《电子与信息学报》 *
王雅玡: "基于朴素贝叶斯和BP 神经网络的中文文本分类问题研究", 《中国优秀硕士学位论文全文数据库(电子期刊)信息科技辑》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109284358A (zh) * 2018-09-05 2019-01-29 普信恒业科技发展(北京)有限公司 一种中文地址名词分层级的方法和装置
CN109284358B (zh) * 2018-09-05 2020-08-28 普信恒业科技发展(北京)有限公司 一种中文地址名词分层级的方法和装置
CN109472020A (zh) * 2018-10-11 2019-03-15 重庆邮电大学 一种特征对齐中文分词方法
CN109492217A (zh) * 2018-10-11 2019-03-19 平安科技(深圳)有限公司 一种基于机器学习的分词方法及终端设备
CN109472020B (zh) * 2018-10-11 2022-07-01 重庆邮电大学 一种特征对齐中文分词方法
CN109284388A (zh) * 2018-10-29 2019-01-29 深兰科技(上海)有限公司 字符数字唯一可译深度模型的文本分类方法及存储介质

Also Published As

Publication number Publication date
CN107832307B (zh) 2021-02-23

Similar Documents

Publication Publication Date Title
CN109446404B (zh) 一种网络舆情的情感极性分析方法和装置
Cao et al. A joint model for word embedding and word morphology
CN107832307A (zh) 基于无向图与单层神经网络的中文分词方法
CN107301244A (zh) 一种商标分卡处理的方法、装置、系统及商标存储器
CN109359291A (zh) 一种命名实体识别方法
CN106776538A (zh) 企业非标准格式文档的信息提取方法
CN108664474B (zh) 一种基于深度学习的简历解析方法
CN108733647B (zh) 一种基于高斯分布的词向量生成方法
CN107688576B (zh) 一种cnn-svm模型的构建及倾向性分类方法
CN104182423A (zh) 一种基于条件随机场的中文人名自动识别方法
CN106202584A (zh) 一种基于标准词典和语义规则的微博情感分析方法
CN107688630B (zh) 一种基于语义的弱监督微博多情感词典扩充方法
CN109446423B (zh) 一种新闻以及文本的情感判断系统及方法
CN104199845B (zh) 基于主体模型的网上评论情感分类方法
CN112231477A (zh) 一种基于改进胶囊网络的文本分类方法
CN106569996B (zh) 一种面向中文微博的情感倾向分析方法
CN107463703A (zh) 基于信息增益的英文社交媒体账号分类方法
CN106601235A (zh) 一种半监督多任务特征选择的语音识别方法
Gupta et al. SMPOST: parts of speech tagger for code-mixed indic social media text
CN105159917A (zh) 一种电子病历的非结构化信息转化为结构化的泛化方法
CN111626050A (zh) 基于表情词典与情感常识的微博情感分析方法
CN114491062B (zh) 一种融合知识图谱和主题模型的短文本分类方法
CN110110326B (zh) 一种基于主题信息的文本切割方法
CN108595592A (zh) 一种基于五笔字型码字符级语言模型的文本情感分析方法
CN108038166A (zh) 一种基于词项主客观偏向性的中文微博情感分析方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant