CN107832307B - 基于无向图与单层神经网络的中文分词方法 - Google Patents
基于无向图与单层神经网络的中文分词方法 Download PDFInfo
- Publication number
- CN107832307B CN107832307B CN201711218709.9A CN201711218709A CN107832307B CN 107832307 B CN107832307 B CN 107832307B CN 201711218709 A CN201711218709 A CN 201711218709A CN 107832307 B CN107832307 B CN 107832307B
- Authority
- CN
- China
- Prior art keywords
- character
- text
- chinese
- neural network
- layer neural
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Abstract
本发明公开了一种基于无向图与单层神经网络的中文分词方法,首先根据标注集,对给定的训练中文文本进行标注,统计其初始状态系数和状态转移系数;然后根据字典资源文件,对中文文本的每个字符依据其上下文进行特征抽取,得到文本特征;根据所有文本特征,构建特征函数集合,将文本特征转换特征向量;接着将特征向量送给单层神经网络训练分类器模型进行训练,直至模型收敛;再使用单层神经网络模型,对测试数据进行分类,根据统计的初始状态系数、状态转移系数,使用维特比算法进行最优标注序列的求解;最后将最优标注序列与测试原始文本结合,生成分词文本。本发明训练速度更快,消耗资源更少,泛化能力更强。
Description
技术领域
本发明涉及机器学习、自然语言处理领域,具体是涉及一种基于无向图与单层神经网络的中文分词方法。
背景技术
中文分词是文本分类、信息检索、信息过滤、情感分析、文献自动标引、摘要自动生成等中文信息处理中的关键技术及难点。不同于英语、葡萄牙语等语言,中文的词与词之间没有明显的分隔符号。而词又是理解句子的最小单位,这就导致分词成为中文信息处理非常重要的第一步。随着计算机与网络技术的不断发展,当今互联网已进入社交媒体时代。越来越多的用户乐于在网络上分享自己对产品或事物观点和体验。对于海量的主观文本信息,仅依靠人工进行跟踪、组织和管理已难以实现,如何利用计算机技术对海量的中文文本进行自动分词,已逐渐成为当下最迫切的需求。
传统的方法有基于词典的方法、基于规则的方法和基于统计的方法。基于词典的方法、基于规则的方法人工干预较多,基于统计的方法利用机器学习进行中文分词,降低人工成本。基于统计方法中,基于字标注的中文分词方法是近年来最为有效的分词方法,常采用的模型有隐马尔可夫模型、最大熵模型、条件随机场模型等等。但这类方法往往具有较为复杂的模型结构,计算资源开销较大。
发明内容
本发明的目的在于提供一种基于无向图与单层神经网络的中文分词方法,模型更为简单、泛化能力强,计算资源开销小。
实现本发明目的的技术解决方案为:一种基于无向图与单层神经网络的中文分词方法,包括以下步骤:
步骤1、根据标注集,对给定的训练中文文本进行标注,统计其初始状态系数和状态转移系数;
步骤2、根据字典资源文件,对中文文本的每个字符依据其上下文进行特征抽取,得到文本特征;根据所有文本特征,构建特征函数集合,将文本特征转换特征向量;
步骤3、将步骤2得到的特征向量送给单层神经网络训练分类器模型进行训练,直至模型收敛;
步骤4、使用步骤3得到的单层神经网络模型,对测试数据进行分类,根据步骤1统计的初始状态系数、状态转移系数,使用维特比算法进行最优标注序列的求解;
步骤5、将步骤4得到的最优标注序列与测试原始文本结合,生成分词文本。
本发明与现有技术相比,其显著优点为:1)本发明使用单层神经网络模型,相比于隐马尔科夫模型、条件随机场模型,涉及的模型参数更少,训练速度更快,消耗资源更少;2)本发明借鉴了生成式模型隐马尔科夫模型的优点,引入了一阶马尔科夫假设,保留了转移系数矩阵;借鉴了判别式模型条件随机场的优点,引入了特征函数,有助于提高模型的泛化能力。
附图说明
图1为本发明方法的流程图。
具体实施方式
下面结合附图和具体实施例进一步说明本发明方案。
如图1所示,基于无向图与单层神经网络的中文分词方法,主要分为五个阶段,具体步骤如下:
步骤1、根据标注集,对给定的训练中文文本进行标注,统计其初始状态系数和状态转移系数,具体为:
步骤1.1、对于给定训练文本,读取每一个句子,根据切分情况得到每个字符的标注;
步骤1.2、统计初始状态系数π,即句子第一个字符位置上标注的分布,统计状态转移系数矩阵α,即句子内部标注之间转移情况的分布。
本发明使用的标注集是4-tag标注集,即BMES标注系统,分别代表词首、词中、词尾和单独成词。
步骤2、根据字典资源文件,对中文文本的每个字符依据其上下文进行特征抽取,得到文本特征;根据所有文本特征,构建特征函数集合,将文本特征转换特征向量,具体为:
步骤2.1、根据特征工程模板文件和字典资源文件,对每个字符依据其上下文生成特定的文本特征,统计出现的特征数目,为每个特征分配唯一序号;
步骤2.2、根据每个特征的唯一序号,将字符对应的所有特征表示成一个特征向量。
本发明中,使用的特征工程模板文件如下:
1)Cn(n=-2,-1,0,1,2)
2)CnCn+1(n=-2,-1,0,1)
3)C-1C1
4)MWL0,t0
5)Cnt0(n=-1,0,1)
6)T(C-1)T(C0)T(C1)
7)N(C-1)N(C0)N(C1)
8)F(C-1)F(C0)F(C1)
其中,Cn表示相对位置为n的字符;MWL0,t0分别表示字典资源文件中,当前字符所属最长词的长度及对应的标注;T(Cn)表示取得字符的类别号,分为6类,分别是:0.阿拉伯数字(ANum)、1.中文数字1(CNum1)、2.中文数字2(CNum2)、3.英文字母(EngLetter)、4.日期(Date)及5.其他(Others);N(Cn)表示取得字符的中国人名用字类别号,分为6类,分表是:0.常见姓(Frequency Surname)、1.普通姓(Common Surname)、2.人名用字(Given Name)、3.both 0+2、4.both 1+2及5.其他(Others);F(Cn)所取得字符的外国人名用字类别号,分为2类,分表是:非外国人名常用字及外国人名常用字。
使用的字典资源文件包括阿拉伯数字字符表、中文数字字符表、英文字母字符表、日期常用字字符表、中国人名常用字字符表和外国人名常用字字符表。
步骤3、将步骤2得到的特征向量送给单层神经网络训练分类器模型进行训练,直至模型收敛;
步骤4、使用步骤3得到的单层神经网络模型,对测试数据进行分类,根据步骤1统计的初始状态系数、状态转移系数,使用维特比算法进行最优标注序列的求解,具体为:
步骤4.1、进行单层神经网络预测,得到基于softmax归一化后的概率:
式中,P(yt=i|wt)表示位置t上被标注为类别i的概率,其中L表示标注集的大小,θi表示类别i对应的神经网络单元权值向量,wt为位置t上的字符xt表示成的特征向量,所有xt构成长度为T的中文句子s=(x1,x2,…,xT);
步骤4.2、根据得到的概率进行维特比解码,求解出最优标注序列Y=(y1,y2,…,yT)。
步骤5、将步骤4得到的最优标注序列Y=(y1,y2,…,yT)与测试原始文本结合,生成分词文本。
实施例
下面结合示例描述方案,以便于对方案进行理解。
1)对于给定训练中文文本,首先需要对其进行预处理,预处理的内容包括统计初始状态系数和状态转移系数,以表1为例;
表1 分词文本预处理
2)对给定的训练中文文本进行特征抽取,依赖于人工制定的特征工程,对每个字符依据其上下文进行特征抽取,得到文本特征;统计文本特征,构建特征函数集合,根据该集合将文本特征转换特征向量。
以表1中的句子“我爱北京天安门。”为例,假设当前字符为“北”,上下文特征具体如表2所示:
表2 上下文特征
进一步的,对每个字符生成基于字典资源文件的特征、字符类别特征,具体如下:
A)首先根据字典资源文件,查询得知当前字符“北”的MWL0,t0=20,M,于是得到了有关字典资源的特征;
B)查询相关字符类别文件,得到最后三个特征的特征码:T(C-1)T(C0)T(C1)=555、N(C-1)N(C0)N(C1)=222和F(C-1)F(C0)F(C1)=110。
字典特征及字符类别特征都以文本形式,与上下文特征一同进行特征统计,即统称为文本特征。字典特征及字符类别特征的样例如表3所示。
表3 字典特征及字符类别特征
记录出现的所有特征,并为每一个特征分配一个唯一的序号,组成特征函数集合。根据特征函数集合,查询每个特征对应的唯一序号,根据序号生成特征向量。假设特征函数集合大小为|F|,则特征向量维度也为|F|,其中对应特征序号的维度上置1,其他维度上均为0。特征向量的文本表示如表4所示:
表4 特征向量的文本表示
其中,为0的维度未写明,冒号前是对应特征的维度,即序号。
3)使用2)生成的特征向量,训练基于无向图与单层神经网络的分类器。
4)对测试数据进行分类,根据1)统计的初始状态系数π和状态转移系数α,使用维特比算法进行最有标注序列的求解。
5)将4)得到的最优标注序列与原始文本结合,生成分词文本,根据句子中每个字符对应的标注,重组成词,从而得到分词文本。重组过程如表5所示:
表5 由标注重组文本
如上表所示,分词文本中,由空白字符分隔各个词语。
Claims (4)
1.基于无向图与单层神经网络的中文分词方法,其特征在于,包括以下步骤:
步骤1、根据标注集,对给定的训练中文文本进行标注,统计其初始状态系数和状态转移系数;
步骤2、根据字典资源文件,对中文文本的每个字符依据其上下文进行特征抽取,得到文本特征;根据所有文本特征,构建特征函数集合,将文本特征转换特征向量;
步骤3、将步骤2得到的特征向量送给单层神经网络训练分类器模型进行训练,直至模型收敛;
步骤4、使用步骤3得到的单层神经网络模型,对测试数据进行分类,根据步骤1统计的初始状态系数、状态转移系数,使用维特比算法进行最优标注序列的求解;
步骤5、将步骤4得到的最优标注序列与测试原始文本结合,生成分词文本;
所述步骤2具体为:
步骤2.1、根据特征工程模板文件和字典资源文件,对每个字符依据其上下文生成特定的文本特征,统计出现的特征数目,为每个特征分配唯一序号;
步骤2.2、根据每个特征的唯一序号,将字符对应的所有特征表示成一个特征向量;
使用的特征工程模板文件如下:
1)Cn(n=-2,-1,0,1,2)
2)CnCn+1(n=-2,-1,0,1)
3)C-1C1
4)MWL0,t0
5)Cnt0(n=-1,0,1)
6)T(C-1)T(C0)T(C1)
7)N(C-1)N(C0)N(C1)
8)F(C-1)F(C0)F(C1)
其中,Cn表示相对位置为n的字符;MWL0,t0分别表示字典资源文件中,当前字符所属最长词的长度及对应的标注;T(Cn)表示取得字符的类别号,N(Cn)表示取得字符的中国人名用字类别号,F(Cn)表示取得字符的外国人名用字类别号;
T(Cn)、N(Cn)和F(Cn)具体为:
A)T(Cn)所取得字符的类别号,分为6类,分别是:0.阿拉伯数字(ANum)、1.中文数字1(CNum1)、2.中文数字2(CNum2)、3.英文字母(EngLetter)、4.日期(Date)及5.其他(Others);
B)N(Cn)所取得字符的中国人名用字类别号,分为6类,分表是:0.常见姓(FrequencySurname)、1.普通姓(Common Surname)、2.人名用字(Given Name)、3.both 0+2、4.both 1+2及5.其他(Others);
C)F(Cn)所取得字符的外国人名用字类别号,分为2类,分表是:非外国人名常用字及外国人名常用字;
步骤4中采用维特比算法结合统计的初始状态系数及状态转移系数进行解码,具体为:
步骤4.1、进行单层神经网络预测,得到基于softmax归一化后的概率:
式中,P(yt=i|wt)表示位置t上被标注为类别i的概率,其中L表示标注集的大小,θi表示类别i对应的神经网络单元权值向量,wt为位置t上的字符xt表示成的特征向量,所有xt构成长度为T的中文句子s=(x1,x2,…,xT);
步骤4.2、根据得到的概率进行维特比解码,求解出最优标注序列Y=(y1,y2,…,yT)。
2.根据权利要求1所述的基于无向图与单层神经网络的中文分词方法,其特征在于,步骤1使用的标注集是4-tag标注集,即BMES标注系统,分别代表词首、词中、词尾和单独成词。
3.根据权利要求1所述的基于无向图与单层神经网络的中文分词方法,其特征在于,步骤1具体为:
步骤1.1、对于给定训练文本,读取每一个句子,根据切分情况得到每个字符的标注;
步骤1.2、统计初始状态系数π,即句子第一个字符位置上标注的分布,统计状态转移系数矩阵α,即句子内部标注之间转移情况的分布。
4.根据权利要求1所述的基于无向图与单层神经网络的中文分词方法,其特征在于:步骤2使用的字典资源文件包括阿拉伯数字字符表、中文数字字符表、英文字母字符表、日期常用字字符表、中国人名常用字字符表和外国人名常用字字符表。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711218709.9A CN107832307B (zh) | 2017-11-28 | 2017-11-28 | 基于无向图与单层神经网络的中文分词方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711218709.9A CN107832307B (zh) | 2017-11-28 | 2017-11-28 | 基于无向图与单层神经网络的中文分词方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107832307A CN107832307A (zh) | 2018-03-23 |
CN107832307B true CN107832307B (zh) | 2021-02-23 |
Family
ID=61646292
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711218709.9A Active CN107832307B (zh) | 2017-11-28 | 2017-11-28 | 基于无向图与单层神经网络的中文分词方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107832307B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109284358B (zh) * | 2018-09-05 | 2020-08-28 | 普信恒业科技发展(北京)有限公司 | 一种中文地址名词分层级的方法和装置 |
CN109472020B (zh) * | 2018-10-11 | 2022-07-01 | 重庆邮电大学 | 一种特征对齐中文分词方法 |
CN109492217A (zh) * | 2018-10-11 | 2019-03-19 | 平安科技(深圳)有限公司 | 一种基于机器学习的分词方法及终端设备 |
CN109284388B (zh) * | 2018-10-29 | 2021-04-20 | 深兰科技(上海)有限公司 | 字符数字唯一可译深度模型的文本分类方法及存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102081667A (zh) * | 2011-01-23 | 2011-06-01 | 浙江大学 | 基于Base64编码的中文文本分类方法 |
CN104866472A (zh) * | 2015-06-15 | 2015-08-26 | 百度在线网络技术(北京)有限公司 | 分词训练集的生成方法和装置 |
CN105373529A (zh) * | 2015-10-28 | 2016-03-02 | 甘肃智呈网络科技有限公司 | 一种基于隐马尔科夫模型的智能分词方法 |
CN105550200A (zh) * | 2015-12-02 | 2016-05-04 | 北京信息科技大学 | 一种面向专利摘要的中文分词方法 |
CN105718586A (zh) * | 2016-01-26 | 2016-06-29 | 中国人民解放军国防科学技术大学 | 分词的方法及装置 |
CN107145484A (zh) * | 2017-04-24 | 2017-09-08 | 北京邮电大学 | 一种基于隐多粒度局部特征的中文分词方法 |
CN107168957A (zh) * | 2017-06-12 | 2017-09-15 | 云南大学 | 一种中文分词方法 |
-
2017
- 2017-11-28 CN CN201711218709.9A patent/CN107832307B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102081667A (zh) * | 2011-01-23 | 2011-06-01 | 浙江大学 | 基于Base64编码的中文文本分类方法 |
CN104866472A (zh) * | 2015-06-15 | 2015-08-26 | 百度在线网络技术(北京)有限公司 | 分词训练集的生成方法和装置 |
CN105373529A (zh) * | 2015-10-28 | 2016-03-02 | 甘肃智呈网络科技有限公司 | 一种基于隐马尔科夫模型的智能分词方法 |
CN105550200A (zh) * | 2015-12-02 | 2016-05-04 | 北京信息科技大学 | 一种面向专利摘要的中文分词方法 |
CN105718586A (zh) * | 2016-01-26 | 2016-06-29 | 中国人民解放军国防科学技术大学 | 分词的方法及装置 |
CN107145484A (zh) * | 2017-04-24 | 2017-09-08 | 北京邮电大学 | 一种基于隐多粒度局部特征的中文分词方法 |
CN107168957A (zh) * | 2017-06-12 | 2017-09-15 | 云南大学 | 一种中文分词方法 |
Non-Patent Citations (3)
Title |
---|
Chinese word segmentation based on the improved Particle Swarm Optimization neural networks;Jia He 等;《2008 IEEE Conference on Cybernetics and Intelligent Systems》;20080924;全文 * |
基于无向图序列标注模型的中文分词词性标注一体化系统;朱聪慧 等;《电子与信息学报》;20100328;第32卷(第3期);全文 * |
基于朴素贝叶斯和BP 神经网络的中文文本分类问题研究;王雅玡;《中国优秀硕士学位论文全文数据库(电子期刊)信息科技辑》;20111215;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN107832307A (zh) | 2018-03-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110413986B (zh) | 一种改进词向量模型的文本聚类多文档自动摘要方法及系统 | |
CN113254599B (zh) | 一种基于半监督学习的多标签微博文本分类方法 | |
CN109446404B (zh) | 一种网络舆情的情感极性分析方法和装置 | |
CN106055538B (zh) | 主题模型和语义分析相结合的文本标签自动抽取方法 | |
CN107832307B (zh) | 基于无向图与单层神经网络的中文分词方法 | |
CN108388554B (zh) | 基于协同过滤注意力机制的文本情感识别系统 | |
CN107357895B (zh) | 一种基于词袋模型的文本表示的处理方法 | |
CN108733647B (zh) | 一种基于高斯分布的词向量生成方法 | |
CN109446423B (zh) | 一种新闻以及文本的情感判断系统及方法 | |
CN113961685A (zh) | 信息抽取方法及装置 | |
Nasim et al. | Sentiment analysis on Urdu tweets using Markov chains | |
CN109993216B (zh) | 一种基于k最近邻knn的文本分类方法及其设备 | |
CN109815400A (zh) | 基于长文本的人物兴趣提取方法 | |
CN112231477A (zh) | 一种基于改进胶囊网络的文本分类方法 | |
CN112836509A (zh) | 一种专家系统知识库构建方法及系统 | |
CN108763192B (zh) | 用于文本处理的实体关系抽取方法及装置 | |
CN109800305A (zh) | 基于自然标注的微博情绪分类方法 | |
CN111460162A (zh) | 一种文本分类方法、装置、终端设备及计算机可读存储介质 | |
CN113268576A (zh) | 一种基于深度学习的部门语义信息抽取的方法及装置 | |
WO2023173555A1 (zh) | 模型的训练方法、文本分类方法和装置、设备、介质 | |
CN110110326B (zh) | 一种基于主题信息的文本切割方法 | |
CN111814486A (zh) | 一种基于语义分析的企业客户标签生成方法、系统及装置 | |
CN115759119A (zh) | 一种金融文本情感分析方法、系统、介质和设备 | |
CN111858933A (zh) | 基于字符的层次化文本情感分析方法及系统 | |
CN112528989B (zh) | 一种图像语义细粒度的描述生成方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |