CN109815476B - 一种基于中文语素和拼音联合统计的词向量表示方法 - Google Patents

一种基于中文语素和拼音联合统计的词向量表示方法 Download PDF

Info

Publication number
CN109815476B
CN109815476B CN201811465623.0A CN201811465623A CN109815476B CN 109815476 B CN109815476 B CN 109815476B CN 201811465623 A CN201811465623 A CN 201811465623A CN 109815476 B CN109815476 B CN 109815476B
Authority
CN
China
Prior art keywords
morpheme
word
chinese
pinyin
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811465623.0A
Other languages
English (en)
Other versions
CN109815476A (zh
Inventor
潘坚跃
刘祝平
潘艺旻
王译田
陈文康
王汝英
李欣荣
赵光俊
周航帆
魏伟
刘畅
李艳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin Richsoft Electric Power Information Technology Co ltd
State Grid Information and Telecommunication Co Ltd
Hangzhou Power Supply Co of State Grid Zhejiang Electric Power Co Ltd
Original Assignee
Tianjin Richsoft Electric Power Information Technology Co ltd
State Grid Information and Telecommunication Co Ltd
Hangzhou Power Supply Co of State Grid Zhejiang Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin Richsoft Electric Power Information Technology Co ltd, State Grid Information and Telecommunication Co Ltd, Hangzhou Power Supply Co of State Grid Zhejiang Electric Power Co Ltd filed Critical Tianjin Richsoft Electric Power Information Technology Co ltd
Priority to CN201811465623.0A priority Critical patent/CN109815476B/zh
Publication of CN109815476A publication Critical patent/CN109815476A/zh
Application granted granted Critical
Publication of CN109815476B publication Critical patent/CN109815476B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

一种基于中文语素和拼音联合统计的词向量表示方法,包括如下步骤:①采集互联网文本信息构建语料库,对构建的语料库进行正文清洗和分词处理;②对中文语料进行分词处理后转为不保留声调信息的拼音信息,然后分别对语素和拼音特征在训练集语料和全文档中统计词频和逆文档概率作统计权重TFc、IDFc、TFp和IDFp;③基于上下文语素和拼音联合统计的中文词表示模型,构造中文单个语素表示向量;④在步骤③的基础上训练一个三层神经网络以用于中心目标词的预测。该方法可满足离线词典和语料数据规模的适应性、可直接学习大规模无标注的互联网信息文本数据、可提高常规的词嵌入模型对于中文语言差异特性的兼顾性、可提高对错别字词语的表示和识别准确性。

Description

一种基于中文语素和拼音联合统计的词向量表示方法
技术领域:
本发明属于自然语言处理技术领域,涉及中文词向量表示模型,尤其涉及一种基于中文语素和拼音联合统计的词向量表示方法。
背景技术:
目前,自然语言处理技术应用到了各个方面,文本中的词表示技术是自然语言处理领域的基础性研究。中文词表示技术是将中文汉字表达为数据向量形式,应用于神经网络语言模型,数据表示作为前期预备工作,它的表达优劣严重影响了语言模型学习训练和场景应用的性能。
通常完成文本数据分析进行自然语言处理工作需要挖掘海量文本语料信息,而随着互联网时代的信息高速增长,文本数据的规范化和结构化程度日益减弱。此外在广泛的互联网信息生产和分发评论中,国内外约占75%的用户习惯于使用拼音输入进行中文编辑,然而一方面由于用户书写行为的准确率和复查率较低;另一方面不同地区对于相同文本的发音习惯不同,在一定程度上造成了错别字的出现。其中错别字的主要存在形式包括:字错音不错(例:典[电]力)、同音不同词(例:错事[措施])、方言式错别字(例:cong zheng[重整])等以上三种。错别字不仅会影响分词结果,还将影响中文词向量表示模型的表现性能。
目前现有的正则表达式、向量空间和词向量等表示方法,无法满足离线词典和语料数据规模的适应性,难以直接学习大规模无标注的互联网信息文本数据。同时常规的词嵌入模型对于中文语言差异特性的兼顾性较差,对错别字词语的表示和识别准确性较低。
发明内容:
本发明的目的主要针对现有中文词表示技术研究的一些不足之处,提出了一种基于中文语素和拼音联合统计的词向量表示方法,该方法可满足离线词典和语料数据规模的适应性、可直接学习大规模无标注的互联网信息文本数据、可提高常规的词嵌入模型对于中文语言差异特性的兼顾性、可提高对错别字词语的表示和识别准确性。
如上构思,本发明的技术方案是:一种基于中文语素和拼音联合统计的词向量表示方法,其特征在于:包括如下步骤:
①采集互联网文本信息构建语料库,对构建的语料库进行正文清洗和分词处理;
②对中文语料进行分词处理后转为不保留声调信息的拼音信息,然后分别对语素和拼音特征在训练集语料和全文档中统计词频和逆文档概率作统计权重TFc、IDFc、TFp和IDFp
③基于上下文语素和拼音联合统计的中文词表示模型,对于给定长度语句S=[x1,x2,...,xK],其中xK为第K个语素,通过一个固定大小窗口内的上下文语素来预测中心目标词xi,构造中文单个语素表示向量;
④在步骤③的基础上训练一个三层神经网络以用于中心目标词的预测,该神经网络包括输入层、一个隐含层和输出层,其输入层特征为基于语素、拼音和词频统计的融合特征,输出层为softmax层用于预测中心目标词,输入层与输出层包含节点数量均等于词汇表的大小。
上述步骤③的具体步骤是:对于给定长度语句S=[x1,x2,...,xK],其中xK为第K个语素,通过一个固定大小窗口内的上下文语素来预测中心目标词xi,该步骤以(2m+1)为窗口大小,将中心语素的前m个和后m个语素{xi-m,...,xi-1,xi+1,...,xi+m}及其对应的拼音作one-hot编码,生成语素向量组Ci={ci-m,...,ci-1,ci+1,...,ci+m},其中ci-m为语素xi-m编码后大小为T×1的语素向量,同理,生成拼音向量组Pi={pi-m,...,pi-1,pi+1,...,pi+m},构造中文单个语素表示向量di为:
Figure BDA0001889693870000031
其中i仅表示为窗口中心位于语素xi位置。
上述步骤④中输入层和输出层神经元节点数量等于词汇表大小T,其输入特征即为di,输出层采用softmax函数激活用于预测中心目标词,隐含层将输入层节点乘上输入权重矩阵WT×N得到
Figure BDA0001889693870000032
隐含层经过输出权重矩阵W'N×T得到zi=W'T N×T·UN=W'T·WT·di,则有输出层对zi进行softmax激活,
Figure BDA0001889693870000033
其中,xi表示中心目标词,UN为隐含层输出向量,w'j表示输出权向量矩阵中的第j列向量。
上述目标中心词xi的损失函数为:
Figure BDA0001889693870000041
最后采用梯度下降法来求解目标函数,即只需对上述一个样本的损失梯度求解,获得更新表达式为:
输入权重矩阵,
Figure BDA0001889693870000042
输出权重矩阵,
Figure BDA0001889693870000043
本发明在连续词袋模型CBOW的基础上,结合了中文语料语素和其发音拼音的向量特征并将语素和拼音词频统计特征作为向量权重一同构成中文词向量表达。利用中文表达和拼音文法使语素本身提升了对错别字/词的不稳定性,通过拼音特征加强对语素文本的建模,使词向量对中文文本的错别字具有更高的兼容性,为中文词表示效果带来提升。
附图说明:
图1为本发明方法的主要框架图。
图2为传统连续词袋模型的网络结构。
图3为本发明方法的中文词表示模型示意图。
图4为本发明方法的中文词表示网络结构。
图5为本发明方法在语义相似度任务上的评价结果,由此图可确定本发明生成的中文词向量表示形式对于互联网语料错别字具有更高的兼容性,包含更准确的语义信息。
图6为本发明方法的类比推理任务上的评价结果,由此图可确定本发明生成的中文词向量表示形式包含更准确的语义信息。
具体实施方式:
为了使本发明的目的、技术方案和优点更加清楚,下面将结合本发明的具体实施方案和附图做进一步详细描述。另显然,所描述额实施例仅是本发明的部分实施例,而不是全部的应用场景。
本发明提供了一种基于语素和拼音联合统计的中文词向量表示方法,该方法包括如下步骤:
1.词表示向量的生成,需要大的语料库支持,语料库的构建主要采集于互联网新闻咨询、论坛媒体信息和维基百科的开源文本语料库。本发明采集了维基百科中文数据集作为通用语料库,国家电网浙江省电力公司官网新闻数据作为专业语料库。其中维基百科中文数据集包含1.38亿个中文词语,排重后词典大小为39.7万;电力新闻语料包含18.65万个中文词语,排重后词典大小为3.15万。
对构造语料库数据进行预处理首先使用opencc将存在繁体字文本转化为简体中文,后根据统计的1893个停用词对语料做去停用词操作。完成语料库的清洗后使用基于规则和统计的结巴分词对文本进行分词操作,首先基于前缀词典进行词扫描,前缀词典指词典中的词按照前缀包含的顺序排列形成的层级包含结构;然后将词看作节点,一种分词方案则对应着从第一个字到最后一个字的一条分词路径,基于前缀词典可以快速构建包含全部可能分词结果的有向无环图,基于标注语料,使用动态规划的方法即可以获得最大概率路径,并将其作为最终的分词结果。本发明中使用结巴分词默认的精确模式,例如测试语料原文:“‘创新是引领发展的第一动力,作为我们基层一线员工,你解决了实际工作中的每一个小问题,其实就是一种创新。’镜头里的黄金娟从容淡定地讲述着自己对创新的理解。”直接分词结果和去停用词后分词结果分别为:“创新/是/引领/发展/的/第一/动力/作为/我们/基层/一线/员工/你/解决/了/实际/工作/中/的/每/一个/小/问题/其实/就是/一种/创新/镜头/头里/的/黄金/娟/从容/淡定/地/讲述/着/自己/对/创新/的/理解”(直接分词结果)和“创新/引领/发展/第一/动力/基层/一线/员工/解决/实际/工作/中/小/问题/一种/创新/镜头/黄金/娟/从容/淡定/讲述/创新/理解”(去停用词分词结果)。
2.中文词表示向量的生成方法中,结合中文语料的语素和拼音特征及词频统计信息。首先要对分词后语料使用pypinyin转为发音拼音表示,另外考虑到中文拼音输入法本身不需要标记声调,因此在将语素转为拼音信息时不保留声调信息;然后分别对语素和拼音特征在训练集语料和全文档中统计词频和逆文档概率作统计权重TFc、IDFc、TFp和IDFp,结构设计如图1所示。此外由于文本中存在部分特定性姓名、专有地名会影响分词结果和后续词向量表达,在本方法中将全文本素材词频数小于10的语素将其从语料中删除。
3.本方法中在使用结合语素和拼音联合统计的中文词表示模型的基础上,考虑到对于中文文本的阅读,通常词序的排布对于阅读理解的影响较小,因此参考了连续词袋模型CBOW(Continuous Bag-of-Words)的滑动窗口预测方法,如图2所示,设计了结合语素和拼音联合统计的中文词表示模型及其网络结构,如图3和图4所示。对于给定长度语句S=[x1,x2,...,xK],其中xK为第K个语素。通过一个固定大小窗口内的上下文语素来预测中心目标词,该步骤以(2m+1)为窗口大小,本实例中m取值为2,将中心语素的前m个和后m个语素{xi-m,...,xi-1,xi+1,...,xi+m}及其对应的拼音作one-hot编码,生成语素向量组Ci={ci-m,...,ci-1,ci+1,...,ci+m},其中ci-m为语素xi-m编码后大小为T×1的语素向量,同理,生成拼音向量组Pi={pi-m,...,pi-1,pi+1,...,pi+m}。然后构造中文单个语素表示向量di为,
Figure BDA0001889693870000071
其中i仅表示为窗口中心位于语素xi位置,且di为输入特征。
在本方法中,网络输入层和输出层神经元节点数量等于词汇表大小T,根据多次实验发现,其值选定为200时会取得比较好的结果。输出层采用softmax函数激活,用于预测中心目标词。网络隐含层对输入层节点所采用输入权重矩阵WT×N由于计算效率,采用得到UN
Figure BDA0001889693870000072
隐含层经过输出权重矩阵W'N×T得到zi=W'T N×T·UN=W'T·WT·di。然后网络输出层对zi进行softmax激活得到,
Figure BDA0001889693870000073
4.本方法定义目标中心词xi的损失函数为,
Figure BDA0001889693870000074
最后采用梯度下降法来求解目标函数,即只需对上述一个样本的损失梯度求解,获得更新表达式为:
输入权重矩阵,
Figure BDA0001889693870000075
输出权重矩阵,
Figure BDA0001889693870000081
本方法构造了中文语素和拼音表达及其统计特征联合构成中文词向量表达模式,与仅基于中文语素的CBOW连续词袋模型和将中文词语与组成词语语素的汉字联合训练的CWE(character-enhanced word embeddding model)在计算语义相似度任务中表现出优势,表现了本发明生成的中文词向量表示形式对于互联网语料错别字具有更高的兼容性,蕴含更准确的语义信息。
以上所述为本发明的具体实施例及所运用的技术原理,若依本发明的构想所作的改变,其所产生的功能作用仍未超出说明书及附图所包含的额内容,仍应属本发明的保护范围。

Claims (4)

1.一种基于中文语素和拼音联合统计的词向量表示方法,其特征在于:包括如下步骤:
①采集互联网文本信息构建语料库,对构建的语料库进行正文清洗和分词处理;
②对中文语料进行分词处理后转为不保留声调信息的拼音信息,然后分别对语素和拼音特征在训练集语料和全文档中统计词频和逆文档概率作统计权重TFc、IDFc、TFp和IDFp
③基于上下文语素和拼音联合统计的中文词表示模型,对于给定长度语句S=[x1,x2,...,xK],其中xK为第K个语素,通过一个固定大小窗口内的上下文语素来预测中心目标词xi,构造中文单个语素表示向量;
④在步骤③的基础上训练一个三层神经网络以用于中心目标词的预测,该神经网络包括输入层、一个隐含层和输出层,其输入层特征为基于语素、拼音和词频统计的融合特征,输出层为softmax层用于预测中心目标词,输入层与输出层包含节点数量均等于词汇表的大小。
2.根据权利要求1所述的一种基于中文语素和拼音联合统计的词向量表示方法,其特征在于:
上述步骤③的具体步骤是:对于给定长度语句S=[x1,x2,...,xK],其中xK为第K个语素,通过一个固定大小窗口内的上下文语素来预测中心目标词xi,该步骤以(2m+1)为窗口大小,将中心语素的前m个和后m个语素{xi-m,...,xi-1,xi+1,...,xi+m}及其对应的拼音作one-hot编码,生成语素向量组Ci={ci-m,...,ci-1,ci+1,...,ci+m},其中ci-m为语素xi-m编码后大小为T×1的语素向量,同理,生成拼音向量组Pi={pi-m,...,pi-1,pi+1,...,pi+m},构造中文单个语素表示向量di为:
Figure FDA0003918906120000021
其中i仅表示为窗口中心位于语素xi位置。
3.根据权利要求1所述的一种基于中文语素和拼音联合统计的词向量表示方法,其特征在于:
上述步骤④中输入层和输出层神经元节点数量等于词汇表大小T,其输入特征即为di,输出层采用softmax函数激活用于预测中心目标词,隐含层将输入层节点乘上输入权重矩阵WT×N得到
Figure FDA0003918906120000022
隐含层经过输出权重矩阵W'N×T得到zi=W'T N×T·UN=W'T·WT·di,则有输出层对zi进行softmax激活,
Figure FDA0003918906120000023
其中,xi表示中心目标词,UN为隐含层输出向量,w'j表示输出权向量矩阵中的第j列向量。
4.根据权利要求1所述的一种基于中文语素和拼音联合统计的词向量表示方法,其特征在于:
上述中心目标词xi的损失函数为:
Figure FDA0003918906120000031
最后采用梯度下降法来求解目标函数,即只需对一个样本的损失梯度求解,获得更新表达式为:
输入权重矩阵,
Figure FDA0003918906120000032
输出权重矩阵,
Figure FDA0003918906120000033
CN201811465623.0A 2018-12-03 2018-12-03 一种基于中文语素和拼音联合统计的词向量表示方法 Active CN109815476B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811465623.0A CN109815476B (zh) 2018-12-03 2018-12-03 一种基于中文语素和拼音联合统计的词向量表示方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811465623.0A CN109815476B (zh) 2018-12-03 2018-12-03 一种基于中文语素和拼音联合统计的词向量表示方法

Publications (2)

Publication Number Publication Date
CN109815476A CN109815476A (zh) 2019-05-28
CN109815476B true CN109815476B (zh) 2023-03-24

Family

ID=66601933

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811465623.0A Active CN109815476B (zh) 2018-12-03 2018-12-03 一种基于中文语素和拼音联合统计的词向量表示方法

Country Status (1)

Country Link
CN (1) CN109815476B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110427608B (zh) * 2019-06-24 2021-06-08 浙江大学 一种引入分层形声特征的中文词向量表示学习方法
CN110879832A (zh) * 2019-10-23 2020-03-13 支付宝(杭州)信息技术有限公司 目标文本检测方法、模型训练方法、装置及设备
CN111179937A (zh) * 2019-12-24 2020-05-19 上海眼控科技股份有限公司 文本处理的方法、设备和计算机可读存储介质
CN111476036A (zh) * 2020-04-10 2020-07-31 电子科技大学 一种基于中文单词特征子串的词嵌入学习方法
US10817665B1 (en) * 2020-05-08 2020-10-27 Coupang Corp. Systems and methods for word segmentation based on a competing neural character language model
CN111563379B (zh) * 2020-05-12 2022-12-02 厦门市美亚柏科信息股份有限公司 基于中文词向量模型的文本识别方法、装置及存储介质
CN112131864A (zh) * 2020-09-10 2020-12-25 上海交通大学 一种基于自注意机制的中文词向量训练方法
CN115050368B (zh) * 2022-08-12 2023-06-20 北京探境科技有限公司 设备控制方法、装置、智能设备及可读存储介质

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7478033B2 (en) * 2004-03-16 2009-01-13 Google Inc. Systems and methods for translating Chinese pinyin to Chinese characters
KR101509727B1 (ko) * 2013-10-02 2015-04-07 주식회사 시스트란인터내셔널 자율학습 정렬 기반의 정렬 코퍼스 생성 장치 및 그 방법과, 정렬 코퍼스를 사용한 파괴 표현 형태소 분석 장치 및 그 형태소 분석 방법
WO2016008128A1 (en) * 2014-07-17 2016-01-21 Microsoft Technology Licensing, Llc Speech recognition using foreign word grammar
CN107273355B (zh) * 2017-06-12 2020-07-14 大连理工大学 一种基于字词联合训练的中文词向量生成方法
CN108492820B (zh) * 2018-03-20 2021-08-10 华南理工大学 基于循环神经网络语言模型和深度神经网络声学模型的中文语音识别方法

Also Published As

Publication number Publication date
CN109815476A (zh) 2019-05-28

Similar Documents

Publication Publication Date Title
CN109815476B (zh) 一种基于中文语素和拼音联合统计的词向量表示方法
CN109684648B (zh) 一种多特征融合的古今汉语自动翻译方法
CN110532557B (zh) 一种无监督的文本相似度计算方法
CN111209401A (zh) 网络舆情文本信息情感极性分类处理系统及方法
CN110413768B (zh) 一种文章题目自动生成方法
King et al. Evaluating approaches to personalizing language models
CN111368082A (zh) 一种基于层次网络的领域自适应词嵌入的情感分析方法
González-Gallardo et al. Sentence boundary detection for French with subword-level information vectors and convolutional neural networks
CN111984782A (zh) 藏文文本摘要生成方法和系统
CN112818698A (zh) 一种基于双通道模型的细粒度的用户评论情感分析方法
Ali et al. SiNER: A large dataset for Sindhi named entity recognition
CN116483991A (zh) 一种对话摘要生成方法及系统
CN114972848A (zh) 基于细粒度视觉信息控制网络的图像语义理解及文本生成
CN114757184A (zh) 实现航空领域知识问答的方法和系统
Antony et al. A survey of advanced methods for efficient text summarization
CN114595700A (zh) 融合零代词与篇章信息的汉越神经机器翻译方法
CN112818124A (zh) 一种基于注意力神经网络的实体关系抽取方法
Singkul et al. Parsing thai social data: A new challenge for thai nlp
CN117493548A (zh) 文本分类方法、模型的训练方法和装置
CN111813927A (zh) 一种基于主题模型和lstm的句子相似度计算方法
Khoufi et al. Chunking Arabic texts using conditional random fields
Singh et al. Deep Learning based Abstractive Summarization for English Language
Frias et al. Attention-based Bilateral LSTM-CNN for the Sentiment Analysis of Code-mixed Filipino-English Social Media Texts
CN113449517A (zh) 基于bert门控多窗口注意力网络模型的实体关系抽取方法
Ansari et al. Hindi to English transliteration using multilayer gated recurrent units

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant