CN112149418A - 一种基于词向量表示学习的中文分词方法及系统 - Google Patents

一种基于词向量表示学习的中文分词方法及系统 Download PDF

Info

Publication number
CN112149418A
CN112149418A CN202011007743.3A CN202011007743A CN112149418A CN 112149418 A CN112149418 A CN 112149418A CN 202011007743 A CN202011007743 A CN 202011007743A CN 112149418 A CN112149418 A CN 112149418A
Authority
CN
China
Prior art keywords
word
word segmentation
vectors
text
preliminary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011007743.3A
Other languages
English (en)
Inventor
赵尔平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xizang Minzu University
Original Assignee
Xizang Minzu University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xizang Minzu University filed Critical Xizang Minzu University
Priority to CN202011007743.3A priority Critical patent/CN112149418A/zh
Publication of CN112149418A publication Critical patent/CN112149418A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于词向量表示学习的中文分词方法及系统。该方法包括:对待分词文本进行初步分词处理,得到初步分词文本;将初步分词文本输入BERT模型进行训练,得到语料词向量;将语料词向量输入Bi‑GRU模型进行训练,得到多个特征词向量;计算相邻两个特征词向量的余弦相似度,得到余弦相似度值;判断余弦相似度值是否大于或等于预设阈值;若大于或等于预设阈值,则将相邻两个特征词向量对应词的初步分词结果进行合并。采用本发明的方法及系统,解决了特定领域未登录词分词问题,提高分词性能,确保分词结果不破坏词的语义完整性,并且能够避免花费大量人力标注语料。

Description

一种基于词向量表示学习的中文分词方法及系统
技术领域
本发明涉及分词技术领域,特别是涉及一种基于词向量表示学习的中文分词方法及系统。
背景技术
通用领域分词技术应用于预特定领域分词准确率就会明显下降,其主要原因是特定领域语料库中包含大量事物名、地名、企业名、缩写词、新增词等,这些新词通常没收录在通用领域词典中,即未登录词,特定领域语料带有大量未登录词。例如,西藏畜牧业领域语料库中存在大量“前缀+名词”、“地名+名词”和“人名+名词”等类型词组。其中,“前缀+名词”的实体名有藏绵羊、藏香猪、藏雪鸡、藏茵陈、藏茴香、藏红花等;“地名+名词”的实体名有仲巴草原、高原兔、三江流域、高山秃鹫、那曲虫草等,“人名+名词”的实体名有帕里草原、普氏原羚、邦达草原、美玉乡、尼玛乡等。这些词组没有被收录在通用分词系统的词典中,属于未登录词。
现有分词技术按字向量表示语料中的语句进行训练,在一定窗口范围内学习字在上下文中不同特征以及字之间的依赖关系,然后在依赖关系弱的位置进行切分,达到分词的目的。现有分词技术的缺点首先是容易造成未登录词被错误切开。例如“恙塘草原”由四个字组成的未登录词,很显然“恙”和“塘”,“草”和“原”的依赖关系相对较紧密,而“塘”和“草”的依赖关系相对较弱,所以“恙塘草原”被错误切分为“恙塘”和“草原”两个词。其次是字向量拆分词语本身语义,破坏了词本身语义的完整性。此外,字向量表示学习需要花费大量人力对语料进行序列标注,领域分词时需要构建领域词典,构建领域词典既困难又费时。
发明内容
本发明的目的是提供一种基于词向量表示学习的中文分词方法及系统,无需人工构建领域词典,能够提高特定领域的分词性能,确保分词结果不破坏词的语义完整性,并且能够避免花费大量人力标注语料。
为实现上述目的,本发明提供了如下方案:
一种中文分词方法,包括:
获取待分词文本;
对所述待分词文本进行初步分词处理,得到初步分词文本;
将所述初步分词文本输入BERT模型进行训练,得到语料词向量;
将所述语料词向量输入Bi-GRU模型进行训练,得到多个特征词向量;所述特征词向量能够反映词的位置信息和文本语义特征;
计算相邻两个特征词向量的余弦相似度,得到余弦相似度值;
判断所述余弦相似度值是否大于或等于预设阈值;若大于或等于所述预设阈值,则将所述相邻两个特征词向量对应词的初步分词结果进行合并;若小于所述预设阈值,则保留所述相邻两个特征词向量对应词的初步分词结果。
可选的,所述对所述待分词文本进行初步分词处理,得到初步分词文本,具体包括:
采用jieba分词工具对所述待分词文本进行初步分词处理,得到初步分词文本。
可选的,所述将所述语料词向量输入Bi-GRU模型进行训练,得到多个特征词向量,具体包括:
将所述语料词向量输入Bi-GRU模型进行训练,得到Bi-GRU网络隐藏状态;
计算预设权重矩阵与所述Bi-GRU网络隐藏状态的乘积的sigmoid函数值,得到多个特征词向量。
可选的,所述将所述语料词向量输入Bi-GRU模型进行训练,得到Bi-GRU网络隐藏状态,具体包括:
将所述语料词向量正向输入Bi-GRU模型进行训练,得到正向隐藏状态;
将所述语料词向量反向输入Bi-GRU模型进行训练,得到反向隐藏状态;
将所述正向隐藏状态和所述反向隐藏状态进行逐元素相加操作,得到Bi-GRU网络隐藏状态。
可选的,所述计算相邻两个特征词向量的余弦相似度,得到余弦相似度值,具体包括:
根据如下公式计算相邻两个特征词向量的余弦相似度:
Figure BDA0002696536460000031
式中,s(yi,yi+1)为第i个特征词向量yi和第i+1个特征词向量yi+1的余弦相似度值,n表示特征词向量总个数。
本发明还提供一种中文分词系统,包括:
待分词文本获取模块,用于获取待分词文本;
初步分词处理模块,用于对所述待分词文本进行初步分词处理,得到初步分词文本;
语料词向量生成模块,用于将所述初步分词文本输入BERT模型进行训练,得到语料词向量;
特征词向量生成模块,用于将所述语料词向量输入Bi-GRU模型进行训练,得到多个特征词向量;所述特征词向量能够反映词的位置信息和文本语义特征;
余弦相似度计算模块,用于计算相邻两个特征词向量的余弦相似度,得到余弦相似度值;
判断模块,用于判断所述余弦相似度值是否大于或等于预设阈值;若大于或等于所述预设阈值,则执行词合并模块;若小于所述预设阈值,则执行词保留模块;
词合并模块,用于将所述相邻两个特征词向量对应词的初步分词结果进行合并;
词保留模块,用于保留所述相邻两个特征词向量对应词的初步分词结果。
可选的,所述初步分词处理模块,具体包括:
初步分词处理单元,用于采用jieba分词工具对所述待分词文本进行初步分词处理,得到初步分词文本。
可选的,所述特征词向量生成模块,具体包括:
隐藏状态生成单元,用于将所述语料词向量输入Bi-GRU模型进行训练,得到Bi-GRU网络隐藏状态;
特征词向量生成单元,用于计算预设权重矩阵与所述Bi-GRU网络隐藏状态的乘积的sigmoid函数值,得到多个特征词向量。
可选的,所述隐藏状态生成单元,具体包括:
正向隐藏状态生成子单元,用于将所述语料词向量正向输入Bi-GRU模型进行训练,得到正向隐藏状态;
反向隐藏状态生成子单元,用于将所述语料词向量反向输入Bi-GRU模型进行训练,得到反向隐藏状态;
隐藏状态生成子单元,用于将所述正向隐藏状态和所述反向隐藏状态进行逐元素相加操作,得到Bi-GRU网络隐藏状态。
可选的,所述余弦相似度计算模块,具体包括:
余弦相似度计算单元,用于根据如下公式计算相邻两个特征词向量的余弦相似度:
Figure BDA0002696536460000041
式中,s(yi,yi+1)为第i个特征词向量yi和第i+1个特征词向量yi+1的余弦相似度值,n表示特征词向量总个数。
与现有技术相比,本发明的有益效果是:
本发明提出了一种基于词向量表示学习的中文分词方法及系统,获取待分词文本;对待分词文本进行初步分词处理,得到初步分词文本;将初步分词文本输入BERT模型进行训练,得到语料词向量;将语料词向量输入Bi-GRU模型进行训练,得到多个特征词向量;计算相邻两个特征词向量的余弦相似度,得到余弦相似度值;判断余弦相似度值是否大于或等于预设阈值;若大于或等于预设阈值,则将相邻两个特征词向量对应词的初步分词结果进行合并;若小于预设阈值,则保留相邻两个特征词向量对应词的初步分词结果。本发明无需人工构建领域词典,解决了特定领域未登录词分词问题,提高分词性能,确保分词结果不破坏词的语义完整性,并且能够避免花费大量人力标注语料。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例中基于词向量表示学习的中文分词方法流程图;
图2为本发明实施例中基于词向量表示学习的中文分词系统结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的目的是提供一种基于词向量表示学习的中文分词方法及系统,无需人工构建领域词典,能够提高特定领域的分词性能,确保分词结果不破坏词的语义完整性,并且能够避免花费大量人力标注语料。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
实施例
本发明主要解决现有分词技术对未登录词被错误切开问题;其次解决特定领域分词需要耗费大量人工构建领域词典和语料标注问题;最后利用词向量表示学习解决字向量表示会拆分词本身语义,破坏词的语义完整性问题。
本发明目的之一是无需人工构建领域词典前提下通过机器学习词语上、下文语义特征解决未登录词的正确分词,从而提高深度学习技术在特定领域分词性能;目的之二采用词向量表示学习便于扑捉词级的语义特征,从而确保分词结果不破坏词的语义完成性,最终实现词向量表示学习的特定领域中文分词;目的之三词向量代替字向量表示避免花费大量人力标注语料。
图1为本发明实施例中基于词向量表示学习的中文分词方法流程图,如图1所示,一种基于词向量表示学习的中文分词方法,包括:
步骤101:获取待分词文本。
步骤102:对待分词文本进行初步分词处理,得到初步分词文本。
步骤102,具体包括:
采用jieba分词工具对待分词文本进行初步分词处理,得到初步分词文本。
步骤103:将初步分词文本输入BERT模型进行训练,得到语料词向量。
步骤104:将语料词向量输入Bi-GRU模型进行训练,得到多个特征词向量;特征词向量能够反映词的位置信息和文本语义特征(即上、下文语义特征)。
步骤104,具体包括:
将语料词向量输入Bi-GRU模型进行训练,得到Bi-GRU网络隐藏状态;
计算预设权重矩阵与Bi-GRU网络隐藏状态的乘积的sigmoid函数值,得到多个特征词向量。
其中,
将语料词向量输入Bi-GRU模型进行训练,得到Bi-GRU网络隐藏状态,具体包括:
将语料词向量正向输入Bi-GRU模型进行训练,得到正向隐藏状态;将语料词向量反向输入Bi-GRU模型进行训练,得到反向隐藏状态;将正向隐藏状态和反向隐藏状态进行逐元素相加操作,得到Bi-GRU网络隐藏状态。
步骤105:计算相邻两个特征词向量的余弦相似度,得到余弦相似度值。
步骤105,具体包括:
根据如下公式计算相邻两个特征词向量的余弦相似度:
Figure BDA0002696536460000061
式中,s(yi,yi+1)为第i个特征词向量yi和第i+1个特征词向量yi+1的余弦相似度值,n表示特征词向量总个数。
步骤106:判断余弦相似度值是否大于或等于预设阈值;若大于或等于预设阈值,则执行步骤107;若小于预设阈值,则执行步骤108。
步骤107:将相邻两个特征词向量对应词的初步分词结果进行合并。
步骤108:保留相邻两个特征词向量对应词的初步分词结果。
本发明提供的基于词向量表示学习的中文分词方法,具体应用在西藏畜牧业领域语料库中,具体方法如下:
1)分词工具对西藏畜牧业语料初步分词
为了使用词向量而非字向量表示西藏畜牧业语料,本发明先要对语料库中的所有语句进行初步分词处理。因为jieba分词工具在通用语料上分词准确率已经达到95%以上,而且jieba工具有python语言、Java语言等多种语言版本,使用起来方便,所以初步分词任务选用jieba分词工具。在无领域词典帮助的情况下jieba分词工具在特定领域的分词缺点与现有基于深度学习的分词方法一样,把未登录词被错误切开,造成其在特定领域分词准确率明显下降。实践证明,不给jieba工具增加西藏畜牧业语料词典情况下,它将语料中所有的“前缀+名词”、“地名+名词”和“人名+名词”等类型的词组错误切开,所以jieba分词后的语料包括了本发明研究的对象。具体做法是西藏畜牧业语料文本发明件作为jieba工具输入,分词结果输出到文本发明件保存。
2)BERT模型生成初步分词语料的词向量
本发明选择BERT(Bidirectional Encoder Representations fromTransformers)模型实现语料的词向量表示。BERT模型包括预训练和微调两个阶段,模型在不同的预训练任务上训练未标记的数据,并具有参数微调功能;与其它语言模型相比,BERT预训练语言模型能够充分利用词的左、右两边信息来获得更好的词分布式表示。将jieba初步分词的语料文本输入给BERT模型,模型训练后输出语料的词向量表示。具体实现是先安装预训练模型BERT-Large及其附带的词典文件,然后由Tensorflow调用BERT包完成。在BERT模型上训练初步分词后的西藏畜牧业语料,获得该语料词向量表示,例如输入给BERT模型的语句为W={w1,w2,w3,……,wn},则模型输出句子的词向量为X={x1,x2,x3,……,xn},其中n表示句子中包含的词向量个数,即句子的长度。
3)语料词向量数据进行Bi-GRU网络建模
发明借助双向门控循环单元(Bidirectional Gated Recurrent Units,Bi-GRU)训练西藏畜牧业语料的分词模型。门控循环单元(Gated Recurrent Units,GRU)具有网络参数少,计算开销小,很好解决梯度消失和长距离依赖等特点,双向网络结构训练时不仅能利用到过去的信息,还能捕捉到后续的信息,即双向结构能更好扑捉输入序列上文和下文信息。BERT模型输出的词向量表示的中文语句X={x1,x2,x3,…,xn},分别作为Bi-GRU网络的正向和反向输入,则Bi-GRU的正向网络t时刻更新门zt、重置门rt、隐藏状态ht计算公式如下:
zt=σ(Wzxt+UZht-1)
rt=σ(Wrxt+Urht-1)
Figure BDA0002696536460000071
Figure BDA0002696536460000081
式中,xt为t时刻的中文语句,ht-1为t-1时刻的隐藏状态。
Bi-GRU的反向网络计算公式与正向类似,这里用
Figure BDA0002696536460000082
Figure BDA0002696536460000083
分别表示Bi-GRU网络正向和反向t时刻的隐藏状态,则Bi-GRU网络隐藏状态表示为:
Figure BDA0002696536460000084
其中,Wz,UZ,Wr,Ur
Figure BDA0002696536460000085
Wo是用于训练时的权重矩阵,
Figure BDA0002696536460000086
是GRU网络隐含层结果,σ(·)是激活函数sigmoid,运算符⊙是哈达玛积(Hadamard product),运算符
Figure BDA0002696536460000087
代表两个向量逐元素相加。隐含层ht经过线性变化后得到向量yt表示为:
yt=σ(Woht)
yt是第t个词向量xt训练的最终结果,但是yt比xt多了词位信息和上下文语义特征。
4)计算相邻输出向量的余弦相似度
本发明解决未登录词被错误切开问题,被错误切开的这些词原本属于同一个词组,所以它们不仅语法位置相邻而且存在较强的依赖关系和语义相关性,而句子中其它相邻词的依赖关系和语义相关性相对弱,基于这个原理本发明利用相邻词间的语义相关性的强弱对初步分词结果中被错误切开的未登录词进行修正。自然语言处理中通常用余弦相似度衡量两个词语的语义相关性和依赖关系的强弱,即两个词向量的夹角的余弦值,计算公式表示如下:
Figure BDA0002696536460000088
式中,s(yi,yi+1)为第i个特征词向量yi和第i+1个特征词向量yi+1的余弦相似度值,n表示特征词向量总个数。
5)余弦相似度大于阀值λ处的分词结果需修正,实现词向量表示的中文分词
逐个计算输出序列中相邻两个向量<yi,yi+1>的余弦相似度,并根据训练时设定的余弦相似度的阀值λ决策初步分词结果中哪些分词需要修正,如果某对相邻向量<yi,yi+1>余弦相似度大于阀值λ,则它们对应初步分词结果中的相邻词wi与词wi+1需要修正,即将它们重新合并为一个词wiwi+1;如果小于阀值λ,则不需要修正,保留初步分词结果wi和wi+1两个分词不变,此方法在未构造领域词典情况下成功解决了现有分词技术错误切分未登录词的问题。
利用西藏畜牧业领域语料库的测试数据进行测试,本发明比jieba工具分词准确率提高了36.24%。实践证明本发明提出的方法是有效、可行的。
本发明的好处在于:
首先,本发明不依赖特定领域词典而是根据相邻词间的语义相关性强弱修正被错误切开的未登录词,解决现有技术对未登录词错误分词问题。步骤1)的jieba工具初步分词,步骤2)的BERT模型训练词向量,步骤3)的词向量数据进行Bi-GRU网络建模都使用它们自带的通用词典,无需人工构建特定领域词典,本发明通过相邻输出向量的余弦相似度决策哪些初步分词结果需要修正,即找到被错误切分的未登录词进行修正。
其次,本发明在分词任务中使用词向量而非字向量表示学习。本发明的分词方法包括初步分词和修正分词两个阶段,初步分词保证可以使用词向量表示语料进行训练学习,词向量表示比字向量表示减少了人工标注语料的预处理工作。
再有,本发明的分词任务不破坏词的语义完整性。以词向量表示学习首先保证了词的语义完整性,通过相邻词向量的余弦相似度修正初步分词结果进一步确保词组语义完整性。
图2为本发明实施例中基于词向量表示学习的中文分词系统结构图。如图2所示,一种基于词向量表示学习的中文分词系统,包括:
待分词文本获取模块201,用于获取待分词文本。
初步分词处理模块202,用于对待分词文本进行初步分词处理,得到初步分词文本。
初步分词处理模块202,具体包括:
初步分词处理单元,用于采用jieba分词工具对待分词文本进行初步分词处理,得到初步分词文本。
语料词向量生成模块203,用于将初步分词文本输入BERT模型进行训练,得到语料词向量。
特征词向量生成模块204,用于将语料词向量输入Bi-GRU模型进行训练,得到多个特征词向量;特征词向量能够反映词的位置信息和文本语义特征(即上、下文语义特征)。
特征词向量生成模块204,具体包括:
隐藏状态生成单元,用于将语料词向量输入Bi-GRU模型进行训练,得到Bi-GRU网络隐藏状态。
隐藏状态生成单元,具体包括:
正向隐藏状态生成子单元,用于将语料词向量正向输入Bi-GRU模型进行训练,得到正向隐藏状态。
反向隐藏状态生成子单元,用于将语料词向量反向输入Bi-GRU模型进行训练,得到反向隐藏状态。
隐藏状态生成子单元,用于将正向隐藏状态和反向隐藏状态进行逐元素相加操作,得到Bi-GRU网络隐藏状态。
特征词向量生成单元,用于计算预设权重矩阵与Bi-GRU网络隐藏状态的乘积的sigmoid函数值,得到多个特征词向量。
余弦相似度计算模块205,用于计算相邻两个特征词向量的余弦相似度,得到余弦相似度值。
余弦相似度计算模块205,具体包括:
余弦相似度计算单元,用于根据如下公式计算相邻两个特征词向量的余弦相似度:
Figure BDA0002696536460000101
式中,s(yi,yi+1)为第i个特征词向量yi和第i+1个特征词向量yi+1的余弦相似度值,n表示特征词向量总个数。
判断模块206,用于判断余弦相似度值是否大于或等于预设阈值;若大于或等于预设阈值,则执行词合并模块;若小于预设阈值,则执行词保留模块。
词合并模块207,用于将相邻两个特征词向量对应词的初步分词结果进行合并。
词保留模块208,用于保留相邻两个特征词向量对应词的初步分词结果。
对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
本发明基于向量表示的Bi-GRU网络训练,获取到词的上下文语义特征,然后根据相邻输出向量的余弦相似度决策哪些初步分词结果需要修正,即找到被错误切分的未登录词进行分词修正。因此本发明的优点之一是成功解决未登录词被正确分词,提高了深度学习技术在特定领域分词的性能和准确率。因为分词整个过程不需要构建领域词典,因此本发明的优点二是本发明通用性强、可应用于其它领域进行分词。本发明分词包括jieba工具初步分词和机器学习的修正分词两个阶段,初步分词阶段确保在分词任务中可用词向量代替字向量,词向量表示学习便于神经网络模型训练词级语义特征,因此本发明优点三是分词方法不破坏词的语义完整性。词向量表示学习避免了花费大量人工标注语料;初步分词阶段无需人工干预给jieba工具构建领域词典,因此本发明的优点四是无需大量人工干预。
本发明中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上,本说明书内容不应理解为对本发明的限制。

Claims (10)

1.一种中文分词方法,其特征在于,包括:
获取待分词文本;
对所述待分词文本进行初步分词处理,得到初步分词文本;
将所述初步分词文本输入BERT模型进行训练,得到语料词向量;
将所述语料词向量输入Bi-GRU模型进行训练,得到多个特征词向量;所述特征词向量能够反映词的位置信息和文本语义特征;
计算相邻两个特征词向量的余弦相似度,得到余弦相似度值;
判断所述余弦相似度值是否大于或等于预设阈值;若大于或等于所述预设阈值,则将所述相邻两个特征词向量对应词的初步分词结果进行合并;若小于所述预设阈值,则保留所述相邻两个特征词向量对应词的初步分词结果。
2.根据权利要求1所述的中文分词方法,其特征在于,所述对所述待分词文本进行初步分词处理,得到初步分词文本,具体包括:
采用jieba分词工具对所述待分词文本进行初步分词处理,得到初步分词文本。
3.根据权利要求2所述的中文分词方法,其特征在于,所述将所述语料词向量输入Bi-GRU模型进行训练,得到多个特征词向量,具体包括:
将所述语料词向量输入Bi-GRU模型进行训练,得到Bi-GRU网络隐藏状态;
计算预设权重矩阵与所述Bi-GRU网络隐藏状态的乘积的sigmoid函数值,得到多个特征词向量。
4.根据权利要求3所述的中文分词方法,其特征在于,所述将所述语料词向量输入Bi-GRU模型进行训练,得到Bi-GRU网络隐藏状态,具体包括:
将所述语料词向量正向输入Bi-GRU模型进行训练,得到正向隐藏状态;
将所述语料词向量反向输入Bi-GRU模型进行训练,得到反向隐藏状态;
将所述正向隐藏状态和所述反向隐藏状态进行逐元素相加操作,得到Bi-GRU网络隐藏状态。
5.根据权利要求4所述的中文分词方法,其特征在于,所述计算相邻两个特征词向量的余弦相似度,得到余弦相似度值,具体包括:
根据如下公式计算相邻两个特征词向量的余弦相似度:
Figure FDA0002696536450000021
式中,s(yi,yi+1)为第i个特征词向量yi和第i+1个特征词向量yi+1的余弦相似度值,n表示特征词向量总个数。
6.一种中文分词系统,其特征在于,包括:
待分词文本获取模块,用于获取待分词文本;
初步分词处理模块,用于对所述待分词文本进行初步分词处理,得到初步分词文本;
语料词向量生成模块,用于将所述初步分词文本输入BERT模型进行训练,得到语料词向量;
特征词向量生成模块,用于将所述语料词向量输入Bi-GRU模型进行训练,得到多个特征词向量;所述特征词向量能够反映词的位置信息和文本上下文语义特征;
余弦相似度计算模块,用于计算相邻两个特征词向量的余弦相似度,得到余弦相似度值;
判断模块,用于判断所述余弦相似度值是否大于或等于预设阈值;若大于或等于所述预设阈值,则执行词合并模块;若小于所述预设阈值,则执行词保留模块;
词合并模块,用于将所述相邻两个特征词向量对应词的初步分词结果进行合并;
词保留模块,用于保留所述相邻两个特征词向量对应词的初步分词结果。
7.根据权利要求6所述的中文分词系统,其特征在于,所述初步分词处理模块,具体包括:
初步分词处理单元,用于采用jieba分词工具对所述待分词文本进行初步分词处理,得到初步分词文本。
8.根据权利要求7所述的中文分词系统,其特征在于,所述特征词向量生成模块,具体包括:
隐藏状态生成单元,用于将所述语料词向量输入Bi-GRU模型进行训练,得到Bi-GRU网络隐藏状态;
特征词向量生成单元,用于计算预设权重矩阵与所述Bi-GRU网络隐藏状态的乘积的sigmoid函数值,得到多个特征词向量。
9.根据权利要求8所述的中文分词系统,其特征在于,所述隐藏状态生成单元,具体包括:
正向隐藏状态生成子单元,用于将所述语料词向量正向输入Bi-GRU模型进行训练,得到正向隐藏状态;
反向隐藏状态生成子单元,用于将所述语料词向量反向输入Bi-GRU模型进行训练,得到反向隐藏状态;
隐藏状态生成子单元,用于将所述正向隐藏状态和所述反向隐藏状态进行逐元素相加操作,得到Bi-GRU网络隐藏状态。
10.根据权利要求9所述的中文分词系统,其特征在于,所述余弦相似度计算模块,具体包括:
余弦相似度计算单元,用于根据如下公式计算相邻两个特征词向量的余弦相似度:
Figure FDA0002696536450000031
式中,s(yi,yi+1)为第i个特征词向量yi和第i+1个特征词向量yi+1的余弦相似度值,n表示特征词向量总个数。
CN202011007743.3A 2020-09-23 2020-09-23 一种基于词向量表示学习的中文分词方法及系统 Pending CN112149418A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011007743.3A CN112149418A (zh) 2020-09-23 2020-09-23 一种基于词向量表示学习的中文分词方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011007743.3A CN112149418A (zh) 2020-09-23 2020-09-23 一种基于词向量表示学习的中文分词方法及系统

Publications (1)

Publication Number Publication Date
CN112149418A true CN112149418A (zh) 2020-12-29

Family

ID=73897783

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011007743.3A Pending CN112149418A (zh) 2020-09-23 2020-09-23 一种基于词向量表示学习的中文分词方法及系统

Country Status (1)

Country Link
CN (1) CN112149418A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113361273A (zh) * 2021-06-28 2021-09-07 平安普惠企业管理有限公司 基于未登录词的分词方法、装置、电子设备及介质
CN114970666A (zh) * 2022-03-29 2022-08-30 北京百度网讯科技有限公司 一种口语处理方法、装置、电子设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107729322A (zh) * 2017-11-06 2018-02-23 广州杰赛科技股份有限公司 分词方法及装置、建立句子向量生成模型方法及装置
US20190188263A1 (en) * 2016-06-15 2019-06-20 University Of Ulsan Foundation For Industry Cooperation Word semantic embedding apparatus and method using lexical semantic network and homograph disambiguating apparatus and method using lexical semantic network and word embedding
CN110717334A (zh) * 2019-09-10 2020-01-21 上海理工大学 基于bert模型和双通道注意力的文本情感分析方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190188263A1 (en) * 2016-06-15 2019-06-20 University Of Ulsan Foundation For Industry Cooperation Word semantic embedding apparatus and method using lexical semantic network and homograph disambiguating apparatus and method using lexical semantic network and word embedding
CN107729322A (zh) * 2017-11-06 2018-02-23 广州杰赛科技股份有限公司 分词方法及装置、建立句子向量生成模型方法及装置
CN110717334A (zh) * 2019-09-10 2020-01-21 上海理工大学 基于bert模型和双通道注意力的文本情感分析方法

Non-Patent Citations (8)

* Cited by examiner, † Cited by third party
Title
DEJUN CHEN等: "A Short-term Traffic Flow Prediction Model Based on AutoEncoder and GRU", 《12TH INTERNATIONAL CONFERENCE ON ADVANCED COMPUTATIONAL INTELLIGENCE (ICACI)》 *
JING YUAN等: "An Intelligent Fault Diagnosis Method Using GRU Neural Network towards Sequential Data in Dynamic Processes", 《PROCESSES 2019》 *
RUI LU等: "BIDIRECTIONAL GRU FOR SOUND EVENT DETECTION", 《DETECTION AND CLASSIFICATION OF ACOUSTIC SCENES AND EVENTS 2017》 *
TIANQI ZHAO等: "Deep Multimodal Learning: An Effective Method for Video Classification", 《2019 IEEE INTERNATIONAL CONFERENCE ON WEB SERVICES (ICWS)》 *
崔昕阳 等: "基于并行双向门控循环单元与自注意力机制的中文文本情感分类", 《北京化工大学学报(自然科学版)》 *
沈翔翔 等: "使用无监督学习改进中文分词", 《小型微型计算机系统》 *
车金立 等: "基于BI-GRU-CRF模型的中文分词法", 《火力与指挥控制》 *
高扬: "《智能摘要与深度学习》", 30 April 2019, 北京理工大学出版社 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113361273A (zh) * 2021-06-28 2021-09-07 平安普惠企业管理有限公司 基于未登录词的分词方法、装置、电子设备及介质
CN114970666A (zh) * 2022-03-29 2022-08-30 北京百度网讯科技有限公司 一种口语处理方法、装置、电子设备及存储介质
CN114970666B (zh) * 2022-03-29 2023-08-29 北京百度网讯科技有限公司 一种口语处理方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN110135457B (zh) 基于自编码器融合文档信息的事件触发词抽取方法及系统
CN110083710B (zh) 一种基于循环神经网络与潜变量结构的词语定义生成方法
CN109670191B (zh) 机器翻译的校准优化方法、装置与电子设备
Gao et al. Named entity recognition method of Chinese EMR based on BERT-BiLSTM-CRF
CN114218379B (zh) 一种面向智能问答系统的无法回答问题的归因方法
CN112016271A (zh) 语言风格转换模型的训练方法、文本处理方法以及装置
CN112149418A (zh) 一种基于词向量表示学习的中文分词方法及系统
CN114818717A (zh) 融合词汇和句法信息的中文命名实体识别方法及系统
CN114692568A (zh) 一种基于深度学习的序列标注方法及应用
CN113360667A (zh) 基于多任务学习的生物医学触发词检测和命名实体识别方法
CN114254645A (zh) 一种人工智能辅助写作系统
CN107783958B (zh) 一种目标语句识别方法及装置
CN112131879A (zh) 一种关系抽取系统、方法和装置
CN116127954A (zh) 一种基于词典的新工科专业中文知识概念抽取方法
Ramesh et al. Interpretable natural language segmentation based on link grammar
CN115270795A (zh) 一种基于小样本学习的环评领域命名实体识别技术
CN114372467A (zh) 命名实体抽取方法及装置、电子设备、存储介质
CN114003773A (zh) 一种基于自构建多场景的对话追踪方法
Marzinotto et al. Sources of Complexity in Semantic Frame Parsing for Information Extraction
CN114239555A (zh) 一种关键词提取模型的训练方法及相关装置
CN114154497A (zh) 语病识别方法、装置、电子设备和存储介质
CN113761874A (zh) 事件事实性预测方法、装置、电子设备与存储介质
CN112632265A (zh) 智能机器阅读理解方法、装置、电子设备及存储介质
Lin et al. Design and implementation of intelligent scoring system for handwritten short answer based on deep learning
KR101126186B1 (ko) 형태적 중의성 동사 분석 장치, 방법 및 그 기록 매체

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20201229

RJ01 Rejection of invention patent application after publication