CN111666758A

CN111666758A - 中文分词方法、训练设备以及计算机可读存储介质

Info

Publication number: CN111666758A
Application number: CN202010297380.5A
Authority: CN
Inventors: 赵笑艳; 杨敏; 曲强; 贺倩明
Original assignee: Shenzhen Deli Technology Co ltd; Shenzhen Institute of Advanced Technology of CAS
Current assignee: Shenzhen Deli Technology Co ltd; Shenzhen Institute of Advanced Technology of CAS
Priority date: 2020-04-15
Filing date: 2020-04-15
Publication date: 2020-09-15
Anticipated expiration: 2040-04-15
Also published as: CN111666758B

Abstract

本申请提供一种中文分词方法、训练设备以及计算机可读存储介质，该方法包括：将待分词文本中的字符转化为字符特征信息向量；提取每个字符特征信息向量的上下文特征向量；从词典中获取每个句子对应的候选词集合，并利用自适应注意力机制计算上下文特征向量和候选词集合中的每个候选词的语义关系，得到上下文特征向量对词典的词感知表示；将上下文特征向量和词感知表示进行信息融合，获得包含词信息和上下文信息的词感知上下文表示；根据词感知上下文表示确定相邻字之间的依赖关系，从而对待分词文本进行分词。本申请提供的中文分词方法能够提高中文分词的准确性。

Description

中文分词方法、训练设备以及计算机可读存储介质

技术领域

本申请涉及自然语言处理领域，特别涉及一种中文分词方法、训练设备及计算机可读存储介质。

背景技术

当今社会计算机的应用日益广泛，己经渗透到各种传统行业。实现人与计算机之间高效和准确的信息交互，是当前计算机工作者的重要任务。据统计，在信息领域中80％以上的信息是以语言文字为载体的。这些语言信息的自动输入和输出、校对、分类和文摘、信息的检索和提取、语言翻译等技术都是国民经济信息化的重要基础。

自然语言处理是一门语言学和计算机科学的交叉学科，着重处理人类语言的可计算的特性。它属于认知科学，并和人工智能的一些领域有一些交迭。现在的计算机不懂人类的语言，而人在理解计算机的语言方面也有困难，因为计算机的语言并不符合人的思考方式。

近年来，自动分词己经引起多方面的关注，成为中文信息处理的一个前沿课题。中文自动分词研究是中文信息处理技术的基础工程，具有以下重要意义：(1)自动分词是语言学研究和中文信息处理应用进行资源共享的必要手段。(2)自动分词是对汉语进行定量分析的基础。(3)词是语法功能的载体，自动分词是句法分析的基础。(4)词是语义功能的载体，自动分词是语义研究的基础。(5)“以词定字”和“以词定音”等方法是进行文本校对、简繁转换、语音合成等的主要手段。中文自动分词是中文信息处理的一项重要的基础性工作，许多中文信息处理项目中都涉及到分词问题，如机器翻译、中文文献、自动文摘、自动分类、中文文献库。现有的中文分词可以运用BP神经网络实现中文分词，但是精确度不够高，BP神经网络结合模糊推理来实现提高对中文分词的精确度，是模糊数学领域在NLP(自然语言处理)的一次创新的结合。

发明内容

本申请实施例提供了一种中文分词方法、训练设备以及计算机可读存储介质，以解决现有中文分词方法准确率低的问题。

为解决上述技术问题，本申请提供一种中文分词方法，该方法包括：将待分词文本中的字符转化为字符特征信息向量；提取每个字符特征信息向量的上下文特征向量；从词典中获取每个句子对应的候选词集合，并利用自适应注意力机制计算上下文特征向量和候选词集合中的每个候选词的语义关系，得到上下文特征向量对词典的词感知表示；将上下文特征向量和词感知表示进行信息融合，获得包含词信息和上下文信息的词感知上下文表示；根据词感知上下文表示确定相邻字之间的依赖关系，从而对待分词文本进行分词。

为解决上述技术问题，本申请还提供一种中文分词模型的训练设备，该设备包括：存储器，用于存储计算机程序。处理器，用于执行计算机程序以实现上述中文分词方法的步骤。

为解决上述技术问题，本申请还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时实现上述中文分词方法的步骤。

通过上述方案，本申请的有益效果是：本申请利用自适应注意力机制从与当前字信息相关的候选词集合中挖掘出有效词信息。继而通过门融合机制，实现字-词信息的自适应融合。最后基于包含词信息和上下文信息的词感知上下文表示对中文文本进行中文分词，从而提高中文分词的准确性。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图，其中：

图1是本申请提供的中文分词方法一实施例的流程示意图；

图2是本申请提供的中文分词网络模型一实施例的结构示意图；

图3是本申请提供的中文分词模型的训练设备一实施例的结构示意图；

图4是本申请提供的计算机可读存储介质一实施例的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请的一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

参阅图1，图1为本申请提供的中文分词方法一实施例的流程示意图。包括以下步骤：

S1：将待分词文本中的字符转化为字符特征信息向量。

为了方便计算，需要先利用词嵌入技术将待分词文本中的字符转化为向量形式的字符特征信息向量，词嵌入技术是一种将文本中的词或字转换成数字向量的方法，为了方便标准机器学习算法对文本进行分析，需要把这些被转换成数字的向量以数字形式作为输入。词嵌入过程就是把一个维数为所有词的数量的高维空间嵌入到一个低维数的连续向量空间中，每个单词或词组被映射为实数域上的向量，词嵌入的结果就生成了字符特征信息向量。

可选地，通过Word2Ve算法实现将待分词文本中的字符转化为字符特征信息向量的过程。利用word2vec训练得到的字符特征信息向量能够有效包含待分词文本中句子上下文信息，每个向量代表一个中文字符，每个字符特征信息向量的维度可以根据语料大小进行调整，一般可选的维度为50，100，200等。

S2：提取每个字符特征信息向量的上下文特征向量；

可选地，将步骤S1中得到的字符特征信息向量传入双向LSTM神经网络进行训练，得到每个字符特征信息向量所对应的上下文特征向量。

本步骤中，双向LSTM神经网络包括一个输入层、两个隐含层和一个输出层。其中，两个隐含层由前向和后向LSTM神经网络组成，每个隐含层拥有固定大小的LSTM内核。双向LSTM神经网络中的LSTM内核是对传统RNN的一种改进，通过增加遗忘和保存机制来选择性地遗忘和保留输入信息，能有效避免RNN引发的长期依赖问题。具体地，双向LSTM网络包含一个输入层、两个隐藏层和一个softmax层，通过反向传播算法进行学习，其具体公式描述如下：

f_t＝σ(W_f·[h_t-1,x_t]+b_f)

i_t＝σ(W_i·[h_t-1,x_t]+b_i)

o_t＝σ(W_o[h_t-1,x_t]+b_o)

h_t＝o_t*Tanh(C_t)

其中，i_t、f_t、o_t分别为上述的遗忘机制，保存机制和输出机制。W_f、W_i、W_o分别表示相应机制的权重系数向量，b_i、b_f、b_o分别表示相应机制的偏置向量。t表示当前时刻，t-1表示上一时刻。w和h表示相应的权重，C_t表示当前时刻激活函数的输出,h_t表示当前时刻的输出也即上下文特征向量。其中遗忘机制能够读取h_t-1和x_t-1，输入到相应σ函数中，得到一个0到1之间的数值，0表示完全舍弃，1表示完全保留。遗忘机制可以控制文本上下文对当前词组的影响，避免词组距离当前词越远影响力越小使得神经网络无法提取文本信息。其中保存机制包含两个部分，第一部分在sigmoid层决定需要更新的信息，另一部分在tanh层创建新的候选值向量并加入当前状态。将保存机制的状态与遗忘机制f_t相乘来更新需要保存的信息。

S3：从词典中获取每个句子对应的候选词集合，并利用自适应注意力机制计算上下文特征向量和候选词集合中的每个候选词的语义关系，得到上下文特征向量对词典的词感知表示。

本申请的申请人经过长期观察与试验发现，近年来，外部资源如词典中存在的先验知识受到了越来越多的关注，其提供潜在的词信息将有助于提高分词效果。但是，以简单的方式使用外部资源中的词信息，可能会导致负面结果。例如，“我/马上/来”和“我/骑在/马/上”。在这两个句子中，对于第一句中的“马”、“上”和第二句中的“马上”这两组词尽管具有相同的字，但是表达的语义不同。现有分词方法机械地使用词典，可能会误把错误语义的词作为外部资源训练模型。而本申请提供的中文分词方法在使用外部资源时能够准确地利用额外的词信息，进而能够准确地学习词典中的先验知识。具体地，步骤S3包括：

S31:融合中文通用词典与训练词典以得到语料库。

本申请使用由训练词典和中文通用词典融合得到的混合词典，得到更为全面地覆盖训练和实际使用过程中所需资源的词典。中文通用词典例如《现代汉语词典》、《分词词典》，其中包含大量常用中文词语，能适应大范围的中文常用语句。

S32:基于语料库，得到待分词文本中每个句子对应的候选词集合。

具体地，从待分词文本左边第一个字符开始，依次获取由字符与该字符相邻的m个字符所组成的字符串序列，若字符串与语料库匹配，则将该字符串作为一候选词加入候选词集合，其中，m＝1,2,……,N，N为字符指定所要获取的所述字符串数目。可选地，若语料库包含某一字符串，则该字符串与语料库匹配。

例如，获取句子“小红喜欢一件红色的毛衣”对应的候选词集合过程为：假设N＝2,则对于字符“小”而言，可获取“小红”“小红喜”两个字符串。对于字符“红”而言，可获取“红喜”“红喜欢”两个字符串，而对于字符“喜”而言，则可获取“喜欢”“喜欢一”两个字符串……，如此一词获取每个字符的字符串。将上述字符串序列一一与语料库匹配，即如果语料库中存在上述字符串，则将该字符串作为一候选词加入候选词集合。例如，语料库中存在字符“喜”所对应的字符串“喜欢”，则将“喜欢”加入候选词集合。

S33:利用自适应注意力机制计算上下文特征向量与候选词集合中的每个候选词的语义关系，得到上下文特征向量对词典的词感知表示。

注意力机制模仿了生物观察行为的内部过程，即一种将内部经验和外部感觉对齐从而增加部分区域的观察精细度的机制。注意力机制可以快速提取稀疏数据的重要特征，因而被广泛用于自然语言处理任务，特别是机器翻译。而自注意力机制是注意力机制的改进，其减少了对外部信息的依赖，更擅长捕捉数据或特征的内部相关性。本文通过文本情感分析的案例，解释了自注意力机制如何应用于稀疏文本的单词对表征加权，并有效提高模型效率。步骤S33包括以下步骤：

S331：利用Attention机制计算上下文特征向量和候选词的匹配度。

S332：利用softmax函数对步骤S331得到的匹配度矩阵进行归一化，获取匹配权重向量矩阵。

S333：计算所述候选词与权重向量的加权向量和，获取所述词感知表示向量。

具体地，利用自适应注意力机制计算上下文特征向量与候选词集合中的每个候选词的语义关系，得到上下文特征向量对词典的词感知表示，其公式如下：

attention(H^c,X^w,X^w)＝αV

α＝[α₁,α₂,...,α_n]^T，其中α_i(1≤i≤n)，i表示第个字符所对应的上下文特征向量对候选词集合中每个候选词的匹配权重，m表示候选词集合中的候选词数目。

其中，H^c表示待分词文本中每个句子的上下文特征向量所组成的上下文特征向量矩阵.X^w表示候选词集合中每个候选词的词嵌入向量矩阵，V表示候选词集合中每个候选词的词嵌入向量矩阵。

表示获取的词感知表示向量，H^w表示获取的词感知表示向量矩阵，由所有词感知表示向量拼接而成。定义Q＝X^w,K＝V＝X^w，A表示矩阵共轭，d表示向量维度大小。由于Q、K、V来源相同，所有称为自注意力。为了防止Q向量和K向量内积过大引起梯度消失，有时会将内积除以向量维度大小的平方根。对缩放内积施以softmax激活函数后点乘V向量，得到匹配权重向量。将得到的匹配权重向量与候选词向量进行加权和运算，得到词感知表示矩阵。其中attention机制匹配操作一般是求两个向量的相似度，例如余弦相似度。本实施例引入自注意力机制进行中文分词,通过计算上下文特征向量和候选词集合中每一个候选词的语义关系，能够甄别出候选词集合中的有效词信息。

S4：将上下文特征向量和词感知表示进行信息融合，获得包含词信息和上下文信息的词感知上下文表示；

本实施例通过步骤S2捕捉到上下文特征向量，步骤S3基于上下文特征向量引入词典中有价值的词信息也即词感知表示。在上述步骤的基础上，本实施例基于门控机制构建更新门和融合门，将上下文特征和匹配的词感知表示两部分信息有效融合，即将上下文特征向量和词感知表示融合：

其中符号⊙和σ分别表示逐元素相乘运算和sigmoid函数运算，z_i和g_i是构建的门控机制，z_i是更新门决定是否更新当前字符的上下文特征向量

g_i是融合门决定融合不同程度的词感知表示

到隐层上下文特征向量

是得到的词感知上下文表示，同时利用了词和上下文两部分的有效信息。U_z、U_g、W_z、W_g、W_h是待训练学习的权重系数，b_z、b_g、b_h表示相应机制的偏置向量。

S5：根据词感知上下文表示确定相邻字之间的依赖关系，从而对待分词文本进行分词。

可选地，基于条件随机场对待分词文本进行分词。条件随机场是一个典型的判别式模型，条件随机场把分词当做字的词位分类问题，通常定义字的词位信息：词首，常用B表示；词中，常用M表示；词尾，常用E表示；单字词，常用S表示，条件随机场分词的过程就是对词位标注后，将B和E之间的字，以及S单字构成分词。比如：待分词句子为：“我爱北京天安门”，标注后：我/S爱/S北/B京/E天/B安/M门/E，分词结果：“我/爱/北京/天安门”，基于维比特算法能够最可能的分词标记序列，最后对该分词标记序列进行解码，得到中文分词结果。

本实施例提供的中文分词方法基于自适应注意力机制计算待分词文本上下文特征与候选词的语义关系，该方法因此能够挖掘出词典中的有效词信息，进而能够提高中文分词的准确性。

参阅图2，图2是本申请提供的中文分词网络模型一实施例的结构示意图，本申请提供的中文分词方法采用预设网络模型10进行分词处理，该预设网络模型10包括上下文编码层11、双向长短期记忆神经网络层12、词典自适应注意力层13、门融合层14、标签推断层15，其中上下文编码层11用于将待分词文本中的字转化为字符特征信息向量，例如上下文编码层11可以为Word2Ve算法模型。双向长短期记忆神经网络层12用于接收上下文编码层11输出的字符特征信息向量并提取每个字符特征信息向量的上下文特征向量。具体地，将字符特征信息向量按照待分词文本顺序和反序分别输入双向长短期记忆神经网络层12时，双向长短期记忆神经网络层12分离成前向传递单元和反向传递单元，将字符特征信息向量按照待分词文本顺序输入前向传递单元得到第一状态输出，将字符特征信息向量按照待分词文本反序输入反向传递单元得到第二状态输出，将第一状态输出和第二状态输出拼接起来得到上下文特征向量。

词典自适应注意力层13用于接收双向长短期记忆神经网络层12传输的上下文特征向量并从词典中获取每个句子对应的候选词集合，并利用自适应注意力机制计算上下文特征向量和候选词集合中的每个候选词的语义关系，得到上下文特征向量对所述词典的词感知表示。

门融合层14用于接收上下文特征向量和词感知表示向量并将上下文特征向量和词感知表示向量进行信息融合，获得包含词信息和上下文信息的词感知上下文表示。其中，门融合层14包括更新门和融合门，更新门用于决定是否更新当前字符的上下文特征向量，融合门用于决定是否融合词感知表示到上下文特征向量。

标签推断层15用于接收门融合层14输出的词感知上下文表示向量并根据词感知上下文表示确定相邻字之间的依赖关系，从而对待分词文本进行分词。

本实施例提供的中文分词网络模型通过增加词典自适应注意力层13，词典自适应注意力层13计算上下文特征向量与候选词集合中每一候选词之间的语义关系，进而能够赋予每一候选词一权重，也即能够挖掘出与当前字信息最相关的一候选词，进而使得该网络模型10能够准确地利用外部词信息，有效解决一般的分词网络模型对稀有词和稀疏词的学习问题，大大提升中文分词的准确度。

参阅图3，图3是本申请提供的中文分词模型的训练设备一实施例的结构示意图，该训练设备100包括：存储器110，用于存储计算机程序。处理器120，用于执行计算机程序以实现本申请提供的中文分词方法的步骤。处理器120可能是一个中央处理器CPU，或者是专用集成电路ASIC(Application Specific Integrated Circuit)，或者是被配置成实施本申请实施例的一个或多个集成电路。

存储器110用于可执行的指令。存储器110可能包含高速RAM存储器110，也可能还包括非易失性存储器110(non-volatile memory)，例如至少一个磁盘存储器110。存储器110也可以是存储器110阵列。存储器110还可能被分块，并且所述块可按一定的规则组合成虚拟卷。存储器110存储的指令可被处理器120执行，以使处理器120能够执行上述任意方法实施例中的中文文本分词的方法。

参阅图4，图4是本申请提供的计算机可读存储介质一实施例的结构示意图。该计算机可读存储介质200上存储有计算机程序201，计算机程序201被处理器120执行时实现本申请提供的中文分词方法的步骤。所述计算机存储介质200可以是计算机能够存取的任何可用介质或数据存储设备，包括但不限于磁性存储器110(例如软盘、硬盘、磁带、磁光盘(MO)等)、光学存储器110(例如CD、DVD、BD、HVD等)、以及半导体存储器110(例如ROM、EPROM、EEPROM、非易失性存储器110(NANDFLASH)、固态硬盘(SSD))等。

以上所述，仅为本申请中的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉该技术的人在本申请所揭露的技术范围内，可理解想到的变换或替换，都应涵盖在本申请的包含范围之内，因此，本申请的保护范围应该以权利要求书的保护范围为准。

Claims

1.一种中文分词方法，其特征在于，所述方法包括：

将待分词文本中的字符转化为字符特征信息向量；

提取每个所述字符特征信息向量的上下文特征向量；

从词典中获取每个句子对应的候选词集合，并利用自适应注意力机制计算所述上下文特征向量和所述候选词集合中的每个候选词的语义关系，得到所述上下文特征向量对所述词典的词感知表示；

将所述上下文特征向量和所述词感知表示进行信息融合，获得包含词信息和上下文信息的词感知上下文表示；

根据所述词感知上下文表示确定相邻字之间的依赖关系，从而对所述待分词文本进行分词。

2.根据权利要求1所述的方法，其特征在于，所述从词典中获取每个句子对应的候选词集合，并利用自适应注意力机制计算所述上下文特征向量和所述候选词集合中的每个候选词的语义关系，得到所述上下文特征向量对所述词典的词感知表示包括：

融合中文通用词典与训练词典以得到语料库；

基于所述语料库，得到所述待分词文本中每个句子对应的候选词集合；

利用自适应注意力机制计算所述上下文特征向量与所述候选词集合中的每个候选词的语义关系，得到所述上下文特征向量对所述词典的词感知表示。

3.根据权利要求2所述的方法，其特征在于，所述基于所述语料库，得到所述待分词文本中每个句子对应的候选词集合包括：

从所述待分词文本左边第一个字符开始，依次获取由所述字符与所述字符相邻的m个字符所组成的字符串序列，若所述字符串与所述语料库匹配，则将所述字符串作为一所述候选词加入所述候选词集合，其中，N为所述字符指定所要获取的所述字符串数目；

其中，m＝1,2,……,N。

4.根据权利要求2所述的方法，其特征在于，所述利用自适应注意力机制计算所述上下文特征向量与所述候选词集合中的每个候选词的语义关系，得到所述上下文特征向量对所述词典的词感知表示包括：

利用Attention机制计算所述上下文特征向量和所述候选词的匹配度；

利用softmax函数对所述匹配度进行归一化，获取所述匹配度的匹配权重向量；

计算所述候选词与所述权重向量的加权向量和，获取所述词感知表示向量。

5.根据权利要求1所述的方法，其特征在于，所述将待分词文本中的字符转化为字符特征信息向量包括：

利用word2vec模型将所述待分词文本中的字符转化为字符特征信息向量。

6.根据权利要求1所述的方法，其特征在于，所述根据所述词感知上下文表示确定相邻字之间的依赖关系，从而对所述待分词文本进行分词包括：

基于维比特算法得到最可能的分词标记序列，对所述分词标记序列进行解码，得到中文分词结果。

7.根据权利要求1所述的方法，其特征在于，所述方法采用预设网络模型进行分词处理，所述预设网络模型包括上下文编码层、双向长短期记忆神经网络层、词典自适应注意力层、门融合层、标签推断层，包括：

所述上下文编码层用于将所述待分词文本中的字符转化为字符特征信息向量；

所述双向长短期记忆神经网络层用于提取每个所述字符特征信息向量的上下文特征向量；

所述词典自适应注意力层用于从词典中获取每个句子对应的候选词集合，并利用自适应注意力机制计算所述上下文特征向量和所述候选词集合中的每个候选词的语义关系，得到所述上下文特征向量对所述词典的词感知表示；

所述门融合层用于将所述上下文特征向量和所述词感知表示进行信息融合，获得包含词信息和上下文信息的词感知上下文表示；

所述标签推断层用于根据所述词感知上下文表示确定相邻字之间的依赖关系，从而对所述待分词文本进行分词。

8.根据权利要求7所述的方法，其特征在于，所述门融合层包括更新门和融合门，所述更新门用于决定是否更新当前字符的所述上下文特征向量，所述融合门用于决定是否融合所述词感知表示到所述上下文特征向量。

9.根据权利要求7所述的方法，其特征在于，所述双向长短期记忆神经网络层用于提取每个所述字符特征信息向量的上下文特征向量包括：

将所述字符特征信息向量按照所述待分词文本顺序和反序分别输入所述双向长短期记忆神经网络层时，所述双向长短期记忆神经网络层分离成前向传递单元和反向传递单元，将所述字符特征信息向量按照所述待分词文本顺序输入前向传递单元得到第一状态输出，将所述字符特征信息向量按照所述待分词文本反序输入反向传递单元得到第二状态输出，将第一状态输出和第二状态输出拼接起来得到所述上下文特征向量。

10.一种中文分词模型的训练设备，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序以实现如权利要求1-9任意一项所述的中文分词方法的步骤。

11.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1-9任意一项所述的中文分词方法的步骤。