CN111666758A - 中文分词方法、训练设备以及计算机可读存储介质 - Google Patents

中文分词方法、训练设备以及计算机可读存储介质 Download PDF

Info

Publication number
CN111666758A
CN111666758A CN202010297380.5A CN202010297380A CN111666758A CN 111666758 A CN111666758 A CN 111666758A CN 202010297380 A CN202010297380 A CN 202010297380A CN 111666758 A CN111666758 A CN 111666758A
Authority
CN
China
Prior art keywords
word
context
feature vector
vector
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010297380.5A
Other languages
English (en)
Other versions
CN111666758B (zh
Inventor
赵笑艳
杨敏
曲强
贺倩明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Deli Technology Co ltd
Shenzhen Institute of Advanced Technology of CAS
Original Assignee
Shenzhen Deli Technology Co ltd
Shenzhen Institute of Advanced Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Deli Technology Co ltd, Shenzhen Institute of Advanced Technology of CAS filed Critical Shenzhen Deli Technology Co ltd
Priority to CN202010297380.5A priority Critical patent/CN111666758B/zh
Publication of CN111666758A publication Critical patent/CN111666758A/zh
Application granted granted Critical
Publication of CN111666758B publication Critical patent/CN111666758B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Machine Translation (AREA)

Abstract

本申请提供一种中文分词方法、训练设备以及计算机可读存储介质,该方法包括:将待分词文本中的字符转化为字符特征信息向量;提取每个字符特征信息向量的上下文特征向量;从词典中获取每个句子对应的候选词集合,并利用自适应注意力机制计算上下文特征向量和候选词集合中的每个候选词的语义关系,得到上下文特征向量对词典的词感知表示;将上下文特征向量和词感知表示进行信息融合,获得包含词信息和上下文信息的词感知上下文表示;根据词感知上下文表示确定相邻字之间的依赖关系,从而对待分词文本进行分词。本申请提供的中文分词方法能够提高中文分词的准确性。

Description

中文分词方法、训练设备以及计算机可读存储介质
技术领域
本申请涉及自然语言处理领域,特别涉及一种中文分词方法、训练设备及计算机可读存储介质。
背景技术
当今社会计算机的应用日益广泛,己经渗透到各种传统行业。实现人与计算机之间高效和准确的信息交互,是当前计算机工作者的重要任务。据统计,在信息领域中80%以上的信息是以语言文字为载体的。这些语言信息的自动输入和输出、校对、分类和文摘、信息的检索和提取、语言翻译等技术都是国民经济信息化的重要基础。
自然语言处理是一门语言学和计算机科学的交叉学科,着重处理人类语言的可计算的特性。它属于认知科学,并和人工智能的一些领域有一些交迭。现在的计算机不懂人类的语言,而人在理解计算机的语言方面也有困难,因为计算机的语言并不符合人的思考方式。
近年来,自动分词己经引起多方面的关注,成为中文信息处理的一个前沿课题。中文自动分词研究是中文信息处理技术的基础工程,具有以下重要意义:(1)自动分词是语言学研究和中文信息处理应用进行资源共享的必要手段。(2)自动分词是对汉语进行定量分析的基础。(3)词是语法功能的载体,自动分词是句法分析的基础。(4)词是语义功能的载体,自动分词是语义研究的基础。(5)“以词定字”和“以词定音”等方法是进行文本校对、简繁转换、语音合成等的主要手段。中文自动分词是中文信息处理的一项重要的基础性工作,许多中文信息处理项目中都涉及到分词问题,如机器翻译、中文文献、自动文摘、自动分类、中文文献库。现有的中文分词可以运用BP神经网络实现中文分词,但是精确度不够高,BP神经网络结合模糊推理来实现提高对中文分词的精确度,是模糊数学领域在NLP(自然语言处理)的一次创新的结合。
发明内容
本申请实施例提供了一种中文分词方法、训练设备以及计算机可读存储介质,以解决现有中文分词方法准确率低的问题。
为解决上述技术问题,本申请提供一种中文分词方法,该方法包括:将待分词文本中的字符转化为字符特征信息向量;提取每个字符特征信息向量的上下文特征向量;从词典中获取每个句子对应的候选词集合,并利用自适应注意力机制计算上下文特征向量和候选词集合中的每个候选词的语义关系,得到上下文特征向量对词典的词感知表示;将上下文特征向量和词感知表示进行信息融合,获得包含词信息和上下文信息的词感知上下文表示;根据词感知上下文表示确定相邻字之间的依赖关系,从而对待分词文本进行分词。
为解决上述技术问题,本申请还提供一种中文分词模型的训练设备,该设备包括:存储器,用于存储计算机程序。处理器,用于执行计算机程序以实现上述中文分词方法的步骤。
为解决上述技术问题,本申请还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现上述中文分词方法的步骤。
通过上述方案,本申请的有益效果是:本申请利用自适应注意力机制从与当前字信息相关的候选词集合中挖掘出有效词信息。继而通过门融合机制,实现字-词信息的自适应融合。最后基于包含词信息和上下文信息的词感知上下文表示对中文文本进行中文分词,从而提高中文分词的准确性。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图,其中:
图1是本申请提供的中文分词方法一实施例的流程示意图;
图2是本申请提供的中文分词网络模型一实施例的结构示意图;
图3是本申请提供的中文分词模型的训练设备一实施例的结构示意图;
图4是本申请提供的计算机可读存储介质一实施例的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
参阅图1,图1为本申请提供的中文分词方法一实施例的流程示意图。包括以下步骤:
S1:将待分词文本中的字符转化为字符特征信息向量。
为了方便计算,需要先利用词嵌入技术将待分词文本中的字符转化为向量形式的字符特征信息向量,词嵌入技术是一种将文本中的词或字转换成数字向量的方法,为了方便标准机器学习算法对文本进行分析,需要把这些被转换成数字的向量以数字形式作为输入。词嵌入过程就是把一个维数为所有词的数量的高维空间嵌入到一个低维数的连续向量空间中,每个单词或词组被映射为实数域上的向量,词嵌入的结果就生成了字符特征信息向量。
可选地,通过Word2Ve算法实现将待分词文本中的字符转化为字符特征信息向量的过程。利用word2vec训练得到的字符特征信息向量能够有效包含待分词文本中句子上下文信息,每个向量代表一个中文字符,每个字符特征信息向量的维度可以根据语料大小进行调整,一般可选的维度为50,100,200等。
S2:提取每个字符特征信息向量的上下文特征向量;
可选地,将步骤S1中得到的字符特征信息向量传入双向LSTM神经网络进行训练,得到每个字符特征信息向量所对应的上下文特征向量。
本步骤中,双向LSTM神经网络包括一个输入层、两个隐含层和一个输出层。其中,两个隐含层由前向和后向LSTM神经网络组成,每个隐含层拥有固定大小的LSTM内核。双向LSTM神经网络中的LSTM内核是对传统RNN的一种改进,通过增加遗忘和保存机制来选择性地遗忘和保留输入信息,能有效避免RNN引发的长期依赖问题。具体地,双向LSTM网络包含一个输入层、两个隐藏层和一个softmax层,通过反向传播算法进行学习,其具体公式描述如下:
ft=σ(Wf·[ht-1,xt]+bf)
it=σ(Wi·[ht-1,xt]+bi)
Figure BDA0002452688210000041
Figure BDA0002452688210000042
ot=σ(Wo[ht-1,xt]+bo)
ht=ot*Tanh(Ct)
其中,it、ft、ot分别为上述的遗忘机制,保存机制和输出机制。Wf、Wi、Wo分别表示相应机制的权重系数向量,bi、bf、bo分别表示相应机制的偏置向量。t表示当前时刻,t-1表示上一时刻。w和h表示相应的权重,Ct表示当前时刻激活函数的输出,ht表示当前时刻的输出也即上下文特征向量。其中遗忘机制能够读取ht-1和xt-1,输入到相应σ函数中,得到一个0到1之间的数值,0表示完全舍弃,1表示完全保留。遗忘机制可以控制文本上下文对当前词组的影响,避免词组距离当前词越远影响力越小使得神经网络无法提取文本信息。其中保存机制包含两个部分,第一部分在sigmoid层决定需要更新的信息,另一部分在tanh层创建新的候选值向量并加入当前状态。将保存机制的状态与遗忘机制ft相乘来更新需要保存的信息。
S3:从词典中获取每个句子对应的候选词集合,并利用自适应注意力机制计算上下文特征向量和候选词集合中的每个候选词的语义关系,得到上下文特征向量对词典的词感知表示。
本申请的申请人经过长期观察与试验发现,近年来,外部资源如词典中存在的先验知识受到了越来越多的关注,其提供潜在的词信息将有助于提高分词效果。但是,以简单的方式使用外部资源中的词信息,可能会导致负面结果。例如,“我/马上/来”和“我/骑在/马/上”。在这两个句子中,对于第一句中的“马”、“上”和第二句中的“马上”这两组词尽管具有相同的字,但是表达的语义不同。现有分词方法机械地使用词典,可能会误把错误语义的词作为外部资源训练模型。而本申请提供的中文分词方法在使用外部资源时能够准确地利用额外的词信息,进而能够准确地学习词典中的先验知识。具体地,步骤S3包括:
S31:融合中文通用词典与训练词典以得到语料库。
本申请使用由训练词典和中文通用词典融合得到的混合词典,得到更为全面地覆盖训练和实际使用过程中所需资源的词典。中文通用词典例如《现代汉语词典》、《分词词典》,其中包含大量常用中文词语,能适应大范围的中文常用语句。
S32:基于语料库,得到待分词文本中每个句子对应的候选词集合。
具体地,从待分词文本左边第一个字符开始,依次获取由字符与该字符相邻的m个字符所组成的字符串序列,若字符串与语料库匹配,则将该字符串作为一候选词加入候选词集合,其中,m=1,2,……,N,N为字符指定所要获取的所述字符串数目。可选地,若语料库包含某一字符串,则该字符串与语料库匹配。
例如,获取句子“小红喜欢一件红色的毛衣”对应的候选词集合过程为:假设N=2,则对于字符“小”而言,可获取“小红”“小红喜”两个字符串。对于字符“红”而言,可获取“红喜”“红喜欢”两个字符串,而对于字符“喜”而言,则可获取“喜欢”“喜欢一”两个字符串……,如此一词获取每个字符的字符串。将上述字符串序列一一与语料库匹配,即如果语料库中存在上述字符串,则将该字符串作为一候选词加入候选词集合。例如,语料库中存在字符“喜”所对应的字符串“喜欢”,则将“喜欢”加入候选词集合。
S33:利用自适应注意力机制计算上下文特征向量与候选词集合中的每个候选词的语义关系,得到上下文特征向量对词典的词感知表示。
注意力机制模仿了生物观察行为的内部过程,即一种将内部经验和外部感觉对齐从而增加部分区域的观察精细度的机制。注意力机制可以快速提取稀疏数据的重要特征,因而被广泛用于自然语言处理任务,特别是机器翻译。而自注意力机制是注意力机制的改进,其减少了对外部信息的依赖,更擅长捕捉数据或特征的内部相关性。本文通过文本情感分析的案例,解释了自注意力机制如何应用于稀疏文本的单词对表征加权,并有效提高模型效率。步骤S33包括以下步骤:
S331:利用Attention机制计算上下文特征向量和候选词的匹配度。
S332:利用softmax函数对步骤S331得到的匹配度矩阵进行归一化,获取匹配权重向量矩阵。
S333:计算所述候选词与权重向量的加权向量和,获取所述词感知表示向量。
具体地,利用自适应注意力机制计算上下文特征向量与候选词集合中的每个候选词的语义关系,得到上下文特征向量对词典的词感知表示,其公式如下:
attention(Hc,Xw,Xw)=αV
Figure BDA0002452688210000061
α=[α12,...,αn]T,其中αi(1≤i≤n),i表示第个字符所对应的上下文特征向量对候选词集合中每个候选词的匹配权重,m表示候选词集合中的候选词数目。
Figure BDA0002452688210000062
Figure BDA0002452688210000071
其中,Hc表示待分词文本中每个句子的上下文特征向量所组成的上下文特征向量矩阵.Xw表示候选词集合中每个候选词的词嵌入向量矩阵,V表示候选词集合中每个候选词的词嵌入向量矩阵。
Figure BDA0002452688210000076
表示获取的词感知表示向量,Hw表示获取的词感知表示向量矩阵,由所有词感知表示向量拼接而成。定义Q=Xw,K=V=Xw,A表示矩阵共轭,d表示向量维度大小。由于Q、K、V来源相同,所有称为自注意力。为了防止Q向量和K向量内积过大引起梯度消失,有时会将内积除以向量维度大小的平方根。对缩放内积施以softmax激活函数后点乘V向量,得到匹配权重向量。将得到的匹配权重向量与候选词向量进行加权和运算,得到词感知表示矩阵。其中attention机制匹配操作一般是求两个向量的相似度,例如余弦相似度。本实施例引入自注意力机制进行中文分词,通过计算上下文特征向量和候选词集合中每一个候选词的语义关系,能够甄别出候选词集合中的有效词信息。
S4:将上下文特征向量和词感知表示进行信息融合,获得包含词信息和上下文信息的词感知上下文表示;
本实施例通过步骤S2捕捉到上下文特征向量,步骤S3基于上下文特征向量引入词典中有价值的词信息也即词感知表示。在上述步骤的基础上,本实施例基于门控机制构建更新门和融合门,将上下文特征和匹配的词感知表示两部分信息有效融合,即将上下文特征向量和词感知表示融合:
Figure BDA0002452688210000077
Figure BDA0002452688210000078
Figure BDA0002452688210000072
Figure BDA0002452688210000073
其中符号⊙和σ分别表示逐元素相乘运算和sigmoid函数运算,zi和gi是构建的门控机制,zi是更新门决定是否更新当前字符的上下文特征向量
Figure BDA0002452688210000074
gi是融合门决定融合不同程度的词感知表示
Figure BDA0002452688210000075
到隐层上下文特征向量
Figure BDA0002452688210000081
是得到的词感知上下文表示,同时利用了词和上下文两部分的有效信息。Uz、Ug、Wz、Wg、Wh是待训练学习的权重系数,bz、bg、bh表示相应机制的偏置向量。
S5:根据词感知上下文表示确定相邻字之间的依赖关系,从而对待分词文本进行分词。
可选地,基于条件随机场对待分词文本进行分词。条件随机场是一个典型的判别式模型,条件随机场把分词当做字的词位分类问题,通常定义字的词位信息:词首,常用B表示;词中,常用M表示;词尾,常用E表示;单字词,常用S表示,条件随机场分词的过程就是对词位标注后,将B和E之间的字,以及S单字构成分词。比如:待分词句子为:“我爱北京天安门”,标注后:我/S爱/S北/B京/E天/B安/M门/E,分词结果:“我/爱/北京/天安门”,基于维比特算法能够最可能的分词标记序列,最后对该分词标记序列进行解码,得到中文分词结果。
本实施例提供的中文分词方法基于自适应注意力机制计算待分词文本上下文特征与候选词的语义关系,该方法因此能够挖掘出词典中的有效词信息,进而能够提高中文分词的准确性。
参阅图2,图2是本申请提供的中文分词网络模型一实施例的结构示意图,本申请提供的中文分词方法采用预设网络模型10进行分词处理,该预设网络模型10包括上下文编码层11、双向长短期记忆神经网络层12、词典自适应注意力层13、门融合层14、标签推断层15,其中上下文编码层11用于将待分词文本中的字转化为字符特征信息向量,例如上下文编码层11可以为Word2Ve算法模型。双向长短期记忆神经网络层12用于接收上下文编码层11输出的字符特征信息向量并提取每个字符特征信息向量的上下文特征向量。具体地,将字符特征信息向量按照待分词文本顺序和反序分别输入双向长短期记忆神经网络层12时,双向长短期记忆神经网络层12分离成前向传递单元和反向传递单元,将字符特征信息向量按照待分词文本顺序输入前向传递单元得到第一状态输出,将字符特征信息向量按照待分词文本反序输入反向传递单元得到第二状态输出,将第一状态输出和第二状态输出拼接起来得到上下文特征向量。
词典自适应注意力层13用于接收双向长短期记忆神经网络层12传输的上下文特征向量并从词典中获取每个句子对应的候选词集合,并利用自适应注意力机制计算上下文特征向量和候选词集合中的每个候选词的语义关系,得到上下文特征向量对所述词典的词感知表示。
门融合层14用于接收上下文特征向量和词感知表示向量并将上下文特征向量和词感知表示向量进行信息融合,获得包含词信息和上下文信息的词感知上下文表示。其中,门融合层14包括更新门和融合门,更新门用于决定是否更新当前字符的上下文特征向量,融合门用于决定是否融合词感知表示到上下文特征向量。
标签推断层15用于接收门融合层14输出的词感知上下文表示向量并根据词感知上下文表示确定相邻字之间的依赖关系,从而对待分词文本进行分词。
本实施例提供的中文分词网络模型通过增加词典自适应注意力层13,词典自适应注意力层13计算上下文特征向量与候选词集合中每一候选词之间的语义关系,进而能够赋予每一候选词一权重,也即能够挖掘出与当前字信息最相关的一候选词,进而使得该网络模型10能够准确地利用外部词信息,有效解决一般的分词网络模型对稀有词和稀疏词的学习问题,大大提升中文分词的准确度。
参阅图3,图3是本申请提供的中文分词模型的训练设备一实施例的结构示意图,该训练设备100包括:存储器110,用于存储计算机程序。处理器120,用于执行计算机程序以实现本申请提供的中文分词方法的步骤。处理器120可能是一个中央处理器CPU,或者是专用集成电路ASIC(Application Specific Integrated Circuit),或者是被配置成实施本申请实施例的一个或多个集成电路。
存储器110用于可执行的指令。存储器110可能包含高速RAM存储器110,也可能还包括非易失性存储器110(non-volatile memory),例如至少一个磁盘存储器110。存储器110也可以是存储器110阵列。存储器110还可能被分块,并且所述块可按一定的规则组合成虚拟卷。存储器110存储的指令可被处理器120执行,以使处理器120能够执行上述任意方法实施例中的中文文本分词的方法。
参阅图4,图4是本申请提供的计算机可读存储介质一实施例的结构示意图。该计算机可读存储介质200上存储有计算机程序201,计算机程序201被处理器120执行时实现本申请提供的中文分词方法的步骤。所述计算机存储介质200可以是计算机能够存取的任何可用介质或数据存储设备,包括但不限于磁性存储器110(例如软盘、硬盘、磁带、磁光盘(MO)等)、光学存储器110(例如CD、DVD、BD、HVD等)、以及半导体存储器110(例如ROM、EPROM、EEPROM、非易失性存储器110(NANDFLASH)、固态硬盘(SSD))等。
以上所述,仅为本申请中的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉该技术的人在本申请所揭露的技术范围内,可理解想到的变换或替换,都应涵盖在本申请的包含范围之内,因此,本申请的保护范围应该以权利要求书的保护范围为准。

Claims (11)

1.一种中文分词方法,其特征在于,所述方法包括:
将待分词文本中的字符转化为字符特征信息向量;
提取每个所述字符特征信息向量的上下文特征向量;
从词典中获取每个句子对应的候选词集合,并利用自适应注意力机制计算所述上下文特征向量和所述候选词集合中的每个候选词的语义关系,得到所述上下文特征向量对所述词典的词感知表示;
将所述上下文特征向量和所述词感知表示进行信息融合,获得包含词信息和上下文信息的词感知上下文表示;
根据所述词感知上下文表示确定相邻字之间的依赖关系,从而对所述待分词文本进行分词。
2.根据权利要求1所述的方法,其特征在于,所述从词典中获取每个句子对应的候选词集合,并利用自适应注意力机制计算所述上下文特征向量和所述候选词集合中的每个候选词的语义关系,得到所述上下文特征向量对所述词典的词感知表示包括:
融合中文通用词典与训练词典以得到语料库;
基于所述语料库,得到所述待分词文本中每个句子对应的候选词集合;
利用自适应注意力机制计算所述上下文特征向量与所述候选词集合中的每个候选词的语义关系,得到所述上下文特征向量对所述词典的词感知表示。
3.根据权利要求2所述的方法,其特征在于,所述基于所述语料库,得到所述待分词文本中每个句子对应的候选词集合包括:
从所述待分词文本左边第一个字符开始,依次获取由所述字符与所述字符相邻的m个字符所组成的字符串序列,若所述字符串与所述语料库匹配,则将所述字符串作为一所述候选词加入所述候选词集合,其中,N为所述字符指定所要获取的所述字符串数目;
其中,m=1,2,……,N。
4.根据权利要求2所述的方法,其特征在于,所述利用自适应注意力机制计算所述上下文特征向量与所述候选词集合中的每个候选词的语义关系,得到所述上下文特征向量对所述词典的词感知表示包括:
利用Attention机制计算所述上下文特征向量和所述候选词的匹配度;
利用softmax函数对所述匹配度进行归一化,获取所述匹配度的匹配权重向量;
计算所述候选词与所述权重向量的加权向量和,获取所述词感知表示向量。
5.根据权利要求1所述的方法,其特征在于,所述将待分词文本中的字符转化为字符特征信息向量包括:
利用word2vec模型将所述待分词文本中的字符转化为字符特征信息向量。
6.根据权利要求1所述的方法,其特征在于,所述根据所述词感知上下文表示确定相邻字之间的依赖关系,从而对所述待分词文本进行分词包括:
基于维比特算法得到最可能的分词标记序列,对所述分词标记序列进行解码,得到中文分词结果。
7.根据权利要求1所述的方法,其特征在于,所述方法采用预设网络模型进行分词处理,所述预设网络模型包括上下文编码层、双向长短期记忆神经网络层、词典自适应注意力层、门融合层、标签推断层,包括:
所述上下文编码层用于将所述待分词文本中的字符转化为字符特征信息向量;
所述双向长短期记忆神经网络层用于提取每个所述字符特征信息向量的上下文特征向量;
所述词典自适应注意力层用于从词典中获取每个句子对应的候选词集合,并利用自适应注意力机制计算所述上下文特征向量和所述候选词集合中的每个候选词的语义关系,得到所述上下文特征向量对所述词典的词感知表示;
所述门融合层用于将所述上下文特征向量和所述词感知表示进行信息融合,获得包含词信息和上下文信息的词感知上下文表示;
所述标签推断层用于根据所述词感知上下文表示确定相邻字之间的依赖关系,从而对所述待分词文本进行分词。
8.根据权利要求7所述的方法,其特征在于,所述门融合层包括更新门和融合门,所述更新门用于决定是否更新当前字符的所述上下文特征向量,所述融合门用于决定是否融合所述词感知表示到所述上下文特征向量。
9.根据权利要求7所述的方法,其特征在于,所述双向长短期记忆神经网络层用于提取每个所述字符特征信息向量的上下文特征向量包括:
将所述字符特征信息向量按照所述待分词文本顺序和反序分别输入所述双向长短期记忆神经网络层时,所述双向长短期记忆神经网络层分离成前向传递单元和反向传递单元,将所述字符特征信息向量按照所述待分词文本顺序输入前向传递单元得到第一状态输出,将所述字符特征信息向量按照所述待分词文本反序输入反向传递单元得到第二状态输出,将第一状态输出和第二状态输出拼接起来得到所述上下文特征向量。
10.一种中文分词模型的训练设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序以实现如权利要求1-9任意一项所述的中文分词方法的步骤。
11.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1-9任意一项所述的中文分词方法的步骤。
CN202010297380.5A 2020-04-15 2020-04-15 中文分词方法、训练设备以及计算机可读存储介质 Active CN111666758B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010297380.5A CN111666758B (zh) 2020-04-15 2020-04-15 中文分词方法、训练设备以及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010297380.5A CN111666758B (zh) 2020-04-15 2020-04-15 中文分词方法、训练设备以及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN111666758A true CN111666758A (zh) 2020-09-15
CN111666758B CN111666758B (zh) 2022-03-22

Family

ID=72382715

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010297380.5A Active CN111666758B (zh) 2020-04-15 2020-04-15 中文分词方法、训练设备以及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN111666758B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112214994A (zh) * 2020-10-10 2021-01-12 苏州大学 基于多级词典的分词方法、装置、设备及可读存储介质
CN112214965A (zh) * 2020-10-21 2021-01-12 科大讯飞股份有限公司 大小写规整方法、装置、电子设备和存储介质
CN112287677A (zh) * 2020-10-31 2021-01-29 平安科技(深圳)有限公司 数据处理方法、装置、终端设备以及存储介质
CN112364666A (zh) * 2020-11-12 2021-02-12 虎博网络技术(上海)有限公司 文本表征方法、装置及计算机设备
CN112989819A (zh) * 2021-03-22 2021-06-18 北京小米移动软件有限公司 中文文本分词方法、装置及存储介质
CN113220887A (zh) * 2021-05-31 2021-08-06 华南师范大学 一种利用目标知识增强模型的情感分类方法和装置
CN113297835A (zh) * 2021-06-24 2021-08-24 中国平安人寿保险股份有限公司 文本相似度计算方法、装置、设备及存储介质
CN113342930A (zh) * 2021-05-24 2021-09-03 北京明略软件系统有限公司 基于串向量的文本表示方法和装置、电子设备、存储介质
CN114139515A (zh) * 2021-10-18 2022-03-04 浙江香侬慧语科技有限责任公司 一种转述文本生成方法、装置、介质及设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180144234A1 (en) * 2016-11-20 2018-05-24 Arturo Devesa Sentence Embedding for Sequence-To-Sequence Matching in a Question-Answer System
CN108460013A (zh) * 2018-01-30 2018-08-28 大连理工大学 一种基于细粒度词表示模型的序列标注模型
CN110188367A (zh) * 2019-05-31 2019-08-30 北京金山数字娱乐科技有限公司 一种数据处理方法及装置
CN110334339A (zh) * 2019-04-30 2019-10-15 华中科技大学 一种基于位置感知自注意力机制的序列标注模型与标注方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180144234A1 (en) * 2016-11-20 2018-05-24 Arturo Devesa Sentence Embedding for Sequence-To-Sequence Matching in a Question-Answer System
CN108460013A (zh) * 2018-01-30 2018-08-28 大连理工大学 一种基于细粒度词表示模型的序列标注模型
CN110334339A (zh) * 2019-04-30 2019-10-15 华中科技大学 一种基于位置感知自注意力机制的序列标注模型与标注方法
CN110188367A (zh) * 2019-05-31 2019-08-30 北京金山数字娱乐科技有限公司 一种数据处理方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
TAO SHEN 等: "《DiSAN:Directional Self-Attention Network for RNN/CNN-Free Language Understanding》", 《HTTPS://ARXIV.ORG/PDF/1709.04696.PDF》 *
史宇: "《基于深度学习的中文分词方法研究》", 《中国优秀硕士学位论文全文数据库信息科技辑》 *

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112214994A (zh) * 2020-10-10 2021-01-12 苏州大学 基于多级词典的分词方法、装置、设备及可读存储介质
CN112214965A (zh) * 2020-10-21 2021-01-12 科大讯飞股份有限公司 大小写规整方法、装置、电子设备和存储介质
CN112287677B (zh) * 2020-10-31 2022-03-08 平安科技(深圳)有限公司 数据处理方法、装置、终端设备以及存储介质
CN112287677A (zh) * 2020-10-31 2021-01-29 平安科技(深圳)有限公司 数据处理方法、装置、终端设备以及存储介质
CN112364666A (zh) * 2020-11-12 2021-02-12 虎博网络技术(上海)有限公司 文本表征方法、装置及计算机设备
CN112364666B (zh) * 2020-11-12 2023-12-08 虎博网络技术(上海)有限公司 文本表征方法、装置及计算机设备
CN112989819A (zh) * 2021-03-22 2021-06-18 北京小米移动软件有限公司 中文文本分词方法、装置及存储介质
CN113342930A (zh) * 2021-05-24 2021-09-03 北京明略软件系统有限公司 基于串向量的文本表示方法和装置、电子设备、存储介质
CN113342930B (zh) * 2021-05-24 2024-03-08 北京明略软件系统有限公司 基于串向量的文本表示方法和装置、电子设备、存储介质
CN113220887A (zh) * 2021-05-31 2021-08-06 华南师范大学 一种利用目标知识增强模型的情感分类方法和装置
CN113220887B (zh) * 2021-05-31 2022-03-15 华南师范大学 一种利用目标知识增强模型的情感分类方法
CN113297835A (zh) * 2021-06-24 2021-08-24 中国平安人寿保险股份有限公司 文本相似度计算方法、装置、设备及存储介质
CN113297835B (zh) * 2021-06-24 2024-03-29 中国平安人寿保险股份有限公司 文本相似度计算方法、装置、设备及存储介质
CN114139515A (zh) * 2021-10-18 2022-03-04 浙江香侬慧语科技有限责任公司 一种转述文本生成方法、装置、介质及设备

Also Published As

Publication number Publication date
CN111666758B (zh) 2022-03-22

Similar Documents

Publication Publication Date Title
CN111666758B (zh) 中文分词方法、训练设备以及计算机可读存储介质
Young et al. Recent trends in deep learning based natural language processing
CN108460013B (zh) 一种基于细粒度词表示模型的序列标注模型及方法
Wang et al. Learning latent opinions for aspect-level sentiment classification
CN110263325B (zh) 中文分词系统
CN111611810B (zh) 一种多音字读音消歧装置及方法
CN110162749A (zh) 信息提取方法、装置、计算机设备及计算机可读存储介质
CN113190656B (zh) 一种基于多标注框架与融合特征的中文命名实体抽取方法
CN111274829B (zh) 一种利用跨语言信息的序列标注方法
CN113255320A (zh) 基于句法树和图注意力机制的实体关系抽取方法及装置
CN112541356A (zh) 一种生物医学命名实体识别的方法和系统
CN111145914B (zh) 一种确定肺癌临床病种库文本实体的方法及装置
CN111368542A (zh) 一种基于递归神经网络的文本语言关联抽取方法和系统
CN116521882A (zh) 基于知识图谱的领域长文本分类方法及系统
CN115600597A (zh) 基于注意力机制和词内语义融合的命名实体识别方法、装置、系统及存储介质
CN114757184B (zh) 实现航空领域知识问答的方法和系统
CN114781375A (zh) 一种基于bert与注意力机制的军事装备关系抽取方法
CN115238691A (zh) 基于知识融合的嵌入的多意图识别与槽位填充模型
CN115510230A (zh) 一种基于多维特征融合与比较增强学习机制的蒙古语情感分析方法
Mankolli et al. Machine learning and natural language processing: Review of models and optimization problems
CN112699684A (zh) 命名实体识别方法和装置、计算机可读存储介质及处理器
CN110377753B (zh) 基于关系触发词与gru模型的关系抽取方法及装置
CN116414988A (zh) 基于依赖关系增强的图卷积方面级情感分类方法及系统
Dey et al. A deep dive into supervised extractive and abstractive summarization from text
CN114722818A (zh) 一种基于对抗迁移学习的命名实体识别模型

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant