CN111523308B - 中文分词的方法、装置及计算机设备 - Google Patents

中文分词的方法、装置及计算机设备 Download PDF

Info

Publication number
CN111523308B
CN111523308B CN202010190436.7A CN202010190436A CN111523308B CN 111523308 B CN111523308 B CN 111523308B CN 202010190436 A CN202010190436 A CN 202010190436A CN 111523308 B CN111523308 B CN 111523308B
Authority
CN
China
Prior art keywords
word segmentation
target
segmentation sequence
model
chinese
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010190436.7A
Other languages
English (en)
Other versions
CN111523308A (zh
Inventor
陈梦霏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dazhu Hangzhou Technology Co ltd
Original Assignee
Dazhu Hangzhou Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dazhu Hangzhou Technology Co ltd filed Critical Dazhu Hangzhou Technology Co ltd
Priority to CN202010190436.7A priority Critical patent/CN111523308B/zh
Publication of CN111523308A publication Critical patent/CN111523308A/zh
Application granted granted Critical
Publication of CN111523308B publication Critical patent/CN111523308B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Document Processing Apparatus (AREA)
  • Machine Translation (AREA)

Abstract

本申请公开了一种中文分词的方法、装置及计算机设备,涉及计算技术领域,可以解决在进行中文分词时,对基于分词离散序列预测的中文分词效果不佳,且分词成本较高的问题。其中方法包括:训练搭建符合预设标准的分词序列生成模型;利用所述分词序列生成模型生成目标文本的中文分词序列;基于所述中文分词序列确定所述目标文本的最终分词结果。本申请适用于对中文的分词处理。

Description

中文分词的方法、装置及计算机设备
技术领域
本申请涉及计算技术领域,尤其涉及到一种中文分词的方法、装置及计算机设备。
背景技术
中文分词指的是将一个汉字序列切分成一个个单独的词。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。中文中的词没有一个形式上的分界符,因此在中文文本中无法根据分界符来进行分词,这就给中文分词带来了很大的难度。并且,一些句子的拆分结果可能是多个,如何确定最符合语义的拆分结果作为最终拆分结果,也是目前中文分词领域所面临的挑战。
目前普通的中文分词算法在实际应用的时候效果不佳,也影响到词向量的结果。而原始GAN模型在连续型数据上有较好的表现,但在中文分词生成离散序列时并不适用。GAN通过训练生成器来产生合成的数据,然后对合成的数据进行判别,通过判别器输出的梯度来微调生成器最终实现类似真实数据的合成。由于一般只有在连续数据上才能实现细微的改变,所以如果是分词的离散序列则不能进行微调,另外,中文分词没有统一的分词标准,增加训练样本的标注成本也比较高。
发明内容
有鉴于此,本申请提供了一种中文分词的方法、装置及计算机设备,主要目的在于解决在进行中文分词时,对基于分词离散序列预测的中文分词效果不佳,且分词成本较高的问题。
根据本申请的一个方面,提供了一种中文分词的方法,该方法包括:
训练搭建符合预设标准的分词序列生成模型;
利用所述分词序列生成模型生成目标文本的中文分词序列;
基于所述中文分词序列确定所述目标文本的最终分词结果
可选地,当所述分词序列生成模型为单模型时,所述训练搭建符合预设标准的分词序列生成模型,具体包括:
标注样本文本的真实中文分词序列;
将所述样本文本输入至所述分词序列生成模型中的生成网络,获取得到预测中文分词序列;
将所述真实中文分词序列和所述预测中文分词序列输入至所述分词序列生成模型中的判别网络进行训练,获取判别结果;
若确定所述判别结果符合预设标准,则判定所述分词序列生成模型通过训练;
若确定所述判别结果不符合所述预设标准,则利用所述判别结果对所述生成网络进行梯度更新,以使所述分词序列生成模型通过训练。
可选地,所述利用所述分词序列生成模型生成目标文本的中文分词序列,具体包括:
将目标文本输入至符合所述预设标准的分词序列生成模型中,将对应所述生成网络生成的中文分词序列确定为所述目标文本的目标中文分词序列;
所述基于所述中文分词序列确定所述目标文本的最终分词结果,具体包括:
依据所述目标中文分词序列将所述目标文本切分为各个目标词语。
可选地,所述分词序列生成模型为多模型时,所述训练搭建符合预设标准的分词序列生成模型,具体包括:
利用样本文本分别训练分词序列生成模型中的各个子模型;
若判定所述各个子模型均符合对应的训练标准,则判定所述分词序列生成模型通过模型训练。
可选地,所述利用所述分词序列生成模型生成目标文本的中文分词序列,具体包括:
将所述目标文本分别输入至所述分词序列生成模型的各个子模型中,获取得到对应的第一目标中文分词序列;
所述基于所述中文分词序列确定最终的分词结果,具体包括:
计算各个所述第一目标中文分词序列对应分词的可靠度;
将所述可靠性最高的第一目标中文分词序列确定为所述目标文本的目标中文分词序列;
依据所述目标中文分词序列将所述目标文本切分为各个目标词语。
可选地,所述计算各个所述第一目标中文分词序列对应分词的可靠度,具体包括:
将所述第一目标中文分词序列对应的各个目标词语与分词词典进行匹配,将匹配正确率确定为第一可靠度;
根据训练数据,判断所述第一目标中文分词序列中各个相邻所述目标词语的第二可靠性;
依据加权公式以及所述第一可靠度、所述第二可靠性及各自对应的预设权重,计算各个所述第一目标中文分词序列对应分词的目标可靠度。
可选地,在所述基于所述中文分词序列确定最终的分词结果之后,具体还包括:
将所述目标可靠度大于预设阈值的目标文本以及对应所述目标中文分词序列添加至训练数据集中;
将出现频率大于预设阈值且未包含于词典中的所述目标词语,更新存储至所述词典中。
根据本申请的另一个方面,提供了一种中文分词的装置,该装置包括:
训练模块,用于训练搭建符合预设标准的分词序列生成模型;
生成模块,用于利用所述分词序列生成模型生成目标文本的中文分词序列;
确定模块,用于基于所述中文分词序列确定所述目标文本的最终分词结果。
可选地,所述分词序列生成模型为单模型时,所述训练模块,具体用于:
标注样本文本的真实中文分词序列;
将所述样本文本输入至所述分词序列生成模型中的生成网络,获取得到预测中文分词序列;
将所述真实中文分词序列和所述预测中文分词序列输入至所述分词序列生成模型中的判别网络进行训练,获取判别结果;
若确定所述判别结果符合预设标准,则判定所述分词序列生成模型通过训练;
若确定所述判别结果不符合所述预设标准,则利用所述判别结果对所述生成网络进行梯度更新,以使所述分词序列生成模型通过训练。
可选地,所述生成模块,具体用于:
将目标文本输入至符合所述预设标准的分词序列生成模型中,将对应所述生成网络生成的中文分词序列确定为所述目标文本的目标中文分词序列;
所述确定模块,具体用于:
依据所述目标中文分词序列将所述目标文本切分为各个目标词语。
可选地,所述分词序列生成模型为多模型时,所述训练模块,具体用于:
利用样本文本分别训练分词序列生成模型中的各个子模型;
若判定所述各个子模型均符合对应的训练标准,则判定所述分词序列生成模型通过模型训练。
可选地,所述生成模块,具体用于:
将所述目标文本分别输入至所述分词序列生成模型的各个子模型中,获取得到对应的第一目标中文分词序列;
所述确定模块,具体用于:
计算各个所述第一目标中文分词序列对应分词的可靠度;
将所述可靠性最高的第一目标中文分词序列确定为所述目标文本的目标中文分词序列;
依据所述目标中文分词序列将所述目标文本切分为各个目标词语。
可选地,所述生成模块,具体用于:
将所述第一目标中文分词序列对应的各个目标词语与分词词典进行匹配,将匹配正确率确定为第一可靠度;
根据训练数据,判断所述第一目标中文分词序列中各个相邻所述目标词语的第二可靠性;
依据加权公式以及所述第一可靠度、所述第二可靠性及各自对应的预设权重,计算各个所述第一目标中文分词序列对应分词的目标可靠度。
可选地,所述装置还包括:添加模块、更新模块;
添加模块,用于将所述目标可靠度大于预设阈值的目标文本以及对应所述目标中文分词序列添加至训练数据集中;
更新模块,用于将出现频率大于预设阈值且未包含于词典中的所述目标词语,更新存储至所述词典中。
根据本申请的又一个方面,提供了一种非易失性可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现上述中文分词的方法。
根据本申请的再一个方面,提供了一种计算机设备,包括非易失性可读存储介质、处理器及存储在非易失性可读存储介质上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述中文分词的方法。
借由上述技术方案,本申请提供的一种中文分词的方法、装置及计算机设备,可利用Encoder-Decoder中文分词序列生成模型代替原始GAN中的生成器,并且用重参数或者强化学习方法解决离散序列不可导问题,并且本发明还提出了一种多模型融合增强字典和训练样本,实现自适应增强训练集,使训练集最终趋于分词规则统一和分词训练样本多样化。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本地申请的不当限定。在附图中:
图1示出了本申请实施例提供的一种中文分词的方法的流程示意图;
图2示出了本申请实施例提供的另一种中文分词的方法的流程示意图;
图3示出了本申请实施例提供的又一种中文分词的方法的流程示意图;
图4示出了本申请实施例提供的一种中文分词的原理示意图;
图5示出了本申请实施例提供的另一种中文分词的原理示意图;
图6示出了本申请实施例提供的一种中文分词的装置的结构示意图;
图7示出了本申请实施例提供的另一种中文分词的装置的结构示意图;
图8示出了本申请实施例提供的另一种中文分词的装置的结构示意图。
具体实施方式
下文将参考附图并结合实施例来详细说明本申请。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互结合。
针对目前在进行中文分词时,对基于分词离散序列预测的中文分词效果不佳,且分词成本较高的问题,本申请实施例提供了一种中文分词的方法,如图1所示,该方法包括:
101、训练搭建符合预设标准的分词序列生成模型。
其中,对于本实施例,搭建的分词序列生成模型可为单模型和多模型,单模型和多模型又分别对应不同的中文分词模式。
102、利用分词序列生成模型生成目标文本的中文分词序列。
其中,中文分词序列可以是BI、BEMS等任何形式的分词序列,在此不做限定。
103、基于中文分词序列确定目标文本的最终分词结果。
在具体的应用场景中,当确定出目标文本的中文分词序列后,可进一步根据分词序列将目标文本切分为各个独立的词语。
通过本实施例中中文分词的方法,可利用Encoder-Decoder中文分词序列生成模型代替原始GAN中的生成器,并且用重参数或者强化学习方法解决离散序列不可导问题,并且本发明还提出了一种多模型融合增强字典和训练样本,实现自适应增强训练集,使训练集最终趋于分词规则统一和分词训练样本多样化。
进一步的,作为上述实施例具体实施方式的细化和扩展,为了完整说明本实施例中的具体实施过程,提供了另一种中文分词的方法,当分词序列生成模型为单模型时,如图2所示,该方法包括:
201、标注样本文本的真实中文分词序列。
对于本实施例,在具体的应用场景中,需要预先利用样本文本训练分词序列生成模型,即需要标注好样本文本的真实中文分词序列,以便利用真实中文分词序列作为训练基准对模型进行训练。
202、将样本文本输入至分词序列生成模型中的生成网络,获取得到预测中文分词序列。
其中,当分词序列生成模型为单模型时,如图4所示,分词序列生成模型可包括生成器和判别器,生成器中包含生成网络和与判别器进行参数共享的判别网络,判别器中包含判别真实分词结果和生成网络结果的判别网络。Encoder-Decoder生成网络是一种编码-解码器,常用RNN或LSTM网络实现,但RNN容易出现梯度消失和梯度爆炸问题,所以通常更多使用LSTM。在具体的应用场景中,在将样本文本输入至分词序列生成模型中的生成网络后,可通过编码将样本文本序列转化成一个固定维度的向量,再进一步通过解码将向量转化成预测中文分词序列。
203、将真实中文分词序列和预测中文分词序列输入至分词序列生成模型中的判别网络进行训练,获取判别结果。
其中,预测中文分词序列为Encoder-Decoder生成网络初步生成的分词序列,准确性较低,为了保证分词的准确性,需要利用标注好的真实中文分词序列对其进行训练修正。判别网络是一个有监督的二分类模型。刚开始生成网络随机生成预测中文分词序列G<text,seq>,由于此时生成模型效果很差,所以把这些结果作为假样本,而真实中文分词序列T<text,seq>是人为标注序列,是真样本。分别把真假样本放入判别网络进行训练,真为1,假为0。
204、若确定判别结果符合预设标准,则判定分词序列生成模型通过训练。
其中,预设标准为当判别网络对G<text,seq>的判别结果接近0.5时,表示判别网络已经无法区分真实样本和生成样本,此时生成网络达到了比较好的效果,即可判定分词序列生成模型通过训练。
205、若确定判别结果不符合预设标准,则利用判别结果对生成网络进行梯度更新,以使分词序列生成模型通过训练。
在具体的应用场景中,当确定判别结果不符合预设标准,即判别网络对G<text,seq>的判别结果小于0.5,则利用判别结果对判别网络进行梯度更新,由于中文分词序列为离散序列,故可通过重参数或者强化学习的方法避免离散序列不可导的问题。其中重参数方法包括但不仅限于gumbel softmax,强化学习方法包括但不仅限于policy gradient,当确定目标函数收敛后,则可判断梯度更新完成。
206、将目标文本输入至符合预设标准的分词序列生成模型中,将对应生成网络生成的中文分词序列确定为目标文本的目标中文分词序列。
在具体的应用场景中,在依据判别结果确定分词序列生成模型通过训练后,可直接将目标文本输入至符合预设标准的分词序列生成模型中,将输出的中文分词序列直接确定为目标文本的目标中文分词序列。
207、依据目标中文分词序列将目标文本切分为各个目标词语。
通过上述中文分词的方法,当分词序列生成模型为单模型时,可利用Encoder-Decoder中文分词序列生成模型代替原始GAN中的生成器,并且用重参数或者强化学习方法解决离散序列不可导问题,基于判别网络对生成网络生成的分词序列G<text,seq>进行准确性验证,当判定不符合预设标准时,利用生成网络进行梯度更新,直至判别网络已经无法区分真实样本和生成样本,即完成对分词序列生成模型的训练,进一步可利用训练完成的分词序列生成模型确定目标文本的目标中文分词序列,以便将目标文本切分为各个目标词语。可保证对离散序列的分词效果,提高分词的精确度。
进一步的,为了完整说明本实施例中的具体实施过程,提供了又一种中文分词的方法,当分词序列生成模型为多模型时,如图3所示,该方法包括:
301、利用样本文本分别训练分词序列生成模型中的各个子模型。
在具体的应用场景中,当分词序列生成模型为多模型时,分词序列生成模型中可包含预设数量个子模型,每个子模型可分别对应不同的现有中文分词序列的生成方法,或可包含实施例步骤201至207中的Encoder-Decoder单模型中分词序列的生成方法。
其中,当分词序列生成模型为多模型时,如图5所示,分词序列生成模型可包括多模型融合模块以及自适应词典、训练数据增强模块,多模型融合模块中的选择器用于依据词典以及分词训练数据筛选出分词可靠度最高的子模型,并将该子模型输出的中文分词序列确定为最终分词序列,当可靠度达到一定阈值时,将其作为历史选择结果增强词典和训练样本,使训练集最终趋于分词规则统一和分词训练样本多样化。
302、若判定各个子模型均符合对应的训练标准,则判定分词序列生成模型通过模型训练。
对于本实施例,在具体的应用场景中,在利用各个子模型获取中文分词序列之前,需要对各个模型进行训练,使其达到预设的训练标准,进而保证各个子模型最终输出的中文分词序列均为该子模型下的最优输出结果。
303、将目标文本分别输入至分词序列生成模型的各个子模型中,获取得到对应的第一目标中文分词序列。
对于本实施例,在具体的应用场景中,在判定各个子模型均符合对应的训练标准后,可将目标文本分别输入至各个子模型中,获取得到各个模型输出的该子模型下的最优输出结果,即第一目标中文分词序列。
304、计算各个第一目标中文分词序列对应分词的可靠度。
对于本实施例,在具体的应用场景中,由于分词序列生成模型中包含多个子模型,各个子模型又对应输出各自的中文分词序列,故为了从各个第一目标中文分词序列中确定出最准确的中文分词序列,作为目标文本的目标中文分词序列,故需要对各个第一目标中文分词序列进行可靠度验证,并且选择最可靠的一个作为最终结果。
对于本实施例,在具体的应用场景中,实施例步骤304具体可以包括:将第一目标中文分词序列对应的各个目标词语与分词词典进行匹配,将匹配正确率确定为第一可靠度;根据训练数据,判断第一目标中文分词序列中各个相邻目标词语的第二可靠性;依据加权公式以及第一可靠度、第二可靠性及各自对应的预设权重,计算各个第一目标中文分词序列对应分词的目标可靠度。
其中,训练数据是指人工标注的数据。进行可靠性判断主要通过统计训练数据中每个词前后出现的不同的词的概率,比如“训练数据”四个字,在标注的训练数据集中,“数据”这个词前面出现“训练”的概率比较高,则“训练/数据”这样分词的可靠性即对应较高。
305、将可靠性最高的第一目标中文分词序列确定为目标文本的目标中文分词序列。
对于本实施例,在具体的应用场景中,在依据加权公式计算得到各个第一目标中文分词序列对应分词的目标可靠度后,可对目标可靠度进行大小排序,进一步筛选出可靠性最高的第一目标中文分词序列,并将其确定为目标文本的目标中文分词序列。
306、依据目标中文分词序列将目标文本切分为各个目标词语。
优选的,在具体的应用场景中,为了实现样本的自动增强,具体还可以包括:将目标可靠度大于预设阈值的目标文本以及对应目标中文分词序列添加至训练数据集中;将出现频率大于预设阈值且未包含于词典中的目标词语,更新存储至词典中。
对于本实施例,可将每次分词的历史结果记录下来,对于可靠性极高的句子,把它们自动增加到训练数据集中;对于出现频率达到一定程度,但未在词典中的新词自动加入到词典中,并把包含未登录词的可靠性较高的句子加入到训练数据集中,以便实现样本的自动增强。此外,为了降低自动样本增强的错误率,在增强之前还可以考虑先进行人工审核。判断某一个词或者某一个分词结果是否应该加入到词典或训练集中。
通过上述中文分词的方法,可在有多种中文分词序列生成模型的情况下,进行多模型融合,即生成时对每一个序列值的概率进行计算,而做融合选择时,使用对分词结果打分、计算分词可靠度的方法,来筛选出最可靠的一个中文分词序列作为最终结果。多模型的效果通常可以优于任何一个单模型的效果。因为不同的方法生成的原理和结果会不同,多模型融合可以对不同算法进行取长补短,进而可保证分词效果,提高分词的精确度。
进一步的,作为图1、图2和图3所示方法的具体体现,本申请实施例提供了一种中文分词的装置,如图6所示,该装置包括:训练模块41、生成模块42、确定模块43;
训练模块41,可用于训练搭建符合预设标准的分词序列生成模型;
生成模块42,可用于利用分词序列生成模型生成目标文本的中文分词序列;
确定模块43,可用于基于中文分词序列确定目标文本的最终分词结果。
在具体的应用场景中,当分词序列生成模型为单模型时,为了训练得到符合预设标准的分词序列生成模型,如图7所示,训练模块41,可包括:标注单元411、输入单元412、判定单元413、更新单元414;
标注单元411,可用于标注样本文本的真实中文分词序列;
输入单元412,可用于将样本文本输入至分词序列生成模型中的生成网络,获取得到预测中文分词序列;
输入单元412,还可用于将真实中文分词序列和预测中文分词序列输入至分词序列生成模型中的判别网络进行训练,获取判别结果;
判定单元413,可用于若确定判别结果符合预设标准,则判定分词序列生成模型通过训练;
更新单元414,可用于若确定判别结果不符合预设标准,则利用判别结果对生成网络进行梯度更新,以使分词序列生成模型通过训练。
相应的,当分词序列生成模型为单模型时,为了利用分词序列生成模型生成目标文本的中文分词序列,如图7所示,生成模块42,可包括:确定单元421;
确定单元421,可用于将目标文本输入至符合预设标准的分词序列生成模型中,将对应生成网络生成的中文分词序列确定为目标文本的目标中文分词序列;
相应的,当分词序列生成模型为单模型时,为了确定出目标文本的最终分词结果,如图7所示,确定模块43,可包括:切分单元431;
切分单元431,用于依据目标中文分词序列将目标文本切分为各个目标词语。
在具体的应用场景中,当分词序列生成模型为单模型时,为了训练得到符合预设标准的分词序列生成模型,如图8所示,训练模块41,可包括:训练单元411、判定单元412;
训练单元411,可用于利用样本文本分别训练分词序列生成模型中的各个子模型;
判定单元412,可用于若判定各个子模型均符合对应的训练标准,则判定分词序列生成模型通过模型训练。
相应的,当分词序列生成模型为多模型时,为了利用分词序列生成模型生成目标文本的中文分词序列,如图8所示,生成模块42,可包括:输入单元421;
输入单元421,可用于将目标文本分别输入至分词序列生成模型的各个子模型中,获取得到对应的第一目标中文分词序列;
相应的,当分词序列生成模型为多模型时,为了基于中文分词序列确定出最终的分词结果,如图8所示,确定模块43,可包括:计算单元431、确定单元432、切分单元433;
计算单元431,可用于计算各个第一目标中文分词序列对应分词的可靠度;
确定单元432,可用于将可靠性最高的第一目标中文分词序列确定为目标文本的目标中文分词序列;
切分单元433,可用于依据目标中文分词序列将目标文本切分为各个目标词语。
在具体的应用场景中,为了计算得到各个第一目标中文分词序列对应分词的可靠度,计算单元431,具体可用于将第一目标中文分词序列对应的各个目标词语与分词词典进行匹配,将匹配正确率确定为第一可靠度;根据训练数据,判断第一目标中文分词序列中各个相邻目标词语的第二可靠性;依据加权公式以及第一可靠度、第二可靠性及各自对应的预设权重,计算各个第一目标中文分词序列对应分词的目标可靠度。
相应的,在具体的应用场景中,为了实现样本的自动增强,如图8所示,本装置还可包括:添加模块44、更新模块45;
添加模块44,可用于将所述目标可靠度大于预设阈值的目标文本以及对应目标中文分词序列添加至训练数据集中;
更新模块45,可用于将出现频率大于预设阈值且未包含于词典中的目标词语,更新存储至词典中。
需要说明的是,本实施例提供的一种中文分词的装置所涉及各功能单元的其它相应描述,可以参考图1、图2、图3中的对应描述,在此不再赘述。
基于上述如图1、图2、图3所示方法,相应的,本申请实施例还提供了一种存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述如图1、图2、图3所示的中文分词的方法。
基于这样的理解,本申请的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施场景的方法。
基于上述如图1、图2、图3所示的方法,以及图6、图7、图8所示的虚拟装置实施例,为了实现上述目的,本申请实施例还提供了一种计算机设备,具体可以为个人计算机、服务器、网络设备等,该实体设备包括存储介质和处理器;存储介质,用于存储计算机程序;处理器,用于执行计算机程序以实现上述如图1、图2、图3所示的中文分词的方法。
可选地,该计算机设备还可以包括用户接口、网络接口、摄像头、射频(RadioFrequency,RF)电路,传感器、音频电路、WI-FI模块等等。用户接口可以包括显示屏(Display)、输入单元比如键盘(Keyboard)等,可选用户接口还可以包括USB接口、读卡器接口等。网络接口可选的可以包括标准的有线接口、无线接口(如蓝牙接口、WI-FI接口)等。
本领域技术人员可以理解,本实施例提供的计算机设备结构并不构成对该实体设备的限定,可以包括更多或更少的部件,或者组合某些部件,或者不同的部件布置。
非易失性可读存储介质中还可以包括操作系统、网络通信模块。操作系统是中文分词的实体设备硬件和软件资源的程序,支持信息处理程序以及其它软件和/或程序的运行。网络通信模块用于实现非易失性可读存储介质内部各组件之间的通信,以及与该实体设备中其它硬件和软件之间通信。
通过以上的实施方式的描述,本领域的技术人员可采用单模型和多模型融合中文分词方式,当分词序列生成模型为单模型时,可利用Encoder-Decoder中文分词序列生成模型代替原始GAN中的生成器,并且用重参数或者强化学习方法解决离散序列不可导问题,基于判别网络对生成网络生成的分词序列G<text,seq>进行准确性验证,当判定不符合预设标准时,利用生成网络进行梯度更新,直至判别网络已经无法区分真实样本和生成样本,即完成对分词序列生成模型的训练,进一步可利用训练完成的分词序列生成模型确定目标文本的目标中文分词序列,以便将目标文本切分为各个目标词语。当分词序列生成模型为多模型时,可在有多种中文分词序列生成模型的情况下,进行多模型融合,即生成时对每一个序列值的概率进行计算,而做融合选择时,使用对分词结果打分、计算分词可靠度的方法,来筛选出最可靠的一个中文分词序列作为最终结果。通过上述两种分词方式,可保证对离散序列的分词效果,提高分词的精确度。
本领域技术人员可以理解附图只是一个优选实施场景的示意图,附图中的模块或流程并不一定是实施本申请所必须的。本领域技术人员可以理解实施场景中的装置中的模块可以按照实施场景描述进行分布于实施场景的装置中,也可以进行相应变化位于不同于本实施场景的一个或多个装置中。上述实施场景的模块可以合并为一个模块,也可以进一步拆分成多个子模块。
上述本申请序号仅仅为了描述,不代表实施场景的优劣。以上公开的仅为本申请的几个具体实施场景,但是,本申请并非局限于此,任何本领域的技术人员能思之的变化都应落入本申请的保护范围。

Claims (6)

1.一种中文分词的方法,其特征在于,包括:
训练搭建符合预设标准的分词序列生成模型;
其中,若所述分词序列生成模型为多模型,则所述训练搭建符合预设标准的分词序列生成模型,包括:
利用样本文本分别训练分词序列生成模型中的各个子模型,其中,所述各个子模型分别对应不同的中文分词序列的生成方法;
若判定所述各个子模型均符合对应的训练标准,则判定所述分词序列生成模型通过模型训练;
利用所述分词序列生成模型生成目标文本的中文分词序列;
其中,若所述分词序列生成模型为多模型,则所述利用所述分词序列生成模型生成目标文本的中文分词序列,包括:
将目标文本分别输入至所述分词序列生成模型的各个子模型中,获取得到对应的第一目标中文分词序列;
将所述第一目标中文分词序列对应的各个目标词语与分词词典进行匹配,将匹配正确率确定为第一可靠度;
根据训练数据,判断所述第一目标中文分词序列中各个相邻所述目标词语的第二可靠度;
依据加权公式以及所述第一可靠度、所述第二可靠度及各自对应的预设权重,计算各个所述第一目标中文分词序列对应分词的目标可靠度;
将所述目标可靠度最高的第一目标中文分词序列确定为所述目标文本的目标中文分词序列;
依据所述目标中文分词序列将所述目标文本切分为各个目标词语;
将所述目标可靠度大于预设阈值的目标文本以及对应所述目标中文分词序列添加至训练数据集中;
将出现频率大于预设阈值且未包含于分词词典中的所述目标词语,更新存储至所述分词词典中。
2.根据权利要求1所述的方法,其特征在于,所述分词序列生成模型为单模型时,所述方法还包括:
标注样本文本的真实中文分词序列;
将所述样本文本输入至所述分词序列生成模型中的生成网络,获取得到预测中文分词序列;
将所述真实中文分词序列和所述预测中文分词序列输入至所述分词序列生成模型中的判别网络进行训练,获取判别结果;
若确定所述判别结果符合预设标准,则判定所述分词序列生成模型通过训练;
若确定所述判别结果不符合所述预设标准,则利用所述判别结果对所述生成网络进行梯度更新,以使所述分词序列生成模型通过训练。
3.根据权利要求2所述的方法,其特征在于,所述利用所述分词序列生成模型生成目标文本的中文分词序列,具体包括:
将目标文本输入至符合所述预设标准的分词序列生成模型中,将对应所述生成网络生成的中文分词序列确定为所述目标文本的目标中文分词序列;
依据所述目标中文分词序列将所述目标文本切分为各个目标词语。
4.一种中文分词的装置,其特征在于,包括:
训练模块,用于训练搭建符合预设标准的分词序列生成模型其中,若所述分词序列生成模型为多模型,则所述训练搭建符合预设标准的分词序列生成模型,包括:利用样本文本分别训练分词序列生成模型中的各个子模型,其中,所述每个子模型分别对应不同的中文分词序列的生成方法,若判定所述各个子模型均符合对应的训练标准,则判定所述分词序列生成模型通过模型训练;
生成模块,用于利用所述分词序列生成模型生成目标文本的中文分词序列,其中,若所述分词序列生成模型为多模型,则所述利用所述分词序列生成模型生成目标文本的中文分词序列,包括:将目标文本分别输入至所述分词序列生成模型的各个子模型中,获取得到对应的第一目标中文分词序列,将所述第一目标中文分词序列对应的各个目标词语与分词词典进行匹配,将匹配正确率确定为第一可靠度,根据训练数据,判断所述第一目标中文分词序列中各个相邻所述目标词语的第二可靠度,依据加权公式以及所述第一可靠度、所述第二可靠度及各自对应的预设权重,计算各个所述第一目标中文分词序列对应分词的目标可靠度,将所述目标可靠度最高的第一目标中文分词序列确定为所述目标文本的目标中文分词序列,依据所述目标中文分词序列将所述目标文本切分为各个目标词语;
确定模块,用于依据所述目标中文分词序列将所述目标文本切分为各个目标词语;
添加模块,用于将所述目标可靠度大于预设阈值的目标文本以及对应所述目标中文分词序列添加至训练数据集中;
更新模块,用于将出现频率大于预设阈值且未包含于分词词典中的所述目标词语,更新存储至所述分词词典中。
5.一种非易失性可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现权利要求1至3中任一项所述的中文分词的方法。
6.一种计算机设备,包括非易失性可读存储介质、处理器及存储在非易失性可读存储介质上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1至3中任一项所述的中文分词的方法。
CN202010190436.7A 2020-03-18 2020-03-18 中文分词的方法、装置及计算机设备 Active CN111523308B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010190436.7A CN111523308B (zh) 2020-03-18 2020-03-18 中文分词的方法、装置及计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010190436.7A CN111523308B (zh) 2020-03-18 2020-03-18 中文分词的方法、装置及计算机设备

Publications (2)

Publication Number Publication Date
CN111523308A CN111523308A (zh) 2020-08-11
CN111523308B true CN111523308B (zh) 2024-01-26

Family

ID=71910643

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010190436.7A Active CN111523308B (zh) 2020-03-18 2020-03-18 中文分词的方法、装置及计算机设备

Country Status (1)

Country Link
CN (1) CN111523308B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115600646B (zh) * 2022-10-19 2023-10-03 北京百度网讯科技有限公司 语言模型的训练方法、装置、介质及设备

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20140059877A (ko) * 2012-11-08 2014-05-19 한국전자통신연구원 병렬 말뭉치를 이용한 중국어 단어분리 성능 향상 방법 및 장치
WO2015135452A1 (en) * 2014-03-14 2015-09-17 Tencent Technology (Shenzhen) Company Limited Text information processing method and apparatus
CN107368475A (zh) * 2017-07-18 2017-11-21 中译语通科技(北京)有限公司 一种基于生成对抗神经网络的机器翻译方法和系统
CN107622050A (zh) * 2017-09-14 2018-01-23 武汉烽火普天信息技术有限公司 基于Bi‑LSTM和CRF的文本序列标注系统及方法
CN107943784A (zh) * 2017-11-02 2018-04-20 南华大学 基于生成对抗网络的关系抽取方法
CN108804512A (zh) * 2018-04-20 2018-11-13 平安科技(深圳)有限公司 文本分类模型的生成装置、方法及计算机可读存储介质
CN109800298A (zh) * 2019-01-29 2019-05-24 苏州大学 一种基于神经网络的中文分词模型的训练方法
CN109933662A (zh) * 2019-02-15 2019-06-25 北京奇艺世纪科技有限公司 模型训练方法、信息生成方法、装置、电子设备和计算机可读介质
CN110598205A (zh) * 2019-08-12 2019-12-20 大箴(杭州)科技有限公司 一种截断文本的拼接方法、装置及计算机存储介质
CN110795938A (zh) * 2019-11-11 2020-02-14 北京小米智能科技有限公司 文本序列分词方法、装置及存储介质

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20140059877A (ko) * 2012-11-08 2014-05-19 한국전자통신연구원 병렬 말뭉치를 이용한 중국어 단어분리 성능 향상 방법 및 장치
WO2015135452A1 (en) * 2014-03-14 2015-09-17 Tencent Technology (Shenzhen) Company Limited Text information processing method and apparatus
CN107368475A (zh) * 2017-07-18 2017-11-21 中译语通科技(北京)有限公司 一种基于生成对抗神经网络的机器翻译方法和系统
CN107622050A (zh) * 2017-09-14 2018-01-23 武汉烽火普天信息技术有限公司 基于Bi‑LSTM和CRF的文本序列标注系统及方法
CN107943784A (zh) * 2017-11-02 2018-04-20 南华大学 基于生成对抗网络的关系抽取方法
CN108804512A (zh) * 2018-04-20 2018-11-13 平安科技(深圳)有限公司 文本分类模型的生成装置、方法及计算机可读存储介质
WO2019200806A1 (zh) * 2018-04-20 2019-10-24 平安科技(深圳)有限公司 文本分类模型的生成装置、方法及计算机可读存储介质
CN109800298A (zh) * 2019-01-29 2019-05-24 苏州大学 一种基于神经网络的中文分词模型的训练方法
CN109933662A (zh) * 2019-02-15 2019-06-25 北京奇艺世纪科技有限公司 模型训练方法、信息生成方法、装置、电子设备和计算机可读介质
CN110598205A (zh) * 2019-08-12 2019-12-20 大箴(杭州)科技有限公司 一种截断文本的拼接方法、装置及计算机存储介质
CN110795938A (zh) * 2019-11-11 2020-02-14 北京小米智能科技有限公司 文本序列分词方法、装置及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
黄丹丹 ; 郭玉翠 ; .融合attention机制的BI-LSTM-CRF中文分词模型.软件.2018,(10),全文. *

Also Published As

Publication number Publication date
CN111523308A (zh) 2020-08-11

Similar Documents

Publication Publication Date Title
US11120337B2 (en) Self-training method and system for semi-supervised learning with generative adversarial networks
CN112329619B (zh) 一种人脸识别方法、装置、电子设备及可读存储介质
CN110362677B (zh) 文本数据类别的识别方法及装置、存储介质、计算机设备
CN111461226A (zh) 对抗样本生成方法、装置、终端及可读存储介质
CN111260032A (zh) 神经网络训练方法、图像处理方法及装置
US20230245451A1 (en) Background Audio Construction
CN117150026B (zh) 文本内容多标签分类方法与装置
CN111813954A (zh) 文本语句中两实体的关系确定方法、装置和电子设备
CN112966754A (zh) 样本筛选方法、样本筛选装置及终端设备
CN108549857B (zh) 事件检测模型训练方法、装置及事件检测方法
CN108154186B (zh) 一种模式识别方法和装置
CN111260220A (zh) 群控设备识别方法、装置、电子设备和存储介质
CN111582315B (zh) 样本数据处理方法、装置及电子设备
CN108229286A (zh) 语言模型生成及应用方法、装置、电子设备和存储介质
CN114492601A (zh) 资源分类模型的训练方法、装置、电子设备及存储介质
CN113051486A (zh) 基于交友场景的推荐模型的训练方法、装置、电子设备和计算机可读存储介质
CN111523308B (zh) 中文分词的方法、装置及计算机设备
CN114332550A (zh) 一种模型训练方法、系统及存储介质和终端设备
CN113782093A (zh) 一种基因表达填充数据的获取方法及装置、存储介质
CN115713669B (zh) 一种基于类间关系的图像分类方法、装置、存储介质及终端
CN114298182A (zh) 资源召回方法、装置、设备及存储介质
CN114637920A (zh) 对象推荐方法以及装置
CN114445656A (zh) 多标签模型处理方法、装置、电子设备及存储介质
CN113569957A (zh) 一种业务对象的对象类型识别方法、装置及存储介质
CN117332090B (zh) 一种敏感信息识别方法、装置、设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant