CN110287961B - 中文分词方法、电子装置及可读存储介质 - Google Patents
中文分词方法、电子装置及可读存储介质 Download PDFInfo
- Publication number
- CN110287961B CN110287961B CN201910371045.2A CN201910371045A CN110287961B CN 110287961 B CN110287961 B CN 110287961B CN 201910371045 A CN201910371045 A CN 201910371045A CN 110287961 B CN110287961 B CN 110287961B
- Authority
- CN
- China
- Prior art keywords
- word
- layer
- training
- neural network
- network model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000011218 segmentation Effects 0.000 title claims abstract description 58
- 238000000034 method Methods 0.000 title claims abstract description 33
- 238000003860 storage Methods 0.000 title claims abstract description 19
- 238000012549 training Methods 0.000 claims abstract description 131
- 239000013598 vector Substances 0.000 claims abstract description 105
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 76
- 230000007246 mechanism Effects 0.000 claims abstract description 24
- 230000006870 function Effects 0.000 claims description 40
- 239000011159 matrix material Substances 0.000 claims description 38
- 238000004422 calculation algorithm Methods 0.000 claims description 31
- 238000004590 computer program Methods 0.000 claims description 18
- 238000004364 calculation method Methods 0.000 claims description 9
- 238000005457 optimization Methods 0.000 claims description 9
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 8
- 238000007781 pre-processing Methods 0.000 claims description 5
- 238000007405 data analysis Methods 0.000 abstract description 3
- 238000012545 processing Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 5
- 238000006243 chemical reaction Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000005520 cutting process Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/153—Segmentation of character regions using recognition of characters or words
Abstract
本发明涉及数据分析技术领域,具体提供一种基于卷积神经网络模型的中文分词方法、电子装置及可读存储介质,该卷积神经网络模型的第四层卷积层构建有注意力机制,注意力机制用于调整各通道权重。本发明提供的中文分词方法,首先获取字向量字典,通过字向量字典将第二文本转化为训练信息,然后根据训练信息训练卷积神经网络模型,最后卷积神经网络模型根据输入的文本进行字符边界识别预测。通过卷积神经网络模型进行分词,消耗的资源更少,分词速度快,正确率高。在上述卷积神经网络模型的第四层卷积层处构建有注意力机制,在训练卷积神经网络模型时,该注意力机制的设置能够优化卷积神经网络模型,提高卷积神经网络模型预测的准确率。
Description
技术领域
本发明涉及数据分析技术领域,具体地,涉及一种通过卷积神经网络模型进行中文分词的中文分词方法、电子装置及可读存储介质。
背景技术
随着互联网技术的发展,网络上出现的文本数量与日俱增,比如电子邮件、实时新闻、科技博文等等,产生了海量的文本类型的数据信息。人们对于信息分析和信息处理的需求越来越多,对这些文本类型的数据信息进行处理以获得所需要的信息的需求日益迫切。
在对文本类型的数据信息进行相应的数据分析时,首先需要进行分词处理,也就是将连贯的文字分解由一个个具有特定语言含义的单元组成的序列,这样的处理在中文的信息处理中表现的尤为突出。分词作为自然语言处理领域中的基础步骤,在自然语言处理中扮演着重要的角色。
因为中文分词与英文分词有所不同,英文分词是以词为单位,词与词之间用空格分隔,而中文分词是以字为单位,句子中所有的字连起来才能完整地表达某个含义。所谓中文分词就是将中文的汉字序列切分成有意义的词,也称为切词。例如,“知识就是力量”这句话的切词结果是“知识/就是/力量”。中文分词的准确程度,常常直接影响到搜索结果的相关度排序。
目前,文本分词算法一般是采用模板匹配的方式,比如基于文本匹配的分词算法、基于词典的分词算法等等,分词准确性完全依赖于模板,导致分词准确率较低。
发明内容
为了解决现有技术中分词准确率低的问题,本发明提供一种能够增加分词准确率,且能够快速分词的中文分词方法、电子装置及可读存储介质。
一方面,本发明提供一种基于卷积神经网络模型的中文分词方法,中文分词方法包括如下步骤:
第一步:获取文字字典,去除所述文字字典中的特殊符号和非中文字符,将文字字典中的各文字分隔为单独文字形式,所述单独文字形式的文字的集合为第一训练文本;
第二步:通过字向量训练将所述第一训练文本转化为字向量形式的第一字向量训练文本,根据所述第一训练文本和所述第一字向量训练文本确定字向量字典,所述字向量字典中记录有文字与字向量的对应关系;
第三步:获取带有分词标注的第二训练文本,根据所述字向量字典将所述第二训练文本转化为字向量形式的训练信息;
第四步:根据所述训练信息、预设的交叉熵损失函数和ADAM优化算法对所述卷积神经网络模型进行训练;
第五步:根据所述卷积神经网络模型的训练结果对输入的待分词的文本进行字符边界识别预测。
优选的,通过字向量训练将所述第一训练文本转化为字向量形式的第一字向量训练文本包括如下步骤:运行Word2Vec算法,基于所述Word2Vec算法对所述第一训练文本进行字向量训练,通过所述Word2Vec算法将所述第一训练文本转化为字向量形式的所述第一字向量训练文本。
优选的,该卷积神经网络模型包括四层卷积层,各卷积层的卷积核均为一维卷积核;在第四层卷积层处构建有与卷积神经网络模型并行的注意力机制,所述注意力机制用于注意力权重计算,为第四层卷积层的一维卷积核的各通道进行权重调整。在第四步训练所述卷积神经网络模型时,通过所述注意力机制调整第四层卷积层各通道输出的卷积结果的权重,获取加权结果,然后将所述加权结果输入至softmax函数,接着通过所述softmax函数输出字符边界识别预测的预测结果。
再优选的,所述softmax函数将每个字的字符边界映射后转化为0至1的概率值,并以概率值最高者作为预测结果。所述字符边界的识别标签为BMES,B代表词语开头,M代表词语中部,E代表词语结尾,S代表单字。
再优选的,调整所述卷积结果的权重时,包括如下步骤:
将第四层卷积层的输出转化为a*b的矩阵,所述a为通道数,所述b为处理的文本长度;通过两个并行前馈层输出a*b与b*a的矩阵进行矩阵乘法,再经过softmax函数映射为概率,获得第四卷积层的卷积结果;
通过另一并行前馈层输出b*a的矩阵,所述b*a的矩阵与根据注意力机制形成的注意力矩阵进行矩阵乘法,得到b*a的矩阵并将其转化为a*b*1的三维矩阵,并与映射为概率的卷积结果加和,获得并输出加权重的权重加权结果,完成各通道权重调整。
再优选的,完成各通道权重调整后,将所述加权结果传输至两个全连接层,然后通过softmax函数将每个字的字符边界映射后转化为0至1的概率值,并以概率值最高者作为预测结果。
优选的,第一层卷积层包括三个一维卷积核,第一层卷积层的各一维卷积核的长度分别为1、3、5,第一层卷积层的各一维卷积核分别有128个通道;
第二层至第四层卷积层均包括长度为3的一维卷积核,第二层的一维卷积核、第三层的一维卷积核和第四层卷积层的一维卷积核均有384个通道。
另一方面,本发明还提供一种电子装置,该电子装置包括:存储器、处理器及数据库,在该数据库中存储有文字字典和第二训练文本。所述存储器中包括预处理程序、字向量训练程序、训练信息生成程序和卷积神经网络模型。
所述卷积神经网络模型包括四层卷积层,各卷积层的卷积核均为一维卷积核;第一层卷积层包括三个一维卷积核,第一层卷积层的各一维卷积核的长度分别为1、3、5,第一层卷积层的各一维卷积核分别有128个通道;第二层至第四层卷积层均包括长度为3的一维卷积核,第二层的一维卷积核、第三层的一维卷积核和第四层卷积层的一维卷积核均有384个通道;在第四层卷积层处构建并行的注意力机制,该注意力机制用于注意力权重计算,为各通道进行权重调整。
所述预处理程序、字向量训练程序、训练信息生成程序和卷积神经网络模型被所述处理器执行时实现如下步骤:
所述预处理程序从数据库中获取文字字典,然后对文字字典进行预处理,通过所述预处理去除文字字典中的特殊符号和非中文字符,并将文字字典分隔为单独文字形式的第一训练文本;
所述字向量训练程序将单独文字形式的第一训练文本转化为字向量形式的字向量字典;
所述训练信息生成程序从数据库中获取带有分词标注的第二训练文本,根据所述字向量字典将所述第二训练文本转化为字向量形式的训练信息;
所述卷积神经网络模型获取所述训练信息,根据所述训练信息、预设的交叉熵损失函数和ADAM优化算法进行训练。
优选的,所述字向量训练程序包括Word2Vec算法,所述字向量训练程序通过所述Word2Vec算法将第一训练文本转化为字向量形式的字向量字典;所述卷积神经网络模型还设置有softmax函数,各通道进行权重调整后,将调整后的各通道的加权结果输入至softmax函数,所述softmax函数将每个字的字符边界映射后转化为0至1的概率值,并输出概率值最高者作为预测结果;所述字符边界的识别标签为BMES,B代表词语开头,M代表词语中部,E代表词语结尾,S代表单字。
再一方面,本发明还提供一种计算机可读存储介质,该述计算机可读存储介质中包括计算机程序和数据库,所述计算机程序被处理器执行时,实现如上述的基于卷积神经网络模型的中文分词方法的步骤
本发明提供的中文分词方法、电子装置及可读存储介质与现有技术相比,具有以下有益效果:
本发明提供的中文分词方法、电子装置及可读存储介质,首先获取字向量字典,然后通过该字向量字典将第二文本转化为训练信息,接着根据训练信息训练卷积神经网络模型,最后训练好的卷积神经网络模型根据输入的待分词的文本进行字符边界识别预测。通过卷积神经网络模型进行分词,消耗的资源更少,分词速度快,正确率高。在上述卷积神经网络模型的第四层卷积层处构建注意力机制后,在训练卷积神经网络模型时,该注意力机制的设置能够优化卷积神经网络模型,提高卷积神经网络模型预测的准确率。
附图说明
通过参考以下流程附图的说明及权利要求书的内容,并且随着对本发明的更全面理解,本发明的其它目的及结果将更加明白及易于理解。在附图中:
图1是基于本发明实施例的基于卷积神经网络模型的中文分词方法的流程图。
图2是基于本发明实施例的电子装置中各程序的工作流程图。
图3是基于本发明实施例的电子装置的逻辑结构示意图。
在所有附图中相同的标号指示相似或相应的特征或功能。
具体实施方式
在下面的描述中,出于说明的目的,为了提供对一个或多个实施例的全面理解,阐述了许多具体细节。然而,很明显,也可以在没有这些具体细节的情况下实现这些实施例。在其它例子中,为了便于描述一个或多个实施例,公知的结构和设备以方框图的形式示出。
以下将结合附图对本发明的具体实施例进行详细描述。
实施例1
本实施例提供一种基于卷积神经网络模型的中文分词方法,该卷积神经网络模型包括四层卷积层,各卷积层的卷积核均为一维卷积核。其中,第一层卷积层包括三个一维卷积核,第一层卷积层的各一维卷积核的长度分别为1、3、5,第一层卷积层的各一维卷积核分别有128个通道。第二层至第四层卷积层均包括长度为3的一维卷积核,第二层的一维卷积核、第三层的一维卷积核和第四层卷积层的一维卷积核均有384个通道。在第四层卷积层处构建有与卷积神经网络模型并行的注意力机制,该注意力机制用于注意力权重计算,为第四层卷积层的一维卷积核的各通道进行权重调整。
在训练卷积神经网络模型时,通过该注意力机制调整第四层卷积层各通道输出的卷积结果的权重,获取加权结果,然后将该加权结果输入至softmax函数,该softmax函数将每个字的字符边界映射后转化为0至1的概率值,并输出概率值最高者作为字符边界的预测结果,softmax函数输出该预测结果,完成每一个字的字符边界识别预测。该softmax函数将每个字的字符边界映射后转化为0至1的概率值,该概率值是指的每个字分别为词语开头、词语中部、词语结尾和单字的概率值,当其中一个概率值最高时,则预测该字为该概率最高者对应的字符边界。该softmax函数输出概率最高者对应的字符边界,可认为对应的字是该字符边界的可能性最大,进而实现字符边界的预测。
本实施例中,上述字符边界的识别标签为BMES,B代表词语开头,M代表词语中部,E代表词语结尾,S代表单字,即在预测为词语开头的字上添加识别标签B,在预测为词语中部的字上添加识别标签M,在预测为词语结尾的字上添加识别标签E,在预测为单字的字上添加识别标签S。
图1示出了基于本发明实施例的基于卷积神经网络模型的中文分词方法的流程图,如图1所示,本实施例提供的基于卷积神经网络模型的中文分词方法包括如下步骤:
S110:首先获取文字字典,在具体实施时,该文字字典是中文维基百科,该文字字典可以存储在数据库中,通过访问数据库获取该文字字典;然后去除该文字字典中的特殊符号和非中文字符,该非中文字符包括拼音、数字和英文符号,该特殊符号包括音标或其它非中文的符号。接着将文字字典中的各文字分隔为单独文字形式,通过分隔的方式将每个汉字分隔为独立的单元,该单独文字形式的文字的集合为第一训练文本。
S120:将上述第一训练文本转化为字向量形式的第一字向量训练文本,该处的转换通过Word2Vec算法实现。
具体操作中,可以将上述第一训练文本输入至Word2Vec算法进行字向量训练,该输入的第一训练文本是单独文字形式的文字的集合,通过上述Word2Vec算法将第一训练文本转化为字向量形式的第一字向量训练文本。根据该第一训练文本和转换的第一字向量训练文本获取字向量字典,在字向量字典中记录有文字与字向量的对应关系,以便于后期文字和字向量之间的转化。
通过Word2Vec算法将上述第一训练文本转化为字向量形式的第一字向量训练文本,与现有技术中通过热编码处理文字,将文字转化为字向量相比,转化速度更快。在本实施例应用中,通过Word2Vec算法获得字向量字典与常规热编码获得的字向量字典相比,最终进行字符边界识别预测时获得的预测结果更准确。
S130:获得字向量字典后,获取带有分词标注的第二训练文本,该第二训练文本带有分词标注,即该第二训练文本是完成中文分词的文本,该第二训练文本中的词语开头、词语中部、词语结尾和单字是已知的;本实施例中,该分词标注使用识别标签进行标注,该识别标签为BMES。该第二训练文本可以存储在数据库中,通过访问数据库获取该第二训练文本。根据字向量字典将该第二训练文本转化为字向量形式的训练信息,该字向量字典起到对照的作用,通过字向量字典获取第二训练文本中文字对应的字向量;将该第二训练文本转化为字向量形式的训练信息,是便于卷积神经网络模型进行识别读取,卷积神经网络模型仅能识别读取字向量形式的训练信息;卷积神经网络模型无法直接识别读取汉字形式的第二训练文本。
S140:通过步骤S130获得训练信息后,将该训练信息输入至卷积神经网络模型,根据训练信息、交叉熵损失函数和ADAM优化算法对卷积神经网络模型进行训练;该训练中,将训练信息输入至卷积神经网络模型,以交叉熵损失函数为损失函数,以ADAM优化算法为优化算法,由卷积神经网络模型根据输入的训练信息进行训练。该卷积神经网络模型经训练后,能够进行字符边界识别预测,该字符边界识别预测,即是本实施例上文提到的字符边界的预测,该字符边界的预测完成后,可对文本中的词语开头、词语中部、词语结尾和单字进行区分,实现文本的分词。
S150:在上述卷积神经网络模型训练完毕后,向卷积神经网络模型内输入待分词的文本,根据输入的待分词的文本进行字符边界识别预测,该字符边界识别预测是获取词语开头、词语中部、词语结尾以及单字的信息的过程,最终用于获取字符边界识别预测的预测结果。该输入的待分词的文本,可以从数据库或缓存中通过复制传输的方式获取;该输入的待分词的文本,还可以是通过输入设备输入,如键盘;当然,该输入的待分词的文本还可以是通过其它设备信号传输的文本数据。
上述通过注意力机制调整卷积结果的权重时:将第四层卷积层的输出转化为a*b的矩阵;此处的a为通道数,在本实施例中,通道数为384,b为处理的文本长度;通过两个并行前馈层输出a*b与b*a的矩阵进行矩阵乘法,再经过softmax函数映射为概率,获得第四卷积层的卷积结果;在调整卷积结果的权重时,通过另一并行前馈层输出b*a的矩阵,该b*a的矩阵与根据注意力机制形成的注意力矩阵进行矩阵乘法,得到b*a的矩阵并将其转化为a*b*1的三维矩阵,并与映射为概率的卷积结果加和,获得并输出加权重的加权结果,完成各通道权重调整。各通道的权重调整后,将该加权结果传输至两个全连接层,然后通过softmax函数进行计算,将计算得出的概率值最高者作为预测结果,该softmax函数的计算可以通过Python中的tensorflow库实现。
实施例2
图3提供了基于本发明实施例的电子装置的逻辑结构示意图,如图3所述。该电子装置1包括处理器2、存储器3,在存储器中存储有计算机程序4。该电子装置1还包括数据库,在该数据库中存储有文字字典和第二训练文本,本实施例中,文字字典是中文维基百科,该第二训练文本带有分词标记。
上述存储器中存储有计算机程序4,该计算机程序4包括预处理程序、字向量训练程序、训练信息生成程序、和卷积神经网络模型。
上述卷积神经网络模型包括四层卷积层,各卷积层的卷积核均为一维卷积核。其中,第一层卷积层包括三个一维卷积核,第一层卷积层的各一维卷积核的长度分别为1、3、5,第一层卷积层的各一维卷积核分别有128个通道;第二层至第四层卷积层均包括长度为3的一维卷积核,第二层的一维卷积核、第三层的一维卷积核和第四层卷积层的一维卷积核均有384个通道;在第四层卷积层处构建并行的注意力机制,该注意力机制用于注意力权重计算,为各通道进行权重调整;上述卷积神经网络模型还设置有softmax函数,各通道进行权重调整后,将调整后的各通道的加权结果输入至softmax函数,所述softmax函数将每个字的字符边界映射后转化为0至1的概率值,并输出概率值最高者作为字符边界识别预测的预测结果。
图2提供了基于本发明实施例的电子装置中各程序的工作流程图,如图2所示,上述预处理程序、字向量训练程序、训练信息生成程序和卷积神经网络模型被所述处理器执行时实现如下步骤:
S210:上述预处理程序从数据库中获取文字字典,该文字字典的获取可以通过访问数据库的方式获得;获取文字字典后,对该文字字典进行预处理。该预处理是指去除文字字典中的特殊符号和非中文字符,该非中文字符包括拼音、数字和英文符号,该特殊符号包括音标或其它非中文的符号;该预处理过程在去除文字字典中的特殊符号和非中文字符后,将文字字典分隔为单独文字形式的第一训练文本,完成预处理步骤。
S220:上述字向量训练程序将单独文字形式的第一训练文本转化为字向量形式的字向量字典;该字向量训练程序包括Word2Vec算法,第一训练文本经Word2Vec算法进行字向量训练,该输入的第一训练文本是单独文字形式的文字的集合,通过上述Word2Vec算法将第一训练文本转化为字向量形式的第一字向量训练文本。根据该第一训练文本和转换的第一字向量训练文本获取字向量字典,该字向量字典记录文字与字向量的对应关系。
S230:上述训练信息生成程序从数据库中获取带有分词标注的第二训练文本,根据上述字向量字典将第二训练文本转化为字向量形式的训练信息;上述字向量字典记录文字与字向量的对应关系,第二训练文本中记录有文字,可通过字向量字典获取文字对应的字向量,进而获得转化为字向量形式的训练信息。
S240:上述卷积神经网络模型获取上述训练信息,根据该训练信息、预设的交叉熵损失函数和ADAM优化算法进行训练。该卷积神经网络模型的训练可通过常规的方式进行训练,输入的数据信息为训练信息,根据交叉熵函数和ADAM优化算法进行训练后,获得训练好的卷积神经网络模型。该训练后的卷积神经网络模型能够根据训练结果对文本进行字符边界识别预测。
其中,一个或多个程序可以是能够完成特定功能的一系列计算机程序4指令段,该指令段用于描述计算机程序4在电子装置1中的执行过程。
电子装置1可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。电子装置1可包括,但不仅限于,处理器2、存储器3。本领域技术人员可以理解,并不构成对电子装置1的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如电子装置1还可以包括输入输出设备、网络接入设备、总线等。
所称处理器2可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器2(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是控制器、微控制器、微处理器,或者该处理器也可以是任何常规的处理器等。用于执行测试任务输入程序、测试人员输入程序、测试任务分配程序和测试任务触发程序。
存储器3可以是电子装置1的内部存储单元,例如电子装置1的硬盘或内存。存储器3也可以是电子装置1的外部存储设备,例如电子装置1上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(SecureDigital,SD)卡,闪存卡(Flash Card)、多媒体卡、卡型存储器、磁性存储器、磁盘和光盘等。进一步地,存储器3还可以既包括终端设备的内部存储单元也包括外部存储设备。存储器3用于存储计算机程序4以及电子设备所需的其他程序和数据。存储器3还可以用于暂时地存储已经输出或者将要输出的数据。
实施例3
本实施例提供一种计算机可读存储介质,该计算机可读存储介质包括计算机程序和数据库,该计算机程序被处理器执行时,实现如上述实施例1的中文分词方法的步骤。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、单元的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、单元完成,即将装置的内部结构划分成不同的功能单元或单元,以完成以上描述的全部或者部分功能。实施例中的各功能单元、单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、单元的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述系统中单元、单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,上述单元或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
上述集成的单元/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,上述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,上述计算机程序包括计算机程序代码,上述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。上述计算机可读介质可以包括:能够携带上述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,上述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括是电载波信号和电信信号。
本发明提供的中文分词方法、电子装置及可读存储介质,首先获取字向量字典,通过字向量字典将第二文本转化为训练信息,然后根据训练信息训练卷积神经网络模型,训练好的卷积神经网络模型根据输入的待分词的文本进行字符边界识别预测。通过卷积神经网络模型进行分词,消耗的资源更少,分词速度快,正确率高。在上述卷积神经网络模型的第四层卷积层处构建有注意力机制,在训练卷积神经网络模型时,该注意力机制的设置能够优化卷积神经网络模型,提高卷积神经网络模型预测的准确率。
如上参照附图以示例的方式描述了根据本发明的中文分词方法、电子装置及可读存储介质。但是,本领域技术人员应当理解,对于上述本发明所提出的中文分词方法、电子装置及可读存储介质,还可以在不脱离本发明内容的基础上做出各种改进。因此,本发明的保护范围应当由所附的权利要求书的内容确定。
Claims (8)
1.一种基于卷积神经网络模型的中文分词方法,其特征在于,包括如下步骤:
第一步:获取文字字典,去除所述文字字典中的特殊符号和非中文字符,将所述文字字典中的各文字分隔为单独文字形式的文字,所述单独文字形式的文字的集合为第一训练文本;
第二步:通过字向量训练将所述第一训练文本转化为字向量形式的第一字向量训练文本,根据所述第一训练文本和所述第一字向量训练文本确定字向量字典,所述字向量字典中记录有文字与字向量的对应关系;
第三步:获取带有分词标注的第二训练文本,根据所述字向量字典将所述第二训练文本转化为字向量形式的训练信息;
第四步:根据预设的交叉熵损失函数和ADAM优化算法以及所述训练信息,对所述卷积神经网络模型进行训练;
第五步:根据所述卷积神经网络模型的训练结果对输入的待分词的文本进行字符边界识别预测;
其中,所述卷积神经网络模型包括四层卷积层,各卷积层的卷积核均为一维卷积核;其中,第一层卷积层包括三个一维卷积核,第一层卷积层的各一维卷积核的长度分别为1、3、5,第一层卷积层的各一维卷积核分别有128个通道;第二层至第四层卷积层均包括长度为3的一维卷积核,第二层的一维卷积核、第三层的一维卷积核和第四层卷积层的一维卷积核均有384个通道;在第四层卷积层处构建有与卷积神经网络模型并行的注意力机制,所述注意力机制用于注意力权重计算,为第四层卷积层的一维卷积核的各通道进行权重调整;
在第四步训练所述卷积神经网络模型时,通过所述注意力机制调整第四层卷积层各通道输出的卷积结果的权重,获取加权结果,然后将所述加权结果输入至softmax函数,接着通过所述softmax函数输出字符边界识别预测的预测结果;其中,所述softmax函数将每个字的字符边界映射后转化为0至1的概率值,所述概率值为每个字分别为词语开头、词语中部、词语结尾和单字的概率值,当其中一个概率值最高时,则预测该字为该概率最高者对应的字符边界。
2.如权利要求1所述的基于卷积神经网络模型的中文分词方法,其特征在于,通过字向量训练将所述第一训练文本转化为字向量形式的第一字向量训练文本包括如下步骤:运行Word2Vec算法,基于所述Word2Vec算法对所述第一训练文本进行字向量训练,通过所述Word2Vec算法将所述第一训练文本转化为字向量形式的第一字向量训练文本。
3.如权利要求1所述的基于卷积神经网络模型的中文分词方法,其特征在于,所述softmax函数将每个字的字符边界映射后转化为0至1的概率值,并以概率值最高者作为预测结果;
所述字符边界的识别标签为BMES,B代表词语开头,M代表词语中部,E代表词语结尾,S代表单字。
4.如权利要求1所述的基于卷积神经网络模型的中文分词方法,其特征在于,调整所述卷积结果的权重时:
将所述第四层卷积层的输出转化为a*b的矩阵,所述a为通道数,所述b为处理的文本长度;通过两个并行前馈层输出a*b与b*a的矩阵进行矩阵乘法,再经过softmax函数映射为概率,获得第四卷积层的卷积结果;
通过另一并行前馈层输出b*a的矩阵,所述b*a的矩阵与根据注意力机制形成的注意力矩阵进行矩阵乘法,得到b*a的矩阵并将其转化为a*b*1的三维矩阵,并与映射为概率的卷积结果加和,获得并输出加权重的加权结果,完成各通道权重调整。
5.如权利要求4所述的基于卷积神经网络模型的中文分词方法,其特征在于,完成各通道权重调整后,将所述加权结果传输至两个全连接层,然后通过softmax函数将每个字的字符边界映射后转化为0至1的概率值,并以概率值最高者作为预测结果。
6.一种电子装置,其特征在于,所述电子装置包括:存储器、处理器及数据库,所述数据库中存储有文字字典和第二训练文本;所述存储器中包括预处理程序、字向量训练程序、训练信息生成程序和卷积神经网络模型;
所述卷积神经网络模型包括四层卷积层,各卷积层的卷积核均为一维卷积核;第一层卷积层包括三个一维卷积核,第一层卷积层的各一维卷积核的长度分别为1、3、5,第一层卷积层的各一维卷积核分别有128个通道;第二层至第四层卷积层均包括长度为3的一维卷积核,第二层的一维卷积核、第三层的一维卷积核和第四层卷积层的一维卷积核均有384个通道;在第四层卷积层处构建并行的注意力机制,该注意力机制用于注意力权重计算,为第四层卷积层的一维卷积核的各通道进行权重调整;并且,在第四步训练所述卷积神经网络模型时,通过所述注意力机制调整第四层卷积层各通道输出的卷积结果的权重,获取加权结果,然后将所述加权结果输入至softmax函数,接着通过所述softmax函数输出字符边界识别预测的预测结果;其中,所述softmax函数将每个字的字符边界映射后转化为0至1的概率值,所述概率值为每个字分别为词语开头、词语中部、词语结尾和单字的概率值,当其中一个概率值最高时,则预测该字为该概率最高者对应的字符边界;
所述预处理程序、字向量训练程序、训练信息生成程序和卷积神经网络模型被所述处理器执行时实现如下步骤:
所述预处理程序从数据库中获取文字字典,然后对文字字典进行预处理,通过所述预处理去除文字字典中的特殊符号和非中文字符,并将文字字典分隔为单独文字形式的第一训练文本;
所述字向量训练程序将单独文字形式的第一训练文本转化为字向量形式的第一字向量训练文本,据所述第一训练文本和所述第一字向量训练文本确定字向量字典,所述字向量字典中记录有文字与字向量的对应关系;
所述训练信息生成程序从数据库中获取带有分词标注的第二训练文本,根据所述字向量字典将所述第二训练文本转化为字向量形式的训练信息;
所述卷积神经网络模型获取所述训练信息,根据所述训练信息、预设的交叉熵损失函数和ADAM优化算法进行训练,根据所述卷积神经网络模型的训练结果对输入的待分词的文本进行字符边界识别预测。
7.如权利要求6所述的电子装置,其特征在于,所述字向量训练程序包括Word2Vec算法,所述字向量训练程序通过所述Word2Vec算法将第一训练文本转化为字向量形式的字向量字典;所述字符边界的识别标签为BMES,B代表词语开头,M代表词语中部,E代表词语结尾,S代表单字。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中包括计算机程序和数据库,所述计算机程序被处理器执行时,实现如权利要求1至5中任一项所述的基于卷积神经网络模型的中文分词方法的步骤。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910371045.2A CN110287961B (zh) | 2019-05-06 | 2019-05-06 | 中文分词方法、电子装置及可读存储介质 |
PCT/CN2019/117900 WO2020224219A1 (zh) | 2019-05-06 | 2019-11-13 | 中文分词方法、装置、电子设备及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910371045.2A CN110287961B (zh) | 2019-05-06 | 2019-05-06 | 中文分词方法、电子装置及可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110287961A CN110287961A (zh) | 2019-09-27 |
CN110287961B true CN110287961B (zh) | 2024-04-09 |
Family
ID=68001770
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910371045.2A Active CN110287961B (zh) | 2019-05-06 | 2019-05-06 | 中文分词方法、电子装置及可读存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN110287961B (zh) |
WO (1) | WO2020224219A1 (zh) |
Families Citing this family (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110287961B (zh) * | 2019-05-06 | 2024-04-09 | 平安科技(深圳)有限公司 | 中文分词方法、电子装置及可读存储介质 |
CN111079418B (zh) * | 2019-11-06 | 2023-12-05 | 科大讯飞股份有限公司 | 命名体识别方法、装置、电子设备和存储介质 |
CN110929517B (zh) * | 2019-11-28 | 2023-04-18 | 海南大学 | 地理位置定位方法、系统、计算机设备和存储介质 |
CN111507103B (zh) * | 2020-03-09 | 2020-12-29 | 杭州电子科技大学 | 一种利用部分标注集的自训练神经网络分词模型 |
CN111767718B (zh) * | 2020-07-03 | 2021-12-07 | 北京邮电大学 | 一种基于弱化语法错误特征表示的中文语法错误更正方法 |
CN112364663B (zh) * | 2020-11-16 | 2023-05-26 | 度小满科技(北京)有限公司 | 用户特征的识别方法、装置、设备以及存储介质 |
CN112487803A (zh) * | 2020-11-20 | 2021-03-12 | 中国人寿保险股份有限公司 | 一种基于深度学习的合同审核方法、装置及电子设备 |
CN112329477A (zh) * | 2020-11-27 | 2021-02-05 | 上海浦东发展银行股份有限公司 | 基于预训练模型的信息抽取方法、装置、设备及存储介质 |
CN112507112B (zh) * | 2020-12-07 | 2023-07-25 | 中国平安人寿保险股份有限公司 | 评论生成的方法、装置、设备及存储介质 |
CN112528658B (zh) * | 2020-12-24 | 2023-07-25 | 北京百度网讯科技有限公司 | 层次化分类方法、装置、电子设备和存储介质 |
CN113012220A (zh) * | 2021-02-02 | 2021-06-22 | 深圳市识农智能科技有限公司 | 一种果实计数方法、装置及电子设备 |
CN112906382B (zh) * | 2021-02-05 | 2022-06-21 | 山东省计算中心(国家超级计算济南中心) | 基于图神经网络的政策文本多标签标注方法及系统 |
CN112800183B (zh) * | 2021-02-25 | 2023-09-26 | 国网河北省电力有限公司电力科学研究院 | 内容名称数据处理方法及终端设备 |
CN113065359B (zh) * | 2021-04-07 | 2022-05-24 | 齐鲁工业大学 | 面向智能交互的句子对语义匹配方法和装置 |
CN113051913A (zh) * | 2021-04-09 | 2021-06-29 | 中译语通科技股份有限公司 | 藏文分词信息处理方法、系统、存储介质、终端及应用 |
CN113109782B (zh) * | 2021-04-15 | 2023-08-15 | 中国人民解放军空军航空大学 | 一种直接应用于雷达辐射源幅度序列的分类方法 |
CN113378541B (zh) * | 2021-05-21 | 2023-07-07 | 标贝(北京)科技有限公司 | 文本标点预测方法、装置、系统及存储介质 |
CN113220936B (zh) * | 2021-06-04 | 2023-08-15 | 黑龙江广播电视台 | 基于随机矩阵编码和简化卷积网络的视频智能推荐方法、装置及存储介质 |
CN113313129B (zh) * | 2021-06-22 | 2024-04-05 | 中国平安财产保险股份有限公司 | 灾损识别模型的训练方法、装置、设备以及存储介质 |
CN113420120A (zh) * | 2021-06-24 | 2021-09-21 | 平安科技(深圳)有限公司 | 关键信息提取模型的训练方法、提取方法、设备及介质 |
CN114091631A (zh) * | 2021-10-28 | 2022-02-25 | 国网江苏省电力有限公司连云港市赣榆区供电分公司 | 一种电网事故信息发布方法及装置 |
CN113988068B (zh) * | 2021-12-29 | 2022-04-15 | 深圳前海硬之城信息技术有限公司 | Bom文本的分词方法、装置、设备及存储介质 |
CN114580424B (zh) * | 2022-04-24 | 2022-08-05 | 之江实验室 | 一种用于法律文书的命名实体识别的标注方法和装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6879951B1 (en) * | 1999-07-29 | 2005-04-12 | Matsushita Electric Industrial Co., Ltd. | Chinese word segmentation apparatus |
CN107273355A (zh) * | 2017-06-12 | 2017-10-20 | 大连理工大学 | 一种基于字词联合训练的中文词向量生成方法 |
CN108255816A (zh) * | 2018-03-12 | 2018-07-06 | 北京神州泰岳软件股份有限公司 | 一种命名实体识别方法、装置及系统 |
CN108595590A (zh) * | 2018-04-19 | 2018-09-28 | 中国科学院电子学研究所苏州研究院 | 一种基于融合注意力模型的中文文本分类方法 |
CN109086267A (zh) * | 2018-07-11 | 2018-12-25 | 南京邮电大学 | 一种基于深度学习的中文分词方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110287961B (zh) * | 2019-05-06 | 2024-04-09 | 平安科技(深圳)有限公司 | 中文分词方法、电子装置及可读存储介质 |
-
2019
- 2019-05-06 CN CN201910371045.2A patent/CN110287961B/zh active Active
- 2019-11-13 WO PCT/CN2019/117900 patent/WO2020224219A1/zh active Application Filing
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6879951B1 (en) * | 1999-07-29 | 2005-04-12 | Matsushita Electric Industrial Co., Ltd. | Chinese word segmentation apparatus |
CN107273355A (zh) * | 2017-06-12 | 2017-10-20 | 大连理工大学 | 一种基于字词联合训练的中文词向量生成方法 |
CN108255816A (zh) * | 2018-03-12 | 2018-07-06 | 北京神州泰岳软件股份有限公司 | 一种命名实体识别方法、装置及系统 |
CN108595590A (zh) * | 2018-04-19 | 2018-09-28 | 中国科学院电子学研究所苏州研究院 | 一种基于融合注意力模型的中文文本分类方法 |
CN109086267A (zh) * | 2018-07-11 | 2018-12-25 | 南京邮电大学 | 一种基于深度学习的中文分词方法 |
Non-Patent Citations (1)
Title |
---|
一种基于双向LSTM 的联合学习的中文分词方法;章登义;计算机应用研究;第36卷(第10期);正文第1节-第2节 * |
Also Published As
Publication number | Publication date |
---|---|
WO2020224219A1 (zh) | 2020-11-12 |
CN110287961A (zh) | 2019-09-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110287961B (zh) | 中文分词方法、电子装置及可读存储介质 | |
US11468233B2 (en) | Intention identification method, intention identification apparatus, and computer-readable recording medium | |
CN109815487B (zh) | 文本质检方法、电子装置、计算机设备及存储介质 | |
CN111858843B (zh) | 一种文本分类方法及装置 | |
CN110334186B (zh) | 数据查询方法、装置、计算机设备及计算机可读存储介质 | |
CN109086265B (zh) | 一种语义训练方法、短文本中多语义词消歧方法 | |
CN111984792A (zh) | 网站分类方法、装置、计算机设备及存储介质 | |
CN112036184A (zh) | 基于BiLSTM网络模型及CRF模型的实体识别方法、装置、计算机装置及存储介质 | |
CN112395875A (zh) | 一种关键词提取方法、装置、终端以及存储介质 | |
CN111459977A (zh) | 自然语言查询的转换 | |
CN111177375A (zh) | 一种电子文档分类方法及装置 | |
CN113722512A (zh) | 基于语言模型的文本检索方法、装置、设备及存储介质 | |
CN114218945A (zh) | 实体识别方法、装置、服务器及存储介质 | |
CN110968664A (zh) | 一种文书检索方法、装置、设备及介质 | |
CN111241271B (zh) | 文本情感分类方法、装置及电子设备 | |
CN113435499B (zh) | 标签分类方法、装置、电子设备和存储介质 | |
CN109063155B (zh) | 语言模型参数确定方法、装置和计算机设备 | |
WO2021239631A1 (en) | Neural machine translation method, neural machine translation system, learning method, learning system, and programm | |
US20230177251A1 (en) | Method, device, and system for analyzing unstructured document | |
CN112434134B (zh) | 搜索模型训练方法、装置、终端设备及存储介质 | |
CN117371447A (zh) | 命名实体识别模型的训练方法、装置及存储介质 | |
CN107622129B (zh) | 一种知识库的组织方法及装置、计算机存储介质 | |
CN110705287A (zh) | 一种用于文本摘要的生成方法和系统 | |
CN115525730B (zh) | 基于页面赋权的网页内容提取方法、装置及电子设备 | |
CN116882385A (zh) | 一种观点提取方法、装置及终端设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |