CN110222328B

CN110222328B - 基于神经网络的分词和词类标注方法、装置、设备及存储介质

Info

Publication number: CN110222328B
Application number: CN201910277371.7A
Authority: CN
Inventors: 吴壮伟
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2019-04-08
Filing date: 2019-04-08
Publication date: 2022-11-22
Anticipated expiration: 2039-04-08
Also published as: WO2020206913A1; CN110222328A

Abstract

本申请属于人工智能技术领域，提供一种基于神经网络的分词和词类标注方法、装置、计算机设备及存储介质，该方法包括：获取待分词的语料并输入到预先训练的第一DNN神经网络模型中，获取第一DNN神经网络模型响应待分词语料而输出的多个初始分词；计算每个初始分词的内部聚合度和信息熵，将内部聚合度和信息熵都超过设定的阈值的初始分词确定为最终分词。将最终分词输入预先训练的第二DNN神经网络模型以及KNN模型中，用于分析最终分词的候选词类及候选词类概率和相似词的词类及相似词词类概率，并返回概率最高的词类为最终分词的词类。本发明实施例在分词的同时完成词性标注的工作，进一步提高分词的精度，针对不同的场景提供最契合该场景的分词结果。

Description

基于神经网络的分词和词类标注方法、装置、设备及存储介质

技术领域

本申请涉及人工智能技术领域，具体涉及自然语言处理技术领域，尤其涉及一种基于神经网络的分词和词类标注方法、装置、计算机设备及存储介质。

背景技术

现有技术中，分词主要有基于规则的分词和基于统计的分词。基于规则的分词有正向最大匹配、反向最大匹配、双向最大匹配、最短切分数切分、基于规则集合的切分等等。分词基于既有词库，在有些特定的场景下，分词效果不佳，容易出现歧义。

发明内容

本申请实施例的目的在于提出一种基于神经网络的分词和词类标注方法、装置、计算机设备及存储介质，本方案通过预先训练的第一DNN神经网络模型对待分词的语料进行划分并筛选符合场景的词汇，提高词汇划分的准确性，并对划分的词汇进行标注。

为了解决上述技术问题，本申请实施例提供一种基于神经网络的分词和词类标注方法，采用了如下所述的技术方案：

一种基于神经网络的分词和词类标注方法，包括下述步骤：

获取待分词的语料；

将所述待分词语料输入到预先训练的第一DNN神经网络模型中，获取所述第一DNN神经网络模型响应所述待分词语料而输出的多个初始分词；

计算每个初始分词的内部聚合度和信息熵，将内部聚合度和信息熵都超过设定的阈值的初始分词确定为最终分词；

将所述最终分词输入预先训练的第二DNN神经网络模型，获取所述第二DNN神经网络模型响应所述最终分词而输出的候选词类及候选词类概率；

将所述最终分词输入KNN模型中，获取所述最终分词的相似词，并获取相似词的词类及计算相似词词类概率；

比较所述候选词类概率和相似词词类概率，返回概率最高的词类为所述最终分词的词类。

进一步地，所述第一DNN神经网络模型的训练包括以下步骤：

获取训练语料；

通过分词工具对所述训练语料划分训练分词，生成词汇表；

计算所述词汇表中每个训练分词的内部聚合度和信息熵，并基于计算结果综合筛选出分词结果；

将所述训练语料输入到所述第一DNN神经网络模型中，分析所述语料中每个字符的词位置，并在分词位置标注结果；

当所述标注结果与所述分词结果不一致时，反复循环迭代的更新所述第一DNN神经网络模型中的权重，至所述标注结果与所述分词结果一致时，结束训练。

进一步地，所述第一DNN神经网络模型在训练时对所述训练分词以及对每个所述初始分词的内部聚合度和信息熵计算方式为：

通过公式①计算所述训练分词的内部聚合度：

其中，Score_inner为内部聚合度，Count(x)为所述训练分词在所述训练语料中出现的次数或所述初始分词在所述待分词的语料中出现的次数；Count(x₁)、Count(x₂)为所述训练分词或者初始分词进一步划分的词汇在语料中出现的次数，Length(Corpus)为所述训练语料或者待分词的语料的总语句数量；

所述信息熵包括左信息熵和右信息熵，通过公式②计算所述训练分词或者初始分词的左信息熵或右信息熵：

其中，当采用公式②计算左信息熵时，Entropy为左信息熵值，N为所述训练分词或者初始分词的左边词汇的数量，p_i为所述训练分词的左边词汇出现的概率；当采用公式②计算右信息熵时，Entropy为右信息熵值，N为所述训练分词或者初始分词的右边词汇的数量，p_i为所述训练分词的右边词汇出现的概率；

当初始分词的内部聚合度大于1000，左信息熵和右信息熵均大于1时，将该初始分词作为最终分词。

进一步地，所述通过分词工具对所述训练语料划分训练分词，生成词汇表的步骤之后；所述方法还包括：

对词汇表的训练分词进行二次划分，得到二次划分词汇；

通过计算公式③计算所述二次划分词汇的内部聚合度：

其中，所述Count(x)为所述训练分词或者初始分词在语料中出现的次数；Count(x₂₁)和Count(x₂₂)为所述训练分词或初始分词Count(x₂)的二次划分词汇在语料中出现的次数，Length²(Corpus)为语料的总语句数量。

进一步地，所述将所述训练语料输入到所述第一DNN神经网络模型中，分析所述语料中每个字符的词位置，并在分词位置标注结果的步骤具体包括：

提取所述语料中的字符的词位置特征并向量化，生成特征向量；

将所述特征向量输入到第一DNN神经网络模型中，第一DNN神经网络模型采用基于LSTM模型的3层深度学习神经网络，输出所述字符为分词位置的概率；

若所述概率超过预设阈值，则该字符成为分词划分的位置，作为所述语料的分词标注。

进一步地，所述将所述最终分词输入预先训练的第二DNN神经网络模型，获取所述第二DNN神经网络模型响应所述最终分词而输出的候选词类及其概率的步骤，包括：

获取所述最终分词在所述语料中的位置；

将所述最终分词向量化；

基于所述最终分词的向量在所述第二DNN神经网络模型训练获取所述最终分词对于模型中设定的词类的概率分布；

选择预设数量的词类作为候选词类。

进一步地，所述将所述最终分词输入KNN模型中，获取所述最终分词的相似词，并获取相似词的词类及计算概率的步骤包括：

基于所述最终分词的词向量，通过欧氏距离公式，获取多个所述最终分词的相似词；

获取所述相似词的词类并计算所述相似词所属词类的概率分布；

选择预设数量相似词的词类作为候选词类。

为了解决上述技术问题，本申请实施例还提供一种计算机设备，采用了如下所述的技术方案：

一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器执行所述计算机程序时实现上述所述的基于神经网络的分词和词类标注方法的步骤。

为了解决上述技术问题，本申请实施例还提供一种基于神经网络的分词和词类标注装置，采用了如下所述的技术方案：

语料获取模块，用于获取待分词的语料；

分词模块，用于将所述待分词语料输入到预先训练的第一DNN神经网络模型中，获取所述第一DNN神经网络模型响应所述待分词语料而输出的多个初始分词；

筛选模块，用于计算每个初始分词的内部聚合度和信息熵，将内部聚合度和信息熵都超过设定的阈值的初始分词确定为最终分词；

候选词类标注模块，用于将所述最终分词输入预先训练的第二DNN神经网络模型，获取所述第二DNN神经网络模型响应所述最终分词而输出的候选词类及候选词类概率；

相似词类标注模块，用于将所述最终分词输入KNN模型中，获取所述最终分词的相似词，并获取相似词的词类及计算相似词词类概率；

词类输出模块，用于比较所述候选词类概率和相似词词类概率，返回概率最高的词类为所述最终分词的词类。

为了解决上述技术问题，本申请实施例还提供一种计算机可读存储介质，采用了如下所述的技术方案：

一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述所述的基于神经网络的分词和词类标注方法的步骤。

与现有技术相比，本申请实施例主要有以下有益效果：

本申请实施例提供一种基于神经网络的分词和词类标注方法、装置、计算机设备以及存储介质，该方法包括下述步骤：获取待分词的语料；将所述待分词语料输入到预先训练的第一DNN神经网络模型中，获取所述第一DNN神经网络模型响应所述待分词语料而输出的多个初始分词，其中所述初始分词是所述第一DNN神经网络模型对待分词语料进行多种方式划分的词汇的汇总，用于提高数据的完整性。然后通过计算每个初始分词的内部聚合度和信息熵，将内部聚合度和信息熵都超过设定的阈值的初始分词确定为最终分词，以筛选符合语料场景的分词，提高分词的准确性。将所述最终分词输入预先训练的第二DNN神经网络模型，获取所述第二DNN神经网络模型响应所述最终分词而输出的候选词类及候选词类概率；将所述最终分词输入KNN模型中，获取所述最终分词的相似词，并获取相似词的词类及计算相似词词类概率；比较所述候选词类概率和相似词词类概率，返回概率最高的词类为所述最终分词的词类。本发明实施例在分词的同时完成词性标注的工作，进一步提高分词的精度，针对不同的场景提供最契合该场景的分词结果。

附图说明

为了更清楚地说明本申请中的方案，下面将对本申请实施例描述中所需要使用的附图作一个简单介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请可以应用于其中的示例性系统架构图；

图2根据本申请的基于神经网络的分词和词类标注方法的一个实施例的流程图；

图3是本申请的所述第一DNN神经网络模型的一个训练方式的流程图；

图4是图3中步骤304的一种具体实施方式的流程图；

图5是图2中步骤204的一种具体实施方式的流程图；

图6是图2中步骤205的一种具体实施方式的流程图；

图7是根据本申请的基于神经网络的分词和词类标注装置的一个实施例的结构示意图；

图8是根据本申请的计算机设备的一个实施例的结构示意图。

具体实施方式

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同；本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本申请；本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形，意图在于覆盖不排他的包含。本申请的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象，而不是用于描述特定顺序。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

为了使本技术领域的人员更好地理解本申请方案，下面将结合附图，对本申请实施例中的技术方案进行清楚、完整地描述。

如图1所示，系统架构100可以包括终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息等，操作基于神经网络的分词和词类标注中的业务及应用。终端设备101、102、103上可以安装有各种通讯客户端应用，例如网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。

终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于用户设备、网络设备或用户设备与网络设备通过网络相集成所构成的设备。所述用户设备其包括但不限于任何一种可与用户通过触摸板进行人机交互的移动电子产品，例如智能手机、平板电脑等，所述移动电子产品可以采用任意操作系统，如android操作系统、iOS操作系统等。其中，所述网络设备包括一种能够按照事先设定或存储的指令，自动进行数值计算和信息处理的电子设备，其硬件包括但不限于微处理器、专用集成电路(ASIC)、可编程门阵列(FPGA)、数字处理器(DSP)、嵌入式设备等。所述网络设备其包括但不限于计算机、网络主机、单个网络服务器、多个网络服务器集或多个服务器构成的云；在此，云由基于云计算(Cloud Computing)的大量计算机或网络服务器构成，其中，云计算是分布式计算的一种，由一群松散耦合的计算机集组成的一个虚拟超级计算机。所述网络包括但不限于互联网、广域网、城域网、局域网、VPN网络、无线自组织网络(Ad Hoc网络)等。当然，本领域技术人员应能理解上述终端设备仅为举例，其他现有的或今后可能出现的终端设备如可适用于本申请，也应包含在本申请保护范围以内，并在此以引用方式包含于此。

服务器105可以是一台服务器，或者由若干台服务器组成的服务器集群，或者是一个云计算服务中心。其也可以是提供各种服务的服务器，例如对终端设备101、102、103上显示的页面提供支持的后台服务器。

需要说明的是，本申请实施例所提供的基于神经网络的分词和词类标注方法一般由终端设备执行，相应地，基于神经网络的分词和词类标注装置一般设置于终端设备中。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

继续参考图2，示出了根据本申请的一种基于神经网络的分词和词类标注方法的一个实施例的流程图。所述的基于神经网络的分词和词类标注方法，包括以下步骤：

步骤201，获取待分词的语料。

在本发明实例中，基于神经网络的分词和词类标注方法运行于其上的电子设备(例如图1所示的终端设备)可以通过有线连接方式或者无线连接方式获取待分词的语料。需要指出的是，上述无线连接方式可以包括但不限于3G/4G连接、WiFi连接、蓝牙连接、WiMAX连接、Zigbee连接、UWB(ultra wideband)连接、以及其他现在已知或将来开发的无线连接方式。

步骤202：将待分词语料输入到预先训练的第一DNN神经网络模型中，获取第一DNN神经网络模型响应待分词语料而输出的多个初始分词。

在本发明实施例中，所述第一DNN神经网络模型对语料进行训练，对所述待分词的语料进行分词，并输出的多个初始分词。

需要说明的是，所述第一DNN神经网络模型以多种分词方式进行划分，输出的初始分词是多种划分方式的分词的结果的组合。例如，“严守一把手机关了”经过多次划分，得到：“严守、严守一、一把、一把手、把手、手机、机关、关了”等分词组合。

步骤203：计算每个初始分词的内部聚合度和信息熵，将内部聚合度和信息熵都超过设定的阈值的初始分词确定为最终分词。

在本发明实施例中，对步骤202划分的初始分词进行分析，对所述初始分词的指标进行统计，如内部聚合度指标和信息熵，并对各个指标综合分析，用以评估模所述第一DNN神经网络模型的训练效果，并筛选出测试数据集中精准的词汇内容作为最终分词。

具体的，本实施例通过公式①计算所述初始分词的内部聚合度：

其中，Score_inner为内部聚合度，Count(x)为该初始分词在待分词的语料中出现的次数；Count(x₁)、Count(x₂)为该初始分词进一步划分的词汇在语料中出现的次数，Length(Corpus)为语料的总语句数量。

所述信息熵包括左信息熵和右信息熵，通过公式②计算所述初始分词的左信息熵或右信息熵：

其中，当采用公式②计算左信息熵时，Entropy为左信息熵值，N为初始分词的左划分词汇总数，p_i为所述初始分词的左边词汇出现的概率；当采用公式②计算右信息熵时，Entropy为右信息熵值，N为初始分词的右划分词汇总数，p_i为所述初始分词的右边词汇出现的概率。

在本实施例中，当初始分词的内部聚合度大于1000，且左信息熵和右信息熵均大于1时，将该该初始分词作为最终分词。

步骤204：将最终分词输入预先训练的第二DNN神经网络模型，获取第二DNN神经网络模型响应最终分词而输出的候选词类及及候选词类概率。

在本发明实施例中，所述第二DNN神经网络模型对所述语料的分词结果，即所述最终分词，进行词类标注，以针对不同的场景提供最契合该场景的分词结果。如划分词结果为“北大”，可根据场所提供如“北京大学”、“北大青鸟”、“北京大学附属医院”等契合场景的词汇。

步骤205：将最终分词输入KNN模型中，获取最终分词的相似词，并获取相似词的词类及计算相似词词类概率。

在本发明实施例中，为提高本发明的分词精确程度，通过KNN模型对所述最终分词训练得到多个相似词，并获取所述相似词的词类以及概率，对所述最终分词的词类标注进行分析，以提高本发明对词类标注的准确性。

步骤206：比较所述候选词类概率和相似词词类概率，返回概率最高的词类为最终分词的词类。

在本发明实施例中，通过综合分析所述第二DNN神经网络模型和所述KNN模型输出的所述最终分词的词类以及相似词类的概率分布，取概率最大的词类作为所述最终分词的词类。具体的，本实施例基于第二DNN神经网络预测的候选词类和KNN的词类综合排名，做最终的排名估计，选择排名最前的词类作为最终的词类。

本实施例通过将待分词的语料输入经过训练的第一DNN神经网络模型，以多种划分方式对待分词的语料进行划分，获取初始分词。并通过计算和分析所述初始分词的内部聚合度和信息熵筛选获取最终分词。然后将最终分词输入到经过训练的第二DNN神经网络模型，标注词类，以针对不同的场景提供最契合该场景的分词结果。

请参阅图3，图中示出步骤202中第一DNN神经网络模型的训练步骤，本实施例所述第一DNN神经网络模型的训练步骤，具体如下：

步骤301：获取训练语料。

在本发明实施例中，所述第一DNN神经网络模型以训练语料作为原始语料数据集作为输入，将多条不定长的语句传入，并且进行对应的特征工程，变换成对应的向量，然后传入多层神经网络的隐藏层中，以是否作为分词结果作为输出。

需要说明的是，本实施例可以通过将制定的语料内容，如word文本、PDF文件等上传到对应的路径中，作为自定义语料库。

步骤302：通过分词工具对训练语料划分训练分词，生成词汇表。

在本发明实施例中，通过分词工具-jieba分词对所述训练语料进行初次划分，将得到的训练分词并生成词汇表信息，作为初始化的word list。进一步地，对所述训练语料每次训练划分的训练分词汇总在所述word list中，以根据语料场景构建更完整的训练集数据。例如，设x为abcde(a、b、c、d、e为特定的字符)，根据划分，可以得到多种组合方式，如按照x1/x2划分方式(将x划分为两个词)，可以得到如(ab/cde)、(a/bcde)、(abc/de)等组合词汇。

需要说明的是，所述word list中获取的训练分词是对原始语料每一次划分词汇的总汇，划分的训练分词可能跟实际应用场景不符，精确度不高，需要进一步处理和筛选。例如，“有哪些人参与”第一次划分结果可能为：有/哪些/人/参与。而第二次划分结果可能为：有/哪些/人参/与。划分结果需要进一步处理，例如根据场景进一步筛选划分结果。

步骤303：计算词汇表中每个训练分词的内部聚合度和信息熵，并基于计算结果综合筛选出分词结果。

在本发明实施例中，步骤303也通过公式①计算所述词汇表中每个训练分词的内部聚合度，通过公式②计算信息熵。具体的，本实施例对每次划分的结果进行统计。如训练语料为“元宵节将至，宣讲传统美德”，对于“元宵节将至”的内部聚合度，可根据多种划分方式得到的划分结果计算，如本实施例包括但不限于以下两种方式进行划分：

一种方式的划分结果为：元宵节/将至，则Count(x)为计算“元宵节将至”在全文中出现的次数，Count(x₁)为计算“元宵节”在全文中出现的次数，Count(x₂)为计算“将至”在全文中出现的次数，len(Corpus)为总语句数量。

另一种方式的划分结果为：元宵/节将至，则Count(x)为计算“元宵节将至”在全文中出现的次数，Count(x₁)为计算“元宵”在全文中出现的次数，Count(x₂)为计算“节将至”在全文中出现的次数，len(Corpus)为总语句数量。

进一步地，本实施例可对词汇表的训练分词进行二次划分，得到二次划分词汇，即根据上次划分的结果再做一次划分，直至符合筛选要求。划分的词汇的内部聚合度的计算公式为：

其中，所述Count(x)为为所述训练分词或者初始分词在语料中出现的次数；Count(x₂₁)和Count(x22)为所述初始分词Count(x₂)的二次划分词汇在语料中出现的次数，Length²(Corpus)为语料的总语句数量。

进一步地，所述信息熵用于测试所述训练词汇的信息量。具体的，本实施例统计所述训练分词的左信息熵和右信息熵。如：AB，需统计以“AB”为目标词汇，在其左右边搭配组合的词汇的出现频率，如左边词汇：CAB、DAB、EAB。右边词汇：ABEE，ABEF、ABCD等。

需要说明的是，当所述训练分词的内部聚合度指标或信息熵指标在阈值范围内，将所述训练分词保留，作为分词结果的候选结果。

步骤304：将训练语料输入到第一DNN神经网络模型中，分析语料中每个字符的词位置，获取语料的分词位置的标注结果。

在本发明实施例中，在所述第一DNN神经网络模型中对所述训练语料进行训练时，对其所有的字符之间位置进行分析，做出分类判断，并通过神经网络训练得到是否作为分词间隔点的概率并输出。具体的，在第一DNN神经网络模型的训练神经网络的训练分析时，以0或1进行标注所述字符是否为分割符。所述第一DNN神经网络模型输出的神经元有1个，用于输出所述字符作为分词分割符的概率值。比如“深圳市北大医院”，其有6个分割符位置(相邻两个字符之间的位置为一个分割符)，真实的分词结果为“深圳市/北大/医院”，经第一DNN神经网络模型的训练分析，第3个和第5个字符的概率值超过阈值，自动化标注分词位置为[3，5]，即分词位置为第3个字符和第5个字符。

步骤305：当标注结果与分词结果不一致时，反复循环迭代的更新第一DNN神经网络模型中的权重，至标注结果与分词结果一致时，训练结束。

在本发明实施例中，对经过步骤304标注的所述训练语料，通过调整第一DNN神经网络模型各节点的权重，使分词结果与标注结果高度一致时，结束训练。

请参阅图4，图中示出图3步骤304的一个实施方式，步骤304将训练语料输入到第一DNN神经网络模型中，分析语料中每个字符的词位置，获取语料的分词位置的标注结果，具体包括以下步骤：

步骤3041：提取语料中的字符的词位置特征并向量化，生成特征向量。

在本发明实施例中，对所述待分词的语料中的每个字符进行预测，提取其特征，并分析其是否符合分词的要求。具体的，所述字符的特征包括但不限于字符的类型和词位置，其中所述类型包括标点符号、阿拉伯数字、中文数字、字母等，所述词位置是指所述字符在所述训练语料中所组合的词汇中的位置，如词汇的开始位置、词汇的中间位置、词汇的结束位置以及该字符能否独立构成一个词汇等。具体的，在本实施例中，对于标点符号、数字、中文数字或者字母等类型的字符，进行one-hot编码处理。对于字符的词位置设置词位置标识，如，用B表示该字符是某个词的开始；M表示该字符在某个词的中间位置；E表示该字符是某个词的结束位置；S表示该字符能独立的构成一个词。

进一步地，本实施例对所述待分词的语料的每个字符的前10个字符的词位置进行统计(第一至第九个字符只统计目前存在的词位置)，将其组成一个n元向量，并进行编码，生成特征向量。

步骤3042：将特征向量输入到第一DNN神经网络模型中，第一DNN神经网络模型采用基于LSTM模型的3层深度学习神经网络，输出字符为分词位置的概率。

在本发明实施例中，基于LSTM模型的3层深度学习神经网络包括输入层、隐藏层和输出层，其中，步骤401生成的特征向量输入到所述输入层，隐藏层单向传递信息，构造线性模型，调整第一DNN神经网络模型各节点的权重，计算分析每个字符作为分割位置的概率。输出层输出所述字符为分割位置的概率。

步骤3043：若概率超过预设阈值，则该字符成为分词划分的位置，作为语料的分词标注。

在本发明实施例通过步骤3042计算输出每个字符作为分割位置的概率，进一步通过判断该概率值是否超过预设阈值来判断所述字符是否为分割位置。

需要说明的是，超出阈值的分词方式可能有多种，因此通过所述第一DNN神经网络模型获得的初始分词结果也可能有多个。例如，“兵乓球拍卖完了”，其进行多次划分后，获得的初始分词结果可如下：

兵乓-球-拍卖-完-了。

兵乓球-拍卖-完了。

兵乓球拍-卖完-了。

兵乓-球拍-卖完-了。

兵乓球-拍-卖-完-了。

请参阅图5，图中示出步骤204的一个实施方式，步骤204将最终分词输入预先训练的第二DNN神经网络模型，获取第二DNN神经网络模型响应最终分词而输出的候选词类及其概率具体包括以下步骤：

步骤2041：获取最终分词在语料中的位置。

步骤2042：将最终分词向量化。

步骤2043：基于最终分词的向量在第二DNN神经网络模型训练获取最终分词对于模型中设定的词类的概率分布。

步骤2044：选择预设数量的词类作为候选词类。

在本实施例中，针对不同的应用场景，词汇有不同词类的使用范围，经过词类设定，进一步调节词汇划分的权重，以提高词汇划分的准确度。

本实施例对训练数据集的词汇设定有词类属性，例如，对深圳、中国等词汇，设定为城市、国家等体现地级的词类。具体地，本实施例采用python包中的gensim库，对所述最终分词进行向量化，自定义库的词向量模型构建。然后将所述最终分词的词向量传入所述第二DNN神经网络模型中，实现词类模型的自动化标注，并获取每个分词的候选词类。

在本实施例的一个可选的实施方式中，获取标注了词类的最终分词的词位置并向量化，输入到第二DNN神经网络，第二DNN神经网络采用LSTM模型，通过调整神经网络各节点的权重，使神经网络的损失函数收敛，训练结束并输出所述最终分词对应各种词类的概率，本实施方式可以得到不同词类的概率分布，选择概率分布排名前3的词类作为候选词类。

请参阅图6，图中示出步骤205的一个实施方式，步骤205将最终分词输入KNN模型中，获取最终分词的相似词，并获取相似词的词类及计算概率具体包括以下步骤：

步骤2051：基于最终分词的词向量，通过欧氏距离公式，获取多个最终分词的相似词。

步骤2052：获取相似词的词类并计算相似词所属词类的概率分布。

步骤2053：选择预设数量相似词的词类作为候选词类。

在本实施例中，为进一步提高分词准确性，本实施例对所述最终分词多个相似词，并将所述相似词的词类统计在所述最终分词的词类分析中，以获取最标准的词类标注。

在本实施例的一个可选实施方式中，基于所述最终词汇的词向量，通过欧氏距离公式，对所述最终词汇计算筛选10个标注词类的相似词，然后通过统计这10个相近词所属词类的概率分布，得到排名前3的词类作为所述最终词汇的候选词类。然后，基于第二DNN神经网络预测的候选词类和KNN的词类进行综合分析，比较所述候选词类概率和相似词词类概率，返回概率最高的词类为所述最终分词的词类。

进一步参考图7，作为对上述图2所示方法的实现，本申请提供了一种基于神经网络的分词和词类标注装置的一个实施例，该装置实施例与图2所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。

如图7所示，本实施例所述的基于神经网络的分词和词类标注装置700包括：语料获取模块701、分词模块702、筛选模块703、候选词类标注模块704、相似词类标注模块705及词类输出模块706。其中：

语料获取模块701，用于获取待分词的语料；

分词模块702，用于将所述待分词语料输入到预先训练的第一DNN神经网络模型中，获取所述第一DNN神经网络模型响应所述待分词语料而输出的多个初始分词；

筛选模块703，用于计算每个初始分词的内部聚合度和信息熵，将内部聚合度和信息熵都超过设定的阈值的初始分词确定为最终分词；

候选词类标注模块704，用于将所述最终分词输入预先训练的第二DNN神经网络模型，获取所述第二DNN神经网络模型响应所述最终分词而输出的候选词类及候选词类概率；

相似词类标注模块705，用于将所述最终分词输入KNN模型中，获取所述最终分词的相似词，并获取相似词的词类及计算相似词词类概率；

词类输出模块706，用于比较所述候选词类概率和相似词词类概率，返回概率最高的词类为所述最终分词的词类。

在本发明实施例中，通过语料获取模块701获取待分词的语料，分词模块702将所述待分词语料输入到预先训练的第一DNN神经网络模型中进行分词，通过多种方式划分并输出多个初始分词，其中所述初始分词是所述第一DNN神经网络模型对待分词语料进行多种方式划分的词汇的汇总，用于提高数据的完整性。然后通过计算每个初始分词的内部聚合度和信息熵，将内部聚合度和信息熵都超过设定的阈值的初始分词筛选为最终分词，以筛选出符合语料场景的分词，从而提高分词的准确性。另外，将筛选出的最终分词输入预先训练的第二DNN神经网络模型，获取所述第二DNN神经网络模型响应所述最终分词而输出的候选词类及候选词类概率；将所述最终分词输入KNN模型中，获取所述最终分词的相似词，并获取相似词的词类及计算相似词词类概率；比较所述候选词类概率和相似词词类概率，返回概率最高的词类为所述最终分词的词类。本发明实施例在分词的同时完成词性标注的工作，进一步提高分词的精度，针对不同的场景提供最契合该场景的分词结果。

进一步地，在所述分词模块702中，第一DNN神经网络模型对原始语料的训练包括：获取训练语料，通过分词工具对所述训练语料划分训练分词，生成词汇表，计算所述词汇表中每个训练分词的内部聚合度和信息熵，并基于计算结果综合筛选出分词结果。将所述训练语料输入到所述第一DNN神经网络模型中，分析所述语料中每个字符的词位置，并在分词位置标注结果。当所述标注结果与所述分词结果不一致时，反复循环迭代的更新所述第一DNN神经网络模型中的权重，至所述标注结果与所述分词结果一致时，结束训练。

具体的，本实施例通过公式①计算所述训练分词的内部聚合度：

其中，Score_inner为内部聚合度，Count(x)为所述训练分词在所述训练语料中出现的次数；Count(x₁)、Count(x₂)为所述训练分词进一步划分的词汇在语料中出现的次数，Length(Corpus)为所述训练语料的总语句数量；

所述信息熵包括左信息熵和右信息熵，通过公式②计算所述训练分词的左信息熵或右信息熵：

其中，当采用公式②计算左信息熵时，Entropy为左信息熵值，N为所述训练分词的左边词汇的数量，pi为所述训练分词的左边词汇出现的概率；当采用公式②计算右信息熵时，Entropy为右信息熵值，N为所述训练分词或者初始分词的右边词汇的数量，p_i为所述训练分词的右边词汇出现的概率；以及公式③进一步分析所述训练分词的内部聚合度：

其中，所述Count(x)为所述训练分词或者初始分词在语料中出现的次数；Count(x₂₁)和Count(x₂₂)为所述训练分词Count(x₂)的二次划分词汇在语料中出现的次数，Length²(Corpus)为语料的总语句数量。

当所述训练分词的内部聚合度或者信息熵超过预设阈值时，将所述训练分词作为分词结果的候选词汇。

更具体地，所述第一DNN神经网络模型采用基于LSTM模型的3层深度学习神经网络，分析和输出所述训练语料中的字符的分词位置的概率，并标注分词结果。

进一步地，所述候选词类标注模块704具体包括分词位置获取子模块，向量化子模块，候选词类分析子模块和候选词处理子模块。其中，

分词位置获取子模块用于获取所述最终分词在所述语料中的位置；

向量化子模块用于将所述最终分词向量化；

候选词类分析子模块用于基于所述最终分词的向量在所述第二DNN神经网络模型训练获取所述最终分词对于模型中设定的词类的概率分布；

候选词处理子模块用于选择预设数量的词类作为候选词类。

更进一步地，所述相似词类标注模块705具体包括相似词获取子模块，相似词类分析子模块和相似词处理子模块，其中，

相似词获取子模块用于基于所述最终分词的词向量，通过欧氏距离公式，获取多个所述最终分词的相似词；

相似词类分析子模块用于获取所述相似词的词类并计算所述相似词所属词类的概率分布；

相似词处理子模块用于选择预设数量相似词的词类作为候选词类。

为解决上述技术问题，本申请实施例还提供计算机设备。具体请参阅图8，图8为本实施例计算机设备基本结构框图。

所述计算机设备8包括通过系统总线相互通信连接存储器81、处理器82、网络接口83。需要指出的是，图中仅示出了具有组件81-83的计算机设备8，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。其中，本技术领域技术人员可以理解，这里的计算机设备是一种能够按照事先设定或存储的指令，自动进行数值计算和/或信息处理的设备，其硬件包括但不限于微处理器、专用集成电路(ApplicationSpecific Integrated Circuit，ASIC)、可编程门阵列(Field－Programmable GateArray，FPGA)、数字处理器(Digital Signal Processor，DSP)、嵌入式设备等。

所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。

所述存储器81至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中，所述存储器81可以是所述计算机设备8的内部存储单元，例如该计算机设备8的硬盘或内存。在另一些实施例中，所述存储器81也可以是所述计算机设备8的外部存储设备，例如该计算机设备8上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(FlashCard)等。当然，所述存储器81还可以既包括所述计算机设备8的内部存储单元也包括其外部存储设备。本实施例中，所述存储器81通常用于存储安装于所述计算机设备8的操作系统和各类应用软件，例如基于神经网络的分词和词类标注方法的程序代码等。此外，所述存储器81还可以用于暂时地存储已经输出或者将要输出的各类数据。

所述处理器82在一些实施例中可以是中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器82通常用于控制所述计算机设备8的总体操作。本实施例中，所述处理器82用于运行所述存储器81中存储的程序代码或者处理数据，例如运行所述基于神经网络的分词和词类标注方法的程序代码。

所述网络接口83可包括无线网络接口或有线网络接口，该网络接口83通常用于在所述计算机设备8与其他电子设备之间建立通信连接。

本申请还提供了另一种实施方式，即提供一种计算机可读存储介质，所述计算机可读存储介质存储有基于神经网络的分词和词类标注程序，所述基于神经网络的分词和词类标注程序可被至少一个处理器执行，以使所述至少一个处理器执行如上述的基于神经网络的分词和词类标注方法的步骤。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本申请各个实施例所述的方法。

显然，以上所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例，附图中给出了本申请的较佳实施例，但并不限制本申请的专利范围。本申请可以以许多不同的形式来实现，相反地，提供这些实施例的目的是使对本申请的公开内容的理解更加透彻全面。尽管参照前述实施例对本申请进行了详细的说明，对于本领域的技术人员来而言，其依然可以对前述各具体实施方式所记载的技术方案进行修改，或者对其中部分技术特征进行等效替换。凡是利用本申请说明书及附图内容所做的等效结构，直接或间接运用在其他相关的技术领域，均同理在本申请专利保护范围之内。

Claims

1.一种基于神经网络的分词和词类标注方法，其特征在于，包括下述步骤：

获取待分词的语料；将所述待分词语料输入到预先训练的第一DNN神经网络模型中，获取所述第一DNN神经网络模型响应所述待分词语料而输出的多个初始分词；计算每个初始分词的内部聚合度和信息熵，将内部聚合度和信息熵都超过设定的阈值的初始分词确定为最终分词；将所述最终分词输入预先训练的第二DNN神经网络模型，获取所述第二DNN神经网络模型响应所述最终分词而输出的候选词类及候选词类概率；将所述最终分词输入KNN模型中，获取所述最终分词的相似词，并获取相似词的词类及计算相似词词类概率；比较所述候选词类概率和相似词词类概率，返回概率最高的词类为所述最终分词的词类；

其中，所述第一DNN神经网络模型的训练包括以下步骤：

获取训练语料；通过分词工具对所述训练语料划分训练分词，生成词汇表；计算所述词汇表中每个训练分词的内部聚合度和信息熵，并基于计算结果综合筛选出分词结果；将所述训练语料输入到所述第一DNN神经网络模型中，分析所述语料中每个字符的词位置，并在分词位置标注结果；当所述标注结果与所述分词结果不一致时，反复循环迭代的更新所述第一DNN神经网络模型中的权重，至所述标注结果与所述分词结果一致时，结束训练；

所述第一DNN神经网络模型在训练时对所述训练分词以及对每个所述初始分词的内部聚合度和信息熵计算方式为：

通过公式①计算所述训练分词或者初始分词的内部聚合度：

在公式①中，Score_inner为内部聚合度，Count(x)为所述训练分词在所述训练语料中出现的次数或所述初始分词在所述待分词的语料中出现的次数；Count(x₁)、Count(x₂)为所述训练分词或者初始分词进一步划分的词汇在语料中出现的次数，Length(Corpus)为所述训练语料或者待分词的语料的总语句数量；

当采用公式②计算左信息熵时，Entropy为左信息熵值，N为所述训练分词或者初始分词的左边词汇的数量，p_i为所述训练分词或初始分词的左边词汇出现的概率；当采用公式②计算右信息熵时，Entropy为右信息熵值，N为所述训练分词或者初始分词的右边词汇的数量，p_i为所述训练分词或初始分词的右边词汇出现的概率；

当初始分词的内部聚合度大于1000，左信息熵和右信息熵均大于1时，将该初始分词作为最终分词；

2.根据权利要求1所述的基于神经网络的分词和词类标注方法，其特征在于，所述通过分词工具对所述训练语料划分训练分词，生成词汇表的步骤之后；所述方法还包括：

对词汇表的训练分词进行二次划分，得到二次划分词汇；

通过计算公式③计算所述二次划分词汇的内部聚合度：

3.根据权利要求1所述的基于神经网络的分词和词类标注方法，其特征在于，所述将所述训练语料输入到所述第一DNN神经网络模型中，分析所述语料中每个字符的词位置，并在分词位置标注结果的步骤具体包括：

4.根据权利要求1所述的基于神经网络的分词和词类标注方法，其特征在于，所述将所述最终分词输入预先训练的第二DNN神经网络模型，获取所述第二DNN神经网络模型响应所述最终分词而输出的候选词类及其概率的步骤，包括：

获取所述最终分词在所述语料中的位置；

将所述最终分词向量化；

选择预设数量的词类作为候选词类。

5.根据权利要求4所述的基于神经网络的分词和词类标注方法，其特征在于，所述将所述最终分词输入KNN模型中，获取所述最终分词的相似词，并获取相似词的词类及计算概率的步骤包括：

选择预设数量相似词的词类作为候选词类。

6.一种基于神经网络的分词和词类标注装置，其特征在于，包括：

语料获取模块，用于获取待分词的语料；

词类输出模块，用于比较所述候选词类概率和相似词词类概率，返回概率最高的词类为所述最终分词的词类；

其中，所述分词模块在对第一DNN神经网络模型的训练时，具体用于：

通过公式①计算所述训练分词或者初始分词的内部聚合度：

7.一种计算机设备，其特征在于，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至5中任一项所述的基于神经网络的分词和词类标注方法的步骤。

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至5中任一项所述的基于神经网络的分词和词类标注方法的步骤。