CN107423288A

CN107423288A - 一种基于无监督学习的中文分词系统及方法

Info

Publication number: CN107423288A
Application number: CN201710543999.8A
Authority: CN
Inventors: 高翔; 于敬; 文辉; 纪达麒; 桂洪冠
Original assignee: Information Technology (shanghai) Co Ltd
Current assignee: Information Technology (shanghai) Co Ltd
Priority date: 2017-07-05
Filing date: 2017-07-05
Publication date: 2017-12-01

Abstract

本发明公开了一种基于无监督学习的中文分词系统及方法，其中系统包括语料数据处理模块，用于获取语料数据，将语料数据转换为纯文本；离线模型训练模块，用于将纯文本进行编码、清洗、去重处理后，进行字向量模型训练；在线分词模块，用于接收输入文本，利用训练好的字向量模型输出输入文本对应的分词结果。本发明可针对不同领域或系统选择语料数据的范围及内容；免去人工标注数据的时间及经济成本，通过字向量模型的使用，完成了一套无监督的中文分词系统。

Description

一种基于无监督学习的中文分词系统及方法

技术领域

本发明涉及文本处理技术领域，具体涉及一种基于无监督学习的中文分词系统及方法。

背景技术

分词技术在自然语言处理中是一种比较基础的模块。对于英文等印欧语系语言，由于词之间有空格作为词边际标注，一般情况下都能简单且正确的提取出来。而中文、日文等文字，除了标点符号之外，字之间紧密相连，没有明显的词边界，因此很难将词提取出来。

分词的意义非常大，在中文中，单字作为最基本的语义单位，虽然也有自己的意义，但表意能力较差，意义较分散，而词的表意能力更强，能更加准确的描述一个事物，因此在自然语言处理中，通常情况下词(包括单字成词)是最基本的语义处理单位。在具体的应用上，比如在常用的搜索引擎中，term如果是词粒度的话，不仅能够减少每个term的倒排列表长度提升系统性能，并且召回的结果相关性高更准确。比如搜索query“的确”，如果是单字切分的话，则有可能召回“你讲的确实在理”这样的doc。分词方法大致分为两种：基于词典的机械切分和基于统计模型的切分两种方式。

基于词典机械切分方法本质上就是字符串匹配的方法，将一串文本中的文字片段和已有的词典进行匹配，如果匹配到，则此文字片段就作为一个分词结果。但是基于词典的机械切分会遇到多种问题，最为常见的包括歧义切分问题和未登录词问题。其中，歧义切分指的是通过词典匹配给出的切词结果和原来语句所要表达的意思不相符或差别较大，在机械切分中比较常见，比如下面的例子：“结婚的和尚未结婚的人”，通过机械切分的方式，会有两种切分结果：1)“结婚/的/和/尚未/结婚/的/人”；2)“结婚/的/和尚/未/结婚/的/人”。可以明显看出，第二个结果是有歧义的，单纯的机械切分很难避免这样的问题。未登录词识别也称作新词发现，指的是词没有在词典中出现，比如一些新的网络词汇，如“网红”、“走你”；一些未登录的人名、地名；一些外语音译过来的词等。基于词典的方式较难解决未登录词的问题，简单的case可以通过加词典解决，但是随着字典的增大，可能会引入新的badcase，并且系统的运算复杂度也会增加。

基于统计模型的分词方法，简单来讲就是一个序列标注问题。在一段文字中，我们可以将每个字按照他们在词中的位置进行标注，常用的标记有以下四个label：B—Begin，表示这个字是一个词的首字；M—Middle，表示这是一个词中间的字；E—End，表示这是一个词的尾字；S—Single，表示这是单字成词。分词的过程就是将一段字符输入模型，然后得到相应的标记序列，再根据标记序列进行分词。举例来说：“达观数据是企业大数据服务商”，经过模型后得到的理想标注序列是：“BMMESBEBMEBME”，最终还原的分词结果是“达观数据/是/企业/大数据/服务商”。NLP领域中，解决序列标注问题的常见模型主要有HMM和CRF，以及近年来流行的基于深度神经网络的标注模型。

然而无论是基于词典的机械切分或改进的机械切分分词系统，还是基于统计模型序列标注方式的分词系统，都需要分词标注语料才能完成。分词标注语料指的是通过人工的方式，将原始的文本中词与词之间，使用分隔符(通常为空格)隔开后的文本数据。由于无论是基于机械切分还是基于序列标注模型的分词系统，都需要使用大量的人工标注数据来构建分词系统，现有的分词系统虽然已有一些经典的分词标注语料数据，但是存在以下问题：1)时间久远，对较新的词汇无法胜任；2)领域较宽泛，对特殊领域的词汇覆盖较少，导致特殊领域分词效果较差；3)语料总体规模较小，导致某些序列标注模型容易过拟合；4)语料标注可能有误，给系统带来噪声干扰；5)人工标注语料费时费工，时间经济成本较高。

发明内容

本发明的目的在于使用大量未经过人工标注的语料数据进行模型训练，实现中文分词。

为了实现上述问题，本发明提供了一种基于无监督学习的中文分词系统，包括

语料数据处理模块，用于获取语料数据，将语料数据转换为纯文本；

离线模型训练模块，用于将纯文本进行编码、清洗、去重处理后，进行字向量模型训练，并生成包括使用领域类型与字向量模型的对应表；

在线分词模块，用于接收输入文本，根据接收输入文本的接口参数查询对应表，利用查询对应表获得的字向量模型输出与输入文本对应的分词结果。

进一步，语料数据处理模块包括

第一处理单元，用于获取数据库数据，根据预先选择的字段获取对应的字段数据，根据字段数据得到纯文本；

第二处理单元，用于利用爬虫技术抓取网页数据，对网页数据进行信息抽取后得到纯文本；

第三处理单元，用于与语料数据库通信，选择语料库并进行脚本处理，得到纯文本。

进一步，离线模型训练模块还包括

归档单元，用于将所有字向量模型按照使用领域分类存储。

进一步，在线分词模块包括

词图构建单元，用于根据预设的词长度，将输入文本进行切分，得到不同词长度的文本片段，将所有的文本片段进行全连接得到分词词图；

权重计算单元，用于根据训练好的字向量模型计算每个文本片段的权重；

最大路径单元，用于计算每个分词词图中不同文本片段组合的权重之和，得到权重之和最大的分词词图并将其对应的文本片段组合作为分词结果输出。

进一步，词图构建单元包括

最长词子单元，用于设置输入文本中词的最长长度N，N为大于0的自然数；

分词子单元，用于遍历输入文本，按照最长长度进行切分，得到对应的分词片段；

词图子单元，用于遍历每个分词片段，按照每个分词片段在输入文本中的前后顺序查找对应的分词片段，将该分词片段与前后顺序的分词片段连接得到所有词图。

本发明还提供了一种基于无监督学习的中文分词方法，包括如下步骤：

获取语料数据，将语料数据转换为纯文本；

将纯文本进行编码、清洗、去重处理后，进行字向量模型训练，并生成包括使用领域类型与字向量模型的对应表；

接收输入文本，根据接收输入文本的接口参数查询对应表，利用查询对应表获得的字向量模型输出与输入文本对应的分词结果。

进一步，所述获取语料数据，将语料数据转换为纯文本具体包括

获取数据库数据，根据预先选择的字段获取对应的字段数据，根据字段数据得到纯文本；

利用爬虫技术抓取网页数据，对网页数据进行信息抽取后得到纯文本；以及

与语料数据库通信，选择语料库并进行脚本处理，得到纯文本。

进一步，所述将纯文本进行编码、清洗、去重处理后，对字向量模型进行训练还包括

将所有字向量模型按照使用领域分类存储。

进一步，所述接收输入文本，利用训练好的字向量模型输出输入文本对应的分词结果具体包括

根据预设的词长度，将输入文本进行切分，得到不同词长度的文本片段，将所有的文本片段进行全连接得到分词词图；

根据训练好的字向量模型计算每个文本片段的权重；

计算每个分词词图中不同文本片段组合的权重之和，得到权重之和最大的分词词图并将其对应的文本片段组合作为分词结果输出。

进一步，所述根据预设的词长度，将输入文本进行切分，得到不同词长度的文本片段，将所有的文本片段进行全连接得到分词词图包括

设置输入文本中词的最长长度N，N为大于0的自然数；

遍历输入文本，按照最长长度进行切分，得到对应的分词片段；

遍历每个分词片段，按照每个分词片段在输入文本中的前后顺序查找对应的分词片段，将该分词片段与前后顺序的分词片段连接得到所有词图。

在上述技术方案中，本发明可针对不同领域或系统选择语料数据的范围及内容；免去人工标注数据的时间及经济成本，通过字向量模型的使用，完成了一套无监督的中文分词系统。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1a为本发明所述的基于无监督学习的中文分词系统的框图结构示意图；

图1b为本发明所述的基于无监督学习的中文分词系统中语料数据处理模块的框图结构示意图；

图1c为本发明所述的基于无监督学习的中文分词系统中在线分词模块的框图结构示意图；

图2为本发明所述的基于无监督学习的中文分词系统中训练字向量一个实施例的结果示意图；

图3为本发明所述的基于无监督学习的中文分词系统中字向量模型一个实施例的分类存储示意图；

图4为本发明所述的基于无监督学习的中文分词方法的流程结构示意图；

图5为应用本发明所述的基于无监督学习的中文分词方法一个实施例的架设结构示意图；

图6为应用本发明所述的基于无监督学习的中文分词方法中在线分词的工作原理流程示意图；

图7为应用本发明所述的基于无监督学习的中文分词方法中在线分词中构建词图的流程示意图；

图8为应用本发明所述的基于无监督学习的中文分词方法中对输入文本进行处理的流程示意图；

图9为应用本发明所述的基于无监督学习的中文分词方法中对输出分词结果的流程示意图。

具体实施方式

为了使本领域的技术人员更好地理解本发明的技术方案，下面将结合附图对本发明作进一步的详细介绍。

如图1所示，本发明提供了一种基于无监督学习的中文分词系统，包括语料数据处理模块10、离线模型训练模块20和在线分词模块30。

其中，语料数据处理模块10，用于获取语料数据，将语料数据转换为纯文本；

例如，本发明所述的语料数据处理模块能够通过选择字段插座数据库，进行数据获取，还能通过实时抓取不同网页数据以及语料数据库中语料，保证了词汇概括领域广、实时抓取当前最新词汇，提高语料数据库规模，通过对数据库、语料库、当前网页信息的不同处理得到纯文本，减少了对语料标记的步骤，降低时间经济成本。

离线模型训练模块20，用于将纯文本进行编码、清洗、去重预处理后，进行字向量模型训练，并生成包括使用领域类型与字向量模型的对应表；离线模型训练模块能够对纯文本进行编码、清洗、去重，之后利用字向量模型对处理后的纯文本进行训练。所使用的字向量模型可预先构建，也可以利用现有的字向量模型或词向量模型。如图2所示分别为“中”和“国”进行训练得到字向量模型。

进一步，离线模型训练模块还包括

归档单元，用于将所有字向量模型按照使用领域分类存储。

具体实施时，分类存储可按照行业、预设的目录、语料等分类存储，具体如图3所示，将字向量模型按照小说、新闻、技术、视频等分类，具体地还可按照命名方式进行。

在线分词模块30，用于接收输入文本，根据接收输入文本的接口参数查询对应表，利用查询对应表获得的字向量模型输出与输入文本对应的分词结果。

在线分词模块能够实现将接收到的输入文本输入到训练好的字向量模型，从而输出分词结果。语料数据处理模块10处理得到的纯文本，字向量模型对纯文本进行编码、清洗、去重预处理后，对字向量模型进行了训练，实现了无需监督、且不需标注的中文分词效果。

进一步，如图1b所示语料数据处理模块10包括第一处理单元101、第二处理单元102和第三处理单元103。其中，第一处理单元101用于获取数据库数据，根据预先选择的字段获取对应的字段数据，根据字段数据得到纯文本；第二处理单元102，用于利用爬虫技术抓取网页数据，对网页数据进行信息抽取后得到纯文本；第三处理单元103，用于与语料数据库通信，选择语料库并进行脚本处理，得到纯文本。

进一步，如图1c所示在线分词模块30包括词图构建单元301、权重计算单元302和最大路径单元303。其中，词图构建单元301用于根据预设的词长度，将输入文本进行切分，得到不同词长度的文本片段，将所有的文本片段进行全连接得到分词词图；权重计算单元302用于根据训练好的字向量模型计算每个文本片段的权重；最大路径单元303用于计算每个分词词图中不同文本片段组合的权重之和，得到权重之和最大的分词词图并将其对应的文本片段组合作为分词结果输出。更进一步，词图构建单元301包括最长词子单元3011、分词子单元3012和词图子单元3013。其中，最长词子单元3011用于设置输入文本中词的最长长度N，N为大于0的自然数；分词子单元3012用于遍历输入文本，按照最长长度进行切分，得到对应的分词片段；词图子单元3013用于遍历每个分词片段，按照每个分词片段在输入文本中的前后顺序查找对应的分词片段，将该分词片段与前后顺序的分词片段连接得到所有词图。

如图4为本发明所示的基于无监督学习的中文分词方法一个实施例的流程示意图。

S101、获取语料数据，将语料数据转换为纯文本；具体地，获取数据库数据，根据预先选择的字段获取对应的字段数据，根据字段数据得到纯文本；利用爬虫技术抓取网页数据，对网页数据进行信息抽取后得到纯文本；与语料数据库通信，选择语料库并进行脚本处理，得到纯文本。具体而言，该步骤利用第一处理单元与语料数据库通信，在语料数据库的基础上，通过与数据库通信，拓宽了词汇领域，通过利用网络爬虫技术对网页数据进行抓取，增加了当前最新词汇，实现了针对不同领域或系统选择语料数据的范围及内容。具体而言，网页数据包括新闻网页、百科网页、特定领域网页等等。

在S102中，离线模型训练模块20将纯文本进行编码、清洗、去重处理后，进行字向量模型训练，并生成包括使用领域类型与字向量模型的对应表；

在S103中，在线分词模块30接收输入文本，根据接收输入文本的接口参数查询对应表，利用查询对应表获得的字向量模型输出与输入文本对应的分词结果。

不同类别(即不同领域)的输入文本对应不同的字向量模型，具体输入文本的类别(即领域)可通过接收输入文本的接口参数进行区别。具体使用中，本发明通过向在线分词用户提供文本输入接口获取输入文本，根据接口参数从而获取输入文本所属的领域，查询对应表后，得到该输入文本对应的字向量模型，然后通过该字向量模型进行分词。

如图5所示为应用本发明所述的基于无监督学习的中文分词方法一个实施例的架设结构示意图。具体包括用户客户端100、所述基于无监督学习的中文分词系统200和存储字向量模型的数据库单元300中。本实施例中数据库单元300为所述基于无监督学习的中文分词系统200的存储单元，具体可存储在所述基于无监督学习的中文分词系统200上，还可选的单独存储在一个数据服务器上。所述基于无监督学习的中文分词系统200上存储输入文本类型与字向量模型对应表。具体使用前，本发明所述的基于无监督学习的中文分词系统200预先向搜索引擎(包括第三方或自主研发的)上提供接口，通过接口的不同区分输入文本的领域，如在腾讯浏览器的新闻界面窗口输入文本，那么该输入文本对应的字向量模型即存储在新闻类别下。具体使用时，用户客户端100向所述的基于无监督学习的中文分词系统200发送输入文本，查询输入文本类型与字向量模型对应表后，获取与该输入文本对应的字向量模型存储位置，根据该位置调用该字向量模型对输入文本进行分词。

如图6所示为本实施例中基于无监督学习的中文分词系统200输出分词结果的工作原理流程示意图。

例如，S103具体包括S1031-S1033。

在S1031中，词图构建单元301根据预设的词长度，将输入文本进行切分，得到不同词长度的文本片段，将所有的文本片段进行全连接得到分词词图；

更进一步，如图7所示S1031具体包括如下步骤：

设置输入文本中词的最长长度N，N为大于0的自然数；

对于一段输入的文本，设最长词的长度为n，则文本中任意一段长度小于等于n的文本片段(以下简称片段)都有可能成为一个词。设文本长度为m，当前字符位置为i，则i，i+1，i+2...i+n等片段皆有可能成为一个词。将所有可能片段作为词图中的一个顶点，按照片段在原文本中的前后顺序连线，构成词图。具体以原始文本“我是中国人”，最长词汇长度n＝3举例，添加虚拟节点“START”及“END”为例进行处理得到的如图6所示。

在S1032中，权重计算单元302根据训练好的字向量模型计算每个文本片段的权重；

如图8所示，对于文本片段的权重计算，本实施例中以使用基于向量余弦相似度的计算方法为例进行说明，对文本片段中，计算每个文字和其窗口大小内的其他文字的相似度，并将相似度取log后相加得到最终文本片段相似度。

在S1033中，最大路径单元303计算每个分词词图中不同文本片段组合的权重之和，得到权重之和最大的分词词图并将其对应的文本片段组合作为分词结果输出。

如图9所示，计算好文本片段权重之后，将权重取反之后赋于如图6所示中的词图，并使用最短路径查找算法获取权重最大的一条路径，并将路径上文本片段作为最终的分词结果。

以上只通过说明的方式描述了本发明的某些示范性实施例，毋庸置疑，对于本领域的普通技术人员，在不偏离本发明的精神和范围的情况下，可以用各种不同的方式对所描述的实施例进行修正。因此，上述附图和描述在本质上是说明性的，不应理解为对本发明权利要求保护范围的限制。

Claims

1.一种基于无监督学习的中文分词系统，其特征在于，包括

2.根据权利要求1所述的基于无监督学习的中文分词系统，其特征在于，语料数据处理模块包括

3.根据权利要求1所述的基于无监督学习的中文分词系统，其特征在于，离线模型训练模块还包括

归档单元，用于将所有字向量模型按照使用领域分类存储。

4.根据权利要求1所述的基于无监督学习的中文分词系统，其特征在于，在线分词模块包括

5.根据权利要求1所述的基于无监督学习的中文分词系统，其特征在于，词图构建单元包括

6.一种基于无监督学习的中文分词方法，其特征在于，包括如下步骤：

获取语料数据，将语料数据转换为纯文本；

将纯文本进行编码、清洗、去重处理后，对字向量模型进行训练，并生成包括使用领域类型与字向量模型的对应表；

7.根据权利要求6所述的基于无监督学习的中文分词方法，其特征在于，所述获取语料数据，将语料数据转换为纯文本具体包括

8.根据权利要求1所述的基于无监督学习的中文分词方法，其特征在于，所述将纯文本进行编码、清洗、去重处理后，对字向量模型进行训练还包括

将所有字向量模型按照使用领域分类存储。

9.根据权利要求6所述的基于无监督学习的中文分词方法，其特征在于，所述接收输入文本，利用训练好的字向量模型输出输入文本对应的分词结果具体包括

根据训练好的字向量模型计算每个文本片段的权重；

10.根据权利要求9所述的基于无监督学习的中文分词方法，其特征在于，所述根据预设的词长度，将输入文本进行切分，得到不同词长度的文本片段，将所有的文本片段进行全连接得到分词词图包括

设置输入文本中词的最长长度N，N为大于0的自然数；