CN111832299A

CN111832299A - 一种中文分词系统

Info

Publication number: CN111832299A
Application number: CN202010689156.0A
Authority: CN
Inventors: 岳希; 向春淼; 唐聃; 高燕; 曾琼
Original assignee: Chengdu University of Information Technology
Current assignee: Chengdu University of Information Technology
Priority date: 2020-07-17
Filing date: 2020-07-17
Publication date: 2020-10-27

Abstract

本发明公开了一种中文分词系统，涉及自然语言处理技术领域，所述系统包括：文本获取模块，用于获得文本文件数据；文本预处理模块：用于对文本文件数据进行预处理，获得待分词文本数据；分词模块：用于基于词典对待分词文本数据进行分词处理，获得文本数据分词结果；新词发现模块：用于对文本数据分词结果进行互信息计算，基于互信息计算结果识别新词，并将识别的新词存入分词模块的分词词典中。本发明优化了分词的召回率和准确率，其有了较大的提高；解决了专业领域中专业词库的新词来源；优化了搜索到要匹配的词语的速度，也大大提高了整体分词速度。

Description

一种中文分词系统

技术领域

本发明涉及自然语言处理技术领域，具体地，涉及一种基于改进的正向最大匹配算法与互信息新词识别的中文分词系统。

背景技术

目前，业内常用的现有技术是这样的：随着信息技术的高速发展，各专业领域的文本数据急剧增长。利用自然语言处理技术分析文本数据，解决实际问题并提高工作效率，已成为研究热点之一。中文分词是中文自然语言处理技术的基础性工作，其结果直接影响了后续工作(如信息检索、文本分类、信息抽取等)的性能。

相比于英文分词，中文分词要复杂很多。中文句子中的词由多个独立的汉字组成并且字与字之间没有任何分割标记符，此外，汉字的开放性使得中文分词难有一个统一的构词标准，由此造成中文分词的歧义繁多。目前的分词技术主要是提高中文分词的正确率，尽可能地解决歧义消除和未登录词(Out-of-Vocabulary，OOV)识别问题。

目前主流的分词算法如下：

(1)基于词典分词算法，这种方法又叫做机械分词方法，它是按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行匹配，若在词典中找到某个字符串，则匹配成功(识别出一个词)。按照扫描方向的不同，串匹配分词方法可以分为正向匹配和逆向匹配；按照不同长度优先匹配的情况，可以分为最大(最长)匹配和最小(最短)匹配；常用的基于词典的分词方法为正向最大匹配算法(Forward Maximum Matching,FMM)、逆向最大匹配算法(Backward Maximum Matching,BMM)和双向最大匹配算法(Bi-directctionMatching method,BM)。

(2)基于统计的分词算法，该算法通过训练大量已经过人工分词的语料库获取经验信息，将语言知识转化为统计信息，建立起能反映相邻汉字或词的互信度的概率模型，从而识别新词并将句子切分成词，例如互信息方法。统计分词算法通常可分为基于有向图的全切分算法和基于字标注的机器学习算法。基于有向图的全切分算法主要采用N-gram统计语言模型，即认为第n个词的出现只与前n-1个词相关，整个句子的概率是每个词出现概率的乘积；基于字标注的机器学习算法主要采用隐马尔科夫模型(Hidden Markov Model,HMM)、最大熵模型(Maximum Entropy,ME)、条件随机场模型(Conditional Random Field,GRF)。

在本申请发明人在实现本发明技术方案的过程中，发现上述技术至少存在如下技术问题：

(1)基于词典的方法，实现、部署比较容易，但是分词精度有限，且对于未登录词(不在词典里中的词语)识别较差；基于统计的方法，速度较快，对未登录词识别效果较好，能够根据使用领域达到较高的分词精度，但是实现比较复杂。例如在招聘领域中，通常需要解析的对象为一句话短语，不仅包括岗位要求所包含的技能名称，同时也包括一些基本的描述，从语句结构来看，基本由名词构成，同时含有熟练程度、技能名称、技能类型等信息词，因此词库偏向信息技术类型，而与生活语料库关系较小。同时研究使用的语料库一般都是人为地选择一些语句、篇章构成训练语料库，这些语料库一般都建得比较小，这就很难保证它能代表一般语言特征；而纯粹利用统计算法进行分词也存在局限性，这些完全抛弃了汉语的词法、语法、语义信息，而只根据统计算法的结果来进行分词，这类方法就过分依赖于统计算法。

(3)未登录词识别：未登录词指的是没有收录到分词系统词典中的词。对于汉语而言，词组的构造没有固定不变的标准，随着人们言语表达需要的变化，新的词组接连不断地出现在语料中，比如人名、地名以及各类专业术语，如今还有普遍流行的网络新词。例如，在招聘数据的岗位要求中许多专业术语，并且技能的迭代更新速度快，未登录词居多。把基于词典的分词方法应用到招聘领域，由于招聘领域专业词汇的变化，导致许多语料出现了领域词汇，使得未登录词识别问题成为跨领域分词的一个关键问题。同时，由于领域的改变引起上下文变化，直接导致已登录词的处理能力下降。

发明内容

针对技术问题(1)，本发明的其中一个目的是使用词典和自动识别新词的方法相结合进行处理。利用结合基于词典的分词算法实现分词速度快、效率高、易修改、灵活性强的效果和基于统计的分词算法实现识别未登录词，进行歧义消除的效果。

针对技术问题(2)，本发明的其中一个目的是为了解决由机械分词所引起的歧义性，在原有的正向匹配算法的基础上，采取一种基于改进的正向最大匹配法，并且为了提高分词速度，对原有的hash词典进行了分析、研究，并在其构造机制上进行了相应的改进。

针对技术问题(3)，本发明的其中一个目的是采取对训练文本集中相邻的各个字或者词组的频度进行统计，计算它们之间的联系紧密程度，从而确定是否能组合成词。互信息反映的是字与字之间的静态结合，汉字之间的互信息体现了汉字之间结合关系的紧密程度，当某一字串结合的紧密程度高于给定的阈值时，便可认为此字串可能构成了一个词。对训练文本中相邻出现的各个字之间组合的频度进行统计，计算出相邻字出现的频率，用这个频率与字单独出现的频率进行比较，计算出汉字之间的互信息，进而判断该字串是否组成词语，能很好的发现未登录词。

为实现上述发明目的，本发明提供了一种中文分词系统，所述系统包括：

文本获取模块，用于获得文本文件数据；

文本预处理模块：用于对文本文件数据进行预处理，获得待分词文本数据；

分词模块：用于基于词典对待分词文本数据进行分词处理，获得文本数据分词结果；

新词发现模块：用于对文本数据分词结果进行互信息计算，基于互信息计算结果识别新词，并将识别的新词存入分词模块的分词词典中。

优选的，新词发现模块用于对待分词文本数据进行统计，得到每个字的字频以及每个字串的频率；基于每个字的字频以及每个字串的频率，计算字、字串在待分词文本数据中出现的概率，将概率值带入互信息计算公式中，得到每个字串的PMI(Point-wise MutualInformation，PMI)值，根据PMI值将大于0的字串作为新词加入到分词词典中。

优选的，互信息计算公式如公式(1)所示：

其中，PMI(AB)为字串AB的相关度(也称为PMI值)，AB表示n个字，n大于或等于2，P(A)代表字或词A在待分词文本数据中出现的概率，P(B)代表字或词B在待分词文本数据中出现的概率，P(AB)代表词AB在待分词文本数据中出现的概率。

优选的，新词发现模块中基于互信息的新词发现步骤包括：

步骤a：假设文本数据分词结果为c，字串的长度为i，最大字串的长度为k；

步骤b：利用文本数据分词结果c预处理后形成汉字组成语句片段集合t；将新词集合w₁置空，并令字串的长度i＝2；

步骤c：判断字串长度i和最大字串的长度k的关系，若i<＝k，则执行步骤c₁，反之，则执行步骤d：

步骤c₁：对语句片段集合t进行单字、字串统计，包括：单字总个数s₁、i字字串总个数s_i、各单字出现的频数N[1…s₁]和各i字字串出现的频数DN[1…s_i]，计算各单字出现的概率P(A)[1…s₁]，以及各i字字串出现的概率P(AB)[1…s_i]；

步骤c₂：对i字字串进行所有可能的二切分，切分的前一部分和后一部分均当作单字处理，将统计量带入互信息计算公式，计算各i字字串在所有可能切分情况下的PMI[1…s_i][m]值，其中m为i字字串二切分的数目；

步骤c₃：将PMI值大于0的i字字串加入新词集合w₁中；

步骤c₄：字串长度i的值加1；

步骤c₅：判断字串长度i和最大字串的长度k的关系，若i<＝k,则执行步骤c₁，反之，执行步骤d；

步骤d：返回新词集合w₁。

优选的，分词词典包括4个部分：词语首字hash表、词长索引表、词语次字hash表和词语剩余字串组；词语首字hash表用于确定词语首字的具体位置，词长索引表用于索引存放对应首字相应词长的每一个字串；词语次字hash表用于确定词语次字的具体位置；词语剩余字串组用于存放词语以首字hash表的关键字和次字hash表的关键字组合开头剩余字串的数组。

优选的，分词词典采用多层hash词典构造机制，分词词典中的每一个词语首字设计为第一层的hash结构，第一层存储以该字为首字的所有词语的最大词长，分词词典中第二层是每个词长所对应的词语，并指向第三层存储的词语第二个字的hash值，分词词典中第四层用于完成对整个词语的搜索。

优选的，词语首字hash表中每一个单位均包括3个部分：第一关键字、最大词长及索引指针，第一关键字指每一个词语的第一个汉字A；最大词长是以汉字A为首字的词语的最大词长；索引指针为指向汉字A的词长的指针；

词长索引表包括对应首字相应词长的每一个字串，词长索引表包括：第二关键字和次字hash表指针，第二关键字是以词语首字对应的词长数；次字hash表指针为指向词语次字hash值的指针；

词语次字Hash表包括第三关键字和剩余字串组指针，第三关键字为每一个词语的第二个汉字B；剩余字串组指针用于指向词典中以AB开头词语的剩余字串数组；

词语剩余字串组包括词语以AB开头剩余字串的数组，即当前词语中去掉首字A和次字B之后的剩余部分。

优选的，分词模块采用正向最大匹配改进算法进行分词，具体步骤包括：

假设待分词字串s＝C₁C₂...C_n，长度为Length，最大匹配初始长度WordMax；扫描字串中的每一个汉字，计算每一个汉字的hash值，获得每一个汉字为首字的词的最大词长L_p，L_max是L_p的最大值，若L_max>Length，则最大匹配初始长度WordMax＝Length，反之，最大匹配初始长度WordMax＝L_max；

取p的初值p＝1，具体分词步骤包括：

(1)判断L_p与WordMax之间的关系，如果L_p<WordMax，执行步骤(2)，否则执行步骤(3)；

(2)p值加1，若p+WordMax-1<＝n，返回步骤(1)，否则执行步骤(5)；

(3)计算C_p的哈希值，得到C_p在Hash表中的位置，确定字串S_word＝C_pC_p+1…C_p+WordMax-1是否与词典中的词语匹配，若匹配成功，则执行步骤(4)，否则返回步骤(2)；

(4)将字串S_word＝C_pC_p+1…C_p+WordMax-1从待切分字串S中切分，将S中剩余的两个字串分为两个子字串，将子字串作为新的字串进行分词，以此类推，直至分词结束；

(5)WordMax＝WordMax-1，p＝1，返回步骤(1)。

优选的，文本获取模块基于web数据挖掘工具获取文本数据，从网页中抓取并解析相关的内容，分别抓取网络内容和解析html源文件，转换成相应的数据表格式。

优选的，文本预处理模块用于实现空数据和/或重复数据和/或无意义符号的删除或替换，并对文本数据进行格式化。

与本发明中的系统对应，本发明还提供了一种中文分词方法，所述方法包括：

获得文本文件数据；

对文本文件数据进行预处理，获得待分词文本数据；

分基于词典对待分词文本数据进行分词处理，获得文本数据分词结果；

对文本数据分词结果进行互信息计算，基于互信息计算结果识别新词，并将识别的新词存入分词模块的分词词典中。

其中，本方法中的各个步骤的具体实现方式与上述中文分词系统中的实现方式一致。

本发明还提供了一种中文分词装置，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现所述中文分词方法的步骤。

本发明还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现所述中文分词方法的步骤。

本发明提供的一个或多个技术方案，至少具有如下技术效果或优点：

利用词典分词方法和自动识别新词的方法相结合进行处理，弥补了单一使用基于词典分词的传统方法的缺陷，并且运用了改进的正向最大匹配算法，优化了正向最大匹配算法(Forward Maximum Matching,FMM)和逆向最大匹配算法(Backward MaximumMatching,BMM)出现的问题，第一：两个最大算法都是以根据词典中最长的那个词的长度为匹配的初始最大词长，这样在进行匹配词长较短的词语时，势必会造成很多无效的循环，浪费大量的时间。第二：遵循的“长词优先”原则，存在着覆盖范围的问题，在进行最大匹配时，往往是从待切分语句字串的第一个字或者最后一个字进行最大匹配，却忽视了中间字串的最大匹配，这种方法很容易造成歧义错误。因此，这种“长词优先”原则忽视了全局范围，仅仅在局部范围有效。改进的正向最大匹配算法是减少匹配过程中匹配的次数以及能够在整个分词过程中更好地实现“长词优先”的原则。

本发明也采用了双字哈希的词典机制，多层hash的词典机制即多次进行hash结构的循环，这种的词典构造机制不仅对词语的首字进行hash查找，对于词语的次字仍然采用hash进行查找。该词典分为4个部分:首字hash表、词长索引表、词语次字hash表、词语剩余字串组。这种词典构造的机制与单层的hash词典构造机制相比，可以快速搜索到要匹配的词语，大大提高了整体分词速度。

本发明也采用了互信息的算法识别未登录词，例如在招聘领域中，由于招聘数据的岗位描述中多含有专业性词汇，虽然词典的创建引入了专业领域的词典，但是随着技术的更新迭代快速，词典的词汇并不完整，故互信息的算法有利于建设专业领域词典，该算法对训练集中的文本进行字频的统计，并且统计相邻的元索之间的互信息，当互信息的值达到某一个阀值的时候，可以认为这两个词是一个词组。互信息的缺点是前期预处理的计算量比较大，需要适当调整阀值来减小内存的占用而在前期处理中进行预处理，可以较好的避免这个问题，也就是使用词典先进行分词处理。基于统计的分词方法能够满足快速分词的要求，并且计算量减小，处理速度加快，同时易于实现，能够有效的查找出未登录的新词并合并到词典中。

本发明优化和解决了很多问题。第一：使用改进的正向最大匹配算法和互信息分析结合之后，优化了分词的召回率和准确率，其有了较大的提高，同时也解决了专业领域中专业词库的新词来源，随着处理数据的增加，专业词库也会越来越完善，从而更好的提高分词的准确率和分词的速度。第二；多层hash的词典机制优化了搜索到要匹配的词语的速度，也大大提高了整体分词速度；第三：解决了传统正向最大匹配算法(Forward MaximumMatching,FMM)和逆向最大匹配算法(Backward Maximum Matching,BMM)出现的在进行匹配词长较短的词语时，会造成很多无效的循环，并且浪费大量的时间和忽视了中间字串的最大匹配，容易造成歧义错误的问题。

附图说明

此处所说明的附图用来提供对本发明实施例的进一步理解，构成本发明的一部分，并不构成对本发明实施例的限定；

图1是本发明实施例提供一种基于改进的正向最大匹配算法与互信息新词识别的中文分词系统的组成示意图；

图2是本发明实施例提供一种基于改进的正向最大匹配算法与互信息新词识别的中文分词系统的内部执行流程示意图；

图3是本发明实施例提供一种基于改进的正向最大匹配算法与互信息新词识别的中文分词系统的功能模块结构图；

图4是本发明实施例提供一种基于改进的正向最大匹配算法与互信息新词识别的中文分词系统中的改进的正向最大匹配算法的流程示意图；

图5是本发明实施例提供一种基于改进的正向最大匹配算法与互信息新词识别的中文分词系统中的互信息新词识别算法的流程示意图。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是，在相互不冲突的情况下，本申请的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是，本发明还可以采用其他不同于在此描述范围内的其他方式来实施，因此，本发明的保护范围并不受下面公开的具体实施例的限制。

本发明实施例针对现有分词技术对文本数据分词的缺陷，提供了一种基于改进的正向最大匹配算法与互信息新词识别的中文分词系统，系统包括：

文本获取模块：

获取文本需要使用web数据挖掘工具，如网络爬虫之类的软件或者可以使用如pyspider、scrapy等python框架非常轻松地编写出自己需要的爬虫，从有关网站的网页中抓取并解析相关的内容，这里本发明使用了从HTML或XML文件中提取数据的Python库Beautiful Soup，使用Python语言编写脚本程序，优点是执行速度适中而且文本的容错能力较强。分别抓取网络内容和解析html源文件，转换成后续所需的数据表格式。

文本预处理模块：

利用正则表达式和python科学包pandas、numpy实现空数据、重复数据、无意义符号的删除或替换，如标点、下划线、特殊符号等无意义符号，这些符号对于分词处理没有任何作用，反而会加重计算量，影响分词的速度，并且对文本数据进行格式化。

基于词典分词模块：

分词词典的机制采用了分词速度较高的多层hash词典构造机制，该分词词典分为4个部分：词语首字hash表、词长索引表、词语次字hash表、词语剩余字串组。

词语首字hash表用于确定词语首字的具体位置，词语首字hash表中每一个单位都包含3个部分，即第一关键字、最大词长及索引指针。其中，第一关键字指每一个词语的第一个汉字，这里假设为A；最大词长是以该字为首字的词语的最大词长；索引指针为指向该字的词长的指针。

词长索引表包含对应首字相应词长的每一个字串，词长索引表由两部分组成，即第二关键字和次字hash表指针。第二关键字是以词语首字对应的词长数；次字hash表指针为指向词语次字hash值的指针。

词语次字Hash表包含两个部分，第三关键字和剩余字串组指针。第三关键字为每一个词语的第二个字，这里假设为B；剩余字串组指针用于指向词典中以AB开头词语的剩余字串数组。

词语剩余字串组包含词语以AB开头剩余字串的数组，即当前词语中去掉首字A和次字B之后的剩余部分。此多层hash词典的基本原理是将分词词典中的每一个词语首字设计为第一层的hash结构，为了配合改进之后正向最大匹配算法，第一层存储以该字为首字的所有词语的最大词长，进而第二层是每个词长所对应的词语，并指向第三层存储的词语第二个字的hash值，最后经过第四层完成对整个词语的搜索。词典内容的创建收录python的jieba分词中的dict.txt的内容，并且导入相关的专业领域中词汇。

采用正向最大匹配改进算法进行分词，具体步骤如下：

取p的初值p＝1，具体分词步骤包括：

(2)p＝p+1，若p+WordMax-1<＝n，返回步骤(1)，否则执行步骤(5)；

(5)WordMax＝WordMax-1，p＝1，返回步骤(1)。

例如:对句子S＝“熟练自然语言处理的使用”进行如下切分：

(1)通过比较得知L_max＝6,Length＝11，L_max<Length，所以WordMax＝6,p＝1，进行步骤(2)；

(2)在分词词典中查询以“熟”为首字的词的最大长度L₁＝4，由于L₁<WordMax，进行步骤(3)；

(3)p＝p+1＝2，因为p+WordMax-1＝7<11，所以在分词词典中查询以“自”为首字的词的最大长度L₂＝6，由于L₂＝WordMax，进行步骤(4)；

(4)根据“自”字的内码确定其在首字Hash表中的位置，进而查找词典中是否存在以“自”为首字的字串“自然语言处理”，经查找，字串“自然语言处理”与词典中的词语可以进行匹配，进行步骤(5)；

(5)将字串“自然语言处理”从待切分字串S中切分保存，对于S中剩余的字串按照字串“自然语言处理”左边和右边分为两个新的待分词字串，S＝“熟练”，S2＝“的使用”，S作为词语保存，对S2进行分词，重复以上分词过程；

(6)分词结果为“熟练/自然语言处理/的/使用”。

基于互信息的新词发现模块：

利用预处理后的语料进行统计，得到每个字的字频以及每个字串的频率，进而计算字、字串在语料中出现的概率，将计算值带入互信息计算公式中，得到每个字串的PMI值。根据PMI值,将大于0的字串作为新词加入到新词系统中。

首先，互信息计算方法如公式(1)所示：

其中，AB表示n(n≥2)个字。例如，二字时,A代表前一个字，B代表后一个字；三字时，A代表前一(二)个字，B代表后二(一)个字；依此类推。P(A)、P(B)、P(AB)代表字(或词)A、B以及AB在语料库中出现的概率。

基于互信息的新词发现的具体算法步骤如下：

步骤c₃：将PMI值大于0的i字字串加入新词集合w₁中；

步骤c₄：字串长度i++；

步骤d：返回新词集合w₁。

本发明优化了分词的召回率和准确率，其有了较大的提高；解决了专业领域中专业词库的新词来源；优化了搜索到要匹配的词语的速度，也大大提高了整体分词速度；解决了传统正向最大匹配算法(Forward Maximum Matching,FMM)和逆向最大匹配算法(Backward Maximum Matching,BMM)出现的在进行匹配词长较短的词语时，会造成很多无效的循环，并且浪费大量的时间和忽视了中间字串的最大匹配，容易造成歧义错误的问题。

如图1所示，本发明实施例提供的基于改进的正向最大匹配算法与互信息新词识别的中文分词系统包括：文本获取模块1、文本预处理模块2、基于词典分词模块3、基于互信息新词发现模块4。

文本获取模块1：用于获取模型训练的数据源，得到的大量数据提高后续的分词的可靠性和稳定性。

文本预处理模块2：用于从文本获取模块1读取获取的数据，进行预处理操作并将计算结果实时传给词典分词模块3。

基于词典分词模块3：获取文本预处理模块2中的数据，进行词典匹配的分词，将结果传给基于互信息新词发现模块4。

基于互信息新词发现模块4：将基于词典分词模块3的分词后的数据，进行互信息计算，并将识别的新词存入基于词典分词的词典中，提高后续的分词的准确性。

文本获取模块1包括网络爬虫模块。网络爬虫模块：使用python爬虫框架scrapy对数据进行爬取，分别抓取网络内容和解析html源文件，转换成后续所需的数据表格式。

文本预处理模块2会对从文本获取模块获取的数据可以进行以下两个方面的处理：空值处理：若在读取数据的过程中获取到某些字段存在空值，则可按照定义将该字段的空值替换为预定数值或者不作任何处理。格式化数据：根据数据源中的各个字段的数据类型，进行数据格式的格式化操作。例如，统一将数据类型转化为字符串类型。

基于词典分词模块3会对预处理后的数据进行分词，包括多层哈希词典机制的构建模块，改进的正向匹配算法模块。多层哈希词典机制的构建模块：多层hash的词典机制即多次进行hash结构的循环，这种词典机制不仅对词语的首字进行hash查找，对于词语的次字仍然采用hash进行查找。多层hash的词典机制的原理是将分词词典中的每一个词语首字设计为第一层的hash结构，为了配合改进之后正向最大匹配算法，第一层存储以该字为首字的所有词语的最大词长，进而第二层是每个词长所对应的词语，并指向第三层存储的词语第二个字的hash值，最后经过第四层完成对整个词语的搜索。改进的正向匹配算法模块：第一，进行最大匹配初始词长的选取。假设待切分字串的长度为Length，最大匹配初始长度为WordMax,对于字串中每一个汉字，在分词词典中进行查找以其为开头的词语的最大长度L,进行比较，取词语长度的最大值设为L_max,若L_max>Length，则最大匹配初始长度WordMax＝Length,反之，最大匹配初始长度WordMax＝L_max。第二，对正向匹配算法的改进，①待切分句子S的长度为Length,从待切分句子的第1个字开始截取长度为WordMax的字串S_word进行匹配。②若词语匹配成功，则认为这个字串为一个词语，从句中切分，然后将此词语左右两边的部分作为新的句子，继续重复此过程进行切分；③若词语匹配不成功，则从句子中的第二个字开始继续截取长度为WordMax的字符串进行匹配；④若词语匹配不成功，则依次从句子中的第三个、第四个.....第Length WordMax+1个字开始截取长度为WordMax的词语进行匹配，若匹配成功，返回步骤②，若都不成功，则说明句子中已经没有长度为WordMax的词语，此时WordMax＝WordMax-1的字串，从句子第一个字开始，按照以上过程，进行匹配。⑤重复以上过程，直至句子全部分词结束。

基于互信息新词发现模块：通过基于词典分词后,形成只由汉字组成的语句片段。利用分词后的语料进行统计，得到每个字的字频以及每个字串的频率，进而计算字、字串在语料中出现的概率，将计算值带人互信息计算公式中，得到每个字串的PMI值。根据PMI值，将大于0的字串作为新词加入到分词词典中。

如图2所示，本发明实施例提供的基于改进的正向最大匹配算法与互信息新词识别的中文分词系统的内部流程包括以下步骤：

S101：利用python的爬虫框架scrapy获取模型训练的数据源，得到的大量数据提高后续的分词的可靠性和稳定性。

S102：读取获取的文本数据，进行预处理操作；

S103：进行基于词典匹配的分词；

S104：对分词后的数据，进行互信息计算，并将识别的新词存入基于词典分词的词典中；

实施例1

当本发明运用到招聘领域中时，图3为本发明实例1提供的基于改进的正向最大匹配算法与互信息新词识别的中文分词系统的功能模块结构图。如图3所示，包括文本数据模块，文本预处理模块，基于词典分词模块，基于互信息新词发现模块，其中：

步骤101文本数据模块：获取模型训练的数据源，得到的大量数据，并将数据发给预处理模块。

(1)包括网络爬虫模块：在招聘领域中，选择招聘数据源，目前招聘信息主要是通过企业自己的网站或者一些大型的招聘平台发布，但是各企业官方网站形式多样，信息抓取不方便，而且第三方招聘网站提供的招聘信息更全面，格式也相对统一，便于求职者搜索和查询，因此第三方招聘网站更适合作为招聘信息采集的来源。此实验的数据是来自前程无忧和智联招聘这两个网站，选择它们的原因主要是由于他们的招聘信息量大，相对于一些社交类的招聘网站而言，是较为传统而且使用量较大的招聘网站。

使用python爬虫框架scrapy对招聘网站上的数据进行爬取，分别抓取网络内容和解析html源文件，转换成后续所需的数据表格式。

步骤102文本预处理模块：从文本获取模块获取的数据可以进行以下三个方面的处理：岗位描述数据获取：利用正则表达式和python科学包pandas,numpy实现空数据，重复数据的删除，并且留下岗位描述这一列的内容，同时过滤掉一些原岗位描述中的如标点、下划线、特殊符号等无意义符号。空值处理：若在读取数据的过程中获取到某些字段存在空值，则可按照定义将该字段的空值替换为预定数值或者不作任何处理。格式化数据：根据招聘数据源中的各个字段的数据类型，进行数据格式的格式化操作。例如，统一将数据类型转化为字符串类型。

步骤103基于词典分词模块：对预处理后的数据进行分词，包括多层哈希词典机制的构建模块，改进的正向匹配算法模块。对数据做分词的处理。

步骤104基于互信息新词发现模块：通过基于词典分词后,形成只由汉字组成的语句片段。利用分词后的语料进行统计，得到每个字的字频以及每个字串的频率，进而计算字、字串在语料中出现的概率，将计算值带人互信息计算公式中，得到每个字串的PMI值。根据PMI值，将大于0的字串作为新词加入到分词词典中。

实施例2

图4为实例1中的正向最大匹配改进算法模块的功能流程图，其中：

步骤201设待切分汉字串S＝C₁C₂…C_n，长度为Length；

步骤202判断Length是否大于1；

步骤203若Length不大于1，则分词结束，算法流程结束；

步骤204依次计算以每个字C_i开头的词语的最大词长L_i；

步骤205比较L₁,L₂,..L_n大小并取Lmax＝最大值；

步骤206进行Lmax>Length判断；

步骤207如果Lmax>Length,进行赋值操作WordMax＝Length；

步骤208如果Lmax<＝Length进行赋值操作WordMax＝Lmax；

步骤209以WordMax为最大词长，进行正向最大匹配；

步骤2010令i＝1；

步骤2011进行L_i<WordMax判断；

步骤2012若L_i>＝WordMax,则长度为WordMax的字串Sword＝C_iC_i+1...C_{i+WordMax–1}于词典进行匹配；

步骤2013若L_i<WordMax,则进行i++或者将词语Sword从S中切分出存储，其左右两边字串进行切分，匹配失败；

步骤2014长度为WordMax的字串S_word＝C_iC_i+1...C_{i+WordMax–1}于词典进行匹配，判断是否匹配成功；

步骤2015若L_i<WordMax,则进行i++，然后进行i+WordMax-1<＝n；

步骤2016若匹配成功，将词语Sword从S中切分出存储，其左右两边字串进行切分；

步骤2017进行步骤2016后，进行WordMax＝WordMax–1操作；

回到步骤209，最后回到步骤201，进行操作。

实施例3

图5为实例1中的互信息算法模块的功能流程图，其中：

步骤301对文本语料c进行预处理，当遇到空格、英文字母、数字、停用词以及标点符号时将文本分割，形成汉字组成的语句片段集合t；将新词集合w_i置空，并令i＝2；

步骤302对单字字频进行概率计算；

步骤303对多字词频进行概率计算；

步骤304对字，词概率采用PMI公式计算；

步骤305获取PMI>0的词，字；

步骤306得到新词集合。

实施例4

本发明实施例4提供了一种中文分词方法，所述方法包括：

获得文本文件数据；

对文本文件数据进行预处理，获得待分词文本数据；

实施例5

本发明实施例5提供了一种中文分词装置，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现所述中文分词方法的步骤。

本发明实施例5提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现所述中文分词方法的步骤。

所述中文分词装置可以是桌上型计算机、笔记本、掌上电脑以及云端服务器等计算设备。所述装置可包括，但不仅限于，处理器、存储器。本领域技术人员可以理解，所述装置还可以包括输入输出设备、网络接入设备、总线等。

所述处理器可以是中央处理器(CPU，Central Processing Unit)，还可以是其他通用处理器、数字信号处理器(digital signal processor)、专用集成电路(ApplicationSpecific Integrated Circuit)、现成可编程门阵列(Fieldprogrammable gate array)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，所述处理器是所述中文分词装置的控制中心，利用各种接口和线路连接整个装置的各个部分。

所述存储器可用于存储所述计算机程序和/或模块，所述处理器通过运行或执行存储在所述存储器内的数据，实现所述中文分词装置的各种功能。所述存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等。此外，存储器可以包括高速随机存取存储器、还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡，安全数字卡，闪存卡、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

所述中文分词装置如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序可存储于一计算机可读存介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码、对象代码形式、可执行文件或某些中间形式等。所述计算机可读取介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器、随机存储器、点载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种中文分词系统，其特征在于，所述系统包括：

文本获取模块，用于获得文本文件数据；

2.根据权利要求1所述的中文分词系统，其特征在于，新词发现模块用于对待分词文本数据进行统计，得到每个字的字频以及每个字串的频率；基于每个字的字频以及每个字串的频率，计算字、字串在待分词文本数据中出现的概率，将概率值带入互信息计算公式中，得到每个字串的PMI值，根据PMI值将大于0的字串作为新词加入到分词词典中。

3.根据权利要求1所述的中文分词系统，其特征在于，互信息计算公式如公式(1)所示：

其中，PMI(AB)为字串AB的相关度，AB表示n个字，n大于或等于2，P(A)代表字或词A在待分词文本数据中出现的概率，P(B)代表字或词B在待分词文本数据中出现的概率，P(AB)代表词AB在待分词文本数据中出现的概率。

4.根据权利要求1所述的中文分词系统，其特征在于，新词发现模块中基于互信息的新词发现步骤包括：

步骤c₃：将PMI值大于0的i字字串加入新词集合w₁中；

步骤c₄：字串长度i的值加1；

步骤d：返回新词集合w₁。

5.根据权利要求1所述的中文分词系统，其特征在于，分词词典包括4个部分：词语首字hash表、词长索引表、词语次字hash表和词语剩余字串组；词语首字hash表用于确定词语首字的具体位置，词长索引表用于索引存放对应首字相应词长的每一个字串；词语次字hash表用于确定词语次字的具体位置；词语剩余字串组用于存放词语以首字hash表的关键字和次字hash表的关键字组合开头剩余字串的数组。

6.根据权利要求5所述的中文分词系统，其特征在于，分词词典采用多层hash词典构造机制，分词词典中的每一个词语首字设计为第一层的hash结构，第一层存储以该字为首字的所有词语的最大词长，分词词典中第二层是每个词长所对应的词语，并指向第三层存储的词语第二个字的hash值，分词词典中第四层用于完成对整个词语的搜索。

7.根据权利要求5所述的中文分词系统，其特征在于，词语首字hash表中每一个单位均包括3个部分：第一关键字、最大词长及索引指针，第一关键字指每一个词语的第一个汉字A；最大词长是以汉字A为首字的词语的最大词长；索引指针为指向汉字A的词长的指针；

8.根据权利要求1所述的中文分词系统，其特征在于，分词模块采用正向最大匹配改进算法进行分词，具体步骤包括：

取p的初值p＝1，具体分词步骤包括：

(2)p值加1，若p+WordMax-1<＝n，返回步骤(1)，否则执行步骤(5)；

(5)WordMax＝WordMax-1，p＝1，返回步骤(1)。

9.根据权利要求1所述的中文分词系统，其特征在于，文本获取模块基于web数据挖掘工具获取文本数据，从网页中抓取并解析相关的内容，分别抓取网络内容和解析html源文件，转换成相应的数据表格式。

10.根据权利要求1所述的中文分词系统，其特征在于，文本预处理模块用于实现空数据和/或重复数据和/或无意义符号的删除或替换，并对文本数据进行格式化。