CN101739393A

CN101739393A - 汉语文本智能分词法

Info

Publication number: CN101739393A
Application number: CN200810203059A
Authority: CN
Inventors: 苗玉水
Original assignee: 苗玉水
Current assignee: Jiangsu special Ace smart Polytron Technologies Inc
Priority date: 2008-11-20
Filing date: 2008-11-20
Publication date: 2010-06-16
Anticipated expiration: 2028-11-20
Also published as: CN101739393B

Abstract

本发明是一种主要基于汉语语法分析基础上的计算机或嵌入式可移动设备的汉语文本智能分词方法，它是一种基于理解的汉语文本分词方法。本发明所采用的汉语语法是词法和句法以及构词法与英语几乎完全相一致的一种新型汉语语法，所分词的汉语文本可以是汉字，也可以是与《汉语拼音方案》具有一一对应关系的汉语拼音文本，属于计算机或各种手持嵌入式可移动设备汉语信息处理技术领域。它能广泛应用于汉语的拼音-汉字双向转换、简体-繁体转换、汉语的语音识别、语音合成、机器翻译以及信息检索搜索等领域。

Description

汉语文本智能分词法

一、所属技术领域

本发明是一种主要基于汉语语法分析基础上的计算机或嵌入式可移动设备的汉语文本智能分词方法，所采用的汉语语法是词法和句法以及构词法与英语几乎完全相一致的一种新型汉语语法，所分词的汉语文本可以是汉字以及与《汉语拼音方案》具有一一对应关系的汉语拼音文本，由于一个汉字对应于一个汉语拼音音节，因此本发明凡是适用汉字的地方，对与《汉语拼音方案》具有一一对应关系的汉语拼音的对应音节也同样适用，本发明属于计算机或各种手持嵌入式可移动设备汉语信息处理技术领域。

二、背景技术

二十世纪四十年代起，计算机的飞速发展在全球范围内引起了一场以电子计算机为中心的第三次技术革命，它把人类从繁重的脑力劳动中解放出来，开创了人类智力解放的新纪元。

众所周知，拼音文字文本比如英语文本是按词连写，词与词之间已经是分隔好的词串，本身不存在分词问题，而由于我国记录汉语使用的是方块表意汉字，由方块表意汉字组成的汉语文本是一种没有按词切分的连续汉字或音节串，通常需要以词为基本单位进行切分后，才能交给计算机作进一步处理。例如汉语的汉语拼音与汉字的转换、汉字的简体和繁体转换、汉语的语音识别、汉语文本的语音合成、机器翻译以及信息检索等等，都需要先进行词的切分，这样汉语信息处理的准确性就会大大提高。比如对信息搜索来说，如果不切词只能按字进行检索，当检索德国货币单位″马克″时，就会把″马克思″检索出来。对所有的传统的汉语文本的分词系统来说，它需要做的工作就是把字串分成词串并将词与词之间用空格隔开。

由于汉语分词是汉语信息进一步处理的前提和基础，其重要性日益提高，为此众多单位和个人对汉语文本的分词技术都进行了深入的研究和有益的探索，80年代初至今比较典型的分词系统有：我国第一个实用的自动分词系统，北京航空航天大学计算机系于1983年设计实现的CDWS分词系统、山西大学计算机系研制的ABWS自动分词系统、北京航空航天大学于1988年实现的分词系统CASS、北京师范大学现代教育研究所于1991前后研制实现的书面汉语自动分词专家系统、清华大学研制的SEG分词系统、国家语委文字所应用句法分析技术的汉语自动分词、复旦分词系统、哈工大统计分词系统、杭州大学改进的MM分词系统、Microsoft Research汉语句法分析器中的自动分词系统、北大计算语言所分词系统等等，目前市面上商业化比较有影响的是海量科技的分词系统。

应该说上面的各个分词系统对我国的汉语信息处理技术的发展都做出了重要贡献，这些系统所用的技术一般是下列三种中的一种或它们的组合，这三种技术是：

基于汉字或音节串匹配的分词方法，这种方法又叫做机械分词方法，它是按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行匹配，若在词典中找到某个汉字或音节串，则匹配成功识别出一个词。

基于统计的分词方法，这种方法的基本思想是相邻的字同时出现的次数越多，就越有可能构成一个词，因此字与字相邻共现的频率或概率能够较好的反映成词的可信度，当与字与字相邻共现的频率或概率有关的数据高于某一个阈值时，便可认为此字组可能构成了一个词，这种方法只需对语料中的字组频度进行统计，不需要切分词典，因而又叫做无词典分词法或统计取词方法。

基于理解的分词方法，其基本思想就是通过对词法、句法、构词法、句型等汉语语法知识的综合分析运用来达到准确切分汉语文本的单词和消除歧义现象的目的，它模拟了人对汉语句子的理解过程。

上面几种方法其实最好的是基于理解的方法，这种分词方法需要使用大量的汉语语言知识即汉语的语法知识，由于汉语白话文的历史没有超过100年，在本发明出现前，人们对汉语的语法规律掌握和提炼得还很不够，因此使得汉语语言知识非常笼统复杂，难以将各种语法信息组织成机器可直接读取的形式，这样就使得基于理解的分词系统只能处于摸索试验探讨阶段，长期来只能处于一种人们期望达到的理想境界。

实际上人们采用机械分词法和统计规律分词法进行分词也是无奈之举，一有机会人们还是希望用理解的方式来分词，因为这更符合人脑的阅读时的分词理解机制，是最终的解决分词问题的方法，但由于以上所有的分词方法都是在没有系统的汉语语法理论指导和支持的基础上开发的，因此各个开发研究单位虽然都很努力，在后来的所开发的分词系统中都尽可能利用了现有的汉语语法知识，但是由于现有的汉语语法知识体系的不完备，客观上只能部分地利用了汉语的语法知识，为了提高系统分词的准确性，只能借助于机械分词和统计规律来弥补，比如现在市面上做得比较有影响的海量分词系统，它们的分词系统采用的方法叫复方分词方法，意思是采用了多种方法来进行分词。虽然以上各种系统的分词方法动用了一切可用的方法来进行分词，但是离真正的模拟人的大脑基于理解的智能分词机制还有相当的距离，导致了分词效果与正常的人工分词还有不少距离，还需要进一步地改进和完善，甚至有的系统出现了对词的界定非常随意，经过有些系统分出来的“词”不是汉语语法意义上的“词”的情况，这就给汉语句型的正确描述进而进行不同语言比如汉英之间的正确机器翻译带来了极大的困难。

三、发明内容

本发明是首先通过建立一种与英语语法基本完全相一致的汉语语法来为智能分词奠定基础，这样就使得整个分词系统能够模拟人脑的分词过程来进行分词，使得分词系统更加智能化，它是一种基于理解的分词方法，这样也就克服了原来由于缺少系统性和完整性的与国际语法理论体系接轨的汉语语法系统的支持，而使分词方法过多地依赖机械分词和统计规律分词方法的弊端，极大地提高了汉语文本分词的准确性，使得中文信息搜索更加准确，可以更好地支持世界使用最广的两大语言汉语和英语的相互翻译。

本发明的具体做法是：词法方面首先将汉语的词类分成：名词、代词、数量词、副词、形容词、动词、介词、连词、语气词和象声词；句法方面将汉语的句子成分划为：主语、谓语宾语、表语、同位语、定语、状语、补语；将句子的复句分为并列复句和主从复句，主从复句中的从句又可以分为：主语从句、宾语从句、表语从句、同位语从句、定语从句、状语从句；将汉语动词时态分为：过去时、现在时、现在将来时、过去将来时；汉语动词体式分为：一般式、进行式、完成式、完成进行式；建立汉语动词的非谓语动词、被动语态和谓语动词的虚拟语气；汉语的构词法方面主要通过在词根基础上加前缀、中缀、后缀、前后缀的方法以及词根与词根复合的方法来构词，这样就建立了与英语语法基本完全相一致的汉语语法体系，然后再提取这些词法、句法、句型以及构词法中的特征词，根据它们对分词切分判别的重要和难易程度分别按类别归入一级词库、二级词库和三级词库，比如：

将汉语的非单个汉字或音节的专用名词、代词、数量词、部分副词、介词、连词、语气词和象声词、表征并列复句和各个从句的特征词、动词各种时体系统、被动语态、虚拟语气的特征词、构词法的前后缀分类列入一级词库，这些特征词具有常用、固定、相对词数少、更容易判定的特点。

将主要表征汉语成语的四字词、单音词、形容词、动词、未列入一级词库的其它名词和副词分类列入二级词库，这些词具有常用、固定但量大的特点。列入二级词库的副词主要是方式副词，如果不考虑副词后面的“地”和形容词后面的“的”的差别，这类副词与形容词大部分同形，由于在本发明中副词后面的“地”和形容词后面的“的”是被作为一个单音节词作单独切分的，这样就使得这类副词与形容词大部分同形，因此在二级词库中可以作为一个单词储存，可以节约词库的存储空间。

这里需要指出的是：二级词库中的词如果有部分与一级词库有重复也不会影响本方法的正确分词，这是因为二级词库分词时只对一级词库未匹配成功的词进行分词，一个词如果在一级词库中已经有了的话，在二级词库分词前，应该已经匹配成功了，所以这些重复的词在二级词库中几乎不用，使用频度很低，根据高频词优先排列在词库前面的原则，这类词会长期排在词库单词的最后面且使用频度为零，对这类词二级词库会根据设定逐词定期自动与一级词库对照匹配，匹配成功后会自动将其从二级词库中清除，同时，也可以根据设定由系统经过足够长时间使用后将这些词列出，经人工确认后从两个词库中的一个词库中清除，这样做的好处是：一方面人们在往一级词库和二级词加词时可以不必担心单词加重复的问题；另一方面为了防止加词时出现遗漏，可以允许人们按宁可重复也不能遗漏的原则向词库添加单词。

将汉语的构词法的前缀、中缀、后缀、词根分类列入三级词。这类前缀、中缀、后缀、词根组词能力强，一般前面词库分词无效后，采用该词库里的“词缀”和“词根”进行分词判别。

一般前缀是加在词的最前面的字，后面大多数跟一个汉字、少数跟两个字、跟三个字一般构成成语，我们已经把成语归入二级词库，所以在三级词库中用前缀法判断分词时一般只考虑跟一个汉字和跟两个字的情况，其它情况可以不予以考虑。

一般后缀是加在词的最后面的字，前面大多数有一个汉字、少数跟两个字、跟三个字一般构成成语，我们已经把成语归入二级词库，所以在三级词库中用后缀法判断分词时一般也只考虑前面有一个汉字和有两个汉字的情况，其它情况也可以不予以考虑。

一般中缀是加在词的中间的字，前面大多数有一个汉字后面也有一个汉字、前面或后面有两个汉字一般构成四字成语，我们已经把成语归入二级词库，所以在三级词库中用中缀法判断分词时一般只考虑前面有一个汉字和后面有一个字的情况，其它情况可以不予以考虑。

前后缀由于像一个括号将中间的汉字括起来，中间有多少个字不予以限定，完全根据汉语的习惯来分词，由于这种前后缀特征明显，所以我们把它放在一级词库，在分词时可以优先考虑。

在分词时总是要利用句子或汉字或音节串的断点，从断点左右两侧开始对需要切分的汉字或音节进行匹配切分，对所有已经匹配成功的词要加空格隔开并在后台作匹配完成标识，等全部完成切词后再撤消该标识回到原来的字体格式。

所利用断点形成的位置主要包括但不限于：句子的起首、句子的结尾、各种标点符号、各种阿拉伯数字、各种特种符号、原来汉字或音节中含有的空格、上一级词库分词以后所形成的断点。

分词时第一步先用一级词库里的词和前后缀，对需要分词的整个文本中的汉字或音节进行扫描，把经扫描匹配成功的汉字或音节看作一个需要切分的词进行切分，前后缀匹配成功后，以前后缀为界将包括前后缀在内的所有字符当作一个词切分，有不止一种匹配结果时以产生最少孤立汉字或音节的匹配结果为准。

实际上一级词库中由于装入了大量与新型汉语语法相关联的词法、句法、句型、构词法的特征词，对整个文本句子中的这些特征词的扫描、匹配、匹配成功标记并切分，实质上是对文本中的句子进行语法分析识别的过程，这类似于人的大脑对汉语句子的语法识别的过程，因此这种分词方法是一种基于理解的分词方法。

一级词库分完后，从断点的左右两侧依次分别取四个、两个、三个以及一个没有匹配成功的汉字或音节，然后与二级词库里的词进行匹配，如果所取的汉字或音节匹配成功，并且对同一处理对象从断点的左右两侧进行正向和逆向匹配的结果相同，就认为这是一个成功的匹配结果，如果匹配的结果不相同，产生最少孤立汉字或音节的匹配结果被认为是成功的匹配。

其中对未匹配成功的汉字或音节串不作匹配成功标识和切分，留呆下面的程序作进一步处理。然后按同样的方法进入下一串汉字或音节的匹配切分。

造成对同一未匹配成功的汉字或音节串从断点的左右两侧进行正向和逆向匹配的结果不相同的原因是某一串汉字或音节串可能会有多种切法，比如：“他是年长者”中的“年长者”，可以切分成：年、长、者；年长、者；年、长者；那么如果左右两边采取不同的切分方法，得到的匹配结果就会不一样，由于汉语大多数情况下单音节字较少，最多的是双音节词，其次多的是双音节以上的词，因此，从切分成功的策略来说，切分后应该尽量减少单音节词在句中的出现，根据这个规则上面的句子应该切分为：“他是年长者”是唯一正确的选择，因为这样切分对“年长者”来说是单个汉字或音节最少的切分。

二级词库一般放的是实词，而实词一般与现实的特定概念相联系，对实词成功匹配的过程，实际上是模拟人的大脑对汉语的概念成功理解的过程。

二级词库分完词后，在进一步分词时，首先对照三级词库对未匹配成功的汉字或音节进行前缀、后缀、中缀和词根的匹配判断，如果是前缀的话，向后吸收一个孤立汉字或音节构成一个词并作切分，如果后面是两个匹配好的汉字或音节，则与匹配好的这两个汉字或音节结合，按三字词切分；如果是后缀的话，向前吸收一个孤立汉字或音节构成一个词并作切分，如果前面是两个匹配好的汉字或音节，则与匹配好的这两个汉字或音节结合，按三字词切分，如果是中缀的话则吸收前面和后面各一个字或音节组成一个词，如果吸收后导致前面或后面出现一个孤立的没有匹配的汉字或音节时，则要将这个汉字或音节吸收进这个中缀组成的词，一般组成的词的汉字或音节数不超过四个。如果是词根的话，根据它前面能加字或音节，还是后面能加字或音节，还是前后都能加字或音节的情况，分别采用前缀、后缀、中缀的切词方法进行切词，以上方法所切分到的词，当在同一篇文档中的不同句子中累计出现次数不少于两次时，系统自动将该词存入二级词库。

由于三级词库中装了大量汉语组词的最常用词缀和词根，用三级词库进行匹配分词的过程，其实是利用人们已经掌握的汉语组词规律，模拟人的大脑进行组词的过程，反映了该方法对汉语词汇的可扩展性、开放性和自学习性的特点，可以满足汉语词汇日益丰富发展的需要。

当用以上三个词库切分完后，句子中仍然出现未匹配成功的汉字或音节串，或者虽然匹配成功但属于三个以上连续孤立的汉字或音节串时，把它们合并在一起组成一个词来切分，以上方法所切分到的词，当在同一篇文档中的不同句子中累计出现次数不少于两次时，系统会根据设定自动或经人工确认后将其存入一级词库。

对最后的分词结果和检查规则还可以进行人工干预修改，对人工干预形成的新词根据词的特点经人工确认后分类存入一级词库或二级词库，各级词库里的词还可以进行人工增删，且词库里的词按高频优先分类排列在前的原则排列，当达到一定阀值时，经人工确认系统可以将二级词库里的词分类提升到一级词库，一级词库里的词分类下降到二级词库。

最后的检查分词结果的规则，可以根据实际情况作进一步的修改优化，这样就能够不断吸收人类对汉语语法及其规律的研究成果，使得本发明例的分词方法能够不断趋于完善，不断提高分词方法的智能化程度。

这些对分词结果的人工干预和对词库中词的增删以及根据实践情况按词的使用频度进行优先次序排列的调整，反映了本分词方法具有实时学习人工智能并在实践中不断自我完善的能力。

最后值得指出的是，本分词法要求对所有已经匹配成功的词要加空格隔开并在后台作匹配完成标识，以防止下一级词库或后面的程序不按本分词法的规定继续对其分析切分，等全部完成切词后再撤消该标识，撤消该标识可以采用比如再回到原来的字体或干脆回到正常的字体等方法。在实际应用中匹配成功的词有多种标识方法比如：用不常用的字体的特殊颜色、字形、字号、字体加粗等。本文为了方便说明问题把文本在匹配切分过程中已经匹配成功的词用斜体字表示，程序完成切词后，再回到正常的字体。

四、具体实施方式

下面结合实施例对本发明的具体实施方式作进一步的说明。

本发明例的一级词库的特征词可以吸收如下的特征词，比如：

用来代替人或事物的名称的代词，例如：我们、你们、他们、她们、它们等等；

构成自身代词的词，例如：自己、本人、等等；

指代事物的词，例如：这个、那个，这种、那种、这些、那些等等；

指代性状的词，例如：这么、那么(指代副词)、这样、那样、等等；

指代时间的词，例如：这时、那时、等等；

指代地点的词，例如：这儿、那儿、这里、那里等等；

汉语里的疑问代词，例如：什么、什么样、哪个、哪些等等；

汉语中的不定代词，例如：一些、某些、有的、有些、有人、一切、所有、任何、其它、许多、各种、各个、每个、每种、等等；

汉语时体系统的词，例如：已经......了、正在......着、曾经......过、一直......着等等；

这里需要说明的是对于类似“已经......了”这样的形式表示的词串，在匹配时是成对匹配的，也就是说，找到了前面的“已经”不管中间隔了多少字符，要找到“了”才算这个词串匹配成功，并按两个词“已经”和“了”单独标识和切分，这点在本文中均同，不再累述。

构成被动语态常用句型的词，例如：是......由等等；

构成汉语谓语动词的虚拟语气的词，例如：如果......了......早就......了、如果......过......早就......了、如果......了......就......、万一......了......就......等等；

汉语的联系动词，例如：算作、等于、显得、变得等等；

由“感官动词+起来”构成的联系动词，例如：看起来、看上去、听起来、听上去等等；

表示具有某种能力的汉语情态动词，例如：能够、可以等等；

表示可能性、猜测性、怀疑、不肯定等语气的词，例如：可能、或许、也许、会等等；

表示允许语气的的词，例如：可以等等；

表示客观的需要的的词，例如：必须、不得不、应该、应当、需要等等；

表示愿意、决心、保证、敢不敢等心理状态的常用情态动词，例如：愿意、决心、一定等等；

表示时态的汉语助动词，例如：正在、已经、曾经等等；

表示否定的词，例如：没有等等；

表示肯定语气的词，例如：的确、确实等等；

汉语的表示时间的副词，例如：立刻、马上、顿时、然后、然后、终于、从来等等；

汉语的表示的地点副词，例如：到处、随处、随地、遍地等等；

汉语的表示的程度副词，例如：稍微、尤其、更加、非常、等等；

汉语的表示的性状副词，例如：也许、简直、偏偏、特地、蓦地、乐于、便于等等；

表示副词比较级的词，例如：比......更(或比较)等等；

表示副词最高级的词，例如：在......中......最......，最最等等；

表示时间、处所、方向的介词。比如：自从、朝着、当......时候等等；

表示对象的介词，例如：对于等等；

表示目的、手段、方式的介词，例如：为了、为着、以便、按照、根据、本着、等等；

表示排除的介词，例如：除了、除掉、除开等等

表示原因的介词，例如：由于、因为等等；

(下面所列的连词在复句中可以作为连接各个从句的关联词，所表示的从句之间的关系与该连词所表示的关系相同，由于是相同的一组词，相应的从句关联词下面不在累述)

表示汉语并列关系的连词，例如：一方面......一方面、既......又、不是......而是等等；

表示汉语顺接关系的连词，例如：然后、接着、于是等等；

表示汉语递进关系的连词，例如：不但(不仅、不光、不只)......而且、甚至、尤其、不但......反而等等；

表示汉语选择关系的连词，例如：或者......或者、不是......就是、要么......要么、与其......不如等等；

表示汉语因果关系的连词，例如：因而、因此、所以、那么等等；

表示汉语转折关系的连词，例如：但是、可是、不过、然而等等；

表示汉语时间从属关系的连词，例如：正当......时、等到......(时)、直到......(时)、等到......以后、(直到)......以前、每当......(时)等等；

表示汉语原因从属关系的连词，例如：因为v所以、由于......因此、既然......就等等；

表示汉语目的从属关系的连词，例如：为了、以便、借以、以免、好让等等；

表示汉语结果从属关系的连词，例如：以致、结果、导致等等；

表示汉语假设从属关系的连词，例如：如果......就、假如......那么、即使......也、哪怕......也等等；

表示汉语条件从属关系的连词，例如：只有......才、只要......就、除非......不、无论......都、不管......也(总)、无论......总等等；

表示汉语让步从属关系的连词，例如：虽然......但是(可是、却、不过、然而)、尽管......可是等等；

表示汉语方式从属关系的连词，例如：好似......一般、好象......一样、象......似的等等；

表示汉语比较从属关系的连词，例如：胜过、不如、真如、和......一样，越......越等等；

表示汉语地点从属关系的连词，例如：哪里......哪里等等；

指特定的人、事物、地点或机构所专有的名称的专有名词，例如：毛泽东、上海、国务院等等；

汉语用于表示分数的词，例如：......分之......等等；

汉语用于表示小数的词，例如：零点零......等等；

汉语表示概数的词，例如：“左右”等等；

汉语中用于表示次序的序数词，例如：“第......号”等等；

汉语中的复合量词，例如：架次、人次、千米、小时、千瓦小时等等；

汉语感叹词，例如：哎呀、哎哟嘿嘿、哈哈、等等。一般后面跟有标点符号。

汉语单纯拟声词，例如：嗷嗷、吧嗒、刺溜、咯吧、咯吱、咯咯、咕咚、咕嘟、咕隆、呱呱、呱嗒、哗啦、哗啦啦、扑通、扑腾、扑哧、叮当、叮铃、当啷、轰隆、霍霍、琅琅、潺潺淙淙、飒飒、瑟瑟、沙沙、呜呜、当当、翁嗡、哇哇、哇啦、咯嚓、哐啷、梆梆梆、咚咚咚、哼儿哈儿、咿咿唔唔、咿咿呀呀、噼噼啪啪、唧唧喳喳，等等。一般后面跟“的”“地”“一声”等词。

表示陈述语气的语气词，例如：着呢、嘛、罢了、而已、也罢等等。后面一般有逗号“，”或句号“。”

表示汉语形容词比较级词，例如：更......的、比较......的、......一点、......一些、比......更......一些等等；

最高级：最......的......之一、......极了等等；

表示相同：和......一样......等等；

表示倍数：比......高......倍、比......多......倍、比......好......倍等等；

表示一方程度比另一方高时：比......更......一些(一点)、比......更......一点等等；

当不需要或不必说出比较对象时，采用的比较级形容词，例如：比较......等等；

前后缀：例如：可......性、易......性、等等；

汉语中引起倒装的常用介词，例如：连......都、连......也、对于......、把......等等；

强调宾语把词型的句子的介词，例如：把......给等等；

将主要表征汉语成语的四字词、所有的单音词、形容词、动词、未列入一级词库的其它名词和副词分类列入二级词库，这些词具有常用、固定但量大的特点。比如：伟大、光荣、工作、打猎、看见、学生、老师、非常、的、地、得、在、年、月、日、一、二、1、2等等，除去已经列入一级词库的词，整个最新《汉语大词典》中的词都可以存入该词库，同时对汉语形容词、数量词、动词等的活用形式的组词规律在二级词库中要予以标识并将能列出的活用词形尽可能列出，以提高二级词库分词的准确性。比如：

形容活用：“A+于”转化为“A+于”形式的副词，A代表形容词意义的单音节词比如：“勇、乐+于”分别形成：“勇于”和“乐于”两个副词等等；也就是说遇到这类词的匹配，“于”相当于一个后缀，当前面有一个形容词意义的单音节未匹配词，就可以将其吸纳和“于”构成为一个词。

形容词意义的单音节A重叠可以转化为AA形式的副词。比如：“快的”(形容词)、“白的”(形容词)分别转换成“快快地”(副词)、“白白地”(副词)。

此外汉语形容词与切词有关的还有重叠式活用形式。重叠式主要有AA、ABB、AABB、等几种形式。

其中AA式用于单音形容词的重叠，他们重叠后表示程度加深，比如：长的、高的、白的、胖的，重叠后分别变成：长长的、高高的、白白的、胖胖的。其中第二个音节念阴平。经过AA式重叠后汉语形容词的形容程度都较原来程度深一些。

ABB式重叠比如：亮堂、明晃；重叠后分别变成：亮堂堂、明晃晃。

AABB式重叠比如：干净、甜蜜、恩爱；重叠后分别变成：干干净净、甜甜蜜蜜、恩恩爱爱。经过以上各式重叠后汉语形容词的形容程度都较原来程度加深一些。

数量词活用：汉语数量词和量词可以重叠使用，重叠后的数量词具有“每一”“许多”之意。比如量词AA式重叠：样样、条条、遍遍、趟趟等等；再比如数量词ABB式重叠：一群群、一个个、一排排等等。

动词的活用：单音节动词转化成副词的词，例如：“A着A着”、“A啊A啊”A表示单音节动词如：“哭”哭着哭着、哭啊哭啊。

起加重语气作用重叠式动词ABB式，比如：“帮忙”变成“帮帮忙”。

也就是说上面相当一部分活用形是AA式、ABB式、AABB式，利用这些规律如果遇到“AA”式、“ABB”式、“AABB”式的词可以切分成“AA”、“ABB”、“AABB”形式的词。如果遇到“A着A着”、“A啊A啊”形式的也可以将“A着A着”、“A啊A啊”分别切成一个词，其实上面的活用形还有ABAB式，对于这种形式还是按AB形式切分成两个词，所以从分词角度来说对活用形ABAB式在这里不作进一步的讨论。

将汉语的构词法的前缀、中缀、后缀、词根列入三级词库。这类前缀、中缀、后缀组词能力强，一般前面词库分词无效后，采用该词库里的“词缀”和“词根”进行分词判别。比如前缀：小......、老......、阿......，比如后缀：......者、......子、......儿，比如中缀：......不......、......里......、......七八......、......三......四，一般中缀构成成语。比如词根“机”和“街”，可以分别组成：机床、趁机、飞机场、街道、当街、丁字街等等，一般词根既可以放在前面构成词，也可以放在后面构成词，除了构成四字词的成语外，词根最多构成的是两字词少数是三字词，五字词基本没有这里我们可以不考虑。三级词库中共收录了中国人民大学语言文字研究所1984年3月出版的《常用构词字典》中所列的近4000个可以作为词根的汉字。随着语言的发展，根据需要也可以增加没有被列入三级词库的词根。

运用上面的词库和方法分词如下：

原句：

我已经告诉你们了，古兰丹牡是公主坟王爷的宝贝女儿，如果你们不赶紧把古兰丹牡寻找回来，我就找你们算账！找到以后赶紧向王爷他本人报告。

运用一级词库分词结果：

运用二级词库分词结果：

(假设“赶紧”没有列入二级词库)

运用三级词库分词结果：

我已经告诉你们了，古兰丹牡是公主坟王爷的宝贝女儿，如果你们不赶紧把古兰丹牡寻找回来，我就找你们算账！找到以后赶紧向王爷他本人报告。(从三级词库中找到“赶”是一个词根，它后面有一个未匹配成功的孤立字“紧”，于是“赶”与后面的“紧”组成一个“赶紧”两字词。又由于“赶紧”在同一文本不同的句子中至少出现了两次，因此、分词系统自动将“赶紧”保存到二级词库，下次在二级词库分词时就直接将其匹配成功并切分)

运用分词检查规则检查后的分词结果：

(“古兰丹牡”是一个连续孤立未匹配成功的汉字，根据检查规则将其作为一个汉字串合并成一个词进行切分，由于这串连续孤立未匹配成功的字符，在同一文本不同的句子中至少出现了两次，因此、分词系统自动将“古兰丹牡”保存到一级词库，下次在一级词库分词时就可以直接将其匹配成功并切分)

最后进行人工干预后的分词结果：

(由于“公主坟”是一个地名，因此不能切分成“公主坟”，经过人工干预成为一个专有名词，系统会检测到这个人工干预的结果，根据这个词的性质属于专用名词经人工确认后系统会自动将其存入一级词库，下次在一级词库分词时就直接将其匹配成功并切分。)

全部切分完后系统消除句子中的匹配成功的标识，字体还原到正常格式：

这样就得到了我们所需要的分词结果。

经过上面的句子切分过程的实践，我们再来对下面的句子进行切分：

原句：

经过他们的艰苦努力寻找，终于在1936年4月8日下午5点左右，他们在新疆乌鲁木齐找到了古兰丹牡，于是赶紧派人到公主坟向王爷报告。

运用一级词库分词结果：

(“古兰丹牡”和“公主坟”由于在上次切分后被存入一级词库，这次在一级词库就切分成功)

运用二级词库分词结果：

(由于“赶紧”在上次切分后被存入二级词库，这次在二级词库就切分成功，有阿拉伯数字的地方系统不会将其与汉字字符合并)

所有的切分出来的词都已经作了标识在这里比如是字体倾斜，表明在二级词库分词阶段系统就完成了匹配分词过程，比上一次减少了分词步骤，证明本方法具有自动完善分词方法的功能。

全部切分完后系统消除句子中的匹配成功的标识，字体还原到正常格式，我们得到最后的分词结果为：

依次类推，通过不断丰富和根据频度调整各级词库的单词以及完善分词结果检查规则，再经过实践中的不断磨合，分词系统会越来越人性化智能化地进行分词。

由于《汉语拼音方案》中的汉语拼音与以词为单位的汉字具有对应关系，因此在该汉语拼音文本中的汉语拼音音节本身标注清楚没有产生混音的情况下，上面对汉字文本分词切分的方法同样适用于对《汉语拼音方案》中的汉语拼音文本的分词切分，所要增加的工作主要是对应各级词库的汉字组成的词或词缀加上相应的《汉语拼音方案》中的汉语拼音便可。比如：

用汉字表达的原句为：“我们会使用汉语拉丁文。”

相应的《汉语拼音方案》中的汉语拼音文本为：

“Wǒmenhuìshǐyònghànyǔlādīngwěn。”

用上述分词方法我们可以将汉字原句分词切分成：“我们会使用汉语拉丁文。”

用同样的方法我们可以将上述汉语拼音文本原句分词切分成：

“Wǒmen huìshǐyòng hànyǔ lādīngwěn。”

同理对与《汉语拼音方案》中的汉语拼音具有一一对应关系的任何文本，只要满足在分词切分前，该汉语拼音文本中的汉语拼音音节本身标注清楚没有产生混音，我们就能用上面的方法对该具有对应关系的汉语拼音文本进行分词切分，所要增加的工作是对应各级词库的汉字组成的词或词缀加上相应的与《汉语拼音方案》中的汉语拼音具有一一对应关系的编码便可。比如：我们采用一种与《汉语拼音方案》中的汉语拼音具有一一对应关系的汉语语音码，它的每一音节声、韵、调的编码方法可以采用类似以下的方法：

(注：括号内的符号均为《汉语拼音方案》中的汉语拼音符号，不带括号的字母为所采用的汉语语音码的每一音节的声、韵、调的编码，以下叙述均同。)

1、声码的编码：

b：(b)p：(p)m：(m)f：(f)d：(d)t：(t)

n：(n)l：(l)g：(g)k：(k)h：(h)j：(zh)(j)

q：(ch)，(q)x：(sh)，(x)r：(r)

z：(z)c：(c)s：(s)y：(y)w：(w)

2、介码的编码：

i：(i)u：(u)y：(ü)

3、韵码的编码：

a：(a)o：(o)e：(e)i：(i)u：(u)y：(ü)

k：(ao)c：(ai)s：(an)x：(ou)w：(ei)n：(en)

z：(ua)l：(uo)b：(ang)d：(ong)p：(eng)

q：(ing)g：(ng)(无声母韵母)er：(er)

r：(i)[只与(zh)、(ch)、(sh)相拼]

4、调码的编码：

a：(-)阴平e：(/)阳平v：(V)上声u：(\)去声

o：(不标)轻声

语音码的组词方式为：以单词为单位，这里将单个汉字看作单音节词，根据组成该单词的每个音节的《汉语拼音方案》中的拼音，依次按“声码+介码+韵码+调码兼隔音节符号”的顺序编码，同一个单词的多个音节不用空格隔开连写，单词与单词之间的编码用空格隔开。

这里由于将独立运用的汉字看作单音节词，因此，汉语语音码的汉字编码的方法和汉语语音码的单词音节编码的方法相同，汉语语音码的单词音节编码按词连写后得到汉语语音码的单词编码，由于单词可以表示词组和汉语句子，因此汉语语音码的词组的编码和汉语语音码的句子的编码都可以通过汉语语音码的单词的编码实现，而不需要对词组和汉语句子另外制定一套专门的编码，这样我们就得到了与《汉语拼音方案》中的汉语拼音具有一一对应关系的上述句子的汉语语音码的编码：

“wovmnohuiuxrvyduhsuyyvlaadqawnv.”

由于本发明例所用的汉语语音码的声调具有隔音节作用，这样即使将组成句子的语音码的任意多的音节连写在一起也不会发生音节与音节之间的相互混淆，借助于声调的隔音节作用，我们仍旧可以将一个一个汉语语音的音节准确区分出来，比如对上面的汉语语音码的句子按一个一个音节进行区分，我们可以得到：

“wov mno huiu xrv ydu hsu yyv laa dqa wnv.”

用上面同样的分词方法，我们可以将“wovmnohuiuxrvyduhsuyyvlaadqawnv.”语音码串分词切分为：

“wovmno huiu xrvydu hsuyyv laadqawnv.”

相应的完成分词切分的《汉语拼音方案》中的汉语拼音文本为：

“Wǒmen huìshǐyòng hànyǔlādīngwěn。”

相应的完成分词切分的汉语汉字文本为：

“我们会使用汉语拉丁文。”

依次类推，这样我们就可以完成所有汉字文本和与《汉语拼音方案》中的汉语拼音具有一一对应关系的音节清楚没有发生混音的各种汉语拼音文本的分词切分。

Claims

1.一种主要基于与英语语法的词法句法及其构词法基本相一致的新型汉语语法分析基础上的计算机或嵌入式可移动设备的汉字文本和与《汉语拼音方案》具有一一对应关系的汉语拼音文本的分词方法。

2.一种如权利要求书1所述的分词方法，其特征在于：所用的新型汉语语法主要特点是词法方面将汉语的词类分成：名词、代词、数量词、副词、形容词、动词、介词、连词、语气词和象声词；句法方面将汉语的句子成份划为：主语、谓语、宾语、表语、同位语、定语、状语、补语；将句子的复句分为并列复句和主从复句；主从复句又可以分为：主语从句、宾语从句、表语从句、同位语从句、定语从句、状语从句；将汉语动词时态分为：过去时、现在时、现在将来时、过去将来时；汉语动词体式分为：一般式、进行式、完成式、完成进行式；建立汉语动词被动语态和谓语动词的虚拟语气；汉语的构词法方面主要通过在词根基础上加前缀、中缀、后缀、前后缀的方法以及词根与词根复合的方法来构词。

3.一种如权利要求书1或2所述的分词方法，其进一步特征在于：将汉语的非单个汉字或音节的专用名词、代词、数量词、部分副词、介词、连词、语气词和象声词、表征并列复句和各个从句的特征词、动词各种时体系统、被动语态、虚拟语气的特征词、构词法的前后缀分类列入一级词库，将主要表征汉语成语的四字词、单音词、形容词、动词、未列入一级词库的其它名词和副词分类列入二级词库，将汉语的构词法的前缀、中缀、后缀、词根分类列入三级词库。

4.一种如权利要求书1所述的分词方法，其特征在于：在分词时总是要利用句子或字符串的断点，从断点左右两侧开始对需要切分的汉字或音节进行匹配切分，对所有已经匹配成功的词要加空格隔开并在后台作匹配完成标识，等全部完成切词后再撤消该标识回到原来的字体格式。

5.一种如权利要求书1或4所述的分词方法，其特征在于：所利用断点形成的位置主要包括但不限于：句子的起首、句子的结尾、各种标点符号、各种阿拉伯数字、各种特种符号、原来汉字或音节中含有的空格、上一级词库分词以后所形成的断点。

6.一种如权利要求书1或4所述的分词方法，其特征在于：分词时第一步先用一级词库里的词和前后缀，对需要分词的整个文本中的汉字或音节进行扫描，把经扫描匹配成功的汉字或音节看作一个需要切分的词进行切分，前后缀匹配成功后，以前后缀为界将包括前后缀在内的所有字符当作一个词切分，有不止一种匹配结果时以产生最少孤立汉字或音节的匹配结果为准。

7.一种如权利要求书1或4所述的分词方法，其特征在于：一级词库分完后，从断点的左右两侧依次分别取四个、两个、三个以及一个没有匹配成功的汉字或音节，然后与二级词库里的词进行匹配，如果所取的汉字或音节匹配成功，并且对同一处理对象从断点的左右两侧进行正向和逆向匹配的结果相同，就认为这是一个成功的匹配结果，如果匹配的结果不相同，产生最少孤立汉字或音节的匹配结果被认为是成功的匹配。

8.一种如权利要求书1或4所述的分词方法，其特征在于：二级词库分完词后，在进一步分词时，首先对照三级词库对未匹配成功的汉字或音节进行前缀、后缀、中缀和词根的匹配判断，如果是前缀的话，向后吸收一个孤立汉字或音节构成一个词并作切分，如果后面是两个匹配好的汉字或音节，则与匹配好的这两个汉字或音节结合，按三字词切分；如果是后缀的话，向前吸收一个孤立汉字或音节构成一个词并作切分，如果前面是两个匹配好的汉字或音节，则与匹配好的这两个汉字或音节结合，按三字词切分；如果是中缀的话则吸收前面和后面各一个字或音节组成一个词，如果吸收后导致前面或后面出现一个孤立的没有匹配的汉字或音节时，则要将这个汉字或音节吸收进这个中缀组成的词，一般组成的词的汉字或音节数不超过四个。如果是词根的话，根据它前面能加字或音节，还是后面能加字或音节，还是前后都能加字或音节的情况，分别采用前缀、后缀、中缀的切词方法进行切词，以上方法所切分到的词，当在同一篇文档中的不同句子中累计出现次数不少于两次时，系统自动将该词存入二级词库。

9.一种如权利要求书1所述的分词方法，其特征在于：当用以上三个词库切分完后，句子中仍然出现未匹配成功的汉字或音节串，或者虽然匹配成功但属于三个以上连续孤立的汉字或音节串时，把它们合并在一起组成一个词来切分，以上方法所切分到的词，当在同一篇文档中的不同句子中累计出现次数不少于两次时，系统会根据设定自动或经人工确认后将其存入一级词库。

10.一种如权利要求书1所述的分词方法，其特征在于：对最后的分词结果和检查规则还可以进行人工干预修改，对人工干预形成的新词根据词的特点经人工确认后分类存入一级词库或二级词库，各级词库里的词还可以进行人工增删，且词库里的词按高频优先分类排列在前的原则排列，当达到一定阀值时，经人工确认系统可以将二级词库里的词分类提升到一级词库，一级词库里的词分类下降到二级词库。