CN102819524A

CN102819524A - 基于关键字的字符序列分割方法及装置

Info

Publication number: CN102819524A
Application number: CN2011102659734A
Authority: CN
Inventors: 阳荣
Original assignee: Kingdee Software China Co Ltd
Current assignee: Beijing Kingdee Yunji Technology Co.,Ltd.
Priority date: 2011-09-08
Filing date: 2011-09-08
Publication date: 2012-12-12
Anticipated expiration: 2031-09-08
Also published as: CN102819524B

Abstract

本发明涉及一种基于关键字的字符序列分割方法及装置，其方法包括：加载关键字，并建立关键字列表；根据关键字列表中关键字属性的优先级对关键字进行排序；依据排序结果，以关键字为最小分割单位，通过预定的分词算法对字符序列进行分割。本发明通过定义关键字的优先级，建立关键字列表，以关键字列表中各关键字的优先级排列顺序，同时以关键字为最小分割单位，按照预定的分词算法对字符序列进行分割，提高了分词准确率及新词识别能力，避免了分词歧义，可以满足公式、函数校验、解析等对分词要求严格的应用场景。

Description

基于关键字的字符序列分割方法及装置

技术领域

本发明涉及字符序列分词技术领域，尤其涉及一种基于关键字的字符序列分割方法及装置。

背景技术

目前常用的分词算法主要有以下三大类：

一、基于字符串匹配的分词；二、基于理解的分词；三、基于统计的分词。上述三种分司算法对比结果见下表1所示：

分词方法	基于字符串匹配分词	基于理解的分词	基于统计的分词
				歧义识别	差	强	强
新词识别	差	强	强
				需要词典	需要	不需要	不需要
需要语料库	否	否	是
				需要规则库	否	是	否
算法复杂性	容易	很难	一般
				技术成熟度	成熟	不成熟	成熟
实施难度	容易	很难	一般
				分词准确性	一般	准确	较准
分词速度	快	慢	一般

表1

对于现有的三类分词算法，虽然在某些方面各有所长，但在某些严格的应用中均存在以下缺点：

1、分词准确率达不到要求：对一些分词要求准确率非常高的应用中，如表达式、公式分词，其分词准确性要求达到100％，否则会造成运算结果错误。

2、分词存在歧义：对词语的识别存在歧义。如在公式或表达式中，出现+、+＝、if、else if等序列时不能很好的识别出来。

3、新词识别能力不足：当系统中出新的词条时，算法也不能很好的识别出来新词来。如在公式中要引用薪酬项目，当出现新的薪酬项目时，在公式中不能识别出来。

发明内容

本发明的主要目的在于提供一种基于关键字的字符序列分割方法及装置，旨在提高分词的准确率，避免出现歧义。

为了达到上述目的，本发明提出一种基于关键字的字符序列分割方法，包括以下步骤：

加载关键字，并建立关键字列表；

根据所述关键字列表中关键字属性的优先级对所述关键字进行排序；

依据排序结果，以所述关键字为最小分割单位，通过预定的分词算法对字符序列进行分割。

优选地，所述依据排序结果，以所述关键字为最小分割单位，通过预定的分词算法对字符序列进行分割的步骤包括：

将字符序列作为整段压入栈中；

根据排序优先级从关键字列表中取出关键字；

获取所述关键字在所述字符序列中的位置索引号；

根据所述位置索引号对所述字符序列进行分割。

优选地，所述根据位置索引号对所述字符序列进行分割的步骤包括：

当所述位置索引号等于第一预定值时，将所述关键字作为分段压入所述临时栈中；

若所述关键字后面还存在内容，则将所述关键字后面的内容作为分段压入所述临时栈中；

将所述临时栈中的各分段内容依次压入所述栈中；

从所述关键字列表中取出下一级关键字，并根据所述下一级关键字分别对所述栈中的各分段进行分割，直至所述关键字列表被取空。

优选地，所述将关键字作为分段压入所述临时栈中的步骤之前还包括：

当所述位置索引号大于第一预定值时，将所述整段中位于所述关键字前面的内容作为分段压入临时栈中。

优选地，所述将临时栈中的各分段内容依次压入所述栈中的步骤之前还包括：

当所述位置索引号等于第二预定值时，将所述整段压入所述临时栈中。

优选地，所述关键字包括自定义关键字及预定义关键字。

本发明还提出一种基于关键字的字符序列分割装置，包括：

关键字列表建立模块，用于加载关键字，并建立关键字列表；

关键字排序模块，用于根据所述关键字列表中关键字属性的优先级对所述关键字进行排序；

字符序列分割模块，用于依据排序结果，以所述关键字为最小分割单位，通过预定的分词算法对字符序列进行分割。

优选地，所述字符序列分割模块包括：

整段压入单元，用于将字符序列作为整段压入栈中；

取出单元，用于根据排序优先级从关键字列表中取出关键字；

获取单元，用于获取所述关键字在所述字符序列中的位置索引号；

分割压入单元，用于根据所述位置索引号对所述字符序列进行分割。

优选地，所述分割压入单元还用于当所述位置索引号等于第一预定值时，将所述关键字作为分段压入所述临时栈中；当所述位置索引号大于第一预定值时，将所述整段中位于所述关键字前面的内容作为分段压入临时栈中，同时将所述关键字作为分段压入所述临时栈中；若所述关键字后面还存在内容，则将所述关键字后面的内容作为分段压入所述临时栈中；将所述临时栈中的各分段内容依次压入所述栈中；从所述关键字列表中取出下一级关键字，并根据所述下一级关键字分别对所述栈中的各分段进行分割，直至所述关键字列表被取空。

优选地，所述分割单元还用于：当所述位置索引号等于第二预定值时，将所述整段压入所述临时栈中。

本发明提出的一种基于关键字的字符序列分割方法及装置，通过定义关键字的优先级，建立关键字列表，以关键字列表中各关键字的优先级排列顺序，同时以关键字为最小分割单位，按照预定的分词算法对字符序列进行分割，提高了分词准确率及新词识别能力，避免了分词歧义，可以满足公式、函数校验、解析等对分词要求严格的应用场景。

附图说明

图1是本发明基于关键字的字符序列分割方法一实施例流程示意图；

图2是本发明基于关键字的字符序列分割方法一实施例中依据排序结果，以关键字为最小分割单位，通过预定的分词算法对字符序列进行分割的流程示意图；

图3是本发明基于关键字的字符序列分割装置一实施例的结构示意图；

图4是本发明基于关键字的字符序列分割装置一实施例中字符序列分割模块的结构示意图。

为了使本发明的技术方案更加清楚、明了，下面将结合附图作进一步详述。

具体实施方式

本发明实施例解决方案主要是：通过定义关键字的优先级，建立关键字列表，以关键字列表中各关键字的优先级排列顺序，同时以关键字为最小分割单位，按照预定的分词算法对字符序列进行分割，以提高分词准确率及新词识别能力，避免分词歧义。

如图1所示，本发明一实施例提出一种基于关键字的字符序列分割方法，包括：

步骤S101，加载关键字，并建立关键字列表；

其中，关键字(key)包括自定义关键字及预定义关键字。自定义关键字由程序动态加载，可在系统外维护；预定义关键字是固定的，由系统内置。预定义关键字是分词中常用的分词符，比如：回车、换行、空白符等，其可以简化算法的配置。

自定义关键字保证了分词的新词识别能力，新词可以出现在已有的关键字中间，也可以作为一个关键字，由此可确保新词能够被准确的识别出来。

步骤S102，根据关键字列表中关键字属性的优先级对关键字进行排序；

根据关键字的属性，关键字可以分为不同的优先级，按照优先级对关键字列表中的关键字进行降序排列，以便后续逐级从关键字列表中取出相应级别的关键字对字符序列进行分割。

其中，按关键字优先级进行排序可以消除分词的歧义。如有关键字“+＝”与“+”。对字符序列“x+＝y”，如果“+＝”的优先级比“+”低，则会分割成x，+，＝，y；结果不对；如果“+＝”的优级高，则分割成x，+＝，y；结果正确。

步骤S103，依据排序结果，以关键字为最小分割单位，通过预定的分词算法对字符序列进行分割。

本实施例中使用关键字及关键字列表对字符序列进行分割的分词算法，主要是运用了栈与回溯的思想，并引入了临时栈，以关键字为最小分割单位，逐级轮询关键字列表中的各级关键字对字符序列进行分割。

在初始分割时，从关键字列表中取出最高优先级的关键字，之后，找到该关键字在字符序列中的位置索引号(Index)，然后根据位置索引号对字符序列进行分割。

本实施例设定了位置索引号的取值范围，并定义了第一预定值和第二预定值，通过第一预定值判断当前被轮询的关键字前后是否存在内容，第二预定值标识当前被轮询的关键字不在当前被分割的整段中。

本实施例设定第一预定值为0，第二预定值为-1；位置索引号Index大于第一预定值时(Index＞0)，表明当前待分割的整段中，在当前被轮询的关键字之前还存在内容；位置索引号Index等于第一预定值(Index＝0)时，表明当前待分割的整段中，在当前被轮询的关键字之前不存在内容。

具体处理如下：

若位置索引号等于第一预定值(Index＝0)，则将关键字作为分段压入临时栈中；

若位置索引号大于第一预定值(Index＞0)，则将整段中位于关键字前面的内容作为分段压入临时栈中。

若位置索引号等于第二预定值(Index＝-1)，则将整段压入临时栈中。

若关键字后面还存在内容，则将关键字后面的内容作为分段压入临时栈中；

之后，将临时栈中的各分段内容依次压入栈中；

此后，进入下一轮循环，从关键字列表中取出下一级关键字，并根据下一级关键字分别对栈中的各分段进行分割，直至关键字列表被取空。即关键字列表中的所有关键字全部被轮询完。

具体地，如图2所示，上述步骤S103中，依据排序结果，以关键字为最小分割单位，通过预定的分词算法对字符序列进行分割的流程如下：

步骤S1031，初始化栈和临时栈；

步骤S1032，把需要分词的字符序列作为整段压入栈中；

步骤S1033，判断关键字列表是否为空，若关键字列表为空，则结束流程，若关键字列表不为空，进入步骤S1034；

步骤S1034，根据排序优先级从关键字列表中取出一个关键字；

根据关键字列表中关键字的优先级依次轮询取出优先级较高的关键字，直至关键字列表中每个关键字均被轮询完。

步骤S1035，判断栈是否为空。若栈是空，则进入步骤S1048；若栈不为空，进入步骤S1036；

步骤S1036，从栈中弹出一个段，作为当前段；

步骤S1037，判断当前段是否为空。若当前段为空，则返回步骤S1035；若当前段不为空，进入步骤S1038；

步骤S1038，判断当前段是否为关键字。若当前段为关键字，则进入步骤S1039；若当前段不为关键字，进入步骤S1040；

步骤S1039，将当前段压入临时栈中；并返回步骤S1035；

步骤S1040，获取关键字在当前段中的位置索引号Index；

步骤S1041，判断位置索引号Index是否为第二预定值；若位置索引号Index为第二预定值，则进入步骤S1042；若位置索引号Index不为第二预定值，进入步骤S1043；

其中，第二预定值可以根据实际情况设定，本实施例中以Index＝-1为第二预定值，该第二预定值标识当前轮询的关键字不在当前被分割的整段中。

步骤S1042，把当前段作为整段压入临时栈中；并返回步骤S1035；

步骤S1043，判断位置索引号Index是否为第一预定值，若位置索引号Index为第一预定值，则进入步骤S1044；若位置索引号Index不为第一预定值，进入步骤S1045；

其中，第一预定值可以根据实际情况设定，本实施例中设定第一预定值为0，当前位置索引号Index大于0时，表明当前段中，在当前关键字之前还存在内容，并设定当前位置索引号Index等于0时，表明当前段中，在当前关键字之前不存在内容。

步骤S1044，把位置索引号Index前的内容作为一个新的分段压入临时栈中；并进入步骤S1045；

把位置索引号Index前的内容作为一个新的分段压入临时栈中。

步骤S1045，将关键字压入临时栈中；

步骤S1046，判断关键字之后是否还有内容；若关键字之后还有内容，则进入步骤S1047；若关键字之后没有内容，返回步骤S1035；

步骤S1047，将关键字之后的内容作为一个新段压入临时栈中；并返回步骤S1035；

将位置索引号Index后的内容作为一个新的分段压入临时栈中。

步骤S1048，将临时栈的内容依次压入到栈中，并返回步骤S1033。

本实施例运用关键字列表对字符序列进行分词和匹配，而不是通常意义上的正向或反向匹配；在关键字列表中设置关键字的优先级，消除了分词歧义；分词准确率可达到100％，新词识别能力可达到100％，并可满足公式、函数校验、解析等对分词要求严格的应用场景。

如图3所示，本发明一实施例提出一种基于关键字的字符序列分割装置，包括：关键字列表建立模块301、关键字排序模块302及字符序列分割模块303，其中：

关键字列表建立模块301，用于加载关键字，并建立关键字列表；

关键字排序模块302，用于根据关键字列表中关键字属性的优先级对关键字进行排序；

字符序列分割模块303，用于依据排序结果，以关键字为最小分割单位，通过预定的分词算法对字符序列进行分割。

本实施例通过关键字列表建立模块301加载关键字，并建立关键字列表。

根据关键字的属性，关键字可以分为不同的优先级，关键字排序模块302按照优先级对关键字列表中的关键字进行降序排列，以便后续字符序列分割模块303逐级从关键字列表中取出相应级别的关键字对字符序列进行分割。

字符序列分割模块303在初始分割时，从关键字列表中取出最高优先级的关键字，之后，找到该关键字在字符序列中的位置索引号(Index)，然后根据位置索引号对字符序列进行分割。

具体处理如下：

之后，将临时栈中的各分段内容依次压入栈中；

具体实施中，如图4所示，字符序列分割模块303包括：整段压入单元3031、取出单元3032、获取单元3033及分割压入单元3034，其中：

整段压入单元3031，用于将字符序列作为整段压入栈中；

取出单元3032，用于根据排序优先级从关键字列表中取出关键字；

获取单元3033，用于获取关键字在字符序列中的位置索引号；

分割压入单元3034，用于根据位置索引号对字符序列进行分割。

进一步的，分割单元3034还用于当位置索引号等于第一预定值时，将关键字作为分段压入临时栈中；当位置索引号大于第一预定值时，将整段中位于关键字前面的内容作为分段压入临时栈中，同时将关键字作为分段压入临时栈中；若关键字后面还存在内容，则将关键字后面的内容作为分段压入临时栈中；当位置索引号等于第二预定值时，将整段压入临时栈中；将临时栈中的各分段内容依次压入栈中；从关键字列表中取出下一级关键字，并根据下一级关键字分别对栈中的各分段进行分割，直至关键字列表被取空。

本实施例中给基于关键字分割字符序列的分词算法原理请参照上述实施例流程，在此不作详述。

本实施例基于关键字的字符序列分割方法及装置，通过定义关键字的优先级，建立关键字列表，以关键字列表中各关键字的优先级排列顺序，同时以关键字为最小分割单位，按照预定的分词算法对字符序列进行分割，提高了分词准确率及新词识别能力，避免了分词歧义，可以满足公式、函数校验、解析等对分词要求严格的应用场景。

以上所述仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或流程变换，或直接或间接运用在其它相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种基于关键字的字符序列分割方法，其特征在于，包括以下步骤：

加载关键字，并建立关键字列表；

2.根据权利要求1所述的方法，其特征在于，所述依据排序结果，以所述关键字为最小分割单位，通过预定的分词算法对字符序列进行分割的步骤包括：

将字符序列作为整段压入栈中；

根据排序优先级从关键字列表中取出关键字；

获取所述关键字在所述字符序列中的位置索引号；

根据所述位置索引号对所述字符序列进行分割。

3.根据权利要求2所述的方法，其特征在于，所述根据位置索引号对所述字符序列进行分割的步骤包括：

将所述临时栈中的各分段内容依次压入所述栈中；

4.根据权利要求3所述的方法，其特征在于，所述将关键字作为分段压入所述临时栈中的步骤之前还包括：

5.根据权利要求3所述的方法，其特征在于，所述将临时栈中的各分段内容依次压入所述栈中的步骤之前还包括：

6.根据权利要求1-5中任一项所述的方法，其特征在于，所述关键字包括自定义关键字及预定义关键字。

7.一种基于关键字的字符序列分割装置，其特征在于，包括：

8.根据权利要求7所述的装置，其特征在于，所述字符序列分割模块包括：

整段压入单元，用于将字符序列作为整段压入栈中；

9.根据权利要求8所述的装置，其特征在于，所述分割压入单元还用于当所述位置索引号等于第一预定值时，将所述关键字作为分段压入所述临时栈中；当所述位置索引号大于第一预定值时，将所述整段中位于所述关键字前面的内容作为分段压入临时栈中，同时将所述关键字作为分段压入所述临时栈中；若所述关键字后面还存在内容，则将所述关键字后面的内容作为分段压入所述临时栈中；将所述临时栈中的各分段内容依次压入所述栈中；从所述关键字列表中取出下一级关键字，并根据所述下一级关键字分别对所述栈中的各分段进行分割，直至所述关键字列表被取空。

10.根据权利要求9所述的装置，其特征在于，所述分割压入单元还用于：当所述位置索引号等于第二预定值时，将所述整段压入所述临时栈中。