CN113033193A

CN113033193A - 一种基于c++语言的混合型中文文本分词方法

Info

Publication number: CN113033193A
Application number: CN202110077065.6A
Authority: CN
Inventors: 董仲舒; 姚金龙; 程杰; 张阳光; 何文欢; 谷晶中
Original assignee: Valley Network Polytron Technologies Inc
Current assignee: Valley Network Polytron Technologies Inc
Priority date: 2021-01-20
Filing date: 2021-01-20
Publication date: 2021-06-25
Anticipated expiration: 2041-01-20
Also published as: CN113033193B

Abstract

本发明提供一种基于C++语言的混合型中文文本分词方法。该方法中，一个给定的文本数据的分词过程包括第一次分词过程和第二次分词过程；第一次分词过程的文本数据读取顺序和第二次分词过程的文本数据读取顺序相反；其中，第一次分词过程或第二次分词过程包括以下步骤：步骤1：加载词语词库和词频词库，并建立双数组tire树；步骤2：按照约定的文本数据读取顺序从给定的文本数据中读取一行数据，然后对当前行数据进行分词；步骤3：判断给定的文本数据是否已经读取完毕，若没有，则返回步骤2；若读取完毕，则执行步骤4；步骤4：判断给定的文本数据的分词过程是否结束，若结束，则比较两次分词过程的分词结果以确定给定的文本数据的最终分词结果。

Description

一种基于C++语言的混合型中文文本分词方法

技术领域

本发明涉及自然语言处理技术领域，尤其涉及一种基于C++语言的混合型中文文本分词方法。

背景技术

随着自然语言处理技术的发展，出现了越来越多的中文分词模型，比如最近几年出现的基于神经网络的深度学习分词算法（例如，中国专利文献CN107832307A公开的基于无向图与单层神经网络的中文分词方法）。这些分词模型虽然有的精度高，对未知词识别较好，但是却需要大量的语料做训练，因此要耗费很大的财力和人力去做人工标注；这对于一些中小公司是难以承受的，同时有些应用场景（例如舆情分析）需要第一时间去发现一些敏感的热词等等，能够容忍一定的分词错误率，但是对于分词的速度要求很高，以便于第一时间能够发现特定的热词；此时如果用现有的模型来做，就不能满足此类应用场景。

另外，现有的很多分词模型都是基于python、Java等动态语言写的，虽然开发效率高，但是运行效率却比较低，因此不适用于要求分词速度高的场景。

发明内容

针对现有的基于深度学习的中文分词方法存在的语料需求量大、分词速度较慢的问题，本发明提供一种基于C++语言的混合型中文文本分词方法，至少可以部分地解决上述问题。

本发明提供一种基于C++语言的混合型中文文本分词方法，一个给定的文本数据的分词过程包括第一次分词过程和第二次分词过程；第一次分词过程的文本数据读取顺序和第二次分词过程的文本数据读取顺序相反；

其中，第一次分词过程或第二次分词过程包括以下步骤：

步骤1：加载词语词库和对应的词频词库，并建立双数组tire树；

步骤2：按照约定的文本数据读取顺序从给定的文本数据中读取一行数据，然后对当前行数据进行分词；

步骤3：判断给定的文本数据是否已经读取完毕，若没有，则返回步骤2；若读取完毕，则执行步骤4；

步骤4：判断给定的文本数据的分词过程是否结束，若结束，则比较两次分词过程的分词结果以确定给定的文本数据的最终分词结果。

进一步地，步骤2中，对当前行数据进行分词，包括：

步骤2.1：按照约定的文本数据读取顺序读取当前行数据中的一个字符；

步骤2.2：判断读取的当前字符是否为UTF-8字符：若是，则执行步骤2.3；若不是，则执行步骤2.4；

步骤2.3：判断当前字符的UTF-8编码范围，确定当前字符的长度；将包括当前字符在内及其前面的所有连续UTF-8字符与预先建立的双数组tire树进行比较，并判断是否已经匹配到叶子节点：若已经匹配到叶子节点，则将当前匹配结果存储至分词结果中，然后执行步骤2.7；若未匹配到叶子节点，则将当前匹配结果存储至临时分词结果变量中，然后执行步骤2.7；

步骤2.4：判断读取的当前字符是否为英文字符：若是，则执行步骤2.5；若不是，则执行步骤2.6；

步骤2.5：先将当前英文字符之前的匹配结果存储至分词结果中，然后将当前英文字符存储至字符串变量中，并继续读取下一个字符直至读取到非英文字符或者当前行数据的结尾为止，然后将所述字符串变量中存储的所有字符转存至分词结果中，并执行步骤2.7；

步骤2.6：若读取的当前字符不属于UTF-8字符且也不属于英文字符，则确定当前字符为ASCII字符，则先将当前ASCII字符之前的匹配结果存储至分词结果中，然后将当前ASCII字符存储至特殊字符串变量中，并继续读取下一个字符直至读取到非ASCII字符或者当前行数据的结尾为止，然后将所述特殊字符串变量中存储的所有字符转存至分词结果中，并执行步骤2.7；

步骤2.7：更新读取位置；

步骤2.8：判断当前读取位置是否为当前行数据的结尾，若不是结尾，则返回步骤2.1以继续读取下一个字符；若是结尾，则执行步骤3。

进一步地，步骤4中，比较两次分词过程的分词结果以确定给定的文本数据的最终分词结果，包括：

比较两次分词过程的分词结果数量，以分词结果数量多的分词结果作为给定的文本数据的最终分词结果。

进一步地，步骤4中，比较两次分词过程的分词结果以确定给定的文本数据的最终分词结果，还包括：

若两次分词过程的分词结果数量相同，则比较两次分词过程的分词结果中出现的单个词的频度，以单个词的频度高的分词结果作为给定的文本数据的最终分词结果。

若两次分词过程的分词结果数量相同，并且两次分词过程的分词结果中出现的单个词的频度相同，则比较两次分词过程的分词结果的方差，以方差小的分词结果作为给定的文本数据的最终分词结果。

若两次分词过程的分词结果数量相同，两次分词过程的分词结果中出现的单个词的频度相同，以及两次分词过程的分词结果的方差相同，则以文本数据读取顺序为从右到左的分词过程的分词结果作为给定的文本数据的最终分词结果。

本发明的有益效果：

本发明提供的分词方法通过按照两种互为相反顺序的文本数据读取顺序对给定的文本数据进行读取进而进行分词，然后比较两次分词过程的分词结果，选取较优的分词结果作为最终的分词结果；并且，可以通过更新词库，增加特定的热词，以满足更多的应用场景。

本发明提供的分词方法，采用C++语言实现，相比于其它语言，C++作为一种静态类型的语言，既能保持面向对象的特性，又兼有C语言的速度，底层的内存分配采用jemalloc，更好地应对了多线程中内存分配的高效率场景，提高了分词速度。

附图说明

图1为本发明实施例提供的基于C++语言的混合型中文文本分词方法的流程示意图；

图2为本发明实施例提供的对当前行数据进行分词的流程示意图；

图3为本发明实施例提供的比较两次分词结果的流程示意图；

图4为本发明实施例提供的含有英文和数字的混合型中文文本的分词结果示意图；

图5为本发明实施例提供的含有数字和其他特殊字符的混合型中文文本的分词结果示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明实施例提供一种基于C++语言的混合型中文文本分词方法，一个给定的文本数据的分词过程包括第一次分词过程和第二次分词过程；第一次分词过程的文本数据读取顺序和第二次分词过程的文本数据读取顺序相反；

例如，约定第一次分词过程的文本数据读取顺序为从左到右；约定第二次分词过程的文本数据读取顺序为从右到左。可以理解的是，若文本数据读取顺序为从右到左，按照惯用的文本数据的正常逻辑排列顺序，其最终的分词结果应整体进行翻转一下。

其中，第一次分词过程或第二次分词过程包括以下步骤：

S101：加载词语词库和对应的词频词库，并建立双数组tire树；

可以理解，词频词库是用于存储词语词库中的各个词语在一定时间段内所有指定文章中出现的次数的词库。词语词库和词频词库可以分开存放，也可以合并存放，合并存放时，将词语及其词频相对应即可。

S102：按照约定的文本数据读取顺序从给定的文本数据中读取一行数据，然后对当前行数据进行分词；

S103：判断给定的文本数据是否已经读取完毕，若没有，则返回步骤S102；若读取完毕，则执行步骤S104；

S104：判断给定的文本数据的分词过程是否结束，若结束，则比较两次分词过程的分词结果以确定给定的文本数据的最终分词结果。

本发明实施例提供的分词方法通过按照两种互为相反顺序的文本数据读取顺序对给定的文本数据进行读取进而进行分词，然后比较两次分词过程的分词结果，选取较优的分词结果作为最终的分词结果，并且，可以通过更新词库，增加特定的热词，以满足更多的应用场景。

在上述实施例的基础上，如图2所示，作为一种可实施方式，步骤S102中，对当前行数据进行分词，包括：

S201：按照约定的文本数据读取顺序读取当前行数据中的一个字符；在读字符的时候，按照顺序逐字节读取。

S202：判断读取的当前字符是否为UTF-8字符：若是，则执行步骤S203；若不是，则执行步骤S204；

S203：判断当前字符的UTF-8编码范围，确定当前字符的长度；将包括当前字符在内及其前面的所有连续UTF-8字符与预先建立的双数组tire树进行比较，并判断是否已经匹配到叶子节点：若已经匹配到叶子节点（表明当前匹配结果是一个完整的词），则将当前匹配结果存储至分词结果中，然后执行步骤S207；若未匹配到叶子节点，则将当前匹配结果存储至临时分词结果变量中，然后执行步骤S207；

步S204：判断读取的当前字符是否为英文字符：若是，则执行步骤S205；若不是，则执行步骤S206；

步骤S205：先将当前英文字符之前的匹配结果存储至分词结果中，然后将当前英文字符存储至字符串变量中，并继续读取下一个字符直至读取到非英文字符或者当前行数据的结尾为止，然后将所述字符串变量中存储的所有字符转存至分词结果中，并执行步骤S207；

步骤S206：若读取的当前字符不属于UTF-8字符且也不属于英文字符，则确定当前字符为ASCII字符，则先将当前ASCII字符之前的匹配结果存储至分词结果中，然后将当前ASCII字符存储至特殊字符串变量中，并继续读取下一个字符直至读取到非ASCII字符或者当前行数据的结尾为止，然后将所述特殊字符串变量中存储的所有字符转存至分词结果中，并执行步骤S207；

可以理解，非ASCII字符是指英文字符、中文字符、停词、空格等字符。

步骤S207：更新读取位置，具体为：根据步骤S205或步骤S206读取的字节数进行更新。

步骤S208：判断当前读取位置是否为当前行数据的结尾，若不是结尾，则返回步骤S201以继续读取下一个字符；若是结尾，则执行步骤S103。

本发明实施例提供的分词方法，可以识别中文文本中的日期、英文名称等非中文词汇，在保持高效分词的同时，也保持了较高的准确率。

本发明实施例提供的分词方法，采用C++语言实现，相比于其它语言，C++作为一种静态类型的语言，既能保持面向对象的特性，又兼有C语言的速度，底层的内存分配采用jemalloc（jemalloc是一种高效的底层内存管理库，在多线程环境下，能够提升大约20%的效率，由于在分词过程中需要不同的分配和释放内存，势必会影响分词效率，通过把标准glibc中的malloc/free方法替换为jemalloc库中的malloc/free，可以获得可观的性能提升），更好地应对了多线程中内存分配的高效率场景，提高了分词速度。

在上述各实施例的基础上，如图3所示，作为一种可实施方式，步骤S104中，比较两次分词过程的分词结果以确定给定的文本数据的最终分词结果，包括：

可以理解，分词结果数量是指分词结果中的单元词汇个数。

为了验证本发明提供的分词方法的有效性，本发明还提供有两幅分词效果的示意图，如图4和图5所示。图4为含有英文和数字的混合型中文文本的分词结果示意图；图5为含有数字和其他特殊字符的混合型中文文本的分词结果示意图。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于C++语言的混合型中文文本分词方法，其特征在于，一个给定的文本数据的分词过程包括第一次分词过程和第二次分词过程；第一次分词过程的文本数据读取顺序和第二次分词过程的文本数据读取顺序相反；

其中，第一次分词过程或第二次分词过程包括以下步骤：

2.根据权利要求1所述的方法，其特征在于，步骤2中，对当前行数据进行分词，包括：

步骤2.7：更新读取位置；

3.根据权利要求1或2所述的方法，其特征在于，步骤4中，比较两次分词过程的分词结果以确定给定的文本数据的最终分词结果，包括：

4.根据权利要求3所述的方法，其特征在于，步骤4中，比较两次分词过程的分词结果以确定给定的文本数据的最终分词结果，还包括：

5.根据权利要求4所述的方法，其特征在于，步骤4中，比较两次分词过程的分词结果以确定给定的文本数据的最终分词结果，还包括：

6.根据权利要求5所述的方法，其特征在于，步骤4中，比较两次分词过程的分词结果以确定给定的文本数据的最终分词结果，还包括：