CN110188355A

CN110188355A - 一种基于wfst技术的分词方法、系统、设备及介质

Info

Publication number: CN110188355A
Application number: CN201910461597.2A
Authority: CN
Inventors: 陈孝良; 王江; 冯大航
Original assignee: BEIJING WISDOM TECHNOLOGY Co Ltd
Current assignee: BEIJING WISDOM TECHNOLOGY Co Ltd; Beijing SoundAI Technology Co Ltd
Priority date: 2019-05-29
Filing date: 2019-05-29
Publication date: 2019-08-30

Abstract

一种基于WFST技术的分词方法，包括：建立词与词对应的字的关联关系，并将关联关系存入数据库生成词典；建立词与词之间的关联概率，生成关联数据库；将词典与关联数据库生成WFST格式文件后进行组合，生成WFST资源库；将待分词语句逐字输入WFST资源库进行搜索，得到多个不同的搜索路径及其对应的概率；将概率最高的搜索路径作为最终分词路径，将概率最高的搜索路径的分词结果作为最终的分词输出结果。采用WFST方法和统计模型进行分词，提高了分词速度和准确性。另外，还提供了一种基于WFST技术的分词系统、设备及介质。

Description

一种基于WFST技术的分词方法、系统、设备及介质

技术领域

本发明涉及计算机分词技术领域，尤其涉及一种基于WFST技术的分词方法、系统、设备及介质。

背景技术

对句子进行分词常用的技术有基于字符创匹配的前向算法、基于字符串匹配的后向算法以及基于字符串匹配的前后向结合算法，但这些算法分词准确率不同，有待提出一种高准确率的分词方法。加权有限状态转换技术(Weighted Finite-State Transducer、WFST)，被用于语音识别中，对语音的识别速度快、准确性高，其功能有待进一步开发。

发明内容

(一)要解决的技术问题

本发明提供了一种基于WFST技术的分词方法、系统、设备及介质，采用WFST方法和统计模型进行分词，提高了分词速度和准确性。

(二)技术方案

第一方面，本发明提供了一种基于WFST技术的分词方法，包括：建立词与词对应的字的关联关系，并将关联关系存入数据库生成词典；建立词与词之间的关联概率生成关联数据库；将词典与关联数据库生成WFST格式文件后进行组合，生成WFST资源库；将待分词语句逐字输入WFST资源库进行搜索，得到多个不同的搜索路径及其对应的概率；将概率最高的搜索路径作为最终分词路径，将概率最高的搜索路径的分词结果作为最终的分词输出结果。

可选的，采用统计模型计算词与词之间的关联概率。

可选的，统计模型包括NGRAM模型或RNN-LM模型。

可选的，采用openfst工具将词典与关联数据库生成的WFST格式文件进行组合。

可选的，得到多个不同的搜索路径及其对应的概率具体为：采用基于字同步的广度优先遍历方法遍历WFST资源库以得到不同搜索路径下的概率。

可选的，不同搜索路径具体包括待分词语句分别被分成不同的词语组合。

可选的，将待分词语句逐字输入WFST资源库进行搜索，得到多个不同的搜索路径及其对应的概率具体包括：遍历WFST资源库以得到每一搜索路径下词与其相连的后一词或字与与其相连的后一词的多个关联概率，将多个关联概率相乘得到搜索路径下的概率，以此方式得到不同搜索路径下的概率。

第二方面，本发明提供了一种基于WFST技术的分词系统，包括：第一建立模块，用于建立词与词对应的字的关联关系，并将关联关系存入数据库生成词典；第二建立模块，用于建立词与词之间的关联概率生成关联数据库；组合模块，用于将词典与关联数据库生成WFST格式文件后进行组合，生成WFST资源库；输入模块，用于将待分词语句逐字输入WFST资源库，得到多个不同的搜索路径及其对应的概率；输出模块，用于将概率最高的搜索路径作为最终分词路径，将概率最高的搜索路径的分词结果作为最终的分词输出结果。

第三方面，本发明提供了一种电子设备，设备包括：

处理器；

存储器，其存储有计算机可执行程序，该程序在被处理器执行时，使得处理器执行如上述的基于WFST技术的分词方法。

第四方面，本发明提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述的基于WFST技术的分词方法。

(三)有益效果

本发明提供了一种基于WFST技术的分词方法、系统、设备及介质，采用WFST方法进行分词，只需要将句子逐字在WFST中遍历一次即可输出结果，因此提高了分词速度；另外分词是由统计模型训练人工分词的语料库得到的，因此使用WFST技术的分词可以达到和人工分词相当的效果，从而提高了分词的准确性。

附图说明

图1示意性示出了本公开实施例的基于WFST技术的分词方法步骤图；

图2示意性示出了本公开实施例的单字WFST的构建示意图；

图3示意性示出了本公开实施例的词语WFST的构建示意图；

图4示意性示出了本公开实施例的单字WFST和词语WFST组合的构建示意图；

图5示意性示出了本公开实施例的基于WFST技术的分词系统的结构框图；

图6示意性示出了本公开实施例的电子设备的结构框图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明进一步详细说明。

现有的加权有限状态转换WFST(Weighted Finite-State Transducer)技术被用于语音识别中，在语音识别领域，一个词语可以和不同的词语进行搭配，例如，“北京”可以接“人民”等，“人民”后接“电台”、“公园”、“欢迎您”等，计算“北京”与其他词语的概率，“人民”后接其他词语的概率，连乘后选择概率最高的路径作为结果路径，例如，对于如下路径：

路径1：北京→人民→电台

路径2：北京→人民→公园

路径3：北京→人民→欢迎您

其中，路径1中“北京”后接“人民”的概率a1＝0.2，“人民”后接“电台”的概率a2＝0.3；路径2中“北京”后接“人民”的概率b1＝a1＝0.2，“人民”后接“公园”的概率b2＝0.1；路径3中“北京”后接“人民”的概率c1＝a1＝0.2，“人民”后接“欢迎您”的概率c2＝0.5，对各路径中的概率值进行概率相乘，得到各路径的综合概率，即路径1的概率A＝a1×a2＝0.06；路径2的概率B＝b1×b2＝0.02；路径3的概率C＝c1×c2＝0.10，由此可知，路径3的概率最高，则以路径3中的结果作为最后的识别结果。

基于上技术，本发明提供了一种基于WFST技术的分词方法，参见图1，包括：建立词与词对应的字的关联关系，并将关联关系存入数据库生成词典；建立词与词之间的关联概率生成关联数据库；将词典与关联数据库生成WFST格式文件后进行组合，生成WFST资源库；将待分词语句逐字输入WFST资源库进行搜索，得到多个不同的搜索路径及其对应的概率；将概率最高的搜索路径作为最终分词路径，将概率最高的搜索路径的分词结果作为最终的分词输出结果。以下将以具体的实施例为例对该方法进行详细说明。

建立词与其组成的字的关联关系，并将关联关系存入数据库生成词典；

具体的，人工制作字到词的对应关系，如单字“北”、“京”到词“北京”，单字“人”、“民”到词“人民”等等，生成多个字到词的对应关系组成的词典，并把生成的词典转化为WFST格式，以备后续步骤使用。

建立词与词之间的关联概率生成关联数据库；

具体的，本发明实施例中优选采用统计模型中的语言模型NGRAM模型计算数据库中词与词之间的关联概率，首先，利用大量的标注语料生成NGRAM模型，其具体的计算过程如下：

首先，计算词与词之间的关联概率也即条件概率，以“北京”和“人民”的关联概率计算为例：

即在“人民”存在的条件下“北京”存在的概率为，“北京”和“人民”同时存在的概率除以“北京”存在的概率。

又如，“北京”和“公园”的关联概率为：

即，在“公园”存在的条件下“北京”存在的概率为“北京”和“公园”同时存在的概率除以“北京”存在的概率。

综上所述，词组ABC由A、B和C组成，其概率可以表示为：

P(ABC)＝P(C|AB)·P(AB)

＝P(C|AB)·P(B|A)·P(A)

其中，A、B和C均为不同的词语。

将词典与关联数据库生成WFST格式文件后进行组合，生成WFST资源库；

具体的，采用openfst工具将上述步骤中的词典与关联数据库生成的WFST格式文件进行组合，生成一个输入为字，输出为词，权重为NGRAM模型概率的WFST资源库。

将待分词语句逐字输入WFST资源库进行搜索，得到多个不同的搜索路径及其对应的概率；

具体的，将待分词语句逐字输入WFST资源库进行搜索，形成不同的搜索路径，其中，不同的搜索路径包括待分词语句分别被分成不同词语的组合。

词典的WFST用于描述字到词的对应关系，因此在路径上未分配概率，如下图2所示，路径“O-a1-a11”表示输入为“北”，输出为ε；路径a1-a11表示输入为“京”，输出为“北京”，其中“ε”表示输出为空，可以为任意空白字符，用于区分词的边界；

路径“O-a1-a12”中，O-a1表示输入为“北”，输出为“ε”；路径a1-a12表示输入为“极”，输出为“北极”；

路径“O-a1-a13”中，0-a1表示输入为“北”，输出为“ε”；路径a1-a13表示输入为“方”，输出为“北方”；

路径“O-a2”表示输入为单字“北”，输出为单字“北”；

路径“O-a3-a31”中，O-a3表示输入为“公”，输出为“ε”；路径a3-a31表示输出为“园”，输出为“公园”。

接着需要构建关联数据库的WFST，如下图3所示：

路径O-b1表示从句首开始到“北京”转移，输入为“北京”，输出为“北京”时的概率P1；路径b1-b11表示从“北京”开始到“人民”转移，输入为“人民”，输出为“人民”时的概率P11；路径b11-b12表示从“人民”到“欢迎您”转移，输入为“欢迎您”，输出为“欢迎您”时的概率P12；概率P1、P11和P12的乘积即表示该路径的概率，即输出结果为“北京-人民-欢迎您”的概率，也就是将“北京人民欢迎您”的输入拆分为“北京”、“人民”、“欢迎您”三个词作为输出结果的概率；

路径O-b2表示从句首开始到“北京人民欢迎您”转移，输入为“北京人民欢迎您”，输出为“北京人民欢迎您”的概率P2，表示该路径的概率为P2，即将“北京人民欢迎您”的输入作为一个完整词组进行输出的概率；

路径O-b3表示输入为“北京”，输出为“北京”时的概率P3；路径b3-b31表示输入为“人民欢迎您”，输出为“人民欢迎您”时的概率P31；概率P3和P31的乘积即表示该路径的概率，即输出结果为“北京-人民欢迎您”的概率，即将“北京人民欢迎您”的输入拆分为“北京”和“人民欢迎您”两个词的输出结果的概率。

将概率最高的搜索路径作为最终分词路径，将概率最高的搜索路径的分词结果作为最终的分词输出结果。

具体的，对给定待分词语句，逐字输入WFST资源库，进行维特比搜索，得到同一输入条件下不同的输出路径，每一条路径的概率为该路径下每条边上权重的乘积，将概率最高的搜索路径作为最终分词路径，将概率最高的搜索路径的分词结果作为最终的分词输出结果。如下图4所示，其中一条路径为：0-a1-a2-a3-a4；另一条分词路径为：0-b1-b2-b3-b4。

第一条路径的含义如下：

0-a1：在输入为“北”的情况下，输出为“ε”的概率P11；

a1-a2：在输入为“京”的情况下，输出为“北京”的概率P12；

a2-a3：在输入为“人”的情况下，输出为“ε”的概率P13；

a3-a4：在输入为“民”的情况下，输出为“人民”的概率P14。

计算P11、P12、P13以及P14概率之积，即为输出结果为“北京ε人民”的概率P1。

第二条路径的含义如下：

O-b1：在输入为“北”的情况下，输出为“ε”的概率P21；

b1-b2：在输入为“京”的情况下，输出为“ε”的概率P22；

b2-b3：在输入为“人”的情况下，输出为“ε”的概率P23；

b3-b4：在输入为“民”的情况下，输出为“北京人民”的概率P24。

概率之积，即输出结果为“北”-“京”-“人”-“民”的概率P2。

第一条路径和第二条路径中，概率最大的一条路径即为输出结果。

第二方面，本发明还提供了一种基于WFST技术的分词系统500，参见图5，包括第一建立模块501、第二建立模块502、组合模块503、输入模块504以及输出模块505，其中：

第一建立模块501，用于建立词与其组成的字的关联关系，并将关联关系存入数据库生成词典，并将词典转化为WFST格式；

第二建立模块502，用于建立词与词之间的关联概率生成关联数据库，并将关联数据库转化为WFST格式；，其中，该第二建立模块502中优选采用统计模型中的NGRAM模型计算数据库中词与词之间的关联概率；

组合模块503，用于将词典与所述关联数据库生成的WFST格式文件进行组合，生成WFST资源库；

输入模块504，用于将待分词语句逐字输入WFST资源库进行搜索，得到多个不同的搜索路径及其对应的概率；

输出模块505，用于将概率最高的搜索路径作为最终分词路径，将概率最高的搜索路径的分词结果作为最终的分词输出结果。

第三方面，本发明还提供了一种电子设备600，参见图6，设备包括处理器和存储器，其中：

处理器601例如可以包括通用微处理器、指令集处理器和/或相关芯片组和/或专用微处理器(例如，专用集成电路(ASIC))，等等。处理器601还可以包括用于缓存用途的板载存储器。处理器601可以是用于执行根据本发明实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。

存储器602，例如可以是能够包含、存储、传送、传播或传输指令的任意介质。例如，可读存储介质可以包括但不限于电、磁、光、电磁、红外或半导体系统、装置、器件或传播介质。可读存储介质的具体示例包括：磁存储装置，如磁带或硬盘(HDD)；光存储装置，如光盘(CD-ROM)；存储器，如随机存取存储器(RAM)或闪存；和/或有线/无线通信链路。

存储器602可以包括计算机程序6021，该计算机程序6021可以包括代码/计算机可执行指令，其在由处理器601执行时使得处理器601执行例如上面本发明实施例的方法流程及其任何变形。

计算机程序6021可被配置为具有例如包括计算机程序模块的计算机程序代码。例如，在示例实施例中，计算机程序6021中的代码可以包括一个或多个程序模块，例如包括6021A、模块6021B、……。应当注意，模块的划分方式和个数并不是固定的，本领域技术人员可以根据实际情况使用合适的程序模块或程序模块组合，当这些程序模块组合被处理器601执行时，使得处理器601可以执行例如上面结合本发明实施例的方法流程及其任何变形。

根据本申请的实施例的模块、子模块、单元、子单元中的任意多个、或其中任意多个的至少部分功能可以在一个模块中实现。根据本申请实施例的模块、子模块、单元、子单元中的任意一个或多个可以被拆分成多个模块来实现。

第四方面，本发明还提供了一种计算机可读存储介质，该计算机可读介质可以是上述实施例中描述的设备/装置/系统中所包含的；也可以是单独存在，而未装配入该设备/装置/系统中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被执行时，实现根据本申请实施例的方法。

本领域技术人员可以理解，本申请的各个实施例和/或权利要求中记载的特征可以进行多种组合或/或结合，即使这样的组合或结合没有明确记载于本申请中。特别地，在不脱离本申请精神和教导的情况下，本申请的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合。所有这些组合和/或结合均落入本申请的范围。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于WFST技术的分词方法，包括：

建立词与所述词对应的字的关联关系，并将所述关联关系存入数据库生成词典；

建立词与词之间的关联概率生成关联数据库；

将所述词典与所述关联数据库生成WFST格式文件后进行组合，生成WFST资源库；

将待分词语句逐字输入所述WFST资源库进行搜索，得到多个不同的搜索路径及其对应的概率；

将概率最高的搜索路径作为最终分词路径，将所述概率最高的搜索路径的分词结果作为最终的分词输出结果。

2.根据权利要求1所述的分词方法，采用统计模型计算所述词与词之间的关联概率。

3.根据权利要求2所述的分词方法，所述统计模型包括NGRAM模型或RNN-LM模型。

4.根据权利要求1所述的分词方法，采用openfst工具将所述词典与所述关联数据库生成的WFST格式文件进行组合。

5.根据权利要求1所述的分词方法，所述得到多个不同的搜索路径及其对应的概率具体为：

采用基于字同步的广度优先遍历方法遍历所述WFST资源库以得到不同搜索路径下的概率。

6.根据权利要求1所述的分词方法，不同搜索路径具体包括待分词语句分别被分成不同的词语组合。

7.根据权利要求6所述的分词方法，所述将待分词语句逐字输入所述WFST资源库进行搜索，得到多个不同的搜索路径及其对应的概率具体包括：

遍历所述WFST资源库以得到每一搜索路径下词与其相连的后一词或字与其相连的后一词的多个关联概率，将所述多个关联概率相乘得到所述搜索路径下的概率，以此方式得到不同搜索路径下的概率。

8.一种基于WFST技术的分词系统，包括：

第一建立模块，用于建立词与所述词对应的字的关联关系，并将所述关联关系存入数据库生成词典；

第二建立模块，用于建立词与词之间的关联概率生成关联数据库；

组合模块，用于将所述词典与所述关联数据库生成WFST格式文件后进行组合，生成WFST资源库；

输入模块，用于将待分词语句逐字输入WFST资源库进行搜索，得到多个不同的搜索路径及其对应的概率；

输出模块，用于将概率最高的搜索路径作为最终分词路径，将概率最高的搜索路径的分词结果作为最终的分词输出结果。

9.一种电子设备，所述设备包括：

处理器；

存储器，其存储有计算机可执行程序，该程序在被所述处理器执行时，使得所述处理器执行如权利要求1-7中任意一项所述的基于WFST技术的分词方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-7中任意一项所述的基于WFST技术的分词方法。