CN107391574A

CN107391574A - 一种基于本体和群智能算法的中文歧义切分方法

Info

Publication number: CN107391574A
Application number: CN201710464556.XA
Authority: CN
Inventors: 林焓; 薛醒思
Original assignee: Fujian University of Technology
Current assignee: Fujian University of Technology
Priority date: 2017-06-19
Filing date: 2017-06-19
Publication date: 2017-11-24
Anticipated expiration: 2037-06-19
Also published as: CN107391574B

Abstract

本发明提供一种基于本体和群智能算法的中文歧义切分方法，包括：获取用户输入的一个问句进行预处理，得到至少一个候选切分方式，形成候选切分方式集合W；利用本体中标注的同义词信息创建同义词簇；并计算词形的词位置e；以三个连续词形为单位，创建双向三元模型、含词位置信息的语义双向三元模型以及含词位置信息的偏好语义双向三元模型，计算每一种候选切分方式在不同模型下出现的概率；利用不同的模型以及考虑句子断点向量的淘汰集，创建单目标优化模型，并通过群智能算法求解最优的句子断点向量，作为最优分词结果。本发明结合本体计算词频，并利用智能群算法求最优句子断点向量，有效降低错误分词结果，大大提高分词准确性。

Description

一种基于本体和群智能算法的中文歧义切分方法

技术领域

本发明涉及信息处理技术领域，尤其涉及一种用于图书馆检索的基于本体和群智能算法的中文歧义切分技术。

背景技术

图书馆智能虚拟参考咨询系统是一类信息检索系统，该系统依赖于自然语言处理技术来实现对用户检索意图的理解，从而完成后续的信息检索过程。由于自然语言处理技术直接影响着图书馆智能虚拟参考咨询系统的性能，因此实现该技术的自然语言处理模块是图书馆智能虚拟参考咨询系统的核心模块，而中文分词技术是自然语言处理的基础。

目前，中文分词技术领域中，基于统计的方法逐渐成为主流方法之一。基于统计的分词方法是根据某种概率统计模型统计语料库(即训练语料)中词的出现频率或概率，作为衡量待切分句子中所有子序列组合是否成词的标准。现有文献中，王晓龙等1991年提出将词频统计应用在在分词技术中，提出了一种最少分词词频选择算法(具体见王晓龙,王开铸,白小华.自然语言理解中的音字流自动分词[J].中文信息学报,1991,5(3):48-58.)，该方法利用最少匹配算法确定候选结果集，然后再利用静态的词频统计结果和候选词词长来排序候选结果，达到了查准率小于双向最大匹配法的效果；Tang 等将n-gram和互信息结合提出NGMI算法(具体见Tang Ling Xiang,Geva Shlomo,Xu Yue,et al.WordSegmentation for Chinese Wikipedia Using N-Gram Mutual Information[J].PlosMedicine,2009,2(7):576-582.)，该算法需要从语料库中提取单字、二字、三字、四字频度来计算NGMI，达到查全率高于ICTCLAS(汉语词法分析系统，具体可参见刘群,张华平,俞鸿魁, 等.基于层叠隐马模型的汉语词法分析[J].计算机研究与发展,2004, 41(8):1421-1429.)；何爱元等提出综合考虑了基于词频和分词位置的双向三元模型(具体见何爱元.基于词典和概率统计的中文分词算法研究[D].辽宁大学,2011.),该方法同ICTCLAS相比，分词速度有一定的优势，查全率和查准率都远大于正向最大匹配法。巫黄旭提出将逐点互信息、信息熵和对数似然比联合起来提出字间关联度来辅助分词(具体见巫黄旭.基于统计学习的中文分词改进及其在面向应用分词中的应用[D].浙江大学,2012.)。该方法统计语料库中的单字频度、字对频度、三字频度来计算字间关联度，显著地提高了已有方法的查准率和查全率。

上述基于统计的分词技术中，都仅仅考虑词形因素，忽略了一意多词的现象，导致相关技术无法在不同背景下保证分词结果的质量。

另外，由于在分词过程中，断点位置直接影响分词结果的质量，不合理的断点位置也会导致错误的分词结果，导致分词的准确性不高。

有鉴于此，本发明提供一种基于图书馆领域本体和群智能算法的中文歧义切分方法，且为了对本发明方法进行详细说明，引入以下概念：

本体：是共享概念模型的明确的形式化规范说明，它由概念以及概念间的关系组成的；

N元模型：N元模型的任务是求出由任意词序列(w_i，1w_i，2…)^T组成的句子 W_i出现的概率P(W_i)，该模型认为词w_i，j的出现概率只同它前面的N-1个词有关(正向)；

三元双向模型：该模型是在正向的三元模型的基础上考虑词w_i，j右边的上下文信息(即同时考虑词w_i，j前面的词以及后面的词对其出现概率的影响)。

发明内容

本发明要解决的技术问题，在于提供一种基于本体和群智能算法的中文歧义切分方法，结合本体同义词进行词频计算，并利用群智能算法求得最优解，有效降低错误分词结果，大大提高分词准确性。

本发明是这样实现的：一种基于本体和群智能算法的中文歧义切分方法，包括如下步骤：

步骤1、获取用户输入的一个问句进行预处理，得到至少一个候选切分方式，形成候选切分方式集合W；

步骤2、利用本体中标注的同义词信息创建同义词簇，包括对每一候选切分方式中的每两个连续词形扩展成一个二元同义词簇，每三个连续词形扩展成一个三元同义词簇；

步骤3、计算每一候选切分方式中每一词形的词位置e；

步骤4、以三个连续词形为单位，考虑其中前两个词和后两个词的词形对当前处理词形出现的概率的影响创建双向三元模型，计算每一种候选切分方式在所述双向三元模型下出现的概率BP；

步骤5、以三个连续词形为单位，考虑其中前两个词和后两个词的词形、扩展同义词簇以及词位置对当前处理词形出现的概率的影响创建含词位置信息的语义双向三元模型，计算每一种候选切分方式在所述含词位置信息的语义双向三元模型下出现的概率SWP；

步骤6、以三个连续词形为单位，在含词位置信息的语义双向三元模型和双向三元模型的基础上进一步考虑候选切分方式长度以及候选切分方式偏好值对候选切分方式出现的概率的影响创建含词位置信息的偏好语义双向三元模型，计算每一种候选切分方式在所述含词位置信息的偏好语义双向三元模型下出现的概率PSWP；

步骤7、利用所述含词位置信息的偏好语义双向三元模型下出现的概率 PSWP，并考虑句子断点向量的淘汰集，创建单目标优化模型，并通过群智能算法求解最优的句子断点向量，将其对应的候选切分方式作为最优分词结果。

进一步的，所述步骤1具体为：获取用户输入的问句进行建图处理，对所述图结构求解k种最短路径，得到k种候选切分方式，用候选切分方式集合W存储，所述集合W＝{W_i＝w_i，1w_i，2…|w_i，j∈C_name∪R_name∪S，i＝1，...，k}，其中，S＝{s₁，s₂，...}表示问句字符序列的字符集合，k表示候选切分方式的数量，W_i为第i种候选切分方式，w_i，j为第i种候选切分方式的第j个词形，C_name表示概念名称集合，R_name表示谓语名称集合。

进一步的，所述词位置e的计算公式为：

其中，w_i，j为第i种候选切分方式的第j个词形，index(w_i，j)为词w_i，j的首个字符w_i，j，1同句子W_i的首个字符w_i，1，1的距离，为第i种候选切分方式中所有字符的数量；

BK为句子断点向量，且BK＝(bk₁，bk₂，...，bk_q)^T，q＝3，且其中为W_i中所有字符的数量。

进一步的，所述步骤4中概率BP的具体公式为：

count(w_i,j-2w_i,j-1w_i,j)表示词串w_i,j-2w_i,j-1w_i,j在训练语料中出现的次数；

count(w_i,j-2w_i,j-1)表示词串w_i,j-2w_i,j-1在训练语料中出现的次数；

count(w_i,jw_i,j+1w_i,j+2)表示词串w_i,jw_i,j+1w_i,j+2在训练语料中出现的次数；

count(w_i,j+1w_i,j+2)表示词串w_i,j+1w_i,j+2训练语料中出现的次数。

进一步的，所述步骤5中概率SWP的具体公式为：

其中，count(SW(w_i，j-2)_uSW(w_i，j-1)_zSW(w_i，j)_k，e)表示SW(w_i，j-2)SW(w_i，j-1)SW(w_i，j)笛卡尔积元素在训练语料中在第e＝position(w_i，j，BK)区间上的次数；

count(SW(w_i，j-2)_uSW(w_i，j-1)_z，e)表示SW(w_i，j-2)SW(w_i，j-1)笛卡尔积元素在训练语料中在第 e＝position(w_i，j，BK)区间上的次数；

count(SW(w_i，j)_kSW(w_i，j+1)_uSW(w_i，j+2)_z，e)表示SW(w_i，j)SW(w_i，j+1)SW(w_i，j+2)笛卡尔积元素在训练语料中在第e＝position(w_i，j，BK)区间上的次数；

count(SW(w_i，j+1)_uSW(w_i，j+2)_z，e)表示SW(w_i，j+1)SW(w_i，j+2)笛卡尔积元素在训练语料中在第 e＝position(w_i，j，BK)区间上的次数；

上述SW(x)表示概念x在本体中标注的同义词集合，SW(w_i，j-2)SW(w_i，j-1)和 SW(w_i，j+1)SW(w_i，j+2)为二元同义词簇，SW(w_i，j-2)SW(w_i，j-1)SW(w_i，j)和SW(w_i，j)SW(w_i，j+1)SW(w_i，j+2)为三元同义词簇。

进一步的，所述步骤6中概率PSWP的具体公式为：

其中，为根据第i中候选切分方式的语义标注结果计算得到的第i中候选切分方式的偏好值；

lengthmax＝max{|W1|，|W2|，...|}，lengthmin＝min{|W1|，|W2|，...}，|W_i|为切分方式W_i的词数量，i＝1,2,..；

所述语义标注结果获取过程具体为：

通过所述本体中的名词集合C_name和谓语集合R_name来抽取候选切分方式中的所有名词和谓语，若没有谓语，则语义标注结束；

将名词间不重复的两个词分别充当主语和宾语同各个谓词进行组合，使得每一种候选切分方式都具有n种语义标注结果，并用表示第i种候选切分方式W_i的第j种语义标注结果，其中，subj、pred、obje分别为标注的主语、谓语和宾语，且subj，obje∈C_name，pred∈R_name；

所述偏好值的计算方式具体为：

其中：

SW(pred)为pred的同义词集合；

domain(SW(pred))为pred以及pred的同义词在本体中标注的主语集合；

range(SW(pred))为pred以及pred的同义词在本体中标注的宾语集合；

SWS(domain(SW(pred)))表示pred以及pred的同义词在本体中标注的主语集合中每一个元素在本体中标注的同义词集合；

SWS(range(SW(pred)))表示pred以及pred的同义词在本体中标注的宾语集合中每一个元素在本体中标注的同义词集合。

进一步的，所述单目标优化模型具体为：

其中，

进一步的，通过蜂群智能算法对所述单目标优化模型求解最优的句子断点向量，具体过程包括：

步骤a、设计编码方案：将种群中每个个体的编码表示为bk₁bk₂bk₃，其中，bk_j∈{1，2，...，|W_i|},j＝1,2,3且其中为句子W_i中的字符个数，bk_j用来表示句子中第j个字符和第j+1个字符之间的分界，解空间对应句子W_i中每两个相邻字符之间的分界，个体数为m的种群计为D＝{BK₁，BK₂,…,BK_m}；

步骤b、求最优解如下：

步骤b1、对蜜源数量NP、蜜源存活最大代数limit、进化最大代数max_time进行初始化；

步骤b2、初始化种群并计算各个蜜源的适应度值f(BK)，从而得到初始化后的最优解D_best；

步骤b3、运行引领蜂、跟随蜂和侦查蜂三个阶段来更新最优解D_best；

在引领蜂阶段中，在蜜源D_i周围进行领域搜索出新蜜源v_i，然后根据选择出适应度高的蜜源作为D_i；

在跟随蜂阶段中，根据赌轮盘算法来挑选蜜源D_i进行开采v_i，然后根据选择出适应度高的蜜源作为D_i；

在侦查蜂阶段中，生成新的蜜源来替换当前某个存活代数大于limit的蜜源；

步骤b4、重复运行步骤b3的三个阶段，当重复运行的次数达到进化最大代数max_time之后，停止计算并且返回最优解D_best。

进一步的，所述第i个蜜源初始化公式：

D_i，x＝L_x+[rand(0，1)×(U_x-L_x)+0.5]；

其中，L_x为第x维的下界，U_x为第x维的上界。

进一步的，所述步骤b3具体为：

在引领蜂阶段中，在蜜源D_i周围进行领域搜索出新蜜源v_i，然后根据选择出适应度高的蜜源作为D_i，所述领域搜索公式为：

其中，x:位置的下标，即引领蜂随机地选择一维进行搜索蜜源；

i≠j；

是[-2,2]内的均匀分布的随机数；

在跟随蜂阶段中，根据赌轮盘算法来挑选蜜源D_i进行开采v_i，然后根据选择出适应度高的蜜源作为D_i，所述第i个蜜源D_i被选中的概率为：

其中，NP为蜜源数量；

在侦查蜂阶段中，生成新的蜜源来替换当前某个存活代数大于limit的蜜源，所述替换蜜源的公式为：

其中，trial表示第i个蜜源在进化过程中存活的代数，limit为每个蜜源能够存活的最大代数，表示第i个蜜源的第x维在第t代时的值。

本发明具有如下优点：

1、通过引入领域本体来分析相关术语的语义信息，并在此基础上统计相应的词频以提高基于词频统计的分词技术的准确性；

2、通过蜂群算法计算最优的句子断点向量，进一步提高分词结果的准确性。

附图说明

下面参照附图结合实施例对本发明作进一步的说明。

图1为本发明方法执行流程图。

图2为本发明技术框架原理示意图。

图3为本发明方法的蜂群算法的执行流程图。

具体实施方式

如图1和图2所示，本发明的一种基于本体和群智能算法的中文歧义切分方法，包括如下步骤：

步骤3、计算每一候选切分方式中每一词形的词位置e；

优选的，所述步骤1具体为：获取用户输入的问句进行建图处理，对所述图结构求解k种最短路径，得到k种候选切分方式，用候选切分方式集合 W存储，所述集合W＝{W_i＝w_i，1w_i，2…|w_i，j∈C_name∪R_name∪S，i＝1，...，k}，其中，S＝{s₁，s₂，...}表示问句字符序列的字符集合，k表示候选切分方式的数量， W_i为第i种候选切分方式，w_i，j为第i种候选切分方式的第j个词形，C_name表示概念名称集合，R_name表示谓语名称集合。

优选的，所述词位置e的计算公式为：

优选的，所述步骤4中概率BP的具体公式为：

优选的，所述步骤5中概率SWP的具体公式为：

优选的，所述步骤6中概率PSWP的具体公式为：

所述语义标注结果获取过程具体为：

所述偏好值的计算方式具体为：

其中：

SW(pred)为pred的同义词集合；

优选的，所述单目标优化模型具体为：

其中，

下面结合一具体实施例对本发明中单目标优化模型求最优解做进一步说明：

如图3所示，本发明可采用蜂群智能算法(即ABC算法)对所述单目标优化模型求解最优的句子断点向量时具体为：

步骤a，设计编码方案，将种群中每个个体的编码表示为bk₁bk₂bk₃，其中，bk_j∈{1，2，...，|W_i|},j＝1,2,3且其中为句子W_i中的字符个数，bk_j用来表示句子中第j个字符和第j+1个字符之间的分界，解空间对应句子W_i中每两个相邻字符之间的分界，个体数为m的种群计为D＝{BK₁，BK₂,…,BK_m}；

步骤b，进行求最优解操作，具体如下：

步骤b1对蜜源数量NP、蜜源存活最大代数limit、进化最大代数max_time以及当前代数k进行初始化；

步骤b2、初始化种群D，包括对种群个体初始化(即蜜源初始化)，并计算各个蜜源的适应度值f(BK)，从而得到初始化后的最优解D_best，第i 个蜜源初始化公式为：

D_i，x＝L_x+[rand(0，1)×(U_x-L_x)+0.5]；其中，L_x为第x维的下界，U_x为第x维的上界；

进入引领蜂、跟随蜂和侦查蜂三个阶段更新最优解D_best：

在引领蜂阶段中，在第i个蜜源D_i周围进行领域搜索出新蜜源v_i，计算蜜源D_i和新蜜源v_i的适应度，然后对蜜源D_i和新蜜源v_i进行贪婪选择，选择出适应度高的蜜源作为D_i，所述领域搜索公式为：

其中，x:位置的下标，即引领蜂随机地选择一维进行搜索蜜源；i≠j；是[-2,2]内的均匀分布的随机数；

在跟随蜂阶段中，计算第i个蜜源D_i被选择的概率P_i，根据赌轮盘算法来挑选蜜源D_i进行开采v_i，计算v_i的适应度，对蜜源D_i和新蜜源v_i进行贪婪选择，然后根据选择出适应度高的蜜源作为D_i，蜜源D_i被选中的概率为：

其中，NP为蜜源数量；

在侦查蜂阶段中，当第i个蜜源存活代数小于limit时，更新最优解D_best，否则，抛弃第i个蜜源，生成新的蜜源来替换当前某个存活代数大于limit的蜜源，该替换蜜源的公式为：

其中，trial表示第i个蜜源在进化过程中存活的代数，limit为每个蜜源能够存活的最大代数，表示第i个蜜源的第x维在第t代时的值；

步骤b4、重复运行上述三个阶段，当重复运行的次数达到进化最大代数max_time之后，停止计算并且返回最优解D_best；

之后，进行解码(即编码的逆过程)利用最优句子断点位置，找出最大 f(BK)对应的切分方式作为最后的分词结果。

本发明中的群智能算法除了蜂群智能算法外，还可以为蚁群算法等。

另外，在上述步骤1中的对问句进行预处理中的建图处理可参考张华平, 刘群等提出的基于N—最短路径方法的中文词语粗分模型(具体参见中文信息学报,2002,16(5):1-7.)，且求解k最短路径处理可参考JoséAugusto de Azevedo等提出的方法对上述构建的图结构进行求解(具体参见José Augusto de Azevedo,Silvestre Madeira,Ernesto QVieira Martins,et al.A shortest paths ranking algorithm[J].1990.)。

上述在进行词频和词位置计算时，通过标记状态为“已处理”和“未处理”来识别某种候选切分方式是否已经计算了词频和词位置，其中词频的计算可用于在各个模型中计算候选切分方式的概率。

本发明在基于领域本体的语义词频统计技术中，利用领域本体中标注的同义词信息对切分方式中的词形扩展成同义词簇，从而计算同义词簇的词频来当作当前处理词形的词频，还计算同义词簇的位置来当作当前处理词形在训练语料中的位置，以便后序步骤的处理；在基于abc算法(即蜂群算法) 的动态词位置确定中，先在语义统计阶段统计出词组合的词频和位置；之后，利用语义标注模块对每种候选切分方式进行语义标注；然后，利用语义标注结果来计算每个候选切分方式的偏好值；最后，通过ABC算法来确定最优句子断点向量。本发明基于本体和群智能算法来解决中文分词中的歧义切分的问题，大大提高切分准确性。

虽然以上描述了本发明的具体实施方式，但是熟悉本技术领域的技术人员应当理解，我们所描述的具体的实施例只是说明性的，而不是用于对本发明的范围的限定，熟悉本领域的技术人员在依照本发明的精神所作的等效的修饰以及变化，都应当涵盖在本发明的权利要求所保护的范围内。

Claims

1.一种基于本体和群智能算法的中文歧义切分方法，其特征在于：包括如下步骤：

步骤3、计算每一候选切分方式中每一词形的词位置e；

步骤7、利用所述含词位置信息的偏好语义双向三元模型下出现的概率PSWP，并考虑句子断点向量的淘汰集，创建单目标优化模型，并通过群智能算法求解最优的句子断点向量，将其对应的候选切分方式作为最优分词结果。

2.根据权利要求1所述的一种基于本体和群智能算法的中文歧义切分方法，其特征在于：所述步骤1具体为：获取用户输入的问句进行建图处理，对所述图结构求解k种最短路径，得到k种候选切分方式，用候选切分方式集合W存储，所述集合W＝{W_i＝w_i，1w_i，2...|w_i，j∈C_name∪R_name∪S，i＝1，...，k}，其中，S＝{s₁，s₂，...}表示问句字符序列的字符集合，k表示候选切分方式的数量，W_i为第i种候选切分方式，w_i，j为第i种候选切分方式的第j个词形，C_name表示概念名称集合，R_name表示谓语名称集合。

3.根据权利要求2所述的一种基于本体和群智能算法的中文歧义切分方法，其特征在于：所述词位置e的计算公式为：

4.根据权利要求3所述的一种基于本体和群智能算法的中文歧义切分方法，其特征在于：所述步骤4中概率BP的具体公式为：

count(w_i,j-2 w_i,j-1 w_i,j)表示词串w_i,j-2 w_i,j-1 w_i,j在训练语料中出现的次数；

count(w_i,j-2 w_i,j-1)表示词串w_i,j-2 w_i,j-1在训练语料中出现的次数；

count(w_i,j w_i,j+1 w_i,j+2)表示词串w_i,j w_i,j+1 w_i,j+2在训练语料中出现的次数；

count(w_i,j+1 w_i,j+2)表示词串w_i,j+1 w_i,j+2训练语料中出现的次数。

5.根据权利要求4所述的一种基于本体和群智能算法的中文歧义切分方法，其特征在于：所述步骤5中概率SWP的具体公式为：

其中，count(SW(w_i,j-2)_u SW(w_i,j-1)_z SW(w_i,j)_k,e)表示SW(w_i,j-2)SW(w_i,j-1)SW(w_i,j)笛卡尔积元素在训练语料中在第e＝position(w_i,j,BK)区间上的次数；

count(SW(w_i,j-2)_u SW(w_i,j-1)_z,e)表示SW(w_i,j-2)SW(w_i,j-1)笛卡尔积元素在训练语料中在第e＝position(w_i,j,BK)区间上的次数；

count(SW(w_i,j)_k SW(w_i,j+1)_u SW(w_i,j+2)_z,e)表示SW(w_i,j)SW(w_i,j+1)SW(w_i,j+2)笛卡尔积元素在训练语料中在第e＝position(w_i,j,BK)区间上的次数；

count(SW(w_i,j+1)_u SW(w_i,j+2)_z,e)表示SW(w_i,j+1)SW(w_i,j+2)笛卡尔积元素在训练语料中在第e＝position(w_i,j,BK)区间上的次数；

上述SW(x)表示概念x在本体中标注的同义词集合，SW(w_i,j-2)SW(w_i,j-1)和SW(w_i,j+1)SW(w_i,j+2)为二元同义词簇，SW(w_i,j-2)SW(w_i,j-1)SW(w_i,j)和SW(w_i,j)SW(w_i,j+1)SW(w_i,j+2)为三元同义词簇。

6.根据权利要求5所述的一种基于本体和群智能算法的中文歧义切分方法，其特征在于：所述步骤6中概率PSWP的具体公式为：

所述语义标注结果获取过程具体为：

所述偏好值的计算方式具体为：

其中：

SW(pred)为pred的同义词集合；

7.根据权利要求6所述的一种基于本体和群智能算法的中文歧义切分方法，其特征在于：

所述单目标优化模型具体为：

其中，

8.根据权利要求7所述的一种基于本体和群智能算法的中文歧义切分方法，其特征在于：通过蜂群智能算法对所述单目标优化模型求解最优的句子断点向量，具体过程包括：

步骤b、求最优解如下：

9.根据权利要求8所述的一种基于本体和群智能算法的中文歧义切分方法，其特征在于：所述第i个蜜源初始化公式：

D_i，x＝L_x+[rand(0，1)×(U_x-L_x)+0.5]；

其中，L_x为第x维的下界，U_x为第x维的上界。

10.根据权利要求9所述的一种基于本体和群智能算法的中文歧义切分方法，其特征在于：所述步骤b3具体为：

i≠j；

是[-2,2]内的均匀分布的随机数；

其中，NP为蜜源数量；