CN107391574A - 一种基于本体和群智能算法的中文歧义切分方法 - Google Patents
一种基于本体和群智能算法的中文歧义切分方法 Download PDFInfo
- Publication number
- CN107391574A CN107391574A CN201710464556.XA CN201710464556A CN107391574A CN 107391574 A CN107391574 A CN 107391574A CN 201710464556 A CN201710464556 A CN 201710464556A CN 107391574 A CN107391574 A CN 107391574A
- Authority
- CN
- China
- Prior art keywords
- candidate
- nectar source
- word
- slit mode
- pred
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3334—Selection or weighting of terms from queries, including natural language queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Mathematical Physics (AREA)
- Probability & Statistics with Applications (AREA)
- Human Computer Interaction (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Machine Translation (AREA)
Abstract
本发明提供一种基于本体和群智能算法的中文歧义切分方法,包括:获取用户输入的一个问句进行预处理,得到至少一个候选切分方式,形成候选切分方式集合W;利用本体中标注的同义词信息创建同义词簇;并计算词形的词位置e;以三个连续词形为单位,创建双向三元模型、含词位置信息的语义双向三元模型以及含词位置信息的偏好语义双向三元模型,计算每一种候选切分方式在不同模型下出现的概率;利用不同的模型以及考虑句子断点向量的淘汰集,创建单目标优化模型,并通过群智能算法求解最优的句子断点向量,作为最优分词结果。本发明结合本体计算词频,并利用智能群算法求最优句子断点向量,有效降低错误分词结果,大大提高分词准确性。
Description
技术领域
本发明涉及信息处理技术领域,尤其涉及一种用于图书馆检索的基于本 体和群智能算法的中文歧义切分技术。
背景技术
图书馆智能虚拟参考咨询系统是一类信息检索系统,该系统依赖于自然 语言处理技术来实现对用户检索意图的理解,从而完成后续的信息检索过 程。由于自然语言处理技术直接影响着图书馆智能虚拟参考咨询系统的性 能,因此实现该技术的自然语言处理模块是图书馆智能虚拟参考咨询系统的 核心模块,而中文分词技术是自然语言处理的基础。
目前,中文分词技术领域中,基于统计的方法逐渐成为主流方法之一。 基于统计的分词方法是根据某种概率统计模型统计语料库(即训练语料)中 词的出现频率或概率,作为衡量待切分句子中所有子序列组合是否成词的标 准。现有文献中,王晓龙等1991年提出将词频统计应用在在分词技术中, 提出了一种最少分词词频选择算法(具体见王晓龙,王开铸,白小华.自然 语言理解中的音字流自动分词[J].中文信息学报,1991,5(3):48-58.),该方 法利用最少匹配算法确定候选结果集,然后再利用静态的词频统计结果和候选词词长来排序候选结果,达到了查准率小于双向最大匹配法的效果;Tang 等将n-gram和互信息结合提出NGMI算法(具体见Tang Ling Xiang,Geva Shlomo,Xu Yue,et al.WordSegmentation for Chinese Wikipedia Using N-Gram Mutual Information[J].PlosMedicine,2009,2(7):576-582.),该算法 需要从语料库中提取单字、二字、三字、四字频度来计算NGMI,达到查全 率高于ICTCLAS(汉语词法分析系统,具体可参见刘群,张华平,俞鸿魁, 等.基于层叠隐马模型的汉语词法分析[J].计算机研究与发展,2004, 41(8):1421-1429.);何爱元等提出综合考虑了基于词频和分词位置的双向三 元模型(具体见何爱元.基于词典和概率统计的中文分词算法研究[D].辽宁 大学,2011.),该方法同ICTCLAS相比,分词速度有一定的优势,查全率和 查准率都远大于正向最大匹配法。巫黄旭提出将逐点互信息、信息熵和对数 似然比联合起来提出字间关联度来辅助分词(具体见巫黄旭.基于统计学习 的中文分词改进及其在面向应用分词中的应用[D].浙江大学,2012.)。该方 法统计语料库中的单字频度、字对频度、三字频度来计算字间关联度,显著 地提高了已有方法的查准率和查全率。
上述基于统计的分词技术中,都仅仅考虑词形因素,忽略了一意多词的 现象,导致相关技术无法在不同背景下保证分词结果的质量。
另外,由于在分词过程中,断点位置直接影响分词结果的质量,不合理 的断点位置也会导致错误的分词结果,导致分词的准确性不高。
有鉴于此,本发明提供一种基于图书馆领域本体和群智能算法的中文歧 义切分方法,且为了对本发明方法进行详细说明,引入以下概念:
本体:是共享概念模型的明确的形式化规范说明,它由概念以及概念间 的关系组成的;
N元模型:N元模型的任务是求出由任意词序列(wi,1wi,2…)T组成的句子 Wi出现的概率P(Wi),该模型认为词wi,j的出现概率只同它前面的N-1个词有 关(正向);
三元双向模型:该模型是在正向的三元模型的基础上考虑词wi,j右边的 上下文信息(即同时考虑词wi,j前面的词以及后面的词对其出现概率的影 响)。
发明内容
本发明要解决的技术问题,在于提供一种基于本体和群智能算法的中文 歧义切分方法,结合本体同义词进行词频计算,并利用群智能算法求得最优 解,有效降低错误分词结果,大大提高分词准确性。
本发明是这样实现的:一种基于本体和群智能算法的中文歧义切分方 法,包括如下步骤:
步骤1、获取用户输入的一个问句进行预处理,得到至少一个候选切分 方式,形成候选切分方式集合W;
步骤2、利用本体中标注的同义词信息创建同义词簇,包括对每一候选 切分方式中的每两个连续词形扩展成一个二元同义词簇,每三个连续词形扩 展成一个三元同义词簇;
步骤3、计算每一候选切分方式中每一词形的词位置e;
步骤4、以三个连续词形为单位,考虑其中前两个词和后两个词的词形 对当前处理词形出现的概率的影响创建双向三元模型,计算每一种候选切分 方式在所述双向三元模型下出现的概率BP;
步骤5、以三个连续词形为单位,考虑其中前两个词和后两个词的词形、 扩展同义词簇以及词位置对当前处理词形出现的概率的影响创建含词位置 信息的语义双向三元模型,计算每一种候选切分方式在所述含词位置信息的 语义双向三元模型下出现的概率SWP;
步骤6、以三个连续词形为单位,在含词位置信息的语义双向三元模型 和双向三元模型的基础上进一步考虑候选切分方式长度以及候选切分方式 偏好值对候选切分方式出现的概率的影响创建含词位置信息的偏好语义双 向三元模型,计算每一种候选切分方式在所述含词位置信息的偏好语义双向 三元模型下出现的概率PSWP;
步骤7、利用所述含词位置信息的偏好语义双向三元模型下出现的概率 PSWP,并考虑句子断点向量的淘汰集,创建单目标优化模型,并通过群智 能算法求解最优的句子断点向量,将其对应的候选切分方式作为最优分词结 果。
进一步的,所述步骤1具体为:获取用户输入的问句进行建图处理,对 所述图结构求解k种最短路径,得到k种候选切分方式,用候选切分方式集 合W存储,所述集合W={Wi=wi,1wi,2…|wi,j∈Cname∪Rname∪S,i=1,...,k}, 其中,S={s1,s2,...}表示问句字符序列的字符集合,k表示候选切分方式的数 量,Wi为第i种候选切分方式,wi,j为第i种候选切分方式的第j个词形,Cname表示概念名称集合,Rname表示谓语名称集合。
进一步的,所述词位置e的计算公式为:
其中,wi,j为第i种候选切分方式的第j个词形,index(wi,j)为词wi,j的首 个字符wi,j,1同句子Wi的首个字符wi,1,1的距离,为第i种候选切分方式 中所有字符的数量;
BK为句子断点向量,且BK=(bk1,bk2,...,bkq)T,q=3, 且其中为Wi中所有字符的数量。
进一步的,所述步骤4中概率BP的具体公式为:
count(wi,j-2wi,j-1wi,j)表示词串wi,j-2wi,j-1wi,j在训练语料中出现的次数;
count(wi,j-2wi,j-1)表示词串wi,j-2wi,j-1在训练语料中出现的次数;
count(wi,jwi,j+1wi,j+2)表示词串wi,jwi,j+1wi,j+2在训练语料中出现的次数;
count(wi,j+1wi,j+2)表示词串wi,j+1wi,j+2训练语料中出现的次数。
进一步的,所述步骤5中概率SWP的具体公式为:
其中,count(SW(wi,j-2)uSW(wi,j-1)zSW(wi,j)k,e)表示SW(wi,j-2)SW(wi,j-1)SW(wi,j)笛卡尔积元素在训 练语料中在第e=position(wi,j,BK)区间上的次数;
count(SW(wi,j-2)uSW(wi,j-1)z,e)表示SW(wi,j-2)SW(wi,j-1)笛卡尔积元素在训练语料中在第 e=position(wi,j,BK)区间上的次数;
count(SW(wi,j)kSW(wi,j+1)uSW(wi,j+2)z,e)表示SW(wi,j)SW(wi,j+1)SW(wi,j+2)笛卡尔积元素在训练语料 中在第e=position(wi,j,BK)区间上的次数;
count(SW(wi,j+1)uSW(wi,j+2)z,e)表示SW(wi,j+1)SW(wi,j+2)笛卡尔积元素在训练语料中在第 e=position(wi,j,BK)区间上的次数;
上述SW(x)表示概念x在本体中标注的同义词集合,SW(wi,j-2)SW(wi,j-1)和 SW(wi,j+1)SW(wi,j+2)为二元同义词簇,SW(wi,j-2)SW(wi,j-1)SW(wi,j)和SW(wi,j)SW(wi,j+1)SW(wi,j+2)为三元同 义词簇。
进一步的,所述步骤6中概率PSWP的具体公式为:
其中,为根据第i中候选切分方式的语义标注结果计算 得到的第i中候选切分方式的偏好值;
lengthmax=max{|W1|,|W2|,...|},lengthmin=min{|W1|,|W2|,...},|Wi|为切分 方式Wi的词数量,i=1,2,..;
所述语义标注结果获取过程具体为:
通过所述本体中的名词集合Cname和谓语集合Rname来抽取候选切分方式 中的所有名词和谓语,若没有谓语,则语义标注结束;
将名词间不重复的两个词分别充当主语和宾语同各个谓词进行组合,使 得每一种候选切分方式都具有n种语义标注结果,并用表示第i种候选切分方式Wi的第j种语义标注结果,其中,subj、pred、obje分 别为标注的主语、谓语和宾语,且subj,obje∈Cname,pred∈Rname;
所述偏好值的计算方式具体为:
其中:
SW(pred)为pred的同义词集合;
domain(SW(pred))为pred以及pred的同义词在本体中标注的主语集合;
range(SW(pred))为pred以及pred的同义词在本体中标注的宾语集合;
SWS(domain(SW(pred)))表示pred以及pred的同义词在本体中标注的主语集 合中每一个元素在本体中标注的同义词集合;
SWS(range(SW(pred)))表示pred以及pred的同义词在本体中标注的宾语集合 中每一个元素在本体中标注的同义词集合。
进一步的,所述单目标优化模型具体为:
其中,
进一步的,通过蜂群智能算法对所述单目标优化模型求解最优的句子断 点向量,具体过程包括:
步骤a、设计编码方案:将种群中每个个体的编码表示为bk1bk2bk3,其 中,bkj∈{1,2,...,|Wi|},j=1,2,3且其中为 句子Wi中的字符个数,bkj用来表示句子中第j个字符和第j+1个字符之间的 分界,解空间对应句子Wi中每两个相邻字符之间的分界,个体数为m的种 群计为D={BK1,BK2,…,BKm};
步骤b、求最优解如下:
步骤b1、对蜜源数量NP、蜜源存活最大代数limit、进化最大代数maxtime进行初始化;
步骤b2、初始化种群并计算各个蜜源的适应度值f(BK),从而得到初始 化后的最优解Dbest;
步骤b3、运行引领蜂、跟随蜂和侦查蜂三个阶段来更新最优解Dbest;
在引领蜂阶段中,在蜜源Di周围进行领域搜索出新蜜源vi,然后根据选 择出适应度高的蜜源作为Di;
在跟随蜂阶段中,根据赌轮盘算法来挑选蜜源Di进行开采vi,然后根据 选择出适应度高的蜜源作为Di;
在侦查蜂阶段中,生成新的蜜源来替换当前某个存活代数大于limit的蜜 源;
步骤b4、重复运行步骤b3的三个阶段,当重复运行的次数达到进化最 大代数maxtime之后,停止计算并且返回最优解Dbest。
进一步的,所述第i个蜜源初始化公式:
Di,x=Lx+[rand(0,1)×(Ux-Lx)+0.5];
其中,Lx为第x维的下界,Ux为第x维的上界。
进一步的,所述步骤b3具体为:
在引领蜂阶段中,在蜜源Di周围进行领域搜索出新蜜源vi,然后根据选 择出适应度高的蜜源作为Di,所述领域搜索公式为:
其中,x:位置的下标,即引领蜂随机地选择一维进行搜索蜜源;
i≠j;
是[-2,2]内的均匀分布的随机数;
在跟随蜂阶段中,根据赌轮盘算法来挑选蜜源Di进行开采vi,然后根据 选择出适应度高的蜜源作为Di,所述第i个蜜源Di被选中的概率为:
其中,NP为蜜源数量;
在侦查蜂阶段中,生成新的蜜源来替换当前某个存活代数大于limit的蜜 源,所述替换蜜源的公式为:
其中,trial表示第i个蜜源在进化过程中存活的代数,limit为每个蜜源 能够存活的最大代数,表示第i个蜜源的第x维在第t代时的值。
本发明具有如下优点:
1、通过引入领域本体来分析相关术语的语义信息,并在此基础上统计 相应的词频以提高基于词频统计的分词技术的准确性;
2、通过蜂群算法计算最优的句子断点向量,进一步提高分词结果的准 确性。
附图说明
下面参照附图结合实施例对本发明作进一步的说明。
图1为本发明方法执行流程图。
图2为本发明技术框架原理示意图。
图3为本发明方法的蜂群算法的执行流程图。
具体实施方式
如图1和图2所示,本发明的一种基于本体和群智能算法的中文歧义切 分方法,包括如下步骤:
步骤1、获取用户输入的一个问句进行预处理,得到至少一个候选切分 方式,形成候选切分方式集合W;
步骤2、利用本体中标注的同义词信息创建同义词簇,包括对每一候选 切分方式中的每两个连续词形扩展成一个二元同义词簇,每三个连续词形扩 展成一个三元同义词簇;
步骤3、计算每一候选切分方式中每一词形的词位置e;
步骤4、以三个连续词形为单位,考虑其中前两个词和后两个词的词形 对当前处理词形出现的概率的影响创建双向三元模型,计算每一种候选切分 方式在所述双向三元模型下出现的概率BP;
步骤5、以三个连续词形为单位,考虑其中前两个词和后两个词的词形、 扩展同义词簇以及词位置对当前处理词形出现的概率的影响创建含词位置 信息的语义双向三元模型,计算每一种候选切分方式在所述含词位置信息的 语义双向三元模型下出现的概率SWP;
步骤6、以三个连续词形为单位,在含词位置信息的语义双向三元模型 和双向三元模型的基础上进一步考虑候选切分方式长度以及候选切分方式 偏好值对候选切分方式出现的概率的影响创建含词位置信息的偏好语义双 向三元模型,计算每一种候选切分方式在所述含词位置信息的偏好语义双向 三元模型下出现的概率PSWP;
步骤7、利用所述含词位置信息的偏好语义双向三元模型下出现的概率 PSWP,并考虑句子断点向量的淘汰集,创建单目标优化模型,并通过群智 能算法求解最优的句子断点向量,将其对应的候选切分方式作为最优分词结 果。
优选的,所述步骤1具体为:获取用户输入的问句进行建图处理,对所 述图结构求解k种最短路径,得到k种候选切分方式,用候选切分方式集合 W存储,所述集合W={Wi=wi,1wi,2…|wi,j∈Cname∪Rname∪S,i=1,...,k},其 中,S={s1,s2,...}表示问句字符序列的字符集合,k表示候选切分方式的数量, Wi为第i种候选切分方式,wi,j为第i种候选切分方式的第j个词形,Cname表 示概念名称集合,Rname表示谓语名称集合。
优选的,所述词位置e的计算公式为:
其中,wi,j为第i种候选切分方式的第j个词形,index(wi,j)为词wi,j的首 个字符wi,j,1同句子Wi的首个字符wi,1,1的距离,为第i种候选切分方式 中所有字符的数量;
BK为句子断点向量,且BK=(bk1,bk2,...,bkq)T,q=3, 且其中为Wi中所有字符的数量。
优选的,所述步骤4中概率BP的具体公式为:
count(wi,j-2wi,j-1wi,j)表示词串wi,j-2wi,j-1wi,j在训练语料中出现的次数;
count(wi,j-2wi,j-1)表示词串wi,j-2wi,j-1在训练语料中出现的次数;
count(wi,jwi,j+1wi,j+2)表示词串wi,jwi,j+1wi,j+2在训练语料中出现的次数;
count(wi,j+1wi,j+2)表示词串wi,j+1wi,j+2训练语料中出现的次数。
优选的,所述步骤5中概率SWP的具体公式为:
其中,count(SW(wi,j-2)uSW(wi,j-1)zSW(wi,j)k,e)表示SW(wi,j-2)SW(wi,j-1)SW(wi,j)笛卡尔积元素在训 练语料中在第e=position(wi,j,BK)区间上的次数;
count(SW(wi,j-2)uSW(wi,j-1)z,e)表示SW(wi,j-2)SW(wi,j-1)笛卡尔积元素在训练语料中在第 e=position(wi,j,BK)区间上的次数;
count(SW(wi,j)kSW(wi,j+1)uSW(wi,j+2)z,e)表示SW(wi,j)SW(wi,j+1)SW(wi,j+2)笛卡尔积元素在训练语料 中在第e=position(wi,j,BK)区间上的次数;
count(SW(wi,j+1)uSW(wi,j+2)z,e)表示SW(wi,j+1)SW(wi,j+2)笛卡尔积元素在训练语料中在第 e=position(wi,j,BK)区间上的次数;
上述SW(x)表示概念x在本体中标注的同义词集合,SW(wi,j-2)SW(wi,j-1)和 SW(wi,j+1)SW(wi,j+2)为二元同义词簇,SW(wi,j-2)SW(wi,j-1)SW(wi,j)和SW(wi,j)SW(wi,j+1)SW(wi,j+2)为三元同 义词簇。
优选的,所述步骤6中概率PSWP的具体公式为:
其中,为根据第i中候选切分方式的语义标注结果计算 得到的第i中候选切分方式的偏好值;
lengthmax=max{|W1|,|W2|,...|},lengthmin=min{|W1|,|W2|,...},|Wi|为切分 方式Wi的词数量,i=1,2,..;
所述语义标注结果获取过程具体为:
通过所述本体中的名词集合Cname和谓语集合Rname来抽取候选切分方式 中的所有名词和谓语,若没有谓语,则语义标注结束;
将名词间不重复的两个词分别充当主语和宾语同各个谓词进行组合,使 得每一种候选切分方式都具有n种语义标注结果,并用表示第i种候选切分方式Wi的第j种语义标注结果,其中,subj、pred、obje分 别为标注的主语、谓语和宾语,且subj,obje∈Cname,pred∈Rname;
所述偏好值的计算方式具体为:
其中:
SW(pred)为pred的同义词集合;
domain(SW(pred))为pred以及pred的同义词在本体中标注的主语集合;
range(SW(pred))为pred以及pred的同义词在本体中标注的宾语集合;
SWS(domain(SW(pred)))表示pred以及pred的同义词在本体中标注的主语集 合中每一个元素在本体中标注的同义词集合;
SWS(range(SW(pred)))表示pred以及pred的同义词在本体中标注的宾语集合 中每一个元素在本体中标注的同义词集合。
优选的,所述单目标优化模型具体为:
其中,
下面结合一具体实施例对本发明中单目标优化模型求最优解做进一步 说明:
如图3所示,本发明可采用蜂群智能算法(即ABC算法)对所述单目 标优化模型求解最优的句子断点向量时具体为:
步骤a,设计编码方案,将种群中每个个体的编码表示为bk1bk2bk3,其 中,bkj∈{1,2,...,|Wi|},j=1,2,3且其中为 句子Wi中的字符个数,bkj用来表示句子中第j个字符和第j+1个字符之间的 分界,解空间对应句子Wi中每两个相邻字符之间的分界,个体数为m的种 群计为D={BK1,BK2,…,BKm};
步骤b,进行求最优解操作,具体如下:
步骤b1对蜜源数量NP、蜜源存活最大代数limit、进化最大代数maxtime以及当前代数k进行初始化;
步骤b2、初始化种群D,包括对种群个体初始化(即蜜源初始化), 并计算各个蜜源的适应度值f(BK),从而得到初始化后的最优解Dbest,第i 个蜜源初始化公式为:
Di,x=Lx+[rand(0,1)×(Ux-Lx)+0.5];其中,Lx为第x维的下界,Ux为第x维的上界;
进入引领蜂、跟随蜂和侦查蜂三个阶段更新最优解Dbest:
在引领蜂阶段中,在第i个蜜源Di周围进行领域搜索出新蜜源vi,计算 蜜源Di和新蜜源vi的适应度,然后对蜜源Di和新蜜源vi进行贪婪选择,选择 出适应度高的蜜源作为Di,所述领域搜索公式为:
其中,x:位置的下标,即引领蜂随机地 选择一维进行搜索蜜源;i≠j;是[-2,2]内的均匀分布的随机数;
在跟随蜂阶段中,计算第i个蜜源Di被选择的概率Pi,根据赌轮盘算法 来挑选蜜源Di进行开采vi,计算vi的适应度,对蜜源Di和新蜜源vi进行贪婪选 择,然后根据选择出适应度高的蜜源作为Di,蜜源Di被选中的概率为:
其中,NP为蜜源数量;
在侦查蜂阶段中,当第i个蜜源存活代数小于limit时,更新最优解Dbest, 否则,抛弃第i个蜜源,生成新的蜜源来替换当前某个存活代数大于limit的 蜜源,该替换蜜源的公式为:
其中,trial表示第i个蜜源在进化过程中存活的代数,limit为每个蜜源能够存活的最大代数,表示第i个蜜源的第x维在第t代时的值;
步骤b4、重复运行上述三个阶段,当重复运行的次数达到进化最大代 数maxtime之后,停止计算并且返回最优解Dbest;
之后,进行解码(即编码的逆过程)利用最优句子断点位置,找出最大 f(BK)对应的切分方式作为最后的分词结果。
本发明中的群智能算法除了蜂群智能算法外,还可以为蚁群算法等。
另外,在上述步骤1中的对问句进行预处理中的建图处理可参考张华平, 刘群等提出的基于N—最短路径方法的中文词语粗分模型(具体参见中文信 息学报,2002,16(5):1-7.),且求解k最短路径处理可参考JoséAugusto de Azevedo等提出的方法对上述构建的图结构进行求解(具体参见José Augusto de Azevedo,Silvestre Madeira,Ernesto QVieira Martins,et al.A shortest paths ranking algorithm[J].1990.)。
上述在进行词频和词位置计算时,通过标记状态为“已处理”和“未处 理”来识别某种候选切分方式是否已经计算了词频和词位置,其中词频的计 算可用于在各个模型中计算候选切分方式的概率。
本发明在基于领域本体的语义词频统计技术中,利用领域本体中标注的 同义词信息对切分方式中的词形扩展成同义词簇,从而计算同义词簇的词频 来当作当前处理词形的词频,还计算同义词簇的位置来当作当前处理词形在 训练语料中的位置,以便后序步骤的处理;在基于abc算法(即蜂群算法) 的动态词位置确定中,先在语义统计阶段统计出词组合的词频和位置;之后, 利用语义标注模块对每种候选切分方式进行语义标注;然后,利用语义标注 结果来计算每个候选切分方式的偏好值;最后,通过ABC算法来确定最优 句子断点向量。本发明基于本体和群智能算法来解决中文分词中的歧义切分 的问题,大大提高切分准确性。
虽然以上描述了本发明的具体实施方式,但是熟悉本技术领域的技术人 员应当理解,我们所描述的具体的实施例只是说明性的,而不是用于对本发 明的范围的限定,熟悉本领域的技术人员在依照本发明的精神所作的等效的 修饰以及变化,都应当涵盖在本发明的权利要求所保护的范围内。
Claims (10)
1.一种基于本体和群智能算法的中文歧义切分方法,其特征在于:包括如下步骤:
步骤1、获取用户输入的一个问句进行预处理,得到至少一个候选切分方式,形成候选切分方式集合W;
步骤2、利用本体中标注的同义词信息创建同义词簇,包括对每一候选切分方式中的每两个连续词形扩展成一个二元同义词簇,每三个连续词形扩展成一个三元同义词簇;
步骤3、计算每一候选切分方式中每一词形的词位置e;
步骤4、以三个连续词形为单位,考虑其中前两个词和后两个词的词形对当前处理词形出现的概率的影响创建双向三元模型,计算每一种候选切分方式在所述双向三元模型下出现的概率BP;
步骤5、以三个连续词形为单位,考虑其中前两个词和后两个词的词形、扩展同义词簇以及词位置对当前处理词形出现的概率的影响创建含词位置信息的语义双向三元模型,计算每一种候选切分方式在所述含词位置信息的语义双向三元模型下出现的概率SWP;
步骤6、以三个连续词形为单位,在含词位置信息的语义双向三元模型和双向三元模型的基础上进一步考虑候选切分方式长度以及候选切分方式偏好值对候选切分方式出现的概率的影响创建含词位置信息的偏好语义双向三元模型,计算每一种候选切分方式在所述含词位置信息的偏好语义双向三元模型下出现的概率PSWP;
步骤7、利用所述含词位置信息的偏好语义双向三元模型下出现的概率PSWP,并考虑句子断点向量的淘汰集,创建单目标优化模型,并通过群智能算法求解最优的句子断点向量,将其对应的候选切分方式作为最优分词结果。
2.根据权利要求1所述的一种基于本体和群智能算法的中文歧义切分方法,其特征在于:所述步骤1具体为:获取用户输入的问句进行建图处理,对所述图结构求解k种最短路径,得到k种候选切分方式,用候选切分方式集合W存储,所述集合W={Wi=wi,1wi,2...|wi,j∈Cname∪Rname∪S,i=1,...,k},其中,S={s1,s2,...}表示问句字符序列的字符集合,k表示候选切分方式的数量,Wi为第i种候选切分方式,wi,j为第i种候选切分方式的第j个词形,Cname表示概念名称集合,Rname表示谓语名称集合。
3.根据权利要求2所述的一种基于本体和群智能算法的中文歧义切分方法,其特征在于:所述词位置e的计算公式为:
其中,wi,j为第i种候选切分方式的第j个词形,index(wi,j)为词wi,j的首个字符wi,j,1同句子Wi的首个字符wi,1,1的距离,为第i种候选切分方式中所有字符的数量;
BK为句子断点向量,且BK=(bk1,bk2,...,bkq)T,q=3, 且其中为Wi中所有字符的数量。
4.根据权利要求3所述的一种基于本体和群智能算法的中文歧义切分方法,其特征在于:所述步骤4中概率BP的具体公式为:
count(wi,j-2 wi,j-1 wi,j)表示词串wi,j-2 wi,j-1 wi,j在训练语料中出现的次数;
count(wi,j-2 wi,j-1)表示词串wi,j-2 wi,j-1在训练语料中出现的次数;
count(wi,j wi,j+1 wi,j+2)表示词串wi,j wi,j+1 wi,j+2在训练语料中出现的次数;
count(wi,j+1 wi,j+2)表示词串wi,j+1 wi,j+2训练语料中出现的次数。
5.根据权利要求4所述的一种基于本体和群智能算法的中文歧义切分方法,其特征在于:所述步骤5中概率SWP的具体公式为:
其中,count(SW(wi,j-2)u SW(wi,j-1)z SW(wi,j)k,e)表示SW(wi,j-2)SW(wi,j-1)SW(wi,j)笛卡尔积元素在训练语料中在第e=position(wi,j,BK)区间上的次数;
count(SW(wi,j-2)u SW(wi,j-1)z,e)表示SW(wi,j-2)SW(wi,j-1)笛卡尔积元素在训练语料中在第e=position(wi,j,BK)区间上的次数;
count(SW(wi,j)k SW(wi,j+1)u SW(wi,j+2)z,e)表示SW(wi,j)SW(wi,j+1)SW(wi,j+2)笛卡尔积元素在训练语料中在第e=position(wi,j,BK)区间上的次数;
count(SW(wi,j+1)u SW(wi,j+2)z,e)表示SW(wi,j+1)SW(wi,j+2)笛卡尔积元素在训练语料中在第e=position(wi,j,BK)区间上的次数;
上述SW(x)表示概念x在本体中标注的同义词集合,SW(wi,j-2)SW(wi,j-1)和SW(wi,j+1)SW(wi,j+2)为二元同义词簇,SW(wi,j-2)SW(wi,j-1)SW(wi,j)和SW(wi,j)SW(wi,j+1)SW(wi,j+2)为三元同义词簇。
6.根据权利要求5所述的一种基于本体和群智能算法的中文歧义切分方法,其特征在于:所述步骤6中概率PSWP的具体公式为:
其中,为根据第i中候选切分方式的语义标注结果计算得到的第i中候选切分方式的偏好值;
lengthmax=max{|W1|,|W2|,...|},lengthmin=min{|W1|,|W2|,...},|Wi|为切分方式Wi的词数量,i=1,2,..;
所述语义标注结果获取过程具体为:
通过所述本体中的名词集合Cname和谓语集合Rname来抽取候选切分方式中的所有名词和谓语,若没有谓语,则语义标注结束;
将名词间不重复的两个词分别充当主语和宾语同各个谓词进行组合,使得每一种候选切分方式都具有n种语义标注结果,并用表示第i种候选切分方式Wi的第j种语义标注结果,其中,subj、pred、obje分别为标注的主语、谓语和宾语,且subj,obje∈Cname,pred∈Rname;
所述偏好值的计算方式具体为:
其中:
SW(pred)为pred的同义词集合;
domain(SW(pred))为pred以及pred的同义词在本体中标注的主语集合;
range(SW(pred))为pred以及pred的同义词在本体中标注的宾语集合;
SWS(domain(SW(pred)))表示pred以及pred的同义词在本体中标注的主语集合中每一个元素在本体中标注的同义词集合;
SWS(range(SW(pred)))表示pred以及pred的同义词在本体中标注的宾语集合中每一个元素在本体中标注的同义词集合。
7.根据权利要求6所述的一种基于本体和群智能算法的中文歧义切分方法,其特征在于:
所述单目标优化模型具体为:
其中,
8.根据权利要求7所述的一种基于本体和群智能算法的中文歧义切分方法,其特征在于:通过蜂群智能算法对所述单目标优化模型求解最优的句子断点向量,具体过程包括:
步骤a、设计编码方案:将种群中每个个体的编码表示为bk1bk2bk3,其中,bkj∈{1,2,...,|Wi|},j=1,2,3且其中为句子Wi中的字符个数,bkj用来表示句子中第j个字符和第j+1个字符之间的分界,解空间对应句子Wi中每两个相邻字符之间的分界,个体数为m的种群计为D={BK1,BK2,…,BKm};
步骤b、求最优解如下:
步骤b1、对蜜源数量NP、蜜源存活最大代数limit、进化最大代数maxtime进行初始化;
步骤b2、初始化种群并计算各个蜜源的适应度值f(BK),从而得到初始化后的最优解Dbest;
步骤b3、运行引领蜂、跟随蜂和侦查蜂三个阶段来更新最优解Dbest;
在引领蜂阶段中,在蜜源Di周围进行领域搜索出新蜜源vi,然后根据选择出适应度高的蜜源作为Di;
在跟随蜂阶段中,根据赌轮盘算法来挑选蜜源Di进行开采vi,然后根据选择出适应度高的蜜源作为Di;
在侦查蜂阶段中,生成新的蜜源来替换当前某个存活代数大于limit的蜜源;
步骤b4、重复运行步骤b3的三个阶段,当重复运行的次数达到进化最大代数maxtime之后,停止计算并且返回最优解Dbest。
9.根据权利要求8所述的一种基于本体和群智能算法的中文歧义切分方法,其特征在于:所述第i个蜜源初始化公式:
Di,x=Lx+[rand(0,1)×(Ux-Lx)+0.5];
其中,Lx为第x维的下界,Ux为第x维的上界。
10.根据权利要求9所述的一种基于本体和群智能算法的中文歧义切分方法,其特征在于:所述步骤b3具体为:
在引领蜂阶段中,在蜜源Di周围进行领域搜索出新蜜源vi,然后根据选择出适应度高的蜜源作为Di,所述领域搜索公式为:
其中,x:位置的下标,即引领蜂随机地选择一维进行搜索蜜源;
i≠j;
是[-2,2]内的均匀分布的随机数;
在跟随蜂阶段中,根据赌轮盘算法来挑选蜜源Di进行开采vi,然后根据选择出适应度高的蜜源作为Di,所述第i个蜜源Di被选中的概率为:
其中,NP为蜜源数量;
在侦查蜂阶段中,生成新的蜜源来替换当前某个存活代数大于limit的蜜源,所述替换蜜源的公式为:
其中,trial表示第i个蜜源在进化过程中存活的代数,limit为每个蜜源能够存活的最大代数,表示第i个蜜源的第x维在第t代时的值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710464556.XA CN107391574B (zh) | 2017-06-19 | 2017-06-19 | 一种基于本体和群智能算法的中文歧义切分方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710464556.XA CN107391574B (zh) | 2017-06-19 | 2017-06-19 | 一种基于本体和群智能算法的中文歧义切分方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107391574A true CN107391574A (zh) | 2017-11-24 |
CN107391574B CN107391574B (zh) | 2020-10-16 |
Family
ID=60332330
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710464556.XA Active CN107391574B (zh) | 2017-06-19 | 2017-06-19 | 一种基于本体和群智能算法的中文歧义切分方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107391574B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110263336A (zh) * | 2019-06-12 | 2019-09-20 | 东华大学 | 一种构建乳腺超声领域本体的方法 |
CN110969016A (zh) * | 2018-09-27 | 2020-04-07 | 普天信息技术有限公司 | 分词处理方法及装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101414310A (zh) * | 2008-10-17 | 2009-04-22 | 山西大学 | 一种自然语言搜索的方法和装置 |
CN104462063A (zh) * | 2014-12-12 | 2015-03-25 | 武汉大学 | 基于语义位置模型的位置信息结构化提取方法及系统 |
CN106227719A (zh) * | 2016-07-26 | 2016-12-14 | 北京智能管家科技有限公司 | 中文分词歧义消除方法和系统 |
-
2017
- 2017-06-19 CN CN201710464556.XA patent/CN107391574B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101414310A (zh) * | 2008-10-17 | 2009-04-22 | 山西大学 | 一种自然语言搜索的方法和装置 |
CN104462063A (zh) * | 2014-12-12 | 2015-03-25 | 武汉大学 | 基于语义位置模型的位置信息结构化提取方法及系统 |
CN106227719A (zh) * | 2016-07-26 | 2016-12-14 | 北京智能管家科技有限公司 | 中文分词歧义消除方法和系统 |
Non-Patent Citations (4)
Title |
---|
JUN MAO 等: ""A Trigram Statistical Language Model"", 《FAW 2007,LNCS》 * |
何爱元: ""基于词典和概率统计的中文分词算法研究"", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
王为磊: ""基于多目标优化的中文分词模型的研究"", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
高山 等: ""基于三元统计模型的汉语分词及标注一体化研究"", 《全国第六届计算语言学联合学术会议》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110969016A (zh) * | 2018-09-27 | 2020-04-07 | 普天信息技术有限公司 | 分词处理方法及装置 |
CN110969016B (zh) * | 2018-09-27 | 2023-06-23 | 普天信息技术有限公司 | 分词处理方法及装置 |
CN110263336A (zh) * | 2019-06-12 | 2019-09-20 | 东华大学 | 一种构建乳腺超声领域本体的方法 |
CN110263336B (zh) * | 2019-06-12 | 2023-06-23 | 东华大学 | 一种构建乳腺超声领域本体的方法 |
Also Published As
Publication number | Publication date |
---|---|
CN107391574B (zh) | 2020-10-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Shen et al. | Linden: linking named entities with knowledge base via semantic knowledge | |
Hasan et al. | Automatic keyphrase extraction: A survey of the state of the art | |
Zhu et al. | Aspect-based opinion polling from customer reviews | |
Harabagiu et al. | Wordnet 2-a morphologically and semantically enhanced resource | |
KR102094934B1 (ko) | 자연어 질의 응답 시스템 및 방법 | |
CN103914548B (zh) | 信息搜索方法和装置 | |
US8326861B1 (en) | Personalized term importance evaluation in queries | |
CN104331449B (zh) | 查询语句与网页相似度的确定方法、装置、终端及服务器 | |
Yan et al. | SRRank: leveraging semantic roles for extractive multi-document summarization | |
Zhang et al. | Automatic synonym extraction using Word2Vec and spectral clustering | |
Alguliyev et al. | An unsupervised approach to generating generic summaries of documents | |
Tedeschi et al. | Named Entity Recognition for Entity Linking: What works and what’s next | |
CN109918627A (zh) | 文本生成方法、装置、电子设备及存储介质 | |
Kurimo et al. | Overview and results of Morpho Challenge 2009 | |
Labusch et al. | Named Entity Disambiguation and Linking Historic Newspaper OCR with BERT. | |
Soto et al. | Joint part-of-speech and language ID tagging for code-switched data | |
Fung et al. | BiFrameNet: bilingual frame semantics resource construction by cross-lingual induction | |
Damiano et al. | Towards a framework for closed-domain question answering in Italian | |
CN111325018A (zh) | 一种基于web检索和新词发现的领域词典构建方法 | |
CN107391574A (zh) | 一种基于本体和群智能算法的中文歧义切分方法 | |
CN110334362A (zh) | 一种基于医学神经机器翻译的解决产生未翻译单词的方法 | |
Guo et al. | IJCNLP-2017 task 5: Multi-choice question answering in examinations | |
Balouchzahi et al. | A comparative study of syllables and character level N-grams for Dravidian multi-script and code-mixed offensive language identification | |
CN110047569A (zh) | 基于胸片报告生成问答数据集的方法、装置及介质 | |
Fonseca et al. | Tweaking word embeddings for FAQ ranking |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |