CN104317882B - 一种决策级中文分词融合方法 - Google Patents

一种决策级中文分词融合方法 Download PDF

Info

Publication number
CN104317882B
CN104317882B CN201410564432.5A CN201410564432A CN104317882B CN 104317882 B CN104317882 B CN 104317882B CN 201410564432 A CN201410564432 A CN 201410564432A CN 104317882 B CN104317882 B CN 104317882B
Authority
CN
China
Prior art keywords
character
word segmentation
word
participle
integer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410564432.5A
Other languages
English (en)
Other versions
CN104317882A (zh
Inventor
张春霞
梁峰
王树良
金福生
牛振东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Technology BIT
Original Assignee
Beijing Institute of Technology BIT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Technology BIT filed Critical Beijing Institute of Technology BIT
Priority to CN201410564432.5A priority Critical patent/CN104317882B/zh
Publication of CN104317882A publication Critical patent/CN104317882A/zh
Application granted granted Critical
Publication of CN104317882B publication Critical patent/CN104317882B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种决策级中文分词融合方法,属于自然语言处理和智能信息处理领域。本方法首先利用三种分词工具对中文文本中的句子进行分词,并对分词结果进行预处理,利用整型数组保存每个分词工具的分词结果。然后采用决策级分词融合模型进行分词,决策级分词融合模型为分层的融合结构,包括特征级和决策级,最后采用一种基于Web的方法识别句子中的未登录词。本方法通过采用决策级融合方式进行分词结果融合,有效提高了分词结果的准确性。本发明在信息检索、文本分类、主题检测、网络内容监控等领域具有广阔的应用前景。

Description

一种决策级中文分词融合方法
技术领域
本发明涉及一种决策级中文分词融合方法,属于自然语言处理、信息检索、问答系统和智能信息处理领域,适用于信息检索、文本分类、主题检测、网络内容监控等。
背景技术
汉语作为一种词根语,缺乏形态变化,词语之间的语法关系通过词序和虚词来表示。中文文本书写采用词标的形式,词语之间没有显式的形态界限。因此,汉语的这些特点使得针对英文等其他语言处理的方法不能完全适用于中文信息处理。中文分词是信息检索、信息提取、文本分类、自动文摘、问答系统等中文信息处理任务的基础。
现有的中文分词方法可以分为三大类:基于词典的方法、基于统计的方法以及混合的方法。其中,基于词典的分词方法,其匹配原则包括最大匹配、最小匹配、逐词匹配和最佳匹配,文本扫描顺序包括正向扫描、逆向扫描和双向扫描。基于统计的分词方法主要是利用词语之间的联合出现概率作为分词的依据,常用的统计量或统计模型包括互信息、神经网络模型、隐马尔科夫模型和最大熵模型等。
中文分词的两大困难是对未登录词的识别和切分歧义的消除。其中,未登录词可以分为两大类:一类是新词,即新出现的通用词汇或者专业术语等,例如“大数据”和“天宫一号”;另一类是专有名词,例如地名和组织机构名等。现有的未登录词识别方法包括基于规则的方法和基于语料学习的方法。基于规则的方法依赖于人工构建的规则。当将该方法移植到新领域时,需要重新构建规则以适用领域的变化。基于语料学习的方法依赖于经过人工构建的语料库,通过机器学习方法,从训练语料中学习未登录词识别的规则或统计模型,进而识别测试语料的未登录词。
信息融合是指对来自多数据源的数据进行检测、分析、识别和综合以完成所需的决策和估计任务而进行的信息处理过程。多源数据是信息融合的处理对象,综合优化是信息融合的核心。信息融合的基本原理是通过对多源信息的合理使用,把多源信息在空间或时间等方面的冗余或互补根据某种准则进行综合优化,以获得比单个数据源更准确和更全面的信息。信息融合可分为数据级融合、特征级融合,以及决策级融合。数据级融合是最低层次的融合,是指对多个信息源的原始数据不经过处理直接进行综合和分析。特征级融合是指对多源原始数据进行数据层信息的表示和提取,然后对提取的特征层信息进行综合分析和处理。决策级融合是最高层次的融合,是指分别对每个数据源的数据进行预处理、特征提取和识别,然后按照某种准则构建全局优化的决策。多数投票法是决策级信息融合的一种简单有效的方法。信息融合技术已广泛应用于智能检测、机器人、图像分析、目标检测与跟踪、自动目标识别等领域。
发明内容
本发明的目的是针对现有中文分词工具对不同中文文本分词效果不稳定,以及对未登录词识别准确率不高的问题,提出一种决策级中文分词融合方法。
本方法以多种分词工具为研究对象,通过构建决策级分词融合模型获得准确率更高和对不同文本分词效果更稳定的分词结果,进而提高分词的准确率。
本发明是由以下技术方案实现的。
一种决策级中文分词融合方法,包括以下步骤:
步骤一、利用任意三个中文分词工具分别对待处理文本中的句子进行分词。
所选用的中文分词工具可以是在本技术领域中已有的任意三个分词工具,也包括未来会出现的新的中文分词工具。
步骤二、对得到的三个分词结果进行预处理。具体如下:
将待处理句子保存为字符串数组{s1,s2,…,sn}。其中,n为自然数,表示句子中所有字符的个数,每个数组元素si(i=1,2,…,n)表示单个汉字、标点符号、数字或英文字符。获取三个分词工具的分词结果,连续的两个词语之间用一个空格分隔。
同时,构建三个整型数组,分别记录三个分词结果中每个非空格字符的位置索引,即,整型数组元素记录字符串数组{s1,s2,…,sn}中si(i=1,2,…,n)在分词结果中的位置索引。
步骤三、对字符串数组{s1,s2,…,sn}和三个整型数组,利用决策级分词融合方法进行分词。具体如下:
首先,设三个整型数组为A={a1,a2,…,an}、B={b1,b2,…,bn}、C={c1,c2,…,cn},分别记录第一个、第二个、第三个分词结果中s1,s2,…,sn的位置索引,设三个分词工具的准确率为p1,p2,p3
这三个整型数组具有如下三个技术特征:
第一,对于待处理句子的第i个字符si和第i+1个字符si+1,在分词结果中二者之间要么存在词语分隔标记空格,要么不存在空格。以数组A为例,对于第i个和第i+1个字符在分词结果中的位置索引ai和ai+1,只能满足下述关系之一:若第i个字符和第i+1个字符之间不存在空格,则ai+1=ai+1;若它们之间存在空格,则ai+1=ai+2。
第二,对于第i个和第i+1个字符在三个分词结果中的位置索引ai,,bi,ci和ai+1,bi+1,ci+1,若ai=bi=ci,由于在分词结果中第i个字符与第i+1个字符之间只能存在空格或者不存在空格,因此ai+1,bi+1,ci+1中任意两者要么相等,要么差值为1。此外,ai+1,bi+1,ci+1中至少存在两者相等。
第三,在分词过程中,在判别第i(i=1,2,…,n)个字符的位置索引后,将三个整型数组中记录该字符在三个分词结果中的位置索引都赋值为分词融合方法中第i个字符的位置索引。
然后,采用决策级分词融合方法进行分词。过程如下:
对于待处理句子的第一个字符s1,有a1=b1=c1=1,则判别第1个字符的位置索引为a1
对于待处理句子的第i(i=2,…,n)个字符,若ai=bi=ci,则判别第i个字符的位置索引为ai
若ai=bi=ci不成立,根据整型数组的特征可知三个整型数组中记录三种分词结果的第i-1个字符的位置索引相同,即ai-1=bi-1=ci-1,并且ai,,bi,ci中存在两个数组元素的值相等。若ai=bi,则第i个字符在分词融合结果中的位置索引为ai的概率p=p1+p2+(1-p3)。若ai=ci,则第i个字符在分词融合结果中的位置索引为ai的概率p=p1+(1-p2)+p3。若bi=ci,则第i个字符在分词融合结果中的位置索引为bi的概率p=(1-p1)+p2+p3
当ai=bi时,若p≥0.5,则判别第i个字符的位置索引为ai。若ai<ci,根据整型数组的特征,可知ai+1=ci。将第三个分词结果的整型数组中第i个元素至最后一个元素的值减1。若ai>ci,根据整型数组的特征可知ai=ci+1。将第三个分词结果的整型数组中第i个元素至最后一个元素的值加1,然后继续处理第i+1个字符。
当ai=bi时,若p<0.5,则判别第i个字符的位置索引为ci。若ai<ci,根据整型数组的特征,可知ai+1=ci。将第一个和第二个分词结果的两个整型数组中第i个元素至最后一个元素的值加1。若ai>ci,根据整型数组的特征,可知ai=ci+1。将第一个和第二个分词结果的两个整型数组中第i个元素至最后一个元素的值减1。继续处理第i+1个字符。
当ai=ci时,若p≥0.5,则判别第i个字符的位置索引为ai。若ai<bi,根据整型数组的特征,可知ai+1=bi。将第二个分词结果的整型数组中第i个元素至最后一个元素的值减1。若ai>bi,根据整型数组的特征,可知ai=bi+1。将第二个分词结果的整型数组中第i个元素至最后一个元素的值加1,然后继续处理第i+1个字符。
当ai=ci时,若p<0.5,则判别第i个字符的位置索引为bi。若ai<bi,根据整型数组的特征,可知ai+1=bi。将第一个和第三个分词结果的两个整型数组中第i个元素至最后一个元素的值加1。若ai>bi,根据整型数组的特征,可知ai=bi+1。将第一个和第三个分词结果的两个整型数组中第i个元素至最后一个元素的值减1。继续处理第i+1个字符。
当bi=ci时,若p≥0.5,则判别第i个字符的位置索引为bi。若bi<ai,根据整型数组的特征,可知bi+1=ai。将第一个分词结果的整型数组中第i个元素至最后一个元素的值减1。若bi>ai,根据整型数组的特征,可知bi=ai+1。将第一个分词结果的整型数组中第i个元素至最后一个元素的值加1,然后继续处理第i+1个字符。
当bi=ci时,若p<0.5,则判别第i个字符的位置索引为ai。若bi<ai,根据整型数组的特征,可知bi+1=ai。将第二个和第三个分词结果的两个整型数组中第i个元素至最后一个元素的值加1。若bi>ai,根据整型数组的特征,可知bi=ai+1。将第二个和第三个分词结果的两个整型数组中第i个元素至最后一个元素的值减1。继续处理第i+1个字符,重复上述过程直至处理完句子中所有字符。
步骤四、采用基于Web的方法,对未登录词进行识别。具体如下:
设k=1,k为整数。
第一步,在对句子分词的结果中,从第k个词语开始,分别将连续两个、三个、四个相邻的词语合并为候选未登录词w1,w2,w3
第二步,将候选未登录词作为关键词提交到网络上搜索候选未登录词。
第三步,判断候选未登录词是否为有效的未登录词。
判断依据是候选未登录词在网络中存在相应的百科页面。具体而言,在网络页面返回结果的超文本标记语言Html源码中<title>标签包含候选未登录词。若w3为未登录词,则设置k=k+4,执行第四步,否则判断w2是否为未登录词。若w2为未登录词,则设置k=k+3,执行第四步,否则判断w1是否为未登录词。若w1为未登录词,则设置k=k+2,执行第四步,否则设置k=k+1,执行第四步。
第四步,若k<n,则返回第一步执行,否则结束循环。
至此,就完成了本方法的全部过程。
有益效果
本发明方法,针对单个分词工具对不同中文文本分词效果不稳定的现状,引入数据融合思想,采用一种决策级分词融合方法进行分词。该方法将多个分词工具的分词结果在决策级进行融合,以降低单个分词工具处理不同文本时产生的分词准确率的波动,提高分词结果的准确率。
(1)在决策级分词融合模型中,分层的融合结构一方面保持了每个分词工具的独立性,能够完成分词融合系统中多种分词工具的不同组合的分词融合。另一方面,降低了分词融合系统的复杂性,提高了分词融合系统的灵活性,可以动态地增加和更新分词工具。
(2)本发明的决策级分词融合方法,不但利用了每个分词工具的优势,而且通过决策级分词融合模型避免了各个分词工具的不足,具有较强的鲁棒性。也就是,尽可能保留每个分词工具分词准确的地方,多个分词工具的群体智能能够避免单个分词工具的分词错误。
(3)将分词融合系统应用于不同任务需要更高的准确性和实时性时,分层的融合结构可以通过分别改进单个分词工具的性能来提高全局分词融合系统的性能,即提高系统的准确性、灵活性和自适应性。
(4)在未登录词识别方法中,选取互联网信息作为验证候选未登录词的来源,具有实时性和海量性的特点,能够识别不断增加的未登录词,从而提高分词的准确率。
附图说明
图1为本发明方法的流程图。
具体实施方式
下面结合实施例对本发明方法进行详细说明。
实施例
本实施例以Eclipse为开发平台,Java为开发语言,使用JSoup网页解析工具。三个分词工具选用ICTCLAS、哈尔滨工业大学LTP、斯坦福大学Chinese Segment,它们均可通过网络下载获得。
一种决策级中文分词融合方法,包括以下步骤:
步骤一、将待处理句子分别提交给三个分词工具进行分词。
步骤二:对三个分词结果进行预处理。具体如下:
将待处理句子保存为字符串数组{s1,s2,…,sn}。其中,n为自然数,表示句子中所有字符的个数,每个数组元素si(i=1,2,…,n)表示单个汉字、标点符号、数字或英文字符。获取三个分词工具的分词结果,连续两个词语之间用一个空格分隔。
同时,构建三个整型数组,分别记录三个分词结果中每个非空格字符的位置索引,即,整型数组元素记录字符串数组{s1,s2,…,sn}中si(i=1,2,…,n)在分词结果中的位置索引。
例如,对于句子“小李有一件皮大衣。”,它的一种分词结果为“小李Λ有Λ一件Λ皮大衣Λ。”,其中“Λ”表示空格。保存该句子的字符串数组元素的值依次为“{小,李,有,一,件,皮,大,衣,。}”。记录句子字符在该分词结果中位置索引的整型数组元素的值依次为“{1,2,4,6,7,9,10,11,13}”。其中,表示字符“小”在分词结果中的位置索引为1,“李”的位置索引为2,“有”的位置索引为4,“一件”的位置索引分别为6和7,“皮大衣”的位置索引分别为9,10,11,句号“。”的位置索引为13。
步骤三、对字符串数组{s1,s2,…,sn}和三个整型数组,利用决策级分词融合方法进行分词。具体如下:
首先,设三个整型数组为A={a1,a2,…,an}、B={b1,b2,…,bn}、C={c1,c2,…,cn},分别记录第一种、第二种、第三种分词结果中s1,s2,…,sn的位置索引,设三种分词工具的准确率为p1,p2,p3
这三个整型数组具有如下三个技术特征:
第一,对于待处理句子的第i个字符si和第i+1个字符si+1,在分词结果中二者之间要么存在词语分隔标记空格,要么不存在空格。以数组A为例,对于第i个和第i+1个字符在分词结果中的位置索引ai和ai+1,只能满足下述关系之一:若第i个字符和第i+1个字符之间不存在空格,则ai+1=ai+1;若它们之间存在空格,则ai+1=ai+2。
第二,对于第i个和第i+1个字符在三个分词结果中的位置索引ai,bi,ci和ai+1,bi+1,ci+1,若ai=bi=ci,由于在分词结果中第i个字符与第i+1个字符之间只能存在空格或者不存在空格,因此ai+1,bi+1,ci+1中任意两者要么相等,要么差值为1。此外,ai+1,bi+1,ci+1中至少存在两者是相等的。
第三,在分词过程中,在判别第i(i=1,2,…,n)个字符的位置索引后,将三个整型数组中记录该字符在三个分词结果中的位置索引都赋值为分词融合方法中第i个字符的位置索引。
然后,采用决策级分词融合方法进行分词。过程如下:
对于待处理句子的第一个字符s1,有a1=b1=c1=1,则判别第1个字符的位置索引为a1
对于待处理句子的第i(i=2,…,n)个字符,若ai=bi=ci,则判别第i个字符的位置索引为ai
若ai=bi=ci不成立,根据整型数组的特征,可知三个整型数组中记录三种分词结果的第i-1个字符的位置索引相同,即ai-1=bi-1=ci-1,并且ai,bi,ci中存在两个数组元素的值相等。若ai=bi,则第i个字符在分词融合结果中的位置索引为ai的概率p=p1+p2+(1-p3)。若ai=ci,则第i个字符在分词融合结果中的位置索引为ai的概率p=p1+(1-p2)+p3。若bi=ci,则第i个字符在分词融合结果中的位置索引为bi的概率p=(1-p1)+p2+p3
当ai=bi时,若p≥0.5,则判别第i个字符的位置索引为ai。若ai<ci,根据整型数组的特征,可知ai+1=ci。将第三个分词结果的整型数组中第i个元素至最后一个元素的值减1。若ai>ci,根据整型数组的特征可知ai=ci+1。将第三个分词结果的整型数组中第i个元素至最后一个元素的值加1,然后继续处理第i+1个字符。
当ai=bi时,若p<0.5,则判别第i个字符的位置索引为ci。若ai<ci,根据整型数组的特征,可知ai+1=ci。将第一个和第二个分词结果的两个整型数组中第i个元素至最后一个元素的值加1。若ai>ci,根据整型数组的特征可知ai=ci+1。将第一个和第二个分词结果的两个整型数组中第i个元素至最后一个元素的值减1。继续处理第i+1个字符。
当ai=ci时,若p≥0.5,则判别第i个字符的位置索引为ai。若ai<bi,根据整型数组的特征,可知ai+1=bi。将第二个分词结果的整型数组中第i个元素至最后一个元素的值减1。若ai>bi,根据整型数组的特征,可知ai=bi+1。将第二个分词结果的整型数组中第i个元素至最后一个元素的值加1,然后继续处理第i+1个字符。
当ai=ci时,若p<0.5,则判别第i个字符的位置索引为bi。若ai<bi,根据整型数组的特征,可知ai+1=bi。将第一个和第三个分词结果的两个整型数组中第i个元素至最后一个元素的值加1。若ai>bi,根据整型数组的特征,可知ai=bi+1。将第一个和第三个分词结果的两个整型数组中第i个元素至最后一个元素的值减1。继续处理第i+1个字符。
当bi=ci时,若p≥0.5,则判别第i个字符的位置索引为bi。若bi<ai,根据整型数组的特征,可知bi+1=ai。将第一个分词结果的整型数组中第i个元素至最后一个元素的值减1。若bi>ai,根据整型数组的特征,可知bi=ai+1。将第一个分词结果的整型数组中第i个元素至最后一个元素的值加1,然后继续处理第i+1个字符。
当bi=ci时,若p<0.5,则判别第i个字符的位置索引为ai。若bi<ai,根据整型数组的特征,可知bi+1=ai。将第二个和第三个分词结果的两个整型数组中第i个元素至最后一个元素的值加1。若bi>ai,根据整型数组的特征,可知bi=ai+1。将第二个和第三个分词结果的两个整型数组中第i个元素至最后一个元素的值减1。继续处理第i+1个字符,重复上述过程直至处理完句子中所有字符。
例如,对于待处理句子“小李有一件皮大衣。”,它的三种分词结果为“小Λ李有Λ一件Λ皮大Λ衣Λ。”,“小李Λ有Λ一Λ件Λ皮Λ大Λ衣Λ。”,“小李Λ有Λ一件Λ皮大衣Λ。”。对于第一个字符“小”,三种分词结果中该字符的位置索引都为1,则分词融合方法判断第一个字符的位置索引为1,继续处理第二个字符。
对于第二个字符“李”在三种分词结果中的位置索引a2,b2,c2,有a2=3,b2=2,c2=2,由于b2=c2,则分词融合方法中该字符在分词融合结果中的位置索引为b2的概率p=(1-p1)+p2+p3。(1)若p≥0.5,则分词融合方法判别字符s2的位置索引为b2。由于a2=b2+1,则将整型数组A中第二个到最后一个元素的值减1。(2)若p<0.5,则分词融合方法判别字符s2的位置索引为a2。由于a2=b2+1,则将整型数组B和C中从第二个到最后一个元素的值加1。依照此方法,直至处理完句子中的最后一个字符。
步骤四、采用基于Web的方法,对未登录词进行识别。具体如下:
设k=1,k为整数。
第一步,在分词融合方法对句子分词的结果中,从第k个词语开始,将连续两个、三个、四个相邻的词语合并为候选未登录词w1,w2,w3
第二步,将候选未登录词作为关键词提交到网络(如互动百科网站)上搜索候选未登录词。
第三步,判断候选未登录词是否为有效的未登录词。
判断依据是候选未登录词在互动百科网站中存在相应的百科页面,具体而言,在互动百科网站返回结果的超文本标记语言Html源码中<title>标签包含候选未登录词。若w3为未登录词,则设置k=k+4,执行第四步,否则判断w2是否为未登录词。若w2为未登录词,则设置k=k+3,执行第四步,否则判断w1是否为未登录词。若w1为未登录词,则设置k=k+2,执行第四步,否则设置k=k+1,执行第四步。
第四步,若k<n,n为句子中所有字符的个数,则返回第一步执行,否则结束循环。
本实施过程构建了含有约170万短语构成的文本集进行实验测试。这些短语来自百度百科的词条,分词过程中将一个短语看作一个句子进行处理。采用三个分词工具进行分词的效果如下:ICTCLAS的准确率为39.28%,Chinese Segment的准确率为34.87%,LTP的准确率为53.24%。本发明中,利用步骤三的分词方法的分词准确率为46.63%,进一步利用步骤四的未登录词识别方法的分词准确率为89.70%。通过实验表明,本发明提出的分词方法发挥了各个分词工具的优势,其准确率高于其他三个单独的分词工具,从而验证了其有效性。

Claims (1)

1.一种决策级中文分词融合方法,其特征在于包括以下步骤:
步骤一、利用任意三个中文分词工具分别对待处理文本中的句子进行分词;
步骤二、对得到的三个分词结果进行预处理,具体如下:
将待处理句子保存为字符串数组{s1,s2,…,sn},其中,n为自然数,每个数组元素si代表单个汉字、标点符号、数字或英文字符,i=1,2,…,n;获取三个分词工具的分词结果,连续的两个词语之间用一个空格分隔;
同时,构建三个整型数组,分别记录三个分词结果中每个非空格字符的位置索引,即,整型数组元素记录字符串数组{s1,s2,…,sn}中si在分词结果中的位置索引,i=1,2,…,n;
步骤三、对字符串数组{s1,s2,…,sn}和三个整型数组,利用决策级分词融合方法进行分词,具体如下:
首先,设三个整型数组为A={a1,a2,…,an}、B={b1,b2,…,bn}、C={c1,c2,…,cn},分别记录第一个、第二个、第三个分词结果中s1,s2,…,sn的位置索引,设三个分词工具的准确率为p1,p2,p3
对于待处理句子的第i个字符si和第i+1个字符,在分词结果中二者之间要么存在词语分隔标记空格,要么不存在空格;对于第i个和第i+1个字符在分词结果中的位置索引ai和ai+1,只能满足下述关系之一:若第i个字符和第i+1个字符之间不存在空格,则ai+1=ai+1;若它们之间存在空格,则ai+1=ai+2;
对于第i个和第i+1个字符在三个分词结果中的位置索引ai,bi,ci和ai+1,bi+1,ci+1,若ai=bi=ci,由于在分词结果中第i个字符与第i+1个字符之间只能存在空格或者不存在空格,因此ai+1,bi+1,ci+1中任意两者要么相等,要么差值为1,此外,ai+1,bi+1,ci+1中至少存在两者相等;
在分词过程中,在判别第i个字符的位置索引后,i=1,2,…,n,将三个整型数组中记录该字符在三个分词结果中的位置索引都赋值为分词融合方法中第i个字符的位置索引;
然后,采用决策级分词融合方法进行分词;过程如下:
对于待处理句子的第一个字符s1,有a1=b1=c1=1,则判别第1个字符的位置索引为a1
对于待处理句子的第i个字符,i=2,…,n,若ai=bi=ci,则判别第i个字符的位置索引为ai
若ai=bi=ci不成立,根据整型数组的特点可知三个整型数组中记录三种分词结果的第i-1个字符的位置索引相同,即ai-1=bi-1=ci-1,并且ai,bi,ci中存在两个数组元素的值相等;若ai=bi,则第i个字符在分词融合结果中的位置索引为ai的概率p=p1+p2+(1-p3);若ai=ci,则第i个字符在分词融合结果中的位置索引为ai的概率p=p1+(1-p2)+p3;若bi=ci,则分词融合方法中第i个字符在分词融合结果中的位置索引为bi的概率p=(1-p1)+p2+p3
当ai=bi时,若p≥0.5,则判别第i个字符的位置索引为ai;若ai<ci,根据整型数组的特点,可知ai+1=ci;将第三个分词结果的整型数组中第i个元素至最后一个元素的值减1;若ai>ci,根据整型数组的特点可知ai=ci+1;将第三个分词结果的整型数组中第i个元素至最后一个元素的值加1,然后继续处理第i+1个字符;
当ai=bi时,若p<0.5,则判别第i个字符的位置索引为ci;若ai<ci,根据整型数组的特点,可知ai+1=ci;将第一个和第二个分词结果的两个整型数组中第i个元素至最后一个元素的值加1;若ai>ci,根据整型数组的特点,可知ai=ci+1;将第一个和第二个分词结果的两个整型数组中第i个元素至最后一个元素的值减1;继续处理第i+1个字符,重复上述过程直至处理完句子中所有字符;
当ai=ci时,若p≥0.5,则判别第i个字符的位置索引为ai;若ai<bi,根据整型数组的特点,可知ai+1=bi;将第二个分词结果的整型数组中第i个元素至最后一个元素的值减1;若ai>bi,根据整型数组的特点,可知ai=bi+1;将第二个分词结果的整型数组中第i个元素至最后一个元素的值加1,然后继续处理第i+1个字符;
当ai=ci时,若p<0.5,则判别第i个字符的位置索引为bi;若ai<bi,根据整型数组的特点,可知ai+1=bi;将第一个和第三个分词结果的两个整型数组中第i个元素至最后一个元素的值加1;若ai>bi,根据整型数组的特点,可知ai=bi+1;将第一个和第三个分词结果的两个整型数组中第i个元素至最后一个元素的值减1;继续处理第i+1个字符,重复上述过程直至处理完句子中所有字符;
当bi=ci时,若p≥0.5,则判别第i个字符的位置索引为bi;若bi<ai,根据整型数组的特点,可知bi+1=ai;将第一个分词结果的整型数组中第i个元素至最后一个元素的值减1;若bi>ai,根据整型数组的特点,可知bi=ai+1;将第一个分词结果的整型数组中第i个元素至最后一个元素的值加1,然后继续处理第i+1个字符;
当bi=ci时,若p<0.5,则判别第i个字符的位置索引为ai;若bi<ai,根据整型数组的特点,可知bi+1=ai;将第二个和第三个分词结果的两个整型数组中第i个元素至最后一个元素的值加1;若bi>ai,根据整型数组的特点,可知bi=ai+1;将第二个和第三个分词结果的两个整型数组中第i个元素至最后一个元素的值减1;继续处理第i+1个字符,重复上述过程直至处理完句子中所有字符;
步骤四、对未登录词进行识别,具体如下:
设k=1,k为整数;
第一步,在对句子分词的结果中,从第k个词语开始,分别将连续两个、三个、四个相邻的词语合并为候选未登录词w1,w2,w3
第二步,将候选未登录词作为关键词提交到网络上搜索候选未登录词;
第三步,判断候选未登录词是否为有效的未登录词;
判断依据是候选未登录词在网络中存在相应的百科页面;具体而言,在网络页面返回结果的超文本标记语言Html源码中<title>标签包含候选未登录词;若w3为未登录词,则设置k=k+4,执行第四步,否则判断w2是否为未登录词;若w2为未登录词,则设置k=k+3,执行第四步,否则判断w1是否为未登录词;若w1为未登录词,则设置k=k+2,执行第四步,否则设置k=k+1,执行第四步;
最后,若k<n,则返回第一步执行,否则结束循环;其中,n为句子中所有字符的个数。
CN201410564432.5A 2014-10-21 2014-10-21 一种决策级中文分词融合方法 Active CN104317882B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410564432.5A CN104317882B (zh) 2014-10-21 2014-10-21 一种决策级中文分词融合方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410564432.5A CN104317882B (zh) 2014-10-21 2014-10-21 一种决策级中文分词融合方法

Publications (2)

Publication Number Publication Date
CN104317882A CN104317882A (zh) 2015-01-28
CN104317882B true CN104317882B (zh) 2017-05-10

Family

ID=52373114

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410564432.5A Active CN104317882B (zh) 2014-10-21 2014-10-21 一种决策级中文分词融合方法

Country Status (1)

Country Link
CN (1) CN104317882B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107291684B (zh) 2016-04-12 2021-02-09 华为技术有限公司 语言文本的分词方法和系统
CN107481160A (zh) * 2016-09-18 2017-12-15 国家电网公司 一种基于贝叶斯算法的设备监控信号处置决策方法
CN106445918B (zh) * 2016-09-26 2019-08-27 深圳市数字城市工程研究中心 一种中文地址处理方法及系统
CN110969016B (zh) * 2018-09-27 2023-06-23 普天信息技术有限公司 分词处理方法及装置
CN110795938B (zh) * 2019-11-11 2023-11-10 北京小米智能科技有限公司 文本序列分词方法、装置及存储介质
CN111723571A (zh) * 2020-06-12 2020-09-29 上海极链网络科技有限公司 一种文本信息审核方法及系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102073919A (zh) * 2010-11-24 2011-05-25 中南大学 一种决策问题智能分析处理方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102479191B (zh) * 2010-11-22 2014-03-26 阿里巴巴集团控股有限公司 提供多粒度分词结果的方法及其装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102073919A (zh) * 2010-11-24 2011-05-25 中南大学 一种决策问题智能分析处理方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
汉语自动分词的研究现状与困难;张春霞;《系统仿真学报》;20050131;第17卷(第1期);138-147 *

Also Published As

Publication number Publication date
CN104317882A (zh) 2015-01-28

Similar Documents

Publication Publication Date Title
CN104317882B (zh) 一种决策级中文分词融合方法
CN106599032B (zh) 一种结合稀疏编码和结构感知机的文本事件抽取方法
CN105589844A (zh) 一种用于多轮问答系统中缺失语义补充的方法
CN101599071A (zh) 对话文本主题的自动提取方法
CN110096572B (zh) 一种样本生成方法、装置及计算机可读介质
CN110287298A (zh) 一种基于问句主题的自动问答答案选择方法
CN108052504A (zh) 数学主观题解答结果的结构分析方法及系统
CN111488466A (zh) 中文带标记错误语料生成方法、计算装置和存储介质
CN112052319B (zh) 一种基于多特征融合的智能客服方法及系统
Ciobanu et al. Automatic discrimination between cognates and borrowings
KR101079869B1 (ko) 품사 및 동형이의어 태깅 방법 및 이를 이용한 단말 장치
Sarker et al. Bengali question answering system for factoid questions: A statistical approach
CN107797986A (zh) 一种基于lstm‑cnn的混合语料分词方法
Jui et al. A machine learning-based segmentation approach for measuring similarity between sign languages
CN112528003B (zh) 一种基于语义排序和知识修正的多项选择问答方法
CN114579695A (zh) 一种事件抽取方法、装置、设备及存储介质
CN110362673A (zh) 基于摘要语义分析的计算机视觉类论文内容判别方法及系统
Ahmed et al. Question analysis for Arabic question answering systems
Jang et al. Detecting incongruent news headlines with auxiliary textual information
Mahata et al. JUNLP@ Dravidian-CodeMix-FIRE2020: Sentiment classification of code-mixed tweets using bi-directional RNN and language tags
CN116795979A (zh) 一种基于触发词增强的标签信号指导事件检测方法
Das et al. Sentiment Analysis on Comments in Bengali Language Using Text Mining & Machine Learning Approach
Basnayake et al. Plagiarism detection in Sinhala language: A software approach
CN110674871B (zh) 面向翻译译文的自动评分方法及自动评分系统
Zmandar et al. Multilingual Financial Word Embeddings for Arabic, English and French

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant