CN104375986A - 一种汉语叠词的自动获取方法 - Google Patents

一种汉语叠词的自动获取方法 Download PDF

Info

Publication number
CN104375986A
CN104375986A CN201410720547.9A CN201410720547A CN104375986A CN 104375986 A CN104375986 A CN 104375986A CN 201410720547 A CN201410720547 A CN 201410720547A CN 104375986 A CN104375986 A CN 104375986A
Authority
CN
China
Prior art keywords
word
formula
folded
folds
log
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410720547.9A
Other languages
English (en)
Other versions
CN104375986B (zh
Inventor
刘亮亮
吴健康
马健
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu University of Science and Technology
Original Assignee
Jiangsu University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu University of Science and Technology filed Critical Jiangsu University of Science and Technology
Priority to CN201410720547.9A priority Critical patent/CN104375986B/zh
Publication of CN104375986A publication Critical patent/CN104375986A/zh
Application granted granted Critical
Publication of CN104375986B publication Critical patent/CN104375986B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)

Abstract

本发明公开了一种汉语叠词的自动获取方法,利用结构合理的五元组模型对分词后的语料进行统计以获得各类叠词候选集;并在此基础上,通过叠词度的运算判断实现AAB式、ABB式、ABA式、ABAB式、AABB式叠词的自动获取;并在叠词度判断的基础上,进一步通过左、右邻接熵的运算判断实现AA式叠词的自动获取。本发明根据结构合理的五元组模型获得的统计信息,结合叠词度和信息熵的判断,实现了叠词的量化判断和自动获取,经实验证明,本发明准确率高,有利于更为更为精准的开展自然语言的信息化处理工作,在自然语言处理领域中具有十分明显的实用意义,可广泛推广使用。

Description

一种汉语叠词的自动获取方法
技术领域
本发明涉及人工智能计算机领域中的自然语言处理,特别涉及一种利用自然语言处理来实现汉语叠词的自动获取方法。
背景技术
在大量的自然语言应用中,有一个基本的而又共同的问题:对由一个由短文本构成的语料集(以下简称短文本语料集或语料集),如何将其中的短文本按照某种相似度聚集成不同的类。
汉语中的叠词是一种特殊的语言现象,汉语叠词由两个或两个以上的字形和字义都相同的汉字,重叠在一起使用所组成的词语。汉语叠词在自然语言中的使用越来越广泛,并且有不断的新的叠词出现,这对自然语言处理带来了更多的挑战。比如在中文文本自动校对领域,字词插入错误,都是相同的字或词的插入,但由于汉语叠词的存在,在错别字识别的过程中经过统计分析可能会将叠词当做成插入错误。而如果将满足叠词格式都看成叠词的话,则很多类似叠词式的插入错误会被过滤掉,因为不是所有的词都可以当做叠词出现。因此,需要来判断重复出现的串是否是叠词,如果是不是叠词,则认为该串是一个字词插入错误。
很多汉语研究者对叠词进行了分类,汉语的叠词种类有很多。一般而论,叠词自动获取方法的基本思想对大规模语料中重复出现的“叠词”模式串进行判断,如果该“叠词”模式串高频重复出现,那么该模式串很可能是一个叠词。
在叠词自动获取中,常遇到几个难题需要解决:
1)叠词自动获取是一个自然语言处理的问题,因此在获取前需要进行分词,因此首先要对叠词在分词后的结构进行分析,并且需要对满足候选模式的进行统计和存储。
2)如何来对叠词进行量化?高频出现的“叠词”模式串不一定真是一个叠词,因此需要利用量化的指标来对叠词进行判断。例如在“一车车的”这个串中“一车车”满足“ABB”式叠词结构、“车车的”满足“AAB”式叠词,且都是高频出现,但是我们认为“一车车”是一个叠词,而“车车的”不是一个叠词。因此,需要定义一种对叠词量化的方法来判断模式串是否是一个叠词。
3)对于“ABB”式和“AAB”式叠词,其中的“BB”或“AA”不一定是“AA”式叠词,例如:“血淋淋”是一个“ABB”式叠词,而“淋淋”就不是一个“AA”式叠词,因此还需要对满足“AA”式叠词进行进一步的判断。
因此想要实现叠词的自动获取并获得较高的准确率,需要考虑如下有待解决的问题:
技术问题1:汉语分词后叠词分词的叠词模式以及大规模语料统计。对汉语文本分词后进行分析,对叠词的模式进行归类,如何设计一种合理的数据结果对大规模语料进行统计?
技术问题2:叠词的量化问题。怎么根据统计信息来量化地判断一个叠词候选是否是一个真正的叠词?
技术问题3:对“AA”式叠词进行获取和验证。如何利用统计信息对“AA”式叠词候选进行获取和验证?
针对上述难题和问题,结合叠词在中文文本自动校对领域的字词插入错误,本发明提出并且实现了AAB式、ABB式、AA式、ABA式、ABAB式、AABB式汉语叠词的自动获取方法。
发明内容
发明目的:为了克服现有技术中存在的不足,本发明提供了一种汉语叠词的自动获取方法,以实现AAB式、ABB式、AA式、ABA式、ABAB式、AABB式汉语叠词的自动获取。
技术方案:
为达到上述目的,本发明提供的一种汉语叠词的自动获取方法,包括以下步骤:
利用五元组模型对分词后的语料进行统计的步骤:
对分词后的语料,根据叠词的定义、类型以及分词后的模式,利用五元组模型来统计满足AAB式、ABB式、AA式、ABA式、ABAB式、AABB式叠词模式的五元组,并作为候选叠词加入到对应的AAB式、ABB式、AA式、ABA式、ABAB式、AABB式叠词候选集中去;
自动获取AAB式、ABB式、ABA式、ABAB式、AABB式叠词的步骤:
遍历AAB式、ABB式、ABA式、ABAB式、AABB式叠词候选集中的候选叠词,逐一计算叠词度,将叠词度大于预设叠词度阈值的候选叠词列入叠词库,以实现语料中AAB式、ABB式、ABA式、ABAB式、AABB式叠词的自动获取;
自动获取AA式叠词的步骤:
遍历对应的AA式叠词候选集中的候选叠词,逐一计算叠词度;对叠词度大于预设叠词度阈值的候选叠词,计算其邻接信息熵,并将邻接信息熵大于预设信息熵阈值的候选叠词列入叠词库,以实现语料中AA式叠词的自动获取。
优选的,所述利用五元组模型对分词后的预料进行统计的步骤中,
所述五元组模型用于表示和统计词与词之间的关系,为:Five-ElementModel=(leftWord,leftInterval,word,rightInterval,rightWord);
其中:word为当前统计的词,leftWord是与词word左边相隔距离为leftInterval的词;leftInterval表示word与leftWord之间的距离;rightWord是与词word右边相隔距离为rightInterval的词;rightInterval表示word与rightWord之间的距离。
当leftInterval=0时表示leftWord与word是相邻,当leftInterval=1时表示leftWord与word中间隔一个词,以此类推,rightInterval的含义与leftInterval类似。
所述AAB式五元组模型包括(A,0,AB,0,*),(*,0,A,0,AB),(AA,0,B,0,*),(A,0,A,0,B),(*,0,AA,0,B);
所述ABB式五元组模型包括(A,0,B,0,B),(A,0,BB,0,*),(*,0,A,0,BB),(AB,0,B,0,*),(*,0,AB,0,B);
所述AA式五元组模型包括(*,0,A,0,A),(*,0,AA,0,*),(A,0,A,0,*);
所述ABA式五元组模型包括(A,0,B,0,A),其中B是一个单字词;
所述ABAB式五元组模型包括(AB,0,AB,0,*),(*,0,AB,0,AB);
所述AABB式五元组模型包括(AA,0,BB,0,*),(*,0,AA,0,BB);
上述五元组中的“*”代表任意词;
所述AAB式叠词候选集为:SAAB={(A,0,AB,*),(*,0,A,0,AB),(AA,0,B,0,,*),(A,0,A,0,B),(*,0,AA,0,B)};
所述ABB式叠词候选集为:SABB={(A,0,B,0,B),(A,0,BB,0,*),(*,0,A,0,BB),(AB,0,B,0,*),(*,0,AB,0,B)};
所述AA式叠词候选集为:SAA={(*,0,A,0,A),(*,0,AA,0,*),(A,0,A,0,*)};
所述ABA式叠词候选集为:SABA={(A,0,B,0,A),其中B是一个单字词};
所述ABAB式叠词候选集为:SABAB={(AB,0,AB,0,*),(*,0,AB,0,AB)};
所述AABB式叠词候选集为:SAABB={(AA,0,BB,0,*),(*,0,AA,0,BB)}。
优选的,所述自动获取AAB式、ABB式、ABA式、ABAB式、AABB式叠词的步骤和自动获取AA式叠词的步骤中,所述叠词度ComDegree用于表示叠词的内部组成部分的结合程度:
所述AAB式叠词的叠词度为:
ComDegree ( AAB ) = log P ( AAB ) min ( log ( P ( A ) * P ( AB ) ) , log ( P ( AA ) * P ( B ) ) , log ( P ( A ) * P ( A ) * log ( B ) ) ) - - - ( 1 ) ;
所述ABB式叠词的叠词度为:
ComDegree ( ABB ) = log P ( ABB ) min ( log ( P ( A ) * P ( BB ) ) , log ( P ( AB ) * P ( B ) ) , log ( P ( A ) * P ( B ) * log ( B ) ) ) - - - ( 2 ) ;
所述AA式叠词的叠词度为:
ComDegree ( AA ) = log P ( AA ) log ( P ( A ) * P ( A ) ) - - - ( 3 ) ;
所述ABA式叠词的叠词度为:
ComDegree ( ABA ) = log P ( ABA ) log ( P ( A ) * P ( B ) * ( A ) ) - - - ( 4 ) ;
所述ABAB式叠词的叠词度为:
ComDegree ( ABAB ) = log P ( ABAB ) log ( P ( AB ) * P ( AB ) - - - ( 5 ) ;
所述AABB式叠词的叠词度为:
ComDegree ( AABB ) = log P ( AABB ) log ( P ( AA ) * P ( BB ) - - - ( 6 ) ;
其中P(W)表示词W在语料中的出现概率,p(W)=Count(W)/N,N表示语料中所有词的频率,min(X,Y)表示最小值函数。
优选的,所述自动获取AA式叠词的步骤中,所述邻接信息熵H(AA)包括左信息熵LH(AA)和右信息熵RH(AA);
所述左信息熵LH(AA)的计算步骤包括:
统计AA的左邻接词W集合LAdjWordSet={W1,...Wn},及对应的左邻接词和AA的共现频次LF={F1,...Fn};
计算获得左信息熵LH(AA):
LH ( AA ) = - Σ i = 0 n P ( W i | AA ) * log P ( W i | AA ) - - - ( 7 ) ;
所述右信息熵RH(AA)的计算步骤包括:
统计AA的右邻接词W集合RAdjWordSet={W1,...Wn},及对应的左邻接词和AA的共现频次RF={F1,...Fn};
计算获得右信息熵RH(AA):
RH ( AA ) = - Σ i = 0 n P ( W i | AA ) * log P ( W i | AA ) - - - ( 8 ) ;
上述 P ( W i | AA ) = F i Σ i = 0 n F i .
优选的,所述利用五元组模型对分词后的预料进行统计的步骤中,还包括分别统计候选叠词的出现频率的步骤:遍历AAB式、ABB式、AA式、ABA式、ABAB式、AABB式叠词候选集中的候选叠词,统计得到AAB式、ABB式、AA式、ABA式、ABAB式、AABB式候选叠词的出现频率分别为:
Count ( AAB ) = Σ i = 1 | S AAB | { freq ( e i ) | e i ∈ S AAB } ;
Count ( ABB ) = Σ i = 1 | S ABB | { freq ( e i ) | e i ∈ S ABB } ;
Count ( AA ) = Σ i = 1 | S AA | { freq ( e i ) | e i ∈ S AA } ;
Count ( ABA ) = Σ i = 1 | S ABA | { freq ( e i ) | e i ∈ S ABA } ;
Count ( ABAB ) = Σ i = 1 | S ABAB | { freq ( e i ) | e i ∈ S ABAB } ;
Count ( AABB ) = Σ i = 1 | S AABB | { freq ( e i ) | e i ∈ S AABB } .
优选的,所述预设叠词度阈值为3.5,所述预设信息熵阈值为2.0。
有益效果:本发明利用结构合理的五元组模型对分词后的语料进行统计以获得各类叠词候选集;并在此基础上,通过叠词度的运算判断实现AAB式、ABB式、ABA式、ABAB式、AABB式叠词的自动获取;并在叠词度判断的基础上,进一步通过左、右邻接熵的运算判断实现AA式叠词的自动获取。本发明根据结构合理的五元组模型获得的统计信息,结合叠词度和信息熵的判断,实现了叠词的量化判断和自动获取,经实验证明,本发明准确率高,有利于更为更为精准的开展自然语言的信息化处理工作,可广泛推广使用。如结合到中文文本自动校对领域中,叠词的自动获取,可以有效改善“将叠词当做插入错误”的误判,也可以避免矫枉过正,将“不是叠词却类似叠词式的插入错误”被全部过滤掉而产生的漏判,在自然语言处理领域中具有十分明显的实用意义。
对本发明进行大规模语料(8G)中自动获取叠词的实验,实验结果表明:本发明提供的汉语叠词的自动获取方法能有效的获得汉语叠词,本发明在试验语料中获得“AA”式叠词1012个、“AAB”式叠词3512个、“ABB”式叠词980个,“ABA”式叠词6350个、“ABAB”式叠词2958个,“AABB”式叠词1175个。统计分析后得知,本发明提供的汉语叠词的自动获取方法,其叠词获取的准确率高达85.7%。
附图说明
图1是实施例中的汉语叠词的自动获取方法的流程图。
具体实施方式
下面结合附图和实施例对本发明作更进一步的说明。
根据汉语叠词的定义,对叠词进行如下分类:“AA”、“AAB”、“ABB”、“ABA”、“AABB”、“ABAB”、“AABC”、“BCAA”和“ABAC”。对于“ABAC”、“BCAA”、“AABC”型叠词一般都是固定的表达法,大部分收录在汉语成语词典中。本发明是针对“AA”、“AAB”、“ABB”、“ABA”、“ABAB”、“AABB”这六种类型的叠词进行自动获取。
如图1所示,本实施例提供的汉语叠词的自动获取方法,包括以下步骤:
1.利用五元组模型对分词后的语料进行统计的步骤,包括:
1.1五元组模型统计的步骤:
叠词自动获取需要对叠词模式串进行统计以及对其上下文信息进行统计,为了便于对大规模语料进行统计和存储,以方便后面叠词的计算和判断,本发明对分词后的语料,根据叠词的定义、类型以及分词后的模式,利用五元组模型来统计满足AAB式、ABB式、AA式、ABA式、ABAB式、AABB式叠词模式的五元组。
所述五元组模型用于表示和统计词与词之间的关系,为:Five-ElementModel=(leftWord,leftInterval,word,rightInterval,rightWord);
其中:word为当前统计的词,leftWord是与词word左边相隔距离为leftInterval的词;leftInterval表示word与leftWord之间的距离;rightWord是与词word右边相隔距离为rightInterval的词;rightInterval表示word与rightWord之间的距离。
当leftInterval=0时表示leftWord与word是相邻,当leftInterval=1时表示leftWord与word中间隔一个词,以此类推,rightInterval的含义与leftInterval类似。五元组模型统计中,leftInterval<=2,rightInterval<=2,本发明经实验判断,窗口宽度为[-1,1]已经包含了足够的语义信息和上下文词的信息。
由于叠词是相邻的词,因此,只需要考虑leftInterval和rightInterval相等且为0的五元组模型,因此本实施例中:
所述AAB式五元组模型包括(A,0,AB,0,*),(*,0,A,0,AB),(AA,0,B,0,*),(A,0,A,0,B),(*,0,AA,0,B);
所述ABB式五元组模型包括(A,0,B,0,B),(A,0,BB,0,*),(*,0,A,0,BB),(AB,0,B,0,*),(*,0,AB,0,B);
所述AA式五元组模型包括(*,0,A,0,A),(*,0,AA,0,*),(A,0,A,0,*);
所述ABA式五元组模型包括(A,0,B,0,A),其中B是一个单字词;
所述ABAB式五元组模型包括(AB,0,AB,0,*),(*,0,AB,0,AB);
所述AABB式五元组模型包括(AA,0,BB,0,*),(*,0,AA,0,BB);
上述五元组中的“*”代表任意词。
1.2叠词模式候选获取的步骤:将上述统计获得的满足五元组模型叠词模式的五元组模式串,作为候选叠词加入到对应的AAB式、ABB式、AA式、ABA式、ABAB式、AABB式叠词候选集中去,其中:
AAB式叠词候选集为:SAAB={(A,0,AB,*),(*,0,A,0,AB),(AA,0,B,0,,*),(A,0,A,0,B),(*,0,AA,0,B)};
ABB式叠词候选集为:SABB={(A,0,B,0,B),(A,0,BB,0,*),(*,0,A,0,BB),(AB,0,B,0,*),(*,0,AB,0,B)};
AA式叠词候选集为:SAA={(*,0,A,0,A),(*,0,AA,0,*),(A,0,A,0,*)};
ABA式叠词候选集为:SABA={(A,0,B,0,A),其中B是一个单字词};
ABAB式叠词候选集为:SABAB={(AB,0,AB,0,*),(*,0,AB,0,AB)};
AABB式叠词候选集为:SAABB={(AA,0,BB,0,*),(*,0,AA,0,BB)}。
1.3统计候选叠词出现频率的步骤(图中未示出):遍历AAB式、ABB式、AA式、ABA式、ABAB式、AABB式叠词候选集中的候选叠词,统计得到AAB式、ABB式、AA式、ABA式、ABAB式、AABB式候选叠词的出现频率分别为:
Count ( AAB ) = &Sigma; i = 1 | S AAB | { freq ( e i ) | e i &Element; S AAB } ;
Count ( ABB ) = &Sigma; i = 1 | S ABB | { freq ( e i ) | e i &Element; S ABB } ;
Count ( AA ) = &Sigma; i = 1 | S AA | { freq ( e i ) | e i &Element; S AA } ;
Count ( ABA ) = &Sigma; i = 1 | S ABA | { freq ( e i ) | e i &Element; S ABA } ;
Count ( ABAB ) = &Sigma; i = 1 | S ABAB | { freq ( e i ) | e i &Element; S ABAB } ;
Count ( AABB ) = &Sigma; i = 1 | S AABB | { freq ( e i ) | e i &Element; S AABB } .
2.自动获取AAB式、ABB式、ABA式、ABAB式、AABB式叠词的步骤,包括:
2.1叠词度计算的步骤:遍历AAB式、ABB式、ABA式、ABAB式、AABB式叠词候选集中的候选叠词,逐一计算叠词度;所述叠词度ComDegree用于表示叠词的内部组成部分的结合程度:
所述AAB式叠词的叠词度为:
ComDegree ( AAB ) = log P ( AAB ) min ( log ( P ( A ) * P ( AB ) ) , log ( P ( AA ) * P ( B ) ) , log ( P ( A ) * P ( A ) * log ( B ) ) ) - - - ( 1 ) ;
所述ABB式叠词的叠词度为:
ComDegree ( ABB ) = log P ( ABB ) min ( log ( P ( A ) * P ( BB ) ) , log ( P ( AB ) * P ( B ) ) , log ( P ( A ) * P ( B ) * log ( B ) ) ) - - - ( 2 ) ;
所述ABA式叠词的叠词度为:
ComDegree ( ABA ) = log P ( ABA ) log ( P ( A ) * P ( B ) * ( A ) ) - - - ( 4 ) ;
所述ABAB式叠词的叠词度为:
ComDegree ( ABAB ) = log P ( ABAB ) log ( P ( AB ) * P ( AB ) - - - ( 5 ) ;
所述AABB式叠词的叠词度为:
ComDegree ( AABB ) = log P ( AABB ) log ( P ( AA ) * P ( BB ) - - - ( 6 ) ;
其中P(W)表示词W在语料中的出现概率,p(W)=Count(W)/N,N表示语料中所有词的频率,min(X,Y)表示最小值函数。
2.2叠词度判断的步骤:判断AAB式、ABB式、ABA式、ABAB式、AABB式及AA式候选叠词的叠词度是否大于预设预设叠词度阈值α,本实施例中α=3.5,具体如下:
对于ABB式候选叠词,如果ComDegree(ABB)>α,则判断其是一个叠词,将其加入叠词词典中;
对于AAB式候选叠词,如果ComDegree(AAB)>α,则判断其是一个叠词,将其加入叠词词典中;
对于ABA式候选叠词,如果ComDegree(ABA)>α,则判断其是一个叠词,将其加入叠词词典中;
对于ABAB式候选叠词,如果ComDegree(ABAB)>α,则判断其是一个叠词,将其加入叠词词典中;
对于AABB式候选叠词,如果ComDegree(AABB)>α,则判断其是一个叠词,将其加入叠词词典中。
当然,上述预设叠词度阈值α的取值可根据实际使用环境进行调整。
叠词度ComDegree(W)反映了W中的词在一起的强度,叠词度越大,反映了W中的词经常在一起出现,叠词度越小,则说明W中的词是偶然在一起的。例如,对于“一车车”与“车车的”,通过计算可以发现ComDegree(一车车)=6.80693,ComDegree(车车的)=1.2234,因此通过叠词度来看“一车车”是一个叠词,而“车车的”就不是一个叠词。
所述叠词词典也可称为叠词库,至此,实现语料中AAB式、ABB式、ABA式、ABAB式、AABB式叠词的自动获取。
然而,由于有些AAB和ABB中存在AA式叠词,但是AAB与ABB式叠词中AA或BB不一定是AA式叠词,例如“血淋淋”中的“淋淋”就很少单独使用,而“个个”不但可以构成“一个个”叠词,还可以经常单独使用。信息熵是对不确定性的测量。熵越高,则能传输越多的信息,熵越低,则意味着传输的信息越少。我们用信息熵的来衡量一个AA式候选叠词的左右邻接词的不确定性。例如,“个个”,其左边出现的可能有“一,他们,我们,学生,老师...”,而“淋淋”的左边的邻接的字只有“血,水,湿”,通过左邻接词的信息熵计算发现,“个个”的左邻接词的信息熵很大,而“淋淋”的左邻接词的信息熵很小,从而可以以此来判断“个个”是一个常见的AA式叠词,而“淋淋”就不能作为AA式叠词出现。因此针对AA式叠词,本发明提供的判断和自动获取方法如下。
3.自动获取AA式叠词的步骤,包括:
3.1叠词度计算的步骤:遍历对应的AA式叠词候选集中的候选叠词,逐一计算叠词度;所述AA式叠词的叠词度为:
ComDegree ( AA ) = log P ( AA ) log ( P ( A ) * P ( A ) ) - - - ( 3 ) .
3.2叠词度判断的步骤:判断AA式候选叠词的叠词度是否大于预设叠词度阈值α,本实施例中α=3.5,具体如下:
对于AA式候选叠词,如果ComDegree(AA)>α,则进入下一步继续判断。
当然,上述预设叠词度阈值α的取值可根据实际使用环境进行调整。
3.3邻接信息熵计算的步骤:对于ComDegree(AA)>α的AA式候选叠词,计算其邻接信息熵H(AA),所述邻接信息熵H(AA)包括左信息熵LH(AA)和右信息熵RH(AA);
所述左信息熵LH(AA)的计算步骤包括:统计AA的左邻接词W集合LAdjWordSet={W1,...Wn},及对应的左邻接词和AA的共现频次LF={F1,...Fn};计算获得左信息熵LH(AA):
LH ( AA ) = - &Sigma; i = 0 n P ( W i | AA ) * log P ( W i | AA ) - - - ( 7 ) ;
所述右信息熵RH(AA)的计算步骤包括:统计AA的右邻接词W集合RAdjWordSet={W1,...Wn},及对应的左邻接词和AA的共现频次RF={F1,...Fn};计算获得右信息熵RH(AA):
RH ( AA ) = - &Sigma; i = 0 n P ( W i | AA ) * log P ( W i | AA ) - - - ( 8 ) ;
上述LH(AA)与RH(AA)计算式中:
3.4邻接信息熵判断的步骤:判断AA式候选叠词的左信息熵LH(AA)和右信息熵RH(AA)是否大于预设信息熵阈值β,本实施例中β=2.0(当然,上述预设信息熵阈值β的取值可根据实际使用环境进行调整),具体如下:
如果LH(AA)>β,并且RH(AA)>β,则判断该候选叠词是一个AA式叠词,将其加入到叠词词典中去。
所述叠词词典也可称为叠词库,至此,实现语料中AA式叠词的自动获取。
上述步骤中,是否为AA式候选叠词的判断可以放在叠词度计算和判断的步骤之前,也可以如图1所示,放在所有叠词度计算和判断的步骤之后。
即,可以先判断是否为AA式候选叠词,对于非AA式候选叠词进行叠词度的计算和判断实现非AA式叠词的自动获取,对AA式候选叠词进行叠词度计算后,根据叠词度判断的结果再进行邻接熵的计算和判断,从而实现AA式叠词的自动获取。
也可以是如图1所示,先对AAB式、ABB式、AA式、ABA式、ABAB式、AABB式都进行叠词度的计算和判断,然后判断满足叠词度的候选叠词是否为AA式候选叠词,如否则列入叠词词典实现非AA式叠词的自动获取,如是则再进行邻接熵的计算和判断,从而实现AA式叠词的自动获取。
实验:利用本发明进行从大规模语料(8G)中获取叠词的实验。实验结果表明:本发明提供的汉语叠词的自动获取方法能有效的获得汉语叠词,本发明在试验语料中获得“AA”式叠词1012个、“AAB”式叠词3512个、“ABB”式叠词980个,“ABA”式叠词6350个、“ABAB”式叠词2958个,“AABB”式叠词1175个。统计分析后得知,本发明提供的汉语叠词的自动获取方法,其叠词获取的准确率高达85.7%。从实验结果可见,本发明能有效的发现汉语文本中的叠词,准确率高,具有非常广泛的使用价值。
以上实施列仅是本发明的较佳实施例,对本发明不构成限定,相关工作人员在不偏离本发明技术思想的范围内,所进行的多样变化和修改,均落在本发明的保护范围内。

Claims (6)

1.一种汉语叠词的自动获取方法,其特征在于包括以下步骤:
利用五元组模型对分词后的语料进行统计的步骤:
对分词后的语料,根据叠词的定义、类型以及分词后的模式,利用五元组模型来统计满足AAB式、ABB式、AA式、ABA式、ABAB式、AABB式叠词模式的五元组,并作为候选叠词加入到对应的AAB式、ABB式、AA式、ABA式、ABAB式、AABB式叠词候选集中去;
自动获取AAB式、ABB式、ABA式、ABAB式、AABB式叠词的步骤:
遍历AAB式、ABB式、ABA式、ABAB式、AABB式叠词候选集中的候选叠词,逐一计算叠词度,将叠词度大于预设叠词度阈值的候选叠词列入叠词库,以实现语料中AAB式、ABB式、ABA式、ABAB式、AABB式叠词的自动获取;
自动获取AA式叠词的步骤:
遍历对应的AA式叠词候选集中的候选叠词,逐一计算叠词度;对叠词度大于预设叠词度阈值的候选叠词,计算其邻接信息熵,并将邻接信息熵大于预设信息熵阈值的候选叠词列入叠词库,以实现语料中AA式叠词的自动获取。
2.根据权利要求1所述的汉语叠词的自动获取方法,其特征在于:
所述利用五元组模型对分词后的预料进行统计的步骤中,
所述五元组模型用于表示和统计词与词之间的关系,为:Five-ElementModel=(leftWord,leftInterval,word,rightInterval,rightWord);
其中:word为当前统计的词,leftWord是与词word左边相隔距离为leftInterval的词;leftInterval表示word与leftWord之间的距离;rightWord是与词word右边相隔距离为rightInterval的词;rightInterval表示word与rightWord之间的距离;
所述AAB式五元组模型包括(A,0,AB,0,*),(*,0,A,0,AB),(AA,0,B,0,*),(A,0,A,0,B),(*,0,AA,0,B);
所述ABB式五元组模型包括(A,0,B,0,B),(A,0,BB,0,*),(*,0,A,0,BB),(AB,0,B,0,*),(*,0,AB,0,B);
所述AA式五元组模型包括(*,0,A,0,A),(*,0,AA,0,*),(A,0,A,0,*);
所述ABA式五元组模型包括(A,0,B,0,A),其中B是一个单字词;
所述ABAB式五元组模型包括(AB,0,AB,0,*),(*,0,AB,0,AB);
所述AABB式五元组模型包括(AA,0,BB,0,*),(*,0,AA,0,BB);
上述五元组中的“*”代表任意词;
所述AAB式叠词候选集为:SAAB={(A,0,AB,*),(*,0,A,0,AB),(AA,0,B,0,,*),(A,0,A,0,B),(*,0,AA,0,B)};
所述ABB式叠词候选集为:SABB={(A,0,B,0,B),(A,0,BB,0,*),(*,0,A,0,BB),(AB,0,B,0,*),(*,0,AB,0,B)};
所述AA式叠词候选集为:SAA={(*,0,A,0,A),(*,0,AA,0,*),(A,0,A,0,*)};
所述ABA式叠词候选集为:SABA={(A,0,B,0,A),其中B是一个单字词};
所述ABAB式叠词候选集为:SABAB={(AB,0,AB,0,*),(*,0,AB,0,AB)};
所述AABB式叠词候选集为:SAABB={(AA,0,BB,0,*),(*,0,AA,0,BB)}。
3.根据权利要求1所述的汉语叠词的自动获取方法,其特征在于:
所述自动获取AAB式、ABB式、ABA式、ABAB式、AABB式叠词的步骤和自动获取AA式叠词的步骤中,所述叠词度ComDegree用于表示叠词的内部组成部分的结合程度:
所述AAB式叠词的叠词度为:
ComDegree ( AAB ) = log P ( AAB ) min ( log ( P ( A ) * P ( AB ) ) , log ( P ( AA ) * P ( B ) ) , log ( P ( A ) * P ( A ) * log ( B ) ) ) - - - ( 1 ) ;
所述ABB式叠词的叠词度为:
ComDegree ( ABB ) = log P ( ABB ) min ( log ( P ( A ) * P ( BB ) ) , log ( P ( AB ) * P ( B ) ) , log ( P ( A ) * P ( B ) * log ( B ) ) ) - - - ( 2 ) ;
所述AA式叠词的叠词度为:
ComDegree ( AA ) = log P ( AA ) log ( P ( A ) * P ( A ) ) - - - ( 3 ) ;
所述ABA式叠词的叠词度为:
ComDegree ( ABA ) = log P ( ABA ) log ( P ( A ) * P ( B ) * P ( A ) ) - - - ( 4 ) ;
所述ABAB式叠词的叠词度为:
ComDegree ( ABAB ) = log P ( ABAB ) log ( P ( AB ) * P ( AB ) - - - ( 5 ) ;
所述AABB式叠词的叠词度为:
ComDegree ( AABB ) = log P ( AABB ) log ( P ( AA ) * P ( BB ) - - - ( 6 ) ;
其中P(W)表示词W在语料中的出现概率,min(X,Y)表示最小值函数。
4.根据权利要求1所述的汉语叠词的自动获取方法,其特征在于:所述自动获取AA式叠词的步骤中,所述邻接信息熵H(AA)包括左信息熵LH(AA)和右信息熵RH(AA);
所述左信息熵LH(AA)的计算步骤包括:
统计AA的左邻接词W集合LAdjWordSet={W1,...Wn},及对应的左邻接词和AA的共现频次LF={F1,...Fn};
计算获得左信息熵LH(AA):
LH ( AA ) = - &Sigma; i = 0 n P ( W i | AA ) * log P ( W i | AA ) - - - ( 7 ) ;
所述右信息熵RH(AA)的计算步骤包括:
统计AA的右邻接词W集合RAdjWordSet={W1,...Wn},及对应的左邻接词和AA的共现频次RF={F1,...Fn};
计算获得右信息熵RH(AA):
RH ( AA ) = - &Sigma; i = 0 n P ( W i | AA ) * log P ( W i | AA ) - - - ( 8 ) ;
上述 P ( W i | AA ) = F i &Sigma; i = 0 n F i .
5.根据权利要求2所述的汉语叠词的自动获取方法,其特征在于:
所述利用五元组模型对分词后的预料进行统计的步骤中,还包括分别统计候选叠词的出现频率的步骤:遍历AAB式、ABB式、AA式、ABA式、ABAB式、AABB式叠词候选集中的候选叠词,统计得到AAB式、ABB式、AA式、ABA式、ABAB式、AABB式候选叠词的出现频率分别为:
Count ( AAB ) = &Sigma; i = 1 | S AAB | { freq ( e i ) | e i &Element; S AAB } ;
Count ( ABB ) = &Sigma; i = 1 | S ABB | { freq ( e i ) | e i &Element; S ABB } ;
Count ( AA ) = &Sigma; i = 1 | S AA | { freq ( e i ) | e i &Element; S AA } ;
Count ( ABA ) = &Sigma; i = 1 | S ABA | { freq ( e i ) | e i &Element; S ABA } ;
Count ( ABAB ) = &Sigma; i = 1 | S ABAB | { freq ( e i ) | e i &Element; S ABAB } ;
Count ( AABB ) = &Sigma; i = 1 | S AABB | { freq ( e i ) | e i &Element; S AABB } .
6.根据权利要求1所述的汉语叠词的自动获取方法,其特征在于:所述预设叠词度阈值为3.5,所述预设信息熵阈值为2.0。
CN201410720547.9A 2014-12-02 2014-12-02 一种汉语叠词的自动获取方法 Expired - Fee Related CN104375986B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410720547.9A CN104375986B (zh) 2014-12-02 2014-12-02 一种汉语叠词的自动获取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410720547.9A CN104375986B (zh) 2014-12-02 2014-12-02 一种汉语叠词的自动获取方法

Publications (2)

Publication Number Publication Date
CN104375986A true CN104375986A (zh) 2015-02-25
CN104375986B CN104375986B (zh) 2017-04-05

Family

ID=52554909

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410720547.9A Expired - Fee Related CN104375986B (zh) 2014-12-02 2014-12-02 一种汉语叠词的自动获取方法

Country Status (1)

Country Link
CN (1) CN104375986B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105512106A (zh) * 2015-12-09 2016-04-20 江苏科技大学 一种汉语离合词的自动识别方法
CN107305540A (zh) * 2016-04-20 2017-10-31 顺丰科技有限公司 地址切分识别方法
CN111709228A (zh) * 2020-06-22 2020-09-25 中国标准化研究院 一种字词重复错误的自动识别方法
CN111783458A (zh) * 2020-08-20 2020-10-16 支付宝(杭州)信息技术有限公司 叠字错误检测方法及装置
CN112949289A (zh) * 2019-12-11 2021-06-11 北大方正集团有限公司 检测叠词错误的方法、装置及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101950306A (zh) * 2010-09-29 2011-01-19 北京新媒传信科技有限公司 新词发现中的字符串过滤方法
US20110202334A1 (en) * 2001-03-16 2011-08-18 Meaningful Machines, LLC Knowledge System Method and Apparatus
CN102831194A (zh) * 2012-08-03 2012-12-19 人民搜索网络股份公司 一种基于查询日志的新词自动查找系统和方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110202334A1 (en) * 2001-03-16 2011-08-18 Meaningful Machines, LLC Knowledge System Method and Apparatus
CN101950306A (zh) * 2010-09-29 2011-01-19 北京新媒传信科技有限公司 新词发现中的字符串过滤方法
CN102831194A (zh) * 2012-08-03 2012-12-19 人民搜索网络股份公司 一种基于查询日志的新词自动查找系统和方法

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105512106A (zh) * 2015-12-09 2016-04-20 江苏科技大学 一种汉语离合词的自动识别方法
CN105512106B (zh) * 2015-12-09 2018-04-06 江苏科技大学 一种汉语离合词的自动识别方法
CN107305540A (zh) * 2016-04-20 2017-10-31 顺丰科技有限公司 地址切分识别方法
CN112949289A (zh) * 2019-12-11 2021-06-11 北大方正集团有限公司 检测叠词错误的方法、装置及系统
CN111709228A (zh) * 2020-06-22 2020-09-25 中国标准化研究院 一种字词重复错误的自动识别方法
CN111709228B (zh) * 2020-06-22 2023-11-21 中国标准化研究院 一种字词重复错误的自动识别方法
CN111783458A (zh) * 2020-08-20 2020-10-16 支付宝(杭州)信息技术有限公司 叠字错误检测方法及装置
CN111783458B (zh) * 2020-08-20 2024-05-03 支付宝(杭州)信息技术有限公司 叠字错误检测方法及装置

Also Published As

Publication number Publication date
CN104375986B (zh) 2017-04-05

Similar Documents

Publication Publication Date Title
Nguyen et al. Argument mining for improving the automated scoring of persuasive essays
CN104375986A (zh) 一种汉语叠词的自动获取方法
CN109800310B (zh) 一种基于结构化表达的电力运维文本分析方法
CN105426539A (zh) 一种基于词典的lucene中文分词方法
CN101520802A (zh) 一种问答对的质量评价方法和系统
CN106528524A (zh) 一种基于MMseg算法与逐点互信息算法的分词方法
CN105808525A (zh) 一种基于相似概念对的领域概念上下位关系抽取方法
CN103473380B (zh) 一种计算机文本情感分类方法
CN104484433B (zh) 一种基于机器学习的图书本体匹配方法
CN107133212B (zh) 一种基于集成学习和词句综合信息的文本蕴涵识别方法
CN111274804A (zh) 基于命名实体识别的案件信息提取方法
CN103116573B (zh) 一种基于词汇注释的领域词典自动扩充方法
CN101702167A (zh) 一种基于互联网的模板抽取属性和评论词的方法
KR102196508B1 (ko) 비지도 학습을 통한 개체명 사전 구축 방법 및 시스템
CN109190099B (zh) 句模提取方法及装置
CN105512110A (zh) 一种基于模糊匹配与统计的错字词知识库构建方法
CN104933032A (zh) 一种基于复杂网络的博客关键词提取方法
CN105224955A (zh) 基于微博大数据获取网络服务状态的方法
CN109472020B (zh) 一种特征对齐中文分词方法
CN115017335A (zh) 知识图谱构建方法和系统
CN111178080A (zh) 一种基于结构化信息的命名实体识别方法及系统
CN109087223A (zh) 一种基于本体的教育资源模型构建方法
CN105512109A (zh) 新词汇的发现方法及装置
CN104281695B (zh) 基于组合理论的类自然语言的语义信息抽取方法及其系统
CN106021225A (zh) 一种基于汉语简单名词短语的汉语最长名词短语识别方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20170405

Termination date: 20191202