CN105512106B

CN105512106B - 一种汉语离合词的自动识别方法

Info

Publication number: CN105512106B
Application number: CN201510907012.7A
Authority: CN
Inventors: 刘亮亮; 吴健康; 严熙; 王亚楠; 朱润
Original assignee: Jiangsu University of Science and Technology
Current assignee: Jiangsu University of Science and Technology
Priority date: 2015-12-09
Filing date: 2015-12-09
Publication date: 2018-04-06
Anticipated expiration: 2035-12-09
Also published as: CN105512106A

Abstract

本发明公开了一种汉语离合词的自动识别方法，包括以下步骤：1)利用带距离信息的Gram对分词后的语料进行统计的步骤；2)离合词模式候选库的生成步骤；3)离合词自动识别的步骤：遍历离合词模式候选库，计算得到满足离合模式的离合词候选的离合置信度和离合支持度，并根据所述离合置信度和离合支持度与对应预设阈值的比较，实现离合词的自动识别。本发明有利于更为精准的开展自然语言的信息化处理工作，可广泛应用于中文文本自动校对领域中离合词的自动识别，可有效改善“将离合词中间的插入的字或词当做插入错误”的误判，也可以避免矫枉过正，将“不是离合词却类似离合词式的插入错误”被全部过滤掉而产生的漏判，具有较高的实用意义。

Description

一种汉语离合词的自动识别方法

技术领域

本发明涉及人工智能计算机领域中的自然语言处理，特别涉及汉语离合词的语言处理领域。

背景技术

汉语中的离合词是一种特殊的语言现象，其不仅可以作为一个词使用，还可以拆开不紧挨着出现。汉语离合词在自然语言中的使用越来越广泛，有些词随着时间的变化，原先不是离合词，现在变成离合词了，这对自然语言处理带来了更多的挑战。比如在中文文本自动校对领域，有字词插入错误的校对判断，但由于汉语离合词的存在，在错别字识别的过程中经过统计分析可能会将离合词中间的插入的词或字当做成插入错误。例如，“开一车”，由于“开车”是离合词，因此“一”不是字插入错误，是一种合理的语言现象，而“短一信”中的“一”是字插入错，因为“短信”不是离合词。

在离合词自动识别中，常遇到几个难题需要解决：

1)离合词自动识别是一个自然语言处理的问题，因此在获取前需要进行中文分词，如何对离合词的特点进行分析，如何对满足离合词候选模式的进行统计和存储。

2)如何来对离合词进行识别？满足模式不一定代表就是离合词，如何用统计量来判断离合词？

因此想要实现离合词的自动识别并获得较高的准确率，需要考虑如下有待解决的问题：

技术问题1：离合词的模式以及大规模语料统计。对汉语文本分词后进行分析，对离合词的模式进行归类，如何设计一种合理的结构对大规模语料进行统计？

技术问题2：离合词的量化问题。怎么根据统计信息来量化地判断一个离合词候选是否是一个真正的离合词？

针对上述难题和问题，本发明提供一种汉语离合词的自动识别方法。

发明内容

发明目的：为了克服现有技术中存在的不足，本发明提供一种汉语离合词的自动识别方法。

技术方案：

为解决上述技术问题，本发明提供一种汉语离合词的自动识别方法，包括以下步骤：

1)利用带距离信息的Gram对分词后的语料进行统计的步骤：对分词后的语料，结合离合词的定义和特点，利用带距离的Gram来统计分词后语料库中的统计信息；

2)离合词模式候选库的生成步骤：根据离合词的特点，将满足离合模式的离合词候选，及其对应的离合词候选模式串加入到离合词模式候选库中；

3)离合词自动识别的步骤：遍历离合词模式候选库，计算得到满足离合模式的离合词候选的离合置信度和离合支持度，并根据所述离合置信度和离合支持度与对应预设阈值的比较，实现离合词的自动识别。

优选的，所述步骤1)利用带距离信息的Gram对分词后的语料进行统计的步骤中：所述带距离信息的Gram结构为：Gram＝(W₁,dis₁,W₂,dis₂,W₃,Freq)，其中W₁、W₂、W₃分别表示分词后的词，dis₁是W₁和W₂在句子中的距离，dis₂为词W₂与W₃在句子中的距离，Freq为(W₁,dis₁,W₂,dis₂,W₃)在语料中出现的频次；

所述步骤2)离合词模式候选库的生成步骤中：对于步骤1)中统计得到的某Gram＝(W₁,dis₁,W₂,dis₂,W₃,Freq)满足以下几种情况之一时，词W为一离合词候选，将该Gram串作为离合词候选W对应的离合词候选模式串之一增加到离合词模式候选库中：

(1)将W₃拼接在W₁末尾是词典中的一个词W；

(2)将W₁拼接在W₂末尾是词典中的一个词W；

(3)将W₁拼接在W₃末尾是词典中的一个词W。

进一步优选的，所述步骤3)离合词自动识别的步骤中：对离合词模式候选库中满足离合模式的离合词候选而言，遍历离合词模式候选库中该离合词候选对应的离合词候选模式串，得到该离合词候选W对应的离合置信度为：

其中Concat(W_i,W_j)为字符连接函数，表示将W_j拼接在W_i末尾，Freq为该离合词候选W对应的各离合词候选模式串Gram＝(W₁,dis₁,W₂,dis₂,W₃,Freq)中Freq项，表示各离合词候选模式串在语料中出现的频次；

该离合词候选W对应的离合支持度DCount(W)为：在离合词候选W对应的离合词候选模式串中，满足Concat(W₁,W₃)＝W中所有不同W₂的个数，与Concat(W₃,W₁)＝W中所有不同W₂的个数，以及与Concat(W₂,W₁)＝W中所有不同W₃的个数的总和。

优选的，所述步骤3)离合词自动识别的步骤中：对离合词模式候选库中的各离合词候选，遍历离合词模式候选库中该离合词候选对应的离合词候选模式串，计算得到该离合词候选的离合置信度和离合支持度，如离合置信度大于预设离合置信度阈值或离合支持度大于预设离合支持度阈值，则将该离合词候选识别为一个离合词，从而实现离合词的自动识别。

有益效果：本发明利用带距离的Gram对分词后的语料进行统计以获得离合词侯选库模式；并在此基础上，通过词的离合置信度和离合支持度来判断和识别词是否是一个离合词，经实验证明，本发明准确率高，有利于更为精准的开展自然语言的信息化处理工作，可广泛推广使用。如结合到中文文本自动校对领域中进行离合词的自动识别，可以有效改善“将离合词中间的插入的字或词当做插入错误”的误判，也可以避免矫枉过正，将“不是离合词却类似离合词式的插入错误”被全部过滤掉而产生的漏判，在自然语言处理领域中具有十分显著的实用意义。

对本发明进行大规模语料(8G)中自动识别离合词的实验，实验结果表明：本发明提供的汉语离合词的自动识别方法能有效的识别离合词，本发明在试验语料中识别出离合词3011个，其中正确的离合词2891个。统计分析后得知，本发明提供的汉语离合词的自动识别方法，其识别的准确率高达96％。

附图说明

图1为实施例提供的汉语离合词的自动识别方法的流程图。

具体实施方式

下面结合附图和实施例对本发明作更进一步的说明。

如图1所示，本实施例提供的汉语离合词的自动识别方法，包括以下步骤：

1)利用带距离信息的Gram对分词后的语料进行统计的步骤：

离合词自动识别需要对离合词模式串进行统计，为了便于对大规模语料进行统计和存储，以方便后面离合词的识别，本发明对分词后的语料，结合离合词的定义和特点，利用带距离的Gram结构来统计存放分词后语料库中的统计信息。

上述带距离信息的Gram结构用于表示并统计词与词之间的关系，为：Gram＝(W₁,dis₁,W₂,dis₂,W₃,Freq)，其中W₁、W₂、W₃分别表示分词后的词，dis₁是W₁和W₂在句子中的距离，dis₂为词W₂与W₃在句子中的距离，Freq为(W₁,dis₁,W₂,dis₂,W₃)在语料中出现的频次；

2)离合词模式候选库的生成步骤：根据离合词的特点，将满足离合模式的离合词候选，及其对应的离合词候选模式串加入到离合词模式候选库中；即：

对于步骤1)中统计得到的、满足离合词的分离模式的某Gram＝(W₁,dis₁,W₂,dis₂,W₃,Freq)，当该Gram满足以下几种情况之一时，词W为一离合词候选，将该Gram串作为离合词候选W对应的离合词候选模式串之一增加到离合词模式候选库中：

(1)将W₃拼接在W₁末尾是词典中的一个词W；

即如果Concat(W₁,W₃)是词典中的一个词W，那么该词W可能是一个离合词，将Gram＝(W₁,dis₁,W₂,dis₂,W₃,Freq)作为离合词候选W对应的离合词候选模式串之一增加到离合词模式候选库candidateList中；

(2)将W₁拼接在W₂末尾是词典中的一个词W；

即如果Concat(W_2,W₁)是词典中的一个词W，则该词W可能是一个离合词，Gram＝(W₁,dis₁,W₂,dis₂,W₃,Freq)作为离合词候选W对应的离合词候选模式串之一增加到离合词模式候选库candidateList中；

(3)将W₁拼接在W₃末尾是词典中的一个词W；

即如果Concat(W₃,W₁)是词典中的一个词W，则该词W可能是一个离合词，将Gram＝(W₁,dis₁,W₂,dis₂,W₃,Freq)作为离合词候选W对应的离合词候选模式串之一增加到离合词模式候选库candidateList中。

举例说明1：不失一般性的举例说明：

对于步骤1)中统计得到的满足离合词的分离模式的如下Gram串：

Gram1＝(吃，1，次，0，饭，Freq1)；

Gram2＝(饭，0，吃，0，了，Freq2)；

Gram3＝(饭，0，怎么，0，吃，Freq3)；

Gram4＝(饭，2，你，0，吃，Freq4)；

其中：

Gram1满足Concat(W₁,W₃)是词典中的一个词W＝吃饭，

Gram2满足Concat(W_2,W₁)是词典中的一个词W＝吃饭，

Gram3满足Concat(W₃,W₁)是词典中的一个词W＝吃饭，

Gram4满足Concat(W₃,W₁)是词典中的一个词W＝吃饭，

由此可见Gram1、Gram2、Gram3和Gram4均对应于离合词候选W，即对应“吃饭”这一候选离合词，将该Gram1、Gram2、Gram3和Gram4均作为离合词候选W＝吃饭所对应的离合词候选模式串，一并增加到离合词模式候选库candidateList中去。

3)离合词自动识别的步骤：遍历离合词模式候选库，计算得到满足离合模式的离合词候选的离合置信度和离合支持度，并根据所述离合置信度和离合支持度与对应预设阈值的比较，实现离合词的自动识别。本实施例中为对离合词模式候选库中的各离合词候选，遍历离合词模式候选库中该离合词候选对应的离合词候选模式串，计算得到该离合词候选的离合置信度和离合支持度，如离合置信度大于预设离合置信度阈值或离合支持度大于预设离合支持度阈值，则将该离合词候选识别为一个离合词，从而实现离合词的自动识别。具体的：

对离合词模式候选库中满足离合模式的离合词候选W而言，遍历离合词模式候选库中该离合词候选W对应的离合词候选模式串，得到该离合词候选W对应的离合置信度为：

其中Concat(W_i,W_j)为字符连接函数，表示将W_j拼接在W_i末尾，Freq为该离合词候选W对应的各离合词候选模式串Gram＝(W₁,dis₁,W₂,dis₂,W₃,Freq)中Freq项，其表示各离合词候选模式串在语料中出现的频次。

应用到上述举例说明1中，不失一般性的假设离合词候选W＝“吃饭”在当前语料中就对应4个离合词候选模式串Gram1、Gram2、Gram3和Gram4，则离合词候选W＝“吃饭”所对应的离合置信度TCount(W)＝Freq1+Freq2+Freq3+Freq4。当然这仅仅是为了描述清楚给出的简单举例说明，实际情况中对于不同的待处理语料，每个离合词候选大多都对应了很多个离合词候选模式串。

应用到上述举例说明1中，不失一般性的假设离合词候选W＝吃饭在当前语料中就对应4个离合词候选模式串Gram1、Gram2、Gram3和Gram4，则在离合词候选W对应的离合词候选模式串中，满足Concat(W1,W3)＝W中所有不同W2的个数为1，满足Concat(W3,W1)＝W中所有不同的W2个数为2，以及与Concat(W2,W1)＝W中所有不同W3的个数为1，则离合词候选W＝“吃饭”所对应的离合支持度DCount(W)＝1+2+1＝4。

举例说明2:不失一般性的举例说明：假设离合词候选W＝“吃饭”在当前语料中对应如下10个离合词候选模式串：

Gram1＝(吃，1，次，0，饭，Freq1)；

Gram2＝(饭，0，吃，0，了，Freq2)；

Gram3＝(饭，0，怎么，0，吃，Freq3)；

Gram4＝(饭，2，你，0，吃，Freq4)；

Gram5＝(吃，0，了，0，饭，Freq5)；

Gram6＝(吃，2，次，2，饭，Freq6)；

Gram7＝(吃，0，顿，0，饭，Freq7)；

Gram8＝(饭，0，去，0，吃，Freq8)；

Gram9＝(饭，0，了，0，吃，Freq9)；

Gram10＝(饭，0，顿，0，吃，Freq10)；

离合词候选W＝吃饭所对应的离合置信度：

在离合词候选W对应的离合词候选模式串中：

满足Concat(W1,W3)＝W情况的有Gram1、Gram5、Gram6和Gram7；

满足Concat(W₂,W₁)＝W情况的有Gram2；

满足Concat(W3,W1)＝W情况的有Gram3、Gram4、Gram8、Gram9和Gram10。

则在离合词候选W对应的离合词候选模式串中，满足Concat(W1,W3)＝W中所有不同W2(本例中为“次”、“了”、“顿”)的个数为3，满足Concat(W3,W1)＝W中所有不同的W2(有“怎么”、“你”、“去”、“了”、“顿”)个数为5，以及与Concat(W2,W1)＝W中所有不同W3(有“了”)的个数为1，则离合词候选W＝吃饭所对应的离合支持度DCount(W)＝3+5+1＝9。

在步骤3)离合词自动识别的步骤中，如离合词候选W对应的离合置信度大于预设离合置信度阈值或离合支持度大于预设离合支持度阈值，则判定该离合词候选W为一个离合词，从而实现离合词的自动识别，即满足以下条件之一，则认为W是一个离合词，加入到离合词库或者离合词词典中：

(a)如果W离合置信度TCount(W)>sup1，那么词W是一个离合词；

(b)如果W离合支持度DCount(W)>sup2，那么词W是一个离合词。

其中sup1为离合置信度阈值，本实施例中置为10，sup2为预设离合支持度阈值，本实施例中置为3。

实验：以上述实施例为例，对本发明进行大规模语料(8G)中自动识别离合词的实验，实验结果表明：本发明提供的汉语离合词的自动识别方法能有效的识别离合词，本发明在试验语料中识别出离合词3011个，其中正确的离合词2891个。统计分析后得知，本发明提供的汉语离合词的自动识别方法，其识别的准确率高达96％。从实验结果可见，本发明能有效的识别一个汉语词是否是离合词，准确率高，具有非常广泛的使用价值。

以上实施列仅是本发明的较佳实施例，对本发明不构成限定，相关工作人员在不偏离本发明技术思想的范围内，所进行的任何修改、等同替换、改进等，均落在本发明的保护范围内。

Claims

1.一种汉语离合词的自动识别方法，其特征在于该方法包括以下步骤：

2.根据权利要求1所述的汉语离合词的自动识别方法，其特征在于：

所述步骤1)利用带距离信息的Gram对分词后的语料进行统计的步骤中：所述带距离信息的Gram结构为：Gram＝(W₁，dis₁，W₂，dis₂，W₃，Freq)，其中W₁、W₂、W₃分别表示分词后的词，di_s1是W₁和W₂在句子中的距离，dis₂为词W₂与W₃在句子中的距离，Freq为(W₁，dis₁，W₂，dis₂，W₃)在语料中出现的频次；

所述步骤2)离合词模式候选库的生成步骤中：对于步骤1)中统计得到的某Gram＝(W₁，dis₁，W₂，dis₂，W₃，Freq)满足以下几种情况之一时，词W为一离合词候选，将该Gram串作为离合词候选W对应的离合词候选模式串之一增加到离合词模式候选库中：

(1)将W₃拼接在W₁末尾是词典中的一个词W；

(2)将W₁拼接在W₂末尾是词典中的一个词W；

(3)将W₁拼接在W₃末尾是词典中的一个词W。

3.根据权利要求2所述的汉语离合词的自动识别方法，其特征在于：

所述步骤3)离合词自动识别的步骤中：对离合词模式候选库中满足离合模式的离合词候选而言，遍历离合词模式候选库中该离合词候选对应的离合词候选模式串，得到该离合词候选W对应的离合置信度为：

<mrow> <mi>TCount</mi> <mrow> <mo>(</mo> <mi>W</mi> <mo>)</mo> </mrow> <mo>=</mo> <msub> <mi>&Sigma;</mi> <mrow> <mi>W</mi> <mo>=</mo> <mi>Concat</mi> <mrow> <mo>(</mo> <msub> <mi>W</mi> <mn>1</mn> </msub> <mo>,</mo> <msub> <mi>W</mi> <mn>3</mn> </msub> <mo>)</mo> </mrow> <mo>|</mo> <mo>|</mo> <mi>W</mi> <mo>=</mo> <mi>Concat</mi> <mrow> <mo>(</mo> <msub> <mi>W</mi> <mn>2</mn> </msub> <mo>,</mo> <msub> <mi>W</mi> <mn>1</mn> </msub> <mo>)</mo> </mrow> <mo>|</mo> <mo>|</mo> <mi>W</mi> <mo>=</mo> <mi>Concat</mi> <mrow> <mo>(</mo> <msub> <mi>W</mi> <mn>3</mn> </msub> <mo>,</mo> <msub> <mi>W</mi> <mn>1</mn> </msub> <mo>)</mo> </mrow> </mrow> </msub> <mi>Freq</mi> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>)</mo> </mrow> <mo>;</mo> </mrow>

其中Concat(W_i，W_j)为字符连接函数，表示将W_j拼接在W_i末尾，Freq为该离合词候选W对应的各离合词候选模式串Gram＝(W₁，dis₁，W₂，dis₂，W₃，Freq)中Freq项，表示各离合词候选模式串在语料中出现的频次；其中||表示或；

该离合词候选W对应的离合支持度DCount(W)为：在离合词候选W对应的离合词候选模式串中，满足Concat(W₁，W₃)＝W中所有不同W₂的个数，与Concat(W₃，W₁)＝W中所有不同W₂的个数，以及与Concat(W₂，W₁)＝W中所有不同W₃的个数的总和。

4.根据权利要求1所述的汉语离合词的自动识别方法，其特征在于：

所述步骤3)离合词自动识别的步骤中：对离合词模式候选库中的各离合词候选，遍历离合词模式候选库中该离合词候选对应的离合词候选模式串，计算得到该离合词候选的离合置信度和离合支持度，如离合置信度大于预设离合置信度阈值或离合支持度大于预设离合支持度阈值，则将该离合词候选识别为一个离合词，从而实现离合词的自动识别。