CN105512106B - 一种汉语离合词的自动识别方法 - Google Patents

一种汉语离合词的自动识别方法 Download PDF

Info

Publication number
CN105512106B
CN105512106B CN201510907012.7A CN201510907012A CN105512106B CN 105512106 B CN105512106 B CN 105512106B CN 201510907012 A CN201510907012 A CN 201510907012A CN 105512106 B CN105512106 B CN 105512106B
Authority
CN
China
Prior art keywords
clutch
word
candidate
mode
dis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510907012.7A
Other languages
English (en)
Other versions
CN105512106A (zh
Inventor
刘亮亮
吴健康
严熙
王亚楠
朱润
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu University of Science and Technology
Original Assignee
Jiangsu University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu University of Science and Technology filed Critical Jiangsu University of Science and Technology
Priority to CN201510907012.7A priority Critical patent/CN105512106B/zh
Publication of CN105512106A publication Critical patent/CN105512106A/zh
Application granted granted Critical
Publication of CN105512106B publication Critical patent/CN105512106B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种汉语离合词的自动识别方法,包括以下步骤:1)利用带距离信息的Gram对分词后的语料进行统计的步骤;2)离合词模式候选库的生成步骤;3)离合词自动识别的步骤:遍历离合词模式候选库,计算得到满足离合模式的离合词候选的离合置信度和离合支持度,并根据所述离合置信度和离合支持度与对应预设阈值的比较,实现离合词的自动识别。本发明有利于更为精准的开展自然语言的信息化处理工作,可广泛应用于中文文本自动校对领域中离合词的自动识别,可有效改善“将离合词中间的插入的字或词当做插入错误”的误判,也可以避免矫枉过正,将“不是离合词却类似离合词式的插入错误”被全部过滤掉而产生的漏判,具有较高的实用意义。

Description

一种汉语离合词的自动识别方法
技术领域
本发明涉及人工智能计算机领域中的自然语言处理,特别涉及汉语离合词的语言处理领域。
背景技术
汉语中的离合词是一种特殊的语言现象,其不仅可以作为一个词使用,还可以拆开不紧挨着出现。汉语离合词在自然语言中的使用越来越广泛,有些词随着时间的变化,原先不是离合词,现在变成离合词了,这对自然语言处理带来了更多的挑战。比如在中文文本自动校对领域,有字词插入错误的校对判断,但由于汉语离合词的存在,在错别字识别的过程中经过统计分析可能会将离合词中间的插入的词或字当做成插入错误。例如,“开一车”,由于“开车”是离合词,因此“一”不是字插入错误,是一种合理的语言现象,而“短一信”中的“一”是字插入错,因为“短信”不是离合词。
在离合词自动识别中,常遇到几个难题需要解决:
1)离合词自动识别是一个自然语言处理的问题,因此在获取前需要进行中文分词,如何对离合词的特点进行分析,如何对满足离合词候选模式的进行统计和存储。
2)如何来对离合词进行识别?满足模式不一定代表就是离合词,如何用统计量来判断离合词?
因此想要实现离合词的自动识别并获得较高的准确率,需要考虑如下有待解决的问题:
技术问题1:离合词的模式以及大规模语料统计。对汉语文本分词后进行分析,对离合词的模式进行归类,如何设计一种合理的结构对大规模语料进行统计?
技术问题2:离合词的量化问题。怎么根据统计信息来量化地判断一个离合词候选是否是一个真正的离合词?
针对上述难题和问题,本发明提供一种汉语离合词的自动识别方法。
发明内容
发明目的:为了克服现有技术中存在的不足,本发明提供一种汉语离合词的自动识别方法。
技术方案:
为解决上述技术问题,本发明提供一种汉语离合词的自动识别方法,包括以下步骤:
1)利用带距离信息的Gram对分词后的语料进行统计的步骤:对分词后的语料,结合离合词的定义和特点,利用带距离的Gram来统计分词后语料库中的统计信息;
2)离合词模式候选库的生成步骤:根据离合词的特点,将满足离合模式的离合词候选,及其对应的离合词候选模式串加入到离合词模式候选库中;
3)离合词自动识别的步骤:遍历离合词模式候选库,计算得到满足离合模式的离合词候选的离合置信度和离合支持度,并根据所述离合置信度和离合支持度与对应预设阈值的比较,实现离合词的自动识别。
优选的,所述步骤1)利用带距离信息的Gram对分词后的语料进行统计的步骤中:所述带距离信息的Gram结构为:Gram=(W1,dis1,W2,dis2,W3,Freq),其中W1、W2、W3分别表示分词后的词,dis1是W1和W2在句子中的距离,dis2为词W2与W3在句子中的距离,Freq为(W1,dis1,W2,dis2,W3)在语料中出现的频次;
所述步骤2)离合词模式候选库的生成步骤中:对于步骤1)中统计得到的某Gram=(W1,dis1,W2,dis2,W3,Freq)满足以下几种情况之一时,词W为一离合词候选,将该Gram串作为离合词候选W对应的离合词候选模式串之一增加到离合词模式候选库中:
(1)将W3拼接在W1末尾是词典中的一个词W;
(2)将W1拼接在W2末尾是词典中的一个词W;
(3)将W1拼接在W3末尾是词典中的一个词W。
进一步优选的,所述步骤3)离合词自动识别的步骤中:对离合词模式候选库中满足离合模式的离合词候选而言,遍历离合词模式候选库中该离合词候选对应的离合词候选模式串,得到该离合词候选W对应的离合置信度为:
其中Concat(Wi,Wj)为字符连接函数,表示将Wj拼接在Wi末尾,Freq为该离合词候选W对应的各离合词候选模式串Gram=(W1,dis1,W2,dis2,W3,Freq)中Freq项,表示各离合词候选模式串在语料中出现的频次;
该离合词候选W对应的离合支持度DCount(W)为:在离合词候选W对应的离合词候选模式串中,满足Concat(W1,W3)=W中所有不同W2的个数,与Concat(W3,W1)=W中所有不同W2的个数,以及与Concat(W2,W1)=W中所有不同W3的个数的总和。
优选的,所述步骤3)离合词自动识别的步骤中:对离合词模式候选库中的各离合词候选,遍历离合词模式候选库中该离合词候选对应的离合词候选模式串,计算得到该离合词候选的离合置信度和离合支持度,如离合置信度大于预设离合置信度阈值或离合支持度大于预设离合支持度阈值,则将该离合词候选识别为一个离合词,从而实现离合词的自动识别。
有益效果:本发明利用带距离的Gram对分词后的语料进行统计以获得离合词侯选库模式;并在此基础上,通过词的离合置信度和离合支持度来判断和识别词是否是一个离合词,经实验证明,本发明准确率高,有利于更为精准的开展自然语言的信息化处理工作,可广泛推广使用。如结合到中文文本自动校对领域中进行离合词的自动识别,可以有效改善“将离合词中间的插入的字或词当做插入错误”的误判,也可以避免矫枉过正,将“不是离合词却类似离合词式的插入错误”被全部过滤掉而产生的漏判,在自然语言处理领域中具有十分显著的实用意义。
对本发明进行大规模语料(8G)中自动识别离合词的实验,实验结果表明:本发明提供的汉语离合词的自动识别方法能有效的识别离合词,本发明在试验语料中识别出离合词3011个,其中正确的离合词2891个。统计分析后得知,本发明提供的汉语离合词的自动识别方法,其识别的准确率高达96%。
附图说明
图1为实施例提供的汉语离合词的自动识别方法的流程图。
具体实施方式
下面结合附图和实施例对本发明作更进一步的说明。
如图1所示,本实施例提供的汉语离合词的自动识别方法,包括以下步骤:
1)利用带距离信息的Gram对分词后的语料进行统计的步骤:
离合词自动识别需要对离合词模式串进行统计,为了便于对大规模语料进行统计和存储,以方便后面离合词的识别,本发明对分词后的语料,结合离合词的定义和特点,利用带距离的Gram结构来统计存放分词后语料库中的统计信息。
上述带距离信息的Gram结构用于表示并统计词与词之间的关系,为:Gram=(W1,dis1,W2,dis2,W3,Freq),其中W1、W2、W3分别表示分词后的词,dis1是W1和W2在句子中的距离,dis2为词W2与W3在句子中的距离,Freq为(W1,dis1,W2,dis2,W3)在语料中出现的频次;
2)离合词模式候选库的生成步骤:根据离合词的特点,将满足离合模式的离合词候选,及其对应的离合词候选模式串加入到离合词模式候选库中;即:
对于步骤1)中统计得到的、满足离合词的分离模式的某Gram=(W1,dis1,W2,dis2,W3,Freq),当该Gram满足以下几种情况之一时,词W为一离合词候选,将该Gram串作为离合词候选W对应的离合词候选模式串之一增加到离合词模式候选库中:
(1)将W3拼接在W1末尾是词典中的一个词W;
即如果Concat(W1,W3)是词典中的一个词W,那么该词W可能是一个离合词,将Gram=(W1,dis1,W2,dis2,W3,Freq)作为离合词候选W对应的离合词候选模式串之一增加到离合词模式候选库candidateList中;
(2)将W1拼接在W2末尾是词典中的一个词W;
即如果Concat(W2,W1)是词典中的一个词W,则该词W可能是一个离合词,Gram=(W1,dis1,W2,dis2,W3,Freq)作为离合词候选W对应的离合词候选模式串之一增加到离合词模式候选库candidateList中;
(3)将W1拼接在W3末尾是词典中的一个词W;
即如果Concat(W3,W1)是词典中的一个词W,则该词W可能是一个离合词,将Gram=(W1,dis1,W2,dis2,W3,Freq)作为离合词候选W对应的离合词候选模式串之一增加到离合词模式候选库candidateList中。
举例说明1:不失一般性的举例说明:
对于步骤1)中统计得到的满足离合词的分离模式的如下Gram串:
Gram1=(吃,1,次,0,饭,Freq1);
Gram2=(饭,0,吃,0,了,Freq2);
Gram3=(饭,0,怎么,0,吃,Freq3);
Gram4=(饭,2,你,0,吃,Freq4);
其中:
Gram1满足Concat(W1,W3)是词典中的一个词W=吃饭,
Gram2满足Concat(W2,W1)是词典中的一个词W=吃饭,
Gram3满足Concat(W3,W1)是词典中的一个词W=吃饭,
Gram4满足Concat(W3,W1)是词典中的一个词W=吃饭,
由此可见Gram1、Gram2、Gram3和Gram4均对应于离合词候选W,即对应“吃饭”这一候选离合词,将该Gram1、Gram2、Gram3和Gram4均作为离合词候选W=吃饭所对应的离合词候选模式串,一并增加到离合词模式候选库candidateList中去。
3)离合词自动识别的步骤:遍历离合词模式候选库,计算得到满足离合模式的离合词候选的离合置信度和离合支持度,并根据所述离合置信度和离合支持度与对应预设阈值的比较,实现离合词的自动识别。本实施例中为对离合词模式候选库中的各离合词候选,遍历离合词模式候选库中该离合词候选对应的离合词候选模式串,计算得到该离合词候选的离合置信度和离合支持度,如离合置信度大于预设离合置信度阈值或离合支持度大于预设离合支持度阈值,则将该离合词候选识别为一个离合词,从而实现离合词的自动识别。具体的:
对离合词模式候选库中满足离合模式的离合词候选W而言,遍历离合词模式候选库中该离合词候选W对应的离合词候选模式串,得到该离合词候选W对应的离合置信度为:
其中Concat(Wi,Wj)为字符连接函数,表示将Wj拼接在Wi末尾,Freq为该离合词候选W对应的各离合词候选模式串Gram=(W1,dis1,W2,dis2,W3,Freq)中Freq项,其表示各离合词候选模式串在语料中出现的频次。
应用到上述举例说明1中,不失一般性的假设离合词候选W=“吃饭”在当前语料中就对应4个离合词候选模式串Gram1、Gram2、Gram3和Gram4,则离合词候选W=“吃饭”所对应的离合置信度TCount(W)=Freq1+Freq2+Freq3+Freq4。当然这仅仅是为了描述清楚给出的简单举例说明,实际情况中对于不同的待处理语料,每个离合词候选大多都对应了很多个离合词候选模式串。
该离合词候选W对应的离合支持度DCount(W)为:在离合词候选W对应的离合词候选模式串中,满足Concat(W1,W3)=W中所有不同W2的个数,与Concat(W3,W1)=W中所有不同W2的个数,以及与Concat(W2,W1)=W中所有不同W3的个数的总和。
应用到上述举例说明1中,不失一般性的假设离合词候选W=吃饭在当前语料中就对应4个离合词候选模式串Gram1、Gram2、Gram3和Gram4,则在离合词候选W对应的离合词候选模式串中,满足Concat(W1,W3)=W中所有不同W2的个数为1,满足Concat(W3,W1)=W中所有不同的W2个数为2,以及与Concat(W2,W1)=W中所有不同W3的个数为1,则离合词候选W=“吃饭”所对应的离合支持度DCount(W)=1+2+1=4。
举例说明2:不失一般性的举例说明:假设离合词候选W=“吃饭”在当前语料中对应如下10个离合词候选模式串:
Gram1=(吃,1,次,0,饭,Freq1);
Gram2=(饭,0,吃,0,了,Freq2);
Gram3=(饭,0,怎么,0,吃,Freq3);
Gram4=(饭,2,你,0,吃,Freq4);
Gram5=(吃,0,了,0,饭,Freq5);
Gram6=(吃,2,次,2,饭,Freq6);
Gram7=(吃,0,顿,0,饭,Freq7);
Gram8=(饭,0,去,0,吃,Freq8);
Gram9=(饭,0,了,0,吃,Freq9);
Gram10=(饭,0,顿,0,吃,Freq10);
离合词候选W=吃饭所对应的离合置信度:
在离合词候选W对应的离合词候选模式串中:
满足Concat(W1,W3)=W情况的有Gram1、Gram5、Gram6和Gram7;
满足Concat(W2,W1)=W情况的有Gram2;
满足Concat(W3,W1)=W情况的有Gram3、Gram4、Gram8、Gram9和Gram10。
则在离合词候选W对应的离合词候选模式串中,满足Concat(W1,W3)=W中所有不同W2(本例中为“次”、“了”、“顿”)的个数为3,满足Concat(W3,W1)=W中所有不同的W2(有“怎么”、“你”、“去”、“了”、“顿”)个数为5,以及与Concat(W2,W1)=W中所有不同W3(有“了”)的个数为1,则离合词候选W=吃饭所对应的离合支持度DCount(W)=3+5+1=9。
在步骤3)离合词自动识别的步骤中,如离合词候选W对应的离合置信度大于预设离合置信度阈值或离合支持度大于预设离合支持度阈值,则判定该离合词候选W为一个离合词,从而实现离合词的自动识别,即满足以下条件之一,则认为W是一个离合词,加入到离合词库或者离合词词典中:
(a)如果W离合置信度TCount(W)>sup1,那么词W是一个离合词;
(b)如果W离合支持度DCount(W)>sup2,那么词W是一个离合词。
其中sup1为离合置信度阈值,本实施例中置为10,sup2为预设离合支持度阈值,本实施例中置为3。
实验:以上述实施例为例,对本发明进行大规模语料(8G)中自动识别离合词的实验,实验结果表明:本发明提供的汉语离合词的自动识别方法能有效的识别离合词,本发明在试验语料中识别出离合词3011个,其中正确的离合词2891个。统计分析后得知,本发明提供的汉语离合词的自动识别方法,其识别的准确率高达96%。从实验结果可见,本发明能有效的识别一个汉语词是否是离合词,准确率高,具有非常广泛的使用价值。
以上实施列仅是本发明的较佳实施例,对本发明不构成限定,相关工作人员在不偏离本发明技术思想的范围内,所进行的任何修改、等同替换、改进等,均落在本发明的保护范围内。

Claims (4)

1.一种汉语离合词的自动识别方法,其特征在于该方法包括以下步骤:
1)利用带距离信息的Gram对分词后的语料进行统计的步骤:对分词后的语料,结合离合词的定义和特点,利用带距离的Gram来统计分词后语料库中的统计信息;
2)离合词模式候选库的生成步骤:根据离合词的特点,将满足离合模式的离合词候选,及其对应的离合词候选模式串加入到离合词模式候选库中;
3)离合词自动识别的步骤:遍历离合词模式候选库,计算得到满足离合模式的离合词候选的离合置信度和离合支持度,并根据所述离合置信度和离合支持度与对应预设阈值的比较,实现离合词的自动识别。
2.根据权利要求1所述的汉语离合词的自动识别方法,其特征在于:
所述步骤1)利用带距离信息的Gram对分词后的语料进行统计的步骤中:所述带距离信息的Gram结构为:Gram=(W1,dis1,W2,dis2,W3,Freq),其中W1、W2、W3分别表示分词后的词,dis1是W1和W2在句子中的距离,dis2为词W2与W3在句子中的距离,Freq为(W1,dis1,W2,dis2,W3)在语料中出现的频次;
所述步骤2)离合词模式候选库的生成步骤中:对于步骤1)中统计得到的某Gram=(W1,dis1,W2,dis2,W3,Freq)满足以下几种情况之一时,词W为一离合词候选,将该Gram串作为离合词候选W对应的离合词候选模式串之一增加到离合词模式候选库中:
(1)将W3拼接在W1末尾是词典中的一个词W;
(2)将W1拼接在W2末尾是词典中的一个词W;
(3)将W1拼接在W3末尾是词典中的一个词W。
3.根据权利要求2所述的汉语离合词的自动识别方法,其特征在于:
所述步骤3)离合词自动识别的步骤中:对离合词模式候选库中满足离合模式的离合词候选而言,遍历离合词模式候选库中该离合词候选对应的离合词候选模式串,得到该离合词候选W对应的离合置信度为:
<mrow> <mi>TCount</mi> <mrow> <mo>(</mo> <mi>W</mi> <mo>)</mo> </mrow> <mo>=</mo> <msub> <mi>&amp;Sigma;</mi> <mrow> <mi>W</mi> <mo>=</mo> <mi>Concat</mi> <mrow> <mo>(</mo> <msub> <mi>W</mi> <mn>1</mn> </msub> <mo>,</mo> <msub> <mi>W</mi> <mn>3</mn> </msub> <mo>)</mo> </mrow> <mo>|</mo> <mo>|</mo> <mi>W</mi> <mo>=</mo> <mi>Concat</mi> <mrow> <mo>(</mo> <msub> <mi>W</mi> <mn>2</mn> </msub> <mo>,</mo> <msub> <mi>W</mi> <mn>1</mn> </msub> <mo>)</mo> </mrow> <mo>|</mo> <mo>|</mo> <mi>W</mi> <mo>=</mo> <mi>Concat</mi> <mrow> <mo>(</mo> <msub> <mi>W</mi> <mn>3</mn> </msub> <mo>,</mo> <msub> <mi>W</mi> <mn>1</mn> </msub> <mo>)</mo> </mrow> </mrow> </msub> <mi>Freq</mi> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>)</mo> </mrow> <mo>;</mo> </mrow>
其中Concat(Wi,Wj)为字符连接函数,表示将Wj拼接在Wi末尾,Freq为该离合词候选W对应的各离合词候选模式串Gram=(W1,dis1,W2,dis2,W3,Freq)中Freq项,表示各离合词候选模式串在语料中出现的频次;其中||表示或;
该离合词候选W对应的离合支持度DCount(W)为:在离合词候选W对应的离合词候选模式串中,满足Concat(W1,W3)=W中所有不同W2的个数,与Concat(W3,W1)=W中所有不同W2的个数,以及与Concat(W2,W1)=W中所有不同W3的个数的总和。
4.根据权利要求1所述的汉语离合词的自动识别方法,其特征在于:
所述步骤3)离合词自动识别的步骤中:对离合词模式候选库中的各离合词候选,遍历离合词模式候选库中该离合词候选对应的离合词候选模式串,计算得到该离合词候选的离合置信度和离合支持度,如离合置信度大于预设离合置信度阈值或离合支持度大于预设离合支持度阈值,则将该离合词候选识别为一个离合词,从而实现离合词的自动识别。
CN201510907012.7A 2015-12-09 2015-12-09 一种汉语离合词的自动识别方法 Active CN105512106B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510907012.7A CN105512106B (zh) 2015-12-09 2015-12-09 一种汉语离合词的自动识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510907012.7A CN105512106B (zh) 2015-12-09 2015-12-09 一种汉语离合词的自动识别方法

Publications (2)

Publication Number Publication Date
CN105512106A CN105512106A (zh) 2016-04-20
CN105512106B true CN105512106B (zh) 2018-04-06

Family

ID=55720099

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510907012.7A Active CN105512106B (zh) 2015-12-09 2015-12-09 一种汉语离合词的自动识别方法

Country Status (1)

Country Link
CN (1) CN105512106B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1910574A (zh) * 2004-01-06 2007-02-07 李仁燮 自动翻译器及其方法和用于编写该方法的记录媒体
CN1991819A (zh) * 2005-12-30 2007-07-04 北京法国电信研发中心有限公司 语言形态分析器
CN102135956A (zh) * 2011-05-06 2011-07-27 中国科学院软件研究所 一种基于词位标注的藏文分词方法
CN104375986A (zh) * 2014-12-02 2015-02-25 江苏科技大学 一种汉语叠词的自动获取方法
CN104778256A (zh) * 2015-04-20 2015-07-15 江苏科技大学 一种领域问答系统咨询的快速可增量聚类方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4476609B2 (ja) * 2003-12-10 2010-06-09 株式会社東芝 中国語解析装置、中国語解析方法および中国語解析プログラム
US20090313205A1 (en) * 2008-06-03 2009-12-17 Justsystems Corporation Table structure analyzing apparatus, table structure analyzing method, and table structure analyzing program

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1910574A (zh) * 2004-01-06 2007-02-07 李仁燮 自动翻译器及其方法和用于编写该方法的记录媒体
CN1991819A (zh) * 2005-12-30 2007-07-04 北京法国电信研发中心有限公司 语言形态分析器
CN102135956A (zh) * 2011-05-06 2011-07-27 中国科学院软件研究所 一种基于词位标注的藏文分词方法
CN104375986A (zh) * 2014-12-02 2015-02-25 江苏科技大学 一种汉语叠词的自动获取方法
CN104778256A (zh) * 2015-04-20 2015-07-15 江苏科技大学 一种领域问答系统咨询的快速可增量聚类方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
A Magnetic Stimulation Examination of Orthographic Neighborhood Effects in Visual Word Recognition;Michal Lavidor,Vincent Walsh;《Journal of Cognitive Neuroscience》;20030430;第15卷(第3期);第354-363页 *
Evaluating a split processing model of visual word recognition:Effects of orthographic neighborhood size;Michal Lavidor 等;《Brain and Language》;20040430;第312-320页 *
基于依存分析的离合触发词合法分离形式判定;肖升 等;《计算机工程与应用》;20131226;第50卷(第10期);第11-17页 *
基于语料库的现代汉语离合词形式分析;任海波,王刚;《语言科学》;20051130;第4卷(第6期);第75-87页 *
自动获取汉语词语搭配;王素格;《中文信息学报》;20061130;第20卷(第6期);第31-37页 *

Also Published As

Publication number Publication date
CN105512106A (zh) 2016-04-20

Similar Documents

Publication Publication Date Title
US11475209B2 (en) Device, system, and method for extracting named entities from sectioned documents
CN109416705B (zh) 利用语料库中可用的信息用于数据解析和预测
CN102227724B (zh) 对于音译的机器学习
Gupta et al. Named entity recognition for Punjabi language text summarization
US9195646B2 (en) Training data generation apparatus, characteristic expression extraction system, training data generation method, and computer-readable storage medium
US20130246048A1 (en) Text proofreading apparatus and text proofreading method
CN103678684A (zh) 一种基于导航信息检索的中文分词方法
Hussain et al. Using linguistic knowledge to classify non-functional requirements in SRS documents
CN102737013A (zh) 基于依存关系来识别语句情感的设备和方法
KR20150037924A (ko) 제품 인식에 근거한 정보 분류 기법
Siddiqui et al. Extraction and visualization of the chain of narrators from hadiths using named entity recognition and classification
CN105023028A (zh) 基于hmm和决策树的阿拉伯语光学字母识别方法
CN104346326A (zh) 一种情绪文本的情绪特征确定方法及装置
US8880391B2 (en) Natural language processing apparatus, natural language processing method, natural language processing program, and computer-readable recording medium storing natural language processing program
Barriere et al. May I Check Again?--A simple but efficient way to generate and use contextual dictionaries for Named Entity Recognition. Application to French Legal Texts
CN109086266A (zh) 一种文本形近字的检错与校对方法
CN109472020B (zh) 一种特征对齐中文分词方法
Wankhede et al. Data preprocessing for efficient sentimental analysis
Sankaran et al. Error detection in highly inflectional languages
Charoenpornsawat et al. Automatic sentence break disambiguation for Thai
Ghaeini Intrinsic author identification using modified weighted knn
CN105512106B (zh) 一种汉语离合词的自动识别方法
Sreejith et al. N-gram based algorithm for distinguishing between Hindi and Sanskrit texts
CN105183807A (zh) 一种基于结构句法的情绪原因事件识别方法及系统
Goyal Named entity recognition for south asian languages

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
EE01 Entry into force of recordation of patent licensing contract
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20160420

Assignee: JIANGSU KEDA HUIFENG SCIENCE AND TECHNOLOGY Co.,Ltd.

Assignor: JIANGSU University OF SCIENCE AND TECHNOLOGY

Contract record no.: X2020980007325

Denomination of invention: A method of Chinese word recognition

Granted publication date: 20180406

License type: Common License

Record date: 20201029

EC01 Cancellation of recordation of patent licensing contract
EC01 Cancellation of recordation of patent licensing contract

Assignee: JIANGSU KEDA HUIFENG SCIENCE AND TECHNOLOGY Co.,Ltd.

Assignor: JIANGSU University OF SCIENCE AND TECHNOLOGY

Contract record no.: X2020980007325

Date of cancellation: 20201223