CN106815189B - 一种汉语新动词识别方法 - Google Patents

一种汉语新动词识别方法 Download PDF

Info

Publication number
CN106815189B
CN106815189B CN201510846963.8A CN201510846963A CN106815189B CN 106815189 B CN106815189 B CN 106815189B CN 201510846963 A CN201510846963 A CN 201510846963A CN 106815189 B CN106815189 B CN 106815189B
Authority
CN
China
Prior art keywords
verb
pos
new
chinese
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510846963.8A
Other languages
English (en)
Other versions
CN106815189A (zh
Inventor
王卫明
符建辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhongke Guoli (zhenjiang) Intelligent Technology Co Ltd
Original Assignee
Zhongke Guoli (zhenjiang) Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhongke Guoli (zhenjiang) Intelligent Technology Co Ltd filed Critical Zhongke Guoli (zhenjiang) Intelligent Technology Co Ltd
Priority to CN201510846963.8A priority Critical patent/CN106815189B/zh
Publication of CN106815189A publication Critical patent/CN106815189A/zh
Application granted granted Critical
Publication of CN106815189B publication Critical patent/CN106815189B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本发明一种汉语新动词识别方法,包括对原始训练语料库CNCorpus进行分词,形成分词语料库TCNCorpus;识别分词语料库TCNCorpus中的可能的新动词,形成结果集合Tmp_Verb;验证集合Tmp_Verb中的新动词,形成结果集合VerbResult;输出新动词集合VerbResult.本发明提出了一种利用汉语种子词典中的词语的信息,对从汉语语料中获得新动词进行识别。在经过160GB的纯文本语料的测试验证后,本发明的系统获得了41012个新的汉语动词。经过准确性分析,结果显示96.9%的新动词为正确的汉语动词。

Description

一种汉语新动词识别方法
技术领域
本发明涉及汉语自然语言处理、汉语动词自动识别领域,特别是涉及一种汉语新动词自动识别方法。
背景技术
随着互联网的发展,尤其是移动互联网的快速发展,网民在使用汉语时常常不满足于传统的汉语词典,而是自己发明一些新的词语。这给汉语方面的应用系统的开发带来新的挑战。
另一方面,几乎所有的汉语应用系统都涉及动词,即动词是语言应用中的关键。事实上,自从格文法(case grammar)提出以来,以动词为中心的各种方法和系统不断涌现。例如,我国的中文树库的研制、美国的UPenn树库的研制,均离不开动词的识别。同时,在汉语词典增补过程中,经常会手工收集新的词语,包括新的动词。如果有好的新词语收集工具,那么无疑会对汉语词典修订具有很大的益处。
张春霞等人已经对主动词(main verb)进行了研究,但是在现有的动词基础上展开的,不涉及新的动词识别问题。周丹等人也研究了从Web汉语语料中获取新的动词。但是,他们方法基于纯粹的统计计算,因此识别精度和召回率都不能支撑实际的应用。
发明内容
本发明所要解决的技术问题:通过对大语料处理和分析,快速而又准确地从中识别出新的动词,为汉语应用系统、汉语词典修订增补等任务提供重要支撑。其中的关键问题是从大量的可能的新动词中,通过严格的验证计算过程,挑选出准确性高的新动词。
为了解决以上问题,本发明采用了如下技术方案:
一种汉语新动词识别方法,其特征在于:包括以下步骤:
步骤A,对原始训练语料库CNCorpus进行分词,形成分词语料库TCNCorpus:
对CNCorpus中的每篇输入文本D进行分词,分词的工具采用开源的ICTCLAS系统;为了便于处理,分词后,将每篇文本按照句子标点符号进行分拆,形成不含有句子标点符号的简单句;因此,TCNCorpus每个句子的形式为Si=“W1/pos1W2/pos2…Wi/posi…Wn/posn”,其中每个Wi是一个汉语词、汉字、阿拉伯数字、英文单词或字母;posi是其对应的词性;
步骤B,识别分词语料库TCNCorpus中的可能的新动词,形成结果集合Tmp_Verb:
对TCNCorpus中的每条语句Si,对Si中的情形分别按照以下子步骤处理:
步骤B1:如果Si中出现“Wi,1/posi,1Wi,2/v Wi,3/v Wi,4/posi,4”的子串,并且posi,1≠v,
Figure GDA0002038204470000021
Figure GDA0002038204470000022
即posi,4不是v、f、a或d任何之一,那么将“Wi,2/vWi,3/v”放入Tmp_Verb中;所述“Wi,2/v Wi,3/v”,表示将来自于Si的“Wi,2Wi,3”视为一个可能的新动词;
步骤B2:如果Si中出现“Wi,1/posi,1Wi,2/v Wi,3/posi,3”的子串,并且posi,1≠v,posi,3∈{f,a,d}, 即posi,3是f、a或者d之一,那么将“Wi,2/v Wi,3/posi,3”放入Tmp_Verb中;
步骤C:验证集合Tmp_Verb中的新动词,形成结果集合VerbResult。
步骤B输出的新动词集合Tmp_Verb中的动词具有一定的正确性,但是仍然需要进一步地验证。为了确保所获取的新动词是准确的,我们将种子词典规定为由多个二元对<词语,词性组>构成的资源,其中词性组是多个词性符号的序列,也即一个词语可以有多个词性;
为了便于下文描述,我们将Tmp_Verb中的元素统一地表示为“Wi,2/v Wi,3/posi,3”,其中 posi,3∈{v,f,a,d};这种形式概括步骤B1和步骤B2的输出结果;
验证的方式为:要确认“Wi,2/v Wi,3/posi,3”构成的新动词“Wi,2Wi,3”是一个正确的新动词,首先针对Wi,2进行确认,即在汉语种子词典中确认两个条件:(1)Wi,2是否具有动词的词性? (2)是否有以Wi,2做词头的词语;如果上述条件的答案是肯定的;再针对Wi,3采用类似的方式进行分析,即在汉语种子词典中确认两个条件:(1)Wi,3是否具有posi,3的词性?(2)是否有以Wi,3做词尾的词语;如果上述条件的答案是肯定的,将验证过的新动词放置在集合VerbResult中;
步骤D:输出新动词集合VerbResult。
所述的步骤C具体包括以下内容:
步骤C1:VerbResult={};
步骤C2:Tmp_Verb为空,则验证结束,并且调用模块D,输出VerbResult。否则,从Tmp_Verb中任意取出一个元素“Wi,2/v Wi,3/posi,3”;
步骤C3:W2Support=0;
步骤C4:如果在汉语种子词典中Wi,2具有动词的词性,那么W2Support=在汉语种子词典中存在以Wi,2做词头的词语的个数;
步骤C5:W3Support=0;
步骤C6:如果在汉语种子词典中Wi,3具有posi,3的词性,那么W3Support=在汉语种子词典中存在以Wi,3做词尾的词语的个数;
步骤C7:如果W2Support=0或者W3Support=0,则转步骤C2;
所述步骤C7“W2Support=0或者W3Support=0”表明,在汉语种子词典中没有找到“Wi,2Wi,3”是正确的新动词的证据,从而放弃“Wi,2Wi,3”;
步骤C8:计算
Figure GDA0002038204470000031
步骤C9:如果Score(Wi,2Wi,3)≥4,则将“Wi,2Wi,3”放入VerbResult中。
有益效果:
本发明提出了一种利用汉语种子词典中的词语的信息,对从汉语语料中获得新动词进行识别。汉语种子词典中的词语的信息包括词性、词头、词尾、统计信息等。在经过160GB的纯文本语料的测试验证后,本发明的系统获得了41012个新的汉语动词。经过准确性分析,结果显示96.9%的新动词为正确的汉语动词。因此,本发明的系统取得了优异的识别性能,解决了汉语新动词识别问题,并为其它的汉语应用系统的开发提供了基础。
附图说明
图1是一种汉语新动词识别系统和方法工作流程图。
图2是新动词识别系统和方法中的步骤B1的示例。
图3是新动词识别系统和方法中的步骤B2的示例之一。
图4是新动词识别系统和方法中的步骤B2的示例之二。
具体实施方式
为了能够更清楚的说明本发明,以下定义并解释如下的术语:
(1)ICTCLAS系统:一个免费的、开源的分词系统,本发明采用的是2012年版本的ICTCLAS。 ICTCLAS系统以文本为输入,输出为该文本的分词序列。ICTCLAS系统下载网址为: http://ictclas.nlpir.org。分词后,每个分词标有词性,其中a表示形容词、b表示区别词、 c表示连词、d表示副词、h表示前缀词、j表示简称词、k表示后缀词、m表示数词、n表示名词、 p表示介词、q表示量词、r表示代词、u表示助词、z表示状态词,等等。
(2)汉语种子词典:由一组人们日常生活使用的词语构成的词典。例如,《新华词典》、金山词霸就是很好的例子。为了便于下面的描述,我们将种子词典规定为由多个二元对< 词语,词性组>构成的资源,其中词性组是多个词性符号的序列。
例如,下面给出的例子可以视为汉语种子词典的一部分:
爱上v
创下v
窜v
窜犯v
窜改v
窜扰v
窜逃v
倒下v
登上v
端d v
端量v
端平v
端正v
端坐v
发红v
分红v
挂红v
红a
换上v
记下v
考上v
撂下v
上f v
下f v
写v
写入v
写生v
写实v
写作v
走红v
尽管汉语种子词典中的词语不全,但是其中的词语含有有用的信息,为准确地验证获得新的动词具有辅助作用。
(3)词头、词尾:对一个含有2个汉字(或2个以上汉字)的汉语词语(如“倒下”),该词的第一个字称为该词的词头,最后一个字称为该词的词尾。例如,“倒下”的词头和词尾分别为“倒”和“下”。
下面结合附图和具体实施方式对本发明作进一步详细地说明。一种汉语新动词识别系统和方法分为四个模块:
模块A:对原始训练语料库CNCorpus进行分词,形成分词语料库TCNCorpus。
模块B:识别分词语料库TCNCorpus中的可能的新动词,形成结果集合Tmp_Verb。
模块C:验证集合Tmp_Verb中的新动词,形成结果集合VerbResult。
模块D:输出新动词集合VerbResult。
下面详细解释各个模块的工作流程或方法。
模块A:对原始训练语料库CNCorpus进行分词,形成分词语料库TCNCorpus。
所述模块A对CNCorpus中的每篇输入文本D进行分词,分词的工具采用开源的ICTCLAS 系统。为了便于处理,分词后,将每篇文本按照句子标点符号(即句号、分号、逗号、问号、感叹号、省略号)进行分拆,形成不含有句子标点符号的简单句。因此,TCNCorpus每个句子的形式为Si=“W1/pos1W2/pos2…Wi/posi…Wn/posn”,其中每个Wi是一个汉语词、汉字、阿拉伯数字、英文单词或字母;posi是其对应的词性,posi可以是a(表示形容词)、b(表示区别词)、c(表示连词)、d(表示副词)、h(表示前缀词)、j(表示简称词)、m(表示数词)、n(表示名词)、p(表示介词)、q(表示量词)、r(表示代词)、u(表示助词)、 w(表示标点符号)、z(表示状态词)等。
例如,假设文本D中的内容为“我们大家共同努力,终于砸开欧洲市场。”,它是CNCorpus 中的一篇文本。经过模块A的处理,D被分为两个语句,它们的分词结果分别为:“我们/r大家/n共同/d努力/v”、“终于/d砸/v开/v欧洲/n市场/n”。这两条语句都不含句子标点符号。
模块B:识别分词语料库TCNCorpus中的可能的新动词,形成结果集合Tmp_Verb。
对TCNCorpus中的每条语句Si,对Si中的情形分别按照以下子步骤处理:
步骤B1:如果Si中出现“Wi,1/posi,1Wi,2/v Wi,3/v Wi,4/posi,4”的子串,并且posi,1≠v,
Figure GDA0002038204470000061
(即posi,4不是v、f、a或d任何之一),那么将“Wi,2/v Wi,3/v”放入Tmp_Verb中。
所述“Wi,2/v Wi,3/v”,表示将来自于Si的“Wi,2Wi,3”视为一个可能的新动词,由模块C进行验证,以下子步骤类似。步骤B1产生的结果对应着图2。
如图2所示,例如,假设语句Si内容为“仆人/n端/v上/v的/u咖啡/n”,“仆人”的词性n≠v,“咖啡”的词性为
Figure GDA0002038204470000062
“端上”又不属于词典中已知的动词,那么将“端/v上/v”放入Tmp_Verb中。
步骤B2:如果Si中出现“Wi,1/posi,1Wi,2/v Wi,3/posi,3”的子串,并且posi,1≠v,
Figure GDA0002038204470000063
(即posi,3是f、a或者d之一),那么将“Wi,2/v Wi,3/posi,3”放入Tmp_Verb中。
步骤B2产生的结果对应着图3的例子1和图4的例子2。
如图3所示,例如,假设语句Si内容为“儿子/n写/v下/f”,“儿子”的词性为n≠v,“下”的词性属于f,a,d中的f,“写下”又不属于词典中已知的动词,那么将“写/v 下/f”放入Tmp_Verb中。
如图4所示,例如,假设语句Si内容为“在/p窜/v红/a”,“在”的词性为p≠,“红”的词性属于f,a,d中的a,“窜红”又不属于词典中已知的动词,那么将“窜/v红/a”放入Tmp_Verb中。
下面先给出四个具体的文本(采用空格将词分开,并且标注了它们的词性):
原始训练语料库CNCorpus的文本D1:“我们/r 大家/n 共同/d 努力/v,/w 终于/d砸/v 开/v 欧洲/n 市场/n。/w”
原始训练语料库CNCorpus的文本D2:“这些/r 韩国/n 明星/n 在/p 中国/n 很/d快/a 窜/v 红/a。/w”
原始训练语料库CNCorpus的文本D3:“仆人/n 端/v 上/v 的/u 咖啡/n或 /c 红/a 酒/n,/w 亦/d 是/v 自己/r 与/p 在座/v 的/u 女士/n 们/k 先/d 享用/v。/w”
原始训练语料库CNCorpus的文本D4:“二/n 儿子/n 北村/n 孝/n 紘/v 将 /p 自己/r 在/p 监狱/n 里/f 写/v 下/f 的/u 手记/n 卖/v 给/v 了/u 铃木智彦/n,/w 以/p《/w我们/r 一/m 家/q 都/d 是/v 死刑犯/n》/w为/p 题 /n 出版/v。/w”
例如,将步骤B1应用于D3、D4,可以获得“端/v 上/v”、“卖/v 给/v”作为一个新的动词;将步骤B2应用于D2和D4可以获得“窜/v 红/a”、“写/v 下/f”作为两个新的动词。
模块C:验证集合Tmp_Verb中的新动词,形成结果集合VerbResult。
模块B输出的新动词集合Tmp_Verb中的动词具有一定的正确性,但是仍然需要进一步地验证。为了确保所获取的新动词是准确的,本发明利用汉语种子词典的思路。汉语种子词典由一组人们日常生活使用的词语构成的词典。例如,目前流行的新华词典、金山词霸就是很好的例子。为了便于下面的描述,我们将种子词典规定为由多个二元对<词语,词性组>构成的资源,其中词性组是多个词性符号的序列,也即一个词语可以有多个词性。
为了便于下文描述,我们将Tmp_Verb中的元素统一地表示为“Wi,2/v Wi,3/posi,3”,其中 posi,3∈{v,f,a,d}。这种形式概括步骤B1和步骤B2的输出结果。
验证的基本思路是:要确认“Wi,2/v Wi,3/posi,3”构成的新动词“Wi,2Wi,3”是一个正确的新动词,首先针对Wi,2进行确认,即在汉语种子词典中确认两个条件:(1)Wi,2是否具有动词的词性?(2)是否有以Wi,2做词头的词语。如果上述条件的答案是肯定的,那么从词头角度看,“Wi,2Wi,3”是正确的新动词的可能性会增加。然后针对Wi,3采用类似的方式进行分析,即在汉语种子词典中确认两个条件:(1)Wi,3是否具有posi,3的词性?(2)是否有以Wi,3做词尾的词语。如果上述条件的答案是肯定的,那么从词尾角度看,“Wi,2Wi,3”是正确的新动词的可能性会增加。图2给出了验证由“端/v上/v”构成的新动词“端上”是正确的新动词的思路。图3给出了验证由“写/v下/f”构成的新动词“写下”是正确的新动词的思路。图4给出了验证由“窜/v红/a”构成的新动词“窜红”是正确的新动词的思路。
根据上述思路,下面给出具体的计算步骤。在下面步骤中,验证过的新动词将放置在集合VerbResult中。
步骤C1:VerbResult={}。
步骤C2:Tmp_Verb为空,则验证结束,并且调用模块D,输出VerbResult。否则,从Tmp_Verb中任意取出一个元素“Wi,2/v Wi,3/posi,3”。
步骤C3:W2Support=0。
步骤C4:如果在汉语种子词典中Wi,2具有动词的词性,那么W2Support=在汉语种子词典中存在以Wi,2做词头的词语的个数。
步骤C5:W3Support=0。
步骤C6:如果在汉语种子词典中Wi,3具有posi,3的词性,那么W3Support=在汉语种子词典中存在以Wi,3做词尾的词语的个数。
步骤C7:如果W2Support=0或者W3Support=0,则转步骤C2。
所述步骤C7“W2Support=0或者W3Support=0”表明,在汉语种子词典中没有找到“Wi,2Wi,3”是正确的新动词的证据,从而放弃“Wi,2Wi,3”。
步骤C8:计算
Figure GDA0002038204470000081
步骤C9:如果Score(Wi,2Wi,3)≥4,则将“Wi,2Wi,3”放入VerbResult中。
步骤D:输出新动词集合VerbResult。
实验效果
在经过160GB的纯文本语料的测试验证后,本发明的系统获得了41012个新的汉语动词。经过准确性分析,结果显示96.9%的新动词为正确的汉语动词。因此,本发明的系统取得了优异的识别性能,解决了汉语新动词识别问题,并为其它的汉语应用系统的开发提供了基础。

Claims (1)

1.一种汉语新动词识别方法,其特征在于:包括以下步骤
步骤A,对原始训练语料库CNCorpus进行分词,形成分词语料库TCNCorpus:
对CNCorpus中的每篇输入文本D进行分词,分词的工具采用开源的ICTCLAS系统;为了便于处理,分词后,将每篇文本按照句子标点符号进行分拆,形成不含有句子标点符号的简单句;因此,TCNCorpus每个句子的形式为Si=“W1/pos1W2/pos2…Wi/posi…Wn/posn”,其中每个Wi是一个汉语词、汉字、阿拉伯数字、英文单词或字母;posi是其对应的词性;
步骤B,识别分词语料库TCNCorpus中的可能的新动词,形成结果集合Tmp_Verb:
对TCNCorpus中的每条语句Si,对Si中的情形分别按照以下子步骤处理:
步骤B1:如果Si中出现“Wi,1/posi,1Wi,2/v Wi,3/v Wi,4/posi,4”的子串,并且posi,1≠v,
Figure FDA0002038204460000011
Figure FDA0002038204460000012
即posi,4不是v、f、a或d任何之一,那么将“Wi,2/v Wi,3/v”放入Tmp_Verb中;所述“Wi,2/v Wi,3/v”,表示将来自于Si的“Wi,2Wi,3”视为一个可能的新动词;v表示动词、f表示方位词、a表示形容词、d表示副词;
步骤B2:如果Si中出现“Wi,1/posi,1Wi,2/v Wi,3/posi,3”的子串,并且posi,1≠v,posi,3∈{f,a,d},即posi,3是f、a或者d之一,那么将“Wi,2/v Wi,3/posi,3”放入Tmp_Verb中;
步骤C:验证集合Tmp_Verb中的新动词,形成结果集合VerbResult;
步骤B输出的新动词集合Tmp_Verb中的动词具有一定的正确性,但是仍然需要进一步地验证,为了确保所获取的新动词是准确的,我们将种子词典规定为由多个二元对<词语,词性组>构成的资源,其中词性组是多个词性符号的序列,也即一个词语可以有多个词性;
为了便于下文描述,我们将Tmp_Verb中的元素统一地表示为“Wi,2/v Wi,3/posi,3”,其中posi,3∈{v,f,a,d};这种形式概括步骤R1和步骤B2的输出结果;
验证的方式为:要确认“Wi,2/v Wi,3/posi,3”构成的新动词“Wi,2Wi,3”是一个正确的新动词,首先针对Wi,2进行确认,即在汉语种子词典中确认两个条件:(1)Wi,2是否具有动词的词性?(2)是否有以Wi,2做词头的词语;如果上述条件的答案是肯定的;再针对Wi,3采用类似的方式进行分析,即在汉语种子词典中确认两个条件:(1)Wi,3是否具有posi,3的词性?(2)是否有以Wi,3做词尾的词语;如果上述条件的答案是肯定的,将验证过的新动词放置在集合VerbResult中;
步骤D:输出新动词集合VerbResult;
所述的步骤C具体包括以下步骤:
步骤C1:VerbResult={};
步骤C2:Tmp_Verb为空,则验证结束,并且调用模块D,输出VerbResult;否则,从Tmp_Verb中任意取出一个元素“Wi,2/v Wi,3/posi,3”;
步骤C3:W2Support=0;
步骤C4:如果在汉语种子词典中Wi,2具有动词的词性,那么W2Support=在汉语种子词典中存在以Wi,2做词头的词语的个数;
步骤C5:W3Support=0;
步骤C6:如果在汉语种子词典中Wi,3具有posi,3的词性,那么W3Support=在汉语种子词典中存在以Wi,3做词尾的词语的个数;
步骤C7:如果W2Support=0或者W3Support=0,则转步骤C2;
所述步骤C7中“W2Support=0或者W3Support=0”表明,在汉语种子词典中没有找到“Wi,2Wi,3”是正确的新动词的证据,从而放弃“Wi,2Wi,3”;
步骤C8:计算
Figure FDA0002038204460000021
步骤C9:如果Score(Wi,2Wi,3)≥4,则将“Wi,2Wi,3”放入VerbResult中。
CN201510846963.8A 2015-11-27 2015-11-27 一种汉语新动词识别方法 Active CN106815189B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510846963.8A CN106815189B (zh) 2015-11-27 2015-11-27 一种汉语新动词识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510846963.8A CN106815189B (zh) 2015-11-27 2015-11-27 一种汉语新动词识别方法

Publications (2)

Publication Number Publication Date
CN106815189A CN106815189A (zh) 2017-06-09
CN106815189B true CN106815189B (zh) 2020-03-20

Family

ID=59102819

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510846963.8A Active CN106815189B (zh) 2015-11-27 2015-11-27 一种汉语新动词识别方法

Country Status (1)

Country Link
CN (1) CN106815189B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112115260A (zh) * 2020-07-17 2020-12-22 网娱互动科技(北京)股份有限公司 一种自动计算汉语词语分类的方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102662932A (zh) * 2012-03-15 2012-09-12 中国科学院自动化研究所 构建树结构及基于树结构的机器翻译系统的方法
CN102955771A (zh) * 2011-08-18 2013-03-06 华东师范大学 中文单字串模式和词缀模式的新词自动识别技术及系统
CN103294664A (zh) * 2013-07-04 2013-09-11 清华大学 开放领域新词发现的方法及系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102955771A (zh) * 2011-08-18 2013-03-06 华东师范大学 中文单字串模式和词缀模式的新词自动识别技术及系统
CN102662932A (zh) * 2012-03-15 2012-09-12 中国科学院自动化研究所 构建树结构及基于树结构的机器翻译系统的方法
CN103294664A (zh) * 2013-07-04 2013-09-11 清华大学 开放领域新词发现的方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于特征过滤对比的新词语识别;朱波;《中国优秀硕士学位论文全文数据库 哲学与人文科学辑》;20121015(第10期);第F084-402页 *
汉语新词语发现及其词性标注方法研究;杨辉;《中国优秀硕士学位论文全文数据库 信息科技辑》;20090815(第8期);第I138-1254页 *

Also Published As

Publication number Publication date
CN106815189A (zh) 2017-06-09

Similar Documents

Publication Publication Date Title
Al-Kabi et al. A novel root based Arabic stemmer
CN104408078B (zh) 一种基于关键词的中英双语平行语料库构建方法
US20150026106A1 (en) Non-factoid question-answering system and computer program
Gómez-Adorno et al. Improving feature representation based on a neural network for author profiling in social media texts
Singh et al. Automatic normalization of word variations in code-mixed social media text
CN108319581B (zh) 一种自然语言语句评价方法及装置
Malmasi et al. Language transfer hypotheses with linear SVM weights
Younes et al. Constructing linguistic resources for the Tunisian dialect using textual user-generated contents on the social web
CN108280065B (zh) 一种外文文本评价方法及装置
CN111832281A (zh) 作文评分方法、装置、计算机设备及计算机可读存储介质
Umiyati Textual Metafunction in Donald Trump’ s Speech †œRecognizing Jerusalem as Israel’ s Capitalâ€
Pandey et al. Sentiment analysis using lexicon based approach
Cardenas et al. Siminchik: A speech corpus for preservation of southern quechua
Gugliotta et al. Tarc: Incrementally and semi-automatically collecting a tunisian arabish corpus
Vandeghinste et al. Fullstop: Punctuation and segmentation prediction for dutch with transformers
Inuwa-Dutse The first large scale collection of diverse Hausa language datasets
Ramanarayanan et al. Automatic turn-level language identification for code-switched spanish–english dialog
Shatz How native language and L2 proficiency affect EFL learners’ capitalisation abilities: A large-scale corpus study
CN106815189B (zh) 一种汉语新动词识别方法
Laki et al. Automatic Diacritic Restoration With Transformer Model Based Neural Machine Translation for East-Central European Languages.
Muhamad et al. Proposal: A hybrid dictionary modelling approach for malay tweet normalization
Jitta et al. “nee intention enti?” towards dialog act recognition in code-mixed conversations
Alfaidi et al. Exploring the performance of farasa and CAMeL taggers for arabic dialect tweets.
Uliniansyah et al. Development of text and speech corpus for an Indonesian speech-to-speech translation system
Mechti et al. An empirical method using features combination for Arabic native language identification

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 212009 Zhenjiang high tech Industrial Development Zone, Jiangsu, No. 668, No. twelve road.

Applicant after: Zhongke national power (Zhenjiang) Intelligent Technology Co., Ltd.

Address before: 212009 18 building, North Tower, Twin Tower Rd 468, twelve road 468, Ding Mo Jing, Jiangsu.

Applicant before: Knowology Intelligent Technology Co., Ltd.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant
CB03 Change of inventor or designer information

Inventor after: Wang Weimin

Inventor after: Fu Jianhui

Inventor before: Wang Weiming

Inventor before: Fu Jianhui

CB03 Change of inventor or designer information