CN108509425B - 一种基于新颖度的中文新词发现方法 - Google Patents

一种基于新颖度的中文新词发现方法 Download PDF

Info

Publication number
CN108509425B
CN108509425B CN201810319616.3A CN201810319616A CN108509425B CN 108509425 B CN108509425 B CN 108509425B CN 201810319616 A CN201810319616 A CN 201810319616A CN 108509425 B CN108509425 B CN 108509425B
Authority
CN
China
Prior art keywords
word
new
words
novelty
frequency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201810319616.3A
Other languages
English (en)
Other versions
CN108509425A (zh
Inventor
贺伟雄
凌海风
王清
陈海松
苏正炼
骆华东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Army Engineering University of PLA
Original Assignee
Army Engineering University of PLA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Army Engineering University of PLA filed Critical Army Engineering University of PLA
Priority to CN201810319616.3A priority Critical patent/CN108509425B/zh
Publication of CN108509425A publication Critical patent/CN108509425A/zh
Application granted granted Critical
Publication of CN108509425B publication Critical patent/CN108509425B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Abstract

本发明涉及一种基于新颖度的中文新词发现方法,包括将所有候选新词的新颖度从大到小排序,取中间值作为阈值,过滤掉小于阈值的所有词后形成新词库并进行新词输出。本发明是基于N‑gram算法建立了二元语料模型,并在二元互信息基础上,结合词语特征,给出了三元到N元互信息的表示方式,并采用互信息与邻接熵阈值过滤。针对互信息只能表现词语出现概率大小,而不能体现是否新词的特点,以旧语料为筛选来源,引入了新颖度来优化和过滤新词候选集合。基于现有准确率和召回率等新词发现评价指标计算复杂、不确定性大的不足,提出了新的t‑MP评价指标替换原来的准确率、召回率和F‑value说明新词发现的结果有效性。使用户可以根据所需发现新词的数量和置信程度来从排序的候选新词中获取最佳新词。

Description

一种基于新颖度的中文新词发现方法
技术领域
本发明属于自然语言处理技术领域,涉及一种基于本发明提出的新颖度与新评价指标的中文新词发现方法。
背景技术
随着智能社会的到来,自然语言的处理成为学者研究的热点,词作为自然语言处理的基本单位,代表了一个语义单元,词划分的正确与否直接决定了自然语言处理系统的性能好坏。社会网络的不断扩大使得新词产生数量大、周期短、传播迅速,推动了新词发现在中文分词、词性标注、文本归类等方面的广泛运用。
目前“新词”定义尚不统一,一般认为具有固定搭配,尚未出现过(包括旧词新用)较大范围内使用的词语。新词发现是指从文本中以自动或半自动的方式获得未登录词,其中,半自动是指需要适度的进行人工干预。对于新词发现的方法,目前广泛采用的有基于规则、基于统计量、规则和统计融合三种。
基于统计的方法是通过多种统计策略,从语料库中提取出候选新词,找出最相关的字串组合。这种方法的可移植性较好,适应力强,但是必须提供较大的语料进行训练,当数据稀疏时易出现准确率较低的情况。
基于规则的方法需要借用领域专家的知识构造词语来学习词性、语义信息,形成规则模板,使用实验数据和这些模板或规则进行匹配,最终实现新词的发现。基于规则方法一般是针对特定的领域,因此可移植性不佳,通过消耗大量的人力、物力来获得特定的规则。
而基于统计和规则过滤的方法是将新词发现过程作为一个通过新词规则和统计结果不断对候选新词集进行筛选的过程。将统计与规则相结合来进行新词发现有利于融合两者的优点,提高新词发现的效果,成为了众多学者研究的方向。
发明内容
本发明所要解决的技术问题是,克服现有技术的缺点,提供一种综合多元互信息、邻接熵与相对旧语料库的新颖度值来进行中文新词发现的方法,并提出了新的新词发现效果评价指标。
为了解决以上技术问题,本发明提供一种基于新颖度的中文新词发现方法,其主要包括几下步骤:
步骤1,建立初始分词库
对获取的新语料采用二元模型,基于常用停用词、停用符号进行中文分词,建立初始分词库;分词工具推荐使用基于python的jieba分词模块。
步骤2,过滤初始分词库
根据预定的词频数阈值和最大字符长度过滤初始分词库;
步骤3,计算互信息
由二元互信息表达式拓展到三元和n元互信息计算,并引入最小互信息和平均互信息;
步骤3.1,二元互信息MI(x,y)计算公式
Figure GDA0003124387210000021
其中,N为新加入语料中所有词出现的频数和,f(x)代表新语料库中x出现的频次,f(x,y)表示以x在前,y在后形式出现的频次,p(x)、p(x,y)则表示对应的概率;
步骤3.2,三元互信息计算公式
若新词由三个词C=(w1,w2,w3)构成,将其分成A、B两部分则有两种分隔方法,A=(w1,w2)且B=w3和A=w1且B=(w2,w3),两者互信息表示方法为:
Figure GDA0003124387210000031
Figure GDA0003124387210000032
三元互信息综合考虑上面两种情况,形成最小和平均两种表达形式:
MI-Min(w1,w2,w3)=Min(MI1,MI2)
Figure GDA0003124387210000033
步骤3.3,最小与平均两种计算方式可拓展到n元;
MI-Min(w1,w2,...,wn)=Min(MI1,MI2,...,MIn-1)
Figure GDA0003124387210000034
步骤4,初始候选新词库的建立
将所有初始分词库的互信息从大到小排序,取中间值作为阈值,过滤掉小于阈值的所有词,形成初始候选新词库;
步骤5,通过旧词语料库,计算候选新词的新颖度
选择一个已有的语料库作为旧词语料库,将其分词之后统计其中每个词的频数,由(w1,w2,…,wn)组成的n元候选新词W的新颖度NP,公式设定为:
Figure GDA0003124387210000035
其中f’(wi)是wi在旧语料库中出现的频数,f’(wi,wi+1)是(wi,wi+1)作为一个整体在旧语料库中出现的频数;
步骤6,候选新词的过滤及输出
将所有候选新词的新颖度从大到小排序,取中间值作为阈值,过滤掉小于阈值的所有词之后形成新词库并进行新词输出;
步骤7,提出了t-MP指标,用于替代准确率(Precision)、召回率(Recall)和F-value对新词发现结果进行评价。t-MP的计算公式为:
Figure GDA0003124387210000041
t为拟选定出来的新词数量,m为新词概率从高到低排序前t个词中采用人工或搜索引擎判定出的新词正确数量。可见,用判定t个新词准确率来替换计算所有发现新词的准确率,将会大大降低人工干预的程度,特别是当新词发现数量较多,准确率较低时,计算量会大大减少。
另外,t-MP指标还可以设定置信水平α,当用户希望输出的m个词具有α可信度时,则
Figure GDA0003124387210000042
显然,当α值较高时,可以认为所有t个新词以高可信度直接输出,这在一些权威报道上对新词准确性要求较高时具有很好的实用性。
本发明进一步限定的技术方案为:在步骤4和步骤5之间还包括计算所有初始候选新词的左右邻接熵计算、对候选新词进行拓展并设定阈值进行过滤的步骤;所述左右邻接熵的计算公式为:
左邻接熵:
Figure GDA0003124387210000043
右邻接熵:
Figure GDA0003124387210000044
其中,p(a|x)表示a为候选词x的左邻接字符的概率,p(b|x)表示b为候选词x的右邻接字符的概率;先统计左右连接词及其频数;当某词频数小于步骤1中设定的词频阈值时,过滤该词,不计算其邻接熵;所有计算出的词邻接熵并按照从大到小排序,设定中间值为阈值,低于阈值的不进入候选新词库。
进一步的,所述中文分词的步骤中所述的停用符号包括标点符号、数字以及大小写英文字母。
进一步的,步骤2中的词频数阈值不大于10,最大字符长度范围为10~20。
本发明的有益效果是:本发明是基于N-gram算法建立了二元语料模型,并在二元互信息基础上,结合词语特征,给出了三元到n元互信息的表示方式,并采用互信息与邻接熵阈值过滤。针对互信息只能表现词语出现概率大小,而不能体现新的特点,以旧语料为筛选来源,引入了新颖度来优化和过滤新词候选集合。基于现有准确率和召回率等新词发现评价指标计算复杂、不确定性大等不足,提出了新的t-MP评价指标替换原来的准确率、召回率和F-value说明新词发现的结果有效性。使用户可以根据所需发现新词的数量和置信程度来从排序的候选新词中获取最佳新词。
附图说明
图1为实施例1提供的中文新词发现方法流程图。
图2为实施例1涉及到的语料分类。
图3(a)、图3(b)为实施例1与改进互信息和邻接熵的新词发现方法(简称MBN-Gram)、点互信息新词发现方法(简称PMIk)的对比试验数据图。
具体实施方式
实施例1
本实施例提出一种基于新颖度与新评价指标的中文新词发现方法,算法流程如图1所示,对新词发现方法和评价指标进行了验证。本实施例将以《解放军报》2017年9月份文章作为新词语料进行新词发现。首先,进行预先准备工作:
对旧语料分词,构成过滤词典。本实施例中涉及到的旧语料文本内容有多种,由方法使用者提供,主要包含:通用旧语料与专用旧语料两种。通用旧语料采用的是维基百科的中文词条,它的作用是对用户提供的新语料进行通用词语的过滤。而专用语料则针对不同用户的具体领域,如用户主要需求为经济方面的新词发现,则构建针对经济方面的专有旧语料库,用以过滤用户提供的新语料中过多的专用名词,属于特定目标的语料。而针对专用语料还需分为书面语和口头语,书面语具有正规性、权威性,主要用于各大主流媒体、报纸等官方报道用词,是新词的主要来源。口头语则相对更加随意,新词产生和传播速度较快,主要通过微博、微信等多种网络社交软件上产生,虽没有书面语正式,但已经成为新词的另一重要来源。旧语料的文本时间应当距离用户提供的新语料生成的文本时间较近,否则过滤效果将降低,所有语料分类如图2。
在图1所示的流程开始之前,方法使用者已经对旧语料进行了获取和相应处理,主要包括基于常见停用词和停用字符表1,结合Bi-gram二元模型对其分词,统计各词的频数,针对通用、专用(书面或口头语)形成旧语料过滤词典。
Figure GDA0003124387210000061
其具体实施步骤如下:
步骤1,中文分词
对新语料进行中文分词。主要采用与对旧语料处理类似的方法,如停用词、停用字符过滤,二元模型分词方法得到用户提供语料的分词词库,并统计其词频,设定词频阈值为5和词语长度限制10,当新语料中的词语低于5次或总字符长度大于10时,认为该词语的出现存在偶然性或缺乏广泛性,过滤该词。
本实施例中文分词采用二元分词模型,指定词的出现只与其前面1个词相关,具体表达式为:
Figure GDA0003124387210000062
其中,f(wi)代表语料库中wi出现的频次,f(wi,wi+1)表示以wi在前,wi+1在后形式出现的频次,P(wi)、P(wi,wi+1)则表示对应的概率,P(wi+1|wi)表示条件概率。例如,在本实施例中,专用旧语料中的“中国”出现的次数是29485次,“中国海警”出现次数为29次,“中国”后面接“海警”的概率为p(海警|中国)=0.0983%
步骤2,初始分词库的建立
参考设定的词频数阈值和最大字符长度限制过滤初始分词库;词频数阈值不大于10,最大字符长度范围为10~20。
步骤3,互信息的计算
根据二元或者发明的三元互信息计算方法,来获取新语料中每个词的互信息。
步骤3.1,二元互信息MI(x,y)计算;
当词为二元词时,采用计算表达式为:
Figure GDA0003124387210000071
例如,在本实施例的新语料中,词总数N=408700,“种植”出现的频次f(种植)=13,“牙”出现的频次f(牙)=6,“种植牙”出现频次f(种植,牙)=5,那么“种植/牙”的互信息为4.418。
步骤3.2,三元互信息MI(x,y)计算;
当词为三元词时,需要将其划分为两种形式,分别计算两种情况下的互信息,具体计算表达式为:
Figure GDA0003124387210000072
Figure GDA0003124387210000073
在本实施例中,以计算“暖/心/礼包”三元互信息为例,其中w1=暖,w2=心,w3=礼包。统计得到f(w1,w2,w3)=4,f(w1)=36,f(w3)=4,f(w1,w2)=19,f(w2,w3)=4,N=408700,那么按公式计算可得互信息:MI1=14.39,MI2=13.47。
步骤3.3,拓展到n元互信息的最小与平均计算;其公式分别为:
采用最小或者平均值方法输出最后的互信息值。最小或者平均值方法计算方式为,以三元互信息为例,其计算公式为:
MI-Min(w1,w2,w3)=Min(MI1,MI2)
Figure GDA0003124387210000081
针对“暖心礼包”的三元互信息,其MI-Min=13.47,MI-Avg=13.93。
步骤4,初始候选新词库的建立
根据所有词的互信息进行从大到小排序,取中间值作为阈值,过滤掉小于阈值的所有词,形成初始候选新词库;
步骤5,构建每个可能候选新词的邻接列表后,记录每个可能邻接词的出现次数,当低于频数阈值时,不计算该词的邻接熵。对于通过频数阈值的词而言,邻接熵计算方式为:
左邻接熵:
Figure GDA0003124387210000082
右邻接熵:
Figure GDA0003124387210000083
其中,p(a|x)表示a为候选词x的左邻接字符的概率,p(b|x)表示b为候选词x的右邻接字符的概率,根据所有词的邻接熵进行从大到小排序,取中间值作为阈值,过滤掉小于阈值的所有词,形成候选新词库。
步骤5,候选新词的新颖度NP计算
本发明引入词新颖度,依靠旧语料库形成的过滤词典,计算新词在旧语料中的成词概率,概率越低说明词的新颖度越高。
词新颖度定义为:假设有一个旧语料的二元语言模型M,可以计算由(w1,w2,…,wn)组成的n元新词W出现的概率p(W)为:
p(W)=p(w1)p(w2|w1)p(w3|w2)…p(wn|wn-1)
其中,式中的第一项p(w1)的意义是w1的出现概率,如果仅考量(w1,w2,…,wn)的成词概率时,可以忽略掉该项。此时,W的成词概率p′(W)为:
Figure GDA0003124387210000091
忽略p(w1)的好处在于可以减少计算量,同时提高各个词在计算p(w)中的区分度。在求p(wi)时需要除以所有词出现的总频数f,在一般的语料库中,f的值较大,这会导致计算所有词的p(wi)都变得很小,相互间的区分度太低,若不考虑p(w1)将会增大比值,提高区分度。此时,新颖度NP的计算公式如下:
Figure GDA0003124387210000092
其中f’(wi)是wi在旧语料库中出现的频数,f’(wi,wi+1)是(wi,wi+1)作为一个整体在旧语料库中出现的频数。一般来说,NP越大,说明新词在旧语料库中成词的概率越低,那么新颖度就越高。考虑到有部分新词的组合是不会出现在旧语料中的,此时某一项f’(wi,wi+1),会导致NP的值不存在。为了使计算过程更为平滑,在统计频次时对于所有的频数f加1,变为下面的形式:
Figure GDA0003124387210000093
由于中文的词汇太多,对于任意的wi,当wi在旧语料库中出现过,此时NP>0,NP越大说明词汇新颖度越高;当wi在旧语料库中没有出现过时,f’(wi)与f’(wi,wi+1)都为0,使得NP=0,此时也能说明词汇的新颖度很高。
在本实施例中,部分词的新颖度计算如下表所示:
w<sub>1</sub> w<sub>2</sub> NP
时间 节点 6.52
综合 文化 9.29
国家 战略 6.47
群众 纪律 7.41
北斗 导航 2.96
步骤6,候选新词的过滤及输出
将所有候选新词的新颖度从大到小排序,取中间值作为阈值,过滤掉小于阈值的所有词后形成新词库并进行新词输出;
步骤7,t-MP指标的计算
设置t-MP指标用以替代准确率(Precision)、召回率(Recall)和F-value对新词发现结果进行评价。t-MP的计算公式为:
Figure GDA0003124387210000101
t为拟选定出来的新词数量,m为新词概率从高到低排序前t个词中采用人工或搜索引擎判定出的新词正确数量。可见,用判定t个新词准确率来替换计算所有发现新词的准确率,将会大大降低人工干预的程度,特别是当新词发现数量较多,准确率较低时,计算量会大大减少。
另外,t-MP指标还可以设定置信水平α,当用户希望输出的m个词具有α可信度时,则
Figure GDA0003124387210000102
显然,当α值较高时,可以认为所有t个新词以高可信度直接输出,这在一些权威报道上对新词准确性要求较高时具有很好的实用性。
另外,在步骤4和步骤5之间还包括计算所有初始候选新词的左右邻接熵计算、对候选新词进行拓展并设定阈值进行过滤的步骤;所述左右邻接熵的计算公式为:
左邻接熵:
Figure GDA0003124387210000111
右邻接熵:
Figure GDA0003124387210000112
其中,p(a|x)表示a为候选词x的左邻接字符的概率,p(b|x)表示b为候选词x的右邻接字符的概率;先统计左右连接词及其频数;当某词频数小于步骤1中设定的词频阈值时,过滤该词,不计算其邻接熵;所有计算出的词邻接熵并按照从大到小排序,设定中间值为阈值,低于阈值的不进入候选新词库。
当t=20时,本实施例分别在通用旧语料和专用旧语料条件下找到的新词如下表所示:
Figure GDA0003124387210000113
从实验结果来看,本发明提出的方法在不同的旧词语料中性能有一定差别。在口语中进行新词发现,采用专用旧词模型和通用旧词模型差别不大,均能得到相似的结果,如图3(a)所示。但词语量上,通用旧词模型的规模远远大于专用模型,内存消耗大,因此在口语环境中进行新词发现,例如微博、贴吧、论坛等数据中,采用专用旧词模型更好。不仅如此,可以预料到的是随着口语专用旧词模型的增大,性能应具有一定的提升空间。而书面语进行新词发现时,采用通用旧词模型的性能明显优于专用模型。对比图3中的图a、b可看出,相对书面语而言,口语新词发现准确率相对低一些,但本发明算法t-MP值仍远远高于另外两种方法。
除上述实施例外,本发明还可以有其他实施方式。凡采用等同替换或等效变换形成的技术方案,均落在本发明要求的保护范围。

Claims (9)

1.一种基于新颖度的中文新词发现方法,其特征在于包括以下几个步骤:
步骤1,建立初始分词库
对获取的新语料采用二元模型,基于常用停用词、停用符号进行中文分词,建立初始分词库;
步骤2,过滤初始分词库
根据预定的词频数阈值和最大字符长度过滤初始分词库;
步骤3,计算互信息
初始分词库被过滤后,对其中元数n的分词n≥2按以下公式计算相应平均互信息和最小互信息:
MI-Min(w1,w2,...,wn)=Min(MI1,MI2,...,MIn-1)
Figure FDA0003124387200000012
步骤4,建立初始候选新词库
将所有初始分词库的互信息从大到小排序,取中间值作为阈值,过滤掉小于阈值的所有词,形成初始候选新词库;
步骤5,通过旧词语料库,计算候选新词的新颖度
选择一个已有的语料库作为旧词语料库,将其分词之后统计其中每个词的频数,由(w1,w2,…,wn)组成的n元候选新词W的新颖度NP,公式设定为:
Figure FDA0003124387200000011
其中f’(wi)是wi在旧语料库中出现的频数,f’(wi,wi+1)是(wi,wi+1)作为一个整体在旧语料库中出现的频数;
步骤6,输出新词库
将所有候选新词的新颖度从大到小排序,取中间值作为阈值,过滤掉小于阈值的所有词后形成新词库并输出。
2.根据权利要求1所述的基于新颖度的中文新词发现方法,其特征在于:步骤1采用二元分词模型,指定词的出现只与其前面1个词相关,具体表达式为:
Figure FDA0003124387200000021
其中,f(wi)代表语料库中词wi出现的频次,f(wi,wi+1)表示以wi在前,wi+1在后形式出现的频次,P(wi)、P(wi,wi+1)则表示对应的概率,P(wi+1|wi)表示wi后面出现wi+1的条件概率。
3.根据权利要求1所述的基于新颖度的中文新词发现方法,其特征在于:还包括步骤7;所述步骤7包括根据用户提出的所需要输出的新词数量计算t-MP指标,其中t-MP指标的计算公式为:
Figure FDA0003124387200000022
t为拟选定出来的新词数量,所述t=10或20或50或100;m为采用人工或搜索引擎判定出的新词正确数量。
4.根据权利要求3所述的基于新颖度的中文新词发现方法,其特征在于:所述步骤7还包括当用户希望前m个词为新词的可靠性不低于置信水平α时,根据新词库中新词排序,选择出
Figure FDA0003124387200000023
个新词作为输出发送给用户;其中t的计算值为:
Figure FDA0003124387200000027
Figure FDA0003124387200000025
其中t为整数,
Figure FDA0003124387200000026
代表向下取整。
5.根据权利要求1所述的基于新颖度的中文新词发现方法,其特征在于:在步骤4和步骤5之间还包括计算所有初始候选新词的左右邻接熵计算、对候选新词进行拓展并设定阈值进行过滤的步骤。
6.根据权利要求5所述的基于新颖度的中文新词发现方法,其特征在于:所述左右邻接熵的计算公式为:
左邻接熵:
Figure FDA0003124387200000031
右邻接熵:
Figure FDA0003124387200000032
其中,p(a|x)表示a为候选词x的左邻接字符的概率,p(b|x)表示b为候选词x的右邻接字符的概率;先统计左右连接词及其频数;当某词频数小于步骤1中设定的词频阈值时,过滤该词,不计算其邻接熵;所有计算出的词邻接熵并按照从大到小排序,设定中间值为阈值,低于阈值的不进入候选新词库。
7.根据权利要求1-6任一项所述的基于新颖度的中文新词发现方法,其特征在于:所述中文分词的步骤中所述的停用符号包括标点符号、数字以及大小写英文字母。
8.根据权利要求7所述的基于新颖度的中文新词发现方法,其特征在于:所述步骤1的分词工具是采用基于python的jieba分词模块。
9.根据权利要求8所述的基于新颖度的中文新词发现方法,其特征在于:步骤2中的词频数阈值不大于10,最大字符长度范围为10~20。
CN201810319616.3A 2018-04-10 2018-04-10 一种基于新颖度的中文新词发现方法 Expired - Fee Related CN108509425B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810319616.3A CN108509425B (zh) 2018-04-10 2018-04-10 一种基于新颖度的中文新词发现方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810319616.3A CN108509425B (zh) 2018-04-10 2018-04-10 一种基于新颖度的中文新词发现方法

Publications (2)

Publication Number Publication Date
CN108509425A CN108509425A (zh) 2018-09-07
CN108509425B true CN108509425B (zh) 2021-08-24

Family

ID=63381484

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810319616.3A Expired - Fee Related CN108509425B (zh) 2018-04-10 2018-04-10 一种基于新颖度的中文新词发现方法

Country Status (1)

Country Link
CN (1) CN108509425B (zh)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110222157A (zh) * 2019-06-20 2019-09-10 贵州电网有限责任公司 一种基于海量文本的新词发现方法
CN110442861B (zh) * 2019-07-08 2023-04-07 万达信息股份有限公司 一种基于真实世界统计的中文专业术语与新词发现的方法
CN110866400B (zh) * 2019-11-01 2023-08-04 中电科大数据研究院有限公司 一种自动化更新的词法分析系统
CN111125306A (zh) * 2019-12-10 2020-05-08 东软集团股份有限公司 一种确定中心词的方法、装置、设备及存储介质
CN111125327A (zh) * 2019-12-11 2020-05-08 中国建设银行股份有限公司 一种基于短会话的新词发现方法、存储介质和电子装置
CN111274361A (zh) * 2020-01-21 2020-06-12 北京明略软件系统有限公司 一种行业新词发现方法、装置、存储介质及电子设备
CN111339403B (zh) * 2020-02-11 2022-08-02 安徽理工大学 一种基于商品评论新词提取方法
CN111506699A (zh) * 2020-03-20 2020-08-07 北京邮电大学 一种暗语发现方法及装置
CN111832299A (zh) * 2020-07-17 2020-10-27 成都信息工程大学 一种中文分词系统
CN111814436B (zh) * 2020-07-27 2023-10-17 上海观安信息技术股份有限公司 一种基于互信息和熵的用户行为序列检测方法及系统
CN111897917B (zh) * 2020-07-28 2023-06-16 成都灵尧科技有限责任公司 基于多模态自然语言特征的轨道交通行业术语提取方法
CN112257416A (zh) * 2020-10-28 2021-01-22 国家电网有限公司客户服务中心 一种稽查新词发现方法及系统
CN112329443B (zh) * 2020-11-03 2023-07-21 中国平安人寿保险股份有限公司 一种确定新词的方法、装置,计算机设备和介质
CN112906390B (zh) * 2021-02-08 2023-11-24 国网电力科学研究院有限公司 电力语料自动补全标注方法和装置
CN113033183B (zh) * 2021-03-03 2023-10-27 西北大学 一种基于统计量与相似性的网络新词发现方法及系统
CN113076750B (zh) * 2021-04-26 2022-12-16 华南理工大学 一种基于新词发现的跨领域中文分词系统及方法
CN113361238B (zh) * 2021-05-21 2022-02-11 北京语言大学 一种语块重组题型的自动命题的方法及装置
CN113360653A (zh) * 2021-06-11 2021-09-07 湖北中烟工业有限责任公司 获取文本意图的方法和系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103049501A (zh) * 2012-12-11 2013-04-17 上海大学 基于互信息和条件随机场模型的中文领域术语识别方法
CN105786991A (zh) * 2016-02-18 2016-07-20 中国科学院自动化研究所 结合用户情感表达方式的中文情感新词识别方法和系统
CN105956158A (zh) * 2016-05-17 2016-09-21 清华大学 基于海量微博文本和用户信息的网络新词自动提取的方法
CN106126606A (zh) * 2016-06-21 2016-11-16 国家计算机网络与信息安全管理中心 一种短文本新词发现方法
CN107168953A (zh) * 2017-05-16 2017-09-15 电子科技大学 海量文本中基于词向量表征的新词发现方法及系统
CN107180025A (zh) * 2017-03-31 2017-09-19 北京奇艺世纪科技有限公司 一种新词的识别方法及装置
CN107391486A (zh) * 2017-07-20 2017-11-24 南京云问网络技术有限公司 一种基于统计信息和序列标注的领域新词识别方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101261623A (zh) * 2007-03-07 2008-09-10 国际商业机器公司 基于搜索的无词边界标记语言的分词方法以及装置
US9411800B2 (en) * 2008-06-27 2016-08-09 Microsoft Technology Licensing, Llc Adaptive generation of out-of-dictionary personalized long words
CN103020022B (zh) * 2012-11-20 2016-01-27 北京航空航天大学 一种基于改进信息熵特征的中文未登录词识别系统及方法
CN106445906A (zh) * 2015-08-06 2017-02-22 北京国双科技有限公司 领域词典中中长词词组的生成方法及装置
CN108875040B (zh) * 2015-10-27 2020-08-18 上海智臻智能网络科技股份有限公司 词典更新方法及计算机可读存储介质
CN107622051A (zh) * 2017-09-14 2018-01-23 马上消费金融股份有限公司 一种新词筛选方法及装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103049501A (zh) * 2012-12-11 2013-04-17 上海大学 基于互信息和条件随机场模型的中文领域术语识别方法
CN105786991A (zh) * 2016-02-18 2016-07-20 中国科学院自动化研究所 结合用户情感表达方式的中文情感新词识别方法和系统
CN105956158A (zh) * 2016-05-17 2016-09-21 清华大学 基于海量微博文本和用户信息的网络新词自动提取的方法
CN106126606A (zh) * 2016-06-21 2016-11-16 国家计算机网络与信息安全管理中心 一种短文本新词发现方法
CN107180025A (zh) * 2017-03-31 2017-09-19 北京奇艺世纪科技有限公司 一种新词的识别方法及装置
CN107168953A (zh) * 2017-05-16 2017-09-15 电子科技大学 海量文本中基于词向量表征的新词发现方法及系统
CN107391486A (zh) * 2017-07-20 2017-11-24 南京云问网络技术有限公司 一种基于统计信息和序列标注的领域新词识别方法

Also Published As

Publication number Publication date
CN108509425A (zh) 2018-09-07

Similar Documents

Publication Publication Date Title
CN108509425B (zh) 一种基于新颖度的中文新词发现方法
CN108052593B (zh) 一种基于主题词向量和网络结构的主题关键词提取方法
US11301637B2 (en) Methods, devices, and systems for constructing intelligent knowledge base
CN104636466B (zh) 一种面向开放网页的实体属性抽取方法和系统
CN106156204B (zh) 文本标签的提取方法和装置
CN105786991B (zh) 结合用户情感表达方式的中文情感新词识别方法和系统
CN108763402B (zh) 基于依存关系、词性和语义词典的类中心向量文本分类法
CN110502642B (zh) 一种基于依存句法分析与规则的实体关系抽取方法
CN109815336B (zh) 一种文本聚合方法及系统
CN106776564B (zh) 一种基于知识图谱的语义识别方法及系统
CN109376352B (zh) 一种基于word2vec和语义相似度的专利文本建模方法
CN108009135B (zh) 生成文档摘要的方法和装置
CN108920482B (zh) 基于词汇链特征扩展和lda模型的微博短文本分类方法
CN105095222B (zh) 单元词替换方法、搜索方法及装置
WO2019218527A1 (zh) 多系统相结合的自然语言处理方法及装置
CN111008274A (zh) 特征扩展卷积神经网络的案件微博观点句识别构建方法
CN109902290B (zh) 一种基于文本信息的术语提取方法、系统和设备
CN103324626A (zh) 一种建立多粒度词典的方法、分词的方法及其装置
CN104484377A (zh) 替换词典生成方法及装置
CN111460158A (zh) 一种基于情感分析的微博话题公众情感预测方法
CN116362243A (zh) 一种融入句子间关联关系的文本关键短语提取方法、存储介质及装置
CN110287493B (zh) 风险短语识别方法、装置、电子设备及存储介质
CN108319584A (zh) 一种基于改进FP-Growth算法的微博类短文本的新词发现方法
CN111444713A (zh) 新闻事件内实体关系抽取方法及装置
Schraagen Aspects of record linkage

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20210824