CN107515849A - 一种成词判定模型生成方法、新词发现方法及装置 - Google Patents
一种成词判定模型生成方法、新词发现方法及装置 Download PDFInfo
- Publication number
- CN107515849A CN107515849A CN201610423284.4A CN201610423284A CN107515849A CN 107515849 A CN107515849 A CN 107515849A CN 201610423284 A CN201610423284 A CN 201610423284A CN 107515849 A CN107515849 A CN 107515849A
- Authority
- CN
- China
- Prior art keywords
- word
- text
- text block
- training
- degree
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本申请公开了一种成词判定模型生成方法、新词发现方法及装置,包括对文本进行预处理提取若干文本块;对每个文本块,获取其词频、内聚度和耦合度作为其成词特征信息;利用预先生成的成词判定模型,以及获得的成词特征信息对每个文本块进行分类以识别出新词。本申请自动实现了对新词的发现,而且,每个文本块成词特征信息不仅包括词频、而且还包括其内聚度和耦合度,提高了识别新词的准确性。
Description
技术领域
本申请涉及计算机网络技术,尤指一种成词判定模型生成方法、新词发现方法及装置。
背景技术
在处理中文文本时,会遇到其他语言不常有的困难,比如中文分词。汉语文本是一些汉字字符拼在一起构成的字符序列,汉语的词与词之间没有明显的界限,通过显示的增加词语边界标识,使得所形成的词串完整地反映出句子的本意,这就是分词所做的工作。那么,计算机该如何知道“结合成分子”的分词结果是“结/合成/分子”、或是“结合/成/分子”、还是“结合/成分/子”呢?这就是中文分词中的歧义难题,目前很多分词模型已能解决这一难题。
但是,在中文分词领域,还有一个亟需解决的难题就是对新词的识别。新词也称为未登录词,就是指没有被系统收录的词汇。中文词在字面上没有明显的特征(比如大写字母等),产生机理和构成方法没有明显的规律可循,如何让计算机识别规模巨大的人名、地名词汇,数量呈爆炸性增长的专有名词(如机构名、品牌名、产品名、型号词等)、缩略语、互联网等新词是个复杂的问题,也就是说,自动对新词的识别已成为中文分词近年来最热门的领域。
一般,新词发现的方法大致为:先对文本进行分词处理;将匹配不成功的连续汉字串认为是新词。这似乎陷入一个怪圈:分词的准确性本身依赖已有词库的完整性,倘若词未被收录在词库中,又该如何信任分词的结果呢?这样的话,按照现有的新词发现方法,随着大量新词的涌入,会严重影响对新词的识别的准确性。
发明内容
为了解决上述技术问题,本申请提供了一种成词判定模型生成方法、新词发现方法,能够自动实现对新词的发现,提高识别新词的准确性。
一方面,本申请提供了一种新词发现方法,包括:
对文本进行预处理提取若干文本块;
对每个文本块,获取其词频、内聚度和耦合度作为其成词特征信息;
利用预先生成的成词判定模型,以及获得的成词特征信息对每个文本块进行分类以识别出新词。
可选地,所述对文本进行预处理提取若干文本块包括:
按照字面特征或标点符号对所述文本进行分句处理;
依据预先设置的文本块长度阈值,从每一分句中提取出所有的长度不超过文本块长度阈值的文本块。
可选地,该方法还包括:在划分好的所述每一分句的开头和结尾分别加上标识符。
可选地,所述对每个文本块,获取其词频、内聚度和耦合度作为其成词特征信息包括:
统计每个所述文本块的词频和所有文本块的总词频;统计每个所述文本块的上文信息和下文信息;计算每个文本块的先验概率;
计算每个所述文本块的内聚度;
计算每个所述文本块的耦合度。
可选地,所述计算每个所述文本块的内聚度包括:利用所述文本块的左部分和右部分之间的点互信息来度量词的内聚度。
可选地,所述点互信息包括:左右部分的最大互信息,左右部分的最小互信息,以及左右部分的平均互信息。
可选地,所述计算每个所述文本块的内聚度包括:利用似然比来衡量所述内聚度。
可选地,所述计算每个所述文本块的耦合度包括:计算所述文本块的左熵和右熵。
可选地,所述对每个文本块进行分类以识别出新词包括:
将获得的所述成词特征信息作为成词判定模型的输入以对成词特征信息对应的文本块进行分类;
提取可以成词的文本块,判断当前文本块是否已经被收录,并将没有被收录的文本块作为发现的新词。
可选地,该方法之前还包括通过训练生成所述成词判定模型,包括:
对所述文本进行预处理提取若干文本块;对每个文本块,获取其词频、内聚度和耦合度作为其成词特征信息;抽取成词特征信息样本并标注,作为模型的训练集,并根据训练算法训练出所述成词判定模型;
或者,
获得所述成词特征信息之后还包括:
抽取所述成词特征信息样本并标注,作为模型的训练集,并根据训练算法训练出所述成词判定模型。
可选地,所述训练算法包括:支持向量机算法SVM、或者逻辑回归、或者决策树、或者神经网络。
另一方面,本申请提供了一种成词判定模型生成方法,包括:提供训练文本;
对训练文本进行预处理提取若干文本块;
对每个文本块,获取其词频、内聚度和耦合度作为其成词特征信息;
抽取成词特征信息样本并标注,作为模型的训练集,并根据训练算法训练出所述成词判定模型。
可选地,所述训练文本包括:地址数据信息,和/或用户搜索文本信息。
可选地,该方法还包括:更新所述训练文本,利用所述更新的训练文本更新所述成词判定模型。
再一方面,本申请还提供了一种新词发现装置,包括预处理单元、处理单元、识别单元;其中,
预处理单元,用于对文本进行预处理提取若干文本块;
处理单元,用于对每个文本块,获取其词频、内聚度和耦合度作为其成词特征信息;
识别单元,用于利用预先生成的成词判定模型,以及获得的成词特征信息对每个文本块进行分类以识别出新词。
可选地,所述预处理单元具体用于:按照字面特征或标点符号对用户传入的文本进行分句处理;依据预先设置的文本块长度阈值,从每一分句中提取出所有的长度不超过文本块长度阈值的文本块。
可选地,所述预处理单元还用于:在划分好的所述每一分句的开头和结尾加上标识符。
可选地,所述处理单元包括第一处理模块和第二处理模块,其中,
第一处理模块用于:统计每个所述文本块的词频和所有文本块的总词频;统计所述文本块的上文信息和下文信息;计算每个所述文本块的先验概率;
第二处理模块用于:计算每个所述文本块的内聚度;计算每个所述文本块的耦合度。
可选地,所述第二处理模块具体用于:
利用所述文本块的左部分和右部分之间的点互信息来度量词的内聚度,其中,点互信息包括左右部分的最大互信息,左右部分的最小互信息,以及左右部分的平均互信息;或者,利用似然比来衡量所述内聚度;
以及,计算所述文本块的左熵和右熵。
可选地,所述识别单元具体用于:将获得的所述成词特征信息作为成词判定模型的输入以对所述成词特征信息对应的文本块进行分类;提取可以成词的文本块,判断当前文本块是否已经被收录,并将没有被收录的文本块作为发现的新词。
可选地,还包括:训练单元,用于抽取所述成词特征信息样本并标注,作为模型的训练集,并根据训练算法训练出所述成词判定模型。
又一方面,本申请还提供了一种成词判定模型生成装置,包括:训练预处理模块、训练处理模块、训练模块;其中,
训练预处理模块,用于提供训练文本,利用训练文本进行预处理提取若干文本块;
训练处理模块,用于对每个文本块,获取其词频、内聚度和耦合度作为其成词特征信息;
训练模块,用于抽取成词特征信息样本并标注,作为模型的训练集,并根据训练算法训练出所述成词判定模型。
可选地,所述训练文本包括:地址数据信息,和/或用户搜索文本信息。
可选地,所述训练预处理模块还用于:更新所述训练文本,利用所述更新的训练文本更新所述成词判定模型。
本申请提供的方案包括对文本进行预处理提取若干文本块;对每个文本块,获取其词频、内聚度和耦合度作为其成词特征信息;利用预先生成的成词判定模型,以及获得的成词特征信息对每个文本块进行分类以识别出新词。本申请自动实现了对新词的发现,而且,每个文本块成词特征信息不仅包括词频、而且还包括其内聚度和耦合度,提高了识别新词的准确性。
进一步地,本申请中通过为句首和句尾的文本块增加标识,使得依据首尾标识符就能判定当前文本块是否为句首文本块或句尾文本块,实现了对句首和句尾两种情况下成词的文本块的挖掘。
本申请的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本申请而了解。本申请的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
附图说明
附图用来提供对本申请技术方案的进一步理解,并且构成说明书的一部分,与本申请的实施例一起用于解释本申请的技术方案,并不构成对本申请技术方案的限制。
图1为本申请新词发现方法的流程图;
图2为本申请新词发现装置的组成结构示意图;
图3为本申请成词判定模快生成装置的组成结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚明白,下文中将结合附图对本申请的实施例进行详细说明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。
在本申请一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括非暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行。并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
中文分词是新词发现必不可少的部分,因此,新词发现的方法因分词的方法不同而不同,目前主流的分词方法主要有:
一类是基于词典的中文分词,在这种方法中,认为新词是夹在已匹配成功的词中间的,其做法是直接将匹配失败的连续中文字符串作为一个新词。这种基于词典的中文分词,识别的准确率受词典规模因素影响较大,词典规模越大,新词识别的准确率越高,反之较低;而建设大规模的词库又有赖于新词的加入,二者这种相互依存的关系必然对识别新词的准确率大打折扣。
另一类是基于统计机器学习的中文分词,在这种方法中,新词发现是基于字粒度的序列标注,基于标注的结果创建字合并为词的规则,依据创建的规则将字合并为词。这种基于统计机器学习的中文分词,新词识别的准确率受已标注字的数量、位置信息,以及和其他字的组合即字的上下文等因素的影响,即受到训练语料中已标注词的规模的影响;而标注的语料数据是不容易获得的,因此也会严重影响到新词识别的准确率。
本申请发明人发现:目前新词的发现非常依赖已有标准化的资源,如已收集的词库或已标注的规模极其有限的训练语料。如果不依赖已有标准化的资源,而依据词本身的共同特征,直接从大规模原始数据中挖掘所有可能的词,剔除掉已被收录的词汇,剩下来的就是新词。基于这种想法,本申请发明人通过研究认为:
可能成为词的文本块的一个共同特征是频率高的文本块,即出现词频超过阈值的文本块很可能成为词。不过,一个经常出现的文本块未必是词,比如在大量公司名中“限公司”,其词频高达百万,然而文本块“限公司”并不是一个词。因此,除了词频高外,词之所以为词,还应该具备两个共同特征:首先,构成词的内部要足够稳定,即一般不会被分开,也就是说,构成词的内部文本是高度内聚的;而且,词要经得起周围环境变化的考验,即当前词在和其他词相邻时,依然能保证他们不会分开,也就是说,词和相邻其他词是低耦合的。如果仅有高内聚度,会将诸如“限责任”、“责任公”、“司第三分公”等非词挖掘出来;而仅有低耦合度,则会将诸如“市垦”、“我的”、“你的”等文本块挖掘出来,因此二者缺一不可。
基于上述想法,本申请提出的新词发现方法,如图1所示,包括:
步骤100:对文本进行预处理提取若干文本块。
本步骤包括:按照字面特征(如句子的边界限定为不同的字符类型)或标点符号对用户传入的文本进行分句处理;依据用户预先设置的文本块(gram)长度阈值n,基于字粒度从每一分句中提取出所有的长度不超过文本块长度阈值n的文本块。划分后的文本块组成文本块列表。
进一步地,为了能识别出句首和句尾的词,本步骤还包括:在划分好的每一分句的开头和结尾分别加上标识符,标识符可以选用一般不会在文本中出现的字符,如’\b’等。
本申请中的文本包括但不限于来自互联网的大数据,比如地址数据信息如电商环境中用户的收货地址,和/或用户搜索文本信息等。需要说明的是,本申请中的文本并不限定为大数据,还可以包括某文本、计算机本地存储的文本等。
步骤101:对每个文本块,获取其词频、内聚度和耦合度作为其成词特征信息。
本步骤包括:
统计每个文本块的词频和所有文本块的总词频;统计文本块的上文信息和下文信息(即当前文本块的左字和右字)及相应的频率(即左字的频率和右字的频率);遍历文本块列表,计算每个文本块的先验概率(即当前文本块的出现频率与所有文本块的频率之和的比值);
计算每个文本块的内聚度:
假定词由两部分组成,分别定义为词的左部和右部。词的内聚度越高表示词的左右两部分之间越相互依赖,反之构成词的左右部分之间越独立。因此,可用文本块的左部分和右部分之间的点互信息来度量词的内聚度,如公式(1)所示:
公式(1)中,l表示当前文本的左部,r表示当前文本块的右部,p(l)表示当前文本的左部的概率,p(r)表示当前文本块的右部的概率,p(l,r)表示当前文本块的左部和右部的联合概率。本申请中,词的内聚度包括三个值,分别为:左右部分的最大互信息,左右部分的最小互信息,以及左右部分的平均互信息。
或者,也可利用似然比来衡量内聚度。似然比是一个假设检验,用来判断两个词(w1,w2)之间是否可以形成搭配,如果不能形成搭配,则两个词相互独立即两个词之间的内聚度越低,否则可以形成搭配的词组即两个词之间的内聚度越高。其中,似然比如何获取属于本领域技术人员的惯用技术手段,具体实现并不用于限定本申请的保护范围,这里不再赘述。
计算每个文本块的耦合度:
文本块和其左右两侧的上文信息和下文信息的耦合度越低,文本块成词的概率越大,耦合度越低表示词的上下文种类越多,体现在词的左右相邻的词种类越丰富,同时也说明词的上下文信息量非常大,因此,可用当前文本块和其上文信息和下文信息的熵来表示耦合度,即采用文本块的左熵和右熵作为度量文本块与上下文信息的耦合程度,文本块的左熵和右熵如公式(2)和公式(3)所示:
HL(w)=-∑a∈A p(aw|w)log2 p(aw|w) (2)
公式(2)中,w表示当前文本块,A表示在语料即用户传入的文本中所有出现在w左侧(上文环境)的字符构成的集即上文信息。p()表示概率。
HR(w)=-∑b∈B p(wb|w)log2 p(wb|w) (3)
公式(3)中,w表示当前文本块,B表示在语料即用户传入的文本中所有出现在w右侧(上文环境)的字符构成的集即下文信息。
本步骤中,如何获得词频、点互信息以及左熵和右熵的具体实现属于本领域技术人员的惯用技术手段,并不用于限定本发明的保护范围,这里不再赘述。
本步骤强调的是,每个文本块成词特征信息不仅包括词频、而且还包括其内聚度和耦合度,提高了识别新词的准确性。其中,内聚度同时采用左右部分的最大互信息,左右部分的最小互信息,以及左右部分的平均互信息表示,实现了对句首和句尾词的召回,保证了较高的召回率。
进一步地,本申请中通过为句首和句尾的文本块增加标识,使得依据首尾标识符就能判定当前文本块是否为句首文本块或句尾文本块,因此,本申请实现了对句首和句尾两种情况下成词的文本块的挖掘。。由于本申请中考虑到了文本块出现在句首和句尾的情况,一般,经常出现在句首的文本块,其左熵为0,经常出现在句尾的文本块,其右熵为0。
步骤102:利用预先生成的成词判定模型,以及获得的成词特征信息对每个文本块进行分类以识别出新词。
本步骤中,成词判定模型相当于一个分类器,将获得的成词特征信息作为成词判定模型的输入以对成词特征信息对应的文本块进行分类,即判定一个文本块是否可以成词;
提取可以成词的文本块,判断当前文本块是否已经被收录,并将没有被收录的文本块作为发现的新词。
通过本申请提供的新词发现方法,自动实现了对新词的发现。
在本申请方法之前还包括:通过训练生成成词判定模型,具体包括:
对文本进行预处理提取若干文本块;对每个文本块,获取其词频、内聚度和耦合度作为其成词特征信息;抽取(如人工抽取)成词特征信息样本并标注,作为模型的训练集,并根据训练算法训练出成词判定模型。其中,训练算法可以是,如支持向量机(SVM,SupportVector Machine)算法、逻辑回归(Logistic Regression)、决策树(Decision Trees)、神经网络(Neural Networks)等。训练得到的成词判定模型相当于一个分类器,只要将得到的成词特征信息输入该成词判定模型,就能得到一个判定一个文本块是否可以成词的结果。
本申请强调的是,一方面,采用包括文本块的词频、内聚度和耦合度等的成词特征信息作为训练算法的输入以训练出成词判定模型,另一方面,整个学习过程是一个不断循环的自动的学习过程。
或者,在步骤101中获得所述成词特征信息之后还包括:
抽取成词特征信息样本并标注,作为模型的训练集,并根据训练算法训练出成词判定模型。
需要说明的是,本申请中的成词判定模型可以是预先根据大量历史数据生成的,也可以是实时不断的根据用户输入的文本不断学习得到的。
本申请还提供一种成词判定模型生成方法,包括:提供训练文本;
对训练文本进行预处理提取若干文本块;
对每个文本块,获取其词频、内聚度和耦合度作为其成词特征信息;
抽取成词特征信息样本并标注,作为模型的训练集,并根据训练算法训练出所述成词判定模型。
其中,训练文本包括但不限于来自互联网的大数据,比如地址数据信息如电商环境中用户的收货地址,和/或用户搜索文本信息等。需要说明的是,本申请中的文本并不限定为大数据,还可以包括某文本、计算机本地存储的文本等。
本申请提供的成词判定模型生成方法还包括:利用来自互联网的新的大数据更新训练文本,再利用更新的训练文本更新成词判定模型。其中,更新成词判定模型的实现就是执行上述成词判定模型生成方法的各步骤,不同的是此时的训练文本是更新后的训练文本,具体来讲包括:
对更新后的训练文本进行预处理提取若干新的文本块;
对每个新的文本块,获取其词频、内聚度和耦合度作为其成词特征信息;
抽取成词特征信息样本并标注,作为模型的训练集,并根据训练算法训练出新的成词判定模型。
图2为本申请新词发现装置的组成结构示意图,如图2所示,至少包括:预处理单元、处理单元、识别单元;其中,
预处理单元,用于对文本进行预处理提取若干文本块;
处理单元,用于对每个文本块,获取其词频、内聚度和耦合度作为其成词特征信息;
识别单元,用于利用预先生成的成词判定模型,以及获得的成词特征信息对每个文本块进行分类以识别出新词。
其中,
预处理单元具体用于:按照字面特征(如句子的边界限定为不同的字符类型)或标点符号对用户传入的文本进行分句处理;依据用户预先设置的文本块(gram)长度阈值n,基于字粒度从每一分句中提取出所有的长度不超过文本块长度阈值n的文本块。
预处理单元还用于:在划分好的每一分句的开头和结尾加上标识符。
其中,处理单元包括第一处理模块和第二处理模块,其中,
第一处理模块用于:统计每个文本块的词频和所有文本块的总词频;统计文本块的上文信息和下文信息;遍历文本块列表,计算每个文本块的先验概率;
第二处理模块用于:计算每个文本块的内聚度;以及,计算每个文本块的耦合度。
其中,第二处理模块具体用于:计算每个文本块的内聚度包括:利用所述文本块的左部分和右部分之间的点互信息来度量词的内聚度,其中,点互信息包括左右部分的最大互信息,左右部分的最小互信息,以及左右部分的平均互信息;或者,利用似然比来衡量所述内聚度;
以及计算所述文本块的左熵和右熵。
其中,
识别单元具体用于:将获得的成词特征信息作为成词判定模型的输入以对成词特征信息对应的文本块进行分类;提取可以成词的文本块,判断当前文本块是否已经被收录,并将没有被收录的文本块作为发现的新词。
本申请新词发现装置还包括:训练单元,用于抽取成词特征信息样本并标注,作为模型的训练集,并根据训练算法训练出成词判定模型。
对应于本申请的成词判定模型生成方法,还提供一种成词判定模型生成装置,图3为本申请成词判定模快生成装置的组成结构示意图,如图3所示,至少包括:训练预处理模块、训练处理模块、训练模块;其中,
训练预处理模块,用于提供训练文本,利用训练文本进行预处理提取若干文本块;
训练处理模块,用于对每个文本块,获取其词频、内聚度和耦合度作为其成词特征信息;
训练模块,用于抽取成词特征信息样本并标注,作为模型的训练集,并根据训练算法训练出所述成词判定模型。
其中,训练文本可以包括:但不限于来自互联网的大数据,比如地址数据信息,和/或用户搜索文本信息等。需要说明的是,本申请中的文本并不限定为大数据,还可以包括某文本、计算机本地存储的文本等。
进一步地,
训练预处理模块还用于:更新所述训练文本,利用所述更新的训练文本更新所述成词判定模型。
其中,训练算法包括但不限于:SVM、或者逻辑回归、或者决策树、或者神经网络。
本领域的技术人员应该明白,上述的本申请实施例所提供的装置的各组成部分,以及方法中的各步骤,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上。可选地,它们可以用计算装置可执行的程序代码来实现。从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本申请不限制于任何特定的硬件和软件结合。
虽然本申请所揭露的实施方式如上,但所述的内容仅为便于理解本申请而采用的实施方式,并非用以限定本申请。任何本申请所属领域内的技术人员,在不脱离本申请所揭露的精神和范围的前提下,可以在实施的形式及细节上进行任何的修改与变化,但本申请的专利保护范围,仍须以所附的权利要求书所界定的范围为准。
Claims (24)
1.一种新词发现方法,其特征在于,包括:
对文本进行预处理提取若干文本块;
对每个文本块,获取其词频、内聚度和耦合度作为其成词特征信息;
利用预先生成的成词判定模型,以及获得的成词特征信息对每个文本块进行分类以识别出新词。
2.根据权利要求1所述的新词发现方法,其特征在于,所述对文本进行预处理提取若干文本块包括:
按照字面特征或标点符号对所述文本进行分句处理;
依据预先设置的文本块长度阈值,从每一分句中提取出所有的长度不超过文本块长度阈值的文本块。
3.根据权利要求2所述的新词发现方法,其特征在于,该方法还包括:在划分好的所述每一分句的开头和结尾分别加上标识符。
4.根据权利要求1所述的新词发现方法,其特征在于,所述对每个文本块,获取其词频、内聚度和耦合度作为其成词特征信息包括:
统计每个所述文本块的词频和所有文本块的总词频;统计每个所述文本块的上文信息和下文信息;计算每个文本块的先验概率;
计算每个所述文本块的内聚度;
计算每个所述文本块的耦合度。
5.根据权利要求4所述的新词发现方法,其特征在于,所述计算每个所述文本块的内聚度包括:利用所述文本块的左部分和右部分之间的点互信息来度量词的内聚度。
6.根据权利要求5所述的新词发现方法,其特征在于,所述点互信息包括:左右部分的最大互信息,左右部分的最小互信息,以及左右部分的平均互信息。
7.根据权利要求4所述的新词发现方法,其特征在于,所述计算每个所述文本块的内聚度包括:利用似然比来衡量所述内聚度。
8.根据权利要求4所述的新词发现方法,其特征在于,所述计算每个所述文本块的耦合度包括:计算所述文本块的左熵和右熵。
9.根据权利要求1所述的新词发现方法,其特征在于,所述对每个文本块进行分类以识别出新词包括:
将获得的所述成词特征信息作为成词判定模型的输入以对成词特征信息对应的文本块进行分类;
提取可以成词的文本块,判断当前文本块是否已经被收录,并将没有被收录的文本块作为发现的新词。
10.根据权利要求1所述的新词发现方法,其特征在于,
该方法之前还包括通过训练生成所述成词判定模型,包括:
对所述文本进行预处理提取若干文本块;对每个文本块,获取其词频、内聚度和耦合度作为其成词特征信息;抽取成词特征信息样本并标注,作为模型的训练集,并根据训练算法训练出所述成词判定模型;
或者,
获得所述成词特征信息之后还包括:
抽取所述成词特征信息样本并标注,作为模型的训练集,并根据训练算法训练出所述成词判定模型。
11.根据权利要求10所述的新词发现方法,其特征在于,所述训练算法包括:支持向量机算法SVM、或者逻辑回归、或者决策树、或者神经网络。
12.一种成词判定模型生成方法,其特征在于,包括:提供训练文本;
对训练文本进行预处理提取若干文本块;
对每个文本块,获取其词频、内聚度和耦合度作为其成词特征信息;
抽取成词特征信息样本并标注,作为模型的训练集,并根据训练算法训练出所述成词判定模型。
13.根据权利要求12所述的成词判定模型生成方法,其特征在于,所述训练文本包括:地址数据信息,和/或用户搜索文本信息。
14.根据权利要求12所述的成词判定模型生成方法,其特征在于,该方法还包括:更新所述训练文本,利用所述更新的训练文本更新所述成词判定模型。
15.一种新词发现装置,其特征在于,包括预处理单元、处理单元、识别单元;其中,
预处理单元,用于对文本进行预处理提取若干文本块;
处理单元,用于对每个文本块,获取其词频、内聚度和耦合度作为其成词特征信息;
识别单元,用于利用预先生成的成词判定模型,以及获得的成词特征信息对每个文本块进行分类以识别出新词。
16.根据权利要求15所述的新词发现装置,其特征在于,所述预处理单元具体用于:按照字面特征或标点符号对用户传入的文本进行分句处理;依据预先设置的文本块长度阈值,从每一分句中提取出所有的长度不超过文本块长度阈值的文本块。
17.根据权利要求16所述的新词发现装置,其特征在于,所述预处理单元还用于:在划分好的所述每一分句的开头和结尾加上标识符。
18.根据权利要求16所述的新词发现装置,其特征在于,所述处理单元包括第一处理模块和第二处理模块,其中,
第一处理模块用于:统计每个所述文本块的词频和所有文本块的总词频;统计所述文本块的上文信息和下文信息;计算每个所述文本块的先验概率;
第二处理模块用于:计算每个所述文本块的内聚度;计算每个所述文本块的耦合度。
19.根据权利要求18所述的新词发现装置,其特征在于,所述计算每个所述文本块的内聚度包括:利用所述文本块的左部分和右部分之间的点互信息来度量词的内聚度,其中,点互信息包括左右部分的最大互信息,左右部分的最小互信息,以及左右部分的平均互信息;或者,利用似然比来衡量所述内聚度;
所述计算每个所述文本块的耦合度包括:计算所述文本块的左熵和右熵。
20.根据权利要求16所述的新词发现装置,其特征在于,所述识别单元具体用于:将获得的所述成词特征信息作为成词判定模型的输入以对所述成词特征信息对应的文本块进行分类;提取可以成词的文本块,判断当前文本块是否已经被收录,并将没有被收录的文本块作为发现的新词。
21.根据权利要求16所述的新词发现装置,其特征在于,还包括:训练单元,用于抽取所述成词特征信息样本并标注,作为模型的训练集,并根据训练算法训练出所述成词判定模型。
22.一种成词判定模型生成装置,其特征在于,包括:训练预处理模块、训练处理模块、训练模块;其中,
训练预处理模块,用于提供训练文本,利用训练文本进行预处理提取若干文本块;
训练处理模块,用于对每个文本块,获取其词频、内聚度和耦合度作为其成词特征信息;
训练模块,用于抽取成词特征信息样本并标注,作为模型的训练集,并根据训练算法训练出所述成词判定模型。
23.根据权利要求22所述的成词判定模型生成装置,其特征在于,所述训练文本包括:地址数据信息,和/或用户搜索文本信息。
24.根据权利要求22所述的成词判定模型生成装置,其特征在于,所述训练预处理模块还用于:更新所述训练文本,利用所述更新的训练文本更新所述成词判定模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610423284.4A CN107515849A (zh) | 2016-06-15 | 2016-06-15 | 一种成词判定模型生成方法、新词发现方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610423284.4A CN107515849A (zh) | 2016-06-15 | 2016-06-15 | 一种成词判定模型生成方法、新词发现方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107515849A true CN107515849A (zh) | 2017-12-26 |
Family
ID=60720919
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610423284.4A Pending CN107515849A (zh) | 2016-06-15 | 2016-06-15 | 一种成词判定模型生成方法、新词发现方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107515849A (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109582791A (zh) * | 2018-11-13 | 2019-04-05 | 阿里巴巴集团控股有限公司 | 文本的风险识别方法及装置 |
CN109614481A (zh) * | 2018-09-29 | 2019-04-12 | 阿里巴巴集团控股有限公司 | 对象识别方法、装置、电子设备及计算机可读存储介质 |
CN109635296A (zh) * | 2018-12-08 | 2019-04-16 | 广州荔支网络技术有限公司 | 新词挖掘方法、装置计算机设备和存储介质 |
CN110569830A (zh) * | 2019-08-01 | 2019-12-13 | 平安科技(深圳)有限公司 | 多语言文本识别方法、装置、计算机设备及存储介质 |
CN110728134A (zh) * | 2018-06-29 | 2020-01-24 | 北京京东尚科信息技术有限公司 | 新词发现方法和装置 |
WO2020108063A1 (zh) * | 2018-11-26 | 2020-06-04 | 阿里巴巴集团控股有限公司 | 特征词的确定方法、装置和服务器 |
CN111339250A (zh) * | 2020-02-20 | 2020-06-26 | 北京百度网讯科技有限公司 | 新类别标签的挖掘方法及电子设备、计算机可读介质 |
CN111898010A (zh) * | 2020-07-10 | 2020-11-06 | 时趣互动(北京)科技有限公司 | 新关键词挖掘方法、装置及电子设备 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101482860A (zh) * | 2008-01-09 | 2009-07-15 | 中国科学院自动化研究所 | 一种汉英短语翻译对自动抽取与过滤方法 |
-
2016
- 2016-06-15 CN CN201610423284.4A patent/CN107515849A/zh active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101482860A (zh) * | 2008-01-09 | 2009-07-15 | 中国科学院自动化研究所 | 一种汉英短语翻译对自动抽取与过滤方法 |
Non-Patent Citations (1)
Title |
---|
杨阳 等: "基于词向量的情感新词发现方法", 《山东大学学报(理学版)》 * |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110728134A (zh) * | 2018-06-29 | 2020-01-24 | 北京京东尚科信息技术有限公司 | 新词发现方法和装置 |
CN109614481A (zh) * | 2018-09-29 | 2019-04-12 | 阿里巴巴集团控股有限公司 | 对象识别方法、装置、电子设备及计算机可读存储介质 |
CN109582791A (zh) * | 2018-11-13 | 2019-04-05 | 阿里巴巴集团控股有限公司 | 文本的风险识别方法及装置 |
CN109582791B (zh) * | 2018-11-13 | 2023-01-24 | 创新先进技术有限公司 | 文本的风险识别方法及装置 |
US11544459B2 (en) | 2018-11-26 | 2023-01-03 | Advanced New Technologies Co., Ltd. | Method and apparatus for determining feature words and server |
WO2020108063A1 (zh) * | 2018-11-26 | 2020-06-04 | 阿里巴巴集团控股有限公司 | 特征词的确定方法、装置和服务器 |
CN109635296A (zh) * | 2018-12-08 | 2019-04-16 | 广州荔支网络技术有限公司 | 新词挖掘方法、装置计算机设备和存储介质 |
CN109635296B (zh) * | 2018-12-08 | 2023-03-31 | 广州荔支网络技术有限公司 | 新词挖掘方法、装置计算机设备和存储介质 |
CN110569830A (zh) * | 2019-08-01 | 2019-12-13 | 平安科技(深圳)有限公司 | 多语言文本识别方法、装置、计算机设备及存储介质 |
CN110569830B (zh) * | 2019-08-01 | 2023-08-22 | 平安科技(深圳)有限公司 | 多语言文本识别方法、装置、计算机设备及存储介质 |
CN111339250A (zh) * | 2020-02-20 | 2020-06-26 | 北京百度网讯科技有限公司 | 新类别标签的挖掘方法及电子设备、计算机可读介质 |
CN111339250B (zh) * | 2020-02-20 | 2023-08-18 | 北京百度网讯科技有限公司 | 新类别标签的挖掘方法及电子设备、计算机可读介质 |
US11755654B2 (en) | 2020-02-20 | 2023-09-12 | Beijing Baidu Netcom Science Technology Co., Ltd. | Category tag mining method, electronic device and non-transitory computer-readable storage medium |
CN111898010A (zh) * | 2020-07-10 | 2020-11-06 | 时趣互动(北京)科技有限公司 | 新关键词挖掘方法、装置及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107515849A (zh) | 一种成词判定模型生成方法、新词发现方法及装置 | |
WO2018196561A1 (zh) | 应用的标签信息生成方法、装置及存储介质 | |
CN107463658B (zh) | 文本分类方法及装置 | |
CN104298662B (zh) | 一种基于有机物命名实体的机器翻译方法及翻译系统 | |
CN106407236B (zh) | 一种面向点评数据的情感倾向性检测方法 | |
CN103678684B (zh) | 一种基于导航信息检索的中文分词方法 | |
CN108460014A (zh) | 企业实体的识别方法、装置、计算机设备及存储介质 | |
CN106126502B (zh) | 一种基于支持向量机的情感分类系统及方法 | |
CN106815194A (zh) | 模型训练方法及装置和关键词识别方法及装置 | |
CN104268160A (zh) | 一种基于领域词典和语义角色的评价对象抽取方法 | |
CN106407235B (zh) | 一种基于点评数据的语义词典构建方法 | |
CN105988990A (zh) | 用于汉语中的零指代消解的装置和方法以及模型训练方法 | |
CN105654144B (zh) | 一种基于机器学习的社交网络本体构建方法 | |
CN107679110A (zh) | 结合文本分类与图片属性提取完善知识图谱的方法及装置 | |
CN105677638B (zh) | Web信息抽取方法 | |
CN105630772B (zh) | 一种网页评论内容的抽取方法 | |
CN107391678A (zh) | 基于聚类的网页内容信息提取方法 | |
CN106909611A (zh) | 一种基于文本信息抽取的酒店自动匹配方法 | |
CN110175851A (zh) | 一种作弊行为检测方法及装置 | |
CN110705292B (zh) | 一种基于知识库和深度学习的实体名称提取方法 | |
CN103617192B (zh) | 一种数据对象的聚类方法和装置 | |
CN106874397B (zh) | 一种面向物联网设备的自动语义标注方法 | |
CN109344346A (zh) | 网页信息提取方法和装置 | |
CN108304377A (zh) | 一种长尾词的提取方法及相关装置 | |
CN110020005A (zh) | 一种病历中主诉和现病史中症状匹配方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20180320 Address after: Four story 847 mailbox of the capital mansion of Cayman Islands, Cayman Islands, Cayman Applicant after: CAINIAO SMART LOGISTICS HOLDING Ltd. Address before: Cayman Islands Grand Cayman capital building a four storey No. 847 mailbox Applicant before: ALIBABA GROUP HOLDING Ltd. |
|
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20171226 |