CN106339481A - 基于最大置信度的中文复合新词发现方法 - Google Patents
基于最大置信度的中文复合新词发现方法 Download PDFInfo
- Publication number
- CN106339481A CN106339481A CN201610779163.3A CN201610779163A CN106339481A CN 106339481 A CN106339481 A CN 106339481A CN 201610779163 A CN201610779163 A CN 201610779163A CN 106339481 A CN106339481 A CN 106339481A
- Authority
- CN
- China
- Prior art keywords
- sequence
- word
- supp
- compound
- neologisms
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及中文信息处理领域,提供一种基于最大置信度的中文复合新词发现方法,该方法包括步骤:文本内容抽取及数据预处理;序列频繁模式挖掘;复合新词发现。本发明提出的技术方案在保持准确率的同时,显著地提升了抽取结果的召回率和准确率。
Description
技术领域
本发明属于中文信息处理领域,特别涉及一种基于最大置信度的中文复合新词发现方法。
背景技术
在中文文本信息处理工作中,复合新词是指那些由两个以上单字组成的词,这些词有如下特征:已经在媒体上广泛使用,但是公认的字词典还未收录,例如“海淘”,“高铁”等。在某个领域内非常活跃,在领域外则不容易为人知晓,例如“中东呼吸综合症”(卫生,媒体领域),“港式茶餐厅”(旅游餐饮领域),以及“对外交流与合作中心”(政府管理领域)。显然,这些通过词单元复合而成的新词或者领域词都不存在于分词软件的词典中。因而,在传统的分词方法中,很容易将复合新词错分为粒度更小的词元素,例如“中东呼吸综合症”可能被分解成“中东”、“呼吸”和“综合症”三个元素。这样,分词的准确性就直接影响最后信息的挖掘。
针对这一问题,研究表明复合新词发现是影响分词结果准确性的重要因素。目前,发现复合新词主要有人工编撰方法、基于统计的方法、基于规则的方法,以及基于统计和规则相结合的方法。人工编撰的方法效率低下,不符合大数据背景下的信息处理。而且复合新词包含范围广,组合方式多样,人工编撰词典的方式无法涵盖所有的复合新词。
基于统计的方法是指利用词共现、构词率、互信息等统计指标来筛选复合新词。它具有计算迅速、不受语料背景限制、容易实现等特点,符合未来大数据条件下的信息处理需要,因而研究者众多。
基于规则的方法则是利用复合新词组合的语法规则或者词性组合规则来识别复合新词。为了降低失误率,同时提高计算效率,复合新词识别采用较多的是统计和规则相结合的方式。
分析发现,大多数复合新词是由两个及以上的序列语义词单元构成,并且语义词单元序列共现分布呈交叉支持度模式。
发明内容
【要解决的技术问题】
本发明的目的是提供一种新的无需词典、无需前期语料库训练、基于统计的复合新词发现方法。
【技术方案】
本发明是通过以下技术方案实现的。
本发明涉及一种基于最大置信度的中文复合新词发现方法,包括步骤:
A、文本内容抽取及数据预处理
从目标网站中抓取网络文本信息数据,对网络文本信息数据进行预处理,形成数据集T,T={t1,...,ti,...t|T|},词向量ti为数据集T中第i条切分文本,其中ti由mi个有序的语义词单元tij构成,j=1,...,mi,|T|表示切分后文本数量,元素tij是数据集T中第i条切分文本中的第j个语义词,所述预处理至少包括对文本信息数据进行分词、标注标点符号和停用词标注;
B、序列频繁模式挖掘
找出满足最小支持度min supp的1-项序列频繁项FP(1)(T)和2-项序列频繁项FP(2)(T),其中,数据集T中的任意p-项频繁集表示为:
FP(p)(T)={X(p)|supp(X(p))≥min supp},
min表示取最小值,supp(X(p))表示包含项集X(p)的事务在数据集中的数量;
C、复合新词发现
该步骤包括步骤:
C1、对于数据集T中任意词语义词单元序列tijtij+1∈T,i=1,...,n,j=1,...,mi,如果序列满足θx≥θ0,则抽取该序列;
C2、将所有抽取的语义词单元序列替换成新的语义词单元,重新整顿序列序号,再次扫描语料内容并更新数据集T,返回步骤C1进行新一轮复合新词抽取,反复循环步骤C1和步骤C2,直至数据集T中没有满足θx≥θ0的语义词单元序列,
步骤C中,θx为2-项序列频繁集X={ti1ti2}的最大置信度,θ0为预设的抽取阈值,所述新的语义词单元由被替换的语义词单元序列合并而成。
作为一种优选的实施方式,所述步骤B进行序列频繁模式挖掘时,当满足第一剪枝条件、第二剪枝条件或第三剪枝条件时,tij被去除用于剪枝,
所述第一剪枝条件为:所述第二剪枝条件为:且所述第三剪枝条件为tij-1为标注标点符号且tij+1为标注标点符号。
作为另一种优选的实施方式,所述预设的抽取阈值θ0为0.4。
作为另一种优选的实施方式,所述步骤A采用爬虫技术从目标网站中抓取网络文本信息数据。
作为另一种优选的实施方式,所述步骤A利用LJParser分词软件对网络文本内容进行分词。
下面对本发明进行详细说明。
基于对现有技术的优劣势分析,考虑到大数据环境下信息过载以及准确性问题,本发明先利用序列频繁模式挖掘出候选复合新词,计算候选复合新词的序列最大置信度(Max-confidence)并进行筛选,最终得到文本中的复合新词。下面进行具体说明。
(一)文本内容抽取及数据预处理
首先从目标网站中抓取相关文本信息,并对该文本构成的语料进行必要的处理。包括:去除图片、符号、空行等无意义元素,对内容进行全半角、大小写、繁体标准化转换等。
数据预处理主要包括对语料内容进行分词和根据分词结果进行必要的数据清洗。分词工作可以采用软件LJParser(ICTCLAS2014)完成。在信息检索中,为了减少计算的冗余度和提高搜索效率,会消除停用词(Stop-word)。在本发明中,对语料内容中的停用词进行了统一的标注,并替换为不干扰运算的其它符号,例如
数据清洗的一个重要工作是利用标点符号进行文本切分。标点符号一般作为文本中一段内容表达的停顿或者结束。所以本发明利用标点符号进行文本切分,通过标点符号进行文本切分既能提高复合词的查找效率,并且不降低复合词查找的最终效果。具体地,可以将标点符号统一标注为
(二)构建数据集
数据集的构建过程:首先,从目标网站中抓取网络文本信息数据集D;对数据集D进行标准化文本处理;对每篇网络文本内容Di∈D,利用分词软件对网络文本内容Di进行分词和标注标点符号和停用词标注,Di被分成ni个项dj(j=1,...,ni)。扫描分词结果,将标点符号和停用词全部换为换行符,完成对文本的切分,最终形成数据集T。T中第i条切分文本可以被看成由一系列的有序语义词构成的词向量ti。其中ti由mi个有序的语义词单元tij(j=1,...,mi)构成,元素tij是数据集中第i条切分文本中的第j个语义词。
T={t1,...,ti,...t|T|} (1)
其中|T|表示切分后文本数量,数据集T中全部项集表示为
(三)序列频繁模式挖掘
假定X(p)是一个P项集,即X是由p个元素项(Item)组成,为了简化计算,可用supp(X(p))表示包含项集X(p)的事务(Transaction)在数据集中的数量,也称其为绝对支持度。数据集T中的任意p-项频繁集表示为:
FP(p)(T)={X(p)|supp(X(p))≥min supp} (2)
在本发明中,只需找出满足最小支持度min supp的1-项和2-项序列频繁项FP(1)(T)和FP(2)(T),原因如下:首先,根据Apriori算法原理,所有的频繁n-项集能通过频繁(n-1)-项集和其他的频繁项生成;其次,只有频繁出现的相邻两项的词单元才可能构成新词和复合词。因此,根据上面的讨论,本发明提出了以下条件作用于一个项(词单元)tij∈T加快剪枝,从而提高方法效率:
如果虽然tij不是停用词,但是其对于复合新词不会有更多贡献;
如果并且那么tij没有机会复合成新词;
如果tij-1为标注标点符号且tij+1为标注标点符号,如果标注标点符号为即并且那么tij没有机会复合成新词。
在上述三种情况下,tij可以被去除用于剪枝。
需要说明的是,本发明并不限制具体的频繁模式挖掘方法,任何可行的频繁模式挖掘方法都可以被应用在本发明中。
(四)复合新词发现
本部分,提出一种利用1-项频繁集FP(1)和2-项序列频繁集FP(2)里的元素组合新词和复合词的方法。下面首先介绍最大置信度,然后引入符合新词发现方法。
1、最大置信度
在现实世界的应用中,许多事物数据集具有倾斜的支持度分布导致“交叉支持度模式”。“交叉支持度模式”通常表现不同支持度水平下的虚假关联项。因为标准化语料内容分词后包含常见语义词和非常见语义词,所以标准化语料内容分词后结果具有倾斜分布的支持度。
“交叉支持度模式”反应出项集之间的主从关系,其可被用于揭示新词和复合词的组成、发现。例如,分词后的标准化语料内容中有一个常见语义词单元(ti1),与其频繁紧邻(多次在文章中以相同的位序紧邻出现)的词单元中有另外一个非常见的语义词单元(ti2)。在这种情况下,如果非常见语义词单元在全部文档中的出现次数,即supp(ti2)完全取决于序列“ti1ti2”的出现supp(ti1ti2)。那么,对于组合“ti1ti2”,它很可能可以构成一个新词或者复合词。所以,如果分词软件没有正确的将其分成词,那应该矫正分词软件的失误。
这里,本发明用2-项序列频繁集X={ti1ti2}的最大置信度来识别ti1和ti2之间的关系。最大置信度在参考文献1(Wu T,Chen Y,Han J.Re-examination of interestingnessmeasures in pattern mining:a unified framework,Data Mining and KnowledgeDiscovery)中定义如下:
很显然,最大置信度衡量了共同部分对较小支持度项的影响。
在频繁序列挖掘中,supp(X)>min supp仅仅说明了序列“ti1ti2”频繁出现,但是频繁出现序列并不一定就是复合词或者新词,其中包含了许多的噪音。当supp(ti2)<supp(ti1)时,如果最大置信度θX→1.0,表明语义词ti2出现对2-项序列X={ti1ti2}的依赖程度为100%。supp(ti1ti2)的共同部分基本等于supp(ti2),因此语义词单元ti2的出现位置大部分都在语义词单元ti1的前后。所以序列“ti1ti2”(或者“ti2ti1”)可能是复合新词或者是它们的一个部分。例如在香港旅游的文本中,“金紫荆广场”被分词成“金紫荆”和“广场”,语义单元“金紫荆”在文中的出现,多数情况下依赖于“广场”,反之则不一定。
2、复合新词发现方法
本部分,实现从语料内容中生成的频繁词序列中发现并组合出语料中的复合新词。
首先,计算语义词单元和词序列的支持度(高支持度意味着这些潜在的词序列是大家熟知的复合新词)。因为就语义的观点来说,序列向量显示了语义词单元词之间的关联关系,并且表示了语料内容中的热点新词和复合词的组合形式。显而易见,频繁语义词单元序列模式表明广大用户共同的、频繁的语义表达方式和组词方式。所以,本发明采用序列频繁模式挖掘得到潜在的复合新词。
其次,需要对停用词进行处理。因为一般来讲,停用词不是新词和复合词的组成部分,所以本发明在之前的数据预处理中就将停用词统一替换为了换行符。
最后,需要计算备选词序列中语义词单元之间的依赖关系,从而确定备选词序列是否为新词或者复合词。所以,热点复合新词的抽取问题转变为:给定一个语义词单元序列,如何判定它是否为热点复合新词。
给定一个2-项集X={ti1ti2}满足supp(X)≥min supp,X具有较大的最大置信度表明具有较小支持度的语义词单元项较强的依赖于具有较大支持度的语义词单元项,并且它将很大可能与较大支持度的语义词单元项组合成复合新词。所以,基本的复合新词的抽取原理是:数据集T中任意词语义词单元序列tijtij+1∈T;i=1,...,n;j=1,...,mi,如果满足式(4)中的关系,序列就应该被抽取:
为了找出更长(大于2)的复合新词,就需要将语料内容中满足条件(4)的“ti1ti2”合并替换为新的语义词单元项(即“ti1”‘和“ti2”可以按照顺序“ti1ti2”合并成一个2-项的新的长词)。为了便于表达,可以将这个新语义词单元项表示为将所有满足最低阈值大(等)于θ0的2-项序列都替换成新的语义词单元后,重新整顿序列序号,再次扫描语料内容,进行新一轮复合新词抽取:
反复循环上述过程,直至没有新的语义词单元序列组成后,停止该复合新词发现。
【有益效果】
本发明提出的技术方案至少具有以下有益效果:
(1)本发明方法为新的无需词典、无需前期语料库训练、基于统计的复合新词发现方法,该方法实现原理与现有技术中的分词方法完全不同。
(2)与现有的分词工具相比,本发明方法在保持准确率的同时,显著地提升了抽取结果的召回率和准确率。
附图说明
图1为本发明的实施例提供的基于最大置信度的中文复合新词发现方法的原理图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将对本发明的具体实施方式进行清楚、完整的描述。
实施例
本实施例为一种基于最大置信度的中文复合新词发现方法,图1为本发明实施例提供的基于最大置信度的中文复合新词发现方法的原理图,下面将结合附图说明该方法,该方法包括以下步骤:
步骤(1)、文本内容抽取及数据预处理
采用爬虫技术从目标网站中抓取网络文本信息数据,对网络文本信息数据进行预处理,形成数据集T,T={t1,...,ti,...t|T|},词向量ti为数据集T中第i条切分文本,其中ti由mi个有序的语义词单元tij构成,j=1,...,mi,|T|表示切分后文本数量,元素tij是数据集T中第i条切分文本中的第j个语义词,其中预处理包括对文本信息数据进行分词、标注标点符号和停用词标注,具体地,将标点符号统一标注为
步骤(2)、序列频繁模式挖掘
找出满足最小支持度min supp的1-项序列频繁项FP(1)(T)和2-项序列频繁项FP(2)(T),其中,数据集T中的任意p-项频繁集表示为:
FP(p)(T)={X(p)|supp(X(p))≥min supp},
min表示取最小值,supp(X(p))表示包含项集X(p)的事务在数据集中的数量。
步骤(3)、复合新词发现
步骤(3)具体包括:
步骤(31)、对于数据集T中任意词语义词单元序列tijtij+1∈T,i=1,...,n,j=1,...,mi,如果序列满足θx≥θ0,则抽取该序列,其中θx为2-项序列频繁集X={ti1ti2}的最大置信度,θ0为预设的抽取阈值;
步骤(32)、将所有抽取的语义词单元序列替换成新的语义词单元,重新整顿序列序号,再次扫描语料内容并更新数据集T,返回步骤(31)进行新一轮复合新词抽取,反复循环步骤(31)和步骤(32),直至数据集T中没有满足θx≥θ0的语义词单元序列。需要说明,该步骤中新的语义词单元由被替换的语义词单元序列合并而成。
在实施例一的基础上,通过在步骤(2)中增加剪枝条件,加快剪枝,从而提高方法效率。具体地,剪枝条件为,进行序列频繁模式挖掘时,当满足第一剪枝条件、第二剪枝条件或第三剪枝条件时,tij被去除用于剪枝,其中第一剪枝条件为:第二剪枝条件为:且第三剪枝条件为tij-1为标注标点符号且tij+1为标注标点符号。
实验分析
为了更好地演示本发明实施例所提出的方法的性能,本部分利用该方法的实验结果与一些著名的分词方法和复合新词发现方法进行了对比分析。
首先,利用爬虫软件从目标网站采集实验语料数据。实验数据来源于国内知名旅游网站蚂蜂窝(www.mafengwo.cn)。网络爬虫工具采用的火车头采集器(www.locoy.com)。该实验从蚂蜂窝网站采集了450篇与香港旅游攻略相关的博客,删除了无文字和与香港无关的博客后,剩余412篇。总字数1538252,平均博客字长3734。
接着,对实验语料进行预处理,最终形成标准化语料内容。然后,结合序列频繁挖掘和最大置信度抽取复合新词。其间,也利用ROST WordPaser(原武汉大学分词软件,称为ROST)、thunlp(清华大学在线分词系统,称为THU)、LJParser(ICTCLAS2014,称为LJP)、POSanalysis&string frequency(结合词性分析和串频统计的方法,称为POS)对语料内容进行复合新词抽取。最后,进行了对比实验并分析结果。
(1)实验参数设置
最小支持度越大越能找出语料中的热点复合新词,但同时也容易错过出现频率低的复合新词。为了找出不同min supp下,复合新词发现数量下的变化,设计了在min supp为5(1.2%)、10(2.4%)以及20(4.8%)下的复合新词抽取实验和对比实验。
对于最大置信度,由于不同的语义词单元在文中的分布概率相差较大,而且较多复合新词是由文中一些大概率语义词单元相互组成,因此,最大置信度如果设得过高,会让抽取出的复合新词的召回率偏低;如果设得过低,又会导致抽取出的复合新词的准确率降低。通过反复实验,发现最大置信度在0.4时结果最佳,所以本实验结果中的最大置信度均设为0.4。并且,复合新词一般由多个汉字构成,所以文中实验结果的比较都集中于汉字数≥3的词,部分结果(汉字数≥5)见表1。表1呈现的结果显示,这些词都是在(香港)旅游中出现的复合新词,且不容易被分词软件正确识别。
表1 min supp=5时抽取的部分复合新词及频次
复合新词 | 频次 | 复合新词 | 频次 |
维多利亚港 | 217 | 出入境管理处 | 5 |
迪斯尼乐园 | 196 | SOGO崇光 | 5 |
杜莎夫人蜡像馆 | 111 | VISA卡 | 5 |
港澳通行证 | 97 | 昂坪戴维斯 | 5 |
龙城大药房 | 72 | 北角海逸酒店 | 5 |
昂坪360 | 69 | 陈记茶餐厅 | 5 |
金紫荆广场 | 60 | 冲天遥控车 | 5 |
(2)不同参数情况下复合新词发现方法的准确率
通常,复合新词发现方法在挖掘复合新词的结果中可能有以下几种情况:
表2复合新词发现方法可能的挖掘结果
被复合新词发现方法挖掘出 | 没有被挖掘出 | |
复合新词 | tp | fn |
非复合新词 | fp | tn |
基于上述结果,比较两个复合新词发现方法效率的指标是准确率(Precision)和召回率(Recall),其定义如下:
需要说明的是,现实中很难找到一个完备的复合新词数据集作为基准(GroundTruth)。在召回率的比较上,考虑到针对任何挖掘方法都有tp+fn=“全部的复合新词集合”,因此转而进行完备程度(tp)的比较,即在相同的语料数据集上比较各个方法找到的正确复合新词的数量。
在最大置信度固定为0.4的情况下,对比min supp分别为5(噪音高)、10、20(噪音低)情形下的本发明实施例的挖掘结果准确度的变化。
表3不同min supp下,复合新词发现方法的准确率
min supp | 字数≥5 | 字数=4 | 字数=3 |
5 | 0.784946 | 0.934924 | 0.951515 |
10 | 0.760563 | 0.92638 | 0.932203 |
20 | 0.794118 | 0.896104 | 0.919255 |
实验结果表明,当min supp=5时得到的复合新词数量远远超过了其它两个参数情形下的结果。而表3中的信息表明,随着抽取词数量的增加,抽取结果的准确率却有所提升。这意味着较小的min supp值带来的召回率增加,并没有以降低准确率为代价,所以minsupp=5得到的抽取结果优于另外两种情况。另外,表3的信息中还表明:随着复合词字数的上升,方法的准确率出现了不同程度的降低。这是由于大部分的复合词构成在5字左右,而随着字数大于5以后,部分文本中的特殊固定搭配就被挖掘出来,如“欲查看香港特价机票请点击”、“蚂蜂窝目的地达人友情提示”以及“香港住宿条件发达”等旅游博客中固定搭配范式的噪音。这些固定搭配更多的是一种频繁的表达模式(Pattern)而非复合词,从而导致准确率的下降。
(3)各种方法比较
紧接着,在min supp等于5和20两种情况下,比较了本发明实施例所提出的复合新词抽取方法(MC方法)与原武汉大学分词软件(ROST方法)、清华大学在线分词系统(THU方法)、ICTCLAS2014分词系统(LJP方法),以及结合词性分析和串频统计的方法(POS方法)对于复合新词的抽取结果。
表4 MC中min supp=5时,各个方法的准确率比较
方法 | 字数≥5 | 字数=4 | 字数=3 |
ROST | 0 | 0.961165 | 0.952096 |
THU | 0.8 | 0.876712 | 0.866337 |
LJP | 0.833333 | 0.986395 | 0.97546 |
MC | 0.784946 | 0.934924 | 0.951515 |
POS | 0.729242 | 0.664968 | 0.666381 |
表5 MC中min supp=20时,各个方法的准确率比较
方法 | 字数≥5 | 字数=4 | 字数=3 |
ROST | 0 | 1 | 0.923664 |
THU | 0.666667 | 0.868421 | 0.90411 |
LJP | 1 | 1 | 0.941748 |
MC | 0.794118 | 0.896104 | 0.919255 |
POS | 0.73913 | 0.857143 | 0.746667 |
首先比较了不同方法在高噪音(min supp=5)和低噪音(min supp=20)时挖掘复合新词的数量(方法认可的复合新词)差异。可以得到MC方法抽取词数量远远高于其他三种分词的方法。并且从表4和表5中,可以看到MC方法在min supp=5时,其抽取的准确率分别为略低于准确率最好的LJP。在min supp=20时,准确率分别为0.79、0.89、0.91低于准确率最好的LJP的1、1、0.94。另外,表4、表5中的信息也表明,随着复合词中字数的上升,方法LJP(min supp=5时)和THU的准确率出现了不同程度的降低。与MC方法一样,这也是受到表达范式噪音影响的结果。相反地,在表4中可以看出POS方法在min supp=5时出现了准确率的上升。原因是由于POS方法考虑了词性对构成复合词的影响,某些词性的词元素构词率较低,它们都被POS方法删除了,从而提升了该方法发现长复合词(字数大于5)的准确率。
另外,进一步比较了不同方法在高噪音(min supp=5)和低噪音(min supp=20)时挖掘复合新词的准确度(在方法认可的复合新词集合中实施人工判断标注)差异。可以得到:
当min supp=5时,针对不同字数比较,MC方法抽取的正确词数分别为146、431、785,远超LJP的5、145、477。
当min supp=20时,针对不同字数比较,MC方法抽取的正确词数分别为27、69、148,也远远高于LJP方法的1、12、97。换言之,MC方法虽然牺牲了少许准确率,但是却抽取出了大量的正确的复合新词,即该方法带来了召回率显著大幅上升。
进一步分析MC方法与POS方法的比较结果。可以得到:MC方法的抽取词数量,当minsupp=5(高噪音)时低于POS方法,而当min supp=20(低噪音)时又高于POS方法。这是因为在高噪音时,POS方法只以串频大小抽取复合新词对抽取数量有较强的、并且积极的影响,而删除构词率低词性对抽取数量的负面影响较小,因此其抽取数量高于MC方法。然而,当低噪音时,串频大小抽取对抽取复合新词数量的影响程度降低,并且词性删减带来的负面影响加大,所以此时其抽取的数量则小于MC方法。更进一步,可以得到:MC方法无论当minsupp=5(高噪音)时还是当min supp=20(低噪音)时,其抽取复合新词的准确率都分别高于POS方法。
从以上实施例及其实验结果可以看出,本发明实施例与现有的分词工具相比,本发明实施例在保持准确率的同时,显著地提升了抽取结果的召回率和准确率。
需要说明,上述描述的实施例是本发明的一部分实施例,而不是全部实施例,也不是对本发明的限制。基于本发明的实施例,本领域普通技术人员在不付出创造性劳动前提下所获得的所有其他实施例,都属于本发明的保护范围。
Claims (5)
1.一种基于最大置信度的中文复合新词发现方法,其特征在于包括步骤:
A、文本内容抽取及数据预处理
从目标网站中抓取网络文本信息数据,对网络文本信息数据进行预处理,形成数据集T,T={t1,...,ti,...t|T|},词向量ti为数据集T中第i条切分文本,其中ti由mi个有序的语义词单元tij构成,j=1,...,mi,|T|表示切分后文本数量,元素tij是数据集T中第i条切分文本中的第j个语义词,所述预处理至少包括对文本信息数据进行分词、标注标点符号和停用词标注;
B、序列频繁模式挖掘
找出满足最小支持度min supp的1-项序列频繁项FP(1)(T)和2-项序列频繁项FP(2)(T),其中,数据集T中的任意p-项频繁集表示为:
FP(p)(T)={X(p)|supp(X(p))≥min supp},
min表示取最小值,supp(X(p))表示包含项集X(p)的事务在数据集中的数量;
C、复合新词发现
该步骤包括步骤:
C1、对于数据集T中任意词语义词单元序列tijtij+1∈T,i=1,...,n,j=1,...,mi,如果序列满足θx≥θ0,则抽取该序列;
C2、将所有抽取的语义词单元序列替换成新的语义词单元,重新整顿序列序号,再次扫描语料内容并更新数据集T,返回步骤C1进行新一轮复合新词抽取,反复循环步骤C1和步骤C2,直至数据集T中没有满足θx≥θ0的语义词单元序列,
步骤C中,θx为2-项序列频繁集X={ti1ti2}的最大置信度,θ0为预设的抽取阈值,所述新的语义词单元由被替换的语义词单元序列合并而成。
2.根据权利要求1所述的基于最大置信度的中文复合新词发现方法,其特征在于所述步骤B进行序列频繁模式挖掘时,当满足第一剪枝条件、第二剪枝条件或第三剪枝条件时,tij被去除用于剪枝,
所述第一剪枝条件为:所述第二剪枝条件为:且所述第三剪枝条件为:tij-1为标注标点符号且tij+1为标注标点符号。
3.根据权利要求1或2所述的基于最大置信度的中文复合新词发现方法,其特征在于所述预设的抽取阈值θ0为0.4。
4.根据权利要求1或2所述的基于最大置信度的中文复合新词发现方法,其特征在于所述步骤A采用爬虫技术从目标网站中抓取网络文本信息数据。
5.根据权利要求1或2所述的基于最大置信度的中文复合新词发现方法,其特征在于所述步骤A利用LJParser分词软件对网络文本内容进行分词。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610779163.3A CN106339481B (zh) | 2016-08-30 | 2016-08-30 | 基于最大置信度的中文复合新词发现方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610779163.3A CN106339481B (zh) | 2016-08-30 | 2016-08-30 | 基于最大置信度的中文复合新词发现方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106339481A true CN106339481A (zh) | 2017-01-18 |
CN106339481B CN106339481B (zh) | 2019-04-30 |
Family
ID=57823478
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610779163.3A Active CN106339481B (zh) | 2016-08-30 | 2016-08-30 | 基于最大置信度的中文复合新词发现方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106339481B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107133317A (zh) * | 2017-05-03 | 2017-09-05 | 成都云数未来信息科学有限公司 | 一种基于新词的网络舆情主题抽取方法 |
CN109241296A (zh) * | 2018-09-14 | 2019-01-18 | 北京字节跳动网络技术有限公司 | 用于生成信息的方法和装置 |
CN109739953A (zh) * | 2018-12-30 | 2019-05-10 | 广西财经学院 | 基于卡方分析-置信度框架和后件扩展的文本检索方法 |
CN110619073A (zh) * | 2019-08-30 | 2019-12-27 | 北京影谱科技股份有限公司 | 一种基于Apriori算法的视频字幕网络用语词典构建方法和装置 |
CN112349150A (zh) * | 2020-11-19 | 2021-02-09 | 飞友科技有限公司 | 一种机场航班保障时间节点的视频采集方法和系统 |
CN113099267A (zh) * | 2021-06-04 | 2021-07-09 | 武汉卓尔数字传媒科技有限公司 | 视频生成方法、装置、电子设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101655857A (zh) * | 2009-09-18 | 2010-02-24 | 西安建筑科技大学 | 基于关联规则挖掘技术挖掘建设法规领域数据的方法 |
CN102043851A (zh) * | 2010-12-22 | 2011-05-04 | 四川大学 | 一种基于频繁项集的多文档自动摘要方法 |
CN101976233B (zh) * | 2010-09-30 | 2012-11-14 | 北京新媒传信科技有限公司 | 基于序列模式的新词发现方法 |
CN105760366A (zh) * | 2015-03-16 | 2016-07-13 | 国家计算机网络与信息安全管理中心 | 针对特定领域的新词发现方法 |
-
2016
- 2016-08-30 CN CN201610779163.3A patent/CN106339481B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101655857A (zh) * | 2009-09-18 | 2010-02-24 | 西安建筑科技大学 | 基于关联规则挖掘技术挖掘建设法规领域数据的方法 |
CN101976233B (zh) * | 2010-09-30 | 2012-11-14 | 北京新媒传信科技有限公司 | 基于序列模式的新词发现方法 |
CN102043851A (zh) * | 2010-12-22 | 2011-05-04 | 四川大学 | 一种基于频繁项集的多文档自动摘要方法 |
CN105760366A (zh) * | 2015-03-16 | 2016-07-13 | 国家计算机网络与信息安全管理中心 | 针对特定领域的新词发现方法 |
Non-Patent Citations (3)
Title |
---|
HUI XIONG ET AL: ""Hyperclique Pattern Discovery"", 《NETHERLANDS》 * |
TIANYI WU ET AL: ""Re-examination of interestingness measures in pattern mining: a unified framework"", 《SPRINGER》 * |
李明: ""针对特定领域的中文新词发现技术研究"", 《中国优秀硕士学位论文全文数据库》 * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107133317A (zh) * | 2017-05-03 | 2017-09-05 | 成都云数未来信息科学有限公司 | 一种基于新词的网络舆情主题抽取方法 |
CN107133317B (zh) * | 2017-05-03 | 2020-07-31 | 成都云数未来信息科学有限公司 | 一种通过新词抽取网络舆情主题的方法 |
CN109241296A (zh) * | 2018-09-14 | 2019-01-18 | 北京字节跳动网络技术有限公司 | 用于生成信息的方法和装置 |
CN109739953A (zh) * | 2018-12-30 | 2019-05-10 | 广西财经学院 | 基于卡方分析-置信度框架和后件扩展的文本检索方法 |
CN110619073A (zh) * | 2019-08-30 | 2019-12-27 | 北京影谱科技股份有限公司 | 一种基于Apriori算法的视频字幕网络用语词典构建方法和装置 |
CN110619073B (zh) * | 2019-08-30 | 2022-04-22 | 北京影谱科技股份有限公司 | 一种基于Apriori算法的视频字幕网络用语词典构建方法和装置 |
CN112349150A (zh) * | 2020-11-19 | 2021-02-09 | 飞友科技有限公司 | 一种机场航班保障时间节点的视频采集方法和系统 |
CN112349150B (zh) * | 2020-11-19 | 2022-05-20 | 飞友科技有限公司 | 一种机场航班保障时间节点的视频采集方法和系统 |
CN113099267A (zh) * | 2021-06-04 | 2021-07-09 | 武汉卓尔数字传媒科技有限公司 | 视频生成方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN106339481B (zh) | 2019-04-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106339481B (zh) | 基于最大置信度的中文复合新词发现方法 | |
CN101593200B (zh) | 基于关键词频度分析的中文网页分类方法 | |
Dong et al. | Tablesense: Spreadsheet table detection with convolutional neural networks | |
CN110738033B (zh) | 报告模板生成方法、装置及存储介质 | |
CN103886020B (zh) | 一种房地产信息快速搜索方法 | |
CN102194123A (zh) | 表格模板定义方法和装置 | |
CN111680506A (zh) | 数据库表的外键映射方法、装置、电子设备和存储介质 | |
CN113901214B (zh) | 表格信息的提取方法、装置、电子设备及存储介质 | |
CN107463624B (zh) | 一种基于社交媒体数据进行城市兴趣域识别的方法及系统 | |
CN109389050B (zh) | 一种流程图连接关系识别方法 | |
CN108228546A (zh) | 一种文本特征提取方法、装置、设备及可读存储介质 | |
CN107301426B (zh) | 一种鞋底花纹图像的多标签聚类方法 | |
CN103440315A (zh) | 一种基于主题的Web页面清洗方法 | |
Machanavajjhala et al. | Collective extraction from heterogeneous web lists | |
Lyu et al. | The early Japanese books reorganization by combining image processing and deep learning | |
Ye et al. | A unified scheme of text localization and structured data extraction for joint OCR and data mining | |
Schröder et al. | Supporting land reuse of former open pit mining sites using text classification and active learning | |
CN111161861A (zh) | 用于医院后勤运维的短文本数据处理方法、装置 | |
CN116343237A (zh) | 基于深度学习和知识图谱的票据识别方法 | |
CN103218420A (zh) | 一种网页标题提取方法及装置 | |
D’hondt et al. | Topic identification based on document coherence and spectral analysis | |
CN109740097B (zh) | 一种基于逻辑链接块的网页正文抽取方法 | |
CN116579429A (zh) | 一种建筑环境知识图谱构建方法及装置 | |
Gao et al. | Newspaper article reconstruction using ant colony optimization and bipartite graph | |
CN110377845B (zh) | 基于区间半监督lda的协同过滤推荐方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |