CN106202051B - 基于有向有权图发现新词的方法 - Google Patents
基于有向有权图发现新词的方法 Download PDFInfo
- Publication number
- CN106202051B CN106202051B CN201610575404.2A CN201610575404A CN106202051B CN 106202051 B CN106202051 B CN 106202051B CN 201610575404 A CN201610575404 A CN 201610575404A CN 106202051 B CN106202051 B CN 106202051B
- Authority
- CN
- China
- Prior art keywords
- node
- oriented
- neologisms
- graph
- collocation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
Abstract
本发明公开一种基于有向有权图发现新词的方法,本发明通过分词开源工具对语料进行分词,对分词的结果进行停用词过滤;根据分词结果建立词之间的关联关系以及权重,生成有向有权图;采用边权重门限阀值对有向有权图的边进行筛选,保留语料中同现频率比较高的词项搭配;筛选有向权重图中的孤立点以及自环,生成子图;根据子图中相邻节点间的边权重以及节点强度建立假设检验模型,从子图中筛选出可能的新词;根据词性标注规则对可能的新词进行筛选,生成最终的新词。本发明能够从语料库中准确地发现新词,减少了人工维护新词库的工作量,具有很好的可用性。
Description
技术领域
本发明涉及自然语言处理技术领域,特别涉及一种基于有向有权图发现新词的方法。
背景技术
新词发现作为自然语言处理领域的一项基础研究,深受学术界乃至企业界的关注。随着互联网以及各种社交媒体的发展,涌现了大量的新词,大量新词的出现使得现有的分词工具准确率下降,据统计,大约60%的分词错误是由于新词导致的。相比传统媒体,互联网媒体成为人们关注时事热点,发表观点的主要平台,互联网媒体(比如微博)传播速度迅速,传播群体广泛,与之涌现的新词也呈病毒传染的态势传播,其中如“马航”,“敬业福”,“微信收费”等,反映了民众的态度与看法。通过有效地发现新词,及时把握热点事件的关键词,对于热点事件发现以及热点事件预警监控具有重大的意义。
P2P借贷是新兴的一个金融服务行业,在美国,LeadingClub成立于2007年,目前已经是世界第一大借贷平台。P2P借贷行业作为新兴的行业,包含大量新词,同时更新频率快,其中如“羊毛党”,“微众银行”,“e租宝”,“跑路”等,这些新词反映了P2P借贷行业的发展,在该领域进行新词发现具有一定的挑战性。
在学术界,对于新词还没有一个明确的概念,在中文分词领域,有新词和未登录词两种概念,未登录词就是当前词库中“未登录”的词,新词属于未登录词的一种。目前新词发现的研究大体可以分为三种,其一是基于规则的方法,其二是基于统计的方法,其三是基于规则与统计相结合的方法。基于规则的方法准确率比较高,针对性强,但是维护规则的工作量比较大。基于统计的方法通过现有的分词工具对语料进行分词,根据分词结果进行统计从而发现新词,对语料的依赖性小,适应性比较强,然而准确率不高。基于规则与统计相结合的方法发挥了组合优势,目前大部分研究人员都采用规则与统计相结合的方法来发现新词。
综上,新词的涌现一般与事件热点的趋势是相适应的,有效地发现新词可以正确分析事件发展的脉络,以及有效地把握事件舆情动态,对于舆情预警监控具有重大的意义。新词发现一直是自然语言处理领域一项基础研究,目前对于新词发现已经有大量的研究。本发明根据P2P借贷资讯的内容,准确有效地发现新词,有效地把握P2P行业的热点,具有很好的可用性。
发明内容
本发明要解决的技术问题在于,提供一种基于有向有权图发现新词的方法,使更加准确地发现语料中的新词。
为解决上述技术问题,本发明提供如下技术方案:一种基于有向有权图发现新词的方法,包括以下步骤:
S1、获取语料,且采用分词开源工具对语料进行分词,过滤停用词;
S2、根据过滤后的分词结果,对滑动窗口范围内的词项建立有向边以及权重,根据有向边以及权重生成有向有权图;
S3、采用边权重门限阀值对有向有权图的边进行过滤,且保留语料中同现频率较高的词项搭配;
S4、根据过滤后的有向有权图,筛选有向有权图中的孤立点以及自环,生成有向有权图的子图;
S5、根据子图中相邻节点之间的边权重以及节点强度,验证该相邻节点是否属于新词搭配;
S6、根据词性标注规则对新词搭配进行筛选,生成最终的新词。
进一步地,所述步骤S1中的停用词包括语气词和标点符号。
进一步地,所述步骤S1中的分词结果,其表现形式为W=(W1,W2,...Wi...,Wn)以及T=(T1,T2,...Ti...,Tn),其中W表示词项集合,T表示词性集合。
进一步地,所述步骤S2中的有向有权图,其表现形式为G=<V,E>,其中V表示节点vi集合,所述词项搭配对应节点vi的标签属性,E表示有向边集合,所述词项搭配之间的同现关系组成所述有向边集合。
进一步地,所述步骤S2的具体方式为:
(5a)遍历有向有权图G=<V,E>,在集合V中查询是否存在节点vi的标签为Wi,如果存在节点vi的标签为Wi,返回节点vi,否则在有向图中创建节点vi,并标注其标签为Wi,返回节点vi;
(5b)设置滑动窗口长度l,或默认长度l设为1,重复步骤(5a),依次查询Wi+1、Wi+2、...、Wi+l是否存在于有向图中,若存在,返回有向有权图中对应的节点vi+1、vi+2、...、vi+l;
(5c)建立节点vi与节点vi+1、vi+2、...、vi+k、...、vi+l的有向边,若节点vi与节点vi+k在有向有权图中存在有向边,则节点vi与节点vi+k的边权重加1,否则,建立节点vi与节点vi+k的有向边,权重为1。
进一步地,所述步骤S4中的孤立点是指在有向有权图中度数为零时的节点,若有向有权图中存在某些边的权重低于门限阀值,则这些边在被过滤后产生孤立点。
进一步地,所述步骤S4中的自环是指所述有向有权图中一条边的起始节点和终止节点是同一个节点,所述自环由所述语料中的叠词产生。
进一步地,所述步骤S5的具体过程为:
(8a)计算相邻节点vi、节点vj的分布均值μ,计算方法如下:
μ=sisj/S2
式中,si为所述子图中节点vi的强度,sj为所述子图中节点vj的强度,S为所述子图中的节点总强度;
(8b)计算节点vi和节点vj的样本均值和样本方差s2,计算方法如下:
其中,wij为子图中节点vi和节点vj的边权重;
(8c)做零假设H0,
(8d)计算t检验值,具体计算方法如下:
(8e)检验零假设H0,具体检验过程如下:判断t检验值的绝对值是否大于t分布α的临界值,若大于,则接受零假设H0,即节点vi和节点vj对应的标签属性属于新词搭配;否则,则拒绝零假设H0,即节点vi和节点vj对应的标签属性不属于新词搭配。
进一步地,所述α=0.005,所述临界值设为2.576。
进一步地,所述步骤S6中的词性标注规则是指句法结构中的词性搭配规则,包括ANN、NN、ANN以及NPN,其中A表示形容词,N表示名词,P表示前置词。
采用上述技术方案后,本发明至少具有如下有益效果:
1、本发明在开源工具分词结果的基础上,对停用词进行过滤,降低了有向有权图的耦合度,提高了新词发现的准确性,同时提高了效率。
2、本发明设置滑动窗口长度,对固定滑动窗口范围内的词项建立关联关系,考虑了中文词项搭配的特征。
3、本发明采用边权重门限阀值对有向有权图的边进行过滤,降低了有向有权图的耦合度,提高了效率,同时减少次要词项搭配对新词发现的噪声影响,提高了新词发现的准确性。
4、本发明根据子图中相邻节点之间的边权重以及节点度数,采用统计学的t分布来检验相邻节点是否属于新词搭配,充分考虑有向有权图的节点特征,提高了新词发现的准确率。
5、本发明词性标注规则对全部新词搭配进行筛选,基于规则的方式进一步提高了新词发现的准确率。
6、本发明能够有效地,准确地发现P2P借贷行业的新词,把握P2P借贷行业的口碑以及走势,帮助民众理性投资,具有很好的可用性。
附图说明
图1为本发明基于有向有权图发现新词的方法的流程图。
图2为依照本发明基于有向有权图发现新词的一个实例。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互结合,下面结合附图和具体实施例对本申请作进一步详细说明。
实施例
如图1-图2所示,图1是本实施例一中公开的基于有向有权图的发现新词方法及各个相应步骤的流程图,所述方法包括以下步骤:
S1、获取语料,采用分词开源工具对语料进行分词,对分词的结果进行停用词过滤,如图2所述,分词结果包括“E”、“租宝”、“APPLE”、“PAY”、“蚂蚁”“金服”等;
S2、根据分词结果,对滑动窗口范围内的词项建立有向边以及权重,生成有向有权图,“E”和“租宝”、“APPLE”和“PAY”以及“蚂蚁”和“金服”各自生成带有权重的有向边;
S3、采用边权重门限阀值对有向有权图的边进行过滤,保留语料中的同现频率比较高的词项搭配;
S4、筛选有向权重图中的孤立点以及自环,生成有向有权图的子图;
S5、根据子图中相邻节点之间的边权重以及节点强度,验证该相邻节点是否属于新词搭配,通过假设检验,验证“E”和“租宝”属于新词搭配,“APPLE”和“PAY”以及“蚂蚁”和“金服”亦然;
S6、根据词性标注规则对新词搭配进行筛选,“E”和“租宝”“APPLE”和“PAY”以及“蚂蚁”和“金服”符合词性标注规则,生成最终的新词E租宝、APPLEPAY以及蚂蚁金服等。
其中,所述分词结果,表现形式为W=(W1,W2,...Wi...,Wn),T=(T1,T2,...Ti...,Tn)其中W表示词项集合,T表示词性集合。
进一步地,所述停用词是指在语料中应用非常广泛然而没有实际意义的词项,比如语气词,标点符号等。
进一步地,所述有向有权图,表现形式为G=<V,E>,其中V表示节点集合,语料分词结果中的词项对应节点的标签属性,其中E表示有向边集合,词项之间的同现关系组成有向边集合。
进一步地,所述步骤S2根据分词结果,对滑动窗口范围内的词建立有向边以及权重,生成有向有权图的具体过程为:
(1)第一步遍历有向有权图G=<V,E>,在集合V中查询是否存在节点的标签为Wi,如果存在节点vi的标签为Wi,返回节点vi,否则在有向图中创建节点vi,并标注其标签为Wi,返回节点vi;
(2)第二步设置滑动窗口长度l(默认长度为1),重复步骤(1),依次查询Wi+1,Wi+2,...,Wi+l是否存在有向图中,返回有向图中对应的节点vi+1,vi+2,...,vi+l;
(3)第三步建立节点vi与节点vi+1,vi+2,...,vi+k,...,vi+l的有向边,如果vi与vi+k在图中存在有向边,vi与vi+k的边权重加1,否则建立vi与vi+k的有向边,权重为1。
进一步地,所述孤立点是指在有向有权图中度数为零的节点,某些节点对的边权重低于门限阀值,这些边被过滤后产生孤立点。
进一步地,所述自环是指有向图中源节点以及目标节点属于同一个节点,主要是语料中的叠词会产生自环。
进一步地,所述步骤S5根据子图中相邻节点之间的边权重以及节点强度,验证该相邻节点是否属于新词搭配的具体过程为:
(1)第一步是计算节点vi和vj的分布均值μ,计算方法如下:
μ=sisj/S2,其中si为子图中节点vi的强度,sj为子图中节点vj的强度,S为子图中的总强度。
(2)第二步计算节点vi和vj的样本均值和样本方差s2,计算方法如下:
其中wij为子图中节点vi和节点vj的边权重。
(3)第二步是做零假设H0:
(4)第三步计算t检验值,具体计算方法如下:
(5)第四步是检验零假设H0,具体检验过程如下:
判断t检验值的绝对值是否大于t分布α=0.005的临界值(2.576),如果是,则接受零假设H0,即vi和vj对应的标签属性属于新词搭配,否则拒绝零假设H0,即vi和vj对应的标签属性不属于新词搭配。
进一步地,所述词性标注规则是指句法结构中的词性搭配规则,包括ANN,NN,ANN,NPN等,其中A表示形容词,N表示名词,P表示前置词。
上述方法可以准确地发现语料中的新词,具有很好的可用性。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解的是,在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种等效的变化、修改、替换和变型,本发明的范围由所附权利要求及其等同范围限定。
Claims (9)
1.一种基于有向有权图发现新词的方法,其特征在于,所述方法包括以下步骤:
S1、获取语料,且采用分词开源工具对语料进行分词,过滤停用词;
S2、根据过滤后的分词结果,对滑动窗口范围内的词项建立有向边以及权重,根据有向边以及权重生成有向有权图;
S3、采用边权重门限阀值对有向有权图的边进行过滤,且保留语料中同现频率较高的词项搭配;
S4、根据过滤后的有向有权图,筛选有向有权图中的孤立点以及自环,生成有向有权图的子图;
S5、根据子图中相邻节点之间的边权重以及节点强度,验证该相邻节点是否属于新词搭配;
(8a)计算相邻节点vi、节点vj的分布均值μ,计算方法如下:
μ=sisj/S2
式中,si为所述子图中节点vi的强度,sj为所述子图中节点vj的强度,S为所述子图中的节点总强度;
(8b)计算节点vi和节点vj的样本均值和样本方差s2,计算方法如下:
其中,wij为子图中节点vi和节点vj的边权重;
(8c)做零假设H0,
(8d)计算t检验值,具体计算方法如下:
(8e)检验零假设H0,具体检验过程如下:判断t检验值的绝对值是否大于t分布α的临界值,若大于,则接受零假设H0,即节点vi和节点vj对应的标签属性属于新词搭配;否则,则拒绝零假设H0,即节点vi和节点vj对应的标签属性不属于新词搭配
S6、根据词性标注规则对新词搭配进行筛选,生成最终的新词。
2.根据权利要求1所述的基于有向有权图发现新词的方法,其特征在于,所述步骤S1中的停用词包括语气词和标点符号。
3.根据权利要求1所述的基于有向有权图发现新词的方法,其特征在于,所述步骤S1中的分词结果,其表现形式为W=(W1,W2,...Wi...,Wn)以及T=(T1,T2,...Ti...,Tn),其中W表示词项集合,T表示词性集合。
4.根据权利要求3所述的基于有向有权图发现新词的方法,其特征在于,所述步骤S2中的有向有权图,其表现形式为G=<V,E>,其中V表示节点vi集合,所述词项搭配对应节点vi的标签属性,E表示有向边集合,所述词项搭配之间的同现关系组成所述有向边集合。
5.根据权利要求4所述的基于有向有权图发现新词的方法,其特征在于,所述步骤S2的具体方式为:
(5a)遍历有向有权图G=<V,E>,在集合V中查询是否存在节点vi的标签为Wi,如果存在节点vi的标签为Wi,返回节点vi,否则在有向图中创建节点vi,并标注其标签为Wi,返回节点vi;
(5b)设置滑动窗口长度l,或默认长度l设为1,重复步骤(5a),依次查询Wi+1、Wi+2、...、Wi+l是否存在于有向图中,若存在,返回有向有权图中对应的节点vi+1、vi+2、...、vi+l;
(5c)建立节点vi与节点vi+1、vi+2、...、vi+k、...、vi+l的有向边,若节点vi与节点vi+k在有向有权图中存在有向边,则节点vi与节点vi+k的边权重加1,否则,建立节点vi与节点vi+k的有向边,权重为1。
6.根据权利要求1所述的基于有向有权图发现新词的方法,其特征在于,所述步骤S4中的孤立点是指在有向有权图中度数为零时的节点,若有向有权图中存在某些边的权重低于门限阀值,则这些边在被过滤后产生孤立点。
7.根据权利要求1所述的基于有向有权图发现新词的方法,其特征在于,所述步骤S4中的自环是指所述有向有权图中一条边的起始节点和终止节点是同一个节点,所述自环由所述语料中的叠词产生。
8.根据权利要求7所述的基于有向有权图发现新词的方法,其特征在于,所述α=0.005,所述临界值设为2.576。
9.根据权利要求1所述的基于有向有权图发现新词的方法,其特征在于,所述步骤S6中的词性标注规则是指句法结构中的词性搭配规则,包括NN、ANN以及NPN,其中A表示形容词,N表示名词,P表示前置词。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610575404.2A CN106202051B (zh) | 2016-07-19 | 2016-07-19 | 基于有向有权图发现新词的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610575404.2A CN106202051B (zh) | 2016-07-19 | 2016-07-19 | 基于有向有权图发现新词的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106202051A CN106202051A (zh) | 2016-12-07 |
CN106202051B true CN106202051B (zh) | 2019-01-29 |
Family
ID=57491107
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610575404.2A Active CN106202051B (zh) | 2016-07-19 | 2016-07-19 | 基于有向有权图发现新词的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106202051B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118133817B (zh) * | 2024-05-07 | 2024-08-06 | 广东南方电信规划咨询设计院有限公司 | 基于有向图分析的新词检测方法及装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102298605A (zh) * | 2011-06-01 | 2011-12-28 | 清华大学 | 基于有向图非等概率随机搜索的图像自动标注方法及装置 |
CN103309852A (zh) * | 2013-06-14 | 2013-09-18 | 瑞达信息安全产业股份有限公司 | 一种基于统计和规则的特定领域的合成词发现方法 |
CN103678656A (zh) * | 2013-12-23 | 2014-03-26 | 合肥工业大学 | 一种基于重复字串的微博新词非监督自动抽取方法 |
CN103970733A (zh) * | 2014-04-10 | 2014-08-06 | 北京大学 | 一种基于图结构的中文新词识别方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3428554B2 (ja) * | 2000-02-29 | 2003-07-22 | 日本電気株式会社 | 意味ネットワーク自動作成装置及びコンピュータ可読記録媒体 |
KR20160015080A (ko) * | 2014-07-30 | 2016-02-12 | 경희대학교 산학협력단 | 유향 그래프 데이터베이스에서 순서를 고려한 동시발생 부분그래프 마이닝 기법 |
-
2016
- 2016-07-19 CN CN201610575404.2A patent/CN106202051B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102298605A (zh) * | 2011-06-01 | 2011-12-28 | 清华大学 | 基于有向图非等概率随机搜索的图像自动标注方法及装置 |
CN103309852A (zh) * | 2013-06-14 | 2013-09-18 | 瑞达信息安全产业股份有限公司 | 一种基于统计和规则的特定领域的合成词发现方法 |
CN103678656A (zh) * | 2013-12-23 | 2014-03-26 | 合肥工业大学 | 一种基于重复字串的微博新词非监督自动抽取方法 |
CN103970733A (zh) * | 2014-04-10 | 2014-08-06 | 北京大学 | 一种基于图结构的中文新词识别方法 |
Non-Patent Citations (2)
Title |
---|
中文词汇指示获取算法和语义计算研究及应用;刘兴林;《中国博士学位论文全文数据库 信息科技辑》;20121115;正文第13-30 |
基于词项共现关系图模型的中文观点句识别研究;王明文 等;《中文信息学报》;20151130;第29卷(第6期);第3.1节 |
Also Published As
Publication number | Publication date |
---|---|
CN106202051A (zh) | 2016-12-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105740228B (zh) | 一种互联网舆情分析方法及系统 | |
CN106202211B (zh) | 一种基于微博类型的集成微博谣言识别方法 | |
Murray et al. | Generating and validating abstracts of meeting conversations: a user study | |
CN104935570B (zh) | 基于网络流连接图的网络流连接行为特征分析方法 | |
CN104966031A (zh) | 安卓应用程序中非权限相关隐私数据的识别方法 | |
Rogers | Marginalizing the mainstream: How social media privilege political information | |
Forsberg et al. | From construction candidates to constructicon entries: An experiment using semi-automatic methods for identifying constructions in corpora | |
CN109583738A (zh) | 一种用于债券风险控制的装置及方法 | |
CN105376223B (zh) | 网络身份关系的可靠度计算方法 | |
US20100057720A1 (en) | Automatic lexicon generation system for detection of suspicious e-mails from a mail archive | |
Olivier et al. | Rules and the ruled: Understanding joint patterns of institutional design and behavior in complex governing arrangements | |
CN110489745A (zh) | 基于引文网络的论文文本相似性的检测方法 | |
CN107305545A (zh) | 一种基于文本倾向性分析的网络意见领袖的识别方法 | |
CN106384245A (zh) | 产品特征分析方法和系统 | |
Yamamura et al. | The Kyutech corpus and topic segmentation using a combined method | |
CN108596637A (zh) | 一种电商服务问题自动发现系统 | |
CN109101551A (zh) | 一种问答知识库的构建方法及装置 | |
Fraisier et al. | Uncovering like-minded political communities on twitter | |
CN106156117A (zh) | 面向特定主题的隐蔽社区核心交际圈检测发现方法和系统 | |
CN103279460A (zh) | 网购评论的分析处理方法 | |
CN106202051B (zh) | 基于有向有权图发现新词的方法 | |
CN107493275A (zh) | 异构网络安全日志信息的自适应提取和分析方法及系统 | |
Branz et al. | Sentiment analysis of twitter data: towards filtering, analyzing and interpreting social network data | |
Ramisch et al. | Picking them up and figuring them out: Verb-particle constructions, noise and idiomaticity | |
CN106294346A (zh) | 一种论坛帖子识别方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |