CN106802918A - 用于自然语言处理的领域词典生成系统 - Google Patents

用于自然语言处理的领域词典生成系统 Download PDF

Info

Publication number
CN106802918A
CN106802918A CN201611145025.6A CN201611145025A CN106802918A CN 106802918 A CN106802918 A CN 106802918A CN 201611145025 A CN201611145025 A CN 201611145025A CN 106802918 A CN106802918 A CN 106802918A
Authority
CN
China
Prior art keywords
text
word
distance
seed words
pending
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201611145025.6A
Other languages
English (en)
Inventor
张晓霞
刘世林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Business Big Data Technology Co Ltd
Original Assignee
Chengdu Business Big Data Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Business Big Data Technology Co Ltd filed Critical Chengdu Business Big Data Technology Co Ltd
Priority to CN201611145025.6A priority Critical patent/CN106802918A/zh
Publication of CN106802918A publication Critical patent/CN106802918A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/374Thesaurus
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及自然语言处理领域,特别涉及用于自然语言处理的领域词典生成系统;所述系统在自动区分文本主题领域的基础上,根据种子词进行对应领域词典的自动构建。用户将待处理文本和领域种子词输入本系统中,本系统在自动获取文本关键词的基础上对待处理文本进行聚类,进而分析出聚类后的主题文本集与所选领域种子词的关系远近,在关系较密切的主题文本集内结合算法进行词典的自动扩展。本发明系统在自动区分文本主题领域的基础上通过少量种子词实现领域词典的自动扩充;词典的构建效率较高,准确性高,领域的针对性很强;为文本分析和自然语言处理提供有力工具。

Description

用于自然语言处理的领域词典生成系统
技术领域
本发明自然语言处理领域,特别涉及用于自然语言处理的领域词典生成系统。
背景技术
大数据时代的到来为世界创造了新的机会,对大数据进行分析利用体现大数据的价值,自然语言处理在大数据分析中占据重要的地位,面对海量的网络文本资源,通过运用自然语言处理的分析方法自动地、智能提取出有用信息,或者判断出文本或者文本发布者所蕴含的某种情感倾向,无论是在舆情分析还是商业调查中都有着重要的实际应用意义。利用分析结果,可以对事情的发展演变进行或者用户喜好正确的预判,进而提前采取相应的措施来实现更大的正面效果。
自然语言处理中经常需要使用词典来进行对应的特征抽取,以词典中的词作为特征,通过词典匹配来抽取对应的特征词汇,在特征词汇抽取的基础上结合设定的模型或者算法来判定该文本对应的倾向或者性质,分析的可靠性大大增加。
然而现有的领域词典,却缺乏对具体问题的适用性,针对性不强。在分析具体领域或者具体话题时,使用现有的大而宽泛的领域词典,并不能够达到理想的分析效果,构建针对性的领域词典十分必要,然而手动构建词典非常的耗时耗力;不能满足海量文本分析的需求。这样的背景下如果能实现:根据用户具体分析需求快速构建针对性强的领域,将有极大节省全手动构建词典的人力物力,然而现有技术中还缺乏能够实现这类词典快速构建功能的相应工具。
发明内容
本发明的目的在于克服现有技术中所存在的上述不足,提供用于自然语言处理的领域词典生成系统,用户只需将待处理文本和领域种子词输入本系统中所述系统就可以实现在自动区分文本主题领域的基础上,根据种子词进行对应领域词典的自动构建。
为了实现上述发明目的,本发明提供了以下技术方案:用于自然语言处理的领域词典生成系统,所述系统在自动区分文本主题领域的基础上,根据种子词进行对应领域词典的自动构建;
所述词典构建包含以下实现过程:
(1)提取出待处理文本集中各文本的关键词;
(2)对待处理文本进行聚类,生成N个主题文本集,其中N为整数且N≥2;
(3)统计种子词在各主题文本集中出现的频率;将频率超过阈值的主题文本集保留,作为领域词典扩展的源文本集;
(4)计算种子词与源文本集的文本中各候选词的关联度,将关联度到达阈值的候选词作为领域词存入待扩充的词典中。
进一步的,所述步骤(1)中采用以下算法公式提取文本中关键词。所述算法的计算公式为:
TR(vi)是文本中词vi的重要性,d是阻尼系数,一般设置为0.85,N是无向图中所有词的个数,relat{vi}是与词vi有共现关系的词集合,vj是relat{vi}中的任意一个词,TR(vj)是vj的重要性,N(pj)是与vj有共现关系的词的个数。
进一步的,所述步骤(2)中对待处理文本聚类包含以下过程:
(2-1)初始时,每个待处理文本各自为一个类;
类间距离定义为两个类中两两文本对间距离的最大值,文本间距离的计算公式如下:
其中C(t1,t2)表示文本1和文本2之间的距离,t1∩t2表示文本1和文本2之间包含相同关键词的个数,mid(t1,t2)表示文本1和文本2中包含关键词的平均个数;类间距离计算公式如下:
Dist(ca,cb)=max{C(ta,tb),ta∈ca,tb∈cb}
其中,Dist(ca,cb)表示任意两个类簇之间的距离,ca和cb分别代表两个类,C(ta,tb)表示两个文本之间的距离,ta和tb分别表示两个文本,并且要求ta∈ca、tb∈cb(2-2)计算所有类两两之间的距离,将距离最小的类进行合并,命名为cnew;
(2-3)在待处理文本集中将已被合并的初始类簇删除,并将新类簇cnew加入到聚类结果中;
(2-4)重复步骤(2-1)至(2-3),直到待处理文本集中仅包含N个类簇时,停止聚类。此时待处理文本集中包含的是经过聚类后形成的N个主题,其中N的具体个数,根据实际应用所而自行设定。
作为一种优选:所述步骤(4)中候选词与种子词的关联度计算公式为:
其中p(word1,word2)为词word1和词word2共同出现的概率,p(word1)和p(word2)表示词word1和词word2分别出现的概率。
作为一种优选,所述步骤(2)中,N=3。
作为一种优选,所述步骤(3)中,仅保留种子词出现频率最高的主题文本集作为词典扩充的源文本集。
作为一种优选,所述步骤(4)中候选词与种子词的阈值设置为MI(word1,word2)=0.2,当文本集中词汇与种子词的关联度≥0.2时,就将该词作为扩展词汇添加到所要构建的词典中。
进一步的,所述词典生成系统为加载有上述功能的计算机或者服务器。
与现有技术相比,本发明的有益效果:本发明提供用于自然语言处理的领域词典生成系统,用户只需将待处理文本和领域种子词输入本系统中所述系统就可以实现在自动区分文本主题领域的基础上,根据种子词进行对应领域词典的自动构建。本发明系统自动区分待处理文本的主题类型,并根据种子词实现主题文本集与对应领域的自动匹配,在关系密切的主题文本集中来实现词典的词汇的扩展,词典构建的准确性更高。
本发明系统的种子词根据用户需要自行选取,种子词的选取可根据分析的具体方向而定,因此更加具有针对性,更加符合用户使用的需要。相比于普通的领域词典,本发明系统所构建的领域词典具有更强灵活。词典的实用性更强,更加适应于具体问题或者主题的文本分析。为自然语言处理提供可靠的词典自动生成工具。
附图说明:
图1为本发明系统的系统结构图。
图2为本发明系统词典构建的实现过程示意图。
图3为本发明系统词典构建步骤(4)的实现过程示意图。
具体实施方式
下面结合试验例及具体实施方式对本发明作进一步的详细描述。但不应将此理解为本发明上述主题的范围仅限于以下的实施例,凡基于本发明内容所实现的技术均属于本发明的范围。
提供用于自然语言处理的领域词典生成系统,所述系统在自动区分文本主题领域的基础上,根据种子词进行对应领域词典的自动构建。如图1所示,包括文本预处理系统和词典构建系统,所述文本预处理系统对待处理的文本进行包括分词、去高频词和去停用词的处理;所述词典构建系统根据领域种子词对领域词典进行自动扩充,构建出对应的领域词典。
为了实现上述发明目的,本发明提供了以下技术方案:用于自然语言处理的领域词典生成系统,词典包含如图2所示的以下实现步骤:
(1)提取出待处理文本集中各文本的关键词;待处理文本通过文本输入端口输入到预处理系统中进行预处理后,输入到词典构建系统中。
(2)对待处理文本进行聚类,形成N个主题文本集,其中N为≥2的整数。
(3)根据用户所选取的种子词,统计种子词在各主题文本集中出现的频率;将种子词出现频率超过阈值的主题文本集保留,作为领域词典扩展的源文本集。通过聚类对待处理文本集进行分类,形成了不同主题的文本集合,同一主题内的文本之间的关联程度更高,为后续的词典扩展进行了语料的准备和筛选。
通过聚类形成不同主题文本集后,经过计算种子词在主题文本关键词的出现频率,进而分析出不同主题与所构建词典领域之间的关系远近,将关系较远的文本集舍弃,这样在进行词典扩展时,只在领域较近的主题中进行,大大提高了词典扩展来源语料的质量,词典扩展的准确性显著提升,同时由于仅在于所扩展的领域最近的文本集中进行词典扩展,缩小了词典扩展时计算的范围,减少了词典扩展的计算量,提高了词典扩展的效率。
用户自行选取种子词的方式,对于具体领域或者问题的针对性更强,所构建的词典的适用更加灵活。
(4)计算种子词与源文本集的各词的关联度,将关联度到达设定阈值的词作为领域词存入待扩充的词典中。
进一步的,所述步骤(1)中采用以下算法公式提取文本中关键词。所述算法的计算公式为:
TR(vi)是文本中词vi的重要性。d是阻尼系数,一般设置为0.85。N是无向图中(将文本分词后,抽象成一个无向图,其中文本中的每个词是图中的一个节点)所有词的个数。relat{vi}是与词vi有共现关系的词集合。vj是relat{vi}中的任意一个词,TR(vj)是vj的重要性,N(pj)是与vj有共现关系的词的个数。
通过本计算公式进行迭代计算,抽取TR(vi)大于阈值的对应词作为该文本的关键词;通过关键词的自动抽取,为文本聚类进行准备。
进一步的,所述步骤(2)中对待处理文本聚类包含以下过程:
(2-1)初始时,每个待处理文本各自为一个类;
类间距离定义为两个类中两两文本对间距离的最大值,文本间距离的计算公式如下:
其中C(t1,t2)表示文本1和文本2之间的距离,t1∩t2表示文本1和文本2之间包含相同关键词的个数,mid(t1,t2)表示文本1和文本2中包含关键词的平均个数;类间距离计算公式如下:
Dist(ca,cb)=max{C(ta,tb),ta∈ca,tb∈cb}
其中,Dist(ca,cb)表示任意两个类簇之间的距离,ca和cb分别代表两个类,C(ta,tb)表示两个文本之间的距离,ta和tb分别表示两个文本,并且要求ta∈ca、tb∈cb(2-2)计算所有类两两之间的距离,将距离最小的类进行合并,命名为cnew;
(2-3)在待处理文本集中将已被合并的初始类簇删除,并将新类簇cnew加入到聚类结果中;
(2-4)重复步骤(2-1)至(2-3),直到待处理文本集中仅包含N个类簇时,停止聚类。此时待处理文本集中包含的是经过聚类后形成的N个主题,其中N的具体个数,根据实际应用而自行设定。
作为一种优选,所述步骤(2-4)N=3,将待处理文本集仅分为三个主题,方便后续计算。
作为一种优选;所述步骤(3)中,仅保留种子词出现频率最高的主题文本集作为词典扩充的源文本集;本步骤从个主题文本集中选取与种子词关系最密切的文本集,使得词典扩展的语料集更加符合领域的特点,词典的扩展质量更高,针对性更强。
作为一种优选:所述步骤(4)中词汇与种子词的关联度计算采用互信息的计算思想,所采用的计算公式为:
其中p(word1,word2)为词word1和词word2共同出现的概率,p(word1)和p(word2)表示词word1和词word2分别出现的概率。互信息算法对于分析词汇之间的关联度,算法简洁容易实现,计算效率较高;互信息是计算语言学模型的分析方法,它度量两个对象之间的相互性。在过滤问题中用于度量特征对于主题的区分度。在进行领域词典构建时,在用户自行选取种子词的基础上,利用互信息的方法来计算待扩充的词汇和现有种子词的相关性,相关度越高表示该词与种子词的关联性越高。
作为一种优选,所述步骤(4)的阈值设置为MI(word1,word2)=0.2,当文本集中候选词与种子词的关联度≥0.2时,就将该词作为扩展词汇添加到所要构建的词典中,所述步骤(4)的计算过程如图3所示。
进一步的,所述用于自然语言处理的领域词典生成系统为加载有上述功能的计算机或服务器。

Claims (8)

1.用于自然语言处理的领域词典生成系统,其特征在于,所述系统在自动区分待处理文本主题的基础上,根据种子词进行对应领域词典的自动构建;
所述词典构建包含以下实现过程:
(1)提取出待处理文本集中各文本的关键词;
(2)对待处理文本进行聚类,生成N个主题文本集,其中N为整数且N≥2;
(3)统计种子词在各主题文本集中出现的频率;将频率超过阈值的主题文本集作为领域词典扩展的源文本集;
(4)计算种子词与源文本集的文本中各候选词的关联度,将关联度到达阈值的候选词作为领域词存入待扩充的词典中。
2.如权利要求1所述的系统,所述步骤(1)中采用以下计算公式来提取关键词,所述公式为:
T R ( v i ) = 1 - d N + d Σ v j ∈ r e l a t { v i } T R ( v j ) N ( p j )
TR(vi)是文本中词vi的重要性,d是阻尼系数,一般设置为0.85,N是无向图中所有词的个数,relat{vi}是与词vi有共现关系的词集合,vj是relat{vi}中的任意一个词,TR(vj)是vj的重要性,N(pj)是与vj有共现关系的词的个数。
3.如权利要求2所述的系统,其特征在于:所述步骤(2)中对待处理文本聚类包含以下过程:
(2-1)初始时,每个待处理文本各自为一个类;
类间距离定义为两个类中两两文本对间距离的最大值,文本间距离的计算公式如下:
C ( t 1 , t 2 ) = t 1 ∩ t 2 m i d ( t 1 , t 2 )
其中C(t1,t2)表示文本1和文本2之间的距离,t1∩t2表示文本1和文本2之间包含相同关键词的个数,mid(t1,t2)表示文本1和文本2中包含关键词的平均个数;
类间距离计算公式如下:
Dist(ca,cb)=max{C(ta,tb),ta∈ca,tb∈cb}
其中,Dist(ca,cb)表示任意两个类簇之间的距离,ca和cb分别代表两个类,C(ta,tb)表示两个文本之间的距离,ta和tb分别表示两个文本,并且要求ta∈ca、tb∈cb(2-2)计算所有类两两之间的距离,将距离最小的类进行合并,命名为cnew;
(2-3)在待处理文本集中将已被合并的类簇删除,并将新类簇cnew加入到聚类结果中;
(2-4)重复步骤(2-1)至(2-3),直到待处理文本集中仅包含N个类簇时,停止聚类。
4.如权利要求3所述的系统,其特征在于:所述步骤(4)中候选词与种子词的关联度计算公式为:
M I ( w o r d 1 , w o r d 2 ) = l o g p ( w o r d 1 , w o r d 2 ) p ( w o r d 1 ) p ( w o r d 2 )
其中p(word1,word2)为词word1和词word2共同出现的概率,p(word1)和p(word2)表示词word1和词word2分别出现的概率。
5.如权利要求6所述的系统,其特征在于:所述步骤(2)中,N=3。
6.如权利要求6所述的系统,其特征在于:所述步骤(3)中,仅保留种子词出现频率最高的主题文本集作为词典扩充的源文本集。
7.如权利要求6所述的系统,其特征在于:所述步骤(4)中,待扩展词与种子词的关联度阈值设置为:0.2。
8.如权利要求1至7之一所述的系统,其特征在于,所述系统为加载有权利要求1至7之一所述功能的计算机或者服务器。
CN201611145025.6A 2016-12-13 2016-12-13 用于自然语言处理的领域词典生成系统 Pending CN106802918A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611145025.6A CN106802918A (zh) 2016-12-13 2016-12-13 用于自然语言处理的领域词典生成系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611145025.6A CN106802918A (zh) 2016-12-13 2016-12-13 用于自然语言处理的领域词典生成系统

Publications (1)

Publication Number Publication Date
CN106802918A true CN106802918A (zh) 2017-06-06

Family

ID=58984819

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611145025.6A Pending CN106802918A (zh) 2016-12-13 2016-12-13 用于自然语言处理的领域词典生成系统

Country Status (1)

Country Link
CN (1) CN106802918A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110457475A (zh) * 2019-07-25 2019-11-15 阿里巴巴集团控股有限公司 一种用于文本分类体系构建和标注语料扩充的方法和系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090094209A1 (en) * 2007-10-05 2009-04-09 Fujitsu Limited Determining The Depths Of Words And Documents
EP2515242A2 (en) * 2011-04-21 2012-10-24 Palo Alto Research Center Incorporated Incorporating lexicon knowledge to improve sentiment classification
CN104699667A (zh) * 2015-02-15 2015-06-10 深圳市前海安测信息技术有限公司 改进的基于语义词典的词语相似度计算方法和装置
CN105868185A (zh) * 2016-05-16 2016-08-17 南京邮电大学 一种购物评论情感分析中基于词性标注的词典构建方法
CN105893444A (zh) * 2015-12-15 2016-08-24 乐视网信息技术(北京)股份有限公司 情感分类方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090094209A1 (en) * 2007-10-05 2009-04-09 Fujitsu Limited Determining The Depths Of Words And Documents
EP2515242A2 (en) * 2011-04-21 2012-10-24 Palo Alto Research Center Incorporated Incorporating lexicon knowledge to improve sentiment classification
CN104699667A (zh) * 2015-02-15 2015-06-10 深圳市前海安测信息技术有限公司 改进的基于语义词典的词语相似度计算方法和装置
CN105893444A (zh) * 2015-12-15 2016-08-24 乐视网信息技术(北京)股份有限公司 情感分类方法及装置
CN105868185A (zh) * 2016-05-16 2016-08-17 南京邮电大学 一种购物评论情感分析中基于词性标注的词典构建方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
LIZHOU ZHENG: "Multi-dimensional Sentiment Analysis for Large-Scale E-commerce Reviews", 《INTERNATIONAL CONFERENCE ON DATABASE AND EXPERT SYSTEMS APPLICATIONS》 *
顾益军: "融合LDA与TextRank的关键词抽取研究", 《现代图书情报技术》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110457475A (zh) * 2019-07-25 2019-11-15 阿里巴巴集团控股有限公司 一种用于文本分类体系构建和标注语料扩充的方法和系统

Similar Documents

Publication Publication Date Title
CN107480143B (zh) 基于上下文相关性的对话话题分割方法和系统
CN104391942B (zh) 基于语义图谱的短文本特征扩展方法
Sunilkumar et al. A survey on semantic similarity
CN106610955A (zh) 基于词典的多维度情感分析方法
CN107491531A (zh) 基于集成学习框架的中文网络评论情感分类方法
CN107239439A (zh) 基于word2vec的舆情倾向性分析方法
CN106649662A (zh) 一种领域词典的构建方法
CN106681985A (zh) 基于主题自动匹配的多领域词典构建系统
CN105279252A (zh) 挖掘相关词的方法、搜索方法、搜索系统
CN108255813A (zh) 一种基于词频-逆文档与crf的文本匹配方法
CN102567308A (zh) 一种信息处理特征提取方法
CN108376133A (zh) 基于情感词扩充的短文本情感分类方法
CN112069312B (zh) 一种基于实体识别的文本分类方法及电子装置
WO2017198031A1 (zh) 解析语义的方法和装置
CN108549723B (zh) 一种文本概念分类方法、装置及服务器
CN106682128A (zh) 多领域词典自动构建方法
CN108363688A (zh) 一种融合先验信息的命名实体链接方法
CN106681986A (zh) 一种多维度情感分析系统
CN107526721A (zh) 一种对电商产品评论词汇的歧义消除方法及装置
CN110705285B (zh) 一种政务文本主题词库构建方法、装置、服务器及可读存储介质
CN115269816A (zh) 基于信息处理方法的核心人员挖掘方法、装置和存储介质
CN105243053A (zh) 提取文档关键句的方法及装置
Sagcan et al. Toponym recognition in social media for estimating the location of events
CN106355455A (zh) 一种从网购用户评论中抽取产品特征信息的方法
Pickard Comparing word2vec and GloVe for automatic measurement of MWE compositionality

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20170606