CN106682128A - 多领域词典自动构建方法 - Google Patents

多领域词典自动构建方法 Download PDF

Info

Publication number
CN106682128A
CN106682128A CN201611150855.8A CN201611150855A CN106682128A CN 106682128 A CN106682128 A CN 106682128A CN 201611150855 A CN201611150855 A CN 201611150855A CN 106682128 A CN106682128 A CN 106682128A
Authority
CN
China
Prior art keywords
text
word
field
words
distance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201611150855.8A
Other languages
English (en)
Inventor
张晓霞
刘世林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Business Big Data Technology Co Ltd
Original Assignee
Chengdu Business Big Data Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Business Big Data Technology Co Ltd filed Critical Chengdu Business Big Data Technology Co Ltd
Priority to CN201611150855.8A priority Critical patent/CN106682128A/zh
Publication of CN106682128A publication Critical patent/CN106682128A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/374Thesaurus

Abstract

本发明涉及自然语言处理领域,特别涉及多领域词典自动构建方法;在自动获取文本关键词的基础上,对待处理文本进行聚类,形成N个主题文本集;构建M个领域,选取各领域的种子词,依次统计各领域种子词在各主题文本集中出现的频率;将频率最高的主题文本集作为对应领域词典扩展的源文本集;计算各领域种子词与对应源文本集的文本中各候选词的关联度,将关联度到达设置阈值的候选词作为该领域词存入对应的词典中。本发明方法在自动区分文本主题领域的基础上,在较短的时间内可以构建数个词典,为相关的文本分析提供更多可用工具。也可以为某一具体分析提供更多分析维度,使得分析的视角更加全面,分析的结果更加准确。

Description

多领域词典自动构建方法
技术领域
本发明自然语言处理领域,特别涉及多领域词典自动构建方法。
背景技术
随着互联网的快速发展,产生了大量的、公开的网页数据,也因此催发了各种基于大数据技术的新兴产业,比如互联网医疗、互联网教育、企业或者个人征信等。这些互联网产业的兴起与繁荣离不开大量的数据信息分析。大数据分析中自然语言处理占据重要的地位,面对海量的网络文本资源通过运用自然语言处理分析方法自动地、智能抽取出我们所关心的信息,或判断出文本或者文本发布者所蕴含的某种情感倾向,无论是在舆情分析还是商业调查中都有着至关重要的实际应用意义。利用这些分析结果,可以对事情的发展演变进行正确的预判,进而提前采取相应的措施来实现更大的正面效果。
基于词典的分析方法在自然语言分析中具有重要的应用,以词典中的词作为特征,通过词典匹配来抽取对应的特征词汇,在特征词汇抽取的基础上结合设定的模型或者算法来判定该文本对应的倾向或者性质,分析的可靠性大大增加。基于情感词典的情感分析方法是有针对性的分析和挖掘,不同的领域所采取的词典也有很大的不同,目前现有的领域词典,却缺乏对具体问题的适用性,针对性不强。在分析具体领域或者具体话题时,使用现有的大而宽泛的领域词典,并不能够达到较好的分析效果,构建针对性的领域词典十分必要,然而手动构建词典非常的耗时耗力;不能满足海量文本分析的需求。
发明内容
本发明的目的在于克服现有技术中所存在的上述不足,提供多领域词典自动构建方法,在初始文本集中通过textrank方法自动获取文本关键词,对待处理文本进行聚类,形成N个领域或者主题文本集;根据分析需要,在M个领域中选取少量的对应领域种子词;逐个分析各领域种子词与主题文本集的关系远近,保留关系最近的文本集作为各领域词典扩展的源文本集;并结合互信息算法计算种子词与候选词的关联度,将关联度大于阈值的候选词添加到对应的领域词典中。
为了实现上述发明目的,本发明提供了以下技术方案:多领域词典自动构建方法,包含以下实现步骤:
(1)构建初始文本集;
(2)提取出初始文本集中各文本的关键词;
(3)对待处理文本进行聚类,生成N个主题文本集,其中N为整数且N≥2;
(4)构建M个领域,选取各领域的种子词,其中M为≤N的正整数;
(5)依次统计各领域种子词在各主题文本集中出现的频率;将频率最高的主题文本集作为对应领域词典扩展的源文本集;
(6)计算各领域种子词与对应源文本集的文本中各候选词的关联度,将关联度到达设置阈值的候选词作为该领域词存入对应的词典中。
具体的,本发明方法包含分词、去高频词、去停用词的预处理步骤。
进一步的,所述步骤(2)中采用以下算法公式提取文本中关键词。所述算法的计算公式为:
TR(vi)是文本中词vi的重要性,d是阻尼系数,一般设置为0.85,N是无向图中所有词的个数,relat{vi}是与词vi有共现关系的词集合,vj是relat{vi}中的任意一个词,TR(vj)是vj的重要性,N(pj)是与vj有共现关系的词的个数。
进一步的,所述步骤(3)中对待处理文本聚类包含以下过程:
(3-1)初始时,每个待处理文本各自为一个类;
类间距离定义为两个类中两两文本对间距离的最大值,文本间距离的计算公式如下:
其中C(t1,t2)表示文本1和文本2之间的距离,t1∩t2表示文本1和文本2之间包含相同关键词的个数,mid(t1,t2)表示文本1和文本2中包含关键词的平均个数;类间距离计算公式如下:
Dist(ca,cb)=max{C(ta,tb),ta∈ca,tb∈cb}
其中,Dist(ca,cb)表示任意两个类簇之间的距离,ca和cb分别代表两个类,C(ta,tb)表示两个文本之间的距离,ta和tb分别表示两个文本,并且要求ta∈ca、tb∈cb
(3-2)计算所有类两两之间的距离,将距离最小的类进行合并,命名为cnew;
(3-3)在待处理文本集中将已被合并的初始类簇删除,并将新类簇cnew加入到聚类结果中;
(3-4)重复步骤(3-1)至(3-3),直到待处理文本集中仅包含N个类簇时,停止聚类。此时待处理文本集中包含的是经过聚类后形成的N个主题,其中N的具体个数,根据实际应用所而自行设定。
作为一种优选,所述步骤(4)中,各领域所选取的种子词的个数为50-200个。
进一步的,所述步骤(4)顺序可移到所述步骤(1)、步骤(2)和,或者步骤(3)之前。
作为一种优选,所述步骤(5)中候选词与种子词的阈值设置为MI(word1,word2)=0.2,当文本集中词汇与种子词的关联度≥0.2时,就将该词作为扩展词汇添加到所要构建的词典中。
作为一种优选:所述步骤(6)中候选词与种子词的关联度计算公式为:
其中p(word1,word2)为词word1和词word2共同出现的概率,p(word1)和p(word2)表示词word1和词word2分别出现的概率。
与现有技术相比,本发明的有益效果:本发明提供多领域词典自动构建方法,在自动获取文本关键词的基础上,对待处理文本进行聚类,形成N个主题文本集;构建M个领域,选取各领域的种子词,次统计各领域种子词在各主题文本集中出现的频率;将频率最高的主题文本集作为对应领域词典扩展的源文本集;计算各领域种子词与对应源文本集的文本中各候选词的关联度,将关联度到达设置阈值的候选词作为该领域词存入对应的词典中。词典构建的准确性更强,构建效率更高。本发明方法种子词的选取可根据分析的具体方向而定,因此更加具有针对性,在种子词选取和领域自动发现的基础上,计算种子词与源文本集的文本中词的关联程度远近,保留关系密切的词作为该领域词典的扩充词;相比于普通的领域词典,本发明方法所构建的领域词典具有更强灵活。词典的实用性更强,更加适应于具体问题或者主题的文本分析。
此外本发明方法在较短的时间内可以构建数个词典,为相关的文本分析提供更多可用工具,也可以为某一具体分析提供更多分析维度,使得分析的视角更加全面,分析的结果更加准确。
附图说明:
图1为本领域词典的构建方法的实现步骤图。
图2为本领域词构建方法步骤(6)的实现过程图。
具体实施方式
下面结合试验例及具体实施方式对本发明作进一步的详细描述。但不应将此理解为本发明上述主题的范围仅限于以下的实施例,凡基于本发明内容所实现的技术均属于本发明的范围。
提供多领域词典自动构建方法,提供多领域词典自动构建方法,在初始文本集中通过textrank方法自动获取文本关键词,对待处理文本进行聚类,形成N个领域或者主题文本集;根据分析需要,在M个领域中选取少量的对应领域种子词;逐个分析各领域种子词与主题文本集的关系远近,保留关系最近的文本集作为各领域词典扩展的源文本集;并结合互信息算法计算种子词与候选词的关联度,将关联度大于阈值的候选词添加到对应的领域词典中。本发明方法在自动区分文本主题领域的基础上通过少量的部分种子词对想要构建的领域词典进行自动扩充;词典的构建效率较高,准确性高,领域的针对性很强;此外本发明方法在较短的时间内可以构建数个词典,为相关的文本分析提供更多可用工具,也可以为某一具体分析提供更多分析维度,使得分析的视角更加全面,分析的结果更加准确。在文本分析和自然语言处理领域有广泛的应用前景。
为了实现上述发明目的,本发明提供了以下技术方案:多领域词典自动构建方法,包含如图1所示的以下实现步骤:
(1)构建初始文本集;
(2)提取出初始文本集中各文本的关键词;
(3)对待处理文本进行聚类,生成N个主题文本集,其中N为整数且N≥2;
(4)构建M个领域,选取各领域的种子词,其中M为≤N的正整数;对于具体领域或者问题的针对性更强,所构建的词典的适用更加灵活。
(5)依次统计各领域种子词在各主题文本集中出现的频率;将频率最高的主题文本集作为对应领域词典扩展的源文本集;通过聚类对待处理文本集进行分类,形成了不同主题的文本集合,同一主题内的文本之间的关联程度更高,为后续的词典扩展进行了语料的准备和筛选。
通过聚类形成不同主题文本集后,经过计算种子词在主题文本关键词的出现频率,进而分析出不同主题与所构建词典领域之间的关系远近,将关系较远的文本集舍弃,这样在进行词典扩展时,只在领域较近的主题中进行,大大提高了词典扩展来源语料的质量,词典扩展的准确性显著提升,同时由于仅在于所扩展的领域最近的文本集中进行词典扩展,缩小了词典扩展时计算的范围,减少了词典扩展的计算量,提高了词典扩展的效率。
(6)计算各领域种子词与对应源文本集的文本中各候选词的关联度,将关联度到达设置阈值的候选词作为该领域词存入对应的词典中。
具体的,本发明方法包含分词、去高频词、去停用词的预处理步骤。
进一步的,所述步骤(2)中采用以下算法公式提取文本中关键词。所述算法的计算公式为:
TR(vi)是文本中词vi的重要性。d是阻尼系数,一般设置为0.85。N是无向图中(将文本分词后,抽象成一个无向图,其中文本中的每个词是图中的一个节点)所有词的个数。relat{vi}是与词vi有共现关系的词集合。vj是relat{vi}中的任意一个词,TR(vj)是vj的重要性,N(pj)是与vj有共现关系的词的个数。
通过本计算公式进行迭代计算,抽取TR(vi)大于阈值的对应词作为该文本的关键词;通过关键词的自动抽取,为文本聚类进行准备。
进一步的,所述步骤(3)中对待处理文本聚类包含以下过程:
(3-1)初始时,每个待处理文本各自为一个类;
类间距离定义为两个类中两两文本对间距离的最大值,文本间距离的计算公式如下:
其中C(t1,t2)表示文本1和文本2之间的距离,t1∩t2表示文本1和文本2之间包含相同关键词的个数,mid(t1,t2)表示文本1和文本2中包含关键词的平均个数;类间距离计算公式如下:
Dist(ca,cb)=max{C(ta,tb),ta∈ca,tb∈cb}
其中,Dist(ca,cb)表示任意两个类簇之间的距离,ca和cb分别代表两个类,C(ta,tb)表示两个文本之间的距离,ta和tb分别表示两个文本,并且要求ta∈ca、tb∈cb
(3-2)计算所有类两两之间的距离,将距离最小的类进行合并,命名为cnew;
(3-3)在待处理文本集中将已被合并的初始类簇删除,并将新类簇cnew加入到聚类结果中;
(3-4)重复步骤(3-1)至(3-3),直到待处理文本集中仅包含N个类簇时,停止聚类。此时待处理文本集中包含的是经过聚类后形成的N个主题,其中N的具体个数,根据实际应用而自行设定。
作为一种优选,所述步骤(4)中,所抽取的领域种子词的数量为50-200个。选取的种子词过少,将影响领域词典扩展的准确性,过多则将增加选取的人力和时间成本。
作为一种优选;所述步骤(5)中,仅保留种子词出现频率最高的主题文本集作为词典扩充的源文本集;
作为一种优选:所述步骤(6)中词汇与种子词的关联度计算采用互信息的计算思想,所采用的计算公式为:
其中p(word1,word2)为词word1和词word2共同出现的概率,p(word1)和p(word2)表示词word1和词word2分别出现的概率。互信息算法对于分析词汇之间的关联度,算法简洁容易实现,计算效率较高;互信息是计算语言学模型的分析方法,它度量两个对象之间的相互性。在过滤问题中用于度量特征对于主题的区分度。在进行领域词典构建时,在选取种子词的基础上,利用互信息的方法来计算待扩充的词汇和现有种子词的相关性,相关度越高表示该词与种子词的关联性越高。
作为一种优选,所述步骤(6)的阈值设置为MI(word1,word2)=0.2,当文本集中候选词与种子词的关联度≥0.2时,就将该词作为扩展词汇添加到所要构建的词典中,所述步骤(6)的计算过程如图2所示。
实施例1
根据多要分析的问题,初步选取1000件文本作为初始文本集;对初始文本集中的文本进行分词,去高频词和去停用词的预处理;在此基础上通过textrank算法来提取初始文本集各文本中的关键词;根据各文本关键词对初始文本集中的文本进行聚类,经过迭代聚类后剩下3个主题,假如第一主题集中包含350件文本,第二主题文本集中包含350件文本;第三主题文本集中包含300件文本。根据分析需要,欲设置两个领域词典,通过人工挑选,在第一个领域挑选50个种子词;在第二个领域中挑选出40个种子词。
先计算第一领域与聚类后主题集之间的远近:统计第一领域种子词在第一主题文本集中的出现频率;假设在第一主题文本集所包含的关键字总数为1000个,其中属于第一领域种子词的个数为310个,那么种子词出现的频率为310/1000=31%;第二主题集包含的关键字总数为1500个,其中属于第一领域种子词的个数为250个,对应的种子词的出现频率为250/1500≈16.67%;第三主题集中所包含的关键字总数为1200个,其中属于第一领域种子词的个数为100个,对应的种子词的出现概率为:100/1200≈8.33%;经过比较认为只有第一主题文本集与第一领域的相关度最高,将第一主题文本集作为第一领域词典扩展的源文本集;计算第一主题文集中各文本中各候选词与第一领域各种子种子词的关联程度,将关联程度大于阈值的候选词添加到第一领域词典中。
计算第二领域与聚类后主题集之间的远近,假设第一主题文本集中关键字属于第二领域的种子词的个数为100个,对应的种子词的出现频率为100/1000=10%;第二主题文本集中关键字属于第二领域的种子词的个数为600个,对应的种子词的出现频率为600/1500=40%;第三主题文本集中关键字属于第二领域的种子词的个数为80个,对应的种子词的出现频率为80/1200≈6.67%;经过比较认为只有第二主题文本集与第二领域的相关度最高,将第二主题文本集作为第二领域词典扩展的源文本集;计算第二主题文集中各文本中各候选词与第二领域各种子种子词的关联程度,将关联程度大于阈值的候选词添加到第二领域词典中。
经过上面的分析过程,自动建立了两个领域词典。
在某些分析中,可能需要对同一个事件或者统一类对象去分析和挖掘不同方向的信息,比如对一件事情的正向和反向情绪分析,这样就可能需要不同的词典来抽取对应的特征,通过本发明方法构建可以快速的构建起对应分析方向的词典,为多方位,全面,客观的文本分析提供有力的工具。

Claims (7)

1.多领域词典自动构建方法,其特征在于,包含以下实现步骤:
(1)构建初始文本集;
(2)提取出初始文本集中各文本的关键词;
(3)对待处理文本进行聚类,生成N个主题文本集,其中N为整数且N≥2;
(4)构建M个领域,选取各领域的种子词,其中M为≤N的正整数;
(5)依次统计各领域种子词在各主题文本集中出现的频率;将频率最高的主题文本集作为对应领域词典扩展的源文本集;
(6)计算各领域种子词与对应源文本集的文本中各候选词的关联度,将关联度到达设置阈值的候选词作为该领域词存入对应的词典中。
2.如权利要求1所述的方法,其特征在于,所述步骤(2)之前包含:分词、去高频词、去停用词的预处理步骤。
3.如权利要求1所述的方法,所述步骤(2)中采用以下计算公式来提取关键词,所述公式为:
T R ( v i ) = 1 - d N + d Σ v j ∈ r e l a t { v i } T R ( v j ) N ( p j )
TR(vi)是文本中词vi的重要性,d是阻尼系数,一般设置为0.85,N是无向图中所有词的个数,relat{vi}是与词vi有共现关系的词集合,vj是relat{vi}中的任意一个词,TR(vj)是vj的重要性,N(pj)是与vj有共现关系的词的个数。
4.如权利要求3所述的方法,其特征在于:所述步骤(3)中对待处理文本聚类包含以下过程:
(3-1)初始时,每个待处理文本各自为一个类;
类间距离定义为两个类中两两文本对间距离的最大值,文本间距离的计算公式如下:
C ( t 1 , t 2 ) = t 1 ∩ t 2 m i d ( t 1 , t 2 )
其中C(t1,t2)表示文本1和文本2之间的距离,t1∩t2表示文本1和文本2之间包含相同关键词的个数,mid(t1,t2)表示文本1和文本2中包含关键词的平均个数;
类间距离计算公式如下:
Dist(ca,cb)=max{C(ta,tb),ta∈ca,tb∈cb}
其中,Dist(ca,cb)表示任意两个类簇之间的距离,ca和cb分别代表两个类,C(ta,tb)表示两个文本之间的距离,ta和tb分别表示两个文本,并且要求ta∈ca、tb∈cb
(3-2)计算所有类两两之间的距离,将距离最小的类进行合并,命名为cnew;
(3-3)在待处理文本集中将已被合并的类簇删除,并将新类簇cnew加入到聚类结果中;
(3-4)重复步骤(3-1)至(3-3),直到待处理文本集中仅包含N个类簇时,停止聚类。
5.如权利要求4所述的方法,其特征在于:所述步骤(6)中候选词与种子词的关联度计算公式为:
M I ( w o r d 1 , w o r d 2 ) = l o g p ( w o r d 1 , w o r d 2 ) p ( w o r d 1 ) p ( w o r d 2 )
其中p(word1,word2)为词word1和词word2共同出现的概率,p(word1)和p(word2)表示词word1和词word2分别出现的概率。
6.如权利要求5所述的方法,其特征在于:所述步骤(4)中,所选取的种子词的个数为50-200个。
7.如权利要求6所述的方法,其特征在于:所述步骤(6)中,待扩展词与种子词的关联度阈值设置为:0.2。
CN201611150855.8A 2016-12-13 2016-12-13 多领域词典自动构建方法 Pending CN106682128A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611150855.8A CN106682128A (zh) 2016-12-13 2016-12-13 多领域词典自动构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611150855.8A CN106682128A (zh) 2016-12-13 2016-12-13 多领域词典自动构建方法

Publications (1)

Publication Number Publication Date
CN106682128A true CN106682128A (zh) 2017-05-17

Family

ID=58869116

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611150855.8A Pending CN106682128A (zh) 2016-12-13 2016-12-13 多领域词典自动构建方法

Country Status (1)

Country Link
CN (1) CN106682128A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110674243A (zh) * 2019-07-02 2020-01-10 厦门耐特源码信息科技有限公司 一种基于动态k-均值算法的语料库索引构建方法
CN111274404A (zh) * 2020-02-12 2020-06-12 杭州量知数据科技有限公司 一种基于人机协同的小样本实体多领域分类方法
CN111538839A (zh) * 2020-05-25 2020-08-14 武汉烽火普天信息技术有限公司 一种基于杰卡德距离的实时文本聚类方法
CN112395408A (zh) * 2020-11-19 2021-02-23 平安科技(深圳)有限公司 停用词表生成方法、装置、电子设备及存储介质
CN112926319A (zh) * 2021-02-26 2021-06-08 北京百度网讯科技有限公司 一种领域词汇的确定方法、装置、设备以及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009026850A1 (en) * 2007-08-23 2009-03-05 Google Inc. Domain dictionary creation
CN103544246A (zh) * 2013-10-10 2014-01-29 清华大学 互联网多种情感词典构建方法及系统
CN105005553A (zh) * 2015-06-19 2015-10-28 四川大学 基于情感词典的短文本情感倾向分析方法
CN105893444A (zh) * 2015-12-15 2016-08-24 乐视网信息技术(北京)股份有限公司 情感分类方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009026850A1 (en) * 2007-08-23 2009-03-05 Google Inc. Domain dictionary creation
CN103544246A (zh) * 2013-10-10 2014-01-29 清华大学 互联网多种情感词典构建方法及系统
CN105005553A (zh) * 2015-06-19 2015-10-28 四川大学 基于情感词典的短文本情感倾向分析方法
CN105893444A (zh) * 2015-12-15 2016-08-24 乐视网信息技术(北京)股份有限公司 情感分类方法及装置

Non-Patent Citations (9)

* Cited by examiner, † Cited by third party
Title
LIZHOU ZHENG: "Multi-dimensional Sentiment Analysis for Large-Scale E-commerce Reviews", 《INTERNATIONAL CONFERENCE ON DATABASE AND EXPERT SYSTEMS APPLICATIONS》 *
刘端阳等: "结合语义扩展度和词汇链的关键词提取算法", 《计算机科学》 *
唐浩浩等: "基于词亲和度的微博词语语义倾向识别算法", 《数据采集与处理》 *
廖祥文等: "基于句型结构的领域倾向词表构建", 《福州大学学报(自然科学版)》 *
徐睿峰等: "一种基于情绪表达与情绪认知分离的新型情绪词典", 《中文信息学报》 *
柳位平等: "中文基础情感词词典构建方法研究", 《计算机应用》 *
董丽丽等: "基于领域本体、情感词典的商品评论倾向性分析", 《计算机应用与软件》 *
赵军等: "一种改进的融合关联词典的微博倾向性分析方法", 《数据采集与处理》 *
顾益军: "融合LDA与TextRank的关键词抽取研究", 《现代图书情报技术》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110674243A (zh) * 2019-07-02 2020-01-10 厦门耐特源码信息科技有限公司 一种基于动态k-均值算法的语料库索引构建方法
CN111274404A (zh) * 2020-02-12 2020-06-12 杭州量知数据科技有限公司 一种基于人机协同的小样本实体多领域分类方法
CN111274404B (zh) * 2020-02-12 2023-07-14 杭州量知数据科技有限公司 一种基于人机协同的小样本实体多领域分类方法
CN111538839A (zh) * 2020-05-25 2020-08-14 武汉烽火普天信息技术有限公司 一种基于杰卡德距离的实时文本聚类方法
CN112395408A (zh) * 2020-11-19 2021-02-23 平安科技(深圳)有限公司 停用词表生成方法、装置、电子设备及存储介质
CN112395408B (zh) * 2020-11-19 2023-11-07 平安科技(深圳)有限公司 停用词表生成方法、装置、电子设备及存储介质
CN112926319A (zh) * 2021-02-26 2021-06-08 北京百度网讯科技有限公司 一种领域词汇的确定方法、装置、设备以及存储介质
CN112926319B (zh) * 2021-02-26 2024-01-12 北京百度网讯科技有限公司 一种领域词汇的确定方法、装置、设备以及存储介质

Similar Documents

Publication Publication Date Title
CN106610955A (zh) 基于词典的多维度情感分析方法
CN106682128A (zh) 多领域词典自动构建方法
CN106681985A (zh) 基于主题自动匹配的多领域词典构建系统
CN106649662A (zh) 一种领域词典的构建方法
CN108920466A (zh) 一种基于word2vec和TextRank的科技文本关键词提取方法
CN110851176B (zh) 一种自动构造并利用伪克隆语料的克隆代码检测方法
CN103399901A (zh) 一种关键词抽取方法
CN109885675B (zh) 基于改进lda的文本子话题发现方法
CN106681986A (zh) 一种多维度情感分析系统
CN104361037B (zh) 微博分类方法及装置
CN111382276B (zh) 一种事件发展脉络图生成方法
CN103473262A (zh) 一种基于关联规则的Web评论观点自动分类系统及分类方法
CN112069312B (zh) 一种基于实体识别的文本分类方法及电子装置
CN107943786A (zh) 一种中文命名实体识别方法及系统
CN110910175A (zh) 一种旅游门票产品画像生成方法
CN107967337A (zh) 一种基于情感极性增强语义的跨领域情感分析方法
CN104572633A (zh) 一种确定多义词词义的方法
Bui et al. A multi-criteria document clustering method based on topic modeling and pseudoclosure function
CN109145083A (zh) 一种基于深度学习的候选答案选取方法
Sagcan et al. Toponym recognition in social media for estimating the location of events
Soni et al. Emotion based social media text classification using optimized improved ID3 classifier
Sahmoud et al. At-odtsa: a dataset of arabic tweets for open domain targeted sentiment analysis
CN110941703A (zh) 一种基于机器学习和模糊规则的集成简历信息抽取方法
Munarko et al. Named entity recognition model for Indonesian tweet using CRF classifier
Hassanpour et al. A signal processing method for text language identification

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20170517

WD01 Invention patent application deemed withdrawn after publication