CN110516250B - 新词的发现方法和装置 - Google Patents
新词的发现方法和装置 Download PDFInfo
- Publication number
- CN110516250B CN110516250B CN201910809204.2A CN201910809204A CN110516250B CN 110516250 B CN110516250 B CN 110516250B CN 201910809204 A CN201910809204 A CN 201910809204A CN 110516250 B CN110516250 B CN 110516250B
- Authority
- CN
- China
- Prior art keywords
- text
- processed
- unit
- basic
- basic units
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 80
- 239000013598 vector Substances 0.000 claims abstract description 83
- 239000011159 matrix material Substances 0.000 claims description 33
- 230000009467 reduction Effects 0.000 claims description 26
- 238000004364 calculation method Methods 0.000 claims description 17
- 238000012216 screening Methods 0.000 claims description 15
- 238000012545 processing Methods 0.000 claims description 14
- 238000007781 pre-processing Methods 0.000 claims description 11
- 238000000354 decomposition reaction Methods 0.000 claims description 6
- 238000005516 engineering process Methods 0.000 abstract description 6
- 230000003993 interaction Effects 0.000 description 9
- 241000109329 Rosa xanthina Species 0.000 description 8
- 235000004789 Rosa xanthina Nutrition 0.000 description 8
- 230000008569 process Effects 0.000 description 8
- 230000011218 segmentation Effects 0.000 description 6
- 238000007711 solidification Methods 0.000 description 6
- 230000008023 solidification Effects 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 238000003058 natural language processing Methods 0.000 description 4
- 241000239290 Araneae Species 0.000 description 3
- 238000001914 filtration Methods 0.000 description 3
- 230000008014 freezing Effects 0.000 description 3
- 238000007710 freezing Methods 0.000 description 3
- 235000019580 granularity Nutrition 0.000 description 3
- 238000003062 neural network model Methods 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 241000284156 Clerodendrum quadriloculare Species 0.000 description 2
- 241000220317 Rosa Species 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000011946 reduction process Methods 0.000 description 2
- 241000736199 Paeonia Species 0.000 description 1
- 235000006484 Paeonia officinalis Nutrition 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000010187 selection method Methods 0.000 description 1
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供一种新词的发现方法和装置,从文本集合中获取待处理文本后,利用词汇库将待处理文本划分为多个基本单元,然后根据文本集合,计算待处理文本中每两个基本单元之间的关联程度指标,根据待处理文本中每两个基本单元之间的关联程度指标,生成待处理文本中每一个基本单元的特征向量,进而利用各个基本单元的特征向量,计算得到每两个相邻的基本单元之间的相似度;根据待处理文本中每两个相邻的基本单元之间的相似度拆分待处理文本,得到多个子文本,最后将多个子文本作为新词加入所述词汇库。本申请提供的新词发现方法能够直接从无标注的文本集合中发现新词,从而解决基于人为标注的文本实现的现有的新词发现技术效率较低的问题。
Description
技术领域
本发明涉及数据挖掘技术领域,特别涉及一种新词的发现方法和装置。
背景技术
目前,随着互联网的迅猛发展和普及,网络中涌现出大量的不存在与传统词典中的新词,包括一些过去从未出现过的,由互联网用户创造的具有特殊含义的网络新词,以及由新出现的人物、地点和机构的名称构成的专有名词等。另一方面,在人机交互的过程中,计算机往往需要基于一个词汇库来分析输入的文本。
因此,为了提高人机交互的效率和准确性,有必要持续的从网络上的不断产生的文本中提取出新词以扩充原有的词汇库。
目前的新词发现方法,一般需要人为的在文本中标注出新词,用这些标注好的文本训练一个神经网络模型,最后再用训练好的神经网络模型去发现新词。然而,要训练一个神经网络模型需要人为标注大量的文本,导致这种现有的新词发现方法的效率较低。
发明内容
基于上述现有技术的缺点,本发明提供一种新词的发现方法和装置,以解决现有的基于预先标注的文本的新词发现方法效率低下的问题。
为实现上述目的,本发明实施例提供如下技术方案:
本申请第一方面提供一种新词发现方法,包括:
从文本集合中获取待处理文本;
利用预设的词汇库,将所述待处理文本划分为多个基本单元;其中,每个所述基本单元均包括至少一个连续的汉字;
根据所述文本集合,计算所述待处理文本中每两个基本单元之间的关联程度指标;
生成所述待处理文本的每一个基本单元的特征向量;其中,任意一个所述基本单元的特征向量,根据所述基本单元与其他基本单元之间的关联程度指标生成;所述其他基本单元指代除所述基本单元以外的每一个基本单元;
针对所述待处理文本中的每两个相邻的基本单元,根据所述两个相邻的基本单元的特征向量,计算得到所述两个相邻的基本单元之间的相似度;
根据所述待处理文本中每两个相邻的基本单元之间的相似度,拆分所述待处理文本,得到多个子文本;其中,每一个所述子文本均包括至少两个连续的所述基本单元;
将所述多个子文本作为新词加入所述词汇库。
可选的,所述根据所述文本集合,计算所述待处理文本中每两个基本单元之间的关联程度指标,包括:
统计所述文本集合中,携带有第一基本单元的文本的数量,携带有第二基本单元的数量,以及携带有第一基本单元和第二基本单元的文本的数量,得到统计结果;其中,所述第一基本单元和所述第二基本单元,指代所述待处理文本中的任意两个基本单元;
根据所述统计结果,以及所述文本集合包括的文本的数量,计算所述第一基本单元和第二基本单元的关联程度指标。
可选的,所述根据预设的词汇库,将所述待处理文本划分为多个基本单元之前,还包括:
删除所述待处理文本中的符号,以及除汉字以外的其他文字,得到删除后的待处理文本;
所述根据预设的词汇库,将所述待处理文本划分为多个基本单元,包括:
根据预设的词汇库,将所述删除后的待处理文本划分为多个基本单元。
可选的,所述根据预设的词汇库,将所述待处理文本划分为多个基本单元之前,还包括:
将所述待处理文本中的每一个繁体字,均转换为对应的简体字,得到转换后的待处理文本;
所述根据预设的词汇库,将所述待处理文本划分为多个基本单元,包括:
根据预设的词汇库,将所述转换后的待处理文本划分为多个基本单元。
可选的,所述针对所述待处理文本中的每两个相邻的基本单元,根据所述两个相邻的基本单元的特征向量,计算得到所述两个相邻的基本单元之间的相似度之前,还包括:
对所述待处理文本的特征矩阵进行奇异值分解,得到所述待处理文本的特征矩阵的特征值;其中,所述待处理文本的特征矩阵由所述待处理文本的每一个基本单元的特征向量组成;
根据所述待处理文本的特征矩阵的特征值,以及所述待处理文本的文本长度,对所述待处理文本的每一个基本单元的特征向量进行降维处理,得到每一个基本单元的降维特征向量;
其中,所述针对所述待处理文本中的每两个相邻的基本单元,根据所述两个相邻的基本单元的特征向量,计算得到所述两个相邻的基本单元之间的相似度,包括:
针对所述待处理文本中的每两个相邻的基本单元,根据所述两个相邻的基本单元的降维特征向量,计算得到所述两个相邻的基本单元之间的相似度。
可选的,所述将所述多个子文本作为新词加入所述词汇库之前,还包括:
计算每一个所述子文本的关联统计指标;
从所述多个子文本中,筛选出关联统计指标大于关联统计指标阈值的子文本;
所述将所述多个子文本作为新词加入所述词汇库,包括:
将所述多个子文本中,关联统计指标大于所述关联统计指标阈值的子文本作为新词加入所述词汇库。
本申请第二方面提供一种新词的发现装置,包括:
获取单元,用于从文本集合中获取待处理文本;
划分单元,用于利用预设的词汇库,将所述待处理文本划分为多个基本单元;其中,每个所述基本单元均包括至少一个连续的汉字;
第一计算单元,用于根据所述文本集合,计算所述待处理文本中每两个基本单元之间的关联程度指标;
生成单元,用于生成所述待处理文本的每一个基本单元的特征向量;其中,任意一个所述基本单元的特征向量,根据所述基本单元与其他基本单元之间的关联程度指标生成;所述其他基本单元指代除所述基本单元以外的每一个基本单元;
第二计算单元,用于针对所述待处理文本中的每两个相邻的基本单元,根据所述两个相邻的基本单元的特征向量,计算得到所述两个相邻的基本单元之间的相似度;
拆分单元,用于根据所述待处理文本中每两个相邻的基本单元之间的相似度拆分所述待处理文本,得到多个子文本;其中,每一个所述子文本均包括至少两个连续的所述基本单元;
更新单元,用于将所述多个子文本作为新词加入所述词汇库。
可选的,所述第一计算单元,包括:
统计单元,用于统计所述文本集合中,携带有第一基本单元的文本的数量,携带有第二基本单元的数量,以及携带有第一基本单元和第二基本单元的文本的数量,得到统计结果;其中,所述第一基本单元和所述第二基本单元,指代所述待处理文本中的任意两个基本单元;
子计算单元,用于根据所述统计结果,以及所述文本集合包括的文本的数量,计算所述第一基本单元和第二基本单元的关联程度指标。
可选的,所述新词发现装置,还包括:
预处理单元,用于删除所述待处理文本中的符号,以及除汉字以外的其他文字,得到删除后的待处理文本;
其中,所述划分单元根据预设的词汇库,将所述待处理文本划分为多个基本单元时,具体用于:
根据预设的词汇库,将所述删除后的待处理文本划分为多个基本单元。
可选的,所述发现装置,还包括:
预处理单元,用于将所述待处理文本中的每一个繁体字,均转换为对应的简体字,得到转换后的待处理文本;
其中,所述划分单元根据预设的词汇库,将所述待处理文本划分为多个基本单元时,具体用于:
根据预设的词汇库,将所述转换后的待处理文本划分为多个基本单元。
从上述技术方案可以看出,本申请提供一种新词的发现方法和装置,从文本集合中获取待处理文本后,利用词汇库将待处理文本划分为多个基本单元,然后根据文本集合,计算待处理文本中每两个基本单元之间的关联程度指标,根据待处理文本中每两个基本单元之间的关联程度指标,生成待处理文本中每一个基本单元的特征向量,进而利用各个基本单元的特征向量,计算得到每两个相邻的基本单元之间的相似度;根据待处理文本中每两个相邻的基本单元之间的相似度拆分待处理文本,得到多个子文本,最后将多个子文本作为新词加入所述词汇库。本申请提供的新词发现方法能够直接从无标注的文本集合中发现新词,从而解决基于人为标注的文本实现的现有的新词发现技术效率较低的问题。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请实施例提供的一种新词的发现方法的流程示意图;
图2为本申请实施例提供的一种基于基本词汇的待处理文本的最小粒度分割方法的流程图;
图3为本申请实施例提供的一种计算待处理文本中两个基本单元之间的关联程度指标的方法的流程图;
图4为本申请实施例提供的一种对基本单元的特征向量进行降维处理的方法的流程图;
图5为本申请实施例提供的一种根据关联统计指标筛选新词的方法的流程图;
图6为本申请实施例提供的一种新词的发现装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域技术将涉及自然语言,即人们日常使用的语言。自然语言处理技术通常包括文本处理、语义理解等技术。
具体的,文本处理可以应用于互联网的各种搜索引擎中。例如,用户可以在搜索引擎提供的对话框中输入一个搜索文本(例如,输入一句话),搜索引擎利用文本处理技术从搜索文本中提取出多个关键词,然后以这些关键词作为索引从互联网中抓取相关信息,然后将这些信息作为搜索结果提供给用户。
其中,从搜索文本中提取关键词的过程,需要依赖一个预设的词汇库进行,并且,这个词汇库中词汇的数量和种类直接关系到提取关键词的效率和准确性。
尤其是随着互联网用户的增多,网络上出现了大量由用户新造的并赋予其特定含义的词汇,以及一些用于指代新出现的人物、地点和机构的词汇,这就是所谓的新词,若词汇库中未记录这些新词,搜索引擎在分析携带有新词的搜索文本时就会将这些新词拆分成若干个更短的词或字,从而导致最终的搜索结果不满足用户的搜索意图。因此,就需要一种从大量文本中识别出新词,从而利用这些新词更新原有词汇库的技术,这就是新词发现技术。
现有的新词发现技术,一般需要人为的标注大量的文本,然后用这些标注后的文本去训练一个神经网络,最后才能用这个神经网络去进行新词发现。然而,互联网上每天都会产生海量文本,这就导致基于人工标注的文本的方法的效率较低。
综上所述,本申请实施例提供一种新词发现方法,以克服现有技术缺点,提供一种高效率的新词发现技术,如图1所示,该方法包括如下步骤:
S101、从文本集合中获取待处理文本。
其中,文本集合由多个预先采集的文本构成。获取文本集合的渠道可以根据本实施例提供的新词发现技术实际应用的领域来确定。例如,若本申请实施例提供的新词发现技术主要应用于搜索引擎中,那么,上述文本集合可以是,从当天开始,过去若干天内(例如,过去的两周内)用户在搜索引擎中输入的搜索文本的集合。
文本集合相当于是由多个句子构成的集合,待处理文本就是其中的任意一个句子。
例如,用户想查找某个明星主演的电影,就会在搜索引擎的输入框中输入“XX明星主演的电影有哪些”,这句话就是一个搜索文本,类似的,用户查找前往某地的路线时,会输入“YY公司怎么去”,这也是一个搜索文本。
将本实施例提供的新词发现技术应用于搜索引擎的文本处理时,步骤S101中提及的文本集合,就可以是最近的一段时间内所有用户在搜索引擎中输入的,类似上述例子的搜索文本。
待处理文本可以是文本集合中的任意一个文本。当然,本实施例提供的方法也可以将文本集合中的每一个文本均作为待处理文本进行处理。
S102、利用预设的词汇库,将待处理文本划分为多个基本单元。
其中,每一个基本单元均包括至少一个连续的文字。
词汇库中记录有多个汉字以及中文词汇。
中文语境下,有许多词汇是可以被进一步的分解为两个或者或多个部分,并且每一个部分都有特定含义的,例如:“电影院”可以分解为“电影”和“院”,“北京大学”可以分解为“北京”和“大学”,“机器学习”可以分解为“机器”和“学习”等,这些词汇可以称为复合词汇。
另外还存在一些基本不可分割的词汇,这些词汇被分割后的各个部分在日常生活中几乎不会被单独使用,例如:“忐忑”,“玫瑰”,“蜘蛛”等,这些词汇可以称为基本词汇。
步骤S102所述的将待处理文本划分为基本单元,就是指,将待处理文本拆分成多个基本词汇或汉字。例如,假设一个待处理文本是“蜘蛛侠电影几号上映”,通过步骤S102可以拆分为:
“蜘蛛”,“侠”,“电影”,“几号”,“上映”。
具体的,可以为词汇库中的每一个词汇配置一个标记,用于指示这个词汇是否为基本词汇。
基于词汇库中预设的基本词汇,步骤S102可以按图2所示方法实现:
S1021、配置一个文字标记i,将i设置为1。
S1022、从待处理文本左侧开始,获取第i个字作为待分割字。
S1023、判断待分割字和待分割字的下一个字是否构成词汇库中的一个基本词汇。
也就是说,判断待处理文本的第i个字和第i+1个字是否构成一个基本词汇。例如,i等于1时,就是判断第一个字和第二个字是否构成一个基本词汇。
若待分割字和待分割字的下一个字构成词汇库中的一个基本词汇,执行步骤S1024。
若待分割字和待分割字的下一个字不构成词汇库中的一个基本词汇,执行步骤S1025。
其中,若待分割字是待处理文本的最后一个字,直接执行步骤S1025。
S1024、将待分割字和待分割字的下一个字合并为一个基本单元,使i递增2,执行步骤S1026。
S1025、将待分割字确定为一个基本单元,使i递增1,执行步骤S1026。
也就是说,在第一次循环,即i等于1时,若第一个字和第二个字构成一个基本词汇,则下一次循环时i等于3,也就是从第三个字开始下一次循环,第一个字和第二个字组合成一个基本单元,若第一个字和第二个字不构成一个基本词汇,则下一次循环时,i等于2,以判断第二个字和第三个字是否构成一个基本词汇。
S1026、判断i是否大于N。
若i大于N,本方法结束,完成对待处理文本的划分;若i小于或等于N,返回执行步骤S1022。其中,N是待处理文本中的汉字的数量。
以上的划分方式,可以认为是基于词汇库中预先指定的基本词汇进行的最小粒度划分。
另一方面,若词汇库中未指定有基本词汇,那么步骤S102的实现方式也可以是,利用词汇库中的记录的单个的汉字,将待处理文本逐字拆分,直接将每一个子作为一个基本单元。
也就是说,直接将一个由N个汉字构成的待处理文本,拆分成N个基本单元,每一个汉字都是一个基本单元。
可选的,若待处理文本中携带有繁体字,英文字符或者特殊字符(例如表情符号,数学符号,希腊字母等),本申请实施例提供的新词发现方法可以在执行步骤S102之前对待处理文本进行预处理。
预处理的方法可以包括,删除待处理文本中的特殊字符以及除汉字以外的其他文字,并且,通过查找预设的繁体字和简体字的对应关系表,将待处理文本中的每一个繁体字均转换为对应的简体字。
当然,预处理的方法并不限于这一种。在另一种预处理方法中,也可以保留待处理文本中的英文字符,但是需要将待处理文本中的英文字符统一转换为大写形式或小写形式。
如果对待处理文本进行了预处理,则步骤S102中划分的就是经过预处理后的待处理文本。
S103、根据文本集合,计算待处理文本中每两个基本单元之间的关联程度指标。
其中,一个待处理文本的两个基本单元之间的关联程度指标,是一个实数,这个实数用于表征在文本集合中这两个基本单元出现在同一个文本中的频率。
例如,假设词汇A和词汇B分别是待处理文本中的两个基本单元,对于文本集合中的文本,大多数携带有词汇A的文本也都携带有词汇B,那么在这个文本集合中,词汇A和词汇B的关联程度指标就比较高;相对的,若文本集合中,携带有词汇A的文本几乎都不包括词汇B,那么在这个文本集合中词汇A和词汇B的关联程度指标就较低。
两个基本单元之间的关联程度指标的计算公式可以根据文本集合中的文本的特点确定,文本的特点不同,对应的计算公式也不同,此处不做限定。
S104、生成所待处理文本的每一个基本单元的特征向量。
步骤S104中已经计算出待处理文本中任意两个基本单元之间的关联程度指标,根据这些关联程度指标就可以生成待处理文本的每一个基本单元的特征向量。
具体的,假设待处理文本被划分为10个基本单元,按顺序依次记为基本单元1,基本单元2,……基本单元9,基本单元10,那么对于其中任意一个基本单元,这个基本单元的特征向量,就是这个基本单元与其他9个基本单元之间的关联程度指标的组合。
例如,基本单元1的特征向量,可以记为:
[P(1,1),P(1,2),P(1,3),P(1,4),……P(1,9),P(1,10)]
其中,P(1,2)表示基本单元1和基本单元2之间的关联程度指标,P(1,3)表示基本单元1和基本单元3之间的关联程度指标,以此类推。P(1,1)设置为0。
类似的,基本单元2的特征向量,可以记为:
[P(2,1),P(2,2),P(2,3),P(2,4),……P(2,9),P(2,10)]
P(2,1)表示基本单元2和基本单元1之间的关联程度指标,P(2,3)表示基本单元2和基本单元3之间的关联程度指标,以此类推。P(2,2)设置为0。
其他每一个基本单元i的特征向量,类似的,由这个基本单元和其他9个基本单元的关联程度指标构成;并且,为了使特征向量的维度与待处理文本的基本单元的数量一致,可以按上述例子在基本单元i对应的位置插入0,从而构成一个10维的特征向量。
S105、针对待处理文本中的每两个相邻的基本单元,根据这两个相邻的基本单元的特征向量,计算得到这两个相邻的基本单元之间的相似度。
根据上述生成基本单元的特征向量的过程,可以理解的,待处理文本中的一个基本单元的特征向量,可以用于表示这个基本单元所处的上下文环境。对于待处理文本的每两个相邻的基本单元,根据两个特征向量计算得到的两个基本单元的相似度越高,就说明,在这个文本集合中,这两个基本单元的上下文环境越相近。
具体的,对于任意两个相邻的基本单元(记为基本单元A和基本单元B),这两个基本单元的相似度可以是,基本单元A的特征向量和基本单元B的特征向量的余弦相似度。计算两个向量之间的余弦相似度的公式可以参考相关的现有技术,此处不再赘述。
S106、根据待处理文本中每两个相邻的基本单元之间的相似度拆分待处理文本,得到多个子文本。
其中,每一个子文本均包括至少两个连续的基本单元。
步骤S106所述的拆分待处理文本,其具体执行过程是:
根据待处理文本中的各个基本单元的特征向量,以及待处理文本的文本长度(也就是待处理文本中的汉字的数量),计算出一个待处理文本的划分个数k,k为正整数;
然后,在待处理文本中根据相邻的两个基本单元的相似度的大小,从小到大的选取k-1个对应的相似度最小的分割点。基于这k-1个分割点就可以将待处理文本分割为k份。
例如,对于前述例子中划分为10个基本单元的待处理文本,假设计算出来的划分个数k等于4,从基本单元1开始,基本单元1和基本单元2的相似度记为S(1,2),基本单元2和基本单元3的相似度记为S(2,3),以此类推,得到S(1,2),S(2,3),S(3,4),S(4,5),S(5,6),S(6,7),S(7,8),S(8,9),S(9,10)9个相似度,按相似度大小从小到大选取,假设S(3,4),S(6,7)和S(8,9)是其中最小的k-1个相似度,也就是最小的3个相似度,那么,基本单元3和基本单元4之间就是一个分割点,同理,基本单元6和基本单元7之间也是一个分割点,基本单元8和基本单元9之间也是一个分割点。
确定上述3个分割点后,将待处理文本从这3个分割点划分开,就得到:
由基本单元1,基本单元2和基本单元3组成的第一个子文本,由基本单元4,基本单元5和基本单元6组成的第二个子文本,由基本单元7和基本单元8组成的第三个子文本,以及由基本单元9和基本单元10组成的第四个子文本。
在一个具体的例子中,待处理文本可以是“北京大学在哪里”,假设这个待处理文本被分割为“北京”,“大学”,“在”,“哪里”,四个基本单元,并且确定的划分个数k等于2,通过计算和比较,最终确定出“大学”和“在”这两个基本单元之间的相似度最小,所以,“大学”和“在”之间就确定为这个待处理文本的一个分割点,基于这个分割点分割待处理文本,就得到“北京”和“大学”组合的子文本,即“北京大学”,以及“在”和“哪里”组合的子文本,即“在哪里”,若后续步骤中确定词汇库中未记录“北京大学”和“在哪里”这两个词,那么这两个子文本就可以作为新词加入词汇库。
S107、将多个子文本作为新词加入词汇库。
可选的,可以先将获得的多个子文本与词汇库中记录的词汇比对,从而删除掉步骤S106分割得到的子文本中,与词汇库中已经记录的词汇重复的子文本,将其他尚未记录在词汇库中的子文本作为新词加入词汇库。
在发现新词时,可以理解的,对于待处理文本的两个相邻的基本单元(不妨记为词汇A和词汇B),若词汇A和词汇B的相似度较高,就表明出现词汇A的上下文环境和出现词汇B的上下文环境相似,相当于词汇A和词汇B经常一起出现在同一个文本中,这种情况下就可以认为词汇A和词汇B构成一个具有特定含义的新词C的概率较大。类似的,若三个及以上连续的基本单元之间相似度均足够大,那么可以认为这些连续的基本单元组成一个新词的概率较大。相对的,若两个相邻的基本单元之间相似度较小,那么这两个基本单元构成一个新词的概率就很小,这种情况下,这两个基本单元之间大概率是两个词汇之间的分割点。
综上所述,本方案相当于,利用文本集合计算出用于待处理文本的各个基本单元的特征向量,基本单元的特征向量能够表征使用基本单元时的上下文环境,然后利用特征向量计算相邻的两个基本单元之间的相似度,并根据基本单元之间的相似度评价两个基本单元在文本中被合并使用的概率,将其中相似度较大的基本单元作为经常一起出现的基本单元组合成新词,而将相似度较小的基本单元作为词汇之间的分割点,从而得到由待处理文本的基本单元组合成的新词。
结合前述实施例的介绍,应当理解,本申请实施例提供的新词发现方法并不依赖于对文本集合中的文本的预先标注,因此,相对于现有的利用人为标注的文本训练后才能工作的新词发现技术,本申请实施例提供的新词发现方法有效的提高了新词发现的效率。
图1对应的实施例中,步骤S103涉及计算待处理文本中的两个基本单元之间的关联程度指标,下面结合图3,介绍一种计算关联程度指标的方法作为参考,本方法可以适用于文本集合是,利用搜索引擎采集到的过去一定时间内的搜索文本的情况。
S301、统计文本集合中,携带有基本单元x的文本的数量,以及携带有基本单元y的文本的数量。
基本单元x和基本单元y是待处理文本中的任意两个基本单元。例如,可以假设基本单元x是“玫瑰”,基本单元y是“花”。
不妨假设文本集合中,有Mx个文本携带有基本单元x,有My个文本携带有基本单元y。结合上述例子,相当于文本集合中有Mx个包括“玫瑰”的文本,有My个包括“花”的文本。
S302、统计文本集合中,同时携带有基本单元x和基本单元y的文本的数量。
需要说明的是,步骤S302中并不限制基本单元x和基本单元y之间的位置关系,文本中的基本单元x和基本单元y可以是连续的,也可以是不连续的。
结合前述例子,“玫瑰花很漂亮”就是一个同时携带有“玫瑰”和“花”的文本,“哪里有卖玫瑰的花店”也是一个同时携带有“玫瑰”和“花”的文本,“牡丹花和玫瑰哪种更容易养”也是一个同时携带有“玫瑰”和“花”的文本。
也就是说,不论基本单元x和基本单元y之间的先后顺序,也不论两个基本单元之间是否间隔有其他基本单元,所有同时存在这两个基本单元的文本都会被统计。
统计得到的同时携带有基本单元x和基本单元y的文本的数量可以记为Mxy。
S303、计算文本集合中基本单元x的出现频率,基本单元y的出现频率,以及,基本单元x和基本单元y一起出现的频率。
基本单元x的出现频率可以记为P(x):
P(x)=Mx÷N
同理,基本单元y的出现频率可以记为P(y):
P(y)=My÷N
基本单元x和基本单元y一起出现的频率P(x,y):
P(x,y)=Mxy÷N
其中,N是文本集合中的总文本数量。例如,结合前述例子,假设文本集合包括1000个文本,即N等于1000,其中,包括“玫瑰”的文本有50个,那么P(x)就等于50除以1000,即0.05。
S304、计算基本单元x和基本单元y之间的点交互信息。
基本单元x和基本单元y的点交互信息(pointwise mutual information,PMI)可以根据以下公式计算:
PMI(x,y)就是基本单元x和基本单元y的点交互信息。
S305、将基本单元x和基本单元y之间的点交互信息转换为关联程度指标。
转换公式如下:
PPMI(x,y)=max(PMI(x,y),0)
其中,PPMI(x,y)就是基本单元x和基本单元y之间的关联程度指标(Positivepointwise mutual information,PPMI),上述公式的含义是,若基本单元x和基本单元y的点交互信息大于0,那么基本单元x和基本单元y的点交互信息就是基本单元x和基本单元y之间的关联程度指标,若基本单元x和基本单元y的点交互信息小于或等于0,那么基本单元x和基本单元y之间的关联程度指标就是0。
当然,针对其他的文本集合,基本单元之间的关联程度指标也可以用其他的方法及相关公式计算,此处不一一列举。
图1对应的实施例中,在步骤S104所述的生成各个基本单元的特征向量之后,步骤S105所述的计算基本单元的相似度之前,可选的,可以按下述方法对各个基本单元的特征向量进行降维处理,得到降维后的特征向量,后续步骤S105中计算相似度时,可以用各个基本单元的降维后的特征向量进行计算。
请参考图4,对特征向量进行降维处理的方法包括:
S401、将各个基本单元的特征向量组合成待处理文本的特征矩阵。
例如,对于图1对应的实施例中的例子,将一个待处理文本分解为10个基本单元后,每个基本单元都可以生成一个10维的特征向量,将每一个基本单元的特征向量作为特征矩阵的一行,就可以组成一个10行10列的特征矩阵。
S402、对待处理文本的特征矩阵进行奇异值分解,得到待处理文本的特征矩阵的特征值。
对特征矩阵进行奇异值分解可以得到下述公式:
M=U·diag{y1,y2......yn}·VT
其中,结合前述分解为10个基本单元的待处理文本,M表示待处理文本的特征矩阵,U和VT分别是两个10行10列的矩阵,diag{y1,y2,……yn}表示一个10行10列的对角矩阵,对角矩阵的对角线上的元素y1,y2,y3……yn,就是待处理文本的特征矩阵M的特征值,其中,n小于或等于10。
S403、根据待处理文本的特征值和待处理文本的长度计算待处理文本的划分个数。
步骤S403中计算得到的划分个数,就是图1对应的实施例中,步骤S106中提及的划分个数k。也就是说,本实施例提供的方法的步骤S401至步骤S403,可以作为一种根据待处理文本的各个基本单元的特征向量以及待处理文本的长度计算得到待处理文本的划分个数的方法。
划分个数k可以基于下述公式计算:
其中,yi就表示前面计算得到的待处理文本的第i个特征值,Len表示待处理文本的长度。I(Len)表示一个预设的以待处理文本的长度为输入的函数,这个函数的具体表达式可以根据实际情况以及待处理文本的长度设置,一种可选的设置方式可以是:
若文本长度Len等于2,那么:I(Len)=0.505;
若文本长度Len等于3,那么:I(Len)=(Len-1)÷Len
若文本长度大于3,那么:
I(Len)=[(Len-1)÷Len]2
当然,I(Len)的还可以有其他的设置方式,此处不一一列举。
上述计算划分个数k的公式中,其含义是:
找到一个大于或等于1,且小于或等于n的正整数k,使得函数H(k)的取值达到最小,其中,函数H(k)就是计算划分个数的公式中argmink后面的绝对值,即:
S404、根据待处理文本的特征矩阵的特征值,划分个数以及基本单元的特征向量,计算每个基本单元的降维特征向量。
结合前述例子,一个待处理文本被分解为10个基本单元后,基本单元1的特征向量是一个10维的行向量,可以记为m1,结合前述待处理文本的特征矩阵的特征值,以及划分个数,可以利用下述公式完成对基本单元1的特征向量的降维处理:
其中,E1就是对特征向量m1进行降维处理后得到的降维特征向量。与前文类似,0,0……,0}也表示一个对角矩阵,对角矩阵的行数和列数均等于待处理文本被划分得到的基本单元的数量,结合前述例子,此处的对角矩阵是一个10行10列的矩阵,这个对角矩阵中,所有不在对角线上的元素均为0,对角线上的元素中,如公式所示,前k个是待处理文本的k个特征值的平方根,之后的对角线上的元素也为0。
例如,一个10行10列的对角矩阵,若步骤S403计算得到划分个数k等于6,那么上述进行降维处理的公式中,对角矩阵的对角线上的前6个元素就分别是待处理文本的特征矩阵的前6个特征值的平方根,对角线上之后的4个元素均为0。
可以理解的,上述对基本单元1的特征向量m1进行降维处理的公式,可以直接应用于待处理文本中每一个基本单元的特征向量,从而完成对待处理文本的各个基本单元的特征向量的降维处理。
本实施例提供的方法,在计算相邻的基本单元的相似度之前对基本单元的特征向量进行降维处理,可以起到减少噪声影响的效果,从而能够更准确的发现新词。
另外,基于本实施例提供的根据待处理文本的长度和各个基本单元的特征向量自适应的确定划分个数的方式,本方案能够自动识别出待处理文本的新词的数量,并且可以通过调整选取方式达到发现不同粒度的新词的目的,从而有效地增加热点词组(也就是近期被网络用户使用较多的词词汇)的输出,从而丰富词汇库的内容以及适用的场景。
可选的,在本申请的另一实施例中,在划分待处理文本得到多个子文本后,向词汇库中加入新词之前,还可以设置一个计算各个子文本的关联统计指标,并根据关联统计指标筛选子文本的过程,参考图5,筛选子文本的过程包括:
S501、计算每一个子文本的关联统计指标。
一个子文本可以有多种关联统计指标,例如:词频,单独成文本的数量,前后字信息熵,最小内部凝固度,紧邻度等。
步骤S501中,可以计算上述多种关联统计指标中的任意一种或者任意多种构成的组合。
例如,可以只计算每一个子文本的前后字信息熵,也可以对于每一个子文本,计算上述五种关联统计指标。
子文本的关联统计指标的含义如下:
文本集合中,携带有一个子文本的文本数量占总文本数量的比例,就是这个子文本的词频,如,文本集合有100个文本,其中10个文本携带有子文本A,那么子文本A的词频是0.1。
单独成文本的数量,就是指文本集合中,与一个子文本完全相同的文本的数量,例如,一个子文本是“战争与和平”,并且文本集合中存在两个与这个子文本完全一致的文本,也就是这两个文本均为“战争与和平”,那么这个子文本的单独成文本数量就是2。
对于任意一个子文本(记为子文本A),子文本A的前后字信息熵,用于衡量文本集合中,紧挨在子文本A之前的不同的汉字的个数和每个汉字的出现次数,以及跟在子文本之后的不同的汉字的个数和每个汉字的出现次数。其具体计算公式可以根据实际情况设置。
对于一个由N个字组成的子文本A,其凝固度,是指,给定一个小于N的正整数K,可以按照下述公式计算得到这个子文本对K的凝固度:
其中,分子是这个子文本在文本集合中的出现频率,也就是文本集合中,携带有这个子文本的文本占总文本数量的比例,分母是两项的乘积,第一项是从子文本A的第K个字拆分后,子文本A的第1个字至第K个字组成的另一个子文本(记为AK)在文本集合中的出现频率,第二项是拆分子文本A后,子文本A的第K个字至子文本A的最后一个(即第N个字)组成的又一个子文本(记为AK-N)在文本集合中的出现频率。
换言之,分母是给定一个小于N的正整数K后,拆分子文本A得到的两个子文本AK和AK-N各自文本集合中的出现频率的乘积。
可以理解的,对于一个给定的子文本A,改变K的取值,对应的可以计算得到不同的凝固度,对于字数为N的子文本A,K可以有1至(N-1)共计N-1个值,对应的子文本A可以计算出N-1个不同的凝固度,其中的最小值,就是前面提及的子文本A的最小凝固度,记为:
子文本A的紧邻度,若子文本A由三个基本单元A1,A2和A3组成,则其紧邻度可以表示为:P(A)/P(A1,A2,A3在一定范围内出现)。
其中,P(A)就是子文本A在文本集合中的出现频率,P(A1,A2,A3在一定范围内出现)则表示,文本集合的文本中,同时携带有基本单元A1,A2和A3,但是这三个基本单元并不连续(即并不组成子文本A)的文本所占的比例。
例如,在一个包括10个文本的文本集合中,存在两个文本,这两个文本均携带有基本单元A1,A2和A3,但是在这两个文本中基本单元A1,A2和A3均不构成子文本A(也就是三个基本单元不连续出现),那么这个文本集合中P(A1,A2,A3在一定范围内出现)就等于2除以10,也就是0.2。
S502、筛选的待处理文本的各个子文本中,关联统计指标大于关联统计指标阈值的子文本。
步骤S502所述的筛选,是指,保留拆分得到的各个子文本中,步骤S501中计算得到的每一种关联统计指标均大于对应的关联统计指标阈值的子文本,不满足条件的子文本则予以删除。
例如,若步骤S501中,每个子文本均计算了对应的前后字信息熵和最小凝固度,那么步骤S502中筛选得到的子文本,就是,前后字信息熵大于前后字信息熵阈值,并且,最小凝固度大于最小凝固度阈值的子文本。
若步骤S501中,每个子文本均计算了对应的前后字信息熵,最小凝固度和词频,那么步骤S502中筛选得到的子文本,就是,前后字信息熵大于前后字信息熵阈值,最小凝固度大于最小凝固度阈值,并且,词频大于词频阈值的子文本。
可选的,还可以将子文本中,不符合相关法律法规的子文本,以及一些已经停用的子文本予以剔除。
S503、将筛选得到的子文本作为新词加入词汇库。
本实施例提供的如图5所示的筛选子文本的过程,可以用于替换图1对应的实施例中的步骤S107,构成一个完整的实施例。
应当理解,本申请任一实施例提供的新词的发现方法所提及的待处理文本,可以是文本集合中的每一个文本。也就是说,本申请任一实施例提供的新词的发现方法可以用于处理任意一个文本集合中的每一个文本,从而得到更多的新词。
本申请任一实施例提供的新词的发现方法,能够适用于任意一种需要基于词汇库进行文本处理和分析的场景中。具体的,可以适用于文本搜索的场景下。
例如,假设近期上映了一部名称为“WXYZ”的电视剧,并且该电视剧受到互联网用户的广泛关注,其中,W,X,Y,Z分别代表四个中文词汇,由于是近期上映的电视剧,词汇库中并未将“WXYZ”整体作为一个词汇进行记录。
所以,若用户在搜索引擎的输入框中输入“WXYZ在线播放”,搜索引擎就不会将“WXYZ”作为一个整体,去获取与“WXYZ”这一电视剧关联的视频链接,而是会获取,与词汇W关联的视频链接,与词汇X关联的视频链接,与词汇Y关联的视频链接,或者是与词汇Z关联的视频链接,因此最终的搜索结果无法满足用户观看电视剧“WXYZ”的搜索意图。
而利用本申请实施例提供的新词发现方法,采集近期(例如,最近两周)互联网上的文本(可以是搜索文本,也可以进一步的采集用户在论坛,博客等网页上的发言)构成一个文本集合,由于该电视剧受到互联网用户的广泛关注,在这个文本集合中,“WXYZ”作为一个子文本会具有相当高的出现频率,例如,可能采集到的一万个文本中,会有1000个文本携带有“WXYZ”这一子文本。因此,以任意一个携带有“WXYZ”作为待处理文本执行本申请实施例提供的新词发现方法时,由于“WXYZ”经常作为一个整体出现,因而其中的每两个相邻的词汇之间均具有高度相似的上下文环境,所以本申请实施例提供的方法能够计算出词汇W和词汇X之间具有很高的相似度,词汇X和词汇Y之间,以及词汇Y和词汇Z之间均具有很高的相似度,从而将“WXYZ”这个子文本作为一个新词记录在词汇库中,完成对词汇库的更新。
这样在后续基于更新后的词汇库进行文本搜索时,对于用户输入的“WXYZ在线播放”,搜索引擎能够基于词汇库,将“WXYZ”整体作为一个关键词进行搜索,从而获取到网络中与“WXYZ”关联的视频链接,满足用户的搜索意图。
结合本申请任一实施例提供的新词的发现方法,本申请另一实施例还提供一种新词的发现装置,请参考图6,该装置包括:
获取单元601,用于从文本集合中获取待处理文本。
划分单元602,用于利用预设的词汇库,将所述待处理文本划分为多个基本单元;其中,每个所述基本单元均包括至少一个连续的汉字。
第一计算单元603,用于根据所述文本集合,计算所述待处理文本中每两个基本单元之间的关联程度指标。
生成单元604,用于生成所述待处理文本的每一个基本单元的特征向量;其中,任意一个基本单元的特征向量,根据所述基本单元与其他基本单元之间的关联程度指标生成;所述其他基本单元,指代除所述基本单元以外的每一个基本单元。
第二计算单元605,用于针对所述待处理文本中的每两个相邻的基本单元,根据所述两个相邻的基本单元的特征向量,计算得到所述两个相邻的基本单元之间的相似度。
拆分单元606,用于根据所述待处理文本中每两个相邻的基本单元之间的相似度拆分所述待处理文本,得到多个子文本;其中,每一个所述子文本均包括至少两个连续的所述基本单元。
更新单元607,用于将所述多个子文本作为新词加入所述词汇库。
可选的,所述第一计算单元603,包括:
统计单元,用于统计所述文本集合中,携带有第一基本单元的文本的数量,携带有第二基本单元的数量,以及携带有第一基本单元和第二基本单元的文本的数量,得到统计结果;其中,所述第一基本单元和所述第二基本单元,指代所述待处理文本中的任意两个基本单元。
子计算单元,用于根据所述统计结果,以及所述文本集合包括的文本的数量,计算所述第一基本单元和第二基本单元的关联程度指标。
可选的,所述新词发现装置,还包括:
预处理单元608,用于删除所述待处理文本中的符号,以及除汉字以外的其他文字,得到删除后的待处理文本。
其中,所述划分单元根据预设的词汇库,将所述待处理文本划分为多个基本单元时,具体用于:
根据预设的词汇库,将所述删除后的待处理文本划分为多个基本单元。
可选的,预处理单元608,还可以用于将所述待处理文本中的每一个繁体字,均转换为对应的简体字,得到转换后的待处理文本。
其中,所述划分单元根据预设的词汇库,将所述待处理文本划分为多个基本单元时,具体用于:
根据预设的词汇库,将所述转换后的待处理文本划分为多个基本单元。
当然,预处理单元可以同时用于实现上述两种功能,后续划分单元划分时,直接对预处理单元608输出的待处理文本进行划分即可。
可选的,本实施例提供的发现装置还包括:
降维单元609,用于对所述待处理文本的特征矩阵进行奇异值分解,得到所述待处理文本的特征矩阵的特征值;其中,所述待处理文本的特征矩阵由所述待处理文本的每一个基本单元的特征向量组成;
根据所述待处理文本的特征矩阵的特征值,以及所述待处理文本的文本长度,对所述待处理文本的每一个基本单元的特征向量进行降维处理,得到每一个基本单元的降维特征向量。
第二计算单元605计算相似度时,可以直接利用降维特征向量计算。
其中,降维单元609输出的划分个数k可以直接被拆分单元606利用于拆分待处理文本。
可选的,若本申请实施例提供的新词的发现装置中未设置降维单元609,拆分单元606也可以按照与降维单元609相同的计算原理,根据待处理文本的各个基本单元的特征向量,以及待处理文本的长度,计算得到用于拆分待处理文本的划分个数k。
可选的,本申请实施例提供的新词的发现装置还包括:
筛选单元610,用于计算每一个所述子文本的关联统计指标;
从所述多个子文本中,筛选出关联统计指标大于关联统计指标阈值的子文本。
若本申请实施例提供的新词的发现装置中设置有筛选单元610,前述更新单元607将所述多个子文本作为新词加入所述词汇库时,具体执行:
将筛选单元610筛选得到的,所述多个子文本中,关联统计指标大于所述关联统计指标阈值的子文本作为新词加入所述词汇库。
本申请实施例提供的新词的发现装置,其具体工作原理可以参考本申请任一实施例提供的新词的发现方法,此处不再赘述。
本申请提供一种新词的发现方法和装置,获取单元601从文本集合中获取待处理文本后,划分单元602利用词汇库将待处理文本划分为多个基本单元,然后由第一计算单元603根据文本集合,计算待处理文本中每两个基本单元之间的关联程度指标,生成单元604根据待处理文本中每两个基本单元之间的关联程度指标,生成待处理文本中每一个基本单元的特征向量,进而由第二计算单元605利用各个基本单元的特征向量,计算得到每两个相邻的基本单元之间的相似度;最后拆分单元606根据待处理文本中每两个相邻的基本单元之间的相似度拆分待处理文本,得到多个子文本,并由更新单元607将多个子文本作为新词加入所述词汇库。本申请提供的新词发现方法能够直接从无标注的文本集合中发现新词,从而解决基于人为标注的文本实现的现有的新词发现技术效率较低的问题。
专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (12)
1.一种新词的发现方法,其特征在于,包括:
从文本集合中获取待处理文本;
根据预设的词汇库,将所述待处理文本划分为多个基本单元;其中,每个所述基本单元均包括一个汉字或至少两个连续的汉字;
根据所述文本集合,计算所述待处理文本中每两个基本单元之间的关联程度指标;
生成所述待处理文本的每一个基本单元的特征向量;其中,任意一个所述基本单元的特征向量,根据所述基本单元与其他基本单元之间的关联程度指标生成;所述其他基本单元指代除所述基本单元以外的每一个基本单元;
针对所述待处理文本中的每两个相邻的基本单元,根据所述两个相邻的基本单元的特征向量,计算得到所述两个相邻的基本单元之间的相似度;
根据所述待处理文本中每两个相邻的基本单元之间的相似度,拆分所述待处理文本,得到多个子文本;其中,每一个所述子文本均包括至少两个连续的所述基本单元;
将所述多个子文本作为新词加入所述词汇库。
2.根据权利要求1所述的发现方法,其特征在于,所述根据所述文本集合,计算所述待处理文本中每两个基本单元之间的关联程度指标,包括:
统计所述文本集合中,携带有第一基本单元的文本的数量,携带有第二基本单元的数量,以及携带有第一基本单元和第二基本单元的文本的数量,得到统计结果;其中,所述第一基本单元和所述第二基本单元,指代所述待处理文本中的任意两个基本单元;
根据所述统计结果,以及所述文本集合包括的文本的数量,计算所述第一基本单元和第二基本单元的关联程度指标。
3.根据权利要求1所述的发现方法,其特征在于,所述根据预设的词汇库,将所述待处理文本划分为多个基本单元之前,还包括:
删除所述待处理文本中的符号,以及除汉字以外的其他文字,得到删除后的待处理文本;
所述根据预设的词汇库,将所述待处理文本划分为多个基本单元,包括:
根据预设的词汇库,将所述删除后的待处理文本划分为多个基本单元。
4.根据权利要求1所述的发现方法,其特征在于,所述根据预设的词汇库,将所述待处理文本划分为多个基本单元之前,还包括:
将所述待处理文本中的每一个繁体字,均转换为对应的简体字,得到转换后的待处理文本;
所述根据预设的词汇库,将所述待处理文本划分为多个基本单元,包括:
根据预设的词汇库,将所述转换后的待处理文本划分为多个基本单元。
5.根据权利要求1所述的发现方法,其特征在于,所述针对所述待处理文本中的每两个相邻的基本单元,根据所述两个相邻的基本单元的特征向量,计算得到所述两个相邻的基本单元之间的相似度之前,还包括:
对所述待处理文本的特征矩阵进行奇异值分解,得到所述待处理文本的特征矩阵的特征值;其中,所述待处理文本的特征矩阵由所述待处理文本的每一个基本单元的特征向量组成;
根据所述待处理文本的特征矩阵的特征值,以及所述待处理文本的文本长度,对所述待处理文本的每一个基本单元的特征向量进行降维处理,得到每一个基本单元的降维特征向量;
其中,所述针对所述待处理文本中的每两个相邻的基本单元,根据所述两个相邻的基本单元的特征向量,计算得到所述两个相邻的基本单元之间的相似度,包括:
针对所述待处理文本中的每两个相邻的基本单元,根据所述两个相邻的基本单元的降维特征向量,计算得到所述两个相邻的基本单元之间的相似度。
6.根据权利要求1至5中任意一项所述的发现方法,其特征在于,所述将所述多个子文本作为新词加入所述词汇库之前,还包括:
计算每一个所述子文本的关联统计指标;
从所述多个子文本中,筛选出关联统计指标大于关联统计指标阈值的子文本;
所述将所述多个子文本作为新词加入所述词汇库,包括:
将所述多个子文本中,关联统计指标大于所述关联统计指标阈值的子文本作为新词加入所述词汇库。
7.一种新词的发现装置,其特征在于,包括:
获取单元,用于从文本集合中获取待处理文本;
划分单元,用于根据预设的词汇库,将所述待处理文本划分为多个基本单元;其中,每个所述基本单元均包括一个汉字或至少两个连续的汉字;
第一计算单元,用于根据所述文本集合,计算所述待处理文本中每两个基本单元之间的关联程度指标;
生成单元,用于生成所述待处理文本的每一个基本单元的特征向量;其中,任意一个所述基本单元的特征向量,根据所述基本单元与其他基本单元之间的关联程度指标生成;所述其他基本单元指代除所述基本单元以外的每一个基本单元;
第二计算单元,用于针对所述待处理文本中的每两个相邻的基本单元,根据所述两个相邻的基本单元的特征向量,计算得到所述两个相邻的基本单元之间的相似度;
拆分单元,用于根据所述待处理文本中每两个相邻的基本单元之间的相似度拆分所述待处理文本,得到多个子文本;其中,每一个所述子文本均包括至少两个连续的所述基本单元;
更新单元,用于将所述多个子文本作为新词加入所述词汇库。
8.根据权利要求7所述的发现装置,其特征在于,所述第一计算单元,包括:
统计单元,用于统计所述文本集合中,携带有第一基本单元的文本的数量,携带有第二基本单元的数量,以及携带有第一基本单元和第二基本单元的文本的数量,得到统计结果;其中,所述第一基本单元和所述第二基本单元,指代所述待处理文本中的任意两个基本单元;
子计算单元,用于根据所述统计结果,以及所述文本集合包括的文本的数量,计算所述第一基本单元和第二基本单元的关联程度指标。
9.根据权利要求7所述的发现装置,其特征在于,所述新词发现装置,还包括:
预处理单元,用于删除所述待处理文本中的符号,以及除汉字以外的其他文字,得到删除后的待处理文本;
其中,所述划分单元根据预设的词汇库,将所述待处理文本划分为多个基本单元时,具体用于:
根据预设的词汇库,将所述删除后的待处理文本划分为多个基本单元。
10.根据权利要求7所述的发现装置,其特征在于,所述发现装置,还包括:
预处理单元,用于将所述待处理文本中的每一个繁体字,均转换为对应的简体字,得到转换后的待处理文本;
其中,所述划分单元根据预设的词汇库,将所述待处理文本划分为多个基本单元时,具体用于:
根据预设的词汇库,将所述转换后的待处理文本划分为多个基本单元。
11.根据权利要求7所述的发现装置,其特征在于,还包括:
降维单元,用于对所述待处理文本的特征矩阵进行奇异值分解,得到所述待处理文本的特征矩阵的特征值;其中,所述待处理文本的特征矩阵由所述待处理文本的每一个基本单元的特征向量组成;
所述降维单元,还用于根据所述待处理文本的特征矩阵的特征值,以及所述待处理文本的文本长度,对所述待处理文本的每一个基本单元的特征向量进行降维处理,得到每一个基本单元的降维特征向量;
所述第二计算单元,具体用于针对所述待处理文本中的每两个相邻的基本单元,根据所述两个相邻的基本单元的降维特征向量,计算得到所述两个相邻的基本单元之间的相似度。
12.根据权利要求7至11中任意一项所述的发现装置,其特征在于,还包括:
筛选单元,用于计算每一个所述子文本的关联统计指标;从所述多个子文本中,筛选出关联统计指标大于关联统计指标阈值的子文本;
所述更新单元,具体用于将所述筛选单元筛选得到的所述多个子文本中,关联统计指标大于所述关联统计指标阈值的子文本作为新词加入所述词汇库。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910809204.2A CN110516250B (zh) | 2019-08-29 | 2019-08-29 | 新词的发现方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910809204.2A CN110516250B (zh) | 2019-08-29 | 2019-08-29 | 新词的发现方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110516250A CN110516250A (zh) | 2019-11-29 |
CN110516250B true CN110516250B (zh) | 2024-06-18 |
Family
ID=68629077
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910809204.2A Active CN110516250B (zh) | 2019-08-29 | 2019-08-29 | 新词的发现方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110516250B (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105095196A (zh) * | 2015-07-24 | 2015-11-25 | 北京京东尚科信息技术有限公司 | 文本中新词发现的方法和装置 |
CN106484672A (zh) * | 2015-08-27 | 2017-03-08 | 北大方正集团有限公司 | 词汇识别方法和词汇识别系统 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107168952B (zh) * | 2017-05-15 | 2021-06-04 | 北京百度网讯科技有限公司 | 基于人工智能的信息生成方法和装置 |
CN107644104B (zh) * | 2017-10-17 | 2021-06-25 | 北京锐安科技有限公司 | 一种文本特征提取方法及系统 |
CN108595433A (zh) * | 2018-05-02 | 2018-09-28 | 北京中电普华信息技术有限公司 | 一种新词发现方法及装置 |
CN109145299B (zh) * | 2018-08-16 | 2022-06-21 | 北京金山安全软件有限公司 | 一种文本相似度确定方法、装置、设备及存储介质 |
CN109858010B (zh) * | 2018-11-26 | 2023-01-24 | 平安科技(深圳)有限公司 | 领域新词识别方法、装置、计算机设备和存储介质 |
-
2019
- 2019-08-29 CN CN201910809204.2A patent/CN110516250B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105095196A (zh) * | 2015-07-24 | 2015-11-25 | 北京京东尚科信息技术有限公司 | 文本中新词发现的方法和装置 |
CN106484672A (zh) * | 2015-08-27 | 2017-03-08 | 北大方正集团有限公司 | 词汇识别方法和词汇识别系统 |
Also Published As
Publication number | Publication date |
---|---|
CN110516250A (zh) | 2019-11-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110457672B (zh) | 关键词确定方法、装置、电子设备及存储介质 | |
CN102262634B (zh) | 一种自动问答方法及系统 | |
CN109522420B (zh) | 一种获取学习需求的方法及系统 | |
CN106445920A (zh) | 利用句义结构特征的句子相似度计算方法 | |
CN113486189B (zh) | 一种开放性知识图谱挖掘方法及系统 | |
CN110362678A (zh) | 一种自动提取中文文本关键词的方法与装置 | |
Sadr et al. | Unified topic-based semantic models: a study in computing the semantic relatedness of geographic terms | |
CN109271514A (zh) | 短文本分类模型的生成方法、分类方法、装置及存储介质 | |
CN112256939A (zh) | 一种针对化工领域的文本实体关系抽取方法 | |
CN108763192B (zh) | 用于文本处理的实体关系抽取方法及装置 | |
CN112051986A (zh) | 基于开源知识的代码搜索推荐装置及方法 | |
CN104881399A (zh) | 基于概率软逻辑psl的事件识别方法和系统 | |
CN114462392A (zh) | 一种基于主题关联度与关键词联想的短文本特征扩展方法 | |
CN106681986A (zh) | 一种多维度情感分析系统 | |
CN117709465A (zh) | 一种基于大语言模型的关键信息抽取方法 | |
Stilo et al. | Temporal semantics: Time-varying hashtag sense clustering | |
CN117235137B (zh) | 一种基于向量数据库的职业信息查询方法及装置 | |
CN114003706A (zh) | 关键词组合生成模型训练方法及装置 | |
CN112015895A (zh) | 一种专利文本分类方法及装置 | |
CN110516250B (zh) | 新词的发现方法和装置 | |
KR20070118154A (ko) | 정보 처리 장치 및 방법, 및 프로그램 기록 매체 | |
CN114842982B (zh) | 一种面向医疗信息系统的知识表达方法、装置及系统 | |
CN115982322A (zh) | 一种水利行业设计领域知识图谱的检索方法及检索系统 | |
Terko et al. | Neurips conference papers classification based on topic modeling | |
Nasution | Simple search engine model: Selective properties |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |