CN105095196A - 文本中新词发现的方法和装置 - Google Patents

文本中新词发现的方法和装置 Download PDF

Info

Publication number
CN105095196A
CN105095196A CN201510443291.6A CN201510443291A CN105095196A CN 105095196 A CN105095196 A CN 105095196A CN 201510443291 A CN201510443291 A CN 201510443291A CN 105095196 A CN105095196 A CN 105095196A
Authority
CN
China
Prior art keywords
text
neologisms
words
word
proper vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510443291.6A
Other languages
English (en)
Other versions
CN105095196B (zh
Inventor
邵佳帅
牟川
邢志峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Original Assignee
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jingdong Century Trading Co Ltd, Beijing Jingdong Shangke Information Technology Co Ltd filed Critical Beijing Jingdong Century Trading Co Ltd
Priority to CN201510443291.6A priority Critical patent/CN105095196B/zh
Publication of CN105095196A publication Critical patent/CN105095196A/zh
Application granted granted Critical
Publication of CN105095196B publication Critical patent/CN105095196B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)

Abstract

本发明提供一种文本中新词发现的方法和装置,能够自动发现文本中字的特征,并通过挖掘字的特征向量的相似度从文本中发现出新词,节省了现有技术中观察数据特征的时间,提高新词发现的效率。该方法包括:将文本中的每个字分隔开,利用深度神经网络算法提取每个字的特征向量;计算文本中每相邻两个字的特征向量的夹角余弦值并将计算结果排序;选取所有所述夹角余弦值大于预设阈值的相邻两个字的顺序组合作为文本新词,并输出所述文本新词。

Description

文本中新词发现的方法和装置
技术领域
本发明涉及计算机技术领域,尤其涉及一种文本中新词发现的方法和装置。
背景技术
随着自然语言处理技术的近年来的不断发展,新词发现也变得越来越重要(本文中的新词发现是指将文本中词语发现出来,为后续进行的分词、标注、主体提取等操作做准备)。可以说词是我们做自然语言处理的第一步也是最重要的一步。只有当我们已经有词的时候,我们才可以对含有这些词的文本进行分词、标注、主题提取等后续操作。此外,随着网络新词激增,新词发现技术不仅要发现目前还没有的词,还要发现每天不断涌现出的新词。
近年来,新词发现已经有很多技术,例如可以通过隐马尔可夫模型、条件随机场等模型在文本中进行新词发现。
隐马尔可夫模型(HiddenMarkovModel,HMM)是统计模型,它用来描述一个含有隐含未知参数的马尔可夫过程。隐马尔可夫模型作为一种统计分析模型,创立于20世纪70年代。80年代得到了传播和发展,成为信号处理的一个重要方向,现已成功地用于语音识别,行为识别,文字识别以及故障诊断等领域。
条件随机场(conditionalrandomfields,简称CRF,或CRFs),是一种判别式概率模型,是随机场的一种,常用于标注或分析序列资料,如自然语言文字或是生物序列。
但是,现有的隐马尔可夫模型、条件随机场等模型在文本中新词发现的过程中仍存在一定的缺陷:它们都需要通过人工的方法来发现字与字的特征,需要花费大量的时间观察大量的数据去总结。因此,现有技术中利用隐马尔可夫模型、条件随机场等模型的计算代价高,耗时长。
发明内容
有鉴于此,本发明提供一种文本中新词发现的方法和装置,能够自动发现文本中字的特征,并通过挖掘字的特征向量的相似度从文本中发现出新词,节省了现有技术中观察数据特征的时间,提高新词发现的效率。
为实现上述目的,根据本发明的一个方面,提供了一种文本中新词发现的方法。
本发明的文本中新词发现的方法包括:将文本中的每个字分隔开,利用深度神经网络算法提取每个字的特征向量;计算文本中每相邻两个字的特征向量的夹角余弦值并将计算结果排序;选取所有所述夹角余弦值大于预设阈值的相邻两个字的顺序组合作为文本新词,并输出所述文本新词。
可选地,所述方法还包括:在将文本中的每个字分隔开之前,将所述文本按照标点符号进行分行,使每行成为一个短文本。
可选地,所述方法还包括:在利用深度神经网络算法提取每个字的特征向量之后,对所述每个字按照字为键、特征向量为值的形式生成哈希字典进行存储。
可选地,所述方法还包括:在将计算结果排序之后,去除所述计算结果中相同两字的组合及字母和/或数字的组合。
可选地,所述方法还包括:在选取所有所述夹角余弦值大于预设阈值的相邻两个字的顺序组合作为文本新词之后,遍历所述文本新词,判断是否存在两个文本新词,其中一个文本新词的最后一个字是另一个文本新词的第一个字,若存在,则将所述两个文本新词按照顺序合并去掉中间重复字得到一个新的文本新词;判断所述新的文本新词在所述文本中是否存在,若存在,则删除合并前的两个文本新词,保留所述新的文本新词;若不存在,则保留合并前的两个文本新词。
根据本发明的另一方面,提供一种文本中新词发现的装置。
本发明的文本中新词发现的装置包括:提取模块,用于将文本中的每个字分隔开,利用深度神经网络算法提取每个字的特征向量;计算模块,用于计算文本中每相邻两个字的特征向量的夹角余弦值并将计算结果排序;选取模块,用于选取所有所述夹角余弦值大于预设阈值的相邻两个字的顺序组合作为文本新词,并输出所述文本新词。
可选地,所述提取模块还用于:在将文本中的每个字分隔开之前,将所述文本按照标点符号进行分行,使每行成为一个短文本。
可选地,所述提取模块还用于:在利用深度神经网络算法提取每个字的特征向量之后,对所述每个字按照字为键、特征向量为值的形式生成哈希字典进行存储。
可选地,所述计算模块还用于:在将计算结果排序之后,去除所述计算结果中相同两字的组合及字母和/或数字的组合。
可选地,所述选取模块还用于:在选取所有所述夹角余弦值大于预设阈值的相邻两个字的顺序组合作为文本新词之后,遍历所述文本新词,判断是否存在两个文本新词,其中一个文本新词的最后一个字是另一个文本新词的第一个字,若存在,则将所述两个文本新词按照顺序合并去掉中间重复字得到一个新的文本新词;判断所述新的文本新词在所述文本中是否存在,若存在,则删除合并前的两个文本新词,保留所述新的文本新词;若不存在,则保留合并前的两个文本新词。
根据本发明的技术方案,通过将文本拆分成短文本,从而能减少计算的复杂程度;通过将文本中的一个一个字拆分开,从而能保证计算机对文本中单个字符的识别;通过深度神经网络提取每个字的特征向量,从而能保证对字的特征向量的自动提取,节省观察数据特征的时间;通过对提取后的字与其特征向量的哈希字典存储,从而能保证特征向量提取结果的有效存储,同时方便后续处理过程对提取结果的有效查询和运用;通过对文本中每相邻两个字的特征向量的余弦距离的计算,从而能方便判断出每相邻两个字是否是一个文本新词;通过对每相邻两个字的特征向量余弦距离的计算结果的排序,从而方便对夹角余弦值大的相邻两个字的顺序组合的选取;通过对计算结果中相同两字的组合以及数字和/或字母组合等干扰项的剔除,从而能保障得到的下述选取结果的高质量;通过对所有所述夹角余弦值大于预设阈值的相邻两个字的顺序组合的选取,从而能得到文本新词;通过对文本新词结果中含有共有字的文本新词的合并,从而能准确的得到由多个字组成文本新词。
附图说明
附图用于更好地理解本发明,不构成对本发明的不当限定。其中:
图1是根据本发明实施例的文本中新词发现的方法的主要步骤的示意图;
图2是根据本发明实施例的文本中新词发现的方法的具体流程的示意图;
图3是根据本发明实施例的文本中新词发现的装置的主要模块的示意图。
具体实施方式
以下结合附图对本发明的示范性实施例做出说明,其中包括本发明实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本发明的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
图1是根据本发明实施例的文本中新词发现的方法的主要步骤的示意图。
如图1所示,本发明实施例的文本中新词发现的方法主要包括如下步骤:
步骤S11:将文本中的每个字分隔开,利用深度神经网络算法提取每个字的特征向量。西方文字通常在单词之间都有空隔分割,计算机对单词识别起来比较方便,但是中文没有词组分割,而计算机本身并不能区分词语词组,因此,在本发明实施例中,对文本进行新词发现之前,首先要将文本中的每个字分隔开。
对文本中的每个字的分隔操作,可以使用python脚本语言实现。例如,将所有字转换为统一码编码形式。因为统一码编码格式每个字符的长度都为1,这样,把每个句子按照长度为1的步长分割,就得到了一个一个字分开的文本。
将文本中的每个字分隔开后,便可利用深度神经网络提取每个字的特征向量。但是由于一个文本中往往含有数个句子,甚至更多,因此,在本发明的一个实施例中,文本中新词发现的方法还包括:在将文本中的每个字分隔开之前,将所述文本按照标点符号进行分行,使每行成为一个短文本。具体流程如图2所示。
将文本分成一个个的短文本的具体操作可以使用python脚本语言实现,将所有标点符号收集起来。代码的编写规则为:遇到标点符号就将文本分开,并将分开后的句子片段存储到文件中。通过将原始文本分隔成一个一个的短文本,可以减少计算的复杂程度,从而提高处理的效率。
在进行了上述的将文本分隔成短文本以及将文本中的每个字分隔开的操作后,便可以对文本中每个单独的字进行特征的提取。在本发明实施例中,采用深度神经网络算法提取每个字的特征向量。
神经网络,还可以称作连接模型(ConnectionModel),它是一种模仿动物神经网络行为特征,进行分布式并行信息处理的算法数学模型。这种网络依靠系统的复杂程度,通过调整内部大量节点之间相互连接的关系,从而达到处理信息的目的。
通过深度神经网络的算法提取某一深度的每个字的向量,得到的结果是每个字都有唯一的一个特征向量。此外,在利用深度神经网络提取字的特征向量的过程中,特征向量的维数为深度神经网络学习中可调整的参数,例如可以将维数设定为200,便可得到每个字一个200维的特征向量。
通过深度神经网络算法可以自动的提取每个字的特征向量,从而能节省现有技术观察数据特征的时间。
对每个字的特征向量进行提取后,如图2所示,在本发明的实施例的具体流程中,还可以包括对提取结果进行哈希存储。即将每个字的字作为键(key),特征向量为值(value)进行哈希存储,生成哈希字典,以便于后续操作过程中对上述每个字的特征向量提取结果的查找和运用。
在经过本步骤的特征向量的提取之后,文本中每个字的特征向量已经获取,从步骤S12开始处理。
步骤S12:计算文本中每相邻两个字的特征向量的夹角余弦值并将计算结果排序。两个特征向量越相似,两特征向量夹角余弦值就越接近1,也就说明该相邻两个字的组合是一个词语的可能性就越大。
对相邻的字与字之间的余弦距离的计算可以采用余弦值计算公式进行,公式如下:cosθ=v1·v2/|v1||v2|,其中v1,v2代表两个字的特征向量。以文本“质量不错”为例,要分别计算“质量”、“量不”、“不错”三个片段的特征向量夹角余弦值。
在本发明的一个优选实施例中,对得到的每相邻两个字的特征向量的夹角余弦值的计算结果进行排序。例如,可以是按照余弦值的大小进行降序排序。排序的方法可以有多种选择,比如利用冒泡排序、快速排序、堆排序等方式进行。
步骤S13:选取所有所述夹角余弦值大于预设阈值的相邻两个字的顺序组合作为文本新词,并输出所述文本新词。
排序后可以清晰地挑选出夹角余弦值大的相邻两个字的顺序组合构成的文本新词。但是由于存在如下情形:两个相同的字的特征向量是一样的,它们的夹角余弦值会非常大,但这两个字的顺序组合并不是一个词语;数字和/或字母的组合的特征向量的夹角余弦值也很高,而它们也不是一个词语。因此,需要将上述情形的干扰项从排序后的计算结果中进行剔除,然后再进行对夹角余弦值大于预设阈值的相邻两个字的顺序组合的选取,作为文本新词予以输出。具体流程如图2所示。
在一个实施例中,对上述情形干扰项的剔除可以采用python脚本语言来实现,代码编写如下:
如上段代码所示,遍历每个文本新词,如第2、3行代码所示:如果这两个字符是非中文字符组成,则过滤掉;如第4、5行代码所示:如果得到的结果中这两个字是相同的,则将其过滤掉。对排序后得到的文本新词中的干扰项过滤掉后,可以得到质量较高的文本新词集合。
在不同文本中,对夹角余弦值大于预设阈值的相邻两个字的顺序组合进行选取,阈值不是确定不变的。文本的大小不一样或者数据类型不一样,阈值很可能会有变化。所以,要通过观察余弦值计算结果的数据来确定。先对排序后的每相邻两个字的特征向量的夹角余弦值的计算结果进行观察,通过观察,找到新发现的词开始变得不准确的位置,确定出阈值。
完成上述选取后,便可得到质量较高的文本新词。但是,仍然存在如下情形:如得到的文本新词中的个别词语只是某一个词的片段,例如,选取出的文本新词中存在“阿斯”、“斯顿”,而“阿斯顿”才是真正的一个文本新词。对于这种情形,可以采用词语合并的方式进行文本新词选取结果的完善,即根据两个词共有子进行合并三字词和/或四字词。具体流程如图2所示。
词语合并具体操作如下:遍历选取完成后的文本新词,判断是否存在两个文本新词,其中一个文本新词的最后一个字是另一个文本新词的第一个字,若存在,则将所述两个文本新词按照顺序合并去掉中间重复字得到一个新的文本新词;判断所述新的文本新词在文本中是否存在,若存在,则删除合并前的两个文本新词,保留得到的新的文本新词;若不存在,则保留合并前的两个文本新词。
根据上述文本中新词发现的方法可以看出,通过将文本拆分成短文本,从而能减少计算的复杂程度;通过将文本中的一个一个字拆分开,从而能保证计算机对文本中单个字符的识别;通过深度神经网络提取每个字的特征向量,从而能保证对字的特征向量的自动提取,节省观察数据特征的时间;通过对提取后的字与其特征向量的哈希字典存储,从而能保证特征向量提取结果的有效存储,同时方便后续处理过程对提取结果的有效查询和运用;通过对文本中每相邻两个字的特征向量的余弦距离的计算,从而能方便判断出每相邻两个字是否是一个文本新词;通过对每相邻两个字的特征向量余弦距离的计算结果的排序,从而方便对夹角余弦值大的相邻两个字的顺序组合的选取;通过对计算结果中相同两字的组合以及数字和/或字母组合等干扰项的剔除,从而能保障得到的下述选取结果的高质量;通过对所有所述夹角余弦值大于预设阈值的相邻两个字的顺序组合的选取,从而能得到文本新词;通过对文本新词结果中含有共有字的文本新词的合并,从而能准确的得到由多个字组成文本新词。
图3是根据本发明实施例的文本中新词发现的装置的主要模块的示意图。
如图3所示,本发明实施例的文本中新词发现的装置20主要包括提取模块201、计算模块202、选取模块203。
提取模块201用于将文本中的每个字分隔开,利用深度神经网络算法提取每个字的特征向量;计算模块202用于计算文本中每相邻两个字的特征向量的夹角余弦值并将计算结果排序;选取模块203用于选取所有所述夹角余弦值大于预设阈值的相邻两个字的顺序组合作为文本新词,并输出所述文本新词。
提取模块201还用于在将文本中的每个字分隔开之前,将所述文本按照标点符号进行分行,使每行成为一个短文本。
提取模块201还用于在利用深度神经网络算法提取每个字的特征向量之后,对所述每个字按照字为键、特征向量为值的形式生成哈希字典进行存储。
计算模块202还用于在将计算结果排序之后,去除所述计算结果中相同两字的组合及字母和/或数字的组合。
选取模块203还用于在选取所有所述夹角余弦值大于预设阈值的相邻两个字的顺序组合作为文本新词之后,遍历所述文本新词,判断是否存在两个文本新词,其中一个文本新词的最后一个字是另一个文本新词的第一个字,若存在,则将所述两个文本新词按照顺序合并去掉中间重复字得到一个新的文本新词;判断所述新的文本新词在所述文本中是否存在,若存在,则删除合并前的两个文本新词,保留所述新的文本新词;若不存在,则保留合并前的两个文本新词。
从以上描述可以看出,在本发明实施例中,通过将文本拆分成短文本,从而能减少计算的复杂程度;通过将文本中的一个一个字拆分开,从而能保证计算机对文本中单个字符的识别;通过深度神经网络提取每个字的特征向量,从而能保证对字的特征向量的自动提取,节省观察数据特征的时间;通过对提取后的字与其特征向量的哈希字典存储,从而能保证特征向量提取结果的有效存储,同时方便后续处理过程对提取结果的有效查询和运用;通过对文本中每相邻两个字的特征向量的余弦距离的计算,从而能方便判断出每相邻两个字是否是一个文本新词;通过对每相邻两个字的特征向量余弦距离的计算结果的排序,从而方便对夹角余弦值大的相邻两个字的顺序组合的选取;通过对计算结果中相同两字的组合以及数字和/或字母组合等干扰项的剔除,从而能保障得到的下述选取结果的高质量;通过对所有所述夹角余弦值大于预设阈值的相邻两个字的顺序组合的选取,从而能得到文本新词;通过对文本新词结果中含有共有字的文本新词的合并,从而能准确的得到由多个字组成文本新词。
上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,取决于设计要求和其他因素,可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。

Claims (10)

1.一种文本中新词发现的方法,其特征在于,包括:
将文本中的每个字分隔开,利用深度神经网络算法提取每个字的特征向量;
计算文本中每相邻两个字的特征向量的夹角余弦值并将计算结果排序;
选取所有所述夹角余弦值大于预设阈值的相邻两个字的顺序组合作为文本新词,并输出所述文本新词。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
在将文本中的每个字分隔开之前,将所述文本按照标点符号进行分行,使每行成为一个短文本。
3.根据权利要求1或2所述的方法,其特征在于,所述方法还包括:
在利用深度神经网络算法提取每个字的特征向量之后,对所述每个字按照字为键、特征向量为值的形式生成哈希字典进行存储。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
在将计算结果排序之后,去除所述计算结果中相同两字的组合及字母和/或数字的组合。
5.根据权利要求1或4所述的方法,其特征在于,所述方法还包括:在选取所有所述夹角余弦值大于预设阈值的相邻两个字的顺序组合作为文本新词之后,
遍历所述文本新词,判断是否存在两个文本新词,其中一个文本新词的最后一个字是另一个文本新词的第一个字,若存在,则将所述两个文本新词按照顺序合并去掉中间重复字得到一个新的文本新词;
判断所述新的文本新词在所述文本中是否存在,若存在,则删除合并前的两个文本新词,保留所述新的文本新词;若不存在,则保留合并前的两个文本新词。
6.一种文本中新词发现的装置,其特征在于,包括:
提取模块,用于将文本中的每个字分隔开,利用深度神经网络算法提取每个字的特征向量;
计算模块,用于计算文本中每相邻两个字的特征向量的夹角余弦值并将计算结果排序;
选取模块,用于选取所有所述夹角余弦值大于预设阈值的相邻两个字的顺序组合作为文本新词,并输出所述文本新词。
7.根据权利要求6所述的装置,其特征在于,所述提取模块还用于:
在将文本中的每个字分隔开之前,将所述文本按照标点符号进行分行,使每行成为一个短文本。
8.根据权利要求6或7所述的装置,其特征在于,所述提取模块还用于:
在利用深度神经网络算法提取每个字的特征向量之后,对所述每个字按照字为键、特征向量为值的形式生成哈希字典进行存储。
9.根据权利要求6所述的装置,其特征在于,所述计算模块还用于:
在将计算结果排序之后,去除所述计算结果中相同两字的组合及字母和/或数字的组合。
10.根据权利要求6或9所述的装置,其特征在于,所述选取模块还用于:
在选取所有所述夹角余弦值大于预设阈值的相邻两个字的顺序组合作为文本新词之后,
遍历所述文本新词,判断是否存在两个文本新词,其中一个文本新词的最后一个字是另一个文本新词的第一个字,若存在,则将所述两个文本新词按照顺序合并去掉中间重复字得到一个新的文本新词;
判断所述新的文本新词在所述文本中是否存在,若存在,则删除合并前的两个文本新词,保留所述新的文本新词;若不存在,则保留合并前的两个文本新词。
CN201510443291.6A 2015-07-24 2015-07-24 文本中新词发现的方法和装置 Active CN105095196B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510443291.6A CN105095196B (zh) 2015-07-24 2015-07-24 文本中新词发现的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510443291.6A CN105095196B (zh) 2015-07-24 2015-07-24 文本中新词发现的方法和装置

Publications (2)

Publication Number Publication Date
CN105095196A true CN105095196A (zh) 2015-11-25
CN105095196B CN105095196B (zh) 2017-11-14

Family

ID=54575667

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510443291.6A Active CN105095196B (zh) 2015-07-24 2015-07-24 文本中新词发现的方法和装置

Country Status (1)

Country Link
CN (1) CN105095196B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106095736A (zh) * 2016-06-07 2016-11-09 华东师范大学 一种领域新词抽取的方法
CN106776543A (zh) * 2016-11-23 2017-05-31 上海智臻智能网络科技股份有限公司 新词发现方法、装置、终端及服务器
CN107168953A (zh) * 2017-05-16 2017-09-15 电子科技大学 海量文本中基于词向量表征的新词发现方法及系统
CN107918605A (zh) * 2017-11-22 2018-04-17 北京百度网讯科技有限公司 分词处理方法、装置、移动终端及计算机可读存储介质
CN108572953A (zh) * 2017-03-07 2018-09-25 上海颐为网络科技有限公司 一种词条结构的合并方法
CN109241392A (zh) * 2017-07-04 2019-01-18 北京搜狗科技发展有限公司 目标词的识别方法、装置、系统及存储介质
CN110516250A (zh) * 2019-08-29 2019-11-29 腾讯科技(深圳)有限公司 新词的发现方法和装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080221863A1 (en) * 2007-03-07 2008-09-11 International Business Machines Corporation Search-based word segmentation method and device for language without word boundary tag
CN102541935A (zh) * 2010-12-31 2012-07-04 北京安码科技有限公司 一种新的基于特征向量的中文Web文档表示方法
KR101339103B1 (ko) * 2011-10-05 2013-12-09 (주)워드워즈 의미적 자질을 이용한 문서 분류 시스템 및 그 방법
CN103942340A (zh) * 2014-05-09 2014-07-23 电子科技大学 一种基于文本挖掘的微博用户兴趣识别方法
CN103955453A (zh) * 2014-05-23 2014-07-30 清华大学 一种从文档集中自动发现新词的方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080221863A1 (en) * 2007-03-07 2008-09-11 International Business Machines Corporation Search-based word segmentation method and device for language without word boundary tag
CN102541935A (zh) * 2010-12-31 2012-07-04 北京安码科技有限公司 一种新的基于特征向量的中文Web文档表示方法
KR101339103B1 (ko) * 2011-10-05 2013-12-09 (주)워드워즈 의미적 자질을 이용한 문서 분류 시스템 및 그 방법
CN103942340A (zh) * 2014-05-09 2014-07-23 电子科技大学 一种基于文本挖掘的微博用户兴趣识别方法
CN103955453A (zh) * 2014-05-23 2014-07-30 清华大学 一种从文档集中自动发现新词的方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
杨阳 等: "基于词向量的情感新词发现方法", 《山东大学学报(理学版)》 *
熊富林 等: "Word2vec的核心架构及其应用", 《南京师范大学学报(工程技术版)》 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106095736A (zh) * 2016-06-07 2016-11-09 华东师范大学 一种领域新词抽取的方法
CN106776543A (zh) * 2016-11-23 2017-05-31 上海智臻智能网络科技股份有限公司 新词发现方法、装置、终端及服务器
CN106776543B (zh) * 2016-11-23 2019-09-06 上海智臻智能网络科技股份有限公司 新词发现方法、装置、终端及服务器
CN108572953A (zh) * 2017-03-07 2018-09-25 上海颐为网络科技有限公司 一种词条结构的合并方法
CN107168953A (zh) * 2017-05-16 2017-09-15 电子科技大学 海量文本中基于词向量表征的新词发现方法及系统
CN109241392A (zh) * 2017-07-04 2019-01-18 北京搜狗科技发展有限公司 目标词的识别方法、装置、系统及存储介质
CN107918605A (zh) * 2017-11-22 2018-04-17 北京百度网讯科技有限公司 分词处理方法、装置、移动终端及计算机可读存储介质
CN107918605B (zh) * 2017-11-22 2021-08-20 北京百度网讯科技有限公司 分词处理方法、装置、移动终端及计算机可读存储介质
CN110516250A (zh) * 2019-08-29 2019-11-29 腾讯科技(深圳)有限公司 新词的发现方法和装置
CN110516250B (zh) * 2019-08-29 2024-06-18 腾讯科技(深圳)有限公司 新词的发现方法和装置

Also Published As

Publication number Publication date
CN105095196B (zh) 2017-11-14

Similar Documents

Publication Publication Date Title
CN105095196A (zh) 文本中新词发现的方法和装置
CN106776538A (zh) 企业非标准格式文档的信息提取方法
CN105975454A (zh) 一种网页文本的中文分词方法和装置
CN107145479A (zh) 基于文本语义的篇章结构分析方法
CN106021410A (zh) 一种基于机器学习的源代码注释质量评估方法
CN103678684A (zh) 一种基于导航信息检索的中文分词方法
CN101315622A (zh) 检测文件相似度的系统及方法
CN103077164A (zh) 文本分析方法及文本分析器
CN104268160A (zh) 一种基于领域词典和语义角色的评价对象抽取方法
CN110555206A (zh) 一种命名实体识别方法、装置、设备及存储介质
CN108804608A (zh) 一种基于层次attention的微博谣言立场检测方法
Kherallah et al. Online Arabic handwriting recognition competition
CN105224520B (zh) 一种中文专利文献术语自动识别方法
CN108038099B (zh) 基于词聚类的低频关键词识别方法
CN111583905B (zh) 一种语音识别转化方法及系统
CN103324621A (zh) 一种泰语文本拼写纠正方法及装置
CN107515849A (zh) 一种成词判定模型生成方法、新词发现方法及装置
CN105335350A (zh) 一种基于集成学习的语种识别方法
CN107943786A (zh) 一种中文命名实体识别方法及系统
CN104317882B (zh) 一种决策级中文分词融合方法
CN106528527A (zh) 未登录词的识别方法及识别系统
CN111460147A (zh) 一种基于语义增强的标题短文本分类方法
CN111506726A (zh) 基于词性编码的短文本聚类方法、装置及计算机设备
CN112231451A (zh) 指代词恢复方法、装置、对话机器人及存储介质
CN109543036A (zh) 基于语义相似度的文本聚类方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant