CN109472022A - 基于机器学习的新词识别方法及终端设备 - Google Patents
基于机器学习的新词识别方法及终端设备 Download PDFInfo
- Publication number
- CN109472022A CN109472022A CN201811198025.1A CN201811198025A CN109472022A CN 109472022 A CN109472022 A CN 109472022A CN 201811198025 A CN201811198025 A CN 201811198025A CN 109472022 A CN109472022 A CN 109472022A
- Authority
- CN
- China
- Prior art keywords
- word
- character string
- text
- neologisms
- character
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 68
- 238000010801 machine learning Methods 0.000 title claims abstract description 23
- 206010028916 Neologism Diseases 0.000 claims abstract description 83
- 238000013528 artificial neural network Methods 0.000 claims abstract description 26
- 230000011218 segmentation Effects 0.000 claims abstract description 19
- 238000012545 processing Methods 0.000 claims abstract description 15
- 238000012549 training Methods 0.000 claims description 46
- 239000013598 vector Substances 0.000 claims description 29
- 238000004590 computer program Methods 0.000 claims description 12
- 238000004458 analytical method Methods 0.000 claims description 10
- 238000013145 classification model Methods 0.000 claims description 8
- 238000012216 screening Methods 0.000 abstract description 9
- 238000004364 calculation method Methods 0.000 abstract description 2
- 239000012141 concentrate Substances 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 5
- 230000004913 activation Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 241001269238 Data Species 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明提供了一种基于机器学习的新词识别方法及终端设备,包括:通过深度神经网络分词模型,对待处理文本进行分词处理,得到多个字符串;对多个字符串进行筛选,获得字符串长度在预设长度范围内的字符串作为候选字符串;针对候选字符串中的任一字符串,将字符串与预设停用词库中的前停词、后停词和广义停词进行比对;若字符串不属于广义停词、字符串的第一个字不属于前停词、以及字符串的最后一个字不属于后停词,则判断字符串为新词,将字符串收录至新词词库。本发明通过深度神经网络分词模型对待处理文本进行分词,通过筛选字符串的长度降低计算量,以及将字符串与预设停用词库进行比对,快速精准的获取新词。
Description
技术领域
本发明属于计算机技术领域,尤其涉及一种基于机器学习的新词识别方法及终端设备。
背景技术
在自然语言处理或计算机语言中,新词是指以前从来没有出现过的词汇,或者在词典中没有收录的词汇。随着互联网技术的不断发展,各行各业随之出现了多种新词,尤其是web2.0应用的出现,允许用户自己创造网页内容,从而导致大量新词涌现。
在中文信息处理领域,由于中文不像英文等西方语言,词与词之间有固定的分隔符,因此中文分词是一项重要的基础技术。新词的出现很大程度上影响自动分词工具的准确性,并且,新词的出现真实的反应了人们的生活,是舆情分析的重要依据,因此,新词的识别和储备是中文自然语言处理领域的一项重要研究内容。
但是,现有的新词识别技术,对于新词识别的准确率较低。
发明内容
有鉴于此,本发明实施例提供了一种基于机器学习的新词识别方法及终端设备,以解决现有技术新词识别的准确率低的问题。
本发明实施例的第一方面提供了一种基于机器学习的新词识别方法,包括:
通过深度神经网络分词模型,对待处理文本进行分词处理,得到多个字符串;
对所述多个字符串进行筛选,获得字符串长度在预设长度范围内的字符串作为候选字符串;
针对所述候选字符串中的任一字符串,将所述字符串与预设停用词库中的前停词、后停词和广义停词进行比对,其中,所述前停词是指出现在词尾但不会出现在词首的词,所述后停词是指出现在词首但不会出现在词尾的词,所述广义停词为预设置的已知词汇;
若所述字符串不属于所述广义停词、所述字符串的第一个字不属于所述前停词、以及所述字符串的最后一个字不属于所述后停词,则判断所述字符串为新词,将所述字符串收录至新词词库。
本发明实施例的第二方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可读指令,所述计算机可读指令被处理器执行时实现如下步骤:
通过深度神经网络分词模型,对待处理文本进行分词处理,得到多个字符串;
对所述多个字符串进行筛选,获得字符串长度在预设长度范围内的字符串作为候选字符串;
针对所述候选字符串中的任一字符串,将所述字符串与预设停用词库中的前停词、后停词和广义停词进行比对,其中,所述前停词是指出现在词尾但不会出现在词首的词,所述后停词是指出现在词首但不会出现在词尾的词,所述广义停词为预设置的已知词汇;
若所述字符串不属于所述广义停词、所述字符串的第一个字不属于所述前停词、以及所述字符串的最后一个字不属于所述后停词,则判断所述字符串为新词,将所述字符串收录至新词词库。
本发明实施例的第三方面提供了一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令,所述处理器执行所述计算机可读指令时实现如下步骤:
通过深度神经网络分词模型,对待处理文本进行分词处理,得到多个字符串;
对所述多个字符串进行筛选,获得字符串长度在预设长度范围内的字符串作为候选字符串;
针对所述候选字符串中的任一字符串,将所述字符串与预设停用词库中的前停词、后停词和广义停词进行比对,其中,所述前停词是指出现在词尾但不会出现在词首的词,所述后停词是指出现在词首但不会出现在词尾的词,所述广义停词为预设置的已知词汇;
若所述字符串不属于所述广义停词、所述字符串的第一个字不属于所述前停词、以及所述字符串的最后一个字不属于所述后停词,则判断所述字符串为新词,将所述字符串收录至新词词库。
本发明提供了一种基于机器学习的新词识别方法及终端设备,通过深度神经网络分词模型对待处理文本进行分词,通过筛选字符串的长度降低计算量,以及将字符串与预设停用词库进行比对,快速精准的获取新词。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种基于机器学习的新词识别方法的流程示意图;
图2为本发明实施例提供的另一种基于机器学习的新词识别方法的流程示意图;
图3为本发明实施例提供的又一种基于机器学习的新词识别方法的流程示意图;
图4为本发明实施例提供的再一种基于机器学习的新词识别方法的流程示意图;
图5为本发明实施例提供的一种基于机器学习的新词识别装置的结构框图;
图6为本发明实施例提供的一种终端设备的示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本发明实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本发明的描述。
为了说明本发明所述的技术方案,下面通过具体实施例来进行说明。
本发明实施例提供了一种基于机器学习的新词识别方法。结合图1,该方法包括:
S101,通过深度神经网络分词模型,对待处理文本进行分词处理,得到多个字符串。
可选的,本发明实施例提供一种深度神经网络分词模型,该模型包括4层,分别为输入层、第一隐藏层、第二隐藏层和输出层,所述输入层的输入为训练集文本中字符的特征向量,第一隐藏层包括第一预设数目的节点,如100个节点,第二隐藏层包括第二预设数目的节点,如200个节点,所述第一隐藏层和所述第二隐藏层的激活函数为relu函数,所述输出层为分词结果,所述输出层的激活函数为logistics函数。
当然,在本步骤中,也可以通过其他深度神经网络分词模型对待处理文本进行分词,本发明实施例对此不做限定。
S102,对所述多个字符串进行筛选,获得字符串长度在预设长度范围内的字符串作为候选字符串。
步骤S101的分词结果为长度不同的字符串,例如,有些字单独构成一个词,其字符串就是一个字大小的字符串,而有些词由多个字构成,其字符串是多个字所对应的字符串。例如,一般新词的长度在2至5个字之间,因此,可通过本步骤可实现对新词的初步筛选。
S103,针对所述候选字符串中的任一字符串,将所述字符串与预设停用词库中的前停词、后停词和广义停词进行比对,其中,所述前停词是指出现在词尾但不会出现在词首的词,所述后停词是指出现在词首但不会出现在词尾的词,所述广义停词为预设置的已知词汇。
预设停用词库的停用词是根据汉语语言规则确定的字,在词串特定位置出现时一定不会构成一个有意义的词,停用词分为前停词、后停词和广义停词。前停词一般出现在词尾,很少出现在词首,如“儿、子、然、于、边、么、们、呼”。后停词与前停词相反,很少出现在词尾,如“阿、老”等。广义停词可以根据需要设定为已有的词或是预设定的要删除的词,如通用词典或专业词典中的词。这些前停词、后停词和广义停词构成了停用词数据库。通过预设停用词库对步骤S102的筛选结果中的词进行再次筛选,即可得到新词。
S104,若所述字符串不属于所述广义停词、所述字符串的第一个字不属于所述前停词、以及所述字符串的最后一个字不属于所述后停词,则判断所述字符串为新词,将所述字符串收录至新词词库。
判断字符串不属于预设停用词库中的字符串的筛选原则为:所述字符串不属于所述广义停词、所述字符串的第一个字不属于所述前停词、以及所述字符串的最后一个字不属于所述后停词。
本发明实施例提供了一种基于机器学习的新词识别方法,通过对深度神经网络分词模型对待处理文本进行分词,对分词结果进行字符串长度筛选,和通过预设停用词库进行再次筛选,获取到新词。
结合图2,本发明实施例还提供了一种基于机器学习的新词识别方法,该方法用于提高深度神经网络分词模型的分词精度,该方法包括:
S201,获取第一预设训练集,所述第一预设训练集为经过人工标注文本类别信息的文本集合。
S202,根据所述第一预设训练集,对文本分类模型进行训练。
步骤S201和步骤S202是训练文本分类模型的过程,其具体实施过程可通过多种实现方式实现,本发明实施例对此不再赘述。
S203,根据所述文本分类模型,判断所述待处理文本的类型。
随着互联网的发展,海量的电子文本数据通常涉及到各种领域,以微博或论坛为例,这些平台上包含了大量的用户信息和各种方面的实时热点话题,不同的话题涵盖的信息也是差异很大。例如,以食物、美食等为主题的网络信息,和以电子科技为主题的网络信息,其所包含的内容几乎没有交集,现有技术中通常将来源不同的网络数据加工成统一的文本,通过人工分词构建训练集,通过训练集训练分词模型,这种分词模型的分词结果准确度较低。
为解决这一问题,提高分词的准确度,在本发明实施例中,通过训练好的文本分类模型,判断待处理文本的类型。举例来说,一个待处理文本,即一个待分词的文本,可通过多种分词模型对其进行分词,通过本步骤获取该文本的类型,即可使其通过与该类型对应的分词模型进行分词,从而能够提高分词的准确度。
S204,根据所述待处理文本的类型,获取与所述待处理文本的类型相对应的第二预设训练集,针对所述第二训练集中的任一文本,所述文本的类型与所述待处理文本的类型相同。
举例来说,通过步骤S203判断该待处理文本为一个金融类的文本,则对金融类的语料进行人工分词得到第一预设训练集。
当然,在本发明实施例中不限定步骤的先后顺序,可选的,可以预设文本类型,如将网络中出现频率高,数据量大的数据,分为预设类别,如金融类、教育类、娱乐类等,对每一个类别,建立与该类别相对应的训练集,如针对金融类,建立的训练集中的文本都是金融类的文本,针对娱乐类,建立的训练集中的文本都是娱乐类的文本。通过不同类别的训练集分别训练分词模型,得到该类别所对应的分词模型,当需要对一个文本进行分词时,只需要判断该文本的类别,通过该文本的类别获得该类别所对应的分词模型即可,从而提高了对待处理文本分词的精度。准确分词是新词识别的前提和基础,因此通过这种方法,可提高新词识别的准确度。
S205,通过所述第二预设训练集,训练所述深度神经网络分词模型。
由于第二预设训练集中的文本都是同一类型的文本,且与待处理文本的类型相同,通过第二预设训练集训练得到的深度神经网络分词模型,是专门用来对与第二预设训练集中的文本类型相同的待处理文本进行分词的模型,能够提高对该类型文本分词的准确性。
本发明实施例提供了一种基于机器学习的新词识别方法,通过对待处理文本进行类型判断,获得与该待处理文本类型相对应第一预设训练集训练分词模型,此时,第一预设训练集中的文本的类型,与待处理文本的文本类型是相同的,通过这种方法,能够提高分词精度,进而提高了新词识别的准确性。
进一步的,结合图3,本发明实施例还提供了一种基于机器学习的新词识别方法,该方法的实现基于图1所对应的实施例所提供的方法,在经过图1所对应的实施例提供的新词识别方法之后,或在图1所对应的实施例提供的新词识别的过程之中,该方法包括:
S301,在第一预设时间段内获取第一网页数据,对所述第一网页数据进行预处理得到所述待处理文本。
S302,在第二预设时间段内获取第二网页数据,对所述第二网页数据进行预处理得到新的待处理文本,其中所述第二预设时间段为所述第一预设时间段之后的一个时间段。
若所述字符串不属于所述广义停词、所述字符串的第一个字不属于所述前停词、以及所述字符串的最后一个字不属于所述后停词,则执行该步骤。
在本发明实施例中,通过聚焦爬虫,以相同的爬取策略获取所述第一网数据和所述第二网页数据。聚焦爬虫是一个自动下载网页的程序,它根据既定的抓取目标,有选择的访问万维网上的网页与相关的链接,获取所需要的信息。与通用爬虫不同,聚焦爬虫并不追求大的覆盖,而将目标定为抓取与某一特定主题内容相关的网页,为面向主题的用户查询准备数据资源。
因此,在本步骤中,通过聚焦爬虫以相同的爬取策略,抓取到的第一网页数据与第二网页数据是同一主题的数据,也可称为同一类型的数据。
S303,通过所述深度神经网络分词模型,对所述新的待处理文本进行分词处理。
该步骤中的深度神经网络分词模型,与步骤S101中的深度神经网络分词模型,是同一个模型。进一步的,该模型是与待处理文本类型相对应的深度神经网络分词模型。
S304,获取所述字符串的第一词频和第二词频。
其中,所述第一词频为所述字符串在所述待处理文本中出现的次数与所述待处理文本字符串总数目的比值,所述第二词频为所述字符串在所述新的待处理文本中出现的次数与所述新的待处理文本字符串总数目的比值。
S305,根据所述第一词频和所述第二词频,判断所述字符串是否为新词。
对于一个新词,其应该是在一段时间内多次出现的,如果仅出现几次,或只出现在很短的一段时间内,说明该词不构成称为新词的条件,例如该词为一个人自创的词,只有创造该词的人用过这个词,或该词仅在很短的一段时间,如一天内出现,之后该词不再出现,都说明这个词不是一个新词,仅根据图1所对应的实施例的方法,得到的新词还是会存在一定的错误,此时,可通过本发明实施例提供的方法,进一步提高新词识别的准确度。
可选的,可通过两种方法,根据所述第一词频和所述第二词频,判断所述字符串是否为新词。
第一种方法为:若所述第一词频大于第一预设值,且所述第二词频大于第二预设值,则判断所述字符串为新词,其中,所述第二预设值大于所述第一预设值。也就是说,对于一个词X,若通过图1所对应的实施例所提供的新词识别方法判定该词为新词,进一步的,还需要判断词X的第一词频和第二词频。
举例来说,词X在第一预设时间段内出现的频率,即词X的第一词频大于第一预设值,且词X在第二预设时间段也出现了,且其出现的频率,即其第二词频大于第二预设值,此时可判断该词是连续出现的、且是以一定频率出现的,从而进一步证明了该词为新词的可能性,又由于网络数据具有很强的时效性,尤其是对于新词,网络数据的出现时间距离当前时间越近,其可信度越高,例如一周前的数据就比一年前的数据更具可信度,因此,在本方法中,设置第二预设值大于第一预设值。
第二种方法为:根据公式计算所述字符串的可信度,所述公式为:
S=af1+bf2
其中,S为所述字符串的可信度,f1为所述第一词频,f2为所述第二词频,a+b=1,且a≤b;
若所述字符串的可信度大于第三预设值,则判断所述字符串为新词。
第二种方法也是基于网络数据的时效性,设置第二词频的权值大于等于第一词频的权值,通过第二种方法,可以判断一个词为新词的可信度,计算得到的值越大,该词为新词的可能性越大。
本发明实施例提供了一种基于机器学习的新词识别方法,在该方法中,通过聚焦爬虫爬取主题相同的前后两个时间段的网页数据,当通过图1所对应的实施例的方法初步判断一个词为新词后,根据该词在第一预设时间段的第一词频和第二预设时间段的第二词频进一步判断该词为新词的可能性,只选取可能性高的词作为新词,进一步提高了新词识别的准确性。
结合图4,本发明实施例还提供了一种基于机器学习的新词识别方法,该方法应用于上述各实施例之后,该方法包括:
S401,获取种子词集,所述种子词集中包括每个词的词向量,所述每个词的词向量的维度相同,所述词向量的每一维用于表示该词的语义特征或语法特征。
通过词向量空间模型,对语料中的词进行语义和语法分析,可获得该词的词向量,例如当基于微博语料进行新词识别时,可根据大量的微博数据进行分词,获得种子词集,并通过语义和语法分析,获得种子词集中每个词的词向量,该词向量包含了一个词与其所在的句子中其他词的词性信息、位置信息、上下文信息和情感倾向信息等,种子词集中每个词的词向量的维度相同。
S402,对所述新词所在的句子进行语法分析,获得所述新词的词向量。
采用同样的方法构建新词的词向量与构建种子词集中词向量。
S403,根据所述种子词集中每个词的词向量,和所述新词的词向量,在所述种子词集中匹配出与所述新词相似度最高的词作为所述新词的近义词。
词语向量化后,可利用余弦相似度计算词语之间的相似度,具体的,可通过如下公式计算新词w1与种子词集中一个词w2之间的相似度:
其中,Cosine(w1,w2)用于表示w1与词w2之间的相似度,每个词的词向量都包含n个维度,w1i与w2i分别表示w1的词向量在第i个维度的取值和w2在第i个维度的取值。
通过本步骤依次计算新词与种子词集中每个词的相似度,将相似度最高的词作为该新词的近义词。
S404,在所述新词词库中,通过所述新词的近义词对所述新词进行标注。
本发明实施例提供了一种基于机器学习的新词识别方法,该方法基于词向量分析,获取新词的近义词,并通过近义词对该新词进行标注,能够赋予新词以具体的意义。
结合图5,本发明实施例提供了一种基于机器学习的新词识别装置示意图,该装置包括:分词单元51、筛选单元52、比对单元53和判断单元54;
分词单元51,用于通过深度神经网络分词模型,对待处理文本进行分词处理,得到多个字符串;
筛选单元52,用于对所述多个字符串进行筛选,获得字符串长度在预设长度范围内的字符串作为候选字符串;
比对单元53,用于针对所述候选字符串中的任一字符串,将所述字符串与预设停用词库中的前停词、后停词和广义停词进行比对,其中,所述前停词是指出现在词尾但不会出现在词首的词,所述后停词是指出现在词首但不会出现在词尾的词,所述广义停词为预设置的已知词汇;
判断单元54,用于若所述字符串不属于所述广义停词、所述字符串的第一个字不属于所述前停词、以及所述字符串的最后一个字不属于所述后停词,则判断所述字符串为新词,将所述字符串收录至新词词库。
可选的,该装置还包括第一获取单元55和训练单元56;
第一获取单元55,用于获取第一预设训练集,所述第一预设训练集为经过人工标注文本类别信息的文本集合;
训练单元56,用于根据所述文本分类模型,判断所述待处理文本的类型;
第一获取单元55还用于根据所述待处理文本的类型,获取与所述待处理文本的类型相对应的第二预设训练集,针对所述第二训练集中的任一文本,所述文本的类型与所述待处理文本的类型相同;
训练单元56还用于通过所述第二预设训练集,训练所述深度神经网络分析模型。
可选的,该装置还包括第二获取单元57和第三获取单元58,用于对第一预设时间段内获取的第一网页数据进行预处理获得所述待处理文本,若所述字符串不属于所述广义停词、所述字符串的第一个字不属于所述前停词、以及所述字符串的最后一个字不属于所述后停词,第二获取单元57还用于在第二预设时间段内获取第二网页数据,对所述第二网页数据进行预处理得到新的待处理文本,其中所述第二预设时间段为所述第一预设时间段之后的一个时间段;
分词单元51,还用于通过所述深度神经网络分词模型,对所述新的待处理文本进行分词处理;
第三获取单元58,用于获取所述字符串的第一词频和第二词频,其中,所述第一词频为所述字符串在所述待处理文本中出现的次数与所述待处理文本字符串总数目的比值,所述第二词频为所述字符串在所述新的待处理文本中出现的次数与所述新的待处理文本字符串总数目的比值;
判断单元54还用于:根据所述第一词频和所述第二词频,判断所述字符串是否为新词。
可选的,所述判断单元54具体用于若所述第一词频大于第一预设值,且所述第二词频大于第二预设值,则判断所述字符串为新词,其中,所述第二预设值大于所述第一预设值。
或,可选的,所述判断单元54具体用于:根据公式计算所述字符串的可信度,所述公式为:
S=af1+bf2
其中,S为所述字符串的可信度,f1为所述第一词频,f2为所述第二词频,a+b=1,且a≤b;若所述字符串的可信度大于第三预设值,则判断所述字符串为新词。
可选的,第二获取单元57具体用于:通过聚焦爬虫,以相同的爬取策略获取所述第一网页数据和所述第二网页数据。
可选的,该装置还包括第四获取单元59、第五获取单元510、匹配单元511和标注单元512;
第四获取单元59,用于获取种子词集,所述种子词集收录有所有已知的中文词汇,所述种子词集中包括每个中文词汇的词向量,所述每个中文词汇的词向量的维度相同,所述词向量的每一维用于表示该中文词汇的语义特征或语法特征;
第五获取单元510,用于对所述新词所在的句子进行语法分析,获得所述新词的词向量;
匹配单元511,用于根据所述种子词集中每个中文词汇的词向量,和所述新词的词向量,在所述种子词集中匹配出与所述新词相似度最高的中文词汇作为所述新词的近义词;
标注单元512,用于在所述新词词库中,通过所述新词的近义词对所述新词进行标注。
本发明实施例提供了一种基于机器学习的新词识别装置,通过对深度神经网络分词模型对待处理文本进行分词,对分词结果进行字符串长度筛选,和通过预设停用词库进行再次筛选,获取到新词。
图6为本发明实施例提供的终端设备的示意图。如图6所示,该实施例的终端设备6包括:处理器60、存储器61以及存储在所述存储器61中并可在所述处理器60上运行的计算机程序62,例如新词识别程序。所述处理器60执行所述计算机程序62时实现上述各个新词识别方法实施例中的步骤,例如图1所示的步骤101至104,或图2所示的步骤201至205,或图3所示的301至305,或图4所示的步骤401至404。或者,所述处理器60执行所述计算机程序62时实现上述各装置实施例中各模块/单元的功能,例如图5所示模块51至512的功能。
示例性的,所述计算机程序62可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器61中,并由所述处理器60执行,以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序62在所述终端设备6中的执行过程。
所述终端设备6可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述终端设备可包括,但不仅限于,处理器60、存储器61。本领域技术人员可以理解,图6仅仅是终端设备6的示例,并不构成对终端设备6的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述终端设备还可以包括输入输出设备、网络接入设备、总线等。
所述处理器60可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器61可以是所述终端设备6的内部存储单元,例如终端设备6的硬盘或内存。所述存储器61也可以是所述终端设备6的外部存储设备,例如所述终端设备6上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器61还可以既包括所述终端设备6的内部存储单元也包括外部存储设备。所述存储器61用于存储所述计算机程序以及所述终端设备所需的其他程序和数据。所述存储器61还可以用于暂时地存储已经输出或者将要输出的数据。
本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述任一实施例所述新词识别方法的步骤。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使对应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于机器学习的新词识别方法,其特征在于,该方法包括:
通过深度神经网络分词模型,对待处理文本进行分词处理,得到多个字符串;
对所述多个字符串进行筛选,获得字符串长度在预设长度范围内的字符串作为候选字符串;
针对所述候选字符串中的任一字符串,将所述字符串与预设停用词库中的前停词、后停词和广义停词进行比对,其中,所述前停词是指出现在词尾但不会出现在词首的词,所述后停词是指出现在词首但不会出现在词尾的词,所述广义停词为预设置的已知词汇;
若所述字符串不属于所述广义停词、所述字符串的第一个字不属于所述前停词、以及所述字符串的最后一个字不属于所述后停词,则判断所述字符串为新词,将所述字符串收录至新词词库。
2.根据权利要求1所述的新词识别方法,其特征在于,该方法还包括:
获取第一预设训练集,所述第一预设训练集为经过人工标注文本类别信息的文本集合;
根据所述第一预设训练集,对文本分类模型进行训练;
根据所述文本分类模型,判断所述待处理文本的类型;
根据所述待处理文本的类型,获取与所述待处理文本的类型相对应的第二预设训练集,针对所述第二训练集中的任一文本,所述文本的类型与所述待处理文本的类型相同;
通过所述第二预设训练集,训练所述深度神经网络分析模型。
3.根据权利要求1所述的新词识别方法,其特征在于,所述待处理文本是通过对第一预设时间段内获取的第一网页数据进行预处理获得的,若所述字符串不属于所述广义停词、所述字符串的第一个字不属于所述前停词、以及所述字符串的最后一个字不属于所述后停词,该方法还包括:
在第二预设时间段内获取第二网页数据,对所述第二网页数据进行预处理得到新的待处理文本,其中所述第二预设时间段为所述第一预设时间段之后的一个时间段;
通过所述深度神经网络分词模型,对所述新的待处理文本进行分词处理;
获取所述字符串的第一词频和第二词频,其中,所述第一词频为所述字符串在所述待处理文本中出现的次数与所述待处理文本字符串总数目的比值,所述第二词频为所述字符串在所述新的待处理文本中出现的次数与所述新的待处理文本字符串总数目的比值;
根据所述第一词频和所述第二词频,判断所述字符串是否为新词。
4.根据权利要求3所述的新词识别方法,其特征在于,所述根据所述第一词频和所述第二词频,判断所述字符串是否为新词包括:
若所述第一词频大于第一预设值,且所述第二词频大于第二预设值,则判断所述字符串为新词,其中,所述第二预设值大于所述第一预设值。
5.根据权利要求3所述的新词识别方法,其特征在于,所述根据所述第一词频和所述第二词频,判断所述字符串是否为新词包括:
根据公式计算所述字符串的可信度,所述公式为:
S=af1+bf2
其中,S为所述字符串的可信度,f1为所述第一词频,f2为所述第二词频,a+b=1,且a≤b;
若所述字符串的可信度大于第三预设值,则判断所述字符串为新词。
6.根据权利要求3所述的新词识别方法,其特征在于,该方法还包括:
通过聚焦爬虫,以相同的爬取策略获取所述第一网页数据和所述第二网页数据。
7.根据权利要求1-6任一项所述的新词识别方法,其特征在于,判断所述字符串为新词之后,该方法还包括:
获取种子词集,所述种子词集收录有所有已知的中文词汇,所述种子词集中包括每个中文词汇的词向量,所述每个中文词汇的词向量的维度相同,所述词向量的每一维用于表示该中文词汇的语义特征或语法特征;
对所述新词所在的句子进行语法分析,获得所述新词的词向量;
根据所述种子词集中每个中文词汇的词向量,和所述新词的词向量,在所述种子词集中匹配出与所述新词相似度最高的中文词汇作为所述新词的近义词;
在所述新词词库中,通过所述新词的近义词对所述新词进行标注。
8.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述方法的步骤。
9.一种终端设备,其特征在于,所述终端设备包括存储器、处理器,所述存储器上存储有可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如下步骤:
通过深度神经网络分词模型,对待处理文本进行分词处理,得到多个字符串;
对所述多个字符串进行筛选,获得字符串长度在预设长度范围内的字符串作为候选字符串;
针对所述候选字符串中的任一字符串,将所述字符串与预设停用词库中的前停词、后停词和广义停词进行比对,其中,所述前停词是指出现在词尾但不会出现在词首的词,所述后停词是指出现在词首但不会出现在词尾的词,所述广义停词为预设置的已知词汇;
若所述字符串不属于所述广义停词、所述字符串的第一个字不属于所述前停词、以及所述字符串的最后一个字不属于所述后停词,则判断所述字符串为新词,将所述字符串收录至新词词库。
10.根据权利要求9所述的终端设备,其特征在于,所述处理器执行所述计算机程序还用于实现:
获取第一预设训练集,所述第一预设训练集为经过人工标注文本类别信息的文本集合;
根据所述第一预设训练集,对文本分类模型进行训练;
根据所述文本分类模型,判断所述待处理文本的类型;
根据所述待处理文本的类型,获取与所述待处理文本的类型相对应的第二预设训练集,针对所述第二训练集中的任一文本,所述文本的类型与所述待处理文本的类型相同;
通过所述第二预设训练集,训练所述深度神经网络分析模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811198025.1A CN109472022A (zh) | 2018-10-15 | 2018-10-15 | 基于机器学习的新词识别方法及终端设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811198025.1A CN109472022A (zh) | 2018-10-15 | 2018-10-15 | 基于机器学习的新词识别方法及终端设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109472022A true CN109472022A (zh) | 2019-03-15 |
Family
ID=65663890
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811198025.1A Pending CN109472022A (zh) | 2018-10-15 | 2018-10-15 | 基于机器学习的新词识别方法及终端设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109472022A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111428475A (zh) * | 2020-03-25 | 2020-07-17 | 苏州蓝海彤翔系统科技有限公司 | 分词词库的构建方法、分词方法、装置及存储介质 |
CN111832310A (zh) * | 2019-04-23 | 2020-10-27 | 北京嘀嘀无限科技发展有限公司 | 一种文本处理方法及装置 |
CN112541057A (zh) * | 2019-09-04 | 2021-03-23 | 上海晶赞融宣科技有限公司 | 分布式新词发现方法、装置、计算机设备和存储介质 |
CN112668331A (zh) * | 2021-03-18 | 2021-04-16 | 北京沃丰时代数据科技有限公司 | 一种专有词挖掘方法、装置、电子设备及存储介质 |
CN112686035A (zh) * | 2019-10-18 | 2021-04-20 | 北京沃东天骏信息技术有限公司 | 一种未登录词进行向量化的方法和装置 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2008022581A1 (fr) * | 2006-08-09 | 2008-02-28 | Beijing Sogou Technology Development Co., Ltd. | Procédé et dispositif d'obtention de mots nouveaux et système et procédé de saisie |
CN101706807A (zh) * | 2009-11-27 | 2010-05-12 | 清华大学 | 一种中文网页新词自动获取方法 |
CN106033462A (zh) * | 2015-03-19 | 2016-10-19 | 科大讯飞股份有限公司 | 一种新词发现方法及系统 |
CN108038119A (zh) * | 2017-11-01 | 2018-05-15 | 平安科技(深圳)有限公司 | 利用新词发现投资标的的方法、装置及存储介质 |
CN108108355A (zh) * | 2017-12-25 | 2018-06-01 | 北京牡丹电子集团有限责任公司数字电视技术中心 | 基于深度学习的文本情感分析方法和系统 |
CN108334492A (zh) * | 2017-12-05 | 2018-07-27 | 腾讯科技(深圳)有限公司 | 文本分词、即时消息处理方法和装置 |
US20180217979A1 (en) * | 2016-02-18 | 2018-08-02 | Tencent Technology (Shenzhen) Company Limited | Text information processing method and apparatus |
CN108363729A (zh) * | 2018-01-12 | 2018-08-03 | 中国平安人寿保险股份有限公司 | 一种字符串比较方法、装置、终端设备及存储介质 |
CN109284385A (zh) * | 2018-10-15 | 2019-01-29 | 平安科技(深圳)有限公司 | 基于机器学习的文本分类方法及终端设备 |
-
2018
- 2018-10-15 CN CN201811198025.1A patent/CN109472022A/zh active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2008022581A1 (fr) * | 2006-08-09 | 2008-02-28 | Beijing Sogou Technology Development Co., Ltd. | Procédé et dispositif d'obtention de mots nouveaux et système et procédé de saisie |
CN101706807A (zh) * | 2009-11-27 | 2010-05-12 | 清华大学 | 一种中文网页新词自动获取方法 |
CN106033462A (zh) * | 2015-03-19 | 2016-10-19 | 科大讯飞股份有限公司 | 一种新词发现方法及系统 |
US20180217979A1 (en) * | 2016-02-18 | 2018-08-02 | Tencent Technology (Shenzhen) Company Limited | Text information processing method and apparatus |
CN108038119A (zh) * | 2017-11-01 | 2018-05-15 | 平安科技(深圳)有限公司 | 利用新词发现投资标的的方法、装置及存储介质 |
CN108334492A (zh) * | 2017-12-05 | 2018-07-27 | 腾讯科技(深圳)有限公司 | 文本分词、即时消息处理方法和装置 |
CN108108355A (zh) * | 2017-12-25 | 2018-06-01 | 北京牡丹电子集团有限责任公司数字电视技术中心 | 基于深度学习的文本情感分析方法和系统 |
CN108363729A (zh) * | 2018-01-12 | 2018-08-03 | 中国平安人寿保险股份有限公司 | 一种字符串比较方法、装置、终端设备及存储介质 |
CN109284385A (zh) * | 2018-10-15 | 2019-01-29 | 平安科技(深圳)有限公司 | 基于机器学习的文本分类方法及终端设备 |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111832310A (zh) * | 2019-04-23 | 2020-10-27 | 北京嘀嘀无限科技发展有限公司 | 一种文本处理方法及装置 |
CN111832310B (zh) * | 2019-04-23 | 2024-04-16 | 北京嘀嘀无限科技发展有限公司 | 一种文本处理方法及装置 |
CN112541057A (zh) * | 2019-09-04 | 2021-03-23 | 上海晶赞融宣科技有限公司 | 分布式新词发现方法、装置、计算机设备和存储介质 |
CN112686035A (zh) * | 2019-10-18 | 2021-04-20 | 北京沃东天骏信息技术有限公司 | 一种未登录词进行向量化的方法和装置 |
CN111428475A (zh) * | 2020-03-25 | 2020-07-17 | 苏州蓝海彤翔系统科技有限公司 | 分词词库的构建方法、分词方法、装置及存储介质 |
CN111428475B (zh) * | 2020-03-25 | 2023-10-24 | 苏州蓝海彤翔系统科技有限公司 | 分词词库的构建方法、分词方法、装置及存储介质 |
CN112668331A (zh) * | 2021-03-18 | 2021-04-16 | 北京沃丰时代数据科技有限公司 | 一种专有词挖掘方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110427463B (zh) | 搜索语句响应方法、装置及服务器和存储介质 | |
CN109145153B (zh) | 意图类别的识别方法和装置 | |
Huang et al. | Improving word representations via global context and multiple word prototypes | |
CN109472022A (zh) | 基于机器学习的新词识别方法及终端设备 | |
CN109471937A (zh) | 一种基于机器学习的文本分类方法及终端设备 | |
CN106951438A (zh) | 一种面向开放域的事件抽取系统及方法 | |
CN106372061A (zh) | 基于语义的短文本相似度计算方法 | |
US9645988B1 (en) | System and method for identifying passages in electronic documents | |
CN113392209B (zh) | 一种基于人工智能的文本聚类方法、相关设备及存储介质 | |
CN108228758A (zh) | 一种文本分类方法及装置 | |
CN109086265B (zh) | 一种语义训练方法、短文本中多语义词消歧方法 | |
CN105843796A (zh) | 一种微博情感倾向分析方法及装置 | |
CN106599032A (zh) | 一种结合稀疏编码和结构感知机的文本事件抽取方法 | |
CN102609427A (zh) | 舆情垂直搜索分析系统及方法 | |
CN112329824A (zh) | 多模型融合训练方法、文本分类方法以及装置 | |
CN107679075B (zh) | 网络监控方法和设备 | |
CN108170678A (zh) | 一种文本实体抽取方法与系统 | |
CN109344246A (zh) | 一种电子问卷生成方法、计算机可读存储介质及终端设备 | |
KR102206781B1 (ko) | 지식 기반 추론 및 신뢰도 분석을 이용한 가짜뉴스 판별 방법, 이를 수행하기 위한 기록매체 및 장치 | |
Mishra et al. | Automatic word embeddings-based glossary term extraction from large-sized software requirements | |
Devisree et al. | A hybrid approach to relationship extraction from stories | |
CN111241848B (zh) | 一种基于机器学习的文章阅读理解答案检索方法及装置 | |
CN112052424A (zh) | 一种内容审核方法及装置 | |
CN107704763A (zh) | 多源异构漏洞情报去重方法、分级方法及装置 | |
CN115129885A (zh) | 实体链指方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |