CN109635296B - 新词挖掘方法、装置计算机设备和存储介质 - Google Patents

新词挖掘方法、装置计算机设备和存储介质 Download PDF

Info

Publication number
CN109635296B
CN109635296B CN201811498617.5A CN201811498617A CN109635296B CN 109635296 B CN109635296 B CN 109635296B CN 201811498617 A CN201811498617 A CN 201811498617A CN 109635296 B CN109635296 B CN 109635296B
Authority
CN
China
Prior art keywords
character string
words
word
text
new word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811498617.5A
Other languages
English (en)
Other versions
CN109635296A (zh
Inventor
谢春发
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Lizhi Network Technology Co ltd
Original Assignee
Guangzhou Lizhi Network Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Lizhi Network Technology Co ltd filed Critical Guangzhou Lizhi Network Technology Co ltd
Priority to CN201811498617.5A priority Critical patent/CN109635296B/zh
Publication of CN109635296A publication Critical patent/CN109635296A/zh
Application granted granted Critical
Publication of CN109635296B publication Critical patent/CN109635296B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Abstract

本发明涉及一种新词挖掘方法、装置、计算机设备和存储介质,其中方法包括以下步骤:获取待进行新词挖掘的文本信息;按照预先设置的过滤方法对文本信息进行过滤处理,生成多个文本语句;将多个文本语句输入到预先设置的Nagao算法模型中,生成多个候选词语;将每一个候选词语输入到预先训练的分类器中,进行词语分类判别;根据词语分类判别的结果选择符合要求的新词。该新词挖掘方法采用了Nagao算法生成候选词语,并采预先训练的分类器对候选词语进行检测和判别,能去除准确率低的词语,从而提高了新词生成的准确率。

Description

新词挖掘方法、装置计算机设备和存储介质
技术领域
本发明涉及信息挖掘技术领域,特别是涉及一种新词挖掘方法、装置、计算机设备和存储介质。
背景技术
新词挖掘,就是从已知的语料中去提取一些词或字,组成新的词汇,从而形成精准的总结文本信息,例如标签化、方便统计、构造索引、特征化长文本等都是通过新词挖掘产生的。新词挖掘算法是在新词挖掘中常用的技术,主要应用于搜索切词词库、知识图谱、文本分类和标签推荐引擎等场景。但是,目前常用的新词挖掘算法存在参数难以确定,从而造成生成的新词准确率低。
发明内容
基于此,有必要针对目前的新词挖掘算法存在参数难以确定,从而造成生成的新词准确率低的问题,提供一种新词挖掘方法、装置、计算机设备以及存储介质。
一种新词挖掘方法,包括以下步骤:
获取待进行新词挖掘的文本信息;
按照预先设置的过滤方法对所述文本信息进行过滤处理,生成多个文本语句;
将多个所述文本语句输入到预先设置的Nagao算法模型中,生成多个候选词语;
将每一个所述候选词语输入到预先训练的分类器中,进行新词分类判别;
根据所述新词分类判别的结果选择符合要求的新词。
在其中一个实施例中,按照预先设置的过滤方法对所述文本信息进行过滤处理,生成多个文本语句的步骤中,包括:
删除所述文本信息中的特殊符号,得到处理后的文本信息;
对处理后的文本信息中的字符进行分析,当某一字符出现的次数大于预设次数时,删除该字符,并对剩余的字符进行归一化处理,得到最终的文本信息;
根据所述最终的文本信息生成多个所述文本语句。
在其中一个实施例中,将多个所述文本语句输入到预先设置的Nagao算法模型中,生成多个候选词语的步骤中,包括:
列举出每一个所述文本语句的后缀,当所述后缀长度大于预设数值时,从所述对应的所述文本语句的后缀中选取预设数据加一个字符,得到正向字符串;
将每一个所述文本语句中的字符进行反转,列举出反转后的每一个所述文本语句的后缀,当分转后的所述后缀长度大于所述预设数值时,从对应的反转后的所述文本语句的后缀中选取预设数据加一个字符,得到反向字符串;
对各所述正向字符串和各所述反向字符串进行排序;
按照排序顺序计算各所述正向字符串的频率和各所述反向字符串的频率;
计算出各所述正向字符串的左右熵值和各所述反向字符串的左右熵值;
计算出各所述正向字符串的内部凝合度和各所述反向字符串的凝合度;
分别计算各所述正向字符串的频率、左右熵值和凝合度的平均值和方差,计算各所述正向字符串的阈值;
分别计算各所述反向字符串的频率、左右熵值和凝合度的平均值和方差,计算各所述反向字符串的阈值;
分别将各所述正向字符串的阈值和各所述反向字符串的阈值与预设的阈值进行比较,选择阈值小于预设的阈值的正向字符串和反向字符串生成多个候选词语。
在其中一个实施例中,将每一个所述候选词语输入到预先训练的分类器中的步骤之前,还包括:
根据多个所述候选词语和公共词库中的词语选择训练数据;
采用预先配置的算法对所述训练数据进行学习训练,得到预先训练的分类器。
将其中一个实施例中,根据多个所述候选词语和公共词库中的词语选择训练数据的步骤之前,还包括:
从所述公共词库中获取词语;
将公共词库中的词语的进行标记,记为正样本;
对每一个所述候选词语进行分析标记,筛选出正样本和负样本;
将所有正样本组成正样本集,所有负样本组成负样本集。
在其中一个实施例中,根据多个所述候选词语和公共词库中的词语选择训练数据的步骤中,还包括:
从所述正样本集和所述负样本集选择相等数量的词语,得到所述训练数据。
在其中一个实施例中,所述预先配置的算法包括神经网络算法或逻辑回归算法。
一种新词挖掘装置,包括:
文本信息获取模块,用于获取待进行新词挖掘的文本信息;
文本语句生成模块,用于按照预先设置的过滤方法对所述文本信息进行过滤处理,生成多个文本语句;
候选词语生成模块,用于将多个所述文本语句输入到预先设置的Nagao算法模型中,生成多个候选词语;
新词分类判别确定模块,用于将每一个所述候选词语输入到预先训练的分类器中,进行新词分类判别;
新词确定模块,用于根据所述新词分类判别的结果选择符合要求的新词。
一种计算机设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述所述的新词挖掘方法。
一种计算机存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述所述的新词挖掘方法。
上述的新词挖掘方法、装置、计算机设备和存储介质,首先获取待进行新词挖掘的文本信息,对文本信息进行过滤处理,生成多个文本语句,然后将多个文本语句输入到Nagao算法,生成多个候选词语,再将候选词语输入到预先训练的分类器中,预先训练的分类器对词语分类判别,根据词语分类判别的结果就可以选择出符合要求的新词;该新词挖掘方法采用了Nagao算法生成候选词语,并采预先训练的分类器对候选词语进行检测和判别,能去除准确率低的词语,从而提高了新词生成的准确率。
附图说明
图1为本发明的新词挖掘方法在一实施例中的流程示意图;
图2为本发明的新词挖掘方法在另一实施例中的流程示意图;
图3为本发明的新词挖掘方法在其中一实施例中的流程示意图;
图4为本发明实施例中频率、左右熵、凝合度正态分布图;
图5为本发明的新词挖掘装置在其中一实施例中的结构示意图;
图6为本发明的计算机设备在其中一实施例中的结构示意图。
具体实施方式
下面将结合较佳实施例及附图对本发明的内容作进一步详细描述。显然,下文所描述的实施例仅用于解释本发明,而非对本发明的限定。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。应当说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部内容。
【相关说明部分】
需要说明的是,本发明实施例所涉及的术语“第一\第二\第三”仅仅是是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序。应该理解“第一\第二\第三”区分的对象在适当情况下可以互换,以使这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。
本发明实施例的术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或(模块)单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
在本文中提及的“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
本申请提供的新词挖掘方法可运用于终端中,终端可以是个人计算机、笔记本电脑等。
终端中可以新词挖掘对应的应用程序,当将需要进行新词挖掘的文本输入到应用程序中时,终端就可以运行相关应用程序,从而给出相应的符合要求的新词。
本发明提供了一种新词挖掘方法。图1为本发明的新词挖掘方法在一个实施例中的流程示意图,如图1所示,本发明实施例中的新词挖掘方法,包括以下步骤:
步骤S110,获取待进行新词挖掘的文本信息;
其中,文本信息是指记录着大量文字内容的文件;文本信息通常是UGC文本,UGC(User Generated Content,用户原创内容),是一种互联网网络术语;通常存在与社交网络(例如人人网、facebook、qq等)、视频分享网络(优酷、腾讯等)、社会论坛(百度贴吧,天涯社区,知乎等)、微博等软件或APP中。在本实施例中,可以直接从数据库中待进行新词挖掘的文本信息,数据库中存储着各种数据,包括社交数据、视频数据、论坛数据等。
步骤S120,按照预先设置的过滤方法对文本信息进行过滤处理,生成多个文本语句;
在本实施例中,在获取待进行新词挖掘的文本信息后,对待进行新词挖掘的文本信息进行过滤处理,删除一些无效词语、字符、标点等,以保证待进行新词挖掘的文本信息的规范性,减少了后期工作量,并能提高新词的准确率。所述过滤方法是指对文本信息进行过滤处理所采用的方法或方式,所述预先配置的过滤方法是指用户或进行新词挖掘的工作人员根据自己需求设置或选择的过滤方法。
步骤S130,将多个文本语句输入到预先设置的Nagao算法模型中,生成多个候选词语;
Nagao算法,是一种基于信息熵等统计学方法,其主要是根据凝固度、自由度、熵值等参数信息从文本语句中提取相关词语生成一系列候选词语。
步骤S140,将每一个候选词语输入到预先训练的分类器中,进行词语分类判别;
步骤S150,根据词语分类判别的结果选择符合要求的新词。
具体地,分类是数据挖掘的一种非常重要的方法,分类器是分类过程中常用的一种工具。分类器是指在已有数据的基础上学会一个分类函数或构造出一个分类模型,该函数或模型能够把数据库中的数据纪录映射到给定类别中的某一个,从而可以应用于数据预测。分类器的构造和实施大体会经过以下几个步骤:选定样本,将所有样本分成训练样本和测试样本两部分;在训练样本上执行分类器算法,生成分类模型;在测试样本上执行分类模型,生成预测结果;根据预测结果,计算必要的评估指标,评估分类模型的性能。在本实施例中,通过Nagao算法中生成的候选词语输入到预先训练的分类器,对这些候选词语进行分类判别,然后根据分类判别的结果选择符合要求的新词。在进行分类判别时,对所有候选词汇进行分类时可以是判断候选词汇是正确率或者错误率,然后根据正确率和/或错误率将所有的候选词汇分成正确和错误两类别,然后从正确类别中选择出来的候选词汇为符合要求的新词。
其中,预先训练的分类器是指在进行候选词语测试之前选择合适的算法和训练数据进行学习训练,生成预先训练的分类器。
上述的新词挖掘方法,首先获取待进行新词挖掘的文本信息,对文本信息进行过滤处理,生成多个文本语句,然后将多个文本语句输入到Nagao算法,生成多个候选词语,再将候选词语输入到预先训练的分类器中,预先训练的分类器对词语分类判别,根据词语分类判别的结果就可以选择出符合要求的新词;该新词挖掘方法采用了Nagao算法生成候选词语,并采预先训练的分类器对候选词语进行检测和判别,能去除准确率低的词语,从而提高了新词生成的准确率。
在其中一个实施例中,如图2所示,按照预先设置的过滤方法对文本信息进行过滤处理,生成多个文本语句的步骤中,包括:
步骤S210,删除文本信息中的特殊符号,得到处理后的文本信息;
步骤S220,对处理后的文本信息中的字符进行分析,当某一字符出现的次数大于预设次数时,删除该字符,并对剩余的字符进行归一化处理,得到最终的文本信息;
步骤S230,根据最终的文本信息生成多个文本语句。
在本实施例中,按照预先设置的过滤方法对文本信息进行过滤处理具体过程为:首先删除特殊字符,其中特殊字符包括表情符号、标点符号、无意义字符等,完成该操作后使得处理后的文本信息只保留汉字、英文和数字这三种字符,并且不同字符之间用一个空格分割开来。在删除字符过程中需要判断哪些是汉字,汉字判断方法可以采用字符编码或开源的汉语言处理工具;在完成特殊字符删除之后,需要删除文本中的高频字符,其主要方法时分析文本中的字符,当每一字符出现的次数过高,即超过预设次数时,认定该字符为高频字符,将其删除。所述预设次数可以根据用户需求进行设置,通常也是一个经验值;完成高频字符删除之后,需要对字符做归一化处理,以保证数据规范和不浪费词频等信息。归一化处理方式通常为对于汉字,需要统一转成简体,并做全半角转化。对于英文,需要统一转成小写字母。
另外,在在字符进行归一化处理之后,采用“空格”对字符进行分割成多个文本语句,其中,每个文本语句长度没有限制,但要求每个文本语句中只包含汉字、数字和字母。
在其中一个实施例中,如图3,将多个文本语句输入到预先设置的Nagao算法模型中,生成多个候选词语的步骤中,包括:
步骤S310,列举出每一个文本语句的后缀,当后缀长度大于预设数值时,从对应的文本语句的后缀中选取预设数据加一个字符,得到正向字符串;
步骤S320,将每一个文本语句中的字符进行反转,列举出反转后的每一个文本语句的后缀,当分转后的后缀长度大于预设数值时,从对应的反转后的文本语句的后缀中选取预设数据加一个字符,得到反向字符串;
具体地,首选设定新词最大长度值,并将最大长度值记为预设数值d;那么对于每个文本语句,先枚举它所有的后缀,如果后缀的长度超过了预设数值,那么只取该后缀的前d+1个字符代替,从而得到正向字符串。由于每个连续串都是后缀的前缀。当我们把后缀按字典序排好之后,扫描一次,就能得到每个后缀连续子串的频率了,而不必直接枚举句子的所有子串,然后把所有连续子串排序,采用上述的方法可以减少排序数据量,并且用后缀代替连续子串的做法,还能方便计算每个串的右熵。
同样,为了方便的计算子串的左熵,我们需要把文本语句按字符反向,然后生成它所有的后缀,并且当后缀大于d时,也只取前d+1个字。在生成后缀和反向后缀的时候需要连续的数字和一个英文单词视为一个“字”。
为了便利理解给出一个详细实施例;有一个原文本语句为:iPhone秋季发布会2018;其中d=5;那么该文本语句的后缀为:
2018
会2018
布会2018
发布会2018
季发布会2018
秋季发布会
iPhone秋季发布
反向文本语句为:2018会布发季秋iPhone;那么反向文本语句的后缀为:
iPhone
秋iPhone
季秋iPhone
布发季秋iPhone
会布发季秋
2018会布发季。
步骤S330,对各正向字符串和各反向字符串进行排序;
具体而言,正向字符串和反向字符串进行排序,使整个Nagao算法的关键,计算量很大,而且正向字符串和反向字符串的数量很大,无法一次性直接加载到内存中排序,因此我们需要实现一个归并排序算法。在本实施例中,分批将正向字符串和反向字符串加载至内存并排序,然后写入到一个新的文件,一直到所有的数据都加载排序完了,然后进入归并阶段:不断两两合并有序文件,最后合作一个有序文件,此时便完成了整个排序过程;在整个排序过程中,采用一种文件内部排序算法,该算法利用正向字符串和反向字符串的第一个字的hash将正向字符串和反向字符串文件分片,然后分别排序每个分片即可;内部排序算法的时间复杂度为O(nlogn),n为后缀数量;
Figure BDA0001897588740000091
从以上公式可以看出,复杂度是明显低于原来的复杂度的,因此采用上面的排序方法可以减少数据计算量,大大提高了效率。
步骤S340,按照排序顺序计算各正向字符串的频率和各反向字符串的频率;
步骤S350,计算出各正向字符串的左右熵值和各反向字符串的左右熵值;
步骤S360,计算出各正向字符串的内部凝合度和各反向字符串的凝合度;
具体地,频率是指每个后缀的前缀出现的次数,通常采用扫描方式进行频率计算。为了便于理解给出一个实施例,例如一个排序的正向或负向字符串(即后缀):
关停
关注
关键
关键
关键因素
关键字
兴趣
扫描以上的字符串,就能很快得到每个后缀前缀的频率:
关:7
关停:1
关注:1
关键:4
关键因:1
关键因素:1
关键字:1
兴:1
兴趣:1
在计算每个字符串串的频率之后,计算每个字符串前缀的右熵。右熵的定义为:当前串右边第一个字出现频率的熵。熵的计算公式如下:
Figure BDA0001897588740000101
公式中,w为紧跟在当前串右边的第一个字符,p(w)为w在当前串右边第一个位置出现的概率。例如上述“关键”这个串的右熵为:
EntropyLeft(“关键”)=-(log2(P(“”))+log2(P(“因”))+log2(P(“字”)))
=-(log2(2/4)+log2(1/4)+log2(1/4))
=1.5
最后,计算每个串的内部凝合度,对于任意长度大于等于2的串S,从第i个字符分开的内部凝合度为:
Figure BDA0001897588740000111
P(S0,i)表示S从第i个字符划分的左边子串的出现概率,P(Si+1,L)表示右子串的出现概率,P(S)表示整个S字符串出现的概率。公式的意义在于:如果当S的左字符串和右字符串是完全独立事件,则它们在一起的概率为P(S0,i)P(Si+1,L),而实际它们一起出现的概率为P(S),当后者与前者的比值越大时,说明S是越难以把它从第i个字符划分开的,它们的左边和右边几乎都是同时出现的。我们计算S每个位置的划分凝合度,并取最小值,即整个S的内部最小凝合度为:
CS=min{CS,i}
步骤S370,分别计算各正向字符串的频率、左右熵值和凝合度的平均值和方差,计算各正向字符串的阈值;
步骤S380,分别计算各反向字符串的频率、左右熵值和凝合度的平均值和方差,计算各反向字符串的阈值;
步骤S390,分别将各正向字符串的阈值和各反向字符串的阈值与预设的阈值进行比较,选择阈值小于预设的阈值的正向字符串和反向字符串生成多个候选词语。
具体而言,当一个事件的发生受很多随机因素影响时,我们可以认为它近似符合一个正态分布。在实施例中我们认为每个正向或负向字符串的频率、左右熵、最小凝合度都符合正太分布(如图4所示),然后使用正太分布的累积分布函数来对每个正向或负向字符串做归一化。归一化之后可以简化了阈值的确定过程、提高模型的泛化能力。
具体过程为:先计算好每个参数(即频率、左右熵值和凝合度)的平均值和方差,然后采用正太分布累积函数的近似解算法,去估算每个正向或负向字符串的阈值,最后选择一个阈值范围进行过滤处理。由于正太分布的累积分布函数是一个S函数,且函数值域在0到1之间,这就完成了对频率、熵和凝合度的规划化了。归一化之后,我们就可以简单的设置过滤的阈值,例如设定为0.2,当频率的正太分布积分函数打分低于0.2时,除去这个正向或反向字符串串。采用左右熵、最小内部凝合度类似方法,极大的简化了确定阈值的过程。
在本实施例中,将每一个候选词语输入到预先训练的分类器中的步骤之前,还包括:
根据多个候选词语和公共词库中的词语选择训练数据;
采用预先配置的算法对训练数据进行学习训练,得到预先训练的分类器。
具体而言,在产生了一批候选词语后,需要建立丰富的样本数据并从样本数据中选择训练数据,从而训练分类器。通常情况下将候选词语作为样本数据;另外,可以通过关联公共词库,然后获取公共词库中的词语也作为样本数据;最后从样本数据中选择一部分数据作为训练数据,将训练数据输入预先配置的算法中进行学习训练,得到预先训练的分类器。其中预先配置的算法是指建立分离器时需要的算法,通常可以选择一些机器学习算法。采用上述方法选择训练数据,可以构建鲁棒性更好、更加精确的分类器,以过滤掉差的候选词,提高最终的算法的精确度。
在其中一个实施例中,根据多个候选词语和公共词库中的词语选择训练数据的步骤之前,还包括:
从公共词库中获取词语;
将公共词库中的词语的进行标记,记为正样本;
对每一个候选词语进行分析标记,筛选出正样本和负样本;
将所有正样本组成正样本集,所有负样本组成负样本集。
具体的,常用的公共词库可以是百度、腾讯等外部公共词库。从公共词库中选择出的词语作为正样本;然后对每一个候选词语进行分析标记,选择出正样本和负样本;其中正样本一般表示词语正确率高;而负样本表示准确率低。利用公共词库和候选词语作为正样本、负样本,扩大了样本的范围,能进一步保证构建的分类器的准确性。
在其中一个实施例中,根据多个候选词语和公共词库中的词语选择训练数据的步骤中,还包括:
从正样本集和负样本集选择相等数量的词语,得到训练数据。
在本实施例中,将正样本、负样本1:1采样,得到采样词语,然后从测样词语中选择出训练数据。另外在训练得到分类器对分类器性能进行评估时,可以从采样词语中选择出测试数据,将测试数据输入训练后的分类器进行分类处理,从而评估分类器的性能,在性能评估通过后,得到预先训练的分类器。
在其中一个实施例中,预先配置的算法包括神经网络算法或逻辑回归算法。
具体而言,可以选择任意机器学习算法进行学习训练从而得到预先训练的分类器。在本实施例中采用的是bp神经网络算法,最终的准确度在91%;而采用逻辑回归算法最终准确率为74%。
应当理解,上述的预先配置的算法包括神经网络算法或逻辑回归算法并不是对预先配置的算法的限定,本领域技术人员可以选择其他机器学习算法。
根据上述的新词挖掘方法,本发明还提供了一种新词挖掘装置。
图5为本发明的新词挖掘装置在一个实施例中的结构示意图。如图5所示,该实施例中的新词挖掘装置,包括:
文本信息获取模块10,用于获取待进行新词挖掘的文本信息;
文本语句生成模块20,用于按照预先设置的过滤方法对文本信息进行过滤处理,生成多个文本语句;
候选词语生成模块30,用于将多个文本语句输入到预先设置的Nagao算法模型中,生成多个候选词语;
新词分类判别确定模块40,用于将每一个候选词语输入到预先训练的分类器中,进行新词分类判别;
新词确定模块50,用于根据新词分类判别的结果选择符合要求的新词。
在其中一个实施例中,还包括:文本信息处理模块和最终文本信息获得模块,
文本信息处理模块,用于删除文本信息中的特殊符号,得到处理后的文本信息;
最终文本信息获得模块,用于对处理后的文本信息中的字符进行分析,当某一字符出现的次数大于预设次数时,删除该字符,并对剩余的字符进行归一化处理,得到最终的文本信息;
候选词语生成模块30,还用于根据最终的文本信息生成多个候选词语。
在其中一个实施例中,候选词语生成模块还包括:正向字符串获得模块、反向字符串获得模块、排序模块、频率计算模块、左右熵值计算模块、凝合度计算模块、正向字符串阈值计算模块和反向字符串阈值计算模块;
正向字符串获得模块,用于列举出每一个文本语句的后缀,当后缀长度大于预设数值时,从对应的文本语句的后缀中选取预设数据加一个字符,得到正向字符串;
反向字符串获得模块,用于将每一个文本语句中的字符进行反转,列举出反转后的每一个文本语句的后缀,当分转后的后缀长度大于预设数值时,从对应的反转后的文本语句的后缀中选取预设数据加一个字符,得到反向字符串;
排序模块,用于对各正向字符串和各反向字符串进行排序;
频率计算模块,用于按照排序顺序计算各正向字符串的频率和各反向字符串的频率;
左右熵值计算模块,用于计算出各正向字符串的左右熵值和各反向字符串的左右熵值;
凝合度计算模块,用于计算出各正向字符串的内部凝合度和各反向字符串的凝合度;
正向字符串阈值计算模块,用于分别计算各正向字符串的频率、左右熵值和凝合度的平均值和方差,计算各正向字符串的阈值;
反向字符串阈值计算模块,用于分别计算各反向字符串的频率、左右熵值和凝合度的平均值和方差,计算各反向字符串的阈值;
候选词语生成模块,还用于分别将各正向字符串的阈值和各反向字符串的阈值与预设的阈值进行比较,选择阈值小于预设的阈值的正向字符串和反向字符串生成多个候选词语。
在其中一个实施例中,还包括:
训练数据选择模块,用于根据多个候选词语和公共词库中的词语选择训练数据;
分类器训练模块,用于采用预先配置的算法对训练数据进行学习训练,得到预先训练的分类器。
在其中一个实施例中,训练数据选择模块还包括:
词语获取模块,用于从公共词库中获取词语;
正样本标记模块,用于将公共词库中的词语的进行标记,记为正样本;
筛选模块,用于对每一个候选词语进行分析标记,筛选出正样本和负样本;
正负样本集组成模块,用于将所有正样本组成正样本集,所有负样本组成负样本集。
在其中一个实施例中,训练数据选择模块,还用于从正样本集和负样本集选择相等数量的词语,得到训练数据。
在其中一个实施例中,预先配置的算法包括神经网络算法或逻辑回归算法。
上述的新词挖掘装置采用了新词挖掘方法,如此,该新词挖掘装置采用了Nagao算法生成候选词语,并采预先训练的分类器对候选词语进行检测和判别,能去除准确率低的词语,从而提高了新词生成的准确率。另外,上述新词挖掘装置可执行本发明实施例所提供的新词挖掘方法,具备执行方法相应的功能模块和有益效果。至于其中各个功能模块所执行的处理方法,例如文本信息获取模块,可参照上述方法实施例中的描述,此处不再进行赘述。
根据上述本发明的新词挖掘方法和装置,本发明还提供一种计算机设备,下面结合附图及较佳实施例对本发明的计算机设备进行详细说明。
图6为本发明的计算机设备在一个实施例中的结构示意图。如图6所示,该实施例中的计算机设备600,包括存储器602、处理器604及存储在存储器上并可在处理器上运行的计算机程序,其中处理器执行程序时可实现本发明方法实施例中的所有方法步骤。
上述计算机设备600中处理器604可执行本发明实施例所提供的新词挖掘方法,具备执行方法相应的有益效果。可参照上述方法实施例中的描述,此处不再进行赘述。
根据上述本发明的新词挖掘方法、装置和计算机设备,本发明还提供一种计算机可读存储介质,下面结合附图及较佳实施例对本发明的计算机可读存储介质进行详细说明。
本发明实施例中的计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时可以实现本发明方法实施例中的所有方法步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成。计算机程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(RandomAccess Memory,RAM)等”。
上述计算机可读存储介质用于存储本发明实施例所提供的新词挖掘方法的程序(指令),其中执行该程序可以执行本发明实施例所提供的新词挖掘方法,具备执行方法相应有益效果。可参照上述方法实施例中的描述,此处不再进行赘述。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (9)

1.一种新词挖掘方法,其特征在于,
包括以下步骤:
获取待进行新词挖掘的文本信息;
按照预先设置的过滤方法对所述文本信息进行过滤处理,生成多个文本语句;
将多个所述文本语句输入到预先设置的Nagao算法模型中,生成多个候选词语;
将每一个所述候选词语输入到预先训练的分类器中,进行词语分类判别;
根据所述词语分类判别的结果选择符合要求的新词;
其中,所述将多个所述文本语句输入到预先设置的Nagao算法模型中,生成多个候选词语具体包括:
列举出每一个所述文本语句的后缀,当所述后缀长度大于预设数值时,从对应的所述文本语句的后缀中选取预设数据加一个字符,得到正向字符串;
将每一个所述文本语句中的字符进行反转,列举出反转后的每一个所述文本语句的后缀,当分转后的所述后缀长度大于所述预设数值时,从对应的反转后的所述文本语句的后缀中选取预设数据加一个字符,得到反向字符串;
对各所述正向字符串和各所述反向字符串进行排序;
按照排序顺序计算各所述正向字符串的频率和各所述反向字符串的频率;
计算出各所述正向字符串的左右熵值和各所述反向字符串的左右熵值;
计算出各所述正向字符串的内部凝合度和各所述反向字符串的凝合度;
分别计算各所述正向字符串的频率、左右熵值和凝合度的平均值和方差,计算各所述正向字符串的阈值;
分别计算各所述反向字符串的频率、左右熵值和凝合度的平均值和方差,计算各所述反向字符串的阈值;
分别将各所述正向字符串的阈值和各所述反向字符串的阈值与预设的阈值进行比较,选择阈值小于预设的阈值的正向字符串和反向字符串生成多个候选词语。
2.根据权利要求1所述的新词挖掘方法,其特征在于,
按照预先设置的过滤方法对所述文本信息进行过滤处理,生成多个文本语句的步骤中,包括:
删除所述文本信息中的特殊符号,得到处理后的文本信息;
对处理后的文本信息中的字符进行分析,当某一字符出现的次数大于预设次数时,删除该字符,并对剩余的字符进行归一化处理,得到最终的文本信息;
根据所述最终的文本信息生成多个所述文本语句。
3.根据权利要求1-2任一项所述的新词挖掘方法,其特征在于,
将每一个所述候选词语输入到预先训练的分类器中的步骤之前,还包括:
根据多个所述候选词语和公共词库中的词语选择训练数据;
采用预先配置的算法对所述训练数据进行学习训练,得到预先训练的分类器。
4.根据权利要求3所述的新词挖掘方法,其特征在于,
根据多个所述候选词语和公共词库中的词语选择训练数据的步骤之前,还包括:
从所述公共词库中获取词语;
将公共词库中的词语的进行标记,记为正样本;
对每一个所述候选词语进行分析标记,筛选出正样本和负样本;
将所有正样本组成正样本集,所有负样本组成负样本集。
5.根据权利要求4所述的新词挖掘方法,其特征在于,
根据多个所述候选词语和公共词库中的词语选择训练数据的步骤中,还包括:
从所述正样本集和所述负样本集选择相等数量的词语,得到所述训练数据。
6.根据权利要求5所述的新词挖掘方法,其特征在于,
所述预先配置的算法包括神经网络算法或逻辑回归算法。
7.一种采用权利要求1所述的新词挖掘方法的新词挖掘装置,其特征在于,包括:
文本信息获取模块,用于获取待进行新词挖掘的文本信息;
文本语句生成模块,用于按照预先设置的过滤方法对所述文本信息进行过滤处理,生成多个文本语句;
候选词语生成模块,用于将多个所述文本语句输入到预先设置的Nagao算法模型中,生成多个候选词语;
新词分类判别确定模块,用于将每一个所述候选词语输入到预先训练的分类器中,进行新词分类判别;
新词确定模块,用于根据所述新词分类判别的结果选择符合要求的新词。
8.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,
所述处理器执行所述程序时实现权利要求1-6任一项所述方法的步骤。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,
该程序被处理器执行时实现权利要求1-6任一项所述方法的步骤。
CN201811498617.5A 2018-12-08 2018-12-08 新词挖掘方法、装置计算机设备和存储介质 Active CN109635296B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811498617.5A CN109635296B (zh) 2018-12-08 2018-12-08 新词挖掘方法、装置计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811498617.5A CN109635296B (zh) 2018-12-08 2018-12-08 新词挖掘方法、装置计算机设备和存储介质

Publications (2)

Publication Number Publication Date
CN109635296A CN109635296A (zh) 2019-04-16
CN109635296B true CN109635296B (zh) 2023-03-31

Family

ID=66072125

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811498617.5A Active CN109635296B (zh) 2018-12-08 2018-12-08 新词挖掘方法、装置计算机设备和存储介质

Country Status (1)

Country Link
CN (1) CN109635296B (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111832310B (zh) * 2019-04-23 2024-04-16 北京嘀嘀无限科技发展有限公司 一种文本处理方法及装置
CN110941697B (zh) * 2019-11-12 2023-08-08 清华大学 未收录术语检测方法及系统
CN110929009B (zh) * 2019-11-25 2023-04-07 北京明略软件系统有限公司 一种获取新词语的方法及装置
CN111061924A (zh) * 2019-12-11 2020-04-24 北京明略软件系统有限公司 词组提取方法、装置、设备和存储介质
CN111259664B (zh) * 2020-01-14 2023-03-24 腾讯科技(深圳)有限公司 医学文本信息的确定方法、装置、设备及存储介质
CN111309827A (zh) * 2020-03-23 2020-06-19 平安医疗健康管理股份有限公司 知识图谱构建方法、装置、计算机系统及可读存储介质
CN111428475B (zh) * 2020-03-25 2023-10-24 苏州蓝海彤翔系统科技有限公司 分词词库的构建方法、分词方法、装置及存储介质
CN111898010A (zh) * 2020-07-10 2020-11-06 时趣互动(北京)科技有限公司 新关键词挖掘方法、装置及电子设备
CN111950265A (zh) * 2020-08-25 2020-11-17 中国电子科技集团公司信息科学研究院 一种领域词库构建方法和装置
CN112633852B (zh) * 2020-12-30 2023-06-16 广东电网有限责任公司电力调度控制中心 一种业务文档的审查系统
CN113064990A (zh) * 2021-01-04 2021-07-02 上海金融期货信息技术有限公司 一种基于多层次聚类的热点事件识别方法和系统
CN114091433B (zh) * 2021-12-22 2022-08-09 沃太能源股份有限公司 用于分布式储能领域的挖掘新词的方法及其装置
CN115841115B (zh) * 2023-02-24 2023-05-23 山东云天安全技术有限公司 一种数据补充方法、存储介质及电子设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014190732A1 (en) * 2013-05-29 2014-12-04 Tencent Technology (Shenzhen) Company Limited Method and apparatus for building a language model
CN107515849A (zh) * 2016-06-15 2017-12-26 阿里巴巴集团控股有限公司 一种成词判定模型生成方法、新词发现方法及装置
CN108897732A (zh) * 2018-06-08 2018-11-27 腾讯科技(深圳)有限公司 语句类型识别方法和装置、存储介质及电子装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014190732A1 (en) * 2013-05-29 2014-12-04 Tencent Technology (Shenzhen) Company Limited Method and apparatus for building a language model
CN107515849A (zh) * 2016-06-15 2017-12-26 阿里巴巴集团控股有限公司 一种成词判定模型生成方法、新词发现方法及装置
CN108897732A (zh) * 2018-06-08 2018-11-27 腾讯科技(深圳)有限公司 语句类型识别方法和装置、存储介质及电子装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
java使用Nagao算法实现新词发现、热门词的挖掘;suchy_sz;《CSDN》;20161215;第1页 *

Also Published As

Publication number Publication date
CN109635296A (zh) 2019-04-16

Similar Documents

Publication Publication Date Title
CN109635296B (zh) 新词挖掘方法、装置计算机设备和存储介质
US11544459B2 (en) Method and apparatus for determining feature words and server
CN107657048B (zh) 用户识别方法及装置
CN109241274B (zh) 文本聚类方法及装置
CN108595695B (zh) 数据处理方法、装置、计算机设备和存储介质
CN112270196B (zh) 实体关系的识别方法、装置及电子设备
CN111222305B (zh) 一种信息结构化方法和装置
CN106874292B (zh) 话题处理方法及装置
Stamatatos Authorship Verification: A Review of Recent Advances.
CN109271514A (zh) 短文本分类模型的生成方法、分类方法、装置及存储介质
CN110909531A (zh) 信息安全的甄别方法、装置、设备及存储介质
CN112528022A (zh) 主题类别对应的特征词提取和文本主题类别识别方法
CN113282754A (zh) 针对新闻事件的舆情检测方法、装置、设备和存储介质
CN110968664A (zh) 一种文书检索方法、装置、设备及介质
US10217455B2 (en) Linguistic model database for linguistic recognition, linguistic recognition device and linguistic recognition method, and linguistic recognition system
CN112183102A (zh) 基于注意力机制与图注意力网络的命名实体识别方法
US20200202233A1 (en) Future scenario generating device and method, and computer program
Maneriker et al. SYSML: StYlometry with Structure and Multitask Learning: Implications for Darknet forum migrant analysis
CN109508557A (zh) 一种关联用户隐私的文件路径关键词识别方法
CN108021609B (zh) 文本情感分类方法、装置、计算机设备和存储介质
CN110705282A (zh) 关键词提取方法、装置、存储介质及电子设备
CN115640603A (zh) 隐私敏感数据识别模型构建及识别方法、装置及存储介质
CN107590163B (zh) 文本特征选择的方法、装置和系统
CN112115237B (zh) 烟草科技文献数据推荐模型的构建方法及装置
CN111611394B (zh) 一种文本分类方法、装置、电子设备及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant