CN115935980A - 新词发现方法、装置、计算机设备及存储介质 - Google Patents
新词发现方法、装置、计算机设备及存储介质 Download PDFInfo
- Publication number
- CN115935980A CN115935980A CN202211618682.3A CN202211618682A CN115935980A CN 115935980 A CN115935980 A CN 115935980A CN 202211618682 A CN202211618682 A CN 202211618682A CN 115935980 A CN115935980 A CN 115935980A
- Authority
- CN
- China
- Prior art keywords
- new word
- new
- corpus
- word
- candidate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Machine Translation (AREA)
Abstract
本发明涉及人工智能领域,公开了一种新词发现方法、装置、计算机设备及存储机制,所述方法包括:获取新词语料;按照所述新词语料的预测概率对所述新词语料进行筛选,得到候选新词;按照所述新词语料的预测结果对所述候选新词进行分类筛选,得到至少一个新词子集合;根据所述至少一个新词子集合的预测结果,判断所述新词子集合是否为新词发现结果。
Description
技术领域
本发明涉及人工智能技术领域,尤其涉及一种新词发现方法、装置、计算机设备及存储介质。
背景技术
新词发现是神经语言程序学一个重要的研究方向。
现有的新词发现方法主要都是通过构词法和统计模型来获取新词,但是这两种方法都是属于无监督的新词发现方法,在完成新词筛选后,还需要进行人工筛选,才能够得到准确率较高的新词。
因此,现有的新词发现方法存在准确率较低的问题。
发明内容
本发明公开了一种新词发现方法、装置、计算机设备及存储介质,以解决现有的新词发现方法存在准确率较低的问题。
本发明公开了一种新词发现方法,所述方法包括:
获取新词语料;
按照所述新词语料的预测概率对所述新词语料进行筛选,得到候选新词;
按照所述新词语料的预测结果对所述候选新词进行分类筛选,得到至少一个新词子集合;
根据所述至少一个新词子集合的预测结果,判断所述新词子集合是否为新词发现结果。
上述方法,可选的,所述按照所述新词语料的预测概率对所述新词语料进行筛选,得到候选新词,包括:
将所述新词语料输入到预先训练好的概率预测模型,得到所述新词语料中每一个词汇的预测概率;
基于所述每一个词汇的预测概率,按照预设的概率筛选规则,从所述新词语料中筛选得到候选新词。
上述方法,可选的,所述概率预测模型通过以下方式训练得到:
以关键词作为正样本,获取所述正样本中每个关键词的特征;所述关键词为词汇收集工具从网络中收集得到的目标领域的关键词;
以所述新词语料作为负样本,获取所述负样本中每个词汇的特征;
对所述正样本中每个关键词的特征,和所述负样本中每个词汇的特征输入随机森林模型进行模型训练,将训练完成的所述随机森林模型作为概率预测模型。
上述方法,可选的,所述获取新词语料包括:
获取目标领域的关键词;
从目标语料中,获取到新词候选集合;所述目标语料为预先收集到的包含新词的语句;
将所述新词候选集合和所述关键词的差集作为新词语料。
上述方法,可选的,所述从目标语料中,获取到新词候选集合,包括:
对所述目标语料进行分词处理,得到词汇集合;
对所述词汇集合中的词汇进行顺序组合,得到短词集合;
筛选出所述短词集合中词汇数量小于和等于预设阈值的短词作为所述新词候选集合。
上述方法,可选的,所述对所述候选新词进行分类筛选,得到至少一个新词子集合及对应的预测结果,包括:
获取所述候选新词的嵌入向量;
将所述候选新词的嵌入向量输入到预先训练好的新词分类模型,得到每一个所述候选新词的预测结果;
将所述预测结果相同的候选新词归类为同一个集合,得到至少一个新词子集合及对应的预测结果。
上述方法,可选的,所述新词分类模型通过以下方式训练得到:
获取所述目标领域的关键词和非关键词;所述关键词和所述非关键词为词汇收集工具从网络中收集得到;
获取到的所述关键词对应的嵌入向量,和所述非关键词对应的嵌入向量;
以所述关键词对应的嵌入向量作为正样本,以所述非关键词对应的嵌入向量作为负样本输入二分类模型进行模型训练,将得到的二分类模型作为所述新词分类模型。
本发明还公开了一种新词发现装置,包括:
新词语料获取单元,用于获取新词语料;
预测概率筛选单元,用于按照所述新词语料的预测概率对所述新词语料进行筛选,得到候选新词;
预测结果筛选单元,用于按照所述新词语料的预测结果对所述候选新词进行分类筛选,得到至少一个新词子集合;
结果判断单元,用于根据所述至少一个新词子集合的预测结果,判断所述新词子集合是否为新词发现结果。
本发明还公开了一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现上述的一种新词发现方法。
本发明还公开了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现上述的一种新词发现方法。
综上所述,本发明公开了一种新词发现方法、装置、计算机设备及存储介质,上述所实现的其中一个方案中,通过对新词语料进行概率筛选得到候选新词,然后对候选新词进行分类筛选,得到至少一个新词子集合及对应的预测结果,进而根据每个子集合对应的预测结果,得到新词发现结果。可见,本实施例首先对新词语料进行概率筛选,得到新词候选集合,然后再对新词候选集合进行分类筛选,得到新词发现结果,基于此,本发明通过对新词语料进行挖掘得到新词候选集合,然后再对新词候选集合作进一步筛选,得到新词发现结果,有效提高了新词发现方法的准确率。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例一公开的一种新词发现方法的实现流程图;
图2为本发明实施例一公开的一种新词发现方法的部分实现流程图;
图3为本发明实施例一公开的一种新词发现方法的部分实现流程图;
图4为本发明实施例一公开的一种新词发现方法的部分实现流程图;
图5为本发明实施例一公开的一种新词发现方法的部分实现流程图;
图6为本发明实施例一公开的一种新词发现方法的部分实现流程图;
图7为本发明实施例一公开的一种新词发现方法的部分实现流程图;
图8为本发明实施例二公开的一种新词发现装置的结构示意图;
图9为本发明实施例三公开的一种计算机设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例公开了一种新词发现方法、装置、计算机设备及存储介质,通过对新词语料进行概率筛选得到候选新词,然后对候选新词进行分类筛选,得到至少一个新词子集合及对应的预测结果,进而根据每个子集合对应的预测结果,得到新词发现结果。可以理解的是,本实施例中首先对新词语料进行概率筛选,将得到的概率大于和等于预设概率阈值的新词,作为候选新词,然后对候选新词进行分类筛选,根据每一个候选新词的预测结果,对候选新词进行分类,得到至少一个新词子集合,每一个新词子集合对应一个预测结果,然后根据结果判断规则,从至少一个新词子集合中,得到新词发现结果。可见,本实施例中首先对新词语料进行概率筛选,得到新词候选集合,然后再对新词候选集合进行分类筛选,得到新词发现结果,基于此,本发明通过对新词语料进行挖掘得到新词候选集合,然后再对新词候选集合作进一步筛选,得到新词发现结果,有效提高了新词发现方法的准确率。下面通过具体的实施例进行说明。
需要注意的是,本实施例中用到的训练模型,并非唯一的训练模型,也可以选择其他可以达到同样训练效果的训练模型,所形成的不同技术方案,均在本发明的保护范围内。
实施例一
如图1所示,为本发明实施例一公开的一种新词发明方法的实现流程图,该方法首先对新词语料进行新词挖掘,得到候选新词,然后对候选新词作进一步筛选,得到新词发现结果,有效提高了新词发现方法的准确率。
S101:获取新词语料。
其中,新词语料为包含新词的词汇的集合。需要对获取到的新词语料进行筛选,才能得到新词语料中包含的新词。
S102:按照新词语料的预测概率对新词语料进行筛选,得到候选新词。
对新词语料中的每一个词汇进行概率预测,进而得到新词语料中的每一个词汇的预测概率,然后根据每一个词汇的预测概率,从新词语料中筛选出一个或多个候选新词。例如,将预测概率大于和等于预设阈值的词汇作为候选新词。据此,完成了对新词语料的概率筛选,得到了候选新词。
其中,每一个词汇的预测概率指的是该词汇是否为新词的预测概率。
S103:按照新词语料的预测结果对候选新词进行分类筛选,得到至少一个新词子集合。
对每一个候选新词进行结果预测,得到每一个候选新词的预测结果,将预测结果相同的候选新词归为一个新词子集合,据此得到至少一个新词子集合。
S104:根据至少一个新词子集合的预测结果,判断新词子集合是否为新词发现结果。
在具体实现中,本实施例中可以预先设定一个结果判断规则,然后对每个新词子集合对应的预测结果进行判断。例如,以结果判断规则为预测结果的值为1为例,对每个新词子集合对应的预测结果进行判断,将预测结果的值为1的新词子集合作为新词发现结果。
需要注意的是,本实施例中对预测结果进行判断的结果判断规则仅是本实施例中一种实现方式,也可以是其他的实现方式,例如,结果判断规则为预测结果大于和和等于0.9,将预测结果为大于和和等于0.9的新词子集合作为新词发现结果。本实施例中不做具体限定。
综上所述,本发明实施例一公开了一种新词发现方法,通过对新词语料进行概率筛选得到候选新词,然后对候选新词进行分类筛选,得到至少一个新词子集合及对应的预测结果,进而根据每个子集合对应的预测结果,得到新词发现结果。可见,本实施例首先对新词语料进行概率筛选,得到新词候选集合,然后再对新词候选集合进行分类筛选,得到新词发现结果,基于此,本发明通过对新词语料进行挖掘得到新词候选集合,然后再对新词候选集合作进一步筛选,得到新词发现结果,有效提高了新词发现方法的准确率。
基于图1的具体实现中,本实施例中的步骤S102具体可以通过以下步骤实现,如图2所示:
S201:将新词语料输入到预先训练好的概率预测模型,得到新词语料中每一个词汇的预测概率。
在具体实现中,本实施例中的概率预测模型可以为预先训练好的随机森林模型(RandomForest),获取到新词语料中每个词汇的特征,将每个词汇的特征分别输入到随机森林模型,得到每个词汇的预测概率,之后,根据每个词汇的预测概率执行新词发现的后续步骤。
其中,词汇的特征可以如下所示:
例如,词频、逆文档频率、点互信息、KL散度、有多少词是在引号中出现、有多少词在括号中出现、第一个词是否为停用词、最后一个词是否为停用词、停用词占的比例,等特征。
S202:基于每一个词汇的预测概率,按照预设的概率筛选规则,从新词语料中筛选得到候选新词。
针对每一个词汇的预测概率,按照预设的概率筛选规则对该词汇的预测概率进行判断,若该词汇的预测概率符合概率筛选规则,则确定该词汇为一个候选新词,若该词汇的预测概率不符合概率筛选规则,则确定该词汇不能作为候选新词,该词汇将不再参与本实施例中新词发现的后续不步骤,以此类推,对每一个词汇的预测概率按照预设的概率筛选规则进行判断,据此,能够实现从新词语料中筛选得到候选新词。
在具体实现中,本实施例中的概率筛选规则可以为将新词语料中预测概率大于和等于0.6的词汇作为候选新词,进而完成对新词语料中每个词汇的筛选。需要注意的是,本实施例中的概率筛选规则仅是本实施例中的一种实现方式,也可以选择其他的实现方式,例如,将新词语料中预测概率大于和等于0.7的词汇作为候选新词,本实施例中对概率筛选规则的实现方式不做限定。据此,完成了对新词语料的概率筛选,得到了候选新词。
在基于图2的实现方式中,本实施例中的步骤S201中的概率预测模型具体可以通过以下方式得到:
S301:以关键词作为正样本,获取正样本中每个关键词的特征。
其中,关键词为词汇收集工具从网络中收集得到的目标领域的关键词。
在具体实现中,本实施例中的词汇收集工具可以为网络爬虫,通过对网络爬虫进行目标领域的设定,使网络爬虫对目标领域中的关键词进行抓取,以得到目标领域的关键词,然后从抓取到的关键词中获取到的每个关键词对应的特征,以用于新词发现的后续步骤。其中,本实施例中的目标领域可以用户根据新词语料所属的领域进行设定的领域,例如,新词语料可以是从保险业务领域收集到的语料,则设定网络爬虫对保险业务领域的关键词进行抓取。需要注意的是,本实施例中对从网络中收集关键词的方法不做限定。
其中,本实施例中关键词的特征可以如下所示:
例如:词频、逆文档频率、点互信息、KL散度、有多少词是在引号中出现、有多少词在括号中出现、第一个词是否为停用词、最后一个词是否为停用词、停用词占的比例,等等。
S302:以新词语料作为负样本,获取负样本中每个词汇的特征。
S303:对正样本中每个关键词的特征,和负样本中每个词汇的特征输入随机森林模型进行模型训练,将训练完成的所述随机森林模型作为概率预测模型。
将正样本中每个关键词的特征和负样本中每个词汇的特征输入到训练模型,进行模型训练,进而得到训练好的概率预测模型。例如将正样本中每个关键词的特征和负样本中每个词汇的特征输入到随机森林模型,得到训练好的随机森林模型,将训练好的随机森林模型作为概率预测模型。需要注意的是,本实施例中通过随机森林模型实现对新词预料中的每个词汇进行概率预测的方法,仅是本实施例中的一种实现方式,并不是唯一的实现方式,例如,本实施例中还可以通过决策树模型实现对新词预料中的每个词汇进行概率预测,本实施例中对新词预料中的每个词汇进行概率预测的方法,不做具体限定。
在基于图1的具体实现中,本实施例中的步骤S101具体可以通过以下步骤实现,如图4所示:
S401:获取目标领域的关键词。
在具体实现中,本实施例中可以通过对网络爬虫进行目标领域的设定,使网络爬虫对目标领域中的关键词进行抓取,以得到目标领域的关键词。
S402:从目标语料中,获取到新词候选集合。
其中,目标语料为预先收集到的包含新词的语句。例如,在银行办理保险业务过程中涉及到的对话语料等。对目标语料中包含新词的语句进行处理,进而得到新词候选集合。
对目标语料中包含新词的语句进行处理,进而获取到新词候选集合。
S403:将新词候选集合和关键词的差集作为新词语料。
在具体实现中,本实施例中可以将新词候选集合和关键词进行对比,剔除掉新词候选集合中与关键词相同的词汇,进而留下与关键词不相同的词汇,将新词候选集合中与关键词不相同的词汇作为新词语料,据此,实现了将新词候选集合和关键词的差集作为新词语料。
例如,新词候选集合中包含词汇1至词汇10,关键词中包含词汇2至词汇6,以及词汇11至20等,新词候选集合和关键词的差集即为新词候选集合中剔除词汇2至词汇6,将剩下的词汇1、词汇7至词汇10作为新词语料。
在基于图4的具体实现中,本实施例中的步骤S402具体可以通过以下方式显示,如图5所示:
S501:对目标语料进行分词处理,得到分词集合。
在具体实现中,本实施例中可以通过分词工具对目标语料中的语句进行分词处理,得到目标语料中每一条语句对应的分词词汇,进而得到分词集合。其中,本实施例中分词工具可以为jieba分词工具,等。
另外,本实施例进行分词的过程可以如下所示:
原始语句:我毕业于北京清华大学;
分词语句:我/毕业/于/北京/清华/大学。
S502:对分词集合中的词汇进行顺序组合,得到短词集合。
在具体实现中,本实施例中可以通过汉语语言模型(n-gram)对分词集合中分词词汇进行顺序组合,进而得到短词集合。
S503:筛选出短词集合中词汇数量小于和等于预设阈值的短词作为新词候选集合。
在具体实现中,本实施例中可以设置汉语语言模型中n的值来对短词集合进行筛选,例如,设置汉语语言模型中n的值小于等于6,分别获取到1-gram到6-gram的短词,即得到了短词集合。
例如,以2-gram为例,根据分词语句:我/毕业/于/北京/清华/大学,得到:我毕业、毕业于、于北京、北京清华以及清华大学,这些短词词汇,以此类推,即可获取到1-gram到6-gram的短词词汇,据此,得到了短词集合。
需要注意的是,上述获取到短词集合的方法,仅是本实施例中的一种实现方式,本实施例中对获取短词集合的方法实现方式不做具体限定。
在基于图1的具体实现中,本实施例中的步骤S301具体可以通过以下步骤实现,如图6所示:
S601:获取候选新词的嵌入向量。
在具体实现中,本实施例中可以通过语言表征模型(Bidirectional EncoderRepresentation from Transformers,BERT)的sever接口来获取候选新词的嵌入向量,进而根据获取到的嵌入向量执行新词发现的后续步骤。
需要注意的是,本实施例获取候嵌入向量的方法,仅是本实施例中一种实现方式,并不为唯一的实现方式,这里不做具体限定。
S602:将候选新词的嵌入向量输入到预先训练好的新词分类模型,得到每一个候选新词的预测结果。
在具体实现中,本实施例中新词分类模型可以为经过预先训练得到的二分类模型,如Fasttext模型。将将候选新词的嵌入向量输入到二分类模型中进行结果预测,得到每一个候选新词的预测结果。据此,根据得到的预测结果执行新词发现的后续步骤。
S603:将预测结果相同的候选新词归类为同一个集合,得到至少一个新词子集合及对应的预测结果。
根据每一个候选新词的预测结果对候选新词进行分类,得到至少一个新词子集合,每一个新词子集合中的候选新词对应相同的预测结果。
综上所述,本实施例通过应用Fasttext模型来进行新词发现,Fasttext模型属于一种有监督的训练模型,可以使新词发现方法从现有的无监督方法转变为了有监督的方法,提高了方法的准确率与覆盖率,并且不再需要人工进行筛选,节省了人力成本,提升了效率。
在基于图6的具体实现中,本实施例中的步骤S602中的新词分类模型可以通过以下方式获取,如图7所示:
S701:获取目标领域的关键词和非关键词。
其中,关键词和非关键词为词汇收集工具从网络中收集得到。
在具体实现中,本实施例中的词汇收集工具可以为网络爬虫等,通过对网络爬虫进行目标领域的设定,使网络爬虫对目标领域中的关键词进行抓取,以得到目标领域的关键词和非关键词,然后根据抓取到的关键词和非关键词,用于新词发现的后续步骤。据此,完成了目标领域的关键词和非关键词的获取。
S702:将获取到的关键词对应的嵌入向量,和非关键词对应的嵌入向量。
在具体实现中,本实施例中可以通过语言表征模型(Bidirectional EncoderRepresentation from Transformers,BERT)的sever接口来获取关键词对应的嵌入向量,和非关键词对应的嵌入向量,进而根据获取到的嵌入向量执行新词发现方法的后续步骤。
S703:以关键词对应的嵌入向量作为正样本,以非关键词对应的嵌入向量作为负样本输入二分类模型进行模型训练,将得到的二分类模型作为所述新词分类模型。
在具体实现中,本实施例中的二分类模型可以为Fasttext模型。将关键词对应的嵌入向量和非关键词对应的嵌入向量输入到Fasttext模型进行模型训练,得到的训练好的Fasttext模型,即为新词分类模型。需要注意的是,本实施例中可以作为新词分类模型的二分类模型不仅是Fasttext模型,还可以是其他的二分类模型,本实施例中不做具体限定。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
实施例二
如图8所示,为本发明实施例二公开的一种新词发明装置的结构示意图,该方法首先对新词语料进行新词挖掘,得到候选新词,然后对候选新词作进一步筛选,得到新词发现结果,有效提高了新词发现方法的准确率。
本实施例公开的一种新词发现装置具体包括以下单元:
新词语料获取单元801,获取新词语料;
预测概率筛选单元802,用于按照新词语料的预测概率对新词语料进行筛选,得到候选新词;
预测结果筛选单元803,用于按照新词语料的预测结果对候选新词进行分类筛选,得到至少一个新词子集合;
结果判断单元804,用于根据至少一个新词子集合的预测结果,判断新词子集合是否为新词发现结果。
综上所述,本发明实施例二公开了一种新词发现装置,通过对新词语料进行概率筛选得到候选新词,然后对候选新词进行分类筛选,得到至少一个新词子集合及对应的预测结果,进而根据每个子集合对应的预测结果,得到新词发现结果。可见,在本实施例中首先对新词语料进行概率筛选,得到新词候选集合,然后再对新词候选集合进行分类筛选,得到新词发现结果,基于此,本发明通过对新词语料进行挖掘得到新词候选集合,然后再对新词候选集合作进一步筛选,得到新词发现结果,有效提高了新词发现方法的准确率。
在一种实现方式中,概率筛选单元802具体用于:
将新词语料输入到预先训练好的概率预测模型,得到新词语料中每一个词汇的预测概率;
基于每一个词汇的预测概率,按照预设的概率筛选规则,从新词语料中筛选得到候选新词。
在一种实现方式中,概率筛选单元802可以通过以下方式获取概率预测模型:
以关键词作为正样本,获取正样本中每个关键词的特征;关键词为词汇收集工具从网络中收集得到的目标领域的关键词;
以新词语料作为负样本,获取负样本中每个词汇的特征;
对正样本中每个关键词的特征,和负样本中每个词汇的特征输入随机森林模型进行模型训练,将训练完成的随机森林模型作为概率预测模型。
在一种实现方式中,新词语料获取单元801具体用于:
获取目标领域的关键词;
从目标语料中,获取到新词候选集合;目标语料为预先收集到的包含新词的语句;
将新词候选集合和关键词的差集作为新词语料。
在一种实现方式中,新词语料获取单元801可以用于从目标语料中,获取到新词候选集合:
对目标语料进行分词处理,得到词汇集合;
对词汇集合中的词汇进行顺序组合,得到短词集合;
筛选出短词集合中词汇数量小于和等于预设阈值的短词作为新词候选集合。
在一种实现方式中,分类筛选单元803具体用于:
获取候选新词的嵌入向量;
将候选新词的嵌入向量输入到预先训练好的新词分类模型,得到每一个候选新词的预测结果;
将预测结果相同的候选新词归类为同一个集合,得到至少一个新词子集合及对应的预测结果。
在一种实现方式中,分类筛选单元803可以通过以下方式获取新词分类模型:
获取目标领域的关键词和非关键词;关键词和非关键词为词汇收集工具从网络中收集得到;
将获取到的关键词对应的嵌入向量,和非关键词对应的嵌入向量;
以关键词对应的嵌入向量作为正样本,以非关键词对应的嵌入向量作为负样本输入二分类模型进行模型训练,将得到的二分类模型作为新词分类模型。
关于新词发现装置的具体限定,可以参见上文中对于新词发现方法的有关限定,在此不再赘述。上述新词发现装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
实施例三
本申请实施例三公开了一种计算机设备,该计算机设备可以是服务端,其内部结构图可以如图9所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种新词发现方法。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现以下步骤:
获取新词语料;
按照新词语料的预测概率对新词语料进行筛选,得到候选新词;
按照新词语料的预测结果对候选新词进行分类筛选,得到至少一个新词子集合;
根据至少一个新词子集合的预测结果,判断新词子集合是否为新词发现结果。
实施例四
本申请实施例四公开了一种计算机可读存储介质,当计算机可读存储介质中的指令由计算机设备中的处理器执行时,使得计算机设备能够执行如本发明公开的一种新词发现方法的任一实施例的各个步骤。所述计算机可读存储介质可以是非易失性,也可以是易失性。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
获取新词语料;
按照新词语料的预测概率对新词语料进行筛选,得到候选新词;
按照新词语料的预测结果对候选新词进行分类筛选,得到至少一个新词子集合;
根据至少一个新词子集合的预测结果,判断新词子集合是否为新词发现结果。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。
Claims (10)
1.一种新词发现方法,其特征在于,所述方法包括:
获取新词语料;
按照所述新词语料的预测概率对所述新词语料进行筛选,得到候选新词;
按照所述新词语料的预测结果对所述候选新词进行分类筛选,得到至少一个新词子集合;
根据所述至少一个新词子集合的预测结果,判断所述新词子集合是否为新词发现结果。
2.如权利要求1所述的新词发现方法,其特征在于,所述按照所述新词语料的预测概率对所述新词语料进行筛选,得到候选新词,包括:
将所述新词语料输入到预先训练好的概率预测模型,得到所述新词语料中每一个词汇的预测概率;
基于所述每一个词汇的预测概率,按照预设的概率筛选规则,从所述新词语料中筛选得到候选新词。
3.根据权利要求2所述的新词发现方法,其特征在于,所述概率预测模型通过以下方式训练得到:
以关键词作为正样本,获取所述正样本中每个关键词的特征;所述关键词为词汇收集工具从网络中收集得到的目标领域的关键词;
以所述新词语料作为负样本,获取所述负样本中每个词汇的特征;
对所述正样本中每个关键词的特征,和所述负样本中每个词汇的特征输入随机森林模型进行模型训练,将训练完成的所述随机森林模型作为概率预测模型。
4.如权利要求1所述的新词发现方法,其特征在于,所述获取新词语料包括:
获取目标领域的关键词;
从目标语料中,获取到新词候选集合;所述目标语料为预先收集到的包含新词的语句;
将所述新词候选集合和所述关键词的差集作为新词语料。
5.如权利要求4所述的新词发现方法,其特征在于,所述从目标语料中,获取到新词候选集合,包括:
对所述目标语料进行分词处理,得到词汇集合;
对所述词汇集合中的词汇进行顺序组合,得到短词集合;
筛选出所述短词集合中词汇数量小于和等于预设阈值的短词作为所述新词候选集合。
6.如权利要求1所述的新词发现方法,其特征在于,所述对所述候选新词进行分类筛选,得到至少一个新词子集合及对应的预测结果,包括:
获取所述候选新词的嵌入向量;
将所述候选新词的嵌入向量输入到预先训练好的新词分类模型,得到每一个所述候选新词的预测结果;
将所述预测结果相同的候选新词归类为同一个集合,得到至少一个新词子集合及对应的预测结果。
7.如权利要求5所述的新词发现方法,其特征在于,所述新词分类模型通过以下方式训练得到:
获取所述目标领域的关键词和非关键词;所述关键词和所述非关键词为词汇收集工具从网络中收集得到;
获取到的所述关键词对应的嵌入向量,和所述非关键词对应的嵌入向量;
以所述关键词对应的嵌入向量作为正样本,以所述非关键词对应的嵌入向量作为负样本输入二分类模型进行模型训练,将得到的二分类模型作为所述新词分类模型。
8.一种新词发现装置,其特征在于,包括:
新词语料获取单元,用于获取新词语料;
预测概率筛选单元,用于按照所述新词语料的预测概率对所述新词语料进行筛选,得到候选新词;
预测结果筛选单元,用于按照所述新词语料的预测结果对所述候选新词进行分类筛选,得到至少一个新词子集合;
结果判断单元,用于根据所述至少一个新词子集合的预测结果,判断所述新词子集合是否为新词发现结果。
9.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述新词发现方法。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述新词发现方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211618682.3A CN115935980A (zh) | 2022-12-15 | 2022-12-15 | 新词发现方法、装置、计算机设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211618682.3A CN115935980A (zh) | 2022-12-15 | 2022-12-15 | 新词发现方法、装置、计算机设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115935980A true CN115935980A (zh) | 2023-04-07 |
Family
ID=86555390
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211618682.3A Pending CN115935980A (zh) | 2022-12-15 | 2022-12-15 | 新词发现方法、装置、计算机设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115935980A (zh) |
-
2022
- 2022-12-15 CN CN202211618682.3A patent/CN115935980A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109063217B (zh) | 电力营销系统中的工单分类方法、装置及其相关设备 | |
CN111753531B (zh) | 基于人工智能的文本纠错方法、装置、设备及存储介质 | |
US20210295162A1 (en) | Neural network model training method and apparatus, computer device, and storage medium | |
CN108595695B (zh) | 数据处理方法、装置、计算机设备和存储介质 | |
CN113420113B (zh) | 语义召回模型训练、召回问答方法、装置、设备及介质 | |
CN109657137B (zh) | 舆情新闻分类模型构建方法、装置、计算机设备和存储介质 | |
CN110175273B (zh) | 文本处理方法、装置、计算机可读存储介质和计算机设备 | |
CN113297366B (zh) | 多轮对话的情绪识别模型训练方法、装置、设备及介质 | |
CN110309504B (zh) | 基于分词的文本处理方法、装置、设备及存储介质 | |
CN114881035A (zh) | 训练数据的增广方法、装置、设备和存储介质 | |
CN110991193A (zh) | 一种基于OpenKiWi的翻译矩阵模型选择系统 | |
CN113239697B (zh) | 实体识别模型训练方法、装置、计算机设备及存储介质 | |
CN114492601A (zh) | 资源分类模型的训练方法、装置、电子设备及存储介质 | |
CN113946363A (zh) | 业务数据的执行配置方法、装置、计算机设备及存储介质 | |
CN112464660B (zh) | 文本分类模型构建方法以及文本数据处理方法 | |
CN111368061A (zh) | 短文本过滤方法、装置、介质及计算机设备 | |
CN113569021A (zh) | 用户分类的方法、计算机设备和可读存储介质 | |
CN112667791A (zh) | 潜在事件预测方法、装置、设备及存储介质 | |
CN112395857A (zh) | 基于对话系统的语音文本处理方法、装置、设备及介质 | |
CN115935980A (zh) | 新词发现方法、装置、计算机设备及存储介质 | |
CN113723506B (zh) | 一种对抗样本的生成方法、设备及存储介质 | |
CN114003685B (zh) | 分词位置索引构建方法及其装置、文档检索方法及其装置 | |
CN116187353A (zh) | 翻译方法、装置、计算机设备及其存储介质 | |
CN113255368B (zh) | 针对文本数据进行情感分析的方法、装置及相关设备 | |
CN110888977A (zh) | 文本分类方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |