CN111914554A - 领域新词识别模型的训练方法、领域新词识别方法及设备 - Google Patents

领域新词识别模型的训练方法、领域新词识别方法及设备 Download PDF

Info

Publication number
CN111914554A
CN111914554A CN202010839570.5A CN202010839570A CN111914554A CN 111914554 A CN111914554 A CN 111914554A CN 202010839570 A CN202010839570 A CN 202010839570A CN 111914554 A CN111914554 A CN 111914554A
Authority
CN
China
Prior art keywords
word
field
corpus
words
new
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010839570.5A
Other languages
English (en)
Other versions
CN111914554B (zh
Inventor
汪硕芃
周晓松
张聪
范长杰
胡志鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Netease Hangzhou Network Co Ltd
Original Assignee
Netease Hangzhou Network Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Netease Hangzhou Network Co Ltd filed Critical Netease Hangzhou Network Co Ltd
Priority to CN202010839570.5A priority Critical patent/CN111914554B/zh
Publication of CN111914554A publication Critical patent/CN111914554A/zh
Application granted granted Critical
Publication of CN111914554B publication Critical patent/CN111914554B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本申请提供了一种领域新词识别模型的训练方法、领域新词识别方法及设备,其中,该领域新词识别方法包括:获取目标语料,目标语料中包括预设时段内的多个文本,根据预先训练的领域新词识别模型,对目标语料进行处理,得到预设时段内的目标领域新词,其中,领域新词识别模型是根据训练语料训练得到的,训练语料中包括历史时段内的多个文本样本,多个文本样本标注有领域新词和非领域新词。本申请具有如下有益效果:采用领域新词识别模型可以快速地提取出领域新词,提高了领域新词的识别精确率,为人机对话和舆情分析提供了强有力的引导。

Description

领域新词识别模型的训练方法、领域新词识别方法及设备
技术领域
本申请涉及神经网络技术领域,具体而言,涉及一种领域新词识别模型的训练方法、领域新词识别方法及设备。
背景技术
随着互联网的高速发展,每天都会产生海量的新网络文本数据,各行各业共用一套网络体系,大量的领域新词隐藏在一些看似平常的文本中,由于领域新词在人机对话以及舆情分析方面尤为重要,因此越来越多的人员开始研究如何从文本中提取出特定领域新词。
目前,主要是预先利用预处理方法得到领域单句集合,并进行分词处理,统计文本中每个词对应的词频关系,然后基于该词频关系获取每个词对应的词频逆文档频率(TermFrequency–Inverse Document Frequency,TF-IDF),然后根据TF-IDF对所有词进行从大到小的排序,并过滤一部分词,最终留下来的词即为领域新词。
然而,上述识别方式从严重依赖于分词处理,由于分词处理会引入大量的额外误差,因此领域新词的识别精确率不高。
发明内容
本申请的目的在于,针对上述现有技术中的不足,提供一种领域新词识别模型的训练方法、领域新词识别方法及设备,以解决现有技术中领域新词的识别精确率的问题。
为实现上述目的,本申请实施例采用的技术方案如下:
第一方面,本申请一实施例提供了一种领域新词识别模型的训练方法方法,所述方法包括:
获取训练语料,所述训练语料中包括历史时段内的多个文本样本,所述多个文本样本标注有领域新词和非领域新词;
根据所述训练语料进行模型训练,得到领域新词识别模型。
可选地,所述获取训练语料,包括:
对第一语料库中的各文本样本进行分词处理,得到第一分词集;
根据预设语料,对所述第一分词集进行处理得到第二分词集,所述预设语料为预设的非领域新词的集合;
根据所述第二分词集中各词语对应的文本样本,获取非常规词学习语料;
根据所述非常规词学习语料,获取所述训练语料。
可选地,所述根据所述非常规词学习语料,获取所述训练语料,包括:
对第二语料库中的各文本样本进行切分处理,得到多个切分词语;
根据所述多个切分词语获取切分词语集,所述切分词语集中包括预设数目的切分词语;
根据所述切分词语集中各词语对应的文本样本,获取领域词学习语料;
根据所述非常规词学习语料和所述领域词学习语料,获取所述训练语料。
可选地,所述根据所述切分词语集中各词语对应的文本样本,获取领域词学习语料,包括:
获取所述第二分词集与所述切分词语集之间的重叠词语;
根据所述重叠词语在所述第一语料对应的文本样本以及在所述第二语料对应的文本样本,获取所述领域词学习语料。
可选地,所述根据所述多个切分词语获取切分词语集,包括:
针对各切分词语,获取所述切分词语的互信息和邻字熵,所述互信息用于指示所述切分词语中各字符的相关性;
根据所述互信息和所述邻字熵,从所述多个切分词语中获取所述预设数目的切分词语;
根据所述预设数目的切分词语获取所述切分词语集。
可选地,所述邻字熵包括左字熵和右字熵,所述根据所述切分词语的互信息和邻字熵,从所述多个切分词语中获取所述预设数目的切分词语,包括:
将各切分词语的左字熵和右字熵中的最小值、与所述互信息相加,得到各切分词语的分值;
根据所述各切分词语的分值,从所述多个切分词语中获取所述预设数目的切分词语。
可选地,所述根据预设语料,对所述第一分词集进行处理得到第二分词集,包括:
剔除所述第一分词集中满足预设筛选条件的部分词语;
根据所述预设语料,将剔除后的第一分词集中的预设常规词语过滤掉,得到所述第二分词集。
可选地,所述预设筛选条件包括如下条件中的至少一个:
总词频小于或者等于第一预设阈值、所述历史时段中多个预设时间间隔之间的词频波动值大于或者等于第二预设阈值、词频逆文档频率TF-IDF大于或者等于第三预设阈值、邻字熵大于或者等于第三预设阈值。
可选地,所述训练语料中的各文本样本还标注有语料领域,所述语料领域为所述非常规词学习语料或者所述领域词学习语料。
第二方面,本申请另一实施例提供了一种领域新词识别方法,所述方法包括:
获取目标语料,所述目标语料中包括预设时段内的多个文本;
根据预先训练的领域新词识别模型,对所述目标语料进行处理,得到预设时段内的目标领域新词,其中,所述领域新词识别模型是根据训练语料训练得到的,所述训练语料中包括历史时段内的多个文本样本,所述多个文本样本标注有领域新词和非领域新词。
可选地,所述根据预先训练的领域新词识别模型,对所述目标语料进行处理,得到预设时段内的目标领域新词,包括:
按照所述预设时段的时间片粒度,将所述目标语料输入到所述领域新词识别模型,得到所述预设时段中多个时间片的领域新词;
将所述多个时间片的领域新词中大于或等于词频阈值的领域新词,确定为初始领域新词;
根据所述初始领域新词,获取所述目标领域新词。
可选地,所述根据所述初始领域新词,获取所述目标领域新词,包括:
过滤掉所述多个时间片的多个初始领域新词之间的重叠词语,得到所述目标领域新词。
可选地,所述方法还包括:
获取所述目标领域新词在所述目标语料对应的目标文本;
通过剔除所述目标文本中的所述目标领域新词,获取所述目标文本的目标主干字符;
根据所述目标主干字符,从历史领域新词语料中获取满足预设条件的历史文本;所述历史文本包括历史领域新词;
根据所述历史文本中历史领域新词的类型,确定所述目标领域新词的类型。
可选地,所述预设条件包括:所述目标主干字符和历史主干字符的相似度大于或者等于预设相似度。
第三方面,本申请另一实施例提供了一种领域新词识别模型的训练装置,包括:
获取模块,用于获取训练语料,所述训练语料中包括历史时段内的多个文本样本,所述多个文本样本标注有领域新词和非领域新词;
训练模块,用于根据所述训练语料进行模型训练,得到领域新词识别模型。
可选地,所述获取模块,具体用于:
对第一语料库中的各文本样本进行分词处理,得到第一分词集;
根据预设语料,对所述第一分词集进行处理得到第二分词集,所述预设语料为预设的非领域新词的集合;
根据所述第二分词集中各词语对应的文本样本,获取非常规词学习语料;
根据所述非常规词学习语料,获取所述训练语料。
可选地,所述获取模块,具体用于:
对第二语料库中的各文本样本进行切分处理,得到多个切分词语;
根据所述多个切分词语获取切分词语集,所述切分词语集中包括预设数目的切分词语;
根据所述切分词语集中各词语对应的文本样本,获取领域词学习语料;
根据所述非常规词学习语料和所述领域词学习语料,获取所述训练语料。
可选地,所述获取模块,具体用于:
获取所述第二分词集与所述切分词语集之间的重叠词语;
根据所述重叠词语在所述第一语料对应的文本样本以及在所述第二语料对应的文本样本,获取所述领域词学习语料。
可选地,所述获取模块,具体用于:
针对各切分词语,获取所述切分词语的互信息和邻字熵,所述互信息用于指示所述切分词语中各字符的相关性;
根据所述互信息和所述邻字熵,从所述多个切分词语中获取所述预设数目的切分词语;
根据所述预设数目的切分词语获取所述切分词语集。
可选地,所述邻字熵包括左字熵和右字熵,所述获取模块,具体用于:
将各切分词语的左字熵和右字熵中的最小值、与所述互信息相加,得到各切分词语的分值;
根据所述各切分词语的分值,从所述多个切分词语中获取所述预设数目的切分词语。
可选地,所述获取模块,具体用于:
剔除所述第一分词集中满足预设筛选条件的部分词语;
根据所述预设语料,将剔除后的第一分词集中的预设常规词语过滤掉,得到所述第二分词集。
可选地,所述预设筛选条件包括如下条件中的至少一个:
总词频小于或者等于第一预设阈值、所述历史时段中多个预设时间间隔之间的词频波动值大于或者等于第二预设阈值、词频逆文档频率TF-IDF大于或者等于第三预设阈值、邻字熵大于或者等于第三预设阈值。
可选地,所述训练语料中的各文本样本还标注有语料领域,所述语料领域为所述非常规词学习语料或者所述领域词学习语料。
第四方面,本申请另一实施例提供了一种领域新词识别装置,包括:
获取模块,用于获取目标语料,所述目标语料中包括预设时段内的多个文本;
处理模块,用于根据预先训练的领域新词识别模型,对所述目标语料进行处理,得到预设时段内的目标领域新词,其中,所述领域新词识别模型是根据训练语料训练得到的,所述训练语料中包括历史时段内的多个文本样本,所述多个文本样本标注有领域新词和非领域新词。
可选地,所述处理模块,具体用于:
按照所述预设时段的时间片粒度,将所述目标语料输入到所述领域新词识别模型,得到所述预设时段中多个时间片的领域新词;
将所述多个时间片的领域新词中大于或等于词频阈值的领域新词,确定为初始领域新词;
根据所述初始领域新词,获取所述目标领域新词。
可选地,所述处理模块,具体用于:
过滤掉所述多个时间片的多个初始领域新词之间的重叠词语,得到所述目标领域新词。
可选地,还包括:
获取模块,用于获取所述目标领域新词在所述目标语料对应的目标文本;通过剔除所述目标文本中的所述目标领域新词,获取所述目标文本的目标主干字符;根据所述目标主干字符,从历史领域新词语料中获取满足预设条件的历史文本;所述历史文本包括历史领域新词;根据所述历史文本中历史领域新词的类型,确定所述目标领域新词的类型。
可选地,所述预设条件包括:所述目标主干字符和历史主干字符的相似度大于或者等于预设相似度。
第五方面,本申请另一实施例提供了一种领域新词识别模型的训练设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的计算机程序,当领域新词识别模型的训练设备运行时,所述处理器与所述存储器之间通过总线通信,所述处理器执行所述计算机程序,以执行第一方面任一所述的方法。
第六方面,本申请另一实施例提供了一种领域新词识别设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的计算机程序,当领域新词识别设备运行时,所述处理器与所述存储器之间通过总线通信,所述处理器执行所述计算机程序,以执行第二方面任一所述的方法。
第七方面,本申请另一实施例提供了一种存储介质,所述存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行第一方面和第二方面任一所述的方法。
本申请提供的领域新词识别模型的训练方法、领域新词识别方法及设备,其中,该领域新词识别方法包括:获取目标语料,目标语料中包括预设时段内的多个文本,根据预先训练的领域新词识别模型,对目标语料进行处理,得到预设时段内的目标领域新词,其中,领域新词识别模型是根据训练语料训练得到的,训练语料中包括历史时段内的多个文本样本,多个文本样本标注有领域新词和非领域新词。本申请具有如下有益效果:采用领域新词识别模型可以快速地提取出领域新词,提高了领域新词的识别精确率,为人机对话和舆情分析提供了强有力的引导。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本申请实施例提供的领域新词识别模型的训练方法;
图2示出了本申请实施例提供的领域新词模型的训练方法的流程示意图二;
图3示出了本申请实施例提供的领域新词识别模型的训练方法的流程示意图三;
图4示出了本申请实施例提供的领域新词模型的训练方法的流程示意图四;
图5示出了本申请实施例提供的领域新词识别方法的流程示意图一;
图6示出了本申请实施例提供的领域新词识别方法的流程示意图二;
图7示出了本申请实施例提供的领域新词识别方法的流程示意图三;
图8示出了本申请实施例提供的领域新词识别模型的训练装置的结构示意图;
图9示出了本申请实施例提供的领域新词识别装置的结构示意图;
图10示出了本申请实施例提供的领域新词识别模型的训练设备的结构示意图;
图11示出了本申请实施例提供的领域新词识别设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,应当理解,本申请中附图仅起到说明和描述的目的,并不用于限定本申请的保护范围。另外,应当理解,示意性的附图并未按实物比例绘制。本申请中使用的流程图示出了根据本申请的一些实施例实现的操作。应该理解,流程图的操作可以不按顺序实现,没有逻辑的上下文关系的步骤可以反转顺序或者同时实施。此外,本领域技术人员在本申请内容的指引下,可以向流程图添加一个或多个其他操作,也可以从流程图中移除一个或多个操作。
另外,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
为了使得本领域技术人员能够使用本申请内容,结合特定应用场景“人机对话”和“舆情分析”,给出以下实施方式。对于本领域技术人员来说,在不脱离本申请的精神和范围的情况下,可以将这里定义的一般原理应用于其他实施例和应用场景。虽然本申请主要围绕人机对话和舆情分析行描述,但是应该理解,这仅是一个示例性实施例。
需要说明的是,本申请实施例中将会用到术语“包括”,用于指出其后所声明的特征的存在,但并不排除增加其它的特征。
在人机对话领域,为了更好地进行人机对话,需要识别出对方所说的领域新词,同样地,在舆情分析领域,为了更好地进行舆情分析,例如游戏舆情,则需要识别大量的舆情数据中的领域新词。基于此,现有提供的领域新词识别方法包括如下几种:
第一、预先利用预处理方法得到领域单句集合,并进行分词处理,统计文本中每个词对应的词频关系,然后基于该词频关系获取每个词对应的词频逆文档频率(TermFrequency–Inverse Document Frequency,TF-IDF),然后根据TF-IDF对所有词进行从大到小的排序,并过滤一部分词,最终留下来的词即为领域新词。
第二、对训练语料进行分词提取分词结果的边界特征,即边界前后向特征、以及以所述分词结果的边界为中心,滑动窗口设定宽度内的所有边界前后向特征,按照该边界特征训练新词发现模型,然后抓取网络文本,获取新语料,得到新词候选集合,再判断集合中是否是新词:首单字或词尾单字的成词概率、在语料上下文中的重要程度得分、波动幅度,并计算置信度,根据置信度来确定领域新词。
第三、在训练语料库中训练语言模型,并在推理阶段对输入文本进行文本纠错,对于识别出来判定错误的词,将其原词保留并加入领域新词库。
然而,上述方式存在的缺陷在于:严重依赖于分词处理,由于分词处理会引入大量的额外误差,因此导致领域新词的识别精确率不高;并且基于语言模型的新词判断精度会相对较高,但召回率会非常低,通常只能发现一些替换掉常用模式而产生的新词,导致领域新词的识别精确率不高。
针对现有技术存在的问题,本申请实施例提供了一种领域新词的识别方法,获取目标语料,目标语料中包括预设时段内的多个文本,根据预先训练的领域新词识别模型,对目标语料进行处理,得到预设时段内的目标领域新词,其中,领域新词识别模型是根据训练语料训练得到的,训练语料中包括历史时段内的多个文本样本,多个文本样本标注有领域新词和非领域新词。本申请具有如下有益效果:采用领域新词识别模型可以快速地提取出领域新词,提高了领域新词的识别精确率,为人机对话和舆情分析提供了强有力的引导。
下面结合以下几个具体实施例对本申请实施例提供的领域新词识别模型的训练方法进行详细说明。
图1示出了本申请实施例提供的领域新词识别模型的训练方法,如图1所示,该领域新词识别模型的训练方法包括:
S101、获取训练语料,训练语料中包括历史时段内的多个文本样本,多个文本样本标注有领域新词和非领域新词。
其中,文本样本例如可以为“几位华裔砖家说得头头是道”,其中的领域新词可以为“砖家”、剩余的词语均为非领域新词;文本样本例如可以为“最近大家都在玩动森”,其中的领域新词可以为“动森”,剩余的词语均为非领域新词。文本样本例如可以为“你觉得偃师好玩吗”,其中,“偃师”为领域新词,剩余的词语均为非领域新词。
训练语料中的多个文本样本可以是从网络上已公开的文本还可以是其它途径得到的文本样本,历史时段可以为半年、1年或者2年。本实施例对训练语料和历史时段的不做特别限定。
可选地,各文本样本可以是通过序列标注的方式进行标注的,在该标注方式中,各文本样本中的领域新词可以采用BME标注体系进行标注、非领域新词可以标注为S。
S102、根据训练语料进行模型训练,得到领域新词识别模型。
具体地,初始化得到一个初始领域新词识别模型,根据训练语料对该初始领域新词识别模型进行模型训练得到领域新词识别模型。
其中,由于训练语料中的多个文本样本的长度可能不相同,因此在根据训练语料进行模型训练得到领域新词识别模型之前,还包括:
将训练语料中的多个文本样本进行字符对齐处理。
具体地,对于不同字符的文本样本,将这些文本样本的字符长度对齐至相同。例如,针对50个字符的文本样本和10个字符的文本样本,按照词长遮蔽(英文名称:mask)将10个字符的文本样本扩充到50个字符,也就是说采用一些无意义的字符将10个字符的文本样本扩充到50个字符。
可选地,初始领域新词识别模型可以为Robert语言模型,该模型具有12层,嵌入向量维度为768,也即将文本,dropout参数为0.1,训练时以中文字符为单位,得到Robert语言模型的相关参数,从而获得领域新词识别模型。
本实施例提供的领域新词模型训练方法,包括:获取训练语料,训练语料中包括历史时段内的多个文本样本,多个文本样本标注有领域新词和非领域新词,根据训练语料进行模型训练,得到领域新词识别模型。训练语料中的多个文本样本标注有领域新词和非领域新词,使得训练得到的领域新词识别模型学习到更多的信息,大大提升了领域新词识别模型的精确率和召回率。
下面结合图2实施例对获取训练语料的具体方式进行说明。图2示出了本申请实施例提供的领域新词模型的训练方法的流程示意图二,如图2所示,获取训练语料具体包括:
S201、对第一语料库中的各文本样本进行分词处理,得到第一分词集。
其中,第一语料库包括多个文本样本,这些文本可以是历史时段内网络上已公开的文本,例如,论坛上用户发表的文本、新闻数据中的文本等,历史时段例如可以为2019年1月至2019年12月,时间跨度为1年。
分词处理指的是将文本划分为多个词语。例如,针对文本“偃师好看,你们都是丑比,还评论刀客帅不帅”,分词处理后得到{“偃师”,“好看”,“,”,“你们”,“都”,“是”,“丑”,“比”,“,”,“还”,“评论”,“刀客”,“帅不帅”};类似地,针对文本“最近大家都在玩动森”,分词处理后得到{“最近”,“大家”,“都”,“在”,“玩动森”}。
在本实施例中,可以采用结巴分词器对第一语料中的各文本样本进行分词处理,得到第一分词集,第一分词集中包括划分后的各个词语,以上述示例为例,第一分词集中包括{“偃师”,“好看”,“,”,“你们”,“都”,“是”,“丑”,“比”,“,”,“还”,“评论”,“刀客”,“帅不帅”,“最近”,“大家”,“都”,“在”,“玩动森”}。
可选地,对第一语料库中的各文本样本进行分词处理,得到第一分词集之前,还包括:剔除第一语料中的无意义字符。
其中,无意义字符可以是网站链接、网页标签信息等。剔除第一语料中各个文本样本的无意义字符,避免后续进行分词处理时,由于这些无意义字符而引入额外误差。
S202、根据预设语料,对第一分词集进行处理得到第二分词集。
预设语料为预设的非领域新词的集合,预设语料可以为网络上公开的常规词语库,也就是说,采用预设语料将第一分词集中的常规词语过滤掉,得到第二分词集。
在一可选的实施方式中,根据预设语料,对第一分词集进行处理得到第二分词集,包括:
A1、剔除第一分词集中满足预设筛选条件的部分词语。
A2、根据预设语料,将剔除后的第一分词集中的预设常规词语过滤掉,得到第二分词集。
其中,为进一步地提高领域新词识别模型的精确率,还需要将第一分词集中满足预设筛选条件的部分词语剔除,然后根据预设语料,将剔除后的第一分词集中的预设常规词语过滤掉,得到第二分词集,其中,预设语料中包括多个预设常规词语。
可选地,预设筛选条件包括如下条件中的至少一个:
总词频小于或者等于第一预设阈值、历史时段中多个预设时间间隔之间的词频波动值大于或者等于第二预设阈值、词频逆文档频率TF-IDF大于或者等于第三预设阈值、邻字熵大于或者等于第三预设阈值。
其中,总词频表示词语在历史时段内出现的总频数,即总数目;历史时段中多个预设时间间隔表示将历史时段划分为多个预设时间间隔、词频波动值表示同一词语在多个预设时间间隔之间出现的频数的波动值;词频逆文档频率TF-IDF表示词语在全部词语中的重要性;邻字熵表示词语的自由度,也即灵活度。
举例而言,历史时段可以为1年、预设时间间隔可以为1个月,也就是说,统计第一分词集中每个词语在1年内的总词频,以及分别在12个月内的词频。
可选地,词频逆文档频率TF-IDF可以采用如下公式计算得到:
Figure BDA0002640950000000131
Figure BDA0002640950000000132
TF-IDF(i)=tfi,j×idf(i)
其中,ni,j为词语i在第一分词集中的频数,k为第一分词集中全部词语的总频数,即第一分词集中全部词语的总数目,tfi,j为词语i的频数占第一分词集j中全部词的频数的占比,|D|为第一语料库中的文本样本的总频数,|{j:ti∈dj}|为第一语料库j中包括词语i的文本样本的频数,TF-IDF(i)为词语i的词频逆文档频率,等于tfi,j与idf(i)的乘积。
例如,第一语料库中包括文本样本“偃师好看,你们都是丑比,还评论刀客帅不帅”、“最近大家都在玩动森”,分词处理后,得到{“偃师”,“好看”,“,”,“你们”,“都”,“是”,“丑”,“比”,“,”,“还”,“评论”,“刀客”,“帅不帅”}、{“最近”,“大家”,“都”,“在”,“玩动森”},“偃师”这个词语在所有分词(即第一分词集)中出现了1次,即tfi,j等于1/18、|D|等于2、|{j:ti∈dj}|等于2、idf(i)等于1,则“偃师”这个词语的TF-IDF(i)等于1/18。
可选地,词语的邻字熵可以采用如下公式计算得到:
Figure BDA0002640950000000141
其中,H(U)为词语的邻字熵、pi为文本样本中邻接词语的第i种字符出现的概率,n为邻接词语的字符总数。
其中,邻字熵可以包括左邻字熵和右邻字熵,通常邻字熵越高代表该词自由度越高,即越不可能是一个常用词。
例如,第一语料库中的文本样本“吃葡萄不吐葡萄皮不吃葡萄倒吐葡萄皮”,“葡萄”一词出现了四次,其中,左邻字分别为{吃、吐、吃、吐},右邻字分别为{不、皮、倒、皮}。
则根据上述计算公式,“葡萄”一词的左字熵为:
–(1/2)·log(1/2)–(1/2)·log(1/2)≈0.693
“葡萄”一词的右字熵为:
–(1/2)·log(1/2)–(1/4)·log(1/4)–(1/4)·log(1/4)≈1.04
在本实施例中,可以将第一分词集中满足以下至少一个条件的词语剔除:总词频小于或者等于第一预设阈值、所述历史时段中多个预设时间间隔之间的词频波动值大于或者等于第二预设阈值、词频逆文档频率TF-IDF大于或者等于第三预设阈值、邻字熵大于或者等于第三预设阈值中的至少,然后可以采用预设语料将剔除后的第一分词集中的预设常规词语过滤掉得到第二分词集。其中,这里的邻字熵可以为左邻字熵和右邻字熵中的最小的一个。
S203、根据第二分词集中各词语对应的文本样本,获取非常规词学习语料。
S204、根据非常规词学习语料,获取训练语料。
第二分词集中包括按照上述步骤过滤后得到的多个非常规词语,然后获取第二分词集中各词语在第一语料库中对应的文本样本,也就是第二分词集中各词语对应的文本样本,将第二分词集中各词语对应的文本样本确定为非常规词学习语料。
然后根据非常规词学习语料获取训练语料,训练语料包括该非常规词学习语料,接着可以执行步骤S102,根据非常规词学习语料进行模型训练得到领域新词识别模型。
本实施例提供的领域新词识别模型的训练方法,包括:对第一语料库中的各文本样本进行分词处理,得到第一分词集,根据预设语料,对第一分词集进行处理得到第二分词集,预设语料为预设的非领域新词的集合,根据第二分词集中各词语对应的文本样本,获取非常规词学习语料,根据非常规词学习语料,获取训练语料。通过从第一语料库中构建非常规词学习语料,提升了模型的精确率和召回率。
下面结合图3实施例对根据非常规词学习语料获取训练语料的具体方式进行说明。图3示出了本申请实施例提供的领域新词识别模型的训练方法的流程示意图三,如图3所示,根据非常规词学习语料获取训练语料,具体包括:
S301、对第二语料库中的各文本样本进行切分处理,得到多个切分词语。
其中,第二语料库可以为特定领域的语料库,第二语料库包括多个文本样本,特定领域例如可以为社交领域、游戏领域等。
切分处理指的是将文本样本切分为多个预设字符的词语。例如,预设字符为3、文本样本“我到图书馆”,则切分词语包括“我到图”、“到图书”、“图书馆”。
可选地,得到多个切分词语后,还可以统计各切分词语的词频,并剔除词频小于预设词频的切分词语。
其中,可以采用n-gram切分方式对第二语料库中的各文本样本进行切分得到多个切分词语,n-gram阈值N为上述的预设字符、其可以为3、4等,具体可以根据实际情况确定,本实施例对此不做限定。
需要说明的是,n-gram是一种基于统计语言模型的算法,其基本思想是将文本里面的内容按照字符进行大小为N的滑动窗口操作,形成了长度是N的字节片段序列。
S302、根据多个切分词语获取切分词语集,切分词语集中包括预设数目的切分词语。
其中,预设数目的切分词语可以是按照预设规则从多个切分词语中确定的,预设规则例如可以为词频,也就是说按照词频对多个切分词语进行从大到小的排序,根据排名靠前的预设数目的切分词语获取切分词语集;当然,预设规则也可以为满足邻字熵阈值和互信息阈值。
S303、根据切分词语集中各词语对应的文本样本,获取领域词学习语料。
其中,切分词语集中各词语对应的文本样本为各词语在第二语料库中的文本样本,也就是说,在第二语料库中,获取到切分词语集中各词语对应的文本样本,将该文本样本确定为领域词学习语料。
在一可选的实施方式中,根据切分词语集中各词语对应的文本样本,获取领域词学习语料,具体包括:
B1、获取第二分词集与切分词语集之间的重叠词语。
B2、根据重叠词语在第一语料对应的文本样本以及在第二语料对应的文本样本,获取领域词学习语料。
其中,第二分词集中包括多个非常规词语,第二分词集与切分词语集之间的重叠词语即为命中的领域新词,具体地,获取第二分词集与切分词语之间的重叠词语,然后将该重叠词语在第一语料中对应的文本样本、以及在第二语料中对应的文本样本,确定为领域词学习语料。
可选地,获取第二分词集与切分词语集之间的重叠词语之前,还包括:
将人工扩充的切分词语增加到切分词语集;
和/或
剔除切分词语集中不符合预设规则的切分词语。
其中,为了进一步提升模型性能,人工还可以扩充一些切分词语,或者剔除一些不符合预设规则的切分词语。因此,还可以将人工扩充的切分词语增加到切分词语集和/或,剔除切分词语集中不符合预设规则的切分词语。
S304、根据非常规词学习语料和领域词学习语料,获取训练语料。
将非常规词学习语料和领域词学习语料确定为训练语料,然后可以执行步骤S102,根据训练语料进行模型训练得到领域新词识别模型。
可选地,训练语料中的各文本样本还标注有语料领域,语料领域为非常规词学习语料或者领域词学习语料。
这样在进行模型训练时,实现了多目标训练,即领域新词发现目标和领域探测目标,在训练时,训练损失函数使用交叉熵,可以将新词发现的交叉熵和领域探测的交叉熵累加,得到损失函数,采用梯度反向传播,直至损失函数收敛,从而得到领域新词识别模型。
本实施例提供的领域新词识别模型的训练方法,包括:对第二语料库中的各文本样本进行切分处理,得到多个切分词语,根据多个切分词语获取切分词语集,切分词语集中包括预设数目的切分词语,根据切分词语集中各词语对应的文本样本,获取领域词学习语料,根据非常规词学习语料和领域词学习语料,获取训练语料。通过根据非常规词学习语料和领域词学习语料得到训练语料,提升了模型的精确率和召回率。
下面结合图4实施例对根据多个切分词语获取切分词语集进行说明。图4示出了本申请实施例提供的领域新词模型的训练方法的流程示意图四,如图4所示,根据多个切分词语获取切分词语集,具体包括:
S401、针对各切分词语,获取切分词语的互信息和邻字熵。
在本实施例中,针对多个切分词语中的各切分词语,可以计算获取切分词语的互信息和邻字熵,其中,互信息用于指示切分词语中各字符的相关性,该邻字熵用于指示该切分词语的自由度。
可选地,可以采用如下公式计算得到各切分词语的互信息:
Figure BDA0002640950000000171
其中,p(x,y)为第二语料库中字符x和字符y同时出现的概率,p(x)分别为在第二语料库中字符x出现的概率,p(y)分别为在第二语料库中字符y的出现的概率。
通常PMI足够大时,表明切分词语内部凝聚性,即相关性足够高,更有可能成为一个词语。
举例而言,对于文本样本“我到图书馆”,切分词语包括“我到图”、“到图书”、“图书馆”,针对切分词语“我到天”,字符x可以为“我”、字符y可以为“到天”,“我”在第二语料库中的词频为10万次,“到天”在第二语料库中的词频为1千次,则根据上述公式可以计算得到切分词语“我到图”的互信息,即PMI。
可选地,可以采用图2实施例中的方式计算公式计算得到各切分词语的邻字熵。
S402、根据互信息和邻字熵,从多个切分词语中获取预设数目的切分词语。
S403、根据预设数目的切分词语获取切分词语集。
由于互信息表示切分词语中各字符的相关性,邻字熵表示切分词语的自由度,互信息越高表明该切分词语越有可能成为一个词语,邻字熵越表明该切分词语的自由度越高,即越有可能成为一个领域新词,则根据互信息和邻字熵可以从多个切分词语中获取预设数目的切分词语,然后根据预设数目的切分词语获取切分词语集,其中,该切分词语集中包括多个预设数目的切分词语。
其中,预设数目可以为30万,具体可以根据实际情况确定,本实施例对预设数目不做限定。
在一可选的实施方式中,邻字熵包括左字熵和右字熵,根据互信息和邻字熵,从多个切分词语中获取预设数目的切分词语,具体包括:
将各切分词语的左字熵和右字熵中的最小值、与所述互信息相加,得到各切分词语的分值;
根据各切分词语的分值,从多个切分词语中获取预设数目的切分词语。
采用图2实施例的方式可以计算得到各切分词语的左字熵和右字熵,然后将该切分词语的左字熵和右字熵中的最小值,与互信息相加得到该切分词语的分值,计算公式如下:
score=PMI+min(hl,hr)
其中,score为切分词语的分值,hl为切分词语的左字熵,hr为切分词语的右字熵。
其中,分值越高表明该切分词语越有可能为领域新词,则根据各领域新词的分值按照从大到小对各领域新词进行排序,然后获取排名在前预设数目的切分词语。
本实施例提供的领域新词识别模型的训练方法,针对各切分词语,获取切分词语的互信息和邻字熵,互信息用于指示切分词语中各字符的相关性,根据互信息和邻字熵,从多个切分词语中获取预设数目的切分词语,根据预设数目的切分词语获取切分词语集。由于根据互信息和邻字熵获取的预设数目的切分词语更有可能为领域新词,因此根据互信息和邻字熵得到的切分词语集更加精准,从而提升了模型的精确率和召回率。
下面结合以下几个具体实施例对本申请实施例提供的领域新词识别方法进行详细说明。
图5示出了本申请实施例提供的领域新词识别方法的流程示意图一,如图5所示,该领域新词识别方法包括:
S501、获取目标语料,目标语料中包括预设时段内的多个文本。
S502、根据预先训练的领域新词识别模型,对目标语料进行处理,得到预设时段内的目标领域新词。
在实际应用中,为了获取预设时段内出现的领域新词,则可以获取目标语料,目标语料中包括预设时段内的多个文本,其中,预设时段可以为当前时段、当前时段与上述涉及的历史时段的时间跨度相同。
由于人机交互和舆情分词需要获取一些现阶段的领域新词,那么该目标预料中的文本可以是预设时段内网络上的一些热门文本,根据获取到的多个文本获取目标语料。
然后,根据预先训练的领域新词识别模型对目标语料进行处理得到预设时段内的目标领域新词,其中,领域新词识别模型是根据训练语料训练得到的,训练语料中包括历史时段内的多个文本样本,多个文本样本标注有领域新词和非领域新词。
可选地,步骤S502之前,还包括:
剔除目标语料中的无意义字符。
无意义字符可以是网站链接、网页标签信息等。剔除目标语料中各个文本的无意义字符,避免进行模型识别时,由于这些无意义字符而影响领域新词识别的精确率。
本实施例提供的领域新词识别方法,包括:获取目标语料,目标语料中包括预设时段内的多个文本,根据预先训练的领域新词识别模型,对目标语料进行处理,得到预设时段内的目标领域新词。采用领域新词识别模型可以快速地提取出领域新词,提高了领域新词的识别精确率,为人机对话和舆情分析提供了强有力的引导。
下面结合图6实施例对根据预先训练的领域新词识别模型,对目标语料进行处理,得到预设时段内的目标领域新词进行说明。图6示出了本申请实施例提供的领域新词识别方法的流程示意图二,如图6所示,根据预先训练的领域新词识别模型,对目标语料进行处理,得到预设时段内的目标领域新词,具体包括:
S601、按照预设时段的时间片粒度,将目标语料输入到领域新词识别模型,得到预设时段中多个时间片的领域新词。
其中,预设时段的时间片粒度指的是时间划分粒度,例如可以为1个月、15天等,具体可以根据实际情况确定,本实施例对此不做限定。
按照目标语料中各文本的产生时间,按时间片重组,将目标语料划分为多个时间片的语料,将多个时间片的语料批量输入到领域新词识别模型,得到预设时段中每个时间片的领域新词。
举例而言,预设时段为12个月,时间划分粒度为1个月,则可以得到12个时间片,那么可以按照目标语料的产生时间、将目标语料划分为12个时间片的语料,将12个时间片的语料批量输入到领域新词识别模型中,得到预设时段中12个时间片的领域新词。
S602、将多个时间片的领域新词中大于或等于词频阈值的领域新词,确定为初始领域新词。
S603、根据初始领域新词,获取目标领域新词。
由于每个时间片的语料输入到领域识别模型可以得到每个时间片的领域新词,该领域新词的数目为至少一个。然后,再进行一轮筛选,针对每个时间片,将该时间片的领域新词中大于或者等于词频阈值的领域新词确定为初始领域新词。然后,将得到的初始领域新词确定为目标领域新词。
其中,词频阈值可以为所有时间片的领域新词的词频之和,除以去重后的所有时间片的领域新词的词频之和。
所有时间片的领域新词可以通过步骤S601得到,去重后的所有时间片的领域新词指的是将所有时间片中的重叠词语过滤掉后得到的领域新词。
可选地,根据初始领域新词,获取目标领域新词,包括:
过滤掉多个时间片的多个初始领域新词之间的重叠词语,得到目标领域新词。
得到多个时间片的多个初始领域新词后,由于该初始领域新词中可能存在重叠词语,也就是重复词语,那么认为该重叠词语为非领域新词,则过滤掉多个时间片的多个初始领域新词之间的重叠词语,即可得到目标领域新词。
在一可选的实施方式中,识别出目标语料中的目标领域新词后,按照图7实施例所示的步骤确定出目标领域新词的类型。图7示出了本申请实施例提供的领域新词识别方法的流程示意图三,如图7所示,该领域新词识别方法还包括:
S701、获取目标领域新词在目标语料对应的目标文本。
S702、通过剔除目标文本中的目标领域新词,获取目标文本的目标主干字符。
其中,目标主干字符为目标文本中除了领域新词的信息,目标文本为目标领域新词在目标语料对应的目标文本。
在本实施例中,获取目标领域新词在目标语料对应的目标文本,然后通过剔除目标文本中的目标领域新词,得到目标文本的目标主干字符,例如,目标领域新词为“动森”、“动森”在目标语料对应的目标文本为“最近动森特别火”,则剔除目标领域新词“动森”,得到目标文本“最近动森特别火”的目标主干字符为“最近特别火”。
S703、根据目标主干字符,从历史领域新词语料中获取满足预设条件的历史文本。
其中,预设领域新词语料可以为训练语料。预设领域新词语料中包括多个历史文本,根据目标主干字符从历史领域新词语中获取满足预设条件的历史文本,该历史文本包括历史领域新词,历史领域新词为历史时期的领域新词。
可选地,预设条件包括:目标主干字符和历史主干字符的相似度大于或者等于预设相似度。
其中,历史主干字符为历史文本剔除历史领域新词后的字符。
举例而言,预设领域新词语料中包括历史文本“最近大家都在玩魔兽”、“大家都开始玩守望先锋了”、“几位华裔砖家说得头头是道”,对应的领域新词分别为“魔兽”、“守望先锋”、“砖家”,对应的历史主干字符为“最近大家都在玩”、“大家都开始玩”、“几位华裔说得头头是道”。
分别计算“最近特别火”与“最近大家都在玩”、“大家都开始玩”、“几位华裔说得头头是道”的相似度,然后将相似度大于或者等于预设相似度的历史文本作为满足预设条件的历史文本,相似度大于或者等于预设相似度的历史文本例如可以为“最近大家都在玩。魔兽”、“大家都开始玩守望先锋了”。
需要说明的是,计算主干字符的相似度的方式可以是计算主干字符中每个字符的相似度,具体计算方式可以参见现有技术的相关描述,在此不再赘述。
S704、根据满足预设条件的历史文本中历史领域新词的类型,确定目标领域新词的类型。
领域新词的类型包括社交领域类型、游戏领域类型、视频领域类型等。
举例而言,满足预设条件的历史文本包括“最近大家都在玩魔兽”、“大家都开始玩守望先锋了”,其中的历史领域新词为“魔兽”和“守望先锋”,由于“魔兽”和“守望先锋”的类型均为游戏领域类型,则确定目标领域新词“动森”的类型为游戏领域类型,也就是说,根据满足预设条件的历史文本中历史领域新词的类型,可以确定目标领域新词的类型。
当然,为便于理解,上述示例仅以两个满足预设条件的历史文本为例进行说明。在实际应用过程中,满足预设条件的历史文本的数目包括但不限于两个,当存在多个时,则可以按照类型的置信度进行确定,例如10个满足预设条件的历史文本,其中2个的历史领域新词的类型为社交领域类型、8个为游戏领域类型,则确定该目标领域新词的类型为游戏领域类型。
本实施例提供的领域新词的识别方法,包括:获取目标领域新词在目标语料对应的目标文本,通过剔除目标文本中的所述目标领域新词,获取目标文本的目标主干字符,根据目标主干字符,从历史领域新词语料中获取满足预设条件的历史文本,历史文本包括历史领域新词,根据历史文本中历史领域新词的类型,确定目标领域新词的类型。通过根据目标主干字符和历史主干字符的相似度来确定满足预设条件的历史文本,然后根据历史文本中历史领域新词的类型获取目标领域新词的类型,从而进一步地确定出目标领域新词的类型,有助于后续进行人机对话以及舆情分析。
图8示出了本申请实施例提供的领域新词识别模型的训练装置的结构示意图,该领域新词识别模型的训练装置可以集成在领域新词识别模型的训练设备中。如图8所示,该领域新词识别模型的训练装置80包括:
获取模块81,用于获取训练语料,所述训练语料中包括历史时段内的多个文本样本,所述多个文本样本标注有领域新词和非领域新词;
训练模块82,用于根据所述训练语料进行模型训练,得到领域新词识别模型。
可选地,所述获取模块81,具体用于:
对第一语料库中的各文本样本进行分词处理,得到第一分词集;
根据预设语料,对所述第一分词集进行处理得到第二分词集,所述预设语料为预设的非领域新词的集合;
根据所述第二分词集中各词语对应的文本样本,获取非常规词学习语料;
根据所述非常规词学习语料,获取所述训练语料。
可选地,所述获取模块81,具体用于:
对第二语料库中的各文本样本进行切分处理,得到多个切分词语;
根据所述多个切分词语获取切分词语集,所述切分词语集中包括预设数目的切分词语;
根据所述切分词语集中各词语对应的文本样本,获取领域词学习语料;
根据所述非常规词学习语料和所述领域词学习语料,获取所述训练语料。
可选地,所述获取模块81,具体用于:
获取所述第二分词集与所述切分词语集之间的重叠词语;
根据所述重叠词语在所述第一语料对应的文本样本以及在所述第二语料对应的文本样本,获取所述领域词学习语料。
可选地,所述获取模块81,具体用于:
针对各切分词语,获取所述切分词语的互信息和邻字熵,所述互信息用于指示所述切分词语中各字符的相关性;
根据所述互信息和所述邻字熵,从所述多个切分词语中获取所述预设数目的切分词语;
根据所述预设数目的切分词语获取所述切分词语集。
可选地,所述邻字熵包括左字熵和右字熵,所述获取模块,具体用于:
将各切分词语的左字熵和右字熵中的最小值、与所述互信息相加,得到各切分词语的分值;
根据所述各切分词语的分值,从所述多个切分词语中获取所述预设数目的切分词语。
可选地,所述获取模块81,具体用于:
剔除所述第一分词集中满足预设筛选条件的部分词语;
根据所述预设语料,将剔除后的第一分词集中的预设常规词语过滤掉,得到所述第二分词集。
可选地,所述预设筛选条件包括如下条件中的至少一个:
总词频小于或者等于第一预设阈值、所述历史时段中多个预设时间间隔之间的词频波动值大于或者等于第二预设阈值、词频逆文档频率TF-IDF大于或者等于第三预设阈值、邻字熵大于或者等于第三预设阈值。
可选地,所述训练语料中的各文本样本还标注有语料领域,所述语料领域为所述非常规词学习语料或者所述领域词学习语料。
关于装置中的各模块的处理流程、以及各模块之间的交互流程的描述可以参照上述方法实施例中的相关说明,这里不再详述。
图9示出了本申请实施例提供的领域新词识别装置的结构示意图,该领域新词识别装置可以集成在领域新词识别设备中。如图9所示,该领域新词识别装置90包括:
获取模块91,用于获取目标语料,所述目标语料中包括预设时段内的多个文本;
处理模块92,用于根据预先训练的领域新词识别模型,对所述目标语料进行处理,得到预设时段内的目标领域新词,其中,所述领域新词识别模型是根据训练语料训练得到的,所述训练语料中包括历史时段内的多个文本样本,所述多个文本样本标注有领域新词和非领域新词。
可选地,所述处理模块92,具体用于:
按照所述预设时段的时间片粒度,将所述目标语料输入到所述领域新词识别模型,得到所述预设时段中多个时间片的领域新词;
将所述多个时间片的领域新词中大于或等于词频阈值的领域新词,确定为初始领域新词;
根据所述初始领域新词,获取所述目标领域新词。
可选地,所述处理模块92,具体用于:
过滤掉所述多个时间片的多个初始领域新词之间的重叠词语,得到所述目标领域新词。
可选地,所述获取模块91,具体用于:
获取所述目标领域新词在所述目标语料对应的目标文本;通过剔除所述目标文本中的所述目标领域新词,获取所述目标文本的目标主干字符;根据所述目标主干字符,从历史领域新词语料中获取满足预设条件的历史文本;所述历史文本包括历史领域新词;根据所述历史文本中历史领域新词的类型,确定所述目标领域新词的类型。
可选地,所述预设条件包括:所述目标主干字符和历史主干字符的相似度大于或者等于预设相似度。
关于装置中的各模块的处理流程、以及各模块之间的交互流程的描述可以参照上述方法实施例中的相关说明,这里不再详述。
图10示出了本申请实施例提供的领域新词识别模型的训练设备的结构示意图,如图10所示,该领域新词识别模型的训练设备100包括:
处理器1001、存储器1002和总线1003,所述存储器1002存储有所述处理器1001可执行的计算机程序,当领域新词识别模型的训练设备100运行时,所述处理器1001与所述存储器1002之间通过总线通信,所述处理器1001执行所述计算机程序,以执行上述领域新词识别模型的训练方法。
图11示出了本申请实施例提供的领域新词识别设备的结构示意图,如图11所示,该领域新词识别设备110包括:
处理器1101、存储器1102和总线1103,所述存储器1102存储有所述处理器1101可执行的计算机程序,当领域新词识别设备110运行时,所述处理器1101与所述存储器1102之间通过总线1103通信,所述处理器1101执行所述计算机程序,以执行上述领域新词识别方法。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统和装置的具体工作过程,可以参考方法实施例中的对应过程,本申请中不再赘述。在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,RandomAccess Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。

Claims (19)

1.一种领域新词识别模型的训练方法,其特征在于,包括:
获取训练语料,所述训练语料中包括历史时段内的多个文本样本,所述多个文本样本标注有领域新词和非领域新词;
根据所述训练语料进行模型训练,得到领域新词识别模型。
2.根据权利要求1所述的方法,其特征在于,所述获取训练语料,包括:
对第一语料库中的各文本样本进行分词处理,得到第一分词集;
根据预设语料,对所述第一分词集进行处理得到第二分词集,所述预设语料为预设的非领域新词的集合;
根据所述第二分词集中各词语对应的文本样本,获取非常规词学习语料;
根据所述非常规词学习语料,获取所述训练语料。
3.根据权利要求2所述的方法,其特征在于,所述根据所述非常规词学习语料,获取所述训练语料,包括:
对第二语料库中的各文本样本进行切分处理,得到多个切分词语;
根据所述多个切分词语获取切分词语集,所述切分词语集中包括预设数目的切分词语;
根据所述切分词语集中各词语对应的文本样本,获取领域词学习语料;
根据所述非常规词学习语料和所述领域词学习语料,获取所述训练语料。
4.根据权利要求3所述的方法,其特征在于,所述根据所述切分词语集中各词语对应的文本样本,获取领域词学习语料,包括:
获取所述第二分词集与所述切分词语集之间的重叠词语;
根据所述重叠词语在所述第一语料对应的文本样本以及在所述第二语料对应的文本样本,获取所述领域词学习语料。
5.根据权利要求3或4所述的方法,其特征在于,所述根据所述多个切分词语获取切分词语集,包括:
针对各切分词语,获取所述切分词语的互信息和邻字熵,所述互信息用于指示所述切分词语中各字符的相关性;
根据所述互信息和所述邻字熵,从所述多个切分词语中获取所述预设数目的切分词语;
根据所述预设数目的切分词语获取所述切分词语集。
6.根据权利要求5所述的方法,其特征在于,所述邻字熵包括左字熵和右字熵,所述根据所述切分词语的互信息和邻字熵,从所述多个切分词语中获取所述预设数目的切分词语,包括:
将各切分词语的左字熵和右字熵中的最小值、与所述互信息相加,得到各切分词语的分值;
根据所述各切分词语的分值,从所述多个切分词语中获取所述预设数目的切分词语。
7.根据权利要求2所述的方法,其特征在于,所述根据预设语料,对所述第一分词集进行处理得到第二分词集,包括:
剔除所述第一分词集中满足预设筛选条件的部分词语;
根据所述预设语料,将剔除后的第一分词集中的预设常规词语过滤掉,得到所述第二分词集。
8.根据权利要求7所述的方法,其特征在于,所述预设筛选条件包括如下条件中的至少一个:
总词频小于或者等于第一预设阈值、所述历史时段中多个预设时间间隔之间的词频波动值大于或者等于第二预设阈值、词频逆文档频率TF-IDF大于或者等于第三预设阈值、邻字熵大于或者等于第三预设阈值。
9.根据权利要求3所述的方法,其特征在于,所述训练语料中的各文本样本还标注有语料领域,所述语料领域为所述非常规词学习语料或者所述领域词学习语料。
10.一种领域新词识别方法,其特征在于,包括:
获取目标语料,所述目标语料中包括预设时段内的多个文本;
根据预先训练的领域新词识别模型,对所述目标语料进行处理,得到预设时段内的目标领域新词,其中,所述领域新词识别模型是根据训练语料训练得到的,所述训练语料中包括历史时段内的多个文本样本,所述多个文本样本标注有领域新词和非领域新词。
11.根据权利要求10所述的方法,其特征在于,所述根据预先训练的领域新词识别模型,对所述目标语料进行处理,得到预设时段内的目标领域新词,包括:
按照所述预设时段的时间片粒度,将所述目标语料输入到所述领域新词识别模型,得到所述预设时段中多个时间片的领域新词;
将所述多个时间片的领域新词中大于或等于词频阈值的领域新词,确定为初始领域新词;
根据所述初始领域新词,获取所述目标领域新词。
12.根据权利要求11所述的方法,其特征在于,所述根据所述初始领域新词,获取所述目标领域新词,包括:
过滤掉所述多个时间片的多个初始领域新词之间的重叠词语,得到所述目标领域新词。
13.根据权利要求10-12任一项所述的方法,其特征在于,所述方法还包括:
获取所述目标领域新词在所述目标语料对应的目标文本;
通过剔除所述目标文本中的所述目标领域新词,获取所述目标文本的目标主干字符;
根据所述目标主干字符,从历史领域新词语料中获取满足预设条件的历史文本;所述历史文本包括历史领域新词;
根据所述历史文本中历史领域新词的类型,确定所述目标领域新词的类型。
14.根据权利要求13所述的方法,其特征在于,所述预设条件包括:所述目标主干字符和历史主干字符的相似度大于或者等于预设相似度。
15.一种领域新词识别模型的训练装置,其特征在于,包括:
获取模块,用于获取训练语料,所述训练语料中包括历史时段内的多个文本样本,所述多个文本样本标注有领域新词和非领域新词;
训练模块,用于根据所述训练语料进行模型训练,得到领域新词识别模型。
16.一种领域新词识别装置,其特征在于,包括:
获取模块,用于获取目标语料,所述目标语料中包括预设时段内的多个文本;
处理模块,用于根据预先训练的领域新词识别模型,对所述目标语料进行处理,得到预设时段内的目标领域新词,其中,所述领域新词识别模型是根据训练语料训练得到的,所述训练语料中包括历史时段内的多个文本样本,所述多个文本样本标注有领域新词和非领域新词。
17.一种领域新词识别模型的训练设备,其特征在于,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的计算机程序,当领域新词识别模型的训练设备运行时,所述处理器与所述存储器之间通过总线通信,所述处理器执行所述计算机程序,以执行权利要求1-9任一所述的方法。
18.一种领域新词识别设备,其特征在于,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的计算机程序,当领域新词识别设备运行时,所述处理器与所述存储器之间通过总线通信,所述处理器执行所述计算机程序,以执行权利要求10-14任一所述的方法。
19.一种存储介质,其特征在于,所述存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行权利要求1-14任一所述的方法。
CN202010839570.5A 2020-08-19 2020-08-19 领域新词识别模型的训练方法、领域新词识别方法及设备 Active CN111914554B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010839570.5A CN111914554B (zh) 2020-08-19 2020-08-19 领域新词识别模型的训练方法、领域新词识别方法及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010839570.5A CN111914554B (zh) 2020-08-19 2020-08-19 领域新词识别模型的训练方法、领域新词识别方法及设备

Publications (2)

Publication Number Publication Date
CN111914554A true CN111914554A (zh) 2020-11-10
CN111914554B CN111914554B (zh) 2024-08-09

Family

ID=73279580

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010839570.5A Active CN111914554B (zh) 2020-08-19 2020-08-19 领域新词识别模型的训练方法、领域新词识别方法及设备

Country Status (1)

Country Link
CN (1) CN111914554B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112364628A (zh) * 2020-11-20 2021-02-12 创优数字科技(广东)有限公司 一种新词识别方法、装置、电子设备及存储介质
CN112632985A (zh) * 2020-12-18 2021-04-09 国网北京市电力公司 语料的处理方法、装置、存储介质及处理器
CN114492402A (zh) * 2021-12-28 2022-05-13 北京航天智造科技发展有限公司 一种科技新词识别方法及装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105389349A (zh) * 2015-10-27 2016-03-09 上海智臻智能网络科技股份有限公司 词典更新方法及装置
CN108038119A (zh) * 2017-11-01 2018-05-15 平安科技(深圳)有限公司 利用新词发现投资标的的方法、装置及存储介质
CN109858010A (zh) * 2018-11-26 2019-06-07 平安科技(深圳)有限公司 领域新词识别方法、装置、计算机设备和存储介质
WO2019113938A1 (zh) * 2017-12-15 2019-06-20 华为技术有限公司 数据标注方法、装置及存储介质
WO2019200806A1 (zh) * 2018-04-20 2019-10-24 平安科技(深圳)有限公司 文本分类模型的生成装置、方法及计算机可读存储介质
WO2020073523A1 (zh) * 2018-10-12 2020-04-16 平安科技(深圳)有限公司 新词识别方法、装置、计算机设备及计算机可读存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105389349A (zh) * 2015-10-27 2016-03-09 上海智臻智能网络科技股份有限公司 词典更新方法及装置
CN108038119A (zh) * 2017-11-01 2018-05-15 平安科技(深圳)有限公司 利用新词发现投资标的的方法、装置及存储介质
WO2019113938A1 (zh) * 2017-12-15 2019-06-20 华为技术有限公司 数据标注方法、装置及存储介质
WO2019200806A1 (zh) * 2018-04-20 2019-10-24 平安科技(深圳)有限公司 文本分类模型的生成装置、方法及计算机可读存储介质
WO2020073523A1 (zh) * 2018-10-12 2020-04-16 平安科技(深圳)有限公司 新词识别方法、装置、计算机设备及计算机可读存储介质
CN109858010A (zh) * 2018-11-26 2019-06-07 平安科技(深圳)有限公司 领域新词识别方法、装置、计算机设备和存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
姜涛;陆阳;张洁;洪建;: "无监督分词算法在新词识别中的应用", 小型微型计算机系统, no. 04, pages 218 - 222 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112364628A (zh) * 2020-11-20 2021-02-12 创优数字科技(广东)有限公司 一种新词识别方法、装置、电子设备及存储介质
CN112632985A (zh) * 2020-12-18 2021-04-09 国网北京市电力公司 语料的处理方法、装置、存储介质及处理器
CN114492402A (zh) * 2021-12-28 2022-05-13 北京航天智造科技发展有限公司 一种科技新词识别方法及装置

Also Published As

Publication number Publication date
CN111914554B (zh) 2024-08-09

Similar Documents

Publication Publication Date Title
CN108829822B (zh) 媒体内容的推荐方法和装置、存储介质、电子装置
CN110297988B (zh) 基于加权LDA和改进Single-Pass聚类算法的热点话题检测方法
Kestemont et al. Cross-genre authorship verification using unmasking
WO2017185674A1 (zh) 新词发现方法及装置
KR102032091B1 (ko) 인공지능 기반의 댓글 감성 분석 방법 및 그 시스템
CN111914554A (zh) 领域新词识别模型的训练方法、领域新词识别方法及设备
CN110569354B (zh) 弹幕情感分析方法及装置
CN110941959A (zh) 文本违规检测、文本还原方法、数据处理方法及设备
CN108287875B (zh) 人物共现关系确定方法、专家推荐方法、装置及设备
KR20200007713A (ko) 감성 분석에 의한 토픽 결정 방법 및 장치
CN107077640B (zh) 经由经验归属来分析、资格化和摄取非结构化数据源的系统和处理
CN112364628B (zh) 一种新词识别方法、装置、电子设备及存储介质
CN112541095A (zh) 视频标题生成方法、装置、电子设备及存储介质
CN108268470A (zh) 一种基于演化聚类的评论文本分类提取方法
CN108536676B (zh) 数据处理方法、装置、电子设备及存储介质
CN113255331A (zh) 文本纠错方法、装置及存储介质
US20160283582A1 (en) Device and method for detecting similar text, and application
CN114707517B (zh) 一种基于开源数据事件抽取的目标跟踪方法
CN115994535A (zh) 文本处理方法及装置
CN114398943B (zh) 样本增强方法及其装置
US20120330986A1 (en) Information processing apparatus, information processing method, and program
CN109344252B (zh) 基于优质主题扩展的微博文本分类方法及系统
CN109299463B (zh) 一种情感得分的计算方法以及相关设备
CN114138969A (zh) 文本处理方法及装置
Hussain et al. A technique for perceiving abusive bangla comments

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant