CN112364628B

CN112364628B - 一种新词识别方法、装置、电子设备及存储介质

Info

Publication number: CN112364628B
Application number: CN202011310172.0A
Authority: CN
Inventors: 李兆钧; 雷小平
Original assignee: Chuangyou Digital Technology Guangdong Co Ltd
Current assignee: Chuangyou Digital Technology Guangdong Co Ltd
Priority date: 2020-11-20
Filing date: 2020-11-20
Publication date: 2022-04-15
Anticipated expiration: 2040-11-20
Also published as: CN112364628A

Abstract

本发明公开了一种新词识别方法、装置、电子设备及存储介质，包括：获取多项文本数据，生成语料库；对所述语料库中的所述文本数据进行预处理，得到预处理数据；采用所述预处理数据生成候选词库；通过预设新词识别模型识别所述候选词库中的新词。本发明首先是生成候选词库，可以发挥统计方法的优点，具有较高的识别准确率。接着通过预设新词识别模型识别候选词库中的新词，可以解决基于规则方法需要费时费力撰写规则的确定。从而解决了现有的新词识别方法无法兼顾识别准确率和实现简便性的技术问题。

Description

一种新词识别方法、装置、电子设备及存储介质

技术领域

本发明涉及文字识别技术领域，尤其涉及一种新词识别方法、装置、电子设备及存储介质。

背景技术

新词识别是NLP的基础任务之一，主要是希望通过无监督发掘一些语言特征(主要是统计特征)，来判断一批语料中哪些字符片段可能是一个新词。

现有的新词识别方法主要包括两种，一种是基于规则方法，一种是基于统计方法。

基于规则方法的新词识别一般由以下步骤实现：

1、建立特殊构词规则库；

2、按照规则所取的作用分为“互斥性子串”过滤规则、常规构词规则、特殊构词规则；

3、利用上述规则过滤并确定新词。

基于统计方法的新词识别一般由以下步骤实现：

1、从网上获取大规模待处理的文本，预处理之后进行分词和词性标注，然后建立二元统计模型。

2、利用统计方法选出共现频次在均值之上的词汇组合作为候选词串，对候选结果再利用单字组合词规则、多字组合词规则等过滤；

由人工选择确定最终的新词结果。

然而，基于规则方法的新词识别，虽然在封闭领域的准确率相对较高，但缺点也是只局限在该领域，而且需要建立领域规则库；由于建立规则的过程需要对新词的特点进行细致的分析，费时费力，而且规则常常与领域相关，难以迁移到新领域。而基于统计方法的新词识别，虽然免于规则方法总结规则的费时费力，能够快速产生一批候选短语，不过通常准确率不高，也需要巨大的人工成本进行短语过滤，而且统计方法对于长词、出现频率低的词捕捉性能不够好，常常会遗漏，而且不能调优。

发明内容

本发明提供了一种新词识别方法、装置、电子设备及存储介质，用于解决现有的新词识别方法无法兼顾识别准确率和实现简便性的技术问题。

本发明提供的一种新词识别方法，包括：

获取多项文本数据，生成语料库；

对所述语料库中的所述文本数据进行预处理，得到预处理数据；

采用所述预处理数据生成候选词库；

通过预设新词识别模型识别所述候选词库中的新词。

可选地，所述预处理数据为符号序列；所述对所述语料库中的所述文本数据进行预处理，得到预处理数据的步骤，包括：

从所述语料库中的所述文本数据中提取正文数据，并从所述正文数据中剔除标签数据，得到去标签数据；

通过预设关键词检测所述去标签数据中的噪声文本，并去除所述噪声文本，得到去噪数据；

标记化所述去噪数据，得到至少一个所述符号序列。

可选地，所述采用所述预处理数据生成候选词库的步骤，包括：

基于预设最大词长，重组每个所述符号序列，得到至少一个初始词；

统计每个所述初始词在所述语料库中的词频率；

确定词频率小于预设最小频率的初始词为低频初始词；

去除所述低频初始词，得到初始词库；

采用预设期望最大化算法对所述初始词库进行筛选，生成候选词库。

可选地，所述采用预设期望最大化算法对所述初始词库进行筛选，生成候选词库的步骤，包括：

根据所述初始词，对所述文本数据进行分词，得到所述文本数据的至少一种分词组合；

采用每个所述初始词的词频率，计算每种所述分词组合的归一化概率；

根据所述分词组合的归一化概率，计算所述分词组合中的所述初始词的期望频率；

归一化所述期望频率，得到优化频率；

删除所述优化频率小于所述最小频率的初始词；

判断当前迭代次数是否大于预设迭代次数；

若否，重新执行根据所述初始词，对所述文本数据进行分词，得到所述文本数据的至少一种分词组合的步骤；

若是，输出迭代后的初始词库作为候选词库。

可选地，所述通过预设新词识别模型识别所述候选词库中的新词的步骤之前，还包括：

从所述初始词中提取样本初始词，生成所述样本初始词的样本标签；

获取每个所述样本初始词的语义信息、文本长度和词频率；

构建深度学习模型；

采用所述语义信息、所述文本长度、所述词频率和所述样本标签训练所述深度学习模型，得到所述预设新词识别模型。

本发明还提供了一种新词识别装置，包括：

语料库生成模块，用于获取多项文本数据，生成语料库；

预处理数据生成模块，用于对所述语料库中的所述文本数据进行预处理，得到预处理数据；

候选词库生成模块，用于采用所述预处理数据生成候选词库；

新词识别模块，用于通过预设新词识别模型识别所述候选词库中的新词。

可选地，所述预处理数据为符号序列；所述预处理数据生成模块，包括：

去标签数据生成子模块，用于从所述语料库中的所述文本数据中提取正文数据，并从所述正文数据中剔除标签数据，得到去标签数据；

去噪数据生成子模块，用于通过预设关键词检测所述去标签数据中的噪声文本，并去除所述噪声文本，得到去噪数据；

符号序列生成子模块，用于标记化所述去噪数据，得到至少一个所述符号序列。

可选地，所述候选词库生成模块，包括：

初始词生成子模块，用于基于预设最大词长，重组每个所述符号序列，得到至少一个初始词；

词频率统计子模块，用于统计每个所述初始词在所述语料库中的词频率；

低频初始词确定子模块，用于确定词频率小于预设最小频率的低频初始词；

初始词库生成子模块，用于去除所述低频初始词，得到初始词库；

候选词库生成子模块，用于采用预设期望最大化算法对所述初始词库进行筛选，生成候选词库。

本发明还提供了一种电子设备，所述设备包括处理器以及存储器：

所述存储器用于存储程序代码，并将所述程序代码传输给所述处理器；

所述处理器用于根据所述程序代码中的指令执行如上任一项所述的新词识别方法。

本发明还提供了一种计算机可读存储介质，所述计算机可读存储介质用于存储程序代码，所述程序代码用于执行如上任一项所述的新词识别方法。

从以上技术方案可以看出，本发明具有以下优点：

本发明公开了：获取多项文本数据，生成语料库；对语料库中的文本数据进行预处理，得到预处理数据；采用预处理数据生成候选词库；通过预设新词识别模型识别候选词库中的新词。本发明首先生成候选词库，可以发挥统计方法的优点，具有较高的识别准确率。接着通过预设新词识别模型识别候选词库中的新词，可以解决基于规则方法需要费时费力撰写规则的确定。从而解决了现有的新词识别方法无法兼顾识别准确率和实现简便性的技术问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。

图1为本发明实施例提供的一种新词识别方法的步骤流程图；

图2为本发明另一实施例提供的一种新词识别方法的步骤流程图；

图3为本发明实施例生成候选词库的步骤流程图；

图4为本发明实施例提供的一种新词识别模型的架构图；

图5为本发明实施例提供的一种新词识别装置的结构框图。

具体实施方式

本发明实施例提供了一种新词识别方法、装置、电子设备及存储介质，用于解决现有的新词识别方法无法兼顾识别准确率和实现简便性的技术问题。

为使得本发明的发明目的、特征、优点能够更加的明显和易懂，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，下面所描述的实施例仅仅是本发明一部分实施例，而非全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

请参阅图1，图1为本发明实施例提供的一种新词识别方法的步骤流程图。

本发明提供的一种新词识别方法，具体可以包括以下步骤：

步骤101，获取多项文本数据，生成语料库；

在本发明实施例中，文本数据可以从内部数据库中提取，也可以从外部网站，如社交媒体、新闻网站、电商网站等提取。作为新词识别的语料库。

步骤102，对所述语料库中的所述文本数据进行预处理，得到预处理数据；

本发明实施例的预处理主要包括：去除HTML标签、去除噪声文本、标记化。用于减少无意义词汇与不规范文本形式对新词识别的干扰。

步骤103，采用所述预处理数据生成候选词库；

在对文本数据进行了预处理后，可以基于预处理数据生成候选词库，候选词库需要满足新词识别模型对文本的识别需求。因此需要对预处理数据进行调整，具体包括对部分文本进行剔除以及对文本形式的再次调整等。

步骤104，通过预设新词识别模型识别所述候选词库中的新词。

在本发明实施例中，经由上述过程得到的候选词库是通过无监督的方式抽取的，虽然能从统计的角度发现新词，不过也会存在部分抽取错误的词，因此在一个示例中，可以结合人工标注的经验，建立识别新词的新词识别模型，通过新词识别模型识别候选词库中的新词。

在本发明实施例中，本发明首先是生成候选词库，可以发挥统计方法的优点，具有较高的识别准确率。接着通过预设新词识别模型识别候选词库中的新词，可以解决基于规则方法需要费时费力撰写规则的确定。从而解决了现有的新词识别方法无法兼顾识别准确率和实现简便性的技术问题。

请参阅图2，图2为本发明另一实施例提供的一种新词识别方法的步骤流程图。

本发明提供了一种新词识别方法，具体可以包括以下步骤：

步骤201，获取多项文本数据，生成语料库；

在本发明实施例中，本发明实施例的预处理主要包括：去除HTML标签、去除噪声文本、标记化。用于减少无意义词汇与不规范文本形式对新词识别的干扰。预处理数据可以为符号序列；对所述语料库中的所述文本数据进行预处理，得到预处理数据的步骤，可以包括如下步骤203-204：

步骤202，从所述语料库中的所述文本数据中提取正文数据，并从所述正文数据中剔除标签数据，得到去标签数据；

在本发明实施例中，对于外部网站采集的文本数据，需要提取网页中的正文数据，并将正文数据中含有的HTML(Hyper Text Markup Language，超文本标记语言)标签去除。

步骤203，通过预设关键词检测所述去标签数据中的噪声文本，并去除所述噪声文本，得到去噪数据；

在本发明实施例中，对于社交媒体文本，由于存在数量不少的广告、灌水等噪声文本内容，因此需要先去除这些噪声文本。在一个示例中，可以根据规则去除，例如通过“领券”、“领红包”、“点击链接”等常见广告关键词进行去除。

步骤204，标记化所述去噪数据，得到至少一个所述符号序列；

标记化是将文本拆分成一个个单独的符号序列的过程，首先是进行大小写转换；然后进行分句，按照标点符号进行句子分割；接着进行分字，对中文字是按照单字来分割，对于英文字符，按照空格进行分割。例如，文本数据“Apple AirPods耳机好看。”可以被标记化为“apple/airpods/耳/机/好/看”。

在本发明实施例中，采用所述预处理数据生成候选词库的步骤，可以包括如下步骤205-209：

步骤205，基于预设最大词长，重组每个所述符号序列，得到至少一个初始词；

在具体实现中，可以指定最大词长k，采用n-gram的方式从2-gram到k-gram组合符号序列为初始词，例如指定最大词长为4，对于“南/京/市/长/江/大/桥”序列，可以组合出“南京、京市、市长、长江、江大、大桥、南京市、京市长、市长江、长江大、江大桥、南京市长、京市长江、市长江大、长江大桥”这些初始词。

步骤206，统计每个所述初始词在所述语料库中的词频率；

步骤207，确定词频率小于预设最小频率的初始词为低频初始词；

步骤208，去除所述低频初始词，得到初始词库；

在一个示例中，计算各个初始词的词频率，具体计算方式可以为：频率＝词频率/总词频率；

设定最小频率(例如10^-8)，将词频率小于最小频率的词去除，则可以得到初始词库，以及各个词对应的词频率。

步骤209，采用预设期望最大化算法对所述初始词库进行筛选，生成候选词库；

在计算得到初始词库后，采用期望最大化算法进行迭代，筛选初始词库，可以得到候选词库。

具体地，请参阅图3，在一个示例中，步骤209可以包括以下子步骤：

S31，根据所述初始词，对所述文本数据进行分词，得到所述文本数据的至少一种分词组合；

S32，采用每个所述初始词的词频率，计算每种所述分词组合的归一化概率；

S33，根据所述分词组合的归一化概率，计算所述分词组合中的所述初始词的期望频率；

在具体实现中，根据初始词库，对语料库中的文本数据进行分词，可以得到至少一种分词组合，通过每个分词中包含的初始词的词频率，可以计算每种分词组合的语言模型概率，对该语言模型概率进行归一化处理，可以得到该分词组合的归一化概率。在获取到每一种分词组合的归一化概率后，按照分词组合中所含有的初始词库中的初始词的词频率对应乘以分词组合的归一化概率，可以得到初始词库中各个初始词的期望频率。

S34，归一化所述期望频率，得到优化频率；

S35，删除所述优化频率小于所述最小频率的初始词；

S36，判断当前迭代次数是否大于预设迭代次数；

S37，若否，重新执行根据所述初始词，对所述文本数据进行分词，得到所述文本数据的至少一种分词组合的步骤；

S38，若是，输出迭代后的初始词库作为候选词库。

将初始词库中的初始词按照期望频率进行归一化，得到优化频率。得到优化频率估计后可以将小于最小频率的词删除，从而达到精简词库，更有效率进行下一次迭代的效果。

当迭代次数达到预设的迭代次数时，如10次，则停止迭代后的词库即为候选词库。

在一个示例中，有表1所示的初始词构成的初始词库，以及每个初始词对应的词频率：

初始词	南京	南京市	长江大桥	市长	大桥	江
							频率	0.15	0.1	0.05	0.2	0.15	0.35

表1

则“南京市长江大桥”此句子按照词库有如表2所示的两种分词组合，以及对应的语言模型概率和归一化概率：

表2

按照分词组合中所含有的初始词库中的初始词的词频率对应乘以分词组合的归一化概率，可以得到初始词库中各个初始词的期望频率。例如“南京”的频率是0.15，其出现在分词组合“南京/市长/江/大桥”中，则其期望频率＝0.15×0.239543726＝0.035931559，按此方式计算可以得到初始词库中所有初始词的期望频率如表3所示：

表3接着对初始词的期望频率进行归一化，得到的优化频率如表4所示：

表4

由表3和表4可以看出，归一化后，正确分词组合的初始词对应的频率得到相应的提高，错误分词组合的初始词对应的频率相应下降。通过删除小于最小频率的初始词，可以达到精简初始词库，得到候选词库的效果。

步骤210，通过预设新词识别模型识别所述候选词库中的新词。

在得到候选词库后，可以通过预设新词识别模型识别候选词库中的新词。

在一个示例中，预设新词识别模型可以通过以下步骤建立：

获取每个所述样本初始词的语义信息、文本长度和词频率；

构建深度学习模型；

在具体实现中，首先可以从候选词库中随机抽取10％的词，人工判读并打上“是/否”新词的标签。得到样本初始词和对应的样本标签。

接着，结合词本身的文字语义信息和其他的结构信息，如初始词的词频率，初始词本身的长度等作为模型的输入。

然后，构建深度学习模型进行模型训练：对非结构化的文本信息采用预训练的BERT模型，将[CLS]标签对应的向量作为词本身语义信息的向量化表示，该向量有768维，如果直接拼接结构化信息向量则维度相差大(结构化信息向量包含词的频率和长度这二维)，不容易学习，因此需要将语义信息向量映射为低维向量(例如8维)，拼接上结构化信息的二维向量，经过全连接层输出最终的“是/否”新词的判别结果。并根据样本标签确定判别准确率，进而优化模型，得到已训练的新词识别模型。

以“名创优品”这个词为例，请参阅图4，图4为本发明实施例提供的一种新词识别模型的架构图。通过新词识别模型，可以输出“名创优品”为新词的概率和不为新词的概率，根据概率区别，可以确定“名创优品”是否为新词。

请参阅图5，图5为本发明实施例提供的一种新词识别装置的结构框图。

本发明提供了一种新词识别装置，包括：

语料库生成模块501，用于获取多项文本数据，生成语料库；

预处理数据生成模块502，用于对所述语料库中的所述文本数据进行预处理，得到预处理数据；

候选词库生成模块503，用于采用所述预处理数据生成候选词库；

新词识别模块504，用于通过预设新词识别模型识别所述候选词库中的新词。

在本发明实施例中，所述预处理数据为符号序列；所述预处理数据生成模块502，包括：

在本发明实施例中，所述候选词库生成模块503，包括：

低频初始词确定子模块，用于确定词频率小于预设最小频率的初始词为低频初始词；

在本发明实施例中，所述候选词库生成子模块，包括：

分词组合确定单元，用于根据所述初始词，对所述文本数据进行分词，得到所述文本数据的至少一种分词组合；

归一化概率计算单元，用于采用每个所述初始词的词频率，计算每种所述分词组合的归一化概率；

期望频率计算单元，用于根据所述分词组合的归一化概率，计算所述分词组合中的所述初始词的期望频率；

优化频率计算单元，用于归一化所述期望频率，得到优化频率；

删除单元，用于删除所述优化频率小于所述最小频率的初始词；

迭代次数判断单元，用于判断当前迭代次数是否大于预设迭代次数；

迭代单元，用于若否，重新执行根据所述初始词，对所述文本数据进行分词，得到所述文本数据的至少一种分词组合的步骤；

输出单元，用于若是，输出候选词库。

在本发明实施例中，还包括：

样本标签生成模块，用于从所述初始词中提取样本初始词，生成所述样本初始词的样本标签；

语义信息、文本长度和词频率获取模块，用于获取每个所述样本初始词的语义信息、文本长度和词频率；

深度学习模型构建模块，用于构建深度学习模型；

训练模块，用于采用所述语义信息、所述文本长度、所述词频率和所述样本标签训练所述深度学习模型，得到所述预设新词识别模型。

本发明实施例还提供了一种电子设备，所述设备包括处理器以及存储器：

所述处理器用于根据所述程序代码中的指令执行本发明实施例所述的新词识别方法。

本发明还提供了一种计算机可读存储介质，所述计算机可读存储介质用于存储程序代码，所述程序代码用于执行本发明实施例所述的新词识别方法。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接，可以是电性、机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来达到实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种新词识别方法，其特征在于，包括：

获取多项文本数据，生成语料库；

对所述语料库中的所述文本数据进行预处理，得到预处理数据；所述预处理数据为符号序列；

采用所述预处理数据生成候选词库；

通过预设新词识别模型识别所述候选词库中的新词；

其中，所述采用所述预处理数据生成候选词库的步骤，包括：

统计每个所述初始词在所述语料库中的词频率；

确定词频率小于预设最小频率的初始词为低频初始词；

去除所述低频初始词，得到初始词库；

采用预设期望最大化算法对所述初始词库进行筛选，生成候选词库；

其中，所述采用预设期望最大化算法对所述初始词库进行筛选，生成候选词库的步骤，包括：

归一化所述期望频率，得到优化频率；

删除所述优化频率小于所述最小频率的初始词；

判断当前迭代次数是否大于预设迭代次数；

若是，输出迭代后的初始词库作为候选词库。

2.根据权利要求1所述的方法，其特征在于，所述对所述语料库中的所述文本数据进行预处理，得到预处理数据的步骤，包括：

标记化所述去噪数据，得到至少一个所述符号序列。

3.根据权利要求1所述的方法，其特征在于，所述通过预设新词识别模型识别所述候选词库中的新词的步骤之前，还包括：

获取每个所述样本初始词的语义信息、文本长度和词频率；

构建深度学习模型；

4.一种新词识别装置，其特征在于，包括：

语料库生成模块，用于获取多项文本数据，生成语料库；

预处理数据生成模块，用于对所述语料库中的所述文本数据进行预处理，得到预处理数据；所述预处理数据为符号序列；

新词识别模块，用于通过预设新词识别模型识别所述候选词库中的新词；

其中，所述候选词库生成模块，包括：

候选词库生成子模块，用于采用预设期望最大化算法对所述初始词库进行筛选，生成候选词库；

其中，所述候选词库生成子模块，包括：

输出单元，用于若是，输出候选词库。

5.根据权利要求4所述的装置，其特征在于，所述预处理数据生成模块，包括：

6.一种电子设备，其特征在于，所述设备包括处理器以及存储器：

所述处理器用于根据所述程序代码中的指令执行权利要求1-3任一项所述的新词识别方法。

7.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储程序代码，所述程序代码用于执行权利要求1-3任一项所述的新词识别方法。