CN114330316A

CN114330316A - 简拼的识别方法及计算机可读存储介质

Info

Publication number: CN114330316A
Application number: CN202111483527.0A
Authority: CN
Inventors: 潘清杰; 许剑峰; 段思欣; 涂自龙
Original assignee: Xiamen Meiya Pico Information Co Ltd
Current assignee: Xiamen Meiya Pico Information Co Ltd
Priority date: 2021-12-07
Filing date: 2021-12-07
Publication date: 2022-04-12

Abstract

本发明公开了一种简拼的识别方法及计算机可读存储介质，获取包含简拼字符串的句子；获取拼音首字母组合与所述简拼字符串一致的词语，得到候选词集；将所述句子中的简拼字符串分别替换为所述候选词集中的各候选词，得到各候选句，并通过N‑Gram模型，分别计算各候选句的概率；将概率最高的候选句中的候选词作为所述简拼字符串的识别结果。本发明可识别得到与首字母简拼最匹配的中文词汇，方便阅读。

Description

简拼的识别方法及计算机可读存储介质

技术领域

本发明涉及自然语言处理技术领域，尤其涉及一种简拼的识别方法及计算机可读存储介质。

背景技术

如今网络言论出现一种中文缩写潮流，网民们将网络言论语句中的一些重要词汇用拼音首字母代替，不仅制造了人们阅读的障碍，同时屏蔽了机器对网络言论语言的识别，导致无法精确进行舆论分析，无法维护文明网络环境。

发明内容

本发明所要解决的技术问题是：提供一种简拼的识别方法及计算机可读存储介质，可识别得到与首字母简拼最匹配的中文词汇，方便阅读。

为了解决上述技术问题，本发明采用的技术方案为：一种简拼的识别方法，包括：

获取包含简拼字符串的句子；

获取拼音首字母组合与所述简拼字符串一致的词语，得到候选词集；

将所述句子中的简拼字符串分别替换为所述候选词集中的各候选词，得到各候选句，并通过N-Gram模型，分别计算各候选句的概率；

将概率最高的候选句中的候选词作为所述简拼字符串的识别结果。

本发明还提出了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上所述的方法。

本发明的有益效果在于：通过查找与简拼字符串适配的所有候选词，并通过上下文联系分析与语句通顺程度检测，推测出与首字母简拼最匹配的中文词汇，便于用户进行阅读，解决阅读障碍，也解决了机器对自然语言识别分析的障碍。本发明可以应用于网络平台，对平台的言论进行分析、监控及维护，也可以应用于公共安全方面对网络文明环境的维护。

附图说明

图1为本发明实施例一的一种简拼的识别方法的流程图。

具体实施方式

为详细说明本发明的技术内容、所实现目的及效果，以下结合实施方式并配合附图详予说明。

请参阅图1，一种简拼的识别方法，包括：

获取包含简拼字符串的句子；

从上述描述可知，本发明的有益效果在于：可识别出与首字母简拼最匹配的中文词汇，便于用户进行阅读，解决阅读障碍，也解决了机器对自然语言识别分析的障碍。

进一步地，所述获取包含简拼字符串的句子之后，还包括：

去除所述句子中URL、邮箱和ID。

进一步地，所述将所述句子中的简拼字符串分别替换为所述候选词集中的各候选词，得到各候选句，并通过N-Gram模型，分别计算各候选句的概率具体为：

对所述句子进行分词处理，得到第一分词集；

将所述第一分词集中的简拼字符串分别替换为所述候选词集中的各候选词，得到各候选句的第二分词集；

根据预设的语料库，分别获取各候选句的第二分词集中各词语对应的词频，并分别计算各候选句的第二分词集中各词语对应的概率；

分别根据各候选句中的第二分词集中各词语对应的概率，通过N-Gram模型，计算所述各候选句的概率。

由上述描述可知，通过N-Gram模型，可方便地计算各候选句的概率，从而便于后续准确识别出最匹配的候选词。

进一步地，所述根据预设的语料库，分别获取各候选句的第二分词集中各词语对应的词频，并分别计算各候选句的第二分词集中各词语对应的概率具体为：

获取一候选句的第二分词集中的第i个词语作为当前词语，i的初始值为1；

若i＝1或i＝n，n为所述一候选句的第二分词集中的词语总数，则根据预设的语料库，获取当前词语的词频，并根据当前词语的词频以及所述语料库的总词数，计算当前词语对应的概率；

若2≤i≤n，则在预设的语料库中获取出现在所述一候选句的第二分词集中的第i-1个词语之后的当前词语的词频，作为当前词语对应的词频；根据预设的语料库，获取所述第i-1个词语的词频，并根据所述第i-1个词语的词频和当前词语对应的词频，计算当前词语对应的概率；

令i＝i+1，继续执行所述获取一候选句的第二分词集中的第i个词语作为当前词语的步骤，直至遍历完所述一候选句的第二分词集。

进一步地，所述分别根据各候选句中的第二分词集中各词语对应的概率，通过N-Gram模型，计算所述各候选句的概率具体为：

根据公式P(s_i)＝P(w₁)×P(w₂|w₁)×P(w₃|w₂)×……×P(w_n|w_n-1)×P(w_n)计算所述一候选句的概率，其中，w₁,w₂,w₃,……,w_n为所述一候选句s_i的第二分词集中的各词语，P(w₁)为所述一候选句的第二分词集中的第一个词语对应的概率，P(w_i|w_i-1)为所述一候选句的第二分词集中的第i个词语对应的概率，P(w_n)为所述一候选句的第二分词集中的最后一个词语对应的概率。

由上述描述可知，通过二元模型(2-gram/Bigram)来实现句子概率的计算，考虑了句子中词与词之间的依赖关系，提高了后续识别的准确率。

实施例一

请参照图1，本发明的实施例一为：一种简拼的识别方法，本方法基于NLP(自然语言处理)，可应用于对网络言论语言的识别。

如图1所示，包括如下步骤：

S1：获取包含简拼字符串的句子；即获取包含待识别的简拼字符串的句子。

进一步地，获取到句子后，对句子进行数据处理，如去除句子中的URL、邮箱、ID等。

S2：获取拼音首字母组合与所述简拼字符串一致的词语，得到候选词集；

例如，假设简拼字符串为SJ，则候选词包括：时间、事件、手机、数据，等等。

S3：将所述句子中的简拼字符串分别替换为所述候选词集中的各候选词，得到各候选句，并通过N-Gram模型，分别计算各候选句的概率。

其中，当N＝1时，N-Gram模型即一元模型(UniGram)，各个词之间互相独立，其对应的句子概率计算公式为：

w₁，w₂，……，w_m为句子中的m个分词，P(w_i)为第i个分词w_i的概率，在一元模型中，P(w_i)＝C(w_i)/M，C(w_i)为w_i在语料库中的词频，M为语料库中的总词数。

当N＝2时，N-Gram模型即二元模型(Bigram)，各个词只与其前一个词有关，其对应的句子概率计算公式为：

w₁，w₂，……，w_m为句子中的m个分词，P(w_i|w_i-1)表示前一个词为w_i-1，后一个词为w_i的概率，在二元模型中，P(w_i|w_i-1)的计算公式为；

P(w_i|w_i-1)＝P(w_i，w_i-1)/P(w_i-1)＝(C(w_i-1w_i)/M)/(C(w_i-1)/M)＝C(w_i-1w_i)/C(w_i-1)

其中，C(w_i-1w_i)为语料库中出现在w_i-1后的w_i的词频，也即语料库中w_i-1w_i的词频，C(w_i-1)为w_i-1在语料库中的词频。

本实施例中，N取2，即采用二元模型(Bigram)进行概率计算。

具体地，本步骤包括如下步骤：

S301：对所述句子进行分词处理，得到第一分词集。

例如，假设包含简拼字符串的句子为：GD是中国经济总量最高的省份。则第一分词集为{GD，是，中国，经济，总量，最高，省份}。

S302：将所述第一分词集中的简拼字符串分别替换为所述候选词集中的各候选词，得到各候选句的第二分词集。

简拼字符串为GD，通过拼音词典查找，得到的候选词包括：改动，高度，更多，广东，……。因此，候选词集为{改动，高度，更多，广东，……}。本实施例以前四个候选词为例进行后续说明。

替换得到的各候选句s₁、s₂、s₃、s₄的第二分词集分别为：

{改动，是，中国，经济，总量，最高，省份}；

{高度，是，中国，经济，总量，最高，省份}；

{更多，是，中国，经济，总量，最高，省份}；

{广东，是，中国，经济，总量，最高，省份}。

S303：根据预设的语料库，分别获取各候选句的第二分词集中各词语对应的词频，并分别计算各候选句的第二分词集中各词语对应的概率。

例如，对于候选句s₁，首先，在预设的语料库中获取“改动”出现的次数，作为“改动”的词频，即C(改动)，然后除以语料库的总词数M，得到“改动”对应的概率P(改动)。

最后，在语料库中获取“省份”出现的次数，作为“省份”的词频，即C(省份)，然后除以语料库的总词数M，得到“省份”对应的概率P(省份)。

也就是说，对于第二分词集中的最后一个词语，其对应两个概率。

S304：分别根据各候选句中的第二分词集中各词语对应的概率，通过N-Gram模型，计算所述各候选句的概率。

由于本实施例采用的是二元模型(Bigram)，因此，各候选句的概率计算公式分别为：

P(s₁)＝P(改动)×P(是|改动)×P(x)

P(s₂)＝P(高度)×P(是|高度)×P(x)

P(s₃)＝P(更多)×P(是|更多)×P(x)

P(s₄)＝P(广东)×P(是|广东)×P(x)

将步骤S303中计算得到的各词语对应的概率带入上述公式，即可计算得到各候选句的概率。

进一步地，为了避免某些词在语料库中未出现导致概率为0的情况，会进行平滑操作，即重新分配概率，即使没出现的事件也会赋予一个概率，例如拉普拉斯平滑、古德图灵平滑等。

S4：将概率最高的候选句中的候选词作为所述简拼字符串的识别结果。

假设通过计算得出：P(s₄)>P(s₂)>P(s₁)>P(s₃)，则将候选句s₄中的候选词“广东”作为句子“GD是中国经济总量最高的省份”中的简拼字符串GD的识别结果，即认为与该句子中的GD最匹配的中文词汇为广东。

本实施例通过上下文联系分析与语句通顺程度检测，推测出与首字母简拼最匹配的中文词汇，一方面解决人们阅读障碍，另一方面解决了机器对自然语言识别分析的障碍。

本实施例可以应用于网络平台，对平台的言论进行分析、监控及维护，也可以应用于公共安全方面对网络文明环境的维护。

实施例二

本实施例是对应上述实施例的一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上述的简拼的识别方法实施例中的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

综上所述，本发明提供的一种简拼的识别方法及计算机可读存储介质，通过查找与简拼字符串适配的所有候选词，并通过上下文联系分析与语句通顺程度检测，推测出与首字母简拼最匹配的中文词汇，便于用户进行阅读，解决阅读障碍，也解决了机器对自然语言识别分析的障碍。本发明可以应用于网络平台，对平台的言论进行分析、监控及维护，也可以应用于公共安全方面对网络文明环境的维护。

以上所述仅为本发明的实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等同变换，或直接或间接运用在相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种简拼的识别方法，其特征在于，包括：

获取包含简拼字符串的句子；

2.根据权利要求1所述的简拼的识别方法，其特征在于，所述获取包含简拼字符串的句子之后，还包括：

去除所述句子中URL、邮箱和ID。

3.根据权利要求1所述的简拼的识别方法，其特征在于，所述将所述句子中的简拼字符串分别替换为所述候选词集中的各候选词，得到各候选句，并通过N-Gram模型，分别计算各候选句的概率具体为：

对所述句子进行分词处理，得到第一分词集；

4.根据权利要求3所述的简拼的识别方法，其特征在于，所述根据预设的语料库，分别获取各候选句的第二分词集中各词语对应的词频，并分别计算各候选句的第二分词集中各词语对应的概率具体为：

5.根据权利要求4所述的简拼的识别方法，其特征在于，所述分别根据各候选句中的第二分词集中各词语对应的概率，通过N-Gram模型，计算所述各候选句的概率具体为：

6.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如下步骤：

获取包含简拼字符串的句子；

7.根据权利要求6所述的计算机可读存储介质，其特征在于，所述获取包含简拼字符串的句子之后，还包括：

去除所述句子中URL、邮箱和ID。

8.根据权利要求6所述的计算机可读存储介质，其特征在于，所述将所述句子中的简拼字符串分别替换为所述候选词集中的各候选词，得到各候选句，并通过N-Gram模型，分别计算各候选句的概率具体为：

对所述句子进行分词处理，得到第一分词集；

9.根据权利要求8所述的计算机可读存储介质，其特征在于，所述根据预设的语料库，分别获取各候选句的第二分词集中各词语对应的词频，并分别计算各候选句的第二分词集中各词语对应的概率具体为：

10.根据权利要求8所述的计算机可读存储介质，其特征在于，所述分别根据各候选句中的第二分词集中各词语对应的概率，通过N-Gram模型，计算所述各候选句的概率具体为：