CN114330316A - 简拼的识别方法及计算机可读存储介质 - Google Patents

简拼的识别方法及计算机可读存储介质 Download PDF

Info

Publication number
CN114330316A
CN114330316A CN202111483527.0A CN202111483527A CN114330316A CN 114330316 A CN114330316 A CN 114330316A CN 202111483527 A CN202111483527 A CN 202111483527A CN 114330316 A CN114330316 A CN 114330316A
Authority
CN
China
Prior art keywords
word
candidate
sentence
probability
candidate sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111483527.0A
Other languages
English (en)
Inventor
潘清杰
许剑峰
段思欣
涂自龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen Meiya Pico Information Co Ltd
Original Assignee
Xiamen Meiya Pico Information Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen Meiya Pico Information Co Ltd filed Critical Xiamen Meiya Pico Information Co Ltd
Priority to CN202111483527.0A priority Critical patent/CN114330316A/zh
Publication of CN114330316A publication Critical patent/CN114330316A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本发明公开了一种简拼的识别方法及计算机可读存储介质,获取包含简拼字符串的句子;获取拼音首字母组合与所述简拼字符串一致的词语,得到候选词集;将所述句子中的简拼字符串分别替换为所述候选词集中的各候选词,得到各候选句,并通过N‑Gram模型,分别计算各候选句的概率;将概率最高的候选句中的候选词作为所述简拼字符串的识别结果。本发明可识别得到与首字母简拼最匹配的中文词汇,方便阅读。

Description

简拼的识别方法及计算机可读存储介质
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种简拼的识别方法及计算机可读存储介质。
背景技术
如今网络言论出现一种中文缩写潮流,网民们将网络言论语句中的一些重要词汇用拼音首字母代替,不仅制造了人们阅读的障碍,同时屏蔽了机器对网络言论语言的识别,导致无法精确进行舆论分析,无法维护文明网络环境。
发明内容
本发明所要解决的技术问题是:提供一种简拼的识别方法及计算机可读存储介质,可识别得到与首字母简拼最匹配的中文词汇,方便阅读。
为了解决上述技术问题,本发明采用的技术方案为:一种简拼的识别方法,包括:
获取包含简拼字符串的句子;
获取拼音首字母组合与所述简拼字符串一致的词语,得到候选词集;
将所述句子中的简拼字符串分别替换为所述候选词集中的各候选词,得到各候选句,并通过N-Gram模型,分别计算各候选句的概率;
将概率最高的候选句中的候选词作为所述简拼字符串的识别结果。
本发明还提出了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的方法。
本发明的有益效果在于:通过查找与简拼字符串适配的所有候选词,并通过上下文联系分析与语句通顺程度检测,推测出与首字母简拼最匹配的中文词汇,便于用户进行阅读,解决阅读障碍,也解决了机器对自然语言识别分析的障碍。本发明可以应用于网络平台,对平台的言论进行分析、监控及维护,也可以应用于公共安全方面对网络文明环境的维护。
附图说明
图1为本发明实施例一的一种简拼的识别方法的流程图。
具体实施方式
为详细说明本发明的技术内容、所实现目的及效果,以下结合实施方式并配合附图详予说明。
请参阅图1,一种简拼的识别方法,包括:
获取包含简拼字符串的句子;
获取拼音首字母组合与所述简拼字符串一致的词语,得到候选词集;
将所述句子中的简拼字符串分别替换为所述候选词集中的各候选词,得到各候选句,并通过N-Gram模型,分别计算各候选句的概率;
将概率最高的候选句中的候选词作为所述简拼字符串的识别结果。
从上述描述可知,本发明的有益效果在于:可识别出与首字母简拼最匹配的中文词汇,便于用户进行阅读,解决阅读障碍,也解决了机器对自然语言识别分析的障碍。
进一步地,所述获取包含简拼字符串的句子之后,还包括:
去除所述句子中URL、邮箱和ID。
进一步地,所述将所述句子中的简拼字符串分别替换为所述候选词集中的各候选词,得到各候选句,并通过N-Gram模型,分别计算各候选句的概率具体为:
对所述句子进行分词处理,得到第一分词集;
将所述第一分词集中的简拼字符串分别替换为所述候选词集中的各候选词,得到各候选句的第二分词集;
根据预设的语料库,分别获取各候选句的第二分词集中各词语对应的词频,并分别计算各候选句的第二分词集中各词语对应的概率;
分别根据各候选句中的第二分词集中各词语对应的概率,通过N-Gram模型,计算所述各候选句的概率。
由上述描述可知,通过N-Gram模型,可方便地计算各候选句的概率,从而便于后续准确识别出最匹配的候选词。
进一步地,所述根据预设的语料库,分别获取各候选句的第二分词集中各词语对应的词频,并分别计算各候选句的第二分词集中各词语对应的概率具体为:
获取一候选句的第二分词集中的第i个词语作为当前词语,i的初始值为1;
若i=1或i=n,n为所述一候选句的第二分词集中的词语总数,则根据预设的语料库,获取当前词语的词频,并根据当前词语的词频以及所述语料库的总词数,计算当前词语对应的概率;
若2≤i≤n,则在预设的语料库中获取出现在所述一候选句的第二分词集中的第i-1个词语之后的当前词语的词频,作为当前词语对应的词频;根据预设的语料库,获取所述第i-1个词语的词频,并根据所述第i-1个词语的词频和当前词语对应的词频,计算当前词语对应的概率;
令i=i+1,继续执行所述获取一候选句的第二分词集中的第i个词语作为当前词语的步骤,直至遍历完所述一候选句的第二分词集。
进一步地,所述分别根据各候选句中的第二分词集中各词语对应的概率,通过N-Gram模型,计算所述各候选句的概率具体为:
根据公式P(si)=P(w1)×P(w2|w1)×P(w3|w2)×……×P(wn|wn-1)×P(wn)计算所述一候选句的概率,其中,w1,w2,w3,……,wn为所述一候选句si的第二分词集中的各词语,P(w1)为所述一候选句的第二分词集中的第一个词语对应的概率,P(wi|wi-1)为所述一候选句的第二分词集中的第i个词语对应的概率,P(wn)为所述一候选句的第二分词集中的最后一个词语对应的概率。
由上述描述可知,通过二元模型(2-gram/Bigram)来实现句子概率的计算,考虑了句子中词与词之间的依赖关系,提高了后续识别的准确率。
本发明还提出了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的方法。
实施例一
请参照图1,本发明的实施例一为:一种简拼的识别方法,本方法基于NLP(自然语言处理),可应用于对网络言论语言的识别。
如图1所示,包括如下步骤:
S1:获取包含简拼字符串的句子;即获取包含待识别的简拼字符串的句子。
进一步地,获取到句子后,对句子进行数据处理,如去除句子中的URL、邮箱、ID等。
S2:获取拼音首字母组合与所述简拼字符串一致的词语,得到候选词集;
例如,假设简拼字符串为SJ,则候选词包括:时间、事件、手机、数据,等等。
S3:将所述句子中的简拼字符串分别替换为所述候选词集中的各候选词,得到各候选句,并通过N-Gram模型,分别计算各候选句的概率。
其中,当N=1时,N-Gram模型即一元模型(UniGram),各个词之间互相独立,其对应的句子概率计算公式为:
Figure BDA0003396439620000041
w1,w2,……,wm为句子中的m个分词,P(wi)为第i个分词wi的概率,在一元模型中,P(wi)=C(wi)/M,C(wi)为wi在语料库中的词频,M为语料库中的总词数。
当N=2时,N-Gram模型即二元模型(Bigram),各个词只与其前一个词有关,其对应的句子概率计算公式为:
Figure BDA0003396439620000042
w1,w2,……,wm为句子中的m个分词,P(wi|wi-1)表示前一个词为wi-1,后一个词为wi的概率,在二元模型中,P(wi|wi-1)的计算公式为;
P(wi|wi-1)=P(wi,wi-1)/P(wi-1)=(C(wi-1wi)/M)/(C(wi-1)/M)=C(wi-1wi)/C(wi-1)
其中,C(wi-1wi)为语料库中出现在wi-1后的wi的词频,也即语料库中wi-1wi的词频,C(wi-1)为wi-1在语料库中的词频。
本实施例中,N取2,即采用二元模型(Bigram)进行概率计算。
具体地,本步骤包括如下步骤:
S301:对所述句子进行分词处理,得到第一分词集。
例如,假设包含简拼字符串的句子为:GD是中国经济总量最高的省份。则第一分词集为{GD,是,中国,经济,总量,最高,省份}。
S302:将所述第一分词集中的简拼字符串分别替换为所述候选词集中的各候选词,得到各候选句的第二分词集。
简拼字符串为GD,通过拼音词典查找,得到的候选词包括:改动,高度,更多,广东,……。因此,候选词集为{改动,高度,更多,广东,……}。本实施例以前四个候选词为例进行后续说明。
替换得到的各候选句s1、s2、s3、s4的第二分词集分别为:
{改动,是,中国,经济,总量,最高,省份};
{高度,是,中国,经济,总量,最高,省份};
{更多,是,中国,经济,总量,最高,省份};
{广东,是,中国,经济,总量,最高,省份}。
S303:根据预设的语料库,分别获取各候选句的第二分词集中各词语对应的词频,并分别计算各候选句的第二分词集中各词语对应的概率。
例如,对于候选句s1,首先,在预设的语料库中获取“改动”出现的次数,作为“改动”的词频,即C(改动),然后除以语料库的总词数M,得到“改动”对应的概率P(改动)。
然后,在语料库中获取出现在“改动”之后的“是”的次数,作为“是”对应的词频,即C(改动是),然后除以“改动”的词频C(改动),得到“是”对应的概率P(是|改动);接着,在语料库中获取出现在“是”之后的“中国”的次数,作为“中国”对应的词频,即C(是中国),然后除以“是”的词频C(是),得到“中国”对应的概率P(中国|是);以此类推,得到“经济”对应的概率P(经济|中国)、“总量”对应的概率P(总量|经济)、“最高”对应的概率P(最高|总量)以及“省份”对应的概率P(省份|最高)。
最后,在语料库中获取“省份”出现的次数,作为“省份”的词频,即C(省份),然后除以语料库的总词数M,得到“省份”对应的概率P(省份)。
也就是说,对于第二分词集中的最后一个词语,其对应两个概率。
S304:分别根据各候选句中的第二分词集中各词语对应的概率,通过N-Gram模型,计算所述各候选句的概率。
由于本实施例采用的是二元模型(Bigram),因此,各候选句的概率计算公式分别为:
P(s1)=P(改动)×P(是|改动)×P(x)
P(s2)=P(高度)×P(是|高度)×P(x)
P(s3)=P(更多)×P(是|更多)×P(x)
P(s4)=P(广东)×P(是|广东)×P(x)
其中,P(x)=P(中国|是)×P(经济|中国)×P(总量|经济)×P(最高|总量)×P(省份|最高)×P(省份)。
将步骤S303中计算得到的各词语对应的概率带入上述公式,即可计算得到各候选句的概率。
进一步地,为了避免某些词在语料库中未出现导致概率为0的情况,会进行平滑操作,即重新分配概率,即使没出现的事件也会赋予一个概率,例如拉普拉斯平滑、古德图灵平滑等。
S4:将概率最高的候选句中的候选词作为所述简拼字符串的识别结果。
假设通过计算得出:P(s4)>P(s2)>P(s1)>P(s3),则将候选句s4中的候选词“广东”作为句子“GD是中国经济总量最高的省份”中的简拼字符串GD的识别结果,即认为与该句子中的GD最匹配的中文词汇为广东。
本实施例通过上下文联系分析与语句通顺程度检测,推测出与首字母简拼最匹配的中文词汇,一方面解决人们阅读障碍,另一方面解决了机器对自然语言识别分析的障碍。
本实施例可以应用于网络平台,对平台的言论进行分析、监控及维护,也可以应用于公共安全方面对网络文明环境的维护。
实施例二
本实施例是对应上述实施例的一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上述的简拼的识别方法实施例中的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
综上所述,本发明提供的一种简拼的识别方法及计算机可读存储介质,通过查找与简拼字符串适配的所有候选词,并通过上下文联系分析与语句通顺程度检测,推测出与首字母简拼最匹配的中文词汇,便于用户进行阅读,解决阅读障碍,也解决了机器对自然语言识别分析的障碍。本发明可以应用于网络平台,对平台的言论进行分析、监控及维护,也可以应用于公共安全方面对网络文明环境的维护。
以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等同变换,或直接或间接运用在相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种简拼的识别方法,其特征在于,包括:
获取包含简拼字符串的句子;
获取拼音首字母组合与所述简拼字符串一致的词语,得到候选词集;
将所述句子中的简拼字符串分别替换为所述候选词集中的各候选词,得到各候选句,并通过N-Gram模型,分别计算各候选句的概率;
将概率最高的候选句中的候选词作为所述简拼字符串的识别结果。
2.根据权利要求1所述的简拼的识别方法,其特征在于,所述获取包含简拼字符串的句子之后,还包括:
去除所述句子中URL、邮箱和ID。
3.根据权利要求1所述的简拼的识别方法,其特征在于,所述将所述句子中的简拼字符串分别替换为所述候选词集中的各候选词,得到各候选句,并通过N-Gram模型,分别计算各候选句的概率具体为:
对所述句子进行分词处理,得到第一分词集;
将所述第一分词集中的简拼字符串分别替换为所述候选词集中的各候选词,得到各候选句的第二分词集;
根据预设的语料库,分别获取各候选句的第二分词集中各词语对应的词频,并分别计算各候选句的第二分词集中各词语对应的概率;
分别根据各候选句中的第二分词集中各词语对应的概率,通过N-Gram模型,计算所述各候选句的概率。
4.根据权利要求3所述的简拼的识别方法,其特征在于,所述根据预设的语料库,分别获取各候选句的第二分词集中各词语对应的词频,并分别计算各候选句的第二分词集中各词语对应的概率具体为:
获取一候选句的第二分词集中的第i个词语作为当前词语,i的初始值为1;
若i=1或i=n,n为所述一候选句的第二分词集中的词语总数,则根据预设的语料库,获取当前词语的词频,并根据当前词语的词频以及所述语料库的总词数,计算当前词语对应的概率;
若2≤i≤n,则在预设的语料库中获取出现在所述一候选句的第二分词集中的第i-1个词语之后的当前词语的词频,作为当前词语对应的词频;根据预设的语料库,获取所述第i-1个词语的词频,并根据所述第i-1个词语的词频和当前词语对应的词频,计算当前词语对应的概率;
令i=i+1,继续执行所述获取一候选句的第二分词集中的第i个词语作为当前词语的步骤,直至遍历完所述一候选句的第二分词集。
5.根据权利要求4所述的简拼的识别方法,其特征在于,所述分别根据各候选句中的第二分词集中各词语对应的概率,通过N-Gram模型,计算所述各候选句的概率具体为:
根据公式P(si)=P(w1)×P(w2|w1)×P(w3|w2)×……×P(wn|wn-1)×P(wn)计算所述一候选句的概率,其中,w1,w2,w3,……,wn为所述一候选句si的第二分词集中的各词语,P(w1)为所述一候选句的第二分词集中的第一个词语对应的概率,P(wi|wi-1)为所述一候选句的第二分词集中的第i个词语对应的概率,P(wn)为所述一候选句的第二分词集中的最后一个词语对应的概率。
6.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如下步骤:
获取包含简拼字符串的句子;
获取拼音首字母组合与所述简拼字符串一致的词语,得到候选词集;
将所述句子中的简拼字符串分别替换为所述候选词集中的各候选词,得到各候选句,并通过N-Gram模型,分别计算各候选句的概率;
将概率最高的候选句中的候选词作为所述简拼字符串的识别结果。
7.根据权利要求6所述的计算机可读存储介质,其特征在于,所述获取包含简拼字符串的句子之后,还包括:
去除所述句子中URL、邮箱和ID。
8.根据权利要求6所述的计算机可读存储介质,其特征在于,所述将所述句子中的简拼字符串分别替换为所述候选词集中的各候选词,得到各候选句,并通过N-Gram模型,分别计算各候选句的概率具体为:
对所述句子进行分词处理,得到第一分词集;
将所述第一分词集中的简拼字符串分别替换为所述候选词集中的各候选词,得到各候选句的第二分词集;
根据预设的语料库,分别获取各候选句的第二分词集中各词语对应的词频,并分别计算各候选句的第二分词集中各词语对应的概率;
分别根据各候选句中的第二分词集中各词语对应的概率,通过N-Gram模型,计算所述各候选句的概率。
9.根据权利要求8所述的计算机可读存储介质,其特征在于,所述根据预设的语料库,分别获取各候选句的第二分词集中各词语对应的词频,并分别计算各候选句的第二分词集中各词语对应的概率具体为:
获取一候选句的第二分词集中的第i个词语作为当前词语,i的初始值为1;
若i=1或i=n,n为所述一候选句的第二分词集中的词语总数,则根据预设的语料库,获取当前词语的词频,并根据当前词语的词频以及所述语料库的总词数,计算当前词语对应的概率;
若2≤i≤n,则在预设的语料库中获取出现在所述一候选句的第二分词集中的第i-1个词语之后的当前词语的词频,作为当前词语对应的词频;根据预设的语料库,获取所述第i-1个词语的词频,并根据所述第i-1个词语的词频和当前词语对应的词频,计算当前词语对应的概率;
令i=i+1,继续执行所述获取一候选句的第二分词集中的第i个词语作为当前词语的步骤,直至遍历完所述一候选句的第二分词集。
10.根据权利要求8所述的计算机可读存储介质,其特征在于,所述分别根据各候选句中的第二分词集中各词语对应的概率,通过N-Gram模型,计算所述各候选句的概率具体为:
根据公式P(si)=P(w1)×P(w2|w1)×P(w3|w2)×……×P(wn|wn-1)×P(wn)计算所述一候选句的概率,其中,w1,w2,w3,……,wn为所述一候选句si的第二分词集中的各词语,P(w1)为所述一候选句的第二分词集中的第一个词语对应的概率,P(wi|wi-1)为所述一候选句的第二分词集中的第i个词语对应的概率,P(wn)为所述一候选句的第二分词集中的最后一个词语对应的概率。
CN202111483527.0A 2021-12-07 2021-12-07 简拼的识别方法及计算机可读存储介质 Pending CN114330316A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111483527.0A CN114330316A (zh) 2021-12-07 2021-12-07 简拼的识别方法及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111483527.0A CN114330316A (zh) 2021-12-07 2021-12-07 简拼的识别方法及计算机可读存储介质

Publications (1)

Publication Number Publication Date
CN114330316A true CN114330316A (zh) 2022-04-12

Family

ID=81048029

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111483527.0A Pending CN114330316A (zh) 2021-12-07 2021-12-07 简拼的识别方法及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN114330316A (zh)

Similar Documents

Publication Publication Date Title
CN107045496B (zh) 语音识别后文本的纠错方法及纠错装置
Messina et al. Segmentation-free handwritten Chinese text recognition with LSTM-RNN
JP4568774B2 (ja) 手書き文字認識で使用されるテンプレートを生成する方法
CN108304372B (zh) 实体提取方法和装置、计算机设备和存储介质
CN109145260B (zh) 一种文本信息自动提取方法
US20120323560A1 (en) Method for symbolic correction in human-machine interfaces
CN113435186B (zh) 中文文本纠错系统、方法、装置及计算机可读存储介质
CN111046660B (zh) 一种识别文本专业术语的方法及装置
CN111460793A (zh) 纠错方法、装置、设备及存储介质
Shaalan et al. A hybrid approach for building Arabic diacritizer
CN112560450A (zh) 一种文本纠错方法及装置
JPWO2010044123A1 (ja) 検索装置、検索用索引作成装置、および検索システム
CN116432655A (zh) 基于语用知识学习的少样本命名实体识别方法和装置
CN112232055A (zh) 一种基于拼音相似度与语言模型的文本检测与纠正方法
CN115983233A (zh) 一种基于数据流匹配的电子病历查重率估计方法
CN112183060B (zh) 多轮对话系统的指代消解方法
CN111723583B (zh) 基于意图角色的语句处理方法、装置、设备及存储介质
Barari et al. CloniZER spell checker adaptive language independent spell checker
CN114330316A (zh) 简拼的识别方法及计算机可读存储介质
Mohapatra et al. Spell checker for OCR
CN114548075A (zh) 文本处理方法、文本处理装置、存储介质与电子设备
Dinarelli Spoken language understanding: from spoken utterances to semantic structures
Deka et al. A study of t’nt and crf based approach for pos tagging in assamese language
Li et al. A unified model for solving the OOV problem of chinese word segmentation
CN113011406A (zh) 一种单模板工作流优化方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination