CN117436445B - 一种粤语词组分词处理方法及系统 - Google Patents
一种粤语词组分词处理方法及系统 Download PDFInfo
- Publication number
- CN117436445B CN117436445B CN202311763030.3A CN202311763030A CN117436445B CN 117436445 B CN117436445 B CN 117436445B CN 202311763030 A CN202311763030 A CN 202311763030A CN 117436445 B CN117436445 B CN 117436445B
- Authority
- CN
- China
- Prior art keywords
- cantonese
- word
- word segmentation
- cosine similarity
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000011218 segmentation Effects 0.000 title claims abstract description 285
- 238000000034 method Methods 0.000 title claims abstract description 26
- 239000013598 vector Substances 0.000 claims abstract description 164
- 238000004364 calculation method Methods 0.000 claims description 32
- 238000007781 pre-processing Methods 0.000 claims description 7
- 238000006243 chemical reaction Methods 0.000 claims description 5
- 238000004590 computer program Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 241001672694 Citrus reticulata Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种粤语词组分词处理方法及系统,获取由用户输入的待处理粤语文本;根据所述待处理粤语文本,在预设的粤语分词库中匹配粤语字段作为目标粤语字句;基于所述目标粤语字句的分词顺序,对所述待处理粤语文本进行第一分词操作,获得所述待处理粤语文本的若干待测分词,并计算每一所述待测分词的待测词向量;根据分词顺序、每一所述待测分词的待测词向量和所述目标粤语字句的分词向量,计算所述待处理粤语文本的第一余弦相似度数据;其中,所述第一余弦相似度数据包括:每一分词顺序位置对应的待测词向量和分词向量的余弦相似度;根据所述第一余弦相似度数据和第一余弦相似度阈值,获得所述待处理粤语文本的分词结果。
Description
技术领域
本发明涉及自然语言处理领域,尤其涉及一种粤语词组分词处理方法及系统。
背景技术
现有针对自然语言处理技术的应用多种多样,但现有的分词技术都是针对普通话进行处理,对于粤语文本无法进行分词。
因此,亟需一种粤语词组分词处理策略,从而解决无法对粤语文本进行分词的问题。
发明内容
本发明实施例提供一种粤语词组分词处理方法及系统,以解决无法对粤语文本进行分词的问题。
为了解决上述问题,本发明一实施例提供一种粤语词组分词处理方法,包括:
获取由用户输入的待处理粤语文本;
根据所述待处理粤语文本,在预设的粤语分词库中匹配粤语字段作为目标粤语字句;其中,所述粤语分词库包括:若干带有分词顺序和分词向量的粤语字句;
基于所述目标粤语字句的分词顺序,对所述待处理粤语文本进行第一分词操作,获得所述待处理粤语文本的若干待测分词,并计算每一所述待测分词的待测词向量;其中,每一分词按照分词顺序排序;
根据分词顺序、每一所述待测分词的待测词向量和所述目标粤语字句的分词向量,计算所述待处理粤语文本的第一余弦相似度数据;其中,所述第一余弦相似度数据包括:每一分词顺序位置对应的待测词向量和分词向量的余弦相似度;所述待测词向量与所述分词向量基于所述分词顺序一一对应;
根据所述第一余弦相似度数据和第一余弦相似度阈值,获得所述待处理粤语文本的分词结果。
作为上述方案的改进,所述分词结果包括:第一分词结果以及第二分词结果的其中一种或多种;所述根据所述第一余弦相似度数据和第一余弦相似度阈值,确定所述待处理粤语文本的分词结果,包括:
对每一分词顺序位置对应的待测词向量和分词向量的余弦相似度与第一余弦相似度阈值进行判断;
若当前分词顺序位置对应的余弦相似度大于或等于第一余弦相似度阈值,则确定当前分词顺序对应的待测分词为第一分词结果;
若当前分词顺序位置对应的余弦相似度小于第一余弦相似度阈值,则对当前分词顺序对应的待测分词执行第二分词操作,获得第二分词结果。
作为上述方案的改进,所述第二分词结果包括:组合分词以及单字分词的其中一种或多种;所述对当前分词顺序对应的待测分词执行第二分词操作,获得第二分词结果,包括:
对待测分词的每一字符进行向量计算,获得每一字符对应的向量数据;
基于每一向量数据和余弦相似度计算公式,计算第二余弦相似度;其中,所述第二余弦相似度包括:相邻字符之间的余弦相似度;
若相邻字符之间的余弦相似度大于或等于第二余弦相似度阈值、且余弦相似度大于或等于第二余弦相似度阈值的相邻字符所组成的分词与粤语词汇数据库中的数据匹配成功,则将相邻字符组合,确定组合分词;其中,所述粤语词汇数据库包括:若干粤语词语;
若相邻字符之间的余弦相似度大于或等于第二余弦相似度阈值、且余弦相似度大于或等于第二余弦相似度阈值的相邻字符所组成的分词与粤语词汇数据库中的数据匹配失败,则将相邻字符分开,获得单字分词;
若相邻字符之间的余弦相似度小于第二余弦相似度阈值,且字符未与其它字符组合,则将相邻字符分开,获得单字分词。
作为上述方案的改进,所述根据所述待处理粤语文本,在预设的粤语分词库中匹配粤语字段作为目标粤语字段,包括:
在预设的粤语分词库中,匹配与所述待处理粤语文本的字数相同的粤语字句作为待匹配粤语字句;
计算所述待处理粤语文本与所述待匹配粤语字句的相似度,选取相似度大于相似度阈值的待匹配粤语字句作为目标粤语字句。
作为上述方案的改进,所述计算所述待处理粤语文本与所述待匹配粤语字句的相似度,包括:
计算所述待处理粤语文本的第一向量与所述待匹配粤语字句的第二向量;
对所述第一向量和第二向量进行标准化,获得第一标准化向量和第二标准化向量;
通过余弦相似度计算公式,计算所述第一标准化向量和第二标准化向量的余弦相似度,获得所述待处理粤语文本与所述待匹配粤语字句的相似度。
作为上述方案的改进,所述获取由用户输入的待处理粤语文本,包括:
接收用户输入的文本数据;
对所述文本数据进行预处理操作,获得待处理粤语文本;其中,所述预处理操作包括:去除标点符号、繁简体转换和大小写转换的其中一种或多种。
作为上述方案的改进,在所述确定所述待处理粤语文本的分词结果之后,还包括:
将所述待处理粤语文本和所述分词结果对应的分词顺序和分词向量关联,并存储进所述粤语分词库中,以更新所述粤语分词库。
相应的,本发明一实施例还提供了一种粤语词组分词处理系统,包括:数据获取模块、数据匹配模块、第一分词模块、数据计算模块和结果生成模块;
所述数据获取模块,用于获取由用户输入的待处理粤语文本;
所述数据匹配模块,用于根据所述待处理粤语文本,在预设的粤语分词库中匹配粤语字段作为目标粤语待处理粤语文本的字数;其中,所述粤语分词库包括:若干带有分词顺序和分词向量的粤语字句;
所述第一分词模块,用于基于所述目标粤语字句的分词顺序,对所述待处理粤语文本进行第一分词操作,获得所述待处理粤语文本的若干待测分词,并计算每一所述待测分词的待测词向量;其中,每一分词按照分词顺序排序;
所述数据计算模块,用于根据分词顺序、每一所述待测分词的待测词向量和所述目标粤语字句的分词向量,计算所述待处理粤语文本的第一余弦相似度数据;其中,所述第一余弦相似度数据包括:每一分词顺序位置对应的待测词向量和分词向量的余弦相似度;所述待测词向量与所述分词向量基于所述分词顺序一一对应;
所述结果生成模块,用于根据所述第一余弦相似度数据和第一余弦相似度阈值,获得所述待处理粤语文本的分词结果。
相应的,本发明一实施例还提供了一种计算机终端设备,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如本发明所述的一种粤语词组分词处理方法。
相应的,本发明一实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如本发明所述的一种粤语词组分词处理方法。
由上可见,本发明具有如下有益效果:
本发明提供了一种粤语词组分词处理方法,获取由用户输入的待处理粤语文本;根据所述待处理粤语文本,在预设的粤语分词库中匹配粤语字段作为目标粤语字句;基于所述目标粤语字句的分词顺序,对所述待处理粤语文本进行第一分词操作,获得所述待处理粤语文本的若干待测分词,并计算每一所述待测分词的待测词向量;根据分词顺序、每一所述待测分词的待测词向量和所述目标粤语字句的分词向量,计算所述待处理粤语文本的第一余弦相似度数据;其中,所述第一余弦相似度数据包括:每一分词顺序位置对应的待测词向量和分词向量的余弦相似度;根据所述第一余弦相似度数据和第一余弦相似度阈值,获得所述待处理粤语文本的分词结果。本发明通过完成分词的粤语分词库对待处理粤语文本进行分词,完成了粤语文本的分词;并在分词完成后获得待测词向量,基于待测词向量和粤语分词库预存的分词向量进行余弦相似度的计算,从而有利于后续对余弦相似度和第一余弦相似度阈值进行分词结果的确定,有利于提高粤语分词的精确度。
进一步地,本发明在完成粤语文本的分词后,对每个待测分词和分词向量进行余弦相似度进行计算,通过第一余弦相似度的比较,对于小于第一余弦相似度的待测分词执行第二分词操作,对小于第一余弦相似度的待测分词的字符进行余弦相似度的计算,并结合粤语词汇数据,判断待测分词是组合分词或单字分词,完成了待处理粤语文本的二次分词,大大提高了粤语文本分词的分词准确度。
附图说明
图1是本发明一实施例提供的粤语词组分词处理方法的流程示意图;
图2是本发明一实施例提供的粤语词组分词处理系统的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一,参见图1,图1是本发明一实施例提供的一种粤语词组分词处理方法的流程示意图,如图1所示,本实施例包括步骤101至步骤105,各步骤具体如下:
步骤101:获取由用户输入的待处理粤语文本。
在本实施例中,所述获取由用户输入的待处理粤语文本,包括:
接收用户输入的文本数据;
对所述文本数据进行预处理操作,获得待处理粤语文本;其中,所述预处理操作包括:去除标点符号、繁简体转换和大小写转换的其中一种或多种。
在一具体的实施例中,待处理粤语文本包括:一段或多短短文本。
在一具体的实施例中,接收到用户输入的长文本后,先去长文本内的标点符号,并将标点符号作为分隔,将长文本分割成多段短文本,对短文本内的文字进行繁简体转换或大小写转换,获得待处理粤语文本。
步骤102:根据所述待处理粤语文本,在预设的粤语分词库中匹配粤语字段作为目标粤语字句;其中,所述粤语分词库包括:若干带有分词顺序和分词向量的粤语字句。
在本实施例中,所述根据所述待处理粤语文本,在预设的粤语分词库中匹配粤语字段作为目标粤语字句,包括:
在预设的粤语分词库中,匹配与所述待处理粤语文本的字数相同的粤语字句作为待匹配粤语字句;
计算所述待处理粤语文本与所述待匹配粤语字句的相似度,选取相似度大于相似度阈值的待匹配粤语字句作为目标粤语字句。
在一具体的实施例中,粤语分词库中包括若干条粤语字句,其中,每一条粤语字句都以正确的分词顺序分隔好,且计算出每个分词的分词向量,并对应的根据分词顺序和分词向量标记于粤语字句中。
作为优选地,粤语字句的分词顺序可通过语言专业人员进行设置,并在计算出分词向量后,将分词顺序和分词向量标记于粤语字句中。
在本实施例中,所述计算所述待处理粤语文本与所述待匹配粤语字句的相似度,包括:
计算所述待处理粤语文本的第一向量与所述待匹配粤语字句的第二向量;
对所述第一向量和第二向量进行标准化,获得第一标准化向量和第二标准化向量;
通过余弦相似度计算公式,计算所述第一标准化向量和第二标准化向量的余弦相似度,获得所述待处理粤语文本与所述待匹配粤语字句的相似度。
为更好地说明,本发明通过Cosine余弦相似度计算公式用于计算待处理粤语文本对应向量与待匹配粤语字句对应向量之间的夹角余弦值,衡量它们之间的相似度:
计算待处理粤语文本与待匹配粤语字句的向量,并进行标准化;即将其长度归一化为1,以消除向量长度的影响;
输入两个句子的标准化向量表示作为Cosine余弦相似度计算公式的输入数据;
输出两个向量在[-1,1]之间的相似度得分。值越接近1,表示两个句子越相似;值越接近-1,表示两个句子越不相似;值为0表示两个句子无关。
Cosine余弦相似度计算公式具体为:
cosine_similarity=dot_product(X,Y)/(norm(X)*norm(Y));
式中,cosine_similarity为余弦相似度,X为待处理粤语文本的标准化向量,Y为待匹配粤语字句的标准化向量,dot_product(X,Y)为X和Y的点积,norm(X)为X的范数,norm(Y)为Y的范数。
为更好地说明,提供以下实施例,假设有两个句子的向量表示如下:句子1向量:[0.2,0.4,0.5],句子2向量:[0.3,0.6,0.8];首先,对两个向量进行标准化:
句子1向量标准化:
[0.2,0.4,0.5]/sqrt(0.2^2+0.4^2+0.5^2)≈[0.267, 0.534, 0.668];
句子2向量标准化:
[0.3,0.6,0.8]/sqrt(0.3^2+0.6^2+0.8^2)≈[0.267,0.534,0.712];
然后,计算余弦相似度:
cosine_similarity=(0.267*0.267+0.534*0.534+0.668*0.712)/(sqrt(0.267^2+0.534^2+0.668^2)*sqrt(0.267^2+0.534^2+0.712^2))≈0.975;
因此,句子1和句子2的余弦相似度为约0.975,表示它们之间具有较高的相似度。
作为优选地,待处理粤语文本的向量与待匹配粤语字句的向量计算方式可以为:基于字级别的向量表示方法,包括:
将句子进行预处理,去除标点符号、空格等无关字符,并将句子转换为Unicode编码;
创建一个空的向量表示,向量的长度取决于所选择的字符集的大小。可以使用常见的中文字符集,例如GB2312或UTF-8的汉字范围;
对于句子中的每个字符,将其转换为一个独热向量。这个独热向量的长度与字符集的大小相同,其中只有一个元素为1,其余元素为0,表示该字符的存在;
将每个字符的独热向量按顺序连接起来,形成一个长向量,即句子的向量表示。
步骤103:基于所述目标粤语字句的分词顺序,对所述待处理粤语文本进行第一分词操作,获得所述待处理粤语文本的若干待测分词,并计算每一所述待测分词的待测词向量;其中,每一分词按照分词顺序排序。
可以理解的是,由于待处理粤语文本的字数和目标粤语字句的字数相同,因此按照分词顺序进行待处理粤语文本的分词,每个待测分词的字数和位置与待处理粤语文本一致;举出以下实施例进行说明:目标粤语字句为:小明/今天/去/广州,分词顺序为小明、今天、去、广州;待处理粤语文本为:小华/明天/去/深圳,分词顺序为小华、明天、去、深圳。
在一具体的实施例中,待测分词的待测词向量计算和分词向量计算采用现有训练好的词向量模型来计算,如:Word2Vec、GloVe、FastText等;通过将大规模无监督粤语词汇输入到词向量模型中进行训练,获得能够计算分词的词向量的模型工具。
步骤104:根据分词顺序、每一所述待测分词的待测词向量和所述目标粤语字句的分词向量,计算所述待处理粤语文本的第一余弦相似度数据;其中,所述第一余弦相似度数据包括:每一分词顺序位置对应的待测词向量和分词向量的余弦相似度;所述待测词向量与所述分词向量基于所述分词顺序一一对应。
在本实施例中,此处向量的余弦相似度计算同样用到了Cosine余弦相似度计算公式,只是处理对象从语句变成了词汇,同时,位于同一分词顺序位置的待测词向量和分词向量进行余弦相似度的计算,如:小华/明天/去/深圳以及小明/今天/去/广州,那么小华与小明进行余弦相似度的计算,明天与今天进行余弦相似度的计算,深圳与广州进行余弦相似度的计算。
步骤105:根据所述第一余弦相似度数据和第一余弦相似度阈值,获得所述待处理粤语文本的分词结果。
在本实施例中,所述分词结果包括:第一分词结果以及第二分词结果的其中一种或多种;所述根据所述第一余弦相似度数据和第一余弦相似度阈值,获得所述待处理粤语文本的分词结果,包括:
对每一分词顺序位置对应的待测词向量和分词向量的余弦相似度与第一余弦相似度阈值进行判断;
若当前分词顺序位置对应的余弦相似度大于或等于第一余弦相似度阈值,则确定当前分词顺序对应的待测分词为第一分词结果;
若当前分词顺序位置对应的余弦相似度小于第一余弦相似度阈值,则对当前分词顺序对应的待测分词执行第二分词操作,获得第二分词结果。
在本实施例中,所述第二分词结果包括:组合分词以及单字分词的其中一种或多种;所述对当前分词顺序对应的待测分词执行第二分词操作,获得第二分词结果,包括:
对待测分词的每一字符进行向量计算,获得每一字符对应的向量数据;
基于每一向量数据和余弦相似度计算公式,计算第二余弦相似度;其中,所述第二余弦相似度包括:相邻字符之间的余弦相似度;
若相邻字符之间的余弦相似度大于或等于第二余弦相似度阈值、且余弦相似度大于或等于第二余弦相似度阈值的相邻字符所组成的分词与粤语词汇数据库中的数据匹配成功,则将相邻字符组合,确定组合分词;其中,所述粤语词汇数据库包括:若干粤语词语;
若相邻字符之间的余弦相似度大于或等于第二余弦相似度阈值、且余弦相似度大于或等于第二余弦相似度阈值的相邻字符所组成的分词与粤语词汇数据库中的数据匹配失败,则将相邻字符分开,获得单字分词;
若相邻字符之间的余弦相似度小于第二余弦相似度阈值,且字符未与其它字符组合,则将相邻字符分开,获得单字分词;
若相邻字符之间的余弦相似度小于第二余弦相似度阈值,且字符未与其它字符组合,则获得单字分词。
在一具体的实施例中,第一余弦相似度阈值和第二余弦相似度阈值可由用户进行适应性调整。
为更好地理解,由于在第一分词操作中,语句的向量计算并未考虑语义的关系,只是通过每一字符的向量来判断语句的相似度,因此第一分词操作获得的分词具有一定误差,对于第一分词操作的分词通过词向量模型进行向量计算,考虑了语义,计算所得的向量更加准确,并对计算获得的向量结合第二分词操作进行分词判断;
通过比较每一待测词向量与对应分词向量的余弦相似度,来判断待处理粤语文本和目标粤语字句的分词是否准确:
若当前分词顺序位置对应的余弦相似度大于或等于第一余弦相似度阈值,则判断分词成功,将目标粤语字句的分词作为待处理粤语文本的第一分词结果;
若当前分词顺序位置对应的余弦相似度小于第一余弦相似度阈值,则需要进一步进行考虑,执行第二分词操作,第二分词操作包括:
(1)将当前分词顺序对应的待测分词的每一字符进行拆分,通过训练好的词向量模型进行词向量计算,并判断待测分词内字符是否需要组合,且组合后的分词是否存在于粤语词汇数据库中:
(2)若相邻字符之间的余弦相似度大于或等于第二余弦相似度阈值(此时字符可以组合),且组合后的分词与粤语词汇数据库匹配成功,则说明组合后的字符是可以运用的粤语词汇,作为组合分词;
(3)若相邻字符之间的余弦相似度大于或等于第二余弦相似度阈值(此时字符可以组合),且组合后的分词与粤语词汇数据库匹配失败,则说明组合后的字符是不可以运用的粤语词汇,并将字符作为单独的字符,获得单字分词;
(4)若相邻字符之间的余弦相似度小于第二余弦相似度阈值,则说明字符是不能够组合的,并将字符作为单独的字符,获得单字分词。
在一具体的实施例中,在每个分词顺序位置对应的待测分词中,若包含多个文字,则先计算每组相邻文字之间的余弦相似度,把大于或等于第二余弦相似度阈值的连续相邻字符优先组合并判断,优先级按照连续相邻字符的字数从多到少而执行,最后判断小于第二余弦相似度阈值的相邻字符,例如:
对于大于或等于第二余弦相似度阈值的连续相邻字符有4个,则先组成4字分词,并判断是否能够与粤语词汇数据库匹配成功:
若是,则输出4字分词,并直接对小于第二余弦相似度阈值的相邻字符进行分词;
若否,在4个字符中选3个连续相邻字符组成3字分词,并判断是否能够与粤语词汇数据库匹配成功……,按照这样的处理方式,直到最后2字分词扔未匹配成功的话,直接分成单个字符作为输出结果;
在本实施例中,在所述确定所述待处理粤语文本的分词结果之后,还包括:
将所述待处理粤语文本和所述分词结果对应的分词顺序和分词向量关联,并存储进所述粤语分词库中,以更新所述粤语分词库。
参见图2,图2是本发明一实施例提供的一种粤语词组分词处理系统的结构示意图,包括:数据获取模块201、数据匹配模块202、第一分词模块203、数据计算模块204和结果生成模块205;
所述数据获取模块201,用于获取由用户输入的待处理粤语文本;
所述数据匹配模块202,用于根据所述待处理粤语文本,在预设的粤语分词库中匹配粤语字段作为目标粤语待处理粤语文本的字数;其中,所述粤语分词库包括:若干带有分词顺序和分词向量的粤语字句;
所述第一分词模块203,用于基于所述目标粤语字句的分词顺序,对所述待处理粤语文本进行第一分词操作,获得所述待处理粤语文本的若干待测分词,并计算每一所述待测分词的待测词向量;其中,每一分词按照分词顺序排序;
所述数据计算模块204,用于根据分词顺序、每一所述待测分词的待测词向量和所述目标粤语字句的分词向量,计算所述待处理粤语文本的第一余弦相似度数据;其中,所述第一余弦相似度数据包括:每一分词顺序位置对应的待测词向量和分词向量的余弦相似度;所述待测词向量与所述分词向量基于所述分词顺序一一对应;
所述结果生成模块205,用于根据所述第一余弦相似度数据和第一余弦相似度阈值,获得所述待处理粤语文本的分词结果。
可以理解的是,上述系统项实施例是与本发明方法项实施例相对应的,其可以实现本发明上述任意一项方法项实施例提供的粤语词组分词处理方法。
本实施例获取由用户输入的待处理粤语文本;根据所述待处理粤语文本,在预设的粤语分词库中匹配粤语字段作为目标粤语字句;基于所述目标粤语字句的分词顺序,对所述待处理粤语文本进行第一分词操作,获得所述待处理粤语文本的若干待测分词,并计算每一所述待测分词的待测词向量;根据分词顺序、每一所述待测分词的待测词向量和所述目标粤语字句的分词向量,计算所述待处理粤语文本的第一余弦相似度数据;其中,所述第一余弦相似度数据包括:每一分词顺序位置对应的待测词向量和分词向量的余弦相似度;根据所述第一余弦相似度数据和第一余弦相似度阈值,获得所述待处理粤语文本的分词结果。本发明通过完成分词的粤语分词库对待处理粤语文本进行分词,完成了粤语文本的分词;并在分词完成后获得待测词向量,基于待测词向量和粤语分词库预存的分词向量进行余弦相似度的计算,从而有利于后续对余弦相似度和第一余弦相似度阈值进行分词结果的确定,有利于提高粤语分词的精确度。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。
Claims (7)
1.一种粤语词组分词处理方法,其特征在于,包括:
获取由用户输入的待处理粤语文本;
根据所述待处理粤语文本,在预设的粤语分词库中匹配粤语字段作为目标粤语字句;其中,所述粤语分词库包括:若干带有分词顺序和分词向量的粤语字句;所述待处理粤语文本的字数和目标粤语字句的字数相同;
基于所述目标粤语字句的分词顺序,对所述待处理粤语文本进行第一分词操作,获得所述待处理粤语文本的若干待测分词,并计算每一所述待测分词的待测词向量;其中,每一分词按照分词顺序排序;
根据分词顺序、每一所述待测分词的待测词向量和所述目标粤语字句的分词向量,计算所述待处理粤语文本的第一余弦相似度数据;其中,所述第一余弦相似度数据包括:每一分词顺序位置对应的待测词向量和分词向量的余弦相似度;所述待测词向量与所述分词向量基于所述分词顺序一一对应;
根据所述第一余弦相似度数据和第一余弦相似度阈值,获得所述待处理粤语文本的分词结果;其中,所述分词结果包括:第一分词结果以及第二分词结果的其中一种或多种;所述根据所述第一余弦相似度数据和第一余弦相似度阈值,获得所述待处理粤语文本的分词结果,包括:对每一分词顺序位置对应的待测词向量和分词向量的余弦相似度与第一余弦相似度阈值进行判断;若当前分词顺序位置对应的余弦相似度大于或等于第一余弦相似度阈值,则确定当前分词顺序对应的待测分词为第一分词结果;若当前分词顺序位置对应的余弦相似度小于第一余弦相似度阈值,则对当前分词顺序对应的待测分词执行第二分词操作,获得第二分词结果。
2.根据权利要求1所述的粤语词组分词处理方法,其特征在于,所述第二分词结果包括:组合分词以及单字分词的其中一种或多种;所述对当前分词顺序对应的待测分词执行第二分词操作,获得第二分词结果,包括:
对待测分词的每一字符进行向量计算,获得每一字符对应的向量数据;
基于每一向量数据和余弦相似度计算公式,计算第二余弦相似度;其中,所述第二余弦相似度包括:相邻字符之间的余弦相似度;
若相邻字符之间的余弦相似度大于或等于第二余弦相似度阈值、且余弦相似度大于或等于第二余弦相似度阈值的相邻字符所组成的分词与粤语词汇数据库中的数据匹配成功,则将相邻字符组合,确定组合分词;其中,所述粤语词汇数据库包括:若干粤语词语;
若相邻字符之间的余弦相似度大于或等于第二余弦相似度阈值、且余弦相似度大于或等于第二余弦相似度阈值的相邻字符所组成的分词与粤语词汇数据库中的数据匹配失败,则将相邻字符分开,获得单字分词;
若相邻字符之间的余弦相似度小于第二余弦相似度阈值,且字符未与其它字符组合,则将相邻字符分开,获得单字分词。
3.根据权利要求1所述的粤语词组分词处理方法,其特征在于,所述根据所述待处理粤语文本,在预设的粤语分词库中匹配粤语字段作为目标粤语字句,包括:
在预设的粤语分词库中,匹配与所述待处理粤语文本的字数相同的粤语字句作为待匹配粤语字句;
计算所述待处理粤语文本与所述待匹配粤语字句的相似度,选取相似度大于相似度阈值的待匹配粤语字句作为目标粤语字句。
4.根据权利要求3所述的粤语词组分词处理方法,其特征在于,所述计算所述待处理粤语文本与所述待匹配粤语字句的相似度,包括:
计算所述待处理粤语文本的第一向量与所述待匹配粤语字句的第二向量;
对所述第一向量和第二向量进行标准化,获得第一标准化向量和第二标准化向量;
通过余弦相似度计算公式,计算所述第一标准化向量和第二标准化向量的余弦相似度,获得所述待处理粤语文本与所述待匹配粤语字句的相似度。
5.根据权利要求1所述的粤语词组分词处理方法,其特征在于,所述获取由用户输入的待处理粤语文本,包括:
接收用户输入的文本数据;
对所述文本数据进行预处理操作,获得待处理粤语文本;其中,所述预处理操作包括:去除标点符号、繁简体转换和大小写转换的其中一种或多种。
6.根据权利要求1至5任意一项所述的粤语词组分词处理方法,其特征在于,在所述确定所述待处理粤语文本的分词结果之后,还包括:
将所述待处理粤语文本和所述分词结果对应的分词顺序和分词向量关联,并存储进所述粤语分词库中,以更新所述粤语分词库。
7.一种粤语词组分词处理系统,其特征在于,包括:数据获取模块、数据匹配模块、第一分词模块、数据计算模块和结果生成模块;
所述数据获取模块,用于获取由用户输入的待处理粤语文本;
所述数据匹配模块,用于根据所述待处理粤语文本,在预设的粤语分词库中匹配粤语字段作为目标粤语字句;其中,所述粤语分词库包括:若干带有分词顺序和分词向量的粤语字句;所述待处理粤语文本的字数和目标粤语字句的字数相同;
所述第一分词模块,用于基于所述目标粤语字句的分词顺序,对所述待处理粤语文本进行第一分词操作,获得所述待处理粤语文本的若干待测分词,并计算每一所述待测分词的待测词向量;其中,每一分词按照分词顺序排序;
所述数据计算模块,用于根据分词顺序、每一所述待测分词的待测词向量和所述目标粤语字句的分词向量,计算所述待处理粤语文本的第一余弦相似度数据;其中,所述第一余弦相似度数据包括:每一分词顺序位置对应的待测词向量和分词向量的余弦相似度;所述待测词向量与所述分词向量基于所述分词顺序一一对应;
所述结果生成模块,用于根据所述第一余弦相似度数据和第一余弦相似度阈值,获得所述待处理粤语文本的分词结果;其中,所述分词结果包括:第一分词结果以及第二分词结果的其中一种或多种;所述根据所述第一余弦相似度数据和第一余弦相似度阈值,获得所述待处理粤语文本的分词结果,包括:对每一分词顺序位置对应的待测词向量和分词向量的余弦相似度与第一余弦相似度阈值进行判断;若当前分词顺序位置对应的余弦相似度大于或等于第一余弦相似度阈值,则确定当前分词顺序对应的待测分词为第一分词结果;若当前分词顺序位置对应的余弦相似度小于第一余弦相似度阈值,则对当前分词顺序对应的待测分词执行第二分词操作,获得第二分词结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311763030.3A CN117436445B (zh) | 2023-12-21 | 2023-12-21 | 一种粤语词组分词处理方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311763030.3A CN117436445B (zh) | 2023-12-21 | 2023-12-21 | 一种粤语词组分词处理方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117436445A CN117436445A (zh) | 2024-01-23 |
CN117436445B true CN117436445B (zh) | 2024-04-02 |
Family
ID=89555703
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311763030.3A Active CN117436445B (zh) | 2023-12-21 | 2023-12-21 | 一种粤语词组分词处理方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117436445B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010182287A (ja) * | 2008-07-17 | 2010-08-19 | Steven C Kays | 適応型インテリジェント・デザイン |
CN107562714A (zh) * | 2016-06-30 | 2018-01-09 | 北京智能管家科技有限公司 | 一种语句相似度计算方法及装置 |
CN109255120A (zh) * | 2018-07-23 | 2019-01-22 | 昆明理工大学 | 一种老挝语分词方法 |
CN111444700A (zh) * | 2020-04-02 | 2020-07-24 | 山东山大鸥玛软件股份有限公司 | 一种基于语义文档表达的文本相似度量方法 |
CN112307759A (zh) * | 2020-11-09 | 2021-02-02 | 西安交通大学 | 一种面向社交网络不规则短文本的粤语分词方法 |
-
2023
- 2023-12-21 CN CN202311763030.3A patent/CN117436445B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010182287A (ja) * | 2008-07-17 | 2010-08-19 | Steven C Kays | 適応型インテリジェント・デザイン |
CN107562714A (zh) * | 2016-06-30 | 2018-01-09 | 北京智能管家科技有限公司 | 一种语句相似度计算方法及装置 |
CN109255120A (zh) * | 2018-07-23 | 2019-01-22 | 昆明理工大学 | 一种老挝语分词方法 |
CN111444700A (zh) * | 2020-04-02 | 2020-07-24 | 山东山大鸥玛软件股份有限公司 | 一种基于语义文档表达的文本相似度量方法 |
CN112307759A (zh) * | 2020-11-09 | 2021-02-02 | 西安交通大学 | 一种面向社交网络不规则短文本的粤语分词方法 |
Non-Patent Citations (1)
Title |
---|
无监督与有监督相结合的粤语分词方法;苏振江 等;计算机工程与设计;20230831;第44卷(第8期);第2482-2488页 * |
Also Published As
Publication number | Publication date |
---|---|
CN117436445A (zh) | 2024-01-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8332205B2 (en) | Mining transliterations for out-of-vocabulary query terms | |
US10061768B2 (en) | Method and apparatus for improving a bilingual corpus, machine translation method and apparatus | |
JP7441864B2 (ja) | 多音字の発音を予測する方法、装置、設備、および記憶媒体 | |
CN107870901B (zh) | 从翻译源原文生成相似文的方法、记录介质、装置以及系统 | |
KR20200031154A (ko) | 인공 신경망을 이용한 심층 문맥 기반 문법 오류 정정 | |
CN110866399B (zh) | 一种基于增强字符向量的中文短文本实体识别与消歧方法 | |
US20060015317A1 (en) | Morphological analyzer and analysis method | |
CN105068998A (zh) | 基于神经网络模型的翻译方法及装置 | |
CN112541356B (zh) | 一种生物医学命名实体识别的方法和系统 | |
CN111460793A (zh) | 纠错方法、装置、设备及存储介质 | |
CN111046660B (zh) | 一种识别文本专业术语的方法及装置 | |
CN107797986B (zh) | 一种基于lstm-cnn的混合语料分词方法 | |
CN112417823B (zh) | 一种中文文本语序调整和量词补全方法及系统 | |
CN114153971A (zh) | 一种含错中文文本纠错识别分类设备 | |
KR101079869B1 (ko) | 품사 및 동형이의어 태깅 방법 및 이를 이용한 단말 장치 | |
KR20230009564A (ko) | 앙상블 스코어를 이용한 학습 데이터 교정 방법 및 그 장치 | |
CN114925702A (zh) | 文本相似度识别方法、装置、电子设备及存储介质 | |
CN110705217A (zh) | 一种错别字检测方法、装置及计算机存储介质、电子设备 | |
CN117454898A (zh) | 一种根据输入文本实现法人实体标准化输出的方法及装置 | |
Yang et al. | Spell Checking for Chinese. | |
CN117436445B (zh) | 一种粤语词组分词处理方法及系统 | |
CN110210035B (zh) | 序列标注方法、装置及序列标注模型的训练方法 | |
CN113302683A (zh) | 多音字预测方法及消歧方法、装置、设备及计算机可读存储介质 | |
CN114970554B (zh) | 一种基于自然语言处理的文档校验方法 | |
CN116306594A (zh) | 一种医学ocr识别纠错方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |