CN114065749A - 一种面向文本的粤语识别模型及系统的训练、识别方法 - Google Patents
一种面向文本的粤语识别模型及系统的训练、识别方法 Download PDFInfo
- Publication number
- CN114065749A CN114065749A CN202111332368.4A CN202111332368A CN114065749A CN 114065749 A CN114065749 A CN 114065749A CN 202111332368 A CN202111332368 A CN 202111332368A CN 114065749 A CN114065749 A CN 114065749A
- Authority
- CN
- China
- Prior art keywords
- text
- cantonese
- training
- data set
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明提供了一种面向文本的粤语识别系统的训练方法,所述方法包括:A1、获取粤语和普通话文本语料,对语料所属语种进行人工标注以获得标注数据集,采用改进停用词表过滤标注数据集并进行分词获得训练数据集;A2、利用步骤A1中获得的训练数据集,训练浅层网络至收敛以获得粤语识别模型;A3、构建粤语特色词表,以步骤A1中获得的训练数据集中的语料为输入、以语料是否为粤语的判断结果为输出,基于粤语特色词表构建用于检索语料是否命中粤语特色词表的规则匹配模型;A4、以步骤A1中获得的训练数据集中的语料为输入、以语料是否为繁体中文的判断结果为输出构建简繁识别模型;A5、以粤语识别模型、规则匹配模型和简繁识别模型的输出训练融合模块。
Description
技术领域
本发明涉及自然语言处理领域,具体来说,涉及一种面向文本的粤语识别模型的训练方法及识别方法,进一步地,还涉及一种面向文本的粤语识别系统、粤语识别系统的训练方法及识别方法。
背景技术
随着社交软件平台的发展,不同地区的用户相互连通,使得社交媒体上语言种类数量增多。粤语作为在广东、香港、澳门等地区使用的主要语言,随着社交平台用户的增多,也开始逐渐被广泛应用于社交之中。多种语言混杂使得社交平台对语料的分析、归类更加困难,因此,提出一套语种分类方法显得尤为重要,通过对用户语料语种的判断能够更加方便的对此用户做同语种相关内容的推荐。目前,科大讯飞、网易有道等企业已提出能够识别多种国家语言的方法,而粤语的识别方法却少有涉及,且识别精度偏低。
现有对普通话与粤语进行区分的技术主要有以下三种:
技术一:对普通话和粤语混合语音进行识别的技术,例如公开号为“CN111816160A”的中国专利申请:“普通话和粤语混合语音识别模型训练方法及系统”中提到的技术,该技术采用多种语言的混合训练样本训练多任务模型,通过数据迁移的方式复用多任务模型的网络参数,基于普通话和粤语混合建模,训练普通话和粤语混合识别模型。由于该技术采用了迁移多语种模型参数的方式,使得网络过分依赖所选数据集质量与大小,所选数据集中粤语与普通话所占比例以及代表该类语言的特征性强弱不同时,会导致不同的效果,同时数据集中大量数字、字符等干扰信息也会导致学习出的特征有所偏差。
技术二:对语料文本进行分析的技术,例如公开号为“CN111160015A”的中国专利申请:“一种实现文本分析的方法、装置、计算机存储介质及终端”中提到的技术,该技术通过引入粤语字典、简体中文字典、繁体中文等字典的方式,通过比较待检测文本中各个语种字符数的比例与设定阈值的关系,判定文本属于何种语言。由于该技术采用查询字典的方式会找到很多普通话与粤语的共用词,使得计算比例时出现偏差,并且粤语本身也具有很多特有的词汇,如果仅仅查询单个字符而割裂整体词汇会使得统计出现误差,同时,大量的查询字典操作会使得计算量较大。
技术三:通过语音数据训练神经网络进行识别的技术,例如公开号为“CN113282718A”的中国专利申请:“一种基于自适应中心锚的语种识别方法及系统”中提到的技术,该技术通过使用语音数据集提取的特征,训练深度神经骨干网络,并且采用自适应中心锚方法进一步训练深度神经骨干网络。自适应中心锚方法是指计算各个语种训练集的输出结果与其对应的语种特征中心的欧式距离,基于欧式距离构建Anchor集和非Anchor集;基于Anchor集和非Anchor集对所述深度神经骨干网络进行训练,不断更新特征中心和特征中心附近的样本,以实现自适应中心锚的选取;重复执行上述操作,直至网络收敛,从而更好识别该文本所属语种。该技术主要针对语音的特征进行了提取训练,但是文本与语音特征并不相同,无法采用相同方法提取出文本特征。
综上所述,现有的对普通话和粤语进行识别的技术主要存在以下问题:
1、现有区分普通话和粤语的技术主要从语音语料角度进行区分,没有充分利用文本语料的特征,导致在文本领域的识别率较低,同时对语料数据集的质量要求较高;
2、现有技术引用的普通话和粤语字典中普通话和粤语的共用词数量较多,字典的查询量大,导致无法准确区分普通话和粤语。
发明内容
因此,本发明的目的在于克服上述已有方法对数据集要求较高、共用词偏多以及没有较好利用粤语的文本特征使得准确率不高等问题,提供一种新的面向文本的粤语识别模型的训练方法及识别方法,以及一种面向文本的粤语识别系统、粤语识别系统的训练方法及识别方法。
根据本发明的第一方面,提供一种面向文本的粤语识别模型的训练方法,所述方法包括:S1、获取粤语和普通话文本语料,对语料所属语种进行人工标注以获得标注数据集;S2、将粤语与普通话的共用词与现有中文停用词表组合构成改进停用词表;S3、采用改进停用词表过滤步骤S1中的标注数据集并进行分词处理得到训练数据集,再以训练数据集中的语料为输入、以语料是否为粤语的识别结果为输出训练浅层网络至收敛。
优选的,所述步骤S1包括:S11、通过网络爬虫采集中文及粤语社交平台上的粤语、普通话文本语料;S12、将采集到的语料中的文本进行筛选,剔除长度不满足预设最短文本长度要求的文本,拆分长度大于预设最长文本长度的文本;S13、对筛选后的文本进行人工标注,以将所有文本所述语种标注为粤语或普通话。
在本发明的一些实施例中,所述预设最短文本长度为4,所述预设最长文本长度为100。
优选的,所述步骤S2包括:S21、采用中文停用词表过滤标注数据集; S22、利用python中的jieba分词划分过滤后的标注数据集中的每条语料,确定不同字符之间的关联概率并将每个字符与其关联概率最大的其他字符组成词组,形成分词结果;S23、分别统计粤语和普通话的分词词频,获取超过预设词频阈值的粤语分词和普通话分词中的共用词,与现有中文停用词表组合构成改进停用词表。
在本发明的一些实施例中,所述预设词频阈值为5000。
优选的,所述步骤S3包括:S31、采用改进停用词表过滤标注数据集并进行分词处理得到训练数据集;S32、引入预训练词向量,并采用训练数据集训练Fasttext浅层网络至收敛。
根据本发明的第二方面,提供一种面向文本的粤语识别方法,其特征在于,所述方法包括:T1、获取待处理文本;T2、采用如本发明第一方面所述方法训练的粤语识别模型识别待处理文本是否为粤语。
根据本发明的第三方面,提供一种面向文本的粤语识别系统,其特征在于,所述系统包括:粤语识别模型,其采用如本发明第一方面所述方法训练,用于根据待处理文本特征识别待处理文本是否为粤语得到识别结果;规则匹配模型,用于基于粤语特色词表检索待处理文本是否命中粤语特色词表以得到待处理文本是否为粤语的判断结果;简繁识别模型,用于判断待处理文本是否为繁体中文;以及融合模块,用于根据粤语识别模型针对待处理文本的识别结果、规则匹配模型针对待处理文本的判断结果、简繁识别模型针对待处理文本的判断结果判断待处理文本是否为粤语。
根据本发明的第四方面,提供一种用于本发明第三方面的面向文本的粤语识别系统的训练方法,所述方法包括:A1、获取粤语和普通话文本语料,对语料所属语种进行人工标注以获得标注数据集,采用改进停用词表过滤标注数据集并进行分词获得训练数据集;A2、利用步骤A1中获得的训练数据集,采用如本发明第一方面所述方法训练浅层网络至收敛以获得粤语识别模型;A3、构建粤语特色词表,以步骤A1中获得的训练数据集中的语料为输入、以语料是否为粤语的判断结果为输出,基于粤语特色词表构建用于检索语料是否命中粤语特色词表的规则匹配模型;A4、以步骤A1 中获得的训练数据集中的语料为输入、以语料是否为繁体中文的判断结果为输出构建简繁识别模型;A5、以粤语识别模型、规则匹配模型和简繁识别模型的输出训练融合模块。
优选的,所述步骤A3包括:基于粤语语料库、粤语停用词表与中文停用词表不同的部分、训练数据集中词频超过预设词频阈值的粤语词构建粤语特色词表。
优选的,所述步骤A4包括:以训练数据集中的语料为输入、以语料是否为粤语的判断结果为输出训练Hanzidentifier模型获得简繁识别模型。
优选的,所述融合模块包括线性感知机,所述步骤A5包括:采用线性感知机将粤语识别模型、规则匹配模型、简繁识别模型进行模型融合;其中,以粤语识别模型、规则匹配模型、简繁识别模型三个模型在训练数据集上得到的输出结果构成的三维向量集训练线性感知机以得到感知机模型参数实现模型融合,并以线性感知机softmax回归层输出作为最终识别结果。
根据本发明的第五方面,还提供一种面向文本的粤语识别方法,其特征在于,所述方法包括:F1、获取待处理文本;F2、采用如本发明第四方面所述方法训练的粤语识别系统识别待处理文本是否为粤语。
与现有技术相比,本发明的优点在于:
1、现有方法中神经网络难以准确捕捉到粤语和普通话各自的特征,导致识别准确率不高,而本发明设计了一种能够利用浅层网络构建的能够准确区分粤语和普通话的粤语识别模型,对数据集要求不高,同时还改进了共用词表,提高了准确率。
2、现有方法中没有利用粤语具有特征词汇这一特征,导致识别精度和可靠性偏低,而本发明设计了一套规则匹配方法用于寻找语料是否具有粤语特征词,提高了判定的准确率和可靠度。
3、现有方法没有利用粤语本身具有大量繁体字的特征,而本发明设计了一套简繁识别方法,以判断语料是否为繁体中文为依据,进行普通话和粤语的判别,不仅操作简单还提高了检测速度。
此外,现有方法没有从多角度考虑粤语和普通话的区别,而本发明通过模型融合,将从不同角度识别粤语和普通话的模型进行融合,从多角度同时识别粤语和普通话,提高识别准确率。
附图说明
以下参照附图对本发明实施例作进一步说明,其中:
图1为根据本发明实施例的粤语识别模型训练流程示意图;
图2为根据本发明实施例的粤语识别系统示意图;
图3为根据本发明实施例的粤语识别系统训练流程示意图。
具体实施方式
为了使本发明的目的,技术方案及优点更加清楚明白,以下通过具体实施例对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
如背景技术中提到的现有技术下的几种对普通话和粤语进行识别的技术,均无法直接应用于文本领域的识别,其中,技术一是采用迁移多语种模型参数的方式,会使得网络过分依赖所选数据集质量与大小,所选数据集中粤语与普通话所占比例以及代表该类语言的特征性强弱不同时,会导致不同的效果,数据集中大量数字、字符等干扰也会导致学习出的特征出现偏差;技术二是采用的查询字典的方式,会查询到过多的普通话与粤语共用词从而使得计算比例时出现偏差,而且粤语本身具有很多特有的词汇,如果仅查询单个字符而割裂整体词汇会使得统计出现误差,同时,大量的查询字典的操作会增大计算量;技术三主要是针对语音特征进行提取和训练,但文本特征与语音特征存在较大差异,无法采用与语音相同的方法来提取出文本特征。
为了更好的理解本发明,下面结合附图详细说明本发明。其中,对于模型的训练过程,由于深度学习的模型训练均是公知技术,本发明对具体的训练过程不做赘述,仅从模型结构的选取、参数的设置、损失函数的设置等方面进行说明。
发明人在研究普通话和粤语文本分类问题时,发现已有方法的神经网络难以准确捕捉到粤语和普通话各自的特征,因此,本发明设计了一种利用浅层网络对文本进行普通话和粤语区分的粤语识别模型,通过训练浅层网络至收敛得到一套粤语识别模型来准确识别文本是否是粤语。
根据本发明的一个实施例,本发明提供一种面向文本的粤语识别模型的训练方法,如图1所示,所述方法包括步骤S1、S2、S3,下面详细说明每个步骤。
在步骤S1中,获取粤语和普通话文本语料,对语料所属语种进行人工标注以获得标注数据集。
根据本发明的一个实施例,本发明从公共渠道获取粤语和中文文本语料(也叫普通话),然后对其进行所属语种的标注,并按照获取到的语料文本的实际情况选择是否进行数据清洗。整个过程主要涉及到数据准备、数据选取、数据标注等。
其中,数据准备是指获得原始文本语料,根据本发明的一个实施例,数据准备是采用包括但不限于网络爬虫采集技术来采集中文及粤语社交平台、微博、博客等社交媒体上面的信息作为文本语料,信息内容包括但不限于评论、话题、内容贴等内容。根据本发明的一个实施例,粤语社交平台为境外社交媒体“推特”,指定特定地域为香港地区,中文社交平台为社交媒体“新浪微博”以及“腾讯微博”。
数据选取是指选取具有普适性的数据,其中,数据选取时选取的数据需要具备两个特征,即不具有专业化词语和普遍性,具备这些性质的数据可以更加客观的反映出该类语言的特征,使之具有普遍性,不会特殊化。其中,社交平台,微博、博客等是人们日常使用发表自己状态心情、传播自己的观点等内容的场所,因此内容不具有专业化内容的词语,例如医学专有名词、自然科学专有名词等,同时,微博用户之间分享的内容并不全部来自于同一话题之下,具有普遍性。
数据标注是指对数据所属语种进行标注,将其标注为粤语或非粤语 (本实施例中非粤语指示的是普通话,也称之为中文),在标注过程中需要注意的是,文本语料的长度不一定一致,尤其是通过爬虫爬取到的数据长度不一,而粤语和普通话的识别应用场景主要在于社交媒体平台,因此对文本长度有一定要求,过长或过短都会影响训练模型的质量,因此,根据本发明的一个实施例,本发明将语料字符长度小于4的语料进行剔除,对于字符长度超过100的语料根据语义进行拆分处理,将处理后的数据集标注为粤语或非粤语以方便后续识别。
根据本发明的一个实施例,本发明对数据进行清洗以降低语料中不属于中文或粤语的其他字符的干扰。应当注意的是,数据清洗并不是一个必须的过程,例如当文本语料仅含有中文字符时,可以不进行数据清洗。具体来说,数据清洗是指移除语料中不属于中文或粤语的其他字符,以防止其他字符对训练模型的干扰。其中,在数据清洗前需要对原始语料进行编码统一以保证数据的标准化,根据本发明的一个实施例,可结合用户自定义需求,选择编码统一为“GBK”或“UTF-8”。例如当语料中不含有除中文外的其他字符时,将其转换为GBK编码;当不能保证语料语种时将其转换为UTF-8编码以节省空间,其中,GBK编码采用双字节存储,而UTF-8 编码对不同语言采用不同长度来存储。无论采用哪种编码形式,将语料进行编码统一都需要经过解码编码转换的过程,简单来说,主要包括如下步骤:首先将不同编码的文本语料按照选定的编码方式进行decode(解码),转化为unicode编码(统一码)作为中间编码,随后将中间编码的字符串按照选取的编码方式(GBK或者UTF-8)进行encode(编码)操作以转化为统一编码,最后对统一编码后的语料进行数据清洗。其中,所述数据清洗的步骤主要包括:TML字符转换、移除表情符号、移除url链接或网址、移除图片、移除数字以及不属于中文的其他字符,再将移除的内容用空格替代以保证短文本的整齐。进一步地,TML字符转换是用正则表达式将嵌入在原始数据中的大量html实体比如“<、&”去掉;所述移除标点符号是当数据分析需要在单词水平上被数据驱动时候,移除标点符号;所述移除表情符号是去除包含在短文本中的表情符号;所述移除url链接是去除短文本数据中在爬取过程中产生的大量URL数据还有部分网址链接例如 http://www.等等形式的链接;所述移除图片是去除爬取过程得到的图片名与其图片后缀名,例如.jpg,.png,.gif等;所述移除数字以及不属于中文的其他字符是去除英文俄文等其他语言文字;清洗操作基于每一条语料展开,对每一个短文本进行正则化匹配并实现文本清洗。其中,正则化表达式描述了一种字符串匹配的模式,首先将短文本按照每行读取并转换为字符串,在其中进行遍历检查,检查字符串是否含有所查找子串,最后对该字符串进行匹配与替换。数据清洗过程中被移除的内容用空格替代以保证短文本的整齐,最终得到清洗后的文本。
在步骤S2中,将粤语与普通话的共用词与现有中文停用词表组合构成改进停用词表。
该步骤主要是采用中文停用词表过滤步骤S1中得到的标注数据集并进行分词处理,分别统计粤语和普通话的分词词频,获取超过预设词频阈值的粤语分词和普通话分词中的共用词,与现有中文停用词表组合构成改进停用词表
根据本发明的一个实施例,本发明所述中文停用词表是至少结合了百度停用词表、哈工大停用词表等现有停用词表组成的较为全面的简体中文停用词表。本发明利用上述的中文停用词表分别过滤普通话和粤语的数据集,利用jieba分词划分每条语料,通过jieba词库,确定不同字符之间的关联概率,将每个字符与其关联概率最大的其他字符组成词组,形成分词结果,其中,所述字符间的关联概率指在jieba分词中的选取通过动态规划计算得到的概率路径,再分别统计普通话和粤语的分词词频,对两部分取词频均超过预设词频阈值的词语进行比较,如有相同即为共用词。共用词对于语料来说属于噪声,大量的噪声的存在会影响粤语识别模型特征的提取,因此本发明将共用词加入到原有停用词表构成改进停用词表,而 jieba分词是指一种python提供的组件,用于对语料进行分词处理。
根据本发明的一个实施例,所述预设词频阈值为5000。
在步骤S3中,采用改进停用词表过滤步骤S1中的标注数据集并进行分词处理得到训练数据集,再以训练数据集中的语料为输入、以语料是否为粤语的识别结果为输出训练浅层网络至收敛。
根据本发明的一个实施例,本发明在训练粤语识别模型前,通过引入预训练词向量,例如wiki的预训练中文词向量和粤语词向量,以加快模型拟合,并避免随机初始化带来的过拟合问题。其中,wiki是指维基百科提供的通过大量语料训练好的词向量。
根据本发明的一个实施例,本发明采用经过分词处理后的训练数据集对Fasttext浅层网络模型进行训练,并根据模型给出的预测标签确定语料的分类结果。采用Fasttext浅层网络模型与基于神经网络的分类模型相比,可以在保持高精度的情况下加快训练速度和测试速度。其中,通过调节epoch、学习率以及n-gram可以改善模型的效果。进一步地,根据本发明的一个实施例,可以通过使用网格搜索法得到使其性能最好的超参数,例如,给定n-gram离散取值范围为[1,3]和上下文窗口大小[2,5],如果以这两个参数为坐标轴建立一个平面直角坐标系,这些取值点连成一个网格,以每个点为参数训练Fasttext模型,可以得到不同准确率结果,并取其中效果最好的参数得到最终的粤语识别模型。
根据本发明的一个实施例,本发明提供一种面向文本的粤语识别模型的识别方法,所述方法用于判断输入语料是否为粤语,所述方法包括步骤 T1、获取待处理文本;T2、采用本发明的一种面向文本的粤语识别模型的训练方法训练的粤语识别模型识别待处理文本是否为粤语。
通过上述实施例的描述可知,本发明通过训练浅层网络获得的粤语识别模型,可以准确捕捉到粤语和普通话各自的特征,并对语料语种进行识别。但是,发明人对现有方法进行进一步研究发现,已有方法没有利用到粤语具有特征词汇这一特征,也没有利用粤语本身具有大量繁体字这一特征,更没有从多个角度考虑粤语和普通话的区别,而粤语的这些特征均是有利于提高粤语识别准确率的特征,因此,本发明设计了一套规则匹配方法以及一套简繁识别方法,用于寻找语料是否具有粤语特征词以及通过判断语料是否为繁体中文从而进行普通话与粤语的判别,并将这两种方法与粤语识别模型融合形成了更全面的粤语识别系统,进一步提高粤语识别的准确率。
根据本发明的一个实施例,本发明提供一套面向文本的粤语识别系统,如图2所示所述粤语识别系统包括:粤语识别模型,其采用本发明的一种面向文本的粤语识别模型训练方法训练,用于根据待处理文本特征识别待处理文本是否为粤语得到识别结果;规则匹配模型,用于基于粤语特色词表检索待处理文本是否命中粤语特色词表以得到待处理文本是否为粤语的判断结果;简繁识别模型,用于判断待处理文本是否为繁体中文;以及融合模块,用于根据粤语识别模型针对待处理文本的识别结果、规则匹配模型针对待处理文本的判断结果、简繁识别模型针对待处理文本的判断结果判断待处理文本是否为粤语。
根据本发明的一个实施例,提供一种用于面向文本的粤语识别系统的训练方法,如图3所示,所述方法包括步骤A1、A2、A3、A4、A5,下面详细说明每个步骤。
在步骤A1中,获取粤语和普通话文本语料,对语料所属语种进行人工标注以获得标注数据集,采用改进停用词表过滤标注数据集并进行分词获得训练数据集。
在步骤A2中,利用A1中获得的训练数据集,采用本发明的一种面向文本的粤语识别模型的训练方法训练浅层网络至收敛以获得粤语识别模型。
在步骤A3中,构建粤语特色词表,以步骤A1中获得的训练数据集中的语料为输入、以语料是否为粤语的判断结果为输出,基于粤语特色词表构建用于检索语料是否命中粤语特色词表的规则匹配模型。
根据本发明的一个实施例,所述粤语特色词表是基于粤语语料库、粤语停用词表与中文停用词表不同的部分、语料标注数据集中词频超过预设词频阈值的粤语词构建的。
停用词表代表了一种语言中出现频率极高的一些功能词,可以用来代表语言的一些特征。根据本发明的一个实施例,本发明采用Pycantonese 提供的现有粤语停用词表,去除掉其中与中文停用词表相同的部分,用剩下的部分表征粤语的特点,同时再结合上述步骤A1中语料标注数据集中超过预设词频阈值的部分,以及从香港地区粤语语料库中搜集加入的一些不常用的粤语特征词,组合构建粤语特色词表。其中,粤语特色词表中的粤语特征词表可以代表粤语的典型特征,特征词表中的每一词条都可以视作规则匹配方法中的规则词,将规则词生成字典,利用字符串匹配方法输出语料是否命中规则词,若命中则视为粤语,未命中则是普通话,以这样的规则构建可以准确识别粤语的规则匹配模型。
在步骤A4中,以步骤A1中获得的训练数据集中的语料为输入、以语料是否为繁体中文的判断结果为输出构建简繁识别模型。
由于粤语较多保留了古汉语的特征,包含了大量繁体字,而普通话多以简体中文为主,因此,对文本语料进行简繁识别可以作为判定是否为粤语的重要依据。根据本发明的一个实施例,本发明中的简繁识别模型利用 Hanzidentifier模型对每一个语料是简体还是繁体进行判定,可以用来很好地检测语料是否是繁体中文,包含繁体中文有很大概率属于粤语,但仍需要融合模块来进行校正。其中,根据本发明的一个实施例,基于Hanzidentifier模型首先利用正则表达式匹配提取出语料当中的汉字,然后通过查询CC-CEDICT中文、繁体词典,进行字符串匹配,若提取的词都在中文词典中被匹配到,则认定为是简体,若都在繁体字典内被匹配到则判定为繁体,对于均未查询到的字符,则忽略不计。
在步骤A5中,将以粤语识别模型、规则匹配模型和简繁识别模型的输出训练融合模块。
考虑到粤语和普通话在特征层面存在多方面的差异性,训练统一的分类器模型可能效果较差,不能完全利用所有的特征差别,因此,本发明针对三种模型:浅层网络粤语识别模型、规则匹配模型以及简繁识别模型分别得到各自的模型后,再进行模型融合,将个体模型结合起来,从而达到加强模拟效果,从多方面进行语种识别的目的。
根据本发明的一个实施例,本发明所述融合模块包括线性感知机,并使用pytorch框架实现,将语料真实标签和三种模型的预测输出分别做成 tensor形式并组合,生成一个小批量样本数据集,使用softmax回归的输出作为最终识别结果。其中,三种模型对于输入的文本语料都会给出判定结果,根据本发明的一个实施例,将判定为粤语的结果用1代表,判定为普通话的结果用0代表,三个模型的结果构成一个三维向量,作为线性感知机模型的输入,输出一个二维向量,代表最终预测结果为0和1的概率是多少。
根据本发明的一个实施例,本发明所述线性感知机是指一个三输入二输出的全连接层构成的单层神经网络,通过上述粤语识别模型、规则匹配模型以及简繁识别模型三种模型在训练集上得到的输出结果构成的三维向量集进行训练,得到感知机模型参数,进而实现模型融合。
根据本发明的一个实施例,本发明所述Softmax函数在线性感知机输出二维向量的时候使得向量中的每个值都归一化在0-1区间内,代表对两种结果预测的概率。其中,softmax回归使用了一个线性模块并定义前向反向传播函数,随机初始化模型权重后,通过最小化softmax交叉熵损失函数训练模型。其中,考虑到学习率过大会导致优化方向变换不稳定,而过小容易使得模型收敛于局部最优解,通过多次调整实验,得出在学习率为0.1时,分类准确率最高,故本发明选取学习率为0.1的小批量随机梯度下降方法作为模型融合过程中的优化算法来训练融合后的模型。
如前面实施例所提到的,本发明对于浅层网络粤语识别模型,可以通过使用网格搜索法,给定n-gram离散取值范围为[1,3]和上下文窗口大小 [2,5],如果以这两个参数为坐标轴建立一个平面直角坐标系,那么这些取值点连成一个网格,以每个点为参数训练Fasttext模型,得到不同准确率结果,取效果最好的参数。而对于规则匹配模型和简繁识别模型,由于其不涉及到参数调整,因此效果只有细微浮动。对于模型融合,通过最小化交叉熵损失函数,利用反向传播训练模型参数,选择损失函数最小的参数作为模型参数。进一步地,分别取三个模型效果最优的训练参数作为最终模型参数。再遇到新的语料进行识别时,将语料输入到系统中,先通过 3个独立模型得到各自的预测结果,再将预测结果一起输入到融合后的模型中,得出最终预测结果。
根据本发明的一个示例,粤语识别模型选取准确率达到98.8%及以上、召回率达到98.8%及以上的参数,规则匹配模型选取准确率达到83.99%及以上、召回率达到92.87%及以上的参数,简繁识别模型选取准确率达到 92.01%及以上、召回率达到84.59%集以上的参数进行模型融合,经过融合后最终融合后的模型的准确率可达到99.78%及以上、召回率达到96.44%及以上。
根据本发明的一个实施例,本发明还提供一种面向文本的粤语识别系统的识别方法,所述方法用于判断输入语料是否为粤语,所述方法包括步骤F1、获取待处理文本;F2、采用本发明的一种面向文本的粤语识别系统的训练方法训练的粤语识别系统识别待处理文本是否为粤语。
与现有技术相比,本发明的优点在于:
1、现有方法中神经网络难以准确捕捉到粤语和普通话各自的特征,导致识别准确率不高,而本发明设计了一种能够利用浅层网络构建的能够准确区分粤语和普通话的粤语识别模型,对数据集要求不高,同时还改进了共用词表,提高了准确率。
2、现有方法中没有利用粤语具有特征词汇这一特征,导致识别精度和可靠性偏低,而本发明设计了一套规则匹配方法用于寻找语料是否具有粤语特征词,提高了判定的准确率和可靠度。
3、现有方法没有利用粤语本身具有大量繁体字的特征,而本发明设计了一套简繁识别方法,以判断语料是否为繁体中文为依据,进行普通话和粤语的判别,不仅操作简单还提高了检测速度。
此外,现有方法没有从多角度考虑粤语和普通话的区别,而本发明通过模型融合,将从不同角度识别粤语和普通话的模型进行融合,从多角度同时识别粤语和普通话,提高识别准确率。
综上所述,本发明通过多种方法融合,从多个方面对粤语和普通话进行识别,充分利用粤语与普通话之间的特征差别,不依赖单种方法,提升识别的准确率,使得预测结果公平。
需要说明的是,虽然上文按照特定顺序描述了各个步骤,但是并不意味着必须按照上述特定顺序来执行各个步骤,实际上,这些步骤中的一些可以并发执行,甚至改变顺序,只要能够实现所需要的功能即可。
本发明可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质,其上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。
计算机可读存储介质可以是保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以包括但不限于电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。
以上已经描述了本发明的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。
Claims (15)
1.一种面向文本的粤语识别模型的训练方法,所述方法包括:
S1、获取粤语和普通话文本语料,对语料所属语种进行人工标注以获得标注数据集;
S2、将粤语与普通话的共用词与现有中文停用词表组合构成改进停用词表;
S3、采用改进停用词表过滤步骤S1中的标注数据集并进行分词处理得到训练数据集,再以训练数据集中的语料为输入、以语料是否为粤语的识别结果为输出训练浅层网络至收敛。
2.根据权利要求1所述的方法,其特征在于,所述步骤S1包括:
S11、通过网络爬虫采集中文及粤语社交平台上的粤语、普通话文本语料;
S12、将采集到的语料中的文本进行筛选,剔除长度不满足预设最短文本长度要求的文本,拆分长度大于预设最长文本长度的文本;
S13、对筛选后的文本进行人工标注,以将所有文本所述语种标注为粤语或普通话。
3.根据权利要求2所述的方法,其特征在于,所述预设最短文本长度为4,所述预设最长文本长度为100。
4.根据权利要求1所述的方法,其特征在于,所述步骤S2包括:
S21、采用中文停用词表过滤标注数据集;
S22、利用python中的jieba分词划分过滤后的标注数据集中的每条语料,确定不同字符之间的关联概率并将每个字符与其关联概率最大的其他字符组成词组,形成分词结果;
S23、分别统计粤语和普通话的分词词频,获取超过预设词频阈值的粤语分词和普通话分词中的共用词,与现有中文停用词表组合构成改进停用词表。
5.根据权利要求4所述的方法,其特征在于,所述预设词频阈值为5000。
6.根据权利要求1所述的方法,其特征在于,所述步骤S3包括:
S31、采用改进停用词表过滤标注数据集并进行分词处理得到训练数据集;
S32、引入预训练词向量,并采用训练数据集训练Fasttext浅层网络至收敛。
7.一种面向文本的粤语识别方法,其特征在于,所述方法包括:
T1、获取待处理文本;
T2、采用如权利要求1-6中任一所述方法训练的粤语识别模型识别待处理文本是否为粤语。
8.一种面向文本的粤语识别系统,其特征在于,所述系统包括:
粤语识别模型,其采用权利要求1-6中任一所述方法训练,用于根据待处理文本特征识别待处理文本是否为粤语得到识别结果;
规则匹配模型,用于基于粤语特色词表检索待处理文本是否命中粤语特色词表以得到待处理文本是否为粤语的判断结果;
简繁识别模型,用于判断待处理文本是否为繁体中文;
以及融合模块,用于根据粤语识别模型针对待处理文本的识别结果、规则匹配模型针对待处理文本的判断结果、简繁识别模型针对待处理文本的判断结果判断待处理文本是否为粤语。
9.一种用于权利要求8的面向文本的粤语识别系统的训练方法,所述方法包括:
A1、获取粤语和普通话文本语料,对语料所属语种进行人工标注以获得标注数据集,采用改进停用词表过滤标注数据集并进行分词获得训练数据集;
A2、利用步骤A1中获得的训练数据集,采用如权利要求1-6任一所述方法训练浅层网络至收敛以获得粤语识别模型;
A3、构建粤语特色词表,以步骤A1中获得的训练数据集中的语料为输入、以语料是否为粤语的判断结果为输出,基于粤语特色词表构建用于检索语料是否命中粤语特色词表的规则匹配模型;
A4、以步骤A1中获得的训练数据集中的语料为输入、以语料是否为繁体中文的判断结果为输出构建简繁识别模型;
A5、以粤语识别模型、规则匹配模型和简繁识别模型的输出训练融合模块。
10.根据权利要求9所述的方法,其特征在于,所述步骤A3包括:基于粤语语料库、粤语停用词表与中文停用词表不同的部分、训练数据集中词频超过预设词频阈值的粤语词构建粤语特色词表。
11.根据权利要求9所述的方法,其特征在于,所述步骤A4包括:以训练数据集中的语料为输入、以语料是否为粤语的判断结果为输出训练Hanzidentifier模型获得简繁识别模型。
12.根据权利要求9所述的方法,其特征在于,所述融合模块包括线性感知机,所述步骤A5包括:采用线性感知机将粤语识别模型、规则匹配模型、简繁识别模型进行模型融合;其中,以粤语识别模型、规则匹配模型、简繁识别模型三个模型在训练数据集上得到的输出结果构成的三维向量集训练线性感知机以得到感知机模型参数实现模型融合,并以线性感知机softmax回归层输出作为最终识别结果。
13.一种面向文本的粤语识别方法,其特征在于,所述方法包括:
F1、获取待处理文本;
F2、采用如权利要求9-12中任一所述方法训练的粤语识别系统识别待处理文本是否为粤语。
14.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,所述计算机程序可被处理器执行以实现权利要求1-7以及9-12中任一所述方法的步骤。
15.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述电子设备实现如权利要求1-7以及9-12中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111332368.4A CN114065749A (zh) | 2021-11-11 | 2021-11-11 | 一种面向文本的粤语识别模型及系统的训练、识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111332368.4A CN114065749A (zh) | 2021-11-11 | 2021-11-11 | 一种面向文本的粤语识别模型及系统的训练、识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114065749A true CN114065749A (zh) | 2022-02-18 |
Family
ID=80275204
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111332368.4A Pending CN114065749A (zh) | 2021-11-11 | 2021-11-11 | 一种面向文本的粤语识别模型及系统的训练、识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114065749A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114818712A (zh) * | 2022-05-10 | 2022-07-29 | 深延科技(北京)有限公司 | 知识图谱构建方法、装置、电子设备及存储介质 |
CN115019327A (zh) * | 2022-06-28 | 2022-09-06 | 珠海金智维信息科技有限公司 | 基于碎片票据分词和Transformer网络的碎片票据识别方法及系统 |
-
2021
- 2021-11-11 CN CN202111332368.4A patent/CN114065749A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114818712A (zh) * | 2022-05-10 | 2022-07-29 | 深延科技(北京)有限公司 | 知识图谱构建方法、装置、电子设备及存储介质 |
CN115019327A (zh) * | 2022-06-28 | 2022-09-06 | 珠海金智维信息科技有限公司 | 基于碎片票据分词和Transformer网络的碎片票据识别方法及系统 |
CN115019327B (zh) * | 2022-06-28 | 2024-03-08 | 珠海金智维信息科技有限公司 | 基于碎片票据分词和Transformer网络的碎片票据识别方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107085581B (zh) | 短文本分类方法和装置 | |
CN109446404B (zh) | 一种网络舆情的情感极性分析方法和装置 | |
WO2019080863A1 (zh) | 文本情感分类方法、存储介质及计算机 | |
JP7164701B2 (ja) | セマンティックテキストデータをタグとマッチングさせる方法、装置、及び命令を格納するコンピュータ読み取り可能な記憶媒体 | |
WO2021051518A1 (zh) | 基于神经网络模型的文本数据分类方法、装置及存储介质 | |
CN111310476B (zh) | 一种使用基于方面的情感分析方法的舆情监控方法和系统 | |
CN111783394A (zh) | 事件抽取模型的训练方法、事件抽取方法和系统及设备 | |
CN113392209B (zh) | 一种基于人工智能的文本聚类方法、相关设备及存储介质 | |
CN107688576B (zh) | 一种cnn-svm模型的构建及倾向性分类方法 | |
CN111767725A (zh) | 一种基于情感极性分析模型的数据处理方法及装置 | |
CN113961685A (zh) | 信息抽取方法及装置 | |
CN110928981A (zh) | 一种文本标签体系搭建及完善迭代的方法、系统及存储介质 | |
CN110858217A (zh) | 微博敏感话题的检测方法、装置及可读存储介质 | |
CN109325125B (zh) | 一种基于cnn优化的社交网络谣言检测方法 | |
Srikanth et al. | [Retracted] Sentiment Analysis on COVID‐19 Twitter Data Streams Using Deep Belief Neural Networks | |
CN114065749A (zh) | 一种面向文本的粤语识别模型及系统的训练、识别方法 | |
CN105912525A (zh) | 基于主题特征的半监督学习情感分类方法 | |
CN114416979A (zh) | 一种文本查询方法、设备和存储介质 | |
Eke et al. | The significance of global vectors representation in sarcasm analysis | |
CN104794209B (zh) | 基于马尔科夫逻辑网络的中文微博情绪分类方法及系统 | |
CN109543036A (zh) | 基于语义相似度的文本聚类方法 | |
Woo et al. | Validation of text data preprocessing using a neural network model | |
CN115146062A (zh) | 融合专家推荐与文本聚类的智能事件分析方法和系统 | |
CN114491062B (zh) | 一种融合知识图谱和主题模型的短文本分类方法 | |
Jagadeesan et al. | Twitter Sentiment Analysis with Machine Learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |