CN114444492A - 一种非标准词类判别方法及计算机可读存储介质 - Google Patents
一种非标准词类判别方法及计算机可读存储介质 Download PDFInfo
- Publication number
- CN114444492A CN114444492A CN202111567719.XA CN202111567719A CN114444492A CN 114444492 A CN114444492 A CN 114444492A CN 202111567719 A CN202111567719 A CN 202111567719A CN 114444492 A CN114444492 A CN 114444492A
- Authority
- CN
- China
- Prior art keywords
- standard
- word
- character
- chinese
- words
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
Abstract
本发明提供一种非标准词类判别方法及计算机可读存储介质,方法包括:输入的包含非标准词的完整中文句子的字符序列并与非标准词的匹配规则以及中文词典进行匹配得到所有可能的候选的非标准词和潜在的中文词语;将上述内容组织成一个序列,获取字符序列中每个字符的字符嵌入;获取每个潜在的中文词语和每个候选的非标准词的词嵌入;从字符序列中每个字符、潜在的中文词语和候选的非标准词的头和尾位置得到的相对位置编码,基于字符嵌入、词嵌入及相对位置编码获取包括字符序列中的每个字符、每个潜在的中文词语和候选的非标准词构成的序列的上下文特征表示;基于上下文特征表示预测每一个候选的非标准词的类别;提高非标准词分类的效率和准确率。
Description
技术领域
本发明涉及非标准次预测技术领域,尤其涉及一种非标准词类判别方法及计算机可读存储介质。
背景技术
最早的非标准词的预测方法都是基于手工规则的,先由语言学家总结一系列的规则进行非标准词的消歧,然后再把这些规则写成计算机能理解的形式。简单规则方法,主要用于处理那些容易消歧或语料稀少或语料存在类间严重不均衡的非标准词。然而,由于每种可能的非标准词的判别都需要单独总结规则,建立规则工作量巨大而且很难涵盖所有的情况。即基于规则的非标准词类别预测方法,手动设计规则的工作太繁琐,而且规则拓展性较差并且没有考虑到上下文信息,导致效果较差。另外,当设计新的规则时,容易和以前的规则产生冲突。
由于神经网络可以从原始数据中提取高层次的特征以及深度学习在语音识别、机器翻译、计算机视觉等许多领域都带来了突破,越来越多的研究人员尝试使用神经网络的序列到序列的模型直接处理文本正则化问题。序列到序列模型通常将书面形式的文本表示编码为一个状态向量,并将其解码为一个口语形式的文本输出序列。然而,将序列到序列的模型直接应用于非标准词的转换中,可能会导致由模型或数据偏差导致的意外的和不可解释的错误。
现有技术中还有一种混合系统,混合系统只是将基于规则的模型和神经网络模型连续地视为级联子模块,基于兜底策略使用规则方法来纠正神经网络模型的错误,但这种混合系统并没有解决规则和神经网络各自的问题,并且可能会导致错误积累;基于规则的模型和神经网络模型可以相互补充,但这两个级联子模块的交互能力有限,使得神经网络模型不能充分利用规则中所包含的专家知识。
现有技术中缺乏一种非标准词类判别方法及计算机可读存储介质。
以上背景技术内容的公开仅用于辅助理解本发明的构思及技术方案,其并不必然属于本专利申请的现有技术,在没有明确的证据表明上述内容在本专利申请的申请日已经公开的情况下,上述背景技术不应当用于评价本申请的新颖性和创造性。
发明内容
本发明为了解决现有的问题,提供一种非标准词类判别方法及计算机可读存储介质。
为了解决上述问题,本发明采用的技术方案如下所述:
一种非标准词类判别方法,包括如下步骤:S1:输入的包含非标准词的完整中文句子的字符序列并将所述中文句子与非标准词的匹配规则以及中文词典进行匹配得到所有可能的候选的非标准词和潜在的中文词语;S2:将所述中文句子的字符序列、潜在的的所述中文词语以及所有可能的候选非标准词组织成一个序列,获取所述字符序列中每个字符的字符嵌入;获取每个潜在的所述中文词语和每个候选的所述非标准词的词嵌入;S3:从所述字符序列中每个字符、潜在的所述中文词语和候选的所述非标准词的头和尾位置得到的相对位置编码,基于所述字符嵌入、所述词嵌入以及所述相对位置编码获取包括所述字符序列中的每个字符、每个潜在的所述中文词语和候选的所述非标准词所构成的序列的上下文特征表示;S4:基于所述上下文特征表示预测每一个候选的所述非标准词的类别。
优选地,得到候选的所述非标准词和潜在的所述中文词语包括:从前往后扫描所述中文句子的字符序列,在正则表达式集合中匹配到非标准词则返回其起止位置,在中文词典中匹配到一个中文词语也返回其起止位置;匹配时基于贪婪算法匹配出所有可能的潜在的所述中文词语和候选的所述非标准词,并返回其相应的起止位置。
优选地,使用基于注意力机制和全连接网络的词嵌入层获得所述中文句子的字符序列的字符嵌入;基于字符级的嵌入表示,采用一个池化层来获取每个潜在的所述中文词语和每个候选的所述非标准词的词嵌入。
优选地,采用Transformer模型编码器的单元作为神经网络结构获取包括所述字符序列中的每个字符、每个潜在的所述中文词语和候选的所述非标准词所构成的序列的上下文特征表示。
优选地,所述相对位置嵌入的计算为:每个输入的所述字符序列中每个字符、潜在的所述中文词语和候选的所述非标准词在句子的绝对位置由输入句子中的开始和结束位置表示,命名为头和尾;利用所有输入的头和尾来计算任意两个所述字符序列中每个字符、潜在的所述中文词语和候选的所述非标准词之间的四个相对距离。
优选地,通过解码层获取每个输入的所述上下文特征表示生成中文句子的字符序列对应的类别标签的序列;所述解码层包括一个线性层和一个条件随机场层。
优选地,条件随机场通过相邻的所述类别标签之间的关系得到一个最优的预测序列。
优选地,规则库正则表达式能匹配的整个非标准词的形态上的类别包括:日期、时间、分数、比率、标点、金钱、英文词、基数词、十进制小数、网址、电话号码、英文缩写。
优选地,得到所有可能的候选的所述非标准词时增加属性特征,所述属性特征是词性。
本发明还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如上任一所述方法的步骤。
本发明的有益效果为:提供一种非标准词类判别方法及计算机可读存储介质,通过将预定义规则上的专家知识整合到基于神经网络的模型中,规则库和词典可以根据需求随时进行更新,大大提高了模型的可扩展性;进一步地,将规则库的专家知识和神经网络结合,提高非标准词分类的效率和准确率。
附图说明
图1是本发明实施例中中文文本正则化的一般流程的示意图。
图2是本发明实施例中一种非标准词类判别方法的示意图。
图3是本发明实施例中一种端到端非标准词类别预测模型的示意图。
图4是本发明实施例中词典和规则匹配示意图。
图5是本发明实施例中预训练词嵌入模型的示意图。
图6是本发明实施例中字符、中文词语和非标准词嵌入的生成示意图。
图7是本发明实施例中上下文特征提取的示意图。
图8是本发明实施例中Transformer模型编码器单元的示意图。
图9是本发明实施例中相对位置嵌入的计算的示意图。
图10是本发明实施例中基于线性和条件随机场层的解码层的示意图。
图11是本发明实施例中非标准词类别判断方法的的流程示意图。
具体实施方式
为了使本发明实施例所要解决的技术问题、技术方案及有益效果更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
需要说明的是,当元件被称为“固定于”或“设置于”另一个元件,它可以直接在另一个元件上或者间接在该另一个元件上。当一个元件被称为是“连接于”另一个元件,它可以是直接连接到另一个元件或间接连接至该另一个元件上。另外,连接既可以是用于固定作用也可以是用于电路连通作用。
需要理解的是,术语“长度”、“宽度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明实施例和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多该特征。在本发明实施例的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
TTS:Text-to-speech,文语转换,又称语音合成。指将文字信息转换为标准流畅的读音。
NSW:Non standard word,非标准词,指包含非汉字字符(如数字、英文字符等)的词,如“6:15”。
FSW:Spoken-form words,标准词,指由非标准词转换的确定读音的汉字串,如“六点十五分”。
TN:Text Normalization,文本正则化,指将非标准词转化为汉字串以确定其读音的过程。
文语转换(TTS)技术已经广泛地应用到了语音助手、智能导航、电子书等产品中。对于中文的语音合成,首先需要对输出的中文文本进行前端处理,在一般情况下,输入的中文文本中会带有一些不确定读音的非汉字字符(称之为非标准词),在合成语音前将这些非汉字字符转换成确定读音的汉字字符(称之为标准词),即中文文本正则化,是必不可少的一个步骤。
如图1所示,是中文文本正则化的一般流程的示意图。输入文本正则化前的带非标准词(NSW)的中文句子,对句子进行分割,得到中文字符序列和非标准词子片段;使用非标准词类别预测模型得到各个非标准词子片段对应的类别;针对每个预测的类别由相应的转换函数得到非标准词的中文字符序列;最后,合并全部汉字序列得到文本正则化后的句子。
因此,在文本正则化任务中,非标准词的类别预测是最重要的一个步骤。目前的非标准词类别预测方法主要存在以下两个问题:(1)基于规则方法,使用关键词和正则表达式进行类别预测,关键词的选择和正则表达式规则的构建是耗时和耗力的,不具备可拓展性并且效果较差。(2)基于神经网络的方法,将序列到序列的模型直接应用于非标准词的类别预测中,由于模型或数据偏差会对预测结果产生不可解释的错误。
针对以上问题,本发明提出了一种结合词典、规则和神经网络的端到端的非标准词的类别判断方法。
如图2所示,本发明提供一种非标准词类判别方法,包括如下步骤:
S1:输入的包含非标准词的完整中文句子的字符序列并将所述中文句子与非标准词的匹配规则以及中文词典进行匹配得到所有可能的候选的非标准词和潜在的中文词语;
S2:将所述中文句子的字符序列、潜在的的所述中文词语以及所有可能的候选非标准词组织成一个序列,获取所述字符序列中每个字符的字符嵌入;获取每个潜在的所述中文词语和每个候选的所述非标准词的词嵌入;
S3:从所述字符序列中每个字符、潜在的所述中文词语和候选的所述非标准词的头和尾位置得到的相对位置编码,基于所述字符嵌入、所述词嵌入以及所述相对位置编码获取包括所述字符序列中的每个字符、每个潜在的所述中文词语和候选的所述非标准词所构成的序列的上下文特征表示;
S4:基于所述上下文特征表示预测每一个候选的所述非标准词的类别。
如图3所示,是本发明的一种端到端非标准词类别预测模型。
本发明以端到端的方法预测非标准词的类别,接受含有非标准词的字符序列作为输入,在预定义的中文词典和规则库中进行匹配,匹配出所有可能的中文词语和非标准词,不需要任何额外的预处理。
在本发明的一种实施例中,对得到所有可能的候选的非标准词时增加属性特征,属性特征可以是词性,比如名词、动词。具体地,方法是将词性的特征向量拼接到到每个输入的向量中。
本方法提出了一种规则库匹配的方法,将预定义规则上的专家知识整合到基于神经网络的模型中,规则库和词典可以根据需求随时进行更新,大大提高了模型的可扩展性;进一步地,将规则库的专家知识和神经网络结合,提高非标准词分类的效率和准确率。
本发明的方法对于人机交互行业有重要价值,可用于中文语音合成、语音交互、语音助手、新闻语音合成等多种应用场景中。与现有技术相比,可以准确得到原始文本中非标准词的类别用于文本正则化处理。
下面详细说明本发明的方法。
对于输入的中文字符序列,需要使用一个词典和规则库匹配潜在的中文词语和非标准词,规则库由是一个针对非标准词的类别匹配的正则表达式集合,词典是中文词语的一个集合。
如图4所示,输入中文字符序列,从前往后扫描句子,在正则表达式集合中匹配到非标准词则返回其起止位置,在中文词典中匹配到一个词语也返回其起止位置;匹配时将基于贪婪算法,匹配出所有可能的中文词语和非标准词,并返回其相应的起止位置。
规则库根据不同非标准词的不同形态,将非标准词分为日期、时间、分数、比率、标点、金钱、英文词、基数词、十进制小数、网址、电话号码、英文缩写的多个类别。对每个类别,设计好一条正则表达式来匹配句子中潜在的非标准词。
本发明的方法的最终判断的类别包括:
CARDINAL:基数词;DIGIT-数字;ENG LETTER:英文字母;HYPHEN IGNORE:短横-忽略;POINT:小数点;VERBATIM:逐个读;HYPHEN RANGE:短横-范围;MEASURE UNIT:计量单位;SLASH PER:斜线-每;HYPHEN RATIO:短横-比分;NUM TWO LIANG:两;COLON HOUR:冒号-小时;MINUTE CARDINAL:基数词-分钟;SLASH OR:斜杠-或;NUM ENG:数字转英文; SLASHFRACTION:斜杠-分数;ABBR:缩写;DAY CARDINAL:基数词- 日期;SLASH YEAR:斜杠-年;SLASH MONTH:斜杠-月;HYPHEN MINUS:短横-负号;HYPHEN SUBZERO:短横-零下;MONTHCARDINAL:基数词- 月;COLON MINUTE:冒号-分钟;SECOND CARDINAL:基数词-秒;HYPHENEXTENSION:短横-转接;POWER OPERATOR:次方符。
如图5所示,对于原始的输入序列,需要使用一个预训练好的词嵌入模型来获取输入序列的词嵌入表示,并把获得的词嵌入表示作为后续上下文特征提取的输入。
本发明实现了一个基于注意力机制和全连接网络的词嵌入层,在一种具体的实施例中是基于BERT的词嵌入层,用于获得输入序列的字符嵌入。BERT产生了字符级的嵌入表示,对于中文词语和非标准词,本发明采用一个池化层来获得最终的中文词语和非标准词的词嵌入。
如图6所示,是本发明的实施例中一种字符、中文词语和非标准词嵌入的生成的过程示意图。
如图7所示,是本发明的实施例中一种上下文特征提取的示意图。为了使用上下文信息来对非标准词进行类别消岐,需要模型拥有上下文建模的能力,得到句子级别的上下文特征表示,基于神经网络的上下文建模。
如图8所示,是本发明的实施例中一种Transformer模型编码器单元。本发明采用Transformer模型编码器的单元作为神经网络结构获取包括所述字符序列中的每个字符、每个潜在的所述中文词语和候选的所述非标准词所构成的序列的上下文特征表示。
本发明使用相对位置编码的Transformer编码器单元的神经网络,有效建模包含输入字符、词典、规则等各种上下文信息,可以消除歧义,提升非标准词类别判断的准确性。
Transformer编码器将输入序列的嵌入和相对位置嵌入作为其输入。输入序列的嵌入由之前提到的嵌入表示层提供,将字符、中文词语和非标准词的嵌入表示拼接后输入到神经网络中;而相对位置嵌入是通过计算相对位置编码的方法获得的。
如图9所示,所述相对位置嵌入的计算为:
每个输入的所述字符序列中每个字符、潜在的所述中文词语和候选的所述非标准词在句子的绝对位置由输入句子中的开始和结束位置表示,命名为头和尾;
利用所有输入的头和尾来计算任意两个所述字符序列中每个字符、潜在的所述中文词语和候选的所述非标准词之间的四个相对距离。
如图10所示,是本发明实施例中一种基于线性和条件随机场层作为解码层的示意图。使用上下文建模的方法,得到句子级别的特征表示,其中包含丰富的句子级别语义信息,但需要获得每个输入字符对应的类别,需要通过一个解码层来实现,解码层获取每个输入的上下文表示向量,生成输入序列对应的类别标签序列。本发明使用一个线性层和一个条件随机场层(CRF)作为解码层,通过解码层获取中文句子的字符序列对应的类别标签的序列以预测实体标签作为模型的最终输出。条件随机场可以通过相邻的所述类别标签之间的关系得到一个最优的预测序列,并有助于减少误差的发生。条件随机场算法中涉及到两种特征函数,一个是状态特征函数,计算状态分数,一个是转移特征函数,计算转移分数。前者只针对当前位置的字符可以被转换成哪些实体标注,后者关注的是当前位置和其相邻位置的字符可以有哪些实体标注的组合。条件随机场层还需要学习一个转移分数矩阵,该矩阵表示了所有标注状态之间的组合,表示了各个组合的可能性。这个矩阵一开始是随机初始化的,通过训练后慢慢会知道哪些组合更符合规则,哪些更不符合规则。从而得到最优的非标准词类别的预测序列。
本发明先使用一个规则库和词典匹配潜在的中文词语和非标准词;然后将字符序列输入到一个BERT嵌入层,得到相应的嵌入表示;对通过词典和规则库匹配到的字符串,再经过一个池化层,得到相应的中文词语和非标准词的嵌入表示;进而记录每个字符、中文词语和非标准词的头和尾的位置,得到序列中任意两个输入之间的相对位置编码;所有字符、中文词语和非标准词组成输入序列;最后将输入序列的嵌入表示向量和相对位置编码输入到一个Transformer的编码器的单元,再经过一个线性层和条件随机场层,得到非标准词对应的预测类别。
在本发明的一种实施例中,对于Transformer的编码器部分,在使用计算注意力公式的时候可以考虑不进行尺度化,目的是使点积结果的差距更大,以提高和非标准词相关的输入的注意力程度。
本发明接受包含非标准词的原始中文字符序列(即一个句子)作为输入,不需要任何额外的预处理工作,是一种端到端的方法。
本发明提出了一种词典和规则库匹配的方法,将预定义词典和规则库上的专家知识整合到基于神经网络的模型中,更好地融合了词典、规则和神经网络各自的优势,规则库和词典可以根据需求随时进行更新,大大提高了模型的可扩展性。
本发明使用相对位置编码的Transformer编码器单元的神经网络,有效建模包含输入字符、词典、规则等各种上下文信息,可以消除歧义,提升非标准词类别判断的准确性。
如图11所示,是本发明的一种非标准词类别判断方法的的流程示意图。用户只需提供一个中文句子作为输入,本发明的方法接受完整句子的字符序列作为输入,并预测出非标准词的类别。如,用户想要对“我在6:15学习。”中“6:15”的各个子片段的类别进行预测,直接输入原始字符序列(一句话)即可。本发明的方法可以直接根据输入的句子得到句子中非标准词的各个部分的类别。具体地,输入中文句子“我在6:15学习。”。经过第一步匹配得到非标准词“6:15”和词语“学习”,拼接在句子后面,作为新的输入序列。经过第二步得到输入字符的字符嵌入和非标准词“6:15”以及词语“学习”的词嵌入表示。经过第三步,计算输入的相对位置编码,使用Transformer计算输入字符的上下文特征表示。经过第四步,解码得到“6:15”的三个部分“6”、“:”、“15”分别属于“基数词”、“分割符-小时”、“基数词-分钟”的类别。
在数据集上进行各个方法的测试,如表1所示,本方法对非标准词的分类性能超过之前的简单规则和神经网络的方法:
表1方法结果对比
方法 | 精度 | F1值 |
传统规则方法 | 0.87 | 0.87 |
BERT+MLP方法 | 0.98 | 0.96 |
BERT+LSTM方法 | 0.98 | 0.96 |
本发明的方法 | 0.99 | 0.97 |
本申请实施例还提供一种控制装置,包括处理器和用于存储计算机程序的存储介质;其中,处理器用于执行所述计算机程序时至少执行如上所述的方法。
本申请实施例还提供一种存储介质,用于存储计算机程序,该计算机程序被执行时至少执行如上所述的方法。
本申请实施例还提供一种处理器,所述处理器执行计算机程序,至少执行如上所述的方法。
所述存储介质可以由任何类型的易失性或非易失性存储设备、或者它们的组合来实现。其中,非易失性存储器可以是只读存储器(ROM,Read Only Memory)、可编程只读存储器(PROM,Programmable Read-Only Memory)、可擦除可编程只读存储器(EPROM,ErasableProgrammable Read-Only Memory)、电可擦除可编程只读存储器(EEPROM,ElectricallyErasable Programmable Read-Only Memory)、磁性随机存取存储器(FRAM,FerromagneticRandomAccess Memory)、快闪存储器(Flash Memory)、磁表面存储器、光盘、或只读光盘(CD-ROM,Compact Disc Read-Only Memory);磁表面存储器可以是磁盘存储器或磁带存储器。易失性存储器可以是随机存取存储器(RAM,RandomAccess Memory),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(SRAM,Static RandomAccess Memory)、同步静态随机存取存储器(SSRAM, Synchronous StaticRandomAccess Memory)、动态随机存取存储器(DRAM, Dynamic RandomAccess Memory)、同步动态随机存取存储器(SDRAM, Synchronous Dynamic RandomAccess Memory)、双倍数据速率同步动态随机存取存储器(DDRSDRAM,Double Data Rate Synchronous DynamicRandomAccess Memory)、增强型同步动态随机存取存储器(ESDRAMEnhanced SynchronousDynamic RandomAccess Memory)、同步连接动态随机存取存储器(SLDRAM, Sync LinkDynamic RandomAccess Memory)、直接内存总线随机存取存储器 (DRRAM,Direct RambusRandomAccess Memory)。本发明实施例描述的存储介质旨在包括但不限于这些和任意其它适合类型的存储器。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元,即可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
另外,在本发明各实施例中的各功能单元可以全部集成在一个处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(ROM,Read-Only Memory)、随机存取存储器 (RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
或者,本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
本申请所提供的几个方法实施例中所揭露的方法,在不冲突的情况下可以任意组合,得到新的方法实施例。
本申请所提供的几个产品实施例中所揭露的特征,在不冲突的情况下可以任意组合,得到新的产品实施例。
本申请所提供的几个方法或设备实施例中所揭露的特征,在不冲突的情况下可以任意组合,得到新的方法实施例或设备实施例。
以上内容是结合具体的优选实施方式对本发明所做的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的技术人员来说,在不脱离本发明构思的前提下,还可以做出若干等同替代或明显变型,而且性能或用途相同,都应当视为属于本发明的保护范围。
Claims (10)
1.一种非标准词类判别方法,其特征在于,包括如下步骤:
S1:输入的包含非标准词的完整中文句子的字符序列并将所述中文句子与非标准词的匹配规则以及中文词典进行匹配得到所有可能的候选的非标准词和潜在的中文词语;
S2:将所述中文句子的字符序列、潜在的的所述中文词语以及所有可能的候选非标准词组织成一个序列,获取所述字符序列中每个字符的字符嵌入;获取每个潜在的所述中文词语和每个候选的所述非标准词的词嵌入;
S3:从所述字符序列中每个字符、潜在的所述中文词语和候选的所述非标准词的头和尾位置得到的相对位置编码,基于所述字符嵌入、所述词嵌入以及所述相对位置编码获取包括所述字符序列中的每个字符、每个潜在的所述中文词语和候选的所述非标准词所构成的序列的上下文特征表示;
S4:基于所述上下文特征表示预测每一个候选的所述非标准词的类别。
2.如权利要求1所述的非标准词类判别方法,其特征在于,得到候选的所述非标准词和潜在的所述中文词语包括:
从前往后扫描所述中文句子的字符序列,在正则表达式集合中匹配到非标准词则返回其起止位置,在中文词典中匹配到一个中文词语也返回其起止位置;
匹配时基于贪婪算法匹配出所有可能的潜在的所述中文词语和候选的所述非标准词,并返回其相应的起止位置。
3.如权利要求2所述的非标准词类判别方法,其特征在于,使用基于注意力机制和全连接网络的词嵌入层获得所述中文句子的字符序列的字符嵌入;
基于字符级的嵌入表示,采用一个池化层来获取每个潜在的所述中文词语和每个候选的所述非标准词的词嵌入。
4.如权利要求3所述的非标准词类判别方法,其特征在于,采用Transformer模型编码器的单元作为神经网络结构获取包括所述字符序列中的每个字符、每个潜在的所述中文词语和候选的所述非标准词所构成的序列的上下文特征表示。
5.如权利要求4所述的非标准词类判别方法,其特征在于,所述相对位置嵌入的计算为:
每个输入的所述字符序列中每个字符、潜在的所述中文词语和候选的所述非标准词在句子的绝对位置由输入句子中的开始和结束位置表示,命名为头和尾;
利用所有输入的头和尾来计算任意两个所述字符序列中每个字符、潜在的所述中文词语和候选的所述非标准词之间的四个相对距离。
6.如权利要求5所述的非标准词类判别方法,其特征在于,通过解码层获取每个输入的所述上下文特征表示生成中文句子的字符序列对应的类别标签的序列;所述解码层包括一个线性层和一个条件随机场层。
7.如权利要求6所述的非标准词类判别方法,其特征在于,条件随机场通过相邻的所述类别标签之间的关系得到一个最优的预测序列。
8.如权利要求1-7任一所述的非标准词类判别方法,其特征在于,规则库正则表达式能匹配的整个非标准词的形态上的类别包括:日期、时间、分数、比率、标点、金钱、英文词、基数词、十进制小数、网址、电话号码、英文缩写。
9.如权利要求1-7任一所述的非标准词类判别方法,其特征在于,得到所有可能的候选的所述非标准词时增加属性特征,所述属性特征是词性。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-9任一所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111567719.XA CN114444492A (zh) | 2021-12-21 | 2021-12-21 | 一种非标准词类判别方法及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111567719.XA CN114444492A (zh) | 2021-12-21 | 2021-12-21 | 一种非标准词类判别方法及计算机可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114444492A true CN114444492A (zh) | 2022-05-06 |
Family
ID=81363001
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111567719.XA Pending CN114444492A (zh) | 2021-12-21 | 2021-12-21 | 一种非标准词类判别方法及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114444492A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115758990A (zh) * | 2022-10-14 | 2023-03-07 | 美的集团(上海)有限公司 | 文本的规范化方法、装置、存储介质和电子设备 |
-
2021
- 2021-12-21 CN CN202111567719.XA patent/CN114444492A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115758990A (zh) * | 2022-10-14 | 2023-03-07 | 美的集团(上海)有限公司 | 文本的规范化方法、装置、存储介质和电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112712804B (zh) | 语音识别方法、系统、介质、计算机设备、终端及应用 | |
Abandah et al. | Automatic diacritization of Arabic text using recurrent neural networks | |
CN111611810B (zh) | 一种多音字读音消歧装置及方法 | |
CN111062217B (zh) | 语言信息的处理方法、装置、存储介质及电子设备 | |
Alkanhal et al. | Automatic stochastic arabic spelling correction with emphasis on space insertions and deletions | |
CN111145718A (zh) | 一种基于自注意力机制的中文普通话字音转换方法 | |
Hori et al. | Dialog state tracking with attention-based sequence-to-sequence learning | |
CN112489626B (zh) | 一种信息识别方法、装置及存储介质 | |
JP5524138B2 (ja) | 同義語辞書生成装置、その方法、及びプログラム | |
Sen et al. | Bangla natural language processing: A comprehensive analysis of classical, machine learning, and deep learning-based methods | |
CN114298035A (zh) | 一种文本识别脱敏方法及其系统 | |
CN113449514B (zh) | 一种适用于垂直领域的文本纠错方法及其纠错装置 | |
KR20230009564A (ko) | 앙상블 스코어를 이용한 학습 데이터 교정 방법 및 그 장치 | |
Rijhwani et al. | Lexically aware semi-supervised learning for OCR post-correction | |
Mai et al. | Pronounce differently, mean differently: a multi-tagging-scheme learning method for Chinese NER integrated with lexicon and phonetic features | |
CN114444492A (zh) | 一种非标准词类判别方法及计算机可读存储介质 | |
Göker et al. | Neural text normalization for turkish social media | |
Rajendran et al. | A robust syllable centric pronunciation model for Tamil text to speech synthesizer | |
Sen et al. | Bangla natural language processing: A comprehensive review of classical machine learning and deep learning based methods | |
CN115600597A (zh) | 基于注意力机制和词内语义融合的命名实体识别方法、装置、系统及存储介质 | |
CN113012685B (zh) | 音频识别方法、装置、电子设备及存储介质 | |
CN114242039A (zh) | 确定汉语文本合成语音时韵律结构的方法及计算机可读存储介质 | |
CN112464649A (zh) | 多音字的拼音转换方法、装置、计算机设备和存储介质 | |
Ma et al. | An enhanced method for dialect transcription via error‐correcting thesaurus | |
Cui et al. | Efficient Text Analysis with Pre-Trained Neural Network Models |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |