CN111967260A - 多音字处理方法及装置、模型训练方法及装置 - Google Patents
多音字处理方法及装置、模型训练方法及装置 Download PDFInfo
- Publication number
- CN111967260A CN111967260A CN202011121064.9A CN202011121064A CN111967260A CN 111967260 A CN111967260 A CN 111967260A CN 202011121064 A CN202011121064 A CN 202011121064A CN 111967260 A CN111967260 A CN 111967260A
- Authority
- CN
- China
- Prior art keywords
- polyphone
- word
- speech
- chinese sentence
- chinese
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Machine Translation (AREA)
Abstract
本申请提供了多音字处理方法及装置、模型训练方法及装置,其中,所述多音字处理方法包括接收包含多音字的中文语句,并确定所述多音字在所述中文语句中的第一位置特征;对所述中文语句进行分词,并基于分词获得的词语以及所述词语的词性确定所述多音字的词性特征;获取包含多音字的词语,并确定所述多音字在所述包含多音字的词语中的第二位置特征;将所述第一位置特征、所述词性特征以及所述第二位置特征输入多音字消歧模型中,获得所述多音字对应的读音。
Description
技术领域
本申请涉及计算机技术领域,特别涉及多音字处理方法及装置、模型训练方法及装置、计算设备和计算机可读存储介质。
背景技术
最早的中文多音字歧义消除系统是基于规则的,这些规则由语言学家总结得到并以电脑可理解的方式编码到电脑中;但是随着数据规模的增加,基于数据的统计模型逐渐成为中文多音字歧义消除任务的首选方案,即传统的机器学习模型(如决策树模型,最大熵模型)以及深度神经网络开始被应用在中文多音字歧义消除任务中。
但是基于规则的中文多音字歧义消除系统存在着一个多音字可能匹配到多条规则或者一条规则匹配到某一多音字的多个正确读音,从而发生规则冲突的问题,而统计模型的神经网络中文多音字歧义消除系统,在以神经网络作为特征提取模块的情况下,会存在特征形式复杂的问题,提取的特征维度过高,增加了训练及推理的成本,降低了预测效率,而以传统语义分析流程作为特征提取模块,会存在所需特征词表过大,编码不够准确的问题。
因此,急需提供一种不会发生规则冲突,并且可以减小特征词表规模,提高多音字的读音预测准确性的多音字处理方法。
发明内容
有鉴于此,本申请实施例提供了一种多音字处理方法及装置、模型训练方法及装置、计算设备和计算机可读存储介质,以解决现有技术中存在的技术缺陷。
根据本申请实施例的第一方面,提供了一种多音字处理方法,包括:
接收包含多音字的中文语句,并确定所述多音字在所述中文语句中的第一位置特征;
对所述中文语句进行分词,并基于分词获得的词语以及所述词语的词性确定所述多音字的词性特征;
获取包含多音字的词语,并确定所述多音字在所述包含多音字的词语中的第二位置特征;
将所述第一位置特征、所述词性特征以及所述第二位置特征输入多音字消歧模型中,获得所述多音字对应的读音。
可选的,所述确定所述多音字在所述中文语句中的第一位置特征,包括:
获取所述中文语句中的多音字,并确定所述多音字在所述中文语句中的位置索引值以及所述中文语句的文字总长度;
基于所述多音字在所述中文语句中的位置索引值以及所述中文语句的文字总长度,计算获得所述多音字在所述中文语句中的第一位置特征。
可选的,所述对所述中文语句进行分词之前,还包括:
过滤掉所述中文语句中包含的数字。
可选的,所述对所述中文语句进行分词,包括:
通过预设分词工具对过滤数字后的中文语句进行分词以及对分词后的词语进行词性标注。
可选的,所述基于分词获得的词语以及所述词语的词性确定所述多音字的词性特征,包括:
获取对所述中文语句分词后的词语,并确定每个词语的词性;
将包含多音字的词语以及所述包含多音字的词语的词性、所述包含多音字的词语相邻的前一个词语的词性、所述包含多音字的词语相邻的后一个词语的词性确定为所述多音字的词性特征。
可选的,所述确定所述多音字在所述包含多音字的词语中的第二位置特征,包括:
确定所述多音字在所述包含多音字的词语中的位置索引值以及所述包含多音字的词语的总长度;
基于所述多音字在所述包含多音字的词语中的位置索引值以及所述包含多音字的词语的总长度,计算获得所述多音字在所述包含多音字的词语中的第二位置特征。
可选的,所述多音字消歧模型包括词嵌入层、BLSTM层以及全连接层;
相应的,所述将所述第一位置特征、所述词性特征以及所述第二位置特征输入多音字消歧模型中,获得所述多音字对应的读音包括:
将所述第一位置特征、所述词性特征以及所述第二位置特征输入所述词嵌入层进行编码,获得第一向量;
将所述第一向量输入所述BLSTM层进行上下文信息获取,获得第二向量;
将所述第二向量输入所述全连接层获得所述多音字的候选读音以及每个候选读音的概率值;
将所述概率值最高的候选读音作为所述多音字对应的读音进行输出。
根据本申请实施例的第二方面,提供了一种模型训练方法,包括:
获取包含多音字的中文语句样本以及所述中文语句样本对应的标签;
确定所述多音字在所述中文语句样本中的第一位置特征;
对所述中文语句样本进行分词,并基于分词获得的词语以及所述词语的词性确定所述多音字的词性特征;
获取包含多音字的词语,并确定所述多音字在所述包含多音字的词语中的第二位置特征;
基于所述第一位置特征、所述词性特征、所述第二位置特征以及所述中文语句样本对应的标签对多音字消歧模型进行训练,获得所述多音字消歧模型。
可选的,所述确定所述多音字在所述中文语句样本中的第一位置特征,包括:
获取所述中文语句样本中的多音字,并确定所述多音字在所述中文语句样本中的位置索引值以及所述中文语句样本的总长度;
基于所述多音字在所述中文语句样本中的位置索引值以及所述中文语句样本的总长度,计算获得所述多音字在所述中文语句样本中的第一位置特征。
可选的,所述对所述中文语句样本进行分词之前,还包括:
过滤掉所述中文语句样本中包含的数字。
可选的,所述对所述中文语句样本进行分词,包括:
通过预设分词工具对过滤数字后的中文语句样本进行分词以及对分词后的词语进行词性标注。
可选的,所述基于分词获得的词语以及所述词语的词性确定所述多音字的词性特征,包括:
获取对所述中文语句样本分词后的词语,并确定每个词语的词性;
将包含多音字的词语以及所述包含多音字的词语的词性、所述包含多音字的词语相邻的前一个词语的词性、所述包含多音字的词语相邻的后一个词语的词性确定为所述多音字的词性特征。
可选的,所述确定所述多音字在所述包含多音字的词语中的第二位置特征,包括:
确定所述多音字在所述包含多音字的词语中的位置索引值以及所述包含多音字的词语的总长度;
基于所述多音字在所述包含多音字的词语中的位置索引值以及所述包含多音字的词语的总长度,计算获得所述多音字在所述包含多音字的词语中的第二位置特征。
可选的,所述多音字消歧模型包括词嵌入层、BLSTM层以及全连接层;以及所述中文语句样本对应的标签为所述中文语句样本中的多音字对应的读音。
根据本申请实施例的第三方面,提供了一种多音字处理装置,包括:
第一位置特征确定模块,被配置为接收包含多音字的中文语句,并确定所述多音字在所述中文语句中的第一位置特征;
词性特征确定模块,被配置为对所述中文语句进行分词,并基于分词获得的词语以及所述词语的词性确定所述多音字的词性特征;
第二位置特征确定模块,被配置为获取包含多音字的词语,并确定所述多音字在所述包含多音字的词语中的第二位置特征;
读音获得模块,被配置为将所述第一位置特征、所述词性特征以及所述第二位置特征输入多音字消歧模型中,获得所述多音字对应的读音。
可选的,所述第一位置特征确定模块,进一步被配置为:
获取所述中文语句中的多音字,并确定所述多音字在所述中文语句中的位置索引值以及所述中文语句的文字总长度;
基于所述多音字在所述中文语句中的位置索引值以及所述中文语句的文字总长度,计算获得所述多音字在所述中文语句中的第一位置特征。
可选的,所述装置,还包括:
第一数字过滤模块,被配置为过滤掉所述中文语句中包含的数字。
可选的,所述词性特征确定模块,进一步被配置为:
通过预设分词工具对过滤数字后的中文语句进行分词以及对分词后的词语进行词性标注。
可选的,所述词性特征确定模块,进一步被配置为:
获取对所述中文语句分词后的词语,并确定每个词语的词性;
将包含多音字的词语以及所述包含多音字的词语的词性、所述包含多音字的词语相邻的前一个词语的词性、所述包含多音字的词语相邻的后一个词语的词性确定为所述多音字的词性特征。
可选的,所述第二位置特征确定模块,进一步被配置为:
确定所述多音字在所述包含多音字的词语中的位置索引值以及所述包含多音字的词语的总长度;
基于所述多音字在所述包含多音字的词语中的位置索引值以及所述包含多音字的词语的总长度,计算获得所述多音字在所述包含多音字的词语中的第二位置特征。
可选的,所述多音字消歧模型包括词嵌入层、BLSTM层以及全连接层;
相应的,所述读音获得模块,进一步被配置为:
将所述第一位置特征、所述词性特征以及所述第二位置特征输入所述词嵌入层进行编码,获得第一向量;
将所述第一向量输入所述BLSTM层进行上下文信息获取,获得第二向量;
将所述第二向量输入所述全连接层获得所述多音字的候选读音以及每个候选读音的概率值;
将所述概率最高的候选读音作为所述多音字对应的读音进行输出。
根据本申请实施例的第四方面,提供了一种模型训练装置,包括:
样本获取模块,被配置为获取包含多音字的中文语句样本以及所述中文语句样本对应的标签;
样本第一位置特征确定模块,被配置为确定所述多音字在所述中文语句样本中的第一位置特征;
样本词性特征确定模块,被配置为对所述中文语句样本进行分词,并基于分词获得的词语以及所述词语的词性确定所述多音字的词性特征;
样本第二位置特征确定模块,被配置为获取包含多音字的词语,并确定所述多音字在所述包含多音字的词语中的第二位置特征;
模型训练模块,被配置为基于所述第一位置特征、所述词性特征、所述第二位置特征以及所述中文语句样本对应的标签对多音字消歧模型进行训练,获得所述多音字消歧模型。
可选的,所述样本第一位置特征确定模块,进一步被配置为:
获取所述中文语句样本中的多音字,并确定所述多音字在所述中文语句样本中的位置索引值以及所述中文语句样本的总长度;
基于所述多音字在所述中文语句样本中的位置索引值以及所述中文语句样本的总长度,计算获得所述多音字在所述中文语句样本中的第一位置特征。
可选的,所述装置,还包括:
第二过滤模块,被配置为过滤掉所述中文语句样本中包含的数字。
可选的,所述样本词性特征确定模块,进一步被配置为:
通过预设分词工具对过滤数字后的中文语句样本进行分词以及对分词后的词语进行词性标注。
可选的,所述样本词性特征确定模块,进一步被配置为:
获取对所述中文语句样本分词后的词语,并确定每个词语的词性;
将包含多音字的词语以及所述包含多音字的词语的词性、所述包含多音字的词语相邻的前一个词语的词性、所述包含多音字的词语相邻的后一个词语的词性确定为所述多音字的词性特征。
可选的,所述样本第二位置特征确定模块,进一步被配置为:
确定所述多音字在所述包含多音字的词语中的位置索引值以及所述包含多音字的词语的总长度;
基于所述多音字在所述包含多音字的词语中的位置索引值以及所述包含多音字的词语的总长度,计算获得所述多音字在所述包含多音字的词语中的第二位置特征。
可选的,所述多音字消歧模型包括词嵌入层、BLSTM层以及全连接层;以及所述中文语句样本对应的标签为所述中文语句样本中的多音字对应的读音。
根据本申请实施例的第五方面,提供了一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,所述处理器执行所述指令时实现所述多音字处理方法或者所述模型训练方法的步骤。
根据本申请实施例的第六方面,提供了一种计算机可读存储介质,其存储有计算机指令,该指令被处理器执行时实现所述多音字处理方法或者所述模型训练方法的步骤。
本申请实施例提供了多音字处理方法及装置、模型训练方法及装置,其中,所述多音字处理方法包括接收包含多音字的中文语句,并确定所述多音字在所述中文语句中的第一位置特征;对所述中文语句进行分词,并基于分词获得的词语以及所述词语的词性确定所述多音字的词性特征;获取包含多音字的词语,并确定所述多音字在所述包含多音字的词语中的第二位置特征;将所述第一位置特征、所述词性特征以及所述第二位置特征输入多音字消歧模型中,获得所述多音字对应的读音。
所述多音字处理方法通过将多音字在中文语句以及分词后的词语中的相对位置特征、以及多音字的词性特征形成新的词性信息特征,输入到多音字消歧模型对多音字的读音进行预测的方式,代替了基于规则进行多音字正确发音预测,很好的解决了现有技术中基于规则进行多音字正确发音预测时,发生规则冲突的问题;此外,所述多音字处理方法中通过将多音字的位置特征以及词性特征结合进行多音字读音预测的特征形式,可以极大的减小多音字消歧模型所需的词表规模,解决了神经网络模型所需词表过大的问题;并且通过多音字在中文语句以及分词后的词语中的相对位置特征编码成特征向量,丰富了多音字歧义消除任务中特征组合的多样性,使得多音字消歧模型对该中文语句中上下文信息的理解更加充分,有效减少了实际应用过程中编码信息缺失的问题,从而提高预测的多音字对应的读音的准确性。
附图说明
图1是本申请实施例提供的计算设备的结构框图;
图2是本申请实施例提供的一种模型训练方法的流程图;
图3是本申请实施例提供的一种多音字处理方法的流程图;
图4是本申请实施例提供的一种多音字处理方法中将“在古都西安”作为包含多音字的中文语句进行处理的流程图;
图5是本申请实施例提供的一种多音字处理装置的结构示意图;
图6是本申请实施例提供的一种模型训练装置的结构示意图。
具体实施方式
在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本申请内涵的情况下做类似推广,因此本申请不受下面公开的具体实施的限制。
在本申请一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请一个或多个实施例。在本申请一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本申请一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本申请一个或多个实施例中可能采用术语第一、第二等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本申请一个或多个实施例范围的情况下,第一也可以被称为第二,类似地,第二也可以被称为第一。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
首先,对本发明一个或多个实施例涉及的名词术语进行解释。
语音合成系统:将文本转换成对应发音的软件模型系统。
字音转换:将对应汉字转换为相对应读音的过程(例如“古都”经过字音转换,获得相对应读音“gu3 du1”)。
多音字歧义消除:在语音合成系统中,字音转换是必不可少的模块,而多音字歧义消除是字音转换模块的核心。汉语中有的字对应两个及两个以上发音,多音字歧义消除指的是如何通过中文的上下文信息使电脑中的模型准确辨析多音字的正确读音,从而使字音转换模块得到多音字的正确读音。
POS:英文全称,partofspeech,中文全称,词性标注。
Word embedding:词嵌入层,将输入字符序列转换成高维空间的向量形式。
BLSTM:双向LSTM层,神经网络的一种基本结构单元,旨在提取输入序列的上下文信息。
Full-connectlayer:全连接层,神经网络的一种基本结构单元。
LSTM:英文全称Long Short-Term Memory,中文全称,长短期记忆网络。
Jieba:一款中文分词工具,中文名称为结巴,例如有一句话“在古都西安”,基于该Jieba分析工具会将其分为“在/古都/西安”。
Hanlp:是由一系列模型预算法组成的工具包,结合深度神经网络的分布式自然语言处理,具有功能完善、性能高效、架构清晰、语料时新、可自定义等特点,提供词法分析、中文分词、句法分析、文本分析和情感分析等功能。
现有技术中,基于规则的多音字歧义消除系统,存在一个多音字可能匹配到多条规则,或者一条规则匹配到某一多音字的多个正确读音,从而发生规则冲突的问题。例如词语“朝阳”,定义的规则为“朝阳”作为形容词出现时,读音为“chao1yang2”,但是在语句1“朝阳的方向阳光很充足”中,形容词“朝阳”应读为“chao1yang2”;在语句2“计算机时朝阳产业”中同为形容词的“朝阳”应读为“zhao1yang2”;因此通过基于规则的多音字歧义消除系统,多音字在中文语句中的正确发音问题并没有得到很好的解决。
而基于统计模型的神经网络多音字歧义消除系统,根据特征提取形式的不同,主要分为两种:
第一种:以神经网络作为特征提取模块,但是通过此种特征提取模块会存在特征形式复杂的问题,提取的特征维度(即特征向量长度)通常为256或512,维度过高,极大的增加了模型训练及推理的成本,降低了预测效率;
第二种:以传统语义分析流程作为特征提取模块,但是通过此种特征提取模块会存在所需特征词表过大,编码不够准确的问题;且传统语义分析流程只考虑了文本上下文语义信息,特征组合单一,特征信息过少,极大的提高了多音字歧义消除任务的技术难度。
因此,为了解决上述技术问题,在本申请中,提供了一种多音字处理方法及装置、模型训练方法及装置、计算设备和计算机可读存储介质,在下面的实施例中逐一进行详细说明。
图1示出了根据本申请一实施例的计算设备100的结构框图。该计算设备100的部件包括但不限于存储器110和处理器120。处理器120与存储器110通过总线130相连接,数据库150用于保存数据。
计算设备100还包括接入设备140,接入设备140使得计算设备100能够经由一个或多个网络160通信。这些网络的示例包括公用交换电话网(PSTN)、局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。接入设备140可以包括有线或无线的任何类型的网络接口(例如,网络接口卡(NIC))中的一个或多个,诸如IEEE802.11无线局域网(WLAN)无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口,等等。
在本申请的一个实施例中,计算设备100的上述部件以及图1中未示出的其他部件也可以彼此相连接,例如通过总线。应当理解,图1所示的计算设备结构框图仅仅是出于示例的目的,而不是对本申请范围的限制。本领域技术人员可以根据需要,增添或替换其他部件。
计算设备100可以是任何类型的静止或移动计算设备,包括移动计算机或移动计算设备(例如,平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如,智能手机)、可佩戴的计算设备(例如,智能手表、智能眼镜等)或其他类型的移动设备,或者诸如台式计算机或PC的静止计算设备。计算设备100还可以是移动式或静止式的服务器。
其中,处理器120可以执行图2所示模型训练方法中的步骤。图2示出了根据本申请一实施例提供的一种模型训练方法的流程图,具体包括以下步骤。
步骤202:获取包含多音字的中文语句样本以及所述中文语句样本对应的标签。
其中,多音字为对应两个或两个以上发音的汉字,例如多音字“都”对应的发音包括:“du”、“dou”、多音字“单”对应的发音包括:“dan”、“chan”、“shan”等。
那么包含多音字的中文语句样本则可以理解为:包含至少一个多音字的中文语句样本;在该模型训练方法中,将该包含至少一个多音字的中文语句作为训练样本实现多音字消歧模型训练。
具体的,所述中文语句样本对应的标签为所述中文语句样本中的多音字对应的读音;以中文语句样本为“在古都西安”为例,该中文语句样本中的多音字为“都”,该中文语句样本对应的标签则为该多音字“都”对应的读音“du”。
具体实施时,在进行多音字消歧模型训练时,会获取多个包含多音字的中文语句样本以及每个中文语句样本对应的标签作为训练样本,实现多音字消歧模型训练;实际应用中,训练获得的多音字消歧模型应用于语音合成系统中,在语音合成系统实现字音转换时,对文本中的多音字进行歧义消除,以保证字音转换的准确性。
步骤204:确定所述多音字在所述中文语句样本中的第一位置特征。
为了便于理解,本说明书实施例以包含一个多音字的一个中文语句样本为例,对所述模型训练方法进行介绍,对于其他包含多音字的中文语句样本的具体处理方式可以参考该实施例即可。
具体的,所述确定所述多音字在所述中文语句样本中的第一位置特征,包括:
获取所述中文语句样本中的多音字,并确定所述多音字在所述中文语句样本中的位置索引值以及所述中文语句样本的总长度;
基于所述多音字在所述中文语句样本中的位置索引值以及所述中文语句样本的总长度,计算获得所述多音字在所述中文语句样本中的第一位置特征。
其中,第一位置特征表示多音字在中文语句样本中的相对位置特征,即句相对位置向量。
具体实施时,在获取了包含多音字的中文语句样本以及该中文语句样本对应的标签之后,首先获取该中文语句样本中的多音字,然后基于该多音字在该中文语句样本中的位置索引值以及该中文语句样本的总长度,计算获得该多音字在该中文语句样本中的第一位置特征。
仍以包含多音字的中文语句样本为“在古都西安”为例,首先获取该中文语句样本中的多音字“都”,然后确定该多音字“都”在“在古都西安”中的位置索引值以及“在古都西安”的语句总长度,具体参见表1。
表1
多音字的中文语句样本 | 在 | 古 | 都 | 西 | 安 |
索引值(i) | 0 | 1 | 2 | 3 | 4 |
中文语句中的第一个字的索引值下标是从0开始的,因此,参见表1“在古都西安”中的多音字“都”在“在古都西安”中的位置索引值为2,而“在古都西安”的语句总长度为5。
假设多音字“都”在“在古都西安”语句中的位置索引值用i表示,“在古都西安”的语句总长度用a表示,第一位置特征用f表示,那么多音字“都”在“在古都西安”的第一位置特征则可以由公式1计算获得:
f= i/(a-1) 公式1
通过公式1可知,第一位置特征 f=2/(5-1)=0.5,其中,第一位置特征数值的取值区间为[0,1],数值越靠近0,表示多音字的位置越靠近句首,反之,数值越靠近1,多音字的位置越靠近句尾。
本说明书实施例中,通过多音字在中文语句样本中的位置索引值以及中文语句样本的总长度,计算获得该多音字在中文语句样本中的第一位置特征,后续对多音字消歧模型训练时,可以引入该第一位置特征丰富消除歧义任务中特征组合的多样性,使得多音字消歧模型对中文语句样本中上下文信息的理解更加充分,从而提高多音字消歧模型的预测准确性。
步骤206:对所述中文语句样本进行分词,并基于分词获得的词语以及所述词语的词性确定所述多音字的词性特征。
实际应用中,多音字的词性特征表示多音字的词性向量。
具体实施时,所述对所述中文语句样本进行分词之前,还包括:
过滤掉所述中文语句样本中包含的数字。
以中文语句样本为“我花8万块钱买了辆车,“1994年,我花2万元买车”过滤后为“年,我花万元买车,“1994年,我花2万元买车”过滤后为“年,我花万元买车”为例,过滤掉该中文语句样本中包含的数字后,获得的中文语句样本为“我花万块钱买了辆车”。
实际应用中,数字不存在多音的情况,因此为了减少中文语句样本中的不必要特征,以提高多音字消歧模型的训练效率,在对中文语句样本进行分词之前,会对该中文语句样本进行遍历,过滤掉该中文语句样本中包含的数字,以提高对中文语句样本的分词效率以及后续对多音字消歧模型的训练效率。
而在对中文语句样本中的数字进行过滤后,则可以对过滤后的中文语句样本进行分词,具体实现方式如下所述:
所述对所述中文语句样本进行分词,包括:
通过预设分词工具对过滤数字后的中文语句样本进行分词以及对分词后的词语进行词性标注。
其中,所述预设分词工具包括但不限于Jieba或 Hanlp等分词工具,可以实现对中文语句进行分词和词性标注的其他分词工具均可,本说明书对此不做任何限定。
仍以中文语句样本为“在古都西安”为例,基于Jieba或Hanlp等分词工具对该中文语句样本分词后的结果参见表2。
表2
参见表2,中文语句样本“在古都西安”分词后为“在/古都/西安”三个词语,其中,每个词语均对应一个词性以及一个索引值j。
本说明书实施例中,可以基于Jieba或Hanlp等分词工具对数字过滤后的中文语句样本进行分词以及对分词后的该中文语句形成的词语进行词性标注,后续可以基于该中文语句样本分词后的词语以及每个词语的词性,确定该中文语句样本中多音字的词性特征,以丰富训练多音字消歧模型的特征的多样性。
那么基于中文语句样本分词后的词语以及每个词语的词性,确定该中文语句样本中的多音字的词性特征的具体实现方式如下所述:
所述基于分词获得的词语以及所述词语的词性确定所述多音字的词性特征,包括:
获取对所述中文语句样本分词后的词语,并确定每个词语的词性;
将包含多音字的词语以及所述包含多音字的词语的词性、所述包含多音字的词语相邻的前一个词语的词性、所述包含多音字的词语相邻的后一个词语的词性确定为所述多音字的词性特征。
仍以上述为例,参见表2,获取对“在古都西安”的中文语句样本分词后的词语为:“在”、“古都”、“西安”,确定每个词语的词性为:词语“在”的词性为p、词语“古都”的词性为n、词语“西安”的词性为ns;
然后将包含多音字的词语“古都”以及“古都”的词性、词语“古都”相邻的前一个词语“在”的词性p、词语“古都”相邻的后一个词语“西安”的词性ns作为多音字“都”的词性特征,即该多音字“都”的词性特征为:p 古都_n ns。
本说明书实施例中,基于该中文语句样本分词后的词语以及每个词语的词性,确定该中文语句样本中多音字的词性特征,通过该词性特征将多音字的上下文信息引入到多音字消歧模型的训练中,极大的提高后续多音字消歧模型的预测准确性。
步骤208:获取包含多音字的词语,并确定所述多音字在所述包含多音字的词语中的第二位置特征。
其中,第二位置特征表示多音字在分词后的中文语句样本的词语中的相对位置特征,即词相对位置向量。
具体的,在对中文语句样本进行分词,基于分词获得的词语以及词语的词性确定多音字的词性特征的同时,也会对多音字在词语中的第二位置特征进行获取,具体实现方式如下所述:
所述确定所述多音字在所述包含多音字的词语中的第二位置特征,包括:
确定所述多音字在所述包含多音字的词语中的位置索引值以及所述包含多音字的词语的总长度;
基于所述多音字在所述包含多音字的词语中的位置索引值以及所述包含多音字的词语的总长度,计算获得所述多音字在所述包含多音字的词语中的第二位置特征。
沿用上例,通过表2可以看出,多音字“都”在包含多音字的词语“古都”中的位置索引为1,包含多音字“都”的词语“古都”的总长度为2。
假设多音字“都”在词语“古都”中的位置索引值用j表示,“古都”的词语的总长度用b表示,第二位置特征用g表示,那么多音字“都”在“古都”的第二位置特征则可以由公式2计算获得:
g= j/(b-1) 公式2
通过公式2可知,第二位置特征g=1/(2-1)=1,其中,第二位置特征数值的取值区间也为[0,1],数值越靠近0,表示多音字的位置越靠近词语的首部,反之,数值越靠近1,多音字的位置越靠近词语的尾部。
本说明书实施例中,通过多音字在中文语句样本分词后的词语中的位置索引值以及词语的总长度,计算获得该多音字在中文语句样本分词后的词语中的第二位置特征,后续对多音字消歧模型训练时,可以引入该第二位置特征丰富消除歧义任务中特征组合的多样性,使得多音字消歧模型对中文语句样本中上下文信息的理解更加充分,从而提高多音字消歧模型的预测准确性。
步骤210:基于所述第一位置特征、所述词性特征、所述第二位置特征以及所述中文语句样本对应的标签对多音字消歧模型进行训练,获得所述多音字消歧模型。
具体实施时,在获取中文语句样本中多音字的第一位置特征、词性特征以及第二位置特征后,将这些特征与该中文语句样本对应标签组成训练样本,对多音字消歧模型进行训练,获得该多音词消歧模型。
其中,所述多音字消歧模型包括词嵌入层、BLSTM层以及全连接层。
在具体训练时,将训练样本输入到多音字消歧模型中,通过每一层的训练以及损失函数的调整可以获得最终的多音字消歧模型,而实际应用中,为了使得多音字消歧模型的预测效果达到更好,会设置两层或两层以上的BLSTM层,以提升多音字消歧模型的预测准确性。
本说明书实施例中,所述模型训练方法通过采用多音字的词相对位置特征、句相对位置特征以及词性等组成新的词性信息特征,解决了神经网络模型所需词表过大的问题,极大的提高了多音字消歧模型的训练效率,并且采用多音字的词相对位置特征、句相对位置特征的引入,丰富了消除歧义任务中特征组合的多样性,使得神经网络模型对中文语句中上下文信息的理解更加充分,从而提高了多音字消歧模型的预测准确度。
参见图3,图3示出了本申请一实施例提供的一种多音字处理方法的流程图,具体包括以下步骤。
步骤302:接收包含多音字的中文语句,并确定所述多音字在所述中文语句中的第一位置特征。
其中,多音字为对应两个或两个以上发音的汉字,例如多音字“都”对应的发音包括:“du”、“dou”、多音字“单”对应的发音包括:“dan”、“chan”、“shan”等。
那么包含多音字的中文语句则可以理解为:包含至少一个多音字的中文语句;实际应用中,该包含多音字的中文语句的结构与模型训练方法中的包含多音字的中文语句样本相同,均为包含了一个或多个多音字的中文语句。
具体的,所述确定所述多音字在所述中文语句中的第一位置特征,包括:
获取所述中文语句中的多音字,并确定所述多音字在所述中文语句中的位置索引值以及所述中文语句的文字总长度;
基于所述多音字在所述中文语句中的位置索引值以及所述中文语句的文字总长度,计算获得所述多音字在所述中文语句中的第一位置特征。
步骤304:对所述中文语句进行分词,并基于分词获得的词语以及所述词语的词性确定所述多音字的词性特征。
本说明书另一实施例中,所述对所述中文语句进行分词之前,还包括:
过滤掉所述中文语句中包含的数字。
本说明书另一实施例中,所述对所述中文语句进行分词,包括:
通过预设分词工具对过滤数字后的中文语句进行分词以及对分词后的词语进行词性标注。
本说明书另一实施例中,所述基于分词获得的词语以及所述词语的词性确定所述多音字的词性特征,包括:
获取对所述中文语句分词后的词语,并确定每个词语的词性;
将包含多音字的词语以及所述包含多音字的词语的词性、所述包含多音字的词语相邻的前一个词语的词性、所述包含多音字的词语相邻的后一个词语的词性确定为所述多音字的词性特征。
步骤306:获取包含多音字的词语,并确定所述多音字在所述包含多音字的词语中的第二位置特征。
本说明书另一实施例中,所述确定所述多音字在所述包含多音字的词语中的第二位置特征,包括:
确定所述多音字在所述包含多音字的词语中的位置索引值以及所述包含多音字的词语的总长度;
基于所述多音字在所述包含多音字的词语中的位置索引值以及所述包含多音字的词语的总长度,计算获得所述多音字在所述包含多音字的词语中的第二位置特征。
具体实施时,本说明书实施例的多音字处理方法中,对多音字在中文语句中的第一位置特征的计算、在包含多音字的词语中的第二位置特征的计算、对中文语句中数字的过滤、对中文语句的分词以及词性标注等实现细节,均可参见上述模型训练方法实施例中对中文语句样本以及对中文语句样本的多音字的具体处理过程,在此不再赘述。
步骤308:将所述第一位置特征、所述词性特征以及所述第二位置特征输入多音字消歧模型中,获得所述多音字对应的读音。
其中,该多音字消歧模型即为上述模型训练方法中训练获得的多音字消歧模型,具体的模型训练细节可参见上述模型训练方法的实施例。
具体的,所述多音字消歧模型包括词嵌入层、BLSTM层以及全连接层;
相应的,所述将所述第一位置特征、所述词性特征以及所述第二位置特征输入多音字消歧模型中,获得所述多音字对应的读音包括:
将所述第一位置特征、所述词性特征以及所述第二位置特征输入所述词嵌入层进行编码,获得第一向量;
将所述第一向量输入所述BLSTM层进行上下文信息获取,获得第二向量;
将所述第二向量输入所述全连接层获得所述多音字的候选读音以及每个候选读音的概率值;
将所述概率值最高的候选读音作为所述多音字对应的读音进行输出。
具体的,在获得多音字的第一位置特征、词性特征以及第二位置特征之后,将上述内容全部输入训练好的多音字消歧模型中,首先在多音字消歧模型的词嵌入层进行编码,编码为第一向量;然后将该第一向量经过BLSTM层获取上下文信息,获得第二向量;再将第二向量经过全连接层获得该多音字的所有潜在读音选项的概率分布,通过该概率分布中展示多音字对应的所有潜在读音以及每个潜在读音的概率值;最后选取概率分布中概率值最高的读音作为多音字消歧模型的输出,即获得该多音字对应的读音。
本说明书实施例中,所述多音字处理方法通过将多音字在中文语句以及分词后的词语中的相对位置特征、以及多音字的词性特征形成新的词性信息特征,输入到多音字消歧模型对多音字的读音进行预测的方式,代替了基于规则进行多音字正确发音预测,很好的解决了现有技术中基于规则进行多音字正确发音预测时,发生规则冲突的问题。
此外,所述多音字处理方法中通过将多音字的位置特征以及词性特征结合进行多音字读音预测的特征形式,可以极大的减小多音字消歧模型所需的词表规模,解决了神经网络模型所需词表过大的问题;并且通过多音字在中文语句以及分词后的词语中的相对位置特征编码成特征向量,丰富了多音字歧义消除任务中特征组合的多样性,使得多音字消歧模型对该中文语句中上下文信息的理解更加充分,有效减少了实际应用过程中编码信息缺失的问题,从而提高预测的多音字对应的读音的准确性。
参见图4,图4示出了本申请一实施例提供的一种多音字处理方法中将“在古都西安”作为包含多音字的中文语句进行处理的流程图,具体包括以下步骤。
步骤402:接收“在古都西安”的中文语句。
具体实施时,将“在古都西安”作为多音字消歧模型的输入,基于该多音字消歧模型实现多音字“都”的对应读音的输出。
步骤404:计算句相对位置特征。
实际应用中,在输入多音字消歧模型之前,会对“在古都西安”进行位置特征以及词性特征的提取,将提取出的特征作为多音字消歧模型的输入。
具体的,从表1可以看出,多音字“都”在“在古都西安”的中文语句中的位置索引值为2,该中文语句的总长度为5,那么基于上述计算方式可以获得该多音字“都”的句相对位置特征值为0.5。
步骤406:过滤语句中的数字。
具体的,对输入的中文语句进行遍历,过滤掉中文语句中的数字,以提高后续的处理速率。
步骤408:语句分词及词性标注。
具体的,通过分词工具将“在古都西安”中文语句分词为一个个词语,并且对每个分词后形成的词语进行词性标注,例如将“在古都西安”进行语句分词以及词性标注后,可以获得“在p/古都n/西安ns”。
步骤410:提取分词后包含多音字的词语以及该词语的词性、该词语的前一个词语以及后一个词语的词性,形成词性特征。
具体的,提取分词后包含多音字的词语“古都”,以及“古都”的词性n,再提取“古都”的前一个词语“在”的词性p,后一个词语“西安”的词性ns,将“p 古都_n ns”形成多音字“都”的词性特征。
步骤412:计算词相对位置特征。
具体的,从表2可以看出,多音字“都”在分词后的词语“古都”中的位置索引值为1,该词语的总长度为2,那么基于上述计算方式可以获得该多音字“都”的词相对位置特征值为1。
其中,步骤404与步骤406之间的执行顺序,以及步骤410以及步骤412之间的执行顺序,没有必然的前后关系,根据实际应用执行即可,本说明书对此不做任何限定。
步骤414:将句相对位置特征、词性特征以及词相对位置特征形成多音字消歧模型的最终输入。
具体的,将“p 古都_n ns 1 0.5”输入多音字消歧模型。
步骤416:将“p 古都_n ns 1 0.5”输入多音字消歧模型进行预测。
具体的,将特征[p 古都_n ns 1 0.5]通过词表编码为对应数字索引值向量,例如[0,1,2,3,4,5],然后经过词嵌入层(Word embedding)编码为词向量A,词向量A经过两层双向LSTM层(BLSTM)获取上下文信息,获得向量B,向量B经过一个全连接层(Full-connectlayer)得到多音字“都”潜在读音选项的概率分布,然后选取概率分布中概率值最高的结果作为多音字消歧模型的输出,即获得多音字“都”对应的读音。
步骤418:获得多音字消歧模型输出的多音字“都”对应的读音“du1”。
本说明书实施例中,所述多音字处理方法通过将多音字“都”的句相对位置特征、词相对位置特征以及词性特征作为多音字消歧模型的输入,输入到多音字消歧模型对多音字“都”的读音,通过上述特征解决了神经网络模型所需词表多大的问题;并且通过多音字的句相对位置特征以及词相对位置特征,丰富了多音字歧义消除任务中特征组合的多样性,使得多音字消歧模型对该中文语句中上下文信息的理解更加充分,从而提高预测的多音字对应的读音的准确性。
仍以包含多音字的中文语句为“在古都西安”为例,对采用本说明书实施例提供的所述模型训练方法以及所述文本处理方法的特征形式,进行模型训练或者对多音字进行处理时,可以有效减小词表规模进行说明。
首先,对词表进行解释,词表中记载的是字符本身与数字之间的对应关系,由于神经网络模型无法处理汉字,通常做法是将汉字编码为数字,再对汉字编码后的数字进行处理,实现对包含多音字的中文语句的处理。
参见表2,所述模型训练方法以及所述文本处理方法中提取的特征形式均为[p 古都_n ns 1 0.5],特征维度(即元素个数)为6;其中,“p 古都_n ns”为多音字“都”的词性向量,即词性特征;“1”为多音字“都”的词相对位置特征,即第二位置特征;“0.5”为多音字“都”的句相对位置特征,即第一位置特征;而“p 古都_n ns”中的p为多音字“都”所在的词语“古都”相邻的前一个词语“在”的词性、“古都”为多音字“都”所在的词语“古都”、“n”为多音字“都”所在的词语“古都”的词性、“ns”为多音字“都”所在的词语“古都”相邻的后一个词语“西安”的词性。
那么对应输入语句“在古都西安”的词表可以表示为{“p”:0,“古”:1,“都_n”:2,“ns”:3,“1”:4,“0.5”:5},该词表包含6个元素,因此词表的大小为6;实际应用中,输入语句“在古都西安”的词表编码可以根据实际应用进行确定,本说明书对此不做任何限定。
在具体基于多音字消歧模型对“在古都西安”中的多音字“都”进行读音预测时,则是将特征[p 古都_n ns 1 0.5]通过如上定义的词表编码为[0,1,2,3,4,5]的向量,将该向量输入多音字消歧模型进行Wordembedding以及后续预测处理。
词表的意义是为了使每一个输入语句都可以编码成对应的数字向量方便使用,所以词表需要覆盖到输入语句(也即输入特征)的每一种情况,因此也需要足够大,以下对词表理论上的大小进行了详细论述。
仍以中文语句“在古都西安”为例,通过上述方式确定的特征形式[p 古都_n ns 10.5]主要包括三部分内容:
“p、n、ns”为词性信息,中文词性信息大概为40种,因此词表需要对这40种符号进行编码;
“古”为中文常见字,中文常见字大概为1万个,因此词表需要对1万个汉字进行编码;
“1、0.5”为位置编码数值,只会有[0,0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8,0.9,1]这11种情况。
因此影响词表大小的关键因素在于多音字与词性结合的特殊字符上,即“都_n”。
接下来,以一种经典特征形式词表大小与本说明书实施例的特征形式词表大小进行比较:
输入:在古都西安
一种经典特征形式:[p/古_n/都_n/ns]
本说明书实施例的特征形式:[p/古/都_n/ ns /1 0.5]
那么,一种经典特征形式词表大小:
词性信息:40个;
多音字及词性组合信息:常用多音字约1000个,词性信息40,1000*40=40000;
常见汉字及词性组合信息:常用汉字(不包含多音字)约10000个,词性信息40个,10000*40=400000;
该经典特征形式词表大小为:40+40000+400000,约为44万。
本说明书实施例的特征形式词表大小:
词性信息:40个;
多音字及词性组合信息:常用多音字约1000个,词性信息40,1000*40=40000;
常见汉字:常见汉字(不包含多音字)10000个;
位置编码数值:只会有[0,0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8,0.9,1]这11种情况;
本说明书实施例的特征形式词表大小为:40+40000+10000+11,约为5万。
由此可知,本说明书实施例提出的特征形式相比较经典特征形式,可以将词表规模从44万减小到5万,在多音字歧义消除流程需要词表来对中文进行编码和解码的过程中,通过词表规则的减小可以使得词表内容的检索速度大大提高,从而在实际应用中提高系统运行速度,提升对多音字的预测效率;并且词表的构建通常由训练数据来归纳统计,减小词表的另一个好处就是降低了训练数据的使用量以及人为构建词表的成本,提高多音字消歧模型的训练速度,同时保证了中文编码解码的准确率。
与上述方法实施例相对应,本申请还提供了多音字处理装置实施例,图5示出了本申请一个实施例提供的一种多音字处理装置的结构示意图。如图5所示,该装置包括:
第一位置特征确定模块502,被配置为接收包含多音字的中文语句,并确定所述多音字在所述中文语句中的第一位置特征;
词性特征确定模块504,被配置为对所述中文语句进行分词,并基于分词获得的词语以及所述词语的词性确定所述多音字的词性特征;
第二位置特征确定模块506,被配置为获取包含多音字的词语,并确定所述多音字在所述包含多音字的词语中的第二位置特征;
读音获得模块508,被配置为将所述第一位置特征、所述词性特征以及所述第二位置特征输入多音字消歧模型中,获得所述多音字对应的读音。
可选的,所述第一位置特征确定模块502,进一步被配置为:
获取所述中文语句中的多音字,并确定所述多音字在所述中文语句中的位置索引值以及所述中文语句的文字总长度;
基于所述多音字在所述中文语句中的位置索引值以及所述中文语句的文字总长度,计算获得所述多音字在所述中文语句中的第一位置特征。
可选的,所述装置,还包括:
第一数字过滤模块,被配置为过滤掉所述中文语句中包含的数字。
可选的,所述词性特征确定模块,进一步被配置为:
通过预设分词工具对过滤数字后的中文语句进行分词以及对分词后的词语进行词性标注。
可选的,所述词性特征确定模块504,进一步被配置为:
获取对所述中文语句分词后的词语,并确定每个词语的词性;
将包含多音字的词语以及所述包含多音字的词语的词性、所述包含多音字的词语相邻的前一个词语的词性、所述包含多音字的词语相邻的后一个词语的词性确定为所述多音字的词性特征。
可选的,所述第二位置特征确定模块506,进一步被配置为:
确定所述多音字在所述包含多音字的词语中的位置索引值以及所述包含多音字的词语的总长度;
基于所述多音字在所述包含多音字的词语中的位置索引值以及所述包含多音字的词语的总长度,计算获得所述多音字在所述包含多音字的词语中的第二位置特征。
可选的,所述多音字消歧模型包括词嵌入层、BLSTM层以及全连接层;
相应的,所述读音获得模块508,进一步被配置为:
将所述第一位置特征、所述词性特征以及所述第二位置特征输入所述词嵌入层进行编码,获得第一向量;
将所述第一向量输入所述BLSTM层进行上下文信息获取,获得第二向量;
将所述第二向量输入所述全连接层获得所述多音字的候选读音以及每个候选读音的概率值;
将所述概率值最高的候选读音作为所述多音字对应的读音进行输出。
本说明书实施例中,所述多音字处理装置通过将多音字在中文语句以及分词后的词语中的相对位置特征、以及多音字的词性特征形成新的词性信息特征,输入到多音字消歧模型对多音字的读音进行预测的方式,代替了基于规则进行多音字正确发音预测,很好的解决了现有技术中基于规则进行多音字正确发音预测时,发生规则冲突的问题;此外,所述多音字处理方法中通过将多音字的位置特征以及词性特征结合进行多音字读音预测的特征形式,可以极大的减小多音字消歧模型所需的词表规模,解决了神经网络模型所需词表过大的问题;并且通过多音字在中文语句以及分词后的词语中的相对位置特征编码成特征向量,丰富了多音字歧义消除任务中特征组合的多样性,使得多音字消歧模型对该中文语句中上下文信息的理解更加充分,有效减少了实际应用过程中编码信息缺失的问题,从而提高预测的多音字对应的读音的准确性。
与上述方法实施例相对应,本申请还提供了模型训练装置实施例,图6示出了本申请一个实施例提供的一种模型训练装置的结构示意图。如图6所示,该装置包括:
样本获取模块602,被配置为获取包含多音字的中文语句样本以及所述中文语句样本对应的标签;
样本第一位置特征确定模块604,被配置为确定所述多音字在所述中文语句样本中的第一位置特征;
样本词性特征确定模块606,被配置为对所述中文语句样本进行分词,并基于分词获得的词语以及所述词语的词性确定所述多音字的词性特征;
样本第二位置特征确定模块608,被配置为获取包含多音字的词语,并确定所述多音字在所述包含多音字的词语中的第二位置特征;
模型训练模块610,被配置为基于所述第一位置特征、所述词性特征、所述第二位置特征以及所述中文语句样本对应的标签对多音字消歧模型进行训练,获得所述多音字消歧模型。
可选的,所述样本第一位置特征确定模块604,进一步被配置为:
获取所述中文语句样本中的多音字,并确定所述多音字在所述中文语句样本中的位置索引值以及所述中文语句样本的总长度;
基于所述多音字在所述中文语句样本中的位置索引值以及所述中文语句样本的总长度,计算获得所述多音字在所述中文语句样本中的第一位置特征。
可选的,所述装置,还包括:
第二过滤模块,被配置为过滤掉所述中文语句样本中包含的数字。
可选的,所述样本词性特征确定模块,进一步被配置为:
通过预设分词工具对过滤数字后的中文语句样本进行分词以及对分词后的词语进行词性标注。
可选的,所述样本词性特征确定模块606,进一步被配置为:
获取对所述中文语句样本分词后的词语,并确定每个词语的词性;
将包含多音字的词语以及所述包含多音字的词语的词性、所述包含多音字的词语相邻的前一个词语的词性、所述包含多音字的词语相邻的后一个词语的词性确定为所述多音字的词性特征。
可选的,所述样本第二位置特征确定模块608,进一步被配置为:
确定所述多音字在所述包含多音字的词语中的位置索引值以及所述包含多音字的词语的总长度;
基于所述多音字在所述包含多音字的词语中的位置索引值以及所述包含多音字的词语的总长度,计算获得所述多音字在所述包含多音字的词语中的第二位置特征。
可选的,所述多音字消歧模型包括词嵌入层、BLSTM层以及全连接层;以及所述中文语句样本对应的标签为所述中文语句样本中的多音字对应的读音。
本说明书实施例中,所述模型训练装置通过采用多音字的词相对位置特征、句相对位置特征以及词性等组成新的词性信息特征,解决了神经网络模型所需词表过大的问题,极大的提高了多音字消歧模型的训练效率,并且采用多音字的词相对位置特征、句相对位置特征的引入,丰富了消除歧义任务中特征组合的多样性,使得神经网络模型对中文语句中上下文信息的理解更加充分,从而提高了多音字消歧模型的预测准确度。
本申请一实施例中还提供一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,所述处理器执行所述指令时实现所述多音字处理方法或者所述模型训练方法的步骤。
上述为本实施例的一种计算设备的示意性方案。需要说明的是,该计算设备的技术方案与上述的多音字处理方法或者模型训练方法的技术方案属于同一构思,计算设备的技术方案未详细描述的细节内容,均可以参见上述多音字处理方法或者模型训练方法的技术方案的描述。
本申请一实施例还提供一种计算机可读存储介质,其存储有计算机指令,该指令被处理器执行时实现如前所述多音字处理方法或者所述模型训练方法的步骤。
上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是,该存储介质的技术方案与上述的多音字处理方法或者模型训练方法的技术方案属于同一构思,存储介质的技术方案未详细描述的细节内容,均可以参见上述多音字处理方法或者模型训练方法的技术方案的描述。
上述对本申请特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
所述计算机指令包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本申请所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。
以上公开的本申请优选实施例只是用于帮助阐述本申请。可选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本申请的内容,可作很多的修改和变化。本申请选取并具体描述这些实施例,是为了更好地解释本申请的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本申请。本申请仅受权利要求书及其全部范围和等效物的限制。
Claims (18)
1.一种多音字处理方法,其特征在于,包括:
接收包含多音字的中文语句,并确定所述多音字在所述中文语句中的第一位置特征;
对所述中文语句进行分词,并基于分词获得的词语以及所述词语的词性确定所述多音字的词性特征;
获取包含多音字的词语,并确定所述多音字在所述包含多音字的词语中的第二位置特征;
将所述第一位置特征、所述词性特征以及所述第二位置特征输入多音字消歧模型中,获得所述多音字对应的读音。
2.根据权利要求1所述的多音字处理方法,其特征在于,所述确定所述多音字在所述中文语句中的第一位置特征,包括:
获取所述中文语句中的多音字,并确定所述多音字在所述中文语句中的位置索引值以及所述中文语句的文字总长度;
基于所述多音字在所述中文语句中的位置索引值以及所述中文语句的文字总长度,计算获得所述多音字在所述中文语句中的第一位置特征。
3.根据权利要求1所述的多音字处理方法,其特征在于,所述对所述中文语句进行分词之前,还包括:
过滤掉所述中文语句中包含的数字。
4.根据权利要求3所述的多音字处理方法,其特征在于,所述对所述中文语句进行分词,包括:
通过预设分词工具对过滤数字后的中文语句进行分词以及对分词后的词语进行词性标注。
5.根据权利要求4所述的多音字处理方法,其特征在于,所述基于分词获得的词语以及所述词语的词性确定所述多音字的词性特征,包括:
获取对所述中文语句分词后的词语,并确定每个词语的词性;
将包含多音字的词语以及所述包含多音字的词语的词性、所述包含多音字的词语相邻的前一个词语的词性、所述包含多音字的词语相邻的后一个词语的词性确定为所述多音字的词性特征。
6.根据权利要求1或5所述的多音字处理方法,其特征在于,所述确定所述多音字在所述包含多音字的词语中的第二位置特征,包括:
确定所述多音字在所述包含多音字的词语中的位置索引值以及所述包含多音字的词语的总长度;
基于所述多音字在所述包含多音字的词语中的位置索引值以及所述包含多音字的词语的总长度,计算获得所述多音字在所述包含多音字的词语中的第二位置特征。
7.根据权利要求1所述的多音字处理方法,其特征在于,所述多音字消歧模型包括词嵌入层、BLSTM层以及全连接层;
相应的,所述将所述第一位置特征、所述词性特征以及所述第二位置特征输入多音字消歧模型中,获得所述多音字对应的读音包括:
将所述第一位置特征、所述词性特征以及所述第二位置特征输入所述词嵌入层进行编码,获得第一向量;
将所述第一向量输入所述BLSTM层进行上下文信息获取,获得第二向量;
将所述第二向量输入所述全连接层获得所述多音字对应的候选读音以及每个候选读音的概率值;
将所述概率值最高的候选读音作为所述多音字对应的读音进行输出。
8.一种模型训练方法,其特征在于,包括:
获取包含多音字的中文语句样本以及所述中文语句样本对应的标签;
确定所述多音字在所述中文语句样本中的第一位置特征;
对所述中文语句样本进行分词,并基于分词获得的词语以及所述词语的词性确定所述多音字的词性特征;
获取包含多音字的词语,并确定所述多音字在所述包含多音字的词语中的第二位置特征;
基于所述第一位置特征、所述词性特征、所述第二位置特征以及所述中文语句样本对应的标签对多音字消歧模型进行训练,获得所述多音字消歧模型。
9.根据权利要求8所述的模型训练方法,其特征在于,所述确定所述多音字在所述中文语句样本中的第一位置特征,包括:
获取所述中文语句样本中的多音字,并确定所述多音字在所述中文语句样本中的位置索引值以及所述中文语句样本的总长度;
基于所述多音字在所述中文语句样本中的位置索引值以及所述中文语句样本的总长度,计算获得所述多音字在所述中文语句样本中的第一位置特征。
10.根据权利要求8所述的模型训练方法,其特征在于,所述对所述中文语句样本进行分词之前,还包括:
过滤掉所述中文语句样本中包含的数字。
11.根据权利要求10所述的模型训练方法,其特征在于,所述对所述中文语句样本进行分词,包括:
通过预设分词工具对过滤数字后的中文语句样本进行分词以及对分词后的词语进行词性标注。
12.根据权利要求11所述的模型训练方法,其特征在于,所述基于分词获得的词语以及所述词语的词性确定所述多音字的词性特征,包括:
获取对所述中文语句样本分词后的词语,并确定每个词语的词性;
将包含多音字的词语以及所述包含多音字的词语的词性、所述包含多音字的词语相邻的前一个词语的词性、所述包含多音字的词语相邻的后一个词语的词性确定为所述多音字的词性特征。
13.根据权利要求8或12所述的模型训练方法,其特征在于,所述确定所述多音字在所述包含多音字的词语中的第二位置特征,包括:
确定所述多音字在所述包含多音字的词语中的位置索引值以及所述包含多音字的词语的总长度;
基于所述多音字在所述包含多音字的词语中的位置索引值以及所述包含多音字的词语的总长度,计算获得所述多音字在所述包含多音字的词语中的第二位置特征。
14.根据权利要求8所述的模型训练方法,其特征在于,所述多音字消歧模型包括词嵌入层、BLSTM层以及全连接层;以及所述中文语句样本对应的标签为所述中文语句样本中的多音字对应的读音。
15.一种多音字处理装置,其特征在于,包括:
第一位置特征确定模块,被配置为接收包含多音字的中文语句,并确定所述多音字在所述中文语句中的第一位置特征;
词性特征确定模块,被配置为对所述中文语句进行分词,并基于分词获得的词语以及所述词语的词性确定所述多音字的词性特征;
第二位置特征确定模块,被配置为获取包含多音字的词语,并确定所述多音字在所述包含多音字的词语中的第二位置特征;
读音获得模块,被配置为将所述第一位置特征、所述词性特征以及所述第二位置特征输入多音字消歧模型中,获得所述多音字对应的读音。
16.一种模型训练装置,其特征在于,包括:
样本获取模块,被配置为获取包含多音字的中文语句样本以及所述中文语句样本对应的标签;
样本第一位置特征确定模块,被配置为确定所述多音字在所述中文语句样本中的第一位置特征;
样本词性特征确定模块,被配置为对所述中文语句样本进行分词,并基于分词获得的词语以及所述词语的词性确定所述多音字的词性特征;
样本第二位置特征确定模块,被配置为获取包含多音字的词语,并确定所述多音字在所述包含多音字的词语中的第二位置特征;
模型训练模块,被配置为基于所述第一位置特征、所述词性特征、所述第二位置特征以及所述中文语句样本对应的标签对多音字消歧模型进行训练,获得所述多音字消歧模型。
17.一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,其特征在于,所述处理器执行所述指令时实现权利要求1-7任意一项所述多音字处理方法或者8-14任意一项所述模型训练方法的步骤。
18.一种计算机可读存储介质,其存储有计算机指令,其特征在于,该指令被处理器执行时实现权利要求1-7任意一项所述多音字处理方法或者8-14任意一项所述模型训练方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011121064.9A CN111967260A (zh) | 2020-10-20 | 2020-10-20 | 多音字处理方法及装置、模型训练方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011121064.9A CN111967260A (zh) | 2020-10-20 | 2020-10-20 | 多音字处理方法及装置、模型训练方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111967260A true CN111967260A (zh) | 2020-11-20 |
Family
ID=73387064
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011121064.9A Pending CN111967260A (zh) | 2020-10-20 | 2020-10-20 | 多音字处理方法及装置、模型训练方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111967260A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112800748A (zh) * | 2021-03-30 | 2021-05-14 | 平安科技(深圳)有限公司 | 适用于多音字的音素预测方法、装置、设备及存储介质 |
CN112989821A (zh) * | 2021-04-13 | 2021-06-18 | 北京世纪好未来教育科技有限公司 | 多音字的注音方法及计算机存储介质 |
CN113268989A (zh) * | 2021-05-14 | 2021-08-17 | 北京金山数字娱乐科技有限公司 | 多音字处理方法及装置 |
CN113268974A (zh) * | 2021-05-18 | 2021-08-17 | 平安科技(深圳)有限公司 | 多音字发音标注方法、装置、设备及存储介质 |
CN115394286A (zh) * | 2022-09-14 | 2022-11-25 | 科大讯飞(苏州)科技有限公司 | 正则化方法和装置,以及正则化模型的训练方法和装置 |
JP2023509257A (ja) * | 2020-12-10 | 2023-03-08 | 平安科技(深▲せん▼)有限公司 | 多音字の発音を予測する方法、装置、設備、および記憶媒体 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107515850A (zh) * | 2016-06-15 | 2017-12-26 | 阿里巴巴集团控股有限公司 | 确定多音字发音的方法、装置和系统 |
KR20180133345A (ko) * | 2018-11-26 | 2018-12-14 | 조형수 | 영어 단어에 발음정보를 표시 방법 |
CN110277085A (zh) * | 2019-06-25 | 2019-09-24 | 腾讯科技(深圳)有限公司 | 确定多音字发音的方法及装置 |
CN111611810A (zh) * | 2020-05-29 | 2020-09-01 | 河北数云堂智能科技有限公司 | 一种多音字读音消歧装置及方法 |
-
2020
- 2020-10-20 CN CN202011121064.9A patent/CN111967260A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107515850A (zh) * | 2016-06-15 | 2017-12-26 | 阿里巴巴集团控股有限公司 | 确定多音字发音的方法、装置和系统 |
KR20180133345A (ko) * | 2018-11-26 | 2018-12-14 | 조형수 | 영어 단어에 발음정보를 표시 방법 |
CN110277085A (zh) * | 2019-06-25 | 2019-09-24 | 腾讯科技(深圳)有限公司 | 确定多音字发音的方法及装置 |
CN111611810A (zh) * | 2020-05-29 | 2020-09-01 | 河北数云堂智能科技有限公司 | 一种多音字读音消歧装置及方法 |
Non-Patent Citations (2)
Title |
---|
刘方舟等: "基于最大熵模型的多音字消歧", 《第九届全国人机语音通讯学术会议信息科技》 * |
青空栀浅: "Transformer中的position embedding", 《HTTPS://ZHUANLAN.ZHIHU.COM/P/166244505》 * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2023509257A (ja) * | 2020-12-10 | 2023-03-08 | 平安科技(深▲せん▼)有限公司 | 多音字の発音を予測する方法、装置、設備、および記憶媒体 |
JP7441864B2 (ja) | 2020-12-10 | 2024-03-01 | 平安科技(深▲せん▼)有限公司 | 多音字の発音を予測する方法、装置、設備、および記憶媒体 |
CN112800748A (zh) * | 2021-03-30 | 2021-05-14 | 平安科技(深圳)有限公司 | 适用于多音字的音素预测方法、装置、设备及存储介质 |
CN112989821A (zh) * | 2021-04-13 | 2021-06-18 | 北京世纪好未来教育科技有限公司 | 多音字的注音方法及计算机存储介质 |
CN113268989A (zh) * | 2021-05-14 | 2021-08-17 | 北京金山数字娱乐科技有限公司 | 多音字处理方法及装置 |
CN113268989B (zh) * | 2021-05-14 | 2024-10-18 | 北京金山数字娱乐科技有限公司 | 多音字处理方法及装置 |
CN113268974A (zh) * | 2021-05-18 | 2021-08-17 | 平安科技(深圳)有限公司 | 多音字发音标注方法、装置、设备及存储介质 |
CN113268974B (zh) * | 2021-05-18 | 2022-11-29 | 平安科技(深圳)有限公司 | 多音字发音标注方法、装置、设备及存储介质 |
CN115394286A (zh) * | 2022-09-14 | 2022-11-25 | 科大讯飞(苏州)科技有限公司 | 正则化方法和装置,以及正则化模型的训练方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111967260A (zh) | 多音字处理方法及装置、模型训练方法及装置 | |
CN112712804B (zh) | 语音识别方法、系统、介质、计算机设备、终端及应用 | |
CN111739508B (zh) | 一种基于dnn-hmm双模态对齐网络的端到端语音合成方法及系统 | |
CN109801630B (zh) | 语音识别的数字转换方法、装置、计算机设备和存储介质 | |
CN114580382A (zh) | 文本纠错方法以及装置 | |
CN112633947B (zh) | 文本生成模型生成方法、文本生成方法、装置及设备 | |
CN106528536A (zh) | 一种基于词典与文法分析的多语种分词方法 | |
CN110362797B (zh) | 一种研究报告生成方法及相关设备 | |
CN111767714B (zh) | 一种文本通顺度确定方法、装置、设备及介质 | |
CN115831102A (zh) | 基于预训练特征表示的语音识别方法、装置及电子设备 | |
CN113268989B (zh) | 多音字处理方法及装置 | |
CN113870835A (zh) | 基于人工智能的语音合成方法、装置、设备及存储介质 | |
CN113065349A (zh) | 基于条件随机场的命名实体识别方法 | |
CN111882462A (zh) | 一种面向多要素审查标准的中文商标近似检测方法 | |
CN118170907A (zh) | 一种基于深度神经网络的公文智能标签系统及其实现方法 | |
CN113095082A (zh) | 一种基于多任务模型进行文本处理的方法、装置、计算机装置及计算机可读取存储介质 | |
CN110750967A (zh) | 一种发音的标注方法、装置、计算机设备和存储介质 | |
Wang et al. | Named entity recognition for Chinese telecommunications field based on Char2Vec and Bi-LSTMs | |
CN113312903B (zh) | 一种5g移动业务产品词库的构建方法及系统 | |
CN110347813B (zh) | 一种语料处理方法、装置、存储介质及电子设备 | |
Yusuyin et al. | Investigation into phone-based subword units for multilingual end-to-end speech recognition | |
CN114611529A (zh) | 意图识别方法和装置、电子设备及存储介质 | |
CN114548049A (zh) | 一种数字正则化方法、装置、设备及存储介质 | |
Yu et al. | Abstractive headline generation for spoken content by attentive recurrent neural networks with ASR error modeling | |
Pilar | Knowledge-driven subword grammar modeling for automatic speech recognition in tamil and kannada |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |