CN113486672A - 多音字消歧方法及电子设备和计算机可读存储介质 - Google Patents

多音字消歧方法及电子设备和计算机可读存储介质 Download PDF

Info

Publication number
CN113486672A
CN113486672A CN202110852173.6A CN202110852173A CN113486672A CN 113486672 A CN113486672 A CN 113486672A CN 202110852173 A CN202110852173 A CN 202110852173A CN 113486672 A CN113486672 A CN 113486672A
Authority
CN
China
Prior art keywords
target
matching
text
hidden layer
polyphone
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110852173.6A
Other languages
English (en)
Inventor
杨宜涛
徐东
陈洲旋
赵伟峰
雷兆恒
周文江
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Music Entertainment Technology Shenzhen Co Ltd
Original Assignee
Tencent Music Entertainment Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Music Entertainment Technology Shenzhen Co Ltd filed Critical Tencent Music Entertainment Technology Shenzhen Co Ltd
Priority to CN202110852173.6A priority Critical patent/CN113486672A/zh
Publication of CN113486672A publication Critical patent/CN113486672A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs

Abstract

本申请公开了一种多音字消歧方法及一种电子设备和计算机可读存储介质,该方法包括:获取目标文本,确定目标文本中的目标多音字,并提取目标多音字在目标文本中的目标语义特征;获取包含目标多音字的多个匹配文本,并提取目标多音字在匹配文本中的匹配语义特征;其中,匹配文本至少包括不同读音的目标多音字对应的文本;将目标语义特征和多个匹配语义特征输入训练完成的时序神经网络中,得到目标语义特征对应的目标隐层表征和多个匹配语义特征对应的多个匹配隐层表征;基于目标隐层表征与多个匹配隐层表征之间的相似度确定目标多音字在目标文本中的读音。本申请提供的多音字消歧方法,实现了适用于小样本的多音字消歧。

Description

多音字消歧方法及电子设备和计算机可读存储介质
技术领域
本申请涉及语音合成技术领域,更具体地说,涉及多音字消歧方法及电子设备和计算机可读存储介质。
背景技术
众所周知,在现代汉语中存在着一定数量的多音字,它们在不同语境下会呈现截然不同的多个发音。为了能准确地对汉字的发音进行标注,在语音合成过程中需要对多音字进行消歧处理。
在相关技术中,基于统计机器学习进行多音字的消歧,把多音字消歧作为机器学习中的分类问题,首先收集包含多音字拼音标注的大量文本语料,然后使用机器学习算法抽取其中多音字的上下文信息,最后根据这些信息确定多音字的读音。该方法需要大量的多音字标注文本,但行业内可供使用的公开数据却十分稀少,收集相当规模的文本语料的代价也十分昂贵。
因此,如何实现适用于小样本的多音字消歧是本领域技术人员需要解决的技术问题。
发明内容
本申请的目的在于提供一种多音字消歧方法及一种电子设备和一种计算机可读存储介质,实现了适用于小样本的多音字消歧。
为实现上述目的,本申请第一方面提供了一种多音字消歧方法,包括:
获取目标文本,确定所述目标文本中的目标多音字,并提取所述目标多音字在所述目标文本中的目标语义特征;
获取包含所述目标多音字的多个匹配文本,并提取所述目标多音字在所述匹配文本中的匹配语义特征;其中,所述匹配文本至少包括不同读音的所述目标多音字对应的文本;
将所述目标语义特征和多个所述匹配语义特征输入训练完成的时序神经网络中,得到所述目标语义特征对应的目标隐层表征和多个所述匹配语义特征对应的多个匹配隐层表征;
基于所述目标隐层表征与多个所述匹配隐层表征之间的相似度确定所述目标多音字在所述目标文本中的读音。
为实现上述目的,本申请第二方面提供了一种电子设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如上述多音字消歧方法的步骤。
为实现上述目的,本申请第三方面提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上述多音字消歧方法的步骤。
通过以上方案可知,本申请提供的一种多音字消歧方法,包括:获取目标文本,确定所述目标文本中的目标多音字,并提取所述目标多音字在所述目标文本中的目标语义特征;获取包含所述目标多音字的多个匹配文本,并提取所述目标多音字在所述匹配文本中的匹配语义特征;其中,所述匹配文本至少包括不同读音的所述目标多音字对应的文本;将所述目标语义特征和多个所述匹配语义特征输入训练完成的时序神经网络中,得到所述目标语义特征对应的目标隐层表征和多个所述匹配语义特征对应的多个匹配隐层表征;基于所述目标隐层表征与多个所述匹配隐层表征之间的相似度确定所述目标多音字在所述目标文本中的读音。
本申请提供的多音字消歧方法,提取目标文本中目标多音字的目标语义特征,同时提取该目标多音字在不同读音下呈现的语义特征即匹配语义特征,利用时序神经网络对比目标语义特征与多个匹配语义特征,以语义特征接近程度作为读音相近的准则,选取目标多音字在目标文本中最有可能的读音。本申请无需大量的训练数据,仅需要包函不同读音的目标多音字的匹配文本,在多音字标注数据短缺的情况下,仍然可以实现多音字的消歧。本申请还公开了一种电子设备和一种计算机可读存储介质,同样能实现上述技术效果。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能限制本申请。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。附图是用来提供对本公开的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本公开,但并不构成对本公开的限制。在附图中:
图1为本申请实施例提供的一种多音字消歧系统的架构图;
图2为本申请实施例提供的另一种多音字消歧方法的流程图;
图3为本申请实施例提供的又一种多音字消歧方法的流程图;
图4为本申请实施例提供的一种电子设备的结构图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例公开了一种多音字消歧方法,实现了适用于小样本的多音字消歧。
参见图1,本申请实施例提供的一种多音字消歧方法的流程图,如图1所示,包括:
S101:获取目标文本,确定所述目标文本中的目标多音字,并提取所述目标多音字在所述目标文本中的目标语义特征;
本实施例的输入为包含目标多音字的目标文本,目的为确定目标多音字在目标文本的语境下的正确读音。在本步骤中,提取目标多音字在目标文本中的目标语义特征,以便后续步骤基于该目标语义特征确定目标多音字在目标文本中的读音。
作为一种可行的实施方式,所述提取所述目标多音字在所述目标文本中的目标语义特征,包括:对所述目标文本进行字级别的编码得到编码信息;将所述编码信息输入神经网络模型中,得到与所述目标文本相同长度的特征向量序列;将所述特征向量序列中与所述目标多音字对应的特征向量作为所述目标多音字在所述目标文本中的目标语义特征。在具体实施中,首先将目标文本进行字级别的编码得到编码信息,此处字级别编码可以包括One-hot编码、随机初始化的向量表示等,在此不进行具体限定。再将编码信息输入支持字级别特征输出的神经网络模型中,得到与目标文本的字数相同长度的特征向量序列。此处的神经网络模型可以包括LSTM(Long short-term memory)网络、通过大规模语料预训练的BERT(Bidirectional Encoder Representations from Transformers)网络等,在此不进行具体限定。最后选取特征向量序列中目标多音字对应的特征向量作为目标多音字在目标文本中的目标语义特征。以目标文本“最后两名将进入降级区”为例,共包括10个汉字,字级别编码后得到编码信息[c_1,c_2,…,c_10],经过神经网络模型计算后获得所有时间点的隐层表示即特征向量序列为[h_1,h_2,…h_10],由于多音字“将”位于目标文本中的第5个位置,则选择h_5作为多音字“将”在目标文本中的语义特征。
需要说明的是,在目标语义特征的提取过程中,除了向神经网络模型输入原始的目标文本之外,还可以同时向神经网络模型输入更为丰富的辅助信息,例如目标文本的分词标注、词性标注结果,从而获得更加丰富的上下文信息,即丰富语义特征提取结果。
S102:获取包含所述目标多音字的多个匹配文本,并提取所述目标多音字在所述匹配文本中的匹配语义特征;其中,所述匹配文本至少包括不同读音的所述目标多音字对应的文本;
在本步骤中,获取包含目标多音字的多个匹配文本作为匹配对象,目标多音字在匹配文本中呈现不同的读音,即匹配文本用于呈现目标多音字的不同读音所处的上下文语境。需要说明的是,匹配文本可以来源于后续步骤中时序神经网络的训练数据集,也可以使用人工选取的、多音字语义明显区分的文本,本实施例不进行具体限定。以目标文本“最后两名将进入降级区”为例,其中“将”字为目标多音字,因此需要获取包含不同读音的“将”字的匹配文本,例如“将烤鱼保存在米饭中”和“解放军将领”。进一步的,提取目标多音字在每个匹配文本中的匹配语义特征,以表示不同读音所处的不同上下文模式,具体的提取方式与上一步骤中介绍的目标语义特征提取方式类似,在此不再赘述。
S103:将所述目标语义特征和多个所述匹配语义特征输入训练完成的时序神经网络中,得到所述目标语义特征对应的目标隐层表征和多个所述匹配语义特征对应的多个匹配隐层表征;
S104:基于所述目标隐层表征与多个所述匹配隐层表征之间的相似度确定所述目标多音字在所述目标文本中的读音。
本实施例利用时序神经网络对比目标语义特征与多个匹配语义特征,以语义特征接近程度作为读音相近的准则,选取目标多音字在目标文本中最有可能的读音。时序神经网络支持多个特征按顺序输入的模型,按顺序输入可看作是在不同的时间点依次对网络输入特征,例如LSTM、GRU(Gated recurrent unit)等,在此不进行具体限定。
可以理解的是,为了使得时序神经网络可以对比目标多音字在不同上下文语境中的语义特征,需要利用包含目标多音字的训练文本和匹配文本对时序神经网络进行训练。时序神经网络的训练过程包括以下步骤:获取包含所述目标多音字的训练文本,并提取所述目标多音字在所述训练文本中的训练语义特征;获取包含所述目标多音字的多个匹配文本,并提取所述目标多音字在所述匹配文本中的匹配语义特征;其中,所述匹配文本至少包括不同读音的所述目标多音字对应的文本;基于所述目标多音字在所述训练文本中的标准读音、所述训练语义特征和多个所述匹配语义特征训练时序神经网络,以得到所述训练完成的时序神经网络。在具体实施中,分别提取训练文本和多个匹配文本的语义特征,其中,匹配文本中需要包括目标多音字在训练文本中的标准读音对应的目标匹配文本,即目标多音字在目标匹配文本中的读音与其在训练文本中的读音相同,均为上述标准读音。将训练文本对应的训练语义特征和多个匹配文本对应的匹配语义特征输入时序神经网络中,得到训练语义特征对应的训练隐层表征和多个语义特征对应的匹配隐层表征。计算训练隐层表征分别与多个匹配隐层表征之间的相似度,据此调整时序神经网络的参数,调整目标为训练隐层表征与目标匹配隐层表征之间的相似度最大,目标匹配隐层表征为上述目标匹配文本对应的语义特征经过时序神经网络后得到的隐层表征。训练完成的时序神经网络用于分析输入的多个语义特征,计算目标语义特征与哪一个匹配语义特征更加相似,进而确定目标多音字在目标文本中更有可能的读音。
在确定目标多音字在目标文本中的读音时,首先,将目标多音字在目标文本中的目标语义特征和其在多个匹配文本中的匹配语义特征输入训练完成的时序神经网络中,得到目标语义特征对应的目标隐层表征和多个匹配语义特征对应的目标隐层表征。例如,目标文本T_target中目标多音字对应的目标语义特征为H_target,匹配文本T_1和T_2中目标多音字对应的匹配语义特征分别为H_1和H_2,按时序以[H_1,H_2,H_target]的形式输入时序神经网络,从而得到隐层表征[X_1,X_2,X_target]。其次,对比目标隐层表征与匹配隐层表征,即计算目标隐层表征分别与多个匹配隐层表征之间的相似度,确定目标语义特征与哪一个匹配语义特征更加相似,进而确定目标多音字在目标文本中更有可能的读音。作为一种可行的实施方式,所述计算所述目标隐层表征与多个所述匹配隐层表征之间的相似度,包括:计算所述目标隐层表征与多个所述匹配隐层表征之间的余弦距离,并将所述余弦距离作为所述目标隐层表征与多个所述匹配隐层表征之间的相似度。在上述例子中,若CosineDistance(X_target,X_1)>CosineDistance(X_target,X_2),则认为目标多音字在目标文本中的读音更有可能为其在T_1中的读音,反之若CosineDistance(X_target,X_1)<CosineDistance(X_target,X_2),则认为目标多音字在目标文本中的读音更有可能为其在T_2中的读音。进一步的,通过多次对比可以确定目标多音字在目标文本中的读音,即所述基于所述目标隐层表征与多个所述匹配隐层表征之间的相似度确定所述目标多音字在所述目标文本中的读音,包括:计算所述目标隐层表征与多个所述匹配隐层表征之间的相似度,并确定与所述目标隐层表征相似度最大的目标匹配隐层表征;将所述目标多音字在所述目标匹配隐层表征对应的匹配文本中的读音确定为所述目标多音字在所述目标文本中的读音。在具体实施中,如果目标文本中目标多音字的语义特征与某个匹配文本中的目标多音字的语义十分相似,则可认为目标文本中的目标多音字与该匹配文本中的目标多音字具有相同的发音。
作为一种优选实施方式,所述计算所述目标隐层表征与多个所述匹配隐层表征之间的相似度之后,还包括:确定每个所述匹配文本对应的权重系数,基于所述匹配文本对应的权重系数调整对应的匹配隐层表征与所述目标隐层表征之间的相似度;相应的,所述确定与所述目标隐层表征相似度最大的目标匹配隐层表征,包括:确定与所述目标隐层表征调整后的相似度最大的目标匹配隐层表征。在具体实施中,可以根据每个匹配文本对应的权重系数调整对应的相似度,例如为非常确定读音的匹配文本分配较高的权重系数,提高确定目标多音字读音的准确率。优选的,所述匹配文本包括错误案例文本,所述错误案例文本对应的权重系数大于其他匹配文本对应的权重系数。对于一些难以解决的错误案例,可以直接将错误案例对应的文本,或文本中与多音字关联性较高的短语词组,添加到匹配文本中,并给予较高的权重系数,便可以优先处理这些错误案例。
需要说明的是,在时序神经网络的训练阶段,可以将训练文本对应的训练语义特征作为时序神经网络最后一个时间点的输入,尽可能保证时序神经网络的目标多音字的特征完整性,避免它的信息被模型遗忘。相应的,在时序神经网络的使用阶段,同样可以将目标文本对应的目标语义特征作为时序神经网络最后一个时间点的输入。在此进程上,可以通过增加匹配文本的数目,增加对比次数,提高确定目标多音字读音的准确率。
由于在训练过程中,时序神经网络实现的功能是对比训练文本中目标多音字以及匹配文本中目标多音字的语义特征的异同,选择匹配文本中最为语义特征相似的多音字的读音作为最终结果,因此时序神经网络不需要通过大量数据对目标多音字的各种读音模式进行记忆和识别,只需要学会在多个匹配文本中,选择上下文语义更相似的一个。基于此,在时序神经网络已经训练完毕的情况下,对于训练数据集中未曾出现的多音字,手工添加该多音字不同读音的少数匹配文本,即可实现该多音字的消歧。可见,本实施例实现了适用于小样本的多音字拓展。
本申请实施例提供的多音字消歧方法,提取目标文本中目标多音字的目标语义特征,同时提取该目标多音字在不同读音下呈现的语义特征即匹配语义特征,利用时序神经网络对比目标语义特征与多个匹配语义特征,以语义特征接近程度作为读音相近的准则,选取目标多音字在目标文本中最有可能的读音。本申请实施例无需大量的训练数据,仅需要包函不同读音的目标多音字的匹配文本,在多音字标注数据短缺的情况下,仍然可以实现多音字的消歧。
本申请实施例公开了一种多音字消歧方法,相对于上一实施例,本实施例对技术方案作了进一步的说明和优化。具体的:
参见图2,本申请实施例提供的另一种多音字消歧方法的流程图,如图2所示,包括:
S201:获取目标文本,确定所述目标文本中的目标多音字,并提取所述目标多音字在所述目标文本中的目标语义特征;
S202:获取所述目标多音字对应的候选匹配文本集;其中,所述匹配文本集至少包括不同读音的所述目标多音字对应的匹配文本;
S203:将所述候选匹配文本集中的第一个匹配文本确定为第一匹配文本,将所述候选匹配文本集中的第二个匹配文本确定为第二匹配文本;
S204:提取所述目标多音字在所述第一匹配文本中的第一匹配语义特征和在所述第二匹配文本中的第二匹配语义特征;
S205:将所述目标语义特征、所述第一匹配语义特征和所述第二匹配语义特征输入训练完成的时序神经网络中,得到所述目标语义特征对应的目标隐层表征、所述第一匹配语义特征对应的第一匹配隐层表征和所述第二匹配语义特征对应的第二匹配隐层表征;
S206:计算所述目标隐层表征与所述第一匹配语义特征之间的第一相似度和所述目标隐层表征与所述第一匹配语义特征之间的第二相似度;
S207:将所述第一相似度和第二相似度中的较大者对应的匹配文本确定为目标匹配文本;
在本实施例中,时序神经网络仅可以对比两个匹配文本中目标多音字的匹配语义特征哪个更贴近目标文本中目标多音字的目标语义特征,进而确定两个匹配文本中目标多音字的读音哪个更贴近目标文本中目标多音字的读音。
S208:判断所述第二匹配文本是否为所述候选匹配文本集中的最后一个匹配文本;若否,则进入S209;若是,则进入S210;
S209:将所述目标匹配文本确定为新的第一匹配文本,将所述第二匹配文本的下一个匹配文本确定为新的第二匹配文本,并重新进入S204;
S210:将所述目标多音字在所述目标匹配文本的读音确定为所述目标多音字在所述目标文本中的读音。
在具体实施中,若目标多音字存在两个以上的读音,需要将包含不同读音的目标多音字对应的匹配文本同时加入候选匹配文本集中,重复执行S204-S207的步骤,以确定与目标文本中目标多音字的语义特征最相似的匹配语义特征,进而确定目标多音字在目标文本中最有可能的读音。
本申请实施例公开了一种多音字消歧方法,相对于上一实施例,本实施例对技术方案作了进一步的说明和优化。具体的:
参见图3,本申请实施例提供的又一种多音字消歧方法的流程图,如图3所示,包括:
S301:获取目标文本,确定所述目标文本中的目标多音字,并提取所述目标多音字在所述目标文本中的目标语义特征;
S302:获取包含所述目标多音字的每个读音对应的匹配文本,并提取所述目标多音字在每个所述匹配文本中的匹配语义特征;
S303:将所述目标语义特征和多个所述匹配语义特征输入训练完成的时序神经网络中,得到所述目标语义特征对应的目标隐层表征和多个所述匹配语义特征对应的多个匹配隐层表征;
S304:计算所述目标隐层表征与多个所述匹配隐层表征之间的相似度,并确定与所述目标隐层表征相似度最大的目标匹配隐层表征;
S305:将所述目标多音字在所述目标匹配隐层表征对应的匹配文本中的读音确定为所述目标多音字在所述目标文本中的读音。
在本实施例中,时序神经网络可以同时对比多个两个匹配文本中目标多音字的匹配语义特征与目标文本中目标多音字的目标语义特征,即将目标语义特征与每个读音对应的匹配文本中目标多音字的匹配语义特征同时输入时序神经网络,依次输入即可得到与目标文本中目标多音字的语义特征最相似的匹配语义特征,进而确定目标多音字在目标文本中最有可能的读音,提高了多音字消歧的效率。
下面对本申请实施例提供的一种多音字消歧装置进行介绍,下文描述的一种多音字消歧装置与上文描述的一种多音字消歧方法可以相互参照,具体可以包括:
第一提取模块,用于获取目标文本,确定所述目标文本中的目标多音字,并提取所述目标多音字在所述目标文本中的目标语义特征;
第二提取模块,用于获取包含所述目标多音字的多个匹配文本,并提取所述目标多音字在所述匹配文本中的匹配语义特征;其中,所述匹配文本至少包括不同读音的所述目标多音字对应的文本;
输入模块,用于将所述目标语义特征和多个所述匹配语义特征输入训练完成的时序神经网络中,得到所述目标语义特征对应的目标隐层表征和多个所述匹配语义特征对应的多个匹配隐层表征;
确定模块,用于基于所述目标隐层表征与多个所述匹配隐层表征之间的相似度确定所述目标多音字在所述目标文本中的读音。
本申请实施例提供的多音字消歧装置,提取目标文本中目标多音字的目标语义特征,同时提取该目标多音字在不同读音下呈现的语义特征即匹配语义特征,利用时序神经网络对比目标语义特征与多个匹配语义特征,以语义特征接近程度作为读音相近的准则,选取目标多音字在目标文本中最有可能的读音。本申请实施例无需大量的训练数据,仅需要包函不同读音的目标多音字的匹配文本,在多音字标注数据短缺的情况下,仍然可以实现多音字的消歧。
在上述实施例的基础上,作为一种优选实施方式,还包括:
第三提取模块,用于获取包含所述目标多音字的训练文本,并提取所述目标多音字在所述训练文本中的训练语义特征;
第四提取模块,用于获取包含所述目标多音字的多个匹配文本,并提取所述目标多音字在所述匹配文本中的匹配语义特征;其中,所述匹配文本至少包括不同读音的所述目标多音字对应的文本;
训练模块,用于基于所述目标多音字在所述训练文本中的标准读音、所述训练语义特征和多个所述匹配语义特征训练时序神经网络,以得到所述训练完成的时序神经网络。
在上述实施例的基础上,作为一种优选实施方式,所述匹配文本包括所述目标多音字的每个读音对应的文本。
在上述实施例的基础上,作为一种优选实施方式,所述第一提取模块包括:
获取单元,用于获取目标文本,确定所述目标文本中的目标多音字;
编码单元,用于对所述目标文本进行字级别的编码得到编码信息;
输入单元,用于将所述编码信息输入神经网络模型中,得到与所述目标文本相同长度的特征向量序列;
第一确定单元,用于将所述特征向量序列中与所述目标多音字对应的特征向量作为所述目标多音字在所述目标文本中的目标语义特征。
在上述实施例的基础上,作为一种优选实施方式,所述确定模块包括:
计算单元,用于计算所述目标隐层表征与多个所述匹配隐层表征之间的相似度,并确定与所述目标隐层表征相似度最大的目标匹配隐层表征;
第二确定单元,用于将所述目标多音字在所述目标匹配隐层表征对应的匹配文本中的读音确定为所述目标多音字在所述目标文本中的读音。
在上述实施例的基础上,作为一种优选实施方式,所述计算单元包括:
计算子单元,用于计算所述目标隐层表征与多个所述匹配隐层表征之间的相似度;
调整子单元,用于确定每个所述匹配文本对应的权重系数,基于所述匹配文本对应的权重系数调整对应的匹配隐层表征与所述目标隐层表征之间的相似度;
确定子单元,用于确定与所述目标隐层表征调整后的相似度最大的目标匹配隐层表征。
在上述实施例的基础上,作为一种优选实施方式,所述计算子单元具体为计算所述目标隐层表征与多个所述匹配隐层表征之间的余弦距离的子单元。
在上述实施例的基础上,作为一种优选实施方式,所述匹配文本包括错误案例文本,所述错误案例文本对应的权重系数大于其他匹配文本对应的权重系数。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
本申请还提供了一种电子设备,参见图4,本申请实施例提供的一种电子设备40的结构图,如图4所示,可以包括处理器41和存储器42。
其中,处理器41可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器41可以采用DSP(Digital Signal Processing,数字信号处理)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)、PLA(Programmable Logic Array,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器41也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称CPU(Central ProcessingUnit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器41可以在集成有GPU(Graphics Processing Unit,图像处理器),GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器41还可以包括AI(Artificial Intelligence,人工智能)处理器,该AI处理器用于处理有关机器学习的计算操作。
存储器42可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器42还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。本实施例中,存储器42至少用于存储以下计算机程序421,其中,该计算机程序被处理器41加载并执行之后,能够实现前述任一实施例公开的由电子设备侧执行的多音字消歧方法中的相关步骤。另外,存储器42所存储的资源还可以包括操作系统422和数据423等,存储方式可以是短暂存储或者永久存储。其中,操作系统422可以包括Windows、Unix、Linux等。
在一些实施例中,电子设备40还可包括有显示屏43、输入输出接口44、通信接口45、传感器46、电源47以及通信总线48。
当然,图4所示的电子设备的结构并不构成对本申请实施例中电子设备的限定,在实际应用中电子设备可以包括比图4所示的更多或更少的部件,或者组合某些部件。
在另一示例性实施例中,还提供了一种包括程序指令的计算机可读存储介质,该程序指令被处理器执行时实现上述任一实施例电子设备所执行的多音字消歧方法的步骤。
说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以对本申请进行若干改进和修饰,这些改进和修饰也落入本申请权利要求的保护范围内。
还需要说明的是,在本说明书中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims (10)

1.一种多音字消歧方法,其特征在于,包括:
获取目标文本,确定所述目标文本中的目标多音字,并提取所述目标多音字在所述目标文本中的目标语义特征;
获取包含所述目标多音字的多个匹配文本,并提取所述目标多音字在所述匹配文本中的匹配语义特征;其中,所述匹配文本至少包括不同读音的所述目标多音字对应的文本;
将所述目标语义特征和多个所述匹配语义特征输入训练完成的时序神经网络中,得到所述目标语义特征对应的目标隐层表征和多个所述匹配语义特征对应的多个匹配隐层表征;
基于所述目标隐层表征与多个所述匹配隐层表征之间的相似度确定所述目标多音字在所述目标文本中的读音。
2.根据权利要求1所述多音字消歧方法,其特征在于,还包括:
获取包含所述目标多音字的训练文本,并提取所述目标多音字在所述训练文本中的训练语义特征;
获取包含所述目标多音字的多个匹配文本,并提取所述目标多音字在所述匹配文本中的匹配语义特征;其中,所述匹配文本至少包括不同读音的所述目标多音字对应的文本;
基于所述目标多音字在所述训练文本中的标准读音、所述训练语义特征和多个所述匹配语义特征训练时序神经网络,以得到所述训练完成的时序神经网络。
3.根据权利要求1所述多音字消歧方法,其特征在于,所述匹配文本包括所述目标多音字的每个读音对应的文本。
4.根据权利要求1所述多音字消歧方法,其特征在于,所述提取所述目标多音字在所述目标文本中的目标语义特征,包括:
对所述目标文本进行字级别的编码得到编码信息;
将所述编码信息输入神经网络模型中,得到与所述目标文本相同长度的特征向量序列;
将所述特征向量序列中与所述目标多音字对应的特征向量作为所述目标多音字在所述目标文本中的目标语义特征。
5.根据权利要求1所述多音字消歧方法,其特征在于,所述基于所述目标隐层表征与多个所述匹配隐层表征之间的相似度确定所述目标多音字在所述目标文本中的读音,包括:
计算所述目标隐层表征与多个所述匹配隐层表征之间的相似度,并确定与所述目标隐层表征相似度最大的目标匹配隐层表征;
将所述目标多音字在所述目标匹配隐层表征对应的匹配文本中的读音确定为所述目标多音字在所述目标文本中的读音。
6.根据权利要求5所述多音字消歧方法,其特征在于,所述计算所述目标隐层表征与多个所述匹配隐层表征之间的相似度,包括:
计算所述目标隐层表征与多个所述匹配隐层表征之间的余弦距离,并将所述余弦距离作为所述目标隐层表征与多个所述匹配隐层表征之间的相似度。
7.根据权利要求5所述多音字消歧方法,其特征在于,所述计算所述目标隐层表征与多个所述匹配隐层表征之间的相似度之后,还包括:
确定每个所述匹配文本对应的权重系数,基于所述匹配文本对应的权重系数调整对应的匹配隐层表征与所述目标隐层表征之间的相似度;
相应的,所述确定与所述目标隐层表征相似度最大的目标匹配隐层表征,包括:
确定与所述目标隐层表征调整后的相似度最大的目标匹配隐层表征。
8.根据权利要求7所述多音字消歧方法,其特征在于,所述匹配文本包括错误案例文本,所述错误案例文本对应的权重系数大于其他匹配文本对应的权重系数。
9.一种电子设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至8任一项所述多音字消歧方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至8任一项所述多音字消歧方法的步骤。
CN202110852173.6A 2021-07-27 2021-07-27 多音字消歧方法及电子设备和计算机可读存储介质 Pending CN113486672A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110852173.6A CN113486672A (zh) 2021-07-27 2021-07-27 多音字消歧方法及电子设备和计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110852173.6A CN113486672A (zh) 2021-07-27 2021-07-27 多音字消歧方法及电子设备和计算机可读存储介质

Publications (1)

Publication Number Publication Date
CN113486672A true CN113486672A (zh) 2021-10-08

Family

ID=77944126

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110852173.6A Pending CN113486672A (zh) 2021-07-27 2021-07-27 多音字消歧方法及电子设备和计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN113486672A (zh)

Similar Documents

Publication Publication Date Title
CN107729313B (zh) 基于深度神经网络的多音字读音的判别方法和装置
CN109036391B (zh) 语音识别方法、装置及系统
US7421387B2 (en) Dynamic N-best algorithm to reduce recognition errors
JP5901001B1 (ja) 音響言語モデルトレーニングのための方法およびデバイス
US20180267956A1 (en) Identification of reading order text segments with a probabilistic language model
JP6541673B2 (ja) モバイル機器におけるリアルタイム音声評価システム及び方法
CN107437417B (zh) 基于循环神经网络语音识别中语音数据增强方法及装置
CN107679032A (zh) 语音转换纠错方法和装置
WO2021103712A1 (zh) 一种基于神经网络的语音关键词检测方法、装置及系统
CN109036471B (zh) 语音端点检测方法及设备
CN108399157B (zh) 实体与属性关系的动态抽取方法、服务器及可读存储介质
CN112434510B (zh) 一种信息处理方法、装置、电子设备和存储介质
CN115312033A (zh) 基于人工智能的语音情感识别方法、装置、设备及介质
CN110503956A (zh) 语音识别方法、装置、介质及电子设备
CN112559725A (zh) 文本匹配方法、装置、终端和存储介质
CN113723077A (zh) 基于双向表征模型的句向量生成方法、装置及计算机设备
CN113486672A (zh) 多音字消歧方法及电子设备和计算机可读存储介质
CN116304014A (zh) 训练实体类型识别模型的方法、实体类型识别方法及装置
CN110929749B (zh) 文本识别方法、装置、介质及电子设备
CN114758649A (zh) 一种语音识别方法、装置、设备和介质
CN111625636A (zh) 一种人机对话的拒绝识别方法、装置、设备、介质
CN113378541A (zh) 文本标点预测方法、装置、系统及存储介质
CN111476028A (zh) 一种汉语短语识别方法、系统、存储介质及电子设备
CN114581813B (zh) 视觉语言识别方法以及相关设备
CN112071304B (zh) 一种语意分析方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination