CN116341561B - 一种语音样本数据生成方法、装置、设备和存储介质 - Google Patents

一种语音样本数据生成方法、装置、设备和存储介质 Download PDF

Info

Publication number
CN116341561B
CN116341561B CN202310307878.9A CN202310307878A CN116341561B CN 116341561 B CN116341561 B CN 116341561B CN 202310307878 A CN202310307878 A CN 202310307878A CN 116341561 B CN116341561 B CN 116341561B
Authority
CN
China
Prior art keywords
sample data
target
data
polyphones
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310307878.9A
Other languages
English (en)
Other versions
CN116341561A (zh
Inventor
宋伟
金波
张政臣
吴友政
何晓冬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jingdong Technology Information Technology Co Ltd
Original Assignee
Jingdong Technology Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jingdong Technology Information Technology Co Ltd filed Critical Jingdong Technology Information Technology Co Ltd
Priority to CN202310307878.9A priority Critical patent/CN116341561B/zh
Publication of CN116341561A publication Critical patent/CN116341561A/zh
Application granted granted Critical
Publication of CN116341561B publication Critical patent/CN116341561B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/232Orthographic correction, e.g. spell checking or vowelisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • G06N3/0442Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Animal Behavior & Ethology (AREA)
  • Databases & Information Systems (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明实施例公开了一种语音样本数据生成方法、装置、设备和存储介质,涉及人工智能领域。该方法包括:获取包含目标多音字的原有样本数据;基于预设数据增强方式,对原有样本数据中的目标多音字的上下文数据进行增强处理,确定包含目标多音字的增强样本数据;基于语言评估模型对增强样本数据进行语言流畅度评估,确定增强样本数据对应的流畅度评估结果;基于流畅度评估结果,确定目标多音字对应的目标样本数据。通过本发明实施例的技术方案,可以自动生成多音字的样本数据,无需人工参与,提高了样本数据生成效率。

Description

一种语音样本数据生成方法、装置、设备和存储介质
技术领域
本发明实施例涉及人工智能技术,尤其涉及一种语音样本数据生成方法、装置、设备和存储介质。
背景技术
随着人工智能技术的快速发展,机器学习模型被广泛应用。例如,利用多音字识别模型可以自动识别出句子中多音字的读音。
目前,每个多音字的语音样本数据是有限的,不足以覆盖足够的多音字上下文场景,从而需要人工标注出更多的语音样本数据,以便保证多音字识别模型的训练效果。
然而,在实现本发明过程中,发明人发现现有技术中至少存在如下问题:
通过人工标注获得多音字的语音样本数据的方式费时费力,增加了标注成本。
发明内容
本发明实施例提供了一种语音样本数据生成方法、装置、设备和存储介质,以自动生成多音字的语音样本数据,无需人工参与,提高了样本数据生成效率。
第一方面,本发明实施例提供了一种语音样本数据生成方法,包括:
获取包含目标多音字的原有样本数据;
基于预设数据增强方式,对所述原有样本数据中的所述目标多音字的上下文数据进行增强处理,确定包含所述目标多音字的增强样本数据;
基于语言评估模型对所述增强样本数据进行语言流畅度评估,确定所述增强样本数据对应的流畅度评估结果;
基于所述流畅度评估结果,确定所述目标多音字对应的目标样本数据。
第二方面,本发明实施例还提供了一种语音样本数据生成装置,包括:
原有样本数据获取模块,用于获取包含目标多音字的原有样本数据;
增强样本数据确定模块,用于基于预设数据增强方式,对所述原有样本数据中的所述目标多音字的上下文数据进行增强处理,确定包含所述目标多音字的增强样本数据;
流畅度评估模块,用于基于语言评估模型对所述增强样本数据进行语言流畅度评估,确定所述增强样本数据对应的流畅度评估结果;
目标样本数据确定模块,用于基于所述流畅度评估结果,确定所述目标多音字对应的目标样本数据。
第三方面,本发明实施例还提供了一种电子设备,所述电子设备包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如本发明任意实施例所提供的语音样本数据生成方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本发明任意实施例所提供的语音样本数据生成方法。
上述发明中的一个实施例具有如下优点或有益效果:
通过获取包含目标多音字的原有样本数据,并基于预设数据增强方式,对原有样本数据中的目标多音字的上下文数据进行增强处理,确定包含目标多音字的增强样本数据。基于语言评估模型对增强样本数据进行语言流畅度评估,确定增强样本数据对应的流畅度评估结果,并基于所述流畅度评估结果,确定目标多音字对应的目标样本数据。通过利用预设数据增强方式和语言评估模型,可以在原有样本数据的基础上,自动生成包含目标多音字的目标样本数据,从而扩充多音字的上下文场景,无需人工参与,提高了语音样本数据生成效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一个实施例所提供的一种语音样本数据生成方法的流程图;
图2是本发明一个实施例提供的另一种语音样本数据生成方法的流程图;
图3是本发明一个实施例提供的一种语音样本数据生成装置的结构示意图;
图4是本发明一个实施例提供的一种电子设备的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
图1为本发明一个实施例所提供的一种语音样本数据生成方法的流程图,本实施例可适用于对多音字的样本数据进行自动生成的情况。该方法可以由语音样本数据生成装置来执行,该装置可以由软件和/或硬件的方式来实现,集成于电子设备中。如图1所示,该方法具体包括以下步骤:
S110、获取包含目标多音字的原有样本数据。
其中,目标多音字可以是指当前需要增加语音样本数据的多音字。目标多音字存在至少两种读音,每种读音均对应相应的语音样本数据。原有样本数据可以是指包含目标多音字的现有的语音样本数据。原有样本数据可以以文本的形式进行表征。原有样本数据可以是指包含有目标多音字某个读音的语句文本。例如,目标多音字是“为”,这个多音字存在两种读音,分别为:二声wei和四声wei。“为”在读音为四声wei时的原有样本数据可以是:“北京银行为广大的北京人民提供医疗保险服务”。
具体地,获取需要扩充样本数据的目标多音字,并获得包含有目标多音字每种读音的所有原有样本数据。针对每个原有样本数据而言,在原有样本数据的基础上可以通过执行如下步骤S120-S140,自动生成包含有目标多音字的目标样本数据,并且目标样本数据与该原有样本数据中的目标多音字具有相同读音,从而增加了目标多音字每种读音的样本数据,并且也提升了多音字样本数据的上下文丰富程度。
S120、基于预设数据增强方式,对原有样本数据中的目标多音字的上下文数据进行增强处理,确定包含目标多音字的增强样本数据。
其中,预设数据增强方式可以是预先设置的,用于改变多音字上下文数据的方式,以便增加多音字样本数据。例如,预设数据增强方式可以包括但不限于:命名实体处理方式、掩码预测方式、语言转写方式、形容词替换方式和动词替换方式中的至少一种。增强样本数据可以是在原有样本数据的基础上改变上下文数据后所获得的语音样本数据。增强样本数据不同于原有样本数据,但增强样本数据与原有样本数据均包含目标多音字,且具有相同读音。
具体地,可以基于一种或多种预设数据增强方式,对原有样本数据中的目标多音字的上下文数据进行增强处理,获得处理后的增强样本数据。例如,若仅利用一种预设数据增强方式对原有样本数据进行增强处理,则将处理后的样本数据直接作为最终的增强样本数据。若利用至少两种预设数据增强方式对原有样本数据进行增强处理,则按照预设数据增强方式的使用顺序,利用第一个预设数据增强方式对原有样本数据进行增强处理,并在增强后的样本数据上继续利用下一个预设数据增强方式进行增强处理,直到利用最后一个预设数据增强方式进行增强处理后结束,将最后增强获得的样本数据确定为最终的增强样本数据。
需要说明的是,本实施例对预设数据增强方式的数量和使用顺序并不限定,其可以基于业务需求和实际情况进行设置。每个原有样本数据可以利用不同的数据增强方式进行增强处理,从而获得多个增强样本数据。不同的原有样本数据可以利用相同的数据增强方式进行数据增强,也可以利用不同的数据增强方式进行数据增强,以进一步扩充多音字上下文场景的丰富性。
S130、基于语言评估模型对增强样本数据进行语言流畅度评估,确定增强样本数据对应的流畅度评估结果。
其中,语言流畅度可以用于表征语句的通顺性,从而确定语句是否是一个正常的句子。语言评估模型可以是用于评估文本序列符合人类语言使用习惯程序的模型。可以利用评价指标困户度perplexity或者双语互译质量评估辅助工具(Bi-Lingual EvaluationUnderstudy,BLEU)对语言评估模型进行效果评价,从而利用效果最好的语音模型进行语言流畅度评估,进而保证流畅度评估的准确性。流畅度评估结果可以是指评估出的流畅度打分数值。
具体地,可以将获得的增强样本数据输入到语言评估模型中进行语言流畅度评估,并基于语音模型的输出,获得增强样本数据对应的流畅度评估结果。
S140、基于流畅度评估结果,确定目标多音字对应的目标样本数据。
其中,目标样本数据可以是最终选取的目标多音字的语音样本数据。目标样本数据不同于原有样本数据,但目标样本数据与原有样本数据均包含目标多音字,且具有相同读音。
具体地,基于流畅度评估结果可以确定增强样本数据是否为一个语句正常的样本数据,若是,则将该增强样本数据确定为有效的目标样本数据,若否,则将该增强样本数据进行删除,从而保证目标样本数据的有效性。
示例性地,S140可以包括:将流畅度评估结果大于或等于预设流畅度阈值的增强样本数据确定为目标多音字对应的目标样本数据。具体地,若流畅度评估结果大于或等于预设流畅度阈值,则表明增强样本数据是符合要求的正常语句,此时将增强样本数据确定为增加出的目标样本数据,从而保证样本数据增加的准确性。
需要说明的是,新的目标样本数据可以作为原有样本数据,重新执行步骤S120-S140,从而在新的目标样本数据的基础上继续进行数据增强,生成多种多样的新样本数据,扩充多音字的上下文场景。
本实施例的技术方案,通过获取包含目标多音字的原有样本数据,并基于预设数据增强方式,对原有样本数据中的目标多音字的上下文数据进行增强处理,确定包含目标多音字的增强样本数据。基于语言评估模型对增强样本数据进行语言流畅度评估,确定增强样本数据对应的流畅度评估结果,并基于流畅度评估结果,确定目标多音字对应的目标样本数据。通过利用预设数据增强方式和语言评估模型,可以在原有样本数据的基础上,自动生成包含目标多音字的目标样本数据,从而扩充多音字的上下文场景,无需人工参与,提高了语音样本数据生成效率。
在上述技术方案的基础上,在预设数据增强方式为形容词替换方式时,S120可以包括:识别出原有样本数据中的目标形容词;基于近义词表确定与目标形容词语义相近的第一近义词,或者基于同义词表确定与目标形容词语义相同的第一同义词;将原有样本数据中的目标形容词替换为第一近义词或者第一同义词,获得包含目标多音字的增强样本数据。
具体地,可以将原有样本数据输入至第一自然语言模型中进行形容词识别,并根据第一自然语言模型的输出,获得原有样本数据中的目标形容词,并在近义词表中查找与目标形容词语义相近的第一近义词,或者在同义词表中查找与目标形容词语义相同的第一同义词。将原有样本数据中的目标形容词替换为第一近义词或者第一同义词,从而可以生成与原有样本数据具有相同语义或者相近语义的新的样本数据,即增强样本数据。
在上述技术方案的基础上,在预设数据增强方式为动词替换方式时,S120可以包括:识别出原有样本数据中的目标动词;基于近义词表确定与目标动词语义相近的第二近义词,或者基于同义词表确定与目标动词语义相同的第二同义词;将原有样本数据中的目标动词替换为第二近义词或者第二同义词,获得包含目标多音字的增强样本数据。
具体地,可以将原有样本数据输入至第二自然语言模型中进行动词识别,并根据第二自然语言模型的输出,获得原有样本数据中的目标动词,并在近义词表中查找与目标动词语义相近的第二近义词,或者在同义词表中查找与目标动词语义相同的第二同义词。将原有样本数据中的目标形容词替换为第二近义词或者第二同义词,从而也可以生成与原有样本数据具有相同语义或者相近语义的新的样本数据,即增强样本数据。
在上述技术方案的基础上,在预设数据增强方式为掩码预测方式时,S120可以包括:将原有样本数据中的部分数据进行掩码处理,获得掩码样本数据;将掩码样本数据输入至预训练模型中进行掩码预测,获得预训练模型输出的预测掩码数据;若预测掩码数据与实际掩码数据不一致,则基于原有样本数据中的未掩码数据和预测掩码数据,确定包含目标多音字的增强样本数据。
其中,部分数据可以是原有数据中除目标多音字之外的短语和命名实体等,以便保证获得的增强样本数据中包含目标多音字。预训练模型可以是但不限于BERT(Bidirectional Encoder Representations from Transformer)模型。预训练模型可以是预训练获得的,能够学习到语义信息,以使生成的增强样本数据会保留原来的语义信息。实际掩码数据可以是指实际的被掩码数据。预测掩码数据可以是指预测出的被掩码数据。
具体地,可以随机地将原有样本数据中除目标多音字之外的部分数据进行掩码处理,也就是随机地将原有样本数据中除目标多音字之外的部分数据替换为特殊号,比如MASK,并将替换后的样本数据确定为掩码样本数据。将掩码样本数据输入至预训练模型中预测被掩码掉的数据,获得预训练模型输出的预测掩码数据。若输出多个预测掩码数据,则可以对多个预测掩码数据进行采样,并保证采样出的预测掩码数据不同于实际掩码数据。可以将不同于实际掩码数据的预测掩码数据和原有样本数据中的未掩码数据进行拼接,生成不同于原有样本数据的增强样本数据。例如,可以将原有样本数据中的实际掩码数据替换为预测掩码数据,生成新的增强样本数据。
在上述技术方案的基础上,在预设数据增强方式为语言转写方式时,S120可以包括:将原有样本数据输入至语言转写模型中进行数据转写或者摘要生成,获得语言转写模型输出的转写样本数据;若检测到转写样本数据中包含目标多音字,则将转写样本数据确定为增强样本数据。
其中,语言转写模型可以是文本序列对文本序列的转写模型。语言转写模型可以用于扩写文本序列,也可以生成摘要序列。转写样本数据可以是指扩写文本数据或者摘要文本数据等。例如,语言转写模型可以是预训练模型,比如BERT模型或者GPT(GenerativePre-Training,生成式预训练)模型等。
具体地,将原有样本数据输入至语言转写模型中进行数据转写或者摘要生成,并基于语言转写模型的输出,获得转写样本数据。检测转写样本数据中是否包含目标多音字,若是,则表明该转写样本数据为有效数据,此时确定该转写样本数据为增强样本数据。若不包含目标多音字,则可以利用不同的语音转写模型进行重新转写,进一步保证增强样本数据的有效性。例如,若原有样本数据是:“北京银行为广大的北京人民提供医疗保险服务”,则利用语言转写模型对该原有样本数据进行扩写后,获得的增强样本数据可以为:“北京银行为广大人民提供丰富多样的医疗保险服务”;利用语言转写模型对该原有样本数据进行摘要生成,获得的增强样本数据可以为:“北京银行为人民提供服务”。
在上述技术方案的基础上,在S140之后还可以包括:基于目标多音字对应的原有样本数据和目标样本数据,对多音字识别模型进行模型训练。
其中,多音字识别模型可以是用于识别输入数据中的多音字读音的网络模型。例如,多音字识别模型可以是但不限于条件随机场(Conditional Random Field,CRF)模型、二进制长短时间记忆网络(Binary Long Short-Term Memory,BLSTM)模型、卷积神经网络(Convolutional Neural Networks,CNN)模型、由预训练模型和全连接层构成的模型、由预训练模型和BLSTM构成的模型、或者由预训练模型和CRF构成的模型。
具体地,可以利用包含有目标多音字的原有样本数据和目标样本数据,对多音字识别模型进行模型训练,使得多音字识别模型根据多种多样的多音字上下文学习多音字的发音规律,从而提高多音字识别模型的识别准确性以及多音字识别模型的泛化性。
图2为本发明实施例提供的另一种语音样本数据生成方法的流程图,本实施例在上述各实施例的基础上,在预设数据增强方式为命名实体处理方式时对原有样本数据进行增强处理的过程进行了详细描述。其中与上述各实施例相同或相应的术语的解释在此不再赘述。
参见图2,本实施例提供的另一种语音样本数据生成方法具体包括以下步骤:
S210、获取包含目标多音字的原有样本数据。
S220、对原有样本数据进行命名实体识别,确定原有样本数据中的目标命名实体。
其中,命名实体可以是指语句中的人名、地名、公司名等。目标命名实体可以是指原有样本数据中所包含的命名实体。
具体地,可以利用命名实体识别方式,识别出原有样本数据中的所有目标命名实体。若识别出的目标命名实体包含目标多音字,则可以将该目标命名实体进行删除,以避免对包含有目标多音字的命名实体进行处理,进而保证生成的增强样本数据中包含目标多音字。
S230、基于预先构建出的知识图谱和目标命名实体,确定与目标命名实体存在关联的目标关联数据。
其中,知识图谱可以包含所有实体之间的语义关系和属性,以便从知识图谱中可以抽取到关联数据进行语句处理。目标关联数据是指与目标命名实体存在任一种关联关系的数据。
具体地,可以构建出包含有所有实体语义信息的知识图谱,并在知识图谱中查找与目标命名实体存在关联的目标关联数据。
示例性地,S230可以包括:基于预先构建出的知识图谱和目标命名实体,确定与目标命名实体属于并列关系的关联命名实体或者描述目标命名实体的目标描述数据。
具体地,目标关联数据可以包括与目标命名实体属于并列关系的关联命名实体,也可以包括描述目标命名实体的目标描述数据。例如,目标命名实体为:“北京银行”和“北京人民”,从知识图谱中可以查到与“北京银行”并列的关联命名实体为“宁波银行”,以及与“北京人民”并列的关联命名实体为“宁波人民”。或者,在知识图谱中可以查到“北京银行”的目标描述数据为:北京银行成立于1980年。
S240、基于目标关联数据,对原有样本数据进行数据处理,确定包含目标多音字的增强样本数据。
具体地,可以利用目标关联数据,对原有样本数据进行数据替换或者数据扩展,从而生成包含目标多音字新的增强样本数据。
示例性地,S240可以包括:将原有样本数据中的目标命名实体替换为关联命名实体,获得包含目标多音字的增强样本数据;或者,基于目标描述数据,对原有样本数据中的目标命名实体进行扩展描述,获得包含目标多音字的增强样本数据。
具体地,若原有样本数据是:“北京银行为广大的北京人民提供医疗保险服务”,则通过替换目标命名实体的方式,获得的增强样本数据为:“宁波银行为广大的宁波人民提供医疗保险服务”。通过扩展描述方式,获得的增强样本数据为:“1980年成立的北京银行为广大的北京人民提供医疗保险服务”。
S250、基于语言评估模型对增强样本数据进行语言流畅度评估,确定增强样本数据对应的流畅度评估结果。
S260、基于流畅度评估结果,确定目标多音字对应的目标样本数据。
本实施例的技术方案,通过识别原有样本数据中的目标命名实体,并利用预先构建出的知识图谱,准确地确定出与目标命名实体存在关联的目标关联数据,从而利用目标关联数据,可以更加准确地对原有样本数据进行数据处理,自动生成多种多样的增强样本数据,进一步提高样本数据的生成效率和生成准确性。
以下是本发明实施例提供的语音样本数据生成装置的实施例,该装置与上述各实施例的语音样本数据生成方法属于同一个发明构思,在语音样本数据生成装置的实施例中未详尽描述的细节内容,可以参考上述语音样本数据生成方法的实施例。
图3为本发明实施例提供的一种语音样本数据生成装置的结构示意图,本实施例可适用于对多音字的样本数据进行自动生成的情况。如图3所示,该装置具体包括:原有样本数据获取模块310、增强样本数据确定模块320、流畅度评估模块330和目标样本数据确定模块340。
其中,原有样本数据获取模块310,用于获取包含目标多音字的原有样本数据;增强样本数据确定模块320,用于基于预设数据增强方式,对所述原有样本数据中的所述目标多音字的上下文数据进行增强处理,确定包含所述目标多音字的增强样本数据;流畅度评估模块330,用于基于语言评估模型对所述增强样本数据进行语言流畅度评估,确定所述增强样本数据对应的流畅度评估结果;目标样本数据确定模块340,用于基于所述流畅度评估结果,确定所述目标多音字对应的目标样本数据。
本实施例的技术方案,通过获取包含目标多音字的原有样本数据,并基于预设数据增强方式,对原有样本数据中的目标多音字的上下文数据进行增强处理,确定包含目标多音字的增强样本数据。基于语言评估模型对增强样本数据进行语言流畅度评估,确定增强样本数据对应的流畅度评估结果,并基于所述流畅度评估结果,确定目标多音字对应的目标样本数据。通过利用预设数据增强方式和语言评估模型,可以在原有样本数据的基础上,自动生成包含目标多音字的目标样本数据,从而扩充多音字的上下文场景,无需人工参与,提高了语音样本数据生成效率。
可选地,所述预设数据增强方式包括:命名实体处理方式、掩码预测方式、语言转写方式、形容词替换方式和动词替换方式中的至少一种。
可选地,增强样本数据确定模块320,包括:
命名实体识别单元,用于对所述原有样本数据进行命名实体识别,确定所述原有样本数据中的目标命名实体;
目标关联数据确定单元,用于基于预先构建出的知识图谱和所述目标命名实体,确定与所述目标命名实体存在关联的目标关联数据;
增强样本数据确定单元,用于基于所述目标关联数据,对所述原有样本数据进行数据处理,确定包含所述目标多音字的增强样本数据。
可选地,目标关联数据确定单元,具体用于:基于预先构建出的知识图谱和所述目标命名实体,确定与所述目标命名实体属于并列关系的关联命名实体或者描述所述目标命名实体的目标描述数据;
增强样本数据确定单元,具体用于:将所述原有样本数据中的目标命名实体替换为所述关联命名实体,获得包含所述目标多音字的增强样本数据;或者,基于所述目标描述数据,对所述原有样本数据中的所述目标命名实体进行扩展描述,获得包含所述目标多音字的增强样本数据。
可选地,增强样本数据确定模块320,具体用于:
将所述原有样本数据中的部分数据进行掩码处理,获得掩码样本数据;将所述掩码样本数据输入至预训练模型中进行掩码预测,获得所述预训练模型输出的预测掩码数据;若所述预测掩码数据与实际掩码数据不一致,则基于所述原有样本数据中的未掩码数据和所述预测掩码数据,确定包含所述目标多音字的增强样本数据。
可选地,增强样本数据确定模块320,具体用于:
将所述原有样本数据输入至语言转写模型中进行数据转写或者摘要生成,获得所述语言转写模型输出的转写样本数据;若检测到所述转写样本数据中包含所述目标多音字,则将所述转写样本数据确定为增强样本数据。
可选地,目标样本数据确定模块340,具体用于:
将所述流畅度评估结果大于或等于预设流畅度阈值的增强样本数据确定为所述目标多音字对应的目标样本数据。
可选地,该装置还包括:
模型训练模块,用于在基于所述流畅度评估结果,确定所述目标多音字对应的目标样本数据之后,基于所述目标多音字对应的所述原有样本数据和所述目标样本数据,对多音字识别模型进行模型训练。
本发明实施例所提供的语音样本数据生成装置可执行本发明任意实施例所提供的语音样本数据生成方法,具备执行语音样本数据生成方法相应的功能模块和有益效果。
值得注意的是,上述语音样本数据生成装置的实施例中,所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
图4为本发明实施例提供的一种电子设备的结构示意图。图4示出了适于用来实现本发明实施方式的示例性电子设备12的框图。图4显示的电子设备12仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图4所示,电子设备12以通用计算设备的形式表现。电子设备12的组件可以包括但不限于:一个或者多个处理器或者处理单元16,系统存储器28,连接不同系统组件(包括系统存储器28和处理单元16)的总线18。
总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。
电子设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被电子设备12访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
系统存储器28可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)30和/或高速缓存存储器32。电子设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统34可以用于读写不可移动的、非易失性磁介质(图4未显示,通常称为“硬盘驱动器”)。尽管图4中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18相连。系统存储器28可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序模块42的程序/实用工具40,可以存储在例如系统存储器28中,这样的程序模块42包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。
电子设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信,还可与一个或者多个使得用户能与该电子设备12交互的设备通信,和/或与使得该电子设备12能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且,电子设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器20通过总线18与电子设备12的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备12使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
处理单元16通过运行存储在系统存储器28中的程序,从而执行各种功能应用以及数据处理,例如实现本发实施例所提供的一种语音样本数据生成方法步骤,该方法包括:
获取包含目标多音字的原有样本数据;
基于预设数据增强方式,对所述原有样本数据中的所述目标多音字的上下文数据进行增强处理,确定包含所述目标多音字的增强样本数据;
基于语言评估模型对所述增强样本数据进行语言流畅度评估,确定所述增强样本数据对应的流畅度评估结果;
基于所述流畅度评估结果,确定所述目标多音字对应的目标样本数据。
当然,本领域技术人员可以理解,处理器还可以实现本发明任意实施例所提供的语音样本数据生成方法的技术方案。
本实施例提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本发明任意实施例所提供的语音样本数据生成方法步骤,该方法包括:
获取包含目标多音字的原有样本数据;
基于预设数据增强方式,对所述原有样本数据中的所述目标多音字的上下文数据进行增强处理,确定包含所述目标多音字的增强样本数据;
基于语言评估模型对所述增强样本数据进行语言流畅度评估,确定所述增强样本数据对应的流畅度评估结果;
基于所述流畅度评估结果,确定所述目标多音字对应的目标样本数据。
本发明实施例的计算机存储介质,可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是但不限于:电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
本领域普通技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个计算装置上,或者分布在多个计算装置所组成的网络上,可选地,他们可以用计算机装置可执行的程序代码来实现,从而可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件的结合。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (9)

1.一种语音样本数据生成方法,其特征在于,包括:
获取包含目标多音字的原有样本数据;
基于预设数据增强方式,对所述原有样本数据中的所述目标多音字的上下文数据进行增强处理,确定包含所述目标多音字的增强样本数据,其中,所述预设数据增强方式为预先设置的、用于改变多音字上下文数据的方式;
基于语言评估模型对所述增强样本数据进行语言流畅度评估,确定所述增强样本数据对应的流畅度评估结果;
基于所述流畅度评估结果,确定所述目标多音字对应的目标样本数据;
所述预设数据增强方式包括:命名实体处理方式、掩码预测方式、语言转写方式、形容词替换方式和动词替换方式中的至少一种;
基于命名实体处理方式,对所述原有样本数据中的所述目标多音字的上下文数据进行增强处理,确定包含所述目标多音字的增强样本数据,包括:
对所述原有样本数据进行命名实体识别,确定所述原有样本数据中的目标命名实体;
基于预先构建出的知识图谱和所述目标命名实体,确定与所述目标命名实体存在关联的目标关联数据;
基于所述目标关联数据,对所述原有样本数据进行数据处理,确定包含所述目标多音字的增强样本数据。
2.根据权利要求1所述的方法,其特征在于,所述基于预先构建出的知识图谱和所述目标命名实体,确定与所述目标命名实体存在关联的目标关联数据,包括:
基于预先构建出的知识图谱和所述目标命名实体,确定与所述目标命名实体属于并列关系的关联命名实体或者描述所述目标命名实体的目标描述数据;
所述基于所述目标关联数据,对所述原有样本数据进行数据处理,确定包含所述目标多音字的增强样本数据,包括:
将所述原有样本数据中的目标命名实体替换为所述关联命名实体,获得包含所述目标多音字的增强样本数据;或者,
基于所述目标描述数据,对所述原有样本数据中的所述目标命名实体进行扩展描述,获得包含所述目标多音字的增强样本数据。
3.根据权利要求1所述的方法,其特征在于,基于掩码预测方式,对所述原有样本数据中的所述目标多音字的上下文数据进行增强处理,确定包含所述目标多音字的增强样本数据,包括:
将所述原有样本数据中的部分数据进行掩码处理,获得掩码样本数据;
将所述掩码样本数据输入至预训练模型中进行掩码预测,获得所述预训练模型输出的预测掩码数据;
若所述预测掩码数据与实际掩码数据不一致,则基于所述原有样本数据中的未掩码数据和所述预测掩码数据,确定包含所述目标多音字的增强样本数据。
4.根据权利要求1所述的方法,其特征在于,基于语言转写方式,对所述原有样本数据中的所述目标多音字的上下文数据进行增强处理,确定包含所述目标多音字的增强样本数据,包括:
将所述原有样本数据输入至语言转写模型中进行数据转写或者摘要生成,获得所述语言转写模型输出的转写样本数据;
若检测到所述转写样本数据中包含所述目标多音字,则将所述转写样本数据确定为增强样本数据。
5.根据权利要求1所述的方法,其特征在于,基于所述流畅度评估结果,确定所述目标多音字对应的目标样本数据,包括:
将所述流畅度评估结果大于或等于预设流畅度阈值的增强样本数据确定为所述目标多音字对应的目标样本数据。
6.根据权利要求1-5任一项所述的方法,其特征在于,在基于所述流畅度评估结果,确定所述目标多音字对应的目标样本数据之后,还包括:
基于所述目标多音字对应的所述原有样本数据和所述目标样本数据,对多音字识别模型进行模型训练。
7.一种语音样本数据生成装置,其特征在于,包括:
原有样本数据获取模块,用于获取包含目标多音字的原有样本数据;
增强样本数据确定模块,用于基于预设数据增强方式,对所述原有样本数据中的所述目标多音字的上下文数据进行增强处理,确定包含所述目标多音字的增强样本数据,其中,所述预设数据增强方式为预先设置的、用于改变多音字上下文数据的方式;
流畅度评估模块,用于基于语言评估模型对所述增强样本数据进行语言流畅度评估,确定所述增强样本数据对应的流畅度评估结果;
目标样本数据确定模块,用于基于所述流畅度评估结果,确定所述目标多音字对应的目标样本数据;
所述预设数据增强方式包括:命名实体处理方式、掩码预测方式、语言转写方式、形容词替换方式和动词替换方式中的至少一种;
所述增强样本数据确定模块,包括:
命名实体识别单元,用于对所述原有样本数据进行命名实体识别,确定所述原有样本数据中的目标命名实体;
目标关联数据确定单元,用于基于预先构建出的知识图谱和所述目标命名实体,确定与所述目标命名实体存在关联的目标关联数据;
增强样本数据确定单元,用于基于所述目标关联数据,对所述原有样本数据进行数据处理,确定包含所述目标多音字的增强样本数据。
8.一种电子设备,其特征在于,所述电子设备包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-6中任一所述的语音样本数据生成方法。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-6中任一所述的语音样本数据生成方法。
CN202310307878.9A 2023-03-27 2023-03-27 一种语音样本数据生成方法、装置、设备和存储介质 Active CN116341561B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310307878.9A CN116341561B (zh) 2023-03-27 2023-03-27 一种语音样本数据生成方法、装置、设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310307878.9A CN116341561B (zh) 2023-03-27 2023-03-27 一种语音样本数据生成方法、装置、设备和存储介质

Publications (2)

Publication Number Publication Date
CN116341561A CN116341561A (zh) 2023-06-27
CN116341561B true CN116341561B (zh) 2024-02-02

Family

ID=86883513

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310307878.9A Active CN116341561B (zh) 2023-03-27 2023-03-27 一种语音样本数据生成方法、装置、设备和存储介质

Country Status (1)

Country Link
CN (1) CN116341561B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113268989A (zh) * 2021-05-14 2021-08-17 北京金山数字娱乐科技有限公司 多音字处理方法及装置
CN113947086A (zh) * 2021-10-26 2022-01-18 北京沃东天骏信息技术有限公司 样本数据生成方法、训练方法、语料生成方法和装置
CN114049536A (zh) * 2021-11-17 2022-02-15 广西中烟工业有限责任公司 一种虚拟样本生成方法、装置、存储介质及电子设备
CN114708868A (zh) * 2022-03-17 2022-07-05 北京中科智加科技有限公司 一种文本顺滑的语音识别方法、系统及存储介质
CN115310460A (zh) * 2022-08-12 2022-11-08 京东科技信息技术有限公司 一种机器翻译质量评估方法、装置、设备和存储介质
CN115512682A (zh) * 2022-09-19 2022-12-23 北京世纪好未来教育科技有限公司 多音字读音预测方法、装置、电子设备及存储介质
CN115510863A (zh) * 2022-09-16 2022-12-23 武汉大学 一种面向问句匹配任务的数据增强方法
CN115840884A (zh) * 2022-12-14 2023-03-24 广东外语外贸大学 样本选择方法、装置、设备及介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113807098B (zh) * 2021-08-26 2023-01-10 北京百度网讯科技有限公司 模型训练方法和装置、电子设备以及存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113268989A (zh) * 2021-05-14 2021-08-17 北京金山数字娱乐科技有限公司 多音字处理方法及装置
CN113947086A (zh) * 2021-10-26 2022-01-18 北京沃东天骏信息技术有限公司 样本数据生成方法、训练方法、语料生成方法和装置
CN114049536A (zh) * 2021-11-17 2022-02-15 广西中烟工业有限责任公司 一种虚拟样本生成方法、装置、存储介质及电子设备
CN114708868A (zh) * 2022-03-17 2022-07-05 北京中科智加科技有限公司 一种文本顺滑的语音识别方法、系统及存储介质
CN115310460A (zh) * 2022-08-12 2022-11-08 京东科技信息技术有限公司 一种机器翻译质量评估方法、装置、设备和存储介质
CN115510863A (zh) * 2022-09-16 2022-12-23 武汉大学 一种面向问句匹配任务的数据增强方法
CN115512682A (zh) * 2022-09-19 2022-12-23 北京世纪好未来教育科技有限公司 多音字读音预测方法、装置、电子设备及存储介质
CN115840884A (zh) * 2022-12-14 2023-03-24 广东外语外贸大学 样本选择方法、装置、设备及介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Automatic Recognition of Lyrics in Singing;Annamaria Mesaros et.al;《EURASIP Journal on Audio, Speech, and Music》;第1-11页 *

Also Published As

Publication number Publication date
CN116341561A (zh) 2023-06-27

Similar Documents

Publication Publication Date Title
CN112528672B (zh) 一种基于图卷积神经网络的方面级情感分析方法及装置
JP5901001B1 (ja) 音響言語モデルトレーニングのための方法およびデバイス
JP6909832B2 (ja) オーディオにおける重要語句を認識するための方法、装置、機器及び媒体
CN110276023B (zh) Poi变迁事件发现方法、装置、计算设备和介质
CN110704576B (zh) 一种基于文本的实体关系抽取方法及装置
US10242670B2 (en) Syntactic re-ranking of potential transcriptions during automatic speech recognition
CN111062217B (zh) 语言信息的处理方法、装置、存储介质及电子设备
CN110415679B (zh) 语音纠错方法、装置、设备和存储介质
CN111611810A (zh) 一种多音字读音消歧装置及方法
EP4109324A2 (en) Method and apparatus for identifying noise samples, electronic device, and storage medium
Wu et al. Research on business English translation framework based on speech recognition and wireless communication
CN112185361B (zh) 一种语音识别模型训练方法、装置、电子设备及存储介质
CN116187282B (zh) 文本复述模型的训练方法、文本复述方法及装置
CN110874536A (zh) 语料质量评估模型生成方法和双语句对互译质量评估方法
CN111489746A (zh) 一种基于bert的电网调度语音识别语言模型构建方法
CN111597800A (zh) 同义句的获取方法及装置、设备及存储介质
CN113486170A (zh) 基于人机交互的自然语言处理方法、装置、设备及介质
CN113553853B (zh) 命名实体识别方法、装置、计算机设备及存储介质
WO2023045186A1 (zh) 意图识别方法、装置、电子设备和存储介质
CN114722832A (zh) 一种摘要提取方法、装置、设备以及存储介质
CN112559725A (zh) 文本匹配方法、装置、终端和存储介质
WO2023246719A1 (zh) 会议记录处理方法、装置、设备及存储介质
CN115169370B (zh) 语料数据增强方法、装置、计算机设备及介质
CN116341561B (zh) 一种语音样本数据生成方法、装置、设备和存储介质
CN114896382A (zh) 人工智能问答模型生成方法、问答方法、装置及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant