CN105590623A - 基于人工智能的字母音素转换模型生成方法及装置 - Google Patents
基于人工智能的字母音素转换模型生成方法及装置 Download PDFInfo
- Publication number
- CN105590623A CN105590623A CN201610102345.7A CN201610102345A CN105590623A CN 105590623 A CN105590623 A CN 105590623A CN 201610102345 A CN201610102345 A CN 201610102345A CN 105590623 A CN105590623 A CN 105590623A
- Authority
- CN
- China
- Prior art keywords
- node
- training
- word
- phoneme conversion
- nodes
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000006243 chemical reaction Methods 0.000 title claims abstract description 62
- 238000000034 method Methods 0.000 title claims abstract description 46
- 238000013473 artificial intelligence Methods 0.000 title claims abstract description 26
- 238000012549 training Methods 0.000 claims abstract description 88
- 230000007935 neutral effect Effects 0.000 claims abstract description 47
- 238000013528 artificial neural network Methods 0.000 claims abstract description 36
- 238000012545 processing Methods 0.000 claims abstract description 26
- 230000008569 process Effects 0.000 claims abstract description 22
- 238000012216 screening Methods 0.000 claims abstract description 13
- 230000000717 retained effect Effects 0.000 claims description 7
- 230000009466 transformation Effects 0.000 claims description 2
- 230000001537 neural effect Effects 0.000 description 9
- 230000008859 change Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000008901 benefit Effects 0.000 description 2
- 210000005036 nerve Anatomy 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/187—Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/025—Phonemes, fenemes or fenones being the recognition units
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Evolutionary Computation (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Signal Processing (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Machine Translation (AREA)
Abstract
本申请提出一种基于人工智能的字母音素转换模型生成方法及装置,其中,该方法包括:在应用神经网络对训练数据中的每个单词进行字母音素转换的每次训练过程中,按照预设的节点比例对所述神经网络的隐层节点进行随机筛选,获取用于训练每个单词的保留节点;应用与所述保留节点对应的子神经网络训练对应的单词,更新所述子神经网络各保留节点的相关权重;最终对所有子神经网络各保留节点的相关权重进行均值处理,生成字母音素转换模型。通过本申请提供的基于人工智能的字母音素转换模型生成方法和装置,提高了字母音素转换模型的学习能力和泛化能力,从而避免了过拟合现象。
Description
技术领域
本申请涉及人工智能技术领域,尤其涉及一种基于人工智能的字母音素转换模型生成方法及装置。
背景技术
人工智能(ArtificialIntelligence),英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语音识别、图像识别、自然语言处理和专家系统等。其中,人工智能最重要的方面就是语音识别技术。
字母到音素的转换模型(grapheme-to-phoneme,g2p)是英文语音合成中十分重要的处理模块,用于对接收到的单词中的字母转换成对应音素。现有技术中,通过深度神经网络技术来训练g2p模型,能够得到比基于统计语言模型更好的应用效果。
由于g2p模型的目标是将单词转换成对应的音素序列,而实际存在的单词数量也是相对固定的,也就是10万个单词左右。但是,g2p训练模型所需的数据量是相对固定的。通过深度神经网络来训练g2p模型的过程完全不同于声学模型的训练,具体如下:
通过神经网络训练声学模型时,由于可以不断地增加训练数据,因此神经网络的层数以及每一层的单元数可以不断增大,以此带来更好的性能。但对于g2p模型的训练来讲,如果增大网络层数以及每一层的单元数,但训练数据量还是相对不变的话,很容易造成过拟合现象的发生。所谓过拟合现象就是指,训练出来的g2p模型在训练数据上表现很好,但在测试数据上却表现得不如训练数据那样好。
然而,如果选择一个较小的网络来训练g2p模型,可以得到一个性能相对可以接受的g2p模型,但这样的网络的层数以及每一层的单元数都会相对较小,不如深层神经网络那样拥有更强的学习能力和泛化能力。
发明内容
本申请旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本申请的第一个目的在于提出一种基于人工智能的字母音素转换模型生成方法,该方法应用节点动态隐藏的深度神经网络训练数据,生成字母音素转换模型,提高了字母音素转换模型的学习能力和泛化能力,避免了过拟合现象。
本申请的第二个目的在于提出一种基于人工智能的字母音素转换模型生成装置。
为达上述目的,本申请第一方面实施例提出了一种基于人工智能的字母音素转换模型生成方法,包括:在应用神经网络对训练数据中的每个单词进行字母音素转换训练的过程中,按照预设的节点比例对所述神经网络的隐层节点进行随机筛选,获取用于训练每个单词的保留节点;应用与所述保留节点对应的子神经网络训练对应的单词,更新所述子神经网络各保留节点的相关权重;对所有子神经网络各保留节点的相关权重进行均值处理,生成字母音素转换模型。
本申请实施例的基于人工智能的字母音素转换模型生成方法,通过在应用神经网络对训练数据中的每个单词进行字母音素转换训练的过程中,按照预设的节点比例对所述神经网络的隐层节点进行随机筛选,获取用于训练每个单词的保留节点;应用与所述保留节点对应的子神经网络训练对应的单词,更新所述子神经网络各保留节点的相关权重;对所有子神经网络各保留节点的相关权重进行均值处理,生成字母音素转换模型。由此,实现了应用节点动态隐藏的深度神经网络训练数据,生成字母音素转换模型,提高了字母音素转换模型的学习能力和泛化能力,并且避免了过拟合现象。
为达上述目的,本申请第二方面实施例提出了一种基于人工智能的字母音素转换模型生成装置,包括:处理模块,用于在应用神经网络对训练数据中的每个单词进行字母音素转换训练的过程中,按照预设的节点比例对所述神经网络的隐层节点进行随机筛选,获取用于训练每个单词的保留节点;训练模块,用于应用与所述保留节点对应的子神经网络训练对应的单词,更新所述子神经网络各保留节点的相关权重;生成模块,用于对所有子神经网络各保留节点的相关权重进行均值处理,生成字母音素转换模型。
本申请实施例的基于人工智能的字母音素转换模型生成装置,通过在应用神经网络对训练数据中的每个单词进行字母音素转换训练的过程中,按照预设的节点比例对所述神经网络的隐层节点进行随机筛选,获取用于训练每个单词的保留节点;应用与所述保留节点对应的子神经网络训练对应的单词,更新所述子神经网络各保留节点的相关权重;对所有子神经网络各保留节点的相关权重进行均值处理,生成字母音素转换模型。由此,实现了应用节点动态隐藏的深度神经网络训练数据,生成字母音素转换模型,提高了字母音素转换模型的学习能力和泛化能力,并且避免了过拟合现象。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1是本申请一个实施例的基于人工智能的字母音素转换模型生成方法的流程图;
图2是三层神经网络示意图;
图3是加入防止过拟合技术训练的神经网络示意图;
图4是本申请一个实施例的基于人工智能的字母音素转换模型生成装置的结构示意图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本申请,而不能理解为对本申请的限制。
下面参考附图描述本申请实施例的基于人工智能的字母音素转换模型生成方法及装置。
图1是本申请一个实施例的基于人工智能的字母音素转换模型生成方法的流程图。
如图1所示,该基于人工智能的字母音素转换模型生成方法包括:
步骤101,在应用神经网络对训练数据中的每个单词进行字母音素转换训练的过程中,按照预设的节点比例对所述神经网络的隐层节点进行随机筛选,获取用于训练每个单词的保留节点。
步骤102,应用与所述保留节点对应的子神经网络训练对应的单词,更新所述子神经网络各保留节点的相关权重。
步骤103,对所有子神经网络各保留节点的相关权重进行均值处理,生成字母音素转换模型。
具体地,为了使得训练出的g2p模型能够拥有更强的泛化能力,本发明采用了深度神经网络来训练得到g2p模型。并且在应用神经网络对训练数据中的每个单词进行字母音素转换训练的过程中,通过对网络中部分节点的隐藏来防止模型过拟合。
需要解释的是,应用节点动态隐藏的神经网络训练数据,生成字母音素转换模型,并且防止生成的字母音素转换模型出现过拟合现象。其中,用于训练的神经网络为深度神经网络,在不同的训练场景中可以采用不同的模型,本实施例对此不作限制。例如:可以采用时间递归神经网络(Long-ShortTermMemory,LSTM)等。
深度神经网络包括三层:第一层为输入层、最后一层为输出层、中间的为隐层,有的神经网络具有一个隐层,有的神经网络具有多个隐层,每层都有节点。针对训练数据中单词量的大小,可以适应调整用于训练的深度神经网络的结构大小,具体包括调整深度神经网络结构的层数,以及每层的节点数量。
为了防止模型过拟合,本发明在每一次对输入单词的训练过程中,按照预设的节点比例对训练的神经网络的隐层节点进行随机筛选,获取用于训练每个单词的保留节点。
需要强调的是,节点比例反映出训练过程中对深度神经网络结构的简化程度,在训练之前,可以根据训练数据中的单词数量调整神经网络的层数、每层节点数、以及预设的节点比例。
需要注意的是,在不同的应用场景中可以采用不同的节点比例设置方式随机的对训练的神经网络的隐层节点进行筛选,获取用于训练每个单词的保留节点,举例说明如下:
第一种示例:节点隐藏比例
具体地,根据预设的节点隐藏比例,随机将神经网络中每层隐层节点中与节点隐藏比例对应数量的部分节点进行隐藏处理。进而,将每层隐层节点中没有隐藏的部分节点作为用于训练每个单词的保留节点。
第二种示例:节点保留比例
根据预设的节点保留比例,随机将神经网络中每层隐层节点中与节点保留比例对应数量的部分节点进行保留处理,作为用于训练每个单词的保留节点。
进而,应用与保留节点对应的子神经网络训练对应的单词,更新子神经网络各保留节点的相关权重。
也就是说,在模型训练中,不使用隐藏的节点(非保留节点),但是会保留它们所对应的权重,只是在这次训练中不再更新这些权重。当下次训练时,又重新随机地按照一定比例隐藏隐层的一些节点。如此周而复始。这种策略之所以能够达到抗过拟合的原因,就是因为,每次训练的时候,在隐藏一些节点后,实际上剩下的网络是一个相对原网络较小的网络,这样的网络基本不会过拟合。
最后,对所有子神经网络各保留节点的相关权重进行均值处理,生成字母音素转换模型。
可以理解的是,而每次训练时都随机地隐藏不同的节点实际上就是得到了很多小的网络,最后的结果可以认为是对这些小网络取平均的方式,而这是一种很有效的抗过拟合的方式。需要注意的是:上面所述的隐藏节点,不是真的删除,只是在当前训练时不使用这些节点,而在下次训练时,还会使用。
为了更加清楚的说明上述过程,通过图2和图3为例说明如下:
图2是三层神经网络示意图,如图2所示,输入层为3个节点,隐层为6个节点,输出层为2个节点。
图3是加入防止过拟合技术训练的神经网络示意图。参见图3,图3中用虚线画的节点表示的是该次训练中被隐藏的节点,也就是该次训练不考虑也不更新这些节点的相关权重,因此它们对应的权重也用虚线表示。实线画的节点表示的是该次训练中被保留的节点,也就是使用保留节点对数据进行训练,并更新这些节点的相关权重。
在利用神经网络训练数据,生成字母音素转换模型的过程中,为了更加清楚的描述使用部分节点隐藏技术生成模拟以防止过拟合,以及使用全部的节点生成模型的对比结果,通过表1的实验结果进行说明:
表1
模型 | 网络节点是否隐藏 | Phoneme错误率 |
256-BLSTM | 否 | 过拟合 |
256-BLSTM | 是 | 9.37% |
128-BLSTM+64-BLSTM+64-BLSTM | 否 | 过拟合 |
128-BLSTM+64-BLSTM+64-BLSTM | 是 | 8.81% |
128-BLSTM+128-BLSTM+64-BLSTM | 否 | 过拟合 |
128-BLSTM+128-BLSTM+64-BLSTM | 是 | 8.38% |
参见表1,只给出了这些模型的隐层网络的描述,比如,针对模型128-BLSTM+64-BLSTM+64-BLSTM,就是说明一个隐层拥有3个BLSTM的神经网络模型。
对于256-BLSTM模型,参数为64万,对于128-BLSTM+64-BLSTM+64-BLSTM模型,参数为44万,对于128-BLSTM+128-BLSTM+64-BLSTM模型,参数为74万。这些模型的参数是指节点边的权重,参数的数量对于我们的训练数据来讲,显然是多了。如果不在训练这个模型的时候隐藏部分节点,那么模型肯定会过拟合。通过隐藏神经网络中的部分节点来进行模型训练,能够很好地防止模型过拟合,并且训练出性能很好的模型。
从上面的描述以及实验已经看出,本发明的优点如下:
通过隐藏神经网络的部分节点训练g2p模型,使得在训练模型时可以适当增加网络层数以及每层的节点数,以此来提高模型的泛化能力并且不会使得过拟合现象的发生,从而使得将较大规模的神经网络运用在实际的g2p模型的训练上成为现实。
本申请实施例的基于人工智能的字母音素转换模型生成方法,通过在应用神经网络对训练数据中的每个单词进行字母音素转换训练的过程中,按照预设的节点比例对所述神经网络的隐层节点进行筛选,获取用于训练每个单词的保留节点;应用与所述保留节点对应的子神经网络训练对应的单词,更新所述子神经网络各保留节点的相关权重;对所有子神经网络各保留节点的相关权重进行均值处理,生成字母音素转换模型。由此,实现了应用节点动态隐藏的深度神经网络训练数据,生成字母音素转换模型,提高了字母音素转换模型的学习能力和泛化能力,并且避免了过拟合现象。
为了实现上述实施例,本申请还提出一种基于人工智能的字母音素转换模型生成装置。
图4是本申请一个实施例的基于人工智能的字母音素转换模型生成装置的结构示意图。
如图4所示,该基于人工智能的字母音素转换模型生成装置包括:
处理模块11,用于在应用神经网络对训练数据中的每个单词进行字母音素转换训练的过程中,按照预设的节点比例对所述神经网络的隐层节点进行随机筛选,获取用于训练每个单词的保留节点;
具体地,所述处理模块11用于:
按照预设的节点比例随机对所述神经网络的隐层节点进行筛选。
在一个实施例中,所述处理模块11用于:
根据预设的节点隐藏比例,将所述神经网络中每层隐层节点中与所述节点隐藏比例对应数量的部分节点进行隐藏处理,以使每层隐层节点中没有隐藏的部分节点作为用于训练每个单词的保留节点。
在另一个实施例中,所述处理模块11用于:
根据预设的节点保留比例,将所述神经网络中每层隐层节点中与所述节点保留比例对应数量的部分节点进行保留处理,作为用于训练每个单词的保留节点。
训练模块12,用于应用与所述保留节点对应的子神经网络训练对应的单词,更新所述子神经网络各保留节点的相关权重;
生成模块13,用于对所有子神经网络各保留节点的相关权重进行均值处理,生成字母音素转换模型。
基于上述实施例,进一步地,在另一个实施例中,所述处理模块11还用于:
根据所述训练数据中的单词数量调整所述神经网络的层数、每层节点数、以及所述预设的节点比例。
需要说明的是,前述对基于人工智能的字母音素转换模型生成方法实施例的解释说明也适用于该实施例的基于人工智能的字母音素转换模型生成装置,此处不再赘述。
本申请实施例的基于人工智能的字母音素转换模型生成装置,通过在应用神经网络对训练数据中的每个单词进行字母音素转换训练的过程中,按照预设的节点比例对所述神经网络的隐层节点进行随机筛选,获取用于训练每个单词的保留节点;应用与所述保留节点对应的子神经网络训练对应的单词,更新所述子神经网络各保留节点的相关权重;对所有子神经网络各保留节点的相关权重进行均值处理,生成字母音素转换模型。由此,实现了应用节点动态隐藏的深度神经网络训练数据,生成字母音素转换模型,提高了字母音素转换模型的学习能力和泛化能力,并且避免了过拟合现象。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本申请的实施例所属技术领域的技术人员所理解。
Claims (8)
1.一种基于人工智能的字母音素转换模型生成方法,其特征在于,包括以下步骤:
在应用神经网络对训练数据中的每个单词进行字母音素转换的训练过程中,按照预设的节点比例对所述神经网络的隐层节点进行随机筛选,获取用于训练每个单词的保留节点;
应用与所述保留节点对应的子神经网络训练对应的单词,更新所述子神经网络各保留节点的相关权重;
对所有子神经网络各保留节点的相关权重进行均值处理,生成字母音素转换模型。
2.如权利要求1所述的方法,其特征在于,所述按照预设的节点比例对所述神经网络的隐层节点进行随机筛选,获取用于训练每个单词的保留节点,包括:
根据预设的节点隐藏比例,随机将所述神经网络中每层隐层节点中与所述节点隐藏比例对应数量的部分节点进行隐藏处理,以使每层隐层节点中没有隐藏的部分节点作为用于训练每个单词的保留节点。
3.如权利要求1所述的方法,其特征在于,所述按照预设的节点比例对所述神经网络的隐层节点进行随机筛选,获取用于训练每个单词的保留节点,包括:
根据预设的节点保留比例,随机将所述神经网络中每层隐层节点中与所述节点保留比例对应数量的部分节点进行保留处理,作为用于训练每个单词的保留节点。
4.如权利要求1-3任一所述的方法,其特征在于,还包括:
根据所述训练数据中的单词数量调整所述神经网络的层数、每层节点数、以及所述预设的节点比例。
5.一种基于人工智能的字母音素转换模型生成装置,其特征在于,包括:
处理模块,用于在应用神经网络对训练数据中的每个单词进行字母音素转换的训练过程中,按照预设的节点比例对所述神经网络的隐层节点进行随机筛选,获取用于训练每个单词的保留节点;
训练模块,用于应用与所述保留节点对应的子神经网络训练对应的单词,更新所述子神经网络各保留节点的相关权重;
生成模块,用于对所有子神经网络各保留节点的相关权重进行均值处理,生成字母音素转换模型。
6.如权利要求5所述的装置,其特征在于,所述处理模块用于:
根据预设的节点隐藏比例,随机将所述神经网络中每层隐层节点中与所述节点隐藏比例对应数量的部分节点进行隐藏处理,以使每层隐层节点中没有隐藏的部分节点作为用于训练每个单词的保留节点。
7.如权利要求5所述的装置,其特征在于,所述处理模块用于:
根据预设的节点保留比例,随机将所述神经网络中每层隐层节点中与所述节点保留比例对应数量的部分节点进行保留处理,作为用于训练每个单词的保留节点。
8.如权利要求5-7任一所述的装置,其特征在于,所述处理模块还用于:
根据所述训练数据中的单词数量调整所述神经网络的层数、每层节点数、以及所述预设的节点比例。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610102345.7A CN105590623B (zh) | 2016-02-24 | 2016-02-24 | 基于人工智能的字母音素转换模型生成方法及装置 |
US15/391,907 US10181320B2 (en) | 2016-02-24 | 2016-12-28 | Computer-implemented method and apparatus for generating grapheme-to-phoneme model |
KR1020170018757A KR101885593B1 (ko) | 2016-02-24 | 2017-02-10 | 인공 지능을 기반으로 하는 자소 음소 변환 모델 생성 방법 및 장치 |
JP2017031713A JP6837866B2 (ja) | 2016-02-24 | 2017-02-23 | 人工知能による書記素音素変換モデル生成方法及び装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610102345.7A CN105590623B (zh) | 2016-02-24 | 2016-02-24 | 基于人工智能的字母音素转换模型生成方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105590623A true CN105590623A (zh) | 2016-05-18 |
CN105590623B CN105590623B (zh) | 2019-07-30 |
Family
ID=55930147
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610102345.7A Active CN105590623B (zh) | 2016-02-24 | 2016-02-24 | 基于人工智能的字母音素转换模型生成方法及装置 |
Country Status (4)
Country | Link |
---|---|
US (1) | US10181320B2 (zh) |
JP (1) | JP6837866B2 (zh) |
KR (1) | KR101885593B1 (zh) |
CN (1) | CN105590623B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105679308A (zh) * | 2016-03-03 | 2016-06-15 | 百度在线网络技术(北京)有限公司 | 基于人工智能的生成g2p模型和英文语音合成方法、装置 |
WO2019064158A1 (en) * | 2017-09-27 | 2019-04-04 | International Business Machines Corporation | CONVERSION BETWEEN GRAPHICS AND PHONEMES IN DIFFERENT LANGUAGES |
CN112530402A (zh) * | 2020-11-30 | 2021-03-19 | 深圳市优必选科技股份有限公司 | 一种语音合成方法、语音合成装置及智能设备 |
CN113366484A (zh) * | 2018-11-19 | 2021-09-07 | 因韦克有限责任公司 | 用于解释自然语言句子的神经网络 |
CN113496282A (zh) * | 2020-04-02 | 2021-10-12 | 北京金山数字娱乐科技有限公司 | 一种模型训练方法及装置 |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10229685B2 (en) * | 2017-01-18 | 2019-03-12 | International Business Machines Corporation | Symbol sequence estimation in speech |
AU2017425736A1 (en) * | 2017-07-31 | 2020-01-23 | Beijing Didi Infinity Technology And Development Co., Ltd. | System and method for language-based service hailing |
US20190228310A1 (en) * | 2018-01-19 | 2019-07-25 | International Business Machines Corporation | Generation of neural network containing middle layer background |
US11610110B2 (en) | 2018-12-05 | 2023-03-21 | Bank Of America Corporation | De-conflicting data labeling in real time deep learning systems |
KR20220088169A (ko) * | 2020-12-18 | 2022-06-27 | 삼성전자주식회사 | 인공지능 모델을 변환하는 전자 장치 및 그 동작 방법 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1184839A2 (de) * | 2000-08-31 | 2002-03-06 | Siemens Aktiengesellschaft | Graphem-Phonem-Konvertierung |
CN1667699A (zh) * | 2004-03-10 | 2005-09-14 | 微软公司 | 为字母-声音转换生成有互信息标准的大文法音素单元 |
CN1979637A (zh) * | 2005-12-05 | 2007-06-13 | 财团法人工业技术研究院 | 文字转音标的方法 |
CN102880906A (zh) * | 2012-07-10 | 2013-01-16 | 南京邮电大学 | 一种基于diva神经网络模型的汉语元音发音方法 |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7313467B2 (en) * | 2000-09-08 | 2007-12-25 | Automotive Technologies International Inc. | System and method for in-vehicle communications |
US6437804B1 (en) * | 1997-10-23 | 2002-08-20 | Aprisma Management Technologies, Inc | Method for automatic partitioning of node-weighted, edge-constrained graphs |
US11074495B2 (en) * | 2013-02-28 | 2021-07-27 | Z Advanced Computing, Inc. (Zac) | System and method for extremely efficient image and pattern recognition and artificial intelligence platform |
US9916538B2 (en) * | 2012-09-15 | 2018-03-13 | Z Advanced Computing, Inc. | Method and system for feature detection |
KR102219346B1 (ko) * | 2013-05-30 | 2021-02-23 | 프레지던트 앤드 펠로우즈 오브 하바드 칼리지 | 베이지안 최적화를 수행하기 위한 시스템 및 방법 |
US20150294245A1 (en) * | 2014-04-14 | 2015-10-15 | Ajay R Nagar | Method and system for handling program, project and asset scheduling management with reserves management and application integration |
US20150324690A1 (en) * | 2014-05-08 | 2015-11-12 | Microsoft Corporation | Deep Learning Training System |
KR102239714B1 (ko) | 2014-07-24 | 2021-04-13 | 삼성전자주식회사 | 신경망 학습 방법 및 장치, 데이터 처리 장치 |
US10733499B2 (en) * | 2014-09-02 | 2020-08-04 | University Of Kansas | Systems and methods for enhancing computer assisted high throughput screening processes |
US9817893B2 (en) * | 2015-02-18 | 2017-11-14 | Adobe Systems Incorporated | Tracking changes in user-generated textual content on social media computing platforms |
US9595002B2 (en) * | 2015-05-29 | 2017-03-14 | Sas Institute Inc. | Normalizing electronic communications using a vector having a repeating substring as input for a neural network |
US9697820B2 (en) * | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
US20170154258A1 (en) * | 2015-11-30 | 2017-06-01 | National Institute Of Information And Communications Technology | Joint estimation method and method of training sequence-to-sequence model therefor |
US9934775B2 (en) * | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
-
2016
- 2016-02-24 CN CN201610102345.7A patent/CN105590623B/zh active Active
- 2016-12-28 US US15/391,907 patent/US10181320B2/en active Active
-
2017
- 2017-02-10 KR KR1020170018757A patent/KR101885593B1/ko active IP Right Grant
- 2017-02-23 JP JP2017031713A patent/JP6837866B2/ja active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1184839A2 (de) * | 2000-08-31 | 2002-03-06 | Siemens Aktiengesellschaft | Graphem-Phonem-Konvertierung |
US20020046025A1 (en) * | 2000-08-31 | 2002-04-18 | Horst-Udo Hain | Grapheme-phoneme conversion |
CN1667699A (zh) * | 2004-03-10 | 2005-09-14 | 微软公司 | 为字母-声音转换生成有互信息标准的大文法音素单元 |
CN1979637A (zh) * | 2005-12-05 | 2007-06-13 | 财团法人工业技术研究院 | 文字转音标的方法 |
CN102880906A (zh) * | 2012-07-10 | 2013-01-16 | 南京邮电大学 | 一种基于diva神经网络模型的汉语元音发音方法 |
Non-Patent Citations (2)
Title |
---|
DOMOKOS JOZSEF ETC: "Automated Grapheme-to-Phoneme Conversion System for Romanian", 《2011 6TH CONFERENCE ON SPEECH TECHNOLOGY AND HUMAN-COMPUTER DIALOGUE》 * |
王阳: "消除隐层冗余信息的改进神经网络及应用", 《中国优秀硕士学位论文全文数据库-信息科技辑》 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105679308A (zh) * | 2016-03-03 | 2016-06-15 | 百度在线网络技术(北京)有限公司 | 基于人工智能的生成g2p模型和英文语音合成方法、装置 |
WO2019064158A1 (en) * | 2017-09-27 | 2019-04-04 | International Business Machines Corporation | CONVERSION BETWEEN GRAPHICS AND PHONEMES IN DIFFERENT LANGUAGES |
US11138965B2 (en) | 2017-09-27 | 2021-10-05 | International Business Machines Corporation | Generating phonemes of loan words using two converters |
US11195513B2 (en) | 2017-09-27 | 2021-12-07 | International Business Machines Corporation | Generating phonemes of loan words using two converters |
CN113366484A (zh) * | 2018-11-19 | 2021-09-07 | 因韦克有限责任公司 | 用于解释自然语言句子的神经网络 |
CN113496282A (zh) * | 2020-04-02 | 2021-10-12 | 北京金山数字娱乐科技有限公司 | 一种模型训练方法及装置 |
CN112530402A (zh) * | 2020-11-30 | 2021-03-19 | 深圳市优必选科技股份有限公司 | 一种语音合成方法、语音合成装置及智能设备 |
CN112530402B (zh) * | 2020-11-30 | 2024-01-12 | 深圳市优必选科技股份有限公司 | 一种语音合成方法、语音合成装置及智能设备 |
Also Published As
Publication number | Publication date |
---|---|
CN105590623B (zh) | 2019-07-30 |
JP2017151438A (ja) | 2017-08-31 |
KR101885593B1 (ko) | 2018-08-06 |
JP6837866B2 (ja) | 2021-03-03 |
US20170243575A1 (en) | 2017-08-24 |
US10181320B2 (en) | 2019-01-15 |
KR20170099763A (ko) | 2017-09-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105590623A (zh) | 基于人工智能的字母音素转换模型生成方法及装置 | |
JP6682595B2 (ja) | イメージセグメンテーションのための学習方法及び学習装置、そしてこれを利用したイメージセグメンテーション方法及びイメージセグメンテーション装置 | |
CN104538028B (zh) | 一种基于深度长短期记忆循环神经网络的连续语音识别方法 | |
CN109036465B (zh) | 语音情感识别方法 | |
KR102288280B1 (ko) | 영상 학습 모델을 이용한 영상 생성 방법 및 장치 | |
KR102276339B1 (ko) | Cnn의 근사화를 위한 학습 장치 및 방법 | |
CN112289342A (zh) | 使用神经网络生成音频 | |
CN109346063B (zh) | 一种语音数据增强方法 | |
CN106779068A (zh) | 调整人工神经网络的方法和装置 | |
CN107766447A (zh) | 一种使用多层注意力网络机制解决视频问答的方法 | |
CN109544662A (zh) | 一种基于SRUnet的动漫风格线稿上色方法及系统 | |
US9875737B2 (en) | Pre-training apparatus and method for speech recognition | |
CN106776517A (zh) | 自动作诗方法和装置及系统 | |
US9317808B2 (en) | Predictive system for designing enterprise applications | |
JP2020123345A (ja) | Ganを用いて仮想世界における仮想データから取得したトレーニングデータを生成して、自律走行用ニューラルネットワークの学習プロセスに必要なアノテーションコストを削減する学習方法や学習装置、それを利用したテスト方法やテスト装置 | |
CN109740012A (zh) | 基于深度神经网络对图像语义进行理解和问答的方法 | |
CN106297778A (zh) | 数据驱动的基于奇异值分解的神经网络声学模型裁剪方法 | |
CN105895104A (zh) | 说话人自适应识别方法及系统 | |
CN108171148A (zh) | 一种唇语学习云平台建立的方法和系统 | |
JP2637760B2 (ja) | パターン学習・生成方式 | |
DE69820497T2 (de) | Neuronales netzwerk und seine anwendung für die spracherkennung | |
CN113066475B (zh) | 一种基于生成式对抗网络的语音合成方法 | |
CN105989510A (zh) | 一种基于神经网络的在线商品推荐系统、装置及移动终端 | |
JP2020123337A (ja) | スマートフォン、ドローン、船舶または軍事的目的のための、トレーニングイメージの最適化サンプリングにより入力データを分析するニューラルネットワークのオンデバイス連続学習方法及び装置、そして、これを利用したテスト方法及び装置 | |
CN115472279B (zh) | 一种基于人工智能的远程按摩控制方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |