CN110909879A - 自回归神经网络消歧模型、训练及使用方法、装置、系统 - Google Patents
自回归神经网络消歧模型、训练及使用方法、装置、系统 Download PDFInfo
- Publication number
- CN110909879A CN110909879A CN201911251486.5A CN201911251486A CN110909879A CN 110909879 A CN110909879 A CN 110909879A CN 201911251486 A CN201911251486 A CN 201911251486A CN 110909879 A CN110909879 A CN 110909879A
- Authority
- CN
- China
- Prior art keywords
- neural network
- model
- text
- disambiguation
- autoregressive
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 57
- 238000000034 method Methods 0.000 title claims abstract description 26
- 238000003062 neural network model Methods 0.000 claims description 32
- 230000000644 propagated effect Effects 0.000 claims description 5
- 238000010276 construction Methods 0.000 claims description 3
- 238000004891 communication Methods 0.000 abstract description 2
- 230000006870 function Effects 0.000 description 13
- 238000010586 diagram Methods 0.000 description 5
- 238000000605 extraction Methods 0.000 description 4
- 239000013598 vector Substances 0.000 description 4
- 241000238557 Decapoda Species 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 239000003292 glue Substances 0.000 description 3
- 241001672694 Citrus reticulata Species 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 235000013601 eggs Nutrition 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 235000013372 meat Nutrition 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Computing Systems (AREA)
- Multimedia (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Signal Processing (AREA)
- Machine Translation (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
本发明公开了一种自回归神经网络消歧模型、训练及使用方法、装置、系统,属于语音通信技术领域。该自回归神经网络消歧模型训练方法包括获取训练数据集和训练模型,将训练文本输入模型后,模型对输出的发音序列进行自回归,直至得到自回归神经网络消歧模型。采用此模型对多音字进行发音预测时,将包含了多音字的文本输入自回归神经网络消歧模型,模型直接输出该文本的发音序列。本发明减少了模型所需训练数据的数量和模型整体的参数数量,简化了消歧流程,解决了变调现象产生的多音字发音无法通过语义和词性等非语音信息进行有效预测的问题。
Description
技术领域
本发明涉及语音通信技术领域,特别是一种自回归神经网络消歧模型训练方法、模型及其应用。
背景技术
多音字消歧技术常用于发音词典制作、语音合成(Text-To-Speech, TTS)等涉及字音转换的技术领域。由于这些领域都涉及到将文本转换为相应的发音序列,因此发音序列的准确度会对模型输出有明显影响。世界上多数语言中都存在多音字/词(即同文不同音),而在中国部分方言中,多音字现象更加广泛。对多音字/词的发音预测成为了不可避免的技术挑战。
确定一个多音字的发音需要考虑相关变量的影响,同时也需要建立合适的消歧模型。根据现有相关科技文献,从相关变量(特征)的角度讲,模型的输入文本包含的语义和词性信息被普遍认为是多音字消歧中最关键的变量。从消歧模型的角度讲,使用较多的模型有基于规则的生成模型、基于统计的概率模型、深度神经网络模型等。
而在中国的普通话及多数方言中存在多种语调,因而多音字的发音常受变调影响。在变调情况下,多音字的发音受该字的语义和词性信息影响较小,而更多地受上下文发音影响。例如普通话中的“不”,在“不是”中读bú, 而在“不行”中读bù;长沙话中的“虾”,在“虾仁”中读xiā,而在“虾子”中读hā。这类多音字仅凭从输入文本提取的语义、词性、长度、位置等特征信息难以判断其发音,而若通过发音概率统计来预测其发音,则需要大量的训练数据。
发明内容
本发明主要解决的技术问题是提供一种自回归神经网络消歧模型训练方法、模型及其应用,建立通用于某种方言的多音字消歧模型,减少模型参数和训练模型所需数据的数量。
为了实现上述目的,本发明采用的第一个技术方案是:一种自回归神经网络消歧模型的训练方法,其特征在于包括:
获取训练数据集步骤,其获取第一文本及第一发音序列,将所述第一文本及所述第一发音序列整理得到所述训练数据集,所述第一发音序列与所述第一文本相互对应,所述第一文本包含有多音字;
训练模型步骤,其将所述第一文本输入神经网络模型,所述神经网络模型输出第二发音序列,将所述第二发音序列输入所述神经网络模型进行自回归,直至所述神经网络模型输出所述第一发音序列,得到所述自回归神经网络消歧模型。
优选的,在所述第二发音序列自回归过程中,将所述神经网络模型的输出与所述第一发音序列一同输入损失函数,从而将所述损失函数的数值在所述神经网络模型中进行反向传播,此为迭代一次,重复所述迭代一次的过程直至损失函数值收敛。
本发明采用的第二个技术方案是:一种自回归神经网络消歧模型,其特征在于,包括:
训练数据集获取模块,其获取第一文本及第一发音序列,并将所述第一文本及所述第一发音序列整理得到所述训练数据集,所述第一发音序列与所述第一文本相互对应,所述第一文本包含有多音字;
训练模块,其将所述第一文本输入神经网络模型,所述神经网络模型输出第二发音序列,将所述第二发音序列输入所述神经网络模型进行自回归,直至所述神经网络模型输出所述第一发音序列,得到所述自回归神经网络消歧模型。
优选的,所述第二发音序列自回归时,所述神经网络模型的输出与所述第一发音序列一同输入损失函数,从而将所述损失函数的数值在所述神经网络模型中进行反向传播,此为迭代一次,重复所述迭代一次的过程直至损失函数值收敛。
本发明采用的第三个技术方案是:一种使用自回归神经网络消歧模型进行多音字消歧的方法,其特征在于,包括:
获取第三文本,所述第三文本包含有多音字;以及
使用自回归神经网络消歧模型对所述第三文本进行发音预测,得到第三发音序列。
本发明采用的第四个技术方案是:一种使用自回归神经网络消歧模型进行多音字消歧的装置,其特征在于,包括:
构建模块,用于构建所述自回归神经网络消歧模型;
获取模块,其获取第三文本,所述第三文本包含有多音字;
预测模块,其使用所述自回归神经网络消歧模型对所述第三文本进行发音预测,得到第三发音序列。
本发明采用的第五个技术方案是:一种使用自回归神经网络消歧模型进行多音字消歧的计算机系统,其特征在于,包括:
输入装置,其传输包含多音字的文本;
处理器,其与所述输入装置连接,使用所述自回归神经网络消歧模型对所述包含多音字的文本进行发音预测,得到所述文本的发音序列;
输出装置,其与所述处理器连接,用于显示或播放所述发音序列。
本发明的有益效果:
本发明通过自回归方式训练得到自回归神经网络消歧模型,并利用其进行多音字发音预测,充分利用输入文本和当前已输出发音序列,有效减少了模型所需训练数据的数量和模型本身的参数数量。
本发明采用端到端模型,将特征提取步骤内化在模型内部,特征提取的算法将由模型自动习得,简化了消歧流程。
本发明充分利用了上下文的语音信息,解决了变调现象产生的多音字发音无法通过语义和词性等非语音信息进行有效预测的问题,同时对非变调现象产生的多音字发音依然能够有效预测。
附图说明
图1是本发明一种自回归神经网络消歧模型训练方法的流程图;
图2是本发明一种自回归神经网络消歧模型示意图;
图3是本发明一种使用自回归神经网络消歧模型进行多音字消歧的方法的流程图;
图4是本发明一种使用自回归神经网络消歧模型进行多音字消歧的装置示意图;
图5是本发明一种使用自回归神经网络消歧模型进行多音字消歧的计算机系统结构示意图。
具体实施方式
下面结合附图对本发明的较佳实施例进行详细阐述,以使本发明的优点和特征能更易于被本领域技术人员理解,从而对本发明的保护范围做出更为清楚明确的界定。
需要说明的是,本申请权利要求书和说明书中的术语“第一”、“第二”、“第三”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
图1所示为本发明一种自回归神经网络消歧模型训练方法,主要包括如下步骤:
获取训练数据集,搜集和整理含有多音字的文本(例如“胶水不粘了,书页粘不紧”)及此文本对应的发音序列(例如“jiāo shuǐ bù nián le, shū yè zhān bù jǐn”),将含有多音字的文本及其发音序列作为样本,每一个样本作为一个训练数据,将采集到的所有样本整理为一个训练数据集;
选择模型进行训练,为了简化多音字消歧的步骤,本发明模型将端到端神经网络模型和自回归模型整合后形成了自回归神经网络消歧模型。此模型包含多个神经层的集合,神经层类型包含深度神经网络(DNN)、单向或双向循环神经网络(RNN)、归一化层、注意力(Attention)机制等。模型训练使用的损失函数包括交叉熵(Cross Entuopy)、均方误差(Mean Squared Error)、Focal Loss等。
将训练数据集中的文本(例如“胶水不粘了,书页粘不紧”)输入神经网络模型,此神经网络模型输出该文本的发音序列,将该文本的发音序列输入神经网络模型进行自回归。将模型的输出与训练数据集中的发音序列一同输入损失函数,再将损失函数的数值在模型中进行反向传播,此为迭代一次。按照这种方式,迭代多次,直至损失函数值收敛,模型输出文本对应的发音序列(例如“jiāo shuǐ bù nián le, shū yè zhān bù jǐn”),从而得到自回归神经网络消歧模型。
在自回归神经网络消歧模型训练过程中,神经网络模型输出文本的发音序列和此文本的真实发音序列(例如“jiāo shuǐ bù nián le, shū yè zhān bù jǐn”)可能存在差别。当自回归神经网络消歧模型训练完成后,其输出文本的发音序列即为文本的真实发音序列(例如“jiāo shuǐ bù nián le, shū yè zhān bù jǐn”)。
经过样本训练构建的自回归神经网络消歧模型仅需要输入含有多音字的文本,即可输出该文本对应的发音序列。不再需要设计多个模块的结构和算法,从而简化了多音字消歧的流程,降低了多音字消歧的复杂度。
图2所示为本发明一种自回归神经网络消歧模型结构,主要包括训练数据集获取模块和训练模块。训练数据集获取模块主要是获取含有多音字的文本(例如“胶水不粘了,书页粘不紧”)及该文本对应的发音序列(例如“jiāo shuǐ bù nián le, shū yè zhān bùjǐn”)。并将获取的文本及对应的发音序列作为样本,整理成训练模型用的数据集。训练模块主要将训练数据集模块中的文本输入模型,模型内部自动进行特征向量(比如语义特征、词性特征、上下文发音特征和位置特征)提取,输出文本的发音序列,然后将此发音序列重新输入自回归神经网络消歧模型进行自回归,将模型的输出与训练数据集中的发音序列一同输入损失函数,再将损失函数的数值在模型中进行反向传播,此为迭代一次。按照这种方式,迭代多次,直至损失函数值收敛,模型输出文本的真实发音序列(例如“jiāo shuǐ bùnián le, shū yè zhān bù jǐn”),得到自回归神经网络消歧模型。
图3所示为本发明一种使用自回归神经网络消歧模型进行多音字消歧的方法 ,主要包括如下步骤:
获取包含多音字的文本(例如“名称和实物要相称”),并将其作为需要消歧的样本;
将整理好的文本样本输入自回归神经网络消歧模型,模型自动提取文本样品的特征并以自回归的方式进行发音预测,模型输出文本对应的发音序列(例如“míng chēng hé shíwù yào xiāng chèn”)。
其中,模型提取的文本样品的特征值包括已预测发音序列中的发音序列(例如“jiāo shuǐ bù nián le, shū yè zhān bù jǐn”)特征向量、多音字的文本(例如“名称和实物要相称”)中的字/词向量、文本中其它有价值的特征向量。
图4所示为本发明一种使用自回归神经网络消歧模型进行多音字消歧的装置,主要包括构建模块、获取模块及预测模块。
构建模块主要作用是构建自回归神经网络消歧模型。
获取模块主要作用是获取含有多音字的文本,该文本中的多音字发音未确定,需要进行消歧处理。
预测模块,将获取模块中的文本样本输入自回归神经网络模型,模型自动把已经完成预测并输出的发音序列再次输入模型,模型在输入端自动提取包括文本特征的信息。模型内部采用自回归的方式对文本样本进行发音预测。模型在输出端输出文本样本对应的发音序列。
图5所示为本发明一种使用自回归神经网络消歧模型进行多音字消歧的计算机系统,主要包括输入装置、处理器及输出装置。
输入装置可以采用手机、平板电脑、鼠标、键盘等,输入包含多音字的文本从而将该文本传输至处理器;
处理器接收输入装置传输的文本,利用自回归神经网络消歧模型对包含多音字的文本进行发音预测,得到该文本的发音序列。并将此发音序列传输至输出装置;
输出装置采用字幕显示或语音播报的形式输出此发音序列。该输出装置可以采用显示器、显示屏、扬声器、麦克风等。
本发明将自回归模型和端到端神经网络模型进行了整合,充分利用输入文本和已完成预测并输出的发音序列,有效减少了模型所需训练数据的数量和模型本身的参数数量。同时将特征提取步骤内化在模型内部,特征提取的算法将由模型自动习得,简化了消歧流程。
含有多音字的文本经过本发明预测后直接输出相应的发音序列,充分利用了上下文的语音信息,解决了变调现象产生的多音字发音无法通过语义和词性等非语音信息进行有效预测的问题,同时对非变调现象产生的多音字发音依然能够有效预测。
以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (7)
1.一种自回归神经网络消歧模型的训练方法,其特征在于包括:
获取训练数据集步骤,其获取第一文本及第一发音序列,将所述第一文本及所述第一发音序列整理得到所述训练数据集,所述第一发音序列与所述第一文本相互对应,所述第一文本包含有多音字;
训练模型步骤,其将所述第一文本输入神经网络模型,所述神经网络模型输出第二发音序列,将所述第二发音序列输入所述神经网络模型进行自回归,直至所述神经网络模型输出所述第一发音序列,得到所述自回归神经网络消歧模型。
2.如权利要求1所述的自回归神经网络消歧模型的训练方法,其特征在于,在所述第二发音序列自回归过程中,将所述神经网络模型的输出与所述第一发音序列一同输入损失函数,从而将所述损失函数的数值在所述神经网络模型中进行反向传播,此为迭代一次,重复所述迭代一次的过程直至损失函数值收敛。
3.一种自回归神经网络消歧模型,其特征在于,包括:
训练数据集获取模块,其获取第一文本及第一发音序列,并将所述第一文本及所述第一发音序列整理得到所述训练数据集,所述第一发音序列与所述第一文本相互对应,所述第一文本包含有多音字;
训练模块,其将所述第一文本输入神经网络模型,所述神经网络模型输出第二发音序列,将所述第二发音序列输入所述神经网络模型进行自回归,直至所述神经网络模型输出所述第一发音序列,得到所述自回归神经网络消歧模型。
4.如权利要求3所述的自回归神经网络消歧模型,其特征在于,
所述第二发音序列自回归时,所述神经网络模型的输出与所述第一发音序列一同输入损失函数,从而将所述损失函数的数值在所述神经网络模型中进行反向传播,此为迭代一次,重复所述迭代一次的过程直至损失函数值收敛。
5.一种使用权利要求3或4所述的自回归神经网络消歧模型进行多音字消歧的方法,其特征在于,包括:
获取第三文本,所述第三文本包含有多音字;以及
使用所述自回归神经网络消歧模型对所述第三文本进行发音预测,得到第三发音序列。
6.一种使用权利要求3或4所述的自回归神经网络消歧模型进行多音字消歧的装置,其特征在于,包括:
构建模块,用于构建所述自回归神经网络消歧模型;
获取模块,其获取第三文本,所述第三文本包含有多音字;
预测模块,其使用所述自回归神经网络消歧模型对所述第三文本进行发音预测,得到第三发音序列。
7.一种使用权利要求3或4所述的自回归神经网络消歧模型进行多音字消歧的计算机系统,其特征在于,包括:
输入装置,其传输包含多音字的文本;
处理器,其与所述输入装置连接,使用所述自回归神经网络消歧模型对所述包含多音字的文本进行发音预测,得到所述文本的发音序列;
输出装置,其与所述处理器连接,用于显示或播放所述发音序列。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911251486.5A CN110909879A (zh) | 2019-12-09 | 2019-12-09 | 自回归神经网络消歧模型、训练及使用方法、装置、系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911251486.5A CN110909879A (zh) | 2019-12-09 | 2019-12-09 | 自回归神经网络消歧模型、训练及使用方法、装置、系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110909879A true CN110909879A (zh) | 2020-03-24 |
Family
ID=69823599
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911251486.5A Pending CN110909879A (zh) | 2019-12-09 | 2019-12-09 | 自回归神经网络消歧模型、训练及使用方法、装置、系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110909879A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111599340A (zh) * | 2020-07-27 | 2020-08-28 | 南京硅基智能科技有限公司 | 一种多音字读音预测方法、装置及计算机可读存储介质 |
CN111611810A (zh) * | 2020-05-29 | 2020-09-01 | 河北数云堂智能科技有限公司 | 一种多音字读音消歧装置及方法 |
CN112348073A (zh) * | 2020-10-30 | 2021-02-09 | 北京达佳互联信息技术有限公司 | 一种多音字识别方法、装置、电子设备及存储介质 |
CN112800750A (zh) * | 2021-01-26 | 2021-05-14 | 浙江香侬慧语科技有限责任公司 | 一种无监督的非自回归古诗生成方法、装置及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106910497A (zh) * | 2015-12-22 | 2017-06-30 | 阿里巴巴集团控股有限公司 | 一种中文词语发音预测方法及装置 |
US20170358293A1 (en) * | 2016-06-10 | 2017-12-14 | Google Inc. | Predicting pronunciations with word stress |
CN107515850A (zh) * | 2016-06-15 | 2017-12-26 | 阿里巴巴集团控股有限公司 | 确定多音字发音的方法、装置和系统 |
CN110277085A (zh) * | 2019-06-25 | 2019-09-24 | 腾讯科技(深圳)有限公司 | 确定多音字发音的方法及装置 |
-
2019
- 2019-12-09 CN CN201911251486.5A patent/CN110909879A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106910497A (zh) * | 2015-12-22 | 2017-06-30 | 阿里巴巴集团控股有限公司 | 一种中文词语发音预测方法及装置 |
US20170358293A1 (en) * | 2016-06-10 | 2017-12-14 | Google Inc. | Predicting pronunciations with word stress |
CN107515850A (zh) * | 2016-06-15 | 2017-12-26 | 阿里巴巴集团控股有限公司 | 确定多音字发音的方法、装置和系统 |
CN110277085A (zh) * | 2019-06-25 | 2019-09-24 | 腾讯科技(深圳)有限公司 | 确定多音字发音的方法及装置 |
Non-Patent Citations (2)
Title |
---|
高健: "基于神经网络的汉字多音字标音处理方法", 《番禺职业技术学院学报》 * |
黄宏伟等: "《城市地铁盾构隧道病害快速检测与工程实践》", 31 January 2019, 上海科学技术出版社 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111611810A (zh) * | 2020-05-29 | 2020-09-01 | 河北数云堂智能科技有限公司 | 一种多音字读音消歧装置及方法 |
CN111611810B (zh) * | 2020-05-29 | 2023-08-04 | 河北数云堂智能科技有限公司 | 一种多音字读音消歧装置及方法 |
CN111599340A (zh) * | 2020-07-27 | 2020-08-28 | 南京硅基智能科技有限公司 | 一种多音字读音预测方法、装置及计算机可读存储介质 |
CN112348073A (zh) * | 2020-10-30 | 2021-02-09 | 北京达佳互联信息技术有限公司 | 一种多音字识别方法、装置、电子设备及存储介质 |
CN112348073B (zh) * | 2020-10-30 | 2024-05-17 | 北京达佳互联信息技术有限公司 | 一种多音字识别方法、装置、电子设备及存储介质 |
CN112800750A (zh) * | 2021-01-26 | 2021-05-14 | 浙江香侬慧语科技有限责任公司 | 一种无监督的非自回归古诗生成方法、装置及存储介质 |
CN112800750B (zh) * | 2021-01-26 | 2024-06-07 | 浙江香侬慧语科技有限责任公司 | 一种无监督的非自回归古诗生成方法、装置及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7464621B2 (ja) | 音声合成方法、デバイス、およびコンピュータ可読ストレージ媒体 | |
CN108447486B (zh) | 一种语音翻译方法及装置 | |
CN110491382B (zh) | 基于人工智能的语音识别方法、装置及语音交互设备 | |
CN110909879A (zh) | 自回归神经网络消歧模型、训练及使用方法、装置、系统 | |
CN109767755A (zh) | 一种语音合成方法和系统 | |
CN106971709A (zh) | 统计参数模型建立方法和装置、语音合成方法和装置 | |
CN111223498A (zh) | 情绪智能识别方法、装置及计算机可读存储介质 | |
CN111341293B (zh) | 一种文本语音的前端转换方法、装置、设备和存储介质 | |
CN112037754A (zh) | 一种语音合成训练数据的生成方法及相关设备 | |
KR102272554B1 (ko) | 텍스트- 다중 음성 변환 방법 및 시스템 | |
CN111164674A (zh) | 语音合成方法、装置、终端及存储介质 | |
CN111508466A (zh) | 一种文本处理方法、装置、设备及计算机可读存储介质 | |
CN113380222A (zh) | 语音合成方法、装置、电子设备及存储介质 | |
KR20190135853A (ko) | 텍스트- 다중 음성 변환 방법 및 시스템 | |
CN110808026B (zh) | 一种基于lstm的电声门图语音转换方法 | |
CN116504223A (zh) | 语音翻译方法及装置、电子设备、存储介质 | |
KR100400220B1 (ko) | 대화 모델을 이용한 자동 통역 장치 및 방법 | |
CN112242134A (zh) | 语音合成方法及装置 | |
Lu et al. | Implementation of embedded unspecific continuous English speech recognition based on HMM | |
CN114283786A (zh) | 语音识别方法、装置及计算机可读存储介质 | |
Wang et al. | A maximum entropy approach to Chinese Pin Yin-To-character conversion | |
CN113971947A (zh) | 语音合成的方法、装置以及存储介质 | |
CN114373445B (zh) | 语音生成方法、装置、电子设备及存储介质 | |
CN114265920B (zh) | 一种基于信号和场景的智能机器人对话方法及系统 | |
JP7012935B1 (ja) | プログラム、情報処理装置、方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200324 |
|
RJ01 | Rejection of invention patent application after publication |