CN110310620B - 基于原生发音强化学习的语音融合方法 - Google Patents

基于原生发音强化学习的语音融合方法 Download PDF

Info

Publication number
CN110310620B
CN110310620B CN201910667563.9A CN201910667563A CN110310620B CN 110310620 B CN110310620 B CN 110310620B CN 201910667563 A CN201910667563 A CN 201910667563A CN 110310620 B CN110310620 B CN 110310620B
Authority
CN
China
Prior art keywords
text
sentence
sound
voice
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910667563.9A
Other languages
English (en)
Other versions
CN110310620A (zh
Inventor
徐梦婷
李华康
孔令军
孙国梓
王永超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Paiweisi Information Technology Co ltd
Original Assignee
Suzhou Paiweisi Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Paiweisi Information Technology Co ltd filed Critical Suzhou Paiweisi Information Technology Co ltd
Priority to CN201910667563.9A priority Critical patent/CN110310620B/zh
Publication of CN110310620A publication Critical patent/CN110310620A/zh
Application granted granted Critical
Publication of CN110310620B publication Critical patent/CN110310620B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3343Query execution using phonetics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本发明公开了一种基于原生发音强化学习的语音融合方法。本发明一种基于原生发音强化学习的语音融合方法,包括:步骤1)对某声优的海量阅读内容进行完整句子切片,得到声音句集,之后对所有的声音句子集标定句子文本内容。步骤2)按照每个句子的文本分词对声音句子进行切片,可以得到每个文本单词的不同发音样本。步骤3)当语音对话引擎得到用户的语音文本,并通过问答系统生成文本回答内容。本发明的有益效果:利用强化学习,更好的形成相似声音句子,提高声音的润滑度,智能且用户友好。

Description

基于原生发音强化学习的语音融合方法
技术领域
本发明涉及语音融合领域,具体涉及一种基于原生发音强化学习的语音融合方法。
背景技术
人工智能的发展以及其在语音方面的应用,促进了语音合成技术、自然语言处理技术和语音识别技术的发展。而其中,语音合成是把计算机中任意出现的文字转换成自然流畅的语音输出。在语音对话问答中,语音合成的效果决定了用户体验的优劣。
传统技术存在以下技术问题:
目前市场的语音问答产品中,主要有两种语音交互方式。其一是采用播放录音的方式,这种方式对话固定僵硬,用户交流体验感差;其二是采用语音合成的方式,这种方式可以灵活的对话,但是仍然会存在合成的语音生硬的问题,使得用户聆听感差的问题。
发明内容
本发明要解决的技术问题是提供一种基于原生发音强化学习的语音融合方法,该方法结合了播放录音及语音合成的方法,融合出一个更优的语音合成效果,从而提高用户体验感。
为了解决上述技术问题,本发明提供了一种基于原生发音强化学习的语音融合方法,包括:
步骤1)对某声优的海量阅读内容进行完整句子切片,得到声音句集,之后对所有的声音句子集标定句子文本内容。
步骤2)按照每个句子的文本分词对声音句子进行切片,可以得到每个文本单词的不同发音样本。
步骤3)当语音对话引擎得到用户的语音文本,并通过问答系统生成文本回答内容。
步骤4)计算文本回答内容与步骤一得到的文本集中句子相似度,获得最高相似度候选集;
步骤5)当候选集中某个句子的文本相似度高于阈值,则直接调用当前句子相应声音信号进行输出播放;
步骤6)否则调用基于序列的对话生成算法逐个替换候选句中的单词,并计算生成声音的润滑度,当生成的句子的文本相似度大于回答阈值,且润滑相似度高于用户接受度的时候,采用生成的声音信号进行输出播放;
步骤7)如果遍历完后任然未找到符合步骤五和步骤六的结果,则直接对回答文本进行分词,并采用词所对应的声音进行拼接形成语音信号并进行输出播放。
一种基于原生发音强化学习的语音融合系统,包括:
模块1)数据预处理模块。包括对声优的海量阅读数据的获取存储,并且对得到的数据进行切片以及标记处理;
模块2)数据再处理模块。将模块1)形成的句子声音和其相应的文本标记存入数据库,并在此基础上进行再处理,包括对句子的分词,句子声音的再次切片以及对切片后的单词声音进行文本标记;
模块3)声音融合模块。根据模块(4)生成的回答文本,通过文本相似度算法匹配模块(2)中的文本数据集,从而生成候选集,再通过融合替换算法以及语音拼接形成输出的语音信号。
模块4)自动问答模块。该模块根据用户输入的语音问题,经由问答系统,自动生成回答文本。
在其中一个实施例中,数据预处理具体包括:
步骤11)语音内容切片:根据人们说话的习惯,以及声音频谱的特点,进行句子识别,以及切片。若是未找到符合的切片要求,若不足预设时间,则不切片。据此得到声音句集{Sentencevoice}。
步骤12)文本标记句子:对于步骤11)切片获得的语音数据进行语音转文本操作,从而得到文本集{Sentencetext}。我们使声音句集和文本集一一对应,并将结果存入到非结构化数据库中,如MongoDB,从而获得句子声音-句子文本的数据库。
在其中一个实施例中,所述预设时间是5s。
在其中一个实施例中,所述再处理模块,涉及的步骤具体包括:
步骤21)文本句子分词:对于上述步骤12)获得的句子文本进行分词,从而得到词语集{Ws1,Ws2,...,Wsw}。
步骤22)语音句子切片:对于上述步骤11)获得的句子声音,根据每个句子的文本分词,再次切片,从而得到每个单词的发音样本{Wv1,Wv2,...,Wvw}。
步骤23)文本标记单词:将词语集和句子集一一对应的存储起来,从而得到词语声音-词语文本的数据库。
在其中一个实施例中,所述自动问答模块,涉及的步骤具体包括:
步骤41)语音转文本:将语音库中的数据经过首尾端的静音切除、声音分帧等的预处理,通过特征提取训练形成声学模型。将文本库中的数据经过训练形成语言模型。将用户输入的语音信号,利用声学模型、字典以及语言模型,通过语音解码和搜索算法形成文本输出。
步骤42)问答系统:将有步骤41)得到的文本输入问答系统中,通过文本相似度、知识库匹配等算法,获得最为接近的问题的答案或者获得知识对应的答案,将答案作为输出进入下一步。
步骤43)回答文本:这里指的是由步骤42)输出的结果,将该结果作为模块3的输入,记为Textanswer
在其中一个实施例中,所述声音融合模块,涉及的步骤具体包括:
步骤31)候选集生成:基于步骤43)输入的回答文本,计算Textanswer在Sentencetext中的最高相似度候选集,从而得到{Sentence1,Sentence2,...,Sentences}。当候选集中某个Sentence的文本相似度高于阈值时,直接调用当前文本相应的声音Sentencevoice进行输出播放。否则,进行步骤32)。
步骤32)融合替换:调用基于序列的对话生成算法逐个替换候选Sentence中的单词,并计算生成句子的声音NSentencevoice的润滑度。当生成的句子的文本相似度大于回答阈值,并且其声音润滑相似度高于用户可接受度的时候,采用生成的NSentencevoice进行输出播放。否则,进行步骤33)。
步骤33)拼接语音信号:若遍历完后仍然未找到符合步骤31)以及32)的结果,则直接对Textanswer进行分词,并采用词word所对应的声音voice进行语音信号的拼接,并将拼接结果进行输出播放。
一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现任一项所述方法的步骤。
一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现任一项所述方法的步骤。
一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行任一项所述的方法。
本发明的有益效果:
利用强化学习,更好的形成相似声音句子,提高声音的润滑度,智能且用户友好。
附图说明
图1是本发明基于原生发音强化学习的语音融合的模块示意图。
图2是本发明基于原生发音强化学习的语音融合方法的流程示意图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步说明,以使本领域的技术人员可以更好地理解本发明并能予以实施,但所举实施例不作为对本发明的限定。
图1为基于原生发音强化学习的语音融合方法的模块及流程示意图。概括来讲,该方法主要包括:
模块1)数据预处理模块。包括对声优的海量阅读数据的获取存储,并且对得到的数据进行切片以及标记处理;
模块2)数据再处理模块。将模块1)形成的句子声音和其相应的文本标记存入数据库,并在此基础上进行再处理,包括对句子的分词,句子声音的再次切片以及对切片后的单词声音进行文本标记;
模块3)声音融合模块。根据模块(4)生成的回答文本,通过文本相似度算法匹配模块(2)中的文本数据集,从而生成候选集,再通过融合替换算法以及语音拼接形成输出的语音信号。
模块4)自动问答模块。该模块根据用户输入的语音问题,经由问答系统,自动生成回答文本。
上述方法中,在模块1)中,数据预处理具体包括:
步骤11)语音内容切片:根据人们说话的习惯,以及声音频谱的特点,进行句子识别,以及切片。若是未找到符合的切片要求,由于人们说一句话的时间大约是5秒,我们据此将语音内容按照5s的时长进行切片,若不足5秒则不切片。据此得到声音句集{Sentencevoice}。
步骤12)文本标记句子:对于步骤11)切片获得的语音数据进行语音转文本操作,从而得到文本集{Sentencetext}。。我们使声音句集和文本集一一对应,并将结果存入到非结构化数据库中,如MongoDB,从而获得句子声音-句子文本的数据库。
上述方法中,所述模块2)再处理模块,涉及的步骤具体包括:
步骤21)文本句子分词:对于上述步骤12)获得的句子文本进行分词,从而得到词语集{Ws1,Ws2,...,Wsw}。
步骤22)语音句子切片:对于上述步骤11)获得的句子声音,根据每个句子的文本分词,再次切片,从而得到每个单词的发音样本{Wv1,Wv2,...,Wvw}。
步骤23)文本标记单词:将词语集和句子集一一对应的存储起来,从而得到词语声音-词语文本的数据库。
上述方法中,所述模块4)自动问答模块,涉及的步骤具体包括:
步骤41)语音转文本:将语音库中的数据经过首尾端的静音切除、声音分帧等的预处理,通过特征提取训练形成声学模型。将文本库中的数据经过训练形成语言模型。将用户输入的语音信号,利用声学模型、字典以及语言模型,通过语音解码和搜索算法形成文本输出。
步骤42)问答系统:将有步骤41)得到的文本输入问答系统中,通过文本相似度、知识库匹配等算法,获得最为接近的问题的答案或者获得知识对应的答案,将答案作为输出进入下一步。
步骤43)回答文本:这里指的是由步骤42)输出的结果,将该结果作为模块3的输入,记为Textanswer
上述方法中,所述模块3)声音融合模块,涉及的步骤具体包括:
步骤31)候选集生成:基于步骤43)输入的回答文本,计算Textanswer在Sentencetext中的最高相似度候选集,从而得到{Sentence1,Sentence2,...,Sentences}。当候选集中某个Sentence的文本相似度高于阈值时,直接调用当前文本相应的声音Sentencevoice进行输出播放。否则,进行步骤32)。
步骤32)融合替换:调用基于序列的对话生成算法逐个替换候选Sentence中的单词,并计算生成句子的声音NSentencevoice的润滑度。当生成的句子的文本相似度大于回答阈值,并且其声音润滑相似度高于用户可接受度的时候,采用生成的NSentencevoice进行输出播放。否则,进行步骤33)。
步骤33)拼接语音信号:若遍历完后仍然未找到符合步骤31)以及32)的结果,则直接对Textanswer进行分词,并采用词word所对应的声音voice进行语音信号的拼接,并将拼接结果进行输出播放。
参阅图2,基于原生发音强化学习的语音融合方法,所述方法包括:
步骤1)对某声优的海量阅读内容进行完整句子切片,得到声音句集,之后对所有的声音句子集标定句子文本内容。
步骤2)按照每个句子的文本分词对声音句子进行切片,可以得到每个文本单词的不同发音样本。
步骤3)当语音对话引擎得到用户的语音文本,并通过问答系统生成文本回答内容。
步骤4)计算文本回答内容与步骤一得到的文本集中句子相似度,获得最高相似度候选集;
步骤5)当候选集中某个句子的文本相似度高于阈值,则直接调用当前句子相应声音信号进行输出播放;
步骤6)否则调用基于序列的对话生成算法逐个替换候选句中的单词,并计算生成声音的润滑度,当生成的句子的文本相似度大于回答阈值,且润滑相似度高于用户接受度的时候,采用生成的声音信号进行输出播放;
步骤7)如果遍历完后任然未找到符合步骤五和步骤六的结果,则直接对回答文本进行分词,并采用词所对应的声音进行拼接形成语音信号并进行输出播放。
以上所述实施例仅是为充分说明本发明而所举的较佳的实施例,本发明的保护范围不限于此。本技术领域的技术人员在本发明基础上所作的等同替代或变换,均在本发明的保护范围之内。本发明的保护范围以权利要求书为准。

Claims (6)

1.一种基于原生发音强化学习的语音融合方法,其特征在于,包括:
步骤1)对某声优的海量阅读内容进行完整句子切片,得到声音句集,之后对所有的声音句子集标定句子文本内容;
步骤2)按照每个句子的文本分词对声音句子进行切片,可以得到每个文本单词的不同发音样本;
步骤3)当语音对话引擎得到用户的语音文本,并通过问答系统生成文本回答内容;
步骤4)计算文本回答内容与步骤一得到的文本集中句子相似度,获得最高相似度候选集;
步骤5)当候选集中某个句子的文本相似度高于阈值,则直接调用当前句子相应声音信号进行输出播放;
步骤6)否则调用基于序列的对话生成算法逐个替换候选句中的单词,并计算生成声音的润滑度,当生成的句子的文本相似度大于回答阈值,且润滑相似度高于用户接受度的时候,采用生成的声音信号进行输出播放;
步骤7)如果遍历完后任然未找到符合步骤五和步骤六的结果,则直接对回答文本进行分词,并采用词所对应的声音进行拼接形成语音信号并进行输出播放。
2.一种基于原生发音强化学习的语音融合系统,其特征在于,包括:
模块1)数据预处理模块,所述数据预处理模块包括对声优的海量阅读数据的获取存储,并且对得到的数据进行切片以及标记处理;
模块2)数据再处理模块;所述数据再处理模块将模块1)形成的句子声音和其相应的文本标记存入数据库,并在此基础上进行再处理,包括对句子的分词,句子声音的再次切片以及对切片后的单词声音进行文本标记;
模块3)声音融合模块;所述声音融合模块根据模块(4)生成的回答文本,通过文本相似度算法匹配模块(2)中的文本数据集,从而生成候选集,再通过融合替换算法以及语音拼接形成输出的语音信号;
模块4)自动问答模块;所述自动问答模块该模块根据用户输入的语音问题,经由问答系统,自动生成回答文本;
所述数据预处理模块,涉及的步骤具体包括:
步骤11)语音内容切片:根据人们说话的习惯,以及声音频谱的特点,进行句子识别,以及切片;若是未找到符合的切片要求,若不足预设时间,则不切片;据此得到声音句集{Sentencevoice};
步骤12)文本标记句子:对于步骤11)切片获得的语音数据进行语音转文本操作,从而得到文本集{Sentencetext},使声音句集和文本集一一对应,并将结果存入到非结构化数据库中,从而获得句子声音-句子文本的数据库;
所述数据再处理模块,涉及的步骤具体包括:
步骤21)文本句子分词:对于上述步骤12)获得的句子文本进行分词,从而得到词语集{Ws1,Ws2,...,Wsw};
步骤22)语音句子切片:对于上述步骤11)获得的句子声音,根据每个句子的文本分词,再次切片,从而得到每个单词的发音样本{Wv1,Wv2,...,Wvw};
步骤23)文本标记单词:将词语集和句子集一一对应的存储起来,从而得到词语声音-词语文本的数据库;
所述自动问答模块,涉及的步骤具体包括:
步骤41)语音转文本:将语音库中的数据经过首尾端的静音切除和声音分帧预处理,通过特征提取训练形成声学模型;将文本库中的数据经过训练形成语言模型;将用户输入的语音信号,利用声学模型、字典以及语言模型,通过语音解码和搜索算法形成文本输出;
步骤42)问答系统:将有步骤41)得到的文本输入问答系统中,通过文本相似度和知识库匹配算法,获得最为接近的问题的答案或者获得知识对应的答案,将答案作为输出进入下一步;
步骤43)回答文本:这里指的是由步骤42)输出的结果,将该结果作为模块3的输入,记为Textanswer
所述声音融合模块,涉及的步骤具体包括:
步骤31)候选集生成:基于步骤43)输入的回答文本,计算Textanswer在Sentencetext中的最高相似度候选集,从而得到{Sentence1,Sentence2,...,Sentences};当候选集中某个Sentence的文本相似度高于阈值时,直接调用当前文本相应的声音Sentencevoice进行输出播放;否则,进行步骤32);
步骤32)融合替换:调用基于序列的对话生成算法逐个替换候选Sentence中的单词,并计算生成句子的声音NSentencevoice的润滑度;当生成的句子的文本相似度大于回答阈值,并且其声音润滑相似度高于用户可接受度的时候,采用生成的NSentencevoice进行输出播放;否则,进行步骤33);
步骤33)拼接语音信号:若遍历完后仍然未找到符合步骤31)以及32)的结果,则直接对Textanswer进行分词,并采用词word所对应的声音voice进行语音信号的拼接,并将拼接结果进行输出播放。
3.如权利要求2所述的基于原生发音强化学习的语音融合系统,其特征在于,所述预设时间是5s。
4.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1所述方法的步骤。
5.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1所述方法的步骤。
6.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行权利要求1所述的方法。
CN201910667563.9A 2019-07-23 2019-07-23 基于原生发音强化学习的语音融合方法 Active CN110310620B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910667563.9A CN110310620B (zh) 2019-07-23 2019-07-23 基于原生发音强化学习的语音融合方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910667563.9A CN110310620B (zh) 2019-07-23 2019-07-23 基于原生发音强化学习的语音融合方法

Publications (2)

Publication Number Publication Date
CN110310620A CN110310620A (zh) 2019-10-08
CN110310620B true CN110310620B (zh) 2021-07-13

Family

ID=68081677

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910667563.9A Active CN110310620B (zh) 2019-07-23 2019-07-23 基于原生发音强化学习的语音融合方法

Country Status (1)

Country Link
CN (1) CN110310620B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111883100B (zh) * 2020-07-22 2021-11-09 马上消费金融股份有限公司 语音转换方法、装置及服务器

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102779508A (zh) * 2012-03-31 2012-11-14 安徽科大讯飞信息科技股份有限公司 语音库生成设备及其方法、语音合成系统及其方法
CN104571485A (zh) * 2013-10-28 2015-04-29 中国科学院声学研究所 一种基于Java Map的人机语音交互系统及方法
CN106056207A (zh) * 2016-05-09 2016-10-26 武汉科技大学 一种基于自然语言的机器人深度交互与推理方法与装置
CN109213856A (zh) * 2018-10-22 2019-01-15 广东小天才科技有限公司 一种语义识别方法及系统
CN109271505A (zh) * 2018-11-12 2019-01-25 深圳智能思创科技有限公司 一种基于问题答案对的问答系统实现方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013186228A (ja) * 2012-03-07 2013-09-19 Seiko Epson Corp 音声認識処理装置及び音声認識処理方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102779508A (zh) * 2012-03-31 2012-11-14 安徽科大讯飞信息科技股份有限公司 语音库生成设备及其方法、语音合成系统及其方法
CN104571485A (zh) * 2013-10-28 2015-04-29 中国科学院声学研究所 一种基于Java Map的人机语音交互系统及方法
CN106056207A (zh) * 2016-05-09 2016-10-26 武汉科技大学 一种基于自然语言的机器人深度交互与推理方法与装置
CN109213856A (zh) * 2018-10-22 2019-01-15 广东小天才科技有限公司 一种语义识别方法及系统
CN109271505A (zh) * 2018-11-12 2019-01-25 深圳智能思创科技有限公司 一种基于问题答案对的问答系统实现方法

Also Published As

Publication number Publication date
CN110310620A (zh) 2019-10-08

Similar Documents

Publication Publication Date Title
CN108447486B (zh) 一种语音翻译方法及装置
US10140973B1 (en) Text-to-speech processing using previously speech processed data
CN108899009B (zh) 一种基于音素的中文语音合成系统
CN106486121B (zh) 应用于智能机器人的语音优化方法及装置
WO2017067206A1 (zh) 个性化多声学模型的训练方法、语音合成方法及装置
CN109285537B (zh) 声学模型建立、语音合成方法、装置、设备及存储介质
US20100312565A1 (en) Interactive tts optimization tool
JP2008134475A (ja) 入力された音声のアクセントを認識する技術
JP5149107B2 (ja) 音響処理装置およびプログラム
CN110390928B (zh) 一种自动拓增语料的语音合成模型训练方法和系统
CN110691258A (zh) 一种节目素材制作方法、装置及计算机存储介质、电子设备
KR20230056741A (ko) 목소리 변환 및 스피치 인식 모델을 사용한 합성 데이터 증강
CN106710585A (zh) 语音交互过程中的多音字播报方法及系统
Cooper Text-to-speech synthesis using found data for low-resource languages
CN106653002A (zh) 一种文字直播方法及平台
CN113658577A (zh) 一种语音合成模型训练方法、音频生成方法、设备及介质
JP5180800B2 (ja) 統計的発音変異モデルを記憶する記録媒体、自動音声認識システム及びコンピュータプログラム
CN114842826A (zh) 语音合成模型的训练方法、语音合成方法及相关设备
CN110310620B (zh) 基于原生发音强化学习的语音融合方法
JP6330069B2 (ja) 統計的パラメトリック音声合成のためのマルチストリームスペクトル表現
CN116582726B (zh) 视频生成方法、装置、电子设备及存储介质
CN113593522A (zh) 一种语音数据标注方法和装置
CN112185341A (zh) 基于语音合成的配音方法、装置、设备和存储介质
CN116453502A (zh) 基于双说话人嵌入的跨语言语音合成方法及系统
CN114822489A (zh) 文本转写方法和文本转写装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant