CN111435597A - 语音信息的处理方法和装置 - Google Patents

语音信息的处理方法和装置 Download PDF

Info

Publication number
CN111435597A
CN111435597A CN201910035572.6A CN201910035572A CN111435597A CN 111435597 A CN111435597 A CN 111435597A CN 201910035572 A CN201910035572 A CN 201910035572A CN 111435597 A CN111435597 A CN 111435597A
Authority
CN
China
Prior art keywords
tone
broadcast
voice
broadcast text
voice information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910035572.6A
Other languages
English (en)
Other versions
CN111435597B (zh
Inventor
刘健军
王慧君
张新
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Gree Electric Appliances Inc of Zhuhai
Original Assignee
Gree Electric Appliances Inc of Zhuhai
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Gree Electric Appliances Inc of Zhuhai filed Critical Gree Electric Appliances Inc of Zhuhai
Priority to CN201910035572.6A priority Critical patent/CN111435597B/zh
Publication of CN111435597A publication Critical patent/CN111435597A/zh
Application granted granted Critical
Publication of CN111435597B publication Critical patent/CN111435597B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Hospice & Palliative Care (AREA)
  • General Health & Medical Sciences (AREA)
  • Psychiatry (AREA)
  • Child & Adolescent Psychology (AREA)
  • Machine Translation (AREA)

Abstract

本申请提出一种语音信息的处理方法和装置,其中方法包括:获取语音信息;确定语音信息的语意和语音信息中的第一语气词;根据语音信息的语意和第一语气词生成第二播报文本;播报第二播报文本,即实现了播报第二播报文本时与用户的情绪和心情相匹配,从而提高用户的体验,解决了现有技术中语音设备播报反馈的语音时语气单一,用户体验差的问题。

Description

语音信息的处理方法和装置
技术领域
本申请涉及语音播报领域,特别涉及语音信息的处理方法和装置。
背景技术
在现有技术中,具有语音识别的装置在实际应用时,当接收到的语音信息后,会剔除其中无意义的语气词。但实际上语气词中包含了用户想要表达的潜在内容,例如用户的此时的情绪、性格、心里状态等。现有技术中对一些无意义语气词的忽略处理,播报反馈的语音信息时采用单一的语气进行播报,会致使用户使用体验效果差。
因此,结合语音信息中的语气词对语音信息进行处理,以提高用户体验,是现有技术中亟待解决的问题。
发明内容
本申请提供了一种语音信息的处理方法和装置,用于结合语音信息中的语气词对语音信息进行处理,以提高用户体验。
为了解决上述问题,作为本申请的一个方面,提供了一种语音信息的处理方法,包括:
获取语音信息;
确定语音信息的语意和语音信息中的第一语气词;
根据语音信息的语意和第一语气词生成第二播报文本;
播报第二播报文本。
可选的,根据语音信息的语意和第一语气词生成第二播报文本,包括:
根据语音信息的语意确定第一播报文本;
根据第一语气词为第一播报文本增加第二语气词得到第二播报文本。
可选的,根据语音信息的语意和第一语气词生成第二播报文本,包括:
根据语音信息的语意确定第一播报文本;
建立语气韵律模型,将语意、第一语气词和第一播报文本作为输入值,输出结果为带有第二语气词的第二播报文本。
可选的,语气韵律模型为BP神经网络模型、卷积神经网络模型或者残差神经网络模型。
可选的,播报第二播报文本,包括:
根据第一语气词确定语音信息中的第一语气和/或第一语调;
根据第一语气和/或第一语调确定播报第二播报文本时的第二语气和/或第二语调;
采用第二语气和/或第二语调播报第二播报文本。
本申请还提出一种语音信息的处理装置,包括:
获取单元,用于获取语音信息;
解析单元,用于确定语音信息的语意和语音信息中的第一语气词;
文本生成单元,用于根据语音信息的语意和第一语气词生成第二播报文本;
语音播报单元,用于播报第二播报文本。
可选的,文本生成单元根据语音信息的语意和第一语气词生成第二播报文本,包括:
根据语音信息的语意确定第一播报文本;
根据第一语气词为第一播报文本增加第二语气词得到第二播报文本。
可选的,文本生成单元根据语音信息的语意和第一语气词生成第二播报文本,包括:
根据语音信息的语意确定第一播报文本;
建立语气韵律模型,将语意、第一语气词和第一播报文本作为输入值,输出结果为带有第二语气词的第二播报文本。
可选的,语气韵律模型为BP神经网络模型、卷积神经网络模型或者残差神经网络模型。
可选的,语音播报单元播报第二播报文本,包括:
根据第一语气词确定语音信息中的第一语气和/或第一语调;
根据第一语气和/或第一语调确定播报第二播报文本时的第二语气和/或第二语调;
采用第二语气和/或第二语调播报第二播报文本。
本申请提出了一种语音信息的处理方法和装置,在对语音信息进行处理时,结合语音信息中的第一语气词生成第二播报文本,第一语气词表征了用户的情绪和状态,因此本申请中第二播报文本所表达的语气与用户的情绪和状态相匹配,即实现了播报第二播报文本时与用户的情绪和心情相匹配,从而提高用户的体验,解决了现有技术中语音设备播报反馈的语音时语气单一,用户体验差的问题。
附图说明
图1为本申请实施例中一种语音信息的处理方法流程图;
图2为本申请实施例中一种语音信息的处理装置的组成图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、装置、产品或电器不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或电器固有的其它步骤或单元。
在现有技术中,当用户发出语音信息后,发出的语音信息中可能包含有语气词,这些语气词通常会被接收到语音信息的语音识别设备忽略,而事实上,语气词表明了用户此时的情绪和状态,现有技术中在根据用户的语音信息进行反馈时没有考虑到语气词所表征的用户的情绪和状态,因此在根据语音信息确定了播报文本进行播报时,播报文本的内容没有结合用户发出的语音信息中的语气词进行调整,造成用户体验低。
为了解决上述技术问题,提高用户的使用体验,如图1所示,本申请提出了一种语音信息的处理方法,包括:
S11:获取语音信息。
具体的,语音信息是由用户发出的语音,在本申请中可以通过麦克风阵列接收用户发出的语音信息,语音信息中包括用户发出的指令,该指令可以是用于控制任何设备,也可以是用于查询任何内容。
S12:确定语音信息的语意和语音信息中的第一语气词。
具体的,第一语气词是用户发出的语音信息中包含的语气词,语气词是表示语气的虚词,常用在句尾或句中停顿处表示种种语气。常见的语气词有:的、了、么、呢、吧、啊。语气词通常附着在词语、句子末,表示语气。语音信息的语意是指其包含的具体意思。例如用户发出达到语音信息为“帮我打开一下空调吧,快点哦”,则其中的语意为“打开空调,快点”,其中包含的语气词为“吧”和“哦”。
S13:根据语音信息的语意和第一语气词生成第二播报文本;
S14:播报第二播报文本。
具体的,在本申请中,由语意可以确定用户的意图,从而执行相应的操作,例如用户要求打开空调则打开空调,第二播报文本是对用户发出的语音信息的反馈,例如根据语音信息打开了空调后,而第一语义词的作用主要在于调节播放第二播报文本时的语气和语调,具体可以在第二播报文本中增加对应的语气词从而调节播放第二播报文本时的语气和语调。例如用户发出的语音信息中的第一语气词包含了“哈”、“嘻嘻”和“哦”等词语,从而确定此时用户心情较好,情绪高涨,则播放第二播报文本时采用相同类型的“呢”、“哦哦”、“嘻嘻”等表示轻快,高昂的语气词加入第二播报文本。而当用户发出的语音信息中的第一语气词包含“哎”、“嗯”、“罢了”、“算了”、“呃”、“欸”等词,表明此时用户心情较为低落,则播报第二播报文本时应当采用“呢”、“吗”、“好的”等表示舒缓平和的语气词播报第二播报文本。例如用户发出的语音信息为“帮我打开一下空调吧,快点哦”,则播报的第二播报文本可以是“好的呢,已经开启空调了哦”,例如用户发出的语音信息为“算了,开一下空调吧,哎”,则确定用户的情绪不高,此时,则播报的第二播报文本可以是“好的,已经开启空调了”。与现有技术相比,本申请提出的方法中,在播报第二播报文本时考虑了语音信息中的第一语气词,因此生成的第二播报文本与用户发出语音信息时的语气相符合,从而提高了用户体验,解决了现有技术中播报反馈的语音时语气单一,用户体验差的问题。
可选的,根据语音信息的语意和第一语气词生成第二播报文本,包括:
根据语音信息的语意确定第一播报文本;
根据第一语气词为第一播报文本增加第二语气词得到第二播报文本。
具体的,在本申请中,第一语气词和第二语气词的个数可以是一个或多个,第二语气词是根据第一语气词所表示的语气所确定的语气词,当第一语气词为表示积极情绪的语气词,例如“嘻嘻”等,则与其对应的第二语气词则也采用表示积极情绪的语气词,例如“哈哈”和“哦啦”等。当第一语气词为表示情绪平和的语气词时,第二语气词也采用表示情绪平和、情绪积极的语气词。当第一语气词为表示情绪低落的语气词时,第二语气词优选采用情绪平和舒缓的语气词。可以预先建立第一语气词和第二语气词的对应关系,确定在第一播报文本中出现了第一语气词时应当在第二播报文本中加入哪些第二语气词。例如表示积极情绪的第一语气词和表示积极情绪的第二语气词相对应,表示消极情绪的第一语气词和表示情绪平和的第二语气词相对应,在本实施例中,第一播报文本为根据语音信息的语气确定的播报文本,其是在不考虑语音信息中的第一语气词时所生成的播报文本,例如用户发出的语音新为“空调,开机哦”,则第一播报文本为不考虑第一语气词“哦”时的播报文本,例如可以是“已经为您开机”,在考虑到第一语气词“哦”之后,判断用户此时的情绪较为积极,因此在第一播报文本的末尾增加标识积极情绪的第二语气词“了哦”,生成的第二播报文本为“已经为您开机了哦”,从而实现了播报第二播报文本时与用户的情绪和心情相匹配,提高了用户的体验。
可选的,根据语音信息的语意和第一语气词生成第二播报文本,包括:
根据语音信息的语意确定第一播报文本;
建立语气韵律模型,将语意、第一语气词和第一播报文本作为输入值,输出结果为带有第二语气词的第二播报文本。
具体的,在本申请中,语气韵律模型为BP神经网络模型、卷积神经网络模型或者残差神经网络模型。本申请中,可以预先存储大量的语意和第一语气词,并为各个语意和第一语气词设置对应的第二播报文本,设置的第二播报文本可以是由用户选择的语音信息应当对应的第二播报文本,即最开始可以是由用户选择在发出某一语音信息后应当接受到的第二播报文本是什么,然后采用神经网络模型建立以语意和第一语气词为输入值,第二播报文本为输出值,建立输入值和输出值之间的联系,即确定语音信息和第二播报文本的对应关系,通过不断的积累语意、第一语气词和第二播报文本,从而使得语气韵律模型不断的完善,此处的神经网络模型就是本申请中的语气韵律模型,可选的,还包括接收用户的反馈,根据用户的反馈对语气韵律模型进行修正,从而使得语气韵律模型更加完善和合理。
在本申请提出的处理方法中,可选的,播报第二播报文本,包括:
根据第一语气词确定语音信息中的第一语气和/或第一语调;
根据第一语气和/或第一语调确定播报第二播报文本时的第二语气和/或第二语调;
采用第二语气和/或第二语调播报第二播报文本。
具体的,语音信息是用户发出的声音,通过对语音信息进行分析可以确定用户的语气和语调,即第一语气和第一语调,第一语气和第一语调表明了用户此时的情绪或心理状态,因此播放第二播报文本时,在播报第二播报文本中的语气词时采用相对应的语气和语调能够更好的表达出第二播报文本所想要表达的情感变化,从而提高用户体验。例如:语音信息中的语气词为积极语气词,且用户的语气较为幽默,语调较为欢快,则在第二播报文本中增加幽默的语气词并且采用较为幽默的语气词和欢快的语调播报第二播报文本。
本申请还提出一种语音信息的处理装置,如图2所示,本申请提出的处理装置包括:获取单元10、解析单元20、文本生成单元30和语音播报单元40
获取单元10,用于获取语音信息;
解析单元20,用于确定语音信息的语意和语音信息中的第一语气词;
文本生成单元30,用于根据语音信息的语意和第一语气词生成第二播报文本;语音播报单元40,用于播报第二播报文本。
具体的,在本申请提出的装置根据语音信息的语意可以确定用户的意图,从而执行相应的操作,文本生成单元30可以根据第一语义词调节播放第二播报文本时的语气和语调,文本生成单元30可以在第二播报文本中增加对应的语气词从而调节播放第二播报文本时的语气和语调。例如用户发出的语音信息中的第一语气词包含了“哈”、“嘻嘻”和“哦”等词语,从而确定此时用户心情较好,情绪高涨,则播放第二播报文本时采用相同类型的“呢”、“哦哦”、“嘻嘻”等表示轻快,高昂的语气词加入第二播报文本。而当用户发出的语音信息中的第一语气词包含“哎”、“嗯”、“罢了”、“算了”、“呃”、“欸”等词,表明此时用户心情较为低落,则播报第二播报文本时应当采用“呢”、“吗”、“好的”等表示舒缓平和的语气词播报第二播报文本。例如用户发出的语音信息为“帮我打开一下空调吧,快点哦”,则播报的第二播报文本可以是“好的呢,已经开启空调了哦”,例如用户发出的语音信息为“算了,开一下空调吧,哎”,则确定用户的情绪不高,此时,则文本生成单元30生成的第二播报文本可以是“好的,已经开启空调了”。与现有技术相比,本申请提出的装置中,在生成第二播报文本时考虑了语音信息中的第一语气词,因此生成的第二播报文本与用户发出语音信息时的语气相符合,从而提高了用户体验。
可选的,文本生成单元30根据语音信息的语意和第一语气词生成第二播报文本,包括:
根据语音信息的语意确定第一播报文本;
根据第一语气词为第一播报文本增加第二语气词得到第二播报文本。
具体的,在本申请中,第一语气词和第二语气词的个数可以是一个或多个,第二语气词是根据第一语气词所表示的语气所确定的语气词,第一播报文本为根据语音信息的语气确定的播报文本,其是在不考虑语音信息中的第一语气词时所生成的播报文本,例如用户发出的语音新为“空调,开机哦”,则第一播报文本为不考虑第一语气词“哦”时的播报文本,例如可以是“已经为您开机”,在考虑到第一语气词“哦”之后,判断用户此时的情绪较为积极,因此在第一播报文本的末尾增加标识积极情绪的第二语气词“了哦”,生成的目标播报文为“已经为您开机了哦”,从而实现了播报第二播报文本时与用户的情绪和心情相匹配,提高用户的体验。
可选的,文本生成单元30根据语音信息的语意和第一语气词生成第二播报文本,包括:
根据语音信息的语意确定第一播报文本;
建立语气韵律模型,将语意、第一语气词和第一播报文本作为输入值,输出结果为带有第二语气词的第二播报文本。
具体的,在本申请中,语气韵律模型为BP神经网络模型、卷积神经网络模型或者残差神经网络模型。本申请中,文本生成单元30可以预先存储大量的语意和第一语气词,并为各个语意和第一语气词设置对应的第二播报文本,然后采用神经网络模型建立以语意和第一语气词为输入值,第二播报文本为输出值,建立输入值和输出值之间的联系,通过不断的积累语意、第一语气词和第二播报文本,从而使得语气韵律模型不断的完善,此处的神经网络模型就是本申请中的语气韵律模型,可选的,文本生成单元30还用于接收用户的反馈,根据用户的反馈对语气韵律模型进行修正,从而使得语气韵律模型更加完善和合理。
可选的,语音播报单元40播报第二播报文本,包括:
根据第一语气词确定语音信息中的第一语气和/或第一语调;
根据第一语气和/或第一语调确定播报第二播报文本时的第二语气和/或第二语调;采用第二语气和/或第二语调播报第二播报文本。
具体的,语音信息是用户发出的声音,语音播报单元40通过对语音信息进行分析可以确定用户的语气和语调,即第一语气和第一语调,第一语气和第一语调表明了用户此时的情绪或心理状态,因此播放第二播报文本时,在播报第二播报文本中的语气词时采用相对应的语气和语调能够更好的表达出第二播报文本所想要表达的情感变化,从而提高用户体验。例如:语音信息中的语气词为积极语气词,且用户的语气较为幽默,语调较为欢快,则在第二播报文本中增加幽默的语气词并且语音播报单元40采用较为幽默的语气词和欢快的语调播报第二播报文本。
以下提出另一种语音信息的处理装置。
在语音信息的处理装置工作时,作为获取单元的麦克风阵列获取用户发出的语音信息。然后解析单元20将麦克风获取到的语音信息识别为对应的文本信息,再通过语义解析算法解析文本信息确定语音信息的语意,文本生成单元根据语意得到第一播报文本。此时的第一播报文本是未考虑语音信息中的第一语气词时所生成的,文本生成单元再根据语音信息中的语气词和第一播报文本,生成第二播报文本。文本生成单元可以使用语气词韵律模型对语气词和第一播报文本作处理从而得到第二播报文本,语气词韵律模型使用预先设定或实时采集的带语气词的语音信息、与其对应的不带语气词第一播报文本和实际需要得到的带语气词的第二播报文本通过深度学习算法得出。然后语音播报单元通过扬声器播报第二播报文本。
举例说明:用户说出“开机呀”,麦克风采集到语音信息为“开机呀”;解析单元将音频数据识别为“开机呀”文本并识别其中的第一语气词“呀”;并将文本解析为实际开机的控制指令,文本生成单元生成“已为您开机”的第一播报文本,再将第一播报文本结合第一语气词处理为“主人我已经开机了哦”的第二播报文本;再将第二播报文本合成为对应音频数据并通过扬声器播报。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (10)

1.一种语音信息的处理方法,其特征在于,包括:
获取语音信息;
确定所述语音信息的语意和所述语音信息中的第一语气词;
根据所述语音信息的语意和第一语气词生成第二播报文本;
播报所述第二播报文本。
2.根据权利要求1所述的语音信息的处理方法,其特征在于,根据所述语音信息的语意和第一语气词生成第二播报文本,包括:
根据所述语音信息的语意确定第一播报文本;
根据所述第一语气词为所述第一播报文本增加第二语气词得到第二播报文本。
3.根据权利要求1所述的语音信息的处理方法,其特征在于,根据所述语音信息的语意和第一语气词生成第二播报文本,包括:
根据所述语音信息的语意确定第一播报文本;
建立语气韵律模型,将所述语意、第一语气词和第一播报文本作为输入值,输出结果为带有第二语气词的第二播报文本。
4.根据权利要求3所述的语音信息的处理方法,其特征在于,所述语气韵律模型为BP神经网络模型、卷积神经网络模型或者残差神经网络模型。
5.根据权利要求1-4任一项所述的语音信息的处理方法,其特征在于,播报所述第二播报文本,包括:
根据所述第一语气词确定所述语音信息中的第一语气和/或第一语调;
根据所述第一语气和/或第一语调确定播报所述第二播报文本时的第二语气和/或第二语调;
采用所述第二语气和/或第二语调播报所述第二播报文本。
6.一种语音信息的处理装置,其特征在于,包括:
获取单元,用于获取语音信息;
解析单元,用于确定所述语音信息的语意和所述语音信息中的第一语气词;
文本生成单元,用于根据所述语音信息的语意和第一语气词生成第二播报文本;
语音播报单元,用于播报所述第二播报文本。
7.根据权利要求6所述的语音信息的处理装置,其特征在于,所述文本生成单元根据所述语音信息的语意和第一语气词生成第二播报文本,包括:
根据所述语音信息的语意确定第一播报文本;
根据所述第一语气词为所述第一播报文本增加第二语气词得到第二播报文本。
8.根据权利要求5所述的语音信息的处理装置,其特征在于,所述文本生成单元根据所述语音信息的语意和第一语气词生成第二播报文本,包括:
根据所述语音信息的语意确定第一播报文本;
建立语气韵律模型,将所述语意、第一语气词和第一播报文本作为输入值,输出结果为带有第二语气词的第二播报文本。
9.根据权利要求8所述的语音信息的处理装置,其特征在于,所述语气韵律模型为BP神经网络模型、卷积神经网络模型或者残差神经网络模型。
10.根据权利要求6-9任一项所述的语音信息的处理装置,其特征在于,所述语音播报单元播报所述第二播报文本,包括:
根据所述第一语气词确定所述语音信息中的第一语气和/或第一语调;
根据所述第一语气和/或第一语调确定播报所述第二播报文本时的第二语气和/或第二语调;
采用所述第二语气和/或第二语调播报所述第二播报文本。
CN201910035572.6A 2019-01-15 2019-01-15 语音信息的处理方法和装置 Active CN111435597B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910035572.6A CN111435597B (zh) 2019-01-15 2019-01-15 语音信息的处理方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910035572.6A CN111435597B (zh) 2019-01-15 2019-01-15 语音信息的处理方法和装置

Publications (2)

Publication Number Publication Date
CN111435597A true CN111435597A (zh) 2020-07-21
CN111435597B CN111435597B (zh) 2023-01-10

Family

ID=71580681

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910035572.6A Active CN111435597B (zh) 2019-01-15 2019-01-15 语音信息的处理方法和装置

Country Status (1)

Country Link
CN (1) CN111435597B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112349299A (zh) * 2020-10-28 2021-02-09 维沃移动通信有限公司 语音播放方法、装置及电子设备
CN118588085A (zh) * 2024-08-05 2024-09-03 南京硅基智能科技有限公司 语音交互方法、语音交互系统和存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107423364A (zh) * 2017-06-22 2017-12-01 百度在线网络技术(北京)有限公司 基于人工智能的回答话术播报方法、装置及存储介质
CN107516511A (zh) * 2016-06-13 2017-12-26 微软技术许可有限责任公司 意图识别和情绪的文本到语音学习系统
CN107729311A (zh) * 2017-08-28 2018-02-23 云南大学 一种融合文本语气的中文文本特征提取方法
WO2018121757A1 (zh) * 2016-12-31 2018-07-05 深圳市优必选科技有限公司 文本语音播报方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107516511A (zh) * 2016-06-13 2017-12-26 微软技术许可有限责任公司 意图识别和情绪的文本到语音学习系统
WO2018121757A1 (zh) * 2016-12-31 2018-07-05 深圳市优必选科技有限公司 文本语音播报方法及系统
CN107423364A (zh) * 2017-06-22 2017-12-01 百度在线网络技术(北京)有限公司 基于人工智能的回答话术播报方法、装置及存储介质
CN107729311A (zh) * 2017-08-28 2018-02-23 云南大学 一种融合文本语气的中文文本特征提取方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112349299A (zh) * 2020-10-28 2021-02-09 维沃移动通信有限公司 语音播放方法、装置及电子设备
CN118588085A (zh) * 2024-08-05 2024-09-03 南京硅基智能科技有限公司 语音交互方法、语音交互系统和存储介质

Also Published As

Publication number Publication date
CN111435597B (zh) 2023-01-10

Similar Documents

Publication Publication Date Title
US10490181B2 (en) Technology for responding to remarks using speech synthesis
US10706873B2 (en) Real-time speaker state analytics platform
CN109949783B (zh) 歌曲合成方法及系统
US20200120396A1 (en) Speech recognition for localized content
KR101904455B1 (ko) 학습자 적응형 외국어 학습 방법 및 이를 실행하는 장치
US10176797B2 (en) Voice synthesis method, voice synthesis device, medium for storing voice synthesis program
JP2007140200A (ja) 語学学習装置およびプログラム
CN109215629B (zh) 语音处理方法、装置及终端
CN109346057A (zh) 一种智能儿童玩具的语音处理系统
WO2018038235A1 (ja) 聴覚トレーニング装置、聴覚トレーニング方法、およびプログラム
WO2018230670A1 (ja) 歌唱音声の出力方法及び音声応答システム
WO2018230669A1 (ja) 歌唱合成方法及び歌唱合成システム
CN111435597B (zh) 语音信息的处理方法和装置
JPWO2018030149A1 (ja) 情報処理装置及び情報処理方法
US20110264453A1 (en) Method and system for adapting communications
JP2011028130A (ja) 音声合成装置
CN112185341A (zh) 基于语音合成的配音方法、装置、设备和存储介质
CN112349266B (zh) 一种语音编辑方法及相关设备
CN110992984B (zh) 音频处理方法及装置、存储介质
Henrichsen et al. Predicting the attitude flow in dialogue based on multi-modal speech cues
EP1271469A1 (en) Method for generating personality patterns and for synthesizing speech
US20040054524A1 (en) Speech transformation system and apparatus
JP5518621B2 (ja) 音声合成装置およびコンピュータプログラム
JP2006139162A (ja) 語学学習装置
CN111429878A (zh) 一种自适应语音合成方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant