CN117743630B - 基于语音迁移学习的新闻播报个性化音频生成系统及方法 - Google Patents
基于语音迁移学习的新闻播报个性化音频生成系统及方法 Download PDFInfo
- Publication number
- CN117743630B CN117743630B CN202410186876.3A CN202410186876A CN117743630B CN 117743630 B CN117743630 B CN 117743630B CN 202410186876 A CN202410186876 A CN 202410186876A CN 117743630 B CN117743630 B CN 117743630B
- Authority
- CN
- China
- Prior art keywords
- personalized
- audio
- news
- user
- broadcasting
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000013526 transfer learning Methods 0.000 title claims abstract description 40
- 238000000034 method Methods 0.000 title claims abstract description 30
- 230000006870 function Effects 0.000 claims abstract description 23
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 19
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 19
- 238000000605 extraction Methods 0.000 claims abstract description 10
- 238000004364 calculation method Methods 0.000 claims description 14
- 238000007781 pre-processing Methods 0.000 claims description 9
- 238000012986 modification Methods 0.000 claims description 6
- 230000004048 modification Effects 0.000 claims description 6
- 238000012549 training Methods 0.000 claims description 5
- 238000013475 authorization Methods 0.000 claims description 4
- 230000007246 mechanism Effects 0.000 claims description 4
- 230000008713 feedback mechanism Effects 0.000 claims description 3
- 230000011218 segmentation Effects 0.000 claims description 3
- 238000001228 spectrum Methods 0.000 claims description 3
- 230000004382 visual function Effects 0.000 claims description 3
- 230000001105 regulatory effect Effects 0.000 claims 1
- 238000012545 processing Methods 0.000 description 13
- 238000005516 engineering process Methods 0.000 description 7
- 230000000875 corresponding effect Effects 0.000 description 6
- 238000004590 computer program Methods 0.000 description 5
- 230000001965 increasing effect Effects 0.000 description 5
- 230000003287 optical effect Effects 0.000 description 5
- 238000013461 design Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 230000003068 static effect Effects 0.000 description 4
- 230000001360 synchronised effect Effects 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 3
- 238000004140 cleaning Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000003491 array Methods 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000007418 data mining Methods 0.000 description 2
- 235000019800 disodium phosphate Nutrition 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 238000007619 statistical method Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000007786 learning performance Effects 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000012821 model calculation Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Landscapes
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Abstract
本发明提供一种基于语音迁移学习的新闻播报个性化音频生成系统及方法,属于语音合成技术领域。所述系统包括:数据采集模块,用于获取用户偏好新闻播报音频合集及播报新闻音频文本;特征提取模块,用于对获取的数据进行特征提取,得到音频声音特征信息及文本特征信息;第一确定模块,用于计算出个性化播报语音选择系数;第二确定模块,用于计算出个性化新闻文本内容选择系数;音频合成播报模块,用于根据个性化播报语音选择系数与个性化新闻文本内容选择系数确定用户个性化音频调控指数,为用户定制个性化新闻音频播报;用户界面,用于为用户提供偏好更改功能,满足用户个性化新闻播报需求。采用本发明,能够精准推荐用户个性化新闻播报音频。
Description
技术领域
本发明涉及语音合成技术领域,特别是指一种基于语音迁移学习的新闻播报个性化音频生成系统及方法。
背景技术
伴随着科技的不断进步,人们对个性化需求不断增加,传统的新闻播报往往由播音主持专业人员人工播报,提供至听众的新闻播报语言风格、语调、语速一致,同时基于新闻播报的一致性,无法满足听众特定偏好新闻主题需求。
目前,语音合成技术取得了显著效果,能够根据用户需求调整语言风格、语调、语速。而为了进一步保障合成的语音流畅自然,避免合成语音机器感强,出现了语音迁移学习技术,语音迁移学习是一种机器学习方法,能够利用已有数据及模型,在不同语音相关环境中高效的学习与适应。
在目前存在的个性化生成技术领域中,存在一些设计通过数据挖掘及统计分析相关技术实现个性化生成,例如公告号为:CN110717064B公开的一种个性化音频播单生成方法、装置及可读存储介质,采用数据挖掘及统计分析相关技术,构建基于每一个用户兴趣点的播单,能够根据每一个收听者的兴趣偏好,个性化的为每一位收听者自动生成播单,来满足收听者对于收听音频播单的需求。然而上述个性化音频播单生成方法缺乏对个性化生成的具体模型计算,无法使用于新闻播报个性化音频生成。
因此,针对以上问题,亟待需要一种基于语音迁移学习的新闻播报个性化音频生成系统及方法。
发明内容
为了解决现有技术存在的语音合成不自然、不流畅、机器感强,无法自动化满足用户个性化新闻播报需求的技术问题,本发明实施例提供了一种基于语音迁移学习的新闻播报个性化音频生成系统及方法。所述技术方案如下:
一方面,提供了一种基于语音迁移学习的新闻播报个性化音频生成系统,所述系统包括:
数据采集模块,用于获取用户偏好新闻播报音频合集及播报新闻音频文本;
特征提取模块,用于对获取的用户偏好新闻播报音频合集及播报新闻音频文本进行预处理及特征提取,得到音频声音特征信息及文本特征信息;
第一确定模块,用于根据音频声音特征信息计算出个性化播报语音选择系数,其中,所述个性化播报语音选择系数用于选择用户喜好播报语音特征;
第二确定模块,用于根据文本特征信息计算出个性化新闻文本内容选择系数,其中,所述个性化新闻文本内容选择系数用于选择用户个性化新闻内容;
音频合成播报模块,用于根据个性化播报语音选择系数与个性化新闻文本内容选择系数确定用户个性化音频调控指数,通过用户个性化音频调控指数为用户定制个性化新闻音频播报;
用户界面,用于为用户提供偏好更改功能,满足用户个性化新闻播报需求。
可选地,所述预处理具体为对用户偏好新闻播报音频合集及播报新闻音频文本进行清洗,去除重复、不相关的数据;对播报新闻音频文本进行分词,去除停用词,标点符号和不相关的文本信息;利用梅尔频谱特征对新闻音频进行音频特征提取,将音频数据转换成数值表示。
可选地,所述音频声音特征信息包括:音频语调符合率、音频语速符合率、声音风格符合率;
所述文本特征信息包括:文本关键词语义符合率、文本主题符合率。
可选地,所述个性化播报语音选择系数计算步骤为:
通过语音迁移学习,结合音频语调符合率、音频语速符合率以及声音风格符合率,构建用户个性化新闻语音模型,基于构建的用户个性化新闻语音模型训练获得个性化播报语音选择系数,所述个性化播报语音选择系数计算公式为:
;
其中,表示为个性化播报语音选择系数,/>、/>、/>分别表示为音频语调符合率、音频语速符合率、声音风格符合率,/>、/>、/>分别表示音频语调符合率、音频语速符合率、声音风格符合率的权重因子,/>表示为自然常数。
可选地,所述个性化新闻文本内容选择系数计算步骤为:
通过对文本关键词语义符合率、文本主题符合率分析计算,获得个性化新闻文本内容选择系数,所述个性化新闻文本内容选择系数计算公式为:
;
其中,表示为个性化新闻文本内容选择系数,/>、/>分别表示为文本关键词语义符合率、文本主题符合率,/>、/>分别表示为文本关键词语义符合率、文本主题符合率的权重因子,/>表示为自然常数。
可选地,所述用户个性化音频调控指数计算步骤为:
利用个性化播报语音选择系数与个性化新闻文本内容选择系数分析计算获得用户个性化音频调控指数,所述用户个性化音频调控指数计算公式为:
;
其中,表示为用户个性化音频调控指数,/>、/>分别表示为个性化播报语音选择系数与个性化新闻文本内容选择系数,/>、/>分别表示为个性化播报语音选择系数与个性化新闻文本内容选择系数的权重因子,/>表示为用户个性化音频调控指数计算的修正补偿因子。
可选地,所述通过用户个性化音频调控指数为用户定制个性化新闻音频播包括::
基于用户个性化音频调控指数,选择音频声音特征及新闻文本进行个性化音频合成;
利用合成的个性化音频进行新闻播报,同时收集用户对新闻播报的反馈调整用户个性化音频调控指数以优化个性化音频合成。
可选地,所述用户界面,具体用于提供合成的个性化音频播放功能,并利用反馈机制获取用户对播报的个性化音频体验反馈评分及更改建议,依照用户对播报的个性化音频体验反馈评分及更改建议对个性化音频自动优化更改;
提供用户手动调节音频声音特征及新闻主题功能,确保用户能自行选择播报声音风格及播报新闻主题;
将基于用户个性化音频调控指数合成的个性化音频列表利用可视化功能向用户展示个性化音频新闻主题,保障用户浏览显示的个性化音频新闻主题。
可选地,所述用户界面,还用于存储显示用户新闻播放历史记录,所述用户新闻播放历史记录包括:新闻播放时间、新闻主题;
通过访问授权加密机制设置访问密码,保障用户播报新闻隐私性。
另一方面,提供了一种基于语音迁移学习的新闻播报个性化音频生成方法,该方法由新闻播报个性化音频生成设备实现,该方法包括:
获取用户偏好新闻播报音频合集及播报新闻音频文本;
对获取的用户偏好新闻播报音频合集及播报新闻音频文本进行预处理及特征提取,得到音频声音特征信息及文本特征信息;
根据音频声音特征信息计算出个性化播报语音选择系数,其中,所述个性化播报语音选择系数用于选择用户喜好播报语音特征;
根据文本特征信息计算出个性化新闻文本内容选择系数,其中,所述个性化新闻文本内容选择系数用于选择用户个性化新闻内容;
根据个性化播报语音选择系数与个性化新闻文本内容选择系数确定用户个性化音频调控指数,通过用户个性化音频调控指数为用户定制个性化新闻音频播报;
为用户提供偏好更改功能,满足用户个性化新闻播报需求。
另一方面,提供一种新闻播报个性化音频生成设备,所述新闻播报个性化音频生成设备包括:处理器;存储器,所述存储器上存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,实现如上述基于语音迁移学习的新闻播报个性化音频生成方法中的任一项方法。
另一方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令,所述至少一条指令由处理器加载并执行以实现上述基于语音迁移学习的新闻播报个性化音频生成方法中的任一项方法。
本发明实施例提供的技术方案带来的有益效果至少包括:
(1)、该基于语音迁移学习的新闻播报个性化音频生成系统及方法,通过利用用户偏好获取用户偏好音频声音特征及文本特征,可以提供更个性化的体验,有助于针对性满足用户偏好和需求,提高用户满意度;通过第一确定模块,采用迁移学习功能,以提供自然、流畅、高质量的语音播报,有助于降低播报机器感;第二确定模块可以根据用户的文本特征信息选择和推荐感兴趣的新闻内容,有助于用户获取与其兴趣相关的信息,提高新闻播报的相关性;提供用户偏好更改功能,使用户能够根据需要随时调整播报参数,增加用户参与感;通过自动合成和播报个性化新闻,无需人工干预,显著提高新闻播报效率并降低播报成本。
(2)、该基于语音迁移学习的新闻播报个性化音频生成系统及方法,利用数据处理技术手段,对于用户个性化新闻语音模型的构建准确可靠,基于数值计算选择的个性化播报语音及个性化新闻文本内容能够精准符合用户偏好,适应用户需求,避免了人工推荐播报的主观意识造成用户收听新闻播报不满意,有助于客观精准推荐用户个性化新闻播报音频,满足用户个性化新闻播报需求。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种基于语音迁移学习的新闻播报个性化音频生成系统框图;
图2是本发明实施例提供的一种基于语音迁移学习的新闻播报个性化音频生成方法流程图;
图3是本发明实施例提供的一种新闻播报个性化音频生成设备的结构示意图。
具体实施方式
下面结合附图,对本发明中的技术方案进行描述。
在本发明实施例中,“示例地”、“例如”等词用于表示作例子、例证或说明。本发明中被描述为“示例”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言,使用示例的一词旨在以具体方式呈现概念。此外,在本发明实施例中,“和/或”所表达的含义可以是两者都有,或者可以是两者任选其一。
本发明实施例中,“图像”,“图片”有时可以混用,应当指出的是,在不强调其区别时,其所要表达的含义是一致的。“的(of)”,“相应的(corresponding,relevant)”和“对应的(corresponding)”有时可以混用,应当指出的是,在不强调其区别时,其所要表达的含义是一致的。
本发明实施例中,有时候下标如W1可能会笔误为非下标的形式如W1,在不强调其区别时,其所要表达的含义是一致的。
为使本发明要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述。
本发明针对现有语音合成机械感强,不自然的问题,提供了一种基于语音迁移学习的新闻播报个性化音频生成系统及方法。
如图1所示,本发明实施例提供了一种基于语音迁移学习的新闻播报个性化音频生成系统,所述系统包括:数据采集模块110、特征提取模块120、第一确定模块130、第二确定模块140、音频合成播报模块150和用户界面160;其中,
数据采集模块110,用于获取用户偏好新闻播报音频合集及播报新闻音频文本;
特征提取模块120,用于对获取的用户偏好新闻播报音频合集及播报新闻音频文本进行预处理及特征提取,得到音频声音特征信息及文本特征信息;
第一确定模块130,用于根据音频声音特征信息计算出个性化播报语音选择系数,其中,所述个性化播报语音选择系数用于选择用户喜好播报语音特征;
第二确定模块140,用于根据文本特征信息计算出个性化新闻文本内容选择系数,其中,所述个性化新闻文本内容选择系数用于选择用户个性化新闻内容;
音频合成播报模块150,用于根据个性化播报语音选择系数与个性化新闻文本内容选择系数确定用户个性化音频调控指数,通过用户个性化音频调控指数为用户定制个性化新闻音频播报;
用户界面160,用于为用户提供偏好更改功能,满足用户个性化新闻播报需求。
可选的,所述预处理具体为对用户偏好新闻播报音频合集及播报新闻音频文本进行清洗,去除重复、不相关的数据;对播报新闻音频文本进行分词,去除停用词,标点符号和不相关的文本信息;利用梅尔频谱特征对新闻音频进行音频特征提取,将音频数据转换成数值表示。
本实施例中,通过清洗用户偏好新闻播报音频合集和播报新闻音频文本去除重复和不相关的数据,提高数据质量,有助于确保后续处理中使用高质量的数据,提高文本处理的准确性和可理解性,从而更好地选择用户感兴趣的新闻内容;将音频数据转换成数值表示,有助于机器更好地理解音频信息,进一步分析和处理音频数据,有助于减少数据的复杂性,降低计算和存储成本。
可选的,所述音频声音特征信息包括:音频语调符合率、音频语速符合率、声音风格符合率;
所述文本特征信息包括:文本关键词语义符合率、文本主题符合率。
本实施例中,通过音频语调、语速和声音风格的符合率,可以生成符合用户偏好口音、语速和声音风格的个性化音频,有助于提升用户体验,使播报更符合用户的听觉习惯,考虑到音频语调和语速的符合率能够提高语音转化的自然性,减少生成音频播报的机器感;考虑文本关键词语义和主题的符合率有助于生成与用户兴趣相关的内容,提高根据用户偏好提供个性化新闻报道的能力,增强了用户的满意度。
可选的,所述个性化播报语音选择系数计算步骤为:
通过语音迁移学习,结合音频语调符合率、音频语速符合率以及声音风格符合率,构建用户个性化新闻语音模型,基于构建的用户个性化新闻语音模型训练获得个性化播报语音选择系数,所述个性化播报语音选择系数计算公式为:
;
其中,表示为个性化播报语音选择系数,/>、/>、/>分别表示为音频语调符合率、音频语速符合率、声音风格符合率,/>、/>、/>分别表示音频语调符合率、音频语速符合率、声音风格符合率的权重因子,/>表示为自然常数。
本实施例中,音频语调符合率指生成的语音或识别的语音的音调与原始语音的音调之间的匹配程度,衡量了合成或识别系统是否能够准确地捕捉原始语音的音调特征;音频语速符合率指生成的语音或识别的语音的语速与原始语音的语速之间的匹配程度,衡量了系统是否能够准确地模拟或识别原始语音的说话速度;声音风格符合率指生成的语音或识别的语音的声音风格与原始语音的声音风格之间的匹配程度,衡量了系统是否能够保持原始语音的声音特征,使得生成的语音或识别的语音在声音风格上与原始语音相匹配,三者通过相关领域专业人员基于专业知识人为设定。
本实施例中,语音迁移学习是一种机器学习方法,旨在利用一个领域(源领域)中学到的知识,来改善另一个领域(目标领域)的学习性能,可以应用于多个任务,包括语音识别、语音合成、情感分析等,迁移学习通常涉及到对源领域和目标领域的语音数据进行特征提取和表示学习,有助于提取通用的语音特征,使得模型能够更好地适应目标领域。用户个性化新闻语音模型训练具体为:设定多个训练周期,获取不同用户的不同偏好进行个性化播报语音选择系数调整实验验证,同时对音频语调符合率、音频语速符合率、声音风格符合率相对应的权重因子进行调整优化,以获得与实际语音合成误差最小的个性化语音特征,通过根据用户的偏好来调整音频语调、语速和声音风格,能够提供更加个性化的语音体验,从而提高用户的满意度,通过权重因子的调整,能够在不同情境和用户群体之间灵活适应,以满足不同用户的需求,使系统更具通用性,适应性强,有助于提供更具个性化、符合用户喜好的语音播报体验,从而提高用户满意度和亲近感,同时保持系统的灵活性和适应性。
可选的,所述个性化新闻文本内容选择系数计算步骤为:
通过对文本关键词语义符合率、文本主题符合率分析计算,获得个性化新闻文本内容选择系数,所述个性化新闻文本内容选择系数计算公式为:
;
其中,表示为个性化新闻文本内容选择系数,/>、/>分别表示为文本关键词语义符合率、文本主题符合率,/>、/>分别表示为文本关键词语义符合率、文本主题符合率的权重因子,/>表示为自然常数。
本实施例中,通过考虑文本关键词语义符合率,可以准确匹配用户关注的新闻关键词,有助于确保所提供的新闻内容与用户的兴趣高度相关,提高新闻推荐的精准度,有助于提供一致和有针对性的新闻体验,根据用户的偏好调整新闻推荐的权重,更好地满足用户的个性化需求,提高用户对新闻推荐的满意度。
可选的,所述用户个性化音频调控指数计算步骤为:
利用个性化播报语音选择系数与个性化新闻文本内容选择系数分析计算获得用户个性化音频调控指数,所述用户个性化音频调控指数计算公式为:
;
其中,表示为用户个性化音频调控指数,/>、/>分别表示为个性化播报语音选择系数与个性化新闻文本内容选择系数,/>、/>分别表示为个性化播报语音选择系数与个性化新闻文本内容选择系数的权重因子,/>表示为用户个性化音频调控指数计算的修正补偿因子。
本实施例中,通过个性化播报语音选择系数及个性化新闻文本内容选择系数,利用加权求和技术手段,计算出用户个性化音频调控指数,综合生成用户个性化音频,加入用户个性化需求的修正补偿因子,根据不同的情况进行调整,增加了系统灵活性,有助于提供符合用户需求和兴趣的个性化音频体验,增强用户满意度。
可选的,所述通过用户个性化音频调控指数为用户定制个性化新闻音频播包括::
基于用户个性化音频调控指数,选择音频声音特征及新闻文本进行个性化音频合成;
利用合成的个性化音频进行新闻播报,同时收集用户对新闻播报的反馈调整用户个性化音频调控指数以优化个性化音频合成。
本实施例中,通过基于用户个性化音频调控指数进行音频合成,可以提供符合用户喜好和偏好的声音特征和新闻内容,使用户获得更加个性化的体验,增强用户对播报内容的认同感和接受度,通过反馈循环,不断优化和改进系统,使其更贴合用户期望,增加用户满意度和参与度。
可选的,所述用户界面,具体用于提供合成的个性化音频播放功能,并利用反馈机制获取用户对播报的个性化音频体验反馈评分及更改建议,依照用户对播报的个性化音频体验反馈评分及更改建议对个性化音频自动优化更改;
提供用户手动调节音频声音特征及新闻主题功能,确保用户能自行选择播报声音风格及播报新闻主题;
将基于用户个性化音频调控指数合成的个性化音频列表利用可视化功能向用户展示个性化音频新闻主题,保障用户浏览显示的个性化音频新闻主题。
本实施例中,提供多层次的个性化选择,用户可以根据自己的喜好和需求,自行调节音频声音特征和选择新闻主题,有助于满足不同用户的多样化需求,提供更个性化的音频体验,通过用户参与调整播报声音风格和新闻主题,增加用户体验感,有助于不断改进系统,使其更符合用户期望。
可选的,所述用户界面,还用于存储显示用户新闻播放历史记录,所述用户新闻播放历史记录包括:新闻播放时间、新闻主题;
通过访问授权加密机制设置访问密码,保障用户播报新闻隐私性。
本实施例中,通过访问授权加密机制和设置访问密码,用户的新闻播放历史记录得到了有效的隐私保护,确保了用户的个人新闻播放信息不会被未经授权的用户或第三方访问,从而增强了用户的隐私安全,此外,用户可以随时回顾他们以前听过的新闻主题,帮助用户追踪和回顾感兴趣的新闻话题。
本发明实施例提供的技术方案带来的有益效果至少包括:
(1)、该基于语音迁移学习的新闻播报个性化音频生成系统,通过利用用户偏好获取用户偏好音频声音特征及文本特征,可以提供更个性化的体验,有助于针对性满足用户偏好和需求,提高用户满意度;通过第一确定模块,采用迁移学习功能,以提供自然、流畅、高质量的语音播报,有助于降低播报机器感;第二确定模块可以根据用户的文本特征信息选择和推荐感兴趣的新闻内容,有助于用户获取与其兴趣相关的信息,提高新闻播报的相关性;提供用户偏好更改功能,使用户能够根据需要随时调整播报参数,增加用户参与感;通过自动合成和播报个性化新闻,无需人工干预,显著提高新闻播报效率并降低播报成本。
(2)、该基于语音迁移学习的新闻播报个性化音频生成系统,利用数据处理技术手段,对于用户个性化新闻语音模型的构建准确可靠,基于数值计算选择的个性化播报语音及个性化新闻文本内容能够精准符合用户偏好,适应用户需求,避免了人工推荐播报的主观意识造成用户收听新闻播报不满意,有助于客观精准推荐用户个性化新闻播报音频,满足用户个性化新闻播报需求。
本发明实施例提供了一种基于语音迁移学习的新闻播报个性化音频生成方法,该方法可以由新闻播报个性化音频生成设备实现,该新闻播报个性化音频生成设备可以是终端或服务器。如图2所示的基于语音迁移学习的新闻播报个性化音频生成方法流程图,该方法的处理流程可以包括如下的步骤:
S1.获取用户偏好新闻播报音频合集及播报新闻音频文本;
S2.对获取的用户偏好新闻播报音频合集及播报新闻音频文本进行预处理及特征提取,得到音频声音特征信息及文本特征信息;
S3.根据音频声音特征信息计算出个性化播报语音选择系数,其中,所述个性化播报语音选择系数用于选择用户喜好播报语音特征;
S4.根据文本特征信息计算出个性化新闻文本内容选择系数,其中,所述个性化新闻文本内容选择系数用于选择用户个性化新闻内容;
S5.根据个性化播报语音选择系数与个性化新闻文本内容选择系数确定用户个性化音频调控指数,通过用户个性化音频调控指数为用户定制个性化新闻音频播报;
S6.为用户提供偏好更改功能,满足用户个性化新闻播报需求。
本实施例中,通过分析用户的音频和文本特征信息,定制个性化的新闻播报,有助于满足用户的个性化需求,提高用户的满意度,通过选择用户个性化新闻内容,有助于节省用户时间和精力,基于对用户偏好和行为的分析,进一步改进新闻内容推荐算法,提高新闻推荐精准度。
图3是本发明实施例提供的一种新闻播报个性化音频生成设备的结构示意图,如图3所示,新闻播报个性化音频生成设备可以包括上述图1所示的基于语音迁移学习的新闻播报个性化音频生成系统。可选地,新闻播报个性化音频生成设备410可以包括第一处理器2001。
可选地,新闻播报个性化音频生成设备410还可以包括存储器2002和收发器2003。
其中,第一处理器2001与存储器2002以及收发器2003,如可以通过通信总线连接。
下面结合图3对新闻播报个性化音频生成设备410的各个构成部件进行具体的介绍:
其中,第一处理器2001是新闻播报个性化音频生成设备410的控制中心,可以是一个处理器,也可以是多个处理元件的统称。例如,第一处理器2001是一个或多个中央处理器(central processing unit,CPU),也可以是特定集成电路(application specificintegrated circuit,ASIC),或者是被配置成实施本发明实施例的一个或多个集成电路,例如:一个或多个微处理器(digital signal processor,DSP),或,一个或者多个现场可编程门阵列(field programmable gate array,FPGA)。
可选地,第一处理器2001可以通过运行或执行存储在存储器2002内的软件程序,以及调用存储在存储器2002内的数据,执行新闻播报个性化音频生成设备410的各种功能。
在具体的实现中,作为一种实施例,第一处理器2001可以包括一个或多个CPU,例如图3中所示出的CPU0和CPU1。
在具体实现中,作为一种实施例,新闻播报个性化音频生成设备410也可以包括多个处理器,例如图3中所示的第一处理器2001和第二处理器2004。这些处理器中的每一个可以是一个单核处理器(single-CPU),也可以是一个多核处理器(multi-CPU)。这里的处理器可以指一个或多个设备、电路、和/或用于处理数据(例如计算机程序指令)的处理核。
其中,所述存储器2002用于存储执行本发明方案的软件程序,并由第一处理器2001来控制执行,具体实现方式可以参考上述系统实施例,此处不再赘述。
可选地,存储器2002可以是只读存储器(read-only memory,ROM)或可存储静态信息和指令的其他类型的静态存储设备,随机存取存储器(random access memory,RAM)或者可存储信息和指令的其他类型的动态存储设备,也可以是电可擦可编程只读存储器(electrically erasable programmable read-only memory,EEPROM)、只读光盘(compactdisc read-only memory,CD-ROM)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。存储器2002可以和第一处理器2001集成在一起,也可以独立存在,并通过新闻播报个性化音频生成设备410的接口电路(图3中未示出)与第一处理器2001耦合,本发明实施例对此不作具体限定。
收发器2003,用于与网络设备通信,或者与终端设备通信。
可选地,收发器2003可以包括接收器和发送器(图3中未单独示出)。其中,接收器用于实现接收功能,发送器用于实现发送功能。
可选地,收发器2003可以和第一处理器2001集成在一起,也可以独立存在,并通过新闻播报个性化音频生成设备410的接口电路(图3中未示出)与第一处理器2001耦合,本发明实施例对此不作具体限定。
需要说明的是,图3中示出的新闻播报个性化音频生成设备410的结构并不构成对该路由器的限定,实际的知识结构识别设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
此外,新闻播报个性化音频生成设备410的技术效果可以参考上述系统实施例所述的基于语音迁移学习的新闻播报个性化音频生成系统的技术效果,此处不再赘述。
应理解,在本发明实施例中的第一处理器2001可以是中央处理单元(centralprocessing unit,CPU),该处理器还可以是其他通用处理器、数字信号处理器(digitalsignal processor,DSP)、专用集成电路(application specific integrated circuit,ASIC)、现成可编程门阵列(field programmable gate array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
还应理解,本发明实施例中的存储器可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(read-only memory,ROM)、可编程只读存储器(programmable ROM,PROM)、可擦除可编程只读存储器(erasable PROM,EPROM)、电可擦除可编程只读存储器(electrically EPROM,EEPROM)或闪存。易失性存储器可以是随机存取存储器(random access memory,RAM),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的随机存取存储器(random accessmemory,RAM)可用,例如静态随机存取存储器(static RAM,SRAM)、动态随机存取存储器(DRAM)、同步动态随机存取存储器(synchronous DRAM,SDRAM)、双倍数据速率同步动态随机存取存储器(double data rate SDRAM,DDR SDRAM)、增强型同步动态随机存取存储器(enhanced SDRAM,ESDRAM)、同步连接动态随机存取存储器(synchlink DRAM,SLDRAM)和直接内存总线随机存取存储器(direct rambus RAM,DR RAM)。
上述实施例,可以全部或部分地通过软件、硬件(如电路)、固件或其他任意组合来实现。当使用软件实现时,上述实施例可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令或计算机程序。在计算机上加载或执行所述计算机指令或计算机程序时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以为通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集合的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质。半导体介质可以是固态硬盘。
应理解,本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况,其中A,B可以是单数或者复数。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系,但也可能表示的是一种“和/或”的关系,具体可参考前后文进行理解。
本发明中,“至少一个”是指一个或者多个,“多个”是指两个或两个以上。“以下至少一项(个)”或其类似表达,是指的这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b,或c中的至少一项(个),可以表示:a, b, c, a-b, a-c, b-c, 或a-b-c,其中a,b,c可以是单个,也可以是多个。
应理解,在本发明的各种实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的设备、装置和单元的具体工作过程,可以参考前述系统实施例中的对应过程,在此不再赘述。
在本发明所提供的几个实施例中,应该理解到,所揭露的设备、系统和方法,可以通过其它的方式实现。例如,以上所描述的系统实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个设备,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。
Claims (10)
1.一种基于语音迁移学习的新闻播报个性化音频生成系统,其特征在于,所述系统包括:
数据采集模块,用于获取用户偏好新闻播报音频合集及播报新闻音频文本;
特征提取模块,用于对获取的用户偏好新闻播报音频合集及播报新闻音频文本进行预处理及特征提取,得到音频声音特征信息及文本特征信息;
第一确定模块,用于根据音频声音特征信息计算出个性化播报语音选择系数,其中,所述个性化播报语音选择系数用于选择用户喜好播报语音特征;
第二确定模块,用于根据文本特征信息计算出个性化新闻文本内容选择系数,其中,所述个性化新闻文本内容选择系数用于选择用户个性化新闻内容;
音频合成播报模块,用于根据个性化播报语音选择系数与个性化新闻文本内容选择系数确定用户个性化音频调控指数,通过用户个性化音频调控指数为用户定制个性化新闻音频播报;
用户界面,用于为用户提供偏好更改功能,满足用户个性化新闻播报需求。
2.根据权利要求1所述的基于语音迁移学习的新闻播报个性化音频生成系统,其特征在于,所述预处理具体为对用户偏好新闻播报音频合集及播报新闻音频文本进行清洗,去除重复、不相关的数据;对播报新闻音频文本进行分词,去除停用词,标点符号和不相关的文本信息;利用梅尔频谱特征对新闻音频进行音频特征提取,将音频数据转换成数值表示。
3.根据权利要求1所述的基于语音迁移学习的新闻播报个性化音频生成系统,其特征在于,所述音频声音特征信息包括:音频语调符合率、音频语速符合率、声音风格符合率;
所述文本特征信息包括:文本关键词语义符合率、文本主题符合率。
4.根据权利要求3所述的基于语音迁移学习的新闻播报个性化音频生成系统,其特征在于,所述个性化播报语音选择系数计算步骤为:
通过语音迁移学习,结合音频语调符合率、音频语速符合率以及声音风格符合率,构建用户个性化新闻语音模型,基于构建的用户个性化新闻语音模型训练获得个性化播报语音选择系数,所述个性化播报语音选择系数计算公式为:
;
其中,表示为个性化播报语音选择系数,/>、/>、/>分别表示为音频语调符合率、音频语速符合率、声音风格符合率,/>、/>、/>分别表示音频语调符合率、音频语速符合率、声音风格符合率的权重因子,/>表示为自然常数。
5.根据权利要求3所述的基于语音迁移学习的新闻播报个性化音频生成系统,其特征在于,所述个性化新闻文本内容选择系数计算步骤为:
通过对文本关键词语义符合率、文本主题符合率分析计算,获得个性化新闻文本内容选择系数,所述个性化新闻文本内容选择系数计算公式为:
;
其中,表示为个性化新闻文本内容选择系数,/>、/>分别表示为文本关键词语义符合率、文本主题符合率,/>、/>分别表示为文本关键词语义符合率、文本主题符合率的权重因子,/>表示为自然常数。
6.根据权利要求1所述的基于语音迁移学习的新闻播报个性化音频生成系统,其特征在于,所述用户个性化音频调控指数计算步骤为:
利用个性化播报语音选择系数与个性化新闻文本内容选择系数分析计算获得用户个性化音频调控指数,所述用户个性化音频调控指数计算公式为:
;
其中,表示为用户个性化音频调控指数,/>、/>分别表示为个性化播报语音选择系数与个性化新闻文本内容选择系数,/>、/>分别表示为个性化播报语音选择系数与个性化新闻文本内容选择系数的权重因子,/>表示为用户个性化音频调控指数计算的修正补偿因子。
7.根据权利要求6所述的基于语音迁移学习的新闻播报个性化音频生成系统,其特征在于,所述通过用户个性化音频调控指数为用户定制个性化新闻音频播包括:
基于用户个性化音频调控指数,选择音频声音特征及新闻文本进行个性化音频合成;
利用合成的个性化音频进行新闻播报,同时收集用户对新闻播报的反馈调整用户个性化音频调控指数以优化个性化音频合成。
8.根据权利要求7所述的基于语音迁移学习的新闻播报个性化音频生成系统,其特征在于,所述用户界面,具体用于提供合成的个性化音频播放功能,并利用反馈机制获取用户对播报的个性化音频体验反馈评分及更改建议,依照用户对播报的个性化音频体验反馈评分及更改建议对个性化音频自动优化更改;
提供用户手动调节音频声音特征及新闻主题功能,确保用户能自行选择播报声音风格及播报新闻主题;
将基于用户个性化音频调控指数合成的个性化音频列表利用可视化功能向用户展示个性化音频新闻主题,保障用户浏览显示的个性化音频新闻主题。
9.根据权利要求8所述的基于语音迁移学习的新闻播报个性化音频生成系统,其特征在于,所述用户界面,还用于存储显示用户新闻播放历史记录,所述用户新闻播放历史记录包括:新闻播放时间、新闻主题;
通过访问授权加密机制设置访问密码,保障用户播报新闻隐私性。
10.一种基于语音迁移学习的新闻播报个性化音频生成方法,其特征在于,所述方法包括:
获取用户偏好新闻播报音频合集及播报新闻音频文本;
对获取的用户偏好新闻播报音频合集及播报新闻音频文本进行预处理及特征提取,得到音频声音特征信息及文本特征信息;
根据音频声音特征信息计算出个性化播报语音选择系数,其中,所述个性化播报语音选择系数用于选择用户喜好播报语音特征;
根据文本特征信息计算出个性化新闻文本内容选择系数,其中,所述个性化新闻文本内容选择系数用于选择用户个性化新闻内容;
根据个性化播报语音选择系数与个性化新闻文本内容选择系数确定用户个性化音频调控指数,通过用户个性化音频调控指数为用户定制个性化新闻音频播报;
为用户提供偏好更改功能,满足用户个性化新闻播报需求。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410186876.3A CN117743630B (zh) | 2024-02-20 | 2024-02-20 | 基于语音迁移学习的新闻播报个性化音频生成系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410186876.3A CN117743630B (zh) | 2024-02-20 | 2024-02-20 | 基于语音迁移学习的新闻播报个性化音频生成系统及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117743630A CN117743630A (zh) | 2024-03-22 |
CN117743630B true CN117743630B (zh) | 2024-04-26 |
Family
ID=90251174
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410186876.3A Active CN117743630B (zh) | 2024-02-20 | 2024-02-20 | 基于语音迁移学习的新闻播报个性化音频生成系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117743630B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110782870A (zh) * | 2019-09-06 | 2020-02-11 | 腾讯科技(深圳)有限公司 | 语音合成方法、装置、电子设备及存储介质 |
CN112685556A (zh) * | 2020-12-29 | 2021-04-20 | 西安掌上盛唐网络信息有限公司 | 一种新闻文本自动摘要及语音播报系统 |
CN112786026A (zh) * | 2019-12-31 | 2021-05-11 | 深圳市木愚科技有限公司 | 基于语音迁移学习的亲子故事个性化音频生成系统及方法 |
WO2023114064A1 (en) * | 2021-12-13 | 2023-06-22 | Cerence Operating Company | Adaptation and training of neural speech synthesis |
WO2023221345A1 (zh) * | 2022-05-16 | 2023-11-23 | 网易(杭州)网络有限公司 | 一种情感语音的合成方法及合成装置 |
CN117558259A (zh) * | 2023-11-22 | 2024-02-13 | 北京风平智能科技有限公司 | 一种数字人播报风格控制方法及装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11741941B2 (en) * | 2020-06-12 | 2023-08-29 | SoundHound, Inc | Configurable neural speech synthesis |
-
2024
- 2024-02-20 CN CN202410186876.3A patent/CN117743630B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110782870A (zh) * | 2019-09-06 | 2020-02-11 | 腾讯科技(深圳)有限公司 | 语音合成方法、装置、电子设备及存储介质 |
CN112786026A (zh) * | 2019-12-31 | 2021-05-11 | 深圳市木愚科技有限公司 | 基于语音迁移学习的亲子故事个性化音频生成系统及方法 |
CN112685556A (zh) * | 2020-12-29 | 2021-04-20 | 西安掌上盛唐网络信息有限公司 | 一种新闻文本自动摘要及语音播报系统 |
WO2023114064A1 (en) * | 2021-12-13 | 2023-06-22 | Cerence Operating Company | Adaptation and training of neural speech synthesis |
WO2023221345A1 (zh) * | 2022-05-16 | 2023-11-23 | 网易(杭州)网络有限公司 | 一种情感语音的合成方法及合成装置 |
CN117558259A (zh) * | 2023-11-22 | 2024-02-13 | 北京风平智能科技有限公司 | 一种数字人播报风格控制方法及装置 |
Non-Patent Citations (1)
Title |
---|
基于深度学习的蒙古语AI合成主播;宝音都古楞等;中央民族大学学报(自然科学版);20230531;第第32卷卷(第第2期期);第31-40页 * |
Also Published As
Publication number | Publication date |
---|---|
CN117743630A (zh) | 2024-03-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20210400101A1 (en) | Systems and methods for artificial dubbing | |
CN110264991B (zh) | 语音合成模型的训练方法、语音合成方法、装置、设备及存储介质 | |
CN109147807B (zh) | 一种基于深度学习的音域平衡方法、装置及系统 | |
CN113314119B (zh) | 语音识别智能家居控制方法及装置 | |
CN112233698A (zh) | 人物情绪识别方法、装置、终端设备及存储介质 | |
CN107305549A (zh) | 语言数据处理方法、装置以及用于语言数据处理的装置 | |
CN112309365A (zh) | 语音合成模型的训练方法、装置、存储介质以及电子设备 | |
CN112530409A (zh) | 基于几何学的语音样本筛选方法、装置及计算机设备 | |
CN110879839A (zh) | 一种热词识别方法、装置及系统 | |
CN114143479B (zh) | 视频摘要的生成方法、装置、设备以及存储介质 | |
CN116913278B (zh) | 语音处理方法、装置、设备和存储介质 | |
CN113438374A (zh) | 智能外呼处理方法、装置、设备及存储介质 | |
CN117743630B (zh) | 基于语音迁移学习的新闻播报个性化音频生成系统及方法 | |
CN117201706A (zh) | 基于控制策略的数字人合成方法、系统、设备及介质 | |
JP6786065B2 (ja) | 音声評定装置、音声評定方法、教師変化情報の生産方法、およびプログラム | |
CN117352132A (zh) | 心理辅导方法、装置、设备及存储介质 | |
CN112233649A (zh) | 机器同声传译输出音频动态合成方法、装置以及设备 | |
CN113450811B (zh) | 对音乐进行通透处理的方法及设备 | |
US11704585B2 (en) | System and method to determine outcome probability of an event based on videos | |
CN113299270B (zh) | 语音合成系统的生成方法、装置、设备及存储介质 | |
CN114464163A (zh) | 语音合成模型的训练方法、装置、设备、存储介质和产品 | |
WO2020230788A1 (ja) | 対話装置、発話生成方法、及びプログラム | |
CN116561294A (zh) | 手语视频的生成方法、装置、计算机设备及存储介质 | |
CN113889130A (zh) | 一种语音转换方法、装置、设备及介质 | |
CN112509559A (zh) | 音频识别方法、模型训练方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |