CN116741146A - 基于语义语调的方言语音生成方法、系统及介质 - Google Patents
基于语义语调的方言语音生成方法、系统及介质 Download PDFInfo
- Publication number
- CN116741146A CN116741146A CN202311020306.9A CN202311020306A CN116741146A CN 116741146 A CN116741146 A CN 116741146A CN 202311020306 A CN202311020306 A CN 202311020306A CN 116741146 A CN116741146 A CN 116741146A
- Authority
- CN
- China
- Prior art keywords
- dialect
- semantic
- intonation
- voice
- basic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 72
- 238000004458 analytical method Methods 0.000 claims abstract description 48
- 230000008569 process Effects 0.000 claims description 14
- 230000011218 segmentation Effects 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 4
- 238000012937 correction Methods 0.000 claims description 3
- 238000005516 engineering process Methods 0.000 abstract description 9
- 230000015572 biosynthetic process Effects 0.000 abstract description 8
- 238000003786 synthesis reaction Methods 0.000 abstract description 8
- 238000004891 communication Methods 0.000 abstract description 7
- 208000029257 vision disease Diseases 0.000 description 5
- 238000005457 optimization Methods 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 208000030251 communication disease Diseases 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 241001575999 Hakka Species 0.000 description 1
- 235000016278 Mentha canadensis Nutrition 0.000 description 1
- 206010047571 Visual impairment Diseases 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 239000009730 ganji Substances 0.000 description 1
- 230000001771 impaired effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000036651 mood Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 239000002689 soil Substances 0.000 description 1
- 230000004393 visual impairment Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
- G10L13/086—Detection of language
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
- G10L13/10—Prosody rules derived from text; Stress or intonation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/005—Language recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1822—Parsing for meaning understanding
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了基于语义语调的方言语音生成方法、系统及介质,涉及语音合成技术领域;识别次方言语音输入信息并进行语义语调相似度分析,根据语义语调相似度分析结果在大方言语料库中搜索出匹配的次方言规则;按照匹配的次方言规则,先对所述基本方言输出文本进行修正,再将修正后的基本方言输出文本转化成次方言语音输出;本方案在现有的方言语音生成技术基础上进行方法上的改进,分析次方言输入信息的语义语调,根据语义语调分析结果确定该次方言输入信息的所属次方言规则,并根据次方言规则对基本方言输出文本进行修正,按照次方言规则输出次方言语音,有效解决大方言区内部的语言差异导致的沟通难的问题。
Description
技术领域
本发明涉及语音合成技术领域,具体涉及基于语义语调的方言语音生成方法、系统及介质。
背景技术
汉语方言是汉语的地域变体,一般认为,汉语方言通常分为十大方言:官话方言、晋方言、吴方言、徽方言、闽方言、粤方言、客家方言、赣方言、湘方言和平话土话;一个大方言内部仍存在语言差异,因此大方言之下又分次方言,次方言内部还可以再分为若干土语。如,官话方言分为:东北官话、北京官话、冀鲁官话、胶辽官话、兰银官话、西南官话和江淮官话;西南官话下分6片、22小片,主要分布于四川、重庆、贵州、云南、湖北、广西、湖南七省和直辖市。
对于汉语方言的语音识别和语音合成技术越来越成熟,语音合成是一种将文字信息转变为可以听得懂的、流利的汉语口语输出的技术。语音合成不仅能帮助有视觉障碍的人阅读计算机上的信息,更能增加文本文档的可读性。
现有的方言语音生成方法主要是大方言区方言,但是一个大方言区内部仍存在语言差异,现有的方言语音合成技术,仍然存在大方言区内部交流障碍的问题。
发明内容
本发明所要解决的技术问题是:现有的方言语音生成方法主要是大方言区方言,但是一个大方言区内部仍存在语言差异,目前的方言语音合成技术,仍然存在大方言区内部交流障碍的问题;本发明目的在于提供基于语义语调的方言语音生成方法、系统及介质,通过与阅读者进行一轮对话,根据阅读者的次方言语音输入信息调取相应的次方言规则,依据次方言规则将输出文本转化成次方言语音输出,有效帮助有视觉障碍的人阅读输出文本,增加文本文档的可读性,同时解决大方言区内部的语言差异导致的沟通难的问题。
本发明通过下述技术方案实现:
本方案提供基于语义语调的方言语音生成方法,包括:
识别次方言语音输入信息;
对次方言语音输入信息进行语义语调相似度分析,并基于语义语调相似度分析结果在大方言语料库中搜索出匹配的次方言规则;所述大方言语料库中存储有大方言区内所有方言规则,包括基本方言规则和次方言规则;所述基本方言规则为大方言区内使用人数最多方言所对应的规则;所述方言规则包括语义规则和语调规则;所述语义语调相似度分析包括:在将次方言语音输入信息转化为基本方言语音和基本方言语音的过程中,计算出的语义相似度和语调相似度,基于语义相似度和语调相似度得到语义语调相似度分析结果;
获取输出文本并依据基本方言规则将输出文本转化成基本方言输出文本;
按照匹配的次方言规则,先对所述基本方言输出文本进行修正,再将修正后的基本方言输出文本转化成次方言语音;
输出所述次方言语音。
本方案工作原理:现有的方言语音生成方法主要是针对大方言区,但是一个大方言区内部仍存在语言差异,比如巴蜀方言区中,不同区域还有各自的方言,一些典型的乡音比较特别的如乐山方言、内江方言、自贡方言、宜宾方言、泸州方言和雅安话等,相互之间语义和语调存在较大的差异;在进行方言语音生成时,现有方法通常直接按照的大方言区内使用人数最多的基本方言规则生成基本方言语音,对于乡音特别的区域依旧存在方言难以理解的现象;鉴于此,本方案提供基于语义语调的方言语音生成方法,在现有的方言语音生成技术基础上进行方法上的改进,分析次方言输入信息的语义语调,根据语义语调分析结果确定该次方言输入信息的所属次方言规则,并按照次方言规则(语义规则)对基本方言输出文本进行修正,按照次方言规则(语调规则)输出次方言语音,有效解决大方言区内部的语言差异导致的沟通难的问题,有效帮助有视觉障碍的人阅读输出文本,更能增加文本文档的可读性;考虑到大方言区内各个次方言语义特征和语调特征差异明显的特点,本方案选定以次方言转换成基本方言过程中的语义差异特征和语调差异特征,根据语音语义分析结果来匹配查找对应的次方言规则,保障对应次方言规则匹配精准度,提高方言语音生成的有效性。
所述次方言输入信息包括次方言语音信息或精准的次方言名称信息,当次方言输入信息为精准的次方言名称信息,则可以省略语义语调分析和搜索过程,可以直接调取相关的次方言规则对基本方言输出文本进行给修正。
本方案提供了一种新的技术构思,通过与阅读者进行一轮交互,根据阅读者的(交互信息)次方言语音输入信息匹配调取相应的次方言规则,依据次方言规则将输出文本转化成次方言语音输出,有效帮助有视觉障碍的人阅读输出文本,更能增加文本文档的可读性,同时解决大方言区内部的语言差异导致的沟通难的问题。
进一步优化方案为,若在大方言语料库中未搜索出与语义语调相似度分析结果匹配的次方言规则时,直接将基本方言输出文本转化成基本方言语音后输出;当大方言语料库中未搜索匹配的次方言规则,就直接以使用人数最多的基本方言输出。
进一步优化方案为,所述识别次方言语音输入信息,包括方法:
将所述次方言语音输入信息输入到预先训练的方言语音识别模型中,得到次方言语音输入信息的识别信息,所述识别信息包括语义文本和语音信息。
进一步优化方案为,所述对次方言语音输入信息进行语义语调相似度分析,包括方法:
S1,获取次方言语音输入信息的语义文本和语音信息,基于基本方言规则先将语义文本转化成基本方言文本,再将基本方言文本转化成基本方言语音;
S2,基于次方言语音输入信息的语义文本与基本方言文本计算语义相似度Qy,基于次方言语音输入信息的语音信息与基本方言语音计算语调相似度Qd;
S3,根据语调相似度Qd和语义相似度Qy计算出语义语调相似度Q:
其中K为相似度系数。
进一步优化方案为,所述基于次方言语音输入信息的语义文本与基本方言文本计算语义相似度Qy,包括方法:
分别对语音输入文本和基本方言输入文本进行词汇分割;
以句子为单位将语音输入文本和基本方言输入文本分别划分成m个句子,并对各句子进行词汇分割;
比较语音输入文本和基本方言输入文本对应同一句子的语义特征;所述语义特征包括:语音输入文本中句子I1对比基本方言输入文本中句子I2的相同词汇占比SI:
SI=S12/S2总
其中,句子I1 和句子I2相对应;S12为句子I1 和句子I2中相同词汇的数量,S2总为句子J2的词汇总数;
语音输入文本对应句子I1对比基本方言输入文本对应句子I2的句长差异LI;即字数差异。
语音输入文本对应句子I1对比基本方言输入文本对应句子I2中表示同一语义词汇的位置差异RI;
基于语义特征计算语义相似度:
。
进一步优化方案为,所述基于次方言语音输入信息的语音信息与基本方言语音计算语调相似度Qd,包括方法:
以句子为单位将次方言语音输入信息的语音信息和基本方言语音分别划分成m个语音;
比较次方言语音输入信息的语音信息和基本方言语音对应同一语音的语调特征,所述语调特征包括:
次方言语音输入信息的语音信息中语音J1对比基本方言语音中语音J2的音长差KI;
次方言语音输入信息的语音信息中语音J1对比基本方言语音中语音J2的调型差系数MI;(调型包含陈述、疑问、感叹和祈使,提前根据各次方言的语调特性设置各个调型之间的差异系数规则,根据差异系数规则确定出语音J1与语音J2的调型差系数MI)
次方言语音输入信息的语音信息中语音J1对比基本方言语音中语音J2间词汇停顿时长的最大差异NI;(根据上述的词汇分割,对比语音J1与语音J2中各个词汇之间的停顿时长,选出语音J1中最长的停顿时长,比较对应语音J2对应的停顿时长得到词汇停顿时长得到最大差异NI。)
基于语调特征计算语调相似度:
。
进一步优化方案为,所述基于语义语调相似度分析结果在大方言语料库中搜索出匹配的次方言规则,包括方法:
将次方言语音输入信息的语义语调相似度Q与各次方言规则对应的语义语调相似度阈值区间逐一进行比对,当次方言语音输入信息的语义语调相似度Q落在次方言规则i对应的语义语调相似度阈值区间时,判定语义语调相似度Q与次方言规则i匹配;
次方言规则i对应的语义语调相似度阈区间QI的获取方法包括:按照次方言规则i,将m组基本方言的语义文本和语音信息转化成次方言文本和次方言语音;计算各组基本方言的语义语调相似度和m组基本方言的平均相似度Qimp,根据平均相似度Qimp确定语义语调相似度阈区间QI。
本方案在对次方言语音输入信息进行语义语调相似度分析时,以大方言区内使用人数最多的基本方言为基础,考虑到大方言区内各个次方言语义特征和语调特征差异明显的特点,选定以次方言转换成基本方言过程中的语义差异特征和语调差异特征,用来匹配查找对应的次方言规则,保障对应次方言规则匹配精准度,提高方言语音生成的有效性。
次方言规则i对应的语义语调相似度阈区间QI的获取方法,与次方言语音输入信息的语义语调相似度分析结果的获取方法一致,只是,语义语调相似度阈区间QI的获取过程是从次方言转换成基本方言语音和文本 ,而次方言语音输入信息的语义语调相似度分析结果的过程是从基本方言转换成次方言语音和文本,一个是正向转换,一个反向转换,是的筛选过程更加精准。
进一步优化方案为,所述按照匹配的次方言规则,先对所述基本方言输出文本进行修正,再将修正后的基本方言输出文本转化成次方言语音,包括方法:根据匹配的次方言规则的语义规则修正基本方言输出文本,再根据匹配的次方言规则的语调规则将修正后的基本方言输出文本转化成次方言语音。
本方案还提供基于语义语调的方言语音生成系统,用于实现上述的基于语义语调的方言语音生成方法,包括:
识别模块,用于识别次方言语音输入信息;
分析搜索模块,用于对次方言语音输入信息进行语义语调相似度分析,并基于语义语调相似度分析结果在大方言语料库中搜索出匹配的次方言规则;所述大方言语料库中存储有大方言区内所有方言规则,包括基本方言规则和次方言规则;所述基本方言规则为大方言区内使用人数最多方言所对应的规则;所述方言规则包括语义规则和语调规则;所述语义语调相似度分析包括:在将次方言语音输入信息转化为基本方言语音和基本方言语音的过程中,计算出的语义相似度和语调相似度,基于语义相似度和语调相似度得到语义语调相似度分析结果;
输出文本获取模块,用于获取输出文本并依据基本方言规则将输出文本转化成基本方言输出文本;
修正模块,用于按照匹配的次方言规则,先对所述基本方言输出文本进行修正,再将修正后的基本方言输出文本转化成次方言语音;
输出模块,用于输出所述次方言语音。
本方案还提供一种计算机可读介质,其上存储有计算机程序,所述计算机程序被处理器执行可实现如上述的基于语义语调的方言语音生成方法。
本发明与现有技术相比,具有如下的优点和有益效果:
1.本发明提供的基于语义语调的方言语音生成方法、系统及介质;在现有的方言语音生成技术基础上进行方法上的改进,分析次方言输入信息的语义语调,根据语义语调分析结果确定该次方言输入信息的所属次方言规则,并按照次方言规则(语义规则)对基本方言输出文本进行修正,按照次方言规则(语调规则)输出次方言语音,有效解决大方言区内部的语言差异导致的沟通难的问题,有效帮助有视觉障碍的人阅读输出文本,更能增加文本文档的可读性。
2.本发明提供的基于语义语调的方言语音生成方法、系统及介质;考虑到大方言区内各个次方言语义特征和语调特征差异明显的特点,本方案选定以次方言转换成基本方言过程中的语义差异特征和语调差异特征,根据语音语义分析结果来匹配查找对应的次方言规则,保障对应次方言规则匹配精准度,提高方言语音生成的有效性。
附图说明
为了更清楚地说明本发明示例性实施方式的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。在附图中:
图1为基于语义语调的方言语音生成方法流程示意图;
图2为基于语义语调的方言语音生成系统结构示意图。
实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下面结合实施例和附图,对本发明作进一步的详细说明,本发明的示意性实施方式及其说明仅用于解释本发明,并不作为对本发明的限定。
现有的方言语音生成方法主要是大方言区方言,但是一个大方言区内部仍存在语言差异,目前的方言语音合成技术,仍然存在大方言区内部交流障碍的问题;因此,本方案提供以下实施例解决上述技术问题。
实施例1
本实施例提供基于语义语调的方言语音生成方法,如图1所示,包括:
步骤一:识别次方言语音输入信息;包括方法:
将所述次方言语音输入信息输入到预先训练的方言语音识别模型中,得到次方言语音输入信息的识别信息,所述识别信息包括语义文本和语音信息。
本实施例中次方言输入信息包括次方言语音信息或精准的次方言名称信息,当次方言输入信息为精准的次方言名称信息,则可以省略语义语调分析和搜索过程,可以直接调取相关的次方言规则对基本方言输出文本进行给修正。
步骤二:对次方言语音输入信息进行语义语调相似度分析,并基于语义语调相似度分析结果在大方言语料库中搜索出匹配的次方言规则;所述大方言语料库中存储有大方言区内所有方言规则,包括基本方言规则和次方言规则;所述基本方言规则为大方言区内使用人数最多方言所对应的规则;所述方言规则包括语义规则和语调规则;若在大方言语料库中未搜索出与语义语调相似度分析结果匹配的次方言规则时,直接将基本方言输出文本转化成基本方言语音后输出。当大方言语料库中未搜索匹配的次方言规则,就直接以使用人数最多的基本方言输出。
对次方言语音输入信息进行语义语调相似度分析,包括方法:
S1,获取次方言语音输入信息的语义文本和语音信息,基于基本方言规则先将语义文本转化成基本方言文本,再将基本方言文本转化成基本方言语音;
S2,基于次方言语音输入信息的语义文本与基本方言文本计算语义相似度Qy,基于次方言语音输入信息的语音信息与基本方言语音计算语调相似度Qd;
S3,根据语调相似度Qd和语义相似度Qy计算出语义语调相似度Q:
其中K为相似度系数。
S21,基于次方言语音输入信息的语义文本与基本方言文本计算语义相似度Qy,包括方法:
S211,分别对语音输入文本和基本方言输入文本进行词汇分割:以句子为单位将语音输入文本和基本方言输入文本分别划分成m个句子,并对各句子进行词汇分割,将句子中的动词、名词、形容词等各种词汇分割开,这里需要保留语气词,以便后续计算句长差异LI;
S212,比较语音输入文本和基本方言输入文本对应同一句子的语义特征;所述语义特征包括:语音输入文本中句子I1对比基本方言输入文本中句子I2的相同词汇占比SI:
SI=S12/S2总
其中,句子I1 和句子I2相对应;S12为句子I1 和句子I2中相同词汇的数量,S2总为句子J2的词汇总数;
语音输入文本对应句子I1对比基本方言输入文本对应句子I2的句长差异LI;即句子中的字数差异。
语音输入文本对应句子I1对比基本方言输入文本对应句子I2中表示同一语义词汇的位置差异RI;
S213,基于语义特征计算语义相似度:
;
S22,基于次方言语音输入信息的语音信息与基本方言语音计算语调相似度Qd,包括方法:
S221,以句子为单位将次方言语音输入信息的语音信息和基本方言语音分别划分成m个语音;
S222,比较次方言语音输入信息的语音信息和基本方言语音对应同一语音的语调特征,所述语调特征包括:
次方言语音输入信息的语音信息中语音J1对比基本方言语音中语音J2的音长差KI;用两个语音的时长差表示音长差KI。
次方言语音输入信息的语音信息中语音J1对比基本方言语音中语音J2的调型差系数MI;调型包含陈述、疑问、感叹和祈使,提前根据各次方言的语调特性设置各个调型之间的差异系数规则,根据差异系数规则确定出语音J1与语音J2的调型差系数MI。
次方言语音输入信息的语音信息中语音J1对比基本方言语音中语音J2间词汇停顿时长的最大差异NI;
根据上述的词汇分割,对比语音J1与语音J2中各个词汇之间的停顿时长,选出语音J1中最长的停顿时长,比较对应语音J2对应的停顿时长得到词汇停顿时长得到最大差异NI。
当语音J1中有语气词,而语音J2中没有语气词时,该语气词的语音时长计入为语气词相邻词汇之间的停顿时长,如语音J1中有词汇(A1,B1,C1,D1)其中C1为语气词,语音J2中有词汇(A2,B2,D2)那么词汇B1与词汇D1之间的停顿时长包含有语气词C1的语音时长,而词汇B2与词汇D2之间的停顿时长只有语音停顿的时长不含语气词时长。
S223,基于语调特征计算语调相似度:
。
S23,基于语义语调相似度分析结果在大方言语料库中搜索出匹配的次方言规则,包括方法:
将次方言语音输入信息的语义语调相似度Q与各次方言规则对应的语义语调相似度阈值区间逐一进行比对,当次方言语音输入信息的语义语调相似度Q落在次方言规则i对应的语义语调相似度阈值区间时,判定语义语调相似度Q与次方言规则i匹配;
次方言规则i对应的语义语调相似度阈区间QI的获取方法包括:按照次方言规则i,将m组基本方言的语义文本和语音信息转化成次方言文本和次方言语音;计算各组基本方言的语义语调相似度和m组基本方言的平均相似度Qimp,根据平均相似度Qimp确定语义语调相似度阈区间QI。
步骤三:获取输出文本并依据基本方言规则将输出文本转化成基本方言输出文本;
步骤四:按照匹配的次方言规则,先对所述基本方言输出文本进行修正,再将修正后的基本方言输出文本转化成次方言语音;包括方法:
根据匹配的次方言规则的语义规则修正基本方言输出文本,再根据匹配的次方言规则的语调规则将修正后的基本方言输出文本转化成次方言语音。
步骤五:输出所述次方言语音。
实施例2
本实施例提供基于语义语调的方言语音生成系统,用于实现实施例1的基于语义语调的方言语音生成方法,如图2所示,包括:
识别模块,用于识别次方言语音输入信息;
分析搜索模块,用于对次方言语音输入信息进行语义语调相似度分析,并基于语义语调相似度分析结果在大方言语料库中搜索出匹配的次方言规则;所述大方言语料库中存储有大方言区内所有方言规则,包括基本方言规则和次方言规则;所述基本方言规则为大方言区内使用人数最多方言所对应的规则;所述方言规则包括语义规则和语调规则;所述语义语调相似度分析包括:在将次方言语音输入信息转化为基本方言语音和基本方言语音的过程中,计算出的语义相似度和语调相似度,基于语义相似度和语调相似度得到语义语调相似度分析结果;
输出文本获取模块,用于获取输出文本并依据基本方言规则将输出文本转化成基本方言输出文本;
修正模块,用于按照匹配的次方言规则,先对所述基本方言输出文本进行修正,再将修正后的基本方言输出文本转化成次方言语音;
输出模块,用于输出所述次方言语音。
实施例3
本实施例提供一种计算机可读介质,其上存储有计算机程序,所述计算机程序被处理器执行可实现实施例1的基于语义语调的方言语音生成方法。
本发明在现有的方言语音生成技术基础上进行方法上的改进,分析次方言输入信息的语义语调,根据语义语调分析结果确定该次方言输入信息的所属次方言规则,并按照次方言规则(语义规则)对基本方言输出文本进行修正,按照次方言规则(语调规则)输出次方言语音,有效解决大方言区内部的语言差异导致的沟通难的问题,有效帮助有视觉障碍的人阅读输出文本,更能增加文本文档的可读性。考虑到大方言区内各个次方言语义特征和语调特征差异明显的特点,本方案选定以次方言转换成基本方言过程中的语义差异特征和语调差异特征,根据语音语义分析结果来匹配查找对应的次方言规则,保障对应次方言规则匹配精准度,提高方言语音生成的有效性。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.基于语义语调的方言语音生成方法,其特征在于,包括:
识别次方言语音输入信息;
对次方言语音输入信息进行语义语调相似度分析,并基于语义语调相似度分析结果在大方言语料库中搜索出匹配的次方言规则;所述大方言语料库中存储有大方言区内所有方言规则,包括基本方言规则和次方言规则;所述基本方言规则为大方言区内使用人数最多方言所对应的规则;所述方言规则包括语义规则和语调规则;所述语义语调相似度分析包括:在将次方言语音输入信息转化为基本方言语音和基本方言语音的过程中,计算出的语义相似度和语调相似度,基于语义相似度和语调相似度得到语义语调相似度分析结果;
获取输出文本并依据基本方言规则将输出文本转化成基本方言输出文本;
按照匹配的次方言规则,先对所述基本方言输出文本进行修正,再将修正后的基本方言输出文本转化成次方言语音;
输出所述次方言语音。
2.根据权利要求1所述的基于语义语调的方言语音生成方法,其特征在于,若在大方言语料库中未搜索出与语义语调相似度分析结果匹配的次方言规则时,直接将基本方言输出文本转化成基本方言语音后输出。
3.根据权利要求1所述的基于语义语调的方言语音生成方法,其特征在于,所述识别次方言语音输入信息,包括方法:
将所述次方言语音输入信息输入到预先训练的方言语音识别模型中,得到次方言语音输入信息的识别信息,所述识别信息包括语义文本和语音信息。
4.根据权利要求1所述的基于语义语调的方言语音生成方法,其特征在于,所述对次方言语音输入信息进行语义语调相似度分析,包括方法:
S1,获取次方言语音输入信息的语义文本和语音信息,基于基本方言规则先将语义文本转化成基本方言文本,再将基本方言文本转化成基本方言语音;
S2,基于次方言语音输入信息的语义文本与基本方言文本计算语义相似度Qy,基于次方言语音输入信息的语音信息与基本方言语音计算语调相似度Qd;
S3,根据语调相似度Qd和语义相似度Qy计算出语义语调相似度Q:
其中K为相似度系数。
5.根据权利要求4所述的基于语义语调的方言语音生成方法,其特征在于,所述基于次方言语音输入信息的语义文本与基本方言文本计算语义相似度Qy,包括方法:
分别对语音输入文本和基本方言输入文本进行词汇分割;
以句子为单位将语音输入文本和基本方言输入文本分别划分成m个句子,并对各句子进行词汇分割;
比较语音输入文本和基本方言输入文本对应同一句子的语义特征;所述语义特征包括:语音输入文本中句子I1对比基本方言输入文本中句子I2的相同词汇占比SI:
SI=S12/S2总
其中,句子I1 和句子I2相对应;S12为句子I1 和句子I2中相同词汇的数量,S2总为句子J2的词汇总数;
语音输入文本对应句子I1对比基本方言输入文本对应句子I2的句长差异LI;
语音输入文本对应句子I1对比基本方言输入文本对应句子I2中表示同一语义词汇的位置差异RI;
基于语义特征计算语义相似度:
。
6.根据权利要求4所述的基于语义语调的方言语音生成方法,其特征在于,所述基于次方言语音输入信息的语音信息与基本方言语音计算语调相似度Qd,包括方法:
以句子为单位将次方言语音输入信息的语音信息和基本方言语音分别划分成m个语音;
比较次方言语音输入信息的语音信息和基本方言语音对应同一语音的语调特征,所述语调特征包括:
次方言语音输入信息的语音信息中语音J1对比基本方言语音中语音J2的音长差KI;
次方言语音输入信息的语音信息中语音J1对比基本方言语音中语音J2的调型差系数MI;
次方言语音输入信息的语音信息中语音J1对比基本方言语音中语音J2间词汇停顿时长的最大差异NI;
基于语调特征计算语调相似度:
。
7.根据权利要求4所述的基于语义语调的方言语音生成方法,其特征在于,所述基于语义语调相似度分析结果在大方言语料库中搜索出匹配的次方言规则,包括方法:
将次方言语音输入信息的语义语调相似度Q与各次方言规则对应的语义语调相似度阈值区间逐一进行比对,当次方言语音输入信息的语义语调相似度Q落在次方言规则i对应的语义语调相似度阈值区间时,判定语义语调相似度Q与次方言规则i匹配;
次方言规则i对应的语义语调相似度阈区间QI的获取方法包括:按照次方言规则i,将m组基本方言的语义文本和语音信息转化成次方言文本和次方言语音;计算各组基本方言的语义语调相似度和m组基本方言的平均相似度Qimp,根据平均相似度Qimp确定语义语调相似度阈区间QI。
8.根据权利要求1所述的基于语义语调的方言语音生成方法,其特征在于,所述按照匹配的次方言规则,先对所述基本方言输出文本进行修正,再将修正后的基本方言输出文本转化成次方言语音,包括方法:
根据匹配的次方言规则的语义规则修正基本方言输出文本,再根据匹配的次方言规则的语调规则将修正后的基本方言输出文本转化成次方言语音。
9.基于语义语调的方言语音生成系统,其特征在于,用于实现权利要求1-8任意一项所述的基于语义语调的方言语音生成方法,包括:
识别模块,用于识别次方言语音输入信息;
分析搜索模块,用于对次方言语音输入信息进行语义语调相似度分析,并基于语义语调相似度分析结果在大方言语料库中搜索出匹配的次方言规则;所述大方言语料库中存储有大方言区内所有方言规则,包括基本方言规则和次方言规则;所述基本方言规则为大方言区内使用人数最多方言所对应的规则;所述方言规则包括语义规则和语调规则;所述语义语调相似度分析包括:在将次方言语音输入信息转化为基本方言语音和基本方言语音的过程中,计算出的语义相似度和语调相似度,基于语义相似度和语调相似度得到语义语调相似度分析结果;
输出文本获取模块,用于获取输出文本并依据基本方言规则将输出文本转化成基本方言输出文本;
修正模块,用于按照匹配的次方言规则,先对所述基本方言输出文本进行修正,再将修正后的基本方言输出文本转化成次方言语音;
输出模块,用于输出所述次方言语音。
10.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行可实现如权利要求1-8中任意一项所述的基于语义语调的方言语音生成方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311020306.9A CN116741146B (zh) | 2023-08-15 | 2023-08-15 | 基于语义语调的方言语音生成方法、系统及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311020306.9A CN116741146B (zh) | 2023-08-15 | 2023-08-15 | 基于语义语调的方言语音生成方法、系统及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116741146A true CN116741146A (zh) | 2023-09-12 |
CN116741146B CN116741146B (zh) | 2023-10-20 |
Family
ID=87910064
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311020306.9A Active CN116741146B (zh) | 2023-08-15 | 2023-08-15 | 基于语义语调的方言语音生成方法、系统及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116741146B (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0429057A1 (en) * | 1989-11-20 | 1991-05-29 | Digital Equipment Corporation | Text-to-speech system having a lexicon residing on the host processor |
US20120072224A1 (en) * | 2009-08-07 | 2012-03-22 | Khitrov Mikhail Vasilievich | Method of speech synthesis |
CN102800225A (zh) * | 2011-05-27 | 2012-11-28 | 陈新明 | 一种盲人阅读方法及装置 |
CN108231063A (zh) * | 2016-12-13 | 2018-06-29 | 中国移动通信有限公司研究院 | 一种语音控制指令的识别方法及装置 |
CN110197655A (zh) * | 2019-06-28 | 2019-09-03 | 百度在线网络技术(北京)有限公司 | 用于合成语音的方法和装置 |
CN111179903A (zh) * | 2019-12-30 | 2020-05-19 | 珠海格力电器股份有限公司 | 一种语音识别方法、装置、存储介质及电器 |
CN111582746A (zh) * | 2020-05-15 | 2020-08-25 | 深圳看齐信息有限公司 | 一种智能英语口语考试系统 |
CN113129914A (zh) * | 2019-12-30 | 2021-07-16 | 明日基金知识产权有限公司 | 跨语言语音转换系统和方法 |
CN114997841B (zh) * | 2022-07-18 | 2022-10-21 | 成都信通信息技术有限公司 | 一种基于区块链的低碳行为数据管理系统 |
-
2023
- 2023-08-15 CN CN202311020306.9A patent/CN116741146B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0429057A1 (en) * | 1989-11-20 | 1991-05-29 | Digital Equipment Corporation | Text-to-speech system having a lexicon residing on the host processor |
US20120072224A1 (en) * | 2009-08-07 | 2012-03-22 | Khitrov Mikhail Vasilievich | Method of speech synthesis |
CN102800225A (zh) * | 2011-05-27 | 2012-11-28 | 陈新明 | 一种盲人阅读方法及装置 |
CN108231063A (zh) * | 2016-12-13 | 2018-06-29 | 中国移动通信有限公司研究院 | 一种语音控制指令的识别方法及装置 |
CN110197655A (zh) * | 2019-06-28 | 2019-09-03 | 百度在线网络技术(北京)有限公司 | 用于合成语音的方法和装置 |
CN111179903A (zh) * | 2019-12-30 | 2020-05-19 | 珠海格力电器股份有限公司 | 一种语音识别方法、装置、存储介质及电器 |
CN113129914A (zh) * | 2019-12-30 | 2021-07-16 | 明日基金知识产权有限公司 | 跨语言语音转换系统和方法 |
CN111582746A (zh) * | 2020-05-15 | 2020-08-25 | 深圳看齐信息有限公司 | 一种智能英语口语考试系统 |
CN114997841B (zh) * | 2022-07-18 | 2022-10-21 | 成都信通信息技术有限公司 | 一种基于区块链的低碳行为数据管理系统 |
Non-Patent Citations (2)
Title |
---|
V. F. LEAVERS, ET AL.: "Automatic language identification: Using intonation as a discriminating feature", 《1996 8TH EUROPEAN SIGNAL PROCESSING CONFERENCE (EUSIPCO 1996)》 * |
杨焕峥: "汉语方言自动辨识系统中的语言建模", 《宁波职业技术学院学报》, no. 5 * |
Also Published As
Publication number | Publication date |
---|---|
CN116741146B (zh) | 2023-10-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8126714B2 (en) | Voice search device | |
CN103971675B (zh) | 自动语音识别方法和系统 | |
CN105957518A (zh) | 一种蒙古语大词汇量连续语音识别的方法 | |
Carvalho et al. | A critical survey on the use of fuzzy sets in speech and natural language processing | |
JP5073024B2 (ja) | 音声対話装置 | |
CN112562640A (zh) | 多语言语音识别方法、装置、系统及计算机可读存储介质 | |
CN112489655A (zh) | 一种特定领域的语音识别文本纠错方法、系统和存储介质 | |
CN116910272B (zh) | 基于预训练模型t5的学术知识图谱补全方法 | |
CN116741146B (zh) | 基于语义语调的方言语音生成方法、系统及介质 | |
Wang et al. | RNN-based prosodic modeling for mandarin speech and its application to speech-to-text conversion | |
CN116052655A (zh) | 音频处理方法、装置、电子设备和可读存储介质 | |
Mekki et al. | COTA 2.0: An automatic corrector of tunisian Arabic social media texts | |
Lin et al. | Improved features and models for detecting edit disfluencies in transcribing spontaneous mandarin speech | |
Chen et al. | A Bilingual Speech Synthesis System of Standard Malay and Indonesian Based on HMM-DNN | |
CN113571037A (zh) | 一种汉语盲文语音合成方法及系统 | |
KR100736496B1 (ko) | 연속 음성인식기의 성능 개선 방법 | |
Asahiah | Development of a Standard Yorùbá digital text automatic diacritic restoration system | |
Kaźmierski et al. | Coalescent assimilation across word-boundaries in American English and in Polish English | |
Akinwonmi | Development of a prosodic read speech syllabic corpus of the Yoruba language | |
CN113515952B (zh) | 一种用于蒙古语对话模型联合建模方法、系统及设备 | |
KR101604553B1 (ko) | 비교사 분할 및 병합에 의한 의사형태소 음성 인식 단위 생성 장치 및 방법 | |
CN113255330B (zh) | 一种基于字符特征分类器与软输出的中文拼写检查方法 | |
Youa et al. | Research on dialect speech recognition based on DenseNet-CTC | |
Tri et al. | Vietnamese Speech Synthesis with End-to-End Model and Text Normalization | |
US11817079B1 (en) | GAN-based speech synthesis model and training method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |