CN116645954A - 一种采用ai拟声的ip广播系统 - Google Patents
一种采用ai拟声的ip广播系统 Download PDFInfo
- Publication number
- CN116645954A CN116645954A CN202310928552.8A CN202310928552A CN116645954A CN 116645954 A CN116645954 A CN 116645954A CN 202310928552 A CN202310928552 A CN 202310928552A CN 116645954 A CN116645954 A CN 116645954A
- Authority
- CN
- China
- Prior art keywords
- voice
- preset
- module
- mode
- adjusting
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 48
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 48
- 230000005484 gravity Effects 0.000 claims description 105
- 238000004088 simulation Methods 0.000 claims description 58
- 230000002194 synthesizing effect Effects 0.000 claims description 39
- 238000005516 engineering process Methods 0.000 claims description 7
- 238000000034 method Methods 0.000 claims description 6
- 230000001105 regulatory effect Effects 0.000 abstract 1
- 238000004891 communication Methods 0.000 description 6
- 230000004048 modification Effects 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/033—Voice editing, e.g. manipulating the voice of the synthesiser
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L12/00—Data switching networks
- H04L12/02—Details
- H04L12/16—Arrangements for providing special services to substations
- H04L12/18—Arrangements for providing special services to substations for broadcast or conference, e.g. multicast
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及AI拟声技术领域,尤其涉及一种采用AI拟声的IP广播系统,包括:例句生成模块、声音采集模块、语音合成模块、用以在声音采集模块获取到新注册的用户的原始语音时,语音合成模块根据新注册的用户朗读的若干例句的原始语音生成一针对新注册的用户朗读的例句的拟声语音,以根据单个拟声语音和与单个拟声语音匹配的原始语音的比对结果对生成的拟声语音是否符合预设标准进行判定,判定语音合成模块将新生成的例句逐个合成为拟声语音并分别新生成的各拟声语音进行评级,以根据评级结果判定是否对针对新注册的用户生成的拟声语音的音量或语速进行调节的判定模块,以及,调节模块,有效提高了拟声语音的准确性和与用户的相似性。
Description
技术领域
本发明涉及AI拟声技术领域,尤其涉及一种采用AI拟声的IP广播系统。
背景技术
IP广播是指在计算机网络中使用IP协议进行广播通信的一种方式。在IP网络中,广播是一种向网络中的所有主机发送消息的方式,目标地址为特定的广播地址。广播消息可以被网络中的所有主机接收和处理。
IP广播可以用于各种网络通信需求,例如向局域网中的所有主机发送通知、广告或请求信息等。广播通信的特点是发送方只需发送一次消息,就可以被所有的接收方接收到,这在某些场景下可以提高通信效率和便利性。
然而,传统的IP广播系统,把文字转成语音一般都是采用通用的TTS库,转出来的声音的特色,语音,语色都是统一的。
中国专利公开号:CN111261139A,公开了一种文字信息拟人化播报方法,包括:移动终端获取新信息,新消息包括字符信息和联系人信息。移动终端与车载终端通过无线通信技术建立连接。移动终端将包括字符信息和联系人信息的转换请求发送至服务器,服务器根据联系人信息获取联系人的声音特征,并根据声音特征将字符信息合成为第一语音信息后,将第一语音信息发送至移动终端。移动终端播放第一语音信息,或将第一语音信息发送至车载终端进行播放;由此可见,所述现有技术存在以下问题:未考虑到在依据新注册的用户的声音进行拟声时,对拟声结果进行检测,以根据例句合成的语音的音色与用户的音色的比对结果以对合成的语音是否符合预设标准进行判定,和对合成的语音的内容是否与例句一致进行检测,影响了拟声语音的准确性和与用户的相似性。
发明内容
为此,本发明提供一种采用AI拟声的IP广播系统,用以克服现有技术未考虑到在依据新注册的用户的声音进行拟声时,对拟声结果进行检测,以根据例句合成的语音的音色与用户的音色的比对结果以对合成的语音是否符合预设标准进行判定,和对合成的语音的内容是否与例句一致进行检测,影响了拟声语音的准确性和与用户的相似性。的问题。
为实现上述目的,本发明提供一种采用AI拟声的IP广播系统,包括:
例句生成模块,用以随机生成例句;
声音采集模块,其包括用以接收用户朗读例句的原始语音的录音器;
语音合成模块,其分别与所述例句生成模块和所述声音采集模块中的对应部件相连,用以根据若干用户的原始语音将例句合成为模拟对应用户声音的拟声语音;
判定模块,其分别与所述例句生成模块、所述声音采集模块和所述语音合成模块中的对应部件相连,用以在声音采集模块获取到新注册的用户的原始语音时,语音合成模块根据新注册的用户朗读的若干例句的原始语音生成单个针对新注册的用户朗读的例句的拟声语音,以根据单个拟声语音和与单个拟声语音匹配的原始语音的比对结果对生成的拟声语音是否符合预设标准进行判定,以及,在判定生成的拟声语音符合预设标准时,判定语音合成模块将例句生成模块重新生成的例句逐个合成为拟声语音并分别对各拟声语音进行评级,以根据评级结果判定是否对针对新注册的用户生成的拟声语音的音量或语速进行调节;
调节模块,其分别与所述例句生成模块、所述声音采集模块、所述语音合成模块和所述判定模块中的对应部件相连,用以根据判定模块的判定结果将对应部件的运行参数调节至对应值,其中,对应部件的运行参数包括,例句生成模块生成的例句的字数、录音器的增益、语音合成模块生成的针对单个用户的拟声语音的语速和语音合成模块生成的针对单个用户的拟声语音的音量。
进一步地,所述判定模块在所述语音合成模块根据新注册的用户朗读的若干例句的原始语音生成一针对新注册的用户朗读的例句的拟声语音的条件下,分别绘制单个拟声语音的时间-振幅曲线图G(t)和与单个拟声语音匹配的原始语音的时间-振幅曲线图F(t),判定模块将两曲线图进行重合比对以根据比对结果计算两曲线图完全重合的时长和原始语音的总时长的时间比值,判定模块根据求得的时间比值确定生成的拟声语音是否符合预设标准的语音判定方式,其中,振幅为声音的振幅;
第一语音判定方式为所述判定模块判定生成的拟声语音不符合预设标准,并根据第一预设时间比值与所述时间比值的差值将所述例句生成模块生成的例句的字数调高至对应值;所述第一语音判定方式满足所述时间比值小于等于第一预设时间比值;
第二语音判定方式为所述判定模块初步判定生成的拟声语音不符合预设标准,并根据声纹识别技术计算的拟声语音生成的模型与原始语音生成的模型之间的余弦相似度以对单个拟声语音是否符合预设标准进行二次判定;所述第二语音判定方式满足所述时间比值小于等于第二预设时间比值且大于所述第一预设时间比值,第一预设时间比值小于第二预设时间比值;
第三语音判定方式为所述判定模块判定生成的拟声语音符合预设标准,并判定例句生成模块重新生成预设数量的例句,语音合成模块将各重新生成的例句逐个合成为拟声语音,判定模块对新生成的各拟声语音进行评级,以根据评级结果对语音合成模块的运行参数是否符合预设标准进行判定;所述第三语音判定方式满足所述时间比值大于所述第二预设时间比值。
进一步地,所述判定模块在所述第二语音判定方式下,依据声纹识别技术计算拟声语音生成的模型与原始语音生成的模型之间的余弦相似度,并根据求得的余弦相似度确定生成的拟声语音是否符合预设标准的语音二次判定方式,其中:
第一语音二次判定方式为所述判定模块判定所述拟声语音不符合预设标准,并根据第一预设相似度与所述余弦相似度的差值将所述录音器的增益调低至对应值;所述第一语音二次判定方式满足所述余弦相似度小于等于第一预设相似度;
第二语音二次判定方式为所述判定模块判定所述拟声语音不符合预设标准,并根据原始语音的时长和拟声语音的时长的差值将针对所述用户生成的拟声语音的语速调低至对应值;所述第二语音二次判定方式满足所述余弦相似度小于等于第二预设相似度且大于所述第一预设相似度,第一预设相似度小于第二预设相似度;
第三语音二次判定方式为所述判定模块判定所述拟声语音符合预设标准,并判定例句生成模块重新生成预设数量的例句,语音合成模块将各重新生成的例句逐个合成为拟声语音,判定模块对新生成的各拟声语音进行评级,以根据评级结果对语音合成模块的运行参数是否符合预设标准进行判定;所述第三语音二次判定方式满足所述余弦相似度大于所述第二预设相似度。
进一步地,所述判定模块在判定拟声语音符合预设标准的条件下,例句生成模块重新生成预设数量的例句,语音合成模块将各重新生成的例句逐个合成为拟声语音,判定模块将单个新生成的拟声语音转换为文字,并将转换后的文字与对应的例句的文字匹配以计算匹配失误的字数占例句总字数的字数比重,判定模块根据字数比重确定针对单个拟声语音的评级方式,其中:
第一评级方式为所述判定模块判定单个拟声语音为三级语音;所述第一评级方式满足所述字数比重小于等于第一预设比重;
第二评级方式为所述判定模块判定单个拟声语音为二级语音;所述第二评级方式满足所述字数比重小于等于第二预设比重且大于所述第一预设比重,第一预设比重小于;
第三评级方式为所述判定模块判定单个拟声语音为一级语音;所述第三评级方式满足所述字数比重大于所述第二预设比重。
进一步地,所述判定模块在完成对各拟声语音的评级的条件下,计算三级语音的数量占预设数量的数量比重,并根据数量比重确定语音合成模块的运行参数是否符合预设标准的合成判定方式,其中:
第一合成判定方式为所述判定模块判定语音合成模块的运行参数不符合预设标准,并根据第一预设数量比重与数量比重的差值将针对新注册的用户生成的拟声语音的音量调高至对应值;所述第一合成判定方式满足所述数量比重小于等于第一预设数量比重;
第二合成判定方式为所述判定模块判定语音合成模块的运行参数不符合预设标准,并根据第二预设数量比重与数量比重的差值将针对新注册的用户生成的拟声语音的语速调低至对应值;所述第二合成判定方式满足所述数量比重小于等于第二预设数量比重且大于所述第一预设数量比重,第一预设数量比重小于第二预设数量比重;
第三合成判定方式为所述判定模块判定语音合成模块的运行参数符合预设标准,并维持当前参数对针对新注册的用户的例句进行拟声语音的合成;所述第三合成判定方式满足所述数量比重大于所述第二预设数量比重。
进一步地,所述调节模块在所述第一语音判定方式下,计算第一预设时间比值与时间比值的差值,并将该差值记为比值差值,调节模块根据求得的比值差值确定所述例句生成模块生成的例句的字数的调节方式,其中:
第一字数调节方式为所述调节模块使用第一预设字数调节系数将例句生成模块生成的例句的字数调节至对应值;所述第一字数调节方式满足所述比值差值小于等于第一预设比值差值;
第二字数调节方式为所述调节模块使用第二预设字数调节系数将例句生成模块生成的例句的字数调节至对应值;所述第二字数调节方式满足所述比值差值小于等于第二预设比值差值且大于所述第一预设比值差值,第一预设比值差值小于第二预设比值差值;
第三字数调节方式为所述调节模块使用第三预设字数调节系数将例句生成模块生成的例句的字数调节至对应值;所述第三字数调节方式满足所述比值差值大于所述第二预设比值差值。
进一步地,所述调节模块在所述第一语音判定方式下,计算第一预设相似度与所述余弦相似度的差值,并将该差值记为相似度差值,调节模块根据求得的相似度差值确定录音器的增益调节方式,其中:
第一增益调节方式为所述调节模块使用第一预设增益调节系数将录音器的增益调节至对应值;所述第一增益调节方式满足所述相似度差值小于等于第一预设相似度差值;
第二增益调节方式为所述调节模块使用第二预设增益调节系数将录音器的增益调节至对应值;所述第二增益调节方式满足所述相似度差值小于等于第二预设相似度差值且大于所述第一预设相似度差值,第一预设相似度差值小于第二预设相似度差值;
第三增益调节方式为所述调节模块使用第三预设增益调节系数将录音器的增益调节至对应值;所述第三增益调节方式满足所述相似度差值大于所述第二预设相似度差值。
进一步地,所述调节模块在所述第二语音判定方式下,计算原始语音的时长和拟声语音的时长的差值,并将该差值记为语音差值,调节模块根据求得的语音差值确定针对新注册的用户生成的拟声语音的语速调节方式,其中:
第一语速调节方式为所述调节模块使用第一预设语速调节系数将针对新注册的用户生成的拟声语音的语速调节至对应值;所述第一语速调节方式满足所述语音差值小于等于第一预设语音差值;
第二语速调节方式为所述调节模块使用第二预设语速调节系数将针对新注册的用户生成的拟声语音的语速调节至对应值;所述第二语速调节方式满足所述语音差值小于等于第二预设语音差值且大于所述第一预设语音差值,第一预设语音差值小于第二预设语音差值;
第三语速调节方式为所述调节模块使用第三预设语速调节系数将针对新注册的用户生成的拟声语音的语速调节至对应值;所述第三语速调节方式满足所述语音差值大于所述第二预设语音差值。
进一步地,所述调节模块在所述第一合成判定方式下,计算第一预设数量比重与数量比重的差值,并将该差值记为比重差值,调节模块根据求得的比重差值确定针对新注册的用户生成的拟声语音的音量的调节方式,其中:
第一音量调节方式为所述调节模块使用第一预设音量调节系数将针对新注册的用户生成的拟声语音的音量调节至对应值;所述第一音量调节方式满足所述比重差值小于等于第一预设比重差值;
第二音量调节方式为所述调节模块使用第二预设音量调节系数将针对新注册的用户生成的拟声语音的音量调节至对应值;所述第二音量调节方式满足所述比重差值小于等于第二预设比重差值且大于所述第一预设比重差值,第一预设比重差值小于第二预设比重差值;
第三音量调节方式为所述调节模块使用第三预设音量调节系数将针对新注册的用户生成的拟声语音的音量调节至对应值;所述第三音量调节方式满足所述比重差值大于所述第二预设比重差值。
进一步地,所述调节模块在所述第二合成判定方式下,计算第二预设数量比重与数量比重的差值,并将该差值记为语速差值,调节模块根据求得的语速差值确定针对新注册的用户生成的拟声语音的语速的调节方式,其中:
第一调节方式为所述调节模块使用第一预设调节系数将针对新注册的用户生成的拟声语音的语速调节至对应值;所述第一调节方式满足所述语速差值小于等于第一预设语速差值;
第二调节方式为所述调节模块使用第二预设调节系数将针对新注册的用户生成的拟声语音的语速调节至对应值;所述第二调节方式满足所述语速差值小于等于第二预设语速差值且大于所述第一预设语速差值,第一预设语速差值小于第二预设语速差值;
第三调节方式为所述调节模块使用第三预设调节系数将针对新注册的用户生成的拟声语音的语速调节至对应值;所述第三调节方式满足所述语速差值大于所述第二预设语速差值。
与现有技术相比,本发明的有益效果在于在有新用户注册时,例句生成模块生成若干以供用户朗读的例句,用户根据各例句内容依次对录音器进行朗读,录音器获取若干条原始语音,语音合成模块根据新注册的用户朗读的若干例句的原始语音生成一针对新注册的用户朗读的例句的拟声语音,判定模块将分别绘制的单个拟声语音的时间-振幅曲线图G(t)和与单个拟声语音匹配的原始语音的时间-振幅曲线图F(t)进行重合比对,以对两语音的声音特征进行初步检测;在判定差距过大时,考虑到语音合成模块对用户原始语音的获取的信息获取不足,以致影响了对例句的模拟,对例句生成模块生成的例句的字数进行调节,以增加语音合成模块可获取的用户语音信息的信息量;在依据新注册的用户的声音进行拟声时,对拟声结果进行检测,以将例句合成的语音与用户的原始语音进行比对以判定生成的拟声语音的内容是否与例句一致,以对系统中的运行参数进行调节,进一步有效提高了拟声语音与用户的相似性。
进一步地,判定模块在判定重合比对的结果的时间比值小于等于第二预设时间比值且大于所述第一预设时间比值时依据声纹识别技术计算拟声语音生成的模型与原始语音生成的模型之间的余弦相似度以对原始语音和拟声语音的音色的差距进行检测,若音色差距过大,则判定为用户收录过程中存在噪音,将录音器的增益降低以减少录制环境对录音效果的影响;若余弦相似度小于等于第二预设相似度且大于述第一预设相似度,判定音色差异较小,将针对用户生成的拟声语音的语速调低,以使拟声语音的语音信息更加清晰;
进一步地,判定模块在判定拟声语音符合预设标准时,例句生成模块重新生成预设数量的不同语境情况下的例句,语音合成模块逐个将各例句模拟为拟声语音,判定模块逐个对各拟声语音进行评级,以判定模拟后的拟声语音是否准确清晰,判定模块根据评级结果对语音合成模块的运行参数是否符合预设标准进行判定,在判定存在大量不清晰的拟声语音时,判定拟声语音的音量过小以致判定模块无法将拟声语音准确转换为文字,故对音量进行调节;在判定数量比重小于等于第二预设数量比重且大于所述第一预设数量比重时,判定因拟声语音语速过快导致存在无法准确转换的文字,故对用户生成的拟声语音的语速进行调低,进一步有效提高了拟声语音的准确性和与用户的相似性。
附图说明
图1为本发明实施例采用AI拟声的IP广播系统的模块框图;
图2为本发明实施例判定模块根据求得的时间比值确定生成的拟声语音是否符合预设标准的语音判定方式流程图;
图3为本发明实施例判定模块根据求得的余弦相似度确定生成的拟声语音是否符合预设标准的语音二次判定方式流程图;
图4为本发明实施例判定模块根据字数比重确定针对单个拟声语音的评级方式流程图。
具体实施方式
为了使本发明的目的和优点更加清楚明白,下面结合实施例对本发明作进一步描述;应当理解,此处所描述的具体实施例仅仅用于解释本发明,并不用于限定本发明。
下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是,这些实施方式仅仅用于解释本发明的技术原理,并非在限制本发明的保护范围。
需要说明的是,在本发明的描述中,术语“上”、“下”、“左”、“右”、“内”、“外”等指示的方向或位置关系的术语是基于附图所示的方向或位置关系,这仅仅是为了便于描述,而不是指示或暗示所述装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
此外,还需要说明的是,在本发明的描述中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域技术人员而言,可根据具体情况理解上述术语在本发明中的具体含义。
请参阅图1、图2、图3以及图4所示,其分别为本发明实施例采用AI拟声的IP广播系统的模块框图、判定模块根据求得的时间比值确定生成的拟声语音是否符合预设标准的语音判定方式流程图、判定模块根据求得的余弦相似度确定生成的拟声语音是否符合预设标准的语音二次判定方式流程图、判定模块根据字数比重确定针对单个拟声语音的评级方式流程图;本发明实施例一种采用AI拟声的IP广播系统,包括:
例句生成模块,用以随机生成例句;
声音采集模块,其包括用以接收用户朗读例句的原始语音的录音器;
语音合成模块,其分别与所述例句生成模块和所述声音采集模块中的对应部件相连,用以根据若干用户的原始语音将例句合成为模拟对应用户声音的拟声语音;
判定模块,其分别与所述例句生成模块、所述声音采集模块和所述语音合成模块中的对应部件相连,用以在声音采集模块获取到新注册的用户的原始语音时,语音合成模块根据新注册的用户朗读的若干例句的原始语音生成单个针对新注册的用户朗读的例句的拟声语音,以根据单个拟声语音和与单个拟声语音匹配的原始语音的比对结果对生成的拟声语音是否符合预设标准进行判定,以及,在判定生成的拟声语音符合预设标准时,判定语音合成模块将例句生成模块重新生成的例句逐个合成为拟声语音并分别对各拟声语音进行评级,以根据评级结果判定是否对针对新注册的用户生成的拟声语音的音量或语速进行调节;
调节模块,其分别与所述例句生成模块、所述声音采集模块、所述语音合成模块和所述判定模块中的对应部件相连,用以根据判定模块的判定结果将对应部件的运行参数调节至对应值,其中,对应部件的运行参数包括,例句生成模块生成的例句的字数、录音器的增益、语音合成模块生成的针对单个用户的拟声语音的语速和语音合成模块生成的针对单个用户的拟声语音的音量。
具体而言,所述判定模块在所述语音合成模块根据新注册的用户朗读的若干例句的原始语音生成一针对新注册的用户朗读的例句的拟声语音的条件下,分别绘制单个拟声语音的时间-振幅曲线图G(t)和与单个拟声语音匹配的原始语音的时间-振幅曲线图F(t),判定模块将两曲线图进行重合比对以根据比对结果计算两曲线图完全重合的时长和原始语音的总时长的时间比值,判定模块根据求得的时间比值确定生成的拟声语音是否符合预设标准的语音判定方式,其中,振幅为声音的振幅;
第一语音判定方式为所述判定模块判定生成的拟声语音不符合预设标准,并根据第一预设时间比值与所述时间比值的差值将所述例句生成模块生成的例句的字数调高至对应值;所述第一语音判定方式满足所述时间比值小于等于第一预设时间比值;
第二语音判定方式为所述判定模块初步判定生成的拟声语音不符合预设标准,并根据声纹识别技术计算的拟声语音生成的模型与原始语音生成的模型之间的余弦相似度以对单个拟声语音是否符合预设标准进行二次判定;所述第二语音判定方式满足所述时间比值小于等于第二预设时间比值且大于所述第一预设时间比值,第一预设时间比值小于第二预设时间比值;
第三语音判定方式为所述判定模块判定生成的拟声语音符合预设标准,并判定例句生成模块重新生成预设数量的例句,语音合成模块将各重新生成的例句逐个合成为拟声语音,判定模块对新生成的各拟声语音进行评级,以根据评级结果对语音合成模块的运行参数是否符合预设标准进行判定;所述第三语音判定方式满足所述时间比值大于所述第二预设时间比值。
具体而言,所述判定模块在所述第二语音判定方式下,依据声纹识别技术计算拟声语音生成的模型与原始语音生成的模型之间的余弦相似度,并根据求得的余弦相似度确定生成的拟声语音是否符合预设标准的语音二次判定方式,其中:
第一语音二次判定方式为所述判定模块判定所述拟声语音不符合预设标准,并根据第一预设相似度与所述余弦相似度的差值将所述录音器的增益调低至对应值;所述第一语音二次判定方式满足所述余弦相似度小于等于第一预设相似度;
第二语音二次判定方式为所述判定模块判定所述拟声语音不符合预设标准,并根据原始语音的时长和拟声语音的时长的差值将针对所述用户生成的拟声语音的语速调低至对应值;所述第二语音二次判定方式满足所述余弦相似度小于等于第二预设相似度且大于所述第一预设相似度,第一预设相似度小于第二预设相似度;
第三语音二次判定方式为所述判定模块判定所述拟声语音符合预设标准,并判定例句生成模块重新生成预设数量的例句,语音合成模块将各重新生成的例句逐个合成为拟声语音,判定模块对新生成的各拟声语音进行评级,以根据评级结果对语音合成模块的运行参数是否符合预设标准进行判定;所述第三语音二次判定方式满足所述余弦相似度大于所述第二预设相似度。
具体而言,所述判定模块在判定拟声语音符合预设标准的条件下,例句生成模块重新生成预设数量的例句,语音合成模块将各重新生成的例句逐个合成为拟声语音,判定模块将单个新生成的拟声语音转换为文字,并将转换后的文字与对应的例句的文字匹配以计算匹配失误的字数占例句总字数的字数比重,判定模块根据字数比重确定针对单个拟声语音的评级方式,其中:
第一评级方式为所述判定模块判定单个拟声语音为三级语音;所述第一评级方式满足所述字数比重小于等于第一预设比重;
第二评级方式为所述判定模块判定单个拟声语音为二级语音;所述第二评级方式满足所述字数比重小于等于第二预设比重且大于所述第一预设比重,第一预设比重小于;
第三评级方式为所述判定模块判定单个拟声语音为一级语音;所述第三评级方式满足所述字数比重大于所述第二预设比重。
具体而言,所述判定模块在完成对各拟声语音的评级的条件下,计算三级语音的数量占预设数量的数量比重,并根据数量比重确定语音合成模块的运行参数是否符合预设标准的合成判定方式,其中:
第一合成判定方式为所述判定模块判定语音合成模块的运行参数不符合预设标准,并根据第一预设数量比重与数量比重的差值将针对新注册的用户生成的拟声语音的音量调高至对应值;所述第一合成判定方式满足所述数量比重小于等于第一预设数量比重;
第二合成判定方式为所述判定模块判定语音合成模块的运行参数不符合预设标准,并根据第二预设数量比重与数量比重的差值将针对新注册的用户生成的拟声语音的语速调低至对应值;所述第二合成判定方式满足所述数量比重小于等于第二预设数量比重且大于所述第一预设数量比重,第一预设数量比重小于第二预设数量比重;
第三合成判定方式为所述判定模块判定语音合成模块的运行参数符合预设标准,并维持当前参数对针对新注册的用户的例句进行拟声语音的合成;所述第三合成判定方式满足所述数量比重大于所述第二预设数量比重。
具体而言,所述调节模块在所述第一语音判定方式下,计算第一预设时间比值与时间比值的差值,并将该差值记为比值差值,调节模块根据求得的比值差值确定所述例句生成模块生成的例句的字数的调节方式,其中:
第一字数调节方式为所述调节模块使用第一预设字数调节系数将例句生成模块生成的例句的字数调节至对应值;所述第一字数调节方式满足所述比值差值小于等于第一预设比值差值;
第二字数调节方式为所述调节模块使用第二预设字数调节系数将例句生成模块生成的例句的字数调节至对应值;所述第二字数调节方式满足所述比值差值小于等于第二预设比值差值且大于所述第一预设比值差值,第一预设比值差值小于第二预设比值差值;
第三字数调节方式为所述调节模块使用第三预设字数调节系数将例句生成模块生成的例句的字数调节至对应值;所述第三字数调节方式满足所述比值差值大于所述第二预设比值差值。
具体而言,所述调节模块在所述第一语音判定方式下,计算第一预设相似度与所述余弦相似度的差值,并将该差值记为相似度差值,调节模块根据求得的相似度差值确定录音器的增益调节方式,其中:
第一增益调节方式为所述调节模块使用第一预设增益调节系数将录音器的增益调节至对应值;所述第一增益调节方式满足所述相似度差值小于等于第一预设相似度差值;
第二增益调节方式为所述调节模块使用第二预设增益调节系数将录音器的增益调节至对应值;所述第二增益调节方式满足所述相似度差值小于等于第二预设相似度差值且大于所述第一预设相似度差值,第一预设相似度差值小于第二预设相似度差值;
第三增益调节方式为所述调节模块使用第三预设增益调节系数将录音器的增益调节至对应值;所述第三增益调节方式满足所述相似度差值大于所述第二预设相似度差值。
具体而言,所述调节模块在所述第二语音判定方式下,计算原始语音的时长和拟声语音的时长的差值,并将该差值记为语音差值,调节模块根据求得的语音差值确定针对新注册的用户生成的拟声语音的语速调节方式,其中:
第一语速调节方式为所述调节模块使用第一预设语速调节系数将针对新注册的用户生成的拟声语音的语速调节至对应值;所述第一语速调节方式满足所述语音差值小于等于第一预设语音差值;
第二语速调节方式为所述调节模块使用第二预设语速调节系数将针对新注册的用户生成的拟声语音的语速调节至对应值;所述第二语速调节方式满足所述语音差值小于等于第二预设语音差值且大于所述第一预设语音差值,第一预设语音差值小于第二预设语音差值;
第三语速调节方式为所述调节模块使用第三预设语速调节系数将针对新注册的用户生成的拟声语音的语速调节至对应值;所述第三语速调节方式满足所述语音差值大于所述第二预设语音差值。
具体而言,所述调节模块在所述第一合成判定方式下,计算第一预设数量比重与数量比重的差值,并将该差值记为比重差值,调节模块根据求得的比重差值确定针对新注册的用户生成的拟声语音的音量的调节方式,其中:
第一音量调节方式为所述调节模块使用第一预设音量调节系数将针对新注册的用户生成的拟声语音的音量调节至对应值;所述第一音量调节方式满足所述比重差值小于等于第一预设比重差值;
第二音量调节方式为所述调节模块使用第二预设音量调节系数将针对新注册的用户生成的拟声语音的音量调节至对应值;所述第二音量调节方式满足所述比重差值小于等于第二预设比重差值且大于所述第一预设比重差值,第一预设比重差值小于第二预设比重差值;
第三音量调节方式为所述调节模块使用第三预设音量调节系数将针对新注册的用户生成的拟声语音的音量调节至对应值;所述第三音量调节方式满足所述比重差值大于所述第二预设比重差值。
具体而言,所述调节模块在所述第二合成判定方式下,计算第二预设数量比重与数量比重的差值,并将该差值记为语速差值,调节模块根据求得的语速差值确定针对新注册的用户生成的拟声语音的语速的调节方式,其中:
第一调节方式为所述调节模块使用第一预设调节系数将针对新注册的用户生成的拟声语音的语速调节至对应值;所述第一调节方式满足所述语速差值小于等于第一预设语速差值;
第二调节方式为所述调节模块使用第二预设调节系数将针对新注册的用户生成的拟声语音的语速调节至对应值;所述第二调节方式满足所述语速差值小于等于第二预设语速差值且大于所述第一预设语速差值,第一预设语速差值小于第二预设语速差值;
第三调节方式为所述调节模块使用第三预设调节系数将针对新注册的用户生成的拟声语音的语速调节至对应值;所述第三调节方式满足所述语速差值大于所述第二预设语速差值。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征做出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。
以上所述仅为本发明的优选实施例,并不用于限制本发明;对于本领域的技术人员来说,本发明可以有各种更改和变化。 凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种采用AI拟声的IP广播系统,其特征在于,包括:
例句生成模块,用以随机生成例句;
声音采集模块,其包括用以接收用户朗读例句的原始语音的录音器;
语音合成模块,其分别与所述例句生成模块和所述声音采集模块中的对应部件相连,用以根据若干用户的原始语音将例句合成为模拟对应用户声音的拟声语音;
判定模块,其分别与所述例句生成模块、所述声音采集模块和所述语音合成模块中的对应部件相连,用以在声音采集模块获取到新注册的用户的原始语音时,语音合成模块根据新注册的用户朗读的若干例句的原始语音生成单个针对新注册的用户朗读的例句的拟声语音,以根据单个拟声语音和与单个拟声语音匹配的原始语音的比对结果对生成的拟声语音是否符合预设标准进行判定,以及,在判定生成的拟声语音符合预设标准时,判定语音合成模块将例句生成模块重新生成的例句逐个合成为拟声语音并分别对各拟声语音进行评级,以根据评级结果判定是否对针对新注册的用户生成的拟声语音的音量或语速进行调节;
调节模块,其分别与所述例句生成模块、所述声音采集模块、所述语音合成模块和所述判定模块中的对应部件相连,用以根据判定模块的判定结果将对应部件的运行参数调节至对应值,其中,对应部件的运行参数包括,例句生成模块生成的例句的字数、录音器的增益、语音合成模块生成的针对单个用户的拟声语音的语速和语音合成模块生成的针对单个用户的拟声语音的音量。
2.根据权利要求1所述的采用AI拟声的IP广播系统,其特征在于,所述判定模块在所述语音合成模块根据新注册的用户朗读的若干例句的原始语音生成一针对新注册的用户朗读的例句的拟声语音的条件下,分别绘制单个拟声语音的时间-振幅曲线图G(t)和与单个拟声语音匹配的原始语音的时间-振幅曲线图F(t),判定模块将两曲线图进行重合比对以根据比对结果计算两曲线图完全重合的时长和原始语音的总时长的时间比值,判定模块根据求得的时间比值确定生成的拟声语音是否符合预设标准的语音判定方式,其中,振幅为声音的振幅;
第一语音判定方式为所述判定模块判定生成的拟声语音不符合预设标准,并根据第一预设时间比值与所述时间比值的差值将所述例句生成模块生成的例句的字数调高至对应值;所述第一语音判定方式满足所述时间比值小于等于第一预设时间比值;
第二语音判定方式为所述判定模块初步判定生成的拟声语音不符合预设标准,并根据声纹识别技术计算的拟声语音生成的模型与原始语音生成的模型之间的余弦相似度以对单个拟声语音是否符合预设标准进行二次判定;所述第二语音判定方式满足所述时间比值小于等于第二预设时间比值且大于所述第一预设时间比值,第一预设时间比值小于第二预设时间比值;
第三语音判定方式为所述判定模块判定生成的拟声语音符合预设标准,并判定例句生成模块重新生成预设数量的例句,语音合成模块将各重新生成的例句逐个合成为拟声语音,判定模块对新生成的各拟声语音进行评级,以根据评级结果对语音合成模块的运行参数是否符合预设标准进行判定;所述第三语音判定方式满足所述时间比值大于所述第二预设时间比值。
3.根据权利要求2所述的采用AI拟声的IP广播系统,其特征在于,所述判定模块在所述第二语音判定方式下,依据声纹识别技术计算拟声语音生成的模型与原始语音生成的模型之间的余弦相似度,并根据求得的余弦相似度确定生成的拟声语音是否符合预设标准的语音二次判定方式,其中:
第一语音二次判定方式为所述判定模块判定所述拟声语音不符合预设标准,并根据第一预设相似度与所述余弦相似度的差值将所述录音器的增益调低至对应值;所述第一语音二次判定方式满足所述余弦相似度小于等于第一预设相似度;
第二语音二次判定方式为所述判定模块判定所述拟声语音不符合预设标准,并根据原始语音的时长和拟声语音的时长的差值将针对所述用户生成的拟声语音的语速调低至对应值;所述第二语音二次判定方式满足所述余弦相似度小于等于第二预设相似度且大于所述第一预设相似度,第一预设相似度小于第二预设相似度;
第三语音二次判定方式为所述判定模块判定所述拟声语音符合预设标准,并判定例句生成模块重新生成预设数量的例句,语音合成模块将各重新生成的例句逐个合成为拟声语音,判定模块对新生成的各拟声语音进行评级,以根据评级结果对语音合成模块的运行参数是否符合预设标准进行判定;所述第三语音二次判定方式满足所述余弦相似度大于所述第二预设相似度。
4.根据权利要求3所述的采用AI拟声的IP广播系统,其特征在于,所述判定模块在判定拟声语音符合预设标准的条件下,例句生成模块重新生成预设数量的例句,语音合成模块将各重新生成的例句逐个合成为拟声语音,判定模块将单个新生成的拟声语音转换为文字,并将转换后的文字与对应的例句的文字匹配以计算匹配失误的字数占例句总字数的字数比重,判定模块根据字数比重确定针对单个拟声语音的评级方式,其中:
第一评级方式为所述判定模块判定单个拟声语音为三级语音;所述第一评级方式满足所述字数比重小于等于第一预设比重;
第二评级方式为所述判定模块判定单个拟声语音为二级语音;所述第二评级方式满足所述字数比重小于等于第二预设比重且大于所述第一预设比重,第一预设比重小于;
第三评级方式为所述判定模块判定单个拟声语音为一级语音;所述第三评级方式满足所述字数比重大于所述第二预设比重。
5.根据权利要求4所述的采用AI拟声的IP广播系统,其特征在于,所述判定模块在完成对各拟声语音的评级的条件下,计算三级语音的数量占预设数量的数量比重,并根据数量比重确定语音合成模块的运行参数是否符合预设标准的合成判定方式,其中:
第一合成判定方式为所述判定模块判定语音合成模块的运行参数不符合预设标准,并根据第一预设数量比重与数量比重的差值将针对新注册的用户生成的拟声语音的音量调高至对应值;所述第一合成判定方式满足所述数量比重小于等于第一预设数量比重;
第二合成判定方式为所述判定模块判定语音合成模块的运行参数不符合预设标准,并根据第二预设数量比重与数量比重的差值将针对新注册的用户生成的拟声语音的语速调低至对应值;所述第二合成判定方式满足所述数量比重小于等于第二预设数量比重且大于所述第一预设数量比重,第一预设数量比重小于第二预设数量比重;
第三合成判定方式为所述判定模块判定语音合成模块的运行参数符合预设标准,并维持当前参数对针对新注册的用户的例句进行拟声语音的合成;所述第三合成判定方式满足所述数量比重大于所述第二预设数量比重。
6.根据权利要求5所述的采用AI拟声的IP广播系统,其特征在于,所述调节模块在所述第一语音判定方式下,计算第一预设时间比值与时间比值的差值,并将该差值记为比值差值,调节模块根据求得的比值差值确定所述例句生成模块生成的例句的字数的调节方式,其中:
第一字数调节方式为所述调节模块使用第一预设字数调节系数将例句生成模块生成的例句的字数调节至对应值;所述第一字数调节方式满足所述比值差值小于等于第一预设比值差值;
第二字数调节方式为所述调节模块使用第二预设字数调节系数将例句生成模块生成的例句的字数调节至对应值;所述第二字数调节方式满足所述比值差值小于等于第二预设比值差值且大于所述第一预设比值差值,第一预设比值差值小于第二预设比值差值;
第三字数调节方式为所述调节模块使用第三预设字数调节系数将例句生成模块生成的例句的字数调节至对应值;所述第三字数调节方式满足所述比值差值大于所述第二预设比值差值。
7.根据权利要求6所述的采用AI拟声的IP广播系统,其特征在于,所述调节模块在所述第一语音判定方式下,计算第一预设相似度与所述余弦相似度的差值,并将该差值记为相似度差值,调节模块根据求得的相似度差值确定录音器的增益调节方式,其中:
第一增益调节方式为所述调节模块使用第一预设增益调节系数将录音器的增益调节至对应值;所述第一增益调节方式满足所述相似度差值小于等于第一预设相似度差值;
第二增益调节方式为所述调节模块使用第二预设增益调节系数将录音器的增益调节至对应值;所述第二增益调节方式满足所述相似度差值小于等于第二预设相似度差值且大于所述第一预设相似度差值,第一预设相似度差值小于第二预设相似度差值;
第三增益调节方式为所述调节模块使用第三预设增益调节系数将录音器的增益调节至对应值;所述第三增益调节方式满足所述相似度差值大于所述第二预设相似度差值。
8.根据权利要求7所述的采用AI拟声的IP广播系统,其特征在于,所述调节模块在所述第二语音判定方式下,计算原始语音的时长和拟声语音的时长的差值,并将该差值记为语音差值,调节模块根据求得的语音差值确定针对新注册的用户生成的拟声语音的语速调节方式,其中:
第一语速调节方式为所述调节模块使用第一预设语速调节系数将针对新注册的用户生成的拟声语音的语速调节至对应值;所述第一语速调节方式满足所述语音差值小于等于第一预设语音差值;
第二语速调节方式为所述调节模块使用第二预设语速调节系数将针对新注册的用户生成的拟声语音的语速调节至对应值;所述第二语速调节方式满足所述语音差值小于等于第二预设语音差值且大于所述第一预设语音差值,第一预设语音差值小于第二预设语音差值;
第三语速调节方式为所述调节模块使用第三预设语速调节系数将针对新注册的用户生成的拟声语音的语速调节至对应值;所述第三语速调节方式满足所述语音差值大于所述第二预设语音差值。
9.根据权利要求8所述的采用AI拟声的IP广播系统,其特征在于,所述调节模块在所述第一合成判定方式下,计算第一预设数量比重与数量比重的差值,并将该差值记为比重差值,调节模块根据求得的比重差值确定针对新注册的用户生成的拟声语音的音量的调节方式,其中:
第一音量调节方式为所述调节模块使用第一预设音量调节系数将针对新注册的用户生成的拟声语音的音量调节至对应值;所述第一音量调节方式满足所述比重差值小于等于第一预设比重差值;
第二音量调节方式为所述调节模块使用第二预设音量调节系数将针对新注册的用户生成的拟声语音的音量调节至对应值;所述第二音量调节方式满足所述比重差值小于等于第二预设比重差值且大于所述第一预设比重差值,第一预设比重差值小于第二预设比重差值;
第三音量调节方式为所述调节模块使用第三预设音量调节系数将针对新注册的用户生成的拟声语音的音量调节至对应值;所述第三音量调节方式满足所述比重差值大于所述第二预设比重差值。
10.根据权利要求9所述的采用AI拟声的IP广播系统,其特征在于,所述调节模块在所述第二合成判定方式下,计算第二预设数量比重与数量比重的差值,并将该差值记为语速差值,调节模块根据求得的语速差值确定针对新注册的用户生成的拟声语音的语速的调节方式,其中:
第一调节方式为所述调节模块使用第一预设调节系数将针对新注册的用户生成的拟声语音的语速调节至对应值;所述第一调节方式满足所述语速差值小于等于第一预设语速差值;
第二调节方式为所述调节模块使用第二预设调节系数将针对新注册的用户生成的拟声语音的语速调节至对应值;所述第二调节方式满足所述语速差值小于等于第二预设语速差值且大于所述第一预设语速差值,第一预设语速差值小于第二预设语速差值;
第三调节方式为所述调节模块使用第三预设调节系数将针对新注册的用户生成的拟声语音的语速调节至对应值;所述第三调节方式满足所述语速差值大于所述第二预设语速差值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310928552.8A CN116645954B (zh) | 2023-07-27 | 2023-07-27 | 一种采用ai拟声的ip广播系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310928552.8A CN116645954B (zh) | 2023-07-27 | 2023-07-27 | 一种采用ai拟声的ip广播系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116645954A true CN116645954A (zh) | 2023-08-25 |
CN116645954B CN116645954B (zh) | 2023-11-17 |
Family
ID=87619763
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310928552.8A Active CN116645954B (zh) | 2023-07-27 | 2023-07-27 | 一种采用ai拟声的ip广播系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116645954B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013186428A (ja) * | 2012-03-09 | 2013-09-19 | Chiba Inst Of Technology | 音声合成装置 |
CN110534088A (zh) * | 2019-09-25 | 2019-12-03 | 招商局金融科技有限公司 | 语音合成方法、电子装置及存储介质 |
CN112233649A (zh) * | 2020-10-15 | 2021-01-15 | 安徽听见科技有限公司 | 机器同声传译输出音频动态合成方法、装置以及设备 |
CN114842828A (zh) * | 2022-04-12 | 2022-08-02 | 北京三快在线科技有限公司 | 一种合成语音的音量控制方法及装置 |
CN114999446A (zh) * | 2022-07-18 | 2022-09-02 | 广州市保伦电子有限公司 | 用于智能广播的语音合成系统 |
CN115050396A (zh) * | 2022-06-15 | 2022-09-13 | 北京百度网讯科技有限公司 | 测试方法及装置、电子设备及介质 |
CN115527551A (zh) * | 2022-09-19 | 2022-12-27 | 合肥讯飞数码科技有限公司 | 语音标注质量评价方法、装置、电子设备和存储介质 |
CN115668358A (zh) * | 2020-06-03 | 2023-01-31 | 谷歌有限责任公司 | 用于文本到语音合成的用户接口适应的方法和系统 |
-
2023
- 2023-07-27 CN CN202310928552.8A patent/CN116645954B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013186428A (ja) * | 2012-03-09 | 2013-09-19 | Chiba Inst Of Technology | 音声合成装置 |
CN110534088A (zh) * | 2019-09-25 | 2019-12-03 | 招商局金融科技有限公司 | 语音合成方法、电子装置及存储介质 |
CN115668358A (zh) * | 2020-06-03 | 2023-01-31 | 谷歌有限责任公司 | 用于文本到语音合成的用户接口适应的方法和系统 |
CN112233649A (zh) * | 2020-10-15 | 2021-01-15 | 安徽听见科技有限公司 | 机器同声传译输出音频动态合成方法、装置以及设备 |
CN114842828A (zh) * | 2022-04-12 | 2022-08-02 | 北京三快在线科技有限公司 | 一种合成语音的音量控制方法及装置 |
CN115050396A (zh) * | 2022-06-15 | 2022-09-13 | 北京百度网讯科技有限公司 | 测试方法及装置、电子设备及介质 |
CN114999446A (zh) * | 2022-07-18 | 2022-09-02 | 广州市保伦电子有限公司 | 用于智能广播的语音合成系统 |
CN115527551A (zh) * | 2022-09-19 | 2022-12-27 | 合肥讯飞数码科技有限公司 | 语音标注质量评价方法、装置、电子设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN116645954B (zh) | 2023-11-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20230402029A1 (en) | Systems and methods for providing notifications within a media asset without breaking immersion | |
CN110415681B (zh) | 一种语音识别效果测试方法及系统 | |
JP2020013143A (ja) | 複数のメディア処理ノードによる適応処理 | |
US8005677B2 (en) | Source-dependent text-to-speech system | |
EP1168297B1 (en) | Speech synthesis | |
US20130218563A1 (en) | Speech understanding method and system | |
US20040254793A1 (en) | System and method for providing an audio challenge to distinguish a human from a computer | |
US6246985B1 (en) | Method and apparatus for automatic segregation and routing of signals of different origins by using prototypes | |
US20070038455A1 (en) | Accent detection and correction system | |
CN109257547A (zh) | 中文在线音视频的字幕生成方法 | |
CN111863033B (zh) | 音频质量识别模型的训练方法、装置、服务器和存储介质 | |
KR102044689B1 (ko) | 방송자막 제작 시스템 및 방법 | |
US6304845B1 (en) | Method of transmitting voice data | |
JP2012181358A (ja) | テキスト表示時間決定装置、テキスト表示システム、方法およびプログラム | |
US20020169610A1 (en) | Method and system for automatically converting text messages into voice messages | |
CN116645954B (zh) | 一种采用ai拟声的ip广播系统 | |
CN109002274A (zh) | 可调整输出声音的电子装置及调整输出声音的方法 | |
US20030120492A1 (en) | Apparatus and method for communication with reality in virtual environments | |
US9972342B2 (en) | Terminal device and communication method for communication of speech signals | |
CN112420015A (zh) | 一种音频合成方法、装置、设备及计算机可读存储介质 | |
CN111354350A (zh) | 语音处理方法及装置、语音处理设备、电子设备 | |
US20050256710A1 (en) | Text message generation | |
KR100920174B1 (ko) | 본인 음성 기반의 tts 서비스 제공 장치와 시스템 및 그방법 | |
KR100381013B1 (ko) | 음성인식기를 이용한 자막 입력장치 및 그 방법과 그 기록매체 | |
CN113473108A (zh) | 数据处理方法及系统、电子设备、智能音箱及声音输出设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |