CN114898733A - Ai语音数据的分析处理方法及系统 - Google Patents
Ai语音数据的分析处理方法及系统 Download PDFInfo
- Publication number
- CN114898733A CN114898733A CN202210485688.1A CN202210485688A CN114898733A CN 114898733 A CN114898733 A CN 114898733A CN 202210485688 A CN202210485688 A CN 202210485688A CN 114898733 A CN114898733 A CN 114898733A
- Authority
- CN
- China
- Prior art keywords
- text
- text information
- voice
- voice data
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000007405 data analysis Methods 0.000 title claims abstract description 12
- 238000003672 processing method Methods 0.000 title claims abstract description 9
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 24
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 24
- 238000000034 method Methods 0.000 claims description 22
- 238000012545 processing Methods 0.000 claims description 22
- 230000011218 segmentation Effects 0.000 claims description 6
- 230000002194 synthesizing effect Effects 0.000 claims description 3
- 238000013473 artificial intelligence Methods 0.000 description 19
- 238000004891 communication Methods 0.000 description 7
- 230000015654 memory Effects 0.000 description 5
- 238000004590 computer program Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000007774 longterm Effects 0.000 description 3
- 238000001228 spectrum Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 241000238558 Eucarida Species 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3343—Query execution using phonetics
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/90335—Query processing
- G06F16/90344—Query processing by using string matching techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Telephonic Communication Services (AREA)
Abstract
本申请提供一种AI语音数据的分析处理方法系统,该方法包括:数据中心接收终端发送的待合成的第一文本信息,将该第一文本信息通过n种语音合成模型合成得到n个语音数据;数据中心将n个语音数据的每条语音数据分别通过m个语音识别模型识别得到n*m个文本识别结果,将n*m个文本识别结果与该第一文本信息进行比对得到相似度最高的第一文本识别结果;数据中心将第一文本识别结果对应的第一语音数据作为第一文本信息对应的合成语音,将该合成语音发送至终端播放。本申请提供的技术方案具有用户体验度高的优点。
Description
技术领域
本发明涉及电子设备领域,具体涉及一种AI语音数据的分析处理方法及系统。
背景技术
语音数据通常指的就是通过语音来记录的数据以及通过语音来传输的数据,也正是我们常说的声音文件,例如MP3文件等等。随着AI(人工智能)行业的发展,语音数据的处理数量越来越大,例如,小说阅读网站,儿童故事讲课网站,随着AI技术的发展,现有的小说阅读网站均由AI语音合成方式来提供语音数据,但是此种方式的准确率较低,影响用户的体验度。
发明内容
本发明实施例提供了一种AI语音数据的分析处理方法及系统,可以提高语音的准确率,提高用户体验度的优点。
第一方面,本发明实施例提供一种AI语音数据的分析处理方法,所述方法包括如下步骤:
数据中心接收终端发送的待合成的第一文本信息,将该第一文本信息通过n种语音合成模型合成得到n个语音数据;
数据中心将n个语音数据的每条语音数据分别通过m个语音识别模型识别得到n*m个文本识别结果,将n*m个文本识别结果与该第一文本信息进行比对得到相似度最高的第一文本识别结果;
数据中心将第一文本识别结果对应的第一语音数据作为第一文本信息对应的合成语音,将该合成语音发送至终端播放。
第二方面,提供一种AI语音数据的分析处理系统,所述系统包括:
接收单元,用于接收终端发送的待合成的第一文本信息;
处理单元,用于将该第一文本信息通过n种语音合成模型合成得到n个语音数据;将n个语音数据的每条语音数据分别通过m个语音识别模型识别得到n*m个文本识别结果,将n*m个文本识别结果与该第一文本信息进行比对得到相似度最高的第一文本识别结果;将第一文本识别结果对应的第一语音数据作为第一文本信息对应的合成语音,将该合成语音发送至终端播放。
第三方面,提供一种计算机可读存储介质,其存储用于电子数据交换的程序,其中,所述程序使得终端执行第一方面提供的方法。
实施本发明实施例,具有如下有益效果:
可以看出,本申请提供的技术方案,本申请提供的技术方案数据中心接收终端发送的待合成的第一文本信息,将该第一文本信息通过n种语音合成模型合成得到n个语音数据;数据中心将n个语音数据的每条语音数据分别通过m个语音识别模型识别得到n*m个文本识别结果,将n*m个文本识别结果与该第一文本信息进行比对得到相似度最高的第一文本识别结果;数据中心将第一文本识别结果对应的第一语音数据作为第一文本信息对应的合成语音,将该合成语音发送至终端播放。这样在播放语音数据之前,可以通过多种合成方式来选择最优的合成方式的语音数据作为播放的语音数据,进而提高语音播放的准确度,提高用户体验度。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是一种终端的结构示意图
图2是一种AI语音数据的分析处理方法的流程示意图;
图2A是本申请提供的字符串比对示意图;
图3是一种AI语音数据的分析处理系统的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的说明书和权利要求书及所述附图中的术语“第一”、“第二”、“第三”和“第四”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结果或特性可以包含在本发明的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
参阅图1,图1提供了一种终端,该终端可以为IOS、安卓等系统的终端,当然也可以为其他系统的终端,例如鸿蒙等等,本申请并不限制上述具体的系统,如图1所示,上述终端设备具体可以包括:处理器、存储器、显示屏、通信电路和音频组件(可选的),上述部件可以通过总线连接,也可以通过其他方式连接,本申请并不限制上述连接的具体方式。
上述连接也可以通过通信系统连接。通信系统可以是:全球移动通讯(GlobalSystem of Mobile communication,GSM)系统、码分多址(Code Division MultipleAccess,CDMA)系统、宽带码分多址(Wideband Code Division Multiple Access,WCDMA)系统、通用分组无线业务(General Packet Radio Service,GPRS)、长期演进(Long TermEvolution,LTE)系统、先进的长期演进(Advanced long term evolution,LTE-A)系统、新空口(New Radio,NR)系统、NR系统的演进系统、免授权频谱上的LTE系统(LTE-basedaccess to unlicensed spectrum,LTE-U)、免授权频谱上的NR系统(NR-based accesstounlicensed spectrum,NR-U)、通用移动通信系统(Universal MobileTelecommunication System,UMTS)、下一代通信系统或其他通信系统等。
小说是一种传统的阅读材料,随着电子产品的兴起,例如手机、平板电脑、阅读器等等设备的兴起,小说电子化,无纸化也成为一种趋势,用户已经完全适应从书本到电子书本的转变,随着AI语音数据处理能力的加强,有声读物也越来越多,有些用户在一些特定的场景下,例如开车、坐车时会采用有声读物的方式来实现对小说的阅读,对于小说的有声文件来说,由于小说的数据量大,依靠人工翻读是不切实际的,因此通过AI语音合成方式来实现对小说阅读成为大家的选择,但是现有的AI语音合成后就将对应的有声小说播放,这样可能导致语音播放的准确率低,由于没有增加响应的校验的方式,导致小说的阅读准确率低。
对于小说阅读,由于小说的文字部分是固定的,仅仅是语音部分可能出现错误,因此可以将文字部分作为样本来进行校对,进而从多种AI合成模型中选择准确率最高的语音数据进行播放,进而提高小说阅读的准确率。
参阅图2,图2提供了一种AI语音数据的分析处理方法,该方法如图2所示,该方法可以在终端与数据中心完成,该终端与数据中心可以通过网络设备连接,该连接方式可以为无线连接方式,该无线方式具体可以为上述无线通信系统提供的连接方式,本申请实施例并不限制上述连接的具体形式。上述方法如图2所示,具体可以包括:
步骤S201、数据中心接收终端发送的待合成的第一文本信息,将该第一文本信息通过n种语音合成模型合成得到n个语音数据;
上述n为大于等于2的整数,上述语音合成模型可以为现有的语音合成模型,例如,科大讯飞的语音合成模型、百度语音合成模型等等。
步骤S202、数据中心将n个语音数据的每条语音数据分别通过m个语音识别模型识别得到n*m个文本识别结果,将n*m个文本识别结果与该第一文本信息进行比对得到相似度最高的第一文本识别结果;
上述m为大于等于2的整数,可以为n相等,也可以与n不同,上述语音识别模型可以为多种,例如小爱同学、siri、天猫精灵等等。
步骤S203、数据中心将第一文本识别结果对应的第一语音数据作为第一文本信息对应的合成语音,将该合成语音发送至终端播放。
本申请提供的技术方案数据中心接收终端发送的待合成的第一文本信息,将该第一文本信息通过n种语音合成模型合成得到n个语音数据;数据中心将n个语音数据的每条语音数据分别通过m个语音识别模型识别得到n*m个文本识别结果,将n*m个文本识别结果与该第一文本信息进行比对得到相似度最高的第一文本识别结果;数据中心将第一文本识别结果对应的第一语音数据作为第一文本信息对应的合成语音,将该合成语音发送至终端播放。这样在播放语音数据之前,可以通过多种合成方式来选择最优的合成方式的语音数据作为播放的语音数据,进而提高语音播放的准确度,提高用户体验度。
示意的,上述方法在接收到第一文本信息之后,还可以包括:
数据中心将第一文本信息执行分段处理得到多个分段,将每个分段作为一个文本信息执行语音合成操作以及语音识别操作,查找每个分段的相似度最高的文本识别结果,将所有分段的相似度最高的文本识别结果对应的所有分段的语音数据拼接得到拼接语音数据,将该拼接语音数据作为合成语音发送至终端播放。
示例的,上述分段可以采用通用的分段方式,上述段可以为文本信息的自然段,当然也可以为一句话等等。
示例的,上述将n*m个文本识别结果与该第一文本信息进行比对得到相似度最高的第一文本识别结果具体可以包括:
将n*m个文本识别结果中的一个文本识别结果与第一文本信息进行逐字比对获取与第一文本信息相同的字数量x1,确定相似度=x1/X;其中X为第一文本信息的总字数。
示例的,上述将n*m个文本识别结果中的一个文本识别结果与第一文本信息进行逐字比对获取与第一文本信息相同的字数量x1具体可以包括:
将一个文本识别结果按标点符号作为分隔符,将相邻两个分隔符之间的字符作为一个字符串A1,将第一文本信息按标点符号作为分隔符,将相邻两个分隔符之间的字符作为一个字符串B1,将字符串A1和字符串B1按分隔符前后对齐后,逐字比对确定字符串A1的相同字的数量xn,遍历所有分隔符中的字符串得到所有字符串的相同字的数量,将所有字符串的相同字的数量相加得到的和即为数量x1。
如图2A所示,字符串A为一个文本识别结果(可以为一段的结果,因为篇幅的问题,这里以一个分段为例),将标点符号之间的字符均作为一个字符串,这样得到如图2A所示的2个字符串,然后将2个字符串的标点符号对齐,然后逐字比对确定字符串A1的相同字的数量,例如图2A相同字的数量为xn=3。
示例的,上述逐字比对确定字符串A1的相同字的数量具体可以包括:
以字符串A1的前符号为起点,按顺序比对确定第一个出现不相同的字的位置w1,将位置w1之前的字均确定为相同的字xn1,若位置w1不是字符串的最后一个字,则以字符串A1的后符号为起点,按倒序比对确定第一个出现不相同的字的位置w2,将位置w2之后的字确定为相同的字xn2;其中,xn=xn1+xn2。
参阅图3,图3提供一种AI语音数据的分析处理系统的结构示意图,所述系统包括:
接收单元,用于接收终端发送的待合成的第一文本信息;
处理单元,用于将该第一文本信息通过n种语音合成模型合成得到n个语音数据;将n个语音数据的每条语音数据分别通过m个语音识别模型识别得到n*m个文本识别结果,将n*m个文本识别结果与该第一文本信息进行比对得到相似度最高的第一文本识别结果;将第一文本识别结果对应的第一语音数据作为第一文本信息对应的合成语音,将该合成语音发送至终端播放。
示例的,
所述处理单元,具体用于将第一文本信息执行分段处理得到多个分段,将每个分段作为一个文本信息执行语音合成操作以及语音识别操作,查找每个分段的相似度最高的文本识别结果,将所有分段的相似度最高的文本识别结果对应的所有分段的语音数据拼接得到拼接语音数据,将该拼接语音数据作为合成语音发送至终端播放。
示例的,
所述处理单元,具体用于将n*m个文本识别结果中的一个文本识别结果与第一文本信息进行逐字比对获取与第一文本信息相同的字数量x1,确定相似度=x1/X;其中X为第一文本信息的总字数。
示例的,
所述处理单元,具体用于将一个文本识别结果按标点符号作为分隔符,将相邻两个分隔符之间的字符作为一个字符串A1,将第一文本信息按标点符号作为分隔符,将相邻两个分隔符之间的字符作为一个字符串B1,将字符串A1和字符串B1按分隔符前后对齐后,逐字比对确定字符串A1的相同字的数量xn,遍历所有分隔符中的字符串得到所有字符串的相同字的数量,将所有字符串的相同字的数量相加得到的和即为数量x1。
示例的,本申请实施例中的处理单元还可以用于执行如图2所示实施例的细化方案、可选方案等,这里不再赘述。
本发明实施例还提供一种计算机存储介质,其中,该计算机存储介质存储用于电子数据交换的计算机程序,该计算机程序使得计算机执行如上述方法实施例中记载的任何一种AI语音数据的分析处理方法的部分或全部步骤。
本发明实施例还提供一种计算机程序产品,所述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质,所述计算机程序可操作来使计算机执行如上述方法实施例中记载的任何一种AI语音数据的分析处理方法的部分或全部步骤。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以接收其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于可选实施例,所涉及的动作和模块并不一定是本发明所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置,可通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性或其它的形式。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储器中,存储器可以包括:闪存盘、只读存储器(英文:Read-Only Memory,简称:ROM)、随机存取器(英文:Random Access Memory,简称:RAM)、磁盘或光盘等。
以上对本发明实施例进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (9)
1.一种AI语音数据的分析处理方法,其特征在于,所述方法包括如下步骤:
数据中心接收终端发送的待合成的第一文本信息,将该第一文本信息通过n种语音合成模型合成得到n个语音数据;
数据中心将n个语音数据的每条语音数据分别通过m个语音识别模型识别得到n*m个文本识别结果,将n*m个文本识别结果与该第一文本信息进行比对得到相似度最高的第一文本识别结果;
数据中心将第一文本识别结果对应的第一语音数据作为第一文本信息对应的合成语音,将该合成语音发送至终端播放。
2.根据权利要求1所述的方法,其特征在于,所述方法在接收到第一文本信息之后,还包括:
数据中心将第一文本信息执行分段处理得到多个分段,将每个分段作为一个文本信息执行语音合成操作以及语音识别操作,查找每个分段的相似度最高的文本识别结果,将所有分段的相似度最高的文本识别结果对应的所有分段的语音数据拼接得到拼接语音数据,将该拼接语音数据作为合成语音发送至终端播放。
3.根据权利要求1所述的方法,其特征在于,将n*m个文本识别结果与该第一文本信息进行比对得到相似度最高的第一文本识别结果具体包括:
将n*m个文本识别结果中的一个文本识别结果与第一文本信息进行逐字比对获取与第一文本信息相同的字数量x1,确定相似度=x1/X;其中X为第一文本信息的总字数。
4.根据权利要求3所述的方法,其特征在于,所述将n*m个文本识别结果中的一个文本识别结果与第一文本信息进行逐字比对获取与第一文本信息相同的字数量x1具体包括:
将一个文本识别结果按标点符号作为分隔符,将相邻两个分隔符之间的字符作为一个字符串A1,将第一文本信息按标点符号作为分隔符,将相邻两个分隔符之间的字符作为一个字符串B1,将字符串A1和字符串B1按分隔符前后对齐后,逐字比对确定字符串A1的相同字的数量xn,遍历所有分隔符中的字符串得到所有字符串的相同字的数量,将所有字符串的相同字的数量相加得到的和即为数量x1。
5.一种AI语音数据的分析处理系统,其特征在于,所述系统包括:
接收单元,用于接收终端发送的待合成的第一文本信息;
处理单元,用于将该第一文本信息通过n种语音合成模型合成得到n个语音数据;将n个语音数据的每条语音数据分别通过m个语音识别模型识别得到n*m个文本识别结果,将n*m个文本识别结果与该第一文本信息进行比对得到相似度最高的第一文本识别结果;将第一文本识别结果对应的第一语音数据作为第一文本信息对应的合成语音,将该合成语音发送至终端播放。
6.根据权利要求5所述的系统,其特征在于,
所述处理单元,具体用于将第一文本信息执行分段处理得到多个分段,将每个分段作为一个文本信息执行语音合成操作以及语音识别操作,查找每个分段的相似度最高的文本识别结果,将所有分段的相似度最高的文本识别结果对应的所有分段的语音数据拼接得到拼接语音数据,将该拼接语音数据作为合成语音发送至终端播放。
7.根据权利要求5所述的系统,其特征在于,
所述处理单元,具体用于将n*m个文本识别结果中的一个文本识别结果与第一文本信息进行逐字比对获取与第一文本信息相同的字数量x1,确定相似度=x1/X;其中X为第一文本信息的总字数。
8.根据权利要求7所述的系统,其特征在于,
所述处理单元,具体用于将一个文本识别结果按标点符号作为分隔符,将相邻两个分隔符之间的字符作为一个字符串A1,将第一文本信息按标点符号作为分隔符,将相邻两个分隔符之间的字符作为一个字符串B1,将字符串A1和字符串B1按分隔符前后对齐后,逐字比对确定字符串A1的相同字的数量xn,遍历所有分隔符中的字符串得到所有字符串的相同字的数量,将所有字符串的相同字的数量相加得到的和即为数量x1。
9.一种计算机可读存储介质,其存储用于电子数据交换的程序,其中,所述程序使得终端执行如权利要求1-4任意一项提供的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210485688.1A CN114898733A (zh) | 2022-05-06 | 2022-05-06 | Ai语音数据的分析处理方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210485688.1A CN114898733A (zh) | 2022-05-06 | 2022-05-06 | Ai语音数据的分析处理方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114898733A true CN114898733A (zh) | 2022-08-12 |
Family
ID=82719879
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210485688.1A Pending CN114898733A (zh) | 2022-05-06 | 2022-05-06 | Ai语音数据的分析处理方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114898733A (zh) |
Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003108170A (ja) * | 2001-09-26 | 2003-04-11 | Seiko Epson Corp | 音声合成学習方法および音声合成学習装置 |
CN104618456A (zh) * | 2015-01-13 | 2015-05-13 | 小米科技有限责任公司 | 信息发布方法及装置 |
CN106098056A (zh) * | 2016-06-14 | 2016-11-09 | 腾讯科技(深圳)有限公司 | 一种语音新闻的处理方法、新闻服务器及系统 |
CN109427327A (zh) * | 2017-09-05 | 2019-03-05 | 中国移动通信有限公司研究院 | 音频通话评估方法、评估设备及计算机存储介质 |
CN111312209A (zh) * | 2020-02-21 | 2020-06-19 | 北京声智科技有限公司 | 文本到语音的转换处理方法、装置及电子设备 |
CN111883100A (zh) * | 2020-07-22 | 2020-11-03 | 马上消费金融股份有限公司 | 语音转换方法、装置及服务器 |
CN112382266A (zh) * | 2020-10-30 | 2021-02-19 | 北京有竹居网络技术有限公司 | 一种语音合成方法、装置、电子设备及存储介质 |
US20210074302A1 (en) * | 2019-09-06 | 2021-03-11 | Samsung Electronics Co., Ltd. | Electronic apparatus and control method thereof |
CN112509565A (zh) * | 2020-11-13 | 2021-03-16 | 中信银行股份有限公司 | 语音识别方法、装置、电子设备及可读存储介质 |
CN112530405A (zh) * | 2019-09-18 | 2021-03-19 | 北京声智科技有限公司 | 一种端到端语音合成纠错方法、系统及装置 |
CN112802494A (zh) * | 2021-04-12 | 2021-05-14 | 北京世纪好未来教育科技有限公司 | 语音评测方法、装置、计算机设备和介质 |
CN113096637A (zh) * | 2021-06-09 | 2021-07-09 | 北京世纪好未来教育科技有限公司 | 语音合成方法、装置及计算机可读存储介质 |
US20210264895A1 (en) * | 2020-02-21 | 2021-08-26 | Kabushiki Kaisha Toshiba | Data generation apparatus and data generation method |
CN113412514A (zh) * | 2019-07-09 | 2021-09-17 | 谷歌有限责任公司 | 用于设备上语音识别模型的训练的文本片段的设备上语音合成 |
CN214756777U (zh) * | 2021-06-01 | 2021-11-16 | 深圳妙月科技有限公司 | 一种组合式ai智能音响 |
CN113793593A (zh) * | 2021-11-18 | 2021-12-14 | 北京优幕科技有限责任公司 | 适用于语音识别模型的训练数据生成方法及设备 |
-
2022
- 2022-05-06 CN CN202210485688.1A patent/CN114898733A/zh active Pending
Patent Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003108170A (ja) * | 2001-09-26 | 2003-04-11 | Seiko Epson Corp | 音声合成学習方法および音声合成学習装置 |
CN104618456A (zh) * | 2015-01-13 | 2015-05-13 | 小米科技有限责任公司 | 信息发布方法及装置 |
CN106098056A (zh) * | 2016-06-14 | 2016-11-09 | 腾讯科技(深圳)有限公司 | 一种语音新闻的处理方法、新闻服务器及系统 |
CN109427327A (zh) * | 2017-09-05 | 2019-03-05 | 中国移动通信有限公司研究院 | 音频通话评估方法、评估设备及计算机存储介质 |
CN113412514A (zh) * | 2019-07-09 | 2021-09-17 | 谷歌有限责任公司 | 用于设备上语音识别模型的训练的文本片段的设备上语音合成 |
US20210074302A1 (en) * | 2019-09-06 | 2021-03-11 | Samsung Electronics Co., Ltd. | Electronic apparatus and control method thereof |
CN112530405A (zh) * | 2019-09-18 | 2021-03-19 | 北京声智科技有限公司 | 一种端到端语音合成纠错方法、系统及装置 |
US20210264895A1 (en) * | 2020-02-21 | 2021-08-26 | Kabushiki Kaisha Toshiba | Data generation apparatus and data generation method |
CN111312209A (zh) * | 2020-02-21 | 2020-06-19 | 北京声智科技有限公司 | 文本到语音的转换处理方法、装置及电子设备 |
CN111883100A (zh) * | 2020-07-22 | 2020-11-03 | 马上消费金融股份有限公司 | 语音转换方法、装置及服务器 |
CN112382266A (zh) * | 2020-10-30 | 2021-02-19 | 北京有竹居网络技术有限公司 | 一种语音合成方法、装置、电子设备及存储介质 |
CN112509565A (zh) * | 2020-11-13 | 2021-03-16 | 中信银行股份有限公司 | 语音识别方法、装置、电子设备及可读存储介质 |
CN112802494A (zh) * | 2021-04-12 | 2021-05-14 | 北京世纪好未来教育科技有限公司 | 语音评测方法、装置、计算机设备和介质 |
CN214756777U (zh) * | 2021-06-01 | 2021-11-16 | 深圳妙月科技有限公司 | 一种组合式ai智能音响 |
CN113096637A (zh) * | 2021-06-09 | 2021-07-09 | 北京世纪好未来教育科技有限公司 | 语音合成方法、装置及计算机可读存储介质 |
CN113793593A (zh) * | 2021-11-18 | 2021-12-14 | 北京优幕科技有限责任公司 | 适用于语音识别模型的训练数据生成方法及设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110659366A (zh) | 语义解析方法、装置、电子设备以及存储介质 | |
CN112580335B (zh) | 多音字消歧方法及装置 | |
CN107301866B (zh) | 信息输入方法 | |
CN103678269A (zh) | 一种信息处理方法和装置 | |
CN103577989A (zh) | 一种基于产品识别的信息分类方法及信息分类系统 | |
CN111091834B (zh) | 文本与音频对齐方法及相关产品 | |
CN104156454A (zh) | 搜索词的纠错方法和装置 | |
CN108417222B (zh) | 加权有限状态变换器解码系统以及语音识别系统 | |
CN111198936B (zh) | 一种语音搜索方法、装置、电子设备及存储介质 | |
CN108052686B (zh) | 一种摘要提取方法及相关设备 | |
CN111354354B (zh) | 一种基于语义识别的训练方法、训练装置及终端设备 | |
CN114297143A (zh) | 一种搜索文件的方法、显示文件的方法、装置及移动终端 | |
CN116522905B (zh) | 文本纠错方法、装置、设备、可读存储介质及程序产品 | |
CN112527967A (zh) | 文本匹配方法、装置、终端和存储介质 | |
CN101727204A (zh) | 一种通信终端上的文字输入系统、方法及通信终端 | |
CN105320641A (zh) | 一种文本校验方法及用户终端 | |
CN114898733A (zh) | Ai语音数据的分析处理方法及系统 | |
CN116579332A (zh) | 基于深度学习的商品名称信息的处理方法及装置 | |
CN110931014A (zh) | 基于正则匹配规则的语音识别方法及装置 | |
CN116150333A (zh) | 文本匹配方法、装置、电子设备及可读存储介质 | |
CN114155841A (zh) | 语音识别方法、装置、设备及存储介质 | |
CN113724698A (zh) | 语音识别模型的训练方法、装置、设备及存储介质 | |
CN113763947A (zh) | 一种语音意图识别方法、装置、电子设备及存储介质 | |
CN113342932A (zh) | 目标词向量的确定方法、装置、存储介质和电子装置 | |
CN110969026A (zh) | 译文输出方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20220812 |
|
RJ01 | Rejection of invention patent application after publication |