CN112530412A - 一种语音控制播经方法和系统 - Google Patents
一种语音控制播经方法和系统 Download PDFInfo
- Publication number
- CN112530412A CN112530412A CN202011503205.3A CN202011503205A CN112530412A CN 112530412 A CN112530412 A CN 112530412A CN 202011503205 A CN202011503205 A CN 202011503205A CN 112530412 A CN112530412 A CN 112530412A
- Authority
- CN
- China
- Prior art keywords
- audio
- sub
- file
- audio file
- check code
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000000034 method Methods 0.000 title claims abstract description 31
- 230000011218 segmentation Effects 0.000 claims description 50
- 238000012795 verification Methods 0.000 claims description 16
- 238000000605 extraction Methods 0.000 claims description 4
- 238000003860 storage Methods 0.000 claims description 4
- 230000000694 effects Effects 0.000 description 6
- 230000009286 beneficial effect Effects 0.000 description 4
- 230000004438 eyesight Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 239000002699 waste material Substances 0.000 description 3
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 2
- 208000035475 disorder Diseases 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 230000003252 repetitive effect Effects 0.000 description 2
- 206010022998 Irritability Diseases 0.000 description 1
- 240000002853 Nelumbo nucifera Species 0.000 description 1
- 235000006508 Nelumbo nucifera Nutrition 0.000 description 1
- 235000006510 Nelumbo pentapetala Nutrition 0.000 description 1
- 206010047531 Visual acuity reduced Diseases 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000003825 pressing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B27/00—Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
- G11B27/10—Indexing; Addressing; Timing or synchronising; Measuring tape travel
- G11B27/19—Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
- G11B27/28—Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording
- G11B27/30—Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording on the same track as the main recording
- G11B27/3027—Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording on the same track as the main recording used signal is digitally coded
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Management Or Editing Of Information On Record Carriers (AREA)
Abstract
本发明提出了一种语音控制播经方法及系统。所述语音控制播经方法包括:对每个音频进行标识,并且将每个已完成标识的音频进行分段,获得多个音频片段;设置语音指令语句,当识别到与所述语音指令语句相符合的语句时,将所述语音指令语句转换为数字信号,控制音频播放。所述系统包括与所述方法的步骤对应的模块。
Description
技术领域
本发明提出了一种语音控制播经方法和系统,属于音频播放技术领域。
背景技术
播经机作为现代科学技术与中国传统文化佛学相结合下的新型电子产品对于我们来说其作用如下:1:帮助不懂佛法的了解佛法,从而知明达慧。2:帮助修习佛法的人们更好的修习佛法,以便于精进、有利于建立正念、正语。3:帮助勤于修习的佛陀更加熟悉佛经,修习佛法以达般若智慧。4:有利于心中有所不通的人们,平静心灵。5:有助于听闻佛法或是不闻佛法之人平心静气去干浮躁,有利于佛法的传播,携带方便。但是目前,所有的播经机将关注焦点集中在播经机的体积和携带方便性上,但是由于播经机的体积逐渐缩小,其按钮控制方式也逐渐出现操作不方便的问题。
发明内容
本发明提供了一种语音控制播经方法和系统,用以解决现有播经机都是按钮手动控制,操作费力不方便的问题:
本发明提出的一种语音控制播经方法,所述语音控制播经方法包括:
对每个音频进行标识,并且将每个已完成标识的音频进行分段,获得多个音频片段;
设置语音指令语句,当识别到与所述语音指令语句相符合的语句时,将所述语音指令语句转换为数字信号,控制音频播放。其中,所述语音指令语句包括“上一段”和“下一段”。
进一步地,所述对每个音频进行标识,并且将每个已完成标识的音频进行分段,获得多个音频片段,包括:
按照音频文件的个数,对每个音频文件进行数字形式的标识,获得已被标识的多个音频文件,并将已被标识的多个音频文件作为上级音频文件;
针对每个上级音频文件,以上级音频文件中每一卷或章节为标准,对每个上级音频文件进行分段,获得多个分段后的子音频文件;
将所述子音频文件按照卷、品或章节的顺序进行数字或字母标识,获得已按序标识的多个子音频文件;
将已按序标识的多个子音频文件以上级音频文件为一个单位进行存储,获得与所述上级音频文件对应的,包含已按序标识的多个子音频文件的音频文件夹。
进一步地,所述针对每个上级音频文件,以上级音频文件中每一卷或章节为标准,对每个上级音频文件进行分段,获得多个分段后的子音频文件,包括:
提取每个上级音频文件中有关卷、品或章节短语,例如“第一品、第二品……”、“卷一、卷二……”“第一卷、第二卷……”、“上卷”“中卷”和“下卷”、“第一章、第二章……”等;并记录出现有关卷、品或章节短语的起始时间点;
按照起始时间点,设置音频分段起始时间点和终止时间点;
根据音频分段起始时间点和终止时间点对每个上级音频文件进行音频分段,获得多个分段后的子音频文件。
进一步地,音频分段的起始时间点和终止时间点通过如下公式获取:
其中,Ts表示第i个音频分段的起始时间点,Ti+1表示第i+1个音有关卷、品或章节短语的起始时间点;Ti表示第i个有关卷、品或章节短语的起始时间点;Tz表示上级音频文件总时长;Th表示第i个音频分段的终止时间点;α为第一时间调整系数,α的取值范围为0.21-0.27;β为第二时间调整系数,β的取值范围为0.17-0.25。
进一步地,所述方法还包括:利用每个音频分段的终止时间和每个音频分段按序的下一个音频分段的起始时间生成连接校验码,并利用所述连接校验码进行子音频文件顺序校验,包括:
获取子音频分段的终止时间和所述音频分段按序的下一个音频分段的起始时间;
利用所述音频分段的终止时间和所述音频分段按序的下一个子音频文件的起始时间生成连接校验码,并将所述连接校验码分别嵌入子音频文件的结尾处和所述子音频文件按序的下一个子音频文件的起始处;其中,通过如下公式获取连接校验码:
其中,H表示连接校验码,Ch表示当前音频分段的终止时间的秒级时间部分对应的两位数数字;Cs表示当前音频分段的按序的下一个音频分段的起始时间的秒级时间部分对应的两位数数字;S1表示第一随机数,所述第一随机数为一个三位随机数,第一位随机数为1-5的任意数字,第二位随机数为0-9的任意数字,第三位随机数为1-7的任意数字;S2表示第二随机数,所述第二随机数为一个两位随机数,第一位随机数为1-5的任意数字,第二位随机数为0-9的任意数字;
在识别到与所述语音指令语句相符合的语句,以当前子音频文件为基础进行按序播放子音频文件时,当识别到进入下一段的语义指令时,在已按序标识的多个子音频文件中按照标识顺序提取当前子音频文件对应的下一段子音频文件,并将所述下一段子音频文件作为目标播放音频;
提取所述目标播放音频起始处的连接校验码,并判断所述目标播放音频起始处的连接校验码是否与当前子音频文件结尾处的连接校验码一致,如果一致,则对目标播放音频进行播放;
当所述目标播放音频起始处的连接校验码与当前子音频文件结尾处的连接校验码不一致时,对存储所述当前子音频文件的单位内的所有子音频文件依次进行起始处的连接校验码扫描,获取与所述当前子音频文件的结尾处的连接校验码一致的子音频文件,并进行播放。
一种语音控制播经系统,所述语音控制播经系统包括:
分段模块,用于对每个音频进行标识,并且将每个已完成标识的音频进行分段,获得多个音频片段;
语音控制模块,用于设置语音指令语句,当识别到与所述语音指令语句相符合的语句时,将所述语音指令语句转换为数字信号,控制音频播放。其中,所述语音指令语句包括“上一段”和“下一段”。
进一步地,所述分段模块包括:
一级标识模块,用于按照音频文件的个数,对每个音频文件进行数字形式的标识,获得已被标识的多个音频文件,并将已被标识的多个音频文件作为上级音频文件;
子音频文件获取模块,用于针对每个上级音频文件,以上级音频文件中每一卷或章节为标准,对每个上级音频文件进行分段,获得多个分段后的子音频文件;
二级标识模块,用于将所述子音频文件按照卷、品或章节的顺序进行数字或字母标识,获得已按序标识的多个子音频文件;
存储模块,用于将已按序标识的多个子音频文件以上级音频文件为一个单位进行存储,获得与所述上级音频文件对应的,包含已按序标识的多个子音频文件的音频文件夹。
进一步地,所述子音频文件获取模块包括:
提取模块,用于提取每个上级音频文件中有关卷、品或章节短语,例如“第一品、第二品……”、“卷一、卷二……”“第一卷、第二卷……”、“上卷”“中卷”和“下卷”、“第一章、第二章……”等;并记录出现有关卷、品或章节短语的起始时间点;
设置模块,用于按照起始时间点,设置音频分段起始时间点和终止时间点;
音频分段模块,用于根据音频分段起始时间点和终止时间点对每个上级音频文件进行音频分段,获得多个分段后的子音频文件。
进一步地,音频分段的起始时间点和终止时间点通过如下公式获取:
其中,Ts表示第i个音频分段的起始时间点,Ti+1表示第i+1个音有关卷、品或章节短语的起始时间点;Ti表示第i个有关卷、品或章节短语的起始时间点;Tz表示上级音频文件总时长;Th表示第i个音频分段的终止时间点;α为第一时间调整系数,α的取值范围为0.21-0.27;β为第二时间调整系数,β的取值范围为0.17-0.25。
进一步地,所述系统还包括:校验模块,用于利用每个音频分段的终止时间和每个音频分段按序的下一个音频分段的起始时间生成连接校验码,并利用所述连接校验码进行子音频文件顺序校验,包括:
时间获取模块,用于获取子音频分段的终止时间和所述音频分段按序的下一个音频分段的起始时间;
校验码获取模块,用于利用所述音频分段的终止时间和所述音频分段按序的下一个子音频文件的起始时间生成连接校验码,并将所述连接校验码分别嵌入子音频文件的结尾处和所述子音频文件按序的下一个子音频文件的起始处;其中,通过如下公式获取连接校验码:
其中,H表示连接校验码,Ch表示当前音频分段的终止时间的秒级时间部分对应的两位数数字;Cs表示当前音频分段的按序的下一个音频分段的起始时间的秒级时间部分对应的两位数数字;S1表示第一随机数,所述第一随机数为一个三位随机数,第一位随机数为1-5的任意数字,第二位随机数为0-9的任意数字,第三位随机数为1-7的任意数字;S2表示第二随机数,所述第二随机数为一个两位随机数,第一位随机数为1-5的任意数字,第二位随机数为0-9的任意数字;
识别模块,用于在识别到与所述语音指令语句相符合的语句,以当前子音频文件为基础进行按序播放子音频文件时,当识别到进入下一段的语义指令时,在已按序标识的多个子音频文件中按照标识顺序提取当前子音频文件对应的下一段子音频文件,并将所述下一段子音频文件作为目标播放音频;
校验码提取模块,用于提取所述目标播放音频起始处的连接校验码,并判断所述目标播放音频起始处的连接校验码是否与当前子音频文件结尾处的连接校验码一致,如果一致,则对目标播放音频进行播放;
播放音频调整模块,用于当所述目标播放音频起始处的连接校验码与当前子音频文件结尾处的连接校验码不一致时,对存储所述当前子音频文件的单位内的所有子音频文件依次进行起始处的连接校验码扫描,获取与所述当前子音频文件的结尾处的连接校验码一致的子音频文件,并进行播放。
本发明有益效果:
本发明提出的一种语音控制播经方法和系统应用于各种播经机中,能够有效提高播经机控制的方便性,尤其针对老年人群体,由于老年人视力情况不佳,手动操作按钮的方式控制播经机常常出现操作失误,重复操作的问题,费时费力。通过本发明提出的语音控制播经方法和系统能够有效提高播经机控制的准确度和控制效率,同时,能够在最快的时间内查找到对应音频,有效减少音频查找时间。极大程度上提升用户的体验,降低项目的综合成本。
附图说明
图1为本发明所述方法的流程图;
图2为本发明所述系统的系统框图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
本发明提出的一种语音控制播经方法,所述语音控制播经方法包括:
S1、对每个音频进行标识,并且将每个已完成标识的音频进行分段,获得多个音频片段;
S2、设置语音指令语句,当识别到与所述语音指令语句相符合的语句时,将所述语音指令语句转换为数字信号,控制音频播放。其中,所述语音指令语句包括“上一段”和“下一段”。
上述技术方案的工作原理:所述一种语音控制播经方法应用于各种播经机中,所述播经机可以是便携式的,也可以做成观音菩萨的莲花座之类的。将经文诵读、大师讲法、佛教音乐等音频内容内置在TF卡上插入到播经机里面,音频内容先进行分段和做标识,譬如分成10个大文件夹,第一个文件夹的标识为“01”,名称叫做“金刚经”,里面再分成A、B、C、D、E或001、002、003、004、005共5段;当语音识别模块识别到“我要听金刚经”的时候,主控芯片就去打开“01”号文件夹,并开始播放里面的A,用户说一句语音指令“下一段”,立刻切换并播放B。这样用户就不必去按播放器的功能按键,用语音识别方式即可控制佛经播放器的内容。这样对于视力不好的老年人用户来说是非常实用的。这种通过语音识别打开文件夹,调用文件夹里面的音频节目进行播放,并通过“上一段”、“下一段”来调整播放内容的办法
上述技术方案的效果为:能够有效提高播经机控制的方便性,尤其针对老年人群体,由于老年人视力情况不佳,手动操作按钮的方式控制播经机常常出现操作失误,重复操作的问题,费时费力。通过本发明提出的语音控制播经方法和系统能够有效提高播经机控制的准确度和控制效率,同时,能够在最快的时间内查找到对应音频,有效减少音频查找时间。极大程度上提升用户的体验,降低项目的综合成本。
本发明的一个实施例,所述对每个音频进行标识,并且将每个已完成标识的音频进行分段,获得多个音频片段,包括:
S101、按照音频文件的个数,对每个音频文件进行数字形式的标识,获得已被标识的多个音频文件,并将已被标识的多个音频文件作为上级音频文件;
S102、针对每个上级音频文件,以上级音频文件中每一卷或章节为标准,对每个上级音频文件进行分段,获得多个分段后的子音频文件;
S103、将所述子音频文件按照卷、品或章节的顺序进行数字或字母标识,获得已按序标识的多个子音频文件;
S104、将已按序标识的多个子音频文件以上级音频文件为一个单位进行存储,获得与所述上级音频文件对应的,包含已按序标识的多个子音频文件的音频文件夹。
其中,所述针对每个上级音频文件,以上级音频文件中每一卷或章节为标准,对每个上级音频文件进行分段,获得多个分段后的子音频文件,包括:
S1021、提取每个上级音频文件中有关卷、品或章节短语,例如“第一品、第二品……”、“卷一、卷二……”“第一卷、第二卷……”、“上卷”“中卷”和“下卷”、“第一章、第二章……”等;并记录出现有关卷、品或章节短语的起始时间点;
S1022、按照起始时间点,设置音频分段起始时间点和终止时间点;
S1023、根据音频分段起始时间点和终止时间点对每个上级音频文件进行音频分段,获得多个分段后的子音频文件。
S1024、音频分段的起始时间点和终止时间点通过如下公式获取:
其中,Ts表示第i个音频分段的起始时间点,Ti+1表示第i+1个音有关卷、品或章节短语的起始时间点;Ti表示第i个有关卷、品或章节短语的起始时间点;Tz表示上级音频文件总时长;Th表示第i个音频分段的终止时间点;α为第一时间调整系数,α的取值范围为0.21-0.27;β为第二时间调整系数,β的取值范围为0.17-0.25。
上述技术方案的效果为:通过上述对音频文件进行分段,能够有效提高音频分段的准确性和分段效率,同时,通过音频分段的起始时间点和终止时间点的设置能够避免在音频分段过程中出现分段时间确定错误导致的对经文播放部分进行分割,导致音频分段出错的问题发生。同时,通过上述公式获取的音频分段起始时间点和终止时间点,不仅能够安全避免音频分割出错,并且能够提高分割时间与人声播放之间的间隔时间长度的合理性,极大程度上提高听觉舒适度。
本发明的一个实施例,所述方法还包括:利用每个音频分段的终止时间和每个音频分段按序的下一个音频分段的起始时间生成连接校验码,并利用所述连接校验码进行子音频文件顺序校验,包括:
步骤1、获取子音频分段的终止时间和所述音频分段按序的下一个音频分段的起始时间;
步骤2、利用所述音频分段的终止时间和所述音频分段按序的下一个子音频文件的起始时间生成连接校验码,并将所述连接校验码分别嵌入子音频文件的结尾处和所述子音频文件按序的下一个子音频文件的起始处;其中,通过如下公式获取连接校验码:
其中,H表示连接校验码,Ch表示当前音频分段的终止时间的秒级时间部分对应的两位数数字;Cs表示当前音频分段的按序的下一个音频分段的起始时间的秒级时间部分对应的两位数数字;S1表示第一随机数,所述第一随机数为一个三位随机数,第一位随机数为1-5的任意数字,第二位随机数为0-9的任意数字,第三位随机数为1-7的任意数字;S2表示第二随机数,所述第二随机数为一个两位随机数,第一位随机数为1-5的任意数字,第二位随机数为0-9的任意数字;
步骤3、在识别到与所述语音指令语句相符合的语句,以当前子音频文件为基础进行按序播放子音频文件时,当识别到进入下一段的语义指令时,在已按序标识的多个子音频文件中按照标识顺序提取当前子音频文件对应的下一段子音频文件,并将所述下一段子音频文件作为目标播放音频;
步骤4、提取所述目标播放音频起始处的连接校验码,并判断所述目标播放音频起始处的连接校验码是否与当前子音频文件结尾处的连接校验码一致,如果一致,则对目标播放音频进行播放;
步骤5、当所述目标播放音频起始处的连接校验码与当前子音频文件结尾处的连接校验码不一致时,对存储所述当前子音频文件的单位内的所有子音频文件依次进行起始处的连接校验码扫描,获取与所述当前子音频文件的结尾处的连接校验码一致的子音频文件,并进行播放。
上述技术方案的效果为:通过上述方式能够有效提高各音频分段播放顺序的准确性,避免由于播放器系统出现系统错误导致子音频文件命名或标识出现乱发情况下,语音控制音频播放出现乱序的情况发生,同时,通过上述公式获取的连接校验码能够有效提高个子音频文件的校验码唯一性,防止校验码重复生产导致音频关联出现混乱和错误的问题发生。进一步提高了音频按序播放的准确性。
本发明的实施例提出了一种语音控制播经系统,如图2所示,所述语音控制播经系统包括:
分段模块,用于对每个音频进行标识,并且将每个已完成标识的音频进行分段,获得多个音频片段;
语音控制模块,用于设置语音指令语句,当识别到与所述语音指令语句相符合的语句时,将所述语音指令语句转换为数字信号,控制音频播放。其中,所述语音指令语句包括“上一段”和“下一段”。
上述技术方案的工作原理为:首先,通过分段模块对每个音频进行标识,并且将每个已完成标识的音频进行分段,获得多个音频片段;然后,通过语音控制模块设置语音指令语句,当识别到与所述语音指令语句相符合的语句时,将所述语音指令语句转换为数字信号,控制音频播放。其中,所述语音指令语句包括“上一段”和“下一段”。
上述技术方案的效果为:能够有效提高播经机控制的方便性,尤其针对老年人群体,由于老年人视力情况不佳,手动操作按钮的方式控制播经机常常出现操作失误,重复操作的问题,费时费力。通过本发明提出的语音控制播经方法和系统能够有效提高播经机控制的准确度和控制效率,同时,能够在最快的时间内查找到对应音频,有效减少音频查找时间。极大程度上提升用户的体验,降低项目的综合成本。
本发明的一个实施例,所述分段模块包括:
一级标识模块,用于按照音频文件的个数,对每个音频文件进行数字形式的标识,获得已被标识的多个音频文件,并将已被标识的多个音频文件作为上级音频文件;
子音频文件获取模块,用于针对每个上级音频文件,以上级音频文件中每一卷或章节为标准,对每个上级音频文件进行分段,获得多个分段后的子音频文件;
二级标识模块,用于将所述子音频文件按照卷、品或章节的顺序进行数字或字母标识,获得已按序标识的多个子音频文件;
存储模块,用于将已按序标识的多个子音频文件以上级音频文件为一个单位进行存储,获得与所述上级音频文件对应的,包含已按序标识的多个子音频文件的音频文件夹。
其中,所述子音频文件获取模块包括:
提取模块,用于提取每个上级音频文件中有关卷、品或章节短语,例如“第一品、第二品……”、“卷一、卷二……”“第一卷、第二卷……”、“上卷”“中卷”和“下卷”、“第一章、第二章……”等;并记录出现有关卷、品或章节短语的起始时间点;
设置模块,用于按照起始时间点,设置音频分段起始时间点和终止时间点;
音频分段模块,用于根据音频分段起始时间点和终止时间点对每个上级音频文件进行音频分段,获得多个分段后的子音频文件。
其中,音频分段的起始时间点和终止时间点通过如下公式获取:
其中,Ts表示第i个音频分段的起始时间点,Ti+1表示第i+1个音有关卷、品或章节短语的起始时间点;Ti表示第i个有关卷、品或章节短语的起始时间点;Tz表示上级音频文件总时长;Th表示第i个音频分段的终止时间点;α为第一时间调整系数,α的取值范围为0.21-0.27;β为第二时间调整系数,β的取值范围为0.17-0.25。
上述技术方案的工作原理为:首先,采用一级标识模块按照音频文件的个数,对每个音频文件进行数字形式的标识,获得已被标识的多个音频文件,并将已被标识的多个音频文件作为上级音频文件;然后,利用子音频文件获取模块针对每个上级音频文件,以上级音频文件中每一卷或章节为标准,对每个上级音频文件进行分段,获得多个分段后的子音频文件;之后,采用二级标识模块将所述子音频文件按照卷、品或章节的顺序进行数字或字母标识,获得已按序标识的多个子音频文件;最后,通过存储模块将已按序标识的多个子音频文件以上级音频文件为一个单位进行存储,获得与所述上级音频文件对应的,包含已按序标识的多个子音频文件的音频文件夹。
其中,所述子音频文件获取模块的运行过程包括:
首先,采用提取模块提取每个上级音频文件中有关卷、品或章节短语,例如“第一品、第二品……”、“卷一、卷二……”“第一卷、第二卷……”、“上卷”“中卷”和“下卷”、“第一章、第二章……”等;并记录出现有关卷、品或章节短语的起始时间点;然后,利用设置模块按照起始时间点,设置音频分段起始时间点和终止时间点;最后,采用音频分段模块根据音频分段起始时间点和终止时间点对每个上级音频文件进行音频分段,获得多个分段后的子音频文件。
本发明的一个实施例,所述系统还包括:校验模块,用于利用每个音频分段的终止时间和每个音频分段按序的下一个音频分段的起始时间生成连接校验码,并利用所述连接校验码进行子音频文件顺序校验,包括:
时间获取模块,用于获取子音频分段的终止时间和所述音频分段按序的下一个音频分段的起始时间;
校验码获取模块,用于利用所述音频分段的终止时间和所述音频分段按序的下一个子音频文件的起始时间生成连接校验码,并将所述连接校验码分别嵌入子音频文件的结尾处和所述子音频文件按序的下一个子音频文件的起始处;其中,通过如下公式获取连接校验码:
其中,H表示连接校验码,Ch表示当前音频分段的终止时间的秒级时间部分对应的两位数数字;Cs表示当前音频分段的按序的下一个音频分段的起始时间的秒级时间部分对应的两位数数字;S1表示第一随机数,所述第一随机数为一个三位随机数,第一位随机数为1-5的任意数字,第二位随机数为0-9的任意数字,第三位随机数为1-7的任意数字;S2表示第二随机数,所述第二随机数为一个两位随机数,第一位随机数为1-5的任意数字,第二位随机数为0-9的任意数字;
识别模块,用于在识别到与所述语音指令语句相符合的语句,以当前子音频文件为基础进行按序播放子音频文件时,当识别到进入下一段的语义指令时,在已按序标识的多个子音频文件中按照标识顺序提取当前子音频文件对应的下一段子音频文件,并将所述下一段子音频文件作为目标播放音频;
校验码提取模块,用于提取所述目标播放音频起始处的连接校验码,并判断所述目标播放音频起始处的连接校验码是否与当前子音频文件结尾处的连接校验码一致,如果一致,则对目标播放音频进行播放;
播放音频调整模块,用于当所述目标播放音频起始处的连接校验码与当前子音频文件结尾处的连接校验码不一致时,对存储所述当前子音频文件的单位内的所有子音频文件依次进行起始处的连接校验码扫描,获取与所述当前子音频文件的结尾处的连接校验码一致的子音频文件,并进行播放。
上述技术方案的工作原理为:
所述系统还包括:校验模块,用于利用每个音频分段的终止时间和每个音频分段按序的下一个音频分段的起始时间生成连接校验码,并利用所述连接校验码进行子音频文件顺序校验,包括:
首先,采用时间获取模块获取子音频分段的终止时间和所述音频分段按序的下一个音频分段的起始时间;
然后,通过校验码获取模块利用所述音频分段的终止时间和所述音频分段按序的下一个子音频文件的起始时间生成连接校验码,并将所述连接校验码分别嵌入子音频文件的结尾处和所述子音频文件按序的下一个子音频文件的起始处;其中,通过如下公式获取连接校验码:
其中,H表示连接校验码,Ch表示当前音频分段的终止时间的秒级时间部分对应的两位数数字;Cs表示当前音频分段的按序的下一个音频分段的起始时间的秒级时间部分对应的两位数数字;S1表示第一随机数,所述第一随机数为一个三位随机数,第一位随机数为1-5的任意数字,第二位随机数为0-9的任意数字,第三位随机数为1-7的任意数字;S2表示第二随机数,所述第二随机数为一个两位随机数,第一位随机数为1-5的任意数字,第二位随机数为0-9的任意数字;
之后,采用识别模块在识别到与所述语音指令语句相符合的语句,以当前子音频文件为基础进行按序播放子音频文件时,当识别到进入下一段的语义指令时,在已按序标识的多个子音频文件中按照标识顺序提取当前子音频文件对应的下一段子音频文件,并将所述下一段子音频文件作为目标播放音频;
随后,利用校验码提取模块提取所述目标播放音频起始处的连接校验码,并判断所述目标播放音频起始处的连接校验码是否与当前子音频文件结尾处的连接校验码一致,如果一致,则对目标播放音频进行播放;
最后,通过播放音频调整模块在所述目标播放音频起始处的连接校验码与当前子音频文件结尾处的连接校验码不一致时,对存储所述当前子音频文件的单位内的所有子音频文件依次进行起始处的连接校验码扫描,获取与所述当前子音频文件的结尾处的连接校验码一致的子音频文件,并进行播放。
上述技术方案的效果为:通过上述方式能够有效提高各音频分段播放顺序的准确性,避免由于播放器系统出现系统错误导致子音频文件命名或标识出现乱发情况下,语音控制音频播放出现乱序的情况发生,同时,通过上述公式获取的连接校验码能够有效提高个子音频文件的校验码唯一性,防止校验码重复生产导致音频关联出现混乱和错误的问题发生。进一步提高了音频按序播放的准确性。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (10)
1.一种语音控制播经方法,其特征在于,所述语音控制播经方法包括:
对每个音频进行标识,并且将每个已完成标识的音频进行分段,获得多个音频片段;
设置语音指令语句,当识别到与所述语音指令语句相符合的语句时,将所述语音指令语句转换为数字信号,控制音频播放。
2.根据权利要求1所述语音控制播经方法,其特征在于,所述对每个音频进行标识,并且将每个已完成标识的音频进行分段,获得多个音频片段,包括:
按照音频文件的个数,对每个音频文件进行数字形式的标识,获得已被标识的多个音频文件,并将已被标识的多个音频文件作为上级音频文件;
针对每个上级音频文件,以上级音频文件中每一卷或章节为标准,对每个上级音频文件进行分段,获得多个分段后的子音频文件;
将所述子音频文件按照卷、品或章节的顺序进行数字或字母标识,获得已按序标识的多个子音频文件;
将已按序标识的多个子音频文件以上级音频文件为一个单位进行存储,获得与所述上级音频文件对应的,包含已按序标识的多个子音频文件的音频文件夹。
3.根据权利要求2所述语音控制播经方法,其特征在于,所述针对每个上级音频文件,以上级音频文件中每一卷或章节为标准,对每个上级音频文件进行分段,获得多个分段后的子音频文件,包括:
提取每个上级音频文件中有关卷、品或章节短语,并记录出现有关卷、品或章节短语的起始时间点;
按照起始时间点,设置音频分段起始时间点和终止时间点;
根据音频分段起始时间点和终止时间点对每个上级音频文件进行音频分段,获得多个分段后的子音频文件。
5.根据权利要求1所述语音控制播经方法,其特征在于,所述方法还包括:利用每个音频分段的终止时间和每个音频分段按序的下一个音频分段的起始时间生成连接校验码,并利用所述连接校验码进行子音频文件顺序校验,包括:
获取子音频分段的终止时间和所述音频分段按序的下一个音频分段的起始时间;
利用所述音频分段的终止时间和所述音频分段按序的下一个子音频文件的起始时间生成连接校验码,并将所述连接校验码分别嵌入子音频文件的结尾处和所述子音频文件按序的下一个子音频文件的起始处;其中,通过如下公式获取连接校验码:
其中,H表示连接校验码,Ch表示当前音频分段的终止时间的秒级时间部分对应的两位数数字;Cs表示当前音频分段的按序的下一个音频分段的起始时间的秒级时间部分对应的两位数数字;S1表示第一随机数,所述第一随机数为一个三位随机数,第一位随机数为1-5的任意数字,第二位随机数为0-9的任意数字,第三位随机数为1-7的任意数字;S2表示第二随机数,所述第二随机数为一个两位随机数,第一位随机数为1-5的任意数字,第二位随机数为0-9的任意数字;
在识别到与所述语音指令语句相符合的语句,以当前子音频文件为基础进行按序播放子音频文件时,当识别到进入下一段的语义指令时,在已按序标识的多个子音频文件中按照标识顺序提取当前子音频文件对应的下一段子音频文件,并将所述下一段子音频文件作为目标播放音频;
提取所述目标播放音频起始处的连接校验码,并判断所述目标播放音频起始处的连接校验码是否与当前子音频文件结尾处的连接校验码一致,如果一致,则对目标播放音频进行播放;
当所述目标播放音频起始处的连接校验码与当前子音频文件结尾处的连接校验码不一致时,对存储所述当前子音频文件的单位内的所有子音频文件依次进行起始处的连接校验码扫描,获取与所述当前子音频文件的结尾处的连接校验码一致的子音频文件,并进行播放。
6.一种语音控制播经系统,其特征在于,所述语音控制播经系统包括:
分段模块,用于对每个音频进行标识,并且将每个已完成标识的音频进行分段,获得多个音频片段;
语音控制模块,用于设置语音指令语句,当识别到与所述语音指令语句相符合的语句时,将所述语音指令语句转换为数字信号,控制音频播放。
7.根据权利要求6所述语音控制播经系统,其特征在于,所述分段模块包括:
一级标识模块,用于按照音频文件的个数,对每个音频文件进行数字形式的标识,获得已被标识的多个音频文件,并将已被标识的多个音频文件作为上级音频文件;
子音频文件获取模块,用于针对每个上级音频文件,以上级音频文件中每一卷或章节为标准,对每个上级音频文件进行分段,获得多个分段后的子音频文件;
二级标识模块,用于将所述子音频文件按照卷、品或章节的顺序进行数字或字母标识,获得已按序标识的多个子音频文件;
存储模块,用于将已按序标识的多个子音频文件以上级音频文件为一个单位进行存储,获得与所述上级音频文件对应的,包含已按序标识的多个子音频文件的音频文件夹。
8.根据权利要求7所述语音控制播经系统,其特征在于,所述子音频文件获取模块包括:
提取模块,用于提取每个上级音频文件中有关卷、品或章节短语,并记录出现有关卷、品或章节短语的起始时间点;
设置模块,用于按照起始时间点,设置音频分段起始时间点和终止时间点;
音频分段模块,用于根据音频分段起始时间点和终止时间点对每个上级音频文件进行音频分段,获得多个分段后的子音频文件。
10.根据权利要求6所述语音控制播经系统,其特征在于,所述系统还包括:校验模块,用于利用每个音频分段的终止时间和每个音频分段按序的下一个音频分段的起始时间生成连接校验码,并利用所述连接校验码进行子音频文件顺序校验,包括:
时间获取模块,用于获取子音频分段的终止时间和所述音频分段按序的下一个音频分段的起始时间;
校验码获取模块,用于利用所述音频分段的终止时间和所述音频分段按序的下一个子音频文件的起始时间生成连接校验码,并将所述连接校验码分别嵌入子音频文件的结尾处和所述子音频文件按序的下一个子音频文件的起始处;其中,通过如下公式获取连接校验码:
其中,H表示连接校验码,Ch表示当前音频分段的终止时间的秒级时间部分对应的两位数数字;Cs表示当前音频分段的按序的下一个音频分段的起始时间的秒级时间部分对应的两位数数字;S1表示第一随机数,所述第一随机数为一个三位随机数,第一位随机数为1-5的任意数字,第二位随机数为0-9的任意数字,第三位随机数为1-7的任意数字;S2表示第二随机数,所述第二随机数为一个两位随机数,第一位随机数为1-5的任意数字,第二位随机数为0-9的任意数字;
识别模块,用于在识别到与所述语音指令语句相符合的语句,以当前子音频文件为基础进行按序播放子音频文件时,当识别到进入下一段的语义指令时,在已按序标识的多个子音频文件中按照标识顺序提取当前子音频文件对应的下一段子音频文件,并将所述下一段子音频文件作为目标播放音频;
校验码提取模块,用于提取所述目标播放音频起始处的连接校验码,并判断所述目标播放音频起始处的连接校验码是否与当前子音频文件结尾处的连接校验码一致,如果一致,则对目标播放音频进行播放;
播放音频调整模块,用于当所述目标播放音频起始处的连接校验码与当前子音频文件结尾处的连接校验码不一致时,对存储所述当前子音频文件的单位内的所有子音频文件依次进行起始处的连接校验码扫描,获取与所述当前子音频文件的结尾处的连接校验码一致的子音频文件,并进行播放。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011503205.3A CN112530412A (zh) | 2020-12-18 | 2020-12-18 | 一种语音控制播经方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011503205.3A CN112530412A (zh) | 2020-12-18 | 2020-12-18 | 一种语音控制播经方法和系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112530412A true CN112530412A (zh) | 2021-03-19 |
Family
ID=75001546
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011503205.3A Withdrawn CN112530412A (zh) | 2020-12-18 | 2020-12-18 | 一种语音控制播经方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112530412A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113409781A (zh) * | 2021-06-16 | 2021-09-17 | 深圳市信息基础设施投资发展有限公司 | 一种5g智慧杆 |
-
2020
- 2020-12-18 CN CN202011503205.3A patent/CN112530412A/zh not_active Withdrawn
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113409781A (zh) * | 2021-06-16 | 2021-09-17 | 深圳市信息基础设施投资发展有限公司 | 一种5g智慧杆 |
CN113409781B (zh) * | 2021-06-16 | 2022-03-04 | 深圳市信息基础设施投资发展有限公司 | 一种5g智慧杆 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6978238B2 (en) | Method and system for identifying a user by voice | |
CN109410664B (zh) | 一种发音纠正方法及电子设备 | |
US7974843B2 (en) | Operating method for an automated language recognizer intended for the speaker-independent language recognition of words in different languages and automated language recognizer | |
JP5141695B2 (ja) | 記号挿入装置および記号挿入方法 | |
JP5787780B2 (ja) | 書き起こし支援システムおよび書き起こし支援方法 | |
CN101326572A (zh) | 具有巨大词汇量的语音识别系统 | |
CN106782521A (zh) | 一种语音识别系统 | |
CN110880316A (zh) | 一种音频的输出方法和系统 | |
CN108305611B (zh) | 文本转语音的方法、装置、存储介质和计算机设备 | |
KR19980070329A (ko) | 사용자 정의 문구의 화자 독립 인식을 위한 방법 및 시스템 | |
CN110691258A (zh) | 一种节目素材制作方法、装置及计算机存储介质、电子设备 | |
CN112530412A (zh) | 一种语音控制播经方法和系统 | |
CN102136001B (zh) | 一种多媒体信息模糊检索方法 | |
CN108682423A (zh) | 一种语音识别方法和装置 | |
CN112447182A (zh) | 一种自动修音系统及修音方法 | |
CN112466287A (zh) | 一种语音分割方法、装置以及计算机可读存储介质 | |
JPH11231895A (ja) | 音声認識方法及びその装置 | |
JP6849977B2 (ja) | テキスト表示用同期情報生成装置および方法並びに音声認識装置および方法 | |
Schuller et al. | Incremental acoustic valence recognition: an inter-corpus perspective on features, matching, and performance in a gating paradigm | |
JP3830588B2 (ja) | 字幕スーパー・タイミング発生装置ならびに字幕スーパー処理装置 | |
CN112420054A (zh) | 一种基于说话人向量复用的语音识别系统及方法 | |
CN113763920A (zh) | 空调器及其语音生成方法、语音生成装置和可读存储介质 | |
JP2000122678A (ja) | 音声認識機器制御装置 | |
Lane et al. | Local word discovery for interactive transcription | |
CN109032707A (zh) | 终端及其口语学习方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20210319 |
|
WW01 | Invention patent application withdrawn after publication |