CN112530412A - 一种语音控制播经方法和系统 - Google Patents

一种语音控制播经方法和系统 Download PDF

Info

Publication number
CN112530412A
CN112530412A CN202011503205.3A CN202011503205A CN112530412A CN 112530412 A CN112530412 A CN 112530412A CN 202011503205 A CN202011503205 A CN 202011503205A CN 112530412 A CN112530412 A CN 112530412A
Authority
CN
China
Prior art keywords
audio
sub
file
audio file
check code
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202011503205.3A
Other languages
English (en)
Inventor
陈芒
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Zhongkesheng Technology Co ltd
Original Assignee
Shenzhen Zhongkesheng Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Zhongkesheng Technology Co ltd filed Critical Shenzhen Zhongkesheng Technology Co ltd
Priority to CN202011503205.3A priority Critical patent/CN112530412A/zh
Publication of CN112530412A publication Critical patent/CN112530412A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/19Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
    • G11B27/28Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording
    • G11B27/30Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording on the same track as the main recording
    • G11B27/3027Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording on the same track as the main recording used signal is digitally coded
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Management Or Editing Of Information On Record Carriers (AREA)

Abstract

本发明提出了一种语音控制播经方法及系统。所述语音控制播经方法包括:对每个音频进行标识,并且将每个已完成标识的音频进行分段,获得多个音频片段;设置语音指令语句,当识别到与所述语音指令语句相符合的语句时,将所述语音指令语句转换为数字信号,控制音频播放。所述系统包括与所述方法的步骤对应的模块。

Description

一种语音控制播经方法和系统
技术领域
本发明提出了一种语音控制播经方法和系统,属于音频播放技术领域。
背景技术
播经机作为现代科学技术与中国传统文化佛学相结合下的新型电子产品对于我们来说其作用如下:1:帮助不懂佛法的了解佛法,从而知明达慧。2:帮助修习佛法的人们更好的修习佛法,以便于精进、有利于建立正念、正语。3:帮助勤于修习的佛陀更加熟悉佛经,修习佛法以达般若智慧。4:有利于心中有所不通的人们,平静心灵。5:有助于听闻佛法或是不闻佛法之人平心静气去干浮躁,有利于佛法的传播,携带方便。但是目前,所有的播经机将关注焦点集中在播经机的体积和携带方便性上,但是由于播经机的体积逐渐缩小,其按钮控制方式也逐渐出现操作不方便的问题。
发明内容
本发明提供了一种语音控制播经方法和系统,用以解决现有播经机都是按钮手动控制,操作费力不方便的问题:
本发明提出的一种语音控制播经方法,所述语音控制播经方法包括:
对每个音频进行标识,并且将每个已完成标识的音频进行分段,获得多个音频片段;
设置语音指令语句,当识别到与所述语音指令语句相符合的语句时,将所述语音指令语句转换为数字信号,控制音频播放。其中,所述语音指令语句包括“上一段”和“下一段”。
进一步地,所述对每个音频进行标识,并且将每个已完成标识的音频进行分段,获得多个音频片段,包括:
按照音频文件的个数,对每个音频文件进行数字形式的标识,获得已被标识的多个音频文件,并将已被标识的多个音频文件作为上级音频文件;
针对每个上级音频文件,以上级音频文件中每一卷或章节为标准,对每个上级音频文件进行分段,获得多个分段后的子音频文件;
将所述子音频文件按照卷、品或章节的顺序进行数字或字母标识,获得已按序标识的多个子音频文件;
将已按序标识的多个子音频文件以上级音频文件为一个单位进行存储,获得与所述上级音频文件对应的,包含已按序标识的多个子音频文件的音频文件夹。
进一步地,所述针对每个上级音频文件,以上级音频文件中每一卷或章节为标准,对每个上级音频文件进行分段,获得多个分段后的子音频文件,包括:
提取每个上级音频文件中有关卷、品或章节短语,例如“第一品、第二品……”、“卷一、卷二……”“第一卷、第二卷……”、“上卷”“中卷”和“下卷”、“第一章、第二章……”等;并记录出现有关卷、品或章节短语的起始时间点;
按照起始时间点,设置音频分段起始时间点和终止时间点;
根据音频分段起始时间点和终止时间点对每个上级音频文件进行音频分段,获得多个分段后的子音频文件。
进一步地,音频分段的起始时间点和终止时间点通过如下公式获取:
Figure BDA0002844216930000021
Figure BDA0002844216930000022
其中,Ts表示第i个音频分段的起始时间点,Ti+1表示第i+1个音有关卷、品或章节短语的起始时间点;Ti表示第i个有关卷、品或章节短语的起始时间点;Tz表示上级音频文件总时长;Th表示第i个音频分段的终止时间点;α为第一时间调整系数,α的取值范围为0.21-0.27;β为第二时间调整系数,β的取值范围为0.17-0.25。
进一步地,所述方法还包括:利用每个音频分段的终止时间和每个音频分段按序的下一个音频分段的起始时间生成连接校验码,并利用所述连接校验码进行子音频文件顺序校验,包括:
获取子音频分段的终止时间和所述音频分段按序的下一个音频分段的起始时间;
利用所述音频分段的终止时间和所述音频分段按序的下一个子音频文件的起始时间生成连接校验码,并将所述连接校验码分别嵌入子音频文件的结尾处和所述子音频文件按序的下一个子音频文件的起始处;其中,通过如下公式获取连接校验码:
Figure BDA0002844216930000023
其中,H表示连接校验码,Ch表示当前音频分段的终止时间的秒级时间部分对应的两位数数字;Cs表示当前音频分段的按序的下一个音频分段的起始时间的秒级时间部分对应的两位数数字;S1表示第一随机数,所述第一随机数为一个三位随机数,第一位随机数为1-5的任意数字,第二位随机数为0-9的任意数字,第三位随机数为1-7的任意数字;S2表示第二随机数,所述第二随机数为一个两位随机数,第一位随机数为1-5的任意数字,第二位随机数为0-9的任意数字;
在识别到与所述语音指令语句相符合的语句,以当前子音频文件为基础进行按序播放子音频文件时,当识别到进入下一段的语义指令时,在已按序标识的多个子音频文件中按照标识顺序提取当前子音频文件对应的下一段子音频文件,并将所述下一段子音频文件作为目标播放音频;
提取所述目标播放音频起始处的连接校验码,并判断所述目标播放音频起始处的连接校验码是否与当前子音频文件结尾处的连接校验码一致,如果一致,则对目标播放音频进行播放;
当所述目标播放音频起始处的连接校验码与当前子音频文件结尾处的连接校验码不一致时,对存储所述当前子音频文件的单位内的所有子音频文件依次进行起始处的连接校验码扫描,获取与所述当前子音频文件的结尾处的连接校验码一致的子音频文件,并进行播放。
一种语音控制播经系统,所述语音控制播经系统包括:
分段模块,用于对每个音频进行标识,并且将每个已完成标识的音频进行分段,获得多个音频片段;
语音控制模块,用于设置语音指令语句,当识别到与所述语音指令语句相符合的语句时,将所述语音指令语句转换为数字信号,控制音频播放。其中,所述语音指令语句包括“上一段”和“下一段”。
进一步地,所述分段模块包括:
一级标识模块,用于按照音频文件的个数,对每个音频文件进行数字形式的标识,获得已被标识的多个音频文件,并将已被标识的多个音频文件作为上级音频文件;
子音频文件获取模块,用于针对每个上级音频文件,以上级音频文件中每一卷或章节为标准,对每个上级音频文件进行分段,获得多个分段后的子音频文件;
二级标识模块,用于将所述子音频文件按照卷、品或章节的顺序进行数字或字母标识,获得已按序标识的多个子音频文件;
存储模块,用于将已按序标识的多个子音频文件以上级音频文件为一个单位进行存储,获得与所述上级音频文件对应的,包含已按序标识的多个子音频文件的音频文件夹。
进一步地,所述子音频文件获取模块包括:
提取模块,用于提取每个上级音频文件中有关卷、品或章节短语,例如“第一品、第二品……”、“卷一、卷二……”“第一卷、第二卷……”、“上卷”“中卷”和“下卷”、“第一章、第二章……”等;并记录出现有关卷、品或章节短语的起始时间点;
设置模块,用于按照起始时间点,设置音频分段起始时间点和终止时间点;
音频分段模块,用于根据音频分段起始时间点和终止时间点对每个上级音频文件进行音频分段,获得多个分段后的子音频文件。
进一步地,音频分段的起始时间点和终止时间点通过如下公式获取:
Figure BDA0002844216930000041
Figure BDA0002844216930000042
其中,Ts表示第i个音频分段的起始时间点,Ti+1表示第i+1个音有关卷、品或章节短语的起始时间点;Ti表示第i个有关卷、品或章节短语的起始时间点;Tz表示上级音频文件总时长;Th表示第i个音频分段的终止时间点;α为第一时间调整系数,α的取值范围为0.21-0.27;β为第二时间调整系数,β的取值范围为0.17-0.25。
进一步地,所述系统还包括:校验模块,用于利用每个音频分段的终止时间和每个音频分段按序的下一个音频分段的起始时间生成连接校验码,并利用所述连接校验码进行子音频文件顺序校验,包括:
时间获取模块,用于获取子音频分段的终止时间和所述音频分段按序的下一个音频分段的起始时间;
校验码获取模块,用于利用所述音频分段的终止时间和所述音频分段按序的下一个子音频文件的起始时间生成连接校验码,并将所述连接校验码分别嵌入子音频文件的结尾处和所述子音频文件按序的下一个子音频文件的起始处;其中,通过如下公式获取连接校验码:
Figure BDA0002844216930000043
其中,H表示连接校验码,Ch表示当前音频分段的终止时间的秒级时间部分对应的两位数数字;Cs表示当前音频分段的按序的下一个音频分段的起始时间的秒级时间部分对应的两位数数字;S1表示第一随机数,所述第一随机数为一个三位随机数,第一位随机数为1-5的任意数字,第二位随机数为0-9的任意数字,第三位随机数为1-7的任意数字;S2表示第二随机数,所述第二随机数为一个两位随机数,第一位随机数为1-5的任意数字,第二位随机数为0-9的任意数字;
识别模块,用于在识别到与所述语音指令语句相符合的语句,以当前子音频文件为基础进行按序播放子音频文件时,当识别到进入下一段的语义指令时,在已按序标识的多个子音频文件中按照标识顺序提取当前子音频文件对应的下一段子音频文件,并将所述下一段子音频文件作为目标播放音频;
校验码提取模块,用于提取所述目标播放音频起始处的连接校验码,并判断所述目标播放音频起始处的连接校验码是否与当前子音频文件结尾处的连接校验码一致,如果一致,则对目标播放音频进行播放;
播放音频调整模块,用于当所述目标播放音频起始处的连接校验码与当前子音频文件结尾处的连接校验码不一致时,对存储所述当前子音频文件的单位内的所有子音频文件依次进行起始处的连接校验码扫描,获取与所述当前子音频文件的结尾处的连接校验码一致的子音频文件,并进行播放。
本发明有益效果:
本发明提出的一种语音控制播经方法和系统应用于各种播经机中,能够有效提高播经机控制的方便性,尤其针对老年人群体,由于老年人视力情况不佳,手动操作按钮的方式控制播经机常常出现操作失误,重复操作的问题,费时费力。通过本发明提出的语音控制播经方法和系统能够有效提高播经机控制的准确度和控制效率,同时,能够在最快的时间内查找到对应音频,有效减少音频查找时间。极大程度上提升用户的体验,降低项目的综合成本。
附图说明
图1为本发明所述方法的流程图;
图2为本发明所述系统的系统框图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
本发明提出的一种语音控制播经方法,所述语音控制播经方法包括:
S1、对每个音频进行标识,并且将每个已完成标识的音频进行分段,获得多个音频片段;
S2、设置语音指令语句,当识别到与所述语音指令语句相符合的语句时,将所述语音指令语句转换为数字信号,控制音频播放。其中,所述语音指令语句包括“上一段”和“下一段”。
上述技术方案的工作原理:所述一种语音控制播经方法应用于各种播经机中,所述播经机可以是便携式的,也可以做成观音菩萨的莲花座之类的。将经文诵读、大师讲法、佛教音乐等音频内容内置在TF卡上插入到播经机里面,音频内容先进行分段和做标识,譬如分成10个大文件夹,第一个文件夹的标识为“01”,名称叫做“金刚经”,里面再分成A、B、C、D、E或001、002、003、004、005共5段;当语音识别模块识别到“我要听金刚经”的时候,主控芯片就去打开“01”号文件夹,并开始播放里面的A,用户说一句语音指令“下一段”,立刻切换并播放B。这样用户就不必去按播放器的功能按键,用语音识别方式即可控制佛经播放器的内容。这样对于视力不好的老年人用户来说是非常实用的。这种通过语音识别打开文件夹,调用文件夹里面的音频节目进行播放,并通过“上一段”、“下一段”来调整播放内容的办法
上述技术方案的效果为:能够有效提高播经机控制的方便性,尤其针对老年人群体,由于老年人视力情况不佳,手动操作按钮的方式控制播经机常常出现操作失误,重复操作的问题,费时费力。通过本发明提出的语音控制播经方法和系统能够有效提高播经机控制的准确度和控制效率,同时,能够在最快的时间内查找到对应音频,有效减少音频查找时间。极大程度上提升用户的体验,降低项目的综合成本。
本发明的一个实施例,所述对每个音频进行标识,并且将每个已完成标识的音频进行分段,获得多个音频片段,包括:
S101、按照音频文件的个数,对每个音频文件进行数字形式的标识,获得已被标识的多个音频文件,并将已被标识的多个音频文件作为上级音频文件;
S102、针对每个上级音频文件,以上级音频文件中每一卷或章节为标准,对每个上级音频文件进行分段,获得多个分段后的子音频文件;
S103、将所述子音频文件按照卷、品或章节的顺序进行数字或字母标识,获得已按序标识的多个子音频文件;
S104、将已按序标识的多个子音频文件以上级音频文件为一个单位进行存储,获得与所述上级音频文件对应的,包含已按序标识的多个子音频文件的音频文件夹。
其中,所述针对每个上级音频文件,以上级音频文件中每一卷或章节为标准,对每个上级音频文件进行分段,获得多个分段后的子音频文件,包括:
S1021、提取每个上级音频文件中有关卷、品或章节短语,例如“第一品、第二品……”、“卷一、卷二……”“第一卷、第二卷……”、“上卷”“中卷”和“下卷”、“第一章、第二章……”等;并记录出现有关卷、品或章节短语的起始时间点;
S1022、按照起始时间点,设置音频分段起始时间点和终止时间点;
S1023、根据音频分段起始时间点和终止时间点对每个上级音频文件进行音频分段,获得多个分段后的子音频文件。
S1024、音频分段的起始时间点和终止时间点通过如下公式获取:
Figure BDA0002844216930000071
Figure BDA0002844216930000072
其中,Ts表示第i个音频分段的起始时间点,Ti+1表示第i+1个音有关卷、品或章节短语的起始时间点;Ti表示第i个有关卷、品或章节短语的起始时间点;Tz表示上级音频文件总时长;Th表示第i个音频分段的终止时间点;α为第一时间调整系数,α的取值范围为0.21-0.27;β为第二时间调整系数,β的取值范围为0.17-0.25。
上述技术方案的效果为:通过上述对音频文件进行分段,能够有效提高音频分段的准确性和分段效率,同时,通过音频分段的起始时间点和终止时间点的设置能够避免在音频分段过程中出现分段时间确定错误导致的对经文播放部分进行分割,导致音频分段出错的问题发生。同时,通过上述公式获取的音频分段起始时间点和终止时间点,不仅能够安全避免音频分割出错,并且能够提高分割时间与人声播放之间的间隔时间长度的合理性,极大程度上提高听觉舒适度。
本发明的一个实施例,所述方法还包括:利用每个音频分段的终止时间和每个音频分段按序的下一个音频分段的起始时间生成连接校验码,并利用所述连接校验码进行子音频文件顺序校验,包括:
步骤1、获取子音频分段的终止时间和所述音频分段按序的下一个音频分段的起始时间;
步骤2、利用所述音频分段的终止时间和所述音频分段按序的下一个子音频文件的起始时间生成连接校验码,并将所述连接校验码分别嵌入子音频文件的结尾处和所述子音频文件按序的下一个子音频文件的起始处;其中,通过如下公式获取连接校验码:
Figure BDA0002844216930000073
其中,H表示连接校验码,Ch表示当前音频分段的终止时间的秒级时间部分对应的两位数数字;Cs表示当前音频分段的按序的下一个音频分段的起始时间的秒级时间部分对应的两位数数字;S1表示第一随机数,所述第一随机数为一个三位随机数,第一位随机数为1-5的任意数字,第二位随机数为0-9的任意数字,第三位随机数为1-7的任意数字;S2表示第二随机数,所述第二随机数为一个两位随机数,第一位随机数为1-5的任意数字,第二位随机数为0-9的任意数字;
步骤3、在识别到与所述语音指令语句相符合的语句,以当前子音频文件为基础进行按序播放子音频文件时,当识别到进入下一段的语义指令时,在已按序标识的多个子音频文件中按照标识顺序提取当前子音频文件对应的下一段子音频文件,并将所述下一段子音频文件作为目标播放音频;
步骤4、提取所述目标播放音频起始处的连接校验码,并判断所述目标播放音频起始处的连接校验码是否与当前子音频文件结尾处的连接校验码一致,如果一致,则对目标播放音频进行播放;
步骤5、当所述目标播放音频起始处的连接校验码与当前子音频文件结尾处的连接校验码不一致时,对存储所述当前子音频文件的单位内的所有子音频文件依次进行起始处的连接校验码扫描,获取与所述当前子音频文件的结尾处的连接校验码一致的子音频文件,并进行播放。
上述技术方案的效果为:通过上述方式能够有效提高各音频分段播放顺序的准确性,避免由于播放器系统出现系统错误导致子音频文件命名或标识出现乱发情况下,语音控制音频播放出现乱序的情况发生,同时,通过上述公式获取的连接校验码能够有效提高个子音频文件的校验码唯一性,防止校验码重复生产导致音频关联出现混乱和错误的问题发生。进一步提高了音频按序播放的准确性。
本发明的实施例提出了一种语音控制播经系统,如图2所示,所述语音控制播经系统包括:
分段模块,用于对每个音频进行标识,并且将每个已完成标识的音频进行分段,获得多个音频片段;
语音控制模块,用于设置语音指令语句,当识别到与所述语音指令语句相符合的语句时,将所述语音指令语句转换为数字信号,控制音频播放。其中,所述语音指令语句包括“上一段”和“下一段”。
上述技术方案的工作原理为:首先,通过分段模块对每个音频进行标识,并且将每个已完成标识的音频进行分段,获得多个音频片段;然后,通过语音控制模块设置语音指令语句,当识别到与所述语音指令语句相符合的语句时,将所述语音指令语句转换为数字信号,控制音频播放。其中,所述语音指令语句包括“上一段”和“下一段”。
上述技术方案的效果为:能够有效提高播经机控制的方便性,尤其针对老年人群体,由于老年人视力情况不佳,手动操作按钮的方式控制播经机常常出现操作失误,重复操作的问题,费时费力。通过本发明提出的语音控制播经方法和系统能够有效提高播经机控制的准确度和控制效率,同时,能够在最快的时间内查找到对应音频,有效减少音频查找时间。极大程度上提升用户的体验,降低项目的综合成本。
本发明的一个实施例,所述分段模块包括:
一级标识模块,用于按照音频文件的个数,对每个音频文件进行数字形式的标识,获得已被标识的多个音频文件,并将已被标识的多个音频文件作为上级音频文件;
子音频文件获取模块,用于针对每个上级音频文件,以上级音频文件中每一卷或章节为标准,对每个上级音频文件进行分段,获得多个分段后的子音频文件;
二级标识模块,用于将所述子音频文件按照卷、品或章节的顺序进行数字或字母标识,获得已按序标识的多个子音频文件;
存储模块,用于将已按序标识的多个子音频文件以上级音频文件为一个单位进行存储,获得与所述上级音频文件对应的,包含已按序标识的多个子音频文件的音频文件夹。
其中,所述子音频文件获取模块包括:
提取模块,用于提取每个上级音频文件中有关卷、品或章节短语,例如“第一品、第二品……”、“卷一、卷二……”“第一卷、第二卷……”、“上卷”“中卷”和“下卷”、“第一章、第二章……”等;并记录出现有关卷、品或章节短语的起始时间点;
设置模块,用于按照起始时间点,设置音频分段起始时间点和终止时间点;
音频分段模块,用于根据音频分段起始时间点和终止时间点对每个上级音频文件进行音频分段,获得多个分段后的子音频文件。
其中,音频分段的起始时间点和终止时间点通过如下公式获取:
Figure BDA0002844216930000091
Figure BDA0002844216930000092
其中,Ts表示第i个音频分段的起始时间点,Ti+1表示第i+1个音有关卷、品或章节短语的起始时间点;Ti表示第i个有关卷、品或章节短语的起始时间点;Tz表示上级音频文件总时长;Th表示第i个音频分段的终止时间点;α为第一时间调整系数,α的取值范围为0.21-0.27;β为第二时间调整系数,β的取值范围为0.17-0.25。
上述技术方案的工作原理为:首先,采用一级标识模块按照音频文件的个数,对每个音频文件进行数字形式的标识,获得已被标识的多个音频文件,并将已被标识的多个音频文件作为上级音频文件;然后,利用子音频文件获取模块针对每个上级音频文件,以上级音频文件中每一卷或章节为标准,对每个上级音频文件进行分段,获得多个分段后的子音频文件;之后,采用二级标识模块将所述子音频文件按照卷、品或章节的顺序进行数字或字母标识,获得已按序标识的多个子音频文件;最后,通过存储模块将已按序标识的多个子音频文件以上级音频文件为一个单位进行存储,获得与所述上级音频文件对应的,包含已按序标识的多个子音频文件的音频文件夹。
其中,所述子音频文件获取模块的运行过程包括:
首先,采用提取模块提取每个上级音频文件中有关卷、品或章节短语,例如“第一品、第二品……”、“卷一、卷二……”“第一卷、第二卷……”、“上卷”“中卷”和“下卷”、“第一章、第二章……”等;并记录出现有关卷、品或章节短语的起始时间点;然后,利用设置模块按照起始时间点,设置音频分段起始时间点和终止时间点;最后,采用音频分段模块根据音频分段起始时间点和终止时间点对每个上级音频文件进行音频分段,获得多个分段后的子音频文件。
本发明的一个实施例,所述系统还包括:校验模块,用于利用每个音频分段的终止时间和每个音频分段按序的下一个音频分段的起始时间生成连接校验码,并利用所述连接校验码进行子音频文件顺序校验,包括:
时间获取模块,用于获取子音频分段的终止时间和所述音频分段按序的下一个音频分段的起始时间;
校验码获取模块,用于利用所述音频分段的终止时间和所述音频分段按序的下一个子音频文件的起始时间生成连接校验码,并将所述连接校验码分别嵌入子音频文件的结尾处和所述子音频文件按序的下一个子音频文件的起始处;其中,通过如下公式获取连接校验码:
Figure BDA0002844216930000101
其中,H表示连接校验码,Ch表示当前音频分段的终止时间的秒级时间部分对应的两位数数字;Cs表示当前音频分段的按序的下一个音频分段的起始时间的秒级时间部分对应的两位数数字;S1表示第一随机数,所述第一随机数为一个三位随机数,第一位随机数为1-5的任意数字,第二位随机数为0-9的任意数字,第三位随机数为1-7的任意数字;S2表示第二随机数,所述第二随机数为一个两位随机数,第一位随机数为1-5的任意数字,第二位随机数为0-9的任意数字;
识别模块,用于在识别到与所述语音指令语句相符合的语句,以当前子音频文件为基础进行按序播放子音频文件时,当识别到进入下一段的语义指令时,在已按序标识的多个子音频文件中按照标识顺序提取当前子音频文件对应的下一段子音频文件,并将所述下一段子音频文件作为目标播放音频;
校验码提取模块,用于提取所述目标播放音频起始处的连接校验码,并判断所述目标播放音频起始处的连接校验码是否与当前子音频文件结尾处的连接校验码一致,如果一致,则对目标播放音频进行播放;
播放音频调整模块,用于当所述目标播放音频起始处的连接校验码与当前子音频文件结尾处的连接校验码不一致时,对存储所述当前子音频文件的单位内的所有子音频文件依次进行起始处的连接校验码扫描,获取与所述当前子音频文件的结尾处的连接校验码一致的子音频文件,并进行播放。
上述技术方案的工作原理为:
所述系统还包括:校验模块,用于利用每个音频分段的终止时间和每个音频分段按序的下一个音频分段的起始时间生成连接校验码,并利用所述连接校验码进行子音频文件顺序校验,包括:
首先,采用时间获取模块获取子音频分段的终止时间和所述音频分段按序的下一个音频分段的起始时间;
然后,通过校验码获取模块利用所述音频分段的终止时间和所述音频分段按序的下一个子音频文件的起始时间生成连接校验码,并将所述连接校验码分别嵌入子音频文件的结尾处和所述子音频文件按序的下一个子音频文件的起始处;其中,通过如下公式获取连接校验码:
Figure BDA0002844216930000111
其中,H表示连接校验码,Ch表示当前音频分段的终止时间的秒级时间部分对应的两位数数字;Cs表示当前音频分段的按序的下一个音频分段的起始时间的秒级时间部分对应的两位数数字;S1表示第一随机数,所述第一随机数为一个三位随机数,第一位随机数为1-5的任意数字,第二位随机数为0-9的任意数字,第三位随机数为1-7的任意数字;S2表示第二随机数,所述第二随机数为一个两位随机数,第一位随机数为1-5的任意数字,第二位随机数为0-9的任意数字;
之后,采用识别模块在识别到与所述语音指令语句相符合的语句,以当前子音频文件为基础进行按序播放子音频文件时,当识别到进入下一段的语义指令时,在已按序标识的多个子音频文件中按照标识顺序提取当前子音频文件对应的下一段子音频文件,并将所述下一段子音频文件作为目标播放音频;
随后,利用校验码提取模块提取所述目标播放音频起始处的连接校验码,并判断所述目标播放音频起始处的连接校验码是否与当前子音频文件结尾处的连接校验码一致,如果一致,则对目标播放音频进行播放;
最后,通过播放音频调整模块在所述目标播放音频起始处的连接校验码与当前子音频文件结尾处的连接校验码不一致时,对存储所述当前子音频文件的单位内的所有子音频文件依次进行起始处的连接校验码扫描,获取与所述当前子音频文件的结尾处的连接校验码一致的子音频文件,并进行播放。
上述技术方案的效果为:通过上述方式能够有效提高各音频分段播放顺序的准确性,避免由于播放器系统出现系统错误导致子音频文件命名或标识出现乱发情况下,语音控制音频播放出现乱序的情况发生,同时,通过上述公式获取的连接校验码能够有效提高个子音频文件的校验码唯一性,防止校验码重复生产导致音频关联出现混乱和错误的问题发生。进一步提高了音频按序播放的准确性。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (10)

1.一种语音控制播经方法,其特征在于,所述语音控制播经方法包括:
对每个音频进行标识,并且将每个已完成标识的音频进行分段,获得多个音频片段;
设置语音指令语句,当识别到与所述语音指令语句相符合的语句时,将所述语音指令语句转换为数字信号,控制音频播放。
2.根据权利要求1所述语音控制播经方法,其特征在于,所述对每个音频进行标识,并且将每个已完成标识的音频进行分段,获得多个音频片段,包括:
按照音频文件的个数,对每个音频文件进行数字形式的标识,获得已被标识的多个音频文件,并将已被标识的多个音频文件作为上级音频文件;
针对每个上级音频文件,以上级音频文件中每一卷或章节为标准,对每个上级音频文件进行分段,获得多个分段后的子音频文件;
将所述子音频文件按照卷、品或章节的顺序进行数字或字母标识,获得已按序标识的多个子音频文件;
将已按序标识的多个子音频文件以上级音频文件为一个单位进行存储,获得与所述上级音频文件对应的,包含已按序标识的多个子音频文件的音频文件夹。
3.根据权利要求2所述语音控制播经方法,其特征在于,所述针对每个上级音频文件,以上级音频文件中每一卷或章节为标准,对每个上级音频文件进行分段,获得多个分段后的子音频文件,包括:
提取每个上级音频文件中有关卷、品或章节短语,并记录出现有关卷、品或章节短语的起始时间点;
按照起始时间点,设置音频分段起始时间点和终止时间点;
根据音频分段起始时间点和终止时间点对每个上级音频文件进行音频分段,获得多个分段后的子音频文件。
4.根据权利要求3所述语音控制播经方法,其特征在于,其中,音频分段的起始时间点和终止时间点通过如下公式获取:
Figure FDA0002844216920000011
Figure FDA0002844216920000012
其中,Ts表示第i个音频分段的起始时间点,Ti+1表示第i+1个音有关卷、品或章节短语的起始时间点;Ti表示第i个有关卷、品或章节短语的起始时间点;Tz表示上级音频文件总时长;Th表示第i个音频分段的终止时间点;α为第一时间调整系数,α的取值范围为0.21-0.27;β为第二时间调整系数,β的取值范围为0.17-0.25。
5.根据权利要求1所述语音控制播经方法,其特征在于,所述方法还包括:利用每个音频分段的终止时间和每个音频分段按序的下一个音频分段的起始时间生成连接校验码,并利用所述连接校验码进行子音频文件顺序校验,包括:
获取子音频分段的终止时间和所述音频分段按序的下一个音频分段的起始时间;
利用所述音频分段的终止时间和所述音频分段按序的下一个子音频文件的起始时间生成连接校验码,并将所述连接校验码分别嵌入子音频文件的结尾处和所述子音频文件按序的下一个子音频文件的起始处;其中,通过如下公式获取连接校验码:
Figure FDA0002844216920000021
其中,H表示连接校验码,Ch表示当前音频分段的终止时间的秒级时间部分对应的两位数数字;Cs表示当前音频分段的按序的下一个音频分段的起始时间的秒级时间部分对应的两位数数字;S1表示第一随机数,所述第一随机数为一个三位随机数,第一位随机数为1-5的任意数字,第二位随机数为0-9的任意数字,第三位随机数为1-7的任意数字;S2表示第二随机数,所述第二随机数为一个两位随机数,第一位随机数为1-5的任意数字,第二位随机数为0-9的任意数字;
在识别到与所述语音指令语句相符合的语句,以当前子音频文件为基础进行按序播放子音频文件时,当识别到进入下一段的语义指令时,在已按序标识的多个子音频文件中按照标识顺序提取当前子音频文件对应的下一段子音频文件,并将所述下一段子音频文件作为目标播放音频;
提取所述目标播放音频起始处的连接校验码,并判断所述目标播放音频起始处的连接校验码是否与当前子音频文件结尾处的连接校验码一致,如果一致,则对目标播放音频进行播放;
当所述目标播放音频起始处的连接校验码与当前子音频文件结尾处的连接校验码不一致时,对存储所述当前子音频文件的单位内的所有子音频文件依次进行起始处的连接校验码扫描,获取与所述当前子音频文件的结尾处的连接校验码一致的子音频文件,并进行播放。
6.一种语音控制播经系统,其特征在于,所述语音控制播经系统包括:
分段模块,用于对每个音频进行标识,并且将每个已完成标识的音频进行分段,获得多个音频片段;
语音控制模块,用于设置语音指令语句,当识别到与所述语音指令语句相符合的语句时,将所述语音指令语句转换为数字信号,控制音频播放。
7.根据权利要求6所述语音控制播经系统,其特征在于,所述分段模块包括:
一级标识模块,用于按照音频文件的个数,对每个音频文件进行数字形式的标识,获得已被标识的多个音频文件,并将已被标识的多个音频文件作为上级音频文件;
子音频文件获取模块,用于针对每个上级音频文件,以上级音频文件中每一卷或章节为标准,对每个上级音频文件进行分段,获得多个分段后的子音频文件;
二级标识模块,用于将所述子音频文件按照卷、品或章节的顺序进行数字或字母标识,获得已按序标识的多个子音频文件;
存储模块,用于将已按序标识的多个子音频文件以上级音频文件为一个单位进行存储,获得与所述上级音频文件对应的,包含已按序标识的多个子音频文件的音频文件夹。
8.根据权利要求7所述语音控制播经系统,其特征在于,所述子音频文件获取模块包括:
提取模块,用于提取每个上级音频文件中有关卷、品或章节短语,并记录出现有关卷、品或章节短语的起始时间点;
设置模块,用于按照起始时间点,设置音频分段起始时间点和终止时间点;
音频分段模块,用于根据音频分段起始时间点和终止时间点对每个上级音频文件进行音频分段,获得多个分段后的子音频文件。
9.根据权利要求8所述语音控制播经系统,其特征在于,其中,音频分段的起始时间点和终止时间点通过如下公式获取:
Figure FDA0002844216920000031
Figure FDA0002844216920000032
其中,Ts表示第i个音频分段的起始时间点,Ti+1表示第i+1个音有关卷、品或章节短语的起始时间点;Ti表示第i个有关卷、品或章节短语的起始时间点;Tz表示上级音频文件总时长;Th表示第i个音频分段的终止时间点;α为第一时间调整系数,α的取值范围为0.21-0.27;β为第二时间调整系数,β的取值范围为0.17-0.25。
10.根据权利要求6所述语音控制播经系统,其特征在于,所述系统还包括:校验模块,用于利用每个音频分段的终止时间和每个音频分段按序的下一个音频分段的起始时间生成连接校验码,并利用所述连接校验码进行子音频文件顺序校验,包括:
时间获取模块,用于获取子音频分段的终止时间和所述音频分段按序的下一个音频分段的起始时间;
校验码获取模块,用于利用所述音频分段的终止时间和所述音频分段按序的下一个子音频文件的起始时间生成连接校验码,并将所述连接校验码分别嵌入子音频文件的结尾处和所述子音频文件按序的下一个子音频文件的起始处;其中,通过如下公式获取连接校验码:
Figure FDA0002844216920000041
其中,H表示连接校验码,Ch表示当前音频分段的终止时间的秒级时间部分对应的两位数数字;Cs表示当前音频分段的按序的下一个音频分段的起始时间的秒级时间部分对应的两位数数字;S1表示第一随机数,所述第一随机数为一个三位随机数,第一位随机数为1-5的任意数字,第二位随机数为0-9的任意数字,第三位随机数为1-7的任意数字;S2表示第二随机数,所述第二随机数为一个两位随机数,第一位随机数为1-5的任意数字,第二位随机数为0-9的任意数字;
识别模块,用于在识别到与所述语音指令语句相符合的语句,以当前子音频文件为基础进行按序播放子音频文件时,当识别到进入下一段的语义指令时,在已按序标识的多个子音频文件中按照标识顺序提取当前子音频文件对应的下一段子音频文件,并将所述下一段子音频文件作为目标播放音频;
校验码提取模块,用于提取所述目标播放音频起始处的连接校验码,并判断所述目标播放音频起始处的连接校验码是否与当前子音频文件结尾处的连接校验码一致,如果一致,则对目标播放音频进行播放;
播放音频调整模块,用于当所述目标播放音频起始处的连接校验码与当前子音频文件结尾处的连接校验码不一致时,对存储所述当前子音频文件的单位内的所有子音频文件依次进行起始处的连接校验码扫描,获取与所述当前子音频文件的结尾处的连接校验码一致的子音频文件,并进行播放。
CN202011503205.3A 2020-12-18 2020-12-18 一种语音控制播经方法和系统 Withdrawn CN112530412A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011503205.3A CN112530412A (zh) 2020-12-18 2020-12-18 一种语音控制播经方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011503205.3A CN112530412A (zh) 2020-12-18 2020-12-18 一种语音控制播经方法和系统

Publications (1)

Publication Number Publication Date
CN112530412A true CN112530412A (zh) 2021-03-19

Family

ID=75001546

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011503205.3A Withdrawn CN112530412A (zh) 2020-12-18 2020-12-18 一种语音控制播经方法和系统

Country Status (1)

Country Link
CN (1) CN112530412A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113409781A (zh) * 2021-06-16 2021-09-17 深圳市信息基础设施投资发展有限公司 一种5g智慧杆

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113409781A (zh) * 2021-06-16 2021-09-17 深圳市信息基础设施投资发展有限公司 一种5g智慧杆
CN113409781B (zh) * 2021-06-16 2022-03-04 深圳市信息基础设施投资发展有限公司 一种5g智慧杆

Similar Documents

Publication Publication Date Title
US6978238B2 (en) Method and system for identifying a user by voice
CN109410664B (zh) 一种发音纠正方法及电子设备
CN101326572B (zh) 具有巨大词汇量的语音识别系统
US20050033575A1 (en) Operating method for an automated language recognizer intended for the speaker-independent language recognition of words in different languages and automated language recognizer
WO2009101837A1 (ja) 記号挿入装置および記号挿入方法
JP5787780B2 (ja) 書き起こし支援システムおよび書き起こし支援方法
JPS603699A (ja) 適応性自動離散音声認識方法
CN110880316A (zh) 一种音频的输出方法和系统
CN108305611B (zh) 文本转语音的方法、装置、存储介质和计算机设备
KR19980070329A (ko) 사용자 정의 문구의 화자 독립 인식을 위한 방법 및 시스템
CN110781649B (zh) 一种字幕编辑方法、装置及计算机存储介质、电子设备
CN107451131A (zh) 一种语音识别方法及装置
CN110691258A (zh) 一种节目素材制作方法、装置及计算机存储介质、电子设备
CN112530412A (zh) 一种语音控制播经方法和系统
CN102136001B (zh) 一种多媒体信息模糊检索方法
TW495737B (en) Verbal utterance rejection using a labeller with grammatical constraints
CN112447182A (zh) 一种自动修音系统及修音方法
WO2007105615A1 (ja) 要求内容識別システム、自然言語による要求内容の識別方法及びプログラム
WO2023274028A1 (zh) 声纹锁控制方法、装置、电子设备
JPH11231895A (ja) 音声認識方法及びその装置
JP6849977B2 (ja) テキスト表示用同期情報生成装置および方法並びに音声認識装置および方法
Schuller et al. Incremental acoustic valence recognition: an inter-corpus perspective on features, matching, and performance in a gating paradigm
JP3830588B2 (ja) 字幕スーパー・タイミング発生装置ならびに字幕スーパー処理装置
CN112420054A (zh) 一种基于说话人向量复用的语音识别系统及方法
CN113763920A (zh) 空调器及其语音生成方法、语音生成装置和可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20210319

WW01 Invention patent application withdrawn after publication