CN116052683B - 一种平板电脑上离线语音录入的数据采集方法 - Google Patents

一种平板电脑上离线语音录入的数据采集方法 Download PDF

Info

Publication number
CN116052683B
CN116052683B CN202310334121.9A CN202310334121A CN116052683B CN 116052683 B CN116052683 B CN 116052683B CN 202310334121 A CN202310334121 A CN 202310334121A CN 116052683 B CN116052683 B CN 116052683B
Authority
CN
China
Prior art keywords
text
time
audio
user
acquiring
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310334121.9A
Other languages
English (en)
Other versions
CN116052683A (zh
Inventor
杨波
谭方亮
王小莉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhongke Yuchen Technology Co Ltd
Original Assignee
Zhongke Yuchen Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhongke Yuchen Technology Co Ltd filed Critical Zhongke Yuchen Technology Co Ltd
Priority to CN202310334121.9A priority Critical patent/CN116052683B/zh
Publication of CN116052683A publication Critical patent/CN116052683A/zh
Application granted granted Critical
Publication of CN116052683B publication Critical patent/CN116052683B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Character Discrimination (AREA)

Abstract

本发明涉及语音识别技术领域,特别是涉及一种平板电脑上离线语音录入的数据采集方法。所述方法包括:S100,在第n采集时间获取用户录入的Tn内的音频Vn,Tn=[tn‑1,tn];S200,使用语音识别模型获取Vn对应的文本textn,并在平板电脑的用户界面上显示textn;S300,在第n+1采集时间获取用户录入的Tn+1内的音频Vn+1;S400,使用语音识别模型获取[Vn‑1,Vn,Vn+1]对应的文本textn‑1,n,n+1,如果text’n≠textn,则将用户界面上显示的textn替换为text’n。本发明提高了数据采集的效率,提升了用户对数据采集系统的体验感。

Description

一种平板电脑上离线语音录入的数据采集方法
技术领域
本发明涉及语音识别技术领域,特别是涉及一种平板电脑上离线语音录入的数据采集方法。
背景技术
为了保证数据采集的安全性,一些应用场景下数据采集系统所在的平板电脑没有联网,也即处于离线状态。但是,平板电脑的输入方式不太便捷,用户通过手动输入数据的方式的效率较低,用户体验差。如何在平板电脑处于离线状态下实现数据采集系统的语音录入功能,以提高数据采集的效率和提升用户对数据采集系统的体验感,是亟待解决的问题。
发明内容
本发明的目的在于提供一种平板电脑上离线语音录入的数据采集方法,用于在平板电脑处于离线状态下实现数据采集系统的语音录入功能,以提高数据采集的效率和提升用户对数据采集系统的体验感。
根据本发明,一种平板电脑上离线语音录入的数据采集方法,包括以下步骤:
S100,在第n采集时间获取用户录入的Tn内的音频Vn,Tn为第n个时间段,Tn=[tn-1,tn],tn=tn-1+ΔT,tn-1为Tn对应的开始时间,tn为Tn对应的结束时间,ΔT为预设的时间间隔;所述第n采集时间大于tn且小于tn+ΔT,2≤n≤M-1,M为根据ΔT对用户录入的音频进行分段得到的音频数量,M=roundup(T’/ΔT),T’为用户录入音频的总时长,roundup( )为向上取整。
S200,使用语音识别模型获取Vn对应的文本textn,并在平板电脑的用户界面上显示textn,所述语音识别模型预先存储在所述平板电脑的内存中,所述平板电脑处于离线状态。
S300,在第n+1采集时间获取用户录入的Tn+1内的音频Vn+1,Tn+1为第n+1个时间段,Tn+1=[tn,tn+1],tn+1为Tn+1对应的结束时间,当tn+1<tM时,tn+1=tn+ΔT,tM为用户停止录入的时间;当tn+1=tM时,tn+1-tn≤ΔT;所述第n+1采集时间大于tn+1且小于tn+1+ΔT。
S400,使用语音识别模型获取第n组合音频[Vn-1,Vn,Vn+1]对应的第n组合文本textn-1,n,n+1,如果textn-1,n,n+1中Vn对应的文本text’n≠textn,则将用户界面上显示的textn替换为text’n;Vn-1为在第n-1采集时间获取的用户录入的Tn-1内的音频,Tn-1为第n-1个时间段,Tn-1=[tn-2,tn-1],tn-1=tn-2+ΔT,tn-2为Tn-1对应的开始时间,t0为用户开始录入音频的时间,所述第n-1采集时间大于tn-1且小于tn
本发明至少具有以下有益效果:
本发明应用于离线语音录入场景,在用户开始录入语音后,每获取ΔT时间长度的音频都进行一次输入(即输入到语音识别模型),由于ΔT时间长度的音频相对较短,因此语音识别模型处理的速度较快,且在用户语音录入的过程中语音识别模型能够同时处理已输入的音频,因此,用户在录入完成后的较短时间就可以看到整个音频对应的文本,对用户而言,语音识别模型的处理效率较高,用户感受好。
本发明利用ΔT将用户录入的音频进行了分段,除了最后一段音频,其他每段的音频长度为ΔT;为了解决使用语音识别模型对ΔT音频长度的分段音频进行识别时可能存在的识别不准确的问题,本发明还结合每段音频对应的前段音频和后段音频进行修正,即将以待修正的音频为中心的共3*ΔT时间长度的音频输入到语音识别模型,以校正语音识别模型对ΔT时间长度的音频的输出不准确的情况,提高本发明数据采集的准确性,提高用户的体验感。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种平板电脑上离线语音录入的数据采集方法的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
根据本发明,提供一种平板电脑上离线语音录入的数据采集方法,如图1所示,包括:
S100,在第n采集时间获取用户录入的Tn内的音频Vn,Tn为第n个时间段,Tn=[tn-1,tn],tn=tn-1+ΔT,tn-1为Tn对应的开始时间,tn为Tn对应的结束时间,ΔT为预设的时间间隔;所述第n采集时间大于tn且小于tn+ΔT,2≤n≤M-1,M为根据ΔT对用户录入的音频进行分段得到的音频数量,M=roundup(T’/ΔT),T’为用户录入音频的总时长,roundup( )为向上取整。
本发明中音频格式为wav,wav是现有技术中的一种标准的声音文件格式,此处不再赘述。
作为一种可选的实施例,设置ΔT满足:200ms≤ΔT≤500ms。
作为一种优选的可提高textn准确率的实施例,ΔT的获取方法包括:
S110,获取样本用户录入样本文本的样本音频A,A={a1,a2,…,aq,…,aQ},aq为第q个样本用户录入样本文本的样本音频,q的取值范围为1到Q,Q为样本用户的数量。
根据本发明,所述样本文本为预设的文本。优选的,所述样本用户为实际应用场景中进行语音录入的用户,所述样本文本为实际应用场景中用户录入频次较高的文本。
S120,遍历A,使用第一预设时长b1对aq进行切割,得到样本子音频集合Cq;Cq=(c1 q,1,c1 q,2,…, c1 q,g,…,c1 q,G),c1 q,g为使用第一预设时长b1对aq切割得到的第g段样本子音频,g的取值范围为1到G,G为使用第一预设时长b1对aq切割得到的样本子音频数量。
应当理解的是,如果aq对应的时长为b1的整数倍,那么使用第一预设时长b1对aq进行切割得到的各段样本子音频的长度均为b1;如果aq对应的时长不为b1的整数倍,那么使用第一预设时长b1对aq进行切割得到的前(G-1)段样本子音频的长度均为b1,最后一段样本子音频的长度小于b1
S130,遍历A和Cq,使用语音识别模型获取c1 q,g对应的文本w1 q,g,如果样本文本中w1 q,g对应的文本与w1 q,g相同,则将第一预设值追加到D,D的初始化为Null;否则,将第二预设值追加到D。
根据本发明,样本文本中w1 q,g对应的文本为样本文本中第y1个字到第y2个字之间的文本(包括样本文本中的第y1个字和第y2个字),其中,y1=floor(Y*(g-1)/G),floor( )为向下取整,Y为样本文本包括的字的数量;y2=ceil(Y*g/G),ceil( )为向上取整。需要说明的是,如果获取的y1=0,则更新y1为1。可选的,根据用户的经验设置样本文本。
S140,遍历A,获取使用第一预设时长b1对aq进行切割的准确率L1 q,L1 q=s1/G,s1为D中第一预设值的数量。
根据本发明,s1越大,使用第一预设时长b1对aq进行切割的准确率越高。
S150,获取使用第一预设时长b1进行切割的平均准确率L1,L1=(∑Q q=1L1 q)/Q。
S160,如果L1大于等于预设准确率阈值,则获取ΔT为第一预设时长b1
根据本发明,如果L1小于预设准确率阈值,则获取使用第二预设时长b2进行切割的平均准确率L2,如果L2大于等于预设准确率阈值,则获取ΔT为第二预设时长b2;如果L2小于预设准确率阈值,则使用第三预设时长b3进行切割的平均准确率L3;如果L3大于等于预设准确率阈值,则获取ΔT为第三预设时长b3;b2=b1+Δb,b3=b1+2*Δb,Δb为预设时间步长。
本发明获取L2与L3的方法与获取L1的方法的过程类似,此处不再赘述。根据本发明,如果L3小于预设准确率阈值,则还需获取使用第四预设时长b4进行切割的平均准确率L4,以此类推,直至得到的平均准确率能够满足大于等于预设准确率阈值的终止条件。其中,b3=b1+3*Δb。
优选的,Δb≤50ms。由此可获取较为准确的ΔT,有利于提高本发明数据采集的准确性。
S200,使用语音识别模型获取Vn对应的文本textn,并在平板电脑的用户界面上显示textn,所述语音识别模型预先存储在所述平板电脑的内存中,所述平板电脑处于离线状态。
作为一个实施例,在所述平板电脑上的用户界面上的第一区域设置有用于选择语音录入的图标和一些其他的录入方式的图标,比如采集图像的图标或扫码的图标等;如果用户点击语音录入的按钮,那么在所述平板电脑的用户界面上的第二区域显示开始录入的图标;如果用户点击开始录入的图标,那么所述开始录入的图标将转变为停止录入的图标;如果用户点击停止录入的图标,意味着用户完成语音输入。在用户点击开始录入的图标后,本发明以ΔT对用户录入的音频进行划分,并每获取ΔT时间长度的音频后就将该ΔT时间长度的音频输入到语音识别模型进行语音识别,第一个输入到语音识别模型的是t0至t0+ΔT之间的音频,第二个输入到语音识别模型的是t0+ΔT至t0+2*ΔT之间的音频,以此类推,直至用户点击停止录入的图标。应当理解的是,最后一次输入到语音识别模型的音频对应的时间长度小于等于ΔT。
本领域技术人员知悉,现有技术中任何的语音识别模型均落入本发明的保护范围。可选的,所述语音识别模型为yamnet.tflite。
S300,在第n+1采集时间获取用户录入的Tn+1内的音频Vn+1,Tn+1为第n+1个时间段,Tn+1=[tn,tn+1],tn+1为Tn+1对应的结束时间,当tn+1<tM时,tn+1=tn+ΔT,tM为用户停止录入的时间;当tn+1=tM时,tn+1-tn≤ΔT;所述第n+1采集时间大于tn+1且小于tn+1+ΔT。
S400,使用语音识别模型获取第n组合音频[Vn-1,Vn,Vn+1]对应的第n组合文本textn-1,n,n+1,如果textn-1,n,n+1中Vn对应的文本text’n≠textn,则将用户界面上显示的textn替换为text’n;Vn-1为在第n-1采集时间获取的用户录入的Tn-1内的音频,Tn-1为第n-1个时间段,Tn-1=[tn-2,tn-1],tn-1=tn-2+ΔT,tn-2为Tn-1对应的开始时间,t0为用户开始录入音频的时间,所述第n-1采集时间大于tn-1且小于tn
根据本发明,如果textn-1,n,n+1由3部分组成,依次为Vn-1对应的文本、Vn对应的文本和Vn+1对应的文本;textn-1,n,n+1包括的文字数量为Vn-1、Vn和Vn+1对应的文字数量之和。如果使用语音识别模型获取的Vn-1对应的文本textn-1包括Nn-1个文字,使用语音识别模型获取的Vn对应的文本textn包括Nn个文字,使用语音识别模型获取的Vn+1对应的文本textn+1包括Nn+1个文字,那么判断text’n是否等于textn的方法包括:将textn-1,n,n+1中第Nn-1+1个文字与textn中第1个文字进行比较,将textn-1,n,n+1中第Nn-1+2个文字与textn中第2个文字进行比较,以此类推,直至将textn-1,n,n+1中第Nn-1+N2个文字与textn中第N2个文字进行比较。如果比较结果均为相等,则text’n等于textn;否则,text’n不等于textn
根据本发明,如果textn-1,n,n+1中Vn对应的文本text’n=textn,则不对用户界面上显示的textn进行替换。
本发明的平板电脑上离线语音录入的数据采集方法,还包括以下步骤:
S001,在第1采集时间获取用户录入的T1内的音频V1,T1为第1个时间段,T1=[t0,t1],t1=t0+ΔT,t1为T1对应的结束时间;所述第1采集时间大于t1且小于t1+ΔT。
S002,使用语音识别模型获取V1对应的文本text1,并在平板电脑的用户界面上进行显示。
S003,使用语音识别模型获取第1组合音频[V1,V2]对应的第1组合文本text1,2,如果text1,2中V1对应的文本text’1≠text1,则将用户界面上显示的text1替换为text’1;V2为在第2采集时间获取的用户录入的T2内的音频,T2为第2个时间段,T2=[t1,t2],t2=t1+ΔT,t2为T2对应的结束时间。
根据本发明,如果text1,2由2部分组成,依次为V1对应的文本和V2对应的文本;text1,2包括的文字数量为V1和V2对应的文字数量之和。如果使用语音识别模型获取的V1对应的文本text1包括N1个文字,使用语音识别模型获取的V2对应的文本text2包括N2个文字,那么判断text’1是否等于text1的方法包括:将text1,2中第1个文字与text1中第1个文字进行比较,将text1,2中第2个文字与text1中第2个文字进行比较,以此类推,直至将text1,2中第N1个文字与textn中第N1个文字进行比较。如果比较结果均为相等,则text’1等于text1;否则,text’1不等于text1
作为一个实施例,使用语音识别模型获取V1对应的文本text1为三围,使用语音识别模型获取[V1,V2]对应的文本text1,2为三维模型,text1,2中V1对应的文本text’1为三维,三围不等于三维,那么将用户界面上显示的三围替换为三维。
本发明的平板电脑上离线语音录入的数据采集方法,还包括以下步骤:
S500,在第M采集时间获取用户录入的TM内的音频VM,TM=[tM-1,tM],TM为第M个时间段,tM-1为TM对应的开始时间,tM-1=t0+ΔT*(M-1)。
S600,获取第M组合音频[VM-1,VM]对应的第M组合文本textM-1,M,并将textM-1,M中VM对应的文本在所述平板电脑的用户界面上进行显示,VM-1为在第M-1采集时间获取的用户录入的TM-1内的音频,TM-1为第M-1个时间段,TM-1=[tM-2,tM-1],tM-1=tM-2+ΔT,tM-2=t0+ΔT*(M-2),tM-2为TM-1对应的开始时间,tM-1为TM-1对应的结束时间,第M-1采集时间大于tM-1且小于tM-1+ΔT。
根据本发明,如果S500和S600之间还包括使用语音识别模型获取VM对应的文本textM,并在平板电脑的用户界面上显示textM的步骤,那么S600中将textM-1,M中VM对应的文本在所述平板电脑的用户界面上进行显示包括:判断textM-1,M中VM对应的文本是否等于textM,如果textM-1,M中VM对应的文本不等于textM,则将用户界面上显示的textM替换为textM-1,M中VM对应的文本;如果textM-1,M中VM对应的文本等于textM,则不对用户界面上显示的textM进行替换。
本发明应用于离线语音录入场景,在用户开始录入语音后,每获取ΔT时间长度的音频都进行一次输入(即输入到语音识别模型),由于ΔT时间长度的音频相对较短,因此语音识别模型处理的速度较快,且在用户语音录入的过程中语音识别模型能够同时处理已输入的音频,因此,用户在录入完成后的较短时间就可以看到整个音频对应的文本,对用户而言,语音识别模型的处理效率较高,用户感受好。
本发明利用ΔT将用户录入的音频进行了分段,除了最后一段音频,其他每段的音频长度为ΔT;为了解决使用语音识别模型对ΔT音频长度的分段音频进行识别时可能存在的识别不准确的问题,本发明还结合每段音频对应的前段音频和后段音频进行修正,即将以待修正的音频为中心的共3*ΔT时间长度的音频输入到语音识别模型,以校正语音识别模型对ΔT时间长度的音频的输出不准确的情况,提高本发明数据采集的准确性,提高用户的体验感。
虽然已经通过示例对本发明的一些特定实施例进行了详细说明,但是本领域的技术人员应该理解,以上示例仅是为了进行说明,而不是为了限制本发明的范围。本领域的技术人员还应理解,可以对实施例进行多种修改而不脱离本发明的范围和精神。本发明的范围由所附权利要求来限定。

Claims (8)

1.一种平板电脑上离线语音录入的数据采集方法,其特征在于,包括以下步骤:
S100,在第n采集时间获取用户录入的Tn内的音频Vn,Tn为第n个时间段,Tn=[tn-1,tn],tn=tn-1+ΔT,tn-1为Tn对应的开始时间,tn为Tn对应的结束时间,ΔT为预设的时间间隔;所述第n采集时间大于tn且小于tn+ΔT,2≤n≤M-1,M为根据ΔT对用户录入的音频进行分段得到的音频数量,M=roundup(T’/ΔT),T’为用户录入音频的总时长,roundup( )为向上取整;
S200,使用语音识别模型获取Vn对应的文本textn,并在平板电脑的用户界面上显示textn,所述语音识别模型预先存储在所述平板电脑的内存中,所述平板电脑处于离线状态;
S300,在第n+1采集时间获取用户录入的Tn+1内的音频Vn+1,Tn+1为第n+1个时间段,Tn+1=[tn,tn+1],tn+1为Tn+1对应的结束时间,当tn+1<tM时,tn+1=tn+ΔT,tM为用户停止录入的时间;当tn+1=tM时,tn+1-tn≤ΔT;所述第n+1采集时间大于tn+1且小于tn+1+ΔT;
S400,使用语音识别模型获取第n组合音频[Vn-1,Vn,Vn+1]对应的第n组合文本textn-1,n,n+1,如果textn-1,n,n+1中Vn对应的文本text’n≠textn,则将用户界面上显示的textn替换为text’n;Vn-1为在第n-1采集时间获取的用户录入的Tn-1内的音频,Tn-1为第n-1个时间段,Tn-1=[tn-2,tn-1],tn-1=tn-2+ΔT,tn-2为Tn-1对应的开始时间,t0为用户开始录入音频的时间,所述第n-1采集时间大于tn-1且小于tn
2.根据权利要求1所述的平板电脑上离线语音录入的数据采集方法,其特征在于,ΔT的获取方法包括:
S110,获取样本用户录入样本文本的样本音频A,A={a1,a2,…,aq,…,aQ},aq为第q个样本用户录入样本文本的样本音频,q的取值范围为1到Q,Q为样本用户的数量;
S120,遍历A,使用第一预设时长b1对aq进行切割,得到样本子音频集合Cq;Cq=(c1 q,1,c1 q,2,…, c1 q,g,…,c1 q,G),c1 q,g为使用第一预设时长b1对aq切割得到的第g段样本子音频,g的取值范围为1到G,G为使用第一预设时长b1对aq切割得到的样本子音频数量;
S130,遍历A和Cq,使用语音识别模型获取c1 q,g对应的文本w1 q,g,如果样本文本中w1 q,g对应的文本与w1 q,g相同,则将第一预设值追加到D,D的初始化为Null;否则,将第二预设值追加到D;
S140,遍历A,获取使用第一预设时长b1对aq进行切割的准确率L1 q,L1 q=s1/G,s1为D中第一预设值的数量;
S150,获取使用第一预设时长b1进行切割的平均准确率L1,L1=(∑Q q=1L1 q)/Q;
S160,如果L1大于等于预设准确率阈值,则获取ΔT为第一预设时长b1
3.根据权利要求2所述的平板电脑上离线语音录入的数据采集方法,其特征在于,S160还包括:如果L1小于预设准确率阈值,则获取使用第二预设时长b2进行切割的平均准确率L2,如果L2大于等于预设准确率阈值,则获取ΔT为第二预设时长b2;如果L2小于预设准确率阈值,则使用第三预设时长b3进行切割的平均准确率L3;如果L3大于等于预设准确率阈值,则获取ΔT为第三预设时长b3;b2=b1+Δb,b3=b1+2*Δb,Δb为预设时间步长。
4.根据权利要求3所述的平板电脑上离线语音录入的数据采集方法,其特征在于,Δb≤50ms。
5.根据权利要求1所述的平板电脑上离线语音录入的数据采集方法,其特征在于,所述方法还包括以下步骤:
S001,在第1采集时间获取用户录入的T1内的音频V1,T1为第1个时间段,T1=[t0,t1],t1=t0+ΔT,t1为T1对应的结束时间;所述第1采集时间大于t1且小于t1+ΔT;
S002,使用语音识别模型获取V1对应的文本text1,并在平板电脑的用户界面上进行显示;
S003,使用语音识别模型获取第1组合音频[V1,V2]对应的第1组合文本text1,2,如果text1,2中V1对应的文本text’1≠text1,则将用户界面上显示的text1替换为text’1;V2为在第2采集时间获取的用户录入的T2内的音频,T2为第2个时间段,T2=[t1,t2],t2=t1+ΔT,t2为T2对应的结束时间。
6.根据权利要求1所述的平板电脑上离线语音录入的数据采集方法,其特征在于,所述方法还包括以下步骤:
S500,在第M采集时间获取用户录入的TM内的音频VM,TM=[tM-1,tM],TM为第M个时间段,tM-1为TM对应的开始时间,tM-1=t0+ΔT*(M-1);
S600,获取第M组合音频[VM-1,VM]对应的第M组合文本textM-1,M,并将textM-1,M中VM对应的文本在所述平板电脑的用户界面上进行显示,VM-1为在第M-1采集时间获取的用户录入的TM-1内的音频,TM-1为第M-1个时间段,TM-1=[tM-2,tM-1],tM-1=tM-2+ΔT,tM-2=t0+ΔT*(M-2) ,tM-2为TM-1对应的开始时间,tM-1为TM-1对应的结束时间,第M-1采集时间大于tM-1且小于tM-1+ΔT。
7.根据权利要求1所述的平板电脑上离线语音录入的数据采集方法,其特征在于,S400中,如果textn-1,n,n+1中Vn对应的文本text’n=textn,则不对用户界面上显示的textn进行替换。
8.根据权利要求1所述的平板电脑上离线语音录入的数据采集方法,其特征在于,所述音频的格式为wav。
CN202310334121.9A 2023-03-31 2023-03-31 一种平板电脑上离线语音录入的数据采集方法 Active CN116052683B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310334121.9A CN116052683B (zh) 2023-03-31 2023-03-31 一种平板电脑上离线语音录入的数据采集方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310334121.9A CN116052683B (zh) 2023-03-31 2023-03-31 一种平板电脑上离线语音录入的数据采集方法

Publications (2)

Publication Number Publication Date
CN116052683A CN116052683A (zh) 2023-05-02
CN116052683B true CN116052683B (zh) 2023-06-13

Family

ID=86113577

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310334121.9A Active CN116052683B (zh) 2023-03-31 2023-03-31 一种平板电脑上离线语音录入的数据采集方法

Country Status (1)

Country Link
CN (1) CN116052683B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8041565B1 (en) * 2007-05-04 2011-10-18 Foneweb, Inc. Precision speech to text conversion
US8543402B1 (en) * 2010-04-30 2013-09-24 The Intellisis Corporation Speaker segmentation in noisy conversational speech
US10147428B1 (en) * 2018-05-30 2018-12-04 Green Key Technologies Llc Computer systems exhibiting improved computer speed and transcription accuracy of automatic speech transcription (AST) based on a multiple speech-to-text engines and methods of use thereof
WO2022100283A1 (zh) * 2020-11-13 2022-05-19 海信视像科技股份有限公司 显示设备、控件触发方法及滚动文本检测方法
WO2022105861A1 (zh) * 2020-11-20 2022-05-27 北京有竹居网络技术有限公司 用于识别语音的方法、装置、电子设备和介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016139670A1 (en) * 2015-03-05 2016-09-09 Vocasee Technologies Ltd System and method for generating accurate speech transcription from natural speech audio signals
US10249292B2 (en) * 2016-12-14 2019-04-02 International Business Machines Corporation Using long short-term memory recurrent neural network for speaker diarization segmentation
US11817080B2 (en) * 2019-09-03 2023-11-14 Google Llc Using corrections, of predicted textual segments of spoken utterances, for training of on-device speech recognition model

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8041565B1 (en) * 2007-05-04 2011-10-18 Foneweb, Inc. Precision speech to text conversion
US8543402B1 (en) * 2010-04-30 2013-09-24 The Intellisis Corporation Speaker segmentation in noisy conversational speech
US10147428B1 (en) * 2018-05-30 2018-12-04 Green Key Technologies Llc Computer systems exhibiting improved computer speed and transcription accuracy of automatic speech transcription (AST) based on a multiple speech-to-text engines and methods of use thereof
WO2022100283A1 (zh) * 2020-11-13 2022-05-19 海信视像科技股份有限公司 显示设备、控件触发方法及滚动文本检测方法
WO2022105861A1 (zh) * 2020-11-20 2022-05-27 北京有竹居网络技术有限公司 用于识别语音的方法、装置、电子设备和介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
电视剧语音识别中的半监督自动语音分割算法;龙艳花;茅红伟;叶宏;;数据采集与处理(第02期);全文 *

Also Published As

Publication number Publication date
CN116052683A (zh) 2023-05-02

Similar Documents

Publication Publication Date Title
CN107053186B (zh) 对话装置、机器人、对话方法以及存储介质
JP6755304B2 (ja) 情報処理装置
JP6968908B2 (ja) コンテキスト取得方法及びコンテキスト取得デバイス
US7711560B2 (en) Speech recognition device and speech recognition method
CN108986830B (zh) 一种音频语料筛选方法及装置
JP4294853B2 (ja) 操作指示装置
JP4546767B2 (ja) 感情推定装置及び感情推定プログラム
JP6585733B2 (ja) 情報処理装置
JP5083033B2 (ja) 感情推定装置及びプログラム
US9330676B2 (en) Determining whether speech interference occurs based on time interval between speech instructions and status of the speech instructions
US6826306B1 (en) System and method for automatic quality assurance of user enrollment in a recognition system
CN116052683B (zh) 一种平板电脑上离线语音录入的数据采集方法
CN112908301A (zh) 一种语音识别方法、装置、存储介质及设备
CN109074809B (zh) 信息处理设备、信息处理方法和计算机可读存储介质
CN109033448B (zh) 一种学习引导方法及家教设备
KR100567828B1 (ko) 향상된 음성인식 장치 및 방법
JP2022043263A (ja) 応対履歴作成支援装置、応対履歴作成支援方法、プログラム、及び表示装置
US6138097A (en) Method of learning in a speech recognition system
CN115150660B (zh) 一种基于字幕的视频编辑方法和相关设备
CN111145748A (zh) 音频识别置信度确定方法、装置、设备及存储介质
JP2002073061A (ja) 音声認識装置及びその方法
JP2005258235A (ja) 感情発話検知による対話修正機能を備えた対話制御装置
JP3624064B2 (ja) 情報処理方法及び装置及び記憶媒体
JP7316971B2 (ja) 会議支援システム、会議支援方法、およびプログラム
JP6248677B2 (ja) 会話補助プログラム、会話補助方法、及び会話システム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant