CN116052683B

CN116052683B - 一种平板电脑上离线语音录入的数据采集方法

Info

Publication number: CN116052683B
Application number: CN202310334121.9A
Authority: CN
Inventors: 杨波; 谭方亮; 王小莉
Original assignee: Zhongke Yuchen Technology Co Ltd
Current assignee: Zhongke Yuchen Technology Co Ltd
Priority date: 2023-03-31
Filing date: 2023-03-31
Publication date: 2023-06-13
Anticipated expiration: 2043-03-31
Also published as: CN116052683A

Abstract

本发明涉及语音识别技术领域，特别是涉及一种平板电脑上离线语音录入的数据采集方法。所述方法包括：S100，在第n采集时间获取用户录入的T_n内的音频V_n，T_n=[t_n‑1,t_n]；S200，使用语音识别模型获取V_n对应的文本text_n，并在平板电脑的用户界面上显示text_n；S300，在第n+1采集时间获取用户录入的T_n+1内的音频V_n+1；S400，使用语音识别模型获取[V_n‑1,V_n,V_n+1]对应的文本text_n‑1,n,n+1，如果text’_n≠text_n，则将用户界面上显示的text_n替换为text’_n。本发明提高了数据采集的效率，提升了用户对数据采集系统的体验感。

Description

一种平板电脑上离线语音录入的数据采集方法

技术领域

本发明涉及语音识别技术领域，特别是涉及一种平板电脑上离线语音录入的数据采集方法。

背景技术

为了保证数据采集的安全性，一些应用场景下数据采集系统所在的平板电脑没有联网，也即处于离线状态。但是，平板电脑的输入方式不太便捷，用户通过手动输入数据的方式的效率较低，用户体验差。如何在平板电脑处于离线状态下实现数据采集系统的语音录入功能，以提高数据采集的效率和提升用户对数据采集系统的体验感，是亟待解决的问题。

发明内容

本发明的目的在于提供一种平板电脑上离线语音录入的数据采集方法，用于在平板电脑处于离线状态下实现数据采集系统的语音录入功能，以提高数据采集的效率和提升用户对数据采集系统的体验感。

根据本发明，一种平板电脑上离线语音录入的数据采集方法，包括以下步骤：

S100，在第n采集时间获取用户录入的T_n内的音频V_n，T_n为第n个时间段，T_n=[t_n-1,t_n]，t_n=t_n-1+ΔT，t_n-1为T_n对应的开始时间，t_n为T_n对应的结束时间，ΔT为预设的时间间隔；所述第n采集时间大于t_n且小于t_n+ΔT，2≤n≤M-1，M为根据ΔT对用户录入的音频进行分段得到的音频数量，M=roundup(T’/ΔT)，T’为用户录入音频的总时长，roundup( )为向上取整。

S200，使用语音识别模型获取V_n对应的文本text_n，并在平板电脑的用户界面上显示text_n，所述语音识别模型预先存储在所述平板电脑的内存中，所述平板电脑处于离线状态。

S300，在第n+1采集时间获取用户录入的T_n+1内的音频V_n+1，T_n+1为第n+1个时间段，T_n+1=[t_n,t_n+1]，t_n+1为T_n+1对应的结束时间，当t_n+1<t_M时，t_n+1=t_n+ΔT，t_M为用户停止录入的时间；当t_n+1=t_M时，t_n+1-t_n≤ΔT；所述第n+1采集时间大于t_n+1且小于t_n+1+ΔT。

S400，使用语音识别模型获取第n组合音频[V_n-1,V_n,V_n+1]对应的第n组合文本text_n-1,n,n+1，如果text_n-1,n,n+1中V_n对应的文本text’_n≠text_n，则将用户界面上显示的text_n替换为text’_n；V_n-1为在第n-1采集时间获取的用户录入的T_n-1内的音频，T_n-1为第n-1个时间段，T_n-1=[t_n-2,t_n-1]，t_n-1=t_n-2+ΔT，t_n-2为T_n-1对应的开始时间，t₀为用户开始录入音频的时间，所述第n-1采集时间大于t_n-1且小于t_n。

本发明至少具有以下有益效果：

本发明应用于离线语音录入场景，在用户开始录入语音后，每获取ΔT时间长度的音频都进行一次输入（即输入到语音识别模型），由于ΔT时间长度的音频相对较短，因此语音识别模型处理的速度较快，且在用户语音录入的过程中语音识别模型能够同时处理已输入的音频，因此，用户在录入完成后的较短时间就可以看到整个音频对应的文本，对用户而言，语音识别模型的处理效率较高，用户感受好。

本发明利用ΔT将用户录入的音频进行了分段，除了最后一段音频，其他每段的音频长度为ΔT；为了解决使用语音识别模型对ΔT音频长度的分段音频进行识别时可能存在的识别不准确的问题，本发明还结合每段音频对应的前段音频和后段音频进行修正，即将以待修正的音频为中心的共3*ΔT时间长度的音频输入到语音识别模型，以校正语音识别模型对ΔT时间长度的音频的输出不准确的情况，提高本发明数据采集的准确性，提高用户的体验感。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种平板电脑上离线语音录入的数据采集方法的流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

根据本发明，提供一种平板电脑上离线语音录入的数据采集方法，如图1所示，包括：

本发明中音频格式为wav，wav是现有技术中的一种标准的声音文件格式，此处不再赘述。

作为一种可选的实施例，设置ΔT满足：200ms≤ΔT≤500ms。

作为一种优选的可提高text_n准确率的实施例，ΔT的获取方法包括：

S110，获取样本用户录入样本文本的样本音频A，A={a₁,a₂,…,a_q,…,a_Q}，a_q为第q个样本用户录入样本文本的样本音频，q的取值范围为1到Q，Q为样本用户的数量。

根据本发明，所述样本文本为预设的文本。优选的，所述样本用户为实际应用场景中进行语音录入的用户，所述样本文本为实际应用场景中用户录入频次较高的文本。

S120，遍历A，使用第一预设时长b₁对a_q进行切割，得到样本子音频集合C_q；C_q=(c¹ _q,1,c¹ _q,2,…, c¹ _q,g,…,c¹ _q,G)，c¹ _q,g为使用第一预设时长b₁对a_q切割得到的第g段样本子音频，g的取值范围为1到G，G为使用第一预设时长b₁对a_q切割得到的样本子音频数量。

应当理解的是，如果a_q对应的时长为b₁的整数倍，那么使用第一预设时长b₁对a_q进行切割得到的各段样本子音频的长度均为b₁；如果a_q对应的时长不为b₁的整数倍，那么使用第一预设时长b₁对a_q进行切割得到的前(G-1)段样本子音频的长度均为b₁，最后一段样本子音频的长度小于b₁。

S130，遍历A和C_q，使用语音识别模型获取c¹ _q,g对应的文本w¹ _q,g，如果样本文本中w¹ _q,g对应的文本与w¹ _q,g相同，则将第一预设值追加到D，D的初始化为Null；否则，将第二预设值追加到D。

根据本发明，样本文本中w¹ _q,g对应的文本为样本文本中第y₁个字到第y₂个字之间的文本（包括样本文本中的第y₁个字和第y₂个字），其中，y₁=floor(Y*(g-1)/G)，floor( )为向下取整，Y为样本文本包括的字的数量；y₂=ceil(Y*g/G)，ceil( )为向上取整。需要说明的是，如果获取的y₁=0，则更新y₁为1。可选的，根据用户的经验设置样本文本。

S140，遍历A，获取使用第一预设时长b₁对a_q进行切割的准确率L¹ _q，L¹ _q=s₁/G，s₁为D中第一预设值的数量。

根据本发明，s₁越大，使用第一预设时长b₁对a_q进行切割的准确率越高。

S150，获取使用第一预设时长b₁进行切割的平均准确率L¹，L¹=(∑^Q _q=1L¹ _q)/Q。

S160，如果L¹大于等于预设准确率阈值，则获取ΔT为第一预设时长b₁。

根据本发明，如果L¹小于预设准确率阈值，则获取使用第二预设时长b₂进行切割的平均准确率L²，如果L²大于等于预设准确率阈值，则获取ΔT为第二预设时长b₂；如果L²小于预设准确率阈值，则使用第三预设时长b₃进行切割的平均准确率L³；如果L³大于等于预设准确率阈值，则获取ΔT为第三预设时长b₃；b₂=b₁+Δb，b₃=b₁+2*Δb，Δb为预设时间步长。

本发明获取L²与L³的方法与获取L¹的方法的过程类似，此处不再赘述。根据本发明，如果L³小于预设准确率阈值，则还需获取使用第四预设时长b₄进行切割的平均准确率L⁴，以此类推，直至得到的平均准确率能够满足大于等于预设准确率阈值的终止条件。其中，b₃=b₁+3*Δb。

优选的，Δb≤50ms。由此可获取较为准确的ΔT，有利于提高本发明数据采集的准确性。

作为一个实施例，在所述平板电脑上的用户界面上的第一区域设置有用于选择语音录入的图标和一些其他的录入方式的图标，比如采集图像的图标或扫码的图标等；如果用户点击语音录入的按钮，那么在所述平板电脑的用户界面上的第二区域显示开始录入的图标；如果用户点击开始录入的图标，那么所述开始录入的图标将转变为停止录入的图标；如果用户点击停止录入的图标，意味着用户完成语音输入。在用户点击开始录入的图标后，本发明以ΔT对用户录入的音频进行划分，并每获取ΔT时间长度的音频后就将该ΔT时间长度的音频输入到语音识别模型进行语音识别，第一个输入到语音识别模型的是t₀至t₀+ΔT之间的音频，第二个输入到语音识别模型的是t₀+ΔT至t₀+2*ΔT之间的音频，以此类推，直至用户点击停止录入的图标。应当理解的是，最后一次输入到语音识别模型的音频对应的时间长度小于等于ΔT。

本领域技术人员知悉，现有技术中任何的语音识别模型均落入本发明的保护范围。可选的，所述语音识别模型为yamnet.tflite。

根据本发明，如果text_n-1,n,n+1由3部分组成，依次为V_n-1对应的文本、V_n对应的文本和V_n+1对应的文本；text_n-1,n,n+1包括的文字数量为V_n-1、V_n和V_n+1对应的文字数量之和。如果使用语音识别模型获取的V_n-1对应的文本text_n-1包括N_n-1个文字，使用语音识别模型获取的V_n对应的文本text_n包括N_n个文字，使用语音识别模型获取的V_n+1对应的文本text_n+1包括N_n+1个文字，那么判断text’_n是否等于text_n的方法包括：将text_n-1,n,n+1中第N_n-1+1个文字与text_n中第1个文字进行比较，将text_n-1,n,n+1中第N_n-1+2个文字与text_n中第2个文字进行比较，以此类推，直至将text_n-1,n,n+1中第N_n-1+N₂个文字与text_n中第N₂个文字进行比较。如果比较结果均为相等，则text’_n等于text_n；否则，text’_n不等于text_n。

根据本发明，如果text_n-1,n,n+1中V_n对应的文本text’_n=text_n，则不对用户界面上显示的text_n进行替换。

本发明的平板电脑上离线语音录入的数据采集方法，还包括以下步骤：

S001，在第1采集时间获取用户录入的T₁内的音频V₁，T₁为第1个时间段，T₁=[t₀,t₁]，t₁=t₀+ΔT，t₁为T₁对应的结束时间；所述第1采集时间大于t₁且小于t₁+ΔT。

S002，使用语音识别模型获取V₁对应的文本text₁，并在平板电脑的用户界面上进行显示。

S003，使用语音识别模型获取第1组合音频[V₁,V₂]对应的第1组合文本text_1,2，如果text_1,2中V₁对应的文本text’₁≠text₁，则将用户界面上显示的text₁替换为text’₁；V₂为在第2采集时间获取的用户录入的T₂内的音频，T₂为第2个时间段，T₂=[t₁,t₂]，t₂=t₁+ΔT，t₂为T₂对应的结束时间。

根据本发明，如果text_1,2由2部分组成，依次为V₁对应的文本和V₂对应的文本；text_1,2包括的文字数量为V₁和V₂对应的文字数量之和。如果使用语音识别模型获取的V₁对应的文本text₁包括N₁个文字，使用语音识别模型获取的V₂对应的文本text₂包括N₂个文字，那么判断text’₁是否等于text₁的方法包括：将text_1,2中第1个文字与text₁中第1个文字进行比较，将text_1,2中第2个文字与text₁中第2个文字进行比较，以此类推，直至将text_1,2中第N₁个文字与text_n中第N₁个文字进行比较。如果比较结果均为相等，则text’₁等于text₁；否则，text’₁不等于text₁。

作为一个实施例，使用语音识别模型获取V₁对应的文本text₁为三围，使用语音识别模型获取[V₁,V₂]对应的文本text_1,2为三维模型，text_1,2中V₁对应的文本text’₁为三维，三围不等于三维，那么将用户界面上显示的三围替换为三维。

S500，在第M采集时间获取用户录入的T_M内的音频V_M，T_M=[t_M-1,t_M]，T_M为第M个时间段，t_M-1为T_M对应的开始时间，t_M-1=t₀+ΔT*(M-1)。

S600，获取第M组合音频[V_M-1,V_M]对应的第M组合文本text_M-1,M，并将text_M-1,M中V_M对应的文本在所述平板电脑的用户界面上进行显示，V_M-1为在第M-1采集时间获取的用户录入的T_M-1内的音频，T_M-1为第M-1个时间段，T_M-1=[t_M-2,t_M-1]，t_M-1=t_M-2+ΔT，t_M-2=t₀+ΔT*(M-2)，t_M-2为T_M-1对应的开始时间，t_M-1为T_M-1对应的结束时间，第M-1采集时间大于t_M-1且小于t_M-1+ΔT。

根据本发明，如果S500和S600之间还包括使用语音识别模型获取V_M对应的文本text_M，并在平板电脑的用户界面上显示text_M的步骤，那么S600中将text_M-1,M中V_M对应的文本在所述平板电脑的用户界面上进行显示包括：判断text_M-1,M中V_M对应的文本是否等于text_M，如果text_M-1,M中V_M对应的文本不等于text_M，则将用户界面上显示的text_M替换为text_M-1,M中V_M对应的文本；如果text_M-1,M中V_M对应的文本等于text_M，则不对用户界面上显示的text_M进行替换。

虽然已经通过示例对本发明的一些特定实施例进行了详细说明，但是本领域的技术人员应该理解，以上示例仅是为了进行说明，而不是为了限制本发明的范围。本领域的技术人员还应理解，可以对实施例进行多种修改而不脱离本发明的范围和精神。本发明的范围由所附权利要求来限定。

Claims

1.一种平板电脑上离线语音录入的数据采集方法，其特征在于，包括以下步骤：

S100，在第n采集时间获取用户录入的T_n内的音频V_n，T_n为第n个时间段，T_n=[t_n-1,t_n]，t_n=t_n-1+ΔT，t_n-1为T_n对应的开始时间，t_n为T_n对应的结束时间，ΔT为预设的时间间隔；所述第n采集时间大于t_n且小于t_n+ΔT，2≤n≤M-1，M为根据ΔT对用户录入的音频进行分段得到的音频数量，M=roundup(T’/ΔT)，T’为用户录入音频的总时长，roundup( )为向上取整；

S200，使用语音识别模型获取V_n对应的文本text_n，并在平板电脑的用户界面上显示text_n，所述语音识别模型预先存储在所述平板电脑的内存中，所述平板电脑处于离线状态；

S300，在第n+1采集时间获取用户录入的T_n+1内的音频V_n+1，T_n+1为第n+1个时间段，T_n+1=[t_n,t_n+1]，t_n+1为T_n+1对应的结束时间，当t_n+1<t_M时，t_n+1=t_n+ΔT，t_M为用户停止录入的时间；当t_n+1=t_M时，t_n+1-t_n≤ΔT；所述第n+1采集时间大于t_n+1且小于t_n+1+ΔT；

2.根据权利要求1所述的平板电脑上离线语音录入的数据采集方法，其特征在于，ΔT的获取方法包括：

S110，获取样本用户录入样本文本的样本音频A，A={a₁,a₂,…,a_q,…,a_Q}，a_q为第q个样本用户录入样本文本的样本音频，q的取值范围为1到Q，Q为样本用户的数量；

S120，遍历A，使用第一预设时长b₁对a_q进行切割，得到样本子音频集合C_q；C_q=(c¹ _q,1,c¹ _q,2,…, c¹ _q,g,…,c¹ _q,G)，c¹ _q,g为使用第一预设时长b₁对a_q切割得到的第g段样本子音频，g的取值范围为1到G，G为使用第一预设时长b₁对a_q切割得到的样本子音频数量；

S130，遍历A和C_q，使用语音识别模型获取c¹ _q,g对应的文本w¹ _q,g，如果样本文本中w¹ _q,g对应的文本与w¹ _q,g相同，则将第一预设值追加到D，D的初始化为Null；否则，将第二预设值追加到D；

S140，遍历A，获取使用第一预设时长b₁对a_q进行切割的准确率L¹ _q，L¹ _q=s₁/G，s₁为D中第一预设值的数量；

S150，获取使用第一预设时长b₁进行切割的平均准确率L¹，L¹=(∑^Q _q=1L¹ _q)/Q；

3.根据权利要求2所述的平板电脑上离线语音录入的数据采集方法，其特征在于，S160还包括：如果L¹小于预设准确率阈值，则获取使用第二预设时长b₂进行切割的平均准确率L²，如果L²大于等于预设准确率阈值，则获取ΔT为第二预设时长b₂；如果L²小于预设准确率阈值，则使用第三预设时长b₃进行切割的平均准确率L³；如果L³大于等于预设准确率阈值，则获取ΔT为第三预设时长b₃；b₂=b₁+Δb，b₃=b₁+2*Δb，Δb为预设时间步长。

4.根据权利要求3所述的平板电脑上离线语音录入的数据采集方法，其特征在于，Δb≤50ms。

5.根据权利要求1所述的平板电脑上离线语音录入的数据采集方法，其特征在于，所述方法还包括以下步骤：

S001，在第1采集时间获取用户录入的T₁内的音频V₁，T₁为第1个时间段，T₁=[t₀,t₁]，t₁=t₀+ΔT，t₁为T₁对应的结束时间；所述第1采集时间大于t₁且小于t₁+ΔT；

S002，使用语音识别模型获取V₁对应的文本text₁，并在平板电脑的用户界面上进行显示；

6.根据权利要求1所述的平板电脑上离线语音录入的数据采集方法，其特征在于，所述方法还包括以下步骤：

S500，在第M采集时间获取用户录入的T_M内的音频V_M，T_M=[t_M-1,t_M]，T_M为第M个时间段，t_M-1为T_M对应的开始时间，t_M-1=t₀+ΔT*(M-1)；

S600，获取第M组合音频[V_M-1,V_M]对应的第M组合文本text_M-1,M，并将text_M-1,M中V_M对应的文本在所述平板电脑的用户界面上进行显示，V_M-1为在第M-1采集时间获取的用户录入的T_M-1内的音频，T_M-1为第M-1个时间段，T_M-1=[t_M-2,t_M-1]，t_M-1=t_M-2+ΔT，t_M-2=t₀+ΔT*(M-2) ，t_M-2为T_M-1对应的开始时间，t_M-1为T_M-1对应的结束时间，第M-1采集时间大于t_M-1且小于t_M-1+ΔT。

7.根据权利要求1所述的平板电脑上离线语音录入的数据采集方法，其特征在于，S400中，如果text_n-1,n,n+1中V_n对应的文本text’_n=text_n，则不对用户界面上显示的text_n进行替换。

8.根据权利要求1所述的平板电脑上离线语音录入的数据采集方法，其特征在于，所述音频的格式为wav。