CN113421553B - 音频挑选的方法、装置、电子设备和可读存储介质 - Google Patents

音频挑选的方法、装置、电子设备和可读存储介质 Download PDF

Info

Publication number
CN113421553B
CN113421553B CN202110661720.2A CN202110661720A CN113421553B CN 113421553 B CN113421553 B CN 113421553B CN 202110661720 A CN202110661720 A CN 202110661720A CN 113421553 B CN113421553 B CN 113421553B
Authority
CN
China
Prior art keywords
audio
model
result
transcription
probability
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110661720.2A
Other languages
English (en)
Other versions
CN113421553A (zh
Inventor
罗研朝
武卫东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jietong Digital Intelligence Technology Co ltd
Original Assignee
Beijing Jietong Digital Intelligence Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jietong Digital Intelligence Technology Co ltd filed Critical Beijing Jietong Digital Intelligence Technology Co ltd
Priority to CN202110661720.2A priority Critical patent/CN113421553B/zh
Publication of CN113421553A publication Critical patent/CN113421553A/zh
Application granted granted Critical
Publication of CN113421553B publication Critical patent/CN113421553B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本申请公开了一种音频挑选方法、装置、电子设备和可读存储介质,属于人工智能领域。音频挑选方法,包括:获取部分音频,利用预设的第一模型识别所述音频,生成音频转写结果,根据所述音频转写结果生成第二模型,根据所述音频转写结果对应于所述第一模型与第二模型的概率不同,对所述音频进行挑选。从而解决了现有技术在挑选音频时,挑选到识别较好的音频,降低了标注的有益效果和收益的问题。

Description

音频挑选的方法、装置、电子设备和可读存储介质
技术领域
本发明涉及人工智能技术领域,特别是涉及一种音频挑选的方法、装置、电子设备和可读存储介质。
背景技术
目前,在语音识别过程中,通过预设的模型对音频进行识别,当预设的语音对音频的识别效果较差时,通常把这些音频选取出来,在这些音频上施加提高识别率的标注。
现有技术中,采用随机选取的方式来挑选这些音频。
然而,现有技术在挑选音频的过程中,由于采用随机选取的方式,挑选得到的音频会包括识别较好的音频,这将大大降低了标注的有益效果和收益,为此,采用什么方式挑选音频,成了要解决的问题。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的一种音频挑选方法、装置、电子设备和可读存储介质。
依据本发明的第一方面,提供了音频挑选方法,该方法包括:
获取部分音频;
利用预设的第一模型识别所述音频,生成音频转写结果,将所述音频转写结果生成第二模型,其中,所述转写用于将所述音频转变为文本格式;
根据所述音频转写结果应于所述第一模型与所述第二模型的概率不同,对所述音频进行挑选。
依据本发明的第二方面,提供了一种音频挑选装置,该装置包括:
获取模块,用于获取部分音频;
转写模块,用于利用预设的第一模型识别所述音频,生成音频转写结果,根据所述音频转写结果生成第二模型;
挑选模块,用于根据所述音频转写结果对应于所述第一模型与所述第二模型的概率不同,对所述音频进行挑选。
第三方面,本申请实施例提供了一种电子设备,该电子设备包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如第一方面所述的方法的步骤。
第四方面,本申请实施例提供了一种可读存储介质,所述可读存储介质上存储程序或指令,所述程序或指令被处理器执行时实现如第一方面所述的方法的步骤。
在本申请实施例中,可以通过预设的第一模型对音频进行转写,通过转写结果,获取转写结果生成的第二模型,根据音频转写结果对于第一模型与第二模型的概率计算结果,挑选出音频。通过转写得出的第二模型,具备一定的统计特性,选取出具备项目统计特性同时预设模型识别较差的音频。从而解决了现有技术在挑选音频时,挑选到识别较好的音频的问题。本申请实施例提供的技术方案通过比较的方式挑选音频,精确度高,操作简单,易于实现。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1是本发明实施例提供的一种音频挑选方法的步骤流程图;
图2是本发明实施例提供的获取音频统计特性步骤流程图;
图3是本发明实施例提供的一种音频ppl数值计算步骤流程图;
图4是本发明实施例提供的音频挑选装置的结构示意图;
图5是本发明实施例提供的音频挑选装置402的结构示意图之一;
图6是本发明实施例提供的音频挑选装置402的结构示意图之二;
图7是本发明实施例提供的电子设备的结构示意图。
具体实施方式
下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例,然而应当理解,可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本发明,并且能够将本发明的范围完整的传达给本领域的技术人员。
本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象,而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施,且“第一”、“第二”等所区分的对象通常为一类,并不限定对象的个数,例如第一对象可以是一个,也可以是多个。
图1是本发明实施例提供的一种数据获取方法的步骤流程图,如图1所示,该方法可以包括:
步骤101、获取部分音频。
本发明实施例中,获取的音频为人声,其中,音效可为任意情况,人声的语音逻辑可为任意情况。为了便于理解和说明,在本实施例及以下实施例中仅以清晰音频为例进行说明,不对音频的语言逻辑作限制。
需要说明的是,本实施例并不对获取音频的源头进行限定,在实际的使用过程中,音频可以是从麦克风、电话、手机、电脑等可录音设备获取的人声。
步骤102、利用预设的第一模型识别音频过程中,将音频转写为第二模型。
在本实施例中,预设的第一模型为语音识别中提前设置的模型,预设的第一模型由声学模型与语言模型组成,通过预设的第一模型对音频进行识别。
其中,在识别过程中,预设的第一模型会通过对音频的转写,对于音频的转写是将音频中所包含的信息转写为文本格式。
在本实施例中,根据音频转写所得的文本生成第二模型,第二模型仅为语言模型,通过第二模型计算音频转写所得文本在第二模型中所对应的概率。
如图2所示,步骤102还包括:
步骤201,预设模型对音频进行识别。
在本实施例中,在通过转写结果生成新语言模型的情况下,步骤201通过预设模型对音频进行识别;
步骤202,根据识别过程中的转写所得结果,获取音频的统计特性。
通过预设的第一模型对音频的转写,得出音频转写结果为文本数据,对文本数据进行统计,获取音频转写结果的的统计特性。
步骤103,根据音频转写结果对应于预设模型与第二模型的概率不同,对音频进行挑选。
在本实施例中,分别计算音频对于预设的第一模型和第二模型的概率,通过计算困惑度的方式,获取音频转写结果对于模型的概率。困惑度用于衡量文本对于语言模型的概率,困惑度的公式测得ppl的数值,ppl越小,p(wi)的连乘结果则越大,也就是说音频中每句话的概率较高,说明这句话契合的表现较好。计算出两个困惑度结果,一个结果是音频相对于预设的第一模型的困惑度结果,另一个结果是音频相对于第二模型的困惑度结果。
在本实施例中,根据困惑度结果,挑选出对于预设的第一模型的ppl值较大(即音频对应于预设模型概率较低),而对于第二模型的ppl值较小(即音频对应于第二模型概率较高)的音频。
如图3,步骤103,对于音频的挑选,还包括:
步骤301,计算出音频的ppl数值。
在本实施例中,分别计算出音频对于预设的第一模型与第二模型的ppl数值。
步骤302,对计算出的ppl数值进行运算处理。
在本实施例中,将音频对于预设的第一模型的ppl值作为分母,音频对于第二模型的ppl值作为分子,进行运算,挑选出运算结果较小的音频。例如:某项目有100h原始音频,首先使用基础模型进行转写,生成音频转写结果,再根据音频转写结果,计算音频转写结果对于基础模型的概率,然后根据音频转写结果生成新语言模型并计算新概率,最后选取【基础概率/新概率】最低的数据进行挑选。
对挑选出的音频通过人工添加标注的方式,提高此音频的识别率,此时,所挑选出的音频,既符合统计特性,又属于预设第一模型识别不好的。
本申请实施例中以音频挑选装置执行音频挑选方法为例,说明本申请实施例提供的音频挑选装置。
参见图4,图4是本发明实施例提供的音频挑选装置的结构示意图,如图4所示,包括:
获取模块401,用于获取部分音频;
转写模块402,用于利用预设的第一模型识别所述音频,生成音频转写结果,根据所述音频转写结果生成第二模型;
挑选模块403,根据所述音频转写结果对应于所述第一模型与所述第二模型的概率不同,对所述音频进行挑选。
进一步地,如图5所示,转写模块402包括:
获取子模块4011,用于在所述预设的第一模型对所述音频识别过程中,获取第二模型。
进一步地,如图7所示,转写模块402还包括:
比较子模块4012,用于比较音频转写结果对应于预设的第一模型与第二模型的概率值。
在本申请实施例中,可以转写待挑选地音频,并获取音频的转写结果,根据音频的转写结果,生成新的语言模型,通过原语言模型与新语言模型,分别对音频的转写结果进行概率计算,得出对于两个模型的概率值,挑选出音频。本申请实施例提供的技术方案通过生成新的模型来对音频进行挑选,挑选精度较高,效果较高。
本申请实施例提供的音频挑选装置能够实现图1至图3的方法实施例实现的各个过程,为避免重复,这里不再赘述。
可选地,如图7所示,本申请实施例还提供一种电子设备1100,包括处理器1101,存储器1102,存储在存储器1102上并可在所述处理器1101上运行的程序或指令,该程序或指令被处理器1101执行时实现上述内容显示方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
本申请实施例还提供一种可读存储介质,所述可读存储介质上存储有程序或指令,该程序或指令被处理器执行时实现上述内容显示方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
其中,所述处理器为上述实施例中所述的电子设备中的处理器。所述可读存储介质,包括计算机可读存储介质,如计算机只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域技术人员易于想到的是:上述各个实施例的任意组合应用都是可行的,故上述各个实施例之间的任意组合都是本发明的实施方案,但是由于篇幅限制,本说明书在此就不一一详述了。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本发明并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims (10)

1.一种音频挑选方法,其特征在于,所述方法包括:
获取部分音频;
利用预设的第一模型识别所述音频,生成音频转写结果,根据所述音频转写结果生成第二模型,并根据音频转写结果获取音频的统计特性,其中,所述转写用于将所述音频转变为文本格式;
根据所述音频转写结果对应于所述第一模型与所述第二模型的概率不同,对所述音频进行挑选,其中,所述音频为从音频撰写结果中挑选出的对应于第一模型的概率较低,且对应于第二模型的概率较高的音频。
2.根据权利要求1所述的方法,其特征在于,利用预设的第一模型识别所述音频生成音频转写结果,根据所述音频转写结果生成第二模型,包括:
所述预设的第一模型为ASR模型,由声学模型和第一语言模型构成;
所述第二模型由音频转写的文本所组成。
3.根据权利要求2所述的方法,其特征在于,所述第二模型由音频转写的文本所组成,包括:
所述第二模型为由转写结果组成的第二语言模型。
4.根据权利要求1所述的方法,其特征在于,所述根据所述音频转写结果对应于所述第一模型与所述第二模型的概率不同,对所述音频进行挑选,包括:
所述概率为困惑度计算结果,其中,所述困惑度为:用来度量一个概率分布或概率模型预测样本的好坏程度。
5.根据权利要求4所述的方法,其特征在于,所述概率为困惑度计算结果,包括:
挑选出对于所述预设模型第一困惑度结果较高,而对于所述第二模型第二困惑度结果较低的转写结果所对应的音频。
6.一种音频挑选装置,其特征在于,所述装置包括:
获取模块,用于获取部分音频;
转写模块,用于利用预设的第一模型识别所述音频,生成音频转写结果,根据所述音频转写结果生成第二模型,并根据音频转写结果获取音频的统计特性;
挑选模块,根据所述音频转写结果对应于所述第一模型与所述第二模型的概率不同,对所述音频进行挑选,其中,所述音频为从音频撰写结果中挑选出的对应于第一模型的概率较低,且对应于第二模型的概率较高的音频。
7.根据权利要求6所述的装置,其特征在于,所述转写模块,包括:
获取子模块,用于获取第二模型。
8.根据权利要求6所述的装置,其特征在于,所述挑选模块,包括:
比较子模块,用于比较所述音频转写结果对应于所述第一模型与所述第二模型的概率不同。
9.一种电子设备,其特征在于,包括处理器,存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如权利要求1-5任一项所述的音频挑选方法的步骤。
10.一种可读存储介质,其特征在于,所述可读存储介质上存储程序或指令,所述程序或指令被处理器执行时实现如权利要求1-5任一项所述的音频挑选方法的步骤。
CN202110661720.2A 2021-06-15 2021-06-15 音频挑选的方法、装置、电子设备和可读存储介质 Active CN113421553B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110661720.2A CN113421553B (zh) 2021-06-15 2021-06-15 音频挑选的方法、装置、电子设备和可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110661720.2A CN113421553B (zh) 2021-06-15 2021-06-15 音频挑选的方法、装置、电子设备和可读存储介质

Publications (2)

Publication Number Publication Date
CN113421553A CN113421553A (zh) 2021-09-21
CN113421553B true CN113421553B (zh) 2023-10-20

Family

ID=77788671

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110661720.2A Active CN113421553B (zh) 2021-06-15 2021-06-15 音频挑选的方法、装置、电子设备和可读存储介质

Country Status (1)

Country Link
CN (1) CN113421553B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110263322A (zh) * 2019-05-06 2019-09-20 平安科技(深圳)有限公司 用于语音识别的音频语料筛选方法、装置及计算机设备
CN112216284A (zh) * 2020-10-09 2021-01-12 携程计算机技术(上海)有限公司 训练数据更新方法及系统、语音识别方法及系统、设备
CN112417850A (zh) * 2020-11-12 2021-02-26 北京爱数智慧科技有限公司 音频标注的检错方法和装置
CN112509560A (zh) * 2020-11-24 2021-03-16 杭州一知智能科技有限公司 一种基于缓存语言模型的语音识别自适应方法和系统
CN112581965A (zh) * 2020-12-11 2021-03-30 天津讯飞极智科技有限公司 转写方法、装置、录音笔和存储介质
WO2021104102A1 (zh) * 2019-11-25 2021-06-03 科大讯飞股份有限公司 语音识别纠错方法、相关设备及可读存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110263322A (zh) * 2019-05-06 2019-09-20 平安科技(深圳)有限公司 用于语音识别的音频语料筛选方法、装置及计算机设备
WO2021104102A1 (zh) * 2019-11-25 2021-06-03 科大讯飞股份有限公司 语音识别纠错方法、相关设备及可读存储介质
CN112216284A (zh) * 2020-10-09 2021-01-12 携程计算机技术(上海)有限公司 训练数据更新方法及系统、语音识别方法及系统、设备
CN112417850A (zh) * 2020-11-12 2021-02-26 北京爱数智慧科技有限公司 音频标注的检错方法和装置
CN112509560A (zh) * 2020-11-24 2021-03-16 杭州一知智能科技有限公司 一种基于缓存语言模型的语音识别自适应方法和系统
CN112581965A (zh) * 2020-12-11 2021-03-30 天津讯飞极智科技有限公司 转写方法、装置、录音笔和存储介质

Also Published As

Publication number Publication date
CN113421553A (zh) 2021-09-21

Similar Documents

Publication Publication Date Title
CN109599093B (zh) 智能质检的关键词检测方法、装置、设备及可读存储介质
CN111883110B (zh) 语音识别的声学模型训练方法、系统、设备及介质
US10236017B1 (en) Goal segmentation in speech dialogs
US7562014B1 (en) Active learning process for spoken dialog systems
CN110175329B (zh) 一种样本扩充的方法、装置、电子设备与存储介质
CN104903954A (zh) 使用基于人工神经网络的亚语音单位区分的说话人验证及识别
CN111261162B (zh) 语音识别方法、语音识别装置及存储介质
CN111145733B (zh) 语音识别方法、装置、计算机设备和计算机可读存储介质
CN111785275A (zh) 语音识别方法及装置
US6963835B2 (en) Cascaded hidden Markov model for meta-state estimation
CN113744727A (zh) 模型训练方法、系统、终端设备及存储介质
CN111613219B (zh) 语音数据识别方法、设备及介质
CN113421553B (zh) 音频挑选的方法、装置、电子设备和可读存储介质
CN110708619B (zh) 一种智能设备的词向量训练方法及装置
CN111462760B (zh) 声纹识别系统、方法、装置及电子设备
CN107910005A (zh) 交互文本的目标业务定位方法及装置
JP2016180918A (ja) 音声認識システム、音声認識方法、プログラム
CN114783424A (zh) 文本语料筛选方法、装置、设备及存储介质
CN113691382A (zh) 会议记录方法、装置、计算机设备及介质
CN114648976A (zh) 语种识别方法、装置、电子设备及介质
WO2020162239A1 (ja) パラ言語情報推定モデル学習装置、パラ言語情報推定装置、およびプログラム
JP2020052611A (ja) タグ推定装置、タグ推定方法、プログラム
CN112287673B (zh) 一种基于深度学习来实现语音导航机器人的方法
CN114049885B (zh) 标点符号识别模型构建方法和装置
CN114420086B (zh) 语音合成方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 100193 room 2115, 1st floor, incubator building 2, Zhongguancun Software Park, Dongbeiwang, Haidian District, Beijing

Applicant after: Beijing Jietong Digital Intelligence Technology Co.,Ltd.

Address before: 100193 room 2115, 1st floor, incubator building 2, Zhongguancun Software Park, Dongbeiwang, Haidian District, Beijing

Applicant before: Beijing Tianxing Huitong Information Technology Co.,Ltd.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant