CN111008299A - 语音数据库的质量评估方法、装置及计算机存储介质 - Google Patents

语音数据库的质量评估方法、装置及计算机存储介质 Download PDF

Info

Publication number
CN111008299A
CN111008299A CN202010164556.XA CN202010164556A CN111008299A CN 111008299 A CN111008299 A CN 111008299A CN 202010164556 A CN202010164556 A CN 202010164556A CN 111008299 A CN111008299 A CN 111008299A
Authority
CN
China
Prior art keywords
classification
factor
voice
database
voice database
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010164556.XA
Other languages
English (en)
Other versions
CN111008299B (zh
Inventor
张卫强
李科
黄宇凯
郝玉峰
曹琼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Speechocean Technology Co ltd
Tsinghua University
Original Assignee
Beijing Speechocean Technology Co ltd
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Speechocean Technology Co ltd, Tsinghua University filed Critical Beijing Speechocean Technology Co ltd
Priority to CN202010164556.XA priority Critical patent/CN111008299B/zh
Publication of CN111008299A publication Critical patent/CN111008299A/zh
Application granted granted Critical
Publication of CN111008299B publication Critical patent/CN111008299B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/65Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/63Querying

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及语音信号处理技术领域,提供一种语音数据库的质量评估方法、装置及计算机存储介质。语音数据库的质量评估方法包括:获取待评估的语音数据库,其中,语音数据库中包括至少一条语音;确定语音数据库中至少涉及一种分类因素,分类因素中包括多个子类因素;基于分类因素,通过分类模型对每条语音进行分类检测,得到语音数据库与分类因素相对应的单因素信息熵;根据单因素信息熵,确定语音数据库的质量。通过本公开提供的语音数据库的质量评估方法,根据检测语音数据库涉及的分类因素,对语音数据库进行质量评估,能够快速得到评估结论,且得到的评估结论更具有客观性,有助于对语音数据库的构建进行调节。

Description

语音数据库的质量评估方法、装置及计算机存储介质
技术领域
本发明一般地涉及语音信号处理技术领域,特别是涉及一种语音数据库的质量评估方法、装置及计算机存储介质。
背景技术
语音数据库是语音信号处理的基础资源,其数量和质量直接决定了所构建语音处理模型的优劣。在语音数据库构建时,一个重要的考量是覆盖性。覆盖性是指语音数据库针对分类因素的覆盖程度。例如:发音人的性别、语种、语音内容等因素。
传统获取语音数据库的覆盖性是依靠语音数据库设计阶段的专家经验,在制订采集计划时使语音数据库中的语音在各种分类因素上分布尽量全面。但是对于已经采集完成的数据库,只有在语音信号处理建模后才能根据识别率等指标得到间接反馈。这使得对语音数据库的评价停留在主观和间接客观的层面。
发明内容
为了解决现有技术中存在的上述问题,本发明提供一种语音数据库的质量评估方法、装置及计算机存储介质。
第一方面,本发明实施例提供一种语音数据库的质量评估方法,包括:获取待评估的语音数据库,其中,语音数据库中包括至少一条语音;确定语音数据库中至少一种分类因素,分类因素中包括多个子类因素;基于分类因素,通过分类模型对每条语音进行分类检测,得到语音数据库与分类因素相对应的单因素信息熵;根据单因素信息熵,确定语音数据库的质量。
在一实施例中,基于分类因素,通过分类模型对每条语音进行分类检测,得到语音数据库与分类因素相对应的单因素信息熵,包括:基于分类因素,通过分类模型对每条语音进行分类检测,得到语音数据库中各语音与分类因素中多个子类因素相对应的子类条件概率;基于子类条件概率,得到语音数据库与分类因素相对应的单因素信息熵。
在另一实施例中,基于子类条件概率,得到语音数据库与分类因素相对应的单因素信息熵,包括:根据子类条件概率,得到语音数据库在子类因素下的子类平均条件概率;根据语音数据库的子类平均条件概率,得到语音数据库与分类因素相对应的单因素信息熵。
在一实施例中,根据单因素信息熵,确定语音数据库的质量,包括:将单因素信息熵进行归一化,得到语音数据库在分类因素下的归一化信息熵;根据各分类因素对应的归一化信息熵,得到语音数据库的信息熵;根据语音数据库的信息熵,确定语音数据库的质量。
在另一实施例中,根据语音数据库的信息熵,评估语音数据库的质量,包括:将语音数据库的信息熵与指定阈值进行对比,当语音数据库的信息熵大于或等于指定阈值时,则语音数据库的质量合格;当语音数据库的信息熵小于指定阈值时,则语音数据库的质量不合格。
在又一实施例中,若语音数据库的质量不合格,则语音数据库的质量评估方法还包括:调节语音数据库的语音,直至语音数据库的信息熵大于或等于指定阈值。
在又一实施例中,调节语音数据库的语音,直至语音数据库的信息熵大于或等于指定阈值,包括:将分类因素对应的单因素信息熵根据熵值进行排序,确定最低熵值;根据最低熵值,确定调节因素,调节因素为最低熵值对应的分类因素;根据调节因素,调节语音数据库中对应调节因素的语音。
在一实施例中,分类因素包括以下因素:发音者的性别、发音者的年龄、发音者的口音、采集设备、采集环境、发音因素或内容主题。
在一实施例中,分类模型包括:对一种分类因素进行分类检测的单因素分类模型,或对多种分类因素进行分类检测的多因素分类模型。
第二方面,本发明实施例提供一种语音数据库的质量评估装置,包括:获取模块,用于获取待评估的语音数据库,其中,语音数据库中包括至少一条语音;因素确定模块,用于确定语音数据库中至少一种分类因素,分类因素中包括多个子类因素;检测模块,用于基于分类因素,通过分类模型对每条语音进行分类检测,得到语音数据库与分类因素相对应的单因素信息熵;评估模块,用于根据单因素信息熵,确定语音数据库的质量。
在一实施例中,检测模块采用下述方式基于分类因素,通过分类模型对每条语音进行分类检测,得到语音数据库与分类因素相对应的单因素信息熵:基于分类因素,通过分类模型对每条语音进行分类检测,得到语音数据库中各语音与分类因素中多个子类因素相对应的子类条件概率;基于子类条件概率,得到语音数据库与分类因素相对应的单因素信息熵。
在另一实施例中,检测模块采用下述方式基于子类条件概率,得到语音数据库与分类因素相对应的单因素信息熵:根据子类条件概率,得到语音数据库在子类因素下的子类平均条件概率;根据语音数据库的子类平均条件概率,得到语音数据库与分类因素相对应的单因素信息熵。
在一实施例中,评估模块采用下述方式根据单因素信息熵,确定语音数据库的质量:将单因素信息熵进行归一化,得到语音数据库在分类因素下的归一化信息熵;根据各分类因素对应的归一化信息熵,得到语音数据库的信息熵;根据语音数据库的信息熵,确定语音数据库的质量。
在另一实施例中,评估模块采用下述方式根据语音数据库的信息熵,评估语音数据库的质量:将语音数据库的信息熵与指定阈值进行对比,当语音数据库的信息熵大于或等于指定阈值时,则语音数据库的质量合格;当语音数据库的信息熵小于指定阈值时,则语音数据库的质量不合格。
在又一实施例中,若语音数据库的质量不合格,则语音数据库的质量评估装置还包括:调节模块,用于调节语音数据库的语音,直至语音数据库的信息熵大于或等于指定阈值。
在又一实施例中,调节模块采用下述方式调节语音数据库的语音,直至语音数据库的信息熵大于或等于指定阈值:将分类因素对应的单因素信息熵根据熵值进行排序,确定最低熵值;根据最低熵值,确定调节因素,调节因素为最低熵值对应的分类因素;根据调节因素,调节语音数据库中对应调节因素的语音。
在一实施例中,分类因素包括以下因素:发音者的性别、发音者的年龄、发音者的口音、采集设备、采集环境、发音因素或内容主题。
在一实施例中,分类模型包括:对一种分类因素进行分类检测的单因素分类模型,或对多种分类因素进行分类检测的多因素分类模型。
第三方面,本发明实施例提供一种语音数据库的质量评估装置,包括:存储器,用于存储指令;以及处理器,用于调用存储器存储的指令执行上述任意一种语音数据库的质量评估方法。
第四方面,本发明实施例提供一种非临时性计算机可读存储介质,非临时性计算机可读存储介质存储有计算机可执行指令,计算机可执行指令在由处理器执行时,执行上述任意一种语音数据库的质量评估方法。
本发明提供的一种语音数据库的质量评估方法、装置及计算机存储介质,能够通过分类模型和确定的至少一种分类因素,检测语音数据库与分类因素相对应的单因素信息熵,进而根据语音数据库涉及的分类因素直接进行评估,快速评估语音数据库的质量,且得到的评估结论更具有客观性,有利于对语音数据库的构建进行调节。
附图说明
通过参考附图阅读下文的详细描述,本发明实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本发明的若干实施方式,其中:
图1示出了本发明实施例提供的一种语音数据库的质量评估方法的示意图;
图2示出了本发明实施例提供的另一种语音数据库的质量评估方法的示意图;
图3示出了本发明实施例提供的另一种语音数据库的质量评估方法的示意图;
图4示出了本发明实施例提供的一种分类模型检测示意图;
图5示出了本发明实施例提供的另一种分类模型检测示意图;
图6示出了本发明实施例提供的一种语音数据库的质量评估装置的示意图;
图7示出了本发明实施例提供的另一种语音数据库的质量评估装置的示意图;
在附图中,相同或对应的标号表示相同或对应的部分。
具体实施方式
下面将参考若干示例性实施方式来描述本发明的原理和精神。应当理解,给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本发明,而并非以任何方式限制本发明的范围。
需要注意,虽然本文中使用“第一”、“第二”等表述来描述本发明的实施方式的不同模块、步骤和数据等,但是“第一”、“第二”等表述仅是为了在不同的模块、步骤和数据等之间进行区分,而并不表示特定的顺序或者重要程度。实际上,“第一”、“第二”等表述完全可以互换使用。
语音数据库为语音信号处理的基础资源,语音数据库中语音涉及的分类因素相关,在保证语音数量和语音质量的前提下,语音涉及的分类因素越多,构建的语音处理模型越优质。为快速且客观的获取语音数据库中涉及的分类因素,本公开提供一种语音数据库的质量评估方法。
图1是根据一示例性实施例示出的一种语音数据库的质量评估方法的流程图。如图1所示,语音数据库的质量评估方法10,包括以下步骤S11至步骤S14。
在步骤S11中,获取待评估的语音数据库。
在本公开实施例中,获取需要进行质量评估的语音数据库,待评估的语音数据库中包含至少一条语音。语音的来源可以包括:人工采集、本地数据库或者云端。
在步骤S12中,确定语音数据库中至少涉及一种分类因素。
在本公开实施例中,提供至少一个用于评判语音数据库涉及的分类因素。分类因素包括以下任意一种因素:发音者的性别、发音者的年龄、发音者的口音、采集设备、采集环境、发音因素、内容主题。根据语音数据库的使用需求,确定语音数据库需要涉及的分类因素,有助于评估更具有针对性,使得到的评估结果更具有准确性。为评估语音数据库中涉及的分类因素内容更具体,分类因素中包括多个子类因素,子类因素的个数和划分依据可以根据分类因素的属性信息进行划分。例如:分类因素为枚举型因素,例如发音者的性别,则对应的子类因素可以为男和女,子类因素的数量为2。例如:分类因素为数值型因素,可将分类因素划分成若干子类因素,根据实际需求确定子类因素的个数。例如发音者的年龄,则对应的子类因素分别为0-19岁、20岁-39岁、40岁-59岁、60岁-79岁和80岁-99岁,子类因素的数量为5个。
在一实施例中,对于某一具体的语音数据库而言,有一种或多种分类因素是固定的。例如“手机汉语命令词库”,采集设备是手机、语种是汉语、内容是命令词,这些分类因素固定的。为便于语音数据库涉及的分类因素更全面、更具体,还会额外增加需要确定的分类因素或者子类因素,例如:额外增加需要确定的发音者的性别及其对应的子类因素、发音者的年龄及其对应的子类因素和发音者的口音及其对应的子类因素等等。
在步骤S13中,基于分类因素,通过分类模型对每条语音进行分类检测,得到语音数据库与分类因素相对应的单因素信息熵。
在本公开实施例中,根据确定语音数据库需要涉及的分类因素,将语音数据库中的各语音分别进行检测。分类模型可以对一种或多种分类因素进行检测。通过分类模型进行分类检测,确定语音数据库中的语音涉及各分类因素的单因素信息熵,得到语音数据库涉及各分类因素的可能性,便于确定语音数据库中是否涉及需要涉及的分类因素,以及存在的概率。各语音涉及的子类因素越多、越分散,得到的单因素信息熵的熵值越高,反之,各语音涉及的子类因素越集中,得到的单因素信息熵的熵值越低。
在一实施例中,基于分类因素,通过分类模型对每条语音进行分类检测,得到语音数据库中各语音与分类因素中多个子类因素相对应的子类条件概率;基于子类条件概率,得到语音数据库与分类因素相对应的单因素信息熵。
根据确定需要涉及的分类因素,通过分类模型将对将语音数据库中各条语音均进行分类检测,确定各语音对应需要涉及的各分类因素条件下的概率。根据检测,能够得到语音数据库中各条语音在当前分类因素下对应各子类因素发生的条件概率,便于明确每条语音在各分类因素中涉及各子类因素条件下的发生概率,进而将每条语音在各子类因素下的子类条件概率进行整合,得到语音数据库在该分类因素下的单因素信息熵。
在一实施例中,针对当前分类因素,通过将各条语音进行检测,能够得到各条语音在当前分类因素下对应各子类因素的子类条件概率,将其汇总进行平均,能够得到语音数据库在当前分类因素下对应各子类因素的子类平均条件概率,进而根据各子类因素下语音数据库的子类平均条件概率得到语音数据库在当前分类因素下的单因素信息熵。在一实施场景中,
Figure 946804DEST_PATH_IMAGE001
用于表示语音数据库,K表示语音数据库中语音的条数,
Figure 162147DEST_PATH_IMAGE002
Figure 4201DEST_PATH_IMAGE003
代表语音数据库中的每一条语音。
Figure 461727DEST_PATH_IMAGE004
代表当前分类因素下中的各子类因素,M为子类因素的个数。通过分类模型,采用如下公式获取每条语音在各子类因素下的子类条件概率:
Figure 603996DEST_PATH_IMAGE005
Figure 629721DEST_PATH_IMAGE006
Figure 726115DEST_PATH_IMAGE007
K表示语音数据库中语音的条数,M为子类因素的个数。进而采用下述公式进行整合,得到语音数据库在各子类因素下的子类平均条件概率:,
Figure 252911DEST_PATH_IMAGE007
。从而根据下述公式得到语音数据库涉及当前分类因素的单因素信息熵:
Figure 718527DEST_PATH_IMAGE008
,log为自然对数。
在步骤S14中,根据单因素信息熵,确定语音数据库的质量。
在本公开实施例中,根据语音数据库在各分类因素下对应得到的各单因素信息熵,能够快速明确语音数据库中的各语音涉及需要涉及的分类因素个数以及熵值大小,对于各个分类因素的子类因素判断全部语音覆盖情况,进而评估语音数据库中的语音是否满足需求,从而确定语音数据库的质量是否合格,对于合格的语音数据库需要尽量全面且平均的覆盖各个分类因素中的各个子类因素,以保证基于该语音数据库进行模型训练或其他后续处理的结果。
通过上述实施例,通过利用信息熵来判断语音数据库涉及的分类因素进而评估语音数据库的质量,有利于将不确定性因素进行量化,统一度量各语音涉及各分类因素的标准,使抽象的评判信息变为具体化,进而有助于直接且快速获取待评估的语音数据库的质量。
图2是根据一示例性实施例示出的一种服务迭代方法的流程图,如图2所示,语音数据库的质量评估方法20,包括以下步骤S21至步骤S26。
在本公开实施例中,步骤S21至步骤S23的实施方式分别与上述语音数据库的质量评估方法10中步骤S11至步骤S13的实施方式相同,在此不再进行赘述。
在步骤S21中,获取待评估的语音数据库。
在步骤S22中,确定语音数据库中至少涉及一种分类因素。
在步骤S23中,基于分类因素,通过分类模型对每条语音进行分类检测,得到语音数据库与分类因素相对应的单因素信息熵。
在步骤S24中,将单因素信息熵进行归一化,得到语音数据库在分类因素下的归一化信息熵。
在本公开实施例中,将语音数据库在当前分类因素下的单因素信息熵进行归一化,得到语音数据库在分类因素下的归一化信息熵,有助于缩小各单因素信息熵之间的熵值差距,统一单因素信息熵的数据范围,使得数据能够更加直观的体现,进而便于对语音数据库的质量进行评估,节省时间成本。归一化信息熵的数值越大,则语音数据库中的语音涉及当前分类因素的可能性越大。在一实施例中,通过归一化,将各单因素信息熵映射至(0,1)之间。例如:
Figure 39787DEST_PATH_IMAGE009
的最大取值为
Figure 623478DEST_PATH_IMAGE010
,根据归一化公式
Figure 829331DEST_PATH_IMAGE011
,将语音数据库在当前分类因素下的单因素信息熵进行归一化,归一化后的
Figure 680613DEST_PATH_IMAGE012
的数值范围属于0到1之间,进而能够直观获取数据范围,便于语音数据库的质量的评估。
在步骤S25中,根据各分类因素对应的归一化信息熵,评估语音数据库的质量。
在本公开实施例中,获取各分类因素对应的归一化信息熵,根据确定需要涉及的分类因素个数进行平均,得到语音数据库关于所有需要涉及的分类因素的总的信息熵,便于直观的通过数据确定语音数据库涉及需要的分类因素的评价指标,进而根据评价指标确定语音数据库的质量。语音数据库中的各语音涉及的分类因素越多,得到的信息熵的熵值越高,语音数据库的质量越容易符合要求。反之,语音数据库中的各语音涉及的分类因素越少,得到的信息熵的熵值越低,语音数据库的质量越不满足要求。
在一实施例中,确定需要涉及的分类因素的种类和个数,针对不同的分类因数分配对应的权项系数。根据获取各分类因素对应的归一化信息熵,采用加权平均法,将各归一化信息熵与对应分类因素的全项系数进行求和,根据需要涉及的分类因素个数进行平均,得到语音数据库关于所有需要涉及的分类因素的总的信息熵,便于对具有特殊需求的语音数据库进行质量评估,有助于得到的评估质量更具有针对性。例如:特殊需求可以是某一具体语音数据库需要满足几种固定的分类因素,除此之外的分类因素可以涉及或者忽略。
在步骤S26中,根据语音数据库的信息熵,确定语音数据库的质量。
在本公开实施例中,根据得到的语音数据库信息熵,评价语音数据库的质量,使抽象的评判信息变为具体化,进而有助于直接且快速获取待评估的语音数据库的质量。在一例中,预设评估语音数据库质量的指定阈值,当获取的语音数据库的信息熵大于或等于指定阈值时,则评估该语音数据库的质量合格。当获取的语音数据库的信息熵小于指定阈值时,则评估该语音数据库的质量不合格。
通过上述实施例,将获取的单因素信息熵进行归一化,缩小各单因素信息熵之间的熵值差距,进而评估语音数据库涉及各分类因素的覆盖性,使抽象的评判信息具体化,从而能够直观的对语音数据库的质量进行评估。
图3是根据一示例性实施例示出的一种服务迭代方法的流程图,如图3所示,语音数据库的质量评估方法30,包括以下步骤S31至步骤S37。
在本公开实施例中,步骤S31至步骤S36的实施方式分别与上述语音数据库的质量评估方法20中步骤S21至步骤S26的实施方式相同,在此不再进行赘述。
在步骤S31中,获取待评估的语音数据库。
在步骤S32中,确定语音数据库中至少涉及一种分类因素。
在步骤S33中,基于分类因素,通过分类模型对每条语音进行分类检测,得到语音数据库与分类因素相对应的单因素信息熵。
在步骤S34中,将单因素信息熵进行归一化,得到语音数据库在分类因素下的归一化信息熵。
在步骤S35中,根据各分类因素对应的归一化信息熵,评估语音数据库的质量。
在步骤S36中,根据语音数据库的信息熵,确定语音数据库的质量。
在步骤S37中,调节语音数据库的语音,直至语音数据库的信息熵大于或等于指定阈值。
在本公开实施例中,当语音数据库的质量合格结果为不合格时,调节语音数据库中的语音,直至调节后的语音数据库的信息熵大于或等于指定阈值,满足语音数据库质量合格的条件,进而提升语音数据库的利用率,节省重新构建语音数据库的成本。例如:调节语音数据库中语音可以包括调节语音的个数、语音涉及的分类因素等。
在一实施例中,调节质量不合格的语音数据库时,将分类因素对应的单因素信息熵根据对应的熵值进行排序,确定所有分类因素中熵值最低的分类因素,向语音数据库中增添涉及熵值最低的分类因素的语音,提高语音数据库在该分类因素下的覆盖性,使语音数据库中的语音尽量覆盖对应分类因素中的各个子类因素。在一例中,当语音数据库在该分类因素下涉及的语音个数过多,导致对应的单因素信息熵最低时,则在尽量满足所有子类因素的前提下,删减语音数据库中针对涉及该分类因素的语音,进而提高该分类因素的单因素信息熵,从而提高该分类因素下的单因素信息熵。在另一例中,可以通过删减或者增添涉及熵值最低的分类因素中的子类因素的语音,使调节的语音根据有针对性,便于快速提高熵值最低的分类因素对应的单因素信息熵,进而快速提高语音数据库的质量,节省时间成本。
在一实施例中,分类模型是一种针对单个分类因素进行分类检测的单因素分类模型,可以采用高斯混合模型进行训练,使得到的输出结果有助于明确语音数据库中各语音在该分类因素下分布状况。在另一实施例中,如图4所示,由于高斯混合模型的输出
Figure 907194DEST_PATH_IMAGE013
不一定是明确的概率值,可以结合归一化函数(softmax),将高斯混合模型的输出进行转换,得到明确的概率值,即语音数据库在该分类因素下的单因素信息熵,便于直观进行获取。
在另一实施例中,如图5所示,分类模型是一种针对多种分类因素进行分类检测的多因素分类模型,能够进行多种分类因素的检测,可以采用模型结构最后一层为softmax层的神经网络模型进行训练,有助于快速获取语音数据库的概率值,即语音数据库在该分类因素下的单因素信息熵,从而提高确定语音数据库质量的效率。
基于同一个发明思想,本公开还提供一种语音数据库的质量评估装置。
图6是根据一示例性实施例示出的一种语音数据库的质量评估装置框图。参照图6,该语音数据库的质量评估装置100包括:获取模块110、因素确定模块120、检测模块130和评估模块140。
获取模块110,用于获取待评估的语音数据库,其中,语音数据库中包括至少一条语音。
因素确定模块120,用于确定语音数据库中至少涉及一种分类因素,分类因素中包括多个子类因素。
检测模块130,用于基于分类因素,通过分类模型对每条语音进行分类检测,得到语音数据库与分类因素相对应的单因素信息熵。
评估模块140,用于根据单因素信息熵,确定语音数据库的质量。
在一实施例中,检测模块130采用下述方式基于分类因素,通过分类模型对每条语音进行分类检测,得到语音数据库与分类因素相对应的单因素信息熵:基于分类因素,通过分类模型对每条语音进行分类检测,得到语音数据库中各语音与分类因素中多个子类因素相对应的子类条件概率;基于子类条件概率,得到语音数据库与分类因素相对应的单因素信息熵。
在另一实施例中,检测模块130采用下述方式基于子类条件概率,得到语音数据库与分类因素相对应的单因素信息熵:根据子类条件概率,得到语音数据库在子类因素下的子类平均条件概率;根据语音数据库的子类平均条件概率,得到语音数据库与分类因素相对应的单因素信息熵。
在一实施例中,评估模块140采用下述方式根据单因素信息熵,确定语音数据库的质量:将单因素信息熵进行归一化,得到语音数据库在分类因素下的归一化信息熵;根据各分类因素对应的归一化信息熵,得到语音数据库的信息熵;根据语音数据库的信息熵,确定语音数据库的质量。
在另一实施例中,评估模块140采用下述方式根据语音数据库的信息熵,评估语音数据库的质量:将语音数据库的信息熵与指定阈值进行对比,当语音数据库的信息熵大于或等于指定阈值时,则语音数据库的质量合格;当语音数据库的信息熵小于指定阈值时,则语音数据库的质量不合格。
在又一实施例中,若语音数据库的质量不合格,则语音数据库的质量评估装置还包括:调节模块,用于调节语音数据库的语音,直至语音数据库的信息熵大于或等于指定阈值。
在又一实施例中,调节模块采用下述方式调节语音数据库的语音,直至语音数据库的信息熵大于或等于指定阈值:将分类因素对应的单因素信息熵根据熵值进行排序,确定最低熵值;根据最低熵值,确定调节因素,调节因素为最低熵值对应的分类因素;根据调节因素,调节语音数据库中对应调节因素的语音。
在又一实施例中,分类因素包括以下因素:发音者的性别、发音者的年龄、发音者的口音、采集设备、采集环境、发音因素或内容主题。
在一实施例中,分类模型包括:对一种分类因素进行分类检测的单因素分类模型,或对多种分类因素进行分类检测的多因素分类模型。
装置中的各个模块所实现的功能与上文描述的方法中的步骤相对应,其具体实现和技术效果请参见上文对于方法步骤的描述,在此不再赘述。
如图7所示,本发明的一个实施方式提供了另一种语音数据库的质量评估装置200。其中,该语音数据库的质量评估装置200包括存储器210、处理器220、输入/输出(Input/Output,I/O)接口230。其中,存储器210,用于存储指令。处理器220,用于调用存储器210存储的指令执行本发明实施例的用于语音数据库的质量评估方法。其中,处理器220分别与存储器210、I/O接口230连接,例如可通过总线系统和/或其他形式的连接机构(未示出)进行连接。存储器210可用于存储程序和数据,包括本发明实施例中涉及的用于语音数据库的质量的程序,处理器220通过运行存储在存储器210的程序从而执行电子设备200的各种功能应用以及数据处理。
本发明实施例中处理器220可以采用数字信号处理器(Digital SignalProcessing,DSP)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、可编程逻辑阵列(Programmable Logic Array,PLA)中的至少一种硬件形式来实现,所述处理器220可以是中央处理单元(Central Processing Unit,CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元中的一种或几种的组合。
本发明实施例中的存储器210可以包括一个或多个计算机程序产品,所述计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(Random Access Memory,RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(Read-OnlyMemory,ROM)、快闪存储器(Flash Memory)、硬盘(Hard Dis Drive,HDD)或固态硬盘(Solid-State Drive,SSD)等。
本发明实施例中,I/O接口230可用于接收输入的指令(例如数字或字符信息,以及产生与语音数据库的质量评估装置200的用户设置以及功能控制有关的键信号输入等),也可向外部输出各种信息(例如,图像或声音等)。本发明实施例中I/O接口230可包括物理键盘、功能按键(比如音量控制按键、开关按键等)、鼠标、操作杆、轨迹球、麦克风、扬声器和触控面板等中的一个或多个。
在一些实施方式中,本发明提供了一种非临时性计算机可读存储介质,该非临时性计算机可读存储介质存储有计算机可执行指令,计算机可执行指令在由处理器执行时,执行上文所述的任何方法。
尽管在附图中以特定的顺序描述操作,但是不应将其理解为要求按照所示的特定顺序或是串行顺序来执行这些操作,或是要求执行全部所示的操作以得到期望的结果。在特定环境中,多任务和并行处理可能是有利的。
本发明的方法和装置能够利用标准编程技术来完成,利用基于规则的逻辑或者其他逻辑来实现各种方法步骤。还应当注意的是,此处以及权利要求书中使用的词语“装置”和“模块”意在包括使用一行或者多行软件代码的实现和/或硬件实现和/或用于接收输入的设备。
此处描述的任何步骤、操作或程序可以使用单独的或与其他设备组合的一个或多个硬件或软件模块来执行或实现。在一个实施方式中,软件模块使用包括包含计算机程序代码的计算机可读介质的计算机程序产品实现,其能够由计算机处理器执行用于执行任何或全部的所描述的步骤、操作或程序。
出于示例和描述的目的,已经给出了本发明实施的前述说明。前述说明并非是穷举性的也并非要将本发明限制到所公开的确切形式,根据上述教导还可能存在各种变形和修改,或者是可能从本发明的实践中得到各种变形和修改。选择和描述这些实施例是为了说明本发明的原理及其实际应用,以使得本领域的技术人员能够以适合于构思的特定用途来以各种实施方式和各种修改而利用本发明。

Claims (20)

1.一种语音数据库的质量评估方法,其特征在于,所述方法包括:
获取待评估的语音数据库,其中,所述语音数据库中包括至少一条语音;
确定所述语音数据库中至少涉及一种分类因素,所述分类因素中包括多个子类因素;
基于所述分类因素,通过分类模型对每条所述语音进行分类检测,得到所述语音数据库与所述分类因素相对应的单因素信息熵;
根据所述单因素信息熵,确定所述语音数据库的质量。
2.根据权利要求1所述的方法,其特征在于,所述基于所述分类因素,通过分类模型对每条所述语音进行分类检测,得到所述语音数据库与所述分类因素相对应的单因素信息熵,包括:
基于所述分类因素,通过分类模型对每条所述语音进行分类检测,得到所述语音数据库中各所述语音与所述分类因素中多个所述子类因素相对应的子类条件概率;
基于所述子类条件概率,得到所述语音数据库与所述分类因素相对应的单因素信息熵。
3.根据权利要求2所述的方法,其特征在于,所述基于所述子类条件概率,得到所述语音数据库与所述分类因素相对应的单因素信息熵,包括:
根据所述子类条件概率,得到所述语音数据库在所述子类因素下的子类平均条件概率;
根据所述语音数据库的所述子类平均条件概率,得到所述语音数据库与所述分类因素相对应的单因素信息熵。
4.根据权利要求1至3任一项所述的方法,其特征在于,所述根据所述单因素信息熵,确定所述语音数据库的质量,包括:
将所述单因素信息熵进行归一化,得到所述语音数据库在所述分类因素下的归一化信息熵;
根据各分类因素对应的所述归一化信息熵,得到所述语音数据库的信息熵;
根据所述语音数据库的信息熵,确定所述语音数据库的质量。
5.根据权利要求4所述的方法,其特征在于,所述根据所述语音数据库的信息熵,评估所述语音数据库的质量,包括:
将所述语音数据库的信息熵与指定阈值进行对比,当所述语音数据库的信息熵大于或等于所述指定阈值时,则所述语音数据库的质量合格;当所述语音数据库的信息熵小于所述指定阈值时,则所述语音数据库的质量不合格。
6.根据权利要求5所述的方法,其特征在于,若所述语音数据库的质量不合格,则所述方法还包括:
调节所述语音数据库的所述语音,直至所述语音数据库的信息熵大于或等于所述指定阈值。
7.根据权利要求6所述的方法,其特征在于,所述调节所述语音数据库的所述语音,直至所述语音数据库的信息熵大于或等于所述指定阈值,包括:
将所述分类因素对应的所述单因素信息熵根据熵值进行排序,确定最低熵值;
根据所述最低熵值,确定调节因素,所述调节因素为所述最低熵值对应的分类因素;
根据所述调节因素,调节所述语音数据库中对应所述调节因素的语音。
8.根据权利要求1所述的方法,其特征在于,所述分类因素包括以下因素:发音者的性别、发音者的年龄、发音者的口音、采集设备、采集环境、发音因素或内容主题。
9.根据权利要求1所述的方法,其特征在于,所述分类模型包括:对一种所述分类因素进行分类检测的单因素分类模型,或对多种所述分类因素进行分类检测的多因素分类模型。
10.一种语音数据库的质量评估装置,其特征在于,所述装置包括:
获取模块,用于获取待评估的语音数据库,其中,所述语音数据库中包括至少一条语音;
因素确定模块,用于确定所述语音数据库中至少一种分类因素,所述分类因素中包括多个子类因素;
检测模块,用于基于所述分类因素,通过分类模型对每条所述语音进行分类检测,得到所述语音数据库与所述分类因素相对应的单因素信息熵;
评估模块,用于根据所述单因素信息熵,确定所述语音数据库的质量。
11.根据权利要求10所述的装置,其特征在于,所述检测模块采用下述方式基于所述分类因素,通过分类模型对每条所述语音进行分类检测,得到所述语音数据库与所述分类因素相对应的单因素信息熵:
基于所述分类因素,通过分类模型对每条所述语音进行分类检测,得到所述语音数据库中各所述语音与所述分类因素中多个所述子类因素相对应的子类条件概率;
基于所述子类条件概率,得到所述语音数据库与所述分类因素相对应的单因素信息熵。
12.根据权利要求11所述的装置,其特征在于,所述检测模块采用下述方式基于所述子类条件概率,得到所述语音数据库与所述分类因素相对应的单因素信息熵:
根据所述子类条件概率,得到所述语音数据库在所述子类因素下的子类平均条件概率;
根据所述语音数据库的所述子类平均条件概率,得到所述语音数据库与所述分类因素相对应的单因素信息熵。
13.根据权利要求10至12任一项所述的装置,其特征在于,所述评估模块采用下述方式根据所述单因素信息熵,确定所述语音数据库的质量:
将所述单因素信息熵进行归一化,得到所述语音数据库在所述分类因素下的归一化信息熵;
根据各分类因素对应的所述归一化信息熵,得到所述语音数据库的信息熵;
根据所述语音数据库的信息熵,确定所述语音数据库的质量。
14.根据权利要求13所述的装置,其特征在于,所述评估模块采用下述方式根据所述语音数据库的信息熵,评估所述语音数据库的质量:
将所述语音数据库的信息熵与指定阈值进行对比,当所述语音数据库的信息熵大于或等于所述指定阈值时,则所述语音数据库的质量合格;当所述语音数据库的信息熵小于所述指定阈值时,则所述语音数据库的质量不合格。
15.根据权利要求14所述的装置,其特征在于,若所述语音数据库的质量不合格,则所述装置还包括:
调节模块,用于调节所述语音数据库的所述语音,直至所述语音数据库的信息熵大于或等于所述指定阈值。
16.根据权利要求15所述的装置,其特征在于,所述调节模块采用下述方式调节所述语音数据库的所述语音,直至所述语音数据库的信息熵大于或等于所述指定阈值:
将所述分类因素对应的所述单因素信息熵根据熵值进行排序,确定最低熵值;
根据所述最低熵值,确定调节因素,所述调节因素为所述最低熵值对应的分类因素;
根据所述调节因素,调节所述语音数据库中对应所述调节因素的语音。
17.根据权利要求10所述的装置,其特征在于,所述分类因素包括以下因素:发音者的性别、发音者的年龄、发音者的口音、采集设备、采集环境、发音因素或内容主题。
18.根据权利要求10所述的装置,其特征在于,所述分类模型包括:对一种所述分类因素进行分类检测的单因素分类模型,或对多种所述分类因素进行分类检测的多因素分类模型。
19.一种语音数据库的质量评估装置,其特征在于,所述装置包括:
存储器,用于存储指令;以及
处理器,用于调用所述存储器存储的指令执行权利要求1-9中任意一项所述的语音数据库的质量评估方法。
20.一种非临时性计算机可读存储介质,其特征在于,所述非临时性计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令在由处理器执行时,执行权利要求1-9中任意一项所述语音数据库的质量评估方法。
CN202010164556.XA 2020-03-11 2020-03-11 语音数据库的质量评估方法、装置及计算机存储介质 Active CN111008299B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010164556.XA CN111008299B (zh) 2020-03-11 2020-03-11 语音数据库的质量评估方法、装置及计算机存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010164556.XA CN111008299B (zh) 2020-03-11 2020-03-11 语音数据库的质量评估方法、装置及计算机存储介质

Publications (2)

Publication Number Publication Date
CN111008299A true CN111008299A (zh) 2020-04-14
CN111008299B CN111008299B (zh) 2020-06-19

Family

ID=70121066

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010164556.XA Active CN111008299B (zh) 2020-03-11 2020-03-11 语音数据库的质量评估方法、装置及计算机存储介质

Country Status (1)

Country Link
CN (1) CN111008299B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111209429A (zh) * 2020-04-20 2020-05-29 北京海天瑞声科技股份有限公司 用于度量语音数据库覆盖性的无监督模型训练方法及装置
CN111415669A (zh) * 2020-04-15 2020-07-14 厦门快商通科技股份有限公司 一种声纹模型构建方法和装置以及设备
CN112634946A (zh) * 2020-12-25 2021-04-09 深圳市博瑞得科技有限公司 一种语音质量分类预测方法、计算机设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101894560A (zh) * 2010-06-29 2010-11-24 上海大学 一种无参考源的mp3音频清晰度客观评价方法
CN106782603A (zh) * 2016-12-22 2017-05-31 上海语知义信息技术有限公司 智能语音评测方法及系统
CN108877839A (zh) * 2018-08-02 2018-11-23 南京华苏科技有限公司 基于语音语义识别技术的语音质量感知评估的方法及系统
US20190385635A1 (en) * 2018-06-13 2019-12-19 Ceva D.S.P. Ltd. System and method for voice activity detection

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101894560A (zh) * 2010-06-29 2010-11-24 上海大学 一种无参考源的mp3音频清晰度客观评价方法
CN106782603A (zh) * 2016-12-22 2017-05-31 上海语知义信息技术有限公司 智能语音评测方法及系统
US20190385635A1 (en) * 2018-06-13 2019-12-19 Ceva D.S.P. Ltd. System and method for voice activity detection
CN108877839A (zh) * 2018-08-02 2018-11-23 南京华苏科技有限公司 基于语音语义识别技术的语音质量感知评估的方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
RICHARD A. METZGER ET AL.: "Using Approximate Entropy as a Speech Quality Measure for a Speaker Recognition System", 《2016 ANNUAL CONFERENCE ON INFORMATION SCIENCE AND SYSTEMS (CISS)》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111415669A (zh) * 2020-04-15 2020-07-14 厦门快商通科技股份有限公司 一种声纹模型构建方法和装置以及设备
CN111209429A (zh) * 2020-04-20 2020-05-29 北京海天瑞声科技股份有限公司 用于度量语音数据库覆盖性的无监督模型训练方法及装置
CN112634946A (zh) * 2020-12-25 2021-04-09 深圳市博瑞得科技有限公司 一种语音质量分类预测方法、计算机设备及存储介质
CN112634946B (zh) * 2020-12-25 2022-04-12 博瑞得科技有限公司 一种语音质量分类预测方法、计算机设备及存储介质

Also Published As

Publication number Publication date
CN111008299B (zh) 2020-06-19

Similar Documents

Publication Publication Date Title
CN111008299B (zh) 语音数据库的质量评估方法、装置及计算机存储介质
WO2020238061A1 (zh) 自然语言分类方法、装置、计算机设备以及存储介质
CN111914090B (zh) 一种企业行业分类识别及其特征污染物识别的方法及装置
CN109063217B (zh) 电力营销系统中的工单分类方法、装置及其相关设备
CN108513175B (zh) 一种弹幕信息的处理方法及系统
WO2021189830A1 (zh) 样本数据优化方法、装置、设备及存储介质
WO2022089467A1 (zh) 视频数据的排序方法、装置、计算机设备和存储介质
CN109271517A (zh) Ig tf-idf文本特征向量生成及文本分类方法
CN110717529B (zh) 一种数据采样方法及装置
CN110059804B (zh) 数据处理方法及装置
CN110162775A (zh) 确定意图识别准确度的方法、装置及计算机设备
CN112612887A (zh) 日志处理方法、装置、设备和存储介质
Sharma et al. Novel hybrid model for music genre classification based on support vector machine
CN112987940B (zh) 一种基于样本概率量化的输入方法、装置和电子设备
CN117454873B (zh) 一种基于知识增强神经网络模型的讽刺检测方法及系统
Doulaty et al. Unsupervised domain discovery using latent dirichlet allocation for acoustic modelling in speech recognition
CN111178498B (zh) 一种股票波动预测方法及装置
CN112926663A (zh) 分类模型的训练方法、装置、计算机设备及存储介质
CN110276070B (zh) 一种语料处理方法、装置及存储介质
CN107016073B (zh) 一种文本分类特征选择方法
CN115630708A (zh) 一种模型更新方法、装置、电子设备、存储介质及产品
CN114238062B (zh) 板卡烧录装置性能分析方法、装置、设备及可读存储介质
CN115762530A (zh) 声纹模型训练方法、装置、计算机设备和存储介质
CN112634947B (zh) 一种动物声音情感特征集合排序识别方法及系统
CN115660101A (zh) 一种基于业务节点信息的数据服务提供方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant