CN1311422C - 语音识别评价装置和语音识别评价方法 - Google Patents

语音识别评价装置和语音识别评价方法 Download PDF

Info

Publication number
CN1311422C
CN1311422C CNB2004101038905A CN200410103890A CN1311422C CN 1311422 C CN1311422 C CN 1311422C CN B2004101038905 A CNB2004101038905 A CN B2004101038905A CN 200410103890 A CN200410103890 A CN 200410103890A CN 1311422 C CN1311422 C CN 1311422C
Authority
CN
China
Prior art keywords
speech recognition
assessment item
evaluation
information
tonequality
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CNB2004101038905A
Other languages
English (en)
Other versions
CN1619643A (zh
Inventor
酒井优
金泽博史
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Publication of CN1619643A publication Critical patent/CN1619643A/zh
Application granted granted Critical
Publication of CN1311422C publication Critical patent/CN1311422C/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/01Assessment or evaluation of speech recognition systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供一种不再需要预先准备评价用语音数据,可以容易地对语音识别装置相对每一评价项目的性能进行评价,并且可以用少的时间和少的成本实施评价的技术。评价项目设定部(11)取得评价语音识别装置用的评价项目,并依据该评价项目生成出确定输出至语音识别装置的合成声音特征的评价用语音信息。声音合成参数生成部(12)生成用来生成与评介用语音信息相对应的合成声音的参数。声音合成部(13)依据所述参数生成合成声音。合成声音输出部(14)将合成声音输出至语音识别装置。识别结果获取部(15)从语音识别装置取得语音识别装置输入合成声音并实施识别的识别结果。识别结果解析部(16)参照评价项目和识别结果,对语音识别装置相对该评价项目的性能进行评价。

Description

语音识别评价装置和语音识别评价方法
技术领域
本发明涉及对识别声音用的语音识别装置的性能实施评价的语音识别评价装置、语音识别评价方法和语音识别评价程序。
背景技术
在语音识别装置的开发过程中,对语音识别装置是否能够发挥所期待的性能进行评价是必不可少的。对语音识别装置的性能评价,可以按照将在各种各样条件下录音获得的语音数据输入至语音识别装置,对语音识别装置的识别结果进行分析处理的方式进行。如果举例来说,对语音识别装置的识别率进行分析处理,可以获知语音识别装置能够发挥良好性能的条件,并且可以获知在这些条件下的具体性能、即作为识别率的数值(例如,参见非专利文献1)。而且,对于语音识别装置不能发挥出如所期待的性能的场合,也可以通过对错误识别结果的变化走向进行分析处理,对语音识别装置不能发挥出如所期待的性能的原因进行详细探索,进而还可以将这些原因在进行性能改善时加以利用。
对语音识别装置进行评价时的评价项目中包含的内容是多种多样的,典型的为下述三种。即,(1)与语音识别装置可以接收的语汇集相关的变化量(variation),(2)由说话者导致的变化量(说话者的性别、说话者的说话速度、说话者的声音高度、其他原因(说话者的语调风格、讹音等等)),(3)由环境导致的变化量(周围的噪音、麦克风的特性、其他原因(传送系统的特性等等))。对语音识别装置的评价,是针对上述例举的各种各样的评价项目,将条件不同的多个语音数据输入至语音识别装置,对语音识别装置相对各个项目的变化量是否表现出良好性能实施确认。理想的语音识别装置能够在任意的条件下均表现出良好性能,相对条件改变时的性能差异小。
在对语音识别装置实施评价时,可以按照不同的视角对上述评价项目实施划分。对语音识别装置实施评价的视角有许多,具有代表性的为以下两种。(1)针对不同评价项目对语音识别装置的全部性能进行研究(比如说参见非专利文献2)。对于对语音识别装置的基本性能进行评价的场合,需要针对所有评价项目对语音识别装置实施评价。(2)对某些特定条件下的语音识别装置的性能进行研究。对于对特定用途的语音识别装置的性能进行评价的场合,不考虑该用途涉及的变化量,即在排除可以被固定的评价项目的条件下,相对其他评价项目的变化量对语音识别装置进行性能调研。如果举例来说,在对“语音识别装置可以接受的语汇集进行固定”且“男性说话者专用”的语音识别装置进行评价时,是在语汇集和说话者性别保持固定的条件下,相对其他评价项目的变化量对语音识别装置进行性能调研的。一般说来,语音识别装置的用途不同,需要评价的项目也不同。
从如上说明的视角对语音识别装置实施评价的方法如下所述。(1)对于针对各种各样的评价项目对语音识别装置的全部性能进行研究的场合,需要针对全部评价项目,准备出能够充分覆盖这些变化量的大规模评价用语音数据集。在针对评价用语音数据集的每个评价项目的变化量实施调研的基础上,依据语音识别装置的识别结果,利用诸如统计方法等等对与这些变化量对应的识别性能实施求解,从而可对每个评价项目的性能实施调研。(2)对于在某些特定条件下对语音识别装置的性能进行调研的场合,需要准备出能够覆盖在这些特定条件下应考虑的评价项目变化量的评价用语音数据集,或是需要进行重新收录。特别是对于对语音识别装置可以接收的语汇集的设计实施变更的场合,需要对包含在语汇集中的语汇进行发声所获得的语音数据重新进行收录。在对评价数据集的每一评价项目的变化量实施调研的基础上,利用诸如统计方法等等对与这些变化量对应的识别性能实施求解,能够对某些特定条件下的每个评价项目的性能实施调研。
【非专利文献1】寺鸟立太及其他人,“依据HMM语音合成的语音识别性能预测方法”,日本音响学会演讲论文集2003年3月,pp159-pp160
【非专利文献】松井、内藤及其他人,“考虑到地域和年龄的广泛分布的大规模日本语语音数据库”,日本音响学会演讲论文集1999年秋季,pp169-pp170
如前所述,为了能够对语音识别装置实施评价,必须要准备出与评价视角相对应的评价用语音数据集。然而,准备这种评价用语音数据集用的语音数据库的收录,是需要花费相当多的时间和费用的。
首先,(1)对于针对各种各样的评价项目对语音识别装置的全部性能进行调研的场合,构筑能够覆盖全部评价项目变化量的大规模评价用语音数据集的费用是相当大的。即使已经构筑,对于需要对构筑时没有想到的评价项目进行评价的场合,以及希望对某评价项目增加变化量的场合,均需要对评价用语音数据实施重新收录或补充收录,这还需要花费时间和成本。
其次,(2)即使是对于在某些特定条件下对语音识别装置的性能进行调研的场合,对于不存在能够覆盖在评价的特定条件下需要考虑的评价项目变化量的评价用语音数据集的场合,也需要对语音数据实施重新收录,这也需要花费非常大的时间和费用。采用这种方式,存在有在对语音识别装置进行评价时,准备评价用语音数据需要花费非常多的时间和费用的问题。
可以考虑通过对已经存在的评价用语音数据集实施人工变更,人工制作出覆盖各种各样评价项目变化量的评价用语音数据集的方法。对于与环境有关的评价项目(噪音、麦克风特性等等),通过实施噪音重叠、将麦克风特性叠置在评价用语音数据上等等的处理,能够比较容易地增加这些变化量。然而,对已经存在的评价用语音数据中的说话速度和声音高度实施人工变更是非常困难的,对于说话者的性别和语音内容实施人工变更是不可能的,所以不能对这些变化量实施人工增加。因此,采用对已经存在的评价用语音数据集实施人工变更的方法,并不能解决前述问题。
发明内容
本发明就是针对上述现有技术的发明,目的就是提供一种不需要预先准备出评价用语音数据,可以容易地针对每一评价项目对语音识别装置的性能进行评价,且能够用比较少的时间和比较少的费用进行评价的语音识别评价装置、语音识别评价方法和语音识别评价程序。
本发明提供的一种语音识别评价装置,其特征在于具有:获取对语音识别装置进行评价用的评价项目,依据该评价项目确定输出至语音识别装置的合成声音的特征,并生成出评价用语音信息的语音信息生成单元;生成用来生成与所述评价用语音信息相对应的合成声音的参数的参数生成单元;依据所述参数生成合成声音的合成声音生成单元;将所述合成声音输出至所述语音识别装置的输出单元;从所述语音识别装置获取所述语音识别装置对所述合成声音进行识别的识别结果的获取单元;以及参照所述评价项目和所述识别结果,针对该评价项目对所述语音识别装置的性能进行评价的评价单元。
而且,本发明提供的另一种语音识别评价装置,其特征在于具有:获取对语音识别装置进行评价用的评价项目,依据该评价项目生成用来确定输出至语音识别装置的合成声音的特征的评价用语音信息的语音信息生成单元;生成用来生成与所述评价用语音信息相对应的特征矢量时间序列的参数的参数生成单元;依据所述参数生成特征矢量时间序列用的时间序列生成单元;将所述特征矢量时间序列输出至所述语音识别装置的输出单元;从所述语音识别装置获取所述语音识别装置输入所述特征矢量时间序列并实施识别的识别结果的获取单元;以及参照所述评价项目和所述识别结果,针对该评价项目对所述语音识别装置的性能进行评价的评价单元。
本发明提供的一种语音识别评价方法,其特征在于其中的步骤包括:获取对语音识别装置进行评价用的评价项目,依据该评价项目生成用来确定输出至语音识别装置的合成声音的特征的评价用语音信息;生成用来生成与所述评价用语音信息相对应的合成声音的参数;依据所述参数生成合成声音;将所述合成声音输出至所述语音识别装置;从所述语音识别装置获取所述语音识别装置输入所述合成声音并实施识别的识别结果;参照所述评价项目和所述识别结果,针对该评价项目对所述语音识别装置的性能进行评价。
而且,本发明提供的另一种语音识别评价方法,其特征在于其中的步骤包括:获取对语音识别装置进行评价用的评价项目,依据该评价项目生成用来确定输出至语音识别装置的合成声音的特征的评价用语音信息;生成用来生成与所述评价用语音信息相对应的特征矢量时间序列的参数;依据所述参数生成特征矢量时间序列;将所述特征矢量时间序列输出至所述语音识别装置;从所述语音识别装置获取所述语音识别装置输入所述特征矢量时间序列并实施识别的识别结果;参照所述评价项目和所述识别结果,针对该评价项目对所述语音识别装置的性能进行评价。
根据本发明的语音识别评价装置和语音识别评价方法,不需要准备评价用语音数据,而且可以使用比较少的时间和比较少的费用针对每一评价项目容易地对语音识别装置的性能进行评价。
附图说明
图1为表示作为本发明实施例1的语音识别评价装置用的方框图。
图2为表示作为本发明实施例1的语音识别评价方法用的流程图。
图3为表示图1中的评价项目设定部和识别结果解析部用的方框图。
图4为表示储存在图3所示的音质评价项目变化量处的信息的图。
图5为表示相对图4所示的每一变化量由如图1所示的声音合成参数生成部生成出的声音合成参数用的示意图。
图6为表示依据如图5所示的参数由识别结果解析部实施了分析处理的分析结果的图。
图7为表示作为本发明实施例2的语音识别评价装置的方框图。
图8为表示作为本发明实施例3的语音识别评价装置的方框图。
图9为表示图8中的评价项目设定部和识别结果解析部的方框图。
图10为表示对如图8所示的解析结果提示部向使用者提示的分析结果的图。
图11为表示作为本发明实施例4的语音识别评价装置的方框图。
图12为表示图11中的评价项目设定部和识别结果解析部的方框图。
图13为表示如图11所示的解析结果提示部向使用者提示的分析结果的图。
图14为表示作为本发明实施例5的语音识别评价装置用的方框图。
图15为表示图14中的评价项目设定部和识别结果解析部的方框图。
图16为表示对如图14所示的解析结果提示部向使用者提示的分析结果的图。
具体实施方式
下面参考附图,对作为本发明实施例的语音识别评价装置、语音识别评价方法和语音识别评价程序进行说明。本发明的实施例提供的是利用从声音合成部输出的合成声音对语音识别装置进行评价的装置。声音合成部满足下述条件。通过对参数进行调整,可以输出能够覆盖任意语汇集的变化量的合成声音、对覆盖由说话者导致的评价项目变化量的合成声音。通过将这种声音合成部输出的合成声音作为评价用语音数据集使用,可以针对任意评价项目,对语音识别装置的性能进行评价。下面,对本发明的实施例进行更详细的说明。
(实施例1)
下面参考附图1,对作为本实施例的语音识别评价装置的各装置部分进行说明。图1为表示作为本发明实施例1的语音识别评价装置的方框图。
评价项目设定部11接收使用者给出的对语音识别装置的评价项目实施的指定。评价项目是对由语音识别装置获取到的各种各样形式的声音,是否能够作为不同的声音实施识别进行评价的项目。如果举例来说,评价项目有音质信息、语汇信息、是否有语音停滞和不需要语言插入的信息、发出声音时的感情信息。音质信息包括诸如说话者的性别、说话者的说话速度(语速)、说活者的声音高度、说话者语调等等。在本实施例中,作为评价项目使用评价用语音信息的说话者的性别、说话速度、声音高度这三点进行说明。针对语汇信息的内容利用实施例3进行说明,针对是否存在有语音停滞和不需要语言插入的信息的内容利用实施例4进行说明,针对发出声音时的感情信息的内容利用实施例5进行说明。但是,作为本发明实施例的语音识别评价装置并不仅限于这些评价项目,还可以使用其他评价项目。
声音合成参数生成部12针对由评价项目设定部11指定的每一评价项目变化量,生成出与该变化量相对应的声音合成参数。该声音合成参数是用来生成与各变化量相对应的合成声音的参数。对于与某评价项目相对应的声音合成参数,通过生成出与评价项目变化量相对应的声音合成参数的设定值的方式,实施声音合成参数的生成。声音合成参数的生成还将在后面参考附图5、以具体实例方式举例进行详细说明。
声音合成部13依据从声音合成参数生成部12输出的声音合成参数,进行声音合成处理。声音合成处理是按照所输入的声音合成参数设定值的每种组合形式,对包含在评价项目设定部11预先储存的标准语汇集(如后所述的图3中参考标号113表示的部分)中的全部语汇实施读音,而实现声音合成的。随后,声音合成部13将合成声音输出至合成声音输出部14处。
合成声音输出部14将声音合成部13生成出的合成声音,输出至作为评价对象的语音识别装置。语音识别装置对所输入的合成声音实施识别处理。识别结果获取部15获取与从合成声音输出部14输出的合成声音相对应的语音识别装置的识别结果,并输出至识别结果解析部16。
识别结果解析部16输入由识别结果获取部15给出的语音识别装置的识别结果和由评价项目设定部11输出的评价项目,并且对与评价项目设定部11指定的评价项目相对应的语音识别装置的性能实施分析处理。识别结果解析部16判断所输入的识别结果是正确解还是非正确解,并且对该判断结果依次保存。在这时,对与所输入的识别结果相对应的评价项目和与该变化量相关的信息与识别结果一并实施保存。声音合成部13在与声音合成参数生成部12输出的声音合成参数集相对应的全部合成声音的输出结束时,获得与其相对应的、由语音识别装置给出的全部识别结果,随后识别结果解析部16利用统计方式,对由评价项目设定部11指定的评价项目对语音识别装置的性能进行分析处理。识别结果解析部16还将该分析处理结果输出至解析结果提示部17处。
解析结果提示部17向使用者提示出由识别结果解析部16输出的分析处理结果。解析结果提示部17通过调整为使用者容易观察的形式,对所输入的分析处理结果实施提示。
下面参考图2,对如图1所示的语音识别评价装置的运行方式进行说明。图2为表示作为本发明实施例1的语音识别评价方法的流程图。
首先,评价项目设定部11从使用者接收语音识别装置的评价项目的指定。评价项目设定部11将评价用声音信息输出至声音合成参数生成部12。声音合成参数生成部12根据评价用声音信息生成出声音合成参数,并且将声音合成参数输出至声音合成部13。声音合部13根据声音合成参数生成出合成声音,并且将合成声音输出至合成声音输出部14。合成声音输出部14将合成声音输出至语音识别装置,由语音识别装置对合成声音实施识别。语音识别装置对合成声音实施识别的识别结果由识别结果获取部15获取,并且将识别结果输出至识别结果解析部16。识别结果解析部16对该识别结果实施分析处理。换句话说就是,参照步骤S1的评价项目和识别结果,针对评价项目对语音识别装置的性能进行评价。随后,解析结果提示部17将识别结果解析部16给出的分析处理结果提示给使用者。对分析处理结果实施提示后,由使用者判断是否再对语音识别装置进行评价,在进行评价的场合,返回步骤S1,改变评价项目并再次对语音识别装置实施评价,对于不进行评价的场合,结束对语音识别装置的评价作业。
下面参考附图3,对如图1所示的评价项目设定部11和识别结果解析部16进行详细说明。图3为表示图1中的评价项目设定部11和识别结果解析部16的方框图。
评价项目设定部11具有音质评价项目输入部111、评价用语音信息生成部112、标准评价语汇集113和音质评价项目变化量114。
音质评价项目输入部111对由使用者给出的、对与音质相关的评价项目的指定信息实施输入,并且将与音质相关的评价项目输出至评价用语音信息生成部112。
评价用语音信息生成部112对于从音质评价项目输入部111输入的评价项目,参照作为每一评价项目变化量信息的音质评价项目变化量114,生成出具有相对每一评价项目的变化量的评价用语音信息。而且,评价用语音信息生成部112参考标准评价语汇集113并利用储存在其中的语汇,生成出评价用声音的语汇(说话内容)。评价用语音信息生成部112还将某些音质的语音信息和评价用声音的语汇作为评价用语音信息,输出至声音合成参数生成部12。
标准评价语汇集113储存有多个用于评价语音识别装置的语汇。理想的是这些语汇是语音识别装置经常输入且所需要的标准语汇。音质评价项目变化量114储存有与每一评价项目相对应的多个变化量。音质评价项目变化量114中的内容将在后面参考图4进行说明。
识别结果解析部16具有识别结果正确解判断部161和评价项目分类识别率计算部162。
识别结果正确解判断部161输入从评价项目设定部11中的标准评价语汇集113输入至语音识别装置的评价用声音语汇,将这一语汇与通过识别结果获取部15得到的识别结果进行比较,判断该识别结果是正确解还是非正确解,将表示为正确解还是非正确解的信息附加在识别结果上,进而将附加有该正确解信息的识别结果输出至评价项目分类识别率计算部162。
评价项目分类识别率计算部162参照音质评价项目输入部111输出的与音质相关的评价项目信息,针对附加有正确解或非正确解信息的识别结果按照评价项目类别,求出该每一变化量的识别率和其平均值、分散值。在本实施例中分别对于“说话者的性别”、“说话速度”、“声音高度”这些项目,由评价项目分类识别率计算部162求出每个评价项目变化量的识别率和其平均值、分散值,下面还将参考图6对其进行详细说明。随后,评价项目分类识别率计算部162将这些识别率和平均值、分散值输出至解析结果提示部17。
下面参考附图4,对如图3所示的音质评价项目变化量114的内容进行详细说明。图4表示储存在图3所示的音质评价项目变化量114处的信息。评价项目设定部11中的音质评价项目变化量114,储存有预先准备的与每一评价项目相关的变化量信息。
在如图4所示的实例中,“说话者的性别”1141(参见图4中的“说话者(性别)”)共有六种变化量,“说话速度”1142、“声音高度”1143分别有五种变化量。对于这三种之外的评价项目,可以分别从各评价项目变化量中选择出一个标准实施利用。在如图4所示的实例中,评价项目“语调”1144存在有三种类型的变化量,然而在此仅由其中选择出作为“标准”的一个加以利用。而且,对于语音识别装置可以接收的语汇集(被称为“语法”(grammar),下面也简单表述为“语法”),可以利用预先储存在标准评价语汇集113处的标准语法。因此,对于使用者指定了作为评价项目的“说话者(性别)”、“说话速度”、“声音高度”的场合,可以对具有6*5*5=150种变化量的评价用语音数据加以利用。评价项目设定部11将使用者指定的评价项目信息,输出至声音合成参数生成部12处。
下面参考图5,对依据上述如图4所示的变化量,将评价用语音信息生成部112生成出的评价用语音信息输入至声音合成参数生成部12所生成出的声音合成参数进行说明。图5表示了对如图4所示的每一变化量,由声音合成参数生成部12生成出的声音合成参数。
在如图5所示的实例中,评价项目“说话者(性别)”与声音合成参数中的“模型”相对应,并且与作为评价项目“说话者(性别)”的变化量的“男性A”~“女性F”相对应地生成作为声音合成参数“模型”的设定值的“模型A”~“模型F”。
评价项目中的“说话速度”与声音合成参数中的“持续时间(在此指的是一个音素的平均持续时间)”相对应,并且在“0.50”~“2.00”的范围内,生成出与评价项目“说话速度”的变化量相对应的声音合成参数“持续时间”的设定值。在此,声音合成参数“持续时间”的设定值表示相对平均持续时间的比率,并且满足设定值越小则一个音素的平均持续时间越短,即说话速度越快的关系。
评价项目中的“声音高度”与声音合成参数中的“音调”相对应,并且在“2.00”~“0.50”的范围内,生成出与评价项目“声音高度”的变化量相对应的声音合成参数“音调”的设定值。在此,声音合成参数“音调”的设定值表示相对平均音调的比率,并且满足设定值越大则音调越大,即声音越高的关系。
对于前述三种声音合成参数之外的参数,仅仅生成出一个与评价项目的变化量中的标准变化量相对应的设定值,并利用该设定值。在如图5所示的实例中,仅仅对作为评价项目“语调”的变化量中的一个标准变化量,生成声音合成参数“韵律式样”的设定值“标准韵律式样”。对于存在其他评价项目、声音合成参数的场合也一样。在此存在有声音合成部13的合成精度不良,在评价项目变化量的大小比较小时,无法实施再现的情况。为了防止这种评价项目的变化量大小受到声音合成部13的性能限制,可以按照使声音合成参数的设定值具有比较大的变化的方式,对其进行控制。
这样,生成出为了生成由使用者指定的评价项目“说话者(性别)”、“说话速度”、“声音高度”的变化量组合而成的150个评价用语音数据所必需的、由声音合成参数“模型”、“持续时间”、“音调”的不同设定值及其他声音合成参数的标准设定值组合形成的150个声音合成参数集。声音合成参数生成部12将生成出的声音合成参数集输出至声音合成部13。
下面参考图6,对于将依据如图5所示的声音合成参数生成部12生成出的参数生成出的合成声音输出至语音识别装置,并由识别结果解析部16对所获得的识别结果实施分析处理,并由解析结果提示部17提示出的分析处理结果进行说明。图6为表示依据如图5所示的参数实施分析处理的分析处理结果的示意图。
在如图6所示的实例中,对于由评价项目设定部11指定的各评价项目“说话者(性别)”、“说话速度”、“声音高度”,向使用者提示出与这些变化量对应的识别率和其平均值以及与这些变化量对应的分散值。通过如图6所示的形式对分析处理结果实施提示,可以使使用者容易地理解下述各点。换句话说就是,对于“说话者(性别)”由于男性C的识别率比其他的要低,所以可知有语音识别装置对特定的说话者不能充分发挥其性能的情况。对于“说话速度”由于各变化量的识别率的分散值比其他评价项目大,然而说话速度越慢则识别率上升,所以语音识别装置的性能容易受到说话速度变化的影响,当说话速度越慢(即慢慢的说话)则倾向于展示出良好的性能。对于“声音高度”由于各变化量的识别率的分散值比其他评价项目要小的多,所以语音识别装置的性能几乎不会受到声音高度的影响。通过参照识别率的平均值可知语音识别装置的平均性能。
通过对本实施形式的说明可知,如果采用作为本实施形式的语音识别评价装置,可以减少使用者准备评价用语音数据集所需要的时间和成本。而且,可以容易地获知语音识别装置相对评价项目的性能。
(实施例2)
作为实施例2的语音识别评价装置,仅声音特征矢量合成部23和特征矢量输出部24与实施例1的语音识别评价装置不同。其他的构成形式与由实施例1表示出的语音识别评价装置相同。图7为表示作为本发明实施例2的语音识别评价装置的方框图。
作为实施例2的语音识别评价装置,在声音特征矢量合成部23中,作为输出合成声音的一种替代,输出向作为评价对象的语音识别装置输入的特征矢量时间序列。如果举例来说,特征矢量时间序列可以是LPC对数倒频谱(特征量)。LPC对数倒频谱在诸如“古井(著)的“语音信息处理”,日本森北株式会社”中有记载。声音特征矢量合成部23将特征矢量时间序列输出至特征矢量输出部24。特征矢量输出部24将所输入的特征矢量时间序列输出至作为评价对象的语音识别装置处,语音识别装置参照输入的特征矢量时间序列进行语音识别处理。
作为实施例2的语音识别评价装置,其特征在于声音特征矢量合成部23和特征矢量输出部24不输出合成声音,而是输出取代合成声音的、可输入至作为评价对象的语音识别装置的特征矢量时间序列。一般说来,可输入至语音识别装置的特征矢量时间序列有比合成声音的数据尺寸小的倾向。因此,作为本实施形式的语音识别评价装置,不采用合成声音,而是采用特征矢量时间序列,由此具有能够缩短在语音识别评价装置和作为评价对象的语音识别装置之间输入输出数据所需要的时间的技术优点。
(实施例3)
作为实施例3的语音识别评价装置,由使用者指定的评价项目与其他实施形式不同。在本实施例中,使用者为了进行评价而指定语法。由于所指定的评价项目与实施例1中的不同,所以仅评价项目设定部31和识别结果解析部36与作为实施例1的语音识别评价装置中的不同。其他的构成形式与由实施例1表示出的语音识别评价装置相同。图8为作为本发明实施例3的语音识别评价装置的方框图。
评价项目设定部31对语音识别装置的评价项目中的“语音识别装置可以接受的语法”实施接收。同时,使用者对进行语音识别装置评价用的语法实施输入。在此,以输入了由“电源导通”、“电源断开”这两个语汇构成的语法的场合为例进行说明。评价项目设定部31对评价项目“语法”之外的评价项目变化量实施全部选择,并将这些信息输出至声音合成参数生成部12。
识别结果解析部36判断所输入的识别结果是正确解还是非正确解,并且对该判断结果依次保存。识别结果解析部36对于包含在由评价项目设定部11指定的语法内的语汇,对某一语汇是否被错误识别为诸如其他语汇进行分析处理。识别结果解析部36将该分析处理结果输出至解析结果提示部17。
下面参考附图9,对评价项目设定部31和识别结果解析部36进行详细说明。图9为表示图8中的评价项目设定部31和识别结果解析部36用的示意性方框图。
评价项目设定部31具备评价语汇输入部311、评价用语音信息生成部312和音质评价项目变化量313。
评价语汇输入部311从使用者输入与语法相关的评价项目的指定,并且将与语法相关的评价项目输出至评价用语音信息生成部312。
评价用语音信息生成部312对于从评价语汇输入部311输入的评价项目,以作为每一音质评价项目的变化量信息的音质评价项目变化量313作为参考,生成出具有每一评价项目变化量的评价用语音信息。
音质评价项目变化量313储存有与每一评价项目相对应的多个变化量。音质评价项目变化量313中的内容在上面已经参考图4进行过说明。
识别结果解析部36具有识别结果正确解判断部361、评价语汇分类错误率计算部362。
识别结果正确解判断部361对输入至评价项目设定部31的评价语汇输入部311处的评价语汇实施输入,将该语汇与通过识别结果获取部15获得的识别结果进行比较,判断该识别结果是正确解还是非正确解,将表示为正确解还是非正确解的信息附加在识别结果上,进而将附加有该正确解信息的识别结果输出至评价语汇分类错误率计算部362处。
评价语汇分类错误率计算部362以从评价语汇输入部311输出的评价语汇信息作为参考,对于附加有正确解或非正确解的信息的识别结果,按照评价项目类别求出每个变化量的错误频度,这一点将在后面参考图10进行详细说明。随后,评价语汇分类错误率计算部362将错误频度输出至解析结果提示部17。
下面,以作为语音识别装置的评价项目的、语音识别装置可接受的语法是由“电源导通”、“电源断开”这两个语汇构成的语法的场合为例,对本实施形式进行详细说明。
首先,使用者从由评价项目设定部31提示出的语音识别装置的评价项目中,选择“语音识别装置可以接受的语法”。同时,使用者将语音识别装置评价用的语法输入至评价语汇输入部311。
评价用语音信息生成部312对于由评价语汇输入部311指定的语法,参照作为每一音质评价项目的变化量信息的音质评价项目变化量313,生成出具有储存在音质评价项目变化量313处的全部音质评价项目变化量的评价用语音信息。换句话说就是,对于包含在语法中的每个单词,生成出包含储存在音质评价项目变化量313处的“说话者(性别)”、“说话速度”、“声音高度”和“语调”的全部变化量的评价用语音信息。
评价项目设定部31将评价用语音信息输出至声音合成参数生成部12。声音合成参数生成部12生成出与每个评价项目的变化量相对应的声音合成参数。
声音合成参数生成部12对于除输入的评价项目中的“语法”之外的每一评价项目的变化量,生成出与变化量相对应的声音合成参数。声音合成参数的生成方式与实施例1中的方式相同。声音合成参数生成部12将所生成出的声音合成参数集和由使用者输入的语法,输出至声音合成部13处。
声音合成部13依据所输入的声音合成参数实施声音合成处理。在这时,对包含在使用者通过评价项目设定部11输入的语法中的全部语汇实施读音,而实施声音合成。在前述的实例中,针对全部声音合成参数的设定值的每个组合,对“电源导通”、“电源断开”这两个发声声音实施合成处理。声音合成部13将合成声音输出至合成声音输出部14处。
合成声音输出部14将合成声音输出至作为评价对象的语音识别装置处。语音识别装置对所输入的合成声音实施识别处理。识别结果获取部15取得由作为评成价象的语音识别装置输出的识别结果,并输出至识别结果解析部36。
识别结果解析部36判断所输入的识别结果是正确解还是非正确解,并且对该判断结果依次保存。识别结果解析部36对于包含在由评价项目设定部11指定的语法中的语汇,分析某一语汇是否被错误识别为诸如某一语汇。识别结果解析部36将该分析处理结果输出至解析结果提示部17。
在该实例中,对于表示在图10中上部分处的、包含在语法中的“电源导通”、“电源断开”这些单词,求出将“电源导通”错误识别为“电源断开”的频度以及将“电源断开”错误识别为“电源导通”的频度。图10是表示由评价语汇分类错误率计算部362计算出的分析处理结果,即解析结果提示部17提示给使用者的分析处理结果的图。
解析结果提示部17按照容易被使用者观察的方式对所输入的分析处理结果实施整形,并向使用者实施提示。这一实例显示在图10中的上部分处。在如图10的上部分所示的实例中,对于包含在评价项目设定部31指定的语法中的语汇,向使用者提示被错误识别时的语汇和频度。该频度为相对语汇的总发声数的错误识别发声数。通过采用如图10所示的形式向使用者提示分析处理结果,使用者可以容易地获知哪个语汇具有容易被错误识别为哪个语汇的倾向、这样的错误识别的发生频度。如果举例来说就是,正如图10上部分所示的那样,可以容易地了解到语汇“电源导通”具有比较强的被错误地识别为“电源断开”的倾向(出现的可能性),而相反方向则不存在这种问题。
使用者可以根据解析结果提示部17提示出的分析处理结果变更语法,而不改变除语法之外的其他条件,再次进行直到前述步骤的处理。作为进行这种处理的一个实例,在图10中的下部分处,表示了将语法变更为由“电源接入”、“电源关断”这两个语汇构成的语法,并再次进行直到前述步骤的处理时,由解析结果提示部17给出的输出结果。由如图10中下部分的分析处理结果可知,如图10中上部分表示的特定错误识别倾向不再存在,对全部语汇具有相同频度的错误识别率。通过对图10中的上侧部分和下侧部分(即进行语法修正之前和修正之后)的分析处理结果进行比较,使用者可以容易地获知与采用如图10中上部分处所示的语法相比,采用如图10中下部分处所示的语法将不会出现特定错误识别倾向的情况。
如图10所示,通过分别采用两个不同的语法得到语音识别装置的性能分析处理结果,并且对该结果获得的两个分析处理结果进行比较,可以容易地理解在两个语法间的错误倾向间的差异。在如图10所示的实例中,使用者可以容易地获知与采用由“电源导通”、“电源断开”这两个单词构成的语法的场合相比,在采用由“电源接入”、“电源关断”这两个单词构成的语法场合下,可以减小错误率出现的可能性。
如果采用作为本实施例的语音识别评价装置,使用者可以容易地获知对于语音识别装置可以接受的语法,是否存在有特定的错误识别倾向。而且,还可以容易地对与多个语法对应的语音识别装置的识别结果进行比较。
(实施例4)
作为实施例4的语音识别评价装置,由使用者指定的评价项目与其他实施例不同。在本实施例中,使用者可以选择是否将可能出现在人类真实发声中的语音停滞和不需要的插入语,包含在评价用数据集中。由于所指定的评价项目与实施例1中的不同,所以仅评价项目设定部41和识别结果解析部46与作为实施例1的语音识别评价装置中的不同。其他的构成形式与由实施例1表示出的语音识别评价装置相同。图11为表示作为本发明实施例4的语音识别评价装置的方框图。
评价项目设定部41接受作为语音识别装置的评价项目的、在人类真实发声中存在的语音停滞和不需要的插入语。而且,可以针对语法,指定语音停滞和不需要的插入语的开始位置及其内容。如果举例来说,可以按照在单词“接入”之前插入语音停滞、在单词“电源”和单词“关断”之间插入不需要用语“啊~哎”的方式实施指定。对于未指定语音停滞和不需要插入语的开始位置和相应内容(比如说“啊~哎”等等)的场合,评价项目设定部41从预先储存的语音停滞和不需要语言的式样一览表中进行适当的选择,并将其插入到语法中所需要的任何位置处。可以随机地决定插入位置及其内容,也可以预先存储在语法中容易产生语音停滞和不需要的插入语的位置和与其内容相关的统计信息,并且由这些信息决定其插入位置和内容。
识别结果解析部46判断所输入的识别结果是正确解还是非正确解,并且对该判断结果依次保存。识别结果解析部46对于包含在由评价项目设定部41指定的语法中的语汇,对某一语汇是否被错误识别为诸如某一语汇进行分析处理。识别结果解析部46将该分析处理结果输出至解析结果提示部17。
下面参考附图12,对评价项目设定部41和识别结果解析部46进行详细说明。图12为表示图11中的评价项目设定部41和识别结果解析部46用的方框图。
评价项目设定部41具有评价语汇输入部411、不需要语插入部412、评价用语音信息生成部413和音质评价项目变化量414。
评价语汇输入部411从使用者接受对语音识别装置可以接受的语法实施指定的信息。不需要语插入部412生成插入有不需要语的语法和未插入的语法,并且将这些语法作为评价语汇输出至评价用语音信息生成部413处。不需要语插入部412对未包含在语法中但在人类真实发声中出现可能性高的、诸如“啊~哎”等发音和诸如语音停滞等不需要语的发声内容、语法中不需要语的插入位置实施指定。
评价用语音信息生成部413对于从不需要语插入部412输入的评价项目,参照作为每一音质评价项目的变化量信息的音质评价项目变化量414,生成出具有每一评价项目的变化量的评价用语音信息。
音质评价项目变化量414储存有与每一评价项目相对应的多个变化量。音质评价项目变化量414的内容与通过实施例3说明的音质评价项目变化量313相同。
而且,识别结果解析部46具有识别结果正确解判断部461和不需要语有无分类错误率计算部462。
识别结果正确解判断部461将输入至评价项目设定部41的评价语汇输入部411处的评价语汇作为输入,将该语汇与由识别结果获取部15获得的识别结果进行比较,判断该识别结果是正确解还是非正确解,将表示正确解还是非正确解的信息附加在识别结果上,进而将附加有该正确解信息的识别结果输出至不需要语有无分类错误率计算部462处。
不需要语有无分类错误率计算部462参照从评价语汇输入部411和不需要语插入部412分别输出的评价语汇和不需要语的内容、不需要语的插入位置的信息,对附加有正确解或非正确解的信息的识别结果,按照评价项目分类地求出其每一变化量的错误频度,这一点将在后面参考图13进行详细说明。随后,不需要语有无分类错误率计算部462将错误率输出至解析结果提示部17。
下面,对本实施形式的整体动作流程进行说明。
评价项目设定部41将使用者指定的评价项目和语法、与语音停滞和不需要语的插入位置及其内容相关的信息,一并输出至声音合成参数生成部12处。声音合成参数生成部12对于所输入的评价项目的变化量,生成出与变化量相对应的声音合成参数。声音合成参数生成部12将所生成出的声音合成参数集、语法、语音停滞和不需要语的插入位置及其内容,输出至声音合成部13处。
声音合成部13依据所输入的声音合成参数实施声音合成处理。在这时,在对使用者所输入的语法,将语音停滞和不需要语插入至应该插入的位置处的基础上,对包含在语法中的全部语汇实施读音,而实施声音合成。这样,使用者可以容易地获得插入有语音停滞和不需要语的评价用语音数据集。声音合成部13将合成声音输出至合成声音输出部14处。
合成声音输出部14、识别结果获取部15、解析结果提示部17进行与实施例1和实施例3同样的动作。对于使用者在评价项目设定部41中指定的评价项目,可以按照与实施例1相同的方式动作,对于语法可以按照与实施例3相同的方式动作。
而且在本实施例中,识别结果解析部46针对是否插入有语音停滞和不需要语对语音识别装置的性能实施分析处理,解析结果提示部17按照容易被使用者观察的方式对该分析处理结果实施整形,并向使用者实施提示。这一实例显示在图13中。图13为表示由不需要语有无分类错误率计算部462计算求解出的以有无不需要语分类的错误识别率的示意图。通过采用如图13所示的形式向使用者提示分析处理结果,使用者可以容易地获知相对是否插入有语音停滞和不需要语的语音识别装置的性能变动状况。例如在如图13表示的实例中,对于插入有语音停滞和不需要语的场合,作为评价对象的语音识别装置的性能将大幅度降低。
一般说来,人类发音者难以有意识地进行语音停滞和不需要语的插入,然而采用作为本实施例的语音识别评价装置,可以用少的时间和成本,容易地获得插入有语音停滞和不需要语的评价用语音数据集。此外,通过使用本实施例的语音识别评价装置,使用者可以容易地获知在人类真实发声中可能出现的语音停滞和不需要语言的插入条件下,语音识别装置可以发挥出怎样的良好的识别性能。
(实施例5)
作为实施例5的语音识别评价装置,由使用者指定的评价项目与其他实施例不同。在本实施例中,可以选择是否将发出声音时的感情信息包含在评价用数据集中。人们通常希望发出的声音随着感情的变化也产生变化。采用本实施例,可以提供出一种能够对与相应于感情变化的发声相关的语音识别装置性能进行评价的语音识别评价装置。由于所指定的评价项目与实施例1中的不同,所以仅评价项目设定部51和识别结果解析部56与作为实施例1的语音识别评价装置中的不同。其他的构成形式与由实施例1表示出的语音识别评价装置相同。图14为表示涉及本发明实施例5的语音识别评价装置用的方框图。
评价项目设定部51接受作为语音识别评价装置的评价项目的、表示人类发出声音时的感情信息。使用者指定评价用语音数据发声时的感情信息。如果举例来说,感情评价项目可以为“生气”、“高兴”、“悲哀”。评价项目设定部51将使用者指定的评价项目和语法,与发出声音时的感情信息一并输出至声音合成参数生成部12。
识别结果解析部56判断所输入的识别结果是正确解还是非正确解,并且对该判断结果依次保存。识别结果解析部56对于通过感情信息输入部511指定的感情信息,对随着感情相应变化的发声能否被识别实施分析处理。识别结果解析部56将该分析处理结果输出至解析结果提示部17。
下面参考附图15,对评价项目设定部51和识别结果解析部56进行详细说明。图15为表示图14中的评价项目设定部51和识别结果解析部56用的方框图。
评价项目设定部51具有感情信息输入部511、评价用语音信息生成部512、标准评价语汇集513和音质评价项目变化量514。
感情信息输入部511从使用者接受作为评价项目的发出声音时的感情信息的种类的指定信息,并且将发出声音时的感情信息种类输出至评价用语音信息生成部512。评价用语音信息生成部512参照标准评价语汇集513和音质评价项目变化量514,生成出评价用语音信息,并且将该评价用语音信息输出至声音合成参数生成部12。评价用语音信息生成部512对于储存在标准评价语汇集中的语法,参照音质评价项目变化量,生成出具有储存在音质评价项目变化量处的全部音质评价项目变化量的评价用语音信息。换句话说就是,对于包含在语法中的每个单词,生成出具有储存在音质评价项目变化量中的“说话者(性别)”、“说话速度”、“声音高度”、“语调”的全部变化量的评价用语音信息。而且,评价用语音信息生成部512参照由感情信息输入部511输出的发出声音时的感情信息种类,生成出相对每种感情信息种类的上述评价用语音信息。
识别结果解析部56具有识别结果正确解判断部561和感情信息分类识别率计算部562。
识别结果正确解判断部561对由评价项目设定部51的标准评价语汇集513输入至语音识别装置的评价用声音语汇实施输入,将该语汇与通过识别结果获取部15获得的识别结果进行比较,判断该识别结果是正确解还是非正确解,将表示正确解还是非正确解的信息附加在识别结果上,进而将附加有该正确解信息的识别结果输出至感情信息分类识别率计算部562处。
感情信息分类识别率计算部562参照由感情信息输入部511输出的发出声音时的感情信息种类,对附加有正确解或非正确解的信息的识别结果,按照感情信息种类求出相应于感情变化的发声识别率。例如如图16所示,分别对于“生气”、“高兴”、“悲哀”这三种感情信息,对相应于各种感情变化的发声识别率实施求解。而且,感情信息分类识别率计算部562将相应于发出声音时的感情种类求解出的识别率,作为相对于与发出声音时的感情种类相对应变化的发声的语音识别装置的性能的分析处理结果,输出至解析结果提示部17。
下面,对本实施例的整体动作流程进行说明。
评价项目设定部51将使用者指定的评价项目和语法,与发出声音时的感情信息一并输出至声音合成参数生成部12处。声音合成参数生成部12参照与音质相关的信息和发出声音时的感情信息,生成出与各项目的变化量相对应的声音合成参数。声音合成参数生成部12对于所输入的评价项目的变化量,生成出与变化量相对应的声音合成参数。在这时,利用感情声音合成技术,与由评价项目设定部51指定的感情信息相对应地对声音合成参数实施调整,附加上对嵌入至合成声音中的感情实施指定的参数(感情信息参数)。声音合成参数生成部12还将所生成出的声音合成参数集、根据需要附加的感情信息参数,输出至可以对感情声音实施合成的声音合成部13处。
声音合成部13依据所输入的声音合成参数和所附加的感情信息参数,对嵌入有感情的声音实施合成处理。声音合成部13将嵌入有感情的合成声音输出至合成声音输出部14处。
合成声音输出部14、识别结果获取部15、解析结果提示部17进行与实施例1和实施例3相同的动作。对于使用者在评价项目设定部11中指定的评价项目,按照与实施例1相同的方式实施动作,对于语法按照与实施例3相同的方式实施动作。而且在本实施形式中,识别结果解析部56依据相对由使用者指定的感情种类产生相应变化的发声信息,对语音识别装置的性能进行分析处理,解析结果提示部17按照容易被使用者观察的方式对该分析处理结果实施整形,并向使用者实施提示。这一实例显示在图16中。图16为表示通过感情信息分类识别率计算部562计算求解出的识别率用的图。通过采用如图16所示的形式向使用者提示分析处理结果,使用者可以容易地获知相对发出声音时的感情信息种类产生相应变化的发声信息,语音识别装置的性能变动状况。例如在如图16表示的实例中,和发出声音时的感情信息种类为“生气”、“高兴”的场合相比,当感情信息种类为“悲哀”时,作为评价对象的语音识别装置的性能将会大幅度降低。
一般说来,人类发音者难以有意识的发出嵌入有感情的声音,然而采用作为本实施例的语音识别评价装置,可以容易地获得嵌入有感情的评价用语音数据集。而且如果使用作为本实施例的语音识别评价装置,使用者可以容易地获知相对嵌入有感情的声音,语音识别装置可以发挥出怎样的良好的识别性能。
正如上面所说明的那样,通过本发明实施例给出的语音识别评价装置、语音识别评价方法和语音识别评价程序,可以解决现有技术中对语音识别装置进行评价时所存在的问题,即需要花费相当多的时间和相当大的成本来准备评价用语音数据集的问题。而且,可以容易地获知语音识别装置相对各评价项目的性能。作为本实施例给出的语音识别评价装置,是一种对于评价语音识别装置的使用者来说非常有用的装置。
而且,在本发明的实施例中,依据评价者所指定的语音识别装置的任意评价项目,自动生成出对能够充分覆盖评价项目变化量的合成声音实施输出所需要的合成声音参数的设定值。声音合成部使用该合成声音参数的设定值输出合成声音。通过将这种合成声音作为评价用语音数据集使用,评价者可以在几乎不花费什么时间和成本的条件下,获得评价用语音数据集。
而且,在本发明的实施例中,利用统计方式,对评价者指定的每一评价项目,对语音识别装置输出的识别结果进行自动分析处理,并且向评价者提示出有关这些评价项目的性能。因此,评价者仅需要对评价项目实施指定,便可以容易地获知有关每一评价项目的语音气识别装置的性能。
而且,出现在上述实施例中的处理步骤所示的指令以及流程图中各步骤所示的指令,均可以依据作为软件的程序实施执行。通过由通用的计算机系统对这种程序实施预先储存并读取这种程序,也可以获得与使用作为上述实施例的语音识别评价装置相同的技术效果。在上述实施例中所示的指令,可以作为由计算机执行的程序,记录在诸如磁盘(软盘、硬盘等等)、光盘(CD-ROM、CD-R、CD-RW、DVD-ROM、DVD±R、DVD±RW等等)、半导体储存器和类似的记录媒体上。计算机可以从这些记录媒体中读取程序,并依据这些程序由CPU执行记载在程序中的指令,从而也可以获得与使用作为上述实施例的语音识别评价装置相同的技术效果。
而且,本发明并不仅限于上述实施例,在实施阶段还可以在不脱离本发明要点的范围内具体地改变其构成要素。而且,还可以通过对上述实施例公开的若干构成要素实施适当组合的方式,形成各种发明构成形式。如果举例来说,可以从实施例所示的各构成要素中减少几个构成要素。而且,还可以对不同实施例中的构成要素实施适当组合。

Claims (28)

1.一种语音识别评价装置,其特征在于具有:
获取对语音识别装置进行评价用的评价项目,依据该评价项目确定输出至语音识别装置的合成声音的特征,并生成出评价用语音信息的语音信息生成单元;
生成用来生成与所述评价用语音信息相对应的合成声音的参数的参数生成单元;
依据所述参数生成合成声音的合成声音生成单元;
将所述合成声音输出至所述语音识别装置的输出单元;
从所述语音识别装置获取得所述语音识别装置对所述合成声音实施识别的识别结果的获取单元;
以及参照所述评价项目和所述识别结果,针对该评价项目对所述语音识别装置的性能进行评价的评价单元。
2.如权利要求1所述的话音识别评价装置,其特征在于:所述语音信息生成单元具有:
获取所述评价项目的获取单元;
存储多个音质信息的音质储存单元;
对使所述合成声音与语汇发声相对应的语汇信息实施储存的语汇储存单元;
相应于所述评价项目,从所述音质储存单元处选择出音质信息的选择单元;
以及生成包含该音质信息和所述语汇信息的生成所述参数用的评价用语音信息的生成单元。
3.如权利要求2所述的语音识别评价装置,其特征在于:所述评价单元具有:
对与所述合成声音相对应的语汇信息和所述识别结果进行比较,判断所述识别结果是否为正确解的判断单元;
以及参照所述判断单元的判断结果和所述评价项目,针对评价项目的各语音信息计算识别率的计算单元。
4.如权利要求1所述的语音识别评价装置,其特征在于:所述语音信息生成单元具有:
作为所述评价项目,取得使所述合成声音与语汇发声相对应的语汇信息的获取单元;
存储多个音质信息的音质储存单元;
与所述评价项目相对应地从所述音质储存单元中选择音质信息的选择单元;
以及生成包含该音质信息和所述语汇信息的评价用语音信息的生成单元。
5.如权利要求4所述的语音识别评价装置,其特征在于:所述评价单元具有:
对与所述合成声音相对应的语汇信息和所述识别结果进行比较,判断所述识别结果是否为正确解的判断单元;
以及以所述判断单元的判断结果和所述评价项目作为参考,对与评价项目的各语汇信息相对应的识别率实施计算用的计算单元。
6.如权利要求1所述的语音识别评价装置,其特征在于:所述语音信息生成单元具有:
作为所述评价项目,取得使所述合成声音与语汇发声相对应的语汇信息、与包含在该语汇信息中的无意义语言和其插入位置相关的无意义语言信息的获取单元;
存储多个音质信息的音质储存单元;
与所述评价项目相对应地从所述音质储存单元中选择音质信息的选择单元;
以及生成包含该音质信息、所述语汇信息和所述无意义语言信息的评价用语音信息的生成单元。
7.如权利要求6所述的语音识别评价装置,其特征在于:所述评价单元具有:
对与所述合成声音相对应的语汇信息和所述识别结果进行比较,判断所述识别结果是否为正确解的判断单元;
以及参照所述判断单元的判断结果和所述评价项目,针对语汇发声中是否插入有无意义语言计算识别率的计算单元。
8.如权利要求1所述的语音识别评价装置,其特征在于:所述语音信息生成单元具有:
作为所述评价项目,取得指定发声时的感情种类用的感情信息的获取单元;
存储多个音质信息的音质储存单元;
存储使所述合成声音与语汇发声相对应的语汇信息的语汇储存单元;
与所述评价项目相对应地从所述音质储存单元中选择音质信息的选择单元;
以及生成包含该音质信息和所述语汇信息的评价用语音信息的生成单元。
9.如权利要求8所述的语音识别评价装置,其特征在于:所述评价单元具有:
对与所述合成声音相对应的语汇信息和所述识别结果进行比较,判断所述识别结果是否为正确解的判断单元;
以及参照所述判断单元的判断结果和所述评价项目,对发声时的每种感情种类计算识别率的计算单元。
10.如权利要求1到9任一项所述的语音识别评价装置,其特征在于:所述语音信息生成单元生成包含有因性别产生的音质、说话速度、声音高度、语调中的至少一个的评价项目,各评价项目由多个变化量构成。
11.如权利要求1到9任一项所述的语音识别评价装置,其特征在于还进一步具有对所述评价单元的评价结果实施提示的提示单元。
12.一种语音识别评价装置,其特征在于具有:
获取对语音识别装置进行评价用的评价项目,依据该评价项目生成用来确定输出至语音识别装置的合成声音的特征的评价用语音信息的语音信息生成单元;
生成用来生成与所述评价用语音信息相对应的特征矢量时间序列的参数的参数生成单元;
依据所述参数生成特征矢量时间序列的时间序列生成单元;
将所述特征矢量时间序列输出至所述语音识别装置的输出单元;
从所述语音识别装置获取出所述语音识别装置输入所述特征矢量时间序列并实施识别的识别结果的获取单元;
以及参照所述评价项目和所述识别结果,针对该评价项目对所述语音识别装置的性能进行评价的评价单元。
13.如权利要求12所述的语音识别评价装置,其特征在于:所述语音信息生成单元生成包含有因性别产生的音质、说话速度、声音高度、语调中的至少一个的评价项目,各评价项目由多个变化量构成。
14.如权利要求12所述的语音识别评价装置,其特征在于还进一步具有对所述评价单元的评价结果实施提示的提示单元。
15.一种语音识别评价方法,其特征在于包括下述步骤:
获取时语音识别装置进行评价用的评价项目,依据该评价项目确定输出至语音识别装置的合成声音的特征,并生成出评价用语音信息;
对用来生成与所述评价用语音信息相对应的合成声音的参数实施生成;
依据所述参数生成合成声音;
将所述合成声音输出至所述语音识别装置;
从所述语音识别装置获取出所述语音识别装置输入所述合成声音并实施识别的识别结果;
以及参照所述评价项目和所述识别结果,针对该评价项目对所述语音识别装置的性能进行评价。
16.如权利要求15所述的语音识别评价方法,其特征在于:生成所述语音信息的步骤包括:
获取所述评价项目;
存储多个音质信息;
存储使所述合成声音与语汇发声相对应的语汇信息;
相应于所述评价项目,从所述音质储存单元处选择出音质信息;
以及生成包含该音质信息和所述语汇信息的用来生成所述参数的评价用语音信息。
17.如权利要求16所述的语音识别评价方法,其特征在于:针对所述评价项目对所述语音识别装置的性能进行评价的步骤包括:
对与所述合成声音相对应的语汇信息和所述识别结果进行比较,判断所述识别结果是否为正确解;
以及参照是否为正确解的判断结果和所述评价项目,与评价项目的各语音信息相对应地计算识别率。
18.如权利要求15所述的语音识别评价方法,其特征在于:生成所述评价用语音信息的步骤包括:
作为所述评价项目,取得使所述合成声音与语汇发声相对应的语汇信息;
存储多个音质信息;
与所述评价项目相对应地选择音质信息;
以及生成包含该音质信息和所述语汇信息的评价用语音信息。
19.如权利要求18所述的语音识别评价方法,其特征在于:针对所述评价项目对所述语音识别装置的性能进行评价的步骤包括:
对与所述合成声音相对应的语汇信息和所述识别结果进行比较,判断所述识别结果是否为正确解;
以及参照是否为正确解的判断结果和所述评价项目,针对评价项目的各语汇信息计算识别率。
20.如权利要求15所述的语音识别评价方法,其特征在于:生成所述评价用语音信息的步骤包括:
作为所述评价项目,取得使所述合成声音与语汇发声相对应的语汇信息、与包含在该语汇信息中的无意义语言和其插入位置相关的无意义语言信息;
存储多个音质信息;
与所述评价项目相对应地从所述音质储存单元中选择音质信息;
以及生成包含该音质信息、所述语汇信息和所述无意义语言信息的评价用语音信息。
21.如权利要求20所述的语音识别评价方法,其特征在于:针对所述评价项目对所述语音识别装置的性能进行评价的步骤包括:
对与所述合成声音相对应的语汇信息和所述识别结果进行比较,判断所述识别结果是否为正确解;
以及参照是否为正确解的判断结果和所述评价项目,针对语汇发声中是否插入有无意义语言计算识别率。
22.如权利要求15所述的语音识别评价方法,其特征在于:生成所述评价用语音信息的步骤包括:
作为评价项目,取得用来指定发声时的感情种类的感情信息;
存储多个音质信息;
存储使所述合成声音与语汇发声相对应的语汇信息;
与所述评价项目相对应地从所述音质储存单元中选择音质信息;
以及生成包含该音质信息和所述语汇信息的评价用语音信息。
23.如权利要求22所述的语音识别评价方法,其特征在于:针对所述评价项目对所述语音识别装置的性能进行评价的步骤包括:
对与所述合成声音相对应的语汇信息和所述识别结果进行比较,判断所述识别结果是否为正确解;
以及参照是否为正确解的判断结果和所述评价项目,对发声时的每种感情种类计算识别率。
24.如权利要求15至23中任意一项权利要求所述的语音识别评价方法,其特征在于:生成所述评价用语音信息的步骤生成包含有因性别产生的音质、说话速度、声音高度、语调中的至少一个的评价项目,各评价项目由多个变化量构成。
25.如权利要求15至23中任意一项权利要求所述的语音识别评价方法,其特征在于:还进一步包括对针对所述评价项目评价所述语音识别装置的评价结果实施提示的步骤。
26.一种语音识别评价方法,其特征在于包括下述步骤:
获取对语音识别装置进行评价用的评价项目,依据该评价项目生成用来确定输出至语音识别装置的合成声音的特征的评价用语音信息;
生成用来生成与所述评价用语音信息相对应的特征矢量时间序列的参数;
依据所述参数生成特征矢量时间序列;
将所述特征矢量时间序列输出至所述语音识别装置;
从所述语音识别装置获取出所述语音识别装置输入所述特征矢量时间序列并实施识别的识别结果;
以及参照所述评价项目和所述识别结果,针对该评价项目对所述语音识别装置的性能进行评价。
27.如权利要求26所述的语音识别评价方法,其特征在于:生成所述评价用语音信息的步骤生成包含有因性别产生的音质、说话速度、声音高度、语调中的至少一个的评价项目,各评价项目由多个变化量构成。
28.如权利要求26所述的语音识别评价方法,其特征在于:还进一步包括对针对所述评价项目评价所述语音识别装置的评价结果实施提示的步骤。
CNB2004101038905A 2003-09-04 2004-09-03 语音识别评价装置和语音识别评价方法 Expired - Fee Related CN1311422C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2003312747A JP3984207B2 (ja) 2003-09-04 2003-09-04 音声認識評価装置、音声認識評価方法、及び音声認識評価プログラム
JP312747/2003 2003-09-04

Publications (2)

Publication Number Publication Date
CN1619643A CN1619643A (zh) 2005-05-25
CN1311422C true CN1311422C (zh) 2007-04-18

Family

ID=34413914

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB2004101038905A Expired - Fee Related CN1311422C (zh) 2003-09-04 2004-09-03 语音识别评价装置和语音识别评价方法

Country Status (3)

Country Link
US (1) US7454340B2 (zh)
JP (1) JP3984207B2 (zh)
CN (1) CN1311422C (zh)

Families Citing this family (40)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8050918B2 (en) * 2003-12-11 2011-11-01 Nuance Communications, Inc. Quality evaluation tool for dynamic voice portals
CN1998045A (zh) * 2004-07-13 2007-07-11 松下电器产业株式会社 音调频率估计装置以及音调频率估计方法
US7684988B2 (en) * 2004-10-15 2010-03-23 Microsoft Corporation Testing and tuning of automatic speech recognition systems using synthetic inputs generated from its acoustic models
US7949533B2 (en) * 2005-02-04 2011-05-24 Vococollect, Inc. Methods and systems for assessing and improving the performance of a speech recognition system
US7865362B2 (en) 2005-02-04 2011-01-04 Vocollect, Inc. Method and system for considering information about an expected response when performing speech recognition
US7827032B2 (en) 2005-02-04 2010-11-02 Vocollect, Inc. Methods and systems for adapting a model for a speech recognition system
US8200495B2 (en) 2005-02-04 2012-06-12 Vocollect, Inc. Methods and systems for considering information about an expected response when performing speech recognition
US7895039B2 (en) * 2005-02-04 2011-02-22 Vocollect, Inc. Methods and systems for optimizing model adaptation for a speech recognition system
JP2007047412A (ja) * 2005-08-09 2007-02-22 Toshiba Corp 認識文法モデル作成装置、認識文法モデル作成方法、および、音声認識装置
JP4825014B2 (ja) * 2006-01-24 2011-11-30 旭化成株式会社 評価用データ生成装置、認識性能分布情報生成装置およびシステム
JP2007226117A (ja) * 2006-02-27 2007-09-06 Mitsubishi Electric Corp 音声認識装置、音声認識プログラム、及び音声認識方法
WO2007120418A2 (en) * 2006-03-13 2007-10-25 Nextwire Systems, Inc. Electronic multilingual numeric and language learning tool
WO2007118030A2 (en) 2006-04-03 2007-10-18 Vocollect, Inc. Methods and systems for optimizing model adaptation for a speech recognition system
JP2008032834A (ja) * 2006-07-26 2008-02-14 Toshiba Corp 音声翻訳装置及びその方法
US8234120B2 (en) * 2006-07-26 2012-07-31 Nuance Communications, Inc. Performing a safety analysis for user-defined voice commands to ensure that the voice commands do not cause speech recognition ambiguities
US20110035215A1 (en) * 2007-08-28 2011-02-10 Haim Sompolinsky Method, device and system for speech recognition
KR100930039B1 (ko) * 2007-12-18 2009-12-07 한국전자통신연구원 음성 인식기의 성능 평가 장치 및 그 방법
JP5398295B2 (ja) 2009-02-16 2014-01-29 株式会社東芝 音声処理装置、音声処理方法及び音声処理プログラム
US8914290B2 (en) 2011-05-20 2014-12-16 Vocollect, Inc. Systems and methods for dynamically improving user intelligibility of synthesized speech in a work environment
CN103366737B (zh) * 2012-03-30 2016-08-10 株式会社东芝 在自动语音识别中应用声调特征的装置和方法
CN103730117A (zh) * 2012-10-12 2014-04-16 中兴通讯股份有限公司 一种自适应智能语音装置及方法
US9978395B2 (en) 2013-03-15 2018-05-22 Vocollect, Inc. Method and system for mitigating delay in receiving audio stream during production of sound from audio stream
JP6203258B2 (ja) * 2013-06-11 2017-09-27 株式会社東芝 電子透かし埋め込み装置、電子透かし埋め込み方法、及び電子透かし埋め込みプログラム
CN104732968B (zh) * 2013-12-20 2018-10-02 上海携程商务有限公司 语音操控系统的评价系统及方法
JP6580882B2 (ja) 2015-06-24 2019-09-25 株式会社東芝 音声認識結果出力装置、音声認識結果出力方法及び音声認識結果出力プログラム
US9734821B2 (en) 2015-06-30 2017-08-15 International Business Machines Corporation Testing words in a pronunciation lexicon
CN105336342B (zh) * 2015-11-17 2019-05-28 科大讯飞股份有限公司 语音识别结果评价方法及系统
US10714121B2 (en) 2016-07-27 2020-07-14 Vocollect, Inc. Distinguishing user speech from background speech in speech-dense environments
CN106448701B (zh) * 2016-08-30 2019-10-25 河北师范大学 一种声乐综合训练系统
JP6585022B2 (ja) * 2016-11-11 2019-10-02 株式会社東芝 音声認識装置、音声認識方法およびプログラム
JP7073640B2 (ja) * 2017-06-23 2022-05-24 カシオ計算機株式会社 電子機器、感情情報取得システム、プログラム及び感情情報取得方法
CN107403629B (zh) * 2017-08-16 2020-10-09 歌尔股份有限公司 远场拾音性能评价方法和系统、电子设备
US10565982B2 (en) * 2017-11-09 2020-02-18 International Business Machines Corporation Training data optimization in a service computing system for voice enablement of applications
US10553203B2 (en) * 2017-11-09 2020-02-04 International Business Machines Corporation Training data optimization for voice enablement of applications
US10636423B2 (en) * 2018-02-21 2020-04-28 Motorola Solutions, Inc. System and method for managing speech recognition
CN108986811B (zh) * 2018-08-31 2021-05-28 北京新能源汽车股份有限公司 一种语音识别的检测方法、装置和设备
KR102020773B1 (ko) * 2019-04-04 2019-11-04 미디어젠(주) 음성합성엔진을 이용한 멀티미디어 음성인식 자동 평가시스템
CN110417589B (zh) * 2019-07-23 2022-11-29 徐州工程学院 一种车载语音云用户体验质量路测方法
FR3102603A1 (fr) * 2019-10-24 2021-04-30 Psa Automobiles Sa Procédé et dispositif d’évaluation d’un système de reconnaissance vocale
KR102386635B1 (ko) * 2020-04-16 2022-04-14 주식회사 카카오엔터프라이즈 음소의 특성에 관한 통계적 분석에 기초하여 자동적으로 음성 합성 데이터를 평가하는 방법 및 장치

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1287657A (zh) * 1998-08-17 2001-03-14 索尼株式会社 声音识别装置和方法、导航装置、便携电话装置以及信息处理装置
JP2001117581A (ja) * 1999-10-22 2001-04-27 Alpine Electronics Inc 感情認識装置
JP2001338265A (ja) * 2000-05-25 2001-12-07 Fujitsu Ltd パターン認識装置及び方法並びに当該装置及び方法を実現するコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体。

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2119397C (en) * 1993-03-19 2007-10-02 Kim E.A. Silverman Improved automated voice synthesis employing enhanced prosodic treatment of text, spelling of text and rate of annunciation
US6622121B1 (en) * 1999-08-20 2003-09-16 International Business Machines Corporation Testing speech recognition systems using test data generated by text-to-speech conversion
KR100821499B1 (ko) * 2000-12-14 2008-04-11 소니 가부시끼 가이샤 정보 추출 장치
US20050049868A1 (en) * 2003-08-25 2005-03-03 Bellsouth Intellectual Property Corporation Speech recognition error identification method and system

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1287657A (zh) * 1998-08-17 2001-03-14 索尼株式会社 声音识别装置和方法、导航装置、便携电话装置以及信息处理装置
JP2001117581A (ja) * 1999-10-22 2001-04-27 Alpine Electronics Inc 感情認識装置
JP2001338265A (ja) * 2000-05-25 2001-12-07 Fujitsu Ltd パターン認識装置及び方法並びに当該装置及び方法を実現するコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体。

Also Published As

Publication number Publication date
JP3984207B2 (ja) 2007-10-03
CN1619643A (zh) 2005-05-25
US7454340B2 (en) 2008-11-18
US20050086055A1 (en) 2005-04-21
JP2005084102A (ja) 2005-03-31

Similar Documents

Publication Publication Date Title
CN1311422C (zh) 语音识别评价装置和语音识别评价方法
CN1750120A (zh) 索引设备和索引方法
CN1622195A (zh) 语音合成方法和语音合成系统
CN1143263C (zh) 识别有调语言的系统和方法
CN1236423C (zh) 说话人声音的后台学习
CN1234109C (zh) 语调生成方法、语音合成装置、语音合成方法及语音服务器
JP4246790B2 (ja) 音声合成装置
CN1178202C (zh) 用于执行说话者适应或规范化的方法
CN1157712C (zh) 语音识别方法和装置
CN1918571A (zh) 信息检索装置
CN1841497A (zh) 语音合成系统和方法
CN1941077A (zh) 识别语音输入中的字符串的语音识别设备和方法
CN1619640A (zh) 自动乐曲分类设备与方法
CN1601912A (zh) 用于提供数字音频信号的高质量扩展和压缩的系统和方法
CN1920948A (zh) 语音识别系统及语音处理系统
CN1461463A (zh) 语音合成设备
CN1573924A (zh) 语音识别设备、语音识别方法、会话控制设备以及会话控制方法
CN1703734A (zh) 从声音确定音符的方法和装置
CN1692402A (zh) 声音合成方法以及声音合成装置
CN101030368A (zh) 在保持情感的同时跨通道进行通信的方法和系统
CN1465043A (zh) 语音识别装置和语音识别方法
CN1681002A (zh) 语音合成系统及方法及程序产品
CN1494054A (zh) 特征量提取装置
CN1781102A (zh) 低速存储器判定树
CN1534597A (zh) 利用具有转换状态空间模型的变化推理的语音识别方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C17 Cessation of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20070418

Termination date: 20100903