CN111754995A - 阈值调整装置、阈值调整方法以及记录介质 - Google Patents

阈值调整装置、阈值调整方法以及记录介质 Download PDF

Info

Publication number
CN111754995A
CN111754995A CN201910248475.5A CN201910248475A CN111754995A CN 111754995 A CN111754995 A CN 111754995A CN 201910248475 A CN201910248475 A CN 201910248475A CN 111754995 A CN111754995 A CN 111754995A
Authority
CN
China
Prior art keywords
evaluation
threshold
threshold value
recognition
list
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910248475.5A
Other languages
English (en)
Other versions
CN111754995B (zh
Inventor
长健太
阿部一彦
李海亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Toshiba Digital Solutions Corp
Original Assignee
Toshiba Corp
Toshiba Digital Solutions Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp, Toshiba Digital Solutions Corp filed Critical Toshiba Corp
Priority to CN201910248475.5A priority Critical patent/CN111754995B/zh
Priority claimed from CN201910248475.5A external-priority patent/CN111754995B/zh
Priority to PCT/JP2020/011855 priority patent/WO2020203275A1/ja
Priority to JP2021511407A priority patent/JP7214841B2/ja
Publication of CN111754995A publication Critical patent/CN111754995A/zh
Application granted granted Critical
Publication of CN111754995B publication Critical patent/CN111754995B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/01Assessment or evaluation of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本发明提供对阈值的调整进行支持以便能针对预先决定的多个识别对象语分别设定适当阈值的阈值调整装置、阈值调整方法及记录介质。阈值调整装置具备:声音识别部;评价部,对声音识别部输入将针对预先决定的多个识别对象语分别独立地设定的多个阈值作为要素的阈值列表和评价用声音,基于声音识别部输出的针对评价用声音的识别结果,计算表示识别精度的评价值,识别精度是由使用了阈值列表的声音识别部针对多个识别对象语的每一个的识别精度;和显示控制部,使显示装置显示用于调整与任意的识别对象语对应的阈值的阈值调整画面。阈值调整画面包括将评价值与理想值一并提示的精度一览画面。

Description

阈值调整装置、阈值调整方法以及记录介质
技术领域
本发明的实施方式涉及阈值调整装置、阈值调整方法以及记录介质。
背景技术
以往,公知有一种在输入声音中包含预先决定的多个识别对象语的任意一个的情况下,输出该识别对象语作为针对输入声音的识别结果的声音识别装置。在该声音识别装置中,能够通过阈值来控制针对各识别对象语的反应容易度。例如,当根据输入声音计算的声学特征量与多个识别对象语中的任意一个的声学特征量在特征空间上的距离为针对该识别对象语设定的阈值以下时,输出该识别对象语作为针对输入声音的识别结果。该情况下,通过针对多个识别对象语分别设定适当的阈值,能够准确地识别输入声音所包含的识别对象语。
但是,难以针对多个识别对象语分别设定适当的阈值,以便在该识别对象语包含于输入声音的情况下反应,且对其他的识别对象语、噪声不反应,谋求一种对这样的阈值的调整进行支持的结构。
发明内容
本发明所要解决的课题在于,提供对阈值的调整进行支持以便能够对预先决定的多个识别对象语分别设定适当的阈值的阈值调整装置、阈值调整方法以及记录介质。
实施方式的阈值调整装置具备声音识别部、评价部以及显示控制部。声音识别部进行声音识别。评价部对上述声音识别部输入将针对预先决定的多个识别对象语分别独立地设定的多个阈值作为要素的阈值列表和评价用声音,基于上述声音识别部输出的针对上述评价用声音的识别结果,来计算评价值,该评价值表示使用了上述阈值列表的上述声音识别部的针对上述多个识别对象语中的每一个识别对象语的识别精度。显示控制部,使显示装置显示阈值调整画面,该阈值调整画面用于调整与上述多个识别对象语中的任意的识别对象语对应的阈值。上述阈值调整画面包括精度一览画面,该精度一览画面将由上述评价部针对上述多个识别对象语分别计算出的评价值与针对上述多个识别对象语分别预先计算出的理想值一并提示。
根据上述构成的阈值调整装置,能够对阈值的调整进行支持,以便能够对预先决定的多个识别对象语分别设定适当的阈值。
附图说明
图1是表示实施方式的阈值调整装置的功能性结构例的框图。
图2是表示关键字表的一个例子的图。
图3是表示评价用数据表的一个例子的图。
图4是表示阈值列表表的一个例子的图。
图5是表示评价结果表的一个例子的图。
图6是表示理想值表的一个例子的图。
图7是表示实施方式的阈值调整装置的动作例的流程图。
图8是表示精度一览画面的一个例子的图。
图9是表示误识别解析画面的一个例子的图。
图10是表示初始评价结果画面的一个例子的图。
图11是表示变形例的阈值调整装置的功能性结构例的框图。
图12是表示变形例的精度一览画面的一个例子的图。
图13是表示阈值调整装置的硬件结构例的框图。
具体实施方式
以下,参照附图对本发明的具体实施方式详细进行说明。在以下的实施方式中,设想仅对数十个左右的特定关键字(识别对象语)作出反应的语音触发声音识别的应用例来进行说明。
图1是表示本实施方式的阈值调整装置的功能性结构例的框图。本实施方式的阈值调整装置如图1所示,具备声音识别部1、评价部2、以及显示控制部3。
声音识别部1使用声音识别模型10来进行针对输入声音的声音识别处理。本实施方式中利用的声音识别模型10包括对音的特性进行解析的声学模型、和作为声音识别模型10的识别对象而被预先决定的关键字组。声音识别模型10所包含的关键字组被登记于关键字表20。
为了声音识别模型10控制针对作为识别对象的各个关键字的反应容易度,而对声音识别部1输入阈值列表。阈值列表是将针对各关键字分别独立地设定的多个阈值作为要素的列表。在本实施方式中,使用特征空间上的距离作为声学特征量间的类似性的指标,由于在输入声音的声学特征量与关键字的声学特征量之间的距离为阈值以下的情况下声音识别部1输出该关键字,所以将阈值设定得越高,则越容易与对应的关键字反应。这里,阈值的值域为0~1,特征空间上的距离被标准化为0~1的值来与阈值进行比较。阈值列表被登记于阈值列表表40。
声音识别部1例如使用声学模型来确定作为识别对象的关键字组中的、具有在特征空间上与输入声音的声学特征量最接近的声学特征量的关键字。而且,在输入声音的声学特征量与确定出的关键字的声学特征量在特征空间上的距离为针对确定出的关键字设定的阈值以下的情况下,声音识别部1输出确定出的关键字作为针对输入声音的识别结果。
评价部2对声音识别部1输入随时登记于阈值列表表40的阈值列表、和登记于评价用数据表30的评价用数据的声音(评价用声音),基于声音识别部1输出的针对评价用声音的识别结果,来计算表示识别精度的评价值,该识别精度是使用了阈值列表的声音识别部1的针对各关键字的识别精度。评价部2的评价结果被记录于评价结果表50。
另外,评价部2通过后述的初始评价来预先计算各关键字的理想的评价值(理想值)。由评价部2预先计算出的每个关键字的理想值被记录于理想值表60。
显示控制部3使任意的显示装置显示用于调整阈值的阈值调整画面,该阈值是与声音识别模型10作为识别对象的关键字组中的任意的关键字对应的阈值。阈值调整画面包括后述的精度一览画面70(参照图8)、误识别解析画面80(参照图9)、初始评价结果画面90(参照图10)。
图2是表示关键字表20的一个例子的图。关键字表20是声音识别模型10登记作为识别对象的各关键字的表。关键字表20如图2所示,包括针对各关键字唯一分配的ID、和各关键字的文本。
图3是表示评价用数据表30的一个例子的图。评价用数据表30是登记有用于由评价部2所得的评价的评价用数据的表。评价用数据由声音和该声音所包含的关键字构成。换句话说,评价用数据是评价用声音和正确的关键字的组合,该评价用声音包括作为声音识别模型10的识别对象而预先决定的关键字,该正确的关键字是应该从该评价用声音识别出的关键字。评价用数据表30如图3所示,包括针对各评价用数据唯一分配的ID、声音的文件名、以及关键字ID。关键字ID表示声音所包含的关键字的ID。
图4是表示阈值列表表40的一个例子的图。阈值列表表40是登记有向声音识别部1输入的阈值列表的表。阈值列表表40如图4所示,包括针对各阈值列表唯一分配的ID和阈值列表。如上述那样,阈值列表是将声音识别模型10针对作为识别对象的各关键字分别独立地设定的阈值作为要素的列表。
作为登记于阈值列表表40的阈值列表,有在评价部2的初始评价中使用的初始评价用阈值列表、通过评价部2的初始评价而获得的初始阈值列表、使用阈值调整画面生成的调整后阈值列表。在图4的例子中,设想了ID为“1”和ID为“2”的阈值列表是初始评价用阈值列表,ID为“19”的阈值列表是初始阈值列表,ID为“20”的阈值列表是调整后阈值列表。
初始评价用阈值列表是声音识别模型10对作为识别对象的各关键字设定共用的阈值的阈值列表,换句话说,是要素的值全部相同的阈值列表。各关键字共用的要素的值不同的多个初始评价用列表被登记于阈值列表表40。
初始阈值列表是使用了通过初始评价获得了理想值时所使用的初始评价用阈值列表的阈值作为针对各关键字分别独立地设定的阈值的阈值列表。初始阈值列表根据评价部2的初始评价的结果而生成,被登记于阈值列表表40。
调整后阈值列表是通过用户使用阈值调整画面对与任意的识别对象语对应的阈值进行调整而得到的阈值列表。调整后阈值列表根据使用了阈值调整画面的操作而随时生成,并被登记于阈值列表表40。
图5是表示评价结果表50的一个例子的图。评价结果表50是记录有评价部2的评价结果的表。评价结果表50如图5所示,包括针对各评价结果唯一分配的ID、阈值列表ID、关键字ID、正确率、拒绝率、以及误识别关键字。
阈值列表ID是在评价时输入至声音识别部1的阈值列表的ID。关键字ID是成为评价对象的关键字的ID。这里,针对一个阈值列表评价每个关键字基于声音识别部1的识别精度,阈值列表与关键字的每个组合的评价结果被记录为评价结果表50的一个条目。
对于正确率而言,针对包括作为评价对象的关键字的评价用声音的基于声音识别部1的识别结果是该关键字的情况视为正确,通过(正确次数/包括该关键字的评价用数据的总数)×100(%)来计算。对于拒绝率而言,将声音识别部1的识别结果是没有关键字的情况视为拒绝,通过(拒绝次数/包括作为评价对象的关键字的评价用数据的总数)×100(%)来计算。这些正确率以及拒绝率作为表示使用了阈值列表的声音识别部1针对关键字的识别精度的评价值,被记录于评价结果表50。
除了上述的正确与拒绝以外,还存在声音识别部1的识别结果是与正确答案不同的关键字的情况,换句话说存在误识别成其他关键字的情况。在声音识别部1误识别成与正确答案不同的其他关键字的情况下,由评价部2按误识别成的每个关键字计数误识别的次数,将误识别成的关键字的ID与误识别成该关键字的次数的组作为阵列而登记于评价结果表50的误识别关键字。
图6是表示理想值表60的一个例子的图。理想值表60是记录有评价部2通过初始评价计算出的每个关键字的理想值的表。理想值表60包括针对各关键字唯一分配的ID、和作为各关键字的理想值的正确率以及拒绝率。对于正确率而言,记录通过初始评价而获得的正确率中的值最高的正确率。对拒绝率而言,记录获得了最高的正确率的初始评价中的拒绝率。
接下来,按照图7的流程图对本实施方式的阈值调整装置的动作进行说明。图7是表示本实施方式的阈值调整装置的动作例的流程图。
首先,实施针对阈值调整装置的数据登记(步骤S101)。这里登记的数据是声音识别模型10以及评价用数据。声音识别模型10的登记例如通过将包括模型的文件名和作为识别对象的各关键字的字符串的JSON文件上载来进行。模型的文件可以预先储存于装置内部,也可以是另外进行上载的构成。所登记的声音识别模型10为了声音识别部1进行声音识别处理而被使用。另外,该声音识别模型10所包含的识别对象的各关键字被登记于关键字表20。
另外,评价用数据的登记例如通过将包括多个评价用声音的文件名和各评价用声音所包含的关键字的字符串的JSON文件上载来进行。各评价用声音的文件可以预先储存于装置内部,也可以是另外进行上载的构成。上载了的各评价用声音的文件名与关键字的ID被登记于评价用数据表30。
当数据登记结束时,评价部2进行初始评价(步骤S102)。在初始评价中,评价部2一边以规定间隔变更初始评价用阈值列表中的阈值,一边将设定各关键字共用的阈值的初始评价用阈值列表、和登记于评价用数据表30的各评价用数据的声音(评价用声音)反复输入至声音识别部1。初始评价用阈值列表的阈值例如以0.1作为开始值以0.05的刻度变化至0.95。这些初始评价用阈值列表被依次输入至声音识别部1并且登记于阈值列表表40。
每当将初始评价用阈值列表和评价用声音输入至声音识别部1时,评价部2都会评价由使用了该初始评价用阈值列表的阈值的声音识别部1而得的每个关键字的识别精度。与初始评价用阈值列表的阈值对应的每个关键字的评价通过将声音识别部1输出的识别结果与评价用数据所包含的关键字进行比较,计算每个关键字的正确率/拒绝率(评价值)来进行。即,评价部2一边将如上述那样使阈值变化了的初始评价用和评价用声音反复输入至声音识别部1,一边基于声音识别部1输出的针对评价用声音的识别结果来反复计算每个关键字的评价值。这些基于评价部2的初始评价的评价结果与登记于阈值列表表40的初始评价用阈值列表的ID一起被记录于评价结果表50。
在实施了以上的初始评价之后,评价部2按每个关键字从评价结果表50检索获得了最佳的正确率的评价结果,将其正确率/拒绝率作为理想值,与关键字的ID一起记录于理想值表60。另外,评价部2将以获得了最佳的正确率的每个关键字的阈值为要素的阈值列表作为初始阈值列表登记于阈值列表表40。
接下来,评价部2进行使用了初始阈值列表的评价(步骤S103)。与初始评价相同,评价部2将阈值列表(这里为初始阈值列表)和评价用声音输入至声音识别部1,根据声音识别部1输出的识别结果来计算每个关键字的正确率/拒绝率(评价值),并将评价结果记录于评价结果表50。
当使用了初始阈值列表的评价结束时,显示控制部3使用户所使用的终端的显示装置等任意的显示装置显示阈值调整画面,根据使用了该阈值调整画面的用户的操作来进行阈值的调整(步骤S104)。
首先,显示控制部3使显示装置显示例如图8所示那样的精度一览画面70作为阈值调整画面。该精度一览画面70是将由评价部2针对识别对象的关键字分别计算出的评价值与记录于理想值表60的理想值一起提示的画面。
在图8所示的精度一览画面70中,通过图表显示71将输入至声音识别部1的阈值列表(这里为初始阈值列表)中的各关键字的评价值与理想值一并提示。图表显示71在横轴配置识别对象的各关键字,每个关键字的评价值(正确率/拒绝率)与理想值(正确率/拒绝率)被描绘在纵轴的相应的位置。图中的白圈表示初始阈值列表中的正确率,黑圈表示作为理想值的正确率,图中的白三角表示初始阈值列表中的拒绝率,黑三角表示作为理想值的拒绝率。这些每个关键字的评价值通过将初始阈值列表的ID和关键字的ID作为键来对评价结果表50进行检索而取得。另外,每个关键字的理想值通过将关键字ID作为键来对理想值表60进行检索而取得。
在某个关键字中,之所以初始阈值列表中的评价值与理想值不一致是因为在理想值中针对其他关键字设定了相同的阈值,而在初始阈值列表中针对其他关键字设定了不同的阈值所产生的关键字间的相互作用。用户通过参照该精度一览画面70的图表显示71,能够容易地掌握初始阈值列表中的评价值相对于理想值降低了的关键字(在图8的例子中为“开启”)。
当用户在精度一览画面70上点击任意的关键字而进行选择并按下“误检测解析”按钮72时,阈值调整画面迁移至例如图9所示的误识别解析画面80。该误识别解析画面80是针对在精度一览画面70选择了的关键字,按每个误识别的关键字提示由声音识别部1针对包括该关键字的评价用声音输出了其他关键字作为识别结果的次数、即声音识别部1的误识别的次数的画面。
在图9所示的误识别解析画面80中,通过图表显示81来提示每个误识别的关键字的误识别的次数。图表显示81在横轴配置识别对象的各关键字,对于被误识别的关键字,其误识别次数由纵轴的延伸到相应的位置为止的棒状图表表示。被误识别的关键字的误识别次数通过将在精度一览画面70上选择了的关键字的ID作为键来对评价结果表50进行检索而取得。用户通过参照该误识别解析画面80,能够容易地掌握为了防止误识别而应该降低阈值的关键字(在图9的例子中为“音乐”)。
当用户在误识别解析画面80上按下“返回”按钮82时,阈值调整画面返回到图8所示的精度一览画面70。而且,当用户在精度一览画面70上点击任意的关键字而进行了选择并按下“初始评价结果”按钮73时,阈值调整画面迁移至例如图10所示的初始评价结果画面90。该初始评价结果画面90是针对所选择的关键字,提示对在初始评价中使用的初始评价用阈值列表的每个阈值由评价部2计算出的评价值(正确率/拒绝率)的一览的画面。
在图10所示的初始评价结果画面90中,通过图表显示91来提示在初始评价中使用的初始评价用阈值列表的每个阈值的评价值的一览。图表显示91在横轴配置初始评价中使用了的各初始评价用阈值列表的阈值,与各个阈值对应的正确率和拒绝率由纵轴的延伸到相应的位置为止的棒状图表表示。图中的白色棒状图表表示每个阈值的正确率,黑色棒状图表表示每个阈值的拒绝率。每个阈值的正确率/拒绝率通过将关键字的ID和初始评价用阈值列表的ID作为键来对评价结果表50进行检索而取得。用户通过参照该初始评价结果画面90,可掌握阈值的能够调整范围等。当是正确率足够高、拒绝率足够低的范围(在图10的例子中为0.45~0.75的范围)时,认为可以调整阈值。
当在初始评价结果画面90上用户点击想要设定的阈值而进行了选择并按下“阈值设定”按钮92时,针对在精度一览画面70上选择出的关键字的阈值被变更为在初始评价结果画面90上选择出的阈值,阈值调整画面返回到精度一览画面70。当变更在误识别解析画面80掌握了的针对其他关键字的阈值的情况下,用户通过在精度一览画面70上选择该关键字,在初始评价结果画面90上选择阈值并按下“阈值设定”按钮92,由此也能够变更该关键字的阈值。即,用户使用在显示装置作为阈值调整画面而显示的精度一览画面70、误识别解析画面80、初始评价结果画面90,能够将对各关键字设定的阈值适当地调整为所希望的值。
在针对想要变更阈值的全部关键字进行了相同的操作之后,当在精度一览画面70上用户按下“再评价”按钮74(步骤S105:否)时,反映了被变更后的阈值的新的阈值列表作为调整后阈值列表被登记于阈值列表表40。另外,阈值调整装置的动作流程返回到步骤S103,通过评价部2再度进行使用了该调整后阈值列表的评价,评价结果被记录于评价结果表50。然后,显示将调整后阈值列表中的各关键字的评价值与理想值一并提示的精度一览画面70。此时,初始阈值列表中的各关键字的评价值也可以不消失而进行提示。该情况下,希望通过例如颜色区分等能够明确区别初始阈值列表中的评价值和调整后阈值列表中的评价值。
用户针对识别对象的各关键字反复进行了上述的操作直至获得适当的评价结果,当确认为针对各关键字获得了适当的评价结果时,在精度一览画面70上按下“结束按钮”75(步骤S105:是)。由此,阈值调整装置的一系列动作结束。此时,最新的调整后阈值列表可以作为在步骤S101中登记的与声音识别模型10对应的最佳的阈值列表,分发给被指定的外部的分发目的地。另外,可以将最新的调整后阈值列表作为在步骤S101中登记的与声音识别模型10对应的最佳的阈值列表而保存到阈值调整装置的内部,并能够根据需要从外部进行访问。
如以上举出具体的例子而详细说明那样,本实施方式的阈值调整装置按每个关键字计算表示识别精度的评价值,该识别精度是使用了以针对作为识别对象而预先决定的多个关键字分别独立地设定的阈值为要素的阈值列表的情况下的识别精度,并使显示装置显示将计算出的评价值与理想值一并提示的精度一览画面70。因此,用户通过参照该精度一览画面70,能够容易地掌握应该变更阈值的关键字。
另外,当在精度一览画面70上选择了任意的关键字时,本实施方式的阈值调整装置使显示装置显示误识别解析画面80或初始评价结果画面90。因此,用户通过误识别解析画面80,能够容易地掌握对于所选择的关键字容易被误识别的其他关键字,并且,通过参照初始评价结果画面90,能够容易地掌握可变更所选择的关键字的阈值的范围,能够恰当地实施阈值的变更。
这样,本实施方式的阈值调整装置能够对阈值的调整进行支持,以便能够针对作为识别对象而预先决定的多个关键字分别设定适当的阈值。
<变形例1>
上述的阈值调整装置也可以成为具备对阈值进行自动调整的功能的构成。图11是表示本变形例的阈值调整装置的功能性结构例的框图。本变形例的阈值调整装置是相对于图1所示的构成追加了自动调整部4的构成。
在本变形例中,当使用了初始阈值列表的评价结束时,显示控制部3首先使显示装置显示图12所示那样的精度一览画面70作为阈值调整画面。该精度一览画面70是相对于图8所示的精度一览画面70追加了“自动调整”按钮76的构成。当在该精度一览画面70上用户按下“自动调整”按钮76时,自动调整部4起动。
自动调整部4在起动后,首先基于精度一览画面70所提示的评价值与理想值的差值,来选择成为调整阈值的对象的关键字(第1识别对象语)。例如,自动调整部4选择评价值从理想值降低最大的关键字。然后,自动调整部4基于在与所选择的关键字对应的初始评价结果画面90中提示的每个阈值的评价值的一览,在所选择的关键字的正确率不降低且拒绝率不上升的范围,提高与该关键字对应的阈值。
另外,自动调整部4将与在精度一览画面70上选择的关键字对应的误识别解析画面80中误识别的次数最多的关键字选择为与在精度一览画面70上选择了的关键字一起调整阈值的关键字(第2识别对象语)。然后,自动调整部4基于在与所选择的关键字对应的初始评价结果画面90中提示的每个阈值的评价值的一览,在选择出的关键字的正确率不降低且拒绝率不上升的范围,降低与该关键字对应的阈值。
自动调整部4将以上的动作反复进行规定次数,将反映了变更后的阈值的新的阈值列表作为调整后阈值列表登记于阈值列表表40。然后,与上述的实施方式相同,通过评价部2再次进行使用了该调整后阈值列表的评价,评价结果被记录于评价结果表50。而且,显示将调整后阈值列表中的各关键字的评价值与理想值一并提示的精度一览画面70。
在本变形例中,如上所述,由于能够自动地进行应该调整阈值的关键字的选择、与该关键字对应的阈值的调整,所以可获得能够降低用户的操作负担这一特有的效果。
<变形例2>
在上述的实施方式中,成为声音识别模型10的识别对象的关键字的任意一个都包含于评价用声音,但也可以将不包含关键字的噪声声音或者包含不是声音识别模型10的识别对象的其他话语的噪声声音追加到评价用声音。在将这样的噪声声音追加到评价用声音的情况下,在评价用数据表30的相应的条目的关键字ID中记录表示没有相应的“n/a”。作为针对这样的噪声声音的声音识别部1的识别结果,无关键字(拒绝)是正确的结果。
在本变形例中,在初始评价后的评价实施(图7的步骤S103)中,除了包括关键字的评价用声音以外还将噪声声音输入至声音识别部1,按成为识别对象的每个关键字,作为声音识别部1针对噪声声音的识别结果,记录对该关键字误识别(误反应)的次数。而且,在图8所示的精度一览画面70中,与每个关键字的评价值以及理想值一并,提示因噪声声音而被误识别的次数。用户通过参照该精度一览画面70,能够容易地掌握对于噪声声音容易被误识别的关键字,能够将该关键字选择为阈值的调整对象,与上述的实施方式同样恰当地进行阈值的调整。
如上所述,在本变形例中,能够使用户可靠地掌握对于噪声声音容易被误识别的关键字,可获得能够对阈值的调整更有效地进行支持这一特有的效果。
<变形例3>
在上述的实施方式中,在与作为阈值调整的对象而选择的关键字对应的初始评价结果画面90中,将正确率足够高并且拒绝率足够低的范围作为能够调整阈值的范围。但是,该范围只是根据使用了评价用数据的评价部2的评价结果而导出的范围,当将该范围的边界附近的阈值设定为调整后的阈值时,在被输入更多样的声音的实际的声音识别中,也会想到识别精度降低这一情况。
鉴于此,在初始评价结果画面90中,当希望将相邻的阈值下的正确率急剧降低,或者相邻的阈值下的拒绝率急剧上升那样的阈值设定为调整后的阈值的情况下,可以在该初始评价结果画面90上或者从该画面迁移的精度一览画面70上,显示对精度因阈值调整而可能降低这一情况进行表示的警告。对于相邻的阈值下的正确率急剧降低,或者相邻的阈值下的拒绝率急剧上升这一判定,例如只要预先决定相邻的阈值下的正确率降低10%以上,或者相邻的阈值下的拒绝率上升10%以上这一条件即可。
此外,在如上述的变形例1中说明那样的、由自动调整部4自动进行阈值的调整的构成的情况下,也可以进行相同的警告显示。即,在作为自动调整部4调整后的阈值,选择了相邻的阈值下的正确率急剧降低,或者相邻的阈值下的拒绝率急剧上升那样的阈值的情况下,可以在初始评价结果画面90上或者精度一览画面70上显示警告,并在用户允许了阈值的调整的情况下进行阈值的调整。
如上所述,在本变形例中,由于在有可能进行反而导致识别精度降低那样的阈值的调整的情况下显示警告,所以可获得能够对阈值的调整更有效地进行支持这一特有的效果。
<变形例4>
在上述的实施方式中,设想了仅对特定的关键字作出反应的语音触发声音识别的应用例,但并不局限于语音触发声音识别,也能够将本发明应用于将连续的声音转换为文字的连续声音识别。在连续声音识别中,能够追加除了一般的用语以外还用于能够识别专门的用语的用户单词词典。而且,能够通过阈值来控制该用户单词字典中登记的各单词的识别容易度、识别困难度。
因此,在将本发明应用于连续声音识别的情况下,能够将用户单词字典中登记的各单词与上述的语音触发声音识别中的关键字同样处理,通过与上述的实施方式相同的方法,能够适当地支持针对用户单词字典内的各单词设定的阈值的调整。
<变形例5>
上述实施方式以及各变形例的阈值调整装置中的、显示于阈值调整画面的评价值是基于声音识别部1所输出的识别结果,计算出关键字表20中所登记的每个关键字的正确率及拒绝率(评价值)而得到的各关键字的评价值。即,由于是对于多个发声者所发出的声音的识别结果来显示每个关键字的评价值,因此多个发声者的声音识别结果混合在一起而成为了评价对象。但是,评价值的显示方法不仅限于此,例如,也可以将每个发声者的声音识别结果作为对象并计算出每个关键字的正确率及拒绝率(评价值),对每个发声者的各关键字的评价值进行显示。
同样地,对于误识别解析画面也可以计算出每个发声者的误识别关键字,并对每个发声者的误识别关键字及其出现次数进行显示。
<补充说明>
上述的实施方式、各变形例的阈值调整装置例如能够通过使用通用的计算机作为基本硬件来实现。即,上述的阈值调整装置的各部的功能能够通过使安装于通用的计算机的1个以上处理器执行程序来实现。此时,阈值调整装置可以通过将上述的程序预先安装于计算机来实现,也可以将上述的程序存储到计算机可读取的存储介质,或者经由网络来分配上述的程序,并将该程序恰当地安装于计算机来实现。
图13是表示上述的阈值调整装置的硬件结构例的框图。阈值调整装置例如如图13所示,具有作为一般的计算机的硬件构成,该计算机具备:用于将CPU(Central ProcessingUnit,中央处理单元)等处理器101、RAM(Random Access Memory,随机存取存储器)、ROM(Read Only Memory,只读存储器)等存储器102、HDD(Hard Disk Drive,硬盘驱动器)、SSD(Solid State Drive,固态硬盘)等存储设备103、液晶面板等显示装置106、键盘、定点设备等输入装置107等设备连接的设备I/F104、与装置外部进行通信的通信I/F105、以及将这些各部连接的总线108。
在通过图13所示的硬件构成实现上述的阈值调整装置的情况下,例如,处理器101利用存储器102来读出存储设备103等中储存的程序并执行,由此能够实现上述的声音识别部1、评价部2、显示控制部3、自动调整部4等各部的功能。另外,上述的声音识别模型10、关键字表20、评价用数据表30、阈值列表表40、评价结果表50、理想值表60例如预先储存于存储器102、存储设备103等,能够适当地读出并利用于处理。
此外,对于上述的阈值调整装置的各部的功能而言,也可以由ASIC(ApplicationSpecific Integrated Circuit,专用集成电路)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)等专用的硬件(不是通用的处理器而是专用的处理器)来实现其一部分或者全部。另外,也可以是使用多个处理器来实现上述的各部的功能的构成。另外,上述的阈值调整装置并不局限于由单一的计算机实现的情况,也能够将功能分散于多个计算机来实现。
以上对本发明的实施方式进行了说明,但该实施方式只是例示,并不意图限定发明的范围。该新的实施方式能够通过其他的各种方式加以实施,在不脱离发明主旨的范围,能够进行各种省略、置换、变更。这些实施方式及其变形包含在发明的范围及主旨中,并且,包含在技术方案所记载的发明及其等同的范围。

Claims (14)

1.一种阈值调整装置,其中,具备:
声音识别部,进行声音识别;
评价部,对上述声音识别部输入将针对预先决定的多个识别对象语分别独立地设定的多个阈值作为要素的阈值列表和评价用声音,基于上述声音识别部输出的针对上述评价用声音的识别结果,来计算评价值,该评价值表示使用了上述阈值列表的上述声音识别部的针对上述多个识别对象语中的每一个识别对象语的识别精度;以及
显示控制部,使显示装置显示阈值调整画面,该阈值调整画面用于调整与上述多个识别对象语中的任意的识别对象语对应的阈值,
上述阈值调整画面包括精度一览画面,该精度一览画面将由上述评价部针对上述多个识别对象语分别计算出的评价值与针对上述多个识别对象语分别预先计算出的理想值一并提示。
2.根据权利要求1所述的阈值调整装置,其中,
上述评价部针对上述多个识别对象语的每一个,对上述声音识别部基于包括该识别对象语的上述评价用声音而误识别成其他识别对象语的次数按误识别成的每个识别对象语进行计数,
上述阈值调整画面还包括误识别解析画面,该误识别解析画面针对上述多个识别对象语中的被选择的识别对象语,将上述评价部计数得到的误识别的次数按误识别成的每个识别对象语进行提示。
3.根据权利要求2所述的阈值调整装置,其中,
上述阈值调整画面还包括初始评价结果画面,该初始评价结果画面针对上述多个识别对象语中的被选择的识别对象语,提示在一边以规定间隔变更初始评价用阈值列表中的共用的阈值、一边将初始评价用阈值列表和上述评价用声音反复输入至上述声音识别部时,由上述评价部反复计算出的评价值的一览,上述初始评价用阈值列表对上述多个识别对象语设定共用的阈值。
4.根据权利要求3所述的阈值调整装置,其中,
上述理想值是一边以规定间隔变更上述初始评价用阈值列表中的共用的阈值、一边将上述初始评价用阈值列表和上述评价用声音反复输入至上述声音识别部时,由上述评价部反复计算出的评价值中的、表示上述声音识别部的识别精度最高的情况的评价值。
5.根据权利要求4所述的阈值调整装置,其中,
上述阈值列表包括初始阈值列表,该初始阈值列表是使用了在获得了各个识别对象语的上述理想值时的上述初始评价用阈值列表中的共用的阈值来作为对上述多个识别对象语分别独立地设定的多个阈值的阈值列表。
6.根据权利要求1所述的阈值调整装置,其中,
上述阈值列表包括调整后阈值列表,该调整后阈值列表是使用上述阈值调整画面调整了与任意的识别对象语对应的阈值而得到的列表。
7.根据权利要求3所述的阈值调整装置,其中,
上述阈值调整装置还具备自动调整部,该自动调整部基于上述精度一览画面中提示的评价值与理想值的差值,来选择上述多个识别对象语中的成为调整阈值的对象的第1识别对象语。
8.根据权利要求7所述的阈值调整装置,其中,
上述自动调整部基于在与上述第1识别对象语对应的上述初始评价结果画面中提示的评价值的一览,来调整与上述第1识别对象语对应的阈值。
9.根据权利要求7所述的阈值调整装置,其中,
上述自动调整部还基于在与上述第1识别对象语对应的上述误识别解析画面中提示的误识别的次数,选择成为调整阈值的对象的第2识别对象语。
10.根据权利要求9所述的阈值调整装置,其中,
上述自动调整部基于在与上述第2识别对象语对应的上述初始评价结果画面中提示的评价值的一览,来调整与上述第2识别对象语对应的阈值。
11.根据权利要求1所述的阈值调整装置,其中,
上述评价用声音包括噪声声音,该噪声声音是不含有上述多个识别对象语中的任意一个识别对象语的声音。
12.根据权利要求3所述的阈值调整装置,其中,
上述显示控制部在基于与成为调整阈值的对象的识别对象语对应的上述初始评价结果画面中所提示的评价值的一览而判断出作为调整后的阈值而被指定的阈值符合规定的条件的情况下,在上述阈值调整画面上显示警告。
13.一种阈值调整方法,其中,包括:
评价步骤,对进行声音识别的声音识别部输入将针对预先决定的多个识别对象语分别独立地设定的多个阈值作为要素的阈值列表和评价用声音,基于上述声音识别部输出的针对上述评价用声音的识别结果,来计算评价值,该评价值表示使用了上述阈值列表的上述声音识别部的针对上述多个识别对象语中的每一个识别对象语的识别精度;以及
显示控制步骤,使显示装置显示阈值调整画面,该阈值调整画面用于调整与上述多个识别对象语中的任意的识别对象语对应的阈值,
上述阈值调整画面包括精度一览画面,该精度一览画面将在上述评价步骤中针对上述多个识别对象语分别计算出的评价值与针对上述多个识别对象语分别预先计算出的理想值一并提示。
14.一种记录介质,是存储有计算机程序的计算机可读取的记录介质,其中,上述程序使上述计算机实现下述功能:
声音识别部,进行声音识别;
评价部,对上述声音识别部输入将针对预先决定的多个识别对象语分别独立地设定的多个阈值作为要素的阈值列表和评价用声音,基于上述声音识别部输出的针对上述评价用声音的识别结果,来计算评价值,该评价值表示使用了上述阈值列表的上述声音识别部针对上述多个识别对象语的每一个识别对象语的识别精度;以及
显示控制部,使显示装置显示阈值调整画面,该阈值调整画面用于调整与上述多个识别对象语中的任意的识别对象语对应的阈值,
上述阈值调整画面包括精度一览画面,该精度一览画面将由上述评价部针对上述多个识别对象语分别计算出的评价值与针对上述多个识别对象语分别预先计算出的理想值一并提示。
CN201910248475.5A 2019-03-29 2019-03-29 阈值调整装置、阈值调整方法以及记录介质 Active CN111754995B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201910248475.5A CN111754995B (zh) 2019-03-29 阈值调整装置、阈值调整方法以及记录介质
PCT/JP2020/011855 WO2020203275A1 (ja) 2019-03-29 2020-03-17 閾値調整装置、閾値調整方法および記録媒体
JP2021511407A JP7214841B2 (ja) 2019-03-29 2020-03-17 閾値調整装置、閾値調整方法および記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910248475.5A CN111754995B (zh) 2019-03-29 阈值调整装置、阈值调整方法以及记录介质

Publications (2)

Publication Number Publication Date
CN111754995A true CN111754995A (zh) 2020-10-09
CN111754995B CN111754995B (zh) 2024-06-04

Family

ID=

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005043461A (ja) * 2003-07-23 2005-02-17 Canon Inc 音声認識方法及び音声認識装置
JP2006330074A (ja) * 2005-05-23 2006-12-07 Canon Inc 音声認識装置および方法
WO2007118030A2 (en) * 2006-04-03 2007-10-18 Vocollect, Inc. Methods and systems for optimizing model adaptation for a speech recognition system
JP2008033198A (ja) * 2006-08-01 2008-02-14 Nec System Technologies Ltd 音声対話システム、音声対話方法、音声入力装置、プログラム
JP2011022476A (ja) * 2009-07-17 2011-02-03 Fujitsu Ltd 音声認識用の閾値管理プログラム、音声認識用の閾値管理方法、音声認識装置
US20130138439A1 (en) * 2011-11-29 2013-05-30 Nuance Communications, Inc. Interface for Setting Confidence Thresholds for Automatic Speech Recognition and Call Steering Applications
CN103337241A (zh) * 2013-06-09 2013-10-02 北京云知声信息技术有限公司 一种语音识别方法和装置
CN103635962A (zh) * 2011-08-19 2014-03-12 旭化成株式会社 声音识别系统、识别字典登记系统以及声学模型标识符序列生成装置
US20150302848A1 (en) * 2014-04-21 2015-10-22 International Business Machines Corporation Speech retrieval method, speech retrieval apparatus, and program for speech retrieval apparatus
JP2018022331A (ja) * 2016-08-03 2018-02-08 国立大学法人電気通信大学 音象徴語・パーソナリティ情報提供装置、音象徴語・パーソナリティ情報提供方法および音象徴語・パーソナリティ情報提供プログラム
CN108665907A (zh) * 2017-03-27 2018-10-16 卡西欧计算机株式会社 声音识别装置、声音识别方法、记录介质以及机器人

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005043461A (ja) * 2003-07-23 2005-02-17 Canon Inc 音声認識方法及び音声認識装置
JP2006330074A (ja) * 2005-05-23 2006-12-07 Canon Inc 音声認識装置および方法
WO2007118030A2 (en) * 2006-04-03 2007-10-18 Vocollect, Inc. Methods and systems for optimizing model adaptation for a speech recognition system
JP2008033198A (ja) * 2006-08-01 2008-02-14 Nec System Technologies Ltd 音声対話システム、音声対話方法、音声入力装置、プログラム
JP2011022476A (ja) * 2009-07-17 2011-02-03 Fujitsu Ltd 音声認識用の閾値管理プログラム、音声認識用の閾値管理方法、音声認識装置
CN103635962A (zh) * 2011-08-19 2014-03-12 旭化成株式会社 声音识别系统、识别字典登记系统以及声学模型标识符序列生成装置
US20130138439A1 (en) * 2011-11-29 2013-05-30 Nuance Communications, Inc. Interface for Setting Confidence Thresholds for Automatic Speech Recognition and Call Steering Applications
CN103337241A (zh) * 2013-06-09 2013-10-02 北京云知声信息技术有限公司 一种语音识别方法和装置
US20150302848A1 (en) * 2014-04-21 2015-10-22 International Business Machines Corporation Speech retrieval method, speech retrieval apparatus, and program for speech retrieval apparatus
JP2018022331A (ja) * 2016-08-03 2018-02-08 国立大学法人電気通信大学 音象徴語・パーソナリティ情報提供装置、音象徴語・パーソナリティ情報提供方法および音象徴語・パーソナリティ情報提供プログラム
CN108665907A (zh) * 2017-03-27 2018-10-16 卡西欧计算机株式会社 声音识别装置、声音识别方法、记录介质以及机器人

Also Published As

Publication number Publication date
WO2020203275A1 (ja) 2020-10-08
JP7214841B2 (ja) 2023-01-30
JPWO2020203275A1 (ja) 2021-11-25

Similar Documents

Publication Publication Date Title
US7228275B1 (en) Speech recognition system having multiple speech recognizers
US7949524B2 (en) Speech recognition correction with standby-word dictionary
US9524718B2 (en) Speech recognition server integration device that is an intermediate module to relay between a terminal module and speech recognition server and speech recognition server integration method
CN109754793B (zh) 用于推荐车辆的功能的装置和方法
US20050187768A1 (en) Dynamic N-best algorithm to reduce recognition errors
JP4680714B2 (ja) 音声認識装置および音声認識方法
US10553206B2 (en) Voice keyword detection apparatus and voice keyword detection method
US8271282B2 (en) Voice recognition apparatus, voice recognition method and recording medium
JP2016051179A (ja) 音声認識方法、音声評価方法、音声認識システム及び音声評価システム
JP5824829B2 (ja) 音声認識装置、音声認識方法及び音声認識プログラム
JP2007213005A (ja) 認識辞書システムおよびその更新方法
CN108630231B (zh) 信息处理装置、感情识别方法以及存储介质
JP2018040906A (ja) 辞書更新装置およびプログラム
CN110914897B (zh) 语音识别系统和语音识别装置
JP2014235345A (ja) 音声処理装置、方法およびプログラム
US6963834B2 (en) Method of speech recognition using empirically determined word candidates
JP2015530614A (ja) 精度スコアを使用した音声認識性能を予測するための方法およびシステム
US20100153110A1 (en) Voice recognition system and method of a mobile communication device
JP5646675B2 (ja) 情報処理装置及び方法
KR101242182B1 (ko) 음성인식장치 및 음성인식방법
JP2014164261A (ja) 情報処理装置およびその方法
JP7214841B2 (ja) 閾値調整装置、閾値調整方法および記録媒体
CN111754995B (zh) 阈值调整装置、阈值调整方法以及记录介质
US20090106025A1 (en) Speaker model registering apparatus and method, and computer program
JP2009116277A (ja) 音声認識装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant