CN105706163A - 检测语音输入短语混淆风险 - Google Patents

检测语音输入短语混淆风险 Download PDF

Info

Publication number
CN105706163A
CN105706163A CN201480061147.XA CN201480061147A CN105706163A CN 105706163 A CN105706163 A CN 105706163A CN 201480061147 A CN201480061147 A CN 201480061147A CN 105706163 A CN105706163 A CN 105706163A
Authority
CN
China
Prior art keywords
voice grammar
term
phonology
grammar term
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201480061147.XA
Other languages
English (en)
Other versions
CN105706163B (zh
Inventor
M·恰尔弗
P·克尔纳姆
D·穆尼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Technology Licensing LLC
Original Assignee
Microsoft Technology Licensing LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Technology Licensing LLC filed Critical Microsoft Technology Licensing LLC
Publication of CN105706163A publication Critical patent/CN105706163A/zh
Application granted granted Critical
Publication of CN105706163B publication Critical patent/CN105706163B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/01Assessment or evaluation of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/187Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0635Training updating or merging of old and new templates; Mean values; Weighting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L2025/783Detection of presence or absence of voice signals based on threshold decision
    • G10L2025/786Adaptive threshold
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Signal Processing (AREA)
  • Machine Translation (AREA)

Abstract

与在计算机程序开发期间标识语音学上类似的语音语法术语相关的各实施例被揭示。例如,一个所揭示的实施例提供一种方法,包括提供输入的语音语法开发工具,该工具被配置用于接收多个提议的语音语法术语的每一个的文本表示的输入,将每个文本表示转换为语音语法术语的语音学的表示,使用经加权的相似性矩阵将语音语法术语的语音学的表示与其它语音语法术语的语音学的表示进行比较,并基于两个提议的语音语法术语的语音学的表示的比较来提供关于两个提议的译音语法术语之间的混淆的风险的输出。该方法进一步包括接收有关不正确语音语法术语标识的数据,并基于该数据在经加权相似性矩阵中修改一个或多个权重。

Description

检测语音输入短语混淆风险
背景
计算机语音识别可被用来以通过诸如话筒之类的音频换能器检测到的人类语言的形式接收计算设备输入。许多不同类型的计算设备可利用语音输入,包括但不限于移动设备、膝上计算机、台式计算机、游戏设备、以及甚至集成到汽车和其它机器的计算机。语音输入可被用来控制执行在计算设备上的程序的许多不同方面,包括但不限于操作系统功能和应用功能。
概述
与在计算机程序开发期间标识语音学上类似的语音语法术语相关的各实施例被揭示。例如,一个所揭示的实施例提供一种方法,包括提供输入的语音语法开发工具,该工具被配置用于接收多个提议的语音语法术语的每一个的文本表示的输入,将每个文本表示转换为语音语法术语的语音学的表示,使用经加权的相似性矩阵将语音语法术语的语音学的表示与其它语音语法术语的语音学的表示进行比较,并基于两个提议的语音语法术语的语音学的表示的比较来提供关于两个提议的译音语法术语之间的混淆的风险的输出。该方法还包括接收关于不正确语音语法术语标识的数据,并基于该数据修改经加权的相似性矩阵中的一个或多个权重。
提供本概述以便以简化的形式介绍以下在详细描述中进一步描述的一些概念。本概述并不旨在标识所要求保护主题的关键特征或必要特征,也不旨在用于限制所要求保护主题的范围。而且,所要求保护的主题不限于解决该公开的任一部分中所注的任何或全部缺点的实现方式。
附图简述
图1示出了计算机程序开发和使用环境的实施例的框图。
图2A-2C示出了用于在计算机程序开发期间检测语音语法术语之间的短语混淆风险的方法的实施例的流程图。
图3示出了用于标识语音语法术语之间的短语混淆风险的经加权相似性矩阵的部分的实施例。
图4示出了计算系统的一实施例。
详细描述
在计算机程序开发期间,语音学上类似潜在地可被语音识别系统混淆的语音语法术语可被选择。如果用户作出的语音输入被语音识别系统错误标识,那么计算设备可能执行不同于用户打算的动作的动作。这可能导致不令人满意的用户体验。
据此,计算机程序开发者可能非常小心避免在程序的同一状态中使用可造成这样的混淆的风险的两个或更多语音语法术语。如此,开发者可执行包括使用现实音频数据和现实提议语音语法来迭代地执行大量语音识别模拟的测试。该测试可能消耗大量时间和资源。此外,在某些实例中,开发者可能没有意识到混淆的风险直到修复问题非常昂贵,或甚至太晚了。
因此,在此揭示了预测语音语法术语可能被语音识别系统混淆的风险的各实施例。简言之,所揭示的各实施例将提议的语音语法术语的文本表示转换成语音学表示,并接着将语音学表示进行比较以确定术语间的相似性。如果确定了存在混淆风险,可提供输出来警告开发者这个风险。在某些示例中,多个不同级别的风险可被识别,并且针对不同级别的风险可提供对应的不同警告。以此方式,可提供提议的语音语法的使用现实音频数据的迭代测试。进一步,所揭示的各实施例还可随时间基于来自终端用户和/或开发者的实际使用数据来更新对话和比较过程中所使用的数据,这将有助于随时间改善潜在的混淆语音语法术语的标识。
在详细地讨论这些实施例之前,先参考图1描述示例使用环境100。环境100包括多个开发者计算系统,示意性地示为开发者计算系统1102和开发者计算系统n104。开发者计算系统可表示由计算机程序开发者在开发利用语音输入的计算机程序时操作的计算系统。示例程序由开发中的程序1106和开发中的程序n108示意性地表示。开发中的程序可包括提议的语音语法110。提议的语音语法110可指定例如在对应程序的每个状态中利用的语音命令。
计算机程序可通过软件开发工具(例如软件开发工具包(SDK))(例如,由制造计算机程序要在其上执行的设备和/或操作系统的公司所提供的)来开发。图1示出了程序开发服务120,诸如语音语法开发工具122之类的计算机程序开发工具可在该程序开发服务120处被开发者利用计算系统102、104来访问。语音语法开发工具可被下载到开发者计算系统供本地地在开发者计算系统上执行,如在122a处所示,和/或可从开发者计算系统作为远程软件服务来被远程执行。
如以下更详细讨论的,语音语法开发工具122被配置来帮助计算机程序开发者通过将文本表示转换成语音学表示,并随后将语音学表示进行比较来确定一对提议的语音语法术语之间的相似性,来从开发者的文本表示输入中标识处潜在混淆的语音语法术语。此外,在某些实施例中,游戏开发工具122可被配置来建议造成较小语音学混淆的风险的同义词。为了帮助确定提议的语音语法术语之间的相似性,语音语法开发工具122可利用语音学相似性矩阵124。如以下更详细地讨论的,语音学相似性矩阵可包括关于各音素之间语音学特征的差异的信息,并因此可被用于通过多少语音学特征音素差异来确定。作为非限制性示例,“pin”和“bin”之间的语音学差异可能小于“bin”和“tin”之间的语音学差异,因为音素/p/和/b/仅通过语音学特征“浊音的”来区分,而/b/和/t/通过截然不同的特征“浊音的”和“舌尖的”来区分。
在某些实施例中,语音学相似性矩阵124可包括各自的可调节权重126,其用于在语音学相似性矩阵124中加权每个语音学特征。因为对于语音识别来说不是所有的区别语音学特征都是同等重要的,各自的权重可被设置以强调语音学特征并且不强调其它。此外,权重126可基于所观察到的从现实生活使用数据中确定的语音识别错误来调整。
现实生活使用数据可从终端用户计算系统(由终端用户计算系统1130和终端用户计算系统n132表示)收集。每个终端用户计算系统130、132可包括配置用于检测通过话筒136或其它合适的声学输入设备接收的经识别的语音片段的语音识别系统134。所识别的语音片段可由语音识别系统134基于终端用户计算设备上的程序的语音语法来提供给那些程序(由程序1138和n140表示)。随着终端用户与终端用户计算系统130、132通过语音输入来交互,关于正确标识的语音输入和不正确标识的语音输入两者的数据可通过遥测模块142来收集。遥测模块142可将这样的数据提供给程序开发服务120,如在144所指示的,以用于潜在地修改语音相似性矩阵124。例如,如果发现两个语音语法术语比从语音相似性矩阵124期望的更频繁地混淆,该语音语法术语的一个或多个语音学特征的权重可被调整以反映混淆的较高风险。类似地,如果发现语音语法术语具有相比于语音语法开发工具122生成的语音学表示而言非预期的的实际发音,那么实际发音语音学表示可被存储供在生成那个语音语法术语的未来的语音学表示中使用。将理解,权重可基于现实生活使用数据来手动调节,和/或算法地调节。遥测数据144可包括任何合适的信息,包括但不限于音频样本146、关于基于该音频样本标识的语音语法术语的信息、以及关于音频样本中的短语被正确标识还是不正确标识的信息,包括关于标识的置信度分数的信息(例如,指示语音识别器在结果中有多么确信的分数)。
图2A-2C示出了用于检测语音语法术语之间的短语混淆风险的方法200的实施例的流程图。方法200示出了发生在三个不同示例位置的过程,即开发者计算系统(由左栏表示)、程序开发者服务(由中间栏表示)、和终端用户计算系统(由右栏表示)。将理解,图2A-2B中所示的特定位置和处理的次序是出于示例的目的而描绘的,且不旨在以任何方式进行限制,因为可以以任何合适的次序和在任何合适的位置执行所描绘的过程。
方法200包括,在202,提供语音语法开发工具供开发者计算系统使用。该语音语法开发工具可由开发者计算系统下载,可作为开发者计算系统通过网络203可访问的远程服务,或可以以任何其它合适的方式操作。方法200还包括:在204处,接收开发中的程序的提议的语音语法术语的文本表示的输入。
如上面提及的,如果提议的语音语法包括可混淆的短语,则存在语音识别引擎可能不正确地解释检测到的语音输入的风险。如此,为了帮助检测潜在可混淆的语音语法术语,方法200包括,在206,将每个文本表示转换为语音学表示以允许对潜在可混淆语音语法术语的标识。任何合适的方法可被用于将文本表示转换成语音学表示(其可以是或可以不是基于文本的)。各示例包括但不限于语音识别引擎的使用、字母到声音技术、发音词典、手动创建的发音、和/或音素识别。
在某些实施例中,语音语法术语仅使用开发者提供的文本表示来被转换成语音学表示。在其它实施例中,为进一步的精确性,附加的信息可被考虑。例如,如在208所描绘的,对应于提议的语音语法术语的一个或多个音频样本可被存储器中检索,并由语音识别引擎使用“强制对准”模式来分析。强制对准模式将音频样本与从文本表示中确定的所提议的语音语法术语的语音学表示进行匹配,并输出该术语的语音学表示并带有指示每个音素在音频样本中的持续时间的时戳。这样的音频样本可在实际使用期间从终端用户接收和/或在软件开发期间从开发者接收,或以任何其它合适的方式获得。
对于口头语言中音节可在其中缩短或丢弃的单词,强制对准将输出具有那些音节的小的时戳值的音素。如此,音素的时戳可与阈值时间范围(可以是绝对的或相对的)进行比较,并且具有低于阈值的时戳的任何音素可从发音表示中被忽略,如在210所指示的。作为非限制性示例,在单词“vegetable”的日常发音中,该单词的第二个音节可被缩短或忽略。如此,如从强制对准中确定的这个音节的时戳可足够小以将这个音节从“vegetable”的语音学表示中忽略。以此方式,相比于如果术语的声学样本的强制对准没有被应用,所提议的语音语法术的语音学表示可接近地反映术语的实际讲话发音,并且因此可帮助更精确地标识潜在可混淆的语音命令。
在生成所提议的语音语法术语的语音学表示之后,方法200包括,在212,使用语音学相似性矩阵来比较各对提议的语音语法术语的语音学表示。如上面所描述的,语音学相似性矩阵可包括关于每个音素的语音学特征的信息(或大于音素的单元,例如音节矩阵),并且可允许各音素之间的语音学距离被确定。
图3示出了示例语音学相似性矩阵300的一部分的示意性描述,该部分矩阵描绘十个英语音素的每一个的四个语音学特征。四个语音学特征是CNS(辅音)、CNT(持续)、VOI(浊音)、和ANT(前部的)。如在示例语音学相似性矩阵中可见,/p/和/b/通过四个语音学特征之一(VOI)来区分,而/p/和/g/通过两个(VOI和ANT)来区分。因此,/p/和/g/相比/p/和/b/更不容易被混淆。
在某些实施例中,每个音素的每个语音学特征可被给予两个值(例如0和1)之一,表示不相似和相似。在其它实施例中,如图3所示,语音学相似性矩阵可被加权,使得每个语音学特征具有在值的范围内(例如0到100的值)的权重。在语音学相似性矩阵中权重的使用可允许矩阵例如基于在现实世界使用期间所检测到的短语混淆来被调整,并且还反映针对语音识别的各种语音学特征的相对重要性。权重还为语音学相似性矩阵的距离度量增加了粒度和细化。
返回到图2,在212比较所提议的语音语法术语可涉及各种过程。例如,语音语法术语的语音学表示可与另一语音语法术语的语音学表示对准用于比较,如在214所示。对准可被用来确保两个语音学表示以这样的方式被比较以产生两个术语之间最强的语音学相似性。任何合适的对准方法可被使用,包括但不限于Smith-Waterman对准方法。在对准之后,可为该对语音学表示确定编辑距离,如在216所示。这可帮助确定在这两个语音学表示之间存在多少语音学差异,并且因此该表示在语音学上是多么不同。如上面描述的,语音学相似性矩阵可被用于确定这个编辑距离。
在确定一对所提议的语音语法术语的语音学表示之间的编辑距离之后,方法200可包括,在218,提供关于该对所提议的语音语法术语之间的混淆的风险的输出。该混淆风险可以按照任何合适的方式来确定。例如,混淆风险可通过将一对提议的语音语法术语的编辑距离(或其它相似性测量)与一个或多个阈值(每个阈值定义一选择的混淆风险)进行比较来确定。任何合适数量的阈值可被用于确定任何合适数量的不同混淆风险。例如,在某些实施例中,单个阈值可被用于区分混淆的两种风险(例如“风险”或“无风险”)。在其它实施例中,两个或更多个阈值可被用来在三个或更多个混淆的风险中进行区分,如在220所示。在一个非限制性示例中,输出可指示短语是否是同音字(例如bye和buy)、高度可混淆的(例如Bieber和beaver)、中等可混淆的(例如search和surge)、以及不会混淆的或以其他方式低风险的。阈值可手动选择并基于搜索来调节,和/或自动选择并基于音频数据来调节,和/或可由希望指定特定级别的混淆风险的开发者选择(例如,“仅向我示出高混淆风险”或“向我示出全部混淆风险”)。输出可以以任何合适的方式被提供,诸如通过显示在计算设备显示器上的可视指示符。
如果输出指示混淆风险存在,则开发者可选择为开发中的程序修改所提议的语音语法。如此,方法200包括,在222,接收经修改的所提议的语音语法术语,在224,将经修改的所提议的语音语法术语实现在程序中。
在某些实施例中,当混淆的风险被标识时,语音语法开发工具可推荐替代短语。所建议的替代短语可基于与位置、同义词、和/或任何其它合适的信息相关的数据来被选择。例如,如果提议的术语‘dismiss’由于其与某个其它短语可混淆,那么该工具可建议‘cancel’作为这个命令的替代。
在开发完成之后,程序可被分发到终端用户供使用。方法200因此包括,在226,经由终端用户计算系统利用所实现的语音语法来操作程序。当终端用户经由语音输入与程序交互时,程序有时可能不正确地标识语音输入。为提高针对正确和不正确的标识两者的反馈,通过终端用户计算系统执行的遥测模块可被用来收集这样的数据供分析,如果终端用户选择允许这样的遥测的执行。如此,方法200包括,在228,接收批准与所实现的语音语法的执行相关的遥测的使用的输入。此外,方法200包括,在230,收集语音识别系统执行数据,并将该数据发送到程序开发服务。该数据可包括关于正确的语音标识的数据232,以及关于不正确的语音标识的数据234。其中所述数据示出语音语法术语的不正确的标识的多个实例,相似性矩阵可被调节以帮助避免那个术语将来的错误标识。
经由遥测接收的数据可被用于条件语音学相似性矩阵,如在236指示的。任何合适的调节可被作出。例如,如在238指示的,与矩阵中语音学特征相关联的一个或多个权重可被调节。此外,如在240所指示的,如果术语的实际发音不同于期望的发音,则实际发音的语音学表示可被存储。对相似性矩阵这样的调节可手动作出,如在242所指示的,和/或自动地作出,如在244所指示的。
所揭示的各实施例可以以相比于涉及迭代地测试所提议的语音语法而言简单和高效的方式来帮助避免选择有风险混淆语音识别系统的语音语法术语。这样,所揭示的各实施例可帮助开发者将产品更快且更少花费地移动到市场。
在某些实施例中,本文所述的方法和过程可以与一个或多个计算设备的计算系统绑定。具体而言,这样的方法和过程可以实现为计算机应用程序或服务、应用程序编程接口(API)、库和/或其他计算机程序产品。
图4示意性地示出计算系统400的非限制性实施例,该计算系统可以进行上述方法和过程中的一个或多个。计算系统400以简化形式示出。计算系统400可采取以下形式:一个或多个个人计算机、服务器计算机、平板计算机、家庭娱乐计算机、网络计算设备、游戏设备、移动计算设备、移动通信设备(例如,智能电话)和/或其他计算设备。
计算系统400包括逻辑子系统402和存储子系统404。计算系统400可任选地包括显示子系统406、输入子系统408、通信子系统410和/或在图4中未示出的其他组件。
逻辑子系统402包括被配置为执行指令的一个或多个物理设备。例如,逻辑子系统可以被配置为执行作为一个或多个应用、服务、程序、例程、库、对象、组件、数据结构或其它逻辑构造的一部分的指令。这种指令可被实现以执行任务、实现数据类型、转换一个或多个部件的状态、实现技术效果、或以其他方式得到期望结果。
逻辑子系统可包括被配置成执行机器可读软件指令的一个或多个处理器。附加地或可替代地,逻辑子系统可以包括被配置为执行硬件或固件指令的一个或多个硬件或固件逻辑子系统。逻辑子系统的处理器可以是单核的或多核的,其上执行的指令可以被配置用于串行、并行和/或分布式处理。逻辑子系统的个体组件可任选地分布在两个或更多个分开的设备之间,所述设备可以位于远程以及/或者被配置用于协同处理。逻辑子系统的各方面可由以云计算配置进行配置的可远程访问的联网计算设备来虚拟化和执行。
存储子系统404包括被配置成保持可由逻辑子系统执行的指令以实现此处描述的方法和过程的一个或多个物理设备。在实现此类方法和过程时,存储子系统404的状态可以被变换——例如,以保持不同的数据。
存储子系统404可以包括可移动和/或内置设备。存储子系统404可以包括光学存储器(例如,CD、DVD、HD-DVD、蓝光碟等)、半导体存储器(例如,RAM、EPROM、EEPROM等)和/或磁性存储器(例如,硬盘驱动器、软盘驱动器、磁带驱动器、MRAM等)、等等。存储子系统404可包括易失性、非易失性、动态、静态、读/写、只读、随机存取、顺序存取、位置可寻址、文件可寻址和/或内容可寻址设备。
将理解,存储子系统404包括一个或多个物理设备,并排除传播信号自身。然而,本文所述的指令的各方面替代地可由通信介质(如电磁信号、光学信号等)来传播,而不是在存储介质中存储。
逻辑子系统402和存储子系统404的各方面可以被一起集成到一个或多个硬件逻辑组件中。这种硬件逻辑组件可以包括例如场可编程门阵列(FPGA)、程序和应用专用集成电路(PASIC/ASIC)、程序和应用专用标准产品(PSSP/ASSP)、片上系统(SOC)以及复杂可编程逻辑器件(CPLD)。
术语“模块”、“程序”和“引擎”可用于描述被实现为执行一个特定功能的计算系统400的一方面。在某些情况下,可以通过执行由存储子系统404所保持的指令的逻辑子系统402来实例化模块、程序或引擎。可以理解,可以从同一应用、服务、代码块、对象、库、例程、API、功能等来实例化不同的模块、程序和/或引擎。类似地,相同的模块、程序和/或引擎可由不同的应用、服务、代码块、对象、例程、API、功能等来实例化。术语“模块”、“程序”和“引擎”意在涵盖单个或成组的可执行文件、数据文件、库、驱动程序、脚本、数据库记录等。
应该理解,在此使用的“服务”是跨多个用户会话可执行的应用程序。服务可用于一个或多个系统组件、程序和/或其他服务。在某些实现中,服务可以在一个或多个服务器计算设备上运行。
在被包括时,显示子系统406可用于呈现由存储子系统404保存的数据的视觉表示。该视觉表示可以采用图形用户界面(GUI)的形式。由于此处所描述的方法和过程改变了由存储子系统保持的数据,并由此变换了存储子系统的状态,因此同样可以转变显示子系统406的状态以视觉地表示底层数据的改变。显示子系统406可以包括使用实质上任何类型的技术的一个或多个显示设备。可以将此类显示设备与逻辑子系统402和/或存储子系统76一起组合在共享封装中,或者此类显示设备可以是外围触摸显示设备。
当被包括时,输入子系统408可包括诸如键盘、鼠标、触摸屏或游戏控制器等一个或多个用户输入设备或者与这些用户输入设备对接。在一些实施例中,输入子系统可以包括或相接于所选择的自然用户输入(NUI)部件。这种元件部分可以是集成的或外围的,输入动作的转导和/或处理可以在板上或板外被处理。NUI部件的示例可包括用于语言和/或语音识别的话筒;用于机器视觉和/或姿势识别的红外、色彩、立体显示和/或深度相机;用于运动检测和/或意图识别的头部跟踪器、眼睛跟踪器、加速计和/或陀螺仪;以及用于评估脑部活动的电场感测部件。
在包括通信子系统410时,通信子系统400可以被配置成将计算系统1300与一个或多个其他计算设备通信耦合。通信子系统410可以包括与一个或多个不同通信协议兼容的有线和/或无线通信设备。作为非限制性示例,通信子系统可以被配置用于经由无线电话网络、或者有线或无线局域网或广域网来通信。在一些实施例中,通信子系统可允许计算系统400经由诸如因特网这样的网络将消息发送至其他设备以及/或者从其他设备接收消息。
将会理解,此处描述的配置和/或方法本质是示例性的,这些具体实施例或示例不应被视为限制性的,因为许多变体是可能的。此处描述的具体例程或方法可以表示任何数量的处理策略中的一个或多个。如此,所示和/或所述的各种动作可以以所示和/或所述顺序、以其他顺序、并行地执行,或者被省略。同样,上述过程的次序可以改变。
本公开的主题包括各种过程、系统和配置以及此处公开的其他特征、功能、动作和/或属性、以及它们的任一和全部等价物的所有新颖且非显而易见的组合和子组合。

Claims (10)

1.一种计算系统,包括:
逻辑子系统;以及
存储指令的存储子系统,所述指令能由所述逻辑子系统执行以:
接收语音语法术语的文本表示的输入;
从所述文本表示确定所述语音语法术语的语音学表示;
如果所述语音语法术语的部分包括低于阈值持续时间的持续时间,则忽略所述语音语法术语的所述语音学表示的所述部分;
将所述语音语法术语的所述语音学表示与另一语音语法术语的语音学表示进行比较;以及
输出所述语音语法术语和另一语音语法术语之间的混淆的风险的表示。
2.如权利要求1所述的计算系统,其特征在于,可执行以确定所选语音语法术语的所述部分具有低于阈值持续时间的持续时间的所述指令可执行以将所选语音语法术语的一个或多个音频样本与所选语音语法术语的文本表示强制对准,并确定所述部分的时戳是否具有低于阈值持续时间的值。
3.如权利要求2所述的计算系统,其特征在于,还包括从终端用户通过遥测接收所述一个或多个音频样本。
4.如权利要求1所述的计算系统,其特征在于,可执行以将所述语音语法术语的语音学表示与另一语音语法术语的语音学表示进行比较的所述指令可执行以使用经加权的相似性矩阵。
5.如权利要求4所述的计算系统,其特征在于,还包括可执行以接收关于不正确语音语法术语标识的数据,并基于所述数据修改在所述经加权的相似性矩阵中的一个或多个权重的指令。
6.如权利要求5所述的计算系统,其特征在于,还包括可执行以基于所述关于不正确语音语法术语标识的数据来存储所述语音语法术语的实际发音的语音学表示的指令。
7.如权利要求1所述的计算系统,其特征在于,可执行来输出所述混淆风险的表示的所述指令可执行以提供三个或更多个可能的输出之一以指示在两个所提议的语音语法术语之间的混淆的相对风险。
8.一种用于在计算设备上检测在计算机程序的所提议的语音语法中的短语混淆风险的方法,所述方法包括:
提供配置用于以下的语音语法开发工具:
接收多个所提议的语音语法术语的每一个的文本表示的输入;
对于每个所提议的语音语法术语,将所述文本表示转换成所述语音语法的语音学表示,并使用经加权的相似性矩阵将所述语音语法术语的语音学表示与其它语音语法术语的语音学表示进行比较;以及
基于两个所提议的语音语法术语的语音学表示的比较,来提供关于所述两个所提议的语音语法术语之间的混淆风险的输出;
接收关于不正确语音语法术语标识的数据;以及
基于所述数据修改所述经加权相似性矩阵中的一个或多个权重。
9.如权利要求8所述的方法,其特征在于,还包括,对于所选语音语法术语,确定所选语音语法术语的部分具有低于阈值持续时间的发音持续时间,并在将所选语音语法术语的所述语音学表示与其它语音语法术语的语音学表示进行比较之前,将所述部分从所选语音语法术语的所述语音学表示中忽略。
10.如权利要求9所述的方法,其特征在于,确定所选语音语法术语的所述部分具有低于阈值持续时间的发音持续时间包括,将所选语音语法术语的一个或多个音频样本与所选语音语法术语的文本表示强制对准,并确定所述部分的时戳是否具有低于阈值持续时间的值。
CN201480061147.XA 2013-11-06 2014-11-05 用于检测语音输入短语混淆风险的方法和系统 Active CN105706163B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US14/073,631 US9384731B2 (en) 2013-11-06 2013-11-06 Detecting speech input phrase confusion risk
US14/073,631 2013-11-06
PCT/US2014/064031 WO2015069701A1 (en) 2013-11-06 2014-11-05 Detecting speech input phrase confusion risk

Publications (2)

Publication Number Publication Date
CN105706163A true CN105706163A (zh) 2016-06-22
CN105706163B CN105706163B (zh) 2019-11-05

Family

ID=51901029

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201480061147.XA Active CN105706163B (zh) 2013-11-06 2014-11-05 用于检测语音输入短语混淆风险的方法和系统

Country Status (4)

Country Link
US (1) US9384731B2 (zh)
EP (1) EP3066663B1 (zh)
CN (1) CN105706163B (zh)
WO (1) WO2015069701A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107967916A (zh) * 2016-10-20 2018-04-27 谷歌有限责任公司 确定语音关系

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9384731B2 (en) * 2013-11-06 2016-07-05 Microsoft Technology Licensing, Llc Detecting speech input phrase confusion risk
US11209897B2 (en) * 2014-04-25 2021-12-28 Lenovo (Singapore) Pte. Ltd. Strengthening prediction confidence and command priority using natural user interface (NUI) inputs
US10755729B2 (en) * 2016-11-07 2020-08-25 Axon Enterprise, Inc. Systems and methods for interrelating text transcript information with video and/or audio information
US10305765B2 (en) 2017-07-21 2019-05-28 International Business Machines Corporation Adaptive selection of message data properties for improving communication throughput and reliability
JP2019057123A (ja) * 2017-09-21 2019-04-11 株式会社東芝 対話システム、方法、及びプログラム
US10546062B2 (en) * 2017-11-15 2020-01-28 International Business Machines Corporation Phonetic patterns for fuzzy matching in natural language processing
US10586537B2 (en) 2017-11-30 2020-03-10 International Business Machines Corporation Filtering directive invoking vocal utterances
US11386056B2 (en) * 2019-05-17 2022-07-12 International Business Machines Corporation Duplicate multimedia entity identification and processing
US20200364195A1 (en) * 2019-05-17 2020-11-19 International Business Machines Corporation Identifying Duplication Multimedia Entities
WO2021099834A1 (en) * 2019-11-21 2021-05-27 Cochlear Limited Scoring speech audiometry
US11087744B2 (en) 2019-12-17 2021-08-10 Spotify Ab Masking systems and methods
US20210375270A1 (en) * 2020-06-02 2021-12-02 Knowles Electronics, Llc Methods and systems for confusion reduction for compressed acoustic models

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6134528A (en) * 1997-06-13 2000-10-17 Motorola, Inc. Method device and article of manufacture for neural-network based generation of postlexical pronunciations from lexical pronunciations
US20020107688A1 (en) * 1998-03-10 2002-08-08 Mitsuru Otsuka Speech synthesizing method and apparatus
CN1409842A (zh) * 1999-10-28 2003-04-09 佳能株式会社 模式匹配方法和装置
US20030069729A1 (en) * 2001-10-05 2003-04-10 Bickley Corine A Method of assessing degree of acoustic confusability, and system therefor
CN1460948A (zh) * 2002-05-22 2003-12-10 夏普株式会社 修改或改进词语使用的方法和装置
CN1725295A (zh) * 2004-07-22 2006-01-25 索尼株式会社 语音处理装置、语音处理方法、程序、和记录介质
CN1761996A (zh) * 2003-03-24 2006-04-19 索尼电子有限公司 采用合并词典的语音识别系统及方法
US7310600B1 (en) * 1999-10-28 2007-12-18 Canon Kabushiki Kaisha Language recognition using a similarity measure
US20080065381A1 (en) * 2006-09-13 2008-03-13 Fujitsu Limited Speech enhancement apparatus, speech recording apparatus, speech enhancement program, speech recording program, speech enhancing method, and speech recording method
CN101689364A (zh) * 2007-07-09 2010-03-31 富士通株式会社 声音识别装置、声音识别方法以及声音识别程序
CN102243871A (zh) * 2010-05-14 2011-11-16 索尼计算机娱乐公司 作为语音识别错误预测器的用于语法适合度评估的方法和系统

Family Cites Families (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5689616A (en) * 1993-11-19 1997-11-18 Itt Corporation Automatic language identification/verification system
MX9702759A (es) * 1994-10-25 1997-07-31 British Telecomm Servicios operados por voz.
US6073099A (en) 1997-11-04 2000-06-06 Nortel Networks Corporation Predicting auditory confusions using a weighted Levinstein distance
US6885317B1 (en) * 1998-12-10 2005-04-26 Eatoni Ergonomics, Inc. Touch-typable devices based on ambiguous codes and methods to design such devices
CA2366057C (en) * 1999-03-05 2009-03-24 Canon Kabushiki Kaisha Database annotation and retrieval
US6185533B1 (en) * 1999-03-15 2001-02-06 Matsushita Electric Industrial Co., Ltd. Generation and synthesis of prosody templates
US20020069058A1 (en) * 1999-07-06 2002-06-06 Guo Jin Multimodal data input device
US7324945B2 (en) * 2001-06-28 2008-01-29 Sri International Method of dynamically altering grammars in a memory efficient speech recognition system
AU2003280474A1 (en) * 2002-06-28 2004-01-19 Conceptual Speech, Llc Multi-phoneme streamer and knowledge representation speech recognition system and method
AU2003900584A0 (en) 2003-02-11 2003-02-27 Telstra New Wave Pty Ltd System for predicting speech recognition accuracy and development for a dialog system
US7606714B2 (en) * 2003-02-11 2009-10-20 Microsoft Corporation Natural language classification within an automated response system
GB2404040A (en) * 2003-07-16 2005-01-19 Canon Kk Lattice matching
US7813928B2 (en) * 2004-06-10 2010-10-12 Panasonic Corporation Speech recognition device, speech recognition method, and program
US7409346B2 (en) * 2004-11-05 2008-08-05 Microsoft Corporation Two-stage implementation for phonetic recognition using a bi-directional target-filtering model of speech coarticulation and reduction
WO2007027989A2 (en) * 2005-08-31 2007-03-08 Voicebox Technologies, Inc. Dynamic speech sharpening
JP2008077601A (ja) * 2006-09-25 2008-04-03 Toshiba Corp 機械翻訳装置、機械翻訳方法および機械翻訳プログラム
GB0704772D0 (en) * 2007-03-12 2007-04-18 Mongoose Ventures Ltd Aural similarity measuring system for text
US8660844B2 (en) * 2007-10-24 2014-02-25 At&T Intellectual Property I, L.P. System and method of evaluating user simulations in a spoken dialog system with a diversion metric
US8065152B2 (en) * 2007-11-08 2011-11-22 Demand Media, Inc. Platform for enabling voice commands to resolve phoneme based domain name registrations
JP5293460B2 (ja) * 2009-07-02 2013-09-18 ヤマハ株式会社 歌唱合成用データベース生成装置、およびピッチカーブ生成装置
US8190420B2 (en) * 2009-08-04 2012-05-29 Autonomy Corporation Ltd. Automatic spoken language identification based on phoneme sequence patterns
US8930192B1 (en) * 2010-07-27 2015-01-06 Colvard Learning Systems, Llc Computer-based grapheme-to-speech conversion using a pointing device
US8880399B2 (en) * 2010-09-27 2014-11-04 Rosetta Stone, Ltd. Utterance verification and pronunciation scoring by lattice transduction
US8954329B2 (en) * 2011-05-23 2015-02-10 Nuance Communications, Inc. Methods and apparatus for acoustic disambiguation by insertion of disambiguating textual information
US9384731B2 (en) * 2013-11-06 2016-07-05 Microsoft Technology Licensing, Llc Detecting speech input phrase confusion risk

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6134528A (en) * 1997-06-13 2000-10-17 Motorola, Inc. Method device and article of manufacture for neural-network based generation of postlexical pronunciations from lexical pronunciations
US20020107688A1 (en) * 1998-03-10 2002-08-08 Mitsuru Otsuka Speech synthesizing method and apparatus
CN1409842A (zh) * 1999-10-28 2003-04-09 佳能株式会社 模式匹配方法和装置
US7310600B1 (en) * 1999-10-28 2007-12-18 Canon Kabushiki Kaisha Language recognition using a similarity measure
US20030069729A1 (en) * 2001-10-05 2003-04-10 Bickley Corine A Method of assessing degree of acoustic confusability, and system therefor
CN1460948A (zh) * 2002-05-22 2003-12-10 夏普株式会社 修改或改进词语使用的方法和装置
CN1761996A (zh) * 2003-03-24 2006-04-19 索尼电子有限公司 采用合并词典的语音识别系统及方法
CN1725295A (zh) * 2004-07-22 2006-01-25 索尼株式会社 语音处理装置、语音处理方法、程序、和记录介质
US20080065381A1 (en) * 2006-09-13 2008-03-13 Fujitsu Limited Speech enhancement apparatus, speech recording apparatus, speech enhancement program, speech recording program, speech enhancing method, and speech recording method
CN101689364A (zh) * 2007-07-09 2010-03-31 富士通株式会社 声音识别装置、声音识别方法以及声音识别程序
CN102243871A (zh) * 2010-05-14 2011-11-16 索尼计算机娱乐公司 作为语音识别错误预测器的用于语法适合度评估的方法和系统

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107967916A (zh) * 2016-10-20 2018-04-27 谷歌有限责任公司 确定语音关系
CN107967916B (zh) * 2016-10-20 2022-03-11 谷歌有限责任公司 确定语音关系
US11450313B2 (en) 2016-10-20 2022-09-20 Google Llc Determining phonetic relationships

Also Published As

Publication number Publication date
US20150127347A1 (en) 2015-05-07
EP3066663A1 (en) 2016-09-14
CN105706163B (zh) 2019-11-05
EP3066663B1 (en) 2017-08-16
US9384731B2 (en) 2016-07-05
WO2015069701A1 (en) 2015-05-14

Similar Documents

Publication Publication Date Title
CN105706163B (zh) 用于检测语音输入短语混淆风险的方法和系统
US11367434B2 (en) Electronic device, method for determining utterance intention of user thereof, and non-transitory computer-readable recording medium
CN110692048B (zh) 会话中任务改变的检测
CN107908635B (zh) 建立文本分类模型以及文本分类的方法、装置
US10170110B2 (en) System and method for ranking of hybrid speech recognition results with neural networks
US9302393B1 (en) Intelligent auditory humanoid robot and computerized verbalization system programmed to perform auditory and verbal artificial intelligence processes
EP2973546B1 (en) Multilingual deep neural network
Dudy et al. Automatic analysis of pronunciations for children with speech sound disorders
McKechnie et al. Automated speech analysis tools for children’s speech production: A systematic literature review
US10521723B2 (en) Electronic apparatus, method of providing guide and non-transitory computer readable recording medium
CN105654946A (zh) 用于语音识别的设备和方法
US20200135213A1 (en) Electronic device and control method thereof
EP3966809B1 (en) Wake word selection assistance architectures and methods
US11631400B2 (en) Electronic apparatus and controlling method thereof
JP6674706B2 (ja) 学習者の口述音声から自動的に採点するプログラム、装置及び方法
KR20150144031A (ko) 음성 인식을 이용하는 사용자 인터페이스 제공 방법 및 사용자 인터페이스 제공 장치
US20180349794A1 (en) Query rejection for language understanding
US11657237B2 (en) Electronic device and natural language generation method thereof
CN110223134A (zh) 基于语音识别的产品推荐方法及相关设备
CN110647613A (zh) 一种课件构建方法、装置、服务器和存储介质
US11682318B2 (en) Methods and systems for assisting pronunciation correction
CN112562723A (zh) 发音准确度确定方法、装置、存储介质和电子设备
Kostoulas et al. Enhancing emotion recognition from speech through feature selection
JP2020515915A (ja) 人間の発話のきめ細かな評価による発話言語スキルの教育および評価
CN113990351A (zh) 纠音方法、纠音装置及非瞬时性存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant