CN105706163B - 用于检测语音输入短语混淆风险的方法和系统 - Google Patents
用于检测语音输入短语混淆风险的方法和系统 Download PDFInfo
- Publication number
- CN105706163B CN105706163B CN201480061147.XA CN201480061147A CN105706163B CN 105706163 B CN105706163 B CN 105706163B CN 201480061147 A CN201480061147 A CN 201480061147A CN 105706163 B CN105706163 B CN 105706163B
- Authority
- CN
- China
- Prior art keywords
- voice grammar
- phonetics
- term
- voice
- grammar term
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 55
- 230000014509 gene expression Effects 0.000 claims abstract description 30
- 239000011159 matrix material Substances 0.000 claims abstract description 29
- 238000004590 computer program Methods 0.000 claims abstract description 14
- 238000003860 storage Methods 0.000 description 16
- 238000004891 communication Methods 0.000 description 10
- 230000008569 process Effects 0.000 description 10
- 230000006870 function Effects 0.000 description 6
- 230000008859 change Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 2
- 230000001143 conditioned effect Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 235000013311 vegetables Nutrition 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 241000499489 Castor canadensis Species 0.000 description 1
- 101000822695 Clostridium perfringens (strain 13 / Type A) Small, acid-soluble spore protein C1 Proteins 0.000 description 1
- 101000655262 Clostridium perfringens (strain 13 / Type A) Small, acid-soluble spore protein C2 Proteins 0.000 description 1
- 235000011779 Menyanthes trifoliata Nutrition 0.000 description 1
- 101000655256 Paraclostridium bifermentans Small, acid-soluble spore protein alpha Proteins 0.000 description 1
- 101000655264 Paraclostridium bifermentans Small, acid-soluble spore protein beta Proteins 0.000 description 1
- ATJFFYVFTNAWJD-UHFFFAOYSA-N Tin Chemical compound [Sn] ATJFFYVFTNAWJD-UHFFFAOYSA-N 0.000 description 1
- 230000000712 assembly Effects 0.000 description 1
- 238000000429 assembly Methods 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000005684 electric field Effects 0.000 description 1
- 238000005538 encapsulation Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000002045 lasting effect Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000004904 shortening Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 210000005182 tip of the tongue Anatomy 0.000 description 1
- 230000026683 transduction Effects 0.000 description 1
- 238000010361 transduction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/19—Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/01—Assessment or evaluation of speech recognition systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/187—Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0635—Training updating or merging of old and new templates; Mean values; Weighting
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L2025/783—Detection of presence or absence of voice signals based on threshold decision
- G10L2025/786—Adaptive threshold
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Signal Processing (AREA)
- Machine Translation (AREA)
Abstract
与在计算机程序开发期间标识语音学上类似的语音语法术语相关的各实施例被揭示。例如,一个所揭示的实施例提供一种方法,包括提供输入的语音语法开发工具,该工具被配置用于接收多个提议的语音语法术语的每一个的文本表示的输入,将每个文本表示转换为语音语法术语的语音学的表示,使用经加权的相似性矩阵将语音语法术语的语音学的表示与其它语音语法术语的语音学的表示进行比较,并基于两个提议的语音语法术语的语音学的表示的比较来提供关于两个提议的译音语法术语之间的混淆的风险的输出。该方法进一步包括接收有关不正确语音语法术语标识的数据,并基于该数据在经加权相似性矩阵中修改一个或多个权重。
Description
背景
计算机语音识别可被用来以通过诸如话筒之类的音频换能器检测到的人类语言的形式接收计算设备输入。许多不同类型的计算设备可利用语音输入,包括但不限于移动设备、膝上计算机、台式计算机、游戏设备、以及甚至集成到汽车和其它机器的计算机。语音输入可被用来控制执行在计算设备上的程序的许多不同方面,包括但不限于操作系统功能和应用功能。
概述
与在计算机程序开发期间标识语音学上类似的语音语法术语相关的各实施例被揭示。例如,一个所揭示的实施例提供一种方法,包括提供输入的语音语法开发工具,该工具被配置用于接收多个提议的语音语法术语的每一个的文本表示的输入,将每个文本表示转换为语音语法术语的语音学的表示,使用经加权的相似性矩阵将语音语法术语的语音学的表示与其它语音语法术语的语音学的表示进行比较,并基于两个提议的语音语法术语的语音学的表示的比较来提供关于两个提议的译音语法术语之间的混淆的风险的输出。该方法还包括接收关于不正确语音语法术语标识的数据,并基于该数据修改经加权的相似性矩阵中的一个或多个权重。
提供本概述以便以简化的形式介绍以下在详细描述中进一步描述的一些概念。本概述并不旨在标识所要求保护主题的关键特征或必要特征,也不旨在用于限制所要求保护主题的范围。而且,所要求保护的主题不限于解决该公开的任一部分中所注的任何或全部缺点的实现方式。
附图简述
图1示出了计算机程序开发和使用环境的实施例的框图。
图2A-2C示出了用于在计算机程序开发期间检测语音语法术语之间的短语混淆风险的方法的实施例的流程图。
图3示出了用于标识语音语法术语之间的短语混淆风险的经加权相似性矩阵的部分的实施例。
图4示出了计算系统的一实施例。
详细描述
在计算机程序开发期间,语音学上类似潜在地可被语音识别系统混淆的语音语法术语可被选择。如果用户作出的语音输入被语音识别系统错误标识,那么计算设备可能执行不同于用户打算的动作的动作。这可能导致不令人满意的用户体验。
据此,计算机程序开发者可能非常小心避免在程序的同一状态中使用可造成这样的混淆的风险的两个或更多语音语法术语。如此,开发者可执行包括使用现实音频数据和现实提议语音语法来迭代地执行大量语音识别模拟的测试。该测试可能消耗大量时间和资源。此外,在某些实例中,开发者可能没有意识到混淆的风险直到修复问题非常昂贵,或甚至太晚了。
因此,在此揭示了预测语音语法术语可能被语音识别系统混淆的风险的各实施例。简言之,所揭示的各实施例将提议的语音语法术语的文本表示转换成语音学表示,并接着将语音学表示进行比较以确定术语间的相似性。如果确定了存在混淆风险,可提供输出来警告开发者这个风险。在某些示例中,多个不同级别的风险可被识别,并且针对不同级别的风险可提供对应的不同警告。以此方式,可提供提议的语音语法的使用现实音频数据的迭代测试。进一步,所揭示的各实施例还可随时间基于来自终端用户和/或开发者的实际使用数据来更新对话和比较过程中所使用的数据,这将有助于随时间改善潜在的混淆语音语法术语的标识。
在详细地讨论这些实施例之前,先参考图1描述示例使用环境100。环境 100包括多个开发者计算系统,示意性地示为开发者计算系统1 102和开发者计算系统n 104。开发者计算系统可表示由计算机程序开发者在开发利用语音输入的计算机程序时操作的计算系统。示例程序由开发中的程序1 106和开发中的程序n 108示意性地表示。开发中的程序可包括提议的语音语法110。提议的语音语法110可指定例如在对应程序的每个状态中利用的语音命令。
计算机程序可通过软件开发工具(例如软件开发工具包(SDK))(例如,由制造计算机程序要在其上执行的设备和/或操作系统的公司所提供的)来开发。图1示出了程序开发服务120,诸如语音语法开发工具122之类的计算机程序开发工具可在该程序开发服务120处被开发者利用计算系统102、104来访问。语音语法开发工具可被下载到开发者计算系统供本地地在开发者计算系统上执行,如在122a处所示,和/或可从开发者计算系统作为远程软件服务来被远程执行。
如以下更详细讨论的,语音语法开发工具122被配置来帮助计算机程序开发者通过将文本表示转换成语音学表示,并随后将语音学表示进行比较来确定一对提议的语音语法术语之间的相似性,来从开发者的文本表示输入中标识处潜在混淆的语音语法术语。此外,在某些实施例中,游戏开发工具122可被配置来建议造成较小语音学混淆的风险的同义词。为了帮助确定提议的语音语法术语之间的相似性,语音语法开发工具122可利用语音学相似性矩阵124。如以下更详细地讨论的,语音学相似性矩阵可包括关于各音素之间语音学特征的差异的信息,并因此可被用于通过多少语音学特征音素差异来确定。作为非限制性示例,“pin”和“bin”之间的语音学差异可能小于“bin”和“tin”之间的语音学差异,因为音素/p/和/b/仅通过语音学特征“浊音的”来区分,而/b/和/t/通过截然不同的特征“浊音的”和“舌尖的”来区分。
在某些实施例中,语音学相似性矩阵124可包括各自的可调节权重126,其用于在语音学相似性矩阵124中加权每个语音学特征。因为对于语音识别来说不是所有的区别语音学特征都是同等重要的,各自的权重可被设置以强调语音学特征并且不强调其它。此外,权重126可基于所观察到的从现实生活使用数据中确定的语音识别错误来调整。
现实生活使用数据可从终端用户计算系统(由终端用户计算系统1 130和终端用户计算系统n 132表示)收集。每个终端用户计算系统130、132可包括配置用于检测通过话筒136或其它合适的声学输入设备接收的经识别的语音片段的语音识别系统134。所识别的语音片段可由语音识别系统134基于终端用户计算设备上的程序的语音语法来提供给那些程序(由程序1 138和n 140表示)。随着终端用户与终端用户计算系统130、132通过语音输入来交互,关于正确标识的语音输入和不正确标识的语音输入两者的数据可通过遥测模块142来收集。遥测模块142可将这样的数据提供给程序开发服务120,如在144 所指示的,以用于潜在地修改语音相似性矩阵124。例如,如果发现两个语音语法术语比从语音相似性矩阵124期望的更频繁地混淆,该语音语法术语的一个或多个语音学特征的权重可被调整以反映混淆的较高风险。类似地,如果发现语音语法术语具有相比于语音语法开发工具122生成的语音学表示而言非预期的的实际发音,那么实际发音语音学表示可被存储供在生成那个语音语法术语的未来的语音学表示中使用。将理解,权重可基于现实生活使用数据来手动调节,和/或算法地调节。遥测数据144可包括任何合适的信息,包括但不限于音频样本146、关于基于该音频样本标识的语音语法术语的信息、以及关于音频样本中的短语被正确标识还是不正确标识的信息,包括关于标识的置信度分数的信息(例如,指示语音识别器在结果中有多么确信的分数)。
图2A-2C示出了用于检测语音语法术语之间的短语混淆风险的方法200的实施例的流程图。方法200示出了发生在三个不同示例位置的过程,即开发者计算系统(由左栏表示)、程序开发者服务(由中间栏表示)、和终端用户计算系统(由右栏表示)。将理解,图2A-2B中所示的特定位置和处理的次序是出于示例的目的而描绘的,且不旨在以任何方式进行限制,因为可以以任何合适的次序和在任何合适的位置执行所描绘的过程。
方法200包括,在202,提供语音语法开发工具供开发者计算系统使用。该语音语法开发工具可由开发者计算系统下载,可作为开发者计算系统通过网络203可访问的远程服务,或可以以任何其它合适的方式操作。方法200还包括:在204处,接收开发中的程序的提议的语音语法术语的文本表示的输入。
如上面提及的,如果提议的语音语法包括可混淆的短语,则存在语音识别引擎可能不正确地解释检测到的语音输入的风险。如此,为了帮助检测潜在可混淆的语音语法术语,方法200包括,在206,将每个文本表示转换为语音学表示以允许对潜在可混淆语音语法术语的标识。任何合适的方法可被用于将文本表示转换成语音学表示(其可以是或可以不是基于文本的)。各示例包括但不限于语音识别引擎的使用、字母到声音技术、发音词典、手动创建的发音、和/或音素识别。
在某些实施例中,语音语法术语仅使用开发者提供的文本表示来被转换成语音学表示。在其它实施例中,为进一步的精确性,附加的信息可被考虑。例如,如在208所描绘的,对应于提议的语音语法术语的一个或多个音频样本可被存储器中检索,并由语音识别引擎使用“强制对准”模式来分析。强制对准模式将音频样本与从文本表示中确定的所提议的语音语法术语的语音学表示进行匹配,并输出该术语的语音学表示并带有指示每个音素在音频样本中的持续时间的时戳。这样的音频样本可在实际使用期间从终端用户接收和/或在软件开发期间从开发者接收,或以任何其它合适的方式获得。
对于口头语言中音节可在其中缩短或丢弃的单词,强制对准将输出具有那些音节的小的时戳值的音素。如此,音素的时戳可与阈值时间范围(可以是绝对的或相对的)进行比较,并且具有低于阈值的时戳的任何音素可从发音表示中被忽略,如在210所指示的。作为非限制性示例,在单词“vegetable”的日常发音中,该单词的第二个音节可被缩短或忽略。如此,如从强制对准中确定的这个音节的时戳可足够小以将这个音节从“vegetable”的语音学表示中忽略。以此方式,相比于如果术语的声学样本的强制对准没有被应用,所提议的语音语法术的语音学表示可接近地反映术语的实际讲话发音,并且因此可帮助更精确地标识潜在可混淆的语音命令。
在生成所提议的语音语法术语的语音学表示之后,方法200包括,在212,使用语音学相似性矩阵来比较各对提议的语音语法术语的语音学表示。如上面所描述的,语音学相似性矩阵可包括关于每个音素的语音学特征的信息(或大于音素的单元,例如音节矩阵),并且可允许各音素之间的语音学距离被确定。
图3示出了示例语音学相似性矩阵300的一部分的示意性描述,该部分矩阵描绘十个英语音素的每一个的四个语音学特征。四个语音学特征是CNS(辅音)、CNT(持续)、VOI(浊音)、和ANT(前部的)。如在示例语音学相似性矩阵中可见,/p/和/b/通过四个语音学特征之一(VOI)来区分,而/p/和/g/通过两个 (VOI和ANT)来区分。因此,/p/和/g/相比/p/和/b/更不容易被混淆。
在某些实施例中,每个音素的每个语音学特征可被给予两个值(例如0和 1)之一,表示不相似和相似。在其它实施例中,如图3所示,语音学相似性矩阵可被加权,使得每个语音学特征具有在值的范围内(例如0到100的值) 的权重。在语音学相似性矩阵中权重的使用可允许矩阵例如基于在现实世界使用期间所检测到的短语混淆来被调整,并且还反映针对语音识别的各种语音学特征的相对重要性。权重还为语音学相似性矩阵的距离度量增加了粒度和细化。
返回到图2,在212比较所提议的语音语法术语可涉及各种过程。例如,语音语法术语的语音学表示可与另一语音语法术语的语音学表示对准用于比较,如在214所示。对准可被用来确保两个语音学表示以这样的方式被比较以产生两个术语之间最强的语音学相似性。任何合适的对准方法可被使用,包括但不限于Smith-Waterman对准方法。在对准之后,可为该对语音学表示确定编辑距离,如在216所示。这可帮助确定在这两个语音学表示之间存在多少语音学差异,并且因此该表示在语音学上是多么不同。如上面描述的,语音学相似性矩阵可被用于确定这个编辑距离。
在确定一对所提议的语音语法术语的语音学表示之间的编辑距离之后,方法200可包括,在218,提供关于该对所提议的语音语法术语之间的混淆的风险的输出。该混淆风险可以按照任何合适的方式来确定。例如,混淆风险可通过将一对提议的语音语法术语的编辑距离(或其它相似性测量)与一个或多个阈值(每个阈值定义一选择的混淆风险)进行比较来确定。任何合适数量的阈值可被用于确定任何合适数量的不同混淆风险。例如,在某些实施例中,单个阈值可被用于区分混淆的两种风险(例如“风险”或“无风险”)。在其它实施例中,两个或更多个阈值可被用来在三个或更多个混淆的风险中进行区分,如在220所示。在一个非限制性示例中,输出可指示短语是否是同音字(例如 bye和buy)、高度可混淆的(例如Bieber和beaver)、中等可混淆的(例如 search和surge)、以及不会混淆的或以其他方式低风险的。阈值可手动选择并基于搜索来调节,和/或自动选择并基于音频数据来调节,和/或可由希望指定特定级别的混淆风险的开发者选择(例如,“仅向我示出高混淆风险”或“向我示出全部混淆风险”)。输出可以以任何合适的方式被提供,诸如通过显示在计算设备显示器上的可视指示符。
如果输出指示混淆风险存在,则开发者可选择为开发中的程序修改所提议的语音语法。如此,方法200包括,在222,接收经修改的所提议的语音语法术语,在224,将经修改的所提议的语音语法术语实现在程序中。
在某些实施例中,当混淆的风险被标识时,语音语法开发工具可推荐替代短语。所建议的替代短语可基于与位置、同义词、和/或任何其它合适的信息相关的数据来被选择。例如,如果提议的术语‘dismiss’由于其与某个其它短语可混淆,那么该工具可建议‘cancel’作为这个命令的替代。
在开发完成之后,程序可被分发到终端用户供使用。方法200因此包括,在226,经由终端用户计算系统利用所实现的语音语法来操作程序。当终端用户经由语音输入与程序交互时,程序有时可能不正确地标识语音输入。为提高针对正确和不正确的标识两者的反馈,通过终端用户计算系统执行的遥测模块可被用来收集这样的数据供分析,如果终端用户选择允许这样的遥测的执行。如此,方法200包括,在228,接收批准与所实现的语音语法的执行相关的遥测的使用的输入。此外,方法200包括,在230,收集语音识别系统执行数据,并将该数据发送到程序开发服务。该数据可包括关于正确的语音标识的数据 232,以及关于不正确的语音标识的数据234。其中所述数据示出语音语法术语的不正确的标识的多个实例,相似性矩阵可被调节以帮助避免那个术语将来的错误标识。
经由遥测接收的数据可被用于条件语音学相似性矩阵,如在236指示的。任何合适的调节可被作出。例如,如在238指示的,与矩阵中语音学特征相关联的一个或多个权重可被调节。此外,如在240所指示的,如果术语的实际发音不同于期望的发音,则实际发音的语音学表示可被存储。对相似性矩阵这样的调节可手动作出,如在242所指示的,和/或自动地作出,如在244所指示的。
所揭示的各实施例可以以相比于涉及迭代地测试所提议的语音语法而言简单和高效的方式来帮助避免选择有风险混淆语音识别系统的语音语法术语。这样,所揭示的各实施例可帮助开发者将产品更快且更少花费地移动到市场。
在某些实施例中,本文所述的方法和过程可以与一个或多个计算设备的计算系统绑定。具体而言,这样的方法和过程可以实现为计算机应用程序或服务、应用程序编程接口(API)、库和/或其他计算机程序产品。
图4示意性地示出计算系统400的非限制性实施例,该计算系统可以进行上述方法和过程中的一个或多个。计算系统400以简化形式示出。计算系统400 可采取以下形式:一个或多个个人计算机、服务器计算机、平板计算机、家庭娱乐计算机、网络计算设备、游戏设备、移动计算设备、移动通信设备(例如,智能电话)和/或其他计算设备。
计算系统400包括逻辑子系统402和存储子系统404。计算系统400可任选地包括显示子系统406、输入子系统408、通信子系统410和/或在图4中未示出的其他组件。
逻辑子系统402包括被配置为执行指令的一个或多个物理设备。例如,逻辑子系统可以被配置为执行作为一个或多个应用、服务、程序、例程、库、对象、组件、数据结构或其它逻辑构造的一部分的指令。这种指令可被实现以执行任务、实现数据类型、转换一个或多个部件的状态、实现技术效果、或以其他方式得到期望结果。
逻辑子系统可包括被配置成执行机器可读软件指令的一个或多个处理器。附加地或可替代地,逻辑子系统可以包括被配置为执行硬件或固件指令的一个或多个硬件或固件逻辑子系统。逻辑子系统的处理器可以是单核的或多核的,其上执行的指令可以被配置用于串行、并行和/或分布式处理。逻辑子系统的个体组件可任选地分布在两个或更多个分开的设备之间,所述设备可以位于远程以及/或者被配置用于协同处理。逻辑子系统的各方面可由以云计算配置进行配置的可远程访问的联网计算设备来虚拟化和执行。
存储子系统404包括被配置成保持可由逻辑子系统执行的指令以实现此处描述的方法和过程的一个或多个物理设备。在实现此类方法和过程时,存储子系统404的状态可以被变换——例如,以保持不同的数据。
存储子系统404可以包括可移动和/或内置设备。存储子系统404可以包括光学存储器(例如,CD、DVD、HD-DVD、蓝光碟等)、半导体存储器(例如, RAM、EPROM、EEPROM等)和/或磁性存储器(例如,硬盘驱动器、软盘驱动器、磁带驱动器、MRAM等)、等等。存储子系统404可包括易失性、非易失性、动态、静态、读/写、只读、随机存取、顺序存取、位置可寻址、文件可寻址和/或内容可寻址设备。
将理解,存储子系统404包括一个或多个物理设备,并排除传播信号自身。然而,本文所述的指令的各方面替代地可由通信介质(如电磁信号、光学信号等)来传播,而不是在存储介质中存储。
逻辑子系统402和存储子系统404的各方面可以被一起集成到一个或多个硬件逻辑组件中。这种硬件逻辑组件可以包括例如场可编程门阵列(FPGA)、程序和应用专用集成电路(PASIC/ASIC)、程序和应用专用标准产品 (PSSP/ASSP)、片上系统(SOC)以及复杂可编程逻辑器件(CPLD)。
术语“模块”、“程序”和“引擎”可用于描述被实现为执行一个特定功能的计算系统400的一方面。在某些情况下,可以通过执行由存储子系统404所保持的指令的逻辑子系统402来实例化模块、程序或引擎。可以理解,可以从同一应用、服务、代码块、对象、库、例程、API、功能等来实例化不同的模块、程序和/或引擎。类似地,相同的模块、程序和/或引擎可由不同的应用、服务、代码块、对象、例程、API、功能等来实例化。术语“模块”、“程序”和“引擎”意在涵盖单个或成组的可执行文件、数据文件、库、驱动程序、脚本、数据库记录等。
应该理解,在此使用的“服务”是跨多个用户会话可执行的应用程序。服务可用于一个或多个系统组件、程序和/或其他服务。在某些实现中,服务可以在一个或多个服务器计算设备上运行。
在被包括时,显示子系统406可用于呈现由存储子系统404保存的数据的视觉表示。该视觉表示可以采用图形用户界面(GUI)的形式。由于此处所描述的方法和过程改变了由存储子系统保持的数据,并由此变换了存储子系统的状态,因此同样可以转变显示子系统406的状态以视觉地表示底层数据的改变。显示子系统406可以包括使用实质上任何类型的技术的一个或多个显示设备。可以将此类显示设备与逻辑子系统402和/或存储子系统76一起组合在共享封装中,或者此类显示设备可以是外围触摸显示设备。
当被包括时,输入子系统408可包括诸如键盘、鼠标、触摸屏或游戏控制器等一个或多个用户输入设备或者与这些用户输入设备对接。在一些实施例中,输入子系统可以包括或相接于所选择的自然用户输入(NUI)部件。这种元件部分可以是集成的或外围的,输入动作的转导和/或处理可以在板上或板外被处理。NUI部件的示例可包括用于语言和/或语音识别的话筒;用于机器视觉和/或姿势识别的红外、色彩、立体显示和/或深度相机;用于运动检测和/或意图识别的头部跟踪器、眼睛跟踪器、加速计和/或陀螺仪;以及用于评估脑部活动的电场感测部件。
在包括通信子系统410时,通信子系统400可以被配置成将计算系统1300 与一个或多个其他计算设备通信耦合。通信子系统410可以包括与一个或多个不同通信协议兼容的有线和/或无线通信设备。作为非限制性示例,通信子系统可以被配置用于经由无线电话网络、或者有线或无线局域网或广域网来通信。在一些实施例中,通信子系统可允许计算系统400经由诸如因特网这样的网络将消息发送至其他设备以及/或者从其他设备接收消息。
将会理解,此处描述的配置和/或方法本质是示例性的,这些具体实施例或示例不应被视为限制性的,因为许多变体是可能的。此处描述的具体例程或方法可以表示任何数量的处理策略中的一个或多个。如此,所示和/或所述的各种动作可以以所示和/或所述顺序、以其他顺序、并行地执行,或者被省略。同样,上述过程的次序可以改变。
本公开的主题包括各种过程、系统和配置以及此处公开的其他特征、功能、动作和/或属性、以及它们的任一和全部等价物的所有新颖且非显而易见的组合和子组合。
Claims (8)
1.一种为计算机程序检测所提议的语音语法中的短语混淆风险的计算机实现方法,所述方法包括:
接收语音语法术语的文本表示的输入;
从所述文本表示确定所述语音语法术语的语音学表示;
如果所述语音语法术语的对应于音素的语音学表示的部分具有低于阈值持续时间的持续时间,则忽略所述语音语法术语的所述语音学表示的所述部分;
使用语音学相似性矩阵将所述语音语法术语的所述语音学表示与另一语音语法术语的语音学表示进行比较;以及
输出所述语音语法术语和所述另一语音语法术语之间的混淆的风险的表示;
其中确定所述语音语法术语的所述语音学表示的部分具有低于阈值持续时间的持续时间包括:将所选语音语法术语的一个或多个音频样本与所述语音语法术语的语音学表示强制对准,以输出指示所述一个或多个音频样本中的每个音素的持续时间的时戳,并将所述时戳与阈值持续时间进行比较。
2.如权利要求1所述的方法,其特征在于,还包括从终端用户通过遥测接收所述一个或多个音频样本。
3.如权利要求1所述的方法,其特征在于,还包括将所述语音语法术语的语音学表示与另一语音语法术语的语音学表示进行比较是可执行的以使用经加权的相似性矩阵。
4.如权利要求3所述的方法,其特征在于,还包括接收关于不正确语音语法术语标识的数据,并基于所述数据修改在所述经加权的相似性矩阵中的一个或多个权重。
5.如权利要求4所述的方法,其特征在于,还包括基于所述关于不正确语音语法术语标识的数据来存储所述语音语法术语的实际发音的语音学表示。
6.如权利要求1所述的方法,其特征在于,输出所述混淆风险的表示包括提供三个或更多个可能的输出之一以指示在所述语音语法术语和另一个语音语法术语之间的混淆的相对风险。
7.如权利要求1所述的方法,其特征在于,将所述语音语法术语的所述语音学表示与另一语音语法术语的语音学表示进行比较包括使用经加权的相似性矩阵,并且其中所述方法还包括:
接收关于不正确语音语法术语标识的数据;以及
基于所述数据修改所述经加权相似性矩阵中的一个或多个权重。
8.一种用于为计算机程序检测所提议的语音语法中的短语混淆风险的计算机系统,包括:
用于接收语音语法术语的文本表示的输入的装置;
用于从所述文本表示确定所述语音语法术语的语音学表示的装置;
用于在所述语音语法术语的对应于音素的语音学表示的部分具有低于阈值持续时间的持续时间的情况下忽略所述语音语法术语的所述语音学表示的所述部分的装置;
用于使用语音学相似性矩阵将所述语音语法术语的所述语音学表示与另一语音语法术语的语音学表示进行比较的装置;以及
用于输出所述语音语法术语和所述另一语音语法术语之间的混淆的风险的表示的装置;
其中确定所述语音语法术语的所述语音学表示的部分具有低于阈值持续时间的持续时间包括:将所选语音语法术语的一个或多个音频样本与所述语音语法术语的语音学表示强制对准,以输出指示所述一个或多个音频样本中的每个音素的持续时间的时戳,并将所述时戳与阈值持续时间进行比较。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US14/073,631 | 2013-11-06 | ||
US14/073,631 US9384731B2 (en) | 2013-11-06 | 2013-11-06 | Detecting speech input phrase confusion risk |
PCT/US2014/064031 WO2015069701A1 (en) | 2013-11-06 | 2014-11-05 | Detecting speech input phrase confusion risk |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105706163A CN105706163A (zh) | 2016-06-22 |
CN105706163B true CN105706163B (zh) | 2019-11-05 |
Family
ID=51901029
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201480061147.XA Active CN105706163B (zh) | 2013-11-06 | 2014-11-05 | 用于检测语音输入短语混淆风险的方法和系统 |
Country Status (4)
Country | Link |
---|---|
US (1) | US9384731B2 (zh) |
EP (1) | EP3066663B1 (zh) |
CN (1) | CN105706163B (zh) |
WO (1) | WO2015069701A1 (zh) |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9384731B2 (en) * | 2013-11-06 | 2016-07-05 | Microsoft Technology Licensing, Llc | Detecting speech input phrase confusion risk |
US11209897B2 (en) * | 2014-04-25 | 2021-12-28 | Lenovo (Singapore) Pte. Ltd. | Strengthening prediction confidence and command priority using natural user interface (NUI) inputs |
US10650810B2 (en) | 2016-10-20 | 2020-05-12 | Google Llc | Determining phonetic relationships |
US10755729B2 (en) * | 2016-11-07 | 2020-08-25 | Axon Enterprise, Inc. | Systems and methods for interrelating text transcript information with video and/or audio information |
US10305765B2 (en) | 2017-07-21 | 2019-05-28 | International Business Machines Corporation | Adaptive selection of message data properties for improving communication throughput and reliability |
JP2019057123A (ja) * | 2017-09-21 | 2019-04-11 | 株式会社東芝 | 対話システム、方法、及びプログラム |
US10546062B2 (en) * | 2017-11-15 | 2020-01-28 | International Business Machines Corporation | Phonetic patterns for fuzzy matching in natural language processing |
US10586537B2 (en) | 2017-11-30 | 2020-03-10 | International Business Machines Corporation | Filtering directive invoking vocal utterances |
US20200364195A1 (en) * | 2019-05-17 | 2020-11-19 | International Business Machines Corporation | Identifying Duplication Multimedia Entities |
US11386056B2 (en) * | 2019-05-17 | 2022-07-12 | International Business Machines Corporation | Duplicate multimedia entity identification and processing |
CN114727780A (zh) | 2019-11-21 | 2022-07-08 | 科利耳有限公司 | 语音测听评分 |
US11087744B2 (en) | 2019-12-17 | 2021-08-10 | Spotify Ab | Masking systems and methods |
US12067978B2 (en) * | 2020-06-02 | 2024-08-20 | Samsung Electronics Co., Ltd. | Methods and systems for confusion reduction for compressed acoustic models |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6134528A (en) * | 1997-06-13 | 2000-10-17 | Motorola, Inc. | Method device and article of manufacture for neural-network based generation of postlexical pronunciations from lexical pronunciations |
CN1409842A (zh) * | 1999-10-28 | 2003-04-09 | 佳能株式会社 | 模式匹配方法和装置 |
CN1460948A (zh) * | 2002-05-22 | 2003-12-10 | 夏普株式会社 | 修改或改进词语使用的方法和装置 |
CN1725295A (zh) * | 2004-07-22 | 2006-01-25 | 索尼株式会社 | 语音处理装置、语音处理方法、程序、和记录介质 |
CN1761996A (zh) * | 2003-03-24 | 2006-04-19 | 索尼电子有限公司 | 采用合并词典的语音识别系统及方法 |
US7310600B1 (en) * | 1999-10-28 | 2007-12-18 | Canon Kabushiki Kaisha | Language recognition using a similarity measure |
CN101689364A (zh) * | 2007-07-09 | 2010-03-31 | 富士通株式会社 | 声音识别装置、声音识别方法以及声音识别程序 |
CN102243871A (zh) * | 2010-05-14 | 2011-11-16 | 索尼计算机娱乐公司 | 作为语音识别错误预测器的用于语法适合度评估的方法和系统 |
Family Cites Families (28)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5689616A (en) * | 1993-11-19 | 1997-11-18 | Itt Corporation | Automatic language identification/verification system |
KR100383352B1 (ko) * | 1994-10-25 | 2003-10-17 | 브리티쉬 텔리커뮤니케이션즈 파블릭 리미티드 캄퍼니 | 음성작동서비스 |
US6073099A (en) | 1997-11-04 | 2000-06-06 | Nortel Networks Corporation | Predicting auditory confusions using a weighted Levinstein distance |
JP3854713B2 (ja) * | 1998-03-10 | 2006-12-06 | キヤノン株式会社 | 音声合成方法および装置および記憶媒体 |
US6885317B1 (en) * | 1998-12-10 | 2005-04-26 | Eatoni Ergonomics, Inc. | Touch-typable devices based on ambiguous codes and methods to design such devices |
AU777693B2 (en) * | 1999-03-05 | 2004-10-28 | Canon Kabushiki Kaisha | Database annotation and retrieval |
US6185533B1 (en) * | 1999-03-15 | 2001-02-06 | Matsushita Electric Industrial Co., Ltd. | Generation and synthesis of prosody templates |
US20020069058A1 (en) * | 1999-07-06 | 2002-06-06 | Guo Jin | Multimodal data input device |
US7324945B2 (en) * | 2001-06-28 | 2008-01-29 | Sri International | Method of dynamically altering grammars in a memory efficient speech recognition system |
US7013276B2 (en) | 2001-10-05 | 2006-03-14 | Comverse, Inc. | Method of assessing degree of acoustic confusability, and system therefor |
EP1652173B1 (en) * | 2002-06-28 | 2015-12-30 | Chemtron Research LLC | Method and system for processing speech |
AU2003900584A0 (en) | 2003-02-11 | 2003-02-27 | Telstra New Wave Pty Ltd | System for predicting speech recognition accuracy and development for a dialog system |
US7606714B2 (en) * | 2003-02-11 | 2009-10-20 | Microsoft Corporation | Natural language classification within an automated response system |
GB2404040A (en) * | 2003-07-16 | 2005-01-19 | Canon Kk | Lattice matching |
US7813928B2 (en) * | 2004-06-10 | 2010-10-12 | Panasonic Corporation | Speech recognition device, speech recognition method, and program |
US7409346B2 (en) * | 2004-11-05 | 2008-08-05 | Microsoft Corporation | Two-stage implementation for phonetic recognition using a bi-directional target-filtering model of speech coarticulation and reduction |
EP1934971A4 (en) * | 2005-08-31 | 2010-10-27 | Voicebox Technologies Inc | DYNAMIC LANGUAGE SCRIPTURE |
JP4946293B2 (ja) * | 2006-09-13 | 2012-06-06 | 富士通株式会社 | 音声強調装置、音声強調プログラムおよび音声強調方法 |
JP2008077601A (ja) * | 2006-09-25 | 2008-04-03 | Toshiba Corp | 機械翻訳装置、機械翻訳方法および機械翻訳プログラム |
GB0704772D0 (en) * | 2007-03-12 | 2007-04-18 | Mongoose Ventures Ltd | Aural similarity measuring system for text |
US8660844B2 (en) * | 2007-10-24 | 2014-02-25 | At&T Intellectual Property I, L.P. | System and method of evaluating user simulations in a spoken dialog system with a diversion metric |
US8065152B2 (en) * | 2007-11-08 | 2011-11-22 | Demand Media, Inc. | Platform for enabling voice commands to resolve phoneme based domain name registrations |
JP5293460B2 (ja) * | 2009-07-02 | 2013-09-18 | ヤマハ株式会社 | 歌唱合成用データベース生成装置、およびピッチカーブ生成装置 |
US8190420B2 (en) * | 2009-08-04 | 2012-05-29 | Autonomy Corporation Ltd. | Automatic spoken language identification based on phoneme sequence patterns |
US8930192B1 (en) * | 2010-07-27 | 2015-01-06 | Colvard Learning Systems, Llc | Computer-based grapheme-to-speech conversion using a pointing device |
US8880399B2 (en) * | 2010-09-27 | 2014-11-04 | Rosetta Stone, Ltd. | Utterance verification and pronunciation scoring by lattice transduction |
US9236045B2 (en) * | 2011-05-23 | 2016-01-12 | Nuance Communications, Inc. | Methods and apparatus for proofing of a text input |
US9384731B2 (en) * | 2013-11-06 | 2016-07-05 | Microsoft Technology Licensing, Llc | Detecting speech input phrase confusion risk |
-
2013
- 2013-11-06 US US14/073,631 patent/US9384731B2/en active Active
-
2014
- 2014-11-05 WO PCT/US2014/064031 patent/WO2015069701A1/en active Application Filing
- 2014-11-05 EP EP14799316.6A patent/EP3066663B1/en active Active
- 2014-11-05 CN CN201480061147.XA patent/CN105706163B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6134528A (en) * | 1997-06-13 | 2000-10-17 | Motorola, Inc. | Method device and article of manufacture for neural-network based generation of postlexical pronunciations from lexical pronunciations |
CN1409842A (zh) * | 1999-10-28 | 2003-04-09 | 佳能株式会社 | 模式匹配方法和装置 |
US7310600B1 (en) * | 1999-10-28 | 2007-12-18 | Canon Kabushiki Kaisha | Language recognition using a similarity measure |
CN1460948A (zh) * | 2002-05-22 | 2003-12-10 | 夏普株式会社 | 修改或改进词语使用的方法和装置 |
CN1761996A (zh) * | 2003-03-24 | 2006-04-19 | 索尼电子有限公司 | 采用合并词典的语音识别系统及方法 |
CN1725295A (zh) * | 2004-07-22 | 2006-01-25 | 索尼株式会社 | 语音处理装置、语音处理方法、程序、和记录介质 |
CN101689364A (zh) * | 2007-07-09 | 2010-03-31 | 富士通株式会社 | 声音识别装置、声音识别方法以及声音识别程序 |
CN102243871A (zh) * | 2010-05-14 | 2011-11-16 | 索尼计算机娱乐公司 | 作为语音识别错误预测器的用于语法适合度评估的方法和系统 |
Also Published As
Publication number | Publication date |
---|---|
EP3066663B1 (en) | 2017-08-16 |
EP3066663A1 (en) | 2016-09-14 |
US9384731B2 (en) | 2016-07-05 |
US20150127347A1 (en) | 2015-05-07 |
CN105706163A (zh) | 2016-06-22 |
WO2015069701A1 (en) | 2015-05-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105706163B (zh) | 用于检测语音输入短语混淆风险的方法和系统 | |
US11367434B2 (en) | Electronic device, method for determining utterance intention of user thereof, and non-transitory computer-readable recording medium | |
CN110692048B (zh) | 会话中任务改变的检测 | |
US10170110B2 (en) | System and method for ranking of hybrid speech recognition results with neural networks | |
US8793118B2 (en) | Adaptive multimodal communication assist system | |
KR20200046117A (ko) | 공동 오디오-비디오 얼굴 애니메이션 시스템 | |
EP3899696B1 (en) | Voice command execution from auxiliary input | |
Dudy et al. | Automatic analysis of pronunciations for children with speech sound disorders | |
JP2021168139A (ja) | マンマシンインタラクションのための方法、装置、機器および媒体 | |
EP3966809B1 (en) | Wake word selection assistance architectures and methods | |
US10460731B2 (en) | Apparatus, method, and non-transitory computer readable storage medium thereof for generating control instructions based on text | |
JP6674706B2 (ja) | 学習者の口述音声から自動的に採点するプログラム、装置及び方法 | |
KR20150144031A (ko) | 음성 인식을 이용하는 사용자 인터페이스 제공 방법 및 사용자 인터페이스 제공 장치 | |
US20230019745A1 (en) | Multi-modal sensor based process tracking and guidance | |
KR102469712B1 (ko) | 전자 장치 및 이의 자연어 생성 방법 | |
CN105786204A (zh) | 信息处理方法和电子设备 | |
WO2023075960A1 (en) | Error diagnosis and feedback | |
Kostoulas et al. | Enhancing emotion recognition from speech through feature selection | |
CN113593523B (zh) | 基于人工智能的语音检测方法、装置及电子设备 | |
CN113990351A (zh) | 纠音方法、纠音装置及非瞬时性存储介质 | |
Gruen et al. | NuiVend-Next Generation Vending Machine | |
Schuller et al. | Speech communication and multimodal interfaces | |
KR102306053B1 (ko) | 음성 인식 모델을 이용한 노년층 대상의 언어 훈련 방법 및 그 장치 | |
CN118606189A (zh) | 接口测试代码文本生成方法、装置、电子设备和存储介质 | |
Abdel Hafez | Enhancing Human-Robot Interaction: Integrating Large Language Models and Advanced Speech Recognition into the Pepper Robot |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |