CN112673424B - 用于自动语音识别的场境去规范化 - Google Patents
用于自动语音识别的场境去规范化 Download PDFInfo
- Publication number
- CN112673424B CN112673424B CN201980058744.XA CN201980058744A CN112673424B CN 112673424 B CN112673424 B CN 112673424B CN 201980058744 A CN201980058744 A CN 201980058744A CN 112673424 B CN112673424 B CN 112673424B
- Authority
- CN
- China
- Prior art keywords
- normalizers
- user
- normalizer
- list
- speech recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000010606 normalization Methods 0.000 title claims description 70
- 238000000034 method Methods 0.000 claims abstract description 39
- 230000015654 memory Effects 0.000 claims description 73
- 238000012545 processing Methods 0.000 claims description 40
- 238000004891 communication Methods 0.000 claims description 11
- 238000004590 computer program Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 5
- 230000003287 optical effect Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 230000003993 interaction Effects 0.000 description 3
- 230000006855 networking Effects 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 238000013518 transcription Methods 0.000 description 3
- 230000035897 transcription Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000000737 periodic effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 235000013351 cheese Nutrition 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 230000003442 weekly effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/151—Transformation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
- G06F40/35—Discourse or dialogue representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/55—Rule-based translation
- G06F40/56—Natural language generation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
- G10L2015/227—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of the speaker; Human-factor methodology
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
- G10L2015/228—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Machine Translation (AREA)
- Telephonic Communication Services (AREA)
- User Interface Of Digital Computer (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种方法(600)包括:从用户接收语音输入(104);以及获得与语音输入相关联的场境元数据(110)。该方法还包括:生成与语音输入相对应的原始语音识别结果(312);以及基于与语音输入相关联的场境元数据来选择要应用于所生成的原始语音识别结果的一个或多个去规范化器(352)的列表。所生成的原始语音识别结果包括规范化文本。该方法还包括:通过将一个或多个去规范化器的列表依次应用于所生成的原始语音识别结果来将所生成的原始语音识别结果去规范化成去规范化文本(322)。
Description
技术领域
本公开涉及用于自动语音识别的场境去规范化(denormalization)。
背景技术
自动语音识别(ASR)系统生成作为在被规范化的文本上训练这些ASR系统的结果而包括规范化文本的原始语音识别结果。规范化文本是指文字化的、所有字母均小写并剥离所有标点的文本。ASR系统然后并入用于将原始语音识别结果去规范化成对用户更易读的形式的去规范化器的集合。例如,去规范化器的集合可以通过文字化拼写出的数字(例如,将“one-hundred and seventy-seven(一百七十七)”转换成“177”)、将适当的字母大写(例如,将“send a text to john(向john发送文本)”转换成“Send a text to John”)并添加标点(例如,将“thanks exclamation mark(谢谢感叹号)”转换为“thanks!”)来转换原始语音识别结果。因为去规范化器的集合对应于一系列去规范化器规则,其中第一去规范化器从原始语音识别结果开始并且每个后续去规范化器接收前一个去规范化器的输出作为输入,所以不存在对于所有ASR输出用例最佳的单个去规范化规则序列,因为什么是最佳的部分地取决于用户的状态和偏好。结果,ASR系统通常依靠不同的ASR模块来取决于手头应用而转录语音。例如,当用户正在口述语音时可以使用一个ASR模块,而当用户正在进行话音搜索时可以使用单独的ASR模块。多个ASR模块的使用仍然没有为每个用户解决定制去规范化,并且另外由于必须维护和访问多个ASR模块以便输出语音识别结果而添加了增加的成本和等待时间。
发明内容
本公开的一个方面提供一种用于对原始语音识别结果进行去规范化的方法。该方法包括:在自动语音识别(ASR)模块的数据处理硬件处,从用户接收语音输入。ASR模块包括要应用于对由ASR模块生成的规范化文本进行去规范化的去规范化器的预定义集合。该方法还包括:由数据处理硬件获得与语音输入相关联的场境元数据;以及由数据处理硬件生成与语音输入相对应的原始语音识别结果。所生成的原始语音识别结果包括规范化文本。该方法还包括:由数据处理硬件基于与语音输入相关联的场境元数据来选择要应用于所生成的原始语音识别结果的一个或多个去规范化器的列表;以及由数据处理硬件通过将一个或多个去规范化器的列表依次应用于所生成的原始语音识别结果来将所生成的原始语音识别结果去规范化成去规范化文本。
本公开的实现方式可以包括以下可选特征中的一个或多个。在一些实现方式中,接收语音输入包括从与用户相关联的用户设备接收与语音输入相对应的音频数据,并且获得与语音输入相关联的场境元数据包括当接收到语音输入的音频数据时从用户设备接收与语音输入相关联的场境元数据。在一些示例中,获得与语音输入相关联的场境元数据包括:当接收到语音输入时接收与用户相关联的用户标识符;以及使用用户标识符来从与数据处理硬件通信的存储器硬件中检索场境元数据。场境元数据可以包括以下各项中的至少一种:与语音输入相关联的语音识别类别、在与用户相关联的用户设备上运行的应用、在接收到语音输入时用户的位置、标识用户的用户标识符、与用户相关联的人口统计信息、或用于对文本进行去规范化的用户偏好。在一些实现方式中,选择一个或多个去规范化器的列表包括通过以下中的至少一个来修改来自去规范化器的预定义集合的去规范化器的默认列表:从去规范化器的默认列表中移除一个或多个去规范化器或者将来自去规范化器的预定义集合的一个或多个去规范化器添加到去规范化器的默认列表。
在一些实现方式中,该方法还包括:由数据处理硬件将与语音输入相关联的场境元数据提供给场境服务器;以及在数据处理硬件处,从场境服务器接收去规范化指令,场境服务器被配置成基于场境元数据来生成用于将所生成的原始语音识别结果去规范化成去规范化文本的去规范化指令。在这些实现方式中,选择一个或多个去规范化器的列表包括使用从场境服务器接收到的去规范化指令来选择一个或多个去规范化器的列表。在一些示例中,将与语音输入相关联的场境元数据提供给场境服务器包括将与语音输入相关联的场境元数据提供给场境服务器,而不将语音输入或与语音输入相关联的任何音频数据提供给场境服务器。
在一些示例中,去规范化指令包括以下指令中的一个或多个,以下指令包括:追加去规范化器指令,该追加去规范化器指令标识要在去规范化器的默认列表的开头追加的新去规范化器,去规范化器的默认列表包括要在不存在场境数据的情况下依次应用于所生成的原始语音识别结果的去规范化器的预定义集合的一部分;附加去规范化器指令,该附加去规范化器指令标识要在去规范化器的默认列表的末尾附加的新去规范化器;移除去规范化器指令,该移除去规范化器指令标识要从去规范化器的默认列表中移除的现有去规范化器;取代去规范化器指令,该取代去规范化器指令标识要从去规范化器的默认列表中替换现有去规范化器的新去规范化器;或添加去规范化器指令,该添加去规范化器指令标识要添加到去规范化器的默认列表的新去规范化器并且从去规范化器的默认列表中标识在新去规范化器之前或之后的现有去规范化器。替选地,去规范化指令可以包括重载指令,该重载指令用去规范化器的新列表重载去规范化器的默认列表。去规范化器的新列表可以包括一个或多个去规范化器的选定列表。在一些实现方式中,场境服务器被配置成接收特定于ASR模块的客户端的一个或多个定制去规范化规则,并且基于特定于客户端的一个或多个定制去规范化规则来编译定制去规范化器。
在一些实现方式中,使用一个或多个去规范化器的选定列表来将所生成的原始语音识别结果去规范化成去规范化文本包括:使用对应的键来从存储器硬件中检索一个或多个去规范化器的选定列表中的每个去规范化器;以及将从存储器硬件中检索到的一个或多个去规范化器的选定列表中的每个去规范化器依次应用于所生成的原始语音识别结果。存储器硬件与数据处理硬件通信。在一些示例中,存储器硬件位于在ASR模块上。在其他示例中,存储器硬件包括远离ASR模块定位的储存库。
在一些示例中,该方法还包括,在将所生成的原始语音识别结果去规范化成去规范化文本之后,将去规范化文本从ASR模块传送到客户端设备。在这些示例中,去规范化文本当由客户端设备接收到时,被配置成使客户端设备将去规范化文本显示在客户端设备的显示屏幕上。在一些实现方式中,从ASR模块传送去规范化文本包括将去规范化文本实时地流式传输到客户端设备。
本公开的另一方面提供一种用于对原始语音识别结果进行去规范化的系统。该系统包括自动语音识别(ASR)模块的数据处理硬件和与该数据处理硬件通信的ASR模块的存储器硬件。ASR模块包括要应用于对由ASR模块生成的规范化文本进行去规范化的去规范化器的预定义集合。存储器硬件存储指令,这些指令当由数据处理硬件执行时使数据处理硬件进行包括以下的操作:从用户接收语音输入、获得与语音输入相关联的场境元数据、以及生成与语音输入相对应的原始语音识别结果。所生成的原始语音识别结果包括规范化文本。操作还包括:基于与语音输入相关联的场境元数据来选择要应用于所生成的原始语音识别结果的一个或多个去规范化器的列表;以及通过将一个或多个去规范化器的列表依次应用于所生成的原始语音识别结果来将所生成的原始语音识别结果去规范化成去规范化文本。
本公开的实现方式可以包括以下可选特征中的一个或多个。在一些实现方式中,接收语音输入包括从与用户相关联的用户设备接收与语音输入相对应的音频数据,并且获得与语音输入相关联的场境元数据包括当接收到语音输入的音频数据时从用户设备接收与语音输入相关联的场境元数据。在一些示例中,获得与语音输入相关联的场境元数据包括:当接收到语音输入时接收与用户相关联的用户标识符;以及使用用户标识符来从存储器硬件中检索场境元数据。场境元数据可以包括以下中的至少一个:与语音输入相关联的语音识别类别、在与用户相关联的用户设备上运行的应用、在接收到语音输入时用户的位置、标识用户的用户标识符、与用户相关联的人口统计信息、或用于对文本进行去规范化的用户偏好。在一些实现方式中,选择一个或多个去规范化器的列表包括通过以下中的至少一个来修改来自去规范化器的预定义集合的去规范化器的默认列表:从去规范化器的默认列表中移除一个或多个去规范化器或者将来自去规范化器的预定义集合的一个或多个去规范化器添加到去规范化器的默认列表。
在一些实现方式中,操作还包括:将与语音输入相关联的场境元数据提供给场境服务器;以及从场境服务器接收去规范化指令,场境服务器被配置成基于场境元数据来生成用于将所生成的原始语音识别结果去规范化成去规范化文本的去规范化指令。在这些实现方式中,选择一个或多个去规范化器的列表包括使用从场境服务器接收到的去规范化指令来选择一个或多个去规范化器的列表。在一些示例中,将与语音输入相关联的场境元数据提供给场境服务器包括将与语音输入相关联的场境元数据提供给场境服务器,而不将语音输入或与语音输入相关联的任何音频数据提供给场境服务器。
在一些示例中,去规范化指令包括以下指令中的一个或多个,以下指令包括:追加去规范化器指令,该追加去规范化器指令标识要在去规范化器的默认列表的开头追加的新去规范化器,去规范化器的默认列表包括要在不存在场境数据的情况下依次应用于所生成的原始语音识别结果的去规范化器的预定义集合的一部分;附加去规范化器指令,该附加去规范化器指令标识要在去规范化器的默认列表的末尾附加的新去规范化器;移除去规范化器指令,该移除去规范化器指令标识要从去规范化器的默认列表中移除的现有去规范化器;取代去规范化器指令,该取代去规范化器指令标识要从去规范化器的默认列表中替换现有去规范化器的新去规范化器;或添加去规范化器指令,该添加去规范化器指令标识要添加到去规范化器的默认列表的新去规范化器并且从去规范化器的默认列表中标识在新去规范化器之前或之后的现有去规范化器。附加地或替选地,去规范化指令可以包括重载指令,该重载指令用去规范化器的新列表重载去规范化器的默认列表。去规范化器的新列表可以包括一个或多个去规范化器的选定列表。在一些实现方式中,场境服务器被配置成接收特定于ASR模块的客户端的一个或多个定制去规范化规则,并且基于特定于客户端的一个或多个定制去规范化规则来编译定制去规范化器。
在一些示例中,使用一个或多个去规范化器的选定列表来将所生成的原始语音识别结果去规范化成去规范化文本包括:使用对应的键来从存储器硬件中检索一个或多个去规范化器的选定列表中的每个去规范化器;以及将从存储器硬件中检索到的一个或多个去规范化器的选定列表中的每个去规范化器依次应用于所生成的原始语音识别结果。在一些示例中,存储器硬件位于ASR模块上。在其他示例中,存储器硬件包括远离ASR模块定位的储存库。
在一些实现方式中,操作还包括,在将所生成的原始语音识别结果去规范化成去规范化文本之后,将去规范化文本从ASR模块传送到客户端设备。在这些实现方式中,去规范化文本当由客户端设备接收到时,被配置成使客户端设备将去规范化文本显示在客户端设备的显示屏幕上。在一些示例中,从ASR模块传送去规范化文本包括将去规范化文本实时地流式传输到客户端设备。
在下面的附图和描述中阐述本公开的一个或多个实现方式的细节。根据说明书和附图,并且根据权利要求书,其他方面、特征和优点将是显而易见的。
附图说明
图1示意性地图示用于对来自自动语音识别(ASR)模块的原始语音识别结果进行去规范化的示例系统。
图2A和图2B是图1的ASR模块基于来自用户设备的场境元数据对文本进行去规范化并将去规范化文本发送到用户设备的示意图。
图3示意性地图示场境服务器向去规范化器模块提供去规范化指令以用于对原始语音识别结果进行去规范化。
图4A和图4B是场境服务器基于从与用户相关联的用户设备接收到的个性化去规范化规则来为用户编译个性化去规范化器的示意图。
图5是接收去规范化文本的示例输出的示意图。
图6是用于对原始语音识别结果进行去规范化的方法的操作的示例布置的流程图。
图7是可以用于实现本文描述的系统和方法的示例计算设备的示意图。
在各个附图中,相似的附图标记指示相似的元件。
具体实施方式
在自动语音识别(ASR)系统中使用去规范化器对于输出语法上正确的且针对易读性优化的文本来说最重要。在被“规范化”的文本的语料库上训练ASR模块,被“规范化”的文本在于文本被剥离所有标点,不包括大写字母,所有数字都包括文字化的文本(例如,“one-hundred and seventy-seven”而不是“177”)等。结果,经训练后的ASR模块在推理期间接收到语音时,最初生成指示“规范化”文本的原始语音识别结果(例如,原始转录)。为了给用户提供针对阅读优化的转录,ASR模块采用去规范化器的列表来将原始语音识别结果转换成更易读的形式,其中去规范化器的集合中的第一去规范化器接收原始语音识别结果并且每个后续去规范化器接收去规范化器的集合中的前一个去规范化器的对应的输出作为输入。每个去规范化器与对文本的输入进行去规范化的某个方面的对应的去规范化规则或去规范化模型相关联。例如,大写去规范化规则可以将短语“send a message to john”转换成“Send a message to John”,文字化去规范化规则会将所有文字化的文本(例如,“sixty-five(六十五)”)转换成书面形式(例如,“65”),隐式标点去规范化规则会添加标点符号(例如,将“thank you sir(谢谢您先生)”转换为“thank you,sir(谢谢您,先生)”),显式标点去规范化规则会生成标点符号(例如,将“thanks exclamation mark”转换成“thanks!”),直译去规范化器会将文本直译成对应的字符,表意去规范化器会从对应的文本(例如,“:)”)生成表意符号(例如,笑脸表情符号),而冒犯性单词去规范化器会通过用星形、星号和/或其他字符替换冒犯性单词中的一个或多个字母来掩盖冒犯性单词。
本文的实现方式针对被配置成基于语音输入的场境将去规范化器的场境化列表动态地应用于对应的语音输入的原始语音识别结果的单个ASR模块。在这里,ASR模块可以从用户接收语音输入(例如,语音识别请求),生成与语音输入相对应的原始语音识别结果(例如,规范化文本),获得与语音输入相关联的场境元数据,并且基于与语音输入相关联的场境元数据来选择一个或多个去规范化器的列表以用于将所生成的原始语音识别结果去规范化成去规范化文本。ASR模块被配置成将来自一个或多个去规范化器的选定列表中的每个去规范化器依次应用于所生成的原始语音识别结果。有利地,包括去规范化器的预定义集合的单个ASR模块可以通过使用与语音输入相关联的场境元数据来从去规范化器的预定义集合中选择一个或多个去规范化器的合适的列表而对于整个用户群体进行语音识别任务。因此,基于与给定语音输入相关联的场境元数据而选择的一个或多个去规范化器的列表使如何在无需多个ASR模块/引擎的情况下对与给定语音输入相对应的原始语音识别结果进行去规范化个性化。
ASR模块可以在接收到当语音输入时从用户接收与语音输入相关联的场境元数据和/或在接收到语音输入之后从另一源中检索场境元数据的至少一部分。与语音输入相关联的场境元数据可以包括但不限于与语音输入相关联的语音识别类别、在用户设备上运行的旨在消耗去规范化文本的应用、标识用户的用户标识符、在接收到语音输入时用户的位置、与用户相关联的人口统计信息和/或用于对文本进行去规范化的用户偏好。在一些场景中,场境元数据可以包括由用户提供以供ASR模块即时应用以便对原始语音识别结果进行去规范化的一个或多个个性化去规范化规则。ASR模块包括存储去规范化器的预定义集合的内存储器,并且ASR模块可以基于场境元数据来从其中访问适当的去规范化器以用于对原始语音识别结果进行去规范化。例如,内存储器可以包括维持去规范化器的预定义集合的键-值映射的数据存储装置,并且ASR模块可以通过提供对应的键来从数据暂存器中检索任何给定去规范化器(即,值)。任选地,ASR模块可以访问存储不太频繁地使用的去规范化器的单独的储存库并按需从储存库中检索那些去规范化器,从而减轻ASR模块处的存储要求。附加地或替换地,ASR模块可以接收指定定制/个性化去规范化器以供ASR模块从其他源中检索到的去规范化指令。
在一些示例中,ASR模块被配置成每当与对应的语音输入相关联的场境元数据不存在时使用去规范化器的默认列表来对原始语音识别结果进行去规范化。因此,当与所对应的语音输入相关联的场境元数据可用时,ASR模块被配置成基于场境元数据来修改去规范化器的默认列表。具体地,ASR模块可以将场境元数据转发到场境服务器,该场境服务器被配置成基于场境元数据生成用于将所生成的原始语音识别结果去规范化成去规范化文本的去规范化指令并将去规范化指令提供给ASR模块。ASR模块可以将场境元数据转发到场境服务器,而无需将语音输入或与语音输入相关联的任何音频数据提供给场境服务器。由于场境服务器仅必须处理场境元数据以生成去规范化指令,所以ASR模块可以在场境服务器并发地生成去规范化指令并将其提供给ASR模块的同时生成原始语音识别结果,而不会引发任何增加的等待时间。此后,ASR模块使用去规范化指令来通过修改去规范化器的默认列表来选择一个或多个去规范化器的列表。例如,去规范化指令可以指示ASR模块通过以下中的至少一个来修改去规范化器的默认列表:从去规范化器的默认列表中移除一个或多个去规范化器、将一个或多个新去规范化器添加到去规范化器的默认列表、或者指定要将去规范化器的修改后的列表中的每个去规范化器应用于对所生成的原始语音识别结果进行去规范化的顺序。
在一些场景中,去规范化指令包括用去规范化器的新列表重载去规范化器的默认列表的重载指令。在这些场景中,场境服务器不必了解去规范化器的默认列表并且可以从去规范化器的预定义集合中标识去规范化器的新列表中的每个去规范化器。无论场境服务器如何修改或者重载去规范化器的默认列表,去规范化指令都仅需要包括用于ASR模块以用于从存储在ASR模块的数据暂存器中的去规范化器的预定义集合中取出/检索每个对应的去规范化器(例如,值)的键。在一些实现方式中,重载指令用特定于给定用户且未包括在去规范化器的预定义集合中的一个或多个个性化去规范化器重载去规范化器的默认列表。在这些实现方式中,去规范化指令可以包括与用于ASR模块即时应用的个性化去规范化器相对应的实际数据,或者去规范化指令可以包括用于ASR模块用于从个性化去规范化器储存库中取出个性化去规范化器的对应的键。
参考图1,在一些实现方式中,系统100包括与用户10相关联的用户设备200,用户10可以经由网络130与远程系统140进行通信。远程系统140可以为具有可伸缩/弹性资源142的分布式系统(例如,云计算环境)。资源142包括计算资源144(例如,数据处理硬件)和/或存储资源146(例如,存储器硬件)。在一些实现方式中,远程系统140执行自动语音识别(ASR)模块300、300a,该ASR模块300、300a被配置成从用户设备200接收与语音输入104相对应的音频数据103,生成与语音输入104相对应的原始语音识别结果312,并且将所生成的原始语音识别结果312去规范化成去规范化文本322。如本文所使用的,原始语音识别结果312对应于从与语音输入104相对应的音频数据103转换的规范化文本,其中文本被文字化并被剥离所有标点且大写。相反地,去规范化文本322包括原始语音识别结果312到对用户10更易读的形式的转换。例如,将原始语音识别结果312去规范化成去规范化文本322可以包括文字化的拼写出的数字(例如,将“one-hundred and seventy-seven”转换成“177”)、将适当的字母大写(例如,将“send a text to john”转换成“Send a text to John”)以及添加标点(例如,将“thanks exclamation mark”转换为“thanks!”。
用户设备200包括数据处理硬件204和存储器硬件206。用户设备200可以包括用于从用户10捕获语音输入104并将其转换成音频数据103(例如,电信号)的音频捕获设备(例如,麦克风)。在一些实现方式中,数据处理硬件204被配置成执行代替或替代在远程系统140上执行的ASR模块300a的ASR模块300、300b。用户设备200可以是能够通过网络130与通信设备300进行通信的任何计算设备。用户设备200包括但不限于台式计算设备和移动计算设备,诸如膝上型电脑、平板、智能电话和可穿戴计算设备(例如,头戴式耳机和/或手表)。
在所示的示例中,用户10可以通过讲话将语音输入104提供给用户设备200,并且用户设备200能够捕获语音输入104并将其转换成音频数据103。用户设备200然后可以向在远程系统140上执行的ASR模块300a传送包括与的语音输入104相关联的音频数据103和场境元数据110的ASR请求102。在这里,ASR请求102请求ASR 300基于与语音输入104相关联的场境元数据110将语音输入104注释成对应的去规范化文本322。用户设备200可以任选地执行ASR模块300b以将语音输入104注释成所对应的去规范化文本322。例如,当网络通信中断或不可用时,用户设备200可以在本地执行ASR模块300b以将所捕获的语音输入104注释成所对应的去规范化文本322。
ASR模块300包括识别器310、去规范化器模块320、数据存储装置340和场境服务器400。虽然场境服务器400被示出为ASR模块300的组件,但是在不脱离本公开的范围的情况下,场境服务器400在其他示例中可以为与ASR模块300通信的单独的组件。ASR模块300被配置成接收ASR请求102并且将与语音输入104相对应的音频数据103提供给识别器310并将场境元数据110转发到场境服务器400。在这里,识别器310被配置成生成与语音输入104相对应的原始语音识别结果312(例如,规范化文本),然而同时,场境服务器400被配置成基于场境元数据110生成去规范化指令410以用于对原始语音识别结果312进行去规范化。因此,由于语音输入104或与语音输入104相关联的音频数据103均未被提供给场境服务器400,所以场境服务器400仅必须处理场境元数据110以生成去规范化指令410。结果,ASR模块300能够经由场境服务器400生成去规范化指令410并且同时地经由识别器310生成原始语音识别结果312,而不会引发增加的等待时间。
ASR模块300的数据存储装置340(例如,存储器硬件)存储去规范化器350的预定义集合,每个去规范化器对应于对在去规范化器模块320处接收到的规范化文本(例如,原始语音识别结果312)的输入进行去规范化的某个方面的相应的去规范化规则或去规范化模型。例如,去规范化器350的预定义集合可以包括但不限于大写去规范化器、文字化去规范化器、隐式标点去规范化器、显式标点去规范化器、直译去规范化器、表意去规范化器或冒犯性单词去规范化器中的至少一个。
去规范化器模块320被配置成基于与语音输入104相关联的场境元数据110来选择要应用于原始语音识别结果312的一个或多个规范化器350的列表。更具体地,去规范化器模块320使用由场境服务器400生成的去规范化指令410来选择要应用以便对原始语音识别结果312进行去规范化的一个或多个去规范化器350的列表。在一些示例中,去规范化指令410通过从存储在数据存储装置340内的去规范化器350的预定义集合中检索所对应的去规范化器350来标识用于去规范化器模块320选择的一个或多个去规范化器350的列表。在这些示例中,指令410标识每个去规范化器并提供对应的键344(图3),去规范化器模块320使用该键来从数据存储装置340中检索所对应的去规范化器350。在其他示例中,去规范化指令410标识其他去规范化器,诸如为具体用户10即时编译的定制/个性化去规范化器450(图4A和图4B)或不频繁地使用的去规范化器,它们不在数据存储装置340内的去规范化器350的预定义集合当中。在一些实现方式中,与具体用户10相关联的个性化去规范化器450被加密,并且当用户10提供合适的解密密钥时,去规范化器模块320仅能够对个性化去规范化器进行解密。
由场境服务器400获得的场境元数据110包括以下各项中的至少一种:与语音输入104相关联的语音识别类别、在与用户10相关联的用户设备200上运行的应用、在语音输入104由ASR模块300接收到时用户10的位置、标识用户的用户标识符、与用户10相关联的人口统计信息、或用于对文本进行去规范化的用户偏好。
与语音输入104相关联的语音识别类别可以指示语音输入104是否要被转换成口述用文本或者是否将语音输入104作为话音搜索或命令提供以便用户设备200执行。在后者的情况下,ASR模块300将语音输入104转换成去规范化文本322以作为由语音输入104指定的话音搜索或命令的注释显示在用户设备200上。与语音输入104相关联的语音识别类别能够包括其他类别,诸如但不限于,将语音输入104转录为对话、音频/视频会议或话音邮件记录的一部分。如将变得显而易见的,与语音输入104相关联的语音识别类别能够确定去规范化器模块320选择哪些去规范化器350用于对原始语音识别结果312进行去规范化。换句话说,去规范化器模块320可以基于与所对应的语音输入104相关联的语音识别类别来不同地对同一原始语音识别结果312进行去规范化。
当场境元数据110包括在与用户10相关联的用户设备200上运行的应用的标识符时,场境服务器400可以能够鉴别与语音输入相关联的语音识别类别。例如,在用户设备200上当前打开并运行的口述应用能够指示用户10正在口述语音输入104。包括当语音输入104由ASR模块300接收到时用户10的位置的场境元数据110能够由场境服务器400使用来鉴别在该位置处讲出的显性语言和/或方言。例如,可以在用户10位于日本时应用直译去规范化器来将文本转换成对应的字符,然而当用户10位于其他地方时,可以应用不同的直译去规范化器或者不应用直译去规范化器。场境元数据110内的位置可以包括地理区域,使得不能确定用户10的确切地理方位。此外,用户必须显式地同意提供位置信息,并且具有随时选择退出共享位置信息的能力。
当ASR请求102提供包括标识用户的用户标识符的场境元数据110时,场境服务器400可以使用用户标识符来从一个或多个场境源190获得附加场境元数据110。例如,场境服务器400可以使用用户标识符来从与用户10相关联的用户简档192中检索场境元数据110。用户简档192可以包括与用户10相关联的人口统计信息,诸如年龄、性别、住所、所讲语言、教育、职业等。用户10自愿地提供并同意存储人口统计信息以供由ASR模块300使用并且具有随时移除人口统计信息的选项。在一些示例中,作为用户10的位置的替代或补充,场境服务器400通过分析与用户10相关联的用户简档192内的人口统计信息来鉴别用户10所讲出的显性语言和/或方言。用户简档192还可以包括用于对文本进行去规范化的用户偏好。例如,去规范化器模块320可以默认应用冒犯性单词去规范化器来掩盖文本中的冒犯性单词,但是用于使对文本进行去规范化的用户偏好可以显式地指示不应该掩盖冒犯性单词。因此,场境服务器400可以在去规范化指令410中指定去规范化器模块320在针对此具体用户10对原始语音识别结果312进行去规范化时不应该应用冒犯性单词去规范化器。因此,场境服务器400可以在接收到ASR请求102时接收场境元数据110中的一些或全部并且可以通过访问与标识用户10的用户标识符相关联的用户简档192来从场境源190中检索其他场境元数据110。
在对原始语音识别结果312进行去规范化之后,去规范化器模块320可以将去规范化文本322提供给被配置成以某种其他方式显示和/或消耗去规范化文本322的输出500。参考图5,输出500可以包括用户设备200和/或能够呈现去规范化文本322以供用户阅读的一个或多个其他用户设备。输出500可以附加地或替换地包括在远程系统140上执行的一个或多个应用/服务。例如,语音输入104可以包括对在远程系统140上执行的消息板服务的输入,用户设备可以访问该消息板服务以查看与语音输入104相对应的去规范化文本322。输出500还可能包括转录服务,该转录服务为电信会议会话中的一个或多个讲话者提供与转录语音相对应的去规范化文本322。附加地或替换地,输出500可以包括消耗去规范化文本322以用于除人类易读性以外的用途的其他系统/模块。例如,输出500可能包括接收去规范化文本322并生成合成语音的文本至语音系统。在这里,去规范化文本322可以包括来自对应的去规范化器的韵律和/或发音标签以供TTS系统在生成合成语音时应用。在另一示例中,输出500可能包括使用去规范化文本322来理解用户想要什么的自然语言理解(NLU)模块。在一些示例中,由输出500为非人类用途(例如,TTS系统和NLU模块)所消耗的去规范化文本322不为了易读性被去规范化,而是相反被以更适合于由所对应的输出500处理的方式去规范化/规范化。
图2A和图2B示出示例性用户设备200向ASR模块300发送ASR请求102并从ASR模块300接收去规范化文本322。用户设备200包括屏幕212并执行图形用户界面214以供显示在屏幕212上。用户设备200还执行一个或多个软件应用210、210a-d。软件应用210可以是指计算机软件,该计算机软件当由计算设备执行时,使该计算设备进行任务。在一些示例中,可以将软件应用210称为“应用”、“app”或“程序”。示例软件应用210包括但不限于话音通信应用210a、媒体流应用210b、消息传递应用210c、日历应用210d、文字处理应用、电子表格应用、社交联网应用和游戏。
图2A示出用户设备200目前执行日历应用210d(由实线表示)并在时间1向ASR模块300发送ASR请求102,该ASR请求102包括与语音输入104相关联的音频数据103和场境元数据110。在这里,语音输入104对应于被导向日历应用210d以确定何时为在给定日(明天)与给定个人(Skip Fikany)的话题(discuss new line of tools(讨论工具的换行))记录会议时间的话音搜索。在其他类型的元数据当中,与语音输入104相关联并在ASR请求102中提供的场境元数据110包括标识日历应用210d当前正在用户设备200上执行和/或语音输入104被导向日历应用210d的应用标识符。
在时间2,识别器310生成与语音输入104相对应的原始语音识别结果312,并且在时间3,将场境元数据110转发到场境服务器400。时间2和3可以与在时间2之前或之后发生的时间3并发地或同时地发生。原始语音识别结果312可以包括叙述“when is my meetingtomorrow with skip fikany to discuss the new line of tools(我明天何时与skipfikany见面讨论工具的换行)”的规范化文本。虽然规范化文本能够由日历应用210d使用来执行搜索以确定会议的时间,但是规范化文本未由用户针对易读性优化。使用包括标识日历应用210d的应用标识符的场境元数据110,场境服务器400能够鉴别与语音输入104相关联的语音识别类别指示语音输入104是作为用于用户设备200通过访问日历应用210d来执行的话音搜索而提供的。因此,在时间4,场境服务器400基于场境元数据110指示话音搜索应用(例如,日历应用210d)当前正在用户设备200上执行来生成去规范化指令410并将去规范化指令410提供给去规范化器模块320。
去规范化器模块320使用去规范化指令410来选择要应用于所生成的原始语音识别结果312的一个或多个去规范化器350的列表。例如,去规范化指令410可以指定一个或多个去规范化器350的列表并且去规范化器模块320可以从数据存储装置340内的去规范化器350的预定义集合中选择一个或多个规范化器350。由于场境元数据110指示语音输入104与话音搜索应用(例如,日历应用210d)相关联,所以场境服务器400将生成去规范化指令410,该去规范化指令410确保去规范化器模块320将不应用显式标点去规范化器,因为用于话音搜索的语音输入104中的词语均不可能包括显式标点词语。因此,在本示例中,去规范化指令410将指示去规范化器模块320从去规范化器的默认列表中移除显式标点去规范化器,或者当不存在默认列表或者默认列表不包括显式标点去规范化器时,去规范化指令410将不指示去规范化器模块320包括显式标点去规范化器。一个或多个去规范化器的列表指示应该应用去规范化器使得第一去规范化器被应用于原始语音识别结果312并且每个后续去规范化器接收来自前一个去规范化器的输出作为输入的顺序。在时间5,去规范化器模块320通过将一个或多个去规范化器350的列表依次应用于所生成的原始语音识别结果312来将原始语音识别结果312去规范化成去规范化文本322。
在时间6,ASR模块300将与语音输入104相对应的去规范化文本322提供给用户设备200,并且用户设备200将去规范化文本322显示在图形用户界面214中显示的话音搜索/命令窗口216中。在这里,去规范化文本322仅仅给与被导向日历应用210d的话音搜索相对应的语音输入104作注释。在所示的示例中,去规范化文本322由至少大写去规范化器和隐式去规范化器进行去规范化。例如,去规范化器模块320被应用了大写去规范化器来将开始话音搜索的第一字母“W”、个人名字(Skip)的第一字母“S”和个人姓氏(Fikany)的第一字母“F”大写。因为语音输入104被用短语表达为问题,所以隐式去规范化器在话音搜索末尾添加了问号“?”。值得注意的是,由于去规范化器模块320确实未将显式标点去规范化器应用于原始语音识别结果312,所以原始语音识别结果312中的词语“new line”被包括在去正规化文本322中并且未被转换成会错误地省略词语“new line”且替代地在以词语“of tools”开头的词语“discuss”之后开始换行n/的口述文本。在一些示例中,ASR模块300将去规范化文本322实时地流式传输到用户设备200(或其他输出500),使得在用户10正在发出语音的同时去规范化文本322显示。
图2B示出了用户设备200目前执行消息传递应用210c(由实线表示)并在时间1向ASR模块300发送ASR请求102,该ASR请求102包括与语音输入104相关联的音频数据103和场境元数据110。在这里,语音输入104对应于被导向消息传递应用210c以包括在电子消息中的口述语音。在其他类型的元数据当中,与语音输入104相关联并在ASR请求102中提供的场境元数据110包括标识消息传递应用210c当前正在用户设备200上执行和/或语音输入104被提供给消息传递应用210c的应用标识符。
在时间2,识别器310生成与语音输入104相对应的原始语音识别结果312,并且在时间3,将场境元数据110转发到场境服务器400。时间2和3可以与在时间2之前或之后发生的时间3并发地或同时地发生。原始语音识别结果312可以包括叙述“dear carrie commanew line thank you for the cheesecake exclamation point(亲爱的嘉丽逗号换行,谢谢您的芝士蛋糕感叹号)”的规范化文本。使用包括标识消息传递应用210c的应用标识符的场境元数据110,场境服务器400能够鉴别与语音输入104相关联的语音识别类别指示语音输入104作为用于在用户设备200上执行的消息传递应用210c的、要转换成文本的口述语音被提供。因此,在时间4,场境服务器400基于场境元数据110指示口述应用(例如,消息传递应用210c)当前正在用户设备200上执行来生成去规范化指令410并且将去规范化指令410提供给去规范化器模块320。在这里,场境服务器400将生成去规范化指令410,该去规范化指令410确保去规范化器模块320将应用显式标点去规范化器,因为语音输入104很可能包括显式标点词语。例如,当不存在去规范化器的默认列表或者默认列表不包括显式标点去规范化器时,去规范化指令410可以指示去规范化器模块320包括显式标点去规范化器。在时间5,去规范化器模块320通过将一个或多个去规范化器350的列表依次应用于所生成的原始语音识别结果312来将原始语音识别结果312去规范化成去规范化文本322。
在时间6,ASR模块300将与语音输入104相对应的去规范化文本322提供给用户设备200,并且用户设备200将去规范化文本322显示在图形用户界面214中显示的消息/口述窗口218中。在所示的示例中,去规范化文本322由至少显式标点去规范化器和大写去规范化器进行去规范化。例如,显式标点去规范化器将原始语音识别结果312中的词语“comma”转换成所对应的符号“,”,并且将词语“new line”识别为要从“Thank you”开头开始换行的指令。在应用了显式标点去规范化器之后,去规范化器模块320通过将第一行的第一字母“D”、收件人的名字(carrie)的第一字母“C”和第二行的第一字母“T”大写来应用大写去规范化器。值得注意的是,如果在显式标点去规范化器之前应用了大写去规范化器,则“T”将很可能未被大写,因为它不会被标识为一行的开头字母。
图2A和图2B的示例使用能够访问同一去规范化器350的预定义集合的确切相同的ASR模块300。识别器310在同一规范化文本上被训练并且将针对给定语音输入104生成相同的原始语音识别结果312,而不管关联的场境元数据110包括什么。然而,场境服务器400使用与语音输入104相关联的场境元数据110来使对由识别器310生成的原始语音识别结果312的去规范化个性化/场境化成去规范化文本以得到最佳易读性。
图3图示ASR模块300的去规范化器模块320、数据存储装置340和场境服务器400之间的示例交互。数据存储装置340存储去规范化器350的预定义集合,每个去规范化器对应于对在去规范化器模块320处接收到的规范化文本的输入进行去规范化的某个方面的相应的去规范化规则或去规范化模型。当场境元数据110不存在和/或场境服务器400未提供任何去规范化指令410时,可以用要应用以便对语音识别结果312进行去规范化的去规范化器348的默认列表初始化去规范化器模块320。在所示的示例中,去规范化器348的默认列表包括显式标点去规范化器、隐式标点去规范化器、大写去规范化器和直译去规范化器。数据存储装置340维护可被去规范化器模块320访问以便通过提供对应的键344来从数据存储装置340中选择/检索任何给定去规范化器(即,值346)的去规范化器350的预定义集合的键-值映射342。
响应于从场境服务器400接收到去规范化指令410,去规范化器模块320可以通过基于去规范化指令410修改去规范化器348的默认列表来选择要应用以便对规范化文本322进行去规范化的一个或多个去规范化器350的列表。在一些实现方式中,修改去规范化器348的默认列表包括从去规范化器348的默认列表中移除一个或多个去规范化器和/或将来自去规范化器350的预定义集合的一个或多个去规范化器添加到去规范化器348的默认列表。例如,去规范化指令410包括以下各项中的一个或多个:追加去规范化器指令、附加去规范化器指令、移除去规范化器指令、取代去规范化器指令或添加去规范化器指令。当场境服务器400不了解去规范化器348的默认列表时,追加和附加去规范化器指令可以是有益的。追加去规范化器指令标识要在去规范化器348的默认列表的开头追加的新去规范化器(例如,来自去规范化器350的预定义集合),然而附加去规范化器标识要在去规范化器的默认列表的末尾附加的新正规化器。移除去规范化器指令标识要从去规范化器348的默认列表中移除的现有去规范化器,并且取代去规范化器指令标识要从去规范化器348的默认列表中替换现有去规范化器的新去规范化器。添加去规范化器指令标识要添加到去规范化器的默认列表的新去规范化器并且从去规范化器的默认列表中标识在新去规范化器之前或之后的现有去规范化器。
在一些实现方式中,场境服务器400提供去规范化指令410,该去规范化指令410包括指示去规范化器模块320从去规范化器348的默认列表中移除直译去规范化器的移除去规范化器指令以及指示去规范化器模块320将冒犯性单词去规范化器附加到去规范化器348的默认列表的附加去规范化指令。在这里,移除指令包括所对应的标识要从去规范化器348的默认列表中移除的直译去规范化器的直译键344,而附加指令包括标识要附加到去规范化器348的默认列表的冒犯性单词去规范化器的所对应的冒犯性单词键344。
在所示的示例中,去规范化器模块320被配置成使用从场境服务器400接收到的去规范化指令410来修改去规范化器348的默认列表。例如,由于去规范化指令410指定应该移除直译去规范化器并且应该附加冒犯性单词去规范化器,所以去规范化器模块320通过将所对应的键344提供给数据存储装置340来从键-值映射342中检索来自去规范化器348的默认列表的剩余的显式标点去规范化器、隐式标点去规范化器和大写去规范化器以及来自去规范化器350的预定义集合的冒犯性单词去规范化器。
在一些示例中,去规范化器模块320按照与所对应的去规范化器将被应用以便将原始语音识别结果312去规范化成去规范化文本322的次序/顺序相关联的顺序提供所对应的键344。因此,通过提供所对应的键344,去规范化器模块320检索与显式标点去规范化器、隐式标点去规范化器、大写去规范化器和掩盖冒犯性去规范化器相对应的去规范化器352的选定列表。此后,去规范化器模块320将通过将显式标点去规范化器应用于原始语音识别结果312、将隐式标点去规范化器应用于显式标点去规范化器的输出、将大写去规范化器应用于隐式标点去规范化器的输出、并且将掩盖冒犯性去规范化器应用于大写去规范化器的输出来将原始语音识别结果312去规范化成去规范化文本322。
参考图4A,在一些实现方式中,场境服务器400编译针对具体用户10的未被包括在存储在ASR模块300的数据存储装置340(例如,存储器硬件206、146)中的去规范化器350的预定义集合中的个性化去规范化器450。在这里,用户10或第三方客户端能够向场境服务器400提供用户10(或第三方客户端)愿意应用以便对原始语音识别结果312进行去规范化的一个或多个个性化去规范化规则402。例如,去规范化规则402可以由用户10实现并且包括由用户10指定用于对文本进行去规范化的任何个性化/定制去规范化规则,诸如特殊大写、丰富字体、嵌入(例如,到网站的链接)、适合特定渲染约束(例如,较短行/制表符)的格式化器等。
响应于从具体用户10接收到一个或多个去规范化规则402(例如,定制/个性化去规范化规则),场境服务器400针对每个去规范化规则402编译对应的个性化去规范化器450并且将一个或多个个性化去规范化器450存储在个性化去规范化器储存库440中,该个性化去规范化器储存库440可以对应于图1的场境源190中的一个。特定于用户10的个性化去规范化器450可以包括标识用户10的用户标识符12。因此,当用户10提供具有包括用户标识符12的场境元数据110的后续ASR请求102时,场境服务器400可以标识存储在储存库440(例如,场境源190)中的与用户标识符12匹配的任何个性化去规范化器450。场境服务器400然后可以生成指示去规范化器模块320应用个性化去规范化器450的去规范化指令410。在一些示例中,场境服务器400对与用户10相关联的个性化去规范化器450进行加密并应用标识用户10必须提供以便让去规范化器模块320对个性化去规范化器450进行解密和使用的密码密钥的密码散列14。例如,用户10可以在用于将对应的语音输入104转换成去规范化文本322的ASR请求102中提供密码密钥作为场境元数据110的一部分。
在一些实现方式中,个性化去规范化器储存库440与ASR模块300分开,使得能够动态地编译和存储个性化去规范化器450(例如,定制去规范化器),而不必等待对ASR模块300的周期性更新。附加地,由于个性化去规范化器储存库440可能潜在地为数百万个不同的用户存储一个或多个个性化去规范化器450的相应集,所以对于ASR模块300处的数据存储装置340来说也存储并提供对除了可被整个用户群体访问的去规范化器350的预定义集合之外的所有这些个性化去规范化器450的访问不是理想的。在一些场景中,个性化去规范化器储存库440可以存储个性化去规范化器450并且在ASR模块300的下一个周期性(例如,每周)更新期间将个性化去规范化器推出到ASR模块300的数据存储装置340。在一些示例中,个性化去规范化器储存库440与ASR模块300上的数据存储装置340集成在一起,而不将个性化去规范化器450与去规范化器350的预定义集合混合。
参考图4B,在一些实现方式中,用户10经由用户设备200提供ASR请求102,该ASR请求102包括一个或多个个性化去规范化规则402作为ASR请求102的场境元数据110的一部分。在这个场景中,用户10正在请求ASR模块300即时应用一个或多个去规范化规则402。在所示的示例中,包括一个或多个个性化去规范化规则402的场境元数据110被提供给场境服务器400并且语音输入104被提供给识别器310。识别器310生成与语音输入104相对应的原始语音识别结果312。同时,场境服务器400被配置成针对每个去规范化规则402编译对应的个性化去规范化器450并生成包括用于对与语音输入104相对应的原始语音识别结果312进行去规范化的个性化去规范化器450的去规范化指令410。因此,场境服务器400将包括个性化去规范化器450的去规范化指令410提供给去规范化器模块320,并且去规范化器模块320即时应用个性化去规范化器450以将原始语音识别结果312去规范化成所对应的去规范化文本322。
在一些实现方式中,用户10可能包括ASR模块300的管理员,该管理员提供与管理员想要在不必更新ASR模块300的去规范化器350的预定义集合或其他方面的情况下测试的新去规范化器相关联的个性化去规范化规则402。例如,个性化去规范化规则402可以使场境服务器400编译新去规范化器并生成指示去规范化器模块320将新去规范化器用于对文本进行去规范化的指令410。因此,即时提供个性化去规范化规则402对于在将新去规范化器推出到ASR模块300之前调试它们来说是有价值的。
图6是用于对由ASR模块300的去规范化器模块320生成的原始语音识别结果进行去规范化的方法600的操作的示例布置的流程图。在操作602处,方法600包括在ASR模块300的数据处理硬件204、144处从用户10接收语音输入104。用户10可以与将语音输入104作为语音识别请求102的一部分提供给ASR模块300的用户设备200相关联。ASR模块300可以位于用户设备200和/或分布式系统140上。
在操作604处,方法600包括由数据处理硬件204、144获得与语音输入104相关联的场境元数据110。当在数据处理硬件204、144处接收到语音输入104的音频数据103时,可以从用户设备200接收到场境元数据110。在其他示例中,获得场境元数据110包括:当接收到语音输入104时接收与用户10相关联的用户标识符12;以及使用用户标识符12来从存储器硬件206、146中检索场境元数据110。场境元数据可以包括以下各项中的至少一种:与语音输入相关联的语音识别类别(例如,口述或话音搜索)、在用户设备200上运行的应用、在接收到语音输入104时用户的位置、用户标识符12、与用户相关联的人口统计信息、或用于对文本进行去规范化的用户偏好。例如,用户偏好可以包括一个或多个个性化去规范化规则402。
在操作606处,方法600包括由数据处理硬件204、144生成与语音输入104相对应的原始语音识别结果312。所生成的原始语音识别结果312包括规范化文本。例如,规范化文本是指所有大写和标点都被剥离的文本。例如,因为通常在被规范化的文本的语料库上训练ASR模块300的识别器310,所以识别器310将输出被规范化的原始语音识别结果312。
在操作608处,方法600包括基于与语音输入104相关联的场境元数据110来选择要应用于所生成的原始语音识别结果312结果的一个或多个去规范化器352的列表。选择一个或多个去规范化器352的列表可以包括通过以下步骤中的至少一个来修改来自去规范化器350的预定义集合的去规范化器348的默认列表:从去规范化器348的默认列表中移除一个或多个去规范化器或者将来自去规范化器350的预定义集合的一个或多个去规范化器添加到去规范化器的默认列表。
在操作610处,方法600包括通过将一个或多个去规范化器352的列表依次应用于所生成的原始语音识别结果312来将所生成的原始语音识别结果312去规范化成去规范化文本322。在一些示例中,场境服务器400基于场境元数据110生成去规范化指令410以用于将所生成的原始语音识别结果312去规范化成去规范化文本322。在这里,ASR模块300的去规范化器模块320可以从场境服务器400接收去规范化指令410并使用去规范化指令410来选择一个或多个去规范化器352的列表。例如,去规范化器模块320可以使用对应的键344来从存储器硬件(例如,数据存储装置340)中检索一个或多个去规范化器350的选定列表中的每个去规范化器。去规范化指令410可以通过提供其对应的键344来标识要选择的所需去规范化器。此后,去规范化器模块320被配置成将从存储器硬件340中检索到的一个或多个去规范化器352的选定列表中的每个去规范化器依次应用于所生成的原始语音识别结果312。
ASR模块300可以将去规范化文本322传送到输出500。输出500可以包括以上参考图5描述的输出500中的任一个。例如,输出500可能包括诸如用户设备200的客户端设备或将去规范化文本322显示在客户端设备200的显示屏幕212上的另一用户设备。在一些示例中,去规范化文本322实时地流式传输到输出500。
软件应用(即,软件资源)可以是指使计算设备进行任务的计算机软件。在一些示例中,可以将软件应用称为“应用”、“app”或“程序”。示例应用包括但不限于系统诊断应用、系统管理应用、系统维护应用、文字处理应用、电子表格应用、消息传递应用、媒体流应用、社交联网应用和游戏应用。
非暂时性存储器可以为用于在暂时或永久基础上存储程序(例如,指令序列)或数据(例如,程序状态信息)以供由计算设备使用的物理设备。非易失性存储器可以为易失性和/或非易失性可寻址半导体存储器。非易失性存储器的示例包括但不限于闪速存储器和只读存储器(ROM)/可编程只读存储器(PROM)/可擦除可编程只读存储器(EPROM)/电子可擦除可编程只读存储器存储器(EEPROM)(例如,通常用于固件,诸如根刷程序)。易失性存储器的示例包括但不限于随机存取存储器(RAM)、动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM)、相变存储器(PCM)以及磁盘或磁带。
图7是可以用于实现本文档中描述的系统和方法的示例计算设备700的示意图。计算设备700旨在表示各种形式的数字计算机,诸如膝上型电脑、台式机、工作站、个人数字助理、服务器、刀片服务器、大型机和其他适当的计算机。在这里示出的组件、它们的连接和关系及其功能仅意在为示例性的,而不意在限制本文档中描述和/或要求保护的发明的实现方式。
计算设备700包括处理器710(数据处理硬件)、存储器720(存储器硬件)、存储设备730、连接到存储器720和高速扩展端口750的高速接口/控制器740以及连接到低速总线770和存储设备730的低速接口/控制器760。组件710、720、730、740、750和760中的每一个均使用各种总线来互连,并且可以被酌情安装在公共母板上或以其他方式安装。处理器710(例如,数据处理硬件204、144)能够处理用于在计算设备700内执行的指令,该指令包括存储在存储器720(例如,存储器硬件206、146)或在存储设备730(例如,存储器硬件206、146)上以在诸如耦合到高速接口740的显示器780(例如,图2A和图2B的屏幕212)的外部输入/输出设备上显示图形用户界面(GUI)的图形信息的指令。在一些实现方式中处理器710执行ASR模块300和场境服务器400。在其他实现方式中,可以酌情使用多个处理器和/或多条总线以及多个存储器和存储器类型。另外,可以连接多个计算设备700,其中每个设备提供必要的操作的部分(例如,作为服务器组、一组刀片服务器或多处理器系统)。
存储器720在计算设备700内非暂时地存储信息。存储器720可以为计算机可读介质、易失性存储器单元或非易失性存储器单元。非暂时性存储器720可以为用于在暂时或永久基础上存储程序(例如,指令序列)或数据(例如,程序状态信息)以供由计算设备700使用的物理设备。非易失性存储器的示例包括但不限于闪速存储器和只读存储器(ROM)/可编程只读存储器(PROM)/可擦除可编程只读存储器(EPROM)/电子可擦除可编程只读存储器存储器(EEPROM)(例如,通常用于固件,诸如根刷程序)。易失性存储器的示例包括但不限于随机存取存储器(RAM)、动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM)、相变存储器(PCM)以及磁盘或磁带。
存储设备730能够为计算设备700提供大容量存储。在一些实现方式中,存储设备730是计算机可读介质。在各种不同的实现方式中,存储设备730可以为软盘设备、硬盘设备、光盘设备或磁带设备、闪速存储器或其他类似的固态存储设备、或设备阵列,包括存储区域网络或其他配置中的设备。在附加实现方式中,计算机程序产品被有形地体现在信息载体中。计算机程序产品包含指令,这些指令当被执行时,进行一种或多种方法,诸如上述方法。信息载体是计算机或机器可读介质,诸如存储器720、存储设备730或处理器710上的存储器。
高速控制器740管理计算设备700的带宽密集操作,然而低速控制器760管理较低带宽密集操作。职责的这种分配仅是示例性的。在一些实现方式中,高速控制器740耦合到存储器720,耦合到显示器780(例如,通过图形处理器或加速器),并且耦合到高速扩展端口750,该高速扩展端口可以接受各种扩展卡(未示出)。在一些实现方式中,低速控制器760耦合到存储设备730和低速扩展端口790。可以包括各种通信端口(例如,USB、蓝牙、以太网、无线以太网)的低速扩展端口790可以例如通过网络适配器耦合到诸如键盘、指点设备、扫描仪的一个或多个输入/输出设备,或者耦合到如交换机或路由器的联网设备。
如图所示,可以以许多不同的形式实现计算设备700。例如,它可以作为标准服务器700a或在一组此类服务器700a中多次、作为膝上型计算机700b或作为机架服务器系统700c的一部分被实现。本文描述的系统和技术的各种实现方式能够用数字电子和/或光学电路、集成电路、专门地设计的ASIC(专用集成电路)、计算机硬件、固件、软件和/或它们的组合加以实现。这些各种实现方式能够包括在可编程系统上可执行和/或可解释的一个或多个计算机程序中的实现方式,该可编程系统包括至少一个可编程处理器,该可编程处理器可以为专用的或通用的,耦合以从存储系统、至少一个输入设备和至少一个输出设备接收数据和指令,并且向存储系统、至少一个输入设备和至少一个输出设备传送数据和指令。
这些计算机程序(也称为程序、软件、软件应用或代码)包括用于可编程处理器的机器指令,并且能够用高级过程和/或面向对象编程语言和/或用汇编/机器语言加以实现。如本文所使用的,术语“机器可读介质”和“计算机可读介质”是指任何计算机程序产品、非暂时性计算机可读介质、装置和/或设备(例如,磁盘、光盘、存储器、用于向可编程处理器提供机器指令和/或数据的可编程逻辑器件(PLD)),包括接收机器指令作为机器可读信号的机器可读介质。术语“机器可读信号”是指用于向可编程处理器提供机器指令和/或数据的任何信号。
本说明书中描述的过程和逻辑流程能够通过一个或多个可编程处理器(也称为数据处理硬件)执行一个或多个计算机程序以通过对输入数据进行操作并生成输出来进行功能而被进行。过程和逻辑流程还能够由专用逻辑电路例如FPGA(现场可编程门阵列)或ASIC(专用集成电路)进行。作为示例,适合于执行计算机程序的处理器包括通用微处理器和专用微处理器两者以及任何种类的数字计算机的任何一个或多个处理器。通常,处理器将从只读存储器或随机存取存储器或两者接收指令和数据。计算机的必要元件是用于进行指令的处理器以及用于存储指令和数据的一个或多个存储器设备。通常,计算机还将包括用于存储数据的一个或多个大容量存储设备,例如,磁盘、磁光盘或光盘,或者在操作上耦合以从该大容量存储设备接收数据或者将数据转移到该大容量存储设备,或者兼而有之。然而,计算机不必具有此类设备。适合于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、介质和存储器设备,作为示例包括:半导体存储器设备(例如EPROM、EEPROM)和闪速存储器设备;磁盘,例如内部硬盘或可移动磁盘;磁光盘;以及CD ROM和DVD-ROM盘。处理器和存储器能够由专用逻辑电路补充,或者并入在专用逻辑电路中。
为了提供与用户的交互,能够在计算机上实现本公开的一个或多个方面,该计算机具有用于向用户显示信息的显示设备,例如CRT(阴极射线管)、LCD(液晶显示器)监视器或触摸屏,并且任选地具有用户能够用来向计算机提供输入的键盘和指点设备,例如鼠标或轨迹球。其他种类的设备还能够用于提供与用户的交互;例如,提供给用户的反馈可以为任何形式的感觉反馈,例如视觉反馈、听觉反馈或触觉反馈;并且能够以任何形式接收来自用户的输入,包括声音、语音或触觉输入。另外,计算机能够通过向由用户使用的设备发送文档并且从由用户使用的设备接收文档来与用户交互;例如,通过响应于从web浏览器接收到的请求而向用户的客户端设备上的web浏览器发送web页面。
已描述了许多实现方式。然而,应理解,可以在不脱离本公开的精神和范围的情况下做出各种修改。因此,其他实现方式在以下权利要求的范围内。
Claims (28)
1.一种用于将原始语音识别结果去规范化的方法(600),包括:
在自动语音识别ASR模块(300)的数据处理硬件(710)处,从用户接收语音输入(104),所述ASR模块(300)包括要应用于对由所述ASR模块(300)生成的规范化文本进行去规范化的去规范化器(350)的预定义集合;
由所述数据处理硬件(710)获得与所述语音输入(104)相关联的场境元数据(110);
由所述数据处理硬件(710)生成与所述语音输入(104)相对应的原始语音识别结果(312),所生成的原始语音识别结果(312)包括规范化文本;
由所述数据处理硬件将与所述语音输入相关联的所述场境元数据提供给场境服务器,所述场境服务器被配置成基于所述场境元数据来生成用于将所生成的原始语音识别结果去规范化成去规范化文本的去规范化指令;
在所述数据处理硬件处,从所述场境服务器接收所述去规范化指令;
由所述数据处理硬件(710)使用从所述场境服务器接收到的所述去规范化指令来选择要应用于所生成的原始语音识别结果(312)的一个或多个去规范化器(352)的列表;以及
由所述数据处理硬件(710)通过将所述一个或多个去规范化器(352)的所述列表依次应用于所生成的原始语音识别结果(312)来将所生成的原始语音识别结果(312)去规范化成去规范化文本(322)。
2.根据权利要求1所述的方法(600),其中:
接收所述语音输入(104)包括从与所述用户相关联的用户设备(200)接收与所述语音输入(104)相对应的音频数据(103);并且
获得与所述语音输入(104)相关联的所述场境元数据(110)包括当接收到所述语音输入(104)的所述音频数据(103)时从所述用户设备(200)接收与所述语音输入(104)相关联的所述场境元数据(110)。
3.根据权利要求1所述的方法(600),其中,获得与所述语音输入(104)相关联的所述场境元数据(110)包括:
当接收到所述语音输入(104)时接收与所述用户相关联的用户标识符(12);以及
使用所述用户标识符(12)来从与所述数据处理硬件(710)通信的存储器硬件(146、206)中检索所述场境元数据(110)。
4.根据权利要求1所述的方法(600),其中,所述场境元数据(110)包括以下中的至少一个:与所述语音输入(104)相关联的语音识别类别、在与所述用户相关联的用户设备(200)上运行的应用、在接收到所述语音输入(104)时所述用户的位置、标识所述用户的用户标识符(12)、与所述用户相关联的人口统计信息或用于对文本进行去规范化的用户偏好。
5.根据权利要求1所述的方法(600),其中,选择所述一个或多个去规范化器(352)的所述列表包括通过以下中的至少一个来修改来自所述去规范化器(350)的预定义集合的去规范化器(348)的默认列表:从所述去规范化器(348)的所述默认列表中移除一个或多个去规范化器(352)或者将来自所述去规范化器(350)的预定义集合的一个或多个去规范化器(352)添加到所述去规范化器(348)的所述默认列表。
6.根据权利要求1所述的方法(600),其中,将与所述语音输入(104)相关联的所述场境元数据(110)提供给所述场境服务器(400)包括将与所述语音输入(104)相关联的所述场境元数据(110)提供给所述场境服务器(400),而不将所述语音输入(104)或与所述语音输入(104)相关联的任何音频数据(103)提供给所述场境服务器(400)。
7.根据权利要求1所述的方法(600),其中,所述去规范化指令(410)包括以下指令中的一个或多个,所述以下指令包括:
追加去规范化器指令,所述追加去规范化器指令标识要在去规范化器(348)的默认列表的开头追加的新去规范化器,所述去规范化器(348)的默认列表包括要在不存在所述场境元数据(110)的情况下依次应用于所生成的原始语音识别结果(312)的所述去规范化器(350)的预定义集合的一部分;
附加去规范化器指令,所述附加去规范化器指令标识要在所述去规范化器(348)的默认列表的末尾附加的新去规范化器;
移除去规范化器指令,所述移除去规范化器指令标识要从所述去规范化器(348)的默认列表中移除的现有去规范化器;
取代去规范化器指令,所述取代去规范化器指令标识要从所述去规范化器(348)的默认列表中替换现有去规范化器的新去规范化器;或
添加去规范化器指令,所述添加去规范化器指令标识要添加到所述去规范化器(348)的默认列表的新去规范化器并且从所述去规范化器(348)的默认列表中标识在所述新去规范化器之前或之后的现有去规范化器。
8.根据权利要求1所述的方法(600),其中,所述去规范化指令(410)包括用去规范化器(352)的新列表重载所述去规范化器(348)的默认列表的重载指令,所述去规范化器(352)的新列表包括所述一个或多个去规范化器(352)的选定列表。
9.根据权利要求1所述的方法(600),其中,所述场境服务器(400)被配置成:
接收特定于所述ASR模块(300)的客户端的一个或多个定制去规范化规则(402);并且
基于特定于所述客户端的所述一个或多个定制去规范化规则(402)来编译定制去规范化器。
10.根据权利要求1所述的方法(600),其中,使用所述一个或多个去规范化器(352)的选定列表来将所生成的原始语音识别结果(312)去规范化成所述去规范化文本(322)包括:
使用对应的键(344)来从存储器硬件(146、206)中检索所述一个或多个去规范化器(352)的选定列表中的每个去规范化器,所述存储器硬件(146、206)与所述数据处理硬件(710)通信;以及
将从所述存储器硬件(146、206)中检索到的所述一个或多个去规范化器(352)的选定列表中的每个去规范化器依次应用于所生成的原始语音识别结果(312)。
11.根据权利要求10所述的方法(600),其中,所述存储器硬件(146、206)位于所述ASR模块(300)上。
12.根据权利要求10所述的方法(600),其中,所述存储器硬件(146、206)包括远离所述ASR模块(300)定位的储存库(440)。
13.根据权利要求1至12中的任一项所述的方法(600),还包括,在将所生成的原始语音识别结果(312)去规范化成所述去规范化文本(322)之后,将所述去规范化文本(322)从所述ASR模块(300)传送到客户端设备(200),所述去规范化文本(322)当由所述客户端设备(200)接收到时被配置成使所述客户端设备(200)将所述去规范化文本(322)显示在所述客户端设备(200)的显示屏幕(212)上。
14.根据权利要求13所述的方法(600),其中,从所述ASR模块(300)传送所述去规范化文本(322)包括将所述去规范化文本(322)实时地流式传输到所述客户端设备(200)。
15.一种用于将原始语音识别结果去规范化的系统(100),包括:
自动语音识别ASR模块(300)的数据处理硬件(710),所述ASR模块(300)包括要应用于对由所述ASR模块(300)生成的规范化文本进行去规范化的去规范化器(350)的预定义集合;和
所述ASR模块(300)的存储器硬件(146、206),所述存储器硬件与所述数据处理硬件(710)通信并存储指令,所述指令当由所述数据处理硬件(710)执行时使所述数据处理硬件(710)进行包括以下的操作:
从用户接收语音输入(104);
获得与所述语音输入(104)相关联的场境元数据(110);
生成与所述语音输入(104)相对应的原始语音识别结果(312),所生成的原始语音识别结果(312)包括规范化文本;
将与所述语音输入相关联的所述场境元数据提供给场境服务器,所述场境服务器被配置成基于所述场境元数据来生成用于将所生成的原始语音识别结果去规范化成去规范化文本的去规范化指令;
从所述场境服务器接收所述去规范化指令;
使用从所述场境服务器接收到的所述去规范化指令来选择要应用于所生成的原始语音识别结果(312)的一个或多个去规范化器(352)的列表;以及
通过将所述一个或多个去规范化器(352)的所述列表依次应用于所生成的原始语音识别结果(312)来将所生成的原始语音识别结果(312)去规范化成去规范化文本(322)。
16.根据权利要求15所述的系统(100),其中:
接收所述语音输入(104)包括从与所述用户相关联的用户设备(200)接收与所述语音输入(104)相对应的音频数据(103);并且
获得与所述语音输入(104)相关联的所述场境元数据(110)包括当接收到所述语音输入(104)的所述音频数据(103)时从所述用户设备(200)接收与所述语音输入(104)相关联的所述场境元数据(110)。
17.根据权利要求15所述的系统(100),其中,获得与所述语音输入(104)相关联的所述场境元数据(110)包括:
当接收到所述语音输入(104)时接收与所述用户相关联的用户标识符(12);以及
使用所述用户标识符(12)来从所述存储器硬件(146、206)中检索所述场境元数据(110)。
18.根据权利要求15所述的系统(100),其中,所述场境元数据(110)包括以下中的至少一个:与所述语音输入(104)相关联的语音识别类别、在与所述用户相关联的用户设备(200)上运行的应用、在接收到所述语音输入(104)时所述用户的位置、标识所述用户的用户标识符(12)、与所述用户相关联的人口统计信息或用于对文本进行去规范化的用户偏好。
19.根据权利要求15所述的系统(100),其中,选择所述一个或多个去规范化器(352)的所述列表包括通过以下中的至少一个来修改来自所述去规范化器(350)的预定义集合的去规范化器(348)的默认列表:从所述去规范化器(348)的默认列表中移除一个或多个去规范化器(352)或者将来自所述去规范化器(350)的预定义集合的一个或多个去规范化器(352)添加到所述去规范化器(348)的默认列表。
20.根据权利要求15所述的系统(100),其中,将与所述语音输入(104)相关联的所述场境元数据(110)提供给所述场境服务器(400)包括将与所述语音输入(104)相关联的所述场境元数据(110)提供给所述场境服务器(400),而不将所述语音输入(104)或与所述语音输入(104)相关联的任何音频数据(103)提供给所述场境服务器(400)。
21.根据权利要求15所述的系统(100),其中,所述去规范化指令(410)包括以下指令中的一个或多个:
追加去规范化器指令,所述追加去规范化器指令标识要在去规范化器(348)的默认列表的开头追加的新去规范化器,所述去规范化器(348)的默认列表包括要在不存在所述场境元数据(110)的情况下依次应用于所生成的原始语音识别结果(312)的所述去规范化器(350)的预定义集合的一部分;
附加去规范化器指令,所述附加去规范化器指令标识要在所述去规范化器(348)的默认列表的末尾附加的新去规范化器;
移除去规范化器指令,所述移除去规范化器指令标识要从所述去规范化器(348)的默认列表中移除的现有去规范化器;
取代去规范化器指令,所述取代去规范化器指令标识要从所述去规范化器(348)的默认列表中替换现有去规范化器的新去规范化器;或
添加去规范化器指令,所述添加去规范化器指令标识要添加到所述去规范化器(348)的默认列表的新去规范化器并且从所述去规范化器(348)的默认列表中标识在所述新去规范化器之前或之后的现有去规范化器。
22.根据权利要求15所述的系统(100),其中,所述去规范化指令(410)包括用去规范化器(352)的新列表重载所述去规范化器(348)的默认列表的重载指令,所述去规范化器(352)的新列表包括所述一个或多个去规范化器(352)的选定列表。
23.根据权利要求15所述的系统(100),其中,所述场境服务器(400)被配置成:
接收特定于所述ASR模块(300)的客户端的一个或多个定制去规范化规则(402);并且
基于特定于所述客户端的所述一个或多个定制去规范化规则(402)来编译定制去规范化器。
24.根据权利要求15所述的系统(100),其中,使用所述一个或多个去规范化器(352)的选定列表来将所生成的原始语音识别结果(312)去规范化成所述去规范化文本(322)包括:
使用对应的键(344)来从所述存储器硬件(146、206)中检索所述一个或多个去规范化器(352)的选定列表中的每个去规范化器;以及
将从所述存储器硬件(146、206)中检索到的所述一个或多个去规范化器(352)的选定列表中的每个去规范化器依次应用于所生成的原始语音识别结果(312)。
25.根据权利要求24所述的系统(100),其中,所述存储器硬件(146、206)位于所述ASR模块(300)上。
26.根据权利要求24所述的系统(100),其中,所述存储器硬件(146、206)包括远离所述ASR模块(300)定位的储存库(440)。
27.根据权利要求15-26中的任一项所述的系统(100),其中,所述操作还包括,在将所生成的原始语音识别结果(312)去规范化成所述去规范化文本(322)之后,将所述去规范化文本(322)从所述ASR模块(300)传送到客户端设备(200),所述去规范化文本(322)当由所述客户端设备(200)接收到时,被配置成使所述客户端设备(200)将所述去规范化文本(322)显示在所述客户端设备(200)的显示屏幕(212)上。
28.根据权利要求27所述的系统(100),其中,从所述ASR模块(300)传送所述去规范化文本(322)包括将所述去规范化文本(322)实时地流式传输到所述客户端设备(200)。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US16/192,953 | 2018-11-16 | ||
US16/192,953 US10789955B2 (en) | 2018-11-16 | 2018-11-16 | Contextual denormalization for automatic speech recognition |
PCT/US2019/049401 WO2020101789A1 (en) | 2018-11-16 | 2019-09-03 | Contextual denormalization for automatic speech recognition |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112673424A CN112673424A (zh) | 2021-04-16 |
CN112673424B true CN112673424B (zh) | 2024-09-06 |
Family
ID=67998715
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201980058744.XA Active CN112673424B (zh) | 2018-11-16 | 2019-09-03 | 用于自动语音识别的场境去规范化 |
Country Status (6)
Country | Link |
---|---|
US (3) | US10789955B2 (zh) |
EP (2) | EP4375871A3 (zh) |
JP (3) | JP6950116B1 (zh) |
KR (1) | KR20210046755A (zh) |
CN (1) | CN112673424B (zh) |
WO (1) | WO2020101789A1 (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10789955B2 (en) | 2018-11-16 | 2020-09-29 | Google Llc | Contextual denormalization for automatic speech recognition |
US11941345B2 (en) * | 2021-10-26 | 2024-03-26 | Grammarly, Inc. | Voice instructed machine authoring of electronic documents |
CN114185511A (zh) * | 2021-11-29 | 2022-03-15 | 北京百度网讯科技有限公司 | 一种音频数据处理方法、装置及电子设备 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9135231B1 (en) * | 2012-10-04 | 2015-09-15 | Google Inc. | Training punctuation models |
Family Cites Families (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5970449A (en) * | 1997-04-03 | 1999-10-19 | Microsoft Corporation | Text normalization using a context-free grammar |
JP2000181485A (ja) | 1998-12-14 | 2000-06-30 | Toyota Motor Corp | 音声認識装置及び方法 |
JP3232289B2 (ja) | 1999-08-30 | 2001-11-26 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 記号挿入装置およびその方法 |
JP2005346252A (ja) * | 2004-06-01 | 2005-12-15 | Nec Corp | 情報伝達システムおよび情報伝達方法 |
CN101034390A (zh) | 2006-03-10 | 2007-09-12 | 日电(中国)有限公司 | 用于语言模型切换和自适应的装置和方法 |
US20090157385A1 (en) | 2007-12-14 | 2009-06-18 | Nokia Corporation | Inverse Text Normalization |
US8255224B2 (en) * | 2008-03-07 | 2012-08-28 | Google Inc. | Voice recognition grammar selection based on context |
US8364487B2 (en) * | 2008-10-21 | 2013-01-29 | Microsoft Corporation | Speech recognition system with display information |
WO2010096192A1 (en) * | 2009-02-18 | 2010-08-26 | Exbiblio B.V. | Interacting with rendered documents using a multi-function mobile device, such as a mobile phone |
US9202465B2 (en) * | 2011-03-25 | 2015-12-01 | General Motors Llc | Speech recognition dependent on text message content |
US8386926B1 (en) * | 2011-10-06 | 2013-02-26 | Google Inc. | Network-based custom dictionary, auto-correction and text entry preferences |
US9460088B1 (en) | 2013-05-31 | 2016-10-04 | Google Inc. | Written-domain language modeling with decomposition |
US9672202B2 (en) | 2014-03-20 | 2017-06-06 | Microsoft Technology Licensing, Llc | Context-aware re-formating of an input |
US10896681B2 (en) | 2015-12-29 | 2021-01-19 | Google Llc | Speech recognition with selective use of dynamic language models |
WO2018043138A1 (ja) * | 2016-08-31 | 2018-03-08 | ソニー株式会社 | 情報処理装置および情報処理方法、並びにプログラム |
CN106653030A (zh) * | 2016-12-02 | 2017-05-10 | 北京云知声信息技术有限公司 | 标点添加方法及装置 |
CN107564526B (zh) * | 2017-07-28 | 2020-10-27 | 北京搜狗科技发展有限公司 | 处理方法、装置和机器可读介质 |
CN108564953B (zh) * | 2018-04-20 | 2020-11-17 | 科大讯飞股份有限公司 | 一种语音识别文本的标点处理方法及装置 |
US10789955B2 (en) * | 2018-11-16 | 2020-09-29 | Google Llc | Contextual denormalization for automatic speech recognition |
US10388272B1 (en) * | 2018-12-04 | 2019-08-20 | Sorenson Ip Holdings, Llc | Training speech recognition systems using word sequences |
US10573312B1 (en) * | 2018-12-04 | 2020-02-25 | Sorenson Ip Holdings, Llc | Transcription generation from multiple speech recognition systems |
-
2018
- 2018-11-16 US US16/192,953 patent/US10789955B2/en active Active
-
2019
- 2019-09-03 EP EP24170370.1A patent/EP4375871A3/en active Pending
- 2019-09-03 CN CN201980058744.XA patent/CN112673424B/zh active Active
- 2019-09-03 WO PCT/US2019/049401 patent/WO2020101789A1/en unknown
- 2019-09-03 KR KR1020217008812A patent/KR20210046755A/ko active IP Right Grant
- 2019-09-03 EP EP19772905.6A patent/EP3821428B1/en active Active
- 2019-09-03 JP JP2021517614A patent/JP6950116B1/ja active Active
-
2020
- 2020-09-01 US US17/009,494 patent/US11282525B2/en active Active
-
2021
- 2021-09-22 JP JP2021153776A patent/JP7230145B2/ja active Active
-
2022
- 2022-02-28 US US17/652,923 patent/US11676607B2/en active Active
-
2023
- 2023-02-15 JP JP2023021326A patent/JP7488382B2/ja active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9135231B1 (en) * | 2012-10-04 | 2015-09-15 | Google Inc. | Training punctuation models |
Also Published As
Publication number | Publication date |
---|---|
US20220277749A1 (en) | 2022-09-01 |
JP2021193464A (ja) | 2021-12-23 |
JP2023053332A (ja) | 2023-04-12 |
EP3821428A1 (en) | 2021-05-19 |
KR20210046755A (ko) | 2021-04-28 |
EP3821428B1 (en) | 2024-05-01 |
EP4375871A3 (en) | 2024-07-17 |
JP7230145B2 (ja) | 2023-02-28 |
US11282525B2 (en) | 2022-03-22 |
US20200402512A1 (en) | 2020-12-24 |
JP2021530749A (ja) | 2021-11-11 |
US11676607B2 (en) | 2023-06-13 |
CN112673424A (zh) | 2021-04-16 |
JP7488382B2 (ja) | 2024-05-21 |
JP6950116B1 (ja) | 2021-10-13 |
US20200160865A1 (en) | 2020-05-21 |
US10789955B2 (en) | 2020-09-29 |
EP4375871A2 (en) | 2024-05-29 |
WO2020101789A1 (en) | 2020-05-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Nguyen et al. | NEU-chatbot: Chatbot for admission of National Economics University | |
US9317501B2 (en) | Data security system for natural language translation | |
KR102439740B1 (ko) | 제작자 제공 콘텐츠 기반 인터랙티브 대화 애플리케이션 테일링 | |
JP7488382B2 (ja) | 自動音声認識のためのコンテキスト非正規化 | |
TWI590082B (zh) | 應用程式的共享分散式詞庫 | |
US11126794B2 (en) | Targeted rewrites | |
US20200192941A1 (en) | Search method, electronic device and storage medium | |
US10057237B2 (en) | Provide insensitive summary for an encrypted document | |
US20230223009A1 (en) | Language-agnostic Multilingual Modeling Using Effective Script Normalization | |
US8595016B2 (en) | Accessing content using a source-specific content-adaptable dialogue | |
US11709989B1 (en) | Method and system for generating conversation summary | |
US20220188525A1 (en) | Dynamic, real-time collaboration enhancement | |
US20200394258A1 (en) | Generation of edited transcription for speech audio | |
US11620328B2 (en) | Speech to media translation | |
KR20240101711A (ko) | 긴 형식의 텍스트 문서에 대한 자동화된 텍스트-음성 변환 발음 편집 | |
JP3691773B2 (ja) | 文章解析方法とその方法を利用可能な文章解析装置 | |
US20240161734A1 (en) | System and method for translation of streaming encrypted content | |
EP4446923A1 (en) | Privacy preserving and contextually aware data processing | |
US20240256533A1 (en) | Semantic parsing using embedding space representations of example natural language queries | |
US20240346162A1 (en) | Distributed computer architecture for processing data | |
US20240153485A1 (en) | Systems and methods for machine-learning based multi-lingual pronunciation generation | |
US20230281396A1 (en) | Message mapping and combination for intent classification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |