CN111742364A - 用于联网系统的基于语音的接口 - Google Patents

用于联网系统的基于语音的接口 Download PDF

Info

Publication number
CN111742364A
CN111742364A CN201980002146.0A CN201980002146A CN111742364A CN 111742364 A CN111742364 A CN 111742364A CN 201980002146 A CN201980002146 A CN 201980002146A CN 111742364 A CN111742364 A CN 111742364A
Authority
CN
China
Prior art keywords
translation
string
audio signal
input audio
score
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201980002146.0A
Other languages
English (en)
Other versions
CN111742364B (zh
Inventor
迈克尔·格林伯格
贝特兰德·达米巴
奥利维亚·格雷斯
吴飞
沙恩·布雷南
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Google LLC
Original Assignee
Google LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Google LLC filed Critical Google LLC
Priority to CN202410970673.3A priority Critical patent/CN118711577A/zh
Publication of CN111742364A publication Critical patent/CN111742364A/zh
Application granted granted Critical
Publication of CN111742364B publication Critical patent/CN111742364B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/51Translation evaluation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/005Language recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本文描述的系统和方法能够生成基于语音的接口以提高翻译的准确度。基于语音的接口能够得到在网络的设备之间传输的更少的输入音频信号。减少在网络的设备之间发送的冗余翻译请求的数目能够因处理更少的输入音频信号而节省带宽和其他计算资源。

Description

用于联网系统的基于语音的接口
相关申请的交叉引用
本申请根据35U.S.C§119要求于2018年12月14日提交的美国临时专利申请No.62/779,927的优先权,其出于各种目的通过引用并入本文。
背景技术
联网设备能够处理基于音频的信号。设备处理基于音频的信号的能力能够以基于音频的信号的质量或者设备理解基于音频的信号的能力为基础。基于音频的信号可能具有相对较大的文件大小。计算设备之间基于低质量音频的网络业务数据基于分组或其他方式的网络传输过量,这可能妨碍计算设备正确处理基于音频的信号。
发明内容
根据本公开的至少一个方面,一种生成基于语音的接口的系统能够包括数据处理系统。所述数据处理系统能够包括存储器以及执行自然语言处理器组件、翻译引擎和信号发生器组件的一个或多个处理器。所述数据处理系统能够在数据处理系统的接口处接收由客户端设备的传感器检测到的第一输入音频信号。所述数据处理系统能够通过自然语言处理器组件,基于所述第一输入音频信号来生成第一输入字符串。所述数据处理系统能够通过自然语言处理器组件,确定指示第一输入字符串的准确度的第一置信分值。所述数据处理系统能够通过翻译引擎,基于第一置信分值高于预定阈值并从第一输入字符串生成第一翻译字符串和第二翻译字符串。所述数据处理系统能够通过翻译引擎,确定指示第一翻译字符串的准确度的第一翻译字符串的第一翻译分值和指示第二翻译字符串的准确度的第二翻译字符串的第二翻译分值。所述数据处理系统能够通过翻译引擎,基于第一翻译分值和第二翻译分值来选择第一翻译字符串。所述数据处理系统能够通过信号发生器组件,从第一翻译字符串生成输出音频信号。所述数据处理系统能够通过接口,将输出音频信号传输到客户端设备以再现(render)输出音频信号。
根据本公开的至少一个方面,一种生成基于语音的接口的方法能够包括在数据处理系统的接口处,接收由客户端设备的传感器检测到的第一输入音频信号。所述方法能够包括通过自然语言处理器组件,基于所述第一输入音频信号来生成第一输入字符串。所述方法能够包括通过自然语言处理器组件,确定指示第一输入字符串的准确度的第一置信分值。所述方法能够包括通过翻译引擎,基于第一置信分值高于预定阈值并从第一输入字符串生成第一翻译字符串和第二翻译字符串。所述方法能够包括通过翻译引擎,确定指示第一翻译字符串的准确度的第一翻译字符串的第一翻译分值和指示第二翻译字符串的准确度的第二翻译字符串的第二翻译分值。所述方法能够包括通过翻译引擎,基于第一翻译分值和第二翻译分值来选择第一翻译字符串。所述方法能够包括通过信号发生器组件,从第一翻译字符串生成输出音频信号。所述方法能够包括通过接口,将输出音频信号传输到客户端设备以再现输出音频信号。
将领会到,这些方面能够以任何便利的形式来实现。例如,这些方面可以通过可以在适当载体介质上承载的适当计算机程序来实现,这些载体介质可以是有形的载体介质(例如,磁盘)或无形的载体介质(例如,通信信号)。这些方面也可以通过使用可以采取运行布置成实施本发明的计算机程序的可编程计算机的形式的适当装置来实现。这些方面能够组合成使得在一个方面的上下文中描述的特征可以在另一方面中实现。
上文的发明内容以及下文的附图说明和具体实施方式均为举例说明,旨在为所要求保护的本发明提供进一步说明。通过下文对附图的简要说明和详细描述,其他目的、优点和新颖性特征对于本领域技术人员将显而易见。
附图说明
附图并非旨在按比例绘制。各图中相同的附图标号和标记指示相同的元素。为清楚起见,可以不在每个附图中标记每个组件。在图中:
图1示出生成基于语音的接口的示例系统的框图。
图2示出通过使用图1所示的系统生成基于语音的接口的示例方法的框图。
图3示出通过使用图1所示的系统生成基于语音的接口的流程图。
图4是示例计算机系统的框图。
具体实施方式
在附图和以下描述中阐述了一种或多种实施方式的细节。参阅说明书、附图和权利要求,本公开的其他特征、方面和优势将显而易见。
本文描述的系统和方法能够在多个用户之间翻译话语。该系统能够接收包含用户话语的输入音频信号并且生成包括用户话语的翻译的输出信号。该系统能够作为远程代理(例如,客户端设备)操作,该远程代理当被用户调用时捕捉用户话语并且将在输入音频信号中的这些话语传输到数据处理系统。数据处理系统允许并行运行两个或多个语言模型(例如,对话中讲话的每个用户用一个语言模型)。并行运行语言模型能够允许任何一个用户在任何给定时间讲话。这就允许系统不强制用户之间轮流对话。而是,一个用户能够相继讲出多个话语,并且系统能够自动确定这些话语的翻译,而无需指示哪个用户正讲出特定话语的附加输入。因此,该系统解决了与翻译系统内如何处理数据相关联的问题。
本文描述的系统和方法能够提高翻译的准确度,这会减少发送到数据处理系统的输入音频信号。例如,系统能够减少发送到数据处理系统的冗余翻译请求的数目,因此系统能够因处理更少的输入音频信号而节省带宽和其他计算资源。
本文描述的系统和方法能够通过在翻译路径的多个点处并入置信分值来提高翻译的准确度。系统能够在接收到输入音频信号之后将第一置信分值并入翻译路径。例如,当数据处理系统接收到包含用户话语的输入音频信号时,数据处理系统能够对输入音频信号运行语音识别算法以识别话语并将话语转换为文本字符串。该系统能够计算文本字符串的置信分值,该置信分值指示系统将话语转换为文本字符串的预测准确度。低置信分值能够指示数据处理系统认为数据处理系统不理解或未正确将话语转换为文本字符串。当置信分值低时,数据处理系统能够将输出信号发送到客户端设备,请求澄清话语。例如,数据处理系统能够请求复述(repeat)话语,或者数据处理系统能够将文本字符串包括在再现给用户的输出信号中。用户能够确认或否认话语是否已正确转换为文本字符串。
所述系统和方法也能够包括置信分值,以指示输入话语能够被翻译成目标语言的好坏。例如,如果话语包括可能不会很好翻译成目标语言的修辞或短语,则系统能够为该话语分配低翻译置信分值。基于低翻译置信分值,系统能够要求提供话语的用户改述(rephrase)该话语。
图1示出生成基于语音的接口的示例系统100的框图。系统100能够包括能够经由网络124与一个或多个客户端设备126进行通信的一个或多个数据处理系统102。
系统100能够包括一个或多个网络124。网络124能够包括任何类型和形式的网络,包括局域网(LAN)、广域网(WAN)诸如因特网、卫星网络、电缆网络、宽带网络、光纤网络、微波网络、蜂窝网络、无线网络或者这些或其他这类网络的任意组合。网络124能够包括一种或多种不同类型的网络。网络124能够包括多个附加设备,包括网关、调制解调器、防火墙、路由器、交换机等。网络124也能够包括任意数目的计算设备(例如,计算机、服务器、路由器、网络交换机等),它们被配置为在网络124内接收和/或传输数据。网络124能够包括任意数目的硬接线和/或无线连接。例如,客户端设备126能够(例如,经由Wi-Fi、蜂窝、无线电等)无线地与收发器进行通信,该收发器(例如,经由光纤电缆、CAT5电缆等)硬接线到网络124中的其他计算设备。网络124能够是虚拟网络,诸如由单个物理机执行的多个虚拟机之间的虚拟网络,或者是抽象网络,诸如经由物理地可移动的介质的离线数据传输(例如,经由磁带介质、CD-ROM、闪存介质、外部硬盘驱动器、软盘等传输数据)。
网络124能够被用于访问诸如网页、文站、域名或统一资源定位符的信息资源,能够在诸如膝上型计算机、桌面型计算机、平板型计算机、数字助理、个人数字助理、智能手表、可佩戴设备、智能电话、便携式计算机或扬声器的至少一个客户端设备126上呈现、输出、再现或显示该信息资源。例如,经由网络124,客户端设备126的用户能够访问由数据处理系统102提供的信息、数据或服务。
网络124能够包括点对点网络、广播网络、广域网、局域网、电信网络、数据通信网络、计算机网络、ATM(异步传输模式)网络、SONET(同步光纤网络)网络、SDH(同步数字体系)网络、无线网络和有线网络。网络124可以包括无线链路,诸如红外信道或卫星频带。网络124的拓扑可以包括总线型、星形或环形网络拓扑。网络可以包括移动电话网络,其使用任何一种或多种用于在移动设备之中进行通信的协议,包括高级移动电话协议(“AMPS”)、时分多址(“TDMA”)、码分多址(“CDMA”)、全球移动通信系统(“GSM”)、通用分组无线服务(“GPRS”)或通用移动电信系统(“UMTS”)。可以经由不同的协议传输不同类型的数据,或者可以经由不同的协议传输相同类型的数据。
系统100能够包括至少一个数据处理系统102。数据处理系统102能够包括至少一个逻辑设备,诸如具有处理器来执行本文描述的方法的计算设备。数据处理系统102能够经由网络124例如与客户端设备126进行通信。数据处理系统102能够包括至少一个计算资源、服务器、处理器或存储器。例如,数据处理系统102能够包括位于至少一个数据中心的多个计算资源或服务器。数据处理系统102能够包括多个逻辑分组的服务器并且有助于分布式计算技术。服务器的逻辑组可以称为数据中心、服务器场或机器场。服务器也能够在地理位置上分散。数据中心或机器场可以作为单个实体来管理,或者该机器场能够包括多个机器场。每个计算机场内的服务器能够是异构的-服务器或机器中的一个或多个能够根据一种或多种类型的操作系统平台来操作。
机器场中的服务器能够连同相关联的存储系统一起存放在高密度机架系统中并且位于企业数据中心。例如,以这种方式,通过在本地化高性能网络上定位服务器和高性能存储系统,整合服务器可以提高系统易管理性、数据安全性、系统的物理安全性和系统性能。集中包括服务器和存储系统在内的全部或一些数据处理系统102组件并且将它们与高级系统管理工具耦合,允许更高效地利用服务器资源,这样节省功率和处理需求并且减少带宽占用。
数据处理系统102能够包括数字助理应用104。数字助理应用104能够是由数据处理系统102的一个或多个处理器执行以生成基于语音的接口的应用、小程序、脚本、服务、守护进程(daemon)、例程或其他可执行逻辑。数字助理应用104能够检测讲出、键入或其他形式的文本中的一个或多个术语并且将这些术语从输入语言转换为目标语言。
数字助理应用104能够包括一个或多个自然语言处理器(NLP)组件108、一个或多个信号发生器组件110和一个或多个接口112。数字助理应用104能够使用NLP组件108来理解输入音频信号中的话语并且将该话语转换为文本字符串。数字助理应用104能够生成输出信号,使用信号发生器组件110将该输出信号提供给客户端设备126。数字助理应用104能够经由接口110与客户端设备126发送和接收数据。
NLP组件108能够接收或获得能够包括在客户端设备126处检测到的输入音频信号的数据分组。数据分组能够提供数字文件。NLP组件108能够解析输入音频信号。例如,NLP组件108能够提供人与计算机之间的交互。NLP组件108能够配置有用于理解自然语言并且使得数据处理系统102从人类或自然语言输入中推导出含义的技术。NLP组件108能够将输入音频信号转换为包括输入音频信号中所发出的术语的文本字符串。NLP组件108能够通过使用翻译引擎106在语言之间转换文本字符串。
NLP组件108能够包括或配置有基于机器学习、诸如统计机器学习的技术。NLP组件108能够利用决策树、统计模型或概率模型来解析输入音频信号。NLP组件108能够例如执行如下功能:命名实体识别(例如,给定文本流,确定文本中的哪些项目映射到专有名称,诸如人或地点,以及每个这样的名称是何种类型,诸如人、位置或组织)、自然语言生成(例如,将来自计算机数据库的信息或语义意图转换为可理解的人类语言)、自然语言理解(例如,将文本转换为更正式的表达,诸如计算机模块能够操纵的一阶逻辑结构)、机器翻译(例如,自动将文本从一种人类语言翻译成另一种人类语言)、语素切分(例如,将词语分为各个词素并且识别词素的类别,这由于所考虑语言的词法或词语结构的复杂度而具有挑战性)、问题解答(例如,确定对人类语言问题的答案,这可能是具体或开放式的),语义处理(例如,在识别词语并对其含义进行编码以便将所识别的词语与具有相似含义的其他词语相关之后可能发生的处理)。
NLP组件108能够通过将输入信号与存储的代表性音频波形集进行比较并且选取最接近的匹配,将输入音频信号转换为已辨识的文本。NLP组件108能够通过使用与输入音频信号的语言相关联的语法集118来处理输入音频信号。该音频波形集能够被存储在数据存储库124或数据处理系统102可访问的其他数据库中。代表波形是跨大批用户而生成,然后可以用来自用户的语音样本来扩充。在音频信号被转换为已辨识的文本之后,NLP组件108将该文本与例如经由跨用户的训练或通过手动指定而与数据处理系统102能够服务的动作相关联的词语匹配。NLP组件108能够将图像或视频输入转换成文本或数字文件。NLP组件108能够处理、分析或解释图像或视频输入以执行动作、生成请求或者选择或识别数据结构。如本文所述,NLP组件108和翻译引擎106能够识别输入音频信号中的话语或已辨识的文本的语言,以将话语或文本从第一输入语言转换为第二输出语言。
数字助理应用104能够包括一个或多个信号发生器组件110。信号发生器组件110能够是生成基于输出音频的信号的应用、小程序、脚本、服务、守护进程、例程或其他可执行逻辑。信号发生器组件110能够生成能够包括计算机生成的语音输出的输出信号。信号发生器组件110能够将计算机生成的语音输出以多个数据分组或文件的形式提供给客户端设备126。客户端设备126能够经由一个或多个扬声器128将计算机生成的语音输出再现或以其他方式输出给用户。信号发生器组件110能够将文本数据(例如,包括话语翻译的文本字符串)转换为计算机生成的语音,以便在客户端设备126处输出。
信号发生器组件110能够生成输出信号,该输出信号被配置为在多种介质或者基于音频的介质以外的其他介质中再现。例如,输出信号可以不包括计算机生成的语音输出,并且翻译字符串能够在客户端设备126的屏幕上再现为文本。信号发生器组件110能够生成中间输出信号。中间输出信号能够包括请求、指令或其他信息。例如,当向数据处理系统102提出翻译请求时,信号发生器组件110能够生成中间输出信号,包括在输出信号中提供所请求的翻译之前向用户与数字助理应用104交互的指令。
信号发生器组件110能够基于信号计数和对话计数来配置中间输出信号。信号计数能够指示当前对话中所包括的话语或输入音频信号的数目。对话计数能够指示用户已请求由数据处理系统102翻译的对话的数目。随着对话计数或信号计数增加,当用户习惯与数字助理应用104进行交互时,信号发生器组件110能够生成更短或更简洁的中间输出信号。
数据处理系统102能够包括一个或多个接口112。接口112能够被配置、构建或可操作为例如通过使用数据分组来接收并传输信息。接口112能够通过使用诸如网络协议的一个或多个协议来接收并传输信息。接口112能够包括硬件接口、软件接口、有线接口或无线接口。接口112能够促进将数据从一种格式转换或格式化成另一种格式。例如,接口112能够包括应用编程接口,该应用编程接口包括用于在诸如软件组件的各种组件之间进行通信的定义。
接口112能够是基于硬件的接口。例如,接口112能够是网络接口或输入/输出(I/O)接口。网络接口能够包括任何类型和形式的接口,包括:以太网,包括10BASE-T、100BASE-T或1000BASE-T(“千兆比特”);任何一种802.11无线,诸如802.11a、802.11b、802.11g、802.11n或802.11ac;蜂窝,包括CDMA、LTE、3G或4G蜂窝;蓝牙或其他近程无线连接;或者这些或其他接口的任意组合,用于与网络124进行通信。数据处理系统102能够包括不同类型的多个网络接口,允许经由不同的子网连接到各种网络,诸如因特网。
I/O接口能够是能够通过生成感官信息(例如,显示器上可视化、一个或多个声音、触觉反馈等)将数据传达给用户的任何电子设备。I/O接口能够将从用户接收的感官信息转换成电子信号(例如,键盘、鼠标、定点设备、触摸屏显示器、麦克风等)。接口112能够是图形界面,该图形界面使得用户能够与数据处理系统102交互或者以其他方式提供或接收来自数据处理系统102的数据。
数据处理系统102能够包括或以其他方式访问一个或多个翻译引擎106。例如,翻译引擎106能够由第二数据处理系统来提供,数据处理系统102经由网络124与该第二数据处理系统进行通信。翻译引擎106能够是将内容(例如,文本)从第一输入语言翻译成第二目标语言的应用、小程序、脚本、服务、守护进程、例程或其他可执行逻辑。
翻译引擎106能够利用一个或多个语言模型116来确定输入音频信号(或其文本字符串)中的口述话语的文本或其他语义表示。翻译引擎106能够包括用于不同语言的不同语言模型116。语言模型116中的每个语言模型能够对应于不同的语言。例如,第一语言模型116能够对应于英语,第二语言模型116能够对应于法语。翻译引擎106能够使用语言模型116将话语(或其文本)从输入语言翻译为目标(或输出)语言。语言模型116中的每个语言模型能够包括输入语言和输出语言。
语言模型116中的每个语言模型能够包括机器学习模型(例如,神经网络模型)或统计模型,用于确定与输入音频信号内的口述话语相对应的文本(或其他语义表示)。翻译引擎106能够使用语言模型116来识别输入音频信号的口述话语中的音素并且以与语言模型116相对应的语言来输出文本。
翻译引擎106能够将输入音频信号或文本字符串并行地传递到多个语言模型116。例如,当数据处理系统102接收到输入音频信号时,翻译引擎106能够将输入音频信号传递到第一和第二语言模型116两者。翻译引擎106能够基于处理输入音频信号的语言模型116中的每个语言模型来生成输入音频信号中所包含的话语的候选解释(例如,候选文本字符串)。翻译引擎106能够基于由评分引擎114生成的分值来确定使用其中哪个候选解释。例如,基于翻译置信分值,翻译引擎106能够确定是否应将文本字符串从英语翻译为法语或者从法语翻译为英语。
翻译引擎106能够包括一个或多个评分引擎114。评分引擎114能够是计算分值的应用、小程序、脚本、服务、守护进程、例程或其他可执行逻辑,该分值指示处理输入音频信号的准确度的置信水平。评分引擎114能够确定不同类型的分值。评分引擎114能够至少确定将话语转换为文本字符串的置信分值以及话语能够被转换为目标语言的好坏的置信分值。评分引擎114能够确定关于输入音频信号中的每个输入音频信号的置信分值和翻译分值。
评分引擎114能够计算关于每个输入音频信号的置信分值。置信分值能够指示基于输入音频信号内所包含的话语而生成的文本字符串的准确度的置信水平。评分引擎114能够计算关于每个输入音频信号的翻译置信分值。翻译分值能够指示文本字符串从第一语言翻译到第二目标语言的准确度。例如,包括不能从第一语言很好地翻译成第二语言的修辞的话语能够被给予低翻译置信分值。
数据处理系统102能够包括一个或多个数据存储库132。数据存储库132能够包括一个或多个本地数据库或分布式数据库。数据存储库132能够包括其中能够存储机器指令的存储器。当机器指令被数据处理系统102的处理器执行时,这些指令能够促使数据处理系统102执行本文所述的操作。处理器200能够包括微处理器、ASIC、FPGA或其他控制逻辑。处理器能够是多核处理器或处理器阵列。存储器能够包括但不限于电子、光学、磁性或能够向处理器提供程序指令的任何其他存储设备。存储器能够包括软盘、CD-ROM、DVD、磁盘、存储器芯片、ROM、RAM、EEPROM、EPROM、闪存、光学介质或处理器200能够从中读取指令的任何其他合适的存储器。指令能够包括来自任何合适的计算机编程语言的代码,诸如但不限于C、C++、C#、Java、JavaScript、Perl、HTML、XML、Python和Visual Basic。
数据处理系统102能够将一个或多个语法集118、信号计数120和对话计数122存储在数据存储库132中。语法集118能够是包含描述语言结构的规则的数据结构。数据存储库132能够包括用于语言模型116中的每个语言模型的不同语法集118。数据存储库132能够包括上下文特定的语法集118。数据存储库132能够包括语言模型116或NLP组件108当处理或生成预定域内的话语时能够使用的语法集118。例如,当话语包括多个医学术语时,NLP组件108能够选择医学特定的语法集118。
数据存储库132能够包括一个或多个存储信号计数120的数据结构。当数据处理系统102接收到输入音频信号时,数字助理应用104能够将文本字符串存储在数据存储库132内的数据结构中。输入音频信号能够是对话中的轮次。关于每个对话,数据处理系统102能够生成对话标识符122。数据处理系统102能够将文本字符串与对话标识符122相关联地存储在数据存储库132中。对于每个文本字符串,数据处理系统102也能够存储信号计数或轮次标识符。信号计数120能够指示文本字符串在对话中的顺序位置。在对话期间,数据处理系统102能够跟踪或确定作为一部分对话接收到的输入音频信号的数目并且将该计数存储为信号计数120。数据处理系统102能够标识对话标识符122在数据存储库132中的唯一编号并且能够确定数据处理系统102已经针对给定客户端设备126处理的对话数目。信号发生器组件110能够基于信号计数120来生成输出信号。信号发生器组件110能够基于数据处理系统102已经针对给定客户端设备126处理的对话数目来生成输出信号。例如,关于第一对话,信号发生器组件110能够生成包括相对较长和描述性指令的输出信号。随着对话数目增加,并且用户习惯与客户端设备126的交互,信号发生器组件110能够减弱指令。
数据处理系统102能够以预定间隔重置信号计数120和对话标识符122。例如,数据处理系统102能够以基于时间的规则(例如,每周、每月或每年)或基于事件的规则(例如,在对话结束之后或在新用户与客户端设备126相关联之后)为基础重置信号计数120和对话标识符122。基于时间的规则能够是基于不活动的时长。例如,数据处理系统102能够在不活动的预定时长之后重置对话标识符122,以便能够在不活动时间之后向用户提供指令。
系统100可包括一个或多个客户端设备126。客户端设备126能够例如为客户端设备126的一个或多个用户提供翻译服务。客户端设备126可以包括或可以不包括显示器。例如,客户端设备126可以包括有限类型的用户接口,诸如麦克风和扬声器(例如,客户端设备126能够包括语音驱动或基于音频的接口)。客户端设备126的主用户接口能够包括传感器130(例如,麦克风)和扬声器128。
客户端设备126能够包括一个或多个传感器130或以其他方式与之交互。传感器130能够例如包括照相机、环境光传感器、接近传感器、温度传感器、加速计、陀螺仪、运动检测器、GPS传感器、位置传感器、麦克风、视频传感器、图像检测传感器、触摸传感器或者它们的任意组合。传感器130能够是检测由客户端设备126的用户产生的话语的麦克风。数字助理应用104能够将话语转换为输入音频信号,该输入音频信号从客户端设备126传输到数据处理系统102。客户端设备126能够包括一个或多个扬声器128。客户端设备126能够经由扬声器128将来自数据处理系统102的输出信号再现给用户。
客户端设备126能够包括数字助理应用104的实例。数字助理应用104能够由客户端设备126的一个或多个处理器来执行。在客户端设备126处执行的数字助理应用104能够是在数据处理系统102处执行的数字助理应用104的实例。客户端设备的数字助理应用104能够执行与数据处理系统的数字助理应用104相关描述的任何功能。能够从另一个应用内激活数字助理应用104。例如,用户能够在视频会议应用内激活数字助理应用104,以向视频会议应用提供翻译服务。
数字助理应用104能够将由扬声器128检测到的模拟音频信号转换为数字输入音频信号并且将携带输入音频信号的一个或多个数据分组传输到数据处理系统102。数字助理应用104能够对输入音频信号执行预滤波或预处理。数字助理应用104能够对输入音频信号进行预滤波或预处理,以去除输入音频信号的音频、噪声或其他分量的某些频率。预滤波能够包括滤波器,诸如低通滤波器、高通滤波器或带通滤波器。滤波器能够被应用于频域。能够通过使用数字信号处理技术来应用滤波器。滤波器能够被配置为保持对应于人类声音或人类语音的频率,同时消除超出人类语音的典型频率的频率。例如,带通滤波器能够被配置为去除低于第一阈值(例如,70Hz、75Hz、80Hz、85Hz、90Hz、95Hz、100Hz或105Hz)并且高于第二阈值(例如,200Hz、205Hz、210Hz、225Hz、235Hz、245Hz或255Hz)的频率。应用带通滤波器能够降低下游处理中的计算资源利用。数字助理应用104能够在将输入音频信号传输到数据处理系统102之前应用带通滤波器,从而降低网络带宽利用。
数字助理应用104能够应用附加的预处理或预滤波技术,诸如降噪技术,以减少可能干扰自然语言处理器的环境噪声水平。降噪技术能够提高自然语言处理器的准确度和速度,从而提高数据处理系统102的性能。
客户端设备126能够包括一个或多个接口112。接口112能够是使得客户端设备126的组件能够与系统100的其他组件进行通信的数据接口、硬件接口、软件接口、图形界面或网络接口。接口104能够在客户端设备126与数据处理系统102之间提供或传输包括输入音频信号和输出信号的一个或多个数据分组。
图2示出通过使用图1所示的系统生成基于语音的接口的示例方法的框图。方法200能够包括接收输入信号(动作202)。方法200能够包括生成输入字符串(动作204)。方法200能够包括确定一个或多个置信分值(动作206)。方法200能够包括生成一个或多个翻译字符串(动作208)。方法200能够包括确定一个或多个翻译分值(动作210)。方法200能够包括选择翻译字符串(动作212)。方法200能够包括生成输出信号(动作214)。方法200能够包括传输输出信号(动作216)。
方法200能够包括接收输入信号(动作202)。又参照图1,方法200尤其能够包括接收第一输入音频信号。数据处理系统102能够在接口112处接收第一输入音频信号。客户端设备126能够使用传感器130来检测用户产生的话语。客户端设备126能够将话语数字化为输入音频信号并且将该输入音频信号传输到数据处理系统102。客户端设备126能够将输入音频信号作为多个数字化分组经由网络124传输到数据处理系统102。第一输入音频信号能够是与客户端设备126的基于语音的对话交互中的第一话语。第一输入音频信号能够包括提供翻译服务的请求。
例如,还参照图3,该图中示出生成基于语音的接口的流程图,第一用户300(1)能够向客户端设备126讲出话语。除非话语以客户端设备126的激活或唤醒词开始,例如“okay(确认)”,客户端设备126能够忽略话语。客户端设备126能够数字化来自用户300(1)的话语并且生成输入音频信号302。客户端设备126的用户也能够将客户端设备126设置成环境翻译模式,使得客户端设备126能够将话语转换为输入音频信号,而无需用户特别要调用或激活客户端设备126。客户端设备能够将话语转换为输入音频信号,直到用户结束环境翻译模式。
方法200能够包括生成输入字符串(动作204)。数据处理系统102的NLP组件108能够接收第一输入音频信号。NLP组件108能够将第一输入音频信号内的语音转换成文本的输入字符串。如图3所示,数据处理系统102能够将输入音频信号302转换成输入字符串304。
方法200能够包括确定置信分值(动作206)。NLP组件108和评分引擎114能够确定指示第一输入字符串的准确度的置信分值。例如,置信分值能够指示NLP组件的语音辨识系统准确地理解输入音频信号内语音的置信水平。置信分值能够是0%和100%置信之间的分值。置信分值能够是相对排名,诸如高置信度、中置信度或低置信度的指示。
例如,如果输入音频信号包括话语“do you have time for lunch today(您今天有时间吃午饭吗)”,并且数据处理系统的语音辨识系统将输入音频信号转换成输入字符串“dew yah have time fr launch tooth bae”,则评分引擎114能够将低置信分值分配给该输入字符串。
数据处理系统102的信号发生器组件110能够生成中间输出信号。中间输出信号能够是在用户的会话轮次之间生成的输出信号。数据处理系统102能够将中间信号传输到客户端设备126,该客户端设备能够经由扬声器128将输出信号再现给用户。中间输出信号能够包括对附加信息、口头指令或确认的请求。
信号发生器组件110能够基于在动作206所生成的置信分值来生成中间输出信号。例如,如果置信分值低(或低于预定阈值),则信号发生器组件110能够生成向用户指示未正确听到第一输入音频信号中的话语并且请求更新的输入音频信号(例如,请求复述第一输入音频信号中所包含的话语)的中间输出信号。如果置信分值低于预定阈值,则数据处理系统102能够丢弃输入字符串。数据处理系统102能够丢弃输入字符串并且等待数据处理系统能够响应于中间输出信号而接收的附加输入音频信号。例如,数据处理系统102能够确定第一输入字符串具有低于预定阈值的置信分值。数据处理系统102能够生成包括用户复述或改述第一输入字符串中的话语的请求的中间输出信号。然后,数据处理系统102能够响应于中间输出信号而丢弃第一输入字符串并且处理传输到数据处理系统102的输入音频信号。
如果置信分值是中置信分值,则信号发生器组件110能够生成包括输入字符串的中间输出信号。例如,包括输入字符串的中间输出信号能够被传输到客户端设备126并且再现给用户,以确认第一输入音频信号中的话语被正确地转换为文本。如果置信分值高或高于预定阈值,则数据处理系统102能够继续生成一个或多个翻译字符串而无需生成中间输出信号。
方法200能够包括生成一个或多个翻译字符串(动作208)。例如,还参照图3,翻译引擎106能够传递输入字符串304经过第一语言模型116(1)生成第一翻译字符串306(1)并且经过第二语言模型116(2)生成第二翻译字符串306(2)。
翻译引擎106能够用多个语言模型116(例如,语言模型116(1)和语言模型116(2))处理输入字符串304。翻译引擎106能够同时用第一语言模型116(1)和第二语言模型116(2)处理输入字符串304。翻译引擎106能够用两个语言模型116处理输入字符串304,以使得用户300能够不按照轮次讲话。例如,不强制执行基于轮次的对话。
语言模型116能够是用于在语言之间进行翻译的语言模型。翻译引擎106能够使用语言模型116中的一个语言模型将第一语言翻译为第二语言并且使用第二语言模型116将第二语言翻译为第一语言。例如,语言模型116(2)能够从用户300(1)的语言翻译为用户300(2)的语言,语言模型116(1)能够从用户300(2)的语言翻译为用户300(1)的语言。
翻译引擎106能够自动选择要使用的语言模型116,或者用户能够指定要使用的语言模型116。例如,在输入音频信号中,用户300(1)可以说“okay,translate betweenEnglish and French(确认在英语与法语之间翻译)”。NLP组件108能够识别输入音频信号中的词语“English(英语)”和“French(法语)”并且能够指令翻译引擎106选择用于英语与法语之间翻译的语言模型116和用于法语与英语之间翻译的语言模型116。
翻译引擎106能够通过自动识别用户300(1)和用户300(2)的语言来自动选择语言模型116。例如,数据处理系统102能够将语言与用户300中的每个用户相关联,这是通过识别用户语音的基本频率来识别用户300,然后基于用户的偏好语言来选择语言模型116。
翻译引擎106能够解析输入字符串304并且将输入字符串304的解析部分发送到语言模型116中的每个语言模型。例如,翻译引擎106能够解析输入字符串304以在原始输入字符串304中的每个中断(例如,逗号、句号或分号)处将输入字符串304分解成多个输入字符串。翻译引擎106能够将多个输入字符串中的每个输入字符串提供给语言模型116,以检测单个用户可以在用两种不同语言讲话之间切换的情况。
参照图2,方法200能够包括确定翻译分值(动作210)。翻译引擎106能够确定关于翻译字符串306中的每个翻译字符串的翻译分值。翻译分值能够指示第一输入音频信号包括语言与相应语言模型116中的每个语言模型的输入语言相关联的话语的可能性。例如,如果输入字符串是英语,则通过传递输入字符串经过英语到法语语言模型所生成的翻译字符串的翻译分值与通过传递输入字符串经过法语到英语语言模型所生成的翻译字符串的翻译分值相比相对较高。
评分引擎114能够通过对翻译字符串与输出语法集进行比较或处理来确定翻译分值。例如,评分引擎114能够通过确定哪个语法集最符合翻译字符串的结构来确定目标输出语言。
翻译引擎106也能够确定指示输入字符串到翻译字符串的翻译准确度的翻译分值。翻译准确度的翻译分值能够又称为翻译置信分值。翻译置信分值能够指示输入字符串中的一个或多个短语翻译成目标语言的语言的好坏。例如,包括习语或修辞的输入字符串能够被逐字翻译,并且该翻译可能不会传达原始讲话者欲表达的含义。翻译引擎106能够将低翻译置信分值分配给从该输入字符串所生成的翻译字符串。
当翻译引擎106将低翻译置信分值分配给翻译字符串时,信号发生器组件110能够基于低翻译置信分值来生成中间输出信号。例如,当翻译置信分值低于预定阈值时,信号发生器组件110能够生成中间输出信号。中间输出信号能够包括对改述第一输入音频信号中的话语的请求。例如,中间输出信号能够包括对用户不用修辞复述话语的请求。
方法200能够包括选择翻译字符串(动作212)。翻译引擎106能够基于翻译字符串的翻译分值来选择翻译字符串。如上所述,输入字符串能够通过具有输入语言A和输出语言B的第一语言模型以及具有输入语言B和输出语言A的第二语言模型来处理。输入语言与输入字符串的语言相匹配的语言模型将生成翻译分值更高的翻译字符串。参照图3,除其他之外,翻译引擎106能够将翻译字符串306和翻译字符串306(2)的翻译分值进行比较。翻译引擎106能够确定翻译字符串306(2)具有更高的翻译分值并且能够选择翻译字符串306(2)包括在输出信号308中。
方法200能够包括生成输出信号(动作214)。信号发生器组件110能够基于在动作212所选择的翻译字符串来生成输出信号。信号发生器组件110能够通过使用文本转语音系统处理翻译字符串来生成输出信号,以例如生成包括计算机生成的讲出翻译字符串的语音的音频文件。
方法200能够包括传输输出信号(动作216)。方法200能够包括将来自数据处理系统102的输出信号传输到客户端设备126。如图3所示,输出信号308能够被传输到客户端设备126。客户端设备126能够将输出信号再现为用户300(2)能够听到的输出音频信号310。输出音频信号中所包括的话语能够是输入音频信号中的话语的翻译。输出音频信号能够包括输入音频信号中从用户300(1)的语言翻译成用户300(2)的语言的话语。
输入音频信号中所包含的话语能够是用户300(1)与用户300(2)之间的对话中的单个轮次。客户端设备126针对作为用户300之间一部分对话的附加输入音频信号重复方法200的步骤。用户300能够轮流向客户端设备126提供话语。给定用户能够向客户端设备126提供多个输入音频信号。例如,用户300(1)能够向客户端设备126提供话语,之后用户300(2)向客户端设备126提供话语。
随着用户300之间的对话继续进行,数据处理系统102能够对在对话或会话期间接收到的输入音频信号的数目进行计数。信号发生器组件110能够基于对输入音频信号的数目的计数来生成中间输出信号。例如,当输入音频信号计数低时(指示会话或对话刚刚开始),信号发生器组件110能够生成中间输出信号,该中间输出信号能够包括指令、提示或其他信息。例如,当对话首次开始时的中间输出信号能够包括输出短语“Should I explainto the other person how the translation service works?(我应该向他人解释翻译服务如何工作吗?)”。
中间输出信号的长度或详细程度能够是基于输入音频信号的计数。例如,随着对话中输入音频信号的计数增加,中间输出信号的长度能够减短。在一个示例中,当输入音频信号的计数低时,信号发生器组件110能够生成中间输出信号,该中间输出信号包括指示客户端设备126准备接收下一话语的短语。例如,中间输出信号能够包括“Okay,I’m ready totranslate(确认我准备好翻译了)”。随着输入音频信号的计数增加,中间输出信号能够缩短为只是指示客户端设备126准备接收来自用户的话语的提示音。
中间输出信号的长度或详细程度能够是基于对话计数。例如,当对话计数低时,指示当前翻译的对话是由数据处理系统102针对给定用户翻译的第一对话中的一个对话,信号发生器组件110能够生成更长的中间输出信号。例如,对于翻译的初始对话中的一个对话(对话计数低),数据处理系统102能够响应于激活提供指令,诸如“Hi,I’m going to helptranslate your conversation.If I don’t understand something you say,I’ll askyou to repeat what you said.Otherwise,just speak normally,and I’ll do my bestto translate you.(嗨,我将帮助翻译您的对话。如果我听不懂您讲的话,我会请您再说一遍。否则,请正常讲话,我会尽力为您翻译)”。随着对话计数增加,数据处理系统102能够针对激活指令生成更短的中间输出信号。例如,在预定数目的对话之后,激活后提供的指令能够是“Hi,I’m going to translate your conversation(嗨,我将翻译您的对话)”。
图4是示例计算机系统400的框图。计算机系统或计算设备400能够包括或被用于实现系统100或其组件诸如数据处理系统102。计算系统400包括用于对信息进行通信的总线405或其他通信组件以及耦合到总线405以处理信息的处理器410或处理电路。计算系统400也能够包括耦合到总线以处理信息的一个或多个处理器410或处理电路。计算系统400也包括耦合到总线405以存储信息和待由处理器410执行的指令的主存储器415,诸如随机存取存储器(RAM)或其他动态存储设备。主存储器415能够是或包括数据存储库132。在由处理器410执行指令期间,主存储器415也能够被用于存储位置信息、临时变量或其他中间信息。计算系统400可以进一步包括耦合到总线405以存储用于处理器410的静态信息和指令的只读存储器(ROM)420或其他静态存储设备。诸如固态设备、磁盘或光盘的存储设备425能够耦合到总线405以永久性存储信息和指令。存储设备425能够包括数据存储库132或是其一部分。
计算系统400可以经由总线405耦合到显示器435,诸如液晶显示器或主动矩阵显示器,以将信息显示给用户。诸如包括字母数字键和其他键的键盘的输入设备430可以耦合到总线405,以将信息和命令选择通信至处理器410。输入设备430能够包括触摸屏显示器435。输入设备430也能够包括光标控件,例如鼠标、跟踪球或光标方向键,以将方向信息和命令选择通信到处理器410并且控制显示器435上的光标移动。显示器435能够是例如图1中的数据处理系统102、客户端设备126或另一个组件的一部分。
本文所述的过程、系统和方法能够通过计算系统400响应于处理器410执行包含在主存储器415中的指令的装置来实现。能够从诸如存储设备425的另一个计算机可读介质将这样的指令读入主存储器415。执行包含在主存储器415中的指令的装置促使计算系统400执行本文所述的说明性过程。也可以采用多处理装置中的一个或多个处理器来执行包含在主存储器415中的指令。硬接线电路能够代替或组合软件指令与本文所述的系统和方法一起使用。本文所述的系统和方法不限于硬件电路和软件的任何特定组合。
虽然图4中描述了示例计算系统,但包括本说明书中描述的操作的主题能够以包括本说明书中公开的结构及它们的等同结构的其他类型的数字电子电路或者计算机软件、固件或硬件或者它们中一个或多个的组合来实现。
针对本文讨论的系统收集有关用户的个人信息或者可以利用个人信息的情况,可以为用户提供控制是否可以收集个人信息(例如,有关用户社交网络、社交动作或活动、用户偏好或用户位置的信息)的程序或特征或者控制是否或如何从内容服务器或与用户更相关的其他数据处理系统接收内容的机会。此外,某些数据可以在存储或使用之前以一种或多种方式匿名化,以便当生成参数时删除个人身份信息。例如,用户的身份可以被匿名化,以便无法针对该用户确定任何个人可识别信息,或者在获得位置信息的情况下,用户的地理位置可以被概括化(诸如城市、邮政编码或州级),以便无法确定用户的特殊位置。因此,用户可以控制如何收集有关他或她的信息以及如何供内容服务器使用。
本说明书中描述的主题和操作能够以包括本说明书中公开的结构及它们的等同结构的数字电子电路或者计算机软件、固件或硬件或者它们中的一个或多个的组合来实现。本说明书中描述的主题能够被实现为一个或多个计算机程序,例如,在供数字处理装置执行或控制其操作的一个或多个计算机存储介质上编码的一个或多个计算机程序指令的电路。替选地或附加地,程序指令能够被编码在人工生成的传播信号上,例如,机器生成的电信号、光信号或电磁信号,所述信号被生成用来编码信息以便传输到合适的接收器装置,以供数据处理装置执行。计算机存储介质能够是计算机可读存储设备、计算机可读存储基质、随机或串行存取存储器阵列或设备或者它们中一个或多个的组合,或者被包括于其中。虽然计算机存储介质并非传播信号,但计算机存储介质能够是以人工生成的传播信号编码的计算机程序指令的源或目的地。计算机存储介质也能够是一个或多个单独的组件或介质(例如,多个CD、磁盘或其他存储设备),或者被包含于其中。本说明书中描述的操作能够被实现为由数据处理装置对存储在一个或多个计算机可读存储设备上或从其他源接收的数据执行的操作。
术语“数据处理系统”、“计算设备”、“组件”或“数据处理装置”涵盖用于处理数据的各种装置、设备和机器,例如包括可编程处理器、计算机、一个或多个片上系统或者上述的组合。该装置能够包括专用逻辑电路,例如,FPGA(现场可编程门阵列)或ASIC(专用集成电路)。除硬件之外,该装置也能够包括为上述计算机程序创建执行环境的代码,例如,构成处理器固件、协议栈、数据库管理系统、运算系统、跨平台运行时环境、虚拟机或者它们中一个或多个的组合的代码。装置和执行环境能够实现各种不同的计算模型基础结构,诸如web服务、分布式计算和网格计算基础结构。系统100的组件能够包括或共享一个或多个数据处理装置、系统、计算设备或处理器。
计算机程序(又称为程序、软件、软件应用、app、脚本或代码)能够以任何形式的编程语言来编写,包括编译语言或解释语言和声明性语言或过程性语言,并且能够以任何形式来部署,包括作为独立程序或者作为模块、组件、子例程、对象或者适用于计算环境的其他单元。计算机程序能够对应于文件系统中的文件。计算机程序能够被存储在保存其他程序或数据的文件的部分中(例如,存储在标记语言文档中的一个或多个脚本)、专用于上述程序的单个文件中或者多个协同文件中(例如,存储一个或多个模块、子程序或代码部分的文件)。计算机程序能够被部署成在位于一个站点或跨多个站点分布并通过通信网络互联的一台计算机上或者多台计算机上执行。
本说明书中描述的过程和逻辑流程能够由执行一个或多个计算机程序的一个或多个可编程处理器(例如,数据处理系统102的组件)来执行,以通过对输入数据进行操作并且生成输出来执行动作。过程和逻辑流程也能够由例如FPGA(现场可编程门阵列)或ASIC(专用集成电路)的专用逻辑电路来执行,并且装置也能够被实现为该专用逻辑电路。适于存储计算机程序指令和数据的设备包括所有形式的非易失性存储器、介质和存储器设备,例如包括:半导体存储器设备,例如,EPROM、EEPROM和闪存设备;磁盘,例如,内置硬盘或可移动盘;磁光盘;以及CD ROM盘和DVD-ROM盘。处理器和存储器能够辅以专用逻辑电路或并入其中。
本文所述的主题能够以计算系统来实现,该计算系统包括后端组件,例如,数据服务器,或者该计算系统包括中间件组件(例如,应用服务器),或者该计算系统包括前端组件(例如,具有用户能够借以与本说明书所述主题的实施方式相交互的图形用户界面或web浏览器的客户端计算机),或者这样的后端组件、中间件组件或前端组件的组合。系统的组件能够通过数字数据通信的任何形式或者媒介来互联,例如,通信网络。通信网络的示例包括局域网(“LAN”)、广域网(“WAN”)、互联网(例如,因特网)和点对点网络(例如,ad hoc点对点网络)。
诸如系统100或系统400的计算系统能够包括客户端和服务器。客户端与服务器一般彼此远离并且通常通过通信网络(例如,网络124)来进行交互。客户端与服务器的关系借助在相应计算机上运行并且彼此具有客户端-服务器关系的计算机程序来实现。在一些实施方式中,服务器将数据(例如,表示内容项的数据分组)传输到客户端设备(例如,出于向与客户端设备交互的用户显示数据并且从该用户接收用户输入的目的)。能够在服务器处从客户端设备接收(例如,由数据处理系统102从客户端设备126接收)在客户端设备处生成的数据(例如,用户交互的结果)。
所述系统可以包括:接口,其接收由客户端设备的传感器检测到的第二输入音频信号;自然语言处理器组件,其确定基于第二输入音频信号所生成的第二输入字符串的第二置信分值;以及信号发生器组件,其基于第二置信分值来生成中间输出信号。中间输出信号可以包括对更新的输入音频信号的请求。中间输出信号可以包括对第二输入音频信号的确认。翻译引擎可以:用第一语言模型生成第一翻译字符串;以及用第二语言模型生成第二翻译字符串。第一翻译分值和第二翻译分值可以指示第一输入音频信号能够包括第一语言的话语的可能性。信号发生器组件可以:基于第一翻译分值和第二翻译分值中的至少一个低于第二预定阈值来生成中间输出信号。中间输出信号可以包括对改述第一输入音频信号中的话语的请求。所述系统可以包括:自然语言处理器组件,其基于输入音频信号来确定输出语法集;翻译引擎,其基于输出语法集与第一翻译字符串的比较来确定第一翻译分值;以及翻译引擎,其基于输出语法集与第二翻译字符串的比较来确定第二翻译分值。数据处理系统可以:基于与数据处理系统的交互次数来生成对话计数;以及基于对话计数来生成中间输出信号。所述系统能够包括:数据处理系统,其基于在与数据处理系统的对话会话期间接收到的多个输入音频信号来生成输入音频信号计数;以及信号发生器组件,其基于输入音频信号计数来生成中间输出信号。
所述方法可以包括:在接口处,接收由客户端设备的传感器检测到的第二输入音频信号;通过自然语言处理器组件,确定基于第二输入音频信号所生成的第二输入字符串的第二置信分值;以及通过信号发生器组件,基于第二置信分值来生成中间输出信号。中间输出信号可以包括对更新的输入音频信号的请求。所述方法可以包括:通过翻译引擎,用第一语言模型生成第一翻译字符串;以及通过翻译引擎,用第二语言模型生成第二翻译字符串。第一翻译分值和第二翻译分值可以指示第一输入音频信号能够包括第一语言的话语的可能性。所述方法可以包括:通过信号发生器组件,基于第一翻译分值和第二翻译分值中的至少一个低于第二预定阈值来生成中间输出信号,其中,中间输出信号能够包括对改述第一输入音频中的话语的请求。所述方法可以包括:通过自然语言处理器组件,基于输入音频信号来确定输出语法集;通过翻译引擎,基于输出语法集与第一翻译字符串的比较来确定第一翻译分值;以及通过翻译引擎,基于输出语法集与第二翻译字符串的比较来确定第二翻译分值。所述方法可以包括:通过数据处理系统,基于与数据处理系统的交互次数来生成对话计数;以及通过信号发生器组件,基于对话计数来生成中间输出信号。所述方法可以包括:通过数据处理系统,基于在与数据处理系统的对话会话期间接收到的多个输入音频信号来生成输入音频信号计数;以及通过信号发生器组件,基于输入音频信号计数来生成中间输出信号。
虽然在附图中以特定顺序描绘了操作,但不要求以所示的特定顺序或者以序列顺序执行这样的操作,并且不要求执行全部示出的操作。本文所述的动作能够以不同的顺序执行。
各种系统组件的分立不要求在全部实施方式中都分立,并且所述的程序组件能够被包含在单个硬件或软件产品中。例如,NLP组件108能够是单个组件、app或程序,或者是具有一个或多个处理电路的逻辑设备,或者是数据处理系统102的一个或多个服务器中的一部分。
现已描述了一些说明性实施方式,显然,上述内容为说明性而非限制性并且已举例说明。特别地,虽然本文呈现的许多示例涉及方法动作或系统元素的特定组合,但那些动作和那些元素可以其他方式组合以实现相同的目标。所讨论的动作、元素和特征与一种实施方式组合并非旨在排除其他实施方式或实施例中的相似功能。
本文所用的短语和术语是出于描述目的,而不应视为限制性。本文中使用“包含”、“包括”、“具有”、“含有”、“涉及”、“其特征是”、“其特征在于”及它们的变形旨在涵盖其后列举的项目、其等同方案和附加项目以及由其后列举的项目排他性组成的替选实施方式。在一种实施方式中,本文所述的系统和方法由所述元素、动作或组件中的一个、一个以上的每种组合或其全体组成。
对本文中系统和方法的实施方式或元素或动作以单数形式提及的任何引用也可以涵盖包括多个这些元素的实施方式,并且对本文中任何实施方式或元素或动作以复数形式的任何引用也可以涵盖仅包含单个元素的实施方式。单数或复数形式的引用并非旨在将本发明公开的系统或方法或者它们的组件、动作或元素限制为单个或多个配置。对基于任何信息、动作或元素的任何动作或元素的引用可以包括该动作或元素至少部分地基于任何信息、动作或元素的实施方式。
本文公开的任何实施方式可以与任何其他实施方式或实施例组合,并且对“一种实施方式”、“一些实施方式”、“一个实施方式”等的引用并非必然互斥并且旨在指示结合该实施方式描述的特定特征、结构、特点可以被包含在至少一个实施方式或实施例中。这样如本文所用的术语并非必然全部指代相同的实施方式。任何实施方式可以包含性或排他性以符合本文公开的方面和实施方式的任何方式与任何其他实施方式组合。
对“或”的引用可以解释为包含性,从而使用“或”描述的任何术语可以指示单个、一个以上和全部所述术语中的任何一个。例如,对“A和B中的至少一个”的引用能够仅包括“A”或仅包括“B”以及既包括“A”也包括“B”。这类结合“包括”或其他开放式术语使用的引用能够包括附加项目。
在附图、具体描述或任何权利要求中的技术特征后标有附图标记的情况下,包含了这些附图标记来提高对附图、具体描述和权利要求的理解性。相应地,有无附图标记不会对任何权利要求要素的范围存在任何限制作用。
本文所述的系统和方法可以其他特定形式来体现,而不脱离其特征。上述实施方式为说明性,而不限制所述的系统和方法。因此,本文所述的系统和方法的范围由所附权利要求而非上述描述来指定,并且权利要求的等同含义和范围内的更改被涵盖于其中。

Claims (20)

1.一种生成基于语音的接口的系统,包括数据处理系统,所述数据处理系统包括存储器以及执行自然语言处理器组件、翻译引擎和信号发生器组件的一个或多个处理器,所述系统用于:
在所述数据处理系统的接口处,接收由客户端设备的传感器检测到的第一输入音频信号;
通过自然语言处理器组件,基于所述第一输入音频信号来生成第一输入字符串;
通过所述自然语言处理器组件,确定指示所述第一输入字符串的准确度的第一置信分值;
通过翻译引擎,基于所述第一置信分值高于预定阈值并从所述第一输入字符串生成第一翻译字符串和第二翻译字符串;
通过所述翻译引擎,确定指示所述第一翻译字符串的准确度的所述第一翻译字符串的第一翻译分值和指示所述第二翻译字符串的准确度的所述第二翻译字符串的第二翻译分值;
通过所述翻译引擎,基于所述第一翻译分值和所述第二翻译分值来选择所述第一翻译字符串;
通过所述信号发生器组件,从所述第一翻译字符串生成输出音频信号;以及
通过所述接口,将所述输出音频信号传输到所述客户端设备以再现所述输出音频信号。
2.根据权利要求1所述的系统,包括:
所述接口,所述接口用于接收由所述客户端设备的所述传感器检测到的第二输入音频信号;
所述自然语言处理器组件,所述自然语言处理器组件用于确定基于所述第二输入音频信号所生成的第二输入字符串的第二置信分值;以及
所述信号发生器组件,所述信号发生器组件用于基于所述第二置信分值来生成中间输出信号。
3.根据权利要求2所述的系统,其中,所述中间输出信号包括对更新的输入音频信号的请求。
4.根据权利要求2所述的系统,其中,所述中间输出信号包括对所述第二输入音频信号的确认。
5.根据前述权利要求中任一项所述的系统,包括所述翻译引擎,用于:
用第一语言模型生成所述第一翻译字符串;以及
用第二语言模型生成所述第二翻译字符串。
6.根据前述权利要求中任一项所述的系统,其中,所述第一翻译分值和所述第二翻译分值指示所述第一输入音频信号包括第一语言的话语的可能性。
7.根据前述权利要求中任一项所述的系统,包括所述信号发生器组件,用于:
基于所述第一翻译分值和所述第二翻译分值中的至少一个低于第二预定阈值来生成中间输出信号。
8.根据权利要求7所述的系统,其中,所述中间输出信号包括对改述所述第一输入音频信号中的话语的请求。
9.根据前述权利要求中任一项所述的系统,包括:
所述自然语言处理器组件,所述自然语言处理器组件用于基于所述输入音频信号来确定输出语法集;
所述翻译引擎,所述翻译引擎用于基于所述输出语法集与所述第一翻译字符串的比较来确定所述第一翻译分值;以及
所述翻译引擎用于基于所述输出语法集与所述第二翻译字符串的比较来确定所述第二翻译分值。
10.根据前述权利要求中任一项所述的系统,包括所述数据处理系统,用于:
基于与所述数据处理系统的交互次数来生成对话计数;以及
基于所述对话计数来生成中间输出信号。
11.根据前述权利要求中任一项所述的系统,包括:
所述数据处理系统,所述数据处理系统用于基于在与所述数据处理系统的对话会话期间接收到的多个输入音频信号来生成输入音频信号计数;以及
所述信号发生器组件,所述信号发生器组件用于基于所述输入音频信号计数来生成中间输出信号。
12.一种生成基于语音的接口的方法,包括:
在数据处理系统的接口处,接收由客户端设备的传感器检测到的第一输入音频信号;
通过自然语言处理器组件,基于所述第一输入音频信号来生成第一输入字符串;
通过所述自然语言处理器组件,确定指示所述第一输入字符串的准确度的第一置信分值;
通过翻译引擎,基于所述第一置信分值高于预定阈值并从所述第一输入字符串生成第一翻译字符串和第二翻译字符串;
通过所述翻译引擎,确定指示所述第一翻译字符串的准确度的所述第一翻译字符串的第一翻译分值和指示所述第二翻译字符串的准确度的所述第二翻译字符串的第二翻译分值;
通过所述翻译引擎,基于所述第一翻译分值和所述第二翻译分值来选择所述第一翻译字符串;
通过所述信号发生器组件,从所述第一翻译字符串生成输出音频信号;以及
通过所述接口,将所述输出音频信号传输到所述客户端设备以再现所述输出音频信号。
13.根据权利要求12所述的方法,包括:
在所述接口处,接收由所述客户端设备的所述传感器检测到的第二输入音频信号;
通过所述自然语言处理器组件,确定基于所述第二输入音频信号所生成的第二输入字符串的第二置信分值;以及
通过所述信号发生器组件,基于所述第二置信分值来生成中间输出信号。
14.根据权利要求13所述的方法,其中,所述中间输出信号包括对更新的输入音频信号的请求。
15.根据权利要求12至14中任一项所述的方法,包括:
通过所述翻译引擎,用第一语言模型生成所述第一翻译字符串;以及
通过所述翻译引擎,用第二语言模型生成所述第二翻译字符串。
16.根据权利要求12至15中任一项所述的方法,其中,所述第一翻译分值和所述第二翻译分值指示所述第一输入音频信号包括第一语言的话语的可能性。
17.根据权利要求12至16中任一项所述的方法,包括:
通过所述信号发生器组件,基于所述第一翻译分值和所述第二翻译分值中的至少一个低于第二预定阈值来生成中间输出信号,其中,所述中间输出信号包括对改述所述第一输入音频中的话语的请求。
18.根据权利要求12至17中任一项所述的方法,包括:
通过所述自然语言处理器组件,基于所述输入音频信号来确定输出语法集;
通过所述翻译引擎,基于所述输出语法集与所述第一翻译字符串的比较来确定所述第一翻译分值;以及
通过所述翻译引擎,基于所述输出语法集与所述第二翻译字符串的比较来确定所述第二翻译分值。
19.根据权利要求12至18中任一项所述的方法,包括:
通过所述数据处理系统,基于与所述数据处理系统的交互次数来生成对话计数;以及
通过所述信号发生器组件,基于所述对话计数来生成中间输出信号。
20.根据权利要求12至19中任一项所述的方法,包括:
通过所述数据处理系统,基于在与所述数据处理系统的对话会话期间接收到的多个输入音频信号来生成输入音频信号计数;以及
通过所述信号发生器组件,基于所述输入音频信号计数来生成中间输出信号。
CN201980002146.0A 2018-12-14 2019-02-06 用于联网系统的基于语音的接口 Active CN111742364B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410970673.3A CN118711577A (zh) 2018-12-14 2019-02-06 用于联网系统的基于语音的接口

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201862779927P 2018-12-14 2018-12-14
US62/779,927 2018-12-14
PCT/US2019/016867 WO2020122972A1 (en) 2018-12-14 2019-02-06 Voice-based interface for a networked system

Related Child Applications (1)

Application Number Title Priority Date Filing Date
CN202410970673.3A Division CN118711577A (zh) 2018-12-14 2019-02-06 用于联网系统的基于语音的接口

Publications (2)

Publication Number Publication Date
CN111742364A true CN111742364A (zh) 2020-10-02
CN111742364B CN111742364B (zh) 2024-08-06

Family

ID=65494626

Family Applications (2)

Application Number Title Priority Date Filing Date
CN202410970673.3A Pending CN118711577A (zh) 2018-12-14 2019-02-06 用于联网系统的基于语音的接口
CN201980002146.0A Active CN111742364B (zh) 2018-12-14 2019-02-06 用于联网系统的基于语音的接口

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CN202410970673.3A Pending CN118711577A (zh) 2018-12-14 2019-02-06 用于联网系统的基于语音的接口

Country Status (4)

Country Link
US (3) US11392777B2 (zh)
EP (2) EP3862908A1 (zh)
CN (2) CN118711577A (zh)
WO (1) WO2020122972A1 (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118711577A (zh) 2018-12-14 2024-09-27 谷歌有限责任公司 用于联网系统的基于语音的接口
US11763098B2 (en) * 2019-08-07 2023-09-19 7299362 Canada Inc. System and method for language translation
US11721330B1 (en) * 2019-09-04 2023-08-08 Amazon Technologies, Inc. Natural language input processing
US11675963B2 (en) * 2019-09-09 2023-06-13 Adobe Inc. Suggestion techniques for documents to-be-translated
IL283626A (en) * 2021-06-01 2022-12-01 Yaakov Livne Nimrod A method for translating sign language and a system for it
WO2024085461A1 (ko) * 2022-10-18 2024-04-25 삼성전자주식회사 번역 서비스를 제공하기 위한 전자 장치 및 방법

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070033053A1 (en) * 2003-10-14 2007-02-08 Daimler Chrysler Ag User-adaptive dialog support for speech dialog systems
US20080133245A1 (en) * 2006-12-04 2008-06-05 Sehda, Inc. Methods for speech-to-speech translation
US20090018833A1 (en) * 2007-07-13 2009-01-15 Kozat Suleyman S Model weighting, selection and hypotheses combination for automatic speech recognition and machine translation
US20120101821A1 (en) * 2010-10-25 2012-04-26 Denso Corporation Speech recognition apparatus
US20140365200A1 (en) * 2013-06-05 2014-12-11 Lexifone Communication Systems (2010) Ltd. System and method for automatic speech translation
CN104488027A (zh) * 2012-07-09 2015-04-01 独立行政法人情报通信研究机构 声音处理系统以及终端装置
CN106126505A (zh) * 2016-06-20 2016-11-16 清华大学 平行短语学习方法及装置
CN106383818A (zh) * 2015-07-30 2017-02-08 阿里巴巴集团控股有限公司 一种机器翻译方法及装置
US20170060855A1 (en) * 2015-08-25 2017-03-02 Alibaba Group Holding Limited Method and system for generation of candidate translations
US20170357643A1 (en) * 2011-12-12 2017-12-14 Google Inc. Auto-translation for multi user audio and video
CN107798386A (zh) * 2016-09-01 2018-03-13 微软技术许可有限责任公司 基于未标注数据的多过程协同训练
US20180314689A1 (en) * 2015-12-22 2018-11-01 Sri International Multi-lingual virtual personal assistant

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7043420B2 (en) * 2000-12-11 2006-05-09 International Business Machines Corporation Trainable dynamic phrase reordering for natural language generation in conversational systems
JP4271224B2 (ja) * 2006-09-27 2009-06-03 株式会社東芝 音声翻訳装置、音声翻訳方法、音声翻訳プログラムおよびシステム
US8204739B2 (en) * 2008-04-15 2012-06-19 Mobile Technologies, Llc System and methods for maintaining speech-to-speech translation in the field
WO2008066836A1 (en) * 2006-11-28 2008-06-05 Treyex Llc Method and apparatus for translating speech during a call
US8775156B2 (en) * 2010-08-05 2014-07-08 Google Inc. Translating languages in response to device motion
US9257115B2 (en) 2012-03-08 2016-02-09 Facebook, Inc. Device for extracting information from a dialog
US9501472B2 (en) * 2012-12-29 2016-11-22 Intel Corporation System and method for dual screen language translation
US9430465B2 (en) * 2013-05-13 2016-08-30 Facebook, Inc. Hybrid, offline/online speech translation system
US9600474B2 (en) * 2013-11-08 2017-03-21 Google Inc. User interface for realtime language translation
CN103744843B (zh) * 2013-12-25 2017-01-04 北京百度网讯科技有限公司 一种在线语音翻译方法及装置
US20150347399A1 (en) * 2014-05-27 2015-12-03 Microsoft Technology Licensing, Llc In-Call Translation
US9524293B2 (en) * 2014-08-15 2016-12-20 Google Inc. Techniques for automatically swapping languages and/or content for machine translation
US20170060850A1 (en) * 2015-08-24 2017-03-02 Microsoft Technology Licensing, Llc Personal translator
KR102565275B1 (ko) * 2016-08-10 2023-08-09 삼성전자주식회사 병렬 처리에 기초한 번역 방법 및 장치
KR102580904B1 (ko) * 2016-09-26 2023-09-20 삼성전자주식회사 음성 신호를 번역하는 방법 및 그에 따른 전자 디바이스
US11314951B2 (en) * 2016-11-28 2022-04-26 Samsung Electronics Co., Ltd. Electronic device for performing translation by sharing context of utterance and operation method therefor
CN107045498A (zh) * 2017-05-18 2017-08-15 深圳双猴科技有限公司 一种双面显示的同步翻译设备、方法、装置及电子设备
CN118538199A (zh) * 2018-08-23 2024-08-23 谷歌有限责任公司 确定经由自动助理界面接收的口头话语的语音识别的语言
CN118711577A (zh) 2018-12-14 2024-09-27 谷歌有限责任公司 用于联网系统的基于语音的接口

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070033053A1 (en) * 2003-10-14 2007-02-08 Daimler Chrysler Ag User-adaptive dialog support for speech dialog systems
US20080133245A1 (en) * 2006-12-04 2008-06-05 Sehda, Inc. Methods for speech-to-speech translation
US20090018833A1 (en) * 2007-07-13 2009-01-15 Kozat Suleyman S Model weighting, selection and hypotheses combination for automatic speech recognition and machine translation
US20120101821A1 (en) * 2010-10-25 2012-04-26 Denso Corporation Speech recognition apparatus
US20170357643A1 (en) * 2011-12-12 2017-12-14 Google Inc. Auto-translation for multi user audio and video
CN104488027A (zh) * 2012-07-09 2015-04-01 独立行政法人情报通信研究机构 声音处理系统以及终端装置
US20140365200A1 (en) * 2013-06-05 2014-12-11 Lexifone Communication Systems (2010) Ltd. System and method for automatic speech translation
CN106383818A (zh) * 2015-07-30 2017-02-08 阿里巴巴集团控股有限公司 一种机器翻译方法及装置
US20170060855A1 (en) * 2015-08-25 2017-03-02 Alibaba Group Holding Limited Method and system for generation of candidate translations
US20180314689A1 (en) * 2015-12-22 2018-11-01 Sri International Multi-lingual virtual personal assistant
CN106126505A (zh) * 2016-06-20 2016-11-16 清华大学 平行短语学习方法及装置
CN107798386A (zh) * 2016-09-01 2018-03-13 微软技术许可有限责任公司 基于未标注数据的多过程协同训练

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
S. NAKAMURA;: "The ATR Multilingual Speech-to-Speech Translation System", 《IEEE TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING》 *
杜金华: "中国机器翻译研究的机遇与挑战——第八届全国机器翻译研讨会总结与展望", 《中文信息学报》 *

Also Published As

Publication number Publication date
US11934796B2 (en) 2024-03-19
EP3685374A1 (en) 2020-07-29
EP3862908A1 (en) 2021-08-11
WO2020122972A1 (en) 2020-06-18
US20240220741A1 (en) 2024-07-04
US11392777B2 (en) 2022-07-19
EP3685374B1 (en) 2021-04-07
CN111742364B (zh) 2024-08-06
US20210334478A1 (en) 2021-10-28
CN118711577A (zh) 2024-09-27
US20220300720A1 (en) 2022-09-22

Similar Documents

Publication Publication Date Title
CN111742364B (zh) 用于联网系统的基于语音的接口
EP3767622B1 (en) Automatically determining language for speech recognition of spoken utterance received via an automated assistant interface
US11797772B2 (en) Word lattice augmentation for automatic speech recognition
EP2824596B1 (en) Speech- Enabled Web Content Searching Using a Multimodal Browser
US20060235694A1 (en) Integrating conversational speech into Web browsers
US20070294084A1 (en) Context-based grammars for automated speech recognition
JP2021501926A (ja) 音声駆動コンピューティングインフラストラクチャによるグラフィカルユーザインターフェースレンダリング管理
CN111213136B (zh) 联网系统中特定于域的模型的生成
WO2016048350A1 (en) Improving automatic speech recognition of multilingual named entities
US11942091B2 (en) Alphanumeric sequence biasing for automatic speech recognition using a grammar and a speller finite state transducer
US20240055003A1 (en) Automated assistant interaction prediction using fusion of visual and audio input
CN110692040A (zh) 在网络系统中激活远程设备
CN112262371A (zh) 使用地址模板经由数字助理应用调用代理的功能
KR20190074508A (ko) 챗봇을 위한 대화 모델의 데이터 크라우드소싱 방법
Manojkumar et al. AI-based virtual assistant using python: a systematic review
US11626107B1 (en) Natural language processing
US11984125B2 (en) Speech recognition using on-the-fly-constrained language model per utterance
Taniguchi et al. Counseling (ro) bot as a use case for 5G/6G
Tsourakis et al. Building Mobile Spoken Dialogue Applications Using Regulus.
JP6985311B2 (ja) 相槌判定によって応答発話生成を制御する対話実施プログラム、装置及び方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TG01 Patent term adjustment
TG01 Patent term adjustment