CN1770770B - 启用智能的和轻型的语音到文本转录的方法和系统 - Google Patents

启用智能的和轻型的语音到文本转录的方法和系统 Download PDF

Info

Publication number
CN1770770B
CN1770770B CN200510117097.5A CN200510117097A CN1770770B CN 1770770 B CN1770770 B CN 1770770B CN 200510117097 A CN200510117097 A CN 200510117097A CN 1770770 B CN1770770 B CN 1770770B
Authority
CN
China
Prior art keywords
sound
server
transcription
profile
client device
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN200510117097.5A
Other languages
English (en)
Other versions
CN1770770A (zh
Inventor
A·S·巴尔
D·马苏德
D·S·梅利克什蒂恩
舒晨
M·V·D·莫伊伦
周念军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Technology Licensing LLC
Original Assignee
Nuance Communications Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nuance Communications Inc filed Critical Nuance Communications Inc
Publication of CN1770770A publication Critical patent/CN1770770A/zh
Application granted granted Critical
Publication of CN1770770B publication Critical patent/CN1770770B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/487Arrangements for providing information services, e.g. recorded voice services or time announcements
    • H04M3/493Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals
    • H04M3/4936Speech interaction details
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2201/00Electronic components, circuits, software, systems or apparatus used in telephone systems
    • H04M2201/40Electronic components, circuits, software, systems or apparatus used in telephone systems using speech recognition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2201/00Electronic components, circuits, software, systems or apparatus used in telephone systems
    • H04M2201/41Electronic components, circuits, software, systems or apparatus used in telephone systems using speaker recognition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2201/00Electronic components, circuits, software, systems or apparatus used in telephone systems
    • H04M2201/60Medium conversion

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Telephonic Communication Services (AREA)

Abstract

一种包括至少一个无线客户端设备、服务管理器和多个声音转录服务器的系统。所述的服务管理器包括资源管理服务和简档管理服务。所述的客户端设备向所述资源管理服务传达声音转录任务的存在。所述资源管理服务调查多个声音转录服务器并基于一组预先定义的标准选择一个声音转录服务器。接着所述的资源管理服务向所述的简档管理服务传达所选择服务器的地址,接着所述的简档管理服务传输已训练的声音简档或默认简档到所选择的服务器。接着将所选择的服务器的地址发送到客户端设备,所述客户端设备接着将音频流传输到所述服务器。最后,所选择的服务器将音频流转录为文本格式。

Description

启用智能的和轻型的语音到文本转录的方法和系统
技术领域
本发明一般地涉及声音到文本的转录,并且特别地涉及在分布式环境上用于普及设备、即时消息器和web浏览器的声音到文本的转录。 
背景技术
随着普及设备(如掌上型设备、个人数字助理(PDA)、移动电话、智能电话等等)的日益流行以及用于有线和无线通信的带宽日益增加,使得启用提供更复杂服务的智能应用变得越来越可行。通常,这些普及设备具有以下特征:它们在物理上很小,具有有限的存储器和计算能力,以及与其他设备或系统进行无线通信。 
包括AOL、MSN和Yahoo的即时消息服务等等的即时消息客户端在市场中是普遍的,以便在不同的最终用户之间使用文本提供实时通信。一种有效的输入方法是使用声音转录。与其使即时消息客户端费力地支持转录,不如我们能够将转录任务分派给服务器,以减少在客户端的资源需求和消耗。 
包括信息站、个人计算机、笔记本计算机、因特网设备等等的web浏览器客户端设备在市场中是普及的。许多web浏览器客户端设备依靠远程资源用于计算和存储功能,并且它们本身没有能力存储复杂的软件并运行该软件的应用。 
一种这样的复杂应用是声音到文本的转录,其中用户能够简单地通过轻型声音插件或web浏览器客户端设备对普及的即时消息客户端说话,并将所记录的音频流进行处理并转录为文本格式。接着能够将通用的、对存储器高效的文本格式保存、传输到其他设备、打印或进行任意的一些其他 类似功能。不过,准确地将音频声音流转换为文本是复杂的过程。通过改变语调、音调、重音和用户的其他语音特征,此过程会更复杂。 
为了获得更准确的转录结果,解决方案需要对于最终用户进行个人化。一些现有技术使用了已经过存储、训练的声音简档。已训练的声音简档是将用户的声音特征与已知的字母发声相匹配的转换表。通常通过使用户说出一系列预先选择的词而建立简档。接着将用户的声音与字母发声交叉参照。接着转录引擎使用已训练的声音简档产生从声音到文本的更准确的转换。 
当简档的分辨率增加时,它的大小和所需的系统资源也增加。类似地,转录引擎越复杂,所需用于执行转录任务的系统资源也越多。有鉴于此,对于普及设备、即时消息器或web浏览器,在本身存储已训练的声音简档并执行转录是不切实际的。 
一些现有技术的方法被用于将音频-声音数据从普及设备或web浏览器传输到包含了执行用于准确转录服务所需的艰巨计算的转录引擎的中央服务器。不过,当用户数量增长时,在具有可用于转录任务的有限资源的中央转录服务器上的需求也增长。此外,当用户的地理位置扩大时,对单一的集中式转录服务器的使用成为不切实际的。 
因此,存在对于启用在低端的普及、即时消息和web浏览器设备上通过用户数量以及最终用户的地理位置而调整的复杂的声音应用的解决方案的需要。 
发明内容
本发明提供了一种启用在低端的普及和web浏览器客户端设备上使用分布式计算模型的复杂的声音应用的可调整的解决方案。提供了至少三个部件:服务管理器、一个或多个声音转录服务器和一个或多个轻型客户端。 
本发明包括远程声音转录服务器池。当声音音频流被输入到客户端设备中时,使用TCP/IP通信或其他通信方式将转录任务分派给远程声音转录服务器池。服务管理器包括基于一组标准选择声音转录服务器池的成员 以处理特定服务请求的资源管理服务,所述的一组标准包括:客户端设备和声音转录服务器之间的距离、从客户端设备到转录服务器的网络流量带宽和转录服务器的可用计算资源,以及其他的因子。 
此外,服务管理器中的简档管理服务拥有并分派已训练的声音简档,以提供将个人化的简档即时动态地部署于每一分配的声音转录引擎。已训练的简档在转录过程中提供更高的准确性。 
因此,本发明提供了一种分布式的计算机制,即,分布式的、无需相同的、易于管理的、并且支持来自最终用户潜在巨大的服务请求的转录引擎。 
在本发明的一实施例中,格式变换模块允许将对多个声音格式的转录作为声音转录服务器的部分功能。在本发明的再一实施例中,在最终用户进行记录的同时传输音频,以加快在轻型客户端和声音转录服务器之间的通信速度。 
附图说明
附图用于进一步说明各种实施例以及解释全部根据本发明的各种原理和优点,在附图中,相同的标号代表贯穿各独立视图的相同的或功能类似的单元,并且将附图连同以下的详细说明并入并构成说明书的一部分。 
图1是根据本发明的说明了使用普及客户端设备的声音转录系统的一个实施例的整个系统的框图。 
图2是根据本发明的说明了服务器设备的一个实施例的硬件框图。 
图3是根据本发明的说明了语音到文本的转换方法的流程图。 
图4是根据本发明的说明了语音到文本的转换方法的流程图。 
图5是根据本发明的使用web浏览器客户端设备的声音转录系统的一个实施例的整个系统的图。 
图6是根据本发明的使用web浏览器客户端设备的声音转录方法的流程图。 
具体实施方式
尽管本说明书包括定义了被看作是新颖的本发明的特征的权利要求,但可以相信,通过考虑以下描述并连同附图将更好地理解本发明,在附图中,相同标号的意义是一致的。 
现在描述的是根据本发明的示例性实施例的示例性硬件平台。该硬件平台包括三个主要部件:服务管理器、至少一个声音转录服务器和轻型客户端设备。 
由于技术的稳定进展,完全操作的计算机现在可用于例如个人数字助理(PDA)、车载设备、业务组织器等等的掌上型设备或手提型设备中。此外,现在许多人使用蜂窝电话访问因特网并执行各种其他的计算功能。包括但并不局限于掌上型设备、PDA和蜂窝电话的便携式计算设备经常被总体称为“普及”计算设备。 
整个系统 
在例如因特网的计算机网络中的服务器上实现本发明。现在参考图1,示出了轻型客户端设备100。存在不同种类的轻型客户端。以下是三个示例:i)普及客户端(如PDA、掌上型计算机或蜂窝电话);ii)即时消息;以及iii)web浏览器客户端(如个人计算机、笔记本计算机或因特网设备)。客户端设备100可包括例如Microsoft WindowsTM、Microsoft WindowsTM CE或PalmTM OSTM的操作系统。设备100也可包括例如Web浏览器应用的一套因特网工具,以通过在网络112和网络114上的服务管理器106访问分布式声音转录服务器104a-n。 
服务管理器网关计算机106或仅仅是服务管理器106包括资源管理服务108和简档管理服务110。 
服务管理器106和声音转录服务器104的普遍体系结构 
图2是用于实现本发明实施例的计算机系统的框图。所述计算机系统包括一个或多个处理器,例如处理器204。处理器204连接于通信基础设 施202(如通信总线、跨接条或网络)。根据此示例性的计算机系统描述了各种软件实施例。对于在相关的(一种或多种)领域中的普通技术人员,在读此描述之后,怎样使用其他计算机系统和/或计算机体系结构来实现本发明将变得明显。 
所述计算机系统可以包括显示接口208,其转发来自通信基础设施202(或来自未示出的帧缓存器)的图形、文本和其他数据,用于在显示单元210上显示。所述计算机系统也包括优选为随机存取存储器(RAM)的主存储器206,并且也可包括辅助存储器212。辅助存储器212可包括例如硬盘驱动器214和/或表示为软盘驱动器、磁带驱动器、光盘驱动器等等的可移动存储驱动器216。可移动存储驱动器216以本领域中普通技术人员所熟知的方式读和/或写可移动存储单元218。可移动存储单元218表示了被可移动存储驱动器216读和写的软盘、磁带、光盘等等。如将要理解的,可移动存储单元218包括具有存储于其中的计算机软件和/或数据的计算机可用的存储媒介。 
在可选的实施例中,辅助存储器212可包括用于允许将计算机程序或其他指令装载到计算机系统中的其他类似装置。这样的装置可包括例如可移动存储单元222及接口220。这种示例可包括程序盒及盒接口(如在视频游戏设备中可发现的)、可移动存储器芯片(如EPROM或PROM)及相关联的插槽、以及允许将软件和数据从可移动存储单元222传输到计算机系统的其他可移动存储单元222及接口220。 
计算机系统也可包括通信接口224。通信接口224允许将软件和数据在计算机系统和外部设备之间传输。通信接口224的示例可包括调制解调器、网络接口(如以太网卡)、通信端口、PCMCIA槽和卡等等。通过通信接口224传输的软件和数据为信号的形式,其可以是例如电的、电磁的、光的或能够通过通信接口224接收的其他信号。通过通信路径(即信道)226将这些信号提供给通信接口224。此信道226传送信号并可使用导线或线缆、光纤、电话线、移动电话链路、RF链路和/或其他通信信道而实现。 
在本文献中,术语“计算机程序媒介”、“计算机可用媒介”和“计 算机可读媒介”普遍被用于代表例如主存储器206及辅助存储器212、可移动存储驱动器216、安装于硬盘驱动器214中的硬盘以及信号的媒体。这些计算机程序产品是用于向计算机系统提供软件的装置。计算机可读媒介允许计算机系统读数据、指令、消息或消息包、以及来自计算机可读媒介的其他计算机可读信息。例如,计算机可读媒介可包括非易失性存储器,例如软盘、ROM、闪速存储器、盘驱动器存储器、CD-ROM和其他的永久存储器。例如在计算机系统之间运输例如数据和计算机指令的信息时,所述的计算机可读媒介是有用的。此外,计算机可读媒介可包括在例如包括有线网络或无线网络的网络链路和/或网络接口的允许计算机读这种计算机可读信息的暂时状态媒介中的计算机可读信息。 
在主存储器206和/或辅助存储器212中存储计算机程序(也称为计算机控制逻辑)。也可通过通信接口224接收计算机程序。当执行这种计算机程序时,其使计算机系统能够执行如这里所讨论的本发明的特征。具体地,当执行所述计算机程序时,其使处理器204能够执行计算机系统的特征。因此,这种计算机程序代表了计算机系统的控制器。 
尽管已公开了本发明的特定实施例,本领域中的普通技术人员将会理解,能够对特定实施例做出改变而无需背离本发明的精神和范围。因此,并未将本发明的范围限制为特定的实施例。而且,意图是使所附的权利要求覆盖本发明的范围内的任意和所有的这样的应用、修改和实施例。 
在一个实施例中的分布式声音转录服务器104a-104n实质上是相同的平台。不过需要重点注意,在另一实施例中,声音转录服务器是不同种类的平台,每一平台具有不同的处理器、操作系统、I/O能力和声音转录软件。 
声音转录服务器104a-n可操作用于执行处理音频声音输入并生成文本转录的音频语音转录程序。声音转录软件(未示出)是来自IBM、AT&T、Dragon Systems、Microsoft以及其他公司的任何可用的声音转录产品。 
数据在资源管理器106和客户端设备100之间进行传输,并且声音转录服务器104a-n典型地符合TCP/IP规范以及文件传输协议(FTP)、超 文本传输协议(HTTP)或某种类似的通信协议,并且可以在相对于网络112和网络114的安全连接上进行这种通信。 
在优选的实施例中,使用例如GlobusTM GT3TM(在http://www.globus.org/gt3找到)的网格计算模型实现服务管理器106和声音转录服务器104a-n的实现。在一个实施例中,将声音转录服务器104a-n部署为使用GT3TM网格工具的网格服务。在此实施例中,使用网格数据管理和资源管理系统自动地部署并启用声音转录服务器104a-n。文本转录成为由网格系统提供的一种网格服务。在另一实施例中的服务管理器106是资源管理系统的一部分。 
资源管理器服务108和简档管理器服务110 
如上所述,服务管理器包括两个子部件:资源管理器服务108和简档管理器服务110。 
资源管理器服务108 
资源管理器服务108的作用是调查声音转录服务器104a-n池,记录每一声音转录服务器104a-n的状态,并确定哪一声音转录服务器应处理来自客户端服务100的每一特定请求。出于包括维护、可用性和其他的各种原因中的任一种,每一声音转录服务器104a-n能够自由地加入并离开服务器池。 
资源管理器108使用用于选择声音转录服务器104a-n的算法,所述算法是基于声音转录服务器104a-n的声音转录能力、网络带宽、声音服务器和客户端设备之间的距离(邻近)的因子和其他类似的有关因子。在以下的部分中将这些因子更完整地描述如下。转录时间被用作为决策标准,其包括两部分: 
1)流量时间以及 
2)转录过程时间。 
以下是成本函数(c(d,b,u))的示例,其具有的变量是表示为(d(client, server))的客户端设备100和声音转录服务器104a-n之间的距离,表示为(b(client,server))的从客户端设备100到转录服务器104a-n的网络流量带宽,以及表示为(u(server))的转录资源的可用计算资源。所选择的声音转录服务器优选地是在所有可用的声音转录服务器中具有最低c(d,b,u)值的一个。 
示例性的成本函数的表达式为: 
c ( d , b , u ) = α d ( client , server ) b ( client , server ) + β 1 u ( server )
其中α、β是加权变量。以下是对d(client,server)、b(client,server)和u(server)的选择的示例。 
所选的第一个因子是确定在客户端设备100和声音转录服务器104a-n之间的距离。存在多种定义该距离的方法,并且尽管距离典型地涉及地理距离,但本发明并不局限于这种定义。例如,距离能够被定义为1)客户端设备和声音转录服务器之间的地理距离;2)客户端设备和声音转录服务器之间的实际电缆路由的距离;3)从客户端到声音转录服务器的寻迹路由中继段的数量;以及4)客户端设备和声音转录服务器的位置的地理区域的差距。在优选的实施例中,选择方法2作为用于成本函数的距离。 
第二个因子是从客户端设备100到分布式声音转录服务器104a-n的网络流量带宽。在此计算中,假定分布式声音转录服务器104a-n位于网络114的主干,并且声音转录服务器具有足够的网络带宽来接受来自客户端的需求。通过从客户端设备100到它的ISP(因特网服务提供者)或无线网络基站(如果客户端设备是使用无线的普及设备)的出站流量来限制流量带宽。在其他实施例中,到每一分布式声音转录服务器104a-n的网络连接114是不一致的带宽,所述的带宽成为以上成本函数中的一个变量。 
第三步是找到用于声音转录服务器的计算资源。这里,假定所有的声音转录服务器104a-n具有实质上相同的硬件配置,其中,主要由可用的系统CPU、I/O带宽和存储器资源确定其性能。CPU资源的状态可以是以下一种: 
1.非活动的 
2.活动的且无作业 
3.活动的且有作业但允许更多作业 
4.活动的且有作业(多个),但不允许更多作业 
再次如上所述,声音转录服务器104a-n无需具有相似的能力即可处于本发明的真正范围和精神内。用于确定对声音转录服务器104a-n的资源分配的被示出将通过本发明方便地使用的其他因子包括:例如MPEG或WAV的不管音频流是否被压缩的音频流格式,对特定客户端设备100给出的优先权,用于运行或租用给定的声音转录服务器104a-n的财务成本,或能够在分布式网络和/或网格计算环境中度量的任意其他变量或因子。 
简档管理器服务110 
声音简档表征了最终用户的各种语音属性,例如,重音、语调、音调变化或最终用户的其他发音习惯。可以通过训练程序确定这种语音属性,在训练程序中,用户说出各种样本词和短语,以便适当的语音处理算法学习更准确地处理该用户的语音。 
对应于将最终用户存储于简档管理器124中,将声音简档存储于简档文件中,并通过简档管理器服务110管理。每一简档具有状态值和一组属性值。简档的状态规定了简档的训练过程的状态。属性值规定了简档的细节。简档的示例性状态包括: 
1.未登记 
2.未完成 
3.已完成基本训练 
4.已完成扩展训练 
出于声音转录和简档建立(训练)的目的,简档的属性值及其状态被用于部署简档。如果对于用户没有已建立的或可用的简档,则将默认的简档用于转录。 
声音转录服务器104a-n 
每一声音转录服务器104具有声音格式转换器124、本地简档管理器126和声音转录引擎128。 
声音格式转换器124 
用于压缩和传输数据的许多格式在本领域中是已知的。如其名字所提出的,声音格式转换器将用户输入的音频格式转换为声音转录引擎所接受的(一种或多种)格式。已压缩格式包括MPEG、AVI和无损及有损压缩。 
在优选实施例中,将一种简单的算法用于基于压缩时间和传输时间的折衷来确定是否需要压缩声音流。在以下公式中,L表示音频流的长度,而B表示从客户端设备到所指定的声音转录服务器的可用网络带宽。假定压缩时间在客户端(例如普及设备)与L成比例。通过假定服务器104a-n具有足够的计算能力以快速解压音频流而忽略在声音转录服务器104a-n端的解压时间。通过假定压缩比为λ,不经压缩即发送音频流的所需时间为: 
t 1 = L B
而经过压缩的所需时间为: 
t 2 = λL B + γL
客户端设备做出决定来计算
Figure A20051011709700163
的值。 
本地简档管理器110 
一旦选择了声音转录服务器用于所请求的转录任务,则简档管理服务110在网络114上将已训练的声音简档(或默认的简档,如果没有可用的已训练简档)的拷贝传输到所选择的声音转录服务器。默认的简档也能够被存储于每一单独的转录服务器以节省时间。此外,如果转录服务器具有足够的存储空间,则能够将所有的简档预先部署于每一单独的转录服务器。 声音转录服务器104内的本地简档管理器112管理临时或永久存储于声音转录服务器104的所有简档。由于单一声音转录服务器能够同步处理许多转录,本地简档管理器112可以在任何给定时间存储许多简档。 
声音转录引擎128 
声音转录引擎128是使用如上所述的最终用户声音简档或预先定义的默认声音简档将输入的声音转录成文本的软件服务或专用硬件。实现声音转录引擎128的声音转录软件包括来自IBM、AT&T、Dragon Systems、Microsoft以及其他公司的可用的声音转录产品。 
声音转录服务器能够通过它们的主机名或IP地址以及支持在系统其他部件之间的通信的一组预先定义的端口所识别。 
客户端设备100 
客户端设备100是到本发明的系统的声音音频输入。每一轻型客户端100由两种属性所识别:a)设备ID(其可以是设备的IP地址);以及b)最终用户ID。最终用户ID可以是匿名的,应用于没有简档或不想使用他/她的简档的任何人。对于使用匿名ID的情况,转录服务器将使用默认的简档。能够从登录过程中检索最终用户ID或者当最终用户使用系统时由其输入最终用户ID。 
在服务管理器上用于普及客户端设备的过程流程 
图3是根据本发明说明了使用普及客户端设备的声音转录的方法。在第一步骤(302)中,操作客户端设备100的用户启动简档建立的过程,该过程包括根据特定的训练程序向设备100说话。接着设备100访问服务管理器106以建立新的简档(步骤304)。在下一步骤(306)中,服务管理器106发布命令到简档管理服务110,用于建立新的简档。简档管理服务110检查对于请求用户的现存简档(步骤308)。 
如果简档存在,从简档储存库中检索现存的简档(步骤310)。简档 储存库通常是文件系统或关系数据库,但并不局限于以上示例。现存的简档可以具有若干状态,包括“未完成”、“已完成基本训练”和“已完成扩展训练”。如果简档不是“已完成扩展训练”,则能够修改该简档以增强转录结果。在这种情况下,用户被询问(步骤311)是否应该修改简档。如果回答为是,则修改简档(步骤315)。 
能够存储简档并以压缩格式将简档传输到普及的网络资源(如带宽或储存库空间)。如果在简档管理服务110中不存在简档,则建立简档管理服务110的简档储存库204中的条目,并存储新的简档(步骤312)。 
现在参考图4,在存储简档之后,或如果用户指明他不希望建立简档,要求资源管理服务108调查声音转录服务器104a-n池,以获得位于可接受的位置并具有可用于执行所需转录的资源的声音转录服务器的标识符(步骤314)。接着系统等待看是否有服务器可用(步骤316)。如果服务器不可用,则返回“服务器忙”的信号,并且必须重复步骤314(步骤317)。如果服务器可用,将服务器标识发送到简档管理服务110(步骤318)。接着简档管理服务110发送用户简档或简档标识符(如果预先装载了简档)到可用的声音转录服务器(步骤320)。 
对于传输简档的情况,声音转录服务器解压简档并试图部署该简档(步骤322)。如果部署成功(324),则将肯定的确认发送到简档管理服务110(步骤326)。如果部署不成功,则将将否定的确认发送到简档管理服务110(步骤328)。 
如果确认是肯定的,将服务器标识符或地址发送到请求的客户端设备100(步骤334)。如果确认是不成功的,返回“部署失败”的消息(步骤332)并再次发送简档(步骤320)。如果用户简档的部署是成功的以及客户端设备100接收了拥有简档的声音转录服务器的地址,则普及客户端设备100传输音频流(来自麦克风记录或者其他方法-如从音频文件中读)以及设备ID和最终用户ID到所指定的声音转录眼务器(步骤336)。能够与最终用户进行记录的同时传输音频流,以便加快在轻型客户端和声音转录服务器之间的通信速度。接着使用了已训练的声音简档的声音转录服 务器能够将音频流转录成文本格式(步骤338)。 
web浏览器客户端的流程 
web浏览器客户端使用小应用程序的技术来获得声音服务。图5示出了使用web浏览器客户端设备100的本发明的实施例。web浏览器客户端设备100与包括小服务程序504的web容器502进行通信。为最小化下载的代码,使用了用于web浏览器客户端的代理结构。代理是在服务器机器运行的小服务程序504,其与资源管理中心和简档管理中心联系。基于应用的可扩缩性需求,可以存在一个或多个代理。 
web容器502也包括能够被装载于web浏览器客户端设备100之上的用户界面506。web容器502与包括资源管理服务108、简档管理服务110和资源管理web服务的应用程序接口(API)510的服务管理器508进行通信。该系统也包括声音转录服务器104a-n池。 
图6根据本发明说明了使用web浏览器客户端设备的声音转录方法。web浏览器客户端100从web容器502装载用户界面506(步骤602)。接着web浏览器客户端100联系小服务程序504以启动声音转录服务(步骤604)。小服务程序504与上述的普及客户端类似地运行,并联系服务管理器508以建立新的声音简档和/或获得声音转录服务器104a-n的标识符(步骤606)。接着此过程遵从图4中所示的始于步骤314的过程。 
虽然已说明并描述了本发明的各种实施例,但是将清楚地看出本发明并非局限于此。对于本领域的技术人员将存在许多的修改、改变、变化、替换和同等物,而无需背离如所附权利要求所定义的本发明的精神和范围。 

Claims (17)

1.一种用于在分布式计算机环境中管理声音到文本的转录服务的服务管理系统,所述的服务管理系统包括:
用于从客户端设备接收至少一个语音转录请求的到第一网络的第一通信接口;
连接了多个用于将音频输入转录为文本的转录服务器的到第二网络的第二通信接口;
可操作用于查询多个转录服务器中的至少两个的状态以便选择可用于执行所述转录请求的至少一个转录服务器的资源管理服务,其中所述资源管理服务通过所述第一网络将所述至少一个转录服务器的地址传送给所述客户端设备;以及
所述客户端设备和所述多个转录服务器之间的通信路径,用于由所述客户端设备基于资源管理服务的选择和所述地址而发送与所述语音转录请求相关联的至少一个音频输入到所述至少一个转录服务器,其中,所述音频输入表示将使用声音到文本转录服务被转录为文本的已记录的声音。
2.根据权利要求1的系统,还包括:
包括客户端的声音特征的声音简档;以及
用于存储和传送所述声音简档的简档管理服务,
其中,所述的资源管理服务向所述的简档管理服务传送可用的声音转录服务器的地址,并且所述的简档管理服务将声音简档传送到可用的声音转录服务器,并且可用的声音转录服务器使用声音简档将音频声音信号转换为文本格式。
3.根据权利要求2的系统,其中,所述的声音简档具有一种状态,所述状态是未登记、未完成、已完成基本训练和已完成扩展训练中的一种。
4.根据权利要求2的系统,其中,所述的声音转录服务器包括:
使用声音简档和默认声音简档之一将音频声音信号转录为文本的声音转录引擎;
将音频声音信号的格式转换为声音转录引擎接受的格式的声音格式转换器;以及
管理存储于声音转录服务器内的所有声音简档的本地简档管理器。
5.根据权利要求1的系统,其中,每一声音转录服务器的状态是非活动的、活动的且无作业、活动的且有作业但将允许至少一个的更多作业以及活动的且有作业并将不允许另一作业中的一种。
6.根据权利要求1的系统,其中,所述的选择可用于执行所述转录请求的至少一个转录服务器是基于传输成本的,其中,成本包括客户端设备和声音转录服务器之间的距离、从客户端设备到声音转录服务器的网络流量带宽以及声音转录服务器的可用资源中的至少一种。
7.根据权利要求6的系统,其中,所述的声音转录服务器的可用资源包括存储器和处理能力中的至少一种。
8.根据权利要求6的系统,其中,距离能够被定义为客户端设备和声音转录服务器之间的地理距离、从客户端设备到声音转录服务器的中继段的数量以及客户端设备和声音转录服务器的位置的地理区域的差异中的一种。
9.一种用于将声音转换为文本的资源管理器,所述的资源管理器包括:
资源管理服务装置;以及
简档管理服务装置;
其中,所述的资源管理服务装置可操作用于查询多个声音转录服务器的可用性和效率并将可用和高效的声音转录服务器的地址传送到简档管理服务装置和客户端设备,其中所述地址向所述客户端设备指示将至少一个语音输入传送到所述多个语音转录服务器中的特定语音转录服务器以便将所述至少一个语音输入转录为文本,并且所述的简档管理服务装置可操作用于发送至少一个简档或简档标识符到可用高效的声音转录服务器。
10.一种用于在分布式计算机环境中管理声音到文本转录服务的方法,在服务管理服务器上的所述方法包括:
从客户端设备接收至少一个语音转录请求;
连接用于将音频输入转录为文本的多个转录服务器;
通过资源管理服务查询多个转录服务器中的至少两个的状态,以便选择用于执行所述语音转录请求的至少一个转录服务器,其中所述资源管理服务将所述至少一个转录服务器的地址传送给所述客户端设备;以及
由所述客户端设备基于资源管理服务的选择和所述地址将与所述语音转录请求关联的至少一个音频输入发送到所述至少一个转录服务器,其中所述的音频输入表示将使用声音到文本转录服务被转录为文本的已记录的声音。
11.根据权利要求10的方法,还包括:
将至少一个用户简档存储于位于服务管理服务器内的简档管理服务中。
12.根据权利要求11的方法,还包括:
为至少一个用户简档分配状态,所述的状态为未登记、未完成、已完成基本训练和已完成扩展训练中的一种;以及
将用户简档的状态存储于简档管理服务中。
13.根据权利要求11的方法,还包括:
将用户简档发送到接收音频输入的声音转录服务器。
14.根据权利要求10的方法,还包括:
对每一声音转录服务器指定状态,所述状态为非活动的、活动的且无作业、活动的且有作业但将允许更多作业、以及活动的且有作业并将不允许额外作业中的一种。
15.根据权利要求14的方法,还包括:
在资源管理服务中建立每一声音转录服务器的状态的记录,所述的资源管理服务位于所述服务管理服务器内;以及
当指定转录服务器用于转录任务和/或转录任务已完成时,更新所述记录。
16.根据权利要求10的方法,还包括:
通过服务管理服务器查询至少一个声音转录服务器的成本,其中,成本包括客户端设备和声音转录服务器之间的距离、从客户端设备到声音转录服务器的网络流量带宽以及可用的声音转录服务器的计算资源中的至少一种。
17.根据权利要求16的方法,其中,距离能够被定义为客户端设备和声音转录服务器之间的地理距离、从客户端设备到声音转录服务器的中继段的数量以及客户端设备和声音转录服务器的位置的地理区域的差异中的一种。
CN200510117097.5A 2004-11-02 2005-11-01 启用智能的和轻型的语音到文本转录的方法和系统 Active CN1770770B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/979,334 US8311822B2 (en) 2004-11-02 2004-11-02 Method and system of enabling intelligent and lightweight speech to text transcription through distributed environment
US10/979,334 2004-11-02

Publications (2)

Publication Number Publication Date
CN1770770A CN1770770A (zh) 2006-05-10
CN1770770B true CN1770770B (zh) 2012-01-25

Family

ID=36263174

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200510117097.5A Active CN1770770B (zh) 2004-11-02 2005-11-01 启用智能的和轻型的语音到文本转录的方法和系统

Country Status (2)

Country Link
US (2) US8311822B2 (zh)
CN (1) CN1770770B (zh)

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060111917A1 (en) * 2004-11-19 2006-05-25 International Business Machines Corporation Method and system for transcribing speech on demand using a trascription portlet
CA2644666A1 (en) * 2006-04-17 2007-10-25 Vovision Llc Methods and systems for correcting transcribed audio files
WO2009073768A1 (en) 2007-12-04 2009-06-11 Vovision, Llc Correcting transcribed audio files with an email-client interface
US20080086305A1 (en) * 2006-10-02 2008-04-10 Bighand Ltd. Digital dictation workflow system and method
US20090013254A1 (en) * 2007-06-14 2009-01-08 Georgia Tech Research Corporation Methods and Systems for Auditory Display of Menu Items
US8150689B2 (en) 2007-12-21 2012-04-03 Nvoq Incorporated Distributed dictation/transcription system
US8412522B2 (en) * 2007-12-21 2013-04-02 Nvoq Incorporated Apparatus and method for queuing jobs in a distributed dictation /transcription system
US8639505B2 (en) 2008-04-23 2014-01-28 Nvoq Incorporated Method and systems for simplifying copying and pasting transcriptions generated from a dictation based speech-to-text system
US8639512B2 (en) * 2008-04-23 2014-01-28 Nvoq Incorporated Method and systems for measuring user performance with speech-to-text conversion for dictation systems
US20110246189A1 (en) * 2010-03-30 2011-10-06 Nvoq Incorporated Dictation client feedback to facilitate audio quality
US8606920B1 (en) * 2010-05-28 2013-12-10 Amazon Technologies, Inc. Providing notification of computing resource availability for on-demand allocation
US9767793B2 (en) * 2012-06-08 2017-09-19 Nvoq Incorporated Apparatus and methods using a pattern matching speech recognition engine to train a natural language speech recognition engine
PL401347A1 (pl) 2012-10-25 2014-04-28 Ivona Software Spółka Z Ograniczoną Odpowiedzialnością Spójny interfejs do lokalnej i oddalonej syntezy mowy
US9734828B2 (en) * 2012-12-12 2017-08-15 Nuance Communications, Inc. Method and apparatus for detecting user ID changes
WO2014135037A1 (zh) * 2013-03-04 2014-09-12 Yau Yimwai 支持交互关联系统的音频信息信号
US9666204B2 (en) * 2014-04-30 2017-05-30 Qualcomm Incorporated Voice profile management and speech signal generation
US10418034B1 (en) 2014-06-20 2019-09-17 Nvoq Incorporated Systems and methods for a wireless microphone to access remotely hosted applications
US9953646B2 (en) 2014-09-02 2018-04-24 Belleau Technologies Method and system for dynamic speech recognition and tracking of prewritten script
US10332521B2 (en) 2016-10-12 2019-06-25 Sorenson Ip Holdings, Llc Transcription presentation of communication sessions
US11468896B2 (en) 2019-06-12 2022-10-11 Nvoq Incorporated Systems, methods, and apparatus for real-time dictation and transcription with multiple remote endpoints
US20230122555A1 (en) * 2021-10-18 2023-04-20 Sorenson Ip Holdings, Llc Transcription communication

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6173259B1 (en) * 1997-03-27 2001-01-09 Speech Machines Plc Speech to text conversion
US6785654B2 (en) * 2001-11-30 2004-08-31 Dictaphone Corporation Distributed speech recognition system with speech recognition engines offering multiple functionalities

Family Cites Families (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5897616A (en) * 1997-06-11 1999-04-27 International Business Machines Corporation Apparatus and methods for speaker verification/identification/classification employing non-acoustic and/or acoustic models and databases
US5953700A (en) * 1997-06-11 1999-09-14 International Business Machines Corporation Portable acoustic interface for remote access to automatic speech/speaker recognition server
US6003083A (en) * 1998-02-19 1999-12-14 International Business Machines Corporation Workload management amongst server objects in a client/server network with distributed objects
DE19807076A1 (de) * 1998-02-20 1999-08-26 Cit Alcatel Datenbereitstellungsystem
US6766295B1 (en) * 1999-05-10 2004-07-20 Nuance Communications Adaptation of a speech recognition system across multiple remote sessions with a speaker
US6934756B2 (en) * 2000-11-01 2005-08-23 International Business Machines Corporation Conversational networking via transport, coding and control conversational protocols
US6823306B2 (en) * 2000-11-30 2004-11-23 Telesector Resources Group, Inc. Methods and apparatus for generating, updating and distributing speech recognition models
EP1215661A1 (en) * 2000-12-14 2002-06-19 TELEFONAKTIEBOLAGET L M ERICSSON (publ) Mobile terminal controllable by spoken utterances
US20020077828A1 (en) * 2000-12-18 2002-06-20 Building Better Interfaces, Inc. Distributed adaptive heuristic voice recognition technique
US20020091527A1 (en) * 2001-01-08 2002-07-11 Shyue-Chin Shiau Distributed speech recognition server system for mobile internet/intranet communication
US6785255B2 (en) * 2001-03-13 2004-08-31 Bharat Sastri Architecture and protocol for a wireless communication network to provide scalable web services to mobile access devices
US7103549B2 (en) * 2001-03-22 2006-09-05 Intel Corporation Method for improving speech recognition performance using speaker and channel information
US6785647B2 (en) * 2001-04-20 2004-08-31 William R. Hutchison Speech recognition system with network accessible speech processing resources
US6801604B2 (en) * 2001-06-25 2004-10-05 International Business Machines Corporation Universal IP-based and scalable architectures across conversational applications using web services for speech and audio processing resources
US20030014254A1 (en) * 2001-07-11 2003-01-16 You Zhang Load-shared distribution of a speech system
US8583430B2 (en) * 2001-09-06 2013-11-12 J. Albert Avila Semi-automated intermodal voice to data transcription method and apparatus
US7711570B2 (en) * 2001-10-21 2010-05-04 Microsoft Corporation Application abstraction with dialog purpose
US7133829B2 (en) * 2001-10-31 2006-11-07 Dictaphone Corporation Dynamic insertion of a speech recognition engine within a distributed speech recognition system
US7146321B2 (en) * 2001-10-31 2006-12-05 Dictaphone Corporation Distributed speech recognition system
US7177814B2 (en) * 2002-02-07 2007-02-13 Sap Aktiengesellschaft Dynamic grammar for voice-enabled applications
JP2003295890A (ja) * 2002-04-04 2003-10-15 Nec Corp 音声認識対話選択装置、音声認識対話システム、音声認識対話選択方法、プログラム
US7174298B2 (en) * 2002-06-24 2007-02-06 Intel Corporation Method and apparatus to improve accuracy of mobile speech-enabled services
US7016844B2 (en) * 2002-09-26 2006-03-21 Core Mobility, Inc. System and method for online transcription services
US7305490B2 (en) * 2003-07-29 2007-12-04 Hewlett-Packard Development Company, L.P. Preparing electronic data for transmission
CA2486128C (en) * 2003-10-30 2011-08-23 At&T Corp. System and method for using meta-data dependent language modeling for automatic speech recognition

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6173259B1 (en) * 1997-03-27 2001-01-09 Speech Machines Plc Speech to text conversion
US6785654B2 (en) * 2001-11-30 2004-08-31 Dictaphone Corporation Distributed speech recognition system with speech recognition engines offering multiple functionalities

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
US 6173259 B1,全文.

Also Published As

Publication number Publication date
US20120290301A1 (en) 2012-11-15
US8438025B2 (en) 2013-05-07
US20060095259A1 (en) 2006-05-04
CN1770770A (zh) 2006-05-10
US8311822B2 (en) 2012-11-13

Similar Documents

Publication Publication Date Title
CN1770770B (zh) 启用智能的和轻型的语音到文本转录的方法和系统
US9761241B2 (en) System and method for providing network coordinated conversational services
JP3728177B2 (ja) 音声処理システム、装置、方法及び記憶媒体
CA2345660C (en) System and method for providing network coordinated conversational services
KR100545442B1 (ko) 위치 및 자원 예측에 기반한 지능적 캐싱 및 네트워크 관리
US8255217B2 (en) Systems and methods for creating and using geo-centric language models
RU2355044C2 (ru) Последовательный мультимодальный ввод
KR100561228B1 (ko) 보이스엑스엠엘 문서를 엑스에이치티엠엘플러스보이스문서로 변환하기 위한 방법 및 이를 이용한 멀티모달서비스 시스템
JP4849894B2 (ja) 自動スピーチ認識サービス提供方法及びシステム並びに媒体
US7421390B2 (en) Method and system for voice control of software applications
CN107612814A (zh) 用于生成候选回复信息的方法和装置
CN100576171C (zh) 步进式标记语言与面向对象开发工具组合使用的系统和方法
CN101103612A (zh) 普适设备对网络服务的动态可扩展轻量级接入
CN108541312A (zh) 分组化数据的多模态传输
KR100380829B1 (ko) 에이전트를 이용한 대화 방식 인터페이스 운영 시스템 및방법과 그 프로그램 소스를 기록한 기록 매체
US20020077814A1 (en) Voice recognition system method and apparatus
US20220164758A1 (en) Communication management apparatus
JP3773705B2 (ja) 地図情報システム及び地図配信方法
CN111292766A (zh) 用于生成语音样本的方法、装置、电子设备和介质
CN116684532A (zh) 酒店电话应答方法、装置、电子设备和介质
Koumpis et al. An advanced integrated architecture for wireless voicemail data retrieval
Lupembe et al. Speech technology on mobile devices for solving the digital divide
Vrabec et al. IQ kiosk in metropolitan information system
JP2003308083A (ja) 音声合成処理装置
KR20070053482A (ko) Sms를 이용한 학습 시스템 및 그 방법

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
ASS Succession or assignment of patent right

Owner name: NEW ANST COMMUNICATION CO.,LTD.

Free format text: FORMER OWNER: INTERNATIONAL BUSINESS MACHINE CORP.

Effective date: 20090925

C41 Transfer of patent application or patent right or utility model
TA01 Transfer of patent application right

Effective date of registration: 20090925

Address after: Massachusetts, USA

Applicant after: Nuance Communications, Inc.

Address before: American New York

Applicant before: International Business Machines Corp.

C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20231102

Address after: Washington State

Patentee after: MICROSOFT TECHNOLOGY LICENSING, LLC

Address before: Massachusetts

Patentee before: Nuance Communications, Inc.