CN1356688A - 语音识别系统、语音识别服务器、语音识别客户机及其控制方法 - Google Patents
语音识别系统、语音识别服务器、语音识别客户机及其控制方法 Download PDFInfo
- Publication number
- CN1356688A CN1356688A CN01139477A CN01139477A CN1356688A CN 1356688 A CN1356688 A CN 1356688A CN 01139477 A CN01139477 A CN 01139477A CN 01139477 A CN01139477 A CN 01139477A CN 1356688 A CN1356688 A CN 1356688A
- Authority
- CN
- China
- Prior art keywords
- dictionary
- recognition
- speech
- user
- client computer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims description 58
- 230000008676 import Effects 0.000 claims description 12
- 230000008569 process Effects 0.000 claims description 9
- 238000000151 deposition Methods 0.000 claims description 8
- 238000004891 communication Methods 0.000 abstract description 6
- 238000007726 management method Methods 0.000 description 21
- 238000010586 diagram Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000004615 ingredient Substances 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
Landscapes
- Engineering & Computer Science (AREA)
- Acoustics & Sound (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Computer And Data Communications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Telephonic Communication Services (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
一种用户字典-它通过彼此对应地存储用户指定的目标识别词的发音和注释而形成、输入语音识别数据、以及用来确定一个识别字典的一个识别字段的字典管理信息-该识别字典被用来识别该语音识别数据,经过一个通信模块而被送到一个服务器。在该服务器中,一个字典管理单元查询一个标识符表,以从多种识别字典中确定与从一个客户机接收的字典管理信息相应的识别字典。一个语音识别模块至少利用该确定的识别字典来识别语音识别数据。识别结果经一个通信模块而被送到该客户机。
Description
本发明的领域
本发明涉及用于识别由一个服务器在一个客户机处输入的语音的一种客户机-服务器语音识别系统,一种语音识别服务器,一种语音识别客户机,它们的控制方法,以及一种计算机可读取存储器。
本发明的背景
近年来,语音被用作了除了键盘、鼠标器等之外的一种输入接口。
然而,随着需要得到语音识别的识别词的数目的增大,识别输入语音的语音识别的识别速率降低并要求比较长的处理时间。因此,在一种实际方法中,准备了多个识别字典或词典,它们寄存了将要受到语音识别的识别词(例如发音和注释),且这些字典或词典有选择地得到使用(多个识别字典可同时使用)。
另外,未寄存的词不能得到识别。作为解决这一问题的一种方法,可采用一种用户字典或词典(由用户准备以寄存要进行语音识别的词)。
另一方面,一种客户机-服务器语音识别系统已经得到了研究,以在具有不足的资源的一个终端上实施语音识别。
这三种技术都是本领域的技术人员所已知的,但把这三种技术结合起来的系统还未被实现。
本发明的概述
本发明就是要解决上述问题,且其目的是提供一种语音识别系统-该系统响应于用户在一个客户机-服务器语音识别系统中的请求而采用一个用户字典以改善语音输入效率并减小在整个系统上的处理负荷,并提供一种语音识别服务器、一种语音识别客户机、它们的控制方法、以及一种计算机可读取存储器。
根据本发明,前述目的是通过提供用于识别由一个服务器在一个客户机处输入的语音的一种客户机-服务器语音识别系统而实现的,
该客户机包括:
语音输入装置,用于输入语音;
用户字典保持装置,用于保持通过寄存由一个用户指定的目标识别词而保持一个用户字典;以及
发送装置,用于向该服务器发送所述语音输入装置输入的语音数据、用于确定用来识别该语音数据的一个识别字段的字典管理信息、以及该用户字典,且
该服务器包括:
识别字典保持装置,用于保持为各识别字段准备的多种识别字典;
确定装置,用于从该多种识别字典中确定与从客户机接收的字典管理信息相应的一或多个识别字典;以及
识别装置,用于至少利用由所述确定装置确定的识别字典来识别语音数据。
从以下结合附图进行的描述,本发明的其他特征和优点将变得显而易见。在附图中相同的标号表示了相同或类似的部分。
附图的简要描述
图1是显示第一实施例的语音识别系统的硬件设置的框图;
图2是显示第一实施例的语音识别系统的功能设置的框图;
图3显示了第一实施例的用户字典的配置;
图4显示了第一实施例的一个语音输入窗口;
图5显示了第一实施例的一个标识符表;
图6是显示第一实施例的语音识别系统所执行的处理的流程图;
图7显示了根据第三实施例的附有输入表标识符的一个用户字典;且
图8显示了根据第三实施例的附有识别字典标识符的一个用户字典。
最佳实施例的描述
以下结合附图描述本发明的最佳实施例。(第一实施例)
图1显示了第一实施例的一种语音识别系统的硬件设置。
一个CPU100对整个客户机100进行系统控制。CPU101把存储在一个ROM102中的程序装载到一个RAM103中,并根据装载的程序执行各种处理。ROM102存储将要由CPU101执行的各种处理程序。RAM103提供了执行存储在ROM102中的各种程序所需的存储区。
一个次级存储设备104存储有一种OS和各种程序。当客户机100不是利用诸如个人计算机等的通用设备而是利用一种专用设备实现时,ROM102可存储OS和各种程序。通过把存储的程序装载到RAM103上,CPU101能够执行处理。作为次级存储设备104,可以采用硬盘设备、软盘驱动器、CD-ROM等。即,存储介质不受具体的限制。
一种网络I/F(接口)105与服务器200的一个网络I/F205相连。
一个输入装置106包括鼠标器、键盘、麦克风等,以便能够向CPU101所执行的处理输入各种指令,并能够被用来同时连接该多个装置。一个输出装置107包括显示器(CRT、LCD等),并显示输入装置106输入的信息,并包括受到CPU101执行的各种处理所控制的窗口。一条总线108把客户机100的各种组成部分相互连接。
一个CPU201对整个服务器200进行系统控制。CPU201把存储在一个ROM202上的程序装载到一个RAM203中,并根据装载的程序执行各种处理。ROM202存储将要由CPU201执行的处理的各种程序。RAM203提供了执行存储在ROM202中的各种程序所需的存储区。
一个次级存储设备204存储一个OS和各种程序。当服务器200不是利用诸如一个个人计算机等的通用设备而是利用一个专用设备而实施时,ROM202可存储该OS和各种程序。通过把存储的程序装载到RAM203上,CPU201能够执行处理。作为次级存储设备204,可采用硬盘设备、软盘驱动器、CD-ROM等。即存储介质不受具体的限制。
网络I/F 205与客户机100的网络I/F 105相连。一条总线206把服务器200的各种组成部分相互连接。
以下结合图2描述第一实施例的语音识别系统的功能设置。
图2是显示第一实施例的语音识别系统的功能设置的框图。
在客户机100中,一个语音输入模块121输入用户经过一个麦克风(输入装置106)而发出的语音,并对输入的、将要受到语音识别的语音数据(语音识别数据)进行A/D转换一个通信模块122把一个用户字典124a、语音识别数据124b、字典管理信息124c等送到服务器200。另外,通信模块122接收来自服务器200的发送语音识别数据124b的语音识别结果等。
一个显示模块123显示从服务器200接收的语音识别结果,并同时将其存储在例如一个输入表中,该输入表被由本实施例的语音识别系统所执行的处理显示在输出装置107上。
在服务器200中,一个通信模块221接收来自客户机100的用户字典124a、语音识别数据124b、字典管理信息124c等。另外,通信模块221把语音识别数据124b的语音识别结果等送到客户机100。
一个字典管理模块223切换并选择为各识别字段(例如为名称、地址、字母符号等)准备的多种识别字典225(识别字典1至识别字典N,N是一个正整数),且从客户机100接收的用户字典124a可同时利用多种字典。
注意,为从客户机100送来的各种字典管理信息124c(输入表标识符-将要在后面描述)准备了多种识别字典225。各识别字典225都附有表示该识别字典的识别字段的识别字典标识符。字典管理模块223对存储有彼此对应的这些识别字典标识符和输入表标识符的一种标识符表223a进行管理,如图5所示。
一个语音识别模块224,利用字典管理模块223根据语音识别数据和从客户机100接收的字典管理信息124c而为语音识别指定的识别字典225和用户字典124a,执行语音识别。
注意用户字典124a是由用户准备的,以寄存将要受到语音识别的识别词,并存储将要被识别的词的彼此对应的发音和注释,如例如图3所示。
语音识别数据124b可以是语音输入模块121所A/D转换的语音数据或通过对该语音数据进行编码所获得的数据。
字典管理信息124c表明了一个输入对象等。例如,当服务器200识别输入语音并把与该语音识别结果对应的文本数据输入到各个输入表(该各个输入表定义了由第一实施例的语音识别系统所显示的一个语音输入窗口,如图4所示)中时,字典管理信息124c是表示输入表的类型的一个标识符(输入表标识符)。客户机100把这种输入表标识符送到服务器200,作为字典管理信息124c。在服务器200中,字典管理模块223对标识符表223a进行查询,以获得与该接收的输入表标识符相应的一个识别字典标识符,并确定在语音识别中将要采用的一个识别字典225。
以下利用图6说明第一实施例的语音识别系统所执行的处理。
图6是显示第一实施例的语音识别系统所执行的处理的流程图。
在步骤S101,客户机100把用户字典124a送到服务器200。
在步骤S201,服务器200从客户机100接收用户字典124a。
在步骤S102,当语音作为一种目标语音输入而被输入到一个输入表时,客户机100把该输入表的输入表标识符作为字典管理信息124c而送到服务器200。
在步骤S202,服务器200接收来自客户机100的该输入表标识符,作为字典管理信息124c。
在步骤S203,服务器200利用该字典管理信息124c对标识符表223a进行查询,以获得与所接收的输入表标识符相应的识别字典标识符,并确定将要在语音识别中采用的一个识别字典225。
在步骤S103,客户机100把作为将要输入到各个输入表的文本数据而语音输入的语音识别数据124b送到服务器200。
在步骤S204,服务器200接收来自客户机100的彼此相应的语音识别数据。
在步骤S205,服务器200,利用字典管理模块223为语音识别指定的用户字典124a和识别字典225,执行语音识别模块224中的语音识别数据124b的语音识别。
在该第一实施例中,包含在从客户机100送到服务器200的用户字典124a中的所有识别词都被用于语音识别模块224进行的语音识别中。
在步骤S206,服务器200把语音识别模块224获得的语音识别结果送到客户机100。
在步骤S104,客户机100接收来自服务器200的与各个输入表相应的语音识别结果,并把与该语音识别结果相应的文本数据存储在相应的输入表中。
客户机100在步骤S105检查该处理是否完成。如果该处理未结束(步骤S105为“否”),流程返回到步骤S102以重复该处理。另一方面,如果处理将要结束(步骤S105为“是”),客户机100向服务器200通知处理的结束,并结束处理。
在步骤S207检查是否探测到了来自客户机100的一个处理结束指令。如果未探测到处理结束指令(步骤S207为“否”),流程返回到步骤S202以重复上述处理。另一方面,如果已经探测到了处理结束指令(步骤S207为“是”),处理结束。
在上述处理中,当语音作为一种目标语音输入而被输入到一个输入表时,与该输入表对应的字典管理信息124c被从客户机100送到服务器200。或者,当作为目标语音输入的输入表被来自输入装置106的一个指令所注意(作为一个目标语音输入的该输入表得到确定)时,该字典管理信息124c可得到发送。
在服务器200中,语音识别是在所有语音识别数据124b得到接收之后进行的。或者,每当语音作为文本数据而被输入到一个给定的输入表时,语音识别数据124b的该部分可以一帧一帧地被送到服务器200(例如,一帧是10毫秒的语音数据),且语音识别能够实时进行。
如上所述,根据第一实施例,在该客户机-服务器语音识别系统中,由于服务器200利用一个适当的识别字典225和用户字典124a而执行语音识别数据124b的语音识别,服务器200中的语音识别精度能够得到改善,同时减小了处理负荷和对客户机100中与语音识别相关的存储资源的使用。(第二实施例)
在第一实施例中,如果没有将要存储到用户字典124a中的识别词得到产生,由于用户字典124a不需要得到使用,只有当从客户机100接收到用户字典124a的一个使用请求时,服务器200在识别中可使用用户字典124a中的所有识别词。
在此情况下,表示用户字典124a是否被使用的一个标记作为字典管理信息124c而被加上,从而通知服务器200用户字典124a是否得到使用。(第三实施例)
由于用户字典124a中的某些目标识别词根据输入对象、情况等而不被使用,只有在用户字典124a中的特定的识别词可根据输入对象和情况而在识别中得到使用。
在这样的情况下,当用户字典通过为相应的识别词指定输入表标识符而得到管理时,如图7所示,只有具有在语音输入中得到使用的输入表的输入表标识符的识别词能够在识别中得到采用。或者,可以为一个给定的识别词指定多个输入表标识符。另外,用户字典可通过指定代替输入表标识符的识别字典标识符而得到管理,如图8所示。(第四实施例)
通过结合第二和第三实施例,语音识别模块224的语音识别处理的效率能够得到进一步的改善。(第五实施例)
本发明的设备的多数处理可通过程序而得到实施。如上所述,由于该设备可采用诸如个人计算机的通用设备,本发明也可通过向一种系统或设备提供把能够实施上述实施例的功能的一种软件程序的程序码并由该系统或设备的一个计算机读出和执行存储在该存储介质中的该程序码,而得到实现。在此情况下,从存储介质读出的该程序码本身实施了上述实施例的功能,且该存储该程序码的存储介质构成了本发明。作为用于提供该程序码的存储介质,可采用例如一个软盘、一个硬盘、光盘、磁-光盘、CD-ROM、磁带、非易失存储卡、ROM、等等。
本发明还可通过向一个计算机提供记录该程序码的该存储介质并执行由在该计算机上运行的一种OS的某些或全部实际处理,而得到实现。进一步地,上述实施例的功能,可由设置在一种功能扩展板或一种功能扩展单元上的一个CPU等所执行的某些或全部实际处理操作,来进行实施,该功能扩展板或功能扩展单元在从该存储介质读出的程序码被写入到该功能扩展板或单元的一个存储器中之后被插入或连接到该计算机。当本发明被应用于该存储介质时,该存储介质存储了与图3所示的流程图相应的程序码。
由于在不脱离本发明的精神和范围的前提下可以实现很多非常不同实施例,因而应该理解的是本发明不限于这些具体的实施例,而只由所附权利要求书来限定。
Claims (42)
1.一种客户机-服务器语音识别系统,用于识别一个服务器在一个客户机的语音输入,
该客户机包括:
语音输入装置,用于输入语音;
用户字典保持装置,用于保持通过寄存由用户指定的目标识别词而形成的一个用户字典;以及
发送装置,用于把由所述语音输入装置输入的语音数据、用于确定一个识别字典-该识别字典被用来识别该语音数据-的一个识别字段的字典管理信息、以及该用户字典发送进行该服务器,且
该服务器包括:
识别字典保持装置,用于保持为各识别字段准备的多种识别字典;
确定装置,用于从该多种识别字典确定与从该客户机接收的该字典管理信息相应的一或多个识别字典;以及
识别装置,用于至少利用所述确定装置确定的识别字典来识别该语音数据。
2.根据权利要求1的系统,其中所述识别装置利用所述确定装置确定的识别字典和从客户机接收的该用户字典来识别该语音数据。
3.根据权利要求1的系统,其中所述语音输入装置包括用于显示作为目标语音输入的一种输入表的显示装置,且
该字典管理信息是表示该输入表的类型的一种输入表标识符。
4.根据权利要求1的系统,其中该字典管理信息包含表示该用户字典是否被用在语音数据的识别中的信息。
5.根据权利要求1的系统,其中该用户字典是通过彼此对应地存储目标识别词的发音和注释而形成的。
6.根据权利要求3的系统,其中该用户字典是通过还彼此对应地存储至少一个输入表标识符和目标识别词而形成的。
7.根据权利要求1的系统,其中该用户字典是通过还存储表示该多种识别字典的识别字段的至少一个识别字典标识符和该目标识别词而形成的。
8.根据权利要求1的系统,其中该语音数据是通过对那种语音数据进行编码而获得的数据
9.用于识别由一个服务器在一个客户机输入的语音的一种客户机-服务器语音识别系统的控制方法,包括:
一个语音输入步骤,用于输入语音;
一个用户字典保持步骤,用于在该客户机中保持一个用户字典,该用户字典是通过寄存由一个用户指定的目标识别词而形成的;以及
一个发送步骤,用于把在该语音输入步骤输入的语音数据、字典管理信息-该信息用于确定用来识别语音数据的一个识别字典的一个识别字段、以及该用户字典发送给该服务器;
一个识别字典保持步骤,用于在该服务器中保持为各个识别字段准备的多种识别字典;
一个确定步骤,用于从该多种识别字典确定与从客户机接收的该字典管理信息相应的一或多个识别字典;以及
一个识别步骤,用于至少利用在该确定步骤中确定的识别字典来识别该语音数据。
10.根据权利要求9的方法,其中该识别步骤包括利用在确定步骤中确定的识别字典和从客户机接收的该用户字典来识别该语音数据的一个步骤。
11.根据权利要求9的方法,其中该语音输入步骤包括用于显示作为一种目标语音输入的一种输入表的一个显示步骤,且
该字典管理信息是表示输入表的类型的一种输入表标识符。
12.根据权利要求9的方法,其中该字典管理信息包含表示该用户字典是否被用作语音数据的识别中的信息。
13.根据权利要求9的方法,其中该用户字典是通过彼此对应地存储目标识别词的发音和注释而形成的。
14.根据权利要求11的方法,其中该用户字典是通过还彼此对应地存储至少输入表标识符和目标识别词而形成的。
15.根据权利要求9的方法,其中该用户字典是通过还存储表示该多种识别字典的识别字段的至少一个识别字典标识符和该目标识别词而形成的。
16.根据权利要求9的方法,其中该语音数据是通过对那种语音数据进行进行编码而获得的数据。
17.一种计算机可读取存储器,它存储有一种程序码,该程序码用于控制用于识别一个服务器在一个客户机输入的语音的一种客户机-服务器语音识别系统,包括:
一个语音输入步骤的程序码,该语音输入步骤用于输入语音;
一个用户字典保持步骤的程序码,该用户字典保持步骤用于在该客户机中保持一个用户字典,该用户字典是通过寄存由一个用户指定的目标识别词而形成的;以及
一个发送步骤的程序码,该发送步骤用于把在该语音输入步骤输入的语音数据、字典管理信息-该信息用于确定用来识别语音数据的一个识别字典的一个识别字段、以及该用户字典发送给该服务器;
一个识别字典保持步骤的程序码,该识别字典保持步骤用于在该服务器中保持为各个识别字段准备的多种识别字典;
一个确定步骤的程序码,该确定步骤用于从该多种识别字典确定与从客户机接收的该字典管理信息相应的一或多个识别字典;以及
一个识别步骤的程序码,该识别步骤用于至少利用在该确定步骤中确定的识别字典来识别该语音数据。
18.一种语音识别服务器,用于识别在一个客户机的语音输入并把一种识别结果送到该客户机,包括:
接收装置,用于从该客户机接收语音数据、用来确定一个识别字典的一个识别字段的字典管理信息-该识别字典用于识别该语音数据、以及通过寄存用户指定的目标识别词而形成的一个用户字典;
识别字典保持装置,用于保持为各识别字段准备的多种识别字典;
确定装置,用于从该多种识别字典中确定与从该客户机接收的该字典管理信息相应的一或多个识别字典;以及
识别装置,用于至少利用所述确定装置确定的该识别字典来识别该语音数据。
19.根据权利要求18的服务器,其中所述识别装置利用所述确定装置确定的识别字典和从客户机接收的用户字典对语音数据进行识别。
20.根据权利要求18的服务器,其中该语音数据是通过对那种语音数据进行编码而获得的数据。
21.一种语音识别客户机,用于把输入的所要识别的语音送到一个服务器,并接收那种语音的一个识别结果,包括:
语音输入装置,用于输入语音;
用户字典保持装置,用于保持通过对用户指定的目标识别词进行寄存而形成的一个用户字典;以及
发送装置,用于把所述语音输入装置输入的语音数据、用于确定一个识别字典的一个识别字段的字典管理信息-该识别字典被用来识别该语音数据、以及该用户字典发送给该服务器。
22.根据权利要求21的客户机,其中所述语音输入装置包括用于显示作为一个目标语音输入的一个输入表的显示装置,且
该字典管理信息是表示输入表的一个类型的一种输入表标识符。
23.根据权利要求21的客户机,其中该字典管理信息包含表示该用户字典是否被用在该语音数据的识别中的信息。
24.根据权利要求21的客户机,其中该用户字典是通过彼此对应地存储目标识别词的发音和注释而形成的。
25.根据权利要求22的客户机,其中该用户字典是通过还彼此对应地存储至少一个输入表标识符和目标识别词而形成的。
26.根据权利要求21的客户机,其中该用户字典是通过还存储至少一个包括该多种识别字典的识别字典标识符和该目标识别词而形成的。
27.根据权利要求21的客户机,其中该语音数据是通过对那种语音数据进行编码而获得的数据。
28.用于识别在一个客户机的语音输入并把一个识别结果发送到一个客户机的一种语音识别服务器的一种控制方法,包括:
一个接收步骤,用于从该客户机接收语音数据、用于确定一个识别字典的一个识别字段的字典管理信息-该识别字典被用来识别该语音数据、以及通过寄存用户指定的目标识别词而形成的一个用户字典;
一个识别字典保持步骤,用于保持为各识别字段准备的多种识别字典;
一个确定步骤,用于从该多种识别字典确定与从该客户机接收的该字典管理信息相应的一或多个识别字典;以及
一个识别步骤,用于至少利用在该确定步骤中确定的识别字典来识别该语音数据。
29.根据权利要求28的方法,其中该识别步骤包括利用在该确定步骤中确定的该识别字典和从该客户机接收的用户字典对该语音数据进行识别的步骤。
30.根据权利要求1的方法,其中该语音数据是通过对那种语音数据进行编码而获得的数据。
31.用于把所要识别的输入语音送到一个服务器并接收该语音的识别结果的一种语音识别客户机的一种控制方法,包括:
一个语音输入步骤,用于输入语音;
一个用户字典保持步骤,用于保持通过对用户指定的目标识别词进行寄存而形成的一个用户字典;以及
一个发送步骤,用于把在该语音输入步骤输入的语音数据、用于确定一个识别字典的一个识别字段的字典管理信息-该识别字典被用来识别该语音数据、以及该用户字典发送到该服务器。
32.根据权利要求31的方法,其中该语音输入步骤包括显示作为一个目标语音输入的一个输入表的一个显示步骤,且
该字典管理信息是表示输入表的类型的一个输入表标识符。
33.根据权利要求31的方法,其中该字典管理信息包含表示该用户字典是否被用在该语音数据的识别中的信息。
34.根据权利要求31的方法,其中该用户字典是通过彼此对应地存储目标识别词的发音和注释而形成的。
35.根据权利要求32的方法,其中该用户字典是通过还彼此对应地存储至少一个输入表标识符和目标识别词而形成的。
36.根据权利要求31的方法,其中该用户字典是通过还存储表示该多种识别字典的识别字段的至少一个识别字典标识符和该目标识别词而形成的。
37.根据权利要求31的方法,其中该语音数据是通过对那种语音数据进行编码而获得的数据。
38.一种计算机可读取存储器,它存储用于识别在一个客户机输入的语音并把一个识别结果送到该客户机的一个语音识别服务器的控制的程序码,包括:
一种接收步骤的程序码,该识别步骤用于从该客户机接收语音数据、用于确定一个识别字典的一个识别字段的字典管理信息-该识别字典被用来识别该语音数据、以及通过寄存一个用户指定的目标识别词而形成的一个用户字典;
一个识别字典保持步骤的程序码,该识别字典保持步骤用于保持为各识别字段而准备的多种识别字典;
一个确定步骤的程序码,该确定步骤用于从该多种识别字典确定与从该客户机接收的字典管理信息相应的一或多个识别字典;以及
一个识别步骤的程序码,该识别步骤用于至少利用在该确定步骤确定的识别字典来识别该语音数据。
39.一种计算机可读取存储器,它存储一个语音识别客户机的控制的程序码,该语音识别客户机用于把所要识别的输入语音送到一个服务器并接收该速度的识别结果,包括:
一个语音输入步骤的程序码,该语音输入步骤用于输入语音;
一个识别字典保持步骤的程序码,该用户字典保持步骤用于保持通过对用户指定的目标识别词进行寄存而形成的一个用户字典;以及
一个发送步骤的程序码,该发送步骤用于把在语音输入步骤输入的语音数据、用于确定一个识别字典的一个识别字段的字典管理信息-该识别字典被用来识别该语音数据、以及该用户字典发送到该服务器。
40.用于识别由一个服务器在一个客户机输入的语音的一种客户机-服务器语音识别系统,
该客户机包括:
一个语音输入装置,用于输入语音;
一个用户字典保持装置,用于保持通过对用户指定的目标识别词进行寄存而形成的一个用户字典;以及
一个发送器,用于把所述语音输入装置输入的语音数据、用于确定一个识别字典的一个识别字段的字典管理信息-该识别字典被用来识别该语音数据、以及该用户字典送到该服务器,以及
一个服务器,包括:
一个识别字典保持单元,用于保持为各识别字段准备的多种识别字典;
一个确定单元,用于从该多种识别字典中确定与从该客户机接收的字典管理信息相应的一或多个识别字典;以及
一个识别单元,用于至少利用所述确定单元确定的识别字典来识别该语音数据。
41.用于识别在一个客户机输入的语音并把识别结果送到该客户机的一种语音识别服务器,包括:
一个接收器,用于从该客户机接收语音数据、用于确定一个识别字典的一个识别字段的字典管理信息-该识别字典被用来识别该语音数据、以及通过对用户指定的目标识别词进行寄存而形成的一个用户字典;
一个识别字典保持单元,用于保持为各个识别字段准备的多种识别字典;
一个确定单元,用于从该多种识别字典确定与从该客户机接收的字典管理信息相应的一或多个识别字典;以及
一个识别单元,用于至少利用所述确定单元确定的识别字典而识别该语音数据。
42.一种语音识别客户机,用于把所要识别的输入语音送到一个服务器并接收该语音的识别结果,包括:
一个语音输入单元,用于输入语音;
一个用户字典保持单元,用于保持通过对用户指定的目标识别词进行寄存而形成的一个用户字典;以及
一个发送器,用于把所述语音输入装置输入的语音数据、用来确定一个识别字典的一个识别字段的字典管理信息-该识别字典被用来识别该语音数据、以及该用户字典发送到该服务器。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2000360203A JP3581648B2 (ja) | 2000-11-27 | 2000-11-27 | 音声認識システム、情報処理装置及びそれらの制御方法、プログラム |
JP360203/2000 | 2000-11-27 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1356688A true CN1356688A (zh) | 2002-07-03 |
CN1187733C CN1187733C (zh) | 2005-02-02 |
Family
ID=18831838
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNB011394773A Expired - Fee Related CN1187733C (zh) | 2000-11-27 | 2001-11-27 | 语音识别系统、服务器、客户机及其控制方法 |
Country Status (7)
Country | Link |
---|---|
US (1) | US7099824B2 (zh) |
EP (1) | EP1209662B1 (zh) |
JP (1) | JP3581648B2 (zh) |
KR (1) | KR100679113B1 (zh) |
CN (1) | CN1187733C (zh) |
AT (1) | ATE353463T1 (zh) |
DE (1) | DE60126462T2 (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101079885B (zh) * | 2007-06-26 | 2010-09-01 | 中兴通讯股份有限公司 | 一种提供自动语音识别统一开发平台的系统和方法 |
CN103474063A (zh) * | 2013-08-06 | 2013-12-25 | 福建华映显示科技有限公司 | 语音辨识系统以及方法 |
CN103839549A (zh) * | 2012-11-22 | 2014-06-04 | 腾讯科技(深圳)有限公司 | 一种语音指令控制方法及系统 |
CN105009206A (zh) * | 2013-03-06 | 2015-10-28 | 三菱电机株式会社 | 语音识别装置和语音识别方法 |
WO2015165257A1 (zh) * | 2014-04-30 | 2015-11-05 | 中兴通讯股份有限公司 | 语音识别方法、装置、系统及计算机存储介质 |
CN112100987A (zh) * | 2020-09-27 | 2020-12-18 | 中国建设银行股份有限公司 | 一种多源数据字典的转码方法及装置 |
Families Citing this family (46)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7003463B1 (en) | 1998-10-02 | 2006-02-21 | International Business Machines Corporation | System and method for providing network coordinated conversational services |
US7409349B2 (en) | 2001-05-04 | 2008-08-05 | Microsoft Corporation | Servers for web enabled speech recognition |
US7506022B2 (en) * | 2001-05-04 | 2009-03-17 | Microsoft.Corporation | Web enabled recognition architecture |
US7610547B2 (en) | 2001-05-04 | 2009-10-27 | Microsoft Corporation | Markup language extensions for web enabled recognition |
US7366673B2 (en) | 2001-06-15 | 2008-04-29 | International Business Machines Corporation | Selective enablement of speech recognition grammars |
US8229753B2 (en) | 2001-10-21 | 2012-07-24 | Microsoft Corporation | Web server controls for web enabled recognition and/or audible prompting |
US7711570B2 (en) * | 2001-10-21 | 2010-05-04 | Microsoft Corporation | Application abstraction with dialog purpose |
JP3542578B2 (ja) * | 2001-11-22 | 2004-07-14 | キヤノン株式会社 | 音声認識装置及びその方法、プログラム |
JP2004325688A (ja) * | 2003-04-23 | 2004-11-18 | Toyota Motor Corp | 音声認識システム |
US7260535B2 (en) | 2003-04-28 | 2007-08-21 | Microsoft Corporation | Web server controls for web enabled recognition and/or audible prompting for call controls |
US20040230637A1 (en) * | 2003-04-29 | 2004-11-18 | Microsoft Corporation | Application controls for speech enabled recognition |
DE10329546A1 (de) * | 2003-06-30 | 2005-01-20 | Daimlerchrysler Ag | Lexikon gesteuerter Teilsprachmodell-Mechanismus für die automatische Spracherkennung |
US8311835B2 (en) | 2003-08-29 | 2012-11-13 | Microsoft Corporation | Assisted multi-modal dialogue |
JP2005128076A (ja) * | 2003-10-21 | 2005-05-19 | Ntt Docomo Inc | 端末からの音声データを認識する音声認識システム及び方法 |
US20050119892A1 (en) | 2003-12-02 | 2005-06-02 | International Business Machines Corporation | Method and arrangement for managing grammar options in a graphical callflow builder |
US8160883B2 (en) | 2004-01-10 | 2012-04-17 | Microsoft Corporation | Focus tracking in dialogs |
US7552055B2 (en) | 2004-01-10 | 2009-06-23 | Microsoft Corporation | Dialog component re-use in recognition systems |
US8589156B2 (en) * | 2004-07-12 | 2013-11-19 | Hewlett-Packard Development Company, L.P. | Allocation of speech recognition tasks and combination of results thereof |
US20060095266A1 (en) * | 2004-11-01 | 2006-05-04 | Mca Nulty Megan | Roaming user profiles for speech recognition |
US8275618B2 (en) * | 2004-12-22 | 2012-09-25 | Nuance Communications, Inc. | Mobile dictation correction user interface |
CN103050117B (zh) * | 2005-10-27 | 2015-10-28 | 纽昂斯奥地利通讯有限公司 | 用于处理口述信息的方法和系统 |
US7774202B2 (en) | 2006-06-12 | 2010-08-10 | Lockheed Martin Corporation | Speech activated control system and related methods |
JPWO2008007688A1 (ja) * | 2006-07-13 | 2009-12-10 | 日本電気株式会社 | 音声認識機能を有する通話端末、その音声認識辞書の更新支援装置及び更新方法 |
US8214208B2 (en) * | 2006-09-28 | 2012-07-03 | Reqall, Inc. | Method and system for sharing portable voice profiles |
KR100913130B1 (ko) * | 2006-09-29 | 2009-08-19 | 한국전자통신연구원 | 사용자 프로파일을 이용한 음성 인식 서비스 방법 및 장치 |
JP4859642B2 (ja) * | 2006-11-30 | 2012-01-25 | 富士通株式会社 | 音声情報管理装置 |
WO2008114708A1 (ja) * | 2007-03-14 | 2008-09-25 | Nec Corporation | 音声認識システム、音声認識方法、および音声認識処理プログラム |
TWI336048B (en) * | 2007-05-11 | 2011-01-11 | Delta Electronics Inc | Input system for mobile search and method therefor |
JP4749437B2 (ja) * | 2008-03-28 | 2011-08-17 | 三菱電機インフォメーションシステムズ株式会社 | 音声文字変換装置、音声文字変換方法及び音声文字変換プログラム |
JP4815463B2 (ja) * | 2008-03-28 | 2011-11-16 | 三菱電機インフォメーションシステムズ株式会社 | 音声文字変換装置、音声文字変換方法及び音声文字変換プログラム |
JP4749438B2 (ja) * | 2008-03-28 | 2011-08-17 | 三菱電機インフォメーションシステムズ株式会社 | 音声文字変換装置、音声文字変換方法及び音声文字変換プログラム |
US8019608B2 (en) | 2008-08-29 | 2011-09-13 | Multimodal Technologies, Inc. | Distributed speech recognition using one way communication |
JP5471106B2 (ja) * | 2009-07-16 | 2014-04-16 | 独立行政法人情報通信研究機構 | 音声翻訳システム、辞書サーバ装置、およびプログラム |
US20120330662A1 (en) * | 2010-01-29 | 2012-12-27 | Nec Corporation | Input supporting system, method and program |
US9953653B2 (en) | 2011-01-07 | 2018-04-24 | Nuance Communications, Inc. | Configurable speech recognition system using multiple recognizers |
KR20130016644A (ko) * | 2011-08-08 | 2013-02-18 | 삼성전자주식회사 | 음성인식장치, 음성인식서버, 음성인식시스템 및 음성인식방법 |
WO2014055076A1 (en) | 2012-10-04 | 2014-04-10 | Nuance Communications, Inc. | Improved hybrid controller for asr |
USRE48569E1 (en) * | 2013-04-19 | 2021-05-25 | Panasonic Intellectual Property Corporation Of America | Control method for household electrical appliance, household electrical appliance control system, and gateway |
CN104217720B (zh) * | 2013-05-29 | 2019-03-01 | 腾讯科技(深圳)有限公司 | 一种基于短连接实现通讯录语音识别的方法、系统和装置 |
KR102325724B1 (ko) * | 2015-02-28 | 2021-11-15 | 삼성전자주식회사 | 다수의 기기에서 텍스트 데이터 동기화 |
US10049666B2 (en) * | 2016-01-06 | 2018-08-14 | Google Llc | Voice recognition system |
US10971157B2 (en) | 2017-01-11 | 2021-04-06 | Nuance Communications, Inc. | Methods and apparatus for hybrid speech recognition processing |
JP6883471B2 (ja) * | 2017-05-11 | 2021-06-09 | オリンパス株式会社 | 収音装置、収音方法、収音プログラム、ディクテーション方法及び情報処理装置 |
KR20190096853A (ko) * | 2019-07-30 | 2019-08-20 | 엘지전자 주식회사 | 음성 처리 방법 및 음성 처리 장치 |
JP7463690B2 (ja) * | 2019-10-31 | 2024-04-09 | 株式会社リコー | サーバ装置、通信システム、情報処理方法、プログラムおよび記録媒体 |
TWI752474B (zh) * | 2020-04-22 | 2022-01-11 | 莊連豪 | 無障礙智能語音系統及其控制方法 |
Family Cites Families (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0695683A (ja) * | 1992-09-10 | 1994-04-08 | Fujitsu Ltd | 音声認識装置 |
JP3725566B2 (ja) | 1992-12-28 | 2005-12-14 | 株式会社東芝 | 音声認識インターフェース |
EP0607615B1 (en) * | 1992-12-28 | 1999-09-15 | Kabushiki Kaisha Toshiba | Speech recognition interface system suitable for window systems and speech mail systems |
TW274135B (zh) * | 1994-09-14 | 1996-04-11 | Hitachi Seisakusyo Kk | |
JP3267064B2 (ja) * | 1994-09-20 | 2002-03-18 | 株式会社日立製作所 | パターン情報処理装置 |
JPH08180141A (ja) * | 1994-12-20 | 1996-07-12 | Matsushita Electric Ind Co Ltd | 文字認識システム |
JPH08272789A (ja) | 1995-03-30 | 1996-10-18 | Mitsubishi Electric Corp | 言語情報変換装置 |
US5774628A (en) * | 1995-04-10 | 1998-06-30 | Texas Instruments Incorporated | Speaker-independent dynamic vocabulary and grammar in speech recognition |
US6078886A (en) * | 1997-04-14 | 2000-06-20 | At&T Corporation | System and method for providing remote automatic speech recognition services via a packet network |
KR19990009682A (ko) * | 1997-07-11 | 1999-02-05 | 김유승 | 화자인식 원격 클라이언트 계정 검증 시스템 및 화자검증방법 |
EP0954855B1 (en) * | 1997-11-14 | 2003-05-21 | Koninklijke Philips Electronics N.V. | Method and system arranged for selective hardware sharing in a speech-based intercommunication system with speech processing on plural levels of relative complexity |
US6195641B1 (en) * | 1998-03-27 | 2001-02-27 | International Business Machines Corp. | Network universal spoken language vocabulary |
JPH11308270A (ja) | 1998-04-22 | 1999-11-05 | Olympus Optical Co Ltd | 通信システム及びそれに用いられる端末装置 |
JP2000075887A (ja) | 1998-08-31 | 2000-03-14 | Sony Corp | パターン認識装置、方法及びシステム |
JP2000206983A (ja) | 1999-01-19 | 2000-07-28 | Sony Corp | 情報処理装置および方法、並びに提供媒体 |
KR100647420B1 (ko) * | 1999-12-13 | 2006-11-17 | 주식회사 케이티 | 클라이언트/서버 모델을 활용한 음성인식 시스템 및 그를 이용한 음성인식 서비스 제공방법 |
CN1315721A (zh) * | 2000-03-23 | 2001-10-03 | 韦尔博泰克有限公司 | 客户服务器语音信息传送系统与方法 |
-
2000
- 2000-11-27 JP JP2000360203A patent/JP3581648B2/ja not_active Expired - Fee Related
-
2001
- 2001-11-26 KR KR1020010073679A patent/KR100679113B1/ko not_active IP Right Cessation
- 2001-11-27 EP EP01309945A patent/EP1209662B1/en not_active Expired - Lifetime
- 2001-11-27 AT AT01309945T patent/ATE353463T1/de not_active IP Right Cessation
- 2001-11-27 CN CNB011394773A patent/CN1187733C/zh not_active Expired - Fee Related
- 2001-11-27 DE DE60126462T patent/DE60126462T2/de not_active Expired - Lifetime
- 2001-11-27 US US09/993,570 patent/US7099824B2/en not_active Expired - Fee Related
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101079885B (zh) * | 2007-06-26 | 2010-09-01 | 中兴通讯股份有限公司 | 一种提供自动语音识别统一开发平台的系统和方法 |
CN103839549A (zh) * | 2012-11-22 | 2014-06-04 | 腾讯科技(深圳)有限公司 | 一种语音指令控制方法及系统 |
CN105009206A (zh) * | 2013-03-06 | 2015-10-28 | 三菱电机株式会社 | 语音识别装置和语音识别方法 |
CN105009206B (zh) * | 2013-03-06 | 2018-02-09 | 三菱电机株式会社 | 语音识别装置和语音识别方法 |
CN103474063A (zh) * | 2013-08-06 | 2013-12-25 | 福建华映显示科技有限公司 | 语音辨识系统以及方法 |
CN103474063B (zh) * | 2013-08-06 | 2015-12-23 | 福建华映显示科技有限公司 | 语音辨识系统以及方法 |
WO2015165257A1 (zh) * | 2014-04-30 | 2015-11-05 | 中兴通讯股份有限公司 | 语音识别方法、装置、系统及计算机存储介质 |
CN112100987A (zh) * | 2020-09-27 | 2020-12-18 | 中国建设银行股份有限公司 | 一种多源数据字典的转码方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
JP3581648B2 (ja) | 2004-10-27 |
CN1187733C (zh) | 2005-02-02 |
JP2002162988A (ja) | 2002-06-07 |
US20020065652A1 (en) | 2002-05-30 |
KR20020041296A (ko) | 2002-06-01 |
US7099824B2 (en) | 2006-08-29 |
DE60126462D1 (de) | 2007-03-22 |
EP1209662A2 (en) | 2002-05-29 |
DE60126462T2 (de) | 2007-11-15 |
ATE353463T1 (de) | 2007-02-15 |
EP1209662B1 (en) | 2007-02-07 |
EP1209662A3 (en) | 2004-01-28 |
KR100679113B1 (ko) | 2007-02-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN1187733C (zh) | 语音识别系统、服务器、客户机及其控制方法 | |
CN1150452C (zh) | 语音识别校正方法和装置 | |
CN101068271A (zh) | 电话纪要生成系统、通信终端、媒体服务器及方法 | |
CN1581294A (zh) | 语音识别增强的呼叫者识别 | |
CN1770770A (zh) | 启用智能的和轻型的语音到文本转录的方法和系统 | |
CN1658687A (zh) | 利用移动消息接收机和服务器的基于命令的分组sms | |
CN1346486A (zh) | 用于语音启动装置的讲话用户接口 | |
CN1538383A (zh) | 用于移动计算设备的分布式语音识别 | |
CN1764945A (zh) | 分布式语音识别系统 | |
CN1516114A (zh) | 信号处理装置 | |
CN1737902A (zh) | 文字语音互转装置 | |
CN1748245A (zh) | 三级单个单词识别 | |
CN101075239A (zh) | 一种复合搜索方法和系统 | |
CN1323436A (zh) | 声音识别装置 | |
CN1645363A (zh) | 便携式即时方言互译装置及其方法 | |
CN1416053A (zh) | 语音合成系统和语音合成方法 | |
CN1613108A (zh) | 多人的网络可访问依赖于说话者的声音模型 | |
CN1812608A (zh) | 移动终端及其启动方法 | |
CN1429040A (zh) | 可群呼式语音发信息系统 | |
CN1101025C (zh) | 语音命令控制器的训练与识别方法 | |
CN1542733A (zh) | 依照语音查询单词的系统及方法 | |
CN1748244A (zh) | 用于分布式语音识别的音高量化 | |
CN1321038A (zh) | 使用互连网的消息系统和方法 | |
CN100346625C (zh) | 一种电话语音交互系统及其实现方法 | |
CN1149532C (zh) | 语音识别系统中的逆向追踪矩阵存储方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C06 | Publication | ||
PB01 | Publication | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20050202 Termination date: 20151127 |
|
CF01 | Termination of patent right due to non-payment of annual fee |