CN106796586A - 基于语音识别的拨号 - Google Patents
基于语音识别的拨号 Download PDFInfo
- Publication number
- CN106796586A CN106796586A CN201480082649.0A CN201480082649A CN106796586A CN 106796586 A CN106796586 A CN 106796586A CN 201480082649 A CN201480082649 A CN 201480082649A CN 106796586 A CN106796586 A CN 106796586A
- Authority
- CN
- China
- Prior art keywords
- language
- electronic installation
- speech recognition
- model
- acoustic model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000009434 installation Methods 0.000 claims abstract description 138
- 238000000034 method Methods 0.000 claims abstract description 27
- 238000010586 diagram Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 238000004590 computer program Methods 0.000 description 3
- 241001672694 Citrus reticulata Species 0.000 description 2
- 241000238558 Eucarida Species 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 238000011900 installation process Methods 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/42—Systems providing special services or facilities to subscribers
- H04M3/42204—Arrangements at the exchange for service or number selection by voice
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/005—Language recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W4/00—Services specially adapted for wireless communication networks; Facilities therefor
- H04W4/02—Services making use of location information
- H04W4/029—Location-based management or tracking services
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Signal Processing (AREA)
- Telephone Function (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明提供一种基于语音识别的拨号方法和一种基于语音识别的拨号系统。所述方法包括:基于用户的语音输入、至少一个声学模型和至少一个语言模型而确定识别结果,其中所述至少一个声学模型和所述至少一个语言模型是基于电子装置中收集的信息而获得。所述系统包括:基于电子装置中收集的信息而获得至少一个声学模型和至少一个语言模型;以及基于用户的语音输入、所述至少一个声学模型和所述至少一个语言模型而确定识别结果。基于所述电子装置中收集的所述信息而更新所述声学模型和所述语言模型,这可以有助于所述基于语音识别的拨号。
Description
技术领域
本发明总体涉及基于语音识别的拨号。
背景技术
语音拨号是电子装置,诸如电话或安装在车辆上的音响单元中的有用功能,有了所述功能,电子装置可使用语音识别技术在电话簿内检索联系人姓名或电话号码。在一些现有的解决方案中,电子装置只支持用特定语言,诸如汉语、英语和日语来拨号,所述特定语言的对应的声学模型和语言模型已预先存储在电子装置中。
发明内容
在一个实施方案中,提供了基于语音识别的拨号方法。所述方法包括:基于用户的语音输入、至少一个声学模型和至少一个语言模型而确定识别结果,其中至少一个声学模型和至少一个语言模型是基于电子装置中收集的信息而获得。
在一些实施方案中,电子装置中收集的信息可以包括用语言书写的内容,并且至少一个声学模型和至少一个语言模型对应于所述语言。
在一些实施方案中,电子装置中收集的信息可以指示地点,并且至少一个声学模型和至少一个语言模型对应于所述地点内使用的语言。
在一些实施方案中,所收集的信息可以包括电子装置中的电话簿中的内容。在一些实施方案中,电话簿中的内容可以包括联系人姓名和对应的电话号码。
在一些实施方案中,所收集的信息还可以包括电子装置的操作系统的语言。在一些实施方案中,所收集的信息还可以包括电子装置的历史位置信息。
在一些实施方案中,至少一个声学模型和至少一个语言模型可以被包含在不同的语音识别引擎中。在一些实施方案中,可以基于电子装置中收集的信息而获得至少一个语音识别引擎。
在一些实施方案中,可以基于电子装置中收集的信息而确定用户在对电子装置说出语音输入时可能使用何种语言;并且可以基于所确定的语言而获得至少一个声学模型和至少一个语言模型。
在一些实施方案中,可以将语音输入的识别结果与电话簿中的内容进行比较,并且可以将电话簿中与识别结果匹配的内容确定为是目标联系人姓名。目标联系人姓名表示包括在来自用户的语音输入中的联系人姓名,也就是说,目标联系人姓名是用户想要呼叫的人。
在一些实施方案中,所确定的目标联系人姓名可以包括多个可能的联系人姓名,并且多个可能的联系人姓名中的一个可以被用户选择来拨打电话。
在一个实施方案中,提供了基于语音识别的拨号系统。基于语音识别的拨号系统可以包括处理装置,所述处理装置用于:基于电子装置中收集的信息而获得至少一个声学模型和至少一个语言模型;并且基于用户的语音输入、至少一个声学模型和至少一个语言模型而确定识别结果。
在一些实施方案中,电子装置中收集的信息可以包括用语言书写的内容,并且至少一个声学模型和至少一个语言模型对应于所述语言。
在一些实施方案中,电子装置中收集的信息可以指示地点,并且至少一个声学模型和至少一个语言模型对应于所述地点内使用的语言。
在一些实施方案中,所收集的信息可以包括电子装置中的电话簿中的内容。在一些实施方案中,电话簿中的内容可以包括联系人姓名和对应的电话号码。
在一些实施方案中,所收集的信息还可以包括电子装置的操作系统的语言。在一些实施方案中,所收集的信息还可以包括电子装置的历史位置信息。
在一些实施方案中,电子装置可以包括麦克风以便接收用户的语音输入。
在一些实施方案中,处理装置可以安装在电子装置上。在一些实施方案中,电子装置可以是音响单元或手机。
在一些实施方案中,处理装置可以还用于:基于电子装置中收集的信息而确定用户在对电子装置说出语音输入时可能使用何种语言;并且可以基于所确定的语言而下载至少一个声学模型和至少一个语言模型。
在一些实施方案中,至少一个声学模型和至少一个语言模型被包含在不同的语音识别引擎中。在一些实施方案中,处理装置可以还用于基于电子装置中收集的信息而下载至少一个语音识别引擎。
在一些实施方案中,处理装置可以还用于:将语音输入的识别结果与电话簿中的内容进行比较;并且将电话簿中与识别结果匹配的内容确定为是目标联系人姓名。目标联系人姓名表示包括在来自用户的语音输入中的联系人姓名,也就是说,目标联系人姓名是用户想要呼叫的人。
在一些实施方案中,处理装置可以安装在服务器上。
在一些实施方案中,电子装置可以用于向服务器发送所收集的信息,并且处理装置可以还用于:基于电子装置中收集的信息而确定用户对电子装置说出的可能的语言;并且基于可能的语言而获得至少一个声学模型和至少一个语言模型。
在一些实施方案中,电子装置可以用于:基于电子装置中收集的信息而确定用户对电子装置说出的可能的语言,并向服务器发送包含可能的语言的列表,并且处理装置可以用于基于接收的可能的语言而获得至少一个声学模型和至少一个语言模型。
在一些实施方案中,电子装置可以还用于向服务器发送用户的语音输入,并且服务器可以还用于向电子装置发送识别结果。
在一些实施方案中,至少一个声学模型和至少一个语言模型被包含在不同的语音识别引擎中。在一些实施方案中,处理装置可以还用于:基于电子装置中收集的信息而获得至少一个语音识别引擎。
附图说明
本发明的前述和其他特征将从以下结合附图进行的描述和随附权利要求书中变得更充分地显而易见。应理解,这些图仅展示根据本发明的若干实施方案,并且因此不应被视为对本发明范围的限制,因而将通过使用附图来更明确且更详细地描述本发明。
图1是一般语音识别系统的示意图;
图2是根据实施方案的语音识别拨号方法100的流程图;
图3是根据实施方案的语音识别拨号方法200的流程图;
图4是根据实施方案的安装在第一车辆上的语音识别拨号系统300的示意性框图;以及
图5是根据实施方案的语音识别拨号系统400的示意性框图。
具体实施方式
在以下具体实施方式中,参考了形成其一部分的附图。在附图中,除非上下文另外指出,否则类似的符号通常标识类似的部件。在具体实施方式、附图和权利要求书中描述的说明性实施方案并不意味着是限制性的。在不脱离此处提出的主题的精神或范围的情况下,可以利用其他实施方案并且可以作出其他改变。将容易理解的是,如本文大体所述和图中所示的本发明的各方面可以多种不同的配置加以布置、替换、组合和设计,所有这些不同的配置都被本发明明确涵盖并且成为本发明的一部分。
语音拨号是电子装置中能为用户带来很大便利的功能。例如,当用户在驾驶过程中想要呼叫一个人时,他或她可能不能通过按压移动电话或音响单元上的对应的按键,而是通过对支持语音拨号的音响单元说出联系人姓名或电话号码来给那个人拨打电话。音响单元将基于语音识别技术而检索联系人姓名或电话号码。
语音识别是将音频输入转换成文本的过程。一般而言,语音识别过程由被称为语音识别引擎的软件部件来执行。语音识别引擎的主要功能是处理音频输入,并且将所述音频输入翻译成电子装置可以读懂的文本。
图1是一般语音识别系统的示意图。
一般而言,语音识别引擎需要两种类型的文件来识别语音。一种类型是声学模型,所述声学模型通过以下方式来创建:获取语音的声学记录及其转录(获自语音库),并且(通过称为“训练”的过程)将它们“编译”成组成每个字词的声音的统计表示。另一种类型是语言模型。语言模型使用特定语法或一系列规则来定义能够被语音识别引擎识别的字词和短语。语言模型可以像字词列表一样简单,或者它可以有足够的灵活性以允许可以说出的话语具有可变性,以使得所述语言模型逼近自然语言能力。一旦语音识别引擎识别出说出的话语的最有可能的匹配,所述语音识别引擎就将其识别出的话语作为文本串返回。
在实践中,语音识别引擎可以支持若干种语言,也就是说,它可以识别若干种语言的音频输入。一般而言,一种语言对应于一个声学模型和一个语言模型。因此,为了实现语音识别,语音引擎可以包含若干个声学模型和若干个对应的语言模型。
在一些现有的解决方案中,支持语音拨号的电子装置具有预先存储在其中的若干个声学模型和对应的语言模型。另外,电子装置可以识别用户的对应于若干个声学模型和语言模型的多种语言,诸如汉语、英语和日语的语音,但是无法识别其他语言,诸如方言的其他语音。
图2示出根据实施方案的语音拨号方法100的流程图。
参考图2,在S101中,电子装置基于电子装置中收集的信息而确定语音拨号中使用的可能的语言。
在一些实施方案中,电子装置可以具有语音拨号功能。在一些实施方案中,电子装置可以是安装在车辆上的音响单元或移动电话。
在一些实施方案中,电子装置中收集的信息可以包括用语言书写的内容,并且在随后的过程中有待下载的声学模型和语言模型可以对应于所述语言。在一些实施方案中,电子装置中收集的信息可以指示地点,并且在随后的过程中有待下载的声学模型和语言模型可以对应于所述地点内使用的语言。
在一些实施方案中,所收集的信息可以包括电子装置中的电话簿中的内容。在一些实施方案中,电话簿中的内容可以包括联系人姓名和对应的电话号码。在一些实施方案中,在随后的过程中,可以基于电话簿中记录的联系人姓名的语言和电话号码的属性而下载声学模型和语言模型。
在一些实施方案中,所收集的信息还可以包括电子装置的操作系统的语言。在一些实施方案中,所收集的信息还可以包括电子装置的历史位置信息。
在一些实施方案中,可能的语言可以包括国家的官方语言或国家的各个地区的方言。
应注意到,在电子装置中收集的信息发生变化时,语音拨号中使用的可能的语言的确定过程是动态的。
在S103中,电子装置基于可能的语言而下载声学模型和语言模型。
在一些实施方案中,声学模型可以对应于语言模型,也就是说,一个声学模型对应于一个语言模型。声学模型及其对应的语言模型用来识别一种语言。
在一些实施方案中,声学模型和语言模型被包含在不同的语音识别引擎中,也就是说,可能的语言可以受到不同的语音识别引擎的支持。一个语音识别引擎可以支持一些特定的语言,但是可能无法支持世界各地的语言和方言。
例如,Siri语音识别引擎可在许多国家,诸如美国、英国、中国和加拿大运行,并且可以理解和说出多种语言和方言。Siri语音识别引擎被设计来识别受支持的国家的特定口音。所述语音识别引擎支持超过十种语言,诸如英语、西班牙语、普通话以及日语。
在另一个实例中,由iFLYTEK生产的语音识别引擎可以支持普通话、英语和粤语。
在一些实施方案中,有待下载的声学模型和语言模型可以被包含在不同的语音识别引擎中,其中不同的引擎中的一些被包含在电子装置中,并且不同的引擎中的一些未被包含在电子装置中。也就是说,一些可能的语言受到被包含在电子装置中的语音识别引擎的支持,并且一些可能的语言受到未被包含在电子装置中的语音识别引擎的支持。因此,电子装置可以进一步下载未被包含在电子装置中的语音识别引擎。
应注意到,在可能的语言随着电子装置中收集的信息而变化时,用于声学模型和语言模型的下载过程是动态的。
在S105中,在从用户接收到语音输入之后,电子装置产生对语音输入的记录。
在一些实施方案中,电子装置可以具有麦克风来接收语音输入。在接收到语音输入之后,电子装置可以记录语音输入。在一些实施方案中,语音输入可以包括电子装置中的电话簿中的联系人姓名。
在S107中,电子装置使用声学模型和语言模型来处理记录以获得所述记录的识别结果。
在一些实施方案中,记录被输入到包含声学模型和语言模型的语音识别引擎中来进行处理。
在一些实施方案中,在语音识别引擎中,记录可以被输入到声学模型中来获得音节,并且所述音节可以被输入到语言模型中来获得字词。用于语音识别的详细过程在本领域中是众所周知的,并且在此处不进行详细描述。
在一些实施方案中,在输入到语音识别引擎中之前,将记录编码。
在一些实施方案中,可以将一个下载的声学模型和一个对应的语言模型与记录进行匹配,并且从对应的语言模型获得的字词可以是识别结果。
在一些实施方案中,识别结果可以包括从超过一个语言模型获得的字词,也就是说,超过一个声学模型和超过一个对应的语言模型与所述记录匹配。识别结果可以相应地通过来自每个匹配的语言模型的识别的字词输出连同其匹配度来表示。
在S109中,电子装置将识别结果与电子装置中的电话簿中的内容进行比较,并且将电话簿中与识别结果很好地匹配的内容确定为是目标联系人姓名。
在一些实施方案中,目标联系人姓名表示包括在来自用户的语音输入中的联系人姓名,也就是说,目标联系人姓名是用户想要呼叫的人。
在S111中,电子装置拨打对应于目标联系人姓名的电话号码。
在一些实施方案中,目标联系人姓名可以包括多个可能的联系人姓名,电子装置可以将多个可能的联系人姓名呈现在显示装置上,以使得多个可能的联系人姓名中的一个可以被用户选择来拨打电话。
根据上文,基于电子装置中收集的信息诸如电话簿,操作系统的语言和电子装置的历史位置信息,电子装置可以确定用户在语音拨号中可能使用的可能的语言,并且根据所述可能的语言来下载声学模型和语言模型。以此方式,基于电子装置中收集的信息而更新声学模型和语言模型,这可以有助于基于语音识别的拨号。
图3示出根据实施方案的语音拨号方法200的流程图。
参考图3,在S201中,电子装置基于电子装置中收集的信息而确定语音拨号中使用的可能的语言。
在一些实施方案中,电子装置可以具有语音拨号功能。在一些实施方案中,电子装置可以是安装在车辆上的音响单元或移动电话。
在一些实施方案中,电子装置中收集的信息可以包括用语言书写的内容,并且在随后的过程中有待获得的声学模型和语言模型可以对应于所述语言。
在一些实施方案中,电子装置中收集的信息可以指示地点,并且在随后的过程中有待获得的声学模型和语言模型可以对应于所述地点内使用的语言。
在一些实施方案中,所收集的信息可以包括电子装置中的电话簿中的内容。在一些实施方案中,电话簿中的内容可以包括联系人姓名和对应的电话号码。在一些实施方案中,在随后的过程中,可以基于电话簿中记录的联系人姓名的语言和电话号码的属性而获得声学模型和语言模型。
在一些实施方案中,所收集的信息还可以包括电子装置的操作系统的语言。在一些实施方案中,所收集的信息还可以包括电子装置的历史位置信息。
在S203中,电子装置向服务器发送可能的语言的列表和用于向服务器请求获得对应于可能的语言的声学模型和语言模型的第一请求。
不同于以上实施方案,在一些实施方案中,电子装置自身可能不下载声学模型和语言模型,并且可以向服务器请求获得所述声学模型和语言模型,这可以减轻计算负担。
在S205中,在从电子装置接收可能的语言的列表和第一请求之后,服务器基于可能的语言的列表而获得声学模型和语言模型。
在一些实施方案中,声学模型和语言模型可以被包含在不同的语音识别引擎中。
在一些实施方案中,服务器可以进一步获得包含声学模型和语言模型的语音识别引擎。
任选地,在一些实施方案中,电子装置可能不会向服务器发送可能的语言的列表,而是向服务器发送所收集的信息,并且服务器可以基于从电子装置接收到的所收集的信息而确定可能的语言。
在S207中,在从用户接收语音输入之后,电子装置产生对语音输入的记录,并且向服务器发送所述记录和用于确定记录的识别结果的第二请求。
在一些实施方案中,电子装置可以具有麦克风来接收语音输入。在一些实施方案中,语音输入可以包括电子装置中的电话簿中的联系人姓名。
不同于以上实施方案,在一些实施方案中,电子装置自身可能不会确定记录的识别结果,并且可以请求服务器来确定所述识别结果,这可以进一步减轻计算负担。
在S209中,在从电子装置接收记录和用于确定记录的识别结果的第二请求之后,服务器使用声学模型和语言模型来处理所述记录以获得记录的识别结果。
在一些实施方案中,记录被输入到包含声学模型和语言模型的语音识别引擎中来进行处理。在一些实施方案中,在语音识别引擎中,记录可以被输入到声学模型中来获得音节,并且所述音节可以被输入到语言模型中来获得字词。
在一些实施方案中,在输入到语音识别引擎中之前,可以将记录编码。
在一些实施方案中,可以将至少一个声学模型和至少一个对应的语言模型与记录进行匹配,并且从至少一个对应的语言模型获得的字词可以是识别结果。
在S211中,服务器向电子装置发送记录的识别结果。
在S213中,在从服务器接收记录的识别结果之后,电子装置将识别结果与电子装置中的电话簿中的内容进行比较,并且确定将电话簿中与识别结果很好地匹配的内容确定为是目标联系人姓名。
在S215中,电子装置拨打对应于目标联系人姓名的电话号码。
在一些实施方案中,目标联系人姓名可以包括多个可能的联系人姓名,电子装置可以将多个可能的联系人姓名呈现在显示装置上,以使得多个可能的联系人姓名中的一个可以被用户选择来拨打电话。
根据上文,基于电子装置中收集的信息诸如电话簿,操作系统的语言和电子装置的历史位置信息,电子装置可以确定用户在语音拨号中可能使用的可能的语言,并且根据所述可能的语言来向服务器请求获得声学模型和语言模型。以此方式,由服务器基于电子装置中收集的信息而更新声学模型和语言模型,这可以有助于基于语音识别的拨号并且减轻计算负担。
图4示出根据一个实施方案的安装在电子装置上的基于语音识别的拨号系统300的示意性框图。参考图4,基于语音识别的拨号系统300包括麦克风301、处理装置303、显示装置305以及存储器装置307。
在一些实施方案中,电子装置可以是安装在车辆上的音响单元或移动电话。
在一些实施方案中,处理装置303可以用于基于电子装置中收集的信息而确定语音拨号中使用的可能的语言。
在一些实施方案中,电子装置中收集的信息可以包括用语言书写的内容,并且至少一个声学模型和至少一个语言模型对应于所述语言。在一些实施方案中,电子装置中收集的信息可以指示地点,并且至少一个声学模型和至少一个语言模型对应于所述地点内使用的语言。
在一些实施方案中,所收集的信息可以包括电子装置中的电话簿中的内容。在一些实施方案中,电话簿中的内容可以包括联系人姓名和对应的电话号码。在一些实施方案中,可以基于电话簿中记录的联系人姓名的语言和电话号码的属性而下载声学模型和语言模型。
在一些实施方案中,所收集的信息还可以包括电子装置的操作系统的语言。在一些实施方案中,所收集的信息还可以包括电子装置的历史位置信息。
在一些实施方案中,处理装置303可以还用于基于可能的语言而下载声学模型和语言模型。
在一些实施方案中,声学模型和语言模型被包含在不同的语音识别引擎中。
在一些实施方案中,一些可能的语言受到被包含在电子装置中的语音识别引擎的支持,并且一些可能的语言受到未被包含在电子装置中的语音识别引擎的支持。因此,电子装置303可以还用于下载未被包含在电子装置中的语音识别引擎。
在一些实施方案中,处理装置303可以还用于:在麦克风从用户接收语音输入之后,产生对语音输入的记录;使用声学模型和语言模型来处理所述记录以获得记录的识别结果;将识别结果与电子装置中的电话簿中的内容进行比较;并且将电话簿中与识别结果很好地匹配的内容确定为是目标联系人姓名。
在一些实施方案中,处理装置303可以还用于拨打对应于目标联系人姓名的电话号码。
在一些实施方案中,目标联系人姓名可以包括多个可能的联系人姓名。在一些实施方案中,处理装置303可以还用于控制显示装置305以向用户呈现多个可能的联系人姓名,以使得多个可能的联系人姓名中的一个可以被用户选择来拨打电话。
在一些实施方案中,处理装置303可以是CPU、或MCU、或DSP等,或其任何组合。存储器装置307可以存储操作系统和程序指令。
图5示出根据一个实施方案的基于语音识别的拨号系统400的示意性框图。参考图5,基于语音识别的拨号系统400包括电子装置410和服务器420。电子装置410包括麦克风411、处理装置413、传输装置415、显示装置417以及存储器装置419。服务器420包括传输装置421、处理装置423和存储器装置425。
在一些实施方案中,电子装置410可以是安装在车辆上的音响单元或移动电话。
在一些实施方案中,处理装置413可以用于基于电子装置410中收集的信息而确定语音拨号中使用的可能的语言。
在一些实施方案中,电子装置410中收集的信息可以包括用语言书写的内容。在一些实施方案中,电子装置410中收集的信息可以指示地点。
在一些实施方案中,所收集的信息可以包括电子装置410中的电话簿中的内容。在一些实施方案中,电话簿中的内容可以包括联系人姓名和对应的电话号码。
在一些实施方案中,所收集的信息还可以包括电子装置410的操作系统的语言。在一些实施方案中,所收集的信息还可以包括电子装置410的历史位置信息。
在一些实施方案中,传输装置415可以用于向服务器420发送可能的语言的列表和用于向服务器请求获得对应于可能的语言的声学模型和语言模型的第一请求。
麦克风411用于接收用户的语音输入。在一些实施方案中,语音输入可以包括电子装置410中的电话簿中的联系人姓名。
处理装置413可以还用于产生对语音输入的记录,并且传输装置415可以用于向服务器420发送所述记录和用于确定记录的识别结果的第二请求。
在一些实施方案中,处理装置413可以还用于:在由传输装置415接收记录的识别结果之后,将识别结果与电子装置410中的电话簿中的内容进行比较;并且将电话簿中与识别结果很好地匹配的内容确定为是目标联系人姓名。
在一些实施方案中,处理装置413可以还用于拨打对应于目标联系人姓名的电话号码。
在一些实施方案中,目标联系人姓名可以包括多个可能的联系人姓名。在一些实施方案中,处理装置413可以还用于控制显示装置417以向用户呈现多个可能的联系人姓名,以使得多个可能的联系人姓名中的一个可以被用户选择来拨打电话。
在一些实施方案中,处理装置413可以是CPU、或MCU、或DSP等,或其任何组合。存储器装置419可以存储操作系统和程序指令。
在一些实施方案中,处理装置423可以用于:在由传输装置421接收可能的语言的列表和第一请求之后,基于可能的语言的列表而获得声学模型和语言模型。
在一些实施方案中,声学模型和语言模型可以被包含在不同的语音识别引擎中。在一些实施方案中,处理装置423可以还用于:获得包含声学模型和语言模型的语音识别引擎。
在一些实施方案中,处理装置423可以还用于:在由传输装置421接收记录和第二请求之后,使用声学模型和语言模型来处理记录以获得记录的识别结果。
在一些实施方案中,传输装置421可以用于向电子装置410发送记录的识别结果。
在一些实施方案中,处理装置423可以是CPU、或MCU、或DSP等,或其任何组合。存储器装置425可以存储操作系统和程序指令。
任选地,在一些实施方案中,处理装置413可能不会被配置来基于电子装置410中收集的信息而确定语音拨号中使用的可能的语言。取而代之的是,传输装置415可以用于向服务器420发送电子装置410中收集的信息,并且在传输装置421从电子装置410接收到所收集的信息之后,处理装置423可以用于基于所收集的信息而确定可能的语言。
根据一个实施方案,提供了非暂态计算机可读介质,其包含用于基于语音识别的拨号的计算机程序。当计算机程序被处理器执行时,所述计算机程序将指示所述处理器:基于用户的语音输入、至少一个声学模型和至少一个语言模型而确定识别结果,其中至少一个声学模型和至少一个语言模型是基于电子装置中收集的信息而获得。
系统各方面的硬件与软件实现方式之间几乎没有区别;硬件或软件的使用一般是表示成本对效率折衷的设计选择。例如,如果实施人员确定速度和准确性是最重要的,那么实施人员可以选择主要的硬件和/或固件载体;如果灵活性是最重要的,那么实施人员可以选择主要的软件实现方式;或者,再一次可替代地,实施人员可以选择硬件、软件和/或固件的一些组合。
虽然本文已经公开了各个方面和实施方案,但是其他方面和实施方案对于本领域技术人员而言将是显而易见的。本文公开的各个方面和实施方案是用于说明的目的并且不意在进行限制,其中真正的范围和精神由以上权利要求指出。
Claims (20)
1.一种基于语音识别的拨号方法,其特征在于,包括:
基于用户的语音输入、至少一个声学模型和至少一个语言模型而确定识别结果,其中所述至少一个声学模型和所述至少一个语言模型是基于电子装置中收集的信息而获得。
2.根据权利要求1所述的基于语音识别的拨号方法,其特征在于,所述电子装置中收集的所述信息包括用语言书写的内容,并且所述至少一个声学模型和所述至少一个语言模型对应于所述语言。
3.根据权利要求1所述的基于语音识别的拨号方法,其特征在于,所述收集的信息包括所述电子装置中的电话簿中的内容。
4.根据权利要求1所述的基于语音识别的拨号方法,其特征在于,所述收集的信息指示地点,并且所述至少一个声学模型和所述至少一个语言模型对应于所述地点内使用的语言。
5.根据权利要求1所述的基于语音识别的拨号方法,其特征在于,所述收集的信息包括所述电子装置的历史位置信息。
6.根据权利要求1所述的基于语音识别的拨号方法,其特征在于,基于所述电子装置中收集的所述信息而确定所述用户在对所述电子装置说出所述语音输入时可能使用何种语言;并且基于所述确定的语言而获得所述至少一个声学模型和所述至少一个语言模型。
7.根据权利要求1所述的基于语音识别的拨号方法,其特征在于,将所述语音输入的所述识别结果与所述电子装置中的电话簿中的内容进行比较,并且将所述电话簿中与所述识别结果匹配的内容确定为是目标联系人姓名。
8.根据权利要求1所述的基于语音识别的拨号方法,其特征在于,基于所述电子装置中收集的所述信息而获得语音识别引擎。
9.一种基于语音识别的拨号系统,其特征在于,包括:处理装置,所述处理装置用于:
基于电子装置中收集的信息而获得至少一个声学模型和至少一个语言模型;以及
基于用户的语音输入、所述至少一个声学模型和所述至少一个语言模型而确定识别结果。
10.根据权利要求9所述的基于语音识别的拨号系统,其特征在于,所述电子装置中收集的所述信息包括用语言书写的内容,并且所述至少一个声学模型和所述至少一个语言模型对应于所述语言。
11.根据权利要求9所述的基于语音识别的拨号系统,其特征在于,所述收集的信息包括所述电子装置中的电话簿中的内容。
12.根据权利要求9所述的基于语音识别的拨号系统,其特征在于,所述收集的信息指示地点,并且所述至少一个声学模型和所述至少一个语言模型对应于所述地点内使用的语言。
13.根据权利要求9所述的基于语音识别的拨号系统,其特征在于,所述收集的信息包括所述电子装置的历史位置信息。
14.根据权利要求9所述的基于语音识别的拨号系统,其特征在于,所述处理装置安装在所述电子装置上。
15.根据权利要求14所述的基于语音识别的拨号系统,其特征在于,所述处理装置还用于:
基于所述电子装置中收集的所述信息而确定所述用户在对所述电子装置说出所述语音输入时可能使用何种语言;以及
基于所述确定的语言而下载所述至少一个声学模型和所述至少一个语言模型。
16.根据权利要求14所述的基于语音识别的拨号系统,其特征在于,所述处理装置还用于:
将所述语音输入的所述识别结果与所述电子装置中的电话簿中的内容进行比较;以及
将所述电话簿中与所述识别结果匹配的内容确定为是目标联系人姓名。
17.根据权利要求9所述的基于语音识别的拨号系统,其特征在于,所述处理装置安装在服务器上。
18.根据权利要求17所述的基于语音识别的拨号系统,其特征在于,所述电子装置用于向所述服务器发送所述收集的信息,并且所述处理装置还用于:
基于所述电子装置中收集的所述信息而确定所述用户对所述电子装置说出的可能的语言;以及
基于所述可能的语言而获得所述至少一个声学模型和所述至少一个语言模型。
19.根据权利要求17所述的基于语音识别的拨号系统,其特征在于,所述电子装置用于:
基于所述电子装置中收集的所述信息而确定所述用户对所述电子装置说出的可能的语言;以及
向所述服务器发送包含所述可能的语言的列表,并且
所述处理装置用于:基于所述接收的可能的语言而获得所述至少一个声学模型和所述至少一个语言模型。
20.根据权利要求9所述的基于语音识别的拨号系统,其特征在于,所述处理装置还用于:基于所述电子装置中收集的所述信息而获得至少一个语音识别引擎。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/CN2014/095538 WO2016106552A1 (en) | 2014-12-30 | 2014-12-30 | Voice recognition-based dialing |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106796586A true CN106796586A (zh) | 2017-05-31 |
Family
ID=56283836
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201480082649.0A Pending CN106796586A (zh) | 2014-12-30 | 2014-12-30 | 基于语音识别的拨号 |
Country Status (4)
Country | Link |
---|---|
US (1) | US10582046B2 (zh) |
EP (1) | EP3241123B1 (zh) |
CN (1) | CN106796586A (zh) |
WO (1) | WO2016106552A1 (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109509474A (zh) * | 2017-09-15 | 2019-03-22 | 顺丰科技有限公司 | 通过语音识别选择电话客服中服务项的方法及其设备 |
CN112165557A (zh) * | 2020-08-24 | 2021-01-01 | 浙江智源企业服务有限公司 | 一种支持多种方言的外呼系统 |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102304701B1 (ko) * | 2017-03-28 | 2021-09-24 | 삼성전자주식회사 | 사용자의 음성 입력에 대한 답변을 제공하는 방법 및 장치 |
US11176934B1 (en) * | 2019-03-22 | 2021-11-16 | Amazon Technologies, Inc. | Language switching on a speech interface device |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101158947A (zh) * | 2006-09-22 | 2008-04-09 | 株式会社东芝 | 机器翻译的方法和装置 |
CN101751387A (zh) * | 2008-12-19 | 2010-06-23 | 英特尔公司 | 用于位置辅助翻译的方法、装置和系统 |
US8301450B2 (en) * | 2005-11-02 | 2012-10-30 | Samsung Electronics Co., Ltd. | Apparatus, method, and medium for dialogue speech recognition using topic domain detection |
CN103544145A (zh) * | 2012-07-12 | 2014-01-29 | 北京蚂蜂窝网络科技有限公司 | 一种外出旅行多语言翻译系统及方法 |
US20140035823A1 (en) * | 2012-08-01 | 2014-02-06 | Apple Inc. | Dynamic Context-Based Language Determination |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7225130B2 (en) * | 2001-09-05 | 2007-05-29 | Voice Signal Technologies, Inc. | Methods, systems, and programming for performing speech recognition |
US7313526B2 (en) * | 2001-09-05 | 2007-12-25 | Voice Signal Technologies, Inc. | Speech recognition using selectable recognition modes |
JP4466665B2 (ja) * | 2007-03-13 | 2010-05-26 | 日本電気株式会社 | 議事録作成方法、その装置及びそのプログラム |
US8260615B1 (en) | 2011-04-25 | 2012-09-04 | Google Inc. | Cross-lingual initialization of language models |
US9129591B2 (en) * | 2012-03-08 | 2015-09-08 | Google Inc. | Recognizing speech in multiple languages |
-
2014
- 2014-12-30 WO PCT/CN2014/095538 patent/WO2016106552A1/en active Application Filing
- 2014-12-30 CN CN201480082649.0A patent/CN106796586A/zh active Pending
- 2014-12-30 EP EP14909364.3A patent/EP3241123B1/en active Active
- 2014-12-30 US US15/521,614 patent/US10582046B2/en active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8301450B2 (en) * | 2005-11-02 | 2012-10-30 | Samsung Electronics Co., Ltd. | Apparatus, method, and medium for dialogue speech recognition using topic domain detection |
CN101158947A (zh) * | 2006-09-22 | 2008-04-09 | 株式会社东芝 | 机器翻译的方法和装置 |
CN101751387A (zh) * | 2008-12-19 | 2010-06-23 | 英特尔公司 | 用于位置辅助翻译的方法、装置和系统 |
CN103544145A (zh) * | 2012-07-12 | 2014-01-29 | 北京蚂蜂窝网络科技有限公司 | 一种外出旅行多语言翻译系统及方法 |
US20140035823A1 (en) * | 2012-08-01 | 2014-02-06 | Apple Inc. | Dynamic Context-Based Language Determination |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109509474A (zh) * | 2017-09-15 | 2019-03-22 | 顺丰科技有限公司 | 通过语音识别选择电话客服中服务项的方法及其设备 |
CN112165557A (zh) * | 2020-08-24 | 2021-01-01 | 浙江智源企业服务有限公司 | 一种支持多种方言的外呼系统 |
Also Published As
Publication number | Publication date |
---|---|
WO2016106552A1 (en) | 2016-07-07 |
US10582046B2 (en) | 2020-03-03 |
EP3241123A1 (en) | 2017-11-08 |
EP3241123B1 (en) | 2022-09-28 |
EP3241123A4 (en) | 2018-09-05 |
US20190116260A1 (en) | 2019-04-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111261144B (zh) | 一种语音识别的方法、装置、终端以及存储介质 | |
CN103095911B (zh) | 一种通过语音唤醒寻找手机的方法及系统 | |
CN106663430B (zh) | 使用用户指定关键词的说话者不相依关键词模型的关键词检测 | |
CN1249667C (zh) | 声控服务 | |
CN107895578A (zh) | 语音交互方法和装置 | |
CN110998720A (zh) | 话音数据处理方法及支持该方法的电子设备 | |
CN110047481B (zh) | 用于语音识别的方法和装置 | |
JP5613335B2 (ja) | 音声認識システム、認識辞書登録システム及び音響モデル識別子系列生成装置 | |
CN106558307A (zh) | 智能对话处理设备、方法和系统 | |
US20170178632A1 (en) | Multi-user unlocking method and apparatus | |
JP2008529101A (ja) | 移動通信装置の音声語彙を自動的に拡張するための方法及び装置 | |
JP2002366186A (ja) | 音声合成方法及びそれを実施する音声合成装置 | |
CN106796586A (zh) | 基于语音识别的拨号 | |
US20100178956A1 (en) | Method and apparatus for mobile voice recognition training | |
CN108665895A (zh) | 用于处理信息的方法、装置和系统 | |
CN108122555B (zh) | 通讯方法、语音识别设备和终端设备 | |
CN110807093A (zh) | 语音处理方法、装置及终端设备 | |
KR20200011198A (ko) | 대화형 메시지 구현 방법, 장치 및 프로그램 | |
KR20150041592A (ko) | 피호출자의 전자 디바이스에서 연락처 정보를 업데이트하는 방법 및 전자 디바이스 | |
CN107277276A (zh) | 一种具备语音控制功能智能手机 | |
CN113409774A (zh) | 语音识别方法、装置及电子设备 | |
TW200304638A (en) | Network-accessible speaker-dependent voice models of multiple persons | |
CN111768789A (zh) | 电子设备及其语音发出者身份确定方法、装置和介质 | |
WO2023063718A1 (en) | Method and system for device feature analysis to improve user experience | |
CN111161718A (zh) | 语音识别方法、装置、设备、存储介质及空调 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20170531 |