CN102246136B - 导航装置 - Google Patents
导航装置 Download PDFInfo
- Publication number
- CN102246136B CN102246136B CN200980151568.0A CN200980151568A CN102246136B CN 102246136 B CN102246136 B CN 102246136B CN 200980151568 A CN200980151568 A CN 200980151568A CN 102246136 B CN102246136 B CN 102246136B
- Authority
- CN
- China
- Prior art keywords
- voice
- speech recognition
- sent
- signal
- voice guide
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000004891 communication Methods 0.000 claims abstract description 62
- 238000000034 method Methods 0.000 description 70
- 239000000203 mixture Substances 0.000 description 15
- 238000010586 diagram Methods 0.000 description 12
- 238000013016 damping Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- RZVAJINKPMORJF-UHFFFAOYSA-N Acetaminophen Chemical compound CC(=O)NC1=CC=C(O)C=C1 RZVAJINKPMORJF-UHFFFAOYSA-N 0.000 description 1
- 102100036848 C-C motif chemokine 20 Human genes 0.000 description 1
- 101000911772 Homo sapiens Hsc70-interacting protein Proteins 0.000 description 1
- 101001139126 Homo sapiens Krueppel-like factor 6 Proteins 0.000 description 1
- 101000661807 Homo sapiens Suppressor of tumorigenicity 14 protein Proteins 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01C—MEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
- G01C21/00—Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
- G01C21/26—Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00 specially adapted for navigation in a road network
- G01C21/34—Route searching; Route guidance
- G01C21/36—Input/output arrangements for on-board computers
- G01C21/3605—Destination input or retrieval
- G01C21/3608—Destination input or retrieval using speech input, e.g. using speech recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/165—Management of the audio stream, e.g. setting of volume, audio stream path
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L12/00—Data switching networks
- H04L12/64—Hybrid switching systems
- H04L12/6418—Hybrid transport
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03G—CONTROL OF AMPLIFICATION
- H03G3/00—Gain control in amplifiers or frequency changers
- H03G3/20—Automatic control
- H03G3/30—Automatic control in amplifiers having semiconductor devices
- H03G3/34—Muting amplifier when no signal is present or when only weak signals are present, or caused by the presence of noise signals, e.g. squelch systems
- H03G3/342—Muting when some special characteristic of the signal is sensed which distinguishes it from noise, e.g. using speech detector
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Radar, Positioning & Navigation (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Remote Sensing (AREA)
- General Engineering & Computer Science (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Automation & Control Theory (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Telephone Function (AREA)
- Telephonic Communication Services (AREA)
- Navigation (AREA)
Abstract
本发明的目的在于提供一种导航装置,包括:通信模块(11),该通信模块(11)在与外部通信设备之间发送、接收信号;音调信号识别部(42),该音调信号识别部(42)对由外部通信设备通过通信模块(11)传送来的按键音调信号进行识别;以及语音识别部(41),该语音识别部(41)根据由音调信号识别部(42)识别出的信息,对由外部通信设备通过通信模块(11)传送来的语音信号进行语音识别。
Description
技术领域
本发明涉及一种将用户引导至目的地的导航装置,特别涉及一种通过识别通话对象的语音来自动地提取出地点等的技术。
背景技术
目前,已知有具有语音识别功能的导航装置。在该导航装置中,在进行语音识别中,为了防止错误地识别想要识别的语音以外的语音,而不能使用免提电话。为了消除上述问题,专利文献1揭示了以下车载用信息装置:即,即使在使用免提电话中,也能进行语音识别。
该车载用信息装置包括:通信部,该通信部可通过通信网来与对方进行通信;语音识别部,该语音识别部对通过麦克风输入的语音进行识别;主处理部,该主处理部基于由语音识别部识别出的语音,来控制对道路信息进行引导的导航功能及通信部的通信动作;以及识别用开关,该识别用开关对通过麦克风输入的语音可否用作为语音识别部的语音识别用进行切换,通信部由可进行数据通信及语音通话的便携式电话构成,通过麦克风输入的语音作为语音通话用及语音识别用而分别传送到便携式电话及语音识别部,在便携式电话的语音通话中,若识别用开关切换至语音识别侧,则主处理部基于语音识别部识别出的语音来执行导航功能,若识别用开关切换至复原侧,则主处理部复原至便携式电话的语音通话。
专利文献
专利文献1:
日本专利特开2002-257574号公报
发明内容
上述专利文献1所揭示的车载用信息装置中,在免提通话中能够识别导 航装置的使用者的语音,但是不能识别通话对象的语音。因此,不能直接从通话对象对想要登录到导航装置的地点信息进行语音识别。因而,由于导航装置的使用者需要先记住从通话对象处听到的地点名称等,然后导航装置的使用者再次进行语音识别,因此,耗时耗力。所以,希望开发能够直接识别出从通话对象处听到的地点信息的导航装置。
本发明是为了满足上述要求而完成的,其目的在于,提供一种能识别出通话对象的语音来获取地点信息或个人信息等的导航装置。
本发明的导航装置包括:通信模块,该通信模块在与外部通信设备之间发送、接收信号;音调信号识别部,该音调信号识别部对由外部通信设备通过通信模块传送来的按键音调信号进行识别;语音识别部,该语音识别部根据由上述音调信号识别部识别出的信息,对由外部通信设备通过通信模块传送来的语音信号进行语音识别;以及音量控制部,该音量控制部在从上述外部通信设备通过上述通信模块接收到语音信号的情况下,减小发送至上述外部通信设备的送话语音的音量。
根据本发明的导航装置,在语音识别中,通话对象能够容易地听到语音引导。
附图说明
图1是表示本发明的实施方式1的导航装置的结构的框图。
图2是表示本发明的实施方式1的导航装置所进行的免提通话处理的流程图。
图3是表示在本发明的实施方式1的导航装置所进行的免提通话处理中的对使用者的声音进行的语音识别处理的详细情况的流程图。
图4是表示在本发明的实施方式1的导航装置所进行的免提通话处理中的对通话对象的声音进行的语音识别处理的详细情况的流程图。
图5是表示在本发明的实施方式2的导航装置所进行的免提通话处理中 的对通话对象的声音进行的语音识别处理的详细情况的流程图。
图6是表示在本发明的实施方式3的导航装置所进行的免提通话处理中的对通话对象的声音进行的语音识别处理的详细情况的流程图。
具体实施方式
下面,为了更详细地说明本发明,根据附图对用于实施本发明的方式进行说明。
实施方式1.
图1是表示本发明的实施方式1的导航装置的结构的框图。该导航装置包括:导航单元1、麦克风2、GPS(Global Positioning System,全球定位系统)接收机3、触摸屏4、显示器5、及扬声器6。该导航单元1与便携式电话7相连接。
导航单元1构成导航装置的核心,来控制整个导航装置。该导航单元1的详细情况将在后面叙述。麦克风2兼用于送话用和语音识别用。该麦克风2将输入的语音转换为电信号,并作为语音信号传送到导航单元1。
GPS接收机3接收从GPS卫星发送的电波,并对自己的当前位置进行检测。由该GPS接收机3检测到的自己的当前位置作为当前位置信号,传送到导航单元1。触摸屏4载放在显示器5的画面上,对触摸位置进行检测。将所检测出的位置作为触摸屏数据传送到导航单元1。
显示器5例如由液晶显示器构成,基于从导航单元1传送来的视频信号来显示各种图像。扬声器6兼用于受话用和语音引导用。该扬声器6将导航单元1发送来的语音信号转换成语音并输出。
便携式电话7在与导航单元1之间发送并接收包含语音或数据的信号,并在与通话对象的便携式电话8之间进行通信。这些便携式电话7与便携式电话8对应于本发明的外部通信设备。
接下来,说明导航单元1的详细情况。导航单元1包括通信模块11、DSP(Digital Signal Processor:数字信号处理器)12、辅助存储装置13、放大器14、电话识别按键15、语音识别按键16、取消按键17、及CPU(Central Processing Unit:中央处理器)18。
通信模块11由蓝牙模块或电话连接器构成,包括受话部21及送话部22。受话部21接收由便携式电话7传送来的信号,作为受话信号传送到DSP12及CPU18。送话部22接收从DSP12传送来的送话信号,并传送到便携式电话7。
DSP12在送话语音及受话语音中混有用于导航功能等的引导语音。由此,能够对通话对象发送送话语音及引导语音,并能够对该导航装置的使用者(以下,单独称为“使用者”)输出受话语音及引导语音。
该DSP12包括:第一衰减器31、第一混合器32、回声消除器33、第二衰减器34、以及第二混合器35。第一衰减器31与第二衰减器34对应于本发明的音量控制部。
第一衰减器31根据来自CPU18的指示,使得由通信模块11的受话部21传送来的受话信号衰减,并传送到第一混合器32。由于能够利用该第一衰减器31来减小受话语音的音量,因此能够防止在对使用者的声音进行语音识别中的误识别,还能够提高对于使用者的引导语音的清晰度。
第一混合器32将由第一衰减器31传送来的受话信号和由CPU18传送来的引导语音信号进行混合,并传送到回声消除器33及放大器14。回声消除器33从由麦克风2传送来的语音信号中去除由扬声器6输出的、绕回至麦克风2的声音的分量,并传送到第二衰减器34及CPU18。在进行免提通话时等情况下,利用该回声消除器33,能够防止在送话语音中混有从扬声器6输出的引导语音及受话语音。同时,该回声消除器33也能够防止将扬声器6输出的受话语音传送到CPU18,其结果是,在对免提通话中的使用者的声音进行语音识别时,能够防止误识别。
第二衰减器34根据来自CPU18的指示,使得由回声消除器33传送来的信号衰减,并传送到第二混合器35。由于利用该第二衰减器34,能够减小送话语音的音量,因此,在语音识别中,通话对象能够容易地听到引导语音。第二混合器35将由第二衰减器34传送来的受话信号和由CPU18传送来的引导语音信号进行混合,并传送到通信模块11的送话部22。
辅助存储装置13例如由HDD(Hard Disk Drive:硬盘驱动器)构成,存储导航用的地图数据及语音识别用的词典数据。存储在该辅助存储装置13中的地图数据及词典数据能根据需要由CPU18来访问。放大器14将由DSP12 的第一混合器32传送来的受话信号和引导语音信号混合而成的信号进行放大,并作为语音信号传送到扬声器6。
电话识别按键15用于开始对通话对象的声音进行语音识别。通过按下该电话识别按键15而产生的电话识别按键数据被传送到CPU18。语音识别按键16用于开始对使用者的声音进行语音识别。通过按下该语音识别按键16而产生的语音识别按键数据被传送到CPU18。取消按键17用于消除语音识别的结果。通过按下该取消按键17而产生的取消按键数据被传送到CPU18。
CPU18包括:语音识别部41、音调信号识别部42、操作控制部43、语音引导输出部44、导航部45、及图像处理部46。这些各构成要素都由CPU18所执行的程序来实现。此外,这些各构成要素也能由硬件来构成。
语音识别部41使用从辅助存储装置13中读出的词典数据,来对由便携式电话7通过通信模块11的受话部21传送来的受话信号执行语音识别。另外,语音识别部41使用从辅助存储装置13中读出的词典数据,来对从麦克风2通过DSP12的回声消除器33传送来的语音信号执行语音识别。将该语音识别部41的语音识别结果、即通过执行语音识别而获得的字符或命令等,作为语音识别数据传送到操作控制部43。
音调信号识别部42对由便携式电话7通过通信模块11的受话部21传送来的按键音调信号进行解析,利用信号的频率对与便携式电话7相连接的便携式电话8的所按下的按键进行识别。将表示由该音调信号识别部42识别出的按键的音调信号识别数据传送到操作控制部43。
操作控制部43接收由语音识别部41传送来的语音识别数据、由音调信号识别部42传送来的音调信号识别数据、由电话识别按键15传送来的电话识别按键数据、由语音识别按键16传送来的语音识别按键数据、由取消按键17传送来的取消按键数据、由触摸屏4传送来的触摸屏数据及来自导航部45的要求命令,来执行预定的处理。然后,根据处理的结果,控制语音引导输出部44、导航部45、图像处理部46、及DSP12的第一衰减器31及第二衰减器34。
语音引导输出部44对来自操作控制部43的指示进行响应,来生成引导语音信号,传送到DSP12的第一混合器32及第二混合器35。由此,由于将在 送话语音中混合有引导语音的送话信号传送到便携式电话7,因此,能够对通话对象输出语音引导,并能够从扬声器6输出在来自便携式电话7的受话信号中混合有引导语音的信号,因此,也能对使用者输出语音引导。
导航部45对来自操作控制部43的指示进行响应,执行用于实现导航功能的处理。例如,导航部45进行目的地及经由地的设定、或地点的登录等。另外,通过向操作控制部43输出要求,从而获得语音识别的结果,执行路径搜索及路径引导等处理,以输出语音引导。另外,在显示地图的情况下,向图像处理部46输出指示,在显示器5上显示地图。而且,在执行导航的情况下,从GPS接收机3获取当前位置信号,来确定本车位置。
图像处理部46对来自导航部45及操作控制部43的指示进行响应,生成用于显示语音识别的结果、地图、及其他导航所必需的信息的图像,作为视频信号传送到显示器5。由此,在显示器5上显示语音识别的结果、地图、及其他导航所必需的信息。
接下来,将上述结构的本发明的实施方式1的导航装置的动作、以用于实现免提通话的免提通话处理为中心并参照图2~图4所示的流程图进行说明。免提通话处理是由来自使用者的拨号或来自通话对象的便携式电话8的来电而开始的。
开始免提通话处理时,首先检查是否按下了语音识别按键16(步骤ST11)。即,CPU18的操作控制部43对是否有从语音识别按键16传送来语音识别按键数据进行检查。在该步骤ST11中,若判断为按下了语音识别按键16,则对使用者的声音进行语音识别(步骤ST12)。后文将详细叙述该步骤ST12的处理。之后,流程前进至步骤ST15。
另一方面,在步骤ST11中,若判断为未按下语音识别按键16,则接着检查是否按下了电话识别按键15(步骤ST13)。即,CPU18的操作控制部43对是否有从电话识别按键15传送来电话识别按键数据进行检查。在该步骤ST13中,若判断为按下了电话识别按键15,则对通话对象的声音进行语音识别(步骤ST14)。后文将详细叙述该步骤ST14的处理。之后,流程前进至步骤ST15。在上述步骤ST13中,即使在判断为未按下电话识别按键15的情况下,流程也前进至步骤ST15。
在步骤ST15中,对通话是否结束进行检查。即,操作控制部43对是否有从触摸屏4传送来表示进行了结束通话操作的触摸屏数据、或对便携式电话7和便携式电话8之间的通信是否被断开进行检查。在该步骤ST15中,若判断为通话未结束,则流程返回至步骤ST11,重复上述处理。另一方面,在步骤ST15中,若判断为通话结束,则免提通话处理结束。
接下来,参照图3所示的流程图,说明在上述步骤ST12中进行的对使用者的声音进行语音识别处理的细节。
在对使用者的声音进行的语音识别处理中,首先,减小通话语音(是指“送话语音”及“受话语音”这两者)的音量(步骤ST21)。即,操作控制部43对第一衰减器31及第二衰减器34发出指示,以减小语音的音量。由此,第一衰减器31使得由通信模块11的受话部21传送来的受话信号衰减,并传送到第一混合器32。另外,第二衰减器34使得由回声消除器33传送来的信号衰减,并传送到第二混合器35。由此,减小对通话对象的送话语音及来自通话对象的受话语音的音量。
接着,向通话对象发送表示使用者在语音识别中的语音引导(步骤ST22)。即,操作控制部43指示语音引导输出部44生成表示使用者在语音识别中的语音引导。语音引导输出部44对该指示进行响应,生成表示使用者在语音识别中的语音引导的引导语音信号,并传送到DSP12的第二混合器35。第二混合器35将由第二衰减器34传送来的信号和由语音引导输出部44传送来的引导语音信号进行混合,并通过通信模块11的送话部22传送到便携式电话7。便携式电话7将由送话部22传送来的引导语音信号发送至通话对象的便携式电话8。由此,在通话对象的便携式电话8中,输出表示使用者正在语音识别中的语音引导,例如“现在正在进行语音识别操作。请稍等片刻。”这样的语音引导。
接着,输出指示语音识别开始的语音引导(步骤ST23)。即,操作控制部43指示语音引导输出部44生成表示开始语音识别的语音引导。语音引导输出部44对该指示进行响应,生成表示指示开始语音识别的语音引导的引导语音信号,并传送到DSP12的第一混合器32。第一混合器32将由第一衰减器31传送来的信号和由语音引导输出部44传送来的引导语音信号进行混 合,并传送到放大器14。放大器14将由第一混合器32传送来的受话信号和引导语音信号混合而成的信号进行放大,并作为语音信号传送到扬声器6。由此,从扬声器6输出指示语音识别开始的语音引导,例如“开始语音识别。请在“哔”的一声后开始说话”这样的语音引导。
利用上述步骤ST21~ST23的处理,能够向通话对象播放表示使用者正在语音识别中的语音引导。另外,由于对于使用者及通话对象这双方,都减小对方的声音的音量,因此,能够集中听清语音引导。
接着,对使用者的声音进行语音识别(步骤ST24)。即,语音识别部41使用从辅助存储装置13中读出的词典数据,来对从麦克风2通过回声消除器33传送来的语音信号执行语音识别,将所获得的字符或命令作为语音识别数据传送到操作控制部43。
接下来,以语音来输出语音识别结果(步骤ST25)。即,操作控制部43指示语音引导输出部44生成表示语音识别结果的语音引导。语音引导输出部44对该指示进行响应,生成包含由语音识别数据所示的字符或命令的引导语音信号,并传送到DSP12的第一混合器32。第一混合器32将由第一衰减器31传送来的信号和由语音引导输出部44传送来的引导语音信号进行混合,并传送到放大器14。放大器14将由第一混合器32传送来的信号进行放大,并作为语音信号传送到扬声器6。由此,从扬声器6中以语音来输出语音识别的结果。
接下来,显示语音识别结果(步骤ST26)。即,操作控制部43指示图像处理部46生成表示语音识别数据所示的语音识别结果的字符或命令。图像处理部46对该指示进行响应,生成表示语音识别结果的字符或命令的图像,并作为视频信号传送到显示器5。由此,在显示器5上显示语音识别的结果。
接着,检查是否按下了取消按键17(步骤ST27)。即,操作控制部43对是否有从取消按键17传送来取消按键数据进行检查。在该步骤ST27中,若判断为按下了取消按键17,则识别为语音识别结果有误,输出取消的语音引导(步骤ST28)。即,操作控制部43指示语音引导输出部44生成表示取消的语音引导。语音引导输出部44对来自操作控制部43的指示进行响应,来生成表示取消的引导语音信号,并传送到DSP12的第一混合器32。第一混合 器32将由第一衰减器31传送来的信号和由语音引导输出部44传送来的引导语音信号进行混合,并传送到放大器14。放大器14将由第一混合器32传送来的信号进行放大,并作为语音信号传送到扬声器6。由此,从扬声器6中输出表示取消的语音引导之后,流程返回至步骤ST24,再次执行语音识别处理。
在上述步骤ST27中,若判断为未按下取消按键17,则识别为语音识别结果正确,对通话对象发送表示语音识别操作结束的语音引导(步骤ST29)。即,操作控制部43指示语音引导输出部44生成表示语音识别结束的语音引导。语音引导输出部44对该指示进行响应,生成表示语音识别结束的语音引导的引导语音信号,并传送到DSP12的第二混合器35。第二混合器35将由第二衰减器34传送来的信号和由语音引导输出部44传送来的引导语音信号进行混合,并通过通信模块11的送话部22传送到便携式电话7。便携式电话7将由送话部22传送来的引导语音信号发送至通话对象的便携式电话8。由此,在通话对象的便携式电话8中,输出表示使用者结束了语音识别的语音引导,例如“语音识别操作结束。”这样的语音引导。
接着,将通话语音的音量复原(步骤ST30)。即,操作控制部43对第一衰减器31及第二衰减器34发出指示,以恢复原有的语音的音量。由此,第一衰减器31使得由通信模块11的受话部21传送来的受话信号的衰减量复原,并传送到第一混合器32。另外,第二衰减器34使得由回声消除器33传送来的信号的衰减量复原,并传送到第二混合器35。由此,使得对通话对象的送话语音及来自通话对象的受话语音的音量恢复原有的音量。此后,流程返回至免提通话处理。
接下来,参照图4所示的流程图,说明在上述步骤ST14中进行的对通话对象的声音进行语音识别处理的细节。
在对通话对象的声音进行的语音识别处理中,首先,减小通话语音的音量(步骤ST31)。此步骤ST31的处理与上述步骤ST21的处理相同。
接着,向通话对象发送表示可进行语音识别操作的语音引导(步骤ST32)。即,操作控制部43指示语音引导输出部44生成可进行语音识别操作的语音引导。语音引导输出部44对该指示进行响应,生成表示可进行语音 识别操作的语音引导的引导语音信号,并传送到DSP12的第二混合器35。第二混合器35将由第二衰减器34传送来的信号和由语音引导输出部44传送来的引导语音信号进行混合,并通过通信模块11的送话部22传送到便携式电话7。便携式电话7将由送话部22传送来的引导语音信号发送至通话对象的便携式电话8。由此,在通话对象的便携式电话8中,输出表示可进行语音识别操作的语音引导,例如“能够对想要登录的地方进行语音输入。”这样的语音引导。
接着,向通话对象发送催促发话的语音引导(步骤ST33)。即,操作控制部43指示语音引导输出部44生成催促发话的语音引导。语音引导输出部44对该指示进行响应,生成表示催促发话的语音引导的引导语音信号,并传送到DSP12的第二混合器35。第二混合器35将由第二衰减器34传送来的信号和由语音引导输出部44传送来的引导语音信号进行混合,并通过通信模块11的送话部22传送到便携式电话7。便携式电话7将由送话部22传送来的引导语音信号发送至通话对象的便携式电话8。由此,在通话对象的便携式电话8中,输出表示可进行语音识别操作的语音引导,例如“在以地址、关键词来进行搜索的情况下请按下1之后再说,在以电话号码来进行搜索的情况下请按下2之后再说,在以邮编来进行搜索的情况下请按下3之后再说”这样的指示选择语句的种类的语音引导。
对该语音引导进行响应,在通话对象的便携式电话8中,为了选择发话内容的种类,按下“1”至“3”中的任一个按键。由此,发送对应于所按下的按键的按键音调信号,通过便携式电话7传送到导航单元1。另外,便携式电话8发送自身的音调拨号信号,通过便携式电话7来传送到导航单元1,从而通知以完成发话的准备。在导航单元1中,由便携式电话7传送来的按键音调信号通过通信模块11的受话部21,来传送到音调信号识别部42。音调信号识别部42对传送来的按键音调信号进行解析,识别出所按下的按键,将其作为音调信号识别数据传送到操作控制部43。
接下来,进行语音识别(步骤ST34)。即,操作控制部43进行设定,以使得在从音调信号识别部42接收到的音调信号识别数据所示的语句的种类的范围内进行语音识别,之后,指示语音识别部41开始语音识别。语音识 别部41使用从辅助存储装置13中读出的词典数据,来对紧接着按键音调信号的、从便携式电话7通过通信模块11的受话部21传送来的受话信号执行语音识别,将所获得的字符或命令作为语音识别数据传送到操作控制部43。
接着,向通话对象发送表示识别结果的语音引导(步骤ST35)。即,操作控制部43指示语音引导输出部44生成表示语音识别结果的语音引导。语音引导输出部44对该指示进行响应,生成包含由语音识别数据所示的字符或命令的引导语音信号,并传送到DSP12的第二混合器35。第二混合器35将由第二衰减器34传送来的信号和由语音引导输出部44传送来的引导语音信号进行混合,并通过通信模块11的送话部22传送到便携式电话7。便携式电话7将由送话部22传送来的引导语音信号发送至通话对象的便携式电话8。由此,在通话对象的便携式电话8中,输出表示语音识别结果的语音引导,例如“若○○○正确则请按1,若不正确则请按2。”这样的语音引导。
接下来,检查识别结果是否正确(步骤ST36)。即,在通话对象的便携式电话8中,若按下“1”或“2”的按键,则发送对应于所按下的按键的按键音调信号,通过便携式电话7传送到导航单元1。在导航单元1中,由便携式电话7传送来的按键音调信号通过通信模块11的受话部21,来传送到音调信号识别部42。音调信号识别部42对传送来的按键音调信号进行解析,识别出所按下的按键,将其作为音调信号识别数据传送到操作控制部43。操作控制部43对音调信号识别数据所示的按下的按键是否为“识别结果正确”(上述语音引导的例子中为“1”)进行检查。
在该步骤ST36中,若判断为识别结果不正确,则向通话对象发送用于再次进行语音识别的语音引导(步骤ST37)。即,操作控制部43指示语音引导输出部44生成表示再次进行语音识别的语音引导。语音引导输出部44对该指示进行响应,生成表示再次进行语音识别的引导语音信号,并传送到DSP12的第二混合器35。第二混合器35将由第二衰减器34传送来的信号和由语音引导输出部44传送来的引导语音信号进行混合,并通过通信模块11的送话部22传送到便携式电话7。便携式电话7将由送话部22传送来的引导语音信号发送至通话对象的便携式电话8。由此,在通话对象的便携式电话8中,输出用于再次进行语音识别的语音引导,例如“已取消,请再说一遍。” 这样的语音引导。其后,流程返回至步骤ST33,重复上述的处理。
另一方面,在步骤ST36中,若判断为识别结果正确,则向通话对象发送语音识别结束的语音引导(步骤ST38)。即,操作控制部43指示语音引导输出部44生成语音识别结束的语音引导。语音引导输出部44对该指示进行响应,生成表示语音识别结束的引导语音信号,并传送到DSP12的第二混合器35。第二混合器35将由第二衰减器34传送来的信号和由语音引导输出部44传送来的引导语音信号进行混合,并通过通信模块11的送话部22传送到便携式电话7。便携式电话7将由送话部22传送来的引导语音信号发送至通话对象的便携式电话8。由此,在通话对象的便携式电话8中,输出语音识别结束的语音引导,例如“已登录。”这样的语音引导。
接着,将语音识别出的地点显示于显示器5,并进行朗读。即,操作控制部43指示图像处理部46生成表示语音识别结果的字符串(表示地点的字符串),并生成上述字符串所示地点周围的地图。图像处理部46对该指示进行响应,生成表示语音识别结果的字符的图像、和上述字符串所示地点周围的地图的图像,并作为视频信号传送到显示器5。由此,在显示器5上显示出表示语音识别出的地点的字符串、和上述地点周围的地图。另外,操作控制部43指示语音引导输出部44生成表示语音识别结果的语音引导。语音引导输出部44对该指示进行响应,生成表示语音识别结束的引导语音信号,并传送到DSP12的第一混合器32。第一混合器32将由第一衰减器31传送来的信号和由语音引导输出部44传送来的引导语音信号进行混合,并传送到放大器14。放大器14将由第一混合器32传送来的信号进行放大,并作为语音信号传送到扬声器6。由此,从扬声器6中输出表示语音识别结果的语音引导
接着,将通话语音的音量复原(步骤ST40)。该步骤ST40的处理与上述步骤ST30的处理相同。此后,流程返回至免提通话处理。
如上述说明的那样,根据本发明的实施方式1的导航装置,不仅能够在通话中对使用者的声音进行语音识别,并能够对通话对象的声音进行语音识别。另外,由于能够向通话对象提示识别结果,能使其对识别结果是否正确进行判断,在识别结果有误的情况下进行语音引导,使通话对象再说 一遍,因此,能够获得通话对象想要的语音识别结果。
实施方式2.
本发明的实施方式2的导航装置的结构与上述实施方式1的导航装置的结构相同。
接下来,对实施方式2的导航装置的动作进行说明。本实施方式2的导航装置的免提通话处理及对使用者的声音的语音识别处理与实施方式1的免提通话处理(参照图2)及对使用者的声音的语音识别处理(参照图3)相同。
图5是表示实施方式2的导航装置所进行的、对通话对象的声音进行语音识别处理的流程图。
在对通话对象的声音进行的语音识别处理中,首先,使用者选择所要识别的词汇的种类(步骤ST41)。即,使用者操作触摸屏4来选择所要识别的词汇的种类。这种情况下的触摸屏4对应于本发明的选择部。操作控制部43对该选择操作进行响应,接收由触摸屏4传送来的触摸屏数据,决定作为语音识别对象的词汇的种类。
接着,减小对通话对象的送话语音的音量(步骤ST42)。即,操作控制部43对第二衰减器34发出指示,以减小语音的音量。对该指示进行响应,第二衰减器34使得由回声消除器33传送来的信号衰减,并传送到第二混合器35。由此,减小对通话对象的送话语音的音量。
接着,向通话对象发送催促发话的语音引导和提示音(步骤ST43)。即,操作控制部43指示语音引导输出部44生成催促发话的语音引导及提示音。语音引导输出部44对该指示进行响应,生成表示催促发话的语音引导及提示音的引导语音信号,并传送到DSP12的第二混合器35。第二混合器35将由第二衰减器34传送来的信号和由语音引导输出部44传送来的引导语音信号进行混合,并通过通信模块11的送话部22传送到便携式电话7。便携式电话7将由送话部22传送来的引导语音信号发送至通话对象的便携式电话8。由此,在通话对象的便携式电话8中,输出表示可进行语音识别操作的语音引导,例如“请在“哔”一声后说出地址。”这样的语音引导和“哔”一声提示音。
对该语音引导进行响应,通话对象进行发话后,语音信号会从便携式 电话8通过便携式电话7而传送到导航单元1。在导航单元1中,由便携式电话7传送来的语音信号通过通信模块11的受话部21来传送到语音识别部41。
接着,对通话对象的声音进行语音识别(步骤ST44)。即,语音识别部41使用从辅助存储装置13中读出的词典数据,来对从便携式电话7通过通信模块11的受话部21传送来的受话信号执行语音识别,将所获得的字符或命令作为语音识别数据传送到操作控制部43。此时,由于减小了对通话对象的送话语音的音量以插入语音引导,因此,能够使通话对象容易听到语音引导。
接下来,以语音来输出语音识别结果(步骤ST45)。此步骤ST45的处理与上述步骤ST25的处理相同。接下来,显示语音识别结果(步骤ST46)。此步骤ST46的处理与上述步骤ST26的处理相同。
接着,将送话语音的音量复原(步骤ST47)。即,操作控制部43对第二衰减器34发出指示,以恢复语音的音量。由此,第二衰减器34使得由回声消除器33传送到的信号的衰减量复原,并传送到第二混合器35。由此,使得对通话对象的送话语音及来自通话对象的受话语音的音量恢复至原有的音量。
接着,检查是否按下了取消按键17(步骤ST48)。此步骤ST48的处理与上述步骤ST27的处理相同。在上述步骤ST48中,若判断为按下了取消按键17,则识别为语音识别结果不正确,流程返回至步骤ST42,再次重新进行语音识别。
另一方面,在步骤ST48中,若判断为未按下取消按键17,则识别为语音识别结果正确,接着,将语音识别出的地点显示于显示器5,并进行朗读(步骤ST49)。此步骤ST49的处理与上述步骤ST39的处理相同。此后,流程返回至免提通话处理。
如上所述,根据本发明的实施方式2的导航系统,与实施方式1的导航装置相比,由于减少了对通话对象的语音引导的时间,因此能够在语音识别中减少不能与对方通话的时间。
另外,由于在语音识别中,来自通话对象的受话语音的音量未减小,因此,使用者能够听到通话对象的语音(作为语音识别对象的语音)。因此, 即使对通话对象的声音的语音识别失败,但由于使用者也能理解通话对象所要识别的词汇,因此,也能通过使用者自身发话来进行语音识别操作,无需麻烦通话对象再次进行语音识别操作。
而且,根据实施方式2的导航装置,由于不需要CPU18所包含的音调信号识别部42,因此能够简化CPU18的结构。
此外,在上式实施方式1及实施方式2的导航装置中,能够采用以下结构:即,在便携式电话8中的用于语音识别的操作开始或结束时,从扬声器6中以语音来输出通话对象正在语音识别操作中的信息。根据该结构,使用者能够容易地判断可否进行通话。
另外,也能采用以下结构:即,在便携式电话8中,在进行用于语音识别的操作的情况下,在显示器5上显示通话对象正在语音识别中的信息。根据该结构,使用者能够容易地判断可否进行通话。
实施方式3.
本发明的实施方式3的导航装置的结构与上述实施方式1的导航装置的结构相同。
接下来,对实施方式3的导航装置的动作进行说明。本实施方式3的导航装置的免提通话处理及对使用者的声音的语音识别处理与实施方式1的免提通话处理(参照图2)及对使用者的声音的语音识别处理(参照图3)相同。
图6是表示实施方式3的导航装置所进行的、对通话对象的声音进行语音识别处理的流程图。
在对通话对象的声音进行的语音识别处理中,首先,使用者选择所要识别的词汇的种类(步骤ST51)。此步骤ST51的处理与上述步骤ST41的处理相同。之后,不向通话对象发送语音引导,也不减小通话语音的音量,就对通话对象的声音进行语音识别(步骤ST52)。此步骤ST52的处理与上述步骤ST44的处理相同。
接下来,显示语音识别结果(步骤ST53)。此步骤ST53的处理与上述步骤ST46的处理相同。接着,检查是否按下了取消按键17(步骤ST54)。此步骤ST54的处理与上述步骤ST48的处理相同。在上述步骤ST54中,若判断为按下了取消按键17,则识别为语音识别结果不正确,流程返回至免提通话 处理。在这种情况下,中止语音识别,返回至正常的通话状态。
另一方面,在步骤ST54中,若判断为未按下取消按键17,则识别为语音识别结果正确,接着,将语音识别出的地点显示于显示器5,并进行朗读(步骤ST55)。此步骤ST55的处理与上述步骤ST49的处理相同。此后,流程返回至免提通话处理。
如上述说明的那样,根据本发明的实施方式3的导航装置,由于不对通话对象进行语音引导,因此,能够与通话对象无关,而根据使用者的情况来对通话对象的声音进行语音识别。而且,根据实施方式3的导航装置,由于不需要CPU18所包含的音调信号识别部42,因此能够简化CPU18的结构。
工业上的实用性
本发明的导航装置对来自通话对象的语音进行语音识别,从而能够直接获取通话对象所要表达的地点信息或个人信息等。因此,适用于能将用户引导至目的地的导航装置等,特别适用于通过识别通话对象的语音来自动地提取出地点等的导航装置等。
Claims (5)
1.一种导航装置,其特征在于,包括:
通信模块,该通信模块与外部通信设备发送、接收信号;
音调信号识别部,该音调信号识别部对由所述外部通信设备通过所述通信模块传送来的表示语音内容的种类的按键音调信号进行识别;
语音识别部,该语音识别部利用所述按键音调信号,对由所述外部通信设备通过所述通信模块传送来的语音信号的词汇进行语音识别;
语音引导输出部,该语音引导输出部对所述外部通信设备的用户输出引导信号,该引导信号表示催促发出要进行语音识别的词汇的语音引导;
麦克风,该麦克风输入语音信号;以及
处理部,该处理部使用由所述麦克风输入的语音信号来输出送话语音,将所生成的送话语音和由所述语音引导输出部所输出的引导信号进行混合,将混合后的信号提供给所述通信模块以发送到所述外部通信设备,
所述处理部具有音量控制部,该音量控制部进行控制,以减小与所述引导信号进行混合的所述送话语音的音量,
所述导航装置具有导航部,该导航部获取所述语音识别部的语音识别的结果,基于所获取的结果来进行路径搜索及路径引导中的至少一个,
由所述语音引导输出部输出的与所述送话语音相混合的所述引导信号表示另一种语音引导,该另一种语音引导对所述外部通信设备的用户通知可选择的语音内容的种类,以执行路径搜索及路径引导中的至少一个。
2.如权利要求1所述的导航装置,其特征在于,
所述语音引导输出部输出表示语音识别部的识别结果是否正确的语音信号,以作为与所述送话语音进行混合的引导信号。
3.如权利要求1所述的导航装置,其特征在于,
包括扬声器,该扬声器在外部通信设备开始或结束语音识别的操作时,以语音来输出该情况。
4.如权利要求3所述的导航装置,其特征在于,
在从所述外部通信设备通过所述通信模块接收到语音信号的情况下,且在所述外部通信设备进行所述语音识别的操作的情况下,所述音量控制部减小由所述扬声器输出的所述语音信号的音量。
5.如权利要求1所述的导航装置,其特征在于,
包括显示器,该显示器在外部通信设备进行语音识别的操作时,显示该情况。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008319775 | 2008-12-16 | ||
JP2008-319775 | 2008-12-16 | ||
PCT/JP2009/003861 WO2010070781A1 (ja) | 2008-12-16 | 2009-08-11 | ナビゲーション装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102246136A CN102246136A (zh) | 2011-11-16 |
CN102246136B true CN102246136B (zh) | 2015-05-20 |
Family
ID=42268467
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN200980151568.0A Expired - Fee Related CN102246136B (zh) | 2008-12-16 | 2009-08-11 | 导航装置 |
Country Status (5)
Country | Link |
---|---|
US (1) | US8618958B2 (zh) |
JP (1) | JP5355591B2 (zh) |
CN (1) | CN102246136B (zh) |
DE (1) | DE112009003645B4 (zh) |
WO (1) | WO2010070781A1 (zh) |
Families Citing this family (151)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8645137B2 (en) | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US10002189B2 (en) | 2007-12-20 | 2018-06-19 | Apple Inc. | Method and apparatus for searching using an active ontology |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US20120309363A1 (en) | 2011-06-03 | 2012-12-06 | Apple Inc. | Triggering notifications associated with tasks items that represent tasks to perform |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US10417037B2 (en) | 2012-05-15 | 2019-09-17 | Apple Inc. | Systems and methods for integrating third party services with a digital assistant |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
US9576574B2 (en) * | 2012-09-10 | 2017-02-21 | Apple Inc. | Context-sensitive handling of interruptions by intelligent digital assistant |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
EP3809407A1 (en) | 2013-02-07 | 2021-04-21 | Apple Inc. | Voice trigger for a digital assistant |
US10652394B2 (en) | 2013-03-14 | 2020-05-12 | Apple Inc. | System and method for processing voicemail |
US10748529B1 (en) | 2013-03-15 | 2020-08-18 | Apple Inc. | Voice activated device for use with a voice-based digital assistant |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
KR101922663B1 (ko) | 2013-06-09 | 2018-11-28 | 애플 인크. | 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스 |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
US9575721B2 (en) | 2013-07-25 | 2017-02-21 | Lg Electronics Inc. | Head mounted display and method of controlling therefor |
US9449602B2 (en) * | 2013-12-03 | 2016-09-20 | Google Inc. | Dual uplink pre-processing paths for machine and human listening |
US10296160B2 (en) | 2013-12-06 | 2019-05-21 | Apple Inc. | Method for extracting salient dialog usage from live data |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US9966065B2 (en) | 2014-05-30 | 2018-05-08 | Apple Inc. | Multi-command single utterance input method |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
JP6333092B2 (ja) * | 2014-07-04 | 2018-05-30 | 本田技研工業株式会社 | 情報処理システム |
US9818426B2 (en) | 2014-08-13 | 2017-11-14 | Mitsubishi Electric Corporation | Echo canceller |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US10152299B2 (en) | 2015-03-06 | 2018-12-11 | Apple Inc. | Reducing response latency of intelligent automated assistants |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US10460227B2 (en) | 2015-05-15 | 2019-10-29 | Apple Inc. | Virtual assistant in a communication session |
US10200824B2 (en) | 2015-05-27 | 2019-02-05 | Apple Inc. | Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US20160378747A1 (en) | 2015-06-29 | 2016-12-29 | Apple Inc. | Virtual assistant for media playback |
US10740384B2 (en) | 2015-09-08 | 2020-08-11 | Apple Inc. | Intelligent automated assistant for media search and playback |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US10331312B2 (en) | 2015-09-08 | 2019-06-25 | Apple Inc. | Intelligent automated assistant in a media environment |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10956666B2 (en) | 2015-11-09 | 2021-03-23 | Apple Inc. | Unconventional virtual assistant interactions |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
JP6905115B2 (ja) * | 2015-12-08 | 2021-07-21 | キヤノン株式会社 | 通信装置、制御方法、およびプログラム |
JP2017107333A (ja) * | 2015-12-08 | 2017-06-15 | キヤノン株式会社 | 通信機器及び通信機器の制御方法 |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US11227589B2 (en) | 2016-06-06 | 2022-01-18 | Apple Inc. | Intelligent list reading |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
DK179309B1 (en) | 2016-06-09 | 2018-04-23 | Apple Inc | Intelligent automated assistant in a home environment |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
US10474753B2 (en) | 2016-09-07 | 2019-11-12 | Apple Inc. | Language identification using recurrent neural networks |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
US11281993B2 (en) | 2016-12-05 | 2022-03-22 | Apple Inc. | Model and ensemble compression for metric learning |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
US11204787B2 (en) | 2017-01-09 | 2021-12-21 | Apple Inc. | Application integration with a digital assistant |
JP2018116206A (ja) * | 2017-01-20 | 2018-07-26 | アルパイン株式会社 | 音声認識装置、音声認識方法及び音声認識システム |
DK201770383A1 (en) | 2017-05-09 | 2018-12-14 | Apple Inc. | USER INTERFACE FOR CORRECTING RECOGNITION ERRORS |
US10417266B2 (en) | 2017-05-09 | 2019-09-17 | Apple Inc. | Context-aware ranking of intelligent response suggestions |
US10726832B2 (en) | 2017-05-11 | 2020-07-28 | Apple Inc. | Maintaining privacy of personal information |
DK201770439A1 (en) | 2017-05-11 | 2018-12-13 | Apple Inc. | Offline personal assistant |
US10395654B2 (en) | 2017-05-11 | 2019-08-27 | Apple Inc. | Text normalization based on a data-driven learning network |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
US11301477B2 (en) | 2017-05-12 | 2022-04-12 | Apple Inc. | Feedback analysis of a digital assistant |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK201770429A1 (en) | 2017-05-12 | 2018-12-14 | Apple Inc. | LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT |
DK201770432A1 (en) | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
US10303715B2 (en) | 2017-05-16 | 2019-05-28 | Apple Inc. | Intelligent automated assistant for media exploration |
US20180336892A1 (en) | 2017-05-16 | 2018-11-22 | Apple Inc. | Detecting a trigger of a digital assistant |
US10311144B2 (en) | 2017-05-16 | 2019-06-04 | Apple Inc. | Emoji word sense disambiguation |
DK179549B1 (en) | 2017-05-16 | 2019-02-12 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
US10403278B2 (en) | 2017-05-16 | 2019-09-03 | Apple Inc. | Methods and systems for phonetic matching in digital assistant services |
US10657328B2 (en) | 2017-06-02 | 2020-05-19 | Apple Inc. | Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling |
US10445429B2 (en) | 2017-09-21 | 2019-10-15 | Apple Inc. | Natural language understanding using vocabularies with compressed serialized tries |
US10755051B2 (en) | 2017-09-29 | 2020-08-25 | Apple Inc. | Rule-based natural language processing |
US10636424B2 (en) | 2017-11-30 | 2020-04-28 | Apple Inc. | Multi-turn canned dialog |
CN109993476B (zh) * | 2018-01-02 | 2023-11-03 | 北京京东乾石科技有限公司 | 应用于自动送货车辆的货物配送方法和装置 |
US10733982B2 (en) | 2018-01-08 | 2020-08-04 | Apple Inc. | Multi-directional dialog |
US10733375B2 (en) | 2018-01-31 | 2020-08-04 | Apple Inc. | Knowledge-based framework for improving natural language understanding |
US10789959B2 (en) | 2018-03-02 | 2020-09-29 | Apple Inc. | Training speaker recognition models for digital assistants |
US10592604B2 (en) | 2018-03-12 | 2020-03-17 | Apple Inc. | Inverse text normalization for automatic speech recognition |
US10818288B2 (en) | 2018-03-26 | 2020-10-27 | Apple Inc. | Natural assistant interaction |
US10909331B2 (en) | 2018-03-30 | 2021-02-02 | Apple Inc. | Implicit identification of translation payload with neural machine translation |
US10928918B2 (en) | 2018-05-07 | 2021-02-23 | Apple Inc. | Raise to speak |
US11145294B2 (en) | 2018-05-07 | 2021-10-12 | Apple Inc. | Intelligent automated assistant for delivering content from user experiences |
US10984780B2 (en) | 2018-05-21 | 2021-04-20 | Apple Inc. | Global semantic word embeddings using bi-directional recurrent neural networks |
DK201870355A1 (en) | 2018-06-01 | 2019-12-16 | Apple Inc. | VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS |
DK179822B1 (da) | 2018-06-01 | 2019-07-12 | Apple Inc. | Voice interaction at a primary device to access call functionality of a companion device |
US10892996B2 (en) | 2018-06-01 | 2021-01-12 | Apple Inc. | Variable latency device coordination |
US11386266B2 (en) | 2018-06-01 | 2022-07-12 | Apple Inc. | Text correction |
DK180639B1 (en) | 2018-06-01 | 2021-11-04 | Apple Inc | DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT |
US10496705B1 (en) | 2018-06-03 | 2019-12-03 | Apple Inc. | Accelerated task performance |
CN110657819A (zh) * | 2018-06-28 | 2020-01-07 | 比亚迪股份有限公司 | 语音导航方法、装置、计算机设备及存储介质 |
US11010561B2 (en) | 2018-09-27 | 2021-05-18 | Apple Inc. | Sentiment prediction from textual data |
US11462215B2 (en) | 2018-09-28 | 2022-10-04 | Apple Inc. | Multi-modal inputs for voice commands |
US10839159B2 (en) | 2018-09-28 | 2020-11-17 | Apple Inc. | Named entity normalization in a spoken dialog system |
US11170166B2 (en) | 2018-09-28 | 2021-11-09 | Apple Inc. | Neural typographical error modeling via generative adversarial networks |
JP2020065140A (ja) * | 2018-10-16 | 2020-04-23 | カシオ計算機株式会社 | 音声処理装置、方法、プログラム、携帯端末 |
CN111081236A (zh) * | 2018-10-22 | 2020-04-28 | 中兴通讯股份有限公司 | 一种语音处理方法、终端和计算机存储介质 |
US11475898B2 (en) | 2018-10-26 | 2022-10-18 | Apple Inc. | Low-latency multi-speaker speech recognition |
US11638059B2 (en) | 2019-01-04 | 2023-04-25 | Apple Inc. | Content playback on multiple devices |
JP7346827B2 (ja) * | 2019-01-29 | 2023-09-20 | コニカミノルタ株式会社 | 画像形成装置、画像形成システム、及び、画像形成装置の制御方法 |
US11348573B2 (en) | 2019-03-18 | 2022-05-31 | Apple Inc. | Multimodality in digital assistant systems |
DK201970509A1 (en) | 2019-05-06 | 2021-01-15 | Apple Inc | Spoken notifications |
US11423908B2 (en) | 2019-05-06 | 2022-08-23 | Apple Inc. | Interpreting spoken requests |
US11475884B2 (en) | 2019-05-06 | 2022-10-18 | Apple Inc. | Reducing digital assistant latency when a language is incorrectly determined |
US11307752B2 (en) | 2019-05-06 | 2022-04-19 | Apple Inc. | User configurable task triggers |
US11140099B2 (en) | 2019-05-21 | 2021-10-05 | Apple Inc. | Providing message response suggestions |
US11496600B2 (en) | 2019-05-31 | 2022-11-08 | Apple Inc. | Remote execution of machine-learned models |
DK180129B1 (en) | 2019-05-31 | 2020-06-02 | Apple Inc. | USER ACTIVITY SHORTCUT SUGGESTIONS |
DK201970511A1 (en) | 2019-05-31 | 2021-02-15 | Apple Inc | Voice identification in digital assistant systems |
US11289073B2 (en) | 2019-05-31 | 2022-03-29 | Apple Inc. | Device text to speech |
US11360641B2 (en) | 2019-06-01 | 2022-06-14 | Apple Inc. | Increasing the relevance of new available information |
WO2021056255A1 (en) | 2019-09-25 | 2021-04-01 | Apple Inc. | Text detection using global geometry estimators |
CN111083274A (zh) * | 2019-12-30 | 2020-04-28 | 北京梧桐车联科技有限责任公司 | 语音采集方法、装置、系统及计算机可读存储介质 |
US11038934B1 (en) | 2020-05-11 | 2021-06-15 | Apple Inc. | Digital assistant hardware abstraction |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5898392A (en) * | 1998-02-10 | 1999-04-27 | Prince Corporation | System and method for remote control of an in-vehicle voice recorder and other electrical accessories |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6041863A (ja) | 1983-08-17 | 1985-03-05 | Fujitsu Ltd | プッシュホン音声入力装置 |
US4827520A (en) * | 1987-01-16 | 1989-05-02 | Prince Corporation | Voice actuated control system for use in a vehicle |
AU5525290A (en) * | 1989-05-11 | 1990-11-29 | Unisys Corporation | Voice messaging for pay phone telephone systems |
JPH05103076A (ja) | 1991-10-09 | 1993-04-23 | Matsushita Electric Ind Co Ltd | 留守番電話装置 |
JPH11196464A (ja) | 1997-12-26 | 1999-07-21 | Yazaki Corp | 自動車電話装置 |
JP2002257574A (ja) | 2001-03-01 | 2002-09-11 | Mitsubishi Electric Corp | 車載用情報装置 |
JP2005114521A (ja) * | 2003-10-07 | 2005-04-28 | Denso Corp | 車載音声認識システム |
JP2007235328A (ja) * | 2006-02-28 | 2007-09-13 | Sharp Corp | 音声通話用端末装置及び音声通話用プログラム |
US20070219786A1 (en) * | 2006-03-15 | 2007-09-20 | Isaac Emad S | Method for providing external user automatic speech recognition dictation recording and playback |
-
2009
- 2009-08-11 JP JP2010542807A patent/JP5355591B2/ja not_active Expired - Fee Related
- 2009-08-11 CN CN200980151568.0A patent/CN102246136B/zh not_active Expired - Fee Related
- 2009-08-11 US US13/127,405 patent/US8618958B2/en not_active Expired - Fee Related
- 2009-08-11 WO PCT/JP2009/003861 patent/WO2010070781A1/ja active Application Filing
- 2009-08-11 DE DE112009003645.7T patent/DE112009003645B4/de not_active Expired - Fee Related
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5898392A (en) * | 1998-02-10 | 1999-04-27 | Prince Corporation | System and method for remote control of an in-vehicle voice recorder and other electrical accessories |
Also Published As
Publication number | Publication date |
---|---|
US20110213553A1 (en) | 2011-09-01 |
WO2010070781A1 (ja) | 2010-06-24 |
DE112009003645T8 (de) | 2013-03-14 |
US8618958B2 (en) | 2013-12-31 |
DE112009003645T5 (de) | 2012-10-25 |
JPWO2010070781A1 (ja) | 2012-05-24 |
CN102246136A (zh) | 2011-11-16 |
JP5355591B2 (ja) | 2013-11-27 |
DE112009003645B4 (de) | 2014-05-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102246136B (zh) | 导航装置 | |
CN1229245C (zh) | 车载免提系统 | |
JP4506778B2 (ja) | 車載装置 | |
US8175657B2 (en) | In-vehicle apparatus with handsfree function | |
US6963760B2 (en) | Method and apparatus for generating DTMF tones using voice-recognition commands during hands-free communication in a vehicle | |
JP2004029323A (ja) | 音声認識システム、端末、音声認識サーバおよびコンピュータプログラム | |
US7920696B2 (en) | Method and device for changing to a speakerphone mode | |
US20090253467A1 (en) | In-vehicle handsfree apparatus | |
WO2007145003A1 (ja) | 車載情報装置 | |
JP2001339504A (ja) | 無線通信機 | |
US8019391B2 (en) | In-vehicle handsfree apparatus | |
JP2003152856A (ja) | 通信端末装置、通信方法、およびそのプログラム | |
EP1241861A2 (en) | Method and apparatus for voice recognition dialing and using memorized dialing prefixes | |
JP5163682B2 (ja) | 通訳通話システム | |
KR100467593B1 (ko) | 음성인식 키 입력 무선 단말장치, 무선 단말장치에서키입력 대신 음성을 이용하는 방법 및 그 기록매체 | |
EP1221799B1 (en) | Portable telephone terminal | |
JP3797204B2 (ja) | カーナビゲーション装置 | |
JPH0712914A (ja) | ナビゲーションシステム | |
JP6509077B2 (ja) | 情報処理装置 | |
JP2000105681A (ja) | 音声情報利用システム | |
KR200373011Y1 (ko) | 차량용 음성인식 핸즈프리 장치 | |
KR20040021974A (ko) | 차량용 음성인식 핸즈프리 장치 | |
JP2005222410A (ja) | 車載用ハンドフリーメール装置 | |
CN111739511A (zh) | 语音翻译装置、语音翻译方法以及记录介质 | |
JP2004198581A (ja) | 音声対話型制御装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20150520 Termination date: 20210811 |