CN106847276A - 一种带方言识别的话音控制系统 - Google Patents

一种带方言识别的话音控制系统 Download PDF

Info

Publication number
CN106847276A
CN106847276A CN201611242180.XA CN201611242180A CN106847276A CN 106847276 A CN106847276 A CN 106847276A CN 201611242180 A CN201611242180 A CN 201611242180A CN 106847276 A CN106847276 A CN 106847276A
Authority
CN
China
Prior art keywords
input
dialect
user
steer
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201611242180.XA
Other languages
English (en)
Inventor
陈泳璿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Thunder Power New Energy Vehicle Development Co Ltd
Original Assignee
Thunder Power New Energy Vehicle Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US14/996,180 external-priority patent/US9437191B1/en
Application filed by Thunder Power New Energy Vehicle Development Co Ltd filed Critical Thunder Power New Energy Vehicle Development Co Ltd
Publication of CN106847276A publication Critical patent/CN106847276A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • G10L15/07Adaptation to the speaker
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60RVEHICLES, VEHICLE FITTINGS, OR VEHICLE PARTS, NOT OTHERWISE PROVIDED FOR
    • B60R16/00Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for
    • B60R16/02Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for electric constitutive elements
    • B60R16/037Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for electric constitutive elements for occupant comfort, e.g. for automatic adjustment of appliances according to personal settings, e.g. seats, mirrors, steering wheel
    • B60R16/0373Voice control
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01CMEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
    • G01C21/00Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
    • G01C21/26Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00 specially adapted for navigation in a road network
    • G01C21/34Route searching; Route guidance
    • G01C21/36Input/output arrangements for on-board computers
    • G01C21/3605Destination input or retrieval
    • G01C21/3608Destination input or retrieval using speech input, e.g. using speech recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0484Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
    • G06F3/04842Selection of displayed objects or displayed text elements
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/005Language recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Mechanical Engineering (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • General Health & Medical Sciences (AREA)
  • User Interface Of Digital Computer (AREA)
  • Machine Translation (AREA)

Abstract

本文公开了带方言翻译的话音命令识别。用户话音输入可以使用方言翻译单元来翻译成标准话音模式。之后可以基于所述翻译的用户话音输入来产生控制命令。在某些实施例中,带方言翻译的所述话音命令识别系统可以被实现在驾驶设备中。在那些实施例中,用于控制所述驾驶设备的各种控制命令可以由用户利用方言输入来产生。用于所述驾驶设备的所述产生的话音控制命令可以包括:起动所述驾驶设备、打开/关闭A/C单元、控制所述A/C单元、打开/关闭娱乐系统、控制所述娱乐系统、打开/关闭某些安全特征、打开/关闭某些驾驶特征、调节座椅、调节方向盘、对周围环境拍摄照片和/或可以控制所述驾驶设备的各种功能的任何其他控制命令。

Description

一种带方言识别的话音控制系统
相关申请的交叉引用
本申请为2016年1月14日递交的美国非临时专利申请No.14/996,180的继续申请,该非临时专利申请要求2015年12月30日提交的美国临时专利申请No.62/272,710的优先权,所述非临时专利申请的全部公开内容出于所有目的以引用的方式并入本文。
技术领域
本公开总体上涉及通过话音命令控制驾驶设备。
背景技术
汽车上的常规语音识别系统方便驾驶员和/或乘客通过话音命令来控制各种车辆功能。典型地,一个或多个麦克风可以被设置在汽车的整个舱室中并且连接到语音处理器以使用声学和语言建模技术来处理用户话音命令。话音模式数据被典型地存储在车载语音识别系统中的存储器内,并且从所述存储器检索话音模式数据以用于识别用户话音命令。
与常规车载语音识别系统相关联的一个问题是它在识别由带方言的用户提供的话音命令方面具有局限性。方言典型地是指单一语言的变体,它是讲该语言的人中的特定群体的特征。单一语言内的不同社群讲该相同语言的方式可能不同,这些方式将他们与其他社群区分开来。这些差异可以被认为是方言—不只是口音(字词发音的方式),更涉及语法、词汇、句法以及常用表达。在地区上或社会上与其他群体有某种程度隔离的群体通常会形成特征性方言。例如,在中国存在数千种方言,诸如广东话、上海话、四川话、福建话等等。
说不同方言的用户对常规车载语音识别系统提出的挑战在于,常规车载语音识别系统仅将用户输入映射到标准话音模式。也就是说,常规车载语音识别系统不配置成用来区分方言差异并且要求用户通过标准语言模式来输入话音命令。在中文的情况下,常规车载语音识别系统典型地要求用户通过普通话来输入话音命令。如果用户通过他/她的方言输入话音命令,那么常规车载语音系统一般不会正确地作出响应。
发明内容
诸实施例可以方便驾驶设备的用户提供具有方言的话音输入。方言翻译层可以被实现用于将用户话音输入翻译为标准话音模式,并且基于所翻译的话音模式,控制命令可以被产生以控制驾驶设备的各种功能和/或操纵所述驾驶设备。与常规车载语音识别系统相比较,本公开使得用户能够使用方言来提供话音输入,并且因此向用户提供操作驾驶设备的方便性。本公开通过考虑驾驶设 备的用户之间的方言差异来相对于常规车载语音识别系统提高命令识别准确性。
在一些实施例中,驾驶设备所在的地点可以由用户选择。当从用户接收到话音输入时,可以加载对应于所选地点的方言翻译单元。所接收的用户话音输入可以通过方言翻译单元来处理。方言翻译单元可以被配置成识别对于与所述方言翻译单元相关联的方言而言特有的方言特征。
在一些实施例中,在通过方言翻译单元处理之后,所翻译的用户输入可以进一步通过话音模式控制命令单元来处理。所述话音模式控制命令单元可以被配置成产生控制命令,以控制驾驶设备的各种功能,所述各种功能例如但不限于:起动驾驶设备、打开/关闭A/C单元、控制A/C单元(例如,调节温度和/或风性质)、打开/关闭娱乐系统、控制娱乐系统、打开/关闭某些安全特征、打开/关闭某些驾驶特征、调节座椅、调节方向盘、对周围环境拍摄照片和/或能够控制驾驶设备的各种功能的任何其他控制命令。在一些实施例中,话音控制命令单元可以被配置成产生控制命令以操纵驾驶设备。例如,可使得用户能够用他/她自己的方言提供话音输入以驾驶所述驾驶设备。例如,可使得用户能够指示驾驶设备转弯、加速、减速、停止、前进、停车和/或以任何其他方式操纵。
在一些实例中,方便驾驶设备的用户用方言提供话音输入可以包括自动地确定用户所在的地点。例如,与用户相关联的方言可以基于驾驶设备所在的位置来确定。在一些实例中,方便驾驶设备的用户用方言提供话音输入可以包括识别用户的话音、鉴别所述用户并且自动地确定与所述用户相关联的方言。在一些实例中,方便驾驶设备的用户用方言提供话音输入可以包括在服务器处执行本文描述的各种方言翻译操作。
在一些实例中,提供一种用于方便用户通过话音命令控制驾驶设备的方法,所述方法包括:
由处理器接收用户话音输入;
由所述处理器确定与所述用户话音输入相关联的语言方言;
由所述处理器基于与所述话音输入相关联的所述语言方言将话音输入翻译为标准话音模式;
由所述处理器基于标准话音模式来确定对应于所述用户话音输入的控制命令以用于操纵所述驾驶设备;以及
由所述处理器来实现所述控制命令的执行以控制所述驾驶设备。
在一些实例中,所述用户话音输入包括指示所述驾驶设备的平移和/或转动操纵的信息。
在一些实例中,所述用户话音输入包括指示所述驾驶设备内的部件的控制的信息。
在一些实例中,所述方法还包括存储所述语言方言的预设特征,并且其中确定与所述用户话音输入相关联的所述语言方言包括确定所述话音输入的方言 特征,并且将所述话音输入的所述方言特征与所述语言方言的所述预设特征进行比较。
在一些实例中,确定与所述方言相关联的所述输入话音包括:
检索表示通过所述方言提供的预定话音输入的一个或多个参考模式;
获得所述参考模式的特征矢量;
获得所述输入话音的特征矢量;
针对所述参考模式的每个特征矢量,确定所述参考模式的所述特征矢量与所述输入话音模式的所述特征矢量之间的相似性;以及
将与所述输入话音模式具有最高相似性的所述参考模式确定为匹配的参考模式。
在一些实例中,所述方法还包括基于所述接收的用户话音输入来自动地确定用户身份。
在一些实例中,所述方法还包括将所述用户话音输入转换成表示矢量的一系列数字值,所述矢量指示所述输入话音模式的特征,并且还包括其中有关所述方言与所述输入话音相关的确认是基于所述矢量的。
在一些实例中,所述方法还包括呈现能够使所述用户选择将与所述用户相关联的场所的用户界面。
在一些实例中,所述方法还包括将方言翻译单元自动地加载到存储器中,以基于所述确定的语言方言来处理所述用户话音输入。
在一些实例中,提供一种用于方便用户通过话音命令控制驾驶设备的系统,所述系统包括一个或多个处理器,所述一个或多个处理器配置成执行下列动作:
由所述处理器接收用户话音输入;
由所述处理器确定所述用户话音输入相关联的语言方言;
由所述处理器基于与所述话音输入相关联的所述语言方言将所述话音输入翻译成标准话音模式;
由所述处理器基于标准话音模式来确定对应于所述用户话音输入的控制命令以用于操纵所述驾驶设备;以及
由所述处理器来实现所述控制命令的执行以控制所述驾驶设备。
在一些实例中,所述用户话音输入包括指示所述驾驶设备的平移和/或转动操纵的信息。
在一些实例中,所述用户话音输入包括指示所述驾驶设备内的部件的控制的信息。
在一些实例中,所述处理器进一步被配置成执行下列动作:存储所述语言方言的预设特征,并且其中确定所述用户话音输入相关联的所述语言方言包括从所述话音模式提取方言特征以及将所述提取的方言特征与所述语言方言的所述预设特征进行比较。
在一些实例中,确定与所述方言相关联的所述输入话音包括:
检索一个或多个参考模式,所述参考模式表示通过所述方言提供的预定话音输入;
获得所述参考模式的特征矢量;
获得所述输入话音的特征矢量;
针对所述参考模式的每个特征矢量,确定所述参考模式的所述特征矢量与所述输入话音模式的所述特征矢量之间的相似性;以及
将与所述输入话音模式具有最高相似性的所述参考模式确定为匹配的参考模式。
在一些实例中,所述处理器进一步被配置成自动地执行下列动作:基于所述接收的用户话音输入来确定用户身份。
在一些实例中,所述处理器进一步被配置成将所述用户话音输入转换成表示矢量的一系列数字值,所述矢量指示所述输入话音模式的特征,并且其中有关所述方言与所述输入话音相关的确认是基于所述矢量的。
在一些实例中,所述处理器进一步被配置成呈现能够使所述用户选择将与所述用户相关联的所述语言的用户界面。
在一些实例中,所述处理器进一步被配置成基于所述确定的语言方言,自动地将方言翻译单元加载到存储器中以处理所述用户话音输入。
此概述并不旨在表示所要求保护的主题的关键或必要特征,也不旨在单独用来确定所要求保护的主题的范围。所述主题应参考本专利的整个说明书、任何或所有的附图和每项权利要求的适当部分来理解。
在参考以下说明书、权利要求书和附图之后,前述内容连同其他特征和实施例将变得更加清楚。
附图说明
参考附图来阐述详细说明。在附图中,附图标记中最左侧的数字表示所述附图标记首次出现在的附图。相同附图标记在不同附图中的使用指示相似或相同的项。
图1大体示出根据本公开的驾驶设备的实例。
图2示出用于方便驾驶设备的用户用方言提供话音输入的示例性实现方式。
图3示出根据本公开的具有方言处理能力的话音控制系统的实例。
图4示出根据本公开用于方便驾驶设备的用户用方言提供话音输入的一般客户机/服务器体系结构。
图5A示出用于配置与用户相关联的方言的示例性用户界面。
图5B示出用于选择与用户相关联的方言的示例性用户界面。
图6示出用于方便驾驶设备的用户用方言提供话音输入的过程的实例。
具体实施方式
在下文描述中,将描述各种实施例。出于解释目的,阐述了特定配置和细节以便于提供实施例的全面理解。然而,本领域技术人员还将明白的是,可以在不具有特定细节的情况下实践所述实施例。另外,众所周知的特征可以被省略或简化以便不使所描述的实施例变得晦涩。
图1大体示出根据本公开的驾驶设备100的实例。驾驶设备100可以包括在距离上发生移动的任何设备。驾驶设备100的实例可以包括诸如小汽车、公交车、火车、卡车、电车的车辆或任何其他类型的车辆;可以包括诸如小船、轮船、驳船、渡船的船只或任何其他类型的水运工具;可以包括诸如飞机、宇宙飞船的飞行器或任何其他类型的飞行器;或可以包括任何其他运输设备。在一个实例中,驾驶设备100是电动汽车。如图所示,驾驶设备100可以包括具有一定容积的舱室101。
如图1中所示,在舱室101中,可能存在具有屏幕103的仪表板102。虽然在该实例中,仪表板屏幕103占用仪表板102的整个表面,但这并不旨在是限制性的。能想到在一些情况下,仪表板屏幕103可以占用仪表板102的一部分而不是整个仪表板102。在任何情况下,仪表板屏幕103适合于显示一个或多个信息面板,诸如图1中所示的信息面板104。在诸实现方式中,仪表板屏幕103可以包括任何显示技术,诸如液晶显示器(LCD)、晶体LCD、发光二极管(LED)、有机发光二极管(OLED)、有源矩阵有机发光二极管(AMOLED)、等离子体、投影面板、阴极射线管(CRT)和/或任何其他显示技术。
在一些实例中,信息面板104中呈现的信息可以包括与运输设备100相关的计量信息,诸如当前车速/海拔/方向/风、当前经度/纬度、行驶过的距离、RPM、燃料液位、电池电量和/或与运输设备100相关的任何其他计量信息。在一些实例中,信息面板104中呈现的信息可以包括指示信息,诸如安全带、气囊、车门、后备箱、维修、安全、窗锁、门锁指示信息或任何其他指示信息。在一些实例中,信息面板104中呈现的信息可以包括与驾驶设备100的导航相关的导航或GPS信息,诸如当前行驶在的街道、运输设备100在其中行驶的区域的地图、目的地信息、方向指示、交通状况、估计到达时间、因交通所致的估计延迟和/或任何其他导航信息。在一些实例中,信息面板104中呈现的信息可以包括舱室信息,诸如舱室101中的一个或多个区内的当前温度、湿度、风速、乘客的数量和/或任何其他舱室信息。在一些实例中,信息面板104中呈现的信息可以包括有关运输设备100的配置信息,诸如座椅配置、车镜配置、电池配置、驾驶模式配置和/或任何其他配置。在一些实例中,信息面板104中呈现的信息可以包括娱乐信息。例如,这种信息面板可以包括能够呈现视频或静止图像的视频屏幕、能够呈现网页信息的浏览器屏幕、能够呈现一个或多个游戏以供用户交互的游戏屏幕、能够使得用户消费音乐片段的音乐信息屏幕、能够使得用户通过因特网进行远程交易的电子商务信息屏幕、能够呈现可供用户消费的无线广播电台列表的无线广播信息屏幕和/或任何其他类型的信息娱乐屏幕。在一些实例中,信息面板104中呈现的信息可以包括通知信息,诸如来电 呼叫、传入文本消息、传入视频聊天请求和/或任何其他通知信息。能想到信息面板104的其他实例。
仍然如图1中所示,驾驶设备100可以包括舱室101内的一个或多个方向盘106。虽然图1中仅示出了一个方向盘106,但这并不旨在是限制性的。在一些实例中,驾驶设备100可以包括一个以上的方向盘106。例如,能想到驾驶设备100可以是飞行器,所述飞行器包括用于主飞行员的至少主方向盘106;以及用于副飞行员的至少副方向盘106。
同样如图1中所示,可以安排一个或多个用户108占用其在舱室101内的对应位置。用户108可以包括控制驾驶设备100的移动或导航的一个或多个驾驶员、一个或多个乘客和/或任何其他类型的用户108。在该实例中,用户108a是控制驾驶设备100的驾驶的驾驶员,而其他用户108例如用户108b-108d是乘客。仍然如图所示,在运输设备100的舱室101内可能存在多排用户108。
仍然如图1中所示,驾驶设备100可以包括一个或多个处理器110,所述一个或多个处理器被配置成控制驾驶设备100内的一个或多个电气系统或子系统。处理器110的类型可以包括配置成执行机器可读指令的通用处理器,和/或专用处理器,诸如电子/发动机控制模块(ECM)、传动系控制模块(PCM)、变速器控制模块(TCM)、制动控制模块(BCM或EBCM)、中央控制模块(CCM)、中央定时模块(CTM)、通用电子模块(GEM)、语音识别IC和/或任何其他专用处理器。
已经总体上描述了根据本公开的驾驶设备100的实例,现将注意力转向图2。图2示出用于方便驾驶设备100的用户用方言提供话音输入的示例性实现方式200。这将参考图1来描述。在一些实施例中,实现方式200可以通过图3中所示的一个或多个处理器110来实现。在一些实施例中,实现方式可以通过图4中所示的客户机/服务器架构来实现。为了方便驾驶设备100的用户用方言提供话音输入,实现方式200可以包括话音输入/输出层202。如图所示,话音输入/输出层202可以被配置成接收通过麦克风提供的用户话音输入。麦克风可以例如定位在仪表板102上、定位在驾驶设备100中的头顶控制台上或后视镜内。在一个实施例中,麦克风采用动态和电子自适应束形成技术。麦克风可以从用户108中的任一个或多个接收音频信号命令。
话音输入/输出层202可以被配置成将表示来自麦克风的用户话音输入的模拟信号转换成数字信号。所述转换可以包括将用户话音输入量化以校正误差。转换的结果可以是已从连续时间和连续振幅模拟信号转换成离散时间和离散振幅数字信号的一系列数字值。在一些实施例中,话音输入/输出层202可以被配置成执行噪声消除和回声消除。
话音输入/输出层202可以被配置成将数字信号转换成表示用户话音输入的特征的话音模式。在一个实施例中,话音模式是呈N数目的矢量fi(i=l,2,---,N)的形式,每个分量例如是输入话音的频谱分量。本公开的关键是话音输入/输出层202可以选择性地加载方言翻译单元204。方言翻译单元可以被配置成处理从数字信号转换的话音模式(本文中又称为输入模式),并且将所述输 入模式(带方言)转换成标准话音模式(不带方言)。方言翻译单元204,诸如204a、204b或204n,可以包括表示对应矢量的参考模式。参考模式可以存储在词典存储器中并且可从实现方式200的配置阶段所提供的话音输入预先配置。例如,方言翻译单元204a可以包括表示上海话(在中国的上海地区讲的方言)的参考模式。参考模式中的每一个可以从通过上海方言提供的用户话音输入产生。参考模式可以指示来自用户的控制指令,诸如打开A/C、接听电话、关闭娱乐系统(这里仅列举一些例子)。
在实现方式中,单一方言翻译单元204(例如,上海话)中包括的参考模式可以安排为不同的分类。对应于每个指定分类的单一参考模式表示例如待鉴别的某一特征或话音模式。也就是说,一个分类可以由那种方言中的字词(典型地为动词)组成,另一个分类可以由那种方言中的另一个字词(例如,另一个动词)组成。参考模式的单独分类可以由用于对应指令发音的相应声音和句法组成。在运行时间期间,这些参考模式可以与待处理的模式(即,带方言的输入模式)的矢量表示进行比较以确定相似性数值。高的相似性值可以指示输入模式与参考模式相同或几乎相同。
在一个实施例中,单独的方言翻译单元204可以被配置成执行以下动作:首先,对表示输入模式的信号进行采样并且将这些离散采样的值存储为输入信号的矢量分量。之后将这个输入矢量与表示每个分类的参考模式矢量进行比较。然后针对每个分类计算相似性数值,所述数值指示输入模式与每个分类的参考模式之间的相似程度。其次,从所有计算的值确定相似性的最大值;这个值因此鉴别输入模式所属的分类。基于相似性的最大值,则可以将该参考模式鉴别为带方言的输入模式的最佳匹配。方言翻译单元204中包括的每个参考模式可以与对应的标准话音模式(不带方言)相关联。以此方式,带方言的话音输入可以被处理和转换成对应的标准话音输入。
话音模式和控制命令层206可以被配置成基于由话音输入/输出层202产生的标准话音模式(不带方言)来产生控制命令。在诸实现方式中,话音模式和控制命令层206可以被配置成使用上文描述的相似性方法基于标准话音模式(不带方言)来确定控制命令。也就是说,可以将标准话音模式的输入矢量与表示控制命令的参考模式矢量进行比较。可以针对表示控制命令的每个参考模式计算相似性数值;并且从所有计算的值确定相似性的最大值;这个值可以用于鉴别与标准话音模式匹配的控制命令。
图3示出根据本公开的具有方言处理能力的话音控制系统的实例。如图所示,话音控制系统300可以通过与图1中所示的处理器110通信来实现。同样如图所示,话音控制系统可以包括话音接收部件302、方言翻译加载器304、方言翻译部件306、控制命令产生部件308、控制命令执行部件310和/或任何其他部件。话音接收部件302可以被配置成接收通过麦克风提供的用户话音输入。在接收到用户话音输入之后,话音接收部件302可以被配置成将表示来自麦克风的用户话音输入的模拟信号转换成数字信号。通过话音接收部件302进行的模-数转换可以包括将用户话音输入量化以校正误差。模-数转换的结果可 以是已从连续时间和连续振幅模拟信号转换成离散时间和离散振幅数字信号的一系列数字值。话音接收部件302可以被配置成将数字信号转换成表示所接收的用户话音输入的特征的输入模式。在一个实施例中,话音模式是呈N数目的矢量fi(i=l,2,---,N)的形式,每个分量例如是输入话音的频谱分量。
在一些实例中,话音接收部件302可以被配置成基于由话音接收部件302接收的话音输入来鉴别特定用户。例如,话音接收部件302可以被配置成质询用户以使其提供用户名和口令。基于用户提供的资格证明,话音接收部件302可以鉴别用户。又如,话音接收部件302可以被配置成识别所接收的用户话音输入的多个特征中的某特征,并且将识别的特征与已知他/她的话音中具有所识别的特征的用户ID进行匹配。
在一些实施例中,可以由话音接收部件302基于用户的地点来自动地确定特定用户与用户的方言之间的关联。例如,用户的地点可以基于驾驶设备100的位置来确定。作为示例,当用户在一个位置(例如,上海)提供话音输入时,用户可以与所述位置处使用的方言相关联。在一些实施例中,话音接收部件302可以被配置成分析来自用户的话音输入并且自动地确定话音输入中的方言。然而,这些不一定是唯一情况,如将在图5A-5B中所示那样,可使得用户能够选择与他或她相关联的方言。
方言翻译加载器304可以被配置成基于由话音接收部件302提供的用户ID来确定待加载的适当的方言翻译单元。在诸实现方式中,单个用户可以与对应的方言相关联。图5A-5B中示出了用于实现这种关联的示例性机制。例如,基于由话音接收部件302提供的用户ID,可以咨询用户方言关联的映射,并且可以由方言翻译加载器304将适当的方言翻译单元加载到处理器110的存储器312中。应了解到,方言翻译单元的加载可以在运行时间由方言翻译加载器304动态地完成。也就是说,方言翻译加载器304可以被配置成在话音接收部件302提供用户ID之后加载适当的方言翻译单元。
方言翻译部件306可以被配置成通过执行由方言翻译加载器304加载的方言翻译单元来处理由话音接收部件302提供的输入话音模式(带方言)。在诸实现方式中,方言翻译部件306可以被配置成接收存储器位置信息,所述存储器位置信息是所述方言翻译加载器304将方言翻译单元加载到所述存储器312中的位置的信息。然而,这不一定是唯一情况。在一些其他实现方式中,方言翻译加载器304可以被配置成始终将方言翻译单元加载到存储器312的预定范围位置内,并且方言翻译部件306可以被配置成调用被加载到存储器312的预定范围位置中的方言翻译单元。
通过方言翻译部件306执行方言翻译单元可以包括:将表示由话音接收部件302提供的输入话音模式的矢量与由方言翻译加载器304加载的方言翻译单元中包括的参考模式矢量进行比较。可以由方言翻译部件306针对每个参考模式计算相似性数值,所述相似性数值指示输入模式与参考模式之间的相似程度。方言翻译部件306可以被配置成从所有计算的值确定相似性的最大值。基于相似性的最大值,则可以通过方言翻译部件306将参考模式鉴别为输入模式 的最佳匹配。基于被鉴别为输入模式的最佳匹配的参考模式,可以由方言翻译部件306确定对应于所鉴别的参考模式的标准话音模式。
控制命令产生部件308可以被配置成基于由方言翻译部件306提供的标准话音模式来产生控制命令。在诸实现方式中,控制命令产生部件308可以被配置成基于标准话音模式(不带方言)来确定控制命令,其方式类似于由方言翻译部件306确定参考模式与输入模式的匹配。也就是说,控制命令产生部件308可以被配置成将标准话音模式的输入矢量与表示控制命令的参考模式矢量进行比较。可针对表示控制命令的每个参考模式计算相似性数值;并且从所有计算的值确定相似性的最大值;这个值可以用于鉴别与标准话音模式匹配的控制命令。由控制命令产生部件308产生的控制命令可以包括控制驾驶设备的各种功能的命令,例如但不限于:起动汽车、打开/关闭A/C单元、控制A/C单元(例如,调节温度和/或风性质)、打开/关闭娱乐系统、控制娱乐系统、打开/关闭某些安全特征、打开/关闭某些驾驶特征、调节座椅、调节方向盘、对周围环境拍摄照片和/或可以控制驾驶设备100的各种功能的任何其他控制命令。在一些实例中,由控制命令产生部件308产生的控制命令可以包括操纵驾驶设备100的命令。例如,由控制命令产生部件308产生的控制命令可以由控制命令执行部件310执行以指示驾驶设备100转弯、加速、减速、停止、前进、停车和/或以任何其他方式操纵。
图4示出根据本公开用于方便驾驶设备的用户用方言提供话音输入的一般客户机/服务器架构。在一些实施例中,正如图4中所示的情况那样,根据本公开方便用户用方言提供话音输入可以涉及服务器402。如图所示,驾驶设备100,诸如100a和l00n,可以通过网络404传输用户话音输入(带方言)。网络404可以是无线网络、有线网络,或两者的组合(即,网络404的一部分是无线的,并且网络404的另一部分是有线的)。服务器402可以被配置成处理从驾驶设备100接收的用户话音输入。在诸实现方式中,服务器402可以被配置成执行被赋予本文描述的部件方言翻译加载器304和方言翻译部件306的功能。如图所示,服务器402可以将标准话音模式(不带方言)提供回给驾驶设备100。由服务器402提供的标准话音模式则可以被驾驶设备100使用来产生控制命令。图4中所示的实例的优点是它不要求对已安装在驾驶设备100中的已有语音控制系统作显著的改变。该实例中的用户话音输入的方言翻译由服务器402处理,这是对已安装在驾驶设备100中的语音控制系统的灵活扩展。
图5A-5B示出方便用户选择与用户相关联的方言的示例性用户界面。这将参考图1来描述。如图所示,在图1中所示的信息面板104中,可以显示用于特定用户的话音命令控制面板。例如,话音命令控制面板可以由用户通过提供与用户相关联的用户ID来手动地调用,或者可以在用户激活驾驶设备100内的用户话音控制系统时呈现。如图所示,话音命令控制面板可以呈现信息502,该信息502指示用户正使用特定方言(与其相关联)。如图所示,控制按钮504可以被呈现在话音命令控制面板中以使得用户能够改变如由信息502所指示的当前与用户相关联的方言。同样如图所示,控制按钮506可以被呈现在话 音命令控制面板中以使得用户能够指示系统不使用任何方言来处理他的/她的话音输入-即,忽略本文描述的方言处理功能。仍然如图所示,在用户点击或轻敲按钮504之后,方言选择面板可以被呈现在信息面板104中。方言选择面板可以向用户呈现系统中可供处理的多种方言,诸如图5中所示的508a、508b、508n。如图所示,用户可以选择与用户相关联的所需方言以用于处理他的/她的话音输入。在该实例中,用户选择方言508b。同样如图所示,可使得用户能够通过按钮510保存方言选择。
图6示出用于方便驾驶设备的用户用方言提供话音输入的过程600的实例。过程600被示出为逻辑流程图,所述逻辑流程图的操作表示可以硬件、计算机指令或其组合实现的一系列操作。在计算机指令的背景下,所述操作表示被存储在一个或多个计算机可读存储介质上的计算机可执行指令,所述计算机可执行指令在被一个或多个处理器执行时执行所述的操作。一般而言,计算机可执行指令包括执行特定功能或实现特定数据类型的例程、程序、对象、部件、数据结构等。描述操作的顺序不旨在被解释为具有限制性,并且任何数目的所描述的操作可以任何顺序和/或并行地组合以实现所述过程。
另外,过程600可以在配置有可执行指令的一个或多个计算机系统的控制下执行,并且可以被实现为代码(例如,可执行指令、一个或多个计算机程序或者一个或多个应用),所述代码在一个或多个处理器上统一地执行,或者通过硬件实现,或者通过上述两者的组合来实现。代码可以被存储在计算机可读存储介质上,例如以计算机程序的形式,所述计算机程序包括可由一个或多个处理器执行的多个指令。计算机可读存储介质可以是非临时的。在一些实施例中,图6的过程600可存储在处理器110的存储器312中,并由图3所示的处理器110执行。
在一些方面中,方法600可以由诸如本文描述和示出的服务器402的一个或多个服务器执行。
在602处,可以接收用户话音输入。在一些实例中,602可以通过与本文描述和示出的话音接收部件302相同或基本上相似的话音接收部件来执行。
在604处,可以基于602处接收的话音输入来确定话音输入模式。在一些实例中,604可以通过与本文描述和示出的话音接收部件302相同或基本上相似的话音接收部件来执行。
在606处,可以针对602处接收的话音输入确定语言方言。在一些实例中,606可以通过与本文描述和示出的方言翻译加载器304相同或基本上相似的方言翻译加载器来执行。
在608处,可以使用606处确定的语言方言将604处确定的输入话音模式转换成标准话音模式。在一些实例中,608可以通过与本文描述和示出的方言翻译部件306相同或基本上相似的方言翻译部件来执行。
在610处,可以基于608处获得的标准话音模式来确定控制命令。在一些实例中,610可以通过与本文描述和示出的控制命令产生部件308相同或基本上相似的控制命令产生部件来执行。
所描述的特征可以数字电子电路、或以计算机硬件、固件、软件或其组合来实现。设备可以被实现在由可编程处理器执行的计算机程序产品中,所述计算机程序产品有形地体现在信息载体中,例如在机器可读存储装置中;并且方法步骤可以由可编程处理器来执行,所述可编程处理器执行指令程序以通过操作输入数据和产生输出来执行所描述的实现方式的功能。所描述的特征可以有利地被实现在可在可编程系统上执行的一个或多个计算机程序中,所述可编程系统包括:至少一个可编程处理器,所述至少一个可编程处理器被连接以从数据存储系统接收数据和指令并且向其传输数据和指令;至少一个输入装置;以及至少一个输出装置。计算机程序是可以直接或间接地用于计算机以执行某一活动或带来某一结果的一组指令。计算机程序可以任何形式的编程语言编写,包括编译型语言或解释型语言,并且所述计算机程序可以任何形式部署,包括作为独立式程序或作为模块、部件、子例程、或适合于在计算环境中使用的其他单元。
用于执行指令程序的适合处理器举例来讲包括通用微处理器和专用微处理器两者、以及任何种类的计算机的单处理器或多个处理器中的一个。一般而言,处理器将从只读存储器或随机存取存储器或者两者中接收指令和数据。计算机的必要元件是用于执行指令的处理器以及用于存储指令和数据的一个或多个存储器。一般而言,计算机将还包括用于存储数据文件的一个或多个大容量存储装置,或者操作性地连接以与之通信;这类装置包括磁盘,诸如内置硬盘和可移除盘;磁光盘;以及光盘。适合于有形地体现计算机程序指令和数据的存储装置包括所有形式的非易失性存储器,举例来讲包括:半导体存储器装置,诸如EPROM、EEPROM和闪存装置;磁盘,诸如内置硬盘和可移除盘;磁光盘;以及CD-ROM和DVD-ROM盘。处理器和存储器可以由ASIC(专用集成电路)补充或纳入到其中。
为了能够与用户进行交互,可以在计算机上实现所述特征,所述计算机具有:用于向用户显示信息的显示装置,诸如CRT(阴极射线管)、LCD(液晶显示器)、LED(发光二极管)监测器;以及键盘和诸如鼠标或跟踪球的指示装置,用户可以通过所述键盘和所述指示装置向计算机提供输入。
所述特征可以被实现在计算机系统中,所述计算机系统包括:后端部件,诸如数据服务器;或包括中间件部件,诸如应用服务器或互联网服务器;或包括前端部件,诸如具有图形用户界面或互联网浏览器的客户机计算机;或者其任何组合。系统的部件可以通过任何数字数据通信形式或介质(诸如,通信网络)来连接。通信网络的实例包括例如LAN、WAN以及构成互联网的计算机和网络。
计算系统可以包括客户机和服务器。客户机和服务器通常远离彼此,并且典型地通过网络(诸如所描述的网络)交互。客户机与服务器的关系借助于在各自的计算机上运行的并且彼此具有客户机-服务器关系的计算机程序产生。虽然上文已详细描述一些实现方式,但其他修改也是可能的。
此外,附图中所描绘的逻辑流程不要求所示的特定顺序、或有序顺序来实现所需结果。另外,可以提供其他步骤,或者可以从所描述的流程省去一些步骤,并且可以将其他部件添加到所描述的系统,或从所描述的系统省去。因此,其他实现方式也落在以下权利要求书的范围内。
在部件被描述为配置成执行某些操作的情况下,这种配置可以例如通过以下方式来完成:将电子电路或其他硬件设计成执行操作,对可编程电子电路(例如,微处理器、或其他合适的电子电路)进行编程以执行操作,或其任何组合。
已经描述了本发明的数个实施例。然而,将理解,在不脱离本发明的范围的情况下可以作出各种修改。
说明书和附图因此被视为具有说明性而非限制性意义。然而,将显而易见的是,在不脱离较宽的精神和范围的情况下,可以对其作出添加、减少、删除以及其他修改和改变。上文描述了用于提供本公开的特征的说明性方法和系统。这些系统和方法中的一些或全部可以,但不一定,至少部分地通过诸如以上图1-6中所示的那些架构来实现。
虽然已用专门针对结构特征和/或方法动作的语言描述了实施例,但是将理解,本公开不一定仅限于所描述的特定特征或动作。相反,这些特定特征和动作被公开作为实现实施例的示例形式。除非另外明确陈述,或在如所使用的上下文中有其他理解,否则条件性语言,尤其是诸如“可以”、“能够”“也许”或“可能”通常旨在传达某些实施例可以包括,而其他实施例不包括,某些特征、元件和/或步骤。因此,这种条件性语言通常不旨在暗示特征、元件和/或步骤无论如何是一个或多个实施例所必需的,或者一个或多个实施例一定包括用于决定任何特定实施例中是否包括或将执行这些特征、元件和/或步骤的逻辑,无论有或没有用户输入或提示。

Claims (20)

1.一种用于方便用户通过话音命令控制驾驶设备的方法,所述方法包括:
由处理器接收用户话音输入;
由所述处理器确定与所述用户话音输入相关联的语言方言;
由所述处理器基于与所述话音输入相关联的所述语言方言将话音输入翻译为标准话音模式;
由所述处理器基于标准话音模式来确定对应于所述用户话音输入的控制命令以用于操纵所述驾驶设备;以及
由所述处理器来实现所述控制命令的执行以控制所述驾驶设备。
2.如权利要求1所述的方法,其中所述用户话音输入包括指示所述驾驶设备的平移和/或转动操纵的信息。
3.如权利要求1所述的方法,其中所述用户话音输入包括指示所述驾驶设备内的部件的控制的信息。
4.如权利要求1所述的方法,其还包括存储所述语言方言的预设特征,并且其中确定与所述用户话音输入相关联的所述语言方言包括确定所述话音输入的方言特征,并且将所述话音输入的所述方言特征与所述语言方言的所述预设特征进行比较。
5.如权利要求1所述的方法,其中确定与所述方言相关联的所述输入话音包括:
检索表示通过所述方言提供的预定话音输入的一个或多个参考模式;
获得所述参考模式的特征矢量;
获得所述输入话音的特征矢量;
针对所述参考模式的每个特征矢量,确定所述参考模式的所述特征矢量与所述输入话音模式的所述特征矢量之间的相似性;以及
将与所述输入话音模式具有最高相似性的所述参考模式确定为匹配的参考模式。
6.如权利要求1所述的方法,还包括基于所述接收的用户话音输入来自动地确定用户身份。
7.如权利要求1所述的方法,还包括将所述用户话音输入转换成表示矢量的一系列数字值,所述矢量指示所述输入话音模式的特征,并且还包括其中有关所述方言与所述输入话音相关的确认是基于所述矢量的。
8.如权利要求1所述的方法,还包括呈现能够使所述用户选择将与所述用户相关联的场所的用户界面。
9.如权利要求1所述的方法,还包括将方言翻译单元自动地加载到存储器中,以基于所述确定的语言方言来处理所述用户话音输入。
10.一种用于方便用户通过话音命令控制驾驶设备的系统,所述系统包括一个或多个处理器,所述一个或多个处理器配置成执行下列动作:
由所述处理器接收用户话音输入;
由所述处理器确定所述用户话音输入相关联的语言方言;
由所述处理器基于与所述话音输入相关联的所述语言方言将所述话音输入翻译成标准话音模式;
由所述处理器基于标准话音模式来确定对应于所述用户话音输入的控制命令以用于操纵所述驾驶设备;以及
由所述处理器来实现所述控制命令的执行以控制所述驾驶设备。
11.如权利要求10所述的系统,其中所述用户话音输入包括指示所述驾驶设备的平移和/或转动操纵的信息。
12.如权利要求10所述的系统,其中所述用户话音输入包括指示所述驾驶设备内的部件的控制的信息。
13.如权利要求10所述的系统,其中所述处理器进一步被配置成执行下列动作:存储所述语言方言的预设特征,并且其中确定所述用户话音输入相关联的所述语言方言包括从所述话音模式提取方言特征以及将所述提取的方言特征与所述语言方言的所述预设特征进行比较。
14.如权利要求10所述的系统,其中确定与所述方言相关联的所述输入话音包括:
检索一个或多个参考模式,所述参考模式表示通过所述方言提供的预定话音输入;
获得所述参考模式的特征矢量;
获得所述输入话音的特征矢量;
针对所述参考模式的每个特征矢量,确定所述参考模式的所述特征矢量与所述输入话音模式的所述特征矢量之间的相似性;以及
将与所述输入话音模式具有最高相似性的所述参考模式确定为匹配的参考模式。
15.如权利要求10所述的系统,其中所述处理器进一步被配置成自动地执行下列动作:基于所述接收的用户话音输入来确定用户身份。
16.如权利要求10所述的系统,其中所述处理器进一步被配置成将所述用户话音输入转换成表示矢量的一系列数字值,所述矢量指示所述输入话音模式的特征,并且其中有关所述方言与所述输入话音相关的确认是基于所述矢量的。
17.如权利要求10所述的系统,其中所述处理器进一步被配置成呈现能够使所述用户选择将与所述用户相关联的所述语言的用户界面。
18.如权利要求10所述的系统,所述处理器进一步被配置成基于所述确定的语言方言,自动地将方言翻译单元加载到存储器中以处理所述用户话音输入。
19.一种用于方便用户通过话音命令控制驾驶设备的方法,包括权利要求1至9中的任意一个技术特征或者技术特征的任意组合。
20.一种用于方便用户通过话音命令控制驾驶设备的系统,包括权利要求10至18中的任意一个技术特征或者技术特征的任意组合。
CN201611242180.XA 2015-12-30 2016-12-29 一种带方言识别的话音控制系统 Pending CN106847276A (zh)

Applications Claiming Priority (6)

Application Number Priority Date Filing Date Title
US201562272710P 2015-12-30 2015-12-30
US62/272,710 2015-12-30
US14/996,180 2016-01-14
US14/996,180 US9437191B1 (en) 2015-12-30 2016-01-14 Voice control system with dialect recognition
US15/217,092 2016-07-22
US15/217,092 US9697824B1 (en) 2015-12-30 2016-07-22 Voice control system with dialect recognition

Publications (1)

Publication Number Publication Date
CN106847276A true CN106847276A (zh) 2017-06-13

Family

ID=57680098

Family Applications (2)

Application Number Title Priority Date Filing Date
CN201611242180.XA Pending CN106847276A (zh) 2015-12-30 2016-12-29 一种带方言识别的话音控制系统
CN201611242191.8A Pending CN106847277A (zh) 2015-12-30 2016-12-29 一种带方言识别的话音控制系统

Family Applications After (1)

Application Number Title Priority Date Filing Date
CN201611242191.8A Pending CN106847277A (zh) 2015-12-30 2016-12-29 一种带方言识别的话音控制系统

Country Status (3)

Country Link
US (4) US9697824B1 (zh)
EP (1) EP3188185A1 (zh)
CN (2) CN106847276A (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107818783A (zh) * 2017-09-12 2018-03-20 普强信息技术(北京)有限公司 一种基于声纹技术的人机多模态车载安全性交互的方法及装置
CN107845381A (zh) * 2017-10-27 2018-03-27 安徽硕威智能科技有限公司 一种机器人语义处理的方法及系统
CN108806682A (zh) * 2018-06-12 2018-11-13 奇瑞汽车股份有限公司 获取天气信息的方法和装置
CN109358543A (zh) * 2018-10-23 2019-02-19 南京迈瑞生物医疗电子有限公司 手术室控制系统、方法、计算机设备和存储介质
CN109817208A (zh) * 2019-01-15 2019-05-28 上海交通大学 一种适合各地方言的驾驶员语音智能交互设备及方法
CN109979432A (zh) * 2019-04-02 2019-07-05 科大讯飞股份有限公司 一种方言翻译方法及装置
CN110047467A (zh) * 2019-05-08 2019-07-23 广州小鹏汽车科技有限公司 语音识别方法、装置、存储介质及控制终端
CN110379421A (zh) * 2019-04-03 2019-10-25 深圳市尚可饰科技有限公司 一种方言语音ai控制方法、装置及终端
CN110914898A (zh) * 2018-05-28 2020-03-24 北京嘀嘀无限科技发展有限公司 一种用于语音识别的系统和方法
CN111415656A (zh) * 2019-01-04 2020-07-14 上海擎感智能科技有限公司 语音语义识别方法、装置及车辆
CN115331670A (zh) * 2022-08-09 2022-11-11 深圳市麦驰信息技术有限公司 一种家用电器用离线语音遥控器

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9697824B1 (en) 2015-12-30 2017-07-04 Thunder Power New Energy Vehicle Development Company Limited Voice control system with dialect recognition
US10331795B2 (en) * 2016-09-28 2019-06-25 Panasonic Intellectual Property Corporation Of America Method for recognizing speech sound, mobile terminal, and recording medium
DE112017007280T5 (de) * 2017-03-17 2019-11-28 Mitsubishi Electric Corporation Fahrzeuginterne Kommunikationssteuerungsvorrichtung, fahrzeuginternes Kommunikationssystem, und fahrzeuginternes Kommunikationssteuerungsverfahren
KR102329127B1 (ko) * 2017-04-11 2021-11-22 삼성전자주식회사 방언을 표준어로 변환하는 방법 및 장치
DE102018206015A1 (de) * 2018-04-19 2019-10-24 Bayerische Motoren Werke Aktiengesellschaft Benutzerkommunikation an Bord eines Kraftfahrzeugs
CN109062891B (zh) * 2018-07-09 2022-07-26 重庆邂智科技有限公司 媒体处理方法、装置、终端和介质
CN109308898B (zh) * 2018-09-10 2022-04-01 广东晾霸智能科技有限公司 一种方言语音识别方法、装置、终端及其存储介质
US10726651B1 (en) * 2019-05-14 2020-07-28 Rydeen North America, Inc. System for enabling door of vehicle to open or close upon a vocal command
CN110415679B (zh) * 2019-07-25 2021-12-17 北京百度网讯科技有限公司 语音纠错方法、装置、设备和存储介质
US20220293098A1 (en) * 2021-03-15 2022-09-15 Lenovo (Singapore) Pte. Ltd. Dialect correction and training
CN115631753A (zh) * 2022-12-23 2023-01-20 无锡迪富智能电子股份有限公司 卫生间用智能遥控器及其使用方法

Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5987401A (en) * 1995-12-08 1999-11-16 Apple Computer, Inc. Language translation for real-time text-based conversations
CN1412741A (zh) * 2002-12-13 2003-04-23 郑方 带方言背景的汉语语音识别方法
JP2003330485A (ja) * 2002-05-10 2003-11-19 Tokai Rika Co Ltd 音声認識装置、音声認識システム及び音声認識方法
US20070073543A1 (en) * 2003-08-22 2007-03-29 Daimlerchrysler Ag Supported method for speech dialogue used to operate vehicle functions
CN101462522A (zh) * 2007-12-21 2009-06-24 通用汽车公司 交通工具内根据状况的语音识别
US20100145707A1 (en) * 2008-12-04 2010-06-10 At&T Intellectual Property I, L.P. System and method for pronunciation modeling
CN102006373A (zh) * 2010-11-24 2011-04-06 深圳市子栋科技有限公司 基于语音命令控制的车载服务系统及方法
CN102316162A (zh) * 2011-09-01 2012-01-11 深圳市子栋科技有限公司 基于语音命令的车辆远程控制方法、装置及系统
CN102506026A (zh) * 2011-11-29 2012-06-20 上海交通大学 语音控制风扇及使用方法
CN103207857A (zh) * 2013-02-27 2013-07-17 何玉春 智能化语言管理系统
CN103456303A (zh) * 2013-08-08 2013-12-18 四川长虹电器股份有限公司 一种语音控制的方法和智能空调系统
CN104376844A (zh) * 2013-08-16 2015-02-25 上海能感物联网有限公司 汉语语音控制汽车驾驶的方法
CN104424945A (zh) * 2013-08-20 2015-03-18 上海能感物联网有限公司 非特定人外语语音近距或远程控制汽车驾驶的方法
JP2015158573A (ja) * 2014-02-24 2015-09-03 株式会社デンソーアイティーラボラトリ 車両用音声応答システム、及び音声応答プログラム
CN104914804A (zh) * 2014-10-13 2015-09-16 江苏华音信息科技有限公司 汉语语音全自动现场控制驾驶的汽车系统

Family Cites Families (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5569880A (en) * 1978-11-22 1980-05-26 Nec Corp Pattern recognition unit
JPS5876893A (ja) * 1981-10-30 1983-05-10 日本電気株式会社 音声認識装置
GB2145864B (en) * 1983-09-01 1987-09-03 King Reginald Alfred Voice recognition
EP0311414B2 (en) * 1987-10-08 1997-03-12 Nec Corporation Voice controlled dialer having memories for full-digit dialing for any users and abbreviated dialing for authorized users
JP2733955B2 (ja) * 1988-05-18 1998-03-30 日本電気株式会社 適応型音声認識装置
JPH03203794A (ja) * 1989-12-29 1991-09-05 Pioneer Electron Corp 音声リモートコントロール装置
JP2964518B2 (ja) * 1990-01-30 1999-10-18 日本電気株式会社 音声制御方式
US5345538A (en) * 1992-01-27 1994-09-06 Krishna Narayannan Voice activated control apparatus
JP3968133B2 (ja) * 1995-06-22 2007-08-29 セイコーエプソン株式会社 音声認識対話処理方法および音声認識対話装置
US6085160A (en) * 1998-07-10 2000-07-04 Lernout & Hauspie Speech Products N.V. Language independent speech recognition
US6556972B1 (en) * 2000-03-16 2003-04-29 International Business Machines Corporation Method and apparatus for time-synchronized translation and synthesis of natural-language speech
WO2002017625A1 (en) * 2000-08-21 2002-02-28 Koninklijke Philips Electronics N.V. A voice controlled remote control with downloadable set of voice commands
JP2002268698A (ja) * 2001-03-08 2002-09-20 Nec Corp 音声認識装置と標準パターン作成装置及び方法並びにプログラム
JP2004037721A (ja) * 2002-07-02 2004-02-05 Pioneer Electronic Corp 音声応答システム、音声応答プログラム及びそのための記憶媒体
US9123343B2 (en) * 2006-04-27 2015-09-01 Mobiter Dicta Oy Method, and a device for converting speech by replacing inarticulate portions of the speech before the conversion
US20080059200A1 (en) * 2006-08-22 2008-03-06 Accenture Global Services Gmbh Multi-Lingual Telephonic Service
US20080133245A1 (en) * 2006-12-04 2008-06-05 Sehda, Inc. Methods for speech-to-speech translation
US7471102B2 (en) * 2007-02-23 2008-12-30 Intel Corporation Measuring threshold voltage of transistors in a circuit
JP4466665B2 (ja) * 2007-03-13 2010-05-26 日本電気株式会社 議事録作成方法、その装置及びそのプログラム
JP4466666B2 (ja) * 2007-03-14 2010-05-26 日本電気株式会社 議事録作成方法、その装置及びそのプログラム
US20080300855A1 (en) * 2007-05-31 2008-12-04 Alibaig Mohammad Munwar Method for realtime spoken natural language translation and apparatus therefor
WO2009002336A1 (en) * 2007-06-26 2008-12-31 Jeffrey Therese M Enhanced telecommunication system
KR101556594B1 (ko) * 2009-01-14 2015-10-01 삼성전자 주식회사 신호처리장치 및 신호처리장치에서의 음성 인식 방법
KR101589433B1 (ko) * 2009-03-11 2016-01-28 삼성전자주식회사 동시 통역 시스템
EP3610918B1 (en) * 2009-07-17 2023-09-27 Implantica Patent Ltd. Voice control of a medical implant
US20110238407A1 (en) * 2009-08-31 2011-09-29 O3 Technologies, Llc Systems and methods for speech-to-speech translation
US8682640B2 (en) * 2009-11-25 2014-03-25 International Business Machines Corporation Self-configuring language translation device
US8380504B1 (en) * 2010-05-06 2013-02-19 Sprint Communications Company L.P. Generation of voice profiles
US8775156B2 (en) * 2010-08-05 2014-07-08 Google Inc. Translating languages in response to device motion
US8337305B2 (en) * 2010-11-17 2012-12-25 Steelseries Aps Apparatus and method for managing user inputs in video games
US8849628B2 (en) * 2011-04-15 2014-09-30 Andrew Nelthropp Lauder Software application for ranking language translations and methods of use thereof
US20130030789A1 (en) * 2011-07-29 2013-01-31 Reginald Dalce Universal Language Translator
US9299340B2 (en) * 2013-10-07 2016-03-29 Honeywell International Inc. System and method for correcting accent induced speech in an aircraft cockpit utilizing a dynamic speech database
US9304787B2 (en) * 2013-12-31 2016-04-05 Google Inc. Language preference selection for a user interface using non-language elements
US9697824B1 (en) 2015-12-30 2017-07-04 Thunder Power New Energy Vehicle Development Company Limited Voice control system with dialect recognition
US9437191B1 (en) 2015-12-30 2016-09-06 Thunder Power Hong Kong Ltd. Voice control system with dialect recognition

Patent Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5987401A (en) * 1995-12-08 1999-11-16 Apple Computer, Inc. Language translation for real-time text-based conversations
JP2003330485A (ja) * 2002-05-10 2003-11-19 Tokai Rika Co Ltd 音声認識装置、音声認識システム及び音声認識方法
CN1412741A (zh) * 2002-12-13 2003-04-23 郑方 带方言背景的汉语语音识别方法
US20070073543A1 (en) * 2003-08-22 2007-03-29 Daimlerchrysler Ag Supported method for speech dialogue used to operate vehicle functions
CN101462522A (zh) * 2007-12-21 2009-06-24 通用汽车公司 交通工具内根据状况的语音识别
US20100145707A1 (en) * 2008-12-04 2010-06-10 At&T Intellectual Property I, L.P. System and method for pronunciation modeling
CN102006373A (zh) * 2010-11-24 2011-04-06 深圳市子栋科技有限公司 基于语音命令控制的车载服务系统及方法
CN102316162A (zh) * 2011-09-01 2012-01-11 深圳市子栋科技有限公司 基于语音命令的车辆远程控制方法、装置及系统
CN102506026A (zh) * 2011-11-29 2012-06-20 上海交通大学 语音控制风扇及使用方法
CN103207857A (zh) * 2013-02-27 2013-07-17 何玉春 智能化语言管理系统
CN103456303A (zh) * 2013-08-08 2013-12-18 四川长虹电器股份有限公司 一种语音控制的方法和智能空调系统
CN104376844A (zh) * 2013-08-16 2015-02-25 上海能感物联网有限公司 汉语语音控制汽车驾驶的方法
CN104424945A (zh) * 2013-08-20 2015-03-18 上海能感物联网有限公司 非特定人外语语音近距或远程控制汽车驾驶的方法
JP2015158573A (ja) * 2014-02-24 2015-09-03 株式会社デンソーアイティーラボラトリ 車両用音声応答システム、及び音声応答プログラム
CN104914804A (zh) * 2014-10-13 2015-09-16 江苏华音信息科技有限公司 汉语语音全自动现场控制驾驶的汽车系统

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107818783A (zh) * 2017-09-12 2018-03-20 普强信息技术(北京)有限公司 一种基于声纹技术的人机多模态车载安全性交互的方法及装置
CN107845381A (zh) * 2017-10-27 2018-03-27 安徽硕威智能科技有限公司 一种机器人语义处理的方法及系统
CN110914898B (zh) * 2018-05-28 2024-05-24 北京嘀嘀无限科技发展有限公司 一种用于语音识别的系统和方法
CN110914898A (zh) * 2018-05-28 2020-03-24 北京嘀嘀无限科技发展有限公司 一种用于语音识别的系统和方法
CN108806682B (zh) * 2018-06-12 2020-12-01 奇瑞汽车股份有限公司 获取天气信息的方法和装置
CN108806682A (zh) * 2018-06-12 2018-11-13 奇瑞汽车股份有限公司 获取天气信息的方法和装置
CN109358543A (zh) * 2018-10-23 2019-02-19 南京迈瑞生物医疗电子有限公司 手术室控制系统、方法、计算机设备和存储介质
CN109358543B (zh) * 2018-10-23 2020-12-01 南京迈瑞生物医疗电子有限公司 手术室控制系统、方法、计算机设备和存储介质
CN111415656B (zh) * 2019-01-04 2024-04-30 上海擎感智能科技有限公司 语音语义识别方法、装置及车辆
CN111415656A (zh) * 2019-01-04 2020-07-14 上海擎感智能科技有限公司 语音语义识别方法、装置及车辆
CN109817208A (zh) * 2019-01-15 2019-05-28 上海交通大学 一种适合各地方言的驾驶员语音智能交互设备及方法
CN109979432B (zh) * 2019-04-02 2021-10-08 科大讯飞股份有限公司 一种方言翻译方法及装置
CN109979432A (zh) * 2019-04-02 2019-07-05 科大讯飞股份有限公司 一种方言翻译方法及装置
CN110379421A (zh) * 2019-04-03 2019-10-25 深圳市尚可饰科技有限公司 一种方言语音ai控制方法、装置及终端
CN110047467B (zh) * 2019-05-08 2021-09-03 广州小鹏汽车科技有限公司 语音识别方法、装置、存储介质及控制终端
CN110047467A (zh) * 2019-05-08 2019-07-23 广州小鹏汽车科技有限公司 语音识别方法、装置、存储介质及控制终端
CN115331670A (zh) * 2022-08-09 2022-11-11 深圳市麦驰信息技术有限公司 一种家用电器用离线语音遥控器
CN115331670B (zh) * 2022-08-09 2023-06-23 深圳市麦驰信息技术有限公司 一种家用电器用离线语音遥控器

Also Published As

Publication number Publication date
US9697824B1 (en) 2017-07-04
US10242663B2 (en) 2019-03-26
US20190355349A1 (en) 2019-11-21
US20180174573A1 (en) 2018-06-21
US10672386B2 (en) 2020-06-02
US9916828B2 (en) 2018-03-13
US20170249938A1 (en) 2017-08-31
EP3188185A1 (en) 2017-07-05
US20170193986A1 (en) 2017-07-06
CN106847277A (zh) 2017-06-13

Similar Documents

Publication Publication Date Title
CN106847276A (zh) 一种带方言识别的话音控制系统
CN106663422B (zh) 言语识别系统及其言语识别方法
JP6743300B2 (ja) ニューラルネットワークを用いてハイブリッド音声認識結果をランク付けするためのシステム及び方法
US9666189B2 (en) Vehicle and method of controlling the same
CN108242236A (zh) 对话处理装置及其车辆和对话处理方法
EP3188184A1 (en) Voice control system with dialect recognition
CN106469556B (zh) 语音识别装置、具有语音识别装置的车辆、控制车辆方法
CN106164398A (zh) 移动设备、车辆远程操作系统、车辆远程操作方法以及程序
US20230102157A1 (en) Contextual utterance resolution in multimodal systems
CN110349575A (zh) 语音识别的方法、装置、电子设备和存储介质
CN111724798B (zh) 车载设备控制系统、车载设备控制装置、车载设备控制方法及存储介质
US20150019225A1 (en) Systems and methods for result arbitration in spoken dialog systems
CN110562260A (zh) 对话系统和对话处理方法
JP7178983B2 (ja) エージェント装置、エージェント方法、及びプログラム
JP2020144285A (ja) エージェントシステム、情報処理装置、移動体搭載機器制御方法、及びプログラム
US20220208213A1 (en) Information processing device, information processing method, and storage medium
US20220199081A1 (en) Routing of user commands across disparate ecosystems
CN116259320A (zh) 基于语音的车辆控制方法及装置、存储介质、电子装置
JP2020079865A (ja) 情報処理装置、エージェントシステム、情報処理方法、およびプログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1239940

Country of ref document: HK

SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20170613