CN107819929A - 优选表情符号的识别和生成 - Google Patents

优选表情符号的识别和生成 Download PDF

Info

Publication number
CN107819929A
CN107819929A CN201710813706.3A CN201710813706A CN107819929A CN 107819929 A CN107819929 A CN 107819929A CN 201710813706 A CN201710813706 A CN 201710813706A CN 107819929 A CN107819929 A CN 107819929A
Authority
CN
China
Prior art keywords
emoticon
vehicle
user
voice
storehouse
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710813706.3A
Other languages
English (en)
Inventor
X·F·赵
G·塔瓦尔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
GM Global Technology Operations LLC
Original Assignee
GM Global Technology Operations LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by GM Global Technology Operations LLC filed Critical GM Global Technology Operations LLC
Publication of CN107819929A publication Critical patent/CN107819929A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/72Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
    • H04M1/724User interfaces specially adapted for cordless or mobile telephones
    • H04M1/72403User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality
    • H04M1/7243User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality with interactive means for internal management of messages
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0481Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
    • G06F3/0482Interaction with lists of selectable items, e.g. menus
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/51Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • G06F3/012Head tracking input arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/017Gesture based interaction, e.g. based on a set of recognized hand gestures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0481Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
    • G06F3/04817Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance using icons
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0487Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser
    • G06F3/0488Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser using a touch-screen or digitiser, e.g. input of commands through traced gestures
    • G06F3/04883Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser using a touch-screen or digitiser, e.g. input of commands through traced gestures for inputting data by handwriting, e.g. gesture or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
    • H04L51/07User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail characterised by the inclusion of specific contents
    • H04L51/10Multimedia information
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/72Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
    • H04M1/724User interfaces specially adapted for cordless or mobile telephones
    • H04M1/72403User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality
    • H04M1/7243User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality with interactive means for internal management of messages
    • H04M1/72436User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality with interactive means for internal management of messages for text messaging, e.g. short messaging services [SMS] or e-mails
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/72Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
    • H04M1/724User interfaces specially adapted for cordless or mobile telephones
    • H04M1/72403User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality
    • H04M1/7243User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality with interactive means for internal management of messages
    • H04M1/72439User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality with interactive means for internal management of messages for image or video messaging
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2203/00Indexing scheme relating to G06F3/00 - G06F3/048
    • G06F2203/01Indexing scheme relating to G06F3/01
    • G06F2203/011Emotion or mood input determined on the basis of sensed human body parameters such as pulse, heart rate or beat, temperature of skin, facial expressions, iris, voice pitch, brain activity patterns
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L2013/083Special characters, e.g. punctuation marks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
    • H04L51/07User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail characterised by the inclusion of specific contents
    • H04L51/08Annexed information, e.g. attachments

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • General Business, Economics & Management (AREA)
  • Business, Economics & Management (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Navigation (AREA)
  • Telephonic Communication Services (AREA)
  • Telephone Function (AREA)

Abstract

一种用于识别和生成优选表情符号的系统和方法包括:在无线设备处检测多个选择的表情符号;确定选择每个表情符号的频率;基于选择每个表情符号的频率,从多个选择的表情符号中识别指定数量的表情符号;并为识别的表情符号创建常用表情符号库。

Description

优选表情符号的识别和生成
技术领域
本发明涉及使用表情符号,更具体地涉及识别和生成用户最常发送的表情符号。
背景技术
电子设备用户用其设备发送更复杂的电子消息。过去,电子消息只包含用户使用键盘添加的文本内容。电子消息已经发展成包含除文本之外的内容。例如,电子设备用户可以从能够包含在电子消息中的大量表情符号阵列中进行选择。表情符号是以图形方式表达想法的小型艺术图像,可以包含在电子消息中。许多电子设备都具有包含许多表情符号的库,用户可以浏览并选择以用于他们的消息中。即使用户可以访问许多不同的表情,但是用户发送的消息通常只包含设备的库中可用的表情符号的一小部分。识别和选择库中最常用的表情符号可以更有效地完成。
发明内容
根据一个实施例,提供了一种识别和生成优选表情符号的方法。该方法包括在无线设备处检测多个选择的表情符号;确定选择每个表情符号的频率;基于选择每个表情符号的频率,从多个选择的表情符号中识别指定数量的表情符号;以及为识别的表情符号创建一个常用表情符号库。
根据另一个实施例,提供了一种识别和生成优选表情符号的方法。该方法包括在无线设备处发起电子消息;接收用于包含在电子消息中的表情符号的语音描述;将接收的语音与存储在常用表情符号库中的表情符号描述进行对比;基于该对比来识别表情符号;以及将表情符号插入电子消息中。
根据又一个实施例,提供了一种识别和生成优选表情符号的方法。该方法包括在无线设备处发起电子消息;接收用于识别包含在电子消息中的表情符号的用户指定的输入;将接收到的用户指定的输入与存储在常用表情符号库中的先前存储的用户指定的输入和表情符号的关联进行对比;基于该对比来识别表情符号;以及将表情符号插入电子消息中。
附图说明
以下将结合附图描述本发明的一个或多个实施例,其中相同的附图标记表示相同的元件,且其中:
图1是示出了能够利用本文公开的方法的通信系统的实施例的框图;以及
图2是示出了能够利用本文公开的方法的文本转语音(TTS)系统的实施例的框图;
图3是示出了能够利用本文公开的方法的自动语音识别(ASR)系统的实施例的框图;以及
图4是示出了识别和生成优选表情符号的方法的实施例的流程图。
具体实施方式
下面描述的系统和方法识别了由无线设备的用户最常选择的表情符号,并有助于将这些表情符号插入到电子消息中。无线设备可以监视无线设备用户在一段时间内发送的表情符号。无线设备可以计算用户发送特定表情符号的次数,并且在经过这段时间之后,无线设备可以确定最常发送的表情符号。然后,无线设备创建这些表情符号的常用表情符号库。常用表情符号库可以将最常用的表情符号与这些表情符号的文本描述相关联。文本描述可以包括每个表情符号的普遍认同的描述以及由特定用户添加或基于用户调查的用户指定的定义。
常用表情符号库中的表情符号可以与无线设备可以检测的用户指定的输入相关联。例如,用户指定的输入可以是可由相机识别的面部表情。用户可以在常用表情符号库中识别表情符号,并将表情符号与特定的面部表情配对。当用户想要将该表情符号添加到电子消息时,用户可以作出与表情符号相关联的面部表情,相机将检测到该面部表情,访问与表情相关联的表情符号,并将该表情符号添加到电子消息中。在另一个实例中,用户指定的输入可以是用户的手指在触摸板或触摸屏上的特定图案移动。用户可以在常用表情符号库中识别表情符号,并将表情符号与用户用其手指跟踪的特定图案进行配对。当用户希望将表情符号添加到电子消息时,用户可以在触摸屏上画出与表情符号相关联的特定图案,与触摸屏相关联的无线设备将检测该图案,访问与该图案相关联的表情符号,并将表情符号添加到电子消息中。
通信系统
参考图1,示出了包括移动车辆通信系统10、并且可以用于实现本文公开的方法的操作环境。通信系统10通常包括车辆12、一个或多个无线载波系统14、陆地通信网络16、计算机18和呼叫中心20。应当理解,所公开的方法可以与任何数量的不同系统一起使用,并且不特别限于本文所示的操作环境。此外,系统10及其各个部件的架构、构造、设置和操作在本领域中通常是已知的。因此,以下段落简单地提供了这种通信系统10的概述;然而,本文未示出的其它系统也可以采用所公开的方法。
车辆12在所示实施例中被描述为客车,但是应当理解,也可以使用任何其它车辆,包括摩托车、卡车、运动型多用途车(SUV)、休闲车辆(RV)、船舶、飞机等。图1中大体上示出了一些车辆电子设备28,其包括远程信息处理单元30、麦克风32、一个或多个按钮或其它控制输入34、音频系统36、视觉显示器38、GPS模块40以及多个其它车辆系统模块(VSM)42。这些设备中的一些可以直接连接到远程信息处理单元,比如麦克风32和按钮34,而其它设备则使用一个或多个网络连接,比如通信总线44或娱乐总线46。合适的网络连接的实例包括控制器区域网络(CAN)、媒体导向系统传输(MOST)、本地互连网络(LIN)、局域网(LAN)以及其它适当的连接,比如以太网或符合已知的ISO、SAE和IEEE标准和规范的其它网络,仅举数例。
远程信息处理单元30本身是个车辆系统模块(VSM),并且可以实现为安装在车辆内的OEM安装(嵌入式)或售后设备,并且能够通过无线载波系统14并经由无线网络实现无线语音和/或数据通信。这使得车辆能够与呼叫中心20、其它远程信息处理车辆或其它实体或设备进行通信。远程信息处理单元优选地使用无线电传输来建立与无线载波系统14的通信信道(语音信道和/或数据信道),使得可以通过该信道发送和接收语音和/或数据传输。通过提供语音和数据通信,远程信息处理单元30使得车辆能够提供多种不同的服务,包括与导航、电话、紧急援助、诊断、信息娱乐等相关的服务。数据可以经由数据连接(比如通过数据信道上的分组数据传输)或者经由使用本领域已知技术的语音信道。对于涉及语音通信(比如,与呼叫中心20处的现场顾问或语音响应单元)和数据通信(比如,向呼叫中心20提供GPS位置数据或车辆诊断数据)的组合服务,系统可以通过语音信道采用单呼并根据需要在通过语音信道的语音和数据传输之间切换,并且可以使用本领域技术人员已知的技术来完成。
根据实施例,远程信息处理单元30利用根据GSM、CDMA或LTE标准的蜂窝通信,并且因此包括用于语音通信(免提呼叫)的标准蜂窝芯片组50、用于数据传输的无线调制解调器、电子处理设备52、一个或多个数字存储设备54、以及双天线56。应当理解,调制解调器可以通过存储在远程信息处理单元中并由处理器52执行的软件来实现,或者它可以是位于远程信息处理单元30内部或外部的单独的硬件部件。调制解调器可以使用任何数量的不同标准或协议(比如LTE、EVDO、CDMA、GPRS和EDGE)进行操作。车辆和其它联网设备之间的无线网络也可以使用远程信息处理单元30来执行。为此,远程信息处理单元30可以配置成根据一种或多种无线协议进行无线通信,包括短距离无线通信(SRWC),比如IEEE802.11协议、WiMAX、ZigBeeTM、Wi-Fi直接、蓝牙TM、或近场通信(NFC)。当用于分组交换数据通信(比如T/IP)时,远程信息处理单元可以配置成静态IP地址,或者可以设置为自动从网络上的另一设备(比如路由器或从网络地址服务器)接收分配的IP地址。
可以与远程信息处理单元30通信的联网设备之一是无线设备,比如智能电话57。智能电话57可以包括计算机处理能力、能够使用短距离无线协议进行通信的收发机、以及可视智能电话显示器59。在一些实施方式中,智能电话显示器59还包括触摸屏图形用户界面。智能电话57还可以包括能够接收GPS卫星信号并基于那些信号生成GPS坐标的GPS模块。智能电话57还包括执行机器代码以生成逻辑输出的一个或多个微处理器。一个或多个相机可以被包括在智能电话57中。相机可以位于智能电话显示器59的相对侧。但是在一些配置中,智能电话可以具有多个相机,其中一个相机与显示器59相邻。智能电话57的实例包括由苹果公司制造的iPhone和由三星制造的Galaxy以及其它。虽然智能电话57可以包括使用无线载波系统14通过蜂窝通信进行通信的能力,但并非总是这种情形。例如,苹果公司生产诸如各种型号的iPad和iPod Touch等设备,其包括处理能力、显示屏59以及通过短距离无线通信链路进行通信的能力。然而,iPod TouchTM和一些iPadTM不具备蜂窝通信能力。即使如此,就本文描述的方法而言,这些和其它类似的设备也可以被使用或被认为是一种无线设备类型,诸如智能电话57。
处理器52可以是能够处理电子指令的任何类型的设备,包括微处理器、微控制器、主处理器、控制器、车辆通信处理器和专用集成电路(ASIC)。它可以是仅用于远程信息处理单元30的专用处理器,或者可以与其它车辆系统共用。处理器52执行各种类型的数字存储的指令,比如存储在存储器54中的软件或固件程序,其使得远程信息处理单元能够提供各种各样的服务。例如,处理器52可以执行程序或处理数据,以执行本文讨论的方法的至少一部分。
远程信息处理单元30可以用于提供涉及到达和/或来自车辆的无线通信的各种各样的车辆服务。这样的服务包括:连同基于GPS的车辆导航模块40一起提供的转弯方向和其它导航相关服务;与一个或多个碰撞传感器接口模块(比如车身控制模块(未示出))相连布置的安全气囊展开通知和其它紧急或路边辅助相关服务;使用一个或多个诊断模块的诊断报告;以及通过信息娱乐模块(未示出)下载并被存储以用于当前或稍后播放的音乐、网页、电影、电视节目、电子游戏和/或其它信息的信息娱乐相关服务。上述服务绝不是远程信息处理单元30的所有功能的详尽列表,而是简单地列举了远程信息处理单元能够提供的一些服务。此外,应当理解,至少一些前述模块可以用保存在远程信息处理单元30内部或外部的软件指令的形式来实现,它们可以是位于远程信息处理单元30内部或外部的硬件部件,或者它们可以彼此或与整个车辆的其它系统集成在一起和/或共享,这里仅引用一些可能情况。在模块被实现为位于远程信息处理单元30外部的VSMs42的情况下,它们可以利用车辆总线44与远程信息处理单元交换数据和命令。
GPS模块40从GPS卫星的星座60接收无线电信号。根据这些信号,模块40可以确定用于向车辆驾驶员提供导航和其它位置相关服务的车辆位置。导航信息可以呈现在显示器38(或车辆内的其它显示器)上,或者可以口头呈现,比如在提供分路段导航时进行的导航。可以使用专用的车载导航模块(其可以是GPS模块40的一部分)来提供导航服务,或者可以通过远程信息处理单元30完成一些或所有导航服务,其中,位置信息被发送到远方位置,以便为车辆提供导航地图、地图注释(兴趣点、餐馆等)、路线计算等。位置信息可以提供给呼叫中心20或其它远程计算机系统(比如计算机18),以用于其它目的,比如车队管理。此外,新的或更新的地图数据可以经由远程信息处理单元30从呼叫中心20下载到GPS模块40。
除了音频系统36和GPS模块40之外,车辆12可以包括位于整个车辆中的电子硬件部件形式的其它车辆系统模块(VSM)42,其通常从一个或多个传感器接收输入,并使用检测到的输入来执行诊断、监视、控制、报告和/或其它功能。每个车辆系统模块42优选地通过通信总线44连接到其它车辆系统模块以及远程信息处理单元30,并且可以被编程以运行车辆系统和子系统诊断测试。作为实例,一个车辆系统模块42可以是控制发动机操作的各个方面(比如燃料点火和点火正时等)的发动机控制模块(ECM),另一个车辆系统模块42可以是调节车辆动力系的一个或多个部件的操作的动力系控制模块动力总成,而另一个车辆系统模块42可以是车身控制模块,用于控制位于整个车辆上的各种电气部件,比如车辆的电动门锁和前灯。根据实施例,发动机控制模块配备有车载诊断(OBD)特征,其提供无数的实时数据,比如从包括车辆排放传感器在内的各种传感器接收的实时数据,并提供标准化的系列诊断故障代码(DTC),以便技术人员快速识别和修复车辆内的故障。如本领域技术人员所理解的,上述车辆系统模块仅仅是车辆12中可以使用的一些模块的实例,因为也可能是许多其它的模块。
车辆电子设备28还包括多个车辆用户界面,其向车辆乘员提供了提供和/或接收信息的装置,包括麦克风32、按钮34、音频系统36和视觉显示器38。如本文所使用的,术语“车辆用户界面”广义上包括任何合适形式的电子设备,包括位于车辆上并使得车辆用户能够与车辆部件进行通信或通过车辆部件进行通信的硬件和软件部件。麦克风32向远程信息处理单元提供音频输入,使得驾驶员或其他乘员能够通过无线载波系统14提供语音命令并执行免提呼叫。为此,它可以使用本领域已知的人机界面(HMI)技术连接到车载自动语音处理单元。按钮34允许用户手动输入到远程信息处理单元30以发起无线电话呼叫并提供其它数据、响应或控制输入。单独的按钮可以用于发起紧急呼叫,而不是到呼叫中心20进行常规服务的帮助呼叫。音频系统36向车辆乘员提供音频输出,并且可以是专用的独立系统或是主要车辆音频系统的一部分。根据本文所示的特定实施例,音频系统36可操作地耦合到车辆总线44和娱乐总线46,并且可以提供AM、FM和卫星无线电、CD、DVD和其它多媒体功能。该功能可以与上述信息娱乐模块结合或独立地提供。在一些实施方式中,音频系统36可以使用信息娱乐本体来实现。信息娱乐本体可以包括一个或多个计算机处理器,其能够操作与信息娱乐本体一起被包括的收发器。收发器可以在其自身和车辆远程信息处理单元30、智能电话57之间或两者之间执行数据的短距离无线通信。信息娱乐本体可以提供本领域已知的音频视频信息娱乐内容。视觉显示器38优选地是图像显示器,比如仪表板上的触摸屏或从挡风玻璃反射的平视显示器,并且可以用于提供多种输入和输出功能。也可以使用各种其它的车辆用户界面,因为图1中的界面仅仅是一个特定实施方式的实例。
无线载波系统14优选地是蜂窝电话系统,其包括多个小区发射塔70(仅示出一个)、一个或多个移动交换中心(MSC)72、以及将无线载波系统14与陆地网络16进行连接所需的任何其它网络部件。每个小区发射塔70包括发送和接收天线和基站,其中来自不同小区发射塔的基站直接或经由中间设备(比如基站控制器)连接到MSC 72。蜂窝系统14可以实现任何合适的通信技术,包括例如模拟技术(比如AMPS)或较新的数字技术(比如CDMA(比如,CDMA2000或1xEV-DO)或GSM/GPRS(比如,4GLTE))。如本领域技术人员将理解的,小区发射塔/基站/MSC的布置可以是各种各样的,并且可以与无线系统14一起使用。例如,基站和小区发射塔可以位于相同的站点,或者它们可以彼此远离,每个基站可以负责单个小区发射塔,或者单个基站可以服务各个小区发射塔,并且各个基站可以耦合到单个MSC,仅举几种可能的布置。
除了使用无线载波系统14之外,可以使用卫星通信形式的不同无线载波系统来为车辆提供单向或双向通信。这可以使用一个或多个通信卫星62和上行链路发射站64来完成。单向通信可以是例如卫星无线电服务,其中由发送站64接收编程内容(消息、音乐等),打包上传,然后发送到卫星62,由卫星62向用户广播节目。双向通信可以是例如使用卫星62来中继车辆12和车站64之间的电话通信的卫星电话业务。如果使用的话,这种卫星电话可以在无线载波系统14之外或代替无线载波系统14中使用。
陆地网络16可以是连接到一个或多个陆线电话并将无线载波系统14连接到呼叫中心20的常规陆基电信网络。例如,陆地网络16可以包括公共交换电话网络(PSTN),比如用于提供硬接线电话、分组交换数据通信和互联网基础设施的那种。陆地网络16的一个或多个部分可以通过使用标准有线网络、光纤或其它光网络、有线网络、电力线、其它无线网络(比如无线局域网(WLAN))或提供宽带无线接入(BWA)的网络或其任何组合来实现。此外,呼叫中心20不需要经由陆地网络16进行连接,而是可以包括无线电话设备,使得它可以直接与诸如无线载波系统14之类的无线网络进行通信。
计算机18可以是通过专用或公共网络(比如因特网)访问的多个计算机中的一个。每个这样的计算机18可以用于一个或多个目的,比如可以由车辆通过远程信息处理单元30和无线载波14访问的网络服务器。其它这样的可访问计算机18可以是例如:服务中心计算机,其中可以经由远程信息处理单元30从车辆上传诊断信息和其它车辆数据;由车主或其他用户使用的客户端计算机,用于访问或接收车辆数据或设置或配置用户偏好或控制车辆功能;或通过与车辆12或呼叫中心20或这二者进行通信而提供车辆数据或其它信息的第三方存储库。计算机18还可以用于提供诸如DNS服务之类的因特网连接,或者作为网络地址服务器,使用DHCP或其它合适的协议来为车辆12分配IP地址。
呼叫中心20被设计成为车辆电子设备28提供多个不同的系统后端功能,并且根据本文示出的示例性实施例,通常包括一个或多个交换机80、服务器82、数据库84、现场顾问86、以及自动语音应答系统(VRS)88,所有这些都是本领域已知的。这些各种呼叫中心部件优选地经由有线或无线局域网90彼此耦合。交换机80可以是专用分支交换机(PBX)交换机,其将输入信号进行路由,使得语音传输通常通过常规电话发送到现场顾问86,或者使用VoIP发送到自动语音响应系统88。现场顾问电话也可以使用如图1中虚线所示的VoIP。通过交换机80的VoIP和其它数据通信通过连接在交换机80和网络90之间的调制解调器(未示出)来实现。数据传输通过调制解调器传送到服务器82和/或数据库84。数据库84可以存储帐户信息,比如用户认证信息、车辆标识符、简档记录、行为模式和其它相关用户信息。数据传输也可以通过诸如802.11x、GPRS等无线系统进行。虽然所示实施例已经被描述为其将采用现场顾问86与有人呼叫中心20一起使用,但是应当理解,呼叫中心可以替代地使用VRS88作为现场顾问,或者可以使用VRS 88和现场顾问86的组合。
如背景技术部分所述,文本转语音(TTS)系统是本领域技术人员通常已知的。但是,图2示出了根据本发明的改进的TTS系统的实例。根据实施例,系统210中的一些或全部可以驻存在图1的远程信息处理单元30上并被其处理。根据替代的示例性实施例,TTS系统210中的一些或全部可以驻存在远离车辆12的位置处(比如,呼叫中心20)的计算设备上并被其处理。例如,语言模型、声学模型等可以存储在呼叫中心20中的服务器82和/或数据库84之一的存储器中,并且被传送到车辆远程信息处理单元30用于车载TTS处理。类似地,可以使用呼叫中心20中的一个服务器82的处理器来处理TTS软件。换句话说,TTS系统210可以驻存在远程信息处理单元30中,或以任何所需的方式分布在整个呼叫中心20和车辆12上。
系统210可以包括一个或多个文本源212和存储器(比如远程信息处理存储器54),用于存储来自文本源212的文本并存储TTS软件和数据。系统210还可以包括处理器,例如远程信息处理器52,以与存储器连同以下系统模块一起处理文本和功能。预处理器214从文本源212接收文本,并将文本转换为合适的单词等。合成引擎216将来自预处理器214的输出转换成适当的语言单元,如短语、从句和/或句子。一个或多个语音数据库218存储记录的语音。单元选择器220从数据库218中选择最佳对应于合成引擎216的输出的存储语音的单元。后处理器222修改或调整存储的语音的所选择的单元中的一个或多个。一个或多个语言模型224被用作合成引擎216的输入,并且一个或多个声学模型226被用作单位选择器220的输入。系统210还可以包括用于将所选择的语音单元转换为音频信号的声学接口228和扬声器230(例如远程信息处理音频系统),以将音频信号转换为可听见的语音。系统210还可以包括麦克风,例如远程信息处理麦克风32和声学接口232,以将语音数字化为声学数据,以用作对后处理器222的反馈。
文本源212可以在任何合适的介质中,并且可以包括任何合适的内容。例如,文本源212可以是一个或多个扫描文档、文本文件或应用数据文件,或任何其它合适的计算机文件等。文本源212可以包括要被合成为语音并输出到文本转换器214的单词、数字、符号和/或标点符号。可以使用任何合适的数量和类型的文本源。
预处理器214将来自文本源212的文本转换成单词、标识符等。例如,在文本是数字格式的情况下,预处理器214可以将数字转换成对应的词语。在另一个实例中,在文本是标点符号、用表示适当的强调和语调的大写或其它特殊字符(例如变音符号)、下划线或粗体进行强调的情况下,预处理器214可以将其转换为合成引擎216和/或单元选择器220。
合成引擎216接收来自文本转换器214的输出,并且可以将输出排列成可包括一个或多个句子、从句、短语、单词、子词和/或类似的语言单元。引擎216可以使用语言模型224来协助语言单元的最可能的排列。语言模型224在将文本转换器214的输出排列成语言单元时提供规则、语法和/或语义。模型224还可以定义系统210在任何指定的TTS模式下在任何指定的时间期望的语言单元的总域,和/或可以提供规则等,以规定哪些类型的语言单元和/或韵律可以逻辑地跟随其它类型的语言单位和/或韵律,从而形成自然的声音。语言单元可以由语音等效物组成,例如音素串等,并且可以是音素HMM的形式。
语音数据库218包括来自一个或多个人的预先记录的语音。语音可以包括预先记录的句子、从句、短语、单词、预录词的子词等。语音数据库218还可以包括与预先录制的语音相关联的数据,例如元数据,以识别由单元选择器220使用的所记录的语音段。可以使用任何合适类型和数量的语音数据库。
单元选择器220将来自合成引擎216的输出与存储的语音数据进行比较,并选择最佳对应于合成引擎输出的存储语音。由单元选择器220选择的语音可以包括预先记录的句子、从句、短语、单词、预先录制的词的子词和/或类似的内容。选择器220可以使用声学模型226来帮助比较和选择存储的语音的最可能或最佳对应的候选。声学模型226可以与选择器220一起使用,以比较和对比合成引擎输出数据和存储的语音数据,评估它们之间的差异或相似性的大小,并最终使用决策逻辑来识别最佳匹配的存储语音数据和输出相应的记录语音。
通常,最佳匹配的语音数据是与本领域技术人员已知的各种技术中的任一种所确定的、与合成引擎216的输出具有最小不相似性或最高概率的语音数据。这样的技术可以包括动态时间规整分类器、人工智能技术、神经网络、免费音素识别器和/或概率模式匹配器,比如隐马尔可夫模型(HMM)引擎。本领域技术人员已知隐马尔可夫模型引擎用于产生多个TTS模型候选或假设。在最终通过语音的声学特征分析来识别和选择表示合成引擎输出的最可能正确解释的存储语音数据时考虑假设。更具体地,根据隐马尔可夫模型计算的置信度值或指定的一个或另一个语言单元的观测到的声学数据序列的概率(例如,通过应用贝叶斯定理),隐马尔可夫模型引擎生成语言单位假设的“N最佳”列表形式的统计模型。
在一个实施例中,来自单元选择器220的输出可以直接传递到声学接口228或通过后处理器222,而无需后处理。在另一个实施例中,后处理器222可接收来自单元选择器220的输出,以用于进一步处理。
在任一情况下,声学接口228将数字音频数据转换为模拟音频信号。接口228可以是数模转换设备、电路和/或软件等。扬声器230是电声换能器,其将模拟音频信号转换成用户可听到的和麦克风32接收到的语音。
该方法或其部分可以在计算机可读介质中体现的计算机程序产品中执行,并且包括可由一个或多个系统的一个或多个计算机的一个或多个处理器使用的指令,以使系统实现一个或多个方法步骤。计算机程序产品可以包括由源代码、目标代码、可执行代码或其它格式的代码中的程序指令组成的一个或多个软件程序;一个或多个固件程序;或硬件描述语言(HDL)文件;以及任何程序相关数据。数据可以包括数据结构、查询表或任何其它合适格式的数据。程序指令可以包括程序模块、例程、程序、对象、组件等。计算机程序可以在一个计算机上或在彼此通信的多个计算机上执行。
程序可以体现在计算机可读介质上,其可以是非暂时性的且可以包括一个或多个存储设备、制品等。示例性的计算机可读介质包括计算机系统存储器,比如RAM(随机存取存储器)、ROM(只读存储器);半导体存储器,比如EPROM(可擦除可编程ROM)、EEPROM(电可擦除可编程ROM)、闪存;磁盘或光盘或磁带;和/或类似物。计算机可读介质还可以包括计算机到计算机的连接,例如当数据通过网络或其它通信连接(有线、无线或其组合)进行传输或提供时。上述实例的任何组合也包括在计算机可读介质的范围内。因此,应当理解,该方法可以至少部分地由能够执行与所公开方法的一个或多个步骤相对应的指令的任何电子物品和/或设备执行。
现在转到参考图3,示出了可用于实现当前公开的方法的ASR系统310的示例性架构。通常,车辆乘员与自动语音识别系统(ASR)进行语音交互,以进行以下一个或多个基本目的:培训系统,以了解车辆乘员的特定声音;存储离散语音,比如口头名称标签或口头控制词,比如数字或关键词;或识别车辆乘员的语音,以用于任何适当的目的,比如语音拨号、菜单导航、转录、服务请求、车辆设备或设备功能控制等。通常,ASR系统从人类语音中提取声学数据,将此声学数据与存储的子词数据进行比较和对比,选择可以与其它所选择的子词连接的适当的子词,并输出连接的子词或词语以用于后处理,比如听写或转录、地址簿拨号、存储到存储器、训练ASR系统模型或适应参数等。
ASR系统是本领域技术人员通常已知的,图3仅示出了一个具体的示例性ASR系统310。系统310包括用于接收诸如远程信息处理麦克风32的语音的设备,以及诸如具有模数转换器的远程信息处理单元30的声卡的声学接口33,以将语音数字化为声学数据。系统310还包括诸如远程信息处理存储器54之类的存储器,用于存储声学数据和存储语音识别软件和数据库,以及诸如远程信息处理器52之类的处理器,以处理声学数据。处理器与存储器连同以下模块一起起作用:一个或多个前端处理器、预处理器、或预处理器软件模块312,用于将语音的声学数据流解析成参数表示,比如声学特征;一个或多个解码器或解码器软件模块314,用于解码声学特征以产生对应于输入语音发声的数字子词或词语输出数据;以及一个或多个后端处理器、后处理器或后处理器软件模块316,用于为了任何合适的目的而使用来自解码器模块314的输出数据。
系统310还可以从任何其它合适的音频源31接收语音,其可以如实线所示直接与预处理器软件模块312通信,或者经由声学接口间接地与其通信33。音频源31可以包括例如电话音频源(比如语音邮件系统)或任何类型的其它电话服务。
一个或多个模块或模型可以用作解码器模块314的输入。首先,语法和/或词典模型318可以提供规则,规定哪些词语可以在逻辑上跟随其它词语以形成有效的句子。广义上说,词汇或语法可以在任何给定的ASR模式中定义系统310在任何给定时间期望的词汇全域。例如,如果系统310处于用于训练命令的训练模式中,那么词典或语法模型318可以包括系统310已知和使用的所有命令。在另一个实例中,如果系统310处于主菜单模式,那么活动词典或语法模型318可以包括系统310期望的所有主菜单命令,比如呼叫、拨号、退出、删除、查询等。第二,声学模型320有助于选择来自预处理器模块312的输入所对应的最可能的子词或词语。第三,词语模型322和句子/语言模型324提供将所选择的子词或词语放入词语或句子语境中的规则、语法和/或语义。此外,句子/语言模型324可以在任何给定的ASR模式中定义系统310在任何给定时间期望的句子总域,和/或可以提供规定哪些句子可以在逻辑上跟随其它句子的规则等,以形成有效的扩展语音。
根据替代的示例性实施例,一些或全部的ASR系统310可以驻存在远离车辆12的位置(比如呼叫中心20)处的计算设备上并被处理。例如,可以将语法模型、声学模型等存储在呼叫中心20中的服务器82和/或数据库84之一的存储器中,并将其传送到车辆远程信息处理单元30以用于车载语音处理。类似地,可以使用呼叫中心20中的一个服务器82的处理器来处理语音识别软件。换句话说,ASR系统310可以驻存在远程信息处理单元30中,或以任何期望的方式分布在整个呼叫中心20和车辆12上,和/或驻存在呼叫中心20处。
首先,从人类语音中提取声学数据,其中车辆乘员对着麦克风32说话,麦克风32将话语转换成电信号,并将这些信号传送到声学接口33。麦克风32中的声音响应元件将乘员的语音发声捕获为空气压力的变化,并将话语转换成模拟电信号(比如直流或电压)的相应变化。声学接口33接收模拟电信号,这些模拟电信号首先被采样,使得模拟信号的值在离散时刻被捕获,然后被量化,使得模拟信号的幅度在每个采样时刻被转换为连续的数字语音数据流。换句话说,声学接口33将模拟电信号转换为数字电子信号。数字数据是二进制位,它们被缓存在远程信息处理存储器54中,然后被远程信息处理器52处理,或者可以在最初被处理器52实时地接收时被处理。
第二,预处理器模块312将连续的数字语音数据流转换成声学参数的离散序列。更具体地,处理器52执行预处理器模块312,以将数字语音数据分段成例如持续时间为10-30ms的重叠语音或声音帧。这些帧对应于诸如音节、半音节、电话、双音、音素等声学子词。预处理器模块312还执行音素分析,以从每个帧内从乘员的语音中提取声学参数,比如时变特征向量。乘员语音中的发声可以表示为这些特征向量的序列。例如,并且如本领域技术人员已知的,可以提取特征向量,并且其可以包括例如可以通过进行帧的傅立叶变换和使用余弦变换解相关声光谱来获得的声音间距、能量分布、频谱属性和/或倒谱系数。持续特定时间的语音,其声音帧和对应的参数被级联成将被解码的未知语音测试模式。
第三,处理器执行解码器模块314,以处理每个测试模式的输入特征向量。解码器模块314也被称为识别引擎或分类器,并且使用存储的已知的参考模式的语音。与测试模式一样,参考模式被定义为相关声学帧和对应参数的级联。解码器模块314将要识别的子词测试模式的声学特征向量与存储的子词参考模式进行比较和对比,评估它们之间的差异或相似性的大小,并最终使用决策逻辑来选择最佳匹配的子词作为认可的词语。通常,最佳匹配子词是对应于存储的已知参考模式的、具有与本领域技术人员已知的用于分析和识别子词的各种技术中的任一种所测定的测试模式的最小不相似性或最高概率的子词。这样的技术可以包括动态时间规整分类器、人工智能技术、神经网络、免费音素识别器和/或概率模式匹配器,例如隐马尔可夫模型(HMM)引擎。
本领域技术人员已知隐马尔可夫模型引擎用于产生声输入的多个语音识别模型假设。考虑到这些假设,最终通过语音的特征分析来识别和选择表示声输入的最可能正确解码的识别输出。更具体地,根据隐马尔可夫模型计算的置信度值或指定的一个或另一个子词的观测到的声学数据序列的概率(例如,通过应用贝叶斯定理)排序,隐马尔可夫模型引擎生成子词模型假设的“N最佳”列表形式的统计模型。
对于给定的声学特征向量的观测序列,贝叶斯隐马尔可夫模型过程识别对应于最可能的发音或子词序列的最佳假设,并且其置信度值可以取决于多种因素,包括与传入的声学数据相关联的声信噪比。隐马尔可夫模型还可以包括被称为对角高斯混合的统计分布,其针对每个子词的每个观察到的特征向量的产生可能性分数,该分数可以用于重新排序N最佳假设列表。隐马尔可夫模型引擎还可以识别并选择模型可能性得分最高的子词。
以类似的方式,用于一系列子词的单个隐马尔可夫模型可以被级联以建立单个或多个词语的隐马尔可夫模型。此后,可以生成并进一步评估单个或多个单词参考模式和相关参数值的N最佳列表。
在一个实例中,语音识别解码器314使用适当的声学模型、语法和算法来处理特征向量,以生成参考模式的N最佳列表。如本文所使用的,术语参考模式可以与模型、波形、模板、丰富的信号模型、示例、假设或其它类型的参考相互替换。参考模式可以包括代表一个或多个单词或子词的一系列特征向量,并且可以基于特定的说话者、说话风格和可听见的环境条件。本领域技术人员将认识到,参考模式可以通过ASR系统的合适的参考模式训练生成,并存储在存储器中。本领域技术人员还将认识到,可以操纵存储的参考模式,其中基于参考模式训练和ASR系统的实际使用之间的语音输入信号的差异来修改参考模式的参数值。例如,基于来自不同车辆乘员的有限数量的训练数据或不同的声学条件,针对一个车辆乘员或某些声学条件进行训练的一组参考模式可以适用于并保存为用于不同车辆乘客或不同声学条件的另一组参考模式。换句话说,参考模式不一定是固定的,可以在语音识别期间进行调整。
使用词汇语法和任何合适的解码器算法和声学模型,处理器从存储器访问解释测试模式的几个参考模式。例如,处理器可以生成N个最佳的词汇结果或参考模式的列表以及对应的参数值,并存储到存储器上。示例性的参数值可以包括词汇的N最佳列表和相关联的片段持续时间中的每个参考模式的可信度分数、似然性分数、信噪比(SNR)值等。可以通过参数值大小的降序排列来对词汇的N最佳列表进行排序。例如,具有最高置信度得分的词汇参考模式是第一最佳参考模式,依此类推。一旦建立了一串识别的子词,就可以用它们来构建单词模型322的输入,并用来自语言模型324的输入来构造句子。
最后,后处理器软件模块316从解码器模块314接收输出数据,以用于任何合适的目的。在一个实例中,后处理器软件模块316可以从单个或多个单词参考模式的N最佳列表中识别或选择一个参考模式作为识别的语音。在另一个实例中,后处理器模块316可以用于将声学数据转换成与ASR系统或其它车辆系统的其它方面一起使用的文本或数字。在又一个实例中,后处理器模块316可用于向解码器314或预处理器312提供训练反馈。更具体地,后处理器316可以用于训练解码器模块314的声学模型,或训练用于预处理器模块312的适配参数。
方法
现在转到参考图4,示出了识别和生成优选表情符号的方法(400)。通过在无线设备处检测多个选择的表情符号,方法400在步骤410处开始。在该实施方式中,将相对于智能电话57来描述无线设备。但是应当理解,能够发送电子消息的其它类型的无线设备可以成功地执行该方法。这些设备包括上述车辆远程信息处理单元30或信息娱乐系统主机。电子消息通常包括允许将无线设备和远程目的地之间传送的表情符号进行插入的消息。电子消息可以是电子邮件消息、通过文字短信(SMS)或消息传递软件应用程序、多媒体短信(MMS)或其它类似消息协议发送的短信。
可以使用软件应用程序来监视包含在电子消息中的设备用户的表情符号身份,并记录所选择的每个可用表情符号的频率。当设备用户创建电子消息时,可以从默认的表情符号库中选择一个或多个表情符号,并将其包括在消息中。默认的表情符号库可以在交付给最终终端用户之前加载到无线设备上,并包含数百种不同的表情符号可供选择。每个表情符号都描绘了一种艺术设计或形象,并根据其设计传达思想或感觉。例如,一个被描述为“喜极而泣”的表情符号描绘了面部眼睛旁边带有泪水的笑脸。还存在许多其它的表情符号,并且已经省略了对它们的详细描述。每个表情符号可以与识别它的十六进制代码相关联。例如,表情符号“喜极而泣”可以用1F600-1F64F代码表示。表情符号的技术规范由建立统一码标准的统一码联盟定义。方法400进行到步骤420。
在步骤420,可以确定选择每个表情符号的频率。软件应用程序可以监视和记录设备用户选择默认库中的每个表情符号以将其包含在电子消息中的次数。软件应用程序可以被加载到智能电话57上,其中智能电话57的处理能力执行软件应用的功能,并且记录一段时间内包含在电话57的存储器中的表情符号的选择频率。在一个实施方式中,这段时间可以是一个月,但是可以使用更短或更长的其它时间段。还可以将该软件应用存储在车辆远程信息处理单元30中。无论软件应用的位置如何,均可以监视使用智能电话57或车载电子设备创建的电子消息。车辆远程信息处理单元30和智能电话57可以经由短程无线通信协议来传送表示选择表情符号的数据。因此,当设备用户使用车辆远程信息处理单元30或信息娱乐系统主机创建消息时,当软件应用存储在智能电话57时,基于车辆的设备可以向智能电话57发送选择表情符号的身份和频率,反之亦然。方法400进行到步骤430。
在步骤430,基于选择每个表情符号的频率,从多个选择的表情符号中识别指定数量的表情符号。在监视表情符号的选择一段时间后,软件应用程序可以识别设备用户最常选择的表情符号。例如,软件应用可以被配置成识别在一段时间内测量的三十或四十个最频繁选择的情景。该方法进行到步骤440。
在步骤440,为表情符号创建常用表情符号库。智能电话57可以建立一个单独的库,其中包含与所识别的表情符号相关的信息。常用表情符号库可以包括每个表情符号的基于文本的默认描述、每个表情符号的一个或多个替代的基于文本的描述、以及每个表情符号的十六进制标识符。每个表情符号的替代的基于文本的描述可以由用户指定,使得用户可以使用显示器59来输入他或她自己的描述,以将它们添加到常用表情符号库。或者,可以通过调查提供替代的基于文本的默认描述。调查结果可以表现为统计学上有效的人数,并接收每个表情符号的描述。常用表情符号库可以添加从人群调查中收到的常见问题描述。虽然已经使用十六进制代码描述了表情符号标识符,但是应当理解,可以使用其它代码格式,例如二进制代码。常用表情符号库可以配置成与上述的TTS系统210和ASR系统310一起使用。方法400进行到步骤450。
在步骤450,在智能电话57处发起电子消息,用户从常用表情符号库中选择表情符号以包括在电子消息中。设备用户可以创建电子消息,并在该消息中包含一个或多个表情符号。设备用户可以口头撰写消息,其内容可以由智能电话57或车辆远程信息处理单元30接收。例如,智能电话57可以接收来自设备用户的语音,并通过短距离无线通信技术将语音传送到车辆12处的ASR系统310。或者,在另一个实施方式中,车辆12可以经由麦克风32接收来自用户的语音,并使用ASR系统310处理语音。ASR系统310可以将常用表情符号库加载为文本句子或语言模型324。在处理语音以在电子消息中包含表情符号时,常用表情符号库可以提供更高的效率。常用表情符号库不是包括具有每个可能的表情符号定义的文本源,而是可以根据特定设备用户的行为提供最常发生的表情符号相关的信息。
作为规定电子消息内容的一部分,设备用户可以背诵他或她想要包括在消息中的表情符号。ASR系统310可以使用常用表情符号库来处理语音并识别口头表情符号描述。继续上面开始的示例,设备用户可以背诵包含在消息正文中的文本,并且还可以说出词语“喜极而泣”。ASR系统310可以识别表情符号的这种描述,并将表情符号“喜极而泣“与文字一起插入电子消息中。
在另一个实施方式中,无线设备可以接收用户指定的输入,其识别包括在电子消息中的表情符号。常用表情符号库可以配置成将用户指定的输入与特定表情符号相关联。当智能电话57或车辆远程信息处理单元30检测到设备用户进行用户指定的输入时,与输入相关联的表情符号可以被插入到电子消息中。用户指定的输入可以是由设备用户做出的面部表情或由设备用户使用他或她的手指绘制的特定图案。智能电话57可以置于训练模式中,在训练模式过程中,其相机可以记录设备用户的面部表情。当设备用户建立特定的面部表情时,用户还可以选择特定的表情符号以与特定的面部表情相关联。然后,智能电话57可以在常用表情符号库中记录面部表情与表情符号的关联。不同的面部表情可以分配给常用表情符号库中的不同表情符号。然后,智能电话57可以结束训练模式并返回正常操作。在正常操作期间,设备用户可以创建电子消息并将智能电话的相机朝向他或她的脸部。然后,用户可以将脸部配置到要选择的表情符号相关联的面部表情中。智能电话57可以将从相机接收的图像和常用表情符号库中与表情符号相关联的图像进行比较。当找到匹配时,智能电话57可以将相关联的表情符号插入到电子消息中。
对于其他用户指定的输入,不同的表情符号可以与设备用户绘制的特定图案相关联。智能电话57可以置于训练模式中,在该训练模式过程中,其显示器59可以记录由设备用户绘制的特定图案。例如,设备用户可以沿着显示器59的表面用手指绘制“X”。当设备用户绘制特定图案时,用户还可以选择特定表情符号以与图案相关联。然后,智能电话57可以将绘制图案与表情符号的关联记录在常用表情符号库中。不同的图案可以分配给常用表情符号库中的不同表情。然后,智能电话57可以结束训练模式并返回正常操作。在正常操作期间,当设备用户想在消息中插入特定表情符号时,他或她可以创建电子消息,然后在显示器59上追踪图案。智能电话57可以将其检测到的图案与常用表情符号库中与表情符号相关联的图案进行比较。当找到匹配时,智能电话57可以将相关联的表情符号插入到电子消息中。
常用表情符号库也可以被TTS系统210用于生成包含在无线设备处理的电子消息中的表情符号的口头描述。例如,无线设备可以通过与表情符号相关联、并且也包括在消息中的唯一的十六进制代码来识别消息中包括的表情符号。可以将识别的十六进制代码与识别常用表情符号库中的表情符号的十六进制代码进行比较。TTS系统210可以通过与匹配的表情符号相关联的描述而生成语音;常用表情符号库可以用作文本源212,以产生表示表情符号的语音。然后,方法400结束。
应当理解,前述内容是对本发明的一个或多个实施例的描述。本发明不限于本文公开的特定实施例,而是仅由下面的权利要求限定。此外,前文描述中包含的陈述涉及特定实施例,并且不应被解释为对本发明的范围或权利要求书中使用的术语的定义的限制,除非该术语或措词在上面进行了特别限定。各种其它实施例和所公开的实施例的各种变化和修改对于本领域技术人员将是显而易见的。所有这些其它实施例、变形和修改旨在落入所附权利要求的范围内。
本说明书和权利要求书中所用的术语“如”、“例如”、“举例来说”、“比如”和“类似于”、以及动词“包括”、“具有”、“包含“和其它动词形式,当它们与一个或多个元件或其它项目的列表一起使用时,均应被视为开放式的,意味着列表不被视为排除了其它的附加元件或项目。其它术语采用其最广泛的合理含义来解释,除非其用于要求有不同解释的上下文中。

Claims (10)

1.一种识别和生成优选表情符号的方法,其包括以下步骤:
(a)在无线设备处检测多个选择的表情符号;
(b)确定选择每个表情符号的频率;
(c)基于选择每个表情符号的频率,从所述多个选择的表情符号中识别指定数量的表情符号;以及
(d)为步骤(c)中识别的所述表情符号创建常用表情符号库。
2.根据权利要求1所述的方法,其中所述无线设备包括车辆远程信息处理单元。
3.根据权利要求1所述的方法,其中所述无线设备包括智能电话。
4.根据权利要求1所述的方法,其进一步包括将所述常用表情符号库作为自动语音识别(ASR)系统的模型进行加载的步骤。
5.根据权利要求1所述的方法,其进一步包括以下步骤:将一个或多个用户指定的描述与每个表情符号相关联,并将那些描述存储在所述常用表情符号库中。
6.一种识别和生成优选表情符号的方法,其包括以下步骤:
(a)在无线设备发起电子消息;
(b)接收描述包含在所述电子消息中的表情符号的语音;
(c)将所述接收的语音与存储在常用表情符号库中的表情符号描述进行比较;
(d)根据所述比较识别表情符号;以及
(e)将所述表情符号插入所述电子消息中。
7.根据权利要求6所述的方法,其进一步包括将所述常用表情符号库作为自动语音识别(ASR)系统的模型进行加载的步骤。
8.根据权利要求6所述的方法,其中所述表情符号描述包括用户指定的描述和默认描述。
9.根据权利要求6所述的方法,其中所述表情符号描述包括通过调查生成的描述。
10.一种识别和生成优选表情符号的方法,其包括以下步骤:
(a)在无线设备发起电子消息;
(b)接收识别用于包含在所述电子消息中的表情符号的用户指定的输入;
(c)将所述接收的用户指定的输入与存储在常用表情符号库中的预先存储的用户指定的输入和表情符号的关联进行比较;
(d)根据所述比较识别表情符号;以及
(e)将所述表情符号插入所述电子消息中。
CN201710813706.3A 2016-09-14 2017-09-11 优选表情符号的识别和生成 Pending CN107819929A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US15/265,522 US20180074661A1 (en) 2016-09-14 2016-09-14 Preferred emoji identification and generation
US15/265522 2016-09-14

Publications (1)

Publication Number Publication Date
CN107819929A true CN107819929A (zh) 2018-03-20

Family

ID=61247271

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710813706.3A Pending CN107819929A (zh) 2016-09-14 2017-09-11 优选表情符号的识别和生成

Country Status (3)

Country Link
US (1) US20180074661A1 (zh)
CN (1) CN107819929A (zh)
DE (1) DE102017121059A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108809817A (zh) * 2018-07-06 2018-11-13 上海博泰悦臻电子设备制造有限公司 车载即时聊天的车辆、车机设备、云服务器及通信方法
CN109977925A (zh) * 2019-04-22 2019-07-05 北京字节跳动网络技术有限公司 表情确定方法、装置及电子设备
CN112118359A (zh) * 2020-09-22 2020-12-22 珠海格力电器股份有限公司 文本信息的处理方法、装置、电子设备和电子系统

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11355250B2 (en) 2016-03-30 2022-06-07 Livecare Corp. Gateway device and system for service to individuals with diminishing dexterity and neurological physiological functionality
US10586623B2 (en) 2016-03-30 2020-03-10 Livecare Corp. Patient care device and system for service to individuals with diminishing dexterity and neurological physiological functionality
US20190261153A1 (en) * 2016-03-30 2019-08-22 Livecare Corp. Emergency response device and system for service to individuals with diminishing dexterity and neurological physiological functionality
US10593087B2 (en) 2017-10-23 2020-03-17 Paypal, Inc. System and method for generating emoji mashups with machine learning
US11496425B1 (en) * 2018-05-10 2022-11-08 Whatsapp Llc Modifying message content based on user preferences
DE102019202662B4 (de) 2019-02-27 2021-01-14 Volkswagen Aktiengesellschaft Verfahren zur Überprüfung der Funktionsfähigkeit einer Notrufeinrichtung eines Kraftfahrzeugs sowie Kraftfahrzeug zur Durchführung des Verfahrens
US10825449B1 (en) * 2019-09-27 2020-11-03 CrowdAround Inc. Systems and methods for analyzing a characteristic of a communication using disjoint classification models for parsing and evaluation of the communication
KR20240142620A (ko) * 2019-10-15 2024-09-30 구글 엘엘씨 그래픽 사용자 인터페이스에 음성-제어 컨텐츠 입력
CN112306224A (zh) * 2020-04-30 2021-02-02 北京字节跳动网络技术有限公司 人机交互方法、装置和电子设备
US11657558B2 (en) 2021-09-16 2023-05-23 International Business Machines Corporation Context-based personalized communication presentation
CN114092608B (zh) * 2021-11-17 2023-06-13 广州博冠信息科技有限公司 表情的处理方法及装置、计算机可读存储介质、电子设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101146056A (zh) * 2007-09-24 2008-03-19 腾讯科技(深圳)有限公司 一种表情图标的显示方法及系统
CN103294220A (zh) * 2012-02-28 2013-09-11 联想(北京)有限公司 一种输入方法和装置
CN103809766A (zh) * 2012-11-06 2014-05-21 夏普株式会社 将文字转换成表情符号的方法和电子装置
CN104063683A (zh) * 2014-06-06 2014-09-24 北京搜狗科技发展有限公司 一种基于人脸识别的表情输入方法和装置
US9043196B1 (en) * 2014-07-07 2015-05-26 Machine Zone, Inc. Systems and methods for identifying and suggesting emoticons

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8494859B2 (en) * 2002-10-15 2013-07-23 Gh, Llc Universal processing system and methods for production of outputs accessible by people with disabilities
WO2004075168A1 (ja) * 2003-02-19 2004-09-02 Matsushita Electric Industrial Co., Ltd. 音声認識装置及び音声認識方法
CN102439544A (zh) * 2009-03-20 2012-05-02 谷歌股份有限公司 与输入法编辑器计算设备的交互
KR101419764B1 (ko) * 2013-06-07 2014-07-17 정영민 휴대단말기의 음성 이모티콘 제어방법
KR102063766B1 (ko) * 2013-09-17 2020-01-08 엘지전자 주식회사 이동 단말기 및 그것의 제어방법
US9576175B2 (en) * 2014-05-16 2017-02-21 Verizon Patent And Licensing Inc. Generating emoticons based on an image of a face

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101146056A (zh) * 2007-09-24 2008-03-19 腾讯科技(深圳)有限公司 一种表情图标的显示方法及系统
CN103294220A (zh) * 2012-02-28 2013-09-11 联想(北京)有限公司 一种输入方法和装置
CN103809766A (zh) * 2012-11-06 2014-05-21 夏普株式会社 将文字转换成表情符号的方法和电子装置
CN104063683A (zh) * 2014-06-06 2014-09-24 北京搜狗科技发展有限公司 一种基于人脸识别的表情输入方法和装置
US9043196B1 (en) * 2014-07-07 2015-05-26 Machine Zone, Inc. Systems and methods for identifying and suggesting emoticons

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108809817A (zh) * 2018-07-06 2018-11-13 上海博泰悦臻电子设备制造有限公司 车载即时聊天的车辆、车机设备、云服务器及通信方法
CN109977925A (zh) * 2019-04-22 2019-07-05 北京字节跳动网络技术有限公司 表情确定方法、装置及电子设备
CN112118359A (zh) * 2020-09-22 2020-12-22 珠海格力电器股份有限公司 文本信息的处理方法、装置、电子设备和电子系统

Also Published As

Publication number Publication date
US20180074661A1 (en) 2018-03-15
DE102017121059A1 (de) 2018-03-15

Similar Documents

Publication Publication Date Title
CN107819929A (zh) 优选表情符号的识别和生成
US9202465B2 (en) Speech recognition dependent on text message content
CN101071564B (zh) 把词表外语音与词表内语音区别开的方法
US9570066B2 (en) Sender-responsive text-to-speech processing
CN101272416B (zh) 使用拒绝参考的语音拨号
US8639508B2 (en) User-specific confidence thresholds for speech recognition
CN101354887B (zh) 用在语音识别中的环境噪声注入方法
US10255913B2 (en) Automatic speech recognition for disfluent speech
US8438028B2 (en) Nametag confusability determination
CN106816149A (zh) 车辆自动语音识别系统的优先化内容加载
CN102097096B (zh) 在语音识别后处理过程中使用音调来改进识别精度
CN103124318B (zh) 开始免提会议呼叫的方法
US8756062B2 (en) Male acoustic model adaptation based on language-independent female speech data
US9997155B2 (en) Adapting a speech system to user pronunciation
US20190122661A1 (en) System and method to detect cues in conversational speech
US8762151B2 (en) Speech recognition for premature enunciation
US20150056951A1 (en) Vehicle telematics unit and method of operating the same
CN109671424B (zh) 车辆特征的响应激活
US9911408B2 (en) Dynamic speech system tuning
CN105609109A (zh) 混合式自动语音识别
CN103151037A (zh) 校正难以理解的合成语音
CN107818788A (zh) 车辆上的远程语音识别
CN108447488A (zh) 增强语音识别任务完成
US20120197643A1 (en) Mapping obstruent speech energy to lower frequencies
US8050928B2 (en) Speech to DTMF generation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20180320

WD01 Invention patent application deemed withdrawn after publication