CN103280217B - 一种移动终端的语音识别方法及其装置 - Google Patents

一种移动终端的语音识别方法及其装置 Download PDF

Info

Publication number
CN103280217B
CN103280217B CN201310157943.0A CN201310157943A CN103280217B CN 103280217 B CN103280217 B CN 103280217B CN 201310157943 A CN201310157943 A CN 201310157943A CN 103280217 B CN103280217 B CN 103280217B
Authority
CN
China
Prior art keywords
class
voice
mobile terminal
keyword
contact person
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201310157943.0A
Other languages
English (en)
Other versions
CN103280217A (zh
Inventor
罗永浩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing ByteDance Network Technology Co Ltd
Original Assignee
Hammer Technology (beijing) Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hammer Technology (beijing) Co Ltd filed Critical Hammer Technology (beijing) Co Ltd
Priority to CN201310157943.0A priority Critical patent/CN103280217B/zh
Publication of CN103280217A publication Critical patent/CN103280217A/zh
Priority to US14/787,926 priority patent/US9502035B2/en
Priority to PCT/CN2014/076180 priority patent/WO2014177015A1/zh
Application granted granted Critical
Publication of CN103280217B publication Critical patent/CN103280217B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/26Devices for calling a subscriber
    • H04M1/27Devices whereby a plurality of signals may be stored simultaneously
    • H04M1/271Devices whereby a plurality of signals may be stored simultaneously controlled by voice recognition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/72Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
    • H04M1/724User interfaces specially adapted for cordless or mobile telephones
    • H04M1/72403User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/72Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
    • H04M1/724User interfaces specially adapted for cordless or mobile telephones
    • H04M1/72448User interfaces specially adapted for cordless or mobile telephones with means for adapting the functionality of the device according to specific conditions
    • H04M1/72454User interfaces specially adapted for cordless or mobile telephones with means for adapting the functionality of the device according to specific conditions according to context-related or environment-related conditions
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W8/00Network data management
    • H04W8/18Processing of user or subscriber data, e.g. subscribed services, user preferences or user profiles; Transfer of user or subscriber data
    • H04W8/183Processing at user equipment or user record carrier
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0635Training updating or merging of old and new templates; Mean values; Weighting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2250/00Details of telephonic subscriber devices
    • H04M2250/74Details of telephonic subscriber devices with voice recognition means

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Environmental & Geological Engineering (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Telephone Function (AREA)
  • User Interface Of Digital Computer (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本申请实施例公开了一种移动终端的语音识别方法。该方法包括:接收对移动终端进行操作的待操作的操作类别的触发消息,所述操作类别为根据移动终端的业务功能划分的类别;接收语音关键词信息,从语音关键词信息中确定语音关键词;根据语音关键词检索所述待操作的操作类别项下的关键词库,返回检索结果。本申请还公开了一种移动终端的语音识别装置。本申请实施例可以提高语音识别的效率和准确性。

Description

一种移动终端的语音识别方法及其装置
技术领域
本申请涉及信息处理技术领域,特别涉及一种基于移动终端的语音识别方法及其对应的装置。
背景技术
移动终端的使用离不开人机交互过程。在智能移动终端中比较常见的人机交互方式是通过手指触摸移动终端的屏幕,由移动终端内置的感应器感应手指的触压信息实现交互。随着苹果公司在iPhone系列产品中加入Siri语音助手功能后,人机交互方式由传统的物理触摸变化为语音控制,即通过人的语言来指令移动终端满足用户需要达成的任务。该语音识别过程允许用户随意以自然语言形式向语音助手类软件给出指令,移动终端的相关装置接收到该指令后,由语音助手类软件在本地和/或云端服务器进行语音识别和语义分析,并根据识别和分析的结果给予反馈。
然而,由于现有语音识别,特别是语义分析方面的技术不完善,识别准确率较低,尤其对于多词、长句、多句的识别和分析错误率相当高,识别和分析的结果经常与用户真正的需要大相径庭,用户需要反复输入、不断修订识别和分析的结果,严重影响了基于移动终端的语音识别方法识别的准确性和快捷性。
发明内容
为解决上述技术问题,本申请实施例提供了一种移动终端的语音识别方法及其对应装置,以提高基于移动终端的语音识别的准确性和快捷性。
本申请提供的移动终端的语音识别方法包括:
接收对移动终端进行操作的待操作的操作类别的触发消息,所述操作类别为根据移动终端的业务功能和移动终端使用者的使用范围划分的类别;所述操作类别包括:联系人类别,应用程序类别,音乐类别,网页搜索类别;
接收语音关键词信息,从语音关键词信息中确定语音关键词,根据语音关键词检索所述待操作类别项下的关键词库,返回检索结果;
所述接收对移动终端进行操作的待操作类别的触发消息具体包括:
判断第一监听器监听到的Z轴上的重力加速度分量是否在0至4个重力加速度单位范围内,X、Y轴上的重力加速度分量是否在4到10个重力加速度单位范围内,且第二监听器监听到的距离是否为零,所述X、Y轴为移动终端面板所在的平面,所述Z轴垂直于X、Y轴构成的平面,所述第一监听器为接收到传感器服务后注册的对重力传感器的监听器,所述第二监听器为接收到传感器服务器后注册的对距离传感器的监听器;如果均为是,则确定接收到对移动终端进行操作的待操作类别的触发消息,所述操作类别为联系人;则所述接收语音关键词信息,从语音关键词信息中确定语音关键词,根据语音关键词检索所述待操作类别项下的关键词库,返回检索结果包括:
接收包含联系人的语音关键词信息,从语音关键词信息中确定出联系人关键词,根据所述联系人关键词检索联系人库,返回检索到的联系人并呼叫该联系人。
优选地,所述接收对移动终端进行操作的待操作的操作类别的触发消息具体包括:
在移动终端屏幕上呈现操作类别窗口,当所述操作类别窗口中的一个操作类别对应的标签被点击或确定为焦点时,确定接收到对移动终端进行操作的待操作的操作类别的触发消息。
进一步优选地,所述操作类别窗口中的操作类别对应的标签包括用于实现通信业务功能的联系人标签、用于实现应用业务功能的应用程序标签、用于实现音乐播放业务功能的音乐标签和/或用于实现在线搜索业务功能的网页搜索标签。
进一步优选地,当根据所述联系人关键词检索到的联系人包括多个时,对每个联系人进行编号,接收编号语音信息,呼叫编号语音信息对应的联系人。
优选地,当移动终端被操作后,增加所述操作在其操作类别项下的关键词库中对应的关键词的频次,则在根据语音关键词检索待操作项下的关键词库时,按照关键词频次由大到小的顺序检索关键词库。
优选地,当移动终端被操作后,在满足预设条件时根据所述操作结果对操作类别项下的语音关键词库进行更新。
本申请提供的移动终端的语音识别装置包括:触发消息接收单元、语音关键词信息接收单元、语音关键词识别单元和关键词库检索单元,其中:
所述触发消息接收单元,用于接收对移动终端进行操作的待操作类别的触发消息,所述操作类别为根据移动终端的业务功能和移动终端使用者的使用范围划分的类别,所述操作类别包括:联系人类别,应用程序类别,音乐类别,网页搜索类别;
所述语音关键词信息接收单元,用于接收语音关键词信息;
所述语音关键词识别单元,用于从语音关键词信息中确定语音关键词;
所述关键词库检索单元,用于根据语音关键词检索所述待操作类别项下的关键词库,返回检索结果;
所述触发消息接收单元具体包括:监听结果判断子单元和触发消息接收子单元,其中:
所述监听结果判断子单元,用于判断第一监听器监听到的Z轴上的重力加速度分量是否在0至4个重力加速度单位范围内,X、Y轴上的重力加速度分量是否在4至10个重力加速度单位范围内,且第二监听器监听到的距离是否为零,所述X、Y轴为移动终端面板所在的平面,所述Z轴垂直于X、Y轴构成的平面,所述第一监听器为接收到传感器服务后注册的对重力传感器的监听器,所述第二监听器为接收到传感器服务器后注册的对距离传感器的监听器;
所述触发消息接收子单元,用于在判断结果均为是时,确定接收到对移动终端进行操作的待操作类别的触发消息,所述操作类别为联系人;
所述语音关键词信息接收单元具体用于接收包含联系人的语音关键词信息,所述语音关键词识别单元具体用于从语音关键词信息中确定出联系人关键词,所述关键词检索单元具体用于根据所述联系人关键词检索联系人库,返回检索到的联系人;
所述装置还包括呼叫单元,用于呼叫所述检索到的联系人。
优选地,所述触发消息接收单元具体包括:操作类别窗口呈现子单元和触发消息接收子单元,其中:
所述操作类别窗口呈现子单元,用于在移动终端屏幕上呈现操作类别窗口;
所述触发消息接收子单元,用于在所述操作类别窗口中的一个操作类别对应的标签被点击或确定为焦点时,接收到对移动终端进行操作的待操作类别的触发消息。
进一步优选地,所述装置还包括联系人编号单元和编号语音信息接收单元,其中:所述联系人编号单元,用于在根据所述联系人关键词检索到的联系人包括多个时,对每个联系人进行编号;所述编号语音信息接收单元,用于接收编号语音信息,所述呼叫单元具体用于呼叫编号语音信息对应的联系人。
优选地,所述装置还包括关键词频次增加单元,用于在移动终端被操作后,增加所述操作在其操作类别项下的关键词库中对应的关键词的频次,则所述关键词库检索单元具体用于在根据语音关键词检索待操作项下的关键词库时,按照关键词频次由大到小的顺序检索关键词库。
优选地,所述装置还包括关键词更新单元,用于在移动终端被操作后,在满足预设条件时根据所述操作的结果对操作类别项下的关键词库进行更新。
本申请实施例接收到依据移动终端业务功能划分的某个操作类别的触发消息后,接收语音关键词信息,从语音关键词中确定语音关键词,然后根据语音关键词检索相应的关键词库,并返回检索结果。与现有的语音识别技术相比,本申请实施例由于根据业务功能对操作类别进行了划分,使关键词库仅仅与每个操作类别对应,一方面根据语音关键词检索时检索处理对象仅限于与对移动终端的操作相对应的关键词库,减少了处理对象的数量,适应了移动终端的处理能力较弱的特点;又一方面,检索涉及的处理对象的数量减少使检索过程的时间缩短,从而提高了语音识别的效率;再一方面,检索涉及的处理对象的数量减少使出现关键词的重复和二义性的概率降低,从而提高了语音识别的准确性。而且,本申请实施例在接收语音信息时以语音关键词信息的形式接收,不再是普通的自然语言,避免了多词、长句和多句,一方面更加容易从语音信息中提取出关键词,进而提高了语音识别的效率;另一方面通过从语音关键词信息中提取的关键词与关键词库匹配来获取返回结果,有利于提高语音识别的准确性。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实
施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,
下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通
技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获
得其他的附图。
图1为本申请的移动终端的语音识别方法的一个实施例的流程图;
图2为本申请的移动终端的语音识别装置的一个实施例的结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本申请中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
参见图1,该图示出了本申请的移动终端的语音识别方法的实施例的流程。该流程包括:
步骤S101:接收对操作移动终端的待操的操作类别的触发消息,所述操作类别为根据移动终端的业务功能划分的类别;
随着信息技术的发展,移动终端不仅单单具有传统的通信功能,而且还具有许多新的业务功能,比如,网络检索、播放音视频、玩游戏等。这些不同的业务功能的性质存在差别,移动终端使用者实现各个业务功能的操作方式、操作指令各具特色。尽管如此,实现同一个业务功能的各种操作通常具有共性,本实施例依据业务功能的不同预先对移动终端的各种可能的操作进行类别划分。通过这种操作类别的划分使后续的语音识别过程具有明确针对性。本实施例不限定划分出来的操作类别数量和类型,只要能够满足实际应用需要即可。比如,可以根据移动终端本身的业务功能和移动终端使用者的使用范围划分出如下的类别:联系人类别,用于存储联系人的姓名、电话号码、个人特征等信息,在语音识别出某个联系人时可以查看到该联系人的有关信息,可以呼叫该联系人、给该联系人发送短信等;应用程序类别,用于记载应用程序的程序名、图标、存储位置等与应用程序相关的信息,在语音识别出某个应用程序时可以查看该应用程序的基本属性信息,可以对该应用程序进行各种操作:启动、卸载、删除、更新等;音乐类别,用于记载音乐名、歌手名、专辑名等相关信息,在语音识别出某个音乐时可以查看关于该音乐的基本属性信息,可以对该音乐进行各种操作:播放、移动、删除等;网页搜索类别,用于实现网页搜索功能。
步骤S102:接收语音关键词信息,从语音关键词信息中确定语音关键词;
移动终端使用者如果需要使用语音实现对移动终端的某些控制、操作,可以启动语音识别引擎,使其处于工作状态,当需要进行语音识别时,通过语音识别引擎接收语音关键词信息。本实施例接收的语音信息是包含以关键词为主题的语音内容,可以不是一般的包含完整句意的自然语言。比如,如果需要向张某某打电话,现有技术的语音是:“给张某某打电话”,而在本实施例的情形下,当确定操作类别信息为“联系人”时,则可以直接说出“张某某”,即只需要给出操作的关键词,便能控制移动终端实现相应的操作。
接收到语音关键词信息后,需要从语音关键词信息中确定出语音关键词。移动终端使用者的语音信息通常不能非常精确地仅仅是语音关键词,比如,可能包括一些过渡音、语气音等,这些语音对于语音识别而言属于噪声,需要从语音关键词信息中将其去掉,从中提取出语音关键词,该语音关键词直接对应于关键词库中的某个关键词,进而对应着某个操作命令。
步骤S103:根据语音关键词检索所述待操作的操作类别项下的关键词库,返回检索结果;
通过前述步骤确定出语音关键词后,利用该关键词在待操作的操作类别对应的关键词库中进行检索,并返回检索结果。在获取到检索结果后,可以触发该检索结果执行对移动终端的相应操作。
需要说明的是:本实施例中的步骤S101和S102在实际运行过程中可以并行运行或者S102步骤在前S101步骤在后,即移动终端的使用者可以如前所述的先触发待操作的操作类别,然后再接收用户输入的语音关键词;也可以先接收用户的语音关键词,在接收用户对待操作的操作类别的触发,或者在接收对待操作的操作类别的触发时也接收语音关键词信息,这两者之间的执行时序并不影响本申请发明目的的实现,根据应用需要,可以选择其中合适的方式。
本实施例接收到依据移动终端业务功能划分的某个操作类别的触发消息后,接收语音关键词信息,从语音关键词中确定语音关键词,然后根据语音关键词检索相应的关键词库,并返回检索结果。与现有的语音识别技术相比,本申请实施例可以取得如下的技术效果:
(1)由于根据业务功能对操作类别进行了划分,使关键词库仅仅与每个操作类别对应,这不同于现有的语音识别使用的包含具有各种不同操作性质、方式的全部语音识别库,从而使根据语音关键词检索时检索处理对象仅限于与将要对移动终端进行的操作相对应的关键词库的范围,减少了处理对象的数量,适应了移动终端的处理能力较弱的特点。比如,现有语音识别库包含100个语音操作指令,本实施例对该100个语音操作指令进行了类别划分,将其中用于实现“联系人”功能的指令归于一个类别,该类别包括10个语音操作指令,当移动终端使用者仅需要进行联系人功能时,它将触发在该类别下进行语音的检索识别,即只需要在这10个语音操作指令内进行检索,因此,处理的数量大大减少。
(2)由于检索涉及的处理对象的数量减少,在移动终端的处理能力不变的情况下,完成检索过程的时间将大为缩短,在较短的时间内即可给出与用户输入的语音关键词相对应的检索结果,从而提高了语音识别的效率。仍以前例进行说明,假设检索每个语音操作指令的时间是0.01s,用户说出的一个语音词的位置位于第80位,按照现有的语音识别方式,将在上述的100个语音操作指令库中进行80次检索匹配后才能找到该语音操作指令,用时为0.8s,但是如果将检索匹配操作限制在实现联系人功能的10个语音操作指令范围内时,最大用时也只不过0.1s,可见大大缩短了检索时间,从而提高了语音识别的效率。
(3)由于检索涉及的处理对象的数量减少使出现关键词的重复和二义性的概率降低,从而提高了语音识别的准确性。比如,用户说出了“张某某”这个词,在上述100个语音操作指令中,可能找到两个“张某某”,一个“张某某”是用户在移动终端上存储的一个联系人的名字,一个“张某某”是用户音乐库中存储的一个歌手的名字,也就是说,该语音词存在重复和二义性,这时系统将不知道移动终端的用户到底是向给电话薄中的“张某某”打电话,还是需要听音乐库中“张某某”的歌,如果默认选择前者,那么用户真正的想法可能是实现后者;如果默认选择后者,那么用户真正的想法可能是实现前者。但在本实施例中,由于用户事先指定了操作类别,如果指定的类别为“联系人”,则用户说“张某某”,即是想与张某某通电话;如果指定的类别为“音乐”,则用户说“张某某”,即是想听张某某的歌,从而能够准确地进行语音识别操作。
(4)本实施例在接收语音信息时以语音关键词信息的形式接收,不再是普通的自然语言,避免了多词、长句和多句,一方面更加容易从语音信息中提取出关键词,进而提高了语音识别的效率;另一方面通过从语音关键词信息中提取的关键词与关键词库匹配来获取返回结果,有利于提高语音识别的准确性。
在前述实施例中提及需要接收对移动终端的待操作的操作类别的触发消息,在实际应用过程中,接收到触发消息的方式多种多样。比如,在用户需要使用语音识别引擎操作控制移动终端时,在移动终端屏幕上呈现出一个操作类别窗口,在该类别窗口中显示各种操作类别标签,该类别标签可以包括:用于实现通信业务功能的联系人标签、用于实现应用业务功能的应用程序标签、用于实现音乐播放业务功能的音乐标签、用于实现在线搜索业务功能的网页搜索等等。当用户点击这些类别标签中的一个时或者焦点移动到某个类别标签时,将在系统中产生一个触发事件(触发消息),监测到该触发事件时即可认为接收到了对操作类别的触发消息。还比如,当用户设置了应用程序自动更新功能时,当发现网络中出现了某个应用程序的新版本时,移动终端将接收到更新通知,这时可将接收到该更新通知视为对“应用程序”这个操作类别的触发消息,从而可以接收用户的语音指令实现应用程序的更新或不更新。此外,除上述的基于某个触控事件或网络事件来视为接收到操作类别的触发消息外,还可以基于用户对移动终端的某些惯常动作来确定是否接收到操作类别的触发消息。一个常见的动作如用户将手机放置到耳边,该动作即表示用户需要呼叫某个联系人,在这种情况下,则可以认为接收到了“联系人”类别。这种触发方式的具体过程如下:
在语音识别引擎初始化时获得系统的传感器服务,注册一个重力传感器的监听器和一个距离传感器的监听器,重力传感器可以提供重力加速度在三个维度(x,y,z)的分量。当手机水平放置时,沿着z轴的重力加速度值趋向于9.8,而x,y轴的分量趋向与0.所以,语音助手应用程序实时监测重力加速度传感器返回值,当手机水平放置或稍稍倾斜的时候(也就是用户正常平握手机的时候)z轴的分量趋向于7,并且同时判断距离传感器的返回值为非0(也就是手机的距离传感器前没有任何物体遮挡),满足以上2个条件便初始化整个流程,并记录初始化时间。在用户将手机拿到耳边之前的过程中距离传感器始终返回非0值(无任何遮挡物),此时状态为working。当用户将手机放置耳边时,此时的z轴趋向于2(需要说明的是,在数值可以在0至4个重力加速度单位内即可满足本申请的发明目的),x轴和y轴的绝对值之和则趋向于7(该值可以在4至10范围内取值),考虑到用户将手机放置耳边x轴有一个倾斜的角度,此时x轴的绝对值应该是大于2的,满足以上条件并且系统为working状态,系统状态将置为WAIT_PROXI,此状态等待距离传感器返回0值(脸挡住距离传感器),一旦返回0值将启动程序进行呼叫联系人拨号操作,如果在距离传感器返回0值之前,从初始化到WAIT_PROXI全过程超过2秒钟,将判断此次动作识别失败。当呼叫联系人拨号功能启动之后,用户可以直接呼叫联系人的名字,系统将根据识别结果从手机联系人列表里读取符合条件的联系人,如果有多个匹配的联系人,系统将通过语音提示用户,例如(1.陈某某。2.刘某某),此时用户只需说“1”或者“2”即可进行选择拨打给陈某某或王某某,当用户选择后,系统将提示用户正在进行拨号,并直接拨打给用户所选联系人。如果只有一个联系人,系统将直接提示用户正在进行拨号并拨打电话。
在上述实施例中没有限定在获取到语音关键词后具体如何实现对操作类别项下的关键词库的检索,尽管这并不影响本申请发明目的的实现。但是,同一个用户在长期使用语音识别功能过程中,必然形成某个具有规律性的习惯,这些习惯可以运用于对关键词库的检索过程。比如,当移动终端经常被执行某个操作时,说明需要用户对这种操作的需求比较频繁,这时,可以设置一个计数器,记录移动终端在被执行某个操作后该操作被执行的总次数(频次),将该总次数作为关键词库中与该动作对应的关键词的一个属性,在依据语音关键词进行检索时,按照关键词的频次大小由大到校的顺序检索关键词库,由于用户经常进行某个操作,该操作的频次必然较大,在关键词库中必然靠前,由大到小的检索顺序将能较快地得到检索结果。此外,还可以在移动终端被操作后,在满足预设条件时根据所述操作结果对操作类别项下的语音关键词库进行更新。比如,用于在联系人列表中增加了一个人,那么则需要更新语音关键词库,将该增加的联系人作为关键词添入关键词库,更新的时间可以是每次增加完一个联系人的当时,也可以是每次重启手机时,这些可以根据实际情况进行设置,当满足预设的条件时,即触发更新操作。
上述内容详细叙述了本申请的移动终端语音识别的方法实施例,相应地,本申请还提供了一种移动终端语音识别的装置实施例。参见图2,该图示出了本申请的移动终端语音识别的装置的结构框图。该装置包括:触发消息接收单元201、语音关键词信息接收单元202、语音关键词识别单元203和关键词库检索单元204,其中:
触发消息接收单元201,用于接收对移动终端进行操作的待操作类别的触发消息,所述操作类别为根据移动终端的业务功能划分的类别;
语音关键词信息接收单元202,用于接收语音关键词信息;
语音关键词识别单元203,用于从语音关键词信息中确定语音关键词;
关键词库检索单元204,用于根据语音关键词检索所述待操作类别项下的关键词库,返回检索结果。
上述装置实施例的工作过程是:触发消息接收单元201接收对移动终端进行操作的待操作类别的触发消息;语音关键词信息接收单元202接收语音关键词信息,由语音关键词识别单元203从语音关键词信息中确定语音关键词;然后,由关键词库检索单元204根据语音关键词检索所述待操作类别项下的关键词库,返回检索结果。
本装置实施例接收到依据移动终端业务功能划分的某个操作类别的触发消息后,接收语音关键词信息,从语音关键词中确定语音关键词,然后根据语音关键词检索相应的关键词库,并返回检索结果。与现有的语音识别技术相比,本装置实施例由于根据业务功能对操作类别进行了划分,使关键词库仅仅与每个操作类别对应,一方面根据语音关键词检索时检索处理对象仅限于与对移动终端的操作相对应的关键词库,减少了处理对象的数量,适应了移动终端的处理能力较弱的特点;又一方面,检索涉及的处理对象的数量减少使检索过程的时间缩短,从而提高了语音识别的效率;再一方面,检索涉及的处理对象的数量减少使出现关键词的重复和二义性的概率降低,从而提高了语音识别的准确性。而且,本装置实施例在接收语音信息时以语音关键词信息的形式接收,不再是普通的自然语言,避免了多词、长句和多句,一方面更加容易从语音信息中提取出关键词,进而提高了语音识别的效率;另一方面通过从语音关键词信息中提取的关键词与关键词库匹配来获取返回结果,有利于提高语音识别的准确性。
在实际应用过程中,具有多种触发操作类别的方式,不同的方式对应的触发消息接收单元的具体结构可能不同。下面提供两种方式,本领域技术人员基于这两种方式可以推知其他的实现方式:
方式之一:通过弹出窗口并接收用户的点击或焦点移动的方式来确定接收到操作类别触发消息。这种方式下,触发消息接收单元201可以包括:操作类别窗口呈现子单元2011和触发消息接收子单元2012,其中:
操作类别窗口呈现子单元2011,用于在移动终端屏幕上呈现操作类别窗口;
触发消息接收子单元2012,用于在所述操作类别窗口中的一个操作类别对应的标签被点击或确定为焦点时,接收到对移动终端进行操作的待操作类别的触发消息。
方式之二:通过感应器识别用户的操作的方式类确认接收到操作类别触发消息。这种方式下,触发消息接收单元具体包括:监听结果判断子单元和触发消息接收子单元,其中:
所述监听结果判断子单元,用于判断第一监听器监听到的Z轴上的重力加速度分量是否为2,X、Y轴上的重力加速度分量是否为7,且第二监听器监听到的距离是否为零,所述X、Y轴为移动终端面板所在的平面,所述Z轴垂直于X、Y轴构成的平面,所述第一监听器为接收到传感器服务后注册的对重力传感器的监听器,所述第二监听器为接收到传感器服务器后注册的对距离传感器的监听器;
所述触发消息接收子单元,用于在判断结果均为是时,确定接收到对移动终端进行操作的待操作类别的触发消息,所述操作类别为联系人。
在第二种方式下,其他功能单元存在着相应的变化,即语音关键词信息接收单元具体用于接收包含联系人的语音关键词信息,语音关键词识别单元具体用于从语音关键词信息中确定出联系人关键词,关键词检索单元具体用于根据所述联系人关键词检索联系人库,返回检索到的联系人。上述装置实施例还包括呼叫单元,用于呼叫所述检索到的联系人。进一步地,上述装置实施例还包括联系人编号单元和编号语音信息接收单元,其中:所述联系人编号单元,用于在根据所述联系人关键词检索到的联系人包括多个时,对每个联系人进行编号;所述编号语音信息接收单元,用于接收编号语音信息,所述呼叫单元具体用于呼叫编号语音信息对应的联系人。
此外,还可以基于某些实际需要,对上述装置实施例进行某些变形或等同替换,以获得更加优化的技术效果。比如,上述装置实施例还包括关键词频次增加单元,用于在移动终端被操作后,增加所述操作在其操作类别项下的关键词库中对应的关键词的频次,则所述关键词库检索单元具体用于在根据语音关键词检索待操作项下的关键词库时,按照关键词频次由大到小的顺序检索关键词库。通过增加该单元可提高检索的速度。再比如,上述装置实施例还可以包括关键词更新单元205,用于在移动终端被操作后,在满足预设条件时根据所述操作结果对操作类别项下的关键词库进行更新。
需要说明的是:为了叙述的简便,本说明书的上述实施例以及实施例的各种变形实现方式重点说明的都是与其他实施例或变形方式的不同之处,各个情形之间相同相似的部分互相参见即可。尤其,对于装置实施例的几个改进方式而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例的各单元可以是或者也可以不是物理上分开的,既可以位于一个地方,或者也可以分布到多个网络环境下。在实际应用过程中,可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的,本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述仅是本申请的具体实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。

Claims (11)

1.一种移动终端的语音识别方法,其特征在于,该方法包括:
接收对移动终端进行操作的待操作的操作类别的触发消息,所述操作类别为根据移动终端的业务功能和移动终端使用者的使用范围划分的类别,所述操作类别包括:联系人类别,应用程序类别,音乐类别,网页搜索类别;接收语音关键词信息,从语音关键词信息中确定语音关键词;
根据语音关键词检索所述待操作的操作类别项下的关键词库,返回检索结果;
所述接收对移动终端进行操作的待操作类别的触发消息具体包括:
判断第一监听器监听到的Z轴上的重力加速度分量是否在0至4个重力加速度单位范围内,X、Y轴上的重力加速度分量是否在4到10个重力加速度单位范围内,且第二监听器监听到的距离是否为零,所述X、Y轴为移动终端面板所在的平面,所述Z轴垂直于X、Y轴构成的平面,所述第一监听器为接收到传感器服务后注册的对重力传感器的监听器,所述第二监听器为接收到传感器服务器后注册的对距离传感器的监听器;如果均为是,则确定接收到对移动终端进行操作的待操作类别的触发消息,所述操作类别为联系人;则所述接收语音关键词信息,从语音关键词信息中确定语音关键词,根据语音关键词检索所述待操作类别项下的关键词库,返回检索结果包括:
接收包含联系人的语音关键词信息,从语音关键词信息中确定出联系人关键词,根据所述联系人关键词检索联系人库,返回检索到的联系人并呼叫该联系人。
2.根据权利要求1所述的方法,其特征在于,所述接收对移动终端进行操作的待操作的操作类别的触发消息具体包括:
在移动终端屏幕上呈现操作类别窗口,当所述操作类别窗口中的一个操作类别对应的标签被点击或确定为焦点时,确定接收到对移动终端进行操作的待操作的操作类别的触发消息。
3.根据权利要求2所述的方法,其特征在于,所述操作类别窗口中的操作类别对应的标签包括用于实现通信业务功能的联系人标签、用于实现应用业务功能的应用程序标签、用于实现音乐播放业务功能的音乐标签和/或用于实现在线搜索业务功能的网页搜索标签。
4.根据权利要求1所述的方法,其特征在于,当根据所述联系人关键词检索到的联系人包括多个时,对每个联系人进行编号,接收编号语音信息,呼叫编号语音信息对应的联系人。
5.根据权利要求1所述的方法,其特征在于,当移动终端被操作后,增加所述操作在其操作类别项下的关键词库中对应的关键词的频次,则在根据语音关键词检索待操作项下的关键词库时,按照关键词频次由大到小的顺序检索关键词库。
6.根据权利要求1所述的方法,其特征在于,当移动终端被操作后,在满足预设条件时根据所述操作的结果对操作类别项下的语音关键词库进行更新。
7.一种移动终端的语音识别装置,其特征在于,该装置包括:触发消息接收单元、语音关键词信息接收单元、语音关键词识别单元和关键词库检索单元,其中:
所述触发消息接收单元,用于接收对移动终端进行操作的待操作类别的触发消息,所述操作类别为根据移动终端的业务功能和移动终端使用者的使用范围划分的类别,所述操作类别包括:联系人类别,应用程序类别,音乐类别,网页搜索类别;
所述语音关键词信息接收单元,用于接收语音关键词信息;
所述语音关键词识别单元,用于从语音关键词信息中确定语音关键词;
所述关键词库检索单元,用于根据语音关键词检索所述待操作类别项下的关键词库,返回检索结果;
所述触发消息接收单元具体包括:监听结果判断子单元和触发消息接收子单元,其中:
所述监听结果判断子单元,用于判断第一监听器监听到的Z轴上的重力加速度分量是否在0至4个重力加速度单位范围内,X、Y轴上的重力加速度分量是否在4至10个重力加速度单位范围内,且第二监听器监听到的距离是否为零,所述X、Y轴为移动终端面板所在的平面,所述Z轴垂直于X、Y轴构成的平面,所述第一监听器为接收到传感器服务后注册的对重力传感器的监听器,所述第二监听器为接收到传感器服务器后注册的对距离传感器的监听器;
所述触发消息接收子单元,用于在判断结果均为是时,确定接收到对移动终端进行操作的待操作类别的触发消息,所述操作类别为联系人;
所述语音关键词信息接收单元具体用于接收包含联系人的语音关键词信息,所述语音关键词识别单元具体用于从语音关键词信息中确定出联系人关键词,所述关键词检索单元具体用于根据所述联系人关键词检索联系人库,返回检索到的联系人;
所述装置还包括呼叫单元,用于呼叫所述检索到的联系人。
8.根据权利要求7所述的装置,其特征在于,所述触发消息接收单元具体包括:操作类别窗口呈现子单元和触发消息接收子单元,其中:
所述操作类别窗口呈现子单元,用于在移动终端屏幕上呈现操作类别窗口;
所述触发消息接收子单元,用于在所述操作类别窗口中的一个操作类别对应的标签被点击或确定为焦点时,接收到对移动终端进行操作的待操作类别的触发消息。
9.根据权利要求7所述的装置,其特征在于,所述装置还包括联系人编号单元和编号语音信息接收单元,其中:所述联系人编号单元,用于在根据所述联系人关键词检索到的联系人包括多个时,对每个联系人进行编号;所述编号语音信息接收单元,用于接收编号语音信息,所述呼叫单元具体用于呼叫编号语音信息对应的联系人。
10.根据权利要求7所述的装置,其特征在于,所述装置还包括关键词频次增加单元,用于在移动终端被操作后,增加所述操作在其操作类别项下的关键词库中对应的关键词的频次,则所述关键词库检索单元具体用于在根据语音关键词检索待操作项下的关键词库时,按照关键词频次由大到小的顺序检索关键词库。
11.根据权利要求7所述的装置,其特征在于,所述装置还包括关键词更新单元,用于在移动终端被操作后,在满足预设条件时根据所述操作的结果对操作类别项下的关键词库进行更新。
CN201310157943.0A 2013-05-02 2013-05-02 一种移动终端的语音识别方法及其装置 Active CN103280217B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201310157943.0A CN103280217B (zh) 2013-05-02 2013-05-02 一种移动终端的语音识别方法及其装置
US14/787,926 US9502035B2 (en) 2013-05-02 2014-04-25 Voice recognition method for mobile terminal and device thereof
PCT/CN2014/076180 WO2014177015A1 (zh) 2013-05-02 2014-04-25 一种移动终端的语音识别方法及其装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310157943.0A CN103280217B (zh) 2013-05-02 2013-05-02 一种移动终端的语音识别方法及其装置

Publications (2)

Publication Number Publication Date
CN103280217A CN103280217A (zh) 2013-09-04
CN103280217B true CN103280217B (zh) 2016-05-04

Family

ID=49062712

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310157943.0A Active CN103280217B (zh) 2013-05-02 2013-05-02 一种移动终端的语音识别方法及其装置

Country Status (3)

Country Link
US (1) US9502035B2 (zh)
CN (1) CN103280217B (zh)
WO (1) WO2014177015A1 (zh)

Families Citing this family (126)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US20120309363A1 (en) 2011-06-03 2012-12-06 Apple Inc. Triggering notifications associated with tasks items that represent tasks to perform
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
EP3809407A1 (en) 2013-02-07 2021-04-21 Apple Inc. Voice trigger for a digital assistant
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
KR101922663B1 (ko) 2013-06-09 2018-11-28 애플 인크. 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스
CN103455642B (zh) * 2013-10-10 2017-03-08 三星电子(中国)研发中心 一种多媒体文件检索的方法和装置
CN103578474B (zh) * 2013-10-25 2017-09-12 小米科技有限责任公司 一种语音控制方法、装置和设备
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9966065B2 (en) 2014-05-30 2018-05-08 Apple Inc. Multi-command single utterance input method
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
CN105407316B (zh) * 2014-08-19 2019-05-31 北京奇虎科技有限公司 智能摄像系统的实现方法、智能摄像系统和网络摄像头
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
CN105991827A (zh) * 2015-02-11 2016-10-05 中兴通讯股份有限公司 呼叫处理方法及装置
US10152299B2 (en) 2015-03-06 2018-12-11 Apple Inc. Reducing response latency of intelligent automated assistants
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
KR102390853B1 (ko) 2015-03-26 2022-04-27 삼성전자주식회사 컨텐츠 제공 방법 및 이를 수행하는 전자 장치
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10200824B2 (en) 2015-05-27 2019-02-05 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
CN106328129B (zh) * 2015-06-18 2020-11-27 中兴通讯股份有限公司 指令处理方法及装置
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
CN105161099B (zh) * 2015-08-12 2019-11-26 恬家(上海)信息科技有限公司 一种语音控制的遥控装置及其实现方法
US10740384B2 (en) 2015-09-08 2020-08-11 Apple Inc. Intelligent automated assistant for media search and playback
US10331312B2 (en) 2015-09-08 2019-06-25 Apple Inc. Intelligent automated assistant in a media environment
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
CN105426357A (zh) * 2015-11-06 2016-03-23 武汉卡比特信息有限公司 语音快速选择方法
US10956666B2 (en) 2015-11-09 2021-03-23 Apple Inc. Unconventional virtual assistant interactions
CN105450822A (zh) * 2015-11-11 2016-03-30 百度在线网络技术(北京)有限公司 智能语音交互方法和装置
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
CN107025046A (zh) * 2016-01-29 2017-08-08 阿里巴巴集团控股有限公司 终端应用语音操作方法及系统
CN106098066B (zh) * 2016-06-02 2020-01-17 深圳市智物联网络有限公司 语音识别方法及装置
US11227589B2 (en) 2016-06-06 2022-01-18 Apple Inc. Intelligent list reading
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
CN107799115A (zh) * 2016-08-29 2018-03-13 法乐第(北京)网络科技有限公司 一种语音识别方法及装置
US10474753B2 (en) 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
CN106683669A (zh) * 2016-11-23 2017-05-17 河池学院 一种机器人语音控制系统
CN106603826A (zh) * 2016-11-29 2017-04-26 维沃移动通信有限公司 一种应用事件的处理方法及移动终端
CN106844484B (zh) * 2016-12-23 2020-08-28 北京安云世纪科技有限公司 信息搜索方法、装置及移动终端
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
KR102398390B1 (ko) * 2017-03-22 2022-05-16 삼성전자주식회사 전자 장치 및 전자 장치의 제어 방법
KR102068182B1 (ko) * 2017-04-21 2020-01-20 엘지전자 주식회사 음성 인식 장치, 및 음성 인식 시스템
CN107038052A (zh) * 2017-04-28 2017-08-11 陈银芳 语音卸载文件的方法及终端
CN108874797B (zh) * 2017-05-08 2020-07-03 北京字节跳动网络技术有限公司 语音处理方法和装置
US10417266B2 (en) 2017-05-09 2019-09-17 Apple Inc. Context-aware ranking of intelligent response suggestions
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
DK180048B1 (en) 2017-05-11 2020-02-04 Apple Inc. MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION
US10395654B2 (en) 2017-05-11 2019-08-27 Apple Inc. Text normalization based on a data-driven learning network
DK201770429A1 (en) 2017-05-12 2018-12-14 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
US11301477B2 (en) 2017-05-12 2022-04-12 Apple Inc. Feedback analysis of a digital assistant
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
US10303715B2 (en) 2017-05-16 2019-05-28 Apple Inc. Intelligent automated assistant for media exploration
US20180336892A1 (en) 2017-05-16 2018-11-22 Apple Inc. Detecting a trigger of a digital assistant
DK179549B1 (en) 2017-05-16 2019-02-12 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US10311144B2 (en) 2017-05-16 2019-06-04 Apple Inc. Emoji word sense disambiguation
CN107564517A (zh) * 2017-07-05 2018-01-09 百度在线网络技术(北京)有限公司 语音唤醒方法、设备及系统、云端服务器与可读介质
CN107731231B (zh) * 2017-09-15 2020-08-14 瑞芯微电子股份有限公司 一种支持多云端语音服务的方法及一种存储设备
US10592604B2 (en) 2018-03-12 2020-03-17 Apple Inc. Inverse text normalization for automatic speech recognition
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
CN108665900B (zh) 2018-04-23 2020-03-03 百度在线网络技术(北京)有限公司 云端唤醒方法及系统、终端以及计算机可读存储介质
US10674427B2 (en) * 2018-05-01 2020-06-02 GM Global Technology Operations LLC System and method to select and operate a mobile device through a telematics unit
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
DK201870355A1 (en) 2018-06-01 2019-12-16 Apple Inc. VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
US10496705B1 (en) 2018-06-03 2019-12-03 Apple Inc. Accelerated task performance
CN109120774A (zh) * 2018-06-29 2019-01-01 深圳市九洲电器有限公司 终端应用语音操控方法及系统
CN108962261A (zh) * 2018-08-08 2018-12-07 联想(北京)有限公司 信息处理方法、信息处理装置和蓝牙耳机
CN108984800B (zh) * 2018-08-22 2020-10-16 广东小天才科技有限公司 一种语音搜题方法及终端设备
US11010561B2 (en) 2018-09-27 2021-05-18 Apple Inc. Sentiment prediction from textual data
CN110970032A (zh) * 2018-09-28 2020-04-07 深圳市冠旭电子股份有限公司 一种音箱语音交互控制的方法及装置
US11170166B2 (en) 2018-09-28 2021-11-09 Apple Inc. Neural typographical error modeling via generative adversarial networks
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US10839159B2 (en) 2018-09-28 2020-11-17 Apple Inc. Named entity normalization in a spoken dialog system
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
KR102590914B1 (ko) * 2018-12-14 2023-10-19 삼성전자주식회사 전자 장치 및 이의 제어 방법
US11638059B2 (en) 2019-01-04 2023-04-25 Apple Inc. Content playback on multiple devices
CN109918040B (zh) * 2019-03-15 2022-08-16 阿波罗智联(北京)科技有限公司 语音指令分发方法和装置、电子设备及计算机可读介质
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
DK201970511A1 (en) 2019-05-31 2021-02-15 Apple Inc Voice identification in digital assistant systems
US11468890B2 (en) 2019-06-01 2022-10-11 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
CN110561453B (zh) * 2019-09-16 2020-09-29 北京觅机科技有限公司 一种绘本机器人的引导式陪读方法
WO2021056255A1 (en) 2019-09-25 2021-04-01 Apple Inc. Text detection using global geometry estimators
US11615790B1 (en) * 2019-09-30 2023-03-28 Amazon Technologies, Inc. Disambiguating contacts using relationship data
US11038934B1 (en) 2020-05-11 2021-06-15 Apple Inc. Digital assistant hardware abstraction
US11061543B1 (en) 2020-05-11 2021-07-13 Apple Inc. Providing relevant data items based on context
US11755276B2 (en) 2020-05-12 2023-09-12 Apple Inc. Reducing description length based on confidence
US11917092B2 (en) * 2020-06-04 2024-02-27 Syntiant Systems and methods for detecting voice commands to generate a peer-to-peer communication link
US11490204B2 (en) 2020-07-20 2022-11-01 Apple Inc. Multi-device audio adjustment coordination
US11438683B2 (en) 2020-07-21 2022-09-06 Apple Inc. User identification using headphones
CN112199033B (zh) * 2020-09-30 2023-06-20 北京搜狗科技发展有限公司 一种语音输入方法、装置和电子设备
CN113838467B (zh) * 2021-08-02 2023-11-14 北京百度网讯科技有限公司 语音处理方法、装置及电子设备
CN115659302B (zh) * 2022-09-22 2023-07-14 北京睿家科技有限公司 一种漏检人员确定方法、装置、电子设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101853253A (zh) * 2009-03-30 2010-10-06 三星电子株式会社 在移动终端中管理多媒体内容的设备和方法
CN102591932A (zh) * 2011-12-23 2012-07-18 优视科技有限公司 语音搜索方法及系统、移动终端、中转服务器
CN103020069A (zh) * 2011-09-22 2013-04-03 联想(北京)有限公司 一种搜索数据的方法、装置及电子设备
CN103077176A (zh) * 2012-01-13 2013-05-01 北京飞漫软件技术有限公司 一种在浏览器中按关键词类型进行快捷搜索的方法

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6449496B1 (en) * 1999-02-08 2002-09-10 Qualcomm Incorporated Voice recognition user interface for telephone handsets
US6741963B1 (en) * 2000-06-21 2004-05-25 International Business Machines Corporation Method of managing a speech cache
US7246063B2 (en) * 2002-02-15 2007-07-17 Sap Aktiengesellschaft Adapting a user interface for voice control
JP2004341033A (ja) * 2003-05-13 2004-12-02 Matsushita Electric Ind Co Ltd 音声媒介起動装置およびその方法
KR20050028150A (ko) * 2003-09-17 2005-03-22 삼성전자주식회사 음성 신호를 이용한 유저-인터페이스를 제공하는휴대단말기 및 그 방법
CN1801846A (zh) * 2004-12-30 2006-07-12 中国科学院自动化研究所 耳机全语音手机拨号交互应用的方法
WO2008084556A1 (ja) * 2007-01-12 2008-07-17 Panasonic Corporation 携帯端末の音声認識機能制御方法及び無線通信システム
DE102008051757A1 (de) * 2007-11-12 2009-05-14 Volkswagen Ag Multimodale Benutzerschnittstelle eines Fahrerassistenzsystems zur Eingabe und Präsentation von Informationen
US8837901B2 (en) * 2008-04-06 2014-09-16 Taser International, Inc. Systems and methods for a recorder user interface
US20130132079A1 (en) 2011-11-17 2013-05-23 Microsoft Corporation Interactive speech recognition
CN102663016B (zh) 2012-03-21 2015-12-16 上海触乐信息科技有限公司 电子设备上输入候选框进行输入信息扩展的系统及其方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101853253A (zh) * 2009-03-30 2010-10-06 三星电子株式会社 在移动终端中管理多媒体内容的设备和方法
CN103020069A (zh) * 2011-09-22 2013-04-03 联想(北京)有限公司 一种搜索数据的方法、装置及电子设备
CN102591932A (zh) * 2011-12-23 2012-07-18 优视科技有限公司 语音搜索方法及系统、移动终端、中转服务器
CN103077176A (zh) * 2012-01-13 2013-05-01 北京飞漫软件技术有限公司 一种在浏览器中按关键词类型进行快捷搜索的方法

Also Published As

Publication number Publication date
US9502035B2 (en) 2016-11-22
WO2014177015A1 (zh) 2014-11-06
US20160098991A1 (en) 2016-04-07
CN103280217A (zh) 2013-09-04

Similar Documents

Publication Publication Date Title
CN103280217B (zh) 一种移动终端的语音识别方法及其装置
US10657966B2 (en) Better resolution when referencing to concepts
US10431204B2 (en) Method and apparatus for discovering trending terms in speech requests
US9633653B1 (en) Context-based utterance recognition
US9734193B2 (en) Determining domain salience ranking from ambiguous words in natural speech
US20190034040A1 (en) Method for extracting salient dialog usage from live data
US9280595B2 (en) Application query conversion
CN109522419B (zh) 会话信息补全方法及装置
JP5851507B2 (ja) インターネット検索に関する方法及び装置
CN107145571B (zh) 一种搜索方法及装置
CN105224586A (zh) 从先前会话检索情境
CN107209905A (zh) 针对个性化和任务完成服务而对应用去主题归类
WO2020186828A1 (zh) 应用程序快捷跳转方法、装置、电子设备和存储介质
CN107436691A (zh) 一种输入法进行纠错的方法、客户端、服务器及装置
US10073828B2 (en) Updating language databases using crowd-sourced input
CN109903773A (zh) 音频处理方法、装置及存储介质
CN106663113B (zh) 保存并获取对象的位置
CN110532354A (zh) 内容的检索方法及装置
CN107092424A (zh) 一种纠错项的显示方法、装置和用于纠错项的显示的装置
CN108197105A (zh) 自然语言处理方法、装置、存储介质及电子设备
KR102307380B1 (ko) 자연어 처리 기반 콜센터 지원 시스템 및 방법
US11868678B2 (en) User interface sound emanation activity classification
CN110059491A (zh) 数据导入监控方法、装置、设备及可读存储介质
CN110832444B (zh) 用户界面声音发出活动分类
CN106293121A (zh) 一种文本输入方法及终端

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C56 Change in the name or address of the patentee
CP01 Change in the name or title of a patent holder

Address after: 100080 Zhongguancun Haidian District street, No. 12, office of the layer 19 B1208

Patentee after: Hammer technology (Beijing) Limited by Share Ltd

Address before: 100080 Zhongguancun Haidian District street, No. 12, office of the layer 19 B1208

Patentee before: Hammer technology (Beijing) Co., Ltd.

TR01 Transfer of patent right

Effective date of registration: 20190117

Address after: 100041 B-0035, 2 floor, 3 building, 30 Shixing street, Shijingshan District, Beijing.

Patentee after: BEIJING ZIJIE TIAODONG NETWORK TECHNOLOGY CO., LTD.

Address before: 100080 Beijing Haidian District, 19 Zhongguancun Street, 12-storey office B1208

Patentee before: Hammer technology (Beijing) Limited by Share Ltd

TR01 Transfer of patent right