CN107274900A - 用于控制终端的信息处理方法及其系统 - Google Patents
用于控制终端的信息处理方法及其系统 Download PDFInfo
- Publication number
- CN107274900A CN107274900A CN201710679858.9A CN201710679858A CN107274900A CN 107274900 A CN107274900 A CN 107274900A CN 201710679858 A CN201710679858 A CN 201710679858A CN 107274900 A CN107274900 A CN 107274900A
- Authority
- CN
- China
- Prior art keywords
- information
- user
- control terminal
- voice signal
- characteristic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000010365 information processing Effects 0.000 title claims abstract description 51
- 238000003672 processing method Methods 0.000 title claims abstract description 32
- 238000000034 method Methods 0.000 claims abstract description 46
- 230000015654 memory Effects 0.000 claims abstract description 15
- 238000012545 processing Methods 0.000 claims description 17
- 238000003058 natural language processing Methods 0.000 claims description 9
- 238000011524 similarity measure Methods 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 5
- 238000010586 diagram Methods 0.000 description 17
- 230000000694 effects Effects 0.000 description 15
- 238000004590 computer program Methods 0.000 description 11
- 230000006870 function Effects 0.000 description 11
- 230000001755 vocal effect Effects 0.000 description 11
- 238000004378 air conditioning Methods 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 7
- 230000006854 communication Effects 0.000 description 5
- 230000006399 behavior Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 4
- 230000005291 magnetic effect Effects 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 230000004044 response Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 239000004065 semiconductor Substances 0.000 description 3
- 238000001228 spectrum Methods 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000005611 electricity Effects 0.000 description 2
- 238000005538 encapsulation Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000000151 deposition Methods 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000003032 molecular docking Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 239000000758 substrate Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1815—Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L12/00—Data switching networks
- H04L12/28—Data switching networks characterised by path configuration, e.g. LAN [Local Area Networks] or WAN [Wide Area Networks]
- H04L12/2803—Home automation networks
- H04L12/2816—Controlling appliance services of a home automation network by calling their functionalities
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/225—Feedback of the input speech
Landscapes
- Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Signal Processing (AREA)
- Computer Networks & Wireless Communication (AREA)
- Automation & Control Theory (AREA)
- Business, Economics & Management (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Game Theory and Decision Science (AREA)
- User Interface Of Digital Computer (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本公开提供了一种用于控制终端的信息处理方法,该方法包括:获取用户输入的语音信号;获取调整信息,其中,调整信息包括根据语音信号确定的用于描述用户的特征属性的特征信息和/或被控制终端根据语音信号所对应的控制信号而执行的对应操作的过程中反馈的反馈信息;根据调整信息对语音信号所对应的控制信号进行调整;以及向被控制终端输出调整后的控制信号。本公开还提供了一种用于控制终端的信息处理系统以及一种非易失性存储介质和一种计算机系统。
Description
技术领域
本公开涉及人工智能领域,更具体地,涉及一种用于控制终端的信息处理方法及其系统、以及一种非易失性存储介质和一种计算机系统。
背景技术
人工智能时代的来临,使得业界产生了一系列的智能家居设备。而支持远程唤醒的语音智能音箱作为一系列智能家居设备的入口(如echo,google home,叮咚音箱等),成为了一种最自然且实用的智能设备。
一般家庭即可通过智能音箱等控制终端作为控制中枢,来串起所有的智能家居设备,使得原先较为分散的智能设备变成了一个统一的可操控的智能生态体系以提供各种的智能服务(如外卖、家政、购物等)。
在实现本公开实施例的过程中,发明人发现相关技术中至少存在如下问题:控制终端(如智能音箱)的语音应答模式不灵活,导致用户体验不佳。
针对相关技术中的上述问题,目前还未提出有效的解决方案。
发明内容
有鉴于此,本公开提供了一种用于控制终端的信息处理方法及用于控制终端的信息处理系统。
本公开的一方面提供了一种用于控制终端的信息处理方法,包括:获取用户输入的语音信号;获取调整信息,其中,上述调整信息包括根据上述语音信号确定的用于描述上述用户的特征属性的特征信息和/或上述被控制终端根据上述语音信号所对应的控制信号而执行的对应操作的过程中反馈的反馈信息;根据上述调整信息对上述语音信号所对应的控制信号进行调整;以及向上述被控制终端输出调整后的控制信号。
根据本公开的实施例,获取调整信息包括根据上述语音信号确定用于描述上述用户的特征属性的特征信息,该操作包括:从上述语音信号中提取对应的语音特征参数;将上述语音特征参数输入预设分类器以对上述用户的特征属性进行分类;以及根据上述用户的特征属性的分类结果确定用于描述上述用户的特征属性的特征信息。
根据本公开的实施例,将上述语音特征参数输入预设分类器以对上述用户的特征属性进行分类包括:在上述用户的特征属性包括上述用户的年龄信息和/或性别信息的情况下,对输入上述预设分类器中的上述语音特征参数进行后验概率统计;根据后验概率统计结果确定上述语音特征参数对应的上述年龄信息和/或上述性别信息;以及基于确定出的上述年龄信息和/或上述性别信息对上述用户的特征属性进行分类。
根据本公开的实施例,将上述语音特征参数输入预设分类器以对上述用户的特征属性进行分类包括:在上述用户的特征属性至少包括用于描述上述用户与上述控制终端的所属关系的身份信息的情况下,计算输入上述预设分类器中的上述语音特征参数与预先存储在上述预设分类器中的语音特征参数的相似度;根据上述相似度计算结果,确定上述用户的身份信息;以及基于上述用户的身份信息对上述用户的特征属性进行分类。
根据本公开的实施例,在获取用户输入的语音信号之后,上述方法还包括:对上述用户输入上述控制终端的上述语音信号进行自然语言处理,以得到对应的语义信息,其中,上述语义信息用于确定上述被控制终端根据上述语音信号所对应的控制信号需要执行的操作。
根据本公开的实施例,获取调整信息包括:获取被控制终端根据上述语音信号所对应的控制信号而执行的对应操作的过程中反馈的反馈信息。
本公开的另一方面还提供了一种用于控制终端的信息处理系统,包括:第一获取模块,用于获取用户输入的语音信号;第二获取模块,用于获取调整信息,其中,上述调整信息包括根据上述语音信号确定的用于描述上述用户的特征属性的特征信息和/或上述被控制终端根据上述语音信号所对应的控制信号而执行的对应操作的过程中反馈的反馈信息;以及调整模块,根据上述调整信息对上述语音信号所对应的控制信号进行调整;输出模块,用于向上述被控制终端输出调整后的控制信号。
根据本公开的实施例,上述第二获取模块包括:提取单元,用于从上述语音信号中提取对应的语音特征参数;分类单元,用于将上述语音特征参数输入预设分类器以对上述用户的特征属性进行分类;以及确定单元,用于根据上述用户的特征属性的分类结果确定用于描述上述用户的特征属性的特征信息。
根据本公开的实施例,上述分类单元包括:第一处理子单元,用于在上述用户的特征属性包括上述用户的年龄信息和/或性别信息的情况下,对输入上述预设分类器中的上述语音特征参数进行后验概率统计;第一确定子单元,用于根据后验概率统计结果确定上述语音特征参数对应的上述年龄信息和/或上述性别信息;以及第一分类子单元,用于基于确定出的上述年龄信息和/或上述性别信息对上述用户的特征属性进行分类。
根据本公开的实施例,上述分类单元包括:第二处理子单元,用于在上述用户的特征属性至少包括用于描述上述用户与上述控制终端的所属关系的身份信息的情况下,计算输入上述预设分类器中的上述语音特征参数与预先存储在上述预设分类器中的语音特征参数的相似度;第二确定子单元,用于根据上述相似度计算结果,确定上述用户的身份信息;以及第二分类子单元,用于基于上述用户的身份信息对上述用户的特征属性进行分类。
根据本公开的实施例,上述系统还包括:处理模块,用于对上述用户输入上述控制终端的上述语音信号进行自然语言处理,以得到对应的语义信息,其中,上述语义信息用于确定上述被控制终端根据上述语音信号所对应的控制信号需要执行的操作。
根据本公开的实施例,第二获取模块还用于获取被控制终端根据上述语音信号所对应的控制信号而执行的对应操作的过程中反馈的反馈信息。
本公开的另一方面还提供了一种非易失性存储介质,存储有计算机可执行指令,上述指令在被处理器执行时用于实现上述任一项所述的用于控制终端的信息处理方法。
本公开的另一方面还提供了一种用于控制终端的信息处理系统,包括:存储器,用于存储计算机可执行指令;以及处理器,用于执行上述指令以实现上述任一项所述的用于控制终端的信息处理方法。
根据本公开的实施例,由于提供一种用于控制终端的信息处理方法,使得控制终端可以依据语音信号确定的用于描述用户的特征属性的特征信息和/或被控制终端根据语音信号所对应的控制信号而执行的对应操作的过程中反馈的反馈信息进行应答模式的调整,而不再是固定的应答模式,可以至少部分地克服相关技术提供的方案中由于控制终端语音应答模式不灵活而导致的用户体验不佳的技术问题,并因此可以实现提高控制终端语音应答模式灵活性,提升用户体验的技术效果。
附图说明
通过以下参照附图对本公开实施例的描述,本公开的上述以及其他目的、特征和优点将更为清楚,在附图中:
图1示意性示出了根据本公开实施例的可应用于控制终端的信息处理方法及其系统的应用场景;
图2示意性示出了根据本公开实施例的用于控制终端的信息处理方法的流程图;
图3A示意性示出了根据本公开实施例的根据语音信号确定用于描述用户的特征属性的特征信息的流程图;
图3B示意性示出了根据本公开实施例的将语音特征参数输入预设分类器以对用户的特征属性进行分类的流程图;
图3C示意性示出了根据本公开另一实施例的将语音特征参数输入预设分类器以对用户的特征属性进行分类的流程图;
图3D示意性示出了根据本公开另一实施例的用于控制终端的信息处理方法的流程图;
图4示意性示出了根据本公开实施例的用于控制终端的信息处理系统的框图;
图5A示意性示出了根据本公开实施例的第二获取模块的框图;
图5B示意性示出了根据本公开实施例的分类单元的框图;
图5C示意性示出了根据本公开另一实施例的分类单元的框图;
图5D示意性示出了根据本公开另一实施例的用于控制终端的信息处理系统的框图;以及
图6示意性示出了根据本公开实施例的适用于控制终端的信息处理方法的计算机系统的框图。
具体实施方式
以下,将参照附图来描述本公开的实施例。但是应该理解,这些描述只是示例性的,而并非要限制本公开的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本公开的概念。
在此使用的术语仅仅是为了描述具体实施例,而并非意在限制本公开。这里使用的词语“一”、“一个(种)”和“该”等也应包括“多个”、“多种”的意思,除非上下文另外明确指出。此外,在此使用的术语“包括”、“包含”等表明了特征、步骤、操作和/或部件的存在,但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。
在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义,除非另外定义。应注意,这里使用的术语应解释为具有与本说明书的上下文相一致的含义,而不应以理想化或过于刻板的方式来解释。
附图中示出了一些方框图和/或流程图。应理解,方框图和/或流程图中的一些方框或其组合可以由计算机程序指令来实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器,从而这些指令在由该处理器执行时可以创建用于实现这些方框图和/或流程图中所说明的功能/操作的装置。
因此,本公开的技术可以硬件和/或软件(包括固件、微代码等)的形式来实现。另外,本公开的技术可以采取存储有指令的计算机可读介质上的计算机程序产品的形式,该计算机程序产品可供指令执行系统使用或者结合指令执行系统使用。在本公开的上下文中,计算机可读介质可以是能够包含、存储、传送、传播或传输指令的任意介质。例如,计算机可读介质可以包括但不限于电、磁、光、电磁、红外或半导体系统、装置、器件或传播介质。计算机可读介质的具体示例包括:磁存储装置,如磁带或硬盘(HDD);光存储装置,如光盘(CD-ROM);存储器,如随机存取存储器(RAM)或闪存;和/或有线/无线通信链路。
在使用类似于“A、B和C等中至少一个”这样的表述的情况下,一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如,“具有A、B和C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。在使用类似于“A、B或C等中至少一个”这样的表述的情况下,一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如,“具有A、B或C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。本领域技术人员还应理解,实质上任意表示两个或更多可选项目的转折连词和/或短语,无论是在说明书、权利要求书还是附图中,都应被理解为给出了包括这些项目之一、这些项目任一方、或两个项目的可能性。例如,短语“A或B”应当被理解为包括“A”或“B”、或“A和B”的可能性。
本公开的实施例提供了一种用于控制终端的信息处理方法及系统。该方法包括获取用户输入的语音信号,获取调整信息,其中,调整信息包括根据语音信号确定的用于描述用户的特征属性的特征信息和/或被控制终端根据语音信号所对应的控制信号而执行的对应操作的过程中反馈的反馈信息,根据调整信息对语音信号所对应的控制信号进行调整;以及向被控制终端输出调整后的控制信号。
图1示意性示出了根据本公开实施例的可应用于控制终端的信息处理方法及其系统的应用场景。
如图1所示,在该应用场景中,不同用户对控制终端输入语音信号,控制终端对接收到的语音信号进行处理和分析,根据不同的语音信号获得对应的描述用户特征属性的特征信息,如用户是家人、还是陌生人、进一步判断出家人的年龄信息和/或性别信息等,进一步控制终端会根据语音信号控制被控制终端响应对应的控制信号而执行对应的操作,例如,当用户输入“打开冰箱”的语音信号时,控制终端根据该控制信号控制冰箱这个被控制终端执行打开操作,使得冰箱门打开,当用户向输入“天气预报”的语音信号时,控制终端根据该控制信号控制终端设备如网络电台播报天气预报。
本公开的实施例提供了一种用于控制终端的信息处理方法。
图2示意性示出了根据本公开实施例的用于控制终端的信息处理方法的流程图。
如图2所示,该用于控制终端的信息处理的方法可以包括操作S210~S240,其中:
在操作S210,获取用户输入的语音信号。
需要说明的是,对一个家庭来说,控制终端可以包括但不限于智能音箱,控制终端作为控制中枢可以控制智能家居设备(空调、电视、电冰箱等)、信源(歌曲、网络电台等)以及智能服务(提供第三方服务的外卖、家政、购物等),使得智能家居设备、信源以及智能服务变成一个统一的可以操控的智能生态系统。
用户通过语音向控制终端输入语音信号,使得被控制终端根据语音信号所对应的控制信号而执行的对应操作,例如,用户可以向智能音箱输入“打开空调”的语音信号,控制终端(智能音箱)控制被控制终端(空调),使得空调执行开机操作。
用户可以是对控制终端执行语音输入行为的用户,可以是家庭内部成员,也可以是家庭成员之外的陌生人。通常家庭内部成员按年龄划分的话包括大人、小孩和老人。出于安全性的考虑,不同的用户可以设置不同的操作权限,例如,可对小孩或陌生人进行部分或全部权限的禁止。
语音信号是用户输入至控制终端以控制被控制终端执行相应操作的信号,不同的语音信号具有不同的语音特征参数即声纹特征不同。所谓声纹(Voiceprint),是用电声学仪器显示的携带言语信息的声波频谱,由于声纹不仅具有特定性,而且有相对稳定性的特点,所以通常利用声纹检测技术来识别用户的身份信息。通过对声纹信息进行分析,可以得到用于描述用户的特征属性的特征信息。
在操作S220,获取调整信息,其中,调整信息包括根据语音信号确定的用于描述用户的特征属性的特征信息和/或被控制终端根据语音信号所对应的控制信号而执行的对应操作的过程中反馈的反馈信息。
需要说明的是,调整信息可以包括根据语音信号确定的用于描述用户的特征属性的特征信息和/或被控制终端根据语音信号所对应的控制信号而执行的对应操作的过程中反馈的反馈信息。
用于描述用户的特征属性的特征信息可以包括用户的年龄信息和/或性别信息,例如可以是老人,小孩,大人等,还可以包括用于描述用户与控制终端的所属关系的身份信息,如陌生人、家人等。可以通过声纹识别技术来识别用户的特征属性。
被控制终端根据语音信号所对应的控制信号而执行的对应操作的过程中反馈的反馈信息可以包括对被控制终端响应于对应的控制信号输出的内容,通过对被控制终端的输出内容进行自然语音分析,可以得到相应的场景归类,如天气预报场景、歌曲播放场景等。
在操作S230,根据调整信息对语音信号所对应的控制信号进行调整。
需要说明的是,可以根据语音信号确定的用于描述用户的特征属性的特征信息对语音信号所对应的控制信号进行调整,也可以根据被控制终端根据语音信号所对应的控制信号而执行的对应操作的过程中反馈的反馈信息对语音信号所对应的控制信号进行调整,还可以根据语音信号确定的用于描述用户的特征属性的特征信息和被控制终端根据语音信号所对应的控制信号而执行的对应操作的过程中反馈的反馈信息共同对语音信号所对应的控制信号进行调整。
在操作S240,向被控制终端输出调整后的控制信号。
需要说明的是,在对语音信号所对应的控制信号进行调整之后,向被控制终端输出调整后的控制信号,使得被控制终端能够根据用户输入的语音信号和被控制终端的反馈信息对音箱的反馈效果进行干预。
通过本公开的实施例,由于提供一种用于控制终端的信息处理方法,使得控制终端可以依据语音信号确定的用于描述用户的特征属性的特征信息和/或被控制终端根据语音信号所对应的控制信号而执行的对应操作的过程中反馈的反馈信息进行应答模式的调整,而不再是固定的应答模式,可以至少部分地克服相关技术提供的方案中由于控制终端语音应答模式不灵活而导致的用户体验不佳的技术问题,并因此可以实现提高控制终端语音应答模式灵活性,提升用户体验的技术效果。
下面参考图3A~图3D,结合具体实施例对图2所示的用于控制终端的信息处理的方法做进一步说明。
图3A示意性示出了根据本公开实施例的根据语音信号确定用于描述用户的特征属性的特征信息的流程图。
在该实施例中,该用于控制终端的信息处理的方法除了可以包括上文参考图2所对应的实施例中描述的操作S210~S240之外,还可以包括操作S310~S330,具体地,图2中的操作S220还可以包括操作S310~S330。为了描述的简洁起见,这里省略对图2描述的操作S210~S240的描述。如图3A所示,其中:
在操作S310,从语音信号中提取对应的语音特征参数。
在操作S320,将语音特征参数输入预设分类器以对用户的特征属性进行分类。
在操作S330,根据用户的特征属性的分类结果确定用于描述用户的特征属性的特征信息。
需要说明的是,在接收到用户输入的语音信号之后,可以提取语音信号对应的语音特征参数,将提取的语音特征参数输入预设分类器中,以使预设分类器基于用户的语音特征参数识别用户的属性,根据用户的特征属性的分类结果可以确定出用于描述用户的特征属性的特征信息,如可以识别出用户的年龄、性别和用户与控制终端的所属关系等特征信息。
预设分类器是使用专门的用户训练样本预先训练得到并存储在本地或者云端的,使用时直接加载即可。在本公开的实施例中,预设分类器的识别依据可以包括但不限于:从语音信号中提取对应的语音特征参数。
通过本公开的实施例,因为采用了基于分类器模型对用户的语音特征参数进行分类的技术手段,进而根据用户的语音中的特征参数得到用户的特征参数的特征信息,可以实现快速准确的确定用户的特征信息,达到简化识别流程、提高识别效率的技术效果。
图3B示意性示出了根据本公开实施例的将语音特征参数输入预设分类器以对用户的特征属性进行分类的流程图。
在该实施例中,该用于控制终端的信息处理的方法除了可以包括上文参考图3A所对应的实施例中描述的相应操作之外,还可以包括操作S321~S323,具体地,图3A中的操作S320可以包括操作S321~S323。为了描述的简洁起见,这里省略对图3A描述的其他相应操作的描述。如图3B所示,其中:
在操作S321,在用户的特征属性包括用户的年龄信息和/或性别信息的情况下,对输入预设分类器中的语音特征参数进行后验概率统计。
在操作S322,根据后验概率统计结果确定语音特征参数对应的年龄信息和/或性别信息。
在操作S323,基于确定出的年龄信息和/或性别信息对用户的特征属性进行分类。
需要说明的是,在用户的特征属性包括用户的年龄信息和/或性别信息的情况下,接收到用户输入的语音信号之后,可以提取语音信号对应的语音特征参数,例如,可以提取Mel频谱倒谱系数(Mel Frequency Cepstrum Coefficient,简称为MFCC),将语音特征参数输入预先训练好的预设分类器中,确定用户的属性,将用户在性别、年龄等维度上进行划分,具体地,可以依据精度需求和设备的运算能力选择不同的预设分类器模型,只要能达到根据语音特征参数对用户进行识别的目的即可,在此不做限定,例如可以选择全背景-高斯混合模型(Gaussian Mixture Model-Universal Background Model,简称为GMM-UBM)或深度神经网络模型(Deep Neural Network,简称为DNN)的技术方案,在此不再赘述。
通过本公开的实施例,因为采用了基于分类器模型对用户的语音特征参数进行分类的技术手段,进而根据用户的语音中的特征参数得到用户的特征参数的特征信息,例如用户的年龄信息和/或性别信息,可以实现快速准确的确定用户的特征信息,达到简化识别流程、提高识别效率的技术效果。
图3C示意性示出了根据本公开另一实施例的将语音特征参数输入预设分类器以对用户的特征属性进行分类的流程图。
在该实施例中,该用于控制终端的信息处理的方法除了可以包括上文参考图3A所对应的实施例中描述的相应操作之外,还可以包括操作S324~S326,具体地,图3A中的操作S320可以包括操作S324~S326。为了描述的简洁起见,这里省略对图3A描述的其他相应操作的描述。如图3C所示,其中:
在操作S324,在用户的特征属性至少包括用于描述用户与控制终端的所属关系的身份信息的情况下,计算输入预设分类器中的语音特征参数与预先存储在预设分类器中的语音特征参数的相似度。
在操作S325,根据相似度计算结果,确定用户的身份信息。
在操作S326,基于用户的身份信息对用户的特征属性进行分类。
需要说明的是,在用户的特征属性至少包括用于描述用户与控制终端的所属关系的身份信息的情况下,将输入预设分类器中的语音特征参数与预先存储在预设分类器中的语音特征参数进行比对,采用对数似然比得分取代似然比得分的算法,获得用户语音特征参数的相似度,结合预设阈值进行判断,识别出用户对控制终端的所属关系,进一步,根据不同用户对控制终端的所属关系,可以设定对控制终端的不同权限。例如当识别出用户的身份信息为陌生人时,可将该用户的操作权限设定为全部禁止。
在基于预设分类器对用户的特征属性进行分类之后,随着用户特征数据的不断积累,可以利用用户特征数据去迭代预设分类器模型,使得分类器的检测效果越来越好。
通过本公开的实施例,因为采用了计算输入预设分类器中的语音特征参数与预先存储在预设分类器中的语音特征参数的相似度的技术手段,可以得出用户与控制终端的所属关系的身份信息,例如用户是否是陌生用户等,可以实现快速准确的确定用户的特征信息,达到简化识别流程、提高识别效率的技术效果。
图3D示意性示出了根据本公开另一实施例的用于控制终端的信息处理方法的流程图。
在该实施例中,该用于控制终端的信息处理的方法除了可以包括上文参考图2所对应的实施例中描述的相应操作之外,在操作S210之后该方法还可以包括操作S250。为了描述的简洁起见,这里省略对图2描述的其他相应操作的描述。如图3D所示,其中:
在操作S250,对用户输入控制终端的语音信号进行自然语言处理,以得到对应的语义信息,其中,语义信息用于确定被控制终端根据语音信号所对应的控制信号需要执行的操作。
需要说明的是,为了更好的实现对控制终端的输出信息的调整,本公开的实施例对用户输入控制终端的语音信号进行自然语言处理,以得到对应的语义信息,根据不同的语义信息,将用户对控制终端的指令进行场景归类,例如,控制终端可以依据用户的语义分类,例如新闻、歌曲播放等指令进行语速语调的自动调节,如新闻类的语速可以提升,提高信息的获取效率。
通过本公开的实施例,由于采用了对语音信号进行自然语言处理以得到语义信息的技术方案,使得控制终端可以依据得到的语义信息,划分语音信号的种类,得到相应的场景,从而达到控制终端根据语音信号所对应的控制信号做应答模式的调整,克服了现有技术提供的技术方案由于应答模式固定导致的用户体验不好的技术问题,实现提升用户体验的技术效果。
根据本公开的实施例,获取调整信息包括获取被控制终端根据语音信号所对应的控制信号而执行的对应操作的过程中反馈的反馈信息。
需要说明的是,调整信息可以包括被控制终端的反馈信息,该反馈信息在被控制终端根据用户输入的语音信号所对应的控制信号而执行对应操作的过程中产生,例如被控制终端是网络电视的情况下,当用户输入语音信号为“天气预报”的时候,在冬天的时候遇到阳光明媚即可自动调节语调为欢乐模式,而在夏天遇到阳光灿烂,则可自动调节成抱怨模式,同时还可以根据天气情况进行灯光的显示色彩的设定,即被控制终端根据不同的反馈信息,可以赋予控制终端不同的语音应答模式以不同的情感或应答形式。
通过本公开的实施例,由于采用获取被控制终端根据语音信号所对应的控制信号而执行的对应操作的过程中反馈的反馈信息作为调整信息的技术方案,使得控制终端可以依据被控制终端的反馈信息而对语音信号所对应的控制信号进行调整,克服了现有技术中控制终端对语音信号的应答模式固导致的用户体验不佳的技术问题,进而实现提高用户体验的技术效果。
本公开的实施例另一方面提供了一种能够用于控制终端的信息处理系统。
图4示意性示出了根据本公开实施例的用于控制终端的信息处理系统的框图。
在该实施例中,该用于控制终端的信息处理系统400可以包括第一获取模块410、第二获取模块420、调整模块430和输出模块440。该系统可以执行上面参考图2~图3D描述的方法,以实现对控制终端的信息进行处理的目的。如图4所示,其中:
第一获取模块410用于获取用户输入的语音信号。
第二获取模块420用于获取调整信息,其中,调整信息包括根据语音信号确定的用于描述用户的特征属性的特征信息和/或被控制终端根据语音信号所对应的控制信号而执行的对应操作的过程中反馈的反馈信息。
调整模块430根据调整信息对语音信号所对应的控制信号进行调整。
输出模块440用于向被控制终端输出调整后的控制信号。
需要说明的是,对一个家庭来说,控制终端可以包括但不限于智能音箱,控制终端作为控制中枢可以控制智能家居设备(空调、电视、电冰箱等)、信源(歌曲、网络电台等)以及智能服务(提供第三方服务的外卖、家政、购物等),使得智能家居设备、信源以及智能服务变成一个统一的可以操控的智能生态系统。
用户通过语音向控制终端输入语音信号,使得被控制终端根据语音信号所对应的控制信号而执行的对应操作,例如,用户可以向智能音箱输入“打开空调”的语音信号,控制终端(智能音箱)控制被控制终端(空调),使得空调执行开机操作。
用户可以是对控制终端执行语音输入行为的用户,可以是家庭内部成员,也可以是家庭成员之外的陌生人。通常家庭内部成员按年龄划分的话包括大人、小孩和老人。出于安全性的考虑,不同的用户可以设置不同的操作权限,例如,可对小孩或陌生人进行部分或全部权限的禁止。
语音信号是用户输入至控制终端以控制被控制终端执行相应操作的信号,不同的语音信号具有不同的语音特征参数即声纹特征不同。所谓声纹(Voiceprint),是用电声学仪器显示的携带言语信息的声波频谱,由于声纹不仅具有特定性,而且有相对稳定性的特点,所以通常利用声纹检测技术来识别用户的身份信息。通过对声纹信息进行分析,可以得到用于描述用户的特征属性的特征信息。
需要说明的是,调整信息可以包括根据语音信号确定的用于描述用户的特征属性的特征信息和/或被控制终端根据语音信号所对应的控制信号而执行的对应操作的过程中反馈的反馈信息。
用于描述用户的特征属性的特征信息可以包括用户的年龄信息和/或性别信息,例如可以是老人,小孩,大人等,还可以包括用于描述用户与控制终端的所属关系的身份信息,如陌生人、家人等。可以通过声纹识别技术来识别用户的特征属性。
被控制终端根据语音信号所对应的控制信号而执行的对应操作的过程中反馈的反馈信息可以包括对被控制终端响应于对应的控制信号输出的内容,通过对被控制终端的输出内容进行自然语音分析,可以得到相应的场景归类,如天气预报场景、歌曲播放场景等。
需要说明的是,可以根据语音信号确定的用于描述用户的特征属性的特征信息对语音信号所对应的控制信号进行调整,也可以根据被控制终端根据语音信号所对应的控制信号而执行的对应操作的过程中反馈的反馈信息对语音信号所对应的控制信号进行调整,还可以根据语音信号确定的用于描述用户的特征属性的特征信息和被控制终端根据语音信号所对应的控制信号而执行的对应操作的过程中反馈的反馈信息共同对语音信号所对应的控制信号进行调整。
需要说明的是,在对语音信号所对应的控制信号进行调整之后,向被控制终端输出调整后的控制信号,使得被控制终端能够根据用户输入的语音信号和被控制终端的反馈信息对音箱的反馈效果进行干预。
通过本公开的实施例,由于提供一种用于控制终端的信息处理方法,使得控制终端可以依据语音信号确定的用于描述用户的特征属性的特征信息和/或被控制终端根据语音信号所对应的控制信号而执行的对应操作的过程中反馈的反馈信息进行应答模式的调整,而不再是固定的应答模式,可以至少部分地克服相关技术提供的方案中由于控制终端语音应答模式不灵活而导致的用户体验不佳的技术问题,并因此可以实现提高控制终端语音应答模式灵活性,提升用户体验的技术效果。
图5A示意性示出了根据本公开实施例的第二获取模块的框图。
在该实施例中,该数据处理系统400除了可以包括上文参考图4所对应实施例中描述的第一获取模块410、第二获取模块420、调整模块430和输出模块440之外,第二获取模块420还可以包括提取单元421、分类单元422、确定单元423。为了描述的简洁起见,这里省略对第一获取模块410、第二获取模块420、调整模块430和输出模块440的描述。如图5A所示,其中:
提取单元421用于从语音信号中提取对应的语音特征参数。
分类单元422用于将语音特征参数输入预设分类器以对用户的特征属性进行分类。
确定单元423用于根据用户的特征属性的分类结果确定用于描述用户的特征属性的特征信息。
通过本公开的实施例,因为采用了基于分类器模型对用户的语音特征参数进行分类的技术手段,进而根据用户的语音中的特征参数得到用户的特征参数的特征信息,可以实现快速准确的确定用户的特征信息,达到简化识别流程、提高识别效率的技术效果。
图5B示意性示出了根据本公开实施例的分类单元的框图。
在该实施例中,该数据处理系统400除了可以包括上文参考图5A所对应实施例中描述的相应单元之外,该数据处理系统的分类单元420可以包括第一处理子单元424、第一确定子单元425、第一分类子单元426。为了描述的简洁起见,这里省略对图5A中描述的相应单元的描述。如图5B所示,其中:
第一处理子单元424用于在用户的特征属性包括用户的年龄信息和/或性别信息的情况下,对输入预设分类器中的语音特征参数进行后验概率统计。
第一确定子单元425用于根据后验概率统计结果确定语音特征参数对应的年龄信息和/或性别信息。
第一分类子单元426用于基于确定出的年龄信息和/或性别信息对用户的特征属性进行分类。
通过本公开的实施例,因为采用了基于分类器模型对用户的语音特征参数进行分类的技术手段,进而根据用户的语音中的特征参数得到用户的特征参数的特征信息,例如用户的年龄信息和/或性别信息,可以实现快速准确的确定用户的特征信息,达到简化识别流程、提高识别效率的技术效果。
图5C示意性示出了根据本公开另一实施例的分类单元的框图。
在该实施例中,该数据处理系统400除了可以包括上文参考图5A所对应实施例中描述的相应单元之外,分类单元420可以包括第二处理子单元427、第二确定子单元428、第二分类子单元429。为了描述的简洁起见,这里省略对图5A中描述的相应单元的描述。如图5C所示,其中:
第二处理子单元427用于在用户的特征属性至少包括用于描述用户与控制终端的所属关系的身份信息的情况下,计算输入预设分类器中的语音特征参数与预先存储在预设分类器中的语音特征参数的相似度。
第二确定子单元428用于根据相似度计算结果,确定用户的身份信息。
第二分类子单元429用于基于用户的身份信息对用户的特征属性进行分类。
通过本公开的实施例,因为采用了计算输入预设分类器中的语音特征参数与预先存储在预设分类器中的语音特征参数的相似度的技术手段,可以得出用户与控制终端的所属关系的身份信息,例如用户是否是陌生用户等,可以实现快速准确的确定用户的特征信息,达到简化识别流程、提高识别效率的技术效果。
图5D示意性示出了根据本公开另一实施例的用于控制终端的信息处理系统的框图。
在该实施例中,该数据处理系统400除了可以包括上文参考图4所对应实施例中描述的相应模块之外,该用于控制终端的信息处理系统400还可以包括处理模块450。为了描述的简洁起见,这里省略对图4中描述的相应模块的描述。如图5D所示,其中:
处理模块450用于对用户输入控制终端的语音信号进行自然语言处理,以得到对应的语义信息,其中,语义信息用于确定被控制终端根据语音信号所对应的控制信号需要执行的操作。
通过本公开的实施例,由于采用了对语音信号进行自然语言处理以得到语义信息的技术方案,使得控制终端可以依据得到的语义信息,划分语音信号的种类,得到相应的场景,从而达到控制终端根据语音信号所对应的控制信号做应答模式的调整,克服了现有技术提供的技术方案由于应答模式固定导致的用户体验不好的技术问题,实现提升用户体验的技术效果。
根据本公开的实施例,第二获取模块还用于获取被控制终端根据语音信号所对应的控制信号而执行的对应操作的过程中反馈的反馈信息。
通过本公开的实施例,由于采用获取被控制终端根据语音信号所对应的控制信号而执行的对应操作的过程中反馈的反馈信息作为调整信息的技术方案,使得控制终端可以依据被控制终端的反馈信息而对语音信号所对应的控制信号进行调整,克服了现有技术中控制终端对语音信号的应答模式固导致的用户体验不佳的技术问题,进而实现提高用户体验的技术效果。
可以理解的是,第一获取模块410、第二获取模块420、调整模块430和输出模块440等模块可以合并在一个模块中实现,或者其中的任意一个模块可以被拆分成多个模块。或者,这些模块中的一个或多个模块的至少部分功能可以与其他模块的至少部分功能相结合,并在一个模块中实现。根据本发明的实施例,第一获取模块410、第二获取模块420、调整模块430和输出模块440等模块中的至少一个可以至少被部分地实现为硬件电路,例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC),或可以以对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现,或以软件、硬件以及固件三种实现方式的适当组合来实现。或者,第一获取模块410、第二获取模块420、调整模块430和输出模块440等模块中的至少一个可以至少被部分地实现为计算机程序模块,当该程序被计算机运行时,可以执行相应模块的功能。
需要说明的是,本公开实施例的用于控制终端的信息处理方法与用于控制终端的信息处理系统是相对应的,对于该用于控制终端的信息处理系统的描述可以参考根据本公开实施例的用于控制终端的信息处理方法的描述,在此不再赘述。
本公开的另一方面还提供了一种非易失性存储介质,存储有计算机可执行指令,指令在被处理器执行时用于实现上述方法实施例中任一项用于控制终端的信息处理方法。
本公开的另一方面提供了一种信息处理系统,包括:存储器,用于存储计算机可执行指令;以及处理器,用于执行指令以实现上述方法实施例中任一项用于控制终端的信息处理方法。
图6示意性示出了根据本公开另一实施例的用于控制终端的信息处理方法的计算机系统的方框图。图6示出的计算机系统仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图6所示,根据本公开实施例的计算机系统600包括处理器601,其可以根据存储在只读存储器(ROM)602中的程序或者从存储部分608加载到随机访问存储器(RAM)603中的程序而执行各种适当的动作和处理。处理器601例如可以包括通用微处理器(例如CPU)、指令集处理器和/或相关芯片组和/或专用微处理器(例如,专用集成电路(ASIC)),等等。处理器610还可以包括用于缓存用途的板载存储器。处理器610可以包括用于执行参考图2~图3D描述的根据本公开实施例的用于控制终端的信息处理方法流程的不同动作的单一处理单元或者是多个处理单元。
在RAM 603中,存储有系统600操作所需的各种程序和数据。处理器601、ROM 602以及RAM 603通过总线604彼此相连。处理器601通过执行ROM 602和/或RAM 603中的程序来执行以上参考图2~图3D描述的用于控制终端的信息处理方法的各种操作。需要注意,所述程序也可以存储在除ROM 602和RAM 603以外的一个或多个存储器中。处理器601也可以通过执行存储在所述一个或多个存储器中的程序来执行以上参考图2~图3D描述的用于控制终端的信息处理方法的各种操作。
根据本公开的实施例,系统600还可以包括输入/输出(I/O)接口605,输入/输出(I/O)接口605也连接至总线604。系统600还可以包括连接至I/O接口605的以下部件中的一项或多项:包括键盘、鼠标等的输入部分606;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分607;包括硬盘等的存储部分608;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至I/O接口605。可拆卸介质611,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器610上,以便于从其上读出的计算机程序根据需要被安装入存储部分608。
根据本公开的实施例,上文参考流程图描述的方法可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分609从网络上被下载和安装,和/或从可拆卸介质611被安装。在该计算机程序被处理器601执行时,执行本公开实施例的系统中限定的上述功能。根据本公开的实施例,上文描述的系统、设备、装置、模块、单元等可以通过计算机程序模块来实现。
需要说明的是,本公开所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。根据本公开的实施例,计算机可读介质可以包括上文描述的ROM 602和/或RAM 603和/或ROM 602和RAM 603以外的一个或多个存储器。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
作为另一方面,本公开还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的设备中所包含的;也可以是单独存在,而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该设备执行时,使得该设备执行用于控制终端的信息处理方法:该方法包括:获取用户输入的语音信号;获取调整信息,其中,调整信息包括根据语音信号确定的用于描述用户的特征属性的特征信息和/或被控制终端根据语音信号所对应的控制信号而执行的对应操作的过程中反馈的反馈信息;根据调整信息对语音信号所对应的控制信号进行调整;以及向被控制终端输出调整后的控制信号。
以上对本公开的实施例进行了描述。但是,这些实施例仅仅是为了说明的目的,而并非为了限制本公开的范围。尽管在以上分别描述了各实施例,但是这并不意味着各个实施例中的措施不能有利地结合使用。本公开的范围由所附权利要求及其等同物限定。不脱离本公开的范围,本领域技术人员可以做出多种替代和修改,这些替代和修改都应落在本公开的范围之内。
Claims (14)
1.一种用于控制终端的信息处理方法,包括:
获取用户输入的语音信号;
获取调整信息,其中,所述调整信息包括根据所述语音信号确定的用于描述所述用户的特征属性的特征信息和/或所述被控制终端根据所述语音信号所对应的控制信号而执行的对应操作的过程中反馈的反馈信息;
根据所述调整信息对所述语音信号所对应的控制信号进行调整;以及
向所述被控制终端输出调整后的控制信号。
2.根据权利要求1所述的方法,其中,获取调整信息包括根据所述语音信号确定用于描述所述用户的特征属性的特征信息,该操作包括:
从所述语音信号中提取对应的语音特征参数;
将所述语音特征参数输入预设分类器以对所述用户的特征属性进行分类;以及
根据所述用户的特征属性的分类结果确定用于描述所述用户的特征属性的特征信息。
3.根据权利要求2所述的方法,其中,将所述语音特征参数输入预设分类器以对所述用户的特征属性进行分类包括:
在所述用户的特征属性包括所述用户的年龄信息和/或性别信息的情况下,对输入所述预设分类器中的所述语音特征参数进行后验概率统计;
根据后验概率统计结果确定所述语音特征参数对应的所述年龄信息和/或所述性别信息;以及
基于确定出的所述年龄信息和/或所述性别信息对所述用户的特征属性进行分类。
4.根据权利要求2所述的方法,其中,将所述语音特征参数输入预设分类器以对所述用户的特征属性进行分类包括:
在所述用户的特征属性至少包括用于描述所述用户与所述控制终端的所属关系的身份信息的情况下,计算输入所述预设分类器中的所述语音特征参数与预先存储在所述预设分类器中的语音特征参数的相似度;
根据所述相似度计算结果,确定所述用户的身份信息;以及
基于所述用户的身份信息对所述用户的特征属性进行分类。
5.根据权利要求1所述的方法,其中,在获取用户输入的语音信号之后,所述方法还包括:
对所述用户输入所述控制终端的所述语音信号进行自然语言处理,以得到对应的语义信息,其中,所述语义信息用于确定所述控制终端根据所述语音信号所对应的控制信号需要执行的操作。
6.根据权利要求1所述的方法,其中,获取调整信息包括:
获取被控制终端根据所述语音信号所对应的控制信号而执行的对应操作的过程中反馈的反馈信息。
7.一种用于控制终端的信息处理系统,包括:
第一获取模块,用于获取用户输入的语音信号;
第二获取模块,用于获取调整信息,其中,所述调整信息包括根据所述语音信号确定的用于描述所述用户的特征属性的特征信息和/或所述被控制终端根据所述语音信号所对应的控制信号而执行的对应操作的过程中反馈的反馈信息;
调整模块,根据所述调整信息对所述语音信号所对应的控制信号进行调整;以及
输出模块,用于向所述被控制终端输出调整后的控制信号。
8.根据权利要求7所述的系统,其中,所述第二获取模块包括:
提取单元,用于从所述语音信号中提取对应的语音特征参数;
分类单元,用于将所述语音特征参数输入预设分类器以对所述用户的特征属性进行分类;以及
确定单元,用于根据所述用户的特征属性的分类结果确定用于描述所述用户的特征属性的特征信息。
9.根据权利要求8所述的系统,其中,所述分类单元包括:
第一处理子单元,用于在所述用户的特征属性包括所述用户的年龄信息和/或性别信息的情况下,对输入所述预设分类器中的所述语音特征参数进行后验概率统计;
第一确定子单元,用于根据后验概率统计结果确定所述语音特征参数对应的所述年龄信息和/或所述性别信息;以及
第一分类子单元,用于基于确定出的所述年龄信息和/或所述性别信息对所述用户的特征属性进行分类。
10.根据权利要求8所述的系统,其中,所述分类单元包括:
第二处理子单元,用于在所述用户的特征属性至少包括用于描述所述用户与所述控制终端的所属关系的身份信息的情况下,计算输入所述预设分类器中的所述语音特征参数与预先存储在所述预设分类器中的语音特征参数的相似度;
第二确定子单元,用于根据所述相似度计算结果,确定所述用户的身份信息;以及
第二分类子单元,用于基于所述用户的身份信息对所述用户的特征属性进行分类。
11.根据权利要求7所述的系统,其中,所述系统还包括:
处理模块,用于对所述用户输入所述控制终端的所述语音信号进行自然语言处理,以得到对应的语义信息,其中,所述语义信息用于确定所述被控制终端根据所述语音信号所对应的控制信号需要执行的操作。
12.根据权利要求7所述的系统,其中,第二获取模块还用于:
获取被控制终端根据所述语音信号所对应的控制信号而执行的对应操作的过程中反馈的反馈信息。
13.一种非易失性存储介质,存储有计算机可执行指令,所述指令在被处理器执行时用于实现权利要求1至6中任一项所述的用于控制终端的信息处理方法。
14.一种计算机系统,包括:
存储器,用于存储计算机可执行指令;以及
处理器,用于执行所述指令以实现权利要求1至6中任一项所述的用于控制终端的信息处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710679858.9A CN107274900B (zh) | 2017-08-10 | 2017-08-10 | 用于控制终端的信息处理方法及其系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710679858.9A CN107274900B (zh) | 2017-08-10 | 2017-08-10 | 用于控制终端的信息处理方法及其系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107274900A true CN107274900A (zh) | 2017-10-20 |
CN107274900B CN107274900B (zh) | 2020-09-18 |
Family
ID=60076914
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710679858.9A Active CN107274900B (zh) | 2017-08-10 | 2017-08-10 | 用于控制终端的信息处理方法及其系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107274900B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108897250A (zh) * | 2018-06-25 | 2018-11-27 | 广州市锐尚展柜制作有限公司 | 一种基于人体通信的智能家居交互系统 |
CN109032356A (zh) * | 2018-07-27 | 2018-12-18 | 深圳绿米联创科技有限公司 | 手语控制方法、装置及系统 |
CN110570850A (zh) * | 2019-07-30 | 2019-12-13 | 珠海格力电器股份有限公司 | 语音控制方法、装置、计算机设备和存储介质 |
CN111312280A (zh) * | 2020-01-16 | 2020-06-19 | 北京百度网讯科技有限公司 | 用于控制语音的方法和装置 |
CN111696533A (zh) * | 2020-06-28 | 2020-09-22 | 中国银行股份有限公司 | 网点机器人自调节方法及装置 |
WO2021232798A1 (zh) * | 2020-05-18 | 2021-11-25 | 珠海格力电器股份有限公司 | 一种智能家居设备的控制方法、装置、设备及介质 |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050216264A1 (en) * | 2002-06-21 | 2005-09-29 | Attwater David J | Speech dialogue systems with repair facility |
CN102339606A (zh) * | 2011-05-17 | 2012-02-01 | 首都医科大学宣武医院 | 一种抑郁情绪电话自动语音识别筛查系统 |
CN102880649A (zh) * | 2012-08-27 | 2013-01-16 | 北京搜狗信息服务有限公司 | 一种个性化信息处理方法和系统 |
CN103187058A (zh) * | 2011-12-28 | 2013-07-03 | 上海博泰悦臻电子设备制造有限公司 | 车内语音对话系统 |
CN103310788A (zh) * | 2013-05-23 | 2013-09-18 | 北京云知声信息技术有限公司 | 一种语音信息识别方法及系统 |
CN103730116A (zh) * | 2014-01-07 | 2014-04-16 | 苏州思必驰信息科技有限公司 | 在智能手表上实现智能家居设备控制的系统及其方法 |
CN103943104A (zh) * | 2014-04-15 | 2014-07-23 | 海信集团有限公司 | 一种语音信息识别的方法及终端设备 |
CN104700843A (zh) * | 2015-02-05 | 2015-06-10 | 海信集团有限公司 | 一种年龄识别的方法及装置 |
CN105444332A (zh) * | 2014-08-19 | 2016-03-30 | 青岛海尔智能家电科技有限公司 | 一种设备语音控制方法和装置 |
CN105654950A (zh) * | 2016-01-28 | 2016-06-08 | 百度在线网络技术(北京)有限公司 | 自适应语音反馈方法和装置 |
CN106128467A (zh) * | 2016-06-06 | 2016-11-16 | 北京云知声信息技术有限公司 | 语音处理方法及装置 |
CN106228978A (zh) * | 2016-08-04 | 2016-12-14 | 成都佳荣科技有限公司 | 一种语音识别方法 |
CN106782544A (zh) * | 2017-03-29 | 2017-05-31 | 联想(北京)有限公司 | 语音交互设备及其输出方法 |
-
2017
- 2017-08-10 CN CN201710679858.9A patent/CN107274900B/zh active Active
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050216264A1 (en) * | 2002-06-21 | 2005-09-29 | Attwater David J | Speech dialogue systems with repair facility |
CN102339606A (zh) * | 2011-05-17 | 2012-02-01 | 首都医科大学宣武医院 | 一种抑郁情绪电话自动语音识别筛查系统 |
CN103187058A (zh) * | 2011-12-28 | 2013-07-03 | 上海博泰悦臻电子设备制造有限公司 | 车内语音对话系统 |
CN102880649A (zh) * | 2012-08-27 | 2013-01-16 | 北京搜狗信息服务有限公司 | 一种个性化信息处理方法和系统 |
CN103310788A (zh) * | 2013-05-23 | 2013-09-18 | 北京云知声信息技术有限公司 | 一种语音信息识别方法及系统 |
CN103730116A (zh) * | 2014-01-07 | 2014-04-16 | 苏州思必驰信息科技有限公司 | 在智能手表上实现智能家居设备控制的系统及其方法 |
CN103943104A (zh) * | 2014-04-15 | 2014-07-23 | 海信集团有限公司 | 一种语音信息识别的方法及终端设备 |
CN105444332A (zh) * | 2014-08-19 | 2016-03-30 | 青岛海尔智能家电科技有限公司 | 一种设备语音控制方法和装置 |
CN104700843A (zh) * | 2015-02-05 | 2015-06-10 | 海信集团有限公司 | 一种年龄识别的方法及装置 |
CN105654950A (zh) * | 2016-01-28 | 2016-06-08 | 百度在线网络技术(北京)有限公司 | 自适应语音反馈方法和装置 |
CN106128467A (zh) * | 2016-06-06 | 2016-11-16 | 北京云知声信息技术有限公司 | 语音处理方法及装置 |
CN106228978A (zh) * | 2016-08-04 | 2016-12-14 | 成都佳荣科技有限公司 | 一种语音识别方法 |
CN106782544A (zh) * | 2017-03-29 | 2017-05-31 | 联想(北京)有限公司 | 语音交互设备及其输出方法 |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108897250A (zh) * | 2018-06-25 | 2018-11-27 | 广州市锐尚展柜制作有限公司 | 一种基于人体通信的智能家居交互系统 |
CN109032356A (zh) * | 2018-07-27 | 2018-12-18 | 深圳绿米联创科技有限公司 | 手语控制方法、装置及系统 |
CN110570850A (zh) * | 2019-07-30 | 2019-12-13 | 珠海格力电器股份有限公司 | 语音控制方法、装置、计算机设备和存储介质 |
CN111312280A (zh) * | 2020-01-16 | 2020-06-19 | 北京百度网讯科技有限公司 | 用于控制语音的方法和装置 |
CN111312280B (zh) * | 2020-01-16 | 2023-11-07 | 北京百度网讯科技有限公司 | 用于控制语音的方法和装置 |
WO2021232798A1 (zh) * | 2020-05-18 | 2021-11-25 | 珠海格力电器股份有限公司 | 一种智能家居设备的控制方法、装置、设备及介质 |
CN111696533A (zh) * | 2020-06-28 | 2020-09-22 | 中国银行股份有限公司 | 网点机器人自调节方法及装置 |
CN111696533B (zh) * | 2020-06-28 | 2023-02-21 | 中国银行股份有限公司 | 网点机器人自调节方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN107274900B (zh) | 2020-09-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107274900A (zh) | 用于控制终端的信息处理方法及其系统 | |
CN107492379B (zh) | 一种声纹创建与注册方法及装置 | |
WO2021174757A1 (zh) | 语音情绪识别方法、装置、电子设备及计算机可读存储介质 | |
CN109036384B (zh) | 语音识别方法和装置 | |
CN108962255B (zh) | 语音会话的情绪识别方法、装置、服务器和存储介质 | |
CN103971680B (zh) | 一种语音识别的方法、装置 | |
WO2021128741A1 (zh) | 语音情绪波动分析方法、装置、计算机设备及存储介质 | |
CN107767869A (zh) | 用于提供语音服务的方法和装置 | |
CN103280216B (zh) | 改进依赖上下文的语音识别器对环境变化的鲁棒性 | |
CN110838286A (zh) | 一种模型训练的方法、语种识别的方法、装置及设备 | |
CN107679039A (zh) | 用于确定语句意图的方法和装置 | |
CN107886957A (zh) | 一种结合声纹识别的语音唤醒方法及装置 | |
CN107506434A (zh) | 基于人工智能分类语音输入文本的方法和装置 | |
CN113066499B (zh) | 一种陆空通话说话人身份识别方法及装置 | |
CN108229485A (zh) | 用于测试用户界面的方法和装置 | |
CN110444229A (zh) | 基于语音识别的通信服务方法、装置、计算机设备及存储介质 | |
CN109308901A (zh) | 歌唱者识别方法和装置 | |
CN108764114B (zh) | 一种信号识别方法及其设备、存储介质、终端 | |
CN113450759A (zh) | 语音生成方法、装置、电子设备以及存储介质 | |
CN113555032B (zh) | 多说话人场景识别及网络训练方法、装置 | |
CN108172219A (zh) | 识别语音的方法和装置 | |
CN113223560A (zh) | 情绪识别方法、装置、设备及存储介质 | |
CN112840313A (zh) | 电子设备及其控制方法 | |
KR20210078133A (ko) | 간투어 검출 모델을 훈련시키기 위한 훈련 데이터 생성 방법 및 장치 | |
CN108877803A (zh) | 用于呈现信息的方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20190314 Address after: 100086 8th Floor, 76 Zhichun Road, Haidian District, Beijing Applicant after: Beijing Jingdong Shangke Information Technology Co., Ltd. Applicant after: Iflytek Co., Ltd. Address before: Room C-301, 3rd floor, No. 2 Building, 20 Suzhou Street, Haidian District, Beijing 100080 Applicant before: BEIJING LINGLONG TECHNOLOGY CO., LTD. |
|
GR01 | Patent grant | ||
GR01 | Patent grant |