CN108984146A - 应用程序的语音控制方法、智能终端及计算机可读存储介质 - Google Patents

应用程序的语音控制方法、智能终端及计算机可读存储介质 Download PDF

Info

Publication number
CN108984146A
CN108984146A CN201810608714.9A CN201810608714A CN108984146A CN 108984146 A CN108984146 A CN 108984146A CN 201810608714 A CN201810608714 A CN 201810608714A CN 108984146 A CN108984146 A CN 108984146A
Authority
CN
China
Prior art keywords
application program
intelligent terminal
voice
program
sound control
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810608714.9A
Other languages
English (en)
Other versions
CN108984146B (zh
Inventor
徐晖
郑斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanchang Black Shark Technology Co Ltd
Original Assignee
Nanchang Black Shark Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanchang Black Shark Technology Co Ltd filed Critical Nanchang Black Shark Technology Co Ltd
Priority to CN201810608714.9A priority Critical patent/CN108984146B/zh
Publication of CN108984146A publication Critical patent/CN108984146A/zh
Application granted granted Critical
Publication of CN108984146B publication Critical patent/CN108984146B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/162Interface to dedicated audio devices, e.g. audio drivers, interface to CODECs
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • User Interface Of Digital Computer (AREA)
  • Stored Programmes (AREA)

Abstract

本发明提供了一种应用程序的语音控制方法、智能终端及计算机可读存储介质。应用程序的语音控制方法,包括以下步骤:S100:分析运行应用程序的智能终端的显示界面;S200:识别显示界面内的程序内容;S300:基于程序内容构建内容模型,并根据内容模型确定程序内容内的操作单元;S400:应用程序采集一语音输入;S500:根据预设的调制参数,将语音输入的第二语音参数转化为操作单元的第一语音参数;S600:播放具有第一语音参数的语音输入。采用上述技术方案后,在识别用户输入的语音后,自动转化为该用户当前操作人物的语音,则面向其他用户输出时,可通过隐藏真实声音提高隐私性,并更为模拟该应用程序的游戏性,提高用户体验。

Description

应用程序的语音控制方法、智能终端及计算机可读存储介质
技术领域
本发明涉及智能控制领域,尤其涉及一种应用程序的语音控制方法、智能终端及计算机可读存储介质。
背景技术
随着智能终端的普及和安装在智能设备上的娱乐类应用程序,如游戏等的火热,人们的娱乐生活也得到了极大的丰富,越来越多的游戏内容对智能终端的配置要求越来越高,同时,用户在游戏过程中对游戏的专注度也越来越高。比如,用户在体验一些竞技类游戏时,希望利用应用程序的附加功能,更智能化与与其他用户的交互。例如,当用户运行一游戏类或娱乐类的应用时,常通过语音聊天的方式进行实时地交互,以更好地在游戏类或娱乐类的应用程序中掌握游戏或娱乐的情况。
当前通过语音的交互方式中,通常接收到用户的语音输入后,将直接转发至已获得可接受该用户的语音输入的其他用户所使用的智能终端上,其他用户可接收其语音输入的内容,但无法真正做到与应用程序的游戏或娱乐内容匹配,降低了真实感与娱乐性。
为解决上述问题,不少制作游戏类应用程序的游戏厂家会在游戏中收集很多的用户数据,并在应用程序侧进行优化,但是这些数据并不会反馈到定制智能终端的操作系统的厂家,例如ROM厂家,在更换其他没有做过优化的应用程序运行时,将无法再次得到更佳的用户体验。
因此,需要一种针对应用程序,尤其是游戏类应用程序的新型的语音控制方法,将用户的语音输入智能地变换为其当前正在操作的操作单元的语音,进一步提高娱乐社交平台上,操作此类游戏应用程序时,用户与用户间的交互性。
发明内容
为了克服上述技术缺陷,本发明的目的在于提供一种应用程序的语音控制方法、智能终端及计算机可读存储介质,在识别用户输入的语音后,自动转化为该用户当前操作人物的语音,则面向其他用户输出时,可通过隐藏真实声音提高隐私性,并更为模拟该应用程序的游戏性,提高用户体验。
本发明公开了一种应用程序的语音控制方法,包括以下步骤:
S100:分析运行所述应用程序的智能终端的显示界面;
S200:识别所述显示界面内的程序内容;
S300:基于所述程序内容构建内容模型,并根据所述内容模型确定所述程序内容内的操作单元;
S400:所述应用程序采集一语音输入;
S500:根据预设的调制参数,将所述语音输入的第二语音参数转化为所述操作单元的第一语音参数;
S600:播放具有所述第一语音参数的语音输入。
优选地,分析运行所述应用程序的智能终端的显示界面的步骤S100包括:
S110:启动安装于所述智能终端的系统服务;
S120:所述系统服务实时获取所述显示界面,并形成至少一张对应于所述显示界面的截图。
优选地,所述系统服务实时获取所述显示界面,并形成至少一张对应于所述显示界面的截图的步骤S120包括:
S121:所述系统服务调用所述智能终端的系统接口;
S122:获取所述智能终端的缓存数据,其中所述缓存数据排除隐秘信息。
优选地,识别所述显示界面内的程序内容的步骤S200包括:
S210:创建一初始模型架构;
S220:基于神经网络训练所述初始模型架构;
S230:固化所述初始模型架构,形成推演模型。
优选地,固化所述初始模型架构,形成推演模型的步骤S230后,还包括:
S240:移植所述推演模型至所述智能终端内;
S250:针对所述推演模型内的剪枝模型,适配形成输入节点和输出节点;
S260:向所述推演模型输入程序内容,形成推演结论;
S270:基于所述推演结论,缓存以转化语音输入。
优选地,基于神经网络训练所述初始模型架构的步骤S220包括:
S221:获取外部数据增加训练样本;
S222:调用所述智能终端的GPU集群对所述初始模型架构调参中的一种
优选地,所述外部数据包括:
所述显示界面的当前运行场景、与所述应用程序对应的视频数据、与所述应用程序对应的截图中的一种或多种。
优选地,根据预设的调制参数,将所述语音输入的第二语音参数转化为所述操作单元的第二语音参数的步骤S500包括:
S510:获取所述应用程序内所有操作单元;
S520:分析所有所述操作单元的语音输出,以形成每一所述操作单元的第一语音参数;
S530:建立关于操作单元与第一语音参数的对应关系的所述预设的调制参数;
S540:接收所述语音输入,分析所述语音输入的第二语音参数;
S550:基于所述预设的调制参数,修改所述语音输入的第二语音参数为第一语音参数。
本发明还公开了一种智能终端,所述智能终端包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上所述的语音控制方法。
本发明又公开了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的语音控制方法。
采用了上述技术方案后,与现有技术相比,具有以下有益效果:
1.具有上述配置后,对于定制了运行应用程序的智能终端的操作系统的ROM厂家来说,不需要额外去请求该应用程序的制作厂家定制软件后门,用来将操作系统内的配置通过软件后门植入到应用程序内,减少了外部耦合的软件成本。同时,对于应用程序的制作厂家来说,也不需要去为安装在不同智能终端上的不同操作系统额外增加软件维护成本。
2.针对应用程序内,尤其是游戏类应用程序内不同的游戏场景、游戏人物、用户配置,ROM厂家可以通过长久的训练更为强大的网络来覆盖多个样本,达到一个模型兼容多个游戏的目的。
3.向用户提供了更丰富的游戏体验,极大增强了游戏(软件)特性与ROM(硬件)特性的结合性;
4.用户与用户间的交互更为贴合应用程序内的模拟环境,提高用户使用应用程序时的体验,增加用户对应用程序及具有上述配置的智能终端的粘性。
附图说明
图1为符合本发明一优选实施例中应用程序的语音控制方法的流程示意图;
图2为符合本发明一优选实施例中应用程序的语音控制方法内步骤S100的流程示意图;
图3为符合本发明一优选实施例中应用程序的语音控制方法内步骤S120的流程示意图;
图4为符合本发明一优选实施例中应用程序的语音控制方法内步骤S200的流程示意图;
图5为符合本发明又一优选实施例中应用程序的语音控制方法内步骤S200的流程示意图;
图6为符合本发明又一优选实施例中应用程序的语音控制方法内步骤S500的流程示意图。
具体实施方式
以下结合附图与具体实施例进一步阐述本发明的优点。
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
在本公开使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本公开。在本公开和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本公开可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本公开范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”
在本发明的描述中,需要理解的是,术语“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
在本发明的描述中,除非另有规定和限定,需要说明的是,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是机械连接或电连接,也可以是两个元件内部的连通,可以是直接相连,也可以通过中间媒介间接相连,对于本领域的普通技术人员而言,可以根据具体情况理解上述术语的具体含义。
在后续的描述中,使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本发明的说明,其本身并没有特定的意义。因此,“模块”与“部件”可以混合地使用。
为实现在智能终端侧(硬件)上与应用程序(软件)上的无门槛适配及对用户输入语音灵活变换的要求,参阅图1,本发明中应用程序的语音控制方法,包括以下步骤:
-S100:分析运行所述应用程序的智能终端的显示界面
首先,需要对智能终端当前运行的应用程序进行分析,以了解用户当前使用智能终端的目的。例如,用户可能前台运行有社交类的应用程序进行聊天、可能前台运行有娱乐类的应用程序进行流媒体播放、可能分屏使用智能终端,如一屏显示社交类应用程序,一屏显示游戏类应用程序等。无论是上述何种情况,只要用户对智能终端操作,使得智能终端处于轻度使用或重度使用的状态下,均将获取智能终端当前运行的应用程序。获取的方式可以是向智能终端的应用程序列表发送请求,以获取运行的应用程序,或是调用智能终端的后台等。
在获取了智能终端当前前台或后台运行的程序后,也即了解用户对智能终端“正做事”后,进一步地,将分析所运行的应用程序的显示界面,即用户对智能终端的使用状态下,正利用智能终端“做何事”。例如,当用户使用智能终端内安装的社交类应用程序时,根据聊天界面的通常构造、交互界面的规律性(如左右对话框等特点),可判断用户在使用该应用程序进行聊天,再例如当用户使用智能终端内安装的娱乐类应用程序播放流媒体时,将根据如网址、标题、显示流媒体的内容等判断所播放的流媒体的具体内容。又或是当用户使用智能终端内安装的游戏类应用程序进行游戏时,可根据用户启动的游戏类应用程序名称、画面特点、技能释放规律等,判断用户所运行的是何种游戏类应用程序。
-S200:识别所述显示界面内的程序内容
在分析完智能终端的显示界面内的程序内容后,将识别显示界面内的程序内容。如当用户使用对智能终端内安装的社交类应用程序时,将识别用户在该社交类应用程序内的操作,聊天界面内的聊天内容是否特别,不同于平时一般的聊天内容,如“恭喜”、“祝贺”等祝福类话语,如“加油”、“努力”等激励类话语。识别的方式可以通过OCR识别,或是图文分析来识别上述情形的出现。再如当用户使用智能终端内安装的娱乐类应用程序时,将识别用户目前观看的流媒体内的具体内容,如视频内是否有胜利的场景、激动人心的时刻等。识别的方式可以通过图像识别,或是在确定了用户观看的流媒体的名称后,根据其他用户已预先配置的在流媒体的某些时刻将出现上述场景,进行智能识别。又或是当用户使用智能终端内安装的游戏类应用程序时,将识别用户目前运行的游戏类应用程序内的具体内容,如游戏内是否有释放技能的场景、游戏内是否有胜利的场景、游戏内是否有人物出现的场景(如选择人物、操纵人物)等。识别的方式可以是通过图像识别、或是获取显示界面内出现上述场景时,尤为特殊的颜色、形状、声音等特征。以上识别的特征结果将作为识别的程序内容。
可以理解的是,需要识别的程序内容并不局限于当前时刻下出现在显示界面内的程序内容,也可包括在应用程序的启动过程中曾经出现过的程序内容、启动过程中在文字上提及过的程序内容、应用程序在未来运行过程中可能出现的程序内容(如云端获取其他智能终端在运行应用程序时,出现过的但还未在本用户运行应用程序时出现过的程序内容)等。
-S300:基于程序内容构建内容模型,并根据所述内容模型确定所述程序内容内的操作单元
鉴于应用程序所显示的程序内容的复杂性及持续性,为提高识别程序内容的,将根据程序内容构建一内容模型,作为训练的基础,当数据样本增加时,也将对内容模型更新。
在确定完成内容模型后,将基于神经网络模型训练的方式,确定程序内容内的操作单元的具体名称和具体指向。如,在内容模型的基础上,提取各内容模型的特征,例如衣物、外表、形态、标志性动作、姓名或名称等,通过上述特征,确定用户当前使用应用程序时,所操作的人物是该应用程序中的哪个人物。确定的方式,可以是拿取上述特征与云端服务器或本地缓存数据内,已预先存储的该应用程序的所有操作单元的特征进行比对,比对时可根据模型的比对精确度依此确定比对优先级,如按照从姓名、衣物、外表的顺序进行比对,以确定用户当前所操作的操作单元为何。
当应用程序更新,增加、修改或删除人物、人物的衣物、外表、姓名时,也将一并更新作为比对对象的存储在云端服务器或本地缓存的数据库,以提高比对结果的准确度。
-S400:应用程序采集一语音输入
用户在使用应用程序时,尤其是游戏类和娱乐类的应用程序,常通过语音聊天的方式,向其他共同参与的用户告知自身情况、下发指令、社交互动等。而为启动语音聊天的功能,应用程序将首先获取安装有该应用程序的智能终端的麦克风的调用权限,后用户向智能终端发出语音,由应用程序通过麦克风采集上述语音,采集时,需注意将应用程序前台运行在智能终端,或部分前台运行在智能终端(如浮窗、分屏等应用程序的部分显示界面或缩略界面前台显示),以使智能终端获知采集到的语音供该应用程序使用。
-S500:根据预设的调制参数,将所述语音输入的第二语音参数转化为
所述操作单元的第一语音参数
获取到用户当前输入的语音输入后,由于该语音输入的形成者为用户,因此,代表该语音输入的形成者为用户的语音输入的第二语音参数反映了用户发出声音的特征,如音色、音调、响度等,现有技术中其他用户所接收到的指向该用户的语音输出,也为符合第二语音参数的、代表该用户的语音。而本实施例中,在向其他用户输出某一用户的语音输入时,将进行语音信号的调制。具体地,在智能终端内预设有调制参数(如可在智能终端安装的操作系统的框架层预先配置),并在接收到语音输入后,将语音输入的音色、音调、响度等第二语音参数进行修改,修改依据参照调制参数,最终修改至符合操作单元的第一语音参数。也就是说,对用户的语音输入的参数调整并非模式化、固定化或随机化,而是需要依托于前序步骤中对用户当前使用应用程序操作的操作单元的对象判定,如用户使用名为“王者荣耀”的应用程序,操作名为“赵云”的操作单元,在确定上述事实后,根据预设的调制参数内预先设定的该名为“赵云”角色被激活时通常向用户播放声音的声音特质所形成的该操作单元的第一语音参数,对应修改用户的语音输入的第二语音参数。无论用户的性别、年龄、语言如何,在不同用户发生具有不同语音内容的语音输入后,都将转换为符合“赵云”这一操作单元作出的语音输出的语音内容。
-S600:播放具有所述第一语音参数的语音输入
转换完毕后,应用程序的服务器将接收该用户的上述语音输入,此时语音输入所具有的声音要素满足第一语音参数,服务器转发语音输入至与该用户处于同一平台、同一场景等的其他用户,在播放上述语音输入时,其他用户所接收的语音输出为具有用户的语音输入的语音内容,同时满足具有操作单元的第一语音参数的播放效果。也就是说,其他用户所收听到的内容在整个接收、转发、输出的过程中未发生变化,而是用户对语音输出的辨识,由于语音参数的替换,判定为该应用程序内的操作单元所发出的语音。举例来说,用户操作“赵云”的操作单元,希望在应用程序中鼓励处于同一场景、同一阵营的其他用户,在开启语音功能后,向智能终端发出“大家加油”的语音输入,该用户的语音输入的第二语音参数将被转化为“赵云”这一操作单元具有的第一语音参数。当其他用户接受该语音输入对应的语音输出是,所接收到的语音内容为“大家加油”,而通过声音的辨识及对应用程序的了解,同时可以获知到发生该语音的为“赵云”这一操作单元。
可以理解的是,播放具有第一语音参数的语音输入的对象并不局限于除发出语音输入外的其他用户,该用户也可接收。具体地,部分应用程序配置为对用户发出的声音提供“耳返”功能,即可接收到自身的语音输入,确认发出语音内容的准确性,或是向用户反馈如歌唱声音的准确性。在上述情况下,返回至用户的语音输出同样满足具有第一语音参数的语音输入,即该用户所收听到的为其正在操作的操作单元所发出的与前一刻自身所发出的同一语音内容的语音输出。
通过上述配置,一方面其他用户接收到应用程序中的语音交互时,辨识到发出语音的对象为应用程序内的操作对象,而非实际操作操作对象的用户,更具有身临其境感,自然极大地提高了用户使用应用程序的体验;另一方面对于发出语音输入的用户而言,可保护自身语音特征的隐私性,防止其他用户盗用、滥用自身的语音特征进行违规违法的操作。
参阅图2,在一优选实施例中,分析运行应用程序的智能终端的显示界面的步骤S100,具体由以下步骤完成:
-S110:启动安装于智能终端的系统服务;
以安装有安卓系统的智能终端为例,基于安卓系统的android service架构,在智能终端开机启动时将启动一个系统服务,该系统服务会实时抓取屏幕的截图。
-S120:系统服务实时获取显示界面,并形成至少一张对应于显示界面的截图
启动的该系统服务将通过抓取截图的方式获取智能终端的当前显示界面,也就是说,通过对实时获取智能终端的显示界面,以形成至少一张对应于显示界面的截图。根据获取的频率决定截图的数量。
参阅图3,一优选实施例中,获取显示界面的步骤S120具体包括:
S121:所述系统服务调用所述智能终端的系统接口
首先,随开机启动的系统服务将获取系统权限,以对操作系统的底层修改和控制。
S122:获取所述智能终端的缓存数据
获取到系统权限后,系统服务调用系统接口API,以获取操作系统的当前缓存数据,即framebuffer数据。在智能终端的缓存器内,具有智能终端的显示界面的各个时段下的显示内容,对缓存器的截图,可获取整个显示界面。为减少延迟,获取缓存数据的操作是一个同步操作,也就是说,任意时刻时显示界面显示的内容,缓存在缓存器内作为缓存数据时,将无延迟地获取,形成截图。
优选地,可以理解的是,为保持该系统服务无中断使用,其具有自启和自保护的性质。此外,为保护用户的某些隐秘数据,在截取受保护的界面secure surface时,配置为无法完成抓取。具体地,该系统服务运行在智能终端的操作系统的ree os中,因此无法获取安装在操作系统的tee os的首先信息,例如,某些在线付款的支付界面,其包括了用户的密码等隐秘信息的界面,其应用程序本身会配置为secure surface,因此,便无法获取,也就是说,在缓存数据内将排除用户不愿意公开的隐秘信息。
参阅图4,在另一优选实施例中,识别程序内容的步骤S200将基于神经网络执行,具体地,该步骤包括:
-S210:创建一初始模型架构
在不断地获取到程序内容后,基于mobilenet,alexnet,inception架构,使用tensorflow框架创建出初始模型架构,以分析用户的使用习惯以及应用程序的交互习惯。初始模型架构的创建可以根据已经公开的论文数据,进行模型架构设计,或是针对特定的数据集进行适当修改,如增加/减少感知层,卷基层,调整遗忘率等,以形成最为符合用户使用习惯的初始模型架构。
-S220:基于神经网络训练初始模型架构
根据神经网络的训练原则,对于外部获得的各类数据,对初始模型架构进行训练,通过不断的演算、模拟和训练后,获得更为符合应用程序交互习惯的初始模型架构。上述外部数据的获取包括但不局限于:显示界面的当前运行场景、与应用程序对应的视频数据、与应用程序对应的截图等。
此外,基于神经网络训练所述初始模型架构的步骤S220包括:
S221:获取外部数据增加训练样本及S222:调用所述智能终端的GPU集群对所述初始模型架构调参中的一种。根据外部数据所增加的训练样本,在训练时会运用智能终端的GPU集群,在服务器端进行部署,需要根据特定模型和特定数据集进行调参。
-S230:固化初始模型架构,形成推演模型
训练完成的初始模型架构,将后续进行固话。具体地,可使用tensorflow框架对模型进行固化,在对初始模型架构的固化过程中,针对智能终端支持的操作符,会进行适当裁剪(“剪枝”)操作。所谓剪枝就是通过某种判断,避免一些不必要的遍历过程,就是剪去搜索树中的某些枝条。其具有的原则:
(1)正确性
必须保证不能丢失正确的解,这是前提。通过解答必须具备的特征,必须满足的条件来考察待判断的枝条能否被剪掉。
(2)准确性
即能够尽可能多的剪去不能得到正确解的枝条。
(3)高效性
设计好剪枝判断方法后,对每一根枝条都执行一次判断。要尽量减少剪枝判断的副作用。
执行时,可根据可行性剪枝、最优性剪枝(上下界剪枝)的方式,采用:
极端法:通过对当前节点进行理想式扩展,通过否定这样的情况来避免对当前的节点扩展;
调整法:基本思想通过对子树的比较剪掉重复子树和明显不是最有前途的子树;
数学方法:利用专门剪枝知识,借助数学模型等来优化模型架构,最终形成推演模型。
参阅图5,进一步实施例中,形成推演模型后,还将执行以下步骤:
-S240:移植推演模型至智能终端内
形成推演模型后,移植tensorflow lite版到智能终端上。
TensorFlow作为标准的训练框架。由于人工智能和物联网领域融合所面临的主要挑战,例如,目前有很大的机器人公司都希望机器人作为智能的载体为人类提供服务,需要机器人能听、说、读、写,这些背后的功能就是深度学习的识别模型。在将这些人工智能模型服务化的过程中会面临以下一些挑战:
1.如果模型文件太大,比如机器人的图像识别、语音识别模型通常都达到几百兆,这些模型文件如果特别大,当模型非常多的时候,很难在终端部署。
2.很多机器人的功能需要调用云端服务,那么一旦断网,这些服务就会中断。
3.目前机器人所有模型训练工作全在云端完成,需要数据上传,这就会产生安全风险。
4.数据在云端训练很难实时同步到终端。
那么通过TensorFlow Lite和智能终端的操作系统内的安卓模型的结合将有效解决以上问题,首先TensorFlow Lite可以大大压缩模型大小,适配终端;另外,TensorFlowLite完全可以将模型的serving本地部署,并且提升效率,解决了断网情况造成的影响。最后,未来随着终端硬件能力的升级,完全可以做到训练在终端本地完成,这样对于智能终端应用在无人驾驶或者机器人领域都将起到性能的大跃进。
-S250:针对推演模型内的剪枝模型,适配形成输入节点和输出节点
通过在智能终端的java/native层的对应代码,针对剪枝模型,做适当输入和输出节点的适配,以适应智能终端的安装任意版本的rom所对应的操作系统。
-S260:向推演模型输入程序内容,形成推演结论
根据系统服务获取的程序内容对应的图片信息,进行适当预处理并送入固化模型做推演。而后针对模型中的输入部分,对图片做预处理,如二值化等,以减噪。
-S270:基于推演结论,缓存以转化语音输入。
具有推演结论后,缓存在智能终端内,当后续接收到用户的语音输入时,根据操作单元对应的人物模型的调制参数,以及用户形成的语音输入的语音波形,实现完成后续步骤的语音转化。
参阅图6,为实现根据预设的调制参数,将所述语音输入的第二语音参数转化为所述操作单元的第二语音参数的步骤S500,具体通过以下步骤完成:
S510:获取所述应用程序内所有操作单元;
首先,读取已运行的、正在运行的、已安装的应用程序的列表,获取智能终端内的所有应用程序,可选地或优选地分类后,对应用程序的安装文件夹遍历以获取应用程序内可能涉及到的所有操作单元,亦或是控制智能终端连接至网络,自云端获取安装的应用程序内所涉及的所有操作单元的名称、语音特征等。
S520:分析所有所述操作单元的语音输出,以形成每一所述操作单元的第一语音参数;
对应用程序内每一个操作单元所具有的在其被操作时,向外输出的语音输出作分析,从而获得每一个操作单元的第一语音参数。具体地,通常应用程序内预置有所有具有向外发出语音输出的操作单元的语音数据,则这些操作单元被调用、启动或激活时,会向用户发出具有特征性的语音,则为获得操作单元的第一语音参数,可对这些语音数据提取后进行解析,获取语音数据的语音特征,从而形成第一语音参数。其他方式如应用程序开放操作单元的第一语音参数数据、根据操作单元实际输出的语音输出分析等皆可实施。
S530:建立关于操作单元与第一语音参数的对应关系的所述预设的调制参数;
基于第一语音参数,形成一调制参数,该调制参数可用于接收到语音输入后,对语音特征的修改标准。根据操作单元的人物模型的不同,调制参数也不相同。甚至对于同一操作单元即同一人物而言,也可根据其处于的不同状态,如变身、亢奋、衰弱、濒死等具有不同语音输出,调制参数也不尽相同。
S540:接收所述语音输入,分析所述语音输入的第二语音参数;
具有上述第一语音参数后,在接收到用户发来的语音输入时,可对其进行解析,以获取该语音输入的第二语音参数。可以理解的是,对语音输入的解析方式和对操作单元的语音输出的解析方式相同,使得第一语音参数与第二语音参数所具有的参数项相同,方便替换时对应替换。
S550:基于所述预设的调制参数,修改所述语音输入的第二语音参数为第一语音参数
最后,根据预设完成的调制参数,修改语音输入的第二语音参数为第一语音参数。修改的步骤可在智能终端的变声模块内完成,基于波形变换的原理,将用户的语音输入的波形特征变换为符合操作单元的语音输出的波性特征。
具有上述任一实施例中的语音控制方法,可应用于一智能终端内,智能终端包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,该处理器执行计算机程序时,计算机程序根据预先配置的源语言,实现上述的语音控制方法。且可以理解的是,计算机程序可集成在智能终端安装的操作系统的框架层,即无需安装第三方软件便可实现上述的语音控制方法。
在上述实施例中,即便用户使用的智能终端不同,由于语音控制方法以操作系统的底层为基础,云端处理后再植入到底层,无论是用户的智能终端侧还是应用程序侧均不需要配置额外的后门或端口,真正实现零门槛适配。
上述语音控制方法也可集成在一计算机可读存储介质内,其上存储有计算机程序,计算机程序被处理器执行时实现如上所述的语音控制方法。
上述不同实施例中,智能终端可以以各种形式来实施。例如,本发明中描述的终端可以包括诸如移动电话、智能电话、笔记本电脑、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、导航装置等等的智能终端以及诸如数字TV、台式计算机等等的固定终端。下面,假设终端是智能终端。然而,本领域技术人员将理解的是,除了特别用于移动目的的元件之外,根据本发明的实施方式的构造也能够应用于固定类型的终端。
应当注意的是,本发明的实施例有较佳的实施性,且并非对本发明作任何形式的限制,任何熟悉该领域的技术人员可能利用上述揭示的技术内容变更或修饰为等同的有效实施例,但凡未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施例所作的任何修改或等同变化及修饰,均仍属于本发明技术方案的范围内。

Claims (10)

1.一种应用程序的语音控制方法,其特征在于,包括以下步骤:
S100:分析运行所述应用程序的智能终端的显示界面;
S200:识别所述显示界面内的程序内容;
S300:基于所述程序内容构建内容模型,并根据所述内容模型确定所述程序内容内的操作单元;
S400:所述应用程序采集一语音输入;
S500:根据预设的调制参数,将所述语音输入的第二语音参数转化为所述操作单元的第一语音参数;
S600:播放具有所述第一语音参数的语音输入。
2.如权利要求1所述的语音控制方法,其特征在于,
分析运行所述应用程序的智能终端的显示界面的步骤S100包括:
S110:启动安装于所述智能终端的系统服务;
S120:所述系统服务实时获取所述显示界面,并形成至少一张对应于所述显示界面的截图。
3.如权利要求2所述的语音控制方法,其特征在于,
所述系统服务实时获取所述显示界面,并形成至少一张对应于所述显示界面的截图的步骤S120包括:
S121:所述系统服务调用所述智能终端的系统接口;
S122:获取所述智能终端的缓存数据,其中所述缓存数据排除隐秘信息。
4.如权利要求1所述的语音控制方法,其特征在于,
识别所述显示界面内的程序内容的步骤S200包括:
S210:创建一初始模型架构;
S220:基于神经网络训练所述初始模型架构;
S230:固化所述初始模型架构,形成推演模型。
5.如权利要求4所述的语音控制方法,其特征在于,
固化所述初始模型架构,形成推演模型的步骤S230后,还包括:
S240:移植所述推演模型至所述智能终端内;
S250:针对所述推演模型内的剪枝模型,适配形成输入节点和输出节点;
S260:向所述推演模型输入程序内容,形成推演结论;
S270:基于所述推演结论,缓存以转化语音输入。
6.如权利要求4所述的语音控制方法,其特征在于,
基于神经网络训练所述初始模型架构的步骤S220包括:
S221:获取外部数据增加训练样本;
S222:调用所述智能终端的GPU集群对所述初始模型架构调参中的一种。
7.如权利要求6所述的语音控制方法,其特征在于,
所述外部数据包括:
所述显示界面的当前运行场景、与所述应用程序对应的视频数据、与所述应用程序对应的截图中的一种或多种。
8.如权利要求1所述的语音控制方法,其特征在于,
根据预设的调制参数,将所述语音输入的第二语音参数转化为所述操作单元的第二语音参数的步骤S500包括:
S510:获取所述应用程序内所有操作单元;
S520:分析所有所述操作单元的语音输出,以形成每一所述操作单元的第一语音参数;
S530:建立关于操作单元与第一语音参数的对应关系的所述预设的调制参数;
S540:接收所述语音输入,分析所述语音输入的第二语音参数;
S550:基于所述预设的调制参数,修改所述语音输入的第二语音参数为第一语音参数。
9.一种智能终端,所述智能终端包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1-8任一项所述的语音控制方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-8任一项所述的语音控制方法。
CN201810608714.9A 2018-06-13 2018-06-13 应用程序的语音控制方法、智能终端及计算机可读存储介质 Active CN108984146B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810608714.9A CN108984146B (zh) 2018-06-13 2018-06-13 应用程序的语音控制方法、智能终端及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810608714.9A CN108984146B (zh) 2018-06-13 2018-06-13 应用程序的语音控制方法、智能终端及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN108984146A true CN108984146A (zh) 2018-12-11
CN108984146B CN108984146B (zh) 2021-03-30

Family

ID=64540303

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810608714.9A Active CN108984146B (zh) 2018-06-13 2018-06-13 应用程序的语音控制方法、智能终端及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN108984146B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112581957A (zh) * 2020-12-04 2021-03-30 浪潮电子信息产业股份有限公司 一种计算机语音控制方法、系统及相关装置
CN113542583A (zh) * 2021-04-07 2021-10-22 厦门市思芯微科技有限公司 基于TensorFlowLite的移动客户端智能跟随方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102479506A (zh) * 2010-11-23 2012-05-30 盛乐信息技术(上海)有限公司 用于网络游戏的语音合成系统及其实现方法
CN102527039A (zh) * 2010-12-30 2012-07-04 德信互动科技(北京)有限公司 声效控制装置及方法
US20130185080A1 (en) * 2000-03-31 2013-07-18 United Video Properties, Inc. User speech interfaces for interactive media guidance applications
CN107886344A (zh) * 2016-09-30 2018-04-06 北京金山安全软件有限公司 基于卷积神经网络的欺诈广告页面识别方法和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130185080A1 (en) * 2000-03-31 2013-07-18 United Video Properties, Inc. User speech interfaces for interactive media guidance applications
CN102479506A (zh) * 2010-11-23 2012-05-30 盛乐信息技术(上海)有限公司 用于网络游戏的语音合成系统及其实现方法
CN102527039A (zh) * 2010-12-30 2012-07-04 德信互动科技(北京)有限公司 声效控制装置及方法
CN107886344A (zh) * 2016-09-30 2018-04-06 北京金山安全软件有限公司 基于卷积神经网络的欺诈广告页面识别方法和装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112581957A (zh) * 2020-12-04 2021-03-30 浪潮电子信息产业股份有限公司 一种计算机语音控制方法、系统及相关装置
CN113542583A (zh) * 2021-04-07 2021-10-22 厦门市思芯微科技有限公司 基于TensorFlowLite的移动客户端智能跟随方法及装置

Also Published As

Publication number Publication date
CN108984146B (zh) 2021-03-30

Similar Documents

Publication Publication Date Title
US20220366281A1 (en) Modeling characters that interact with users as part of a character-as-a-service implementation
US20240054117A1 (en) Artificial intelligence platform with improved conversational ability and personality development
CN106021463B (zh) 基于人工智能提供智能服务的方法、智能服务系统及智能终端
US10534623B2 (en) Systems and methods for providing a virtual assistant
US9479931B2 (en) Systems and methods for providing a virtual assistant
US9571645B2 (en) Systems and methods for providing a virtual assistant
US20150169284A1 (en) Systems and methods for providing a virtual assistant
CN109189980A (zh) 与用户进行语音交互的方法和电子设备
US20050125232A1 (en) Automated speech-enabled application creation method and apparatus
CN110400251A (zh) 视频处理方法、装置、终端设备及存储介质
US20120317492A1 (en) Providing Interactive and Personalized Multimedia Content from Remote Servers
CN109637548A (zh) 基于声纹识别的语音交互方法及装置
US11367447B2 (en) System and method for digital content development using a natural language interface
EP3063646A1 (en) Systems and methods for providing a virtual assistant
CN104994921A (zh) 用于分布式故事阅读的视觉内容修改
US20140028780A1 (en) Producing content to provide a conversational video experience
CN108803993A (zh) 应用程序的交互方法、智能终端及计算机可读存储介质
CN107733722A (zh) 用于配置语音服务的方法和装置
CN108648754B (zh) 语音控制方法及装置
CN107480766A (zh) 多模态虚拟机器人的内容生成的方法和系统
KR102367143B1 (ko) 얼굴 표정들에 기초한 음성 효과들
CN112185362A (zh) 针对用户个性化服务的语音处理方法及装置
CN108984146A (zh) 应用程序的语音控制方法、智能终端及计算机可读存储介质
CN113033245A (zh) 一种功能调节方法、装置、存储介质及电子设备
CN108595217A (zh) 应用程序的内容推送方法、内容推送系统及智能终端

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant