CN112397060B - 一种语音指令处理方法、系统、设备及介质 - Google Patents

一种语音指令处理方法、系统、设备及介质 Download PDF

Info

Publication number
CN112397060B
CN112397060B CN201910706920.8A CN201910706920A CN112397060B CN 112397060 B CN112397060 B CN 112397060B CN 201910706920 A CN201910706920 A CN 201910706920A CN 112397060 B CN112397060 B CN 112397060B
Authority
CN
China
Prior art keywords
voice command
user voice
file
user
completely matched
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910706920.8A
Other languages
English (en)
Other versions
CN112397060A (zh
Inventor
陈孝良
曲季
李智勇
常乐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing SoundAI Technology Co Ltd
Original Assignee
Beijing SoundAI Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing SoundAI Technology Co Ltd filed Critical Beijing SoundAI Technology Co Ltd
Priority to CN201910706920.8A priority Critical patent/CN112397060B/zh
Publication of CN112397060A publication Critical patent/CN112397060A/zh
Application granted granted Critical
Publication of CN112397060B publication Critical patent/CN112397060B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/65Clustering; Classification
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

一种语音指令处理方法、系统、设备及介质,应用于终端技术领域,方法包括:获取用户语音指令;判断当前是否处于工作状态;当处于工作状态时,根据用户语音指令的播放意图,对用户语音指令进行分类处理。通过在工作状态根据用户语音指令的播放意图对用户语音指令进行分类处理,能够提高设备处于工作状态时响应用户语音指令的智能程度,避免在工作状态错误执行文件而影响用户的体验效果,以及避免不执行文件而影响设备的智能程度。

Description

一种语音指令处理方法、系统、设备及介质
技术领域
本公开涉及终端技术领域,具体地,涉及一种语音指令处理方法、系统、设备及介质。
背景技术
在智能音箱使用中,为了保证智能音箱的准确度以体现其智能化,当用户发出指令后,对于自然语言处理(Natural Language Processing,NLP)无法理解的部分,通常会优先采用过滤纠错,即利用模糊匹配的方式去将用户指令匹配至媒资库中的内容。由于媒资库中保存着大量各式各样名称的资源,因此,现有技术往往会为NLP无法理解的指令匹配一错误的资源名称,从而造成很高的错误匹配率。若智能音箱处于待机状态,错误匹配相当于为用户推荐播放一个错误匹配名称的音视频;若智能音箱处于正常工作状态,即播放音视频的状态,错误匹配就会使得智能音箱忽然播放其它音视频,对于一些没有历史记录的资源,切换后无法再续播,降低了用户体验。
现有技术中,对于自然语言处理(Natural Language Processing,NLP)无法理解的指令,还通常不采用纠错处理,即仅处理正确指令,此时会有大量指令由于用户口误而无法理解,使得该口误指令被忽略掉,降低了音箱的智能化。
发明内容
本公开的主要目的在于提供一种语音指令处理方法、系统、设备及介质,以解决现有技术中,当接收到无法理解的用户语音指令时,错误执行文件而影响用户的体验效果,或者不执行文件而影响设备的智能程度的问题。
本公开实施例第一方面提供了一种语音指令处理方法,包括:获取用户语音指令;判断当前是否处于工作状态;当处于工作状态时,根据所述用户语音指令的播放意图,对所述用户语音指令进行分类处理。
可选地,所述方法还包括:当处于待机状态时,对所述用户语音指令进行模糊匹配。
可选地,所述根据所述用户语音指令的播放意图,对所述用户语音指令进行分类处理包括:判断所述用户语音指令中是否包含所述播放意图,若包含,对所述用户语音指令进行模糊匹配,若不包含,对所述用户语音指令进行精确匹配。
可选地,所述对所述用户语音指令进行模糊匹配包括:获取多个文件;计算所述用户语音指令与所述多个文件中每一文件之间的匹配度,以得到所述多个文件中与所述用户语音指令匹配度最高的文件;所述方法还包括:执行所述匹配度最高的文件。
可选地,所述对所述用户语音指令进行精确匹配包括:判断是否存在与所述用户语音指令完全匹配的文件,若存在,获取所述完全匹配的文件;所述方法还包括:若存在所述完全匹配的文件,执行所述完全匹配的文件,若不存在所述完全匹配的文件,不执行操作。
可选地,所述判断是否存在与所述用户语音指令完全匹配的文件包括:判断当前使用的媒资库中是否包含与所述用户语音指令完全匹配的文件,若包含,存在所述完全匹配的文件,若不包含:判断当前未使用的媒资库中是否包含与所述用户语音指令完全匹配的文件,若包含,存在所述完全匹配的文件,若不包含,不存在所述完全匹配的文件。
可选地,若所述当前未使用的媒资库中包含一种以上与所述用户语音指令完全匹配的文件时,所述方法还包括:查询用户的播放记录,根据所述播放记录执行其中一种完全匹配的文件,该文件对应的类型在所述播放记录中的播放比例最高。
本公开实施例第二方面提供了一种语音指令处理系统,包括:获取模块,用于获取用户语音指令;判断模块,用于判断当前是否处于工作状态;处理模块,用于当处于工作状态时,根据所述用户语音指令的播放意图,对所述用户语音指令进行分类处理。
可选地,所述处理模块还用于当处于待机状态时,对所述用户语音指令进行模糊匹配。
可选地,所述处理模块还用于判断所述用户语音指令中是否包含所述播放意图,若包含,对所述用户语音指令进行模糊匹配,若不包含,对所述用户语音指令进行精确匹配。
本公开实施例第三方面提供了一种电子设备,包括:处理器;存储器,其存储有计算机可执行程序,所述程序在被所述处理器执行时,使得所述处理器执行上述语音指令处理方法。
本公开实施例第四方面提供了一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现上述语音指令处理方法。
从上述本公开实施例可知,本公开提供的语音指令处理方法、系统、设备及介质,获取用户语音指令,判断当前是否处于工作状态,当处于工作状态时,根据用户语音指令的播放意图,对用户语音指令进行分类处理。通过在工作状态根据用户语音指令的播放意图对用户语音指令进行分类处理,能够提高设备处于工作状态时响应用户语音指令的智能程度,避免在工作状态错误执行文件而影响用户的体验效果,以及避免不执行文件而影响设备的智能程度。通过区分工作状态和待机状态,在不同状态对用户语音指令进行不同处理,还能够提高设备处于待机状态时响应用户语音指令的智能程度,避免待机状态不执行文件而影响设备的智能程度。
附图说明
为了更完整地理解本公开及其优势,现在将参考结合附图的以下描述,其中:
图1为本公开一实施例提供的语音指令处理方法的流程示意图;
图2为本公开另一实施例提供的语音指令处理方法的流程示意图;
图3为本公开又一实施例提供的语音指令处理系统的结构示意图;
图4示出了一种电子设备的硬件结构框图。
具体实施方式
为使得本公开目的、特征、优点能够更加的明显和易懂,下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本公开一部分实施例,而非全部实施例。基于本公开中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本公开保护的范围。
参阅图1,图1为本公开一实施例提供的语音指令处理方法的流程示意图,该方法可应用于根据利用语音指令进行响应的电子设备中,该电子设备例如包括:智能音箱、设置有语音助手的平板电脑(Portable Android Device,PAD)或手机等,该方法主要包括以下操作:
S101,获取用户语音指令。
用户语音指令例如为用户特意给出的语音指令“我想看盗墓笔记”、“发起弹幕”、“盗墓笔记”、“投屏”、“2倍速”、“播放发起弹幕”等,或者例如为用户无意间给出的语音指令“明天去看电影吧”。同时,本领域技术人员可以根据本实施例的描述得到其它用户语音指令的具体内容。
S102,判断当前是否处于工作状态。
工作状态是指处于执行某一文件的状态,该文件例如为音频文件、视频文件、音视频文件、txt文件等。
当执行某一文件时,当前处于工作状态,当未执行任何文件时,当前不处于工作状态。
S103,当处于工作状态时,根据用户语音指令的播放意图,对用户语音指令进行分类处理。
播放意图为用户语音指令中表示用户播放请求的内容,例如为“我想看”、“我要看”、“播放”等信息。同时,本领域技术人员可以根据本实施例的描述得到其它播放意图的具体内容。
操作S103中,根据用户语音指令是否包含播放意图,对用户语音指令进行分类处理。
分类处理例如为:用户语音指令包含播放意图时,对用户语音指令进行模糊匹配,用户语音指令不包含播放意图时,对用户语音指令进行精确匹配。
在本公开实施例中,获取用户语音指令,判断当前是否处于工作状态,当处于工作状态时,根据用户语音指令的播放意图,对用户语音指令进行分类处理,通过在工作状态根据用户语音指令的播放意图对用户语音指令进行分类处理,能够提高设备处于工作状态时响应用户语音指令的智能程度,避免在工作状态错误执行文件而影响用户的体验效果,以及避免不执行文件而影响设备的智能程度。
参阅图2,图2为本公开另一实施例提供的语音指令处理方法的流程图,主要包括以下操作:
S201,获取用户语音指令。
操作S201中,可以将用户语音指令转换为其对应的文本。例如通过语音识别处理(Automatic Speech Recognition,ASR)将该用户语音指令转换为其对应的文本信息。
语音识别处理是指将人类的语音中的词汇内容转换为计算机可读的输入,例如按键、二进制编码或者字符序列等,其目的是将音频转化为文字。
S202,判断当前是否处于工作状态。
工作状态是指手机、电脑或智能音箱等电子设备处于执行某一文件的状态。待机状态是指手机、电脑或智能音箱等电子设备处于已经开机但是不进行任何实质性工作的状态,即不对文件进行各种操作。
操作S202中,可根据是否执行有文件来判断当前处于工作状态或待机状态,当处于工作状态时,执行操作S203,当处于待机状态时,执行操作S204。
S203,当处于工作状态时,根据用户语音指令的播放意图,对用户语音指令进行分类处理。
具体地,操作S203包括:判断用户语音指令中是否包含播放意图,若包含,对用户语音指令进行模糊匹配,若不包含,对用户语音指令进行精确匹配。
操作S203中,可以对ASR处理后的用户语音指令进行自然语言处理(NaturalLanguage Processing,NLP),以判断该用户语音指令中是否包含播放意图。
自然语言处理是指使计算机能正确地理解自然语言文本所表达的意义。例如“我想看盗墓笔记”这一文本中,涉及到多个单词,自然语言处理需要界定该段文本的单词边界,得到“我”、“想看”、“盗墓笔记”这三个文本;例如对“播放发起弹幕”这一文本进行自然语言处理后得到“播放”、“发起”、“弹幕”这三个文本等,从而确定用户语音指令中是否含有“我想看”、“我要看”、“播放”等表示播放意图的指令。
进一步地,当用户语音指令中包含播放意图时,对用户语音指令进行模糊匹配包括:获取多个文件,计算用户语音指令与该多个文件中每一文件之间的匹配度,以得到该多个文件中与用户语音指令匹配度最高的文件。相应地,该语音指令处理方法还包括:执行该匹配度最高的文件。
本公开实施例中,上述多个文件是当前使用的媒资库以及当前未使用的媒资库中的所有文件。计算用户语音指令与该多个文件中每一文件之间的匹配度包括:计算用户语音指令与当前使用的媒资库以及当前未使用的媒资库中所有文件的匹配度。
媒资库是指存储着音视频资源(即文件)所有相关信息的数据库,主要存储音视频资源的标题、作者、年代、类型等相关属性信息。例如,“标题”为“盗墓笔记”、作者为“南派三叔”、年代为“2016年”、类型为“冒险”、“动作”、“悬疑”等。
当前使用的媒资库是指当前使用的应用程序(Application,app)的媒资库;当前未使用的媒资库是指当前未使用的app的媒资库。以智能音箱为例,当前正在使用“优酷”播放“天龙八部”,则“优酷”app的媒资库为当前使用的媒资库,其它app例如“爱奇艺”、“腾讯”、“喜马拉雅”、“酷狗”等的媒资库为当前未使用的媒资库。
匹配度是指文件的相关属性信息与用户语音指令之间匹配的程度,匹配度最高不一定是完全匹配。例如“我想看盗墓笔记”这一包含播放意图信息的用户语音指令,对于其“盗墓笔记”这一请求播放内容,可以在媒资库中获得与其完全匹配的视频文件“盗墓笔记”影视剧,该完全匹配的“盗墓笔记”影视剧即为匹配度最高的文件,此时跳转播放“盗墓笔记”;又例如“播放发起弹幕”这一包含播放意图信息的用户语音指令,对于其“发起弹幕”这一请求播放内容,媒资库中不存在与其完全匹配的音视频文件,但媒资库中与其匹配度最高的文件为“盗墓笔记”,此时获取到的与“播放发起弹幕”匹配度最高的文件即为“盗墓笔记”,因此也会跳转播放“盗墓笔记”。
进一步地,当用户语音指令中不包含播放意图时,对用户语音指令进行精确匹配包括:判断是否存在与用户语音指令完全匹配的文件,若存在,获取该完全匹配的文件。相应地,该语音指令处理方法还包括:若存在完全匹配的文件,执行该完全匹配的文件,若不存在完全匹配的文件,不执行操作。
本公开实施例中,判断是否存在与用户语音指令完全匹配的文件包括:判断当前使用的媒资库中是否包含与用户语音指令完全匹配的文件,若包含,存在完全匹配的文件,若不包含,判断当前未使用的媒资库中是否包含与用户语音指令完全匹配的文件,若包含,存在完全匹配的文件,若不包含,不存在完全匹配的文件。
当用户语音指令中不包含播放意图时,若当前使用的媒资库中存在与用户语音指令完全匹配的文件,直接利用当前使用的app执行该文件即可;当前使用的媒资库中不存在与用户语音指令完全匹配的文件时,才去当前未使用的媒资库中查询是否存在与用户语音指令完全匹配的文件,并在查询到完全匹配的文件后跳转至该当前未使用的媒资库对应的app执行该文件;若当前使用的媒资库和当前未使用的媒资库中都不存在与用户语音指令完全匹配的文件,不执行操作,该不执行操作仅指不执行播放该用户语音指令对应的文件的操作,但是可以执行其它提示性操作,例如直接回复“我没听清你说了什么”等,并继续保持收到用户语音指令之前的工作状态。
完全匹配是指用户语音指令与文件的某一相关属性信息相同。例如“盗墓笔记”这一不包含播放意图的用户语音指令,可以在媒资库中获得与其完全匹配的视频文件“盗墓笔记”影视剧,此时跳转播放“盗墓笔记”;例如“发起弹幕”这一不包含播放意图的用户语音指令,媒资库中不存在与其完全匹配的文件,此时不执行操作。
进一步地,若当前未使用的媒资库中包含一种以上与用户语音指令完全匹配的文件时,即多个未使用的媒资库中都包含有与用户语音指令完全匹配的文件,该语音指令处理方法还包括:查询用户的播放记录,根据播放记录执行其中一种完全匹配的文件,该文件对应的类型在播放记录中的播放比例最高。
以用户语音指令为“灌篮高手”为例,在当前未使用的媒资库中与其完全匹配的文件有漫画、电影这两种,假设用户的播放记录表明用户看漫画的比例高于看电影的比例,因此,当获取到这两种完全匹配的文件时,会跳转至漫画对应的app去执行该漫画文件。
S204,当处于待机状态时,对用户语音指令进行模糊匹配。
待机状态时,不区分用户语音指令中是否包含播放意图,无论用户语音指令中是否包含播放意图,都对用户语音指令进行模糊匹配,即获取与该用户语音指令匹配度最高的文件执行。
对用户语音指令进行模糊匹配包括:获取多个文件,计算用户语音指令与该多个文件中每一文件之间的匹配度,以得到与用户语音指令匹配度最高的文件。相应地,该语音指令处理方法还包括:执行该匹配度最高的文件。例如对于“发起弹幕”这一用户语音指令,计算得到与其匹配度最高的文件为“盗墓笔记”,则会直接播放“盗墓笔记”。
在本公开实施例中,获取用户语音指令,判断当前是否处于工作状态,当处于工作状态时,根据用户语音指令的播放意图,对用户语音指令进行分类处理,当处于待机状态时,对用户语音指令进行模糊匹配,通过在工作状态根据用户语音指令的播放意图对用户语音指令进行分类处理,能够提高设备处于工作状态时响应用户语音指令的智能程度,避免在工作状态错误执行文件而影响用户的体验效果,以及避免不执行文件而影响设备的智能程度,通过区分工作状态和待机状态,在不同状态对用户语音指令进行不同处理,还能够提高设备处于待机状态时响应用户语音指令的智能程度,避免待机状态不执行文件而影响设备的智能程度。
参阅图3,图3为本公开又一实施例提供的语音指令处理系统的结构示意图,该系统可内置于电子设备中,该系统主要包括:获取模块301、判断模块302和处理模块303。
获取模块301,用于获取用户语音指令。
用户语音指令例如为用户特意给出的语音指令“我想看盗墓笔记”、“发起弹幕”、“盗墓笔记”、“投屏”、“2倍速”、“播放发起弹幕”等,或者例如为用户无意间给出的语音指令“明天去看电影吧”。同时,本领域技术人员可以根据本实施例的描述得到其它用户语音指令的具体内容。
判断模块302,用于判断当前是否处于工作状态。
工作状态是指手机、电脑或智能音箱等电子设备处于执行某一文件的状态。待机状态是指手机、电脑或智能音箱等电子设备处于已经开机但是不进行任何实质性工作的状态,即不对文件进行各种操作。
处理模块303,用于当处于工作状态时,根据用户语音指令的播放意图,对用户语音指令进行分类处理。
进一步地,处理模块303用于当处于工作状态时,判断用户语音指令中是否包含播放意图,若包含,对用户语音指令进行模糊匹配,若不包含,对用户语音指令进行精确匹配。
具体地,处理模块303对用户语音指令进行模糊匹配包括:获取多个文件,计算用户语音指令与该多个文件中每一文件之间的匹配度,以得到与用户语音指令匹配度最高的文件。相应地,该语音指令处理系统还包括执行模块,用于执行该匹配度最高的文件。
本公开实施例中,上述多个文件是当前使用的媒资库以及当前未使用的媒资库中的所有文件。计算用户语音指令与该多个文件中每一文件之间的匹配度包括:计算用户语音指令与当前使用的媒资库以及当前未使用的媒资库中所有文件的匹配度。
匹配度是指文件的相关属性信息与用户语音指令之间匹配的程度,匹配度最高不一定是完全匹配。例如“我想看盗墓笔记”这一包含播放意图信息的用户语音指令,对于其“盗墓笔记”这一请求内容,可以在媒资库中获得与其完全匹配的视频文件“盗墓笔记”影视剧,该完全匹配的“盗墓笔记”影视剧即为匹配度最高的文件,此时跳转播放“盗墓笔记”;又例如“播放发起弹幕”这一包含播放意图信息的用户语音指令,对于其“发起弹幕”这一请求内容,媒资库中不存在与其完全匹配的音视频文件,但媒资库中与其匹配度最高的文件为“盗墓笔记”,此时获取到的与“播放发起弹幕”匹配度最高的文件即为“盗墓笔记”,因此也会跳转播放“盗墓笔记”。
处理模块303对用户语音指令进行精确匹配包括:判断是否存在与用户语音指令完全匹配的文件,若存在,获取该完全匹配的文件。相应地,若存在完全匹配的文件,上述执行模块还用于执行该完全匹配的文件,若不存在完全匹配的文件,上述执行模块不执行操作。
处理模块303判断是否存在与用户语音指令完全匹配的文件包括:判断当前使用的媒资库中是否包含与用户语音指令完全匹配的文件,若包含,存在完全匹配的文件,若不包含,判断当前未使用的媒资库中是否包含与用户语音指令完全匹配的文件,若包含,存在完全匹配的文件,若不包含,不存在完全匹配的文件。
当用户语音指令中不包含播放意图时,若当前使用的媒资库中存在与用户语音指令完全匹配的文件,直接利用当前使用的app执行该文件即可;当前使用的媒资库中不存在与用户语音指令完全匹配的文件时,才去当前未使用的媒资库中查询是否存在与用户语音指令完全匹配的文件,并在查询到完全匹配的文件后跳转至该当前未使用的媒资库对应的app执行该文件;若当前使用的媒资库和当前未使用的媒资库中都不存在与用户语音指令完全匹配的文件,不执行操作,该不执行操作仅指不执行播放该用户语音指令对应的文件的操作,但是可以执行其它提示性操作,例如直接回复“我没听清你说了什么”等,并继续保持收到用户语音指令之前的工作状态。
完全匹配是指操作内容与文件的某一相关属性信息相同。例如“盗墓笔记”这一不包含播放意图的用户语音指令,可以在媒资库中获得与其完全匹配的视频文件“盗墓笔记”影视剧,此时跳转播放“盗墓笔记”;例如“发起弹幕”这一不包含播放意图的用户语音指令,媒资库中不存在与其完全匹配的文件,此时不执行操作。
进一步地,若当前未使用的媒资库中包含一种以上与用户语音指令完全匹配的文件时,即多个未使用的媒资库中都包含有与用户语音指令完全匹配的文件,上述执行模块还用于查询用户的播放记录,根据播放记录执行其中一种完全匹配的文件,该文件对应的类型在播放记录中的播放比例最高。
以用户语音指令为“灌篮高手”为例,在当前未使用的媒资库中与其完全匹配的文件有漫画、电影这两种,假设用户的播放记录表明用户看漫画的比例高于看电影的比例,因此,当处理模块303获取到这两种完全匹配的文件时,执行模块会跳转至漫画对应的app去执行该漫画文件。
进一步地,处理模块303还用于当处于待机状态时,对用户语音指令进行模糊匹配。
待机状态时,处理模块303不区分用户语音指令中是否包含播放意图,无论用户语音指令中是否包含播放意图,都对用户语音指令进行模糊匹配,即获取与该用户语音指令匹配度最高的文件执行。
待机状态时,处理模块303对用户语音指令进行模糊匹配包括:获取多个文件,计算用户语音指令与该多个文件中每一文件之间的匹配度,以得到与用户语音指令匹配度最高的文件。相应地,执行模块还用于执行该匹配度最高的文件。例如对于“发起弹幕”这一用户语音指令,计算得到与其匹配度最高的文件为“盗墓笔记”,则会直接播放“盗墓笔记”。
在本公开实施例中,获取用户语音指令,判断当前是否处于工作状态,当处于工作状态时,根据用户语音指令的播放意图,对用户语音指令进行分类处理,当处于待机状态时,对用户语音指令进行模糊匹配。通过在工作状态根据用户语音指令的播放意图对用户语音指令进行分类处理,能够提高设备处于工作状态时响应用户语音指令的智能程度,避免在工作状态错误执行文件而影响用户的体验效果,以及避免不执行文件而影响设备的智能程度。通过区分工作状态和待机状态,在不同状态对用户语音指令进行不同处理,还能够提高设备处于待机状态时响应用户语音指令的智能程度,避免待机状态不执行文件而影响设备的智能程度。
参阅图4,图4示出了一种电子设备的硬件结构图。
本实施例中所描述的电子设备,包括:
存储器41、处理器42及存储在存储器41上并可在处理器上运行的计算机程序,处理器执行该程序时实现前述图1或图2所示实施例中描述的语音指令处理方法。
进一步地,该电子设备还包括:
至少一个输入设备43;至少一个输出设备44。
上述存储器41、处理器42输入设备43和输出设备44通过总线45连接。
其中,输入设备43具体可为摄像头、触控面板、物理按键或者鼠标等等。输出设备44具体可为显示屏。
存储器41可以是高速随机存取记忆体(RAM,Random Access Memory)存储器,也可为非不稳定的存储器(non-volatile memory),例如磁盘存储器。存储器41用于存储一组可执行程序代码,处理器42与存储器41耦合。
进一步地,本公开实施例还提供了一种计算机可读存储介质,该计算机可读存储介质可以是设置于上述各实施例中的终端中,该计算机可读存储介质可以是前述图4所示实施例中的存储器。该计算机可读存储介质上存储有计算机程序,该程序被处理器执行时实现前述图1或图2所示实施例中描述的语音指令处理方法。进一步地,该计算机可存储介质还可以是U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
在本申请所提供的多个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信链接可以是通过一些接口,模块的间接耦合或通信链接,可以是电性,机械或其它的形式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本公开各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。
需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本公开并不受所描述的动作顺序的限制,因为依据本公开,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本公开所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。
以上为对本公开所提供的语音指令处理方法、系统、设备及介质的描述,对于本领域的一般技术人员,依据本公开实施例的思想,在具体实施方式及应用范围上均会有改变之处,综上,本说明书内容不应理解为对本公开的限制。

Claims (10)

1.一种语音指令处理方法,其特征在于,包括:
获取用户语音指令;
判断当前是否处于工作状态;
当处于工作状态时,根据所述用户语音指令的播放意图,对所述用户语音指令进行分类处理,所述播放意图包括自然语言中与音视频操作相关的动词;
其中,所述根据所述用户语音指令的播放意图,对所述用户语音指令进行分类处理包括:
判断所述用户语音指令中是否包含所述播放意图,若包含,对所述用户语音指令进行模糊匹配,若不包含,对所述用户语音指令进行精确匹配。
2.根据权利要求1所述的语音指令处理方法,其特征在于,所述方法还包括:
当处于待机状态时,对所述用户语音指令进行模糊匹配。
3.根据权利要求2所述的语音指令处理方法,其特征在于,所述对所述用户语音指令进行模糊匹配包括:
获取多个文件;
计算所述用户语音指令与所述多个文件中每一文件之间的匹配度,以得到所述多个文件中与所述用户语音指令匹配度最高的文件;
所述方法还包括:
执行所述匹配度最高的文件。
4.根据权利要求1所述的语音指令处理方法,其特征在于,所述对所述用户语音指令进行精确匹配包括:
判断是否存在与所述用户语音指令完全匹配的文件,若存在,获取所述完全匹配的文件;
所述方法还包括:
若存在所述完全匹配的文件,执行所述完全匹配的文件,若不存在所述完全匹配的文件,不执行操作。
5.根据权利要求4所述的语音指令处理方法,其特征在于,所述判断是否存在与所述用户语音指令完全匹配的文件包括:
判断当前使用的媒资库中是否包含与所述用户语音指令完全匹配的文件,若包含,存在所述完全匹配的文件,若不包含:
判断当前未使用的媒资库中是否包含与所述用户语音指令完全匹配的文件,若包含,存在所述完全匹配的文件,若不包含,不存在所述完全匹配的文件。
6.根据权利要求5所述的语音指令处理方法,其特征在于,若所述当前未使用的媒资库中包含一种以上与所述用户语音指令完全匹配的文件时,所述方法还包括:
查询用户的播放记录,根据所述播放记录执行其中一种完全匹配的文件,该文件对应的类型在所述播放记录中的播放比例最高。
7.一种语音指令处理系统,其特征在于,包括:
获取模块,用于获取用户语音指令;
判断模块,用于判断当前是否处于工作状态;
处理模块,用于当处于工作状态时,根据所述用户语音指令的播放意图,对所述用户语音指令进行分类处理,所述播放意图包括自然语言中与音视频操作相关的动词;
其中,所述处理模块还用于判断所述用户语音指令中是否包含所述播放意图,若包含,对所述用户语音指令进行模糊匹配,若不包含,对所述用户语音指令进行精确匹配。
8.根据权利要求7所述的语音指令处理系统,其特征在于,所述处理模块还用于当处于待机状态时,对所述用户语音指令进行模糊匹配。
9.一种电子设备,其特征在于,包括:
处理器;
存储器,其存储有计算机可执行程序,所述程序在被所述处理器执行时,使得所述处理器执行如权利要求1-6中任一项所述的语音指令处理方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1-6中任一项所述的语音指令处理方法。
CN201910706920.8A 2019-07-31 2019-07-31 一种语音指令处理方法、系统、设备及介质 Active CN112397060B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910706920.8A CN112397060B (zh) 2019-07-31 2019-07-31 一种语音指令处理方法、系统、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910706920.8A CN112397060B (zh) 2019-07-31 2019-07-31 一种语音指令处理方法、系统、设备及介质

Publications (2)

Publication Number Publication Date
CN112397060A CN112397060A (zh) 2021-02-23
CN112397060B true CN112397060B (zh) 2024-02-23

Family

ID=74601266

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910706920.8A Active CN112397060B (zh) 2019-07-31 2019-07-31 一种语音指令处理方法、系统、设备及介质

Country Status (1)

Country Link
CN (1) CN112397060B (zh)

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104866274A (zh) * 2014-12-01 2015-08-26 联想(北京)有限公司 信息处理方法及电子设备
CN105556920A (zh) * 2013-09-16 2016-05-04 高通股份有限公司 用于控制对应用程序的访问的方法和设备
US9466286B1 (en) * 2013-01-16 2016-10-11 Amazong Technologies, Inc. Transitioning an electronic device between device states
CN106328129A (zh) * 2015-06-18 2017-01-11 中兴通讯股份有限公司 指令处理方法及装置
CN106796497A (zh) * 2014-09-12 2017-05-31 苹果公司 用于始终监听语音触发的动态阈值
CN108711430A (zh) * 2018-04-28 2018-10-26 广东美的制冷设备有限公司 语音识别方法、智能设备及存储介质
CN108735211A (zh) * 2018-05-16 2018-11-02 智车优行科技(北京)有限公司 语音处理方法、装置、车辆、电子设备、程序及介质
CN108762712A (zh) * 2018-05-30 2018-11-06 Oppo广东移动通信有限公司 电子设备控制方法、装置、存储介质及电子设备
CN109002501A (zh) * 2018-06-29 2018-12-14 北京百度网讯科技有限公司 用于处理自然语言对话的方法、装置、电子设备以及计算机可读存储介质
CN109326289A (zh) * 2018-11-30 2019-02-12 深圳创维数字技术有限公司 免唤醒语音交互方法、装置、设备及存储介质
CN109493851A (zh) * 2018-11-20 2019-03-19 新视家科技(北京)有限公司 一种语音控制方法、相关装置及存储介质
CN109741755A (zh) * 2018-12-25 2019-05-10 苏州思必驰信息科技有限公司 语音唤醒词阈值管理装置及管理语音唤醒词阈值的方法
WO2019101205A1 (zh) * 2017-11-27 2019-05-31 西安中兴新软件有限责任公司 一种智能操控实现方法及装置、计算机可读存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20130135410A (ko) * 2012-05-31 2013-12-11 삼성전자주식회사 음성 인식 기능을 제공하는 방법 및 그 전자 장치

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9466286B1 (en) * 2013-01-16 2016-10-11 Amazong Technologies, Inc. Transitioning an electronic device between device states
CN105556920A (zh) * 2013-09-16 2016-05-04 高通股份有限公司 用于控制对应用程序的访问的方法和设备
CN106796497A (zh) * 2014-09-12 2017-05-31 苹果公司 用于始终监听语音触发的动态阈值
CN104866274A (zh) * 2014-12-01 2015-08-26 联想(北京)有限公司 信息处理方法及电子设备
CN106328129A (zh) * 2015-06-18 2017-01-11 中兴通讯股份有限公司 指令处理方法及装置
WO2019101205A1 (zh) * 2017-11-27 2019-05-31 西安中兴新软件有限责任公司 一种智能操控实现方法及装置、计算机可读存储介质
CN108711430A (zh) * 2018-04-28 2018-10-26 广东美的制冷设备有限公司 语音识别方法、智能设备及存储介质
CN108735211A (zh) * 2018-05-16 2018-11-02 智车优行科技(北京)有限公司 语音处理方法、装置、车辆、电子设备、程序及介质
CN108762712A (zh) * 2018-05-30 2018-11-06 Oppo广东移动通信有限公司 电子设备控制方法、装置、存储介质及电子设备
CN109002501A (zh) * 2018-06-29 2018-12-14 北京百度网讯科技有限公司 用于处理自然语言对话的方法、装置、电子设备以及计算机可读存储介质
CN109493851A (zh) * 2018-11-20 2019-03-19 新视家科技(北京)有限公司 一种语音控制方法、相关装置及存储介质
CN109326289A (zh) * 2018-11-30 2019-02-12 深圳创维数字技术有限公司 免唤醒语音交互方法、装置、设备及存储介质
CN109741755A (zh) * 2018-12-25 2019-05-10 苏州思必驰信息科技有限公司 语音唤醒词阈值管理装置及管理语音唤醒词阈值的方法

Also Published As

Publication number Publication date
CN112397060A (zh) 2021-02-23

Similar Documents

Publication Publication Date Title
CN107766482B (zh) 信息推送及发送方法、装置、电子设备、存储介质
US9799375B2 (en) Method and device for adjusting playback progress of video file
CN107527619B (zh) 语音控制业务的定位方法及装置
CN109979450B (zh) 信息处理方法、装置及电子设备
US9972340B2 (en) Deep tagging background noises
US10402407B2 (en) Contextual smart tags for content retrieval
CN103841268A (zh) 信息处理方法和信息处理装置
US9830316B2 (en) Content availability for natural language processing tasks
CN110347866B (zh) 信息处理方法、装置、存储介质及电子设备
US20170011114A1 (en) Common data repository for improving transactional efficiencies of user interactions with a computing device
CN109460503B (zh) 答案输入方法、装置、存储介质及电子设备
CN112562684B (zh) 一种语音识别方法、装置和电子设备
CN111899859A (zh) 手术器械清点方法及装置
CN109889921B (zh) 一种具备交互功能的音视频创建、播放方法及装置
CN112529585A (zh) 风险交易的交互唤醒方法、装置、设备及系统
US20140372455A1 (en) Smart tags for content retrieval
CN112685534B (zh) 在创作过程中生成已创作内容的脉络信息的方法与设备
CN111722893A (zh) 一种电子设备图形用户界面交互方法、装置和终端设备
CN112397060B (zh) 一种语音指令处理方法、系统、设备及介质
US20170161322A1 (en) Method and electronic device for searching resource
CN116978028A (zh) 视频处理方法、装置、电子设备及存储介质
CN116343771A (zh) 一种基于知识图谱的音乐点播语音指令识别方法、装置
CN113360127B (zh) 音频播放方法以及电子设备
US9484033B2 (en) Processing and cross reference of realtime natural language dialog for live annotations
CN115774797A (zh) 视频内容检索方法、装置、设备和计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant