CN111583920A - 应用程序的语音控制方法、装置和设备 - Google Patents

应用程序的语音控制方法、装置和设备 Download PDF

Info

Publication number
CN111583920A
CN111583920A CN202010303841.5A CN202010303841A CN111583920A CN 111583920 A CN111583920 A CN 111583920A CN 202010303841 A CN202010303841 A CN 202010303841A CN 111583920 A CN111583920 A CN 111583920A
Authority
CN
China
Prior art keywords
instruction
information
application program
effective
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010303841.5A
Other languages
English (en)
Inventor
姚昌凯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Zhongtongji Network Technology Co Ltd
Original Assignee
Shanghai Zhongtongji Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Zhongtongji Network Technology Co Ltd filed Critical Shanghai Zhongtongji Network Technology Co Ltd
Priority to CN202010303841.5A priority Critical patent/CN111583920A/zh
Publication of CN111583920A publication Critical patent/CN111583920A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Stored Programmes (AREA)

Abstract

本发明涉及一种应用程序的语音控制方法、装置和设备,通过获取语音信息,提取语音信息中包含的有效控制信息,在预设的指令数据库中,确定与有效控制信息匹配的有效指令,控制与有效指令对应的应用程序执行有效指令。采用本发明的技术方案,快递业务员通过语音控制其使用的智能终端上的应用程序即可快速找到操作界面,还可以通过语音控制应用程序自动操作某些功能,有效提高了快递业务员的工作效率。

Description

应用程序的语音控制方法、装置和设备
技术领域
本发明涉及智能语音控制技术领域,具体涉及一种应用程序的语音控制方法、装置和设备。
背景技术
随着物流信息技术的高速发展,人们从网络上进行购物的频率越来越高,使得快递业务也迅速增长,快递的业务员每天需要进行收件、派件和异常件处理等工作。目前,快递业务员需要借助于手机或者巴枪等智能终端,通过安装在智能终端上的应用程序进行信息的采集、上传和下载等,进行收件、派件和异常件处理等工作。
但是,智能终端上的应用操作功能繁多,迭代速度快,快递业务员很多场景下需找到某些功能但不知在哪个界面,而末端业务员派件量大,进而影响工作效率。
发明内容
有鉴于此,本发明的目的在于提供一种应用程序的语音控制方法、装置和设备,以克服目前智能终端上的应用操作功能繁多,迭代速度快,快递业务员很多场景下需找到某些功能但不知在哪个界面,影响工作效率的问题。
为实现以上目的,本发明采用如下技术方案:
一种应用程序的语音控制方法,包括:
获取语音信息;
提取所述语音信息中包含的有效控制信息;
在预设的指令数据库中,确定与所述有效控制信息匹配的有效指令;
控制与所述有效指令对应的应用程序执行所述有效指令。
进一步地,以上所述应用程序的语音控制方法,所述提取所述语音信息中包含的有效控制信息,包括:
基于语音识别技术,将所述语音信息转换为文字信息;
将所述文字信息输入预设的指令转换模型中,将输出的结果作为所述有效控制信息。
进一步地,以上所述应用程序的语音控制方法,所述指令转换模型的建立过程包括:
获取预设数量的样本文字信息和对应的样本控制信息作为训练样本;
将所述训练样本输入预先构建的深度学习模型进行训练,得到所述指令转换模型。
进一步地,以上所述应用程序的语音控制方法,所述方法还包括:
若无法确定所述有效指令,输出控制失败提醒。
进一步地,以上所述应用程序的语音控制方法,所述有效指令包括操作指令和答疑指令;
所述控制与所述有效指令对应的应用程序执行所述有效指令,包括:
控制所述应用程序执行所述操作指令对应的操作;或者
控制所述应用程序输出与所述答疑指令对应的解答信息。
本发明还提供了一种应用程序的语音控制装置,包括:
获取模块,用于获取语音信息;
提取模块,用于提取所述语音信息中包含的有效控制信息;
确定模块,用于在预设的指令数据库中,确定与所述有效控制信息匹配的有效指令;
控制模块,用于控制与所述有效指令对应的应用程序执行所述有效指令。
进一步地,以上所述应用程序的语音控制装置,所述提取模块,包括转换单元和输出单元;
所述转换单元,用于基于语音识别技术,将所述语音信息转换为文字信息;
所述输出单元,用于将所述文字信息输入预设的指令转换模型中,将输出的结果作为所述有效控制信息。
进一步地,以上所述应用程序的语音控制装置,所述提取模块还包括模型建立单元;
所述模型建立单元,用于获取预设数量样本文字信息和对应的样本控制信息作为训练样本;
将所述训练样本输入预先构建的深度学习模型进行训练,得到所述指令转换模型。
进一步地,以上所述应用程序的语音控制装置,还包括提醒模块:
所述提醒模块,还用于若无法确定所述有效指令,输出控制失败提醒。
本发明还提供了一种应用程序的语音控制设备,包括处理器和存储器,所述处理器与存储器相连:
其中,所述处理器,用于调用并执行所述存储器中存储的程序;
所述存储器,用于存储所述程序,所述程序至少用于执行以上任一项所述的应用程序的语音控制方法。
本发明的应用程序的语音控制方法、装置和设备,通过获取语音信息,提取语音信息中包含的有效控制信息,在预设的指令数据库中,确定与有效控制信息匹配的有效指令,控制与有效指令对应的应用程序执行有效指令。采用本发明的技术方案,快递业务员通过语音控制其使用的智能终端上的应用程序即可快速找到操作界面,还可以通过语音控制应用程序自动操作某些功能,有效提高了快递业务员的工作效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明应用程序的语音控制方法一种实施例提供的流程图;
图2是本发明应用程序的语音控制装置一种实施例提供的结构示意图;
图3是本发明应用程序的语音控制设备一种实施例提供的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将对本发明的技术方案进行详细的描述。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施方式,都属于本发明所保护的范围。
图1是本发明应用程序的语音控制方法一种实施例提供的流程图。请参阅图1,本实施例可以包括以下步骤:
S101、获取语音信息;
快递业务员在使用终端设备上的应用程序时,可以通过无线麦克风、麦克风阵列等语音输入设备输入语音信息。
例如,若应用程序优选为掌中宝,快递业务员可以发出“打开掌中宝”“我想要寄件”“我想要输入收件人的收件地址信息”等语音信息。
本实施例中,可以获取快递业务员发出的语音信息。
S102、提取所述语音信息中包含的有效控制信息;
提取语音信息中包含的有效控制信息。本实施例中,可以按照以下步骤进行有效控制信息的提取:
①基于语音识别技术,将所述语音信息转换为文字信息;
②将所述文字信息输入预设的指令转换模型中,将输出的结果作为所述有效控制信息。
具体地,可以基于现有技术中非常成熟的语音识别、语音合成、语义分析等技术手段,把语音信息转换为文字信息。然后把文字信息输入到指令转换模型即可。
指令转换模型是由深度学习模型经过训练得来的,深度学习模型具体可以是循环神经网络模型、seq2seq模型和transformer模型等,这里只是用来举例说明,并不形成具体的限定。
将预先准备的足够数量的训练样本,包括样本文字信息和对应的样本控制信息。例如,“我想要寄件”“想寄件”“寄件”“怎么寄件”等样本文字信息,可以对应“寄件”样本控制信息,“收件人的地址是**省**市**区**路”“填写收件人的地址是**省**市**区**路”“把**省**市**区**路作为收件人地址填进去”可以对应“收件人地址**省**市**区**路”等等。
将训练样本输入深度学习模型中,对深度学习模型进行训练,得到指令转换模型。
S103、在预设的指令数据库中,确定与所述有效控制信息匹配的有效指令;
本实施例中预先设置有指令数据库,确定与有效控制信息匹配的机器语言作为有效指令,例如二进制数或者代码等。
S104、控制与所述有效指令对应的应用程序执行所述有效指令。
控制应用程序执行对应的有效指令即可。
本实施例中,有效指令包括操作指令和答疑指令。具体地,若为操作指令,那么控制所述应用程序执行所述操作指令对应的操作即可,例如根据操作指令输入收件地址、打开信息查询页面、唤醒掌中通程序等;若为答疑指令,则控制应用程序输出对应的解答信息。例如,根据答疑指令输出派件流程、揽件流程或者转运中心地址等。快递业务员在工作过程中存在问题可以通过发送语音提出问题,进而得到输出的结果,可以节省新入职的快递业务员的培训时间,缩短培训周期,进而提高派送效率。
本实施例的应用程序的语音控制方法,通过获取语音信息,提取语音信息中包含的有效控制信息,在预设的指令数据库中,确定与有效控制信息匹配的有效指令,控制与有效指令对应的应用程序执行有效指令。采用本实施例的技术方案,快递业务员通过语音控制其使用的智能终端上的应用程序即可快速找到操作界面,还可以通过语音控制应用程序自动操作某些功能,有效提高了快递业务员的工作效率。
进一步地,本实施例在以上实施例的基础上,还可以包括以下步骤:若无法确定所述有效指令,输出控制失败提醒。
具体地,若由于无法提取所述语音信息中包含的有效控制信息,或者,能够提取所述语音信息中包含的有效控制信息,但是无法确定有效指令,导致最终均不能确定有效指令,可以输出控制失败提醒。例如,输出“识别失败,请重新输入”,以告知快递业务员语音识别失败,重新进行语音输入。
本发明还提供了一种应用程序的语音控制装置,用于实现上述方法实施例。图2是本发明应用程序的语音控制装置一种实施例提供的结构示意图,请参阅图2,本实施例的应用程序的语音控制装置包括:
获取模块11,用于获取语音信息;
提取模块12,用于提取所述语音信息中包含的有效控制信息;
确定模块13,用于在预设的指令数据库中,确定与所述有效控制信息匹配的有效指令;
控制模块14,用于控制与所述有效指令对应的应用程序执行所述有效指令。
本实施例的应用程序的语音控制装置,获取模块11获取语音信息,提取模块12提取语音信息中包含的有效控制信息,确定模块13在预设的指令数据库中,确定与有效控制信息匹配的有效指令,控制模块14控制与有效指令对应的应用程序执行有效指令。采用本实施例的技术方案,快递业务员通过语音控制其使用的智能终端上的应用程序即可快速找到操作界面,还可以通过语音控制应用程序自动操作某些功能,有效提高了快递业务员的工作效率。
进一步地,提取模块,包括转换单元和输出单元;
所述转换单元,用于基于语音识别技术,将所述语音信息转换为文字信息;
所述输出单元,用于将所述文字信息输入预设的指令转换模型中,将输出的结果作为所述有效控制信息。
进一步地,提取模块还包括模型建立单元;
所述模型建立单元,用于获取预设数量样本文字信息和对应的样本控制信息作为训练样本;
将所述训练样本输入预先构建的深度学习模型进行训练,得到所述指令转换模型。
进一步地,还包括提醒模块:
所述提醒模块,还用于若无法确定所述有效指令,输出控制失败提醒。
进一步地,所述有效指令包括操作指令和答疑指令;
所述控制模块,具体用于控制所述应用程序执行所述操作指令对应的操作;或者控制所述应用程序输出与所述答疑指令对应的解答信息。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
本发明还提供了一组应用程序的语音控制设备,用于实现上述方法实施例。本实施例的应用程序的语音控制设备包括处理器21和存储器22,所述处理器21与存储器22相连:
其中,所述处理器21,用于调用并执行所述存储器22中存储的程序;
所述存储器22,用于存储所述程序,所述程序至少用于执行以上实施例所述的应用程序的语音控制方法。
可以理解的是,上述各实施例中相同或相似部分可以相互参考,在一些实施例中未详细说明的内容可以参见其他实施例中相同或相似的内容。
需要说明的是,在本发明的描述中,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本发明的描述中,除非另有说明,“多个”的含义是指至少两个。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (10)

1.一种应用程序的语音控制方法,其特征在于,包括:
获取语音信息;
提取所述语音信息中包含的有效控制信息;
在预设的指令数据库中,确定与所述有效控制信息匹配的有效指令;
控制与所述有效指令对应的应用程序执行所述有效指令。
2.根据权利要求1所述应用程序的语音控制方法,其特征在于,所述提取所述语音信息中包含的有效控制信息,包括:
基于语音识别技术,将所述语音信息转换为文字信息;
将所述文字信息输入预设的指令转换模型中,将输出的结果作为所述有效控制信息。
3.根据权利要求2所述应用程序的语音控制方法,其特征在于,所述指令转换模型的建立过程包括:
获取预设数量的样本文字信息和对应的样本控制信息作为训练样本;
将所述训练样本输入预先构建的深度学习模型进行训练,得到所述指令转换模型。
4.根据权利要求1所述应用程序的语音控制方法,其特征在于,所述方法还包括:
若无法确定所述有效指令,输出控制失败提醒。
5.根据权利要求1所述应用程序的语音控制方法,其特征在于,所述有效指令包括操作指令和答疑指令;
所述控制与所述有效指令对应的应用程序执行所述有效指令,包括:
控制所述应用程序执行所述操作指令对应的操作;或者
控制所述应用程序输出与所述答疑指令对应的解答信息。
6.一种应用程序的语音控制装置,其特征在于,包括:
获取模块,用于获取语音信息;
提取模块,用于提取所述语音信息中包含的有效控制信息;
确定模块,用于在预设的指令数据库中,确定与所述有效控制信息匹配的有效指令;
控制模块,用于控制与所述有效指令对应的应用程序执行所述有效指令。
7.根据权利要求6所述应用程序的语音控制装置,其特征在于,所述提取模块,包括转换单元和输出单元;
所述转换单元,用于基于语音识别技术,将所述语音信息转换为文字信息;
所述输出单元,用于将所述文字信息输入预设的指令转换模型中,将输出的结果作为所述有效控制信息。
8.根据权利要求7所述应用程序的语音控制装置,其特征在于,所述提取模块还包括模型建立单元;
所述模型建立单元,用于获取预设数量样本文字信息和对应的样本控制信息作为训练样本;
将所述训练样本输入预先构建的深度学习模型进行训练,得到所述指令转换模型。
9.根据权利要求6所述应用程序的语音控制装置,其特征在于,还包括提醒模块:
所述提醒模块,还用于若无法确定所述有效指令,输出控制失败提醒。
10.一种应用程序的语音控制设备,其特征在于,包括处理器和存储器,所述处理器与存储器相连:
其中,所述处理器,用于调用并执行所述存储器中存储的程序;
所述存储器,用于存储所述程序,所述程序至少用于执行权利要求1-5任一项所述的应用程序的语音控制方法。
CN202010303841.5A 2020-04-17 2020-04-17 应用程序的语音控制方法、装置和设备 Pending CN111583920A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010303841.5A CN111583920A (zh) 2020-04-17 2020-04-17 应用程序的语音控制方法、装置和设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010303841.5A CN111583920A (zh) 2020-04-17 2020-04-17 应用程序的语音控制方法、装置和设备

Publications (1)

Publication Number Publication Date
CN111583920A true CN111583920A (zh) 2020-08-25

Family

ID=72112572

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010303841.5A Pending CN111583920A (zh) 2020-04-17 2020-04-17 应用程序的语音控制方法、装置和设备

Country Status (1)

Country Link
CN (1) CN111583920A (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108022586A (zh) * 2017-11-30 2018-05-11 百度在线网络技术(北京)有限公司 用于控制页面的方法和装置
CN108091333A (zh) * 2017-12-28 2018-05-29 广东欧珀移动通信有限公司 语音控制方法及相关产品
US20190237070A1 (en) * 2018-01-31 2019-08-01 Beijing Baidu Netcom Science And Technology Co., Ltd. Voice interaction method, device, apparatus and server

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108022586A (zh) * 2017-11-30 2018-05-11 百度在线网络技术(北京)有限公司 用于控制页面的方法和装置
CN108091333A (zh) * 2017-12-28 2018-05-29 广东欧珀移动通信有限公司 语音控制方法及相关产品
US20190237070A1 (en) * 2018-01-31 2019-08-01 Beijing Baidu Netcom Science And Technology Co., Ltd. Voice interaction method, device, apparatus and server

Similar Documents

Publication Publication Date Title
US10958598B2 (en) Method and apparatus for generating candidate reply message
CN109388701A (zh) 会议记录生成方法、装置、设备和计算机存储介质
CN109346078B (zh) 语音交互方法、装置以及电子设备、计算机可读介质
CN103077714B (zh) 信息的识别方法和装置
CN107733782B (zh) 根据任务生成群的方法、装置及系统
CN109753663B (zh) 一种客户情绪分级方法及装置
WO2018099000A1 (zh) 语音输入的处理方法、终端和网络服务器
CN106997342B (zh) 基于多轮交互的意图识别方法和装置
CN111666380A (zh) 一种智能呼叫方法、装置、设备和介质
US20170064084A1 (en) Method and Apparatus for Implementing Voice Mailbox
CN104184763A (zh) 一种反馈信息处理方法及系统、服务设备
CN106713111B (zh) 一种添加好友的处理方法、终端及服务器
CN109871440B (zh) 基于语义分析的智能提示方法、装置及设备
CN113674746B (zh) 人机交互方法、装置、设备以及存储介质
CN113314106A (zh) 基于语音和意图识别的电力信息查询与调控功能调用方法
CN115309877A (zh) 对话生成方法、对话模型训练方法及装置
CN109271503A (zh) 智能问答方法、装置、设备及存储介质
CN113011159A (zh) 人工座席监听方法、装置、电子设备及存储介质
CN109065076B (zh) 音频标签的设置方法、装置、设备和存储介质
CN104463393A (zh) 一种基于语音的农产品价格的采集方法
CN113591463A (zh) 意图识别方法、装置、电子设备及存储介质
CN110740212B (zh) 基于智能语音技术的通话接听方法、装置及电子设备
CN111583920A (zh) 应用程序的语音控制方法、装置和设备
CN111046145A (zh) 交互意图路径的挖掘方法以及装置
CN115482823A (zh) 基于自动语音识别的音频处理方法及其装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200825