CN116469380A - 语音交互的方法、装置、设备以及存储介质 - Google Patents

语音交互的方法、装置、设备以及存储介质 Download PDF

Info

Publication number
CN116469380A
CN116469380A CN202210032578.XA CN202210032578A CN116469380A CN 116469380 A CN116469380 A CN 116469380A CN 202210032578 A CN202210032578 A CN 202210032578A CN 116469380 A CN116469380 A CN 116469380A
Authority
CN
China
Prior art keywords
target
voice
switch component
target switch
text label
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210032578.XA
Other languages
English (en)
Inventor
陈强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Pateo Connect Nanjing Co Ltd
Original Assignee
Pateo Connect Nanjing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Pateo Connect Nanjing Co Ltd filed Critical Pateo Connect Nanjing Co Ltd
Priority to CN202210032578.XA priority Critical patent/CN116469380A/zh
Publication of CN116469380A publication Critical patent/CN116469380A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/02Total factory control, e.g. smart factories, flexible manufacturing systems [FMS] or integrated manufacturing systems [IMS]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本申请涉及计算机技术领域,公开了一种语音交互的方法、装置、设备以及存储介质。其中方法包括:对目标页面进行解析,得到目标开关组件;获取所述目标开关组件对应的目标文字标签;将所述目标开关组件和所述目标文字标签关联,生成词条;将所述词条注册到语音模块;获取用户的语音指令,并与所述语音模块中注册的词条进行匹配,若匹配成功,则根据所述语音指令控制所述目标开关组件的开关状态。实施本申请实施例,可以实现第三方应用的开关组件的可见即可说功能,有利于提高人机交互的质量。

Description

语音交互的方法、装置、设备以及存储介质
技术领域
本申请涉及计算机技术领域,尤其涉及一种语音交互的方法、装置、设备以及存储介质。
背景技术
随着语音交互技术的快速发展,可见即可说也随之成为了一种新的发展趋势。可见即可说是指全程不需要进行手动触控、按压按键等物理操作,只要是屏幕上显示出来的功能选项,均可以通过语音交互实现控制。因此,可见即可说功能可以显著提高人机交互的质量。但是,现有的技术仍然无法实现对于第三方应用的开关组件的可见即可说功能,对于这类开关组件用户依然需要手动操作,无法进行语音交互。
发明内容
本申请实施例提供了一种语音交互的方法、装置、设备以及存储介质,可以实现第三方应用的开关组件的可见即可说功能,有利于提高人机交互的质量。
第一方面,本申请实施例提供了一种语音交互的方法,其中:
对目标页面进行解析,得到目标开关组件;
获取所述目标开关组件对应的目标文字标签;
将所述目标开关组件和所述目标文字标签关联,生成词条;
将所述词条注册到语音模块;
获取用户的语音指令,并与所述语音模块中注册的词条进行匹配,若匹配成功,则根据所述语音指令控制所述目标开关组件的开关状态。
第二方面,本申请实施例提供了一种语音交互的装置,其中:
处理单元,用于对目标页面进行解析,得到目标开关组件;还用于将所述目标开关组件和所述目标文字标签关联,生成待注册词条;还用于将所述待注册词条注册到语音模块;
获取单元,用于获取所述目标开关组件对应的目标文字标签;还用于获取语音指令,并与所述语音模块中注册的词条进行匹配,若匹配成功,则根据所述语音指令控制所述目标开关组件的开关状态。
第三方面,本申请实施例提供了一种计算机设备,包括处理器、存储器和通信接口,其中,所述存储器存储有计算机程序,所述计算机程序被配置由所述处理器执行,所述计算机程序包括用于如本申请实施例第一方面中所描述的部分或全部步骤的指令。
第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储计算机程序,所述计算机程序使得计算机执行如本申请实施例第一方面中所描述的部分或全部步骤。
实施本申请实施例,将具有如下有益效果:
采用上述的语音交互的方法、装置、设备以及存储介质,在对目标页面进行解析,得到目标开关组件之后,获取目标开关组件对应的目标文字标签。然后将目标开关组件和目标文字标签关联,生成词条并将词条注册到语音模块中,可以使得包括第三方应用在内的开关组件与开关组件对应的词条也能成功注册到语音模块中。再获取用户的语音指令,并与语音模块中注册的词条进行匹配,若匹配成功,则根据语音指令控制目标开关组件的开关状态,以实现功能的闭环。如此,可以实现第三方应用的开关组件的可见即可说功能,从而有利于提高人机交互的质量。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以基于这些附图获得其他的附图。其中:
图1为本申请实施例提供的一种系统架构示意图;
图2为本申请实施例提供的一种语音交互的方法的流程示意图;
图3为本申请实施例提供的一种目标开关组件的示意图;
图4为本申请实施例提供的一种语音交互的装置的结构示意图;
图5为本申请实施例提供的一种计算机设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请的说明书和权利要求书及所述附图中的术语“第一”、“第二”、“第三”和“第四”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结果或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
还应理解,本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
为了更好地理解本申请实施例的技术方案,先对本申请实施例可能涉及的系统架构进行介绍。请参照图1,本申请实施例提供的一种系统架构示意图,该系统架构可以包括:电子设备100。电子设备可以任何具语音交互功能的设备上。例如车载终端、智能电视播放终端、智能手机、平板电脑(pad)、个人计算机(personal computer,PC)、笔记本电脑、智能家居、投影仪或便捷式设备等,本申请实施例对此不做限定。本申请实施例尤其适用于车载终端,可以基于纯语音交互的方式实现用户响应,以达到安全驾驶的目的。
图1中的电子设备100以车载终端为例进行描述。需要说明的是,图1所示的系统中的电子设备的数量和形态用于举例,并不构成对本申请实施例的限定。
如图1所示,电子设备100可包括处理器101、存储器102、通信接口103和总线104。处理器101、存储器102和通信接口103之间可通过总线104互相连接。其中,存储器102可用于存储软件程序以及数据,处理器101可以通过运行存储在存储器102的软件程序以及数据,从而执行电子设备100的各种功能应用以及数据处理。在本申请实施例中,处理器101可以用于对目标页面进行解析,得到目标开关组件;也可以用于将目标开关组件和目标文字标签关联,生成待注册词条;还可以用于将所述待注册词条注册到语音模块等等。通信接口103可用于与外部设备实现数据通信,例如,与服务器或用户设备进行通信等。
如图1所示,电子设备100还可以包括显示设备105,用于接收用户输入的信息或显示提供给用户的信息,以及电子设备100的各种菜单界面等。显示设备105可以显示音乐软件或者导航软件的界面,也可以显示一些系统开关组件,例如“系统提示音”或者“行程出发提醒”等。
需要说明的是,电子设备100还可包括图1中未涉及的装置,例如,麦克风、扬声器、听筒、闪光灯、蓝牙、外部接口、按键、马达、传感器等其他可能的功能模块,在此不再赘述。
随着语音交互技术的快速发展,可见即可说也随之成为了一种新的发展趋势。可见即可说是指全程不需要进行手动触控、按压按键等物理操作,只要是屏幕上显示出来的功能选项,均可以通过语音交互实现控制。因此,可见即可说功能可以显著提高人机交互的质量。但是,现有的技术仍然无法实现对于第三方应用的开关组件的可见即可说功能,对于这类开关组件用户依然需要手动操作,无法进行语音交互。
为了解决上述问题,本申请实施例提供了一种语音交互的方法,该方法可以应用在如车载终端或者智能手机等电子设备上。通过实施该方法,可以实现第三方应用的开关组件的可见即可说功能,有利于提高人机交互的质量。
请参照图2,图2是本申请实施例提供的一种语音交互的方法的流程示意图。以该方法应用在电子设备为例进行举例说明,可以包括以下步骤S201-S205,其中:
步骤S201:对目标页面进行解析,得到目标开关组件。
在本申请实施例中,目标页面可以是指第三方应用的某个页面,也可以是指电子设备内置的系统工具和应用软件的某个页面,还可以是指浏览器的页面等等。目标开关组件可以是指具有开启和关闭两种状态的组件。本申请实施例对目标开关组件的类型不做限定,以Android系统为例,目标开关组件的类型可以包括Switch、CheckBox以及CompoundButton中的一种或多种。本申请实施例不限定目标开关组件的数量,目标开关组件可以有一个也可以有多个。
在一种可能的实施方式中,步骤S201具体可以包括以下步骤:
对目标页面进行解析,得到开关组件;获取所述开关组件的布局信息;若所述开关组件为子节点,则将所述开关组件作为目标开关组件;若所述开关组件为父节点,则获取所述开关组件的子节点开关组件并将所述子节点开关组件作为目标开关组件。
目标页面中通常可以包括多个组件,这些组件可以是开关、按钮、图片、文本、进度条、下拉框、编辑框、弹窗、复选框等。因此,在对目标页面解析时,可以先获取这些组件的组件信息,再根据组件的组件信息筛选出开关组件,组件信息可以包括组件的类别和坐标等信息。开关组件的定义可以参考上述目标开关组件的描述,在此不再赘述。
在一种可能的实施方式中,可以基于预设的检测模型对目标页面进行控件检测,得到目标页面中包括的多个组件的组件信息,根据组件信息确定开关组件。检测模型可以是指基于目标检测算法的模型,该目标检测算法可以是基于深度学习模型的算法或者也可以是其他模型的算法,在此不做限定。在基于预设的检测模型对目标页面进行组件检测时,可以先对目标页面进行截图或者拍照,以获得目标图片,再将目标图片作为模型的输入,模型的输出结果即为目标图片中包括的多个控件的组件信息,以便从目标页面中的众多组件中筛选得到开关组件。
在获取到开关组件之后,可以进一步获取该开关组件的布局信息,然后根据布局信息确定该开关组件为父节点还是子节点。父节点可以理解为该开关组件存在子组件,而子节点则可以理解为该开关组件不存在子组件。其中,子组件可以理解为可以与该开关组件进行合并的组件。在本申请实施例中,若该开关组件为子节点,则说明该开关组件不存在子组件,则可以将该开关组件作为目标开关组件。若该开关组件为父节点,则说明该开关组件存在子组件。此时,需要再次判断子组件的类别和布局信息,直至找到该开关组件的子节点开关组件并将其作为目标开关组件。其中,子节点开关组件可以理解为不存在子组件的开关组件。
可以看出,在对目标页面进行解析,得到开关组件之后,再基于该开关组件的布局信息确定该开关组件为子节点还是父节点。若该开关组件为子节点,则将该开关组件作为目标开关组件;若该开关组件为父节点,则获取该开关组件的子节点开关组件并将其作为目标开关组件。如此,在对页面进行解析时,可以更为简单快速地得到目标开关组件。
步骤S202:获取所述目标开关组件对应的目标文字标签。
目标文字标签可以理解为用于表征目标开关组件具体是什么组件或者具体可以实现什么功能的文本组件。
在一种可能的实施方式中,步骤S202具体可以包括以下步骤:
查找所述目标开关组件对应的文字标签;若所述文字标签的数量大于1,则获取所述文字标签的坐标信息和所述目标开关组件的坐标信息;根据所述文字标签的坐标信息和所述目标开关组件的坐标信息确定所述目标开关组件对应的目标文字标签。
文字标签可以理解为用于描述目标开关组件的文本组件。在一种可能的实施方式中,可以基于自然语言处理模型获取目标开关组件对应的文字标签。在本申请实施例中,在基于自然语言处理模型获取文字标签时,可以先对目标开关组件所在的目标网页进行截图或者拍照,以获得目标图片。再将目标图片输入至自然语言处理模型中,得到的输出结果即为文字标签。其中,自然语言处理模型可以基于自然语言处理算法,可以采用jieba分词工具,或者采用word2vec的词向量模型等,用于解析目标图片中的文本,得到文本中每个字作为文字标签。
参照图3,图3为本申请实施例提供的一种目标开关组件的示意图。如图3所示,A、B为目标开关组件,A1为目标开关组件A对应的文字标签,B1和B2为目标开关组件B对应的文字标签。也就是说,目标开关组件可以对应一个文字标签也可以对应多个文字标签。
当目标开关组件对应一个文字标签时,则可以将该文字标签作为目标文字标签。如图3所示,目标开关组件A只有一个文字标签A1,此时可以将文字标签A1作为目标开关组件A的目标文字标签。更具体地,可以理解为目标开关组件A对应的目标文字标签A1为“系统提示音”。
如图3所示,目标开关组件B对应两个文字标签,分别是文字标签B1“行程出发提醒”和文字标签B2“航班、火车行车出发提醒和专车约车”。此时,可以获取文字标签B1和文字标签B2的坐标信息和目标开关组件B的坐标信息,然后根据文字标签B1和文字标签B2的坐标信息和目标开关组件B的坐标信息,根据坐标匹配算法确定目标开关组件B对应的目标文字标签为文本标签B1,更具体地,可以理解为目标开关组件B对应的目标文字标签B1为“行程出发提醒”。坐标匹配算法具体的实现方式可以参考下文的描述,在此不再赘述。在本申请实施例中文字标签的坐标信息和目标开关组件的坐标信息可以基于上述预设的检测模型获取。
可以看出,当目标开关组件对应的文字标签的数量大于1时,则根据文字标签的坐标信息和目标开关组件的坐标信息确定目标开关组件对应的目标文字标签。如此,可以精准查到目标文字开关组件对应的目标文字标签。
在一种可能的实施方式中,所述根据所述文字标签的坐标信息和所述目标开关组件的坐标信息确定所述目标开关组件对应的目标文字标签,具体可以包括以下步骤:
根据所述文字标签的坐标信息和所述目标开关组件的坐标信息确定所述文字标签和所述目标开关组件的中心点纵坐标;获取所述目标开关组件的高度;计算所述目标开关组件的中心点纵坐标和所述文字标签的中心点坐标的差值;若所述差值大于或等于0且小于所述目标开关组件的高度,则将所述文字标签作为目标文字标签。
在本申请实施例中,当目标页面中的目标开关组件存在多个文字标签时,可以根据坐标匹配算法匹配最合适的文字标签作为目标开关组件的目标文字标签。具体地,可以将目标页面中的左上角作为坐标原点,横坐标向右为正,纵坐标向下为正。目标开关组件对应的目标文字标签可以是根据目标开关组件的中心点纵坐标和文字标签的中心点坐标的差值以及目标开关组件的高度来确定。示例地,坐标匹配算法的坐标匹配条件可以是:若目标开关组件的中心点纵坐标和文字标签的中心点坐标的差值大于或等于0且小于目标开关组件的高度,则将文字标签作为目标文字标签。
示例地,图3所示的目标开关组件B的中心点的坐标为(500,75),文字标签B1的中心点的坐标为(100,50),文字标签B2的中心点的坐标为(150,100),目标开关组件B的高度为20。可以得出目标开关组件B的中心点的纵坐标为75,文字标签B1的中心点的纵坐标为50,而文字标签B2的中心点的纵坐标则为100。可以计算得到目标开关组件B的中心点的纵坐标与文字标签B1的差值1为75-50=25,目标开关组件B的中心点的纵坐标与文字标签B2的差值2为75-100=-25。根据计算结果可以看出,差值1大于0且小于目标开关组件的高度(25大于0且小于20),满足匹配条件,而差值2虽然小于目标开关组件高度,但是差值结果小于0,不满足匹配条件。因此,可以将文字标签B1作为目标开关组件B的目标文字标签。
此外,采用本申请实施例的坐标匹配算法给目标开关组件匹配目标文字标签时,还可以防止目标开关组件B匹配到文字标签A1上。示例地,图3所示的目标开关组件A的中心点的坐标为(490,10),目标开关组件B的中心点的坐标为(500,75),文字标签A1的中心点的坐标为(80,10),目标开关组件A的高度为20,目标开关组件B的高度为20。可以得出目标开关组件A的中心点的纵坐标为10,目标开关组件A的中心点的纵坐标为75,文字标签A1的中心点的纵坐标为10。而文字标签B2的中心点的纵坐标则为100。可以计算得到目标开关组件A的中心点的纵坐标与文字标签A1的差值3为10-10=0,目标开关组件B的中心点的纵坐标与文字标签A1的差值4为75-10=65。根据计算结果可以看出,差值3等于0且小于目标开关组件的高度,满足匹配条件,而差值4虽然大于0,但是差值结果大于目标开关组件的高度(65大于20),不满足匹配条件。因此文字标签A1可以作为目标开关组件A的目标文字标签,而不能作为目标开关组件B的目标文字标签。如此,可以进一步提高匹配精度。
需要说明的是,坐标匹配算法还可以根据不同应用和页面进行扩展,对匹配条件进行适当的修改,以实现不同页面精确查找目标开关组件与目标文字标签的关联,此处不再一一举例说明。
可以看出,根据目标开关组件的中心点纵坐标和文字标签的中心点坐标的差值以及目标开关组件的高度来确定目标开关组件对应的目标文字标签,可以进一步提高匹配结果的准确性和效率。
步骤S203:将所述目标开关组件和所述目标文字标签关联,生成词条。
步骤S204:将所述词条注册到语音模块。
具体地,可以将目标开关组件和目标开关组件对应的目标文字标签关联,并将目标文字标签作为目标开关组件的词条。然后,将词条与目标开关组件保持一一对应关系保存在电子设备的内存中,并将词条发送到语音模块,从而完成将词条注册到语音模块。如此,可以使得包括第三方应用在内的开关组件与开关组件对应的词条也能成功注册到语音模块中,从而可以实现语音交互。
步骤S205:获取用户的语音指令,并与所述语音模块中注册的词条进行匹配,若匹配成功,则根据所述语音指令控制所述目标开关组件的开关状态。
在一种可能的实施方式中,步骤S205具体可以包括以下步骤:
获取用户的语音指令;对所述语音指令进行语音识别,得到识别结果;若所述识别结果在所述语音模块中匹配到对应的词条,查找所述词条关联的目标开关组件;根据所述识别结果控制所述关联的目标开关组件的开关状态。
在本申请实施例中,在获取用户的语音指令之后,可以采用自动语音识别技术(automatic speech recognition,ASR)等技术对语音指令进行语音识别,从而得到识别结果。将识别结果与语音模块中的词条进行匹配,当匹配到对应的词条时,则说明用户的语音指令命中词条,可以从内存中查找词条相关联的目标开关组件,然后识别结果控制关联的目标开关组件的开关状态。例如识别结果为“关闭系统提示音”,则可以使用无障碍服务提供的模拟点击,关闭开关。
可以看出,当用户的语音指令命中词条时,查找词条关联的目标开关组件,并根据语音指令并执行相关操作。如此,可以实现开关组件的可见即可说功能,从而可以提高人机交互的质量。
在一种可能的实施方式中,在获取用户的语音指令之后,还可以包括以下步骤:
对所述语音指令进行声纹识别,判断是否为已注册声纹;若为已注册声纹,则根据所述语音指令控制所述目标开关组件的开关状态。
在本申请实施例中,在获取用户的语音指令之后,对语音指令进行声纹识别,并根据声纹识别结果进行相应处理。当声纹识别结果为发出语音指令的用户的声纹为已注册声纹时,则根据语音指令控制目标开关组件的开关状态。而当声纹识别结果为发出语音指令的用户的声纹为未注册声纹时,则不响应。
声纹(voiceprint)是通过电声学仪器显示的携带言语信息的声波频谱。不同人在讲话时所使用的发声器官(例如舌、牙齿、喉头、肺、鼻腔等)在尺寸和形态方面均存在差异,因此任何两个人的声纹图谱都有差异。由此可见,声纹具有唯一性,可以基于声纹来验证用户的身份。
在本申请实施例中,可以预先采集用户的语音信息进行声纹训练和声纹注册。注册成功后,可以将用户的声纹存储至声纹数据库中。在一种可能的实施方式中,可以通过执行以下步骤来判断发出语音指令的用户的声纹是否为注册声纹:将语音指令输入至声纹识别模型;判断发出语音指令的用户的声纹与声纹数据库中的注册声纹是否匹配;若匹配到对应的声纹,则确定用户的声纹为已注册声纹;否则,确定用户的声纹为未注册声纹。
声纹识别模型可以包括但不限于高斯混合模型(Gaussian mixture model,GMM)、支持向量机(support vector machine,SVM)、深度神经网络(deep neural network,DNN)等等。其中,声纹识别模型可以是文本无关的模型,对于输入的语音指令的内容不做限制。如此,该声纹识别模型可以根据用户任意的语音指令进行身份识别,有利于降低对语音指令内容的依赖性。
可以看出,对用户的语音指令进行识别,判断该用户的声纹是否为已注册声纹,若为已注册声纹,则执行相关操作。如此,通过声纹验证用户的身份,可以提高安全性。
或者,在一种可能的实施方式中,步骤S205还可以包括以下步骤:
若所述词条关联的目标开关组件数量大于1,则获取所述目标开关组件的父节点开关组件;根据所述父节点开关组件和所述语音识别结果生成待确认消息;向所述用户呈现所述待确认消息;获取所述用户的语音确认指令并根据所述语音确认指令控制所述目标开关组件的开关状态。
如前文所述,在实现目标开关组件的语音交互时,首先对语音指令进行语音识别,当用户的语音指令命中词条时,根据语音识别结果控制词条关联的目标开关组件的开关状态。而在实际应用中,往往会出现文字相同的词条关联着不同的目标开关组件,也就是说,不同的目标开关组件对应着相同的词条。例如,用户的语音指令的识别结果为“关闭夜间模式”,语音模块中存储有词条“夜间模式”,但是该词条对应关联着不同的目标开关组件,对应的父节点开关组件的分别是“阅读软件A”和“阅读软件B”。在获取目标开关组件的父节点开关组件之后,根据父节点开关组件和语音识别结果生成待确认消息。示例地,待确认消息可以是“您是要关闭阅读软件A的夜间模式还是关闭阅读软件B的夜间模式呢”。待确认消息可以显示在电子设备的显示屏上,也可以语音播报该待确认消息,以便用户能够及时接收到该待确认消息。在获取用户的语音确认指令(例如“关闭阅读软件A的夜间模式”)之后,再执行相应的操作。
可以看出,在词条关联的目标开关组件数量大于1的情况下,通过获取目标开关组件的父节点开关组件,并根据父节点开关组件和语音识别结果生成待确认消息向用户进行询问。在获取到用户的语音确认指令之后,再执行相应的操作。如此,在相同词条关联多个目标开关组件的情况下,可以避免产生歧义,导致无法实现可见即可说的功能,有利于提高通用性和便利性,从而有利于提高人机交互的质量。
在图2所示的方法中,在对目标页面进行解析,得到目标开关组件之后,获取目标开关组件对应的目标文字标签。然后将目标开关组件和目标文字标签关联,生成词条并将词条注册到语音模块中,可以使得包括第三方应用在内的开关组件与开关组件对应的词条也能成功注册到语音模块中。再获取用户的语音指令,并与语音模块中注册的词条进行匹配,若匹配成功,则根据语音指令控制目标开关组件的开关状态,以实现功能的闭环。如此,可以实现第三方应用的开关组件的可见即可说功能,从而有利于提高人机交互的质量。
上述详细阐述了本申请实施例的方法,下面提供了本申请实施例的装置。
请参照图4,图4是本申请实施例提供的一种语音交互的装置的结构示意图。该装置应用于电子设备。如图4所示,该语音交互的装置400包括处理单元401和获取单元402,各个单元的详细描述如下:
处理单元401用于对目标页面进行解析,得到目标开关组件;还用于将所述目标开关组件和所述目标文字标签关联,生成待注册词条;还用于将所述待注册词条注册到语音模块;
获取单元402用于获取所述目标开关组件对应的目标文字标签;还用于获取语音指令,并与所述语音模块中注册的词条进行匹配,若匹配成功,则根据所述语音指令控制所述目标开关组件的开关状态。
在一种可能的实施方式中,处理单元401具体用于对目标页面进行解析,得到开关组件;获取所述开关组件的布局信息;若所述开关组件为子节点,则将所述开关组件作为目标开关组件;若所述开关组件为父节点,则获取所述开关组件的子节点开关组件并将所述子节点开关组件作为目标开关组件。
在一种可能的实施方式中,获取单元402具体用于查找所述目标开关组件对应的文字标签;若所述文字标签的数量大于1,则获取所述文字标签的坐标信息和所述目标开关组件的坐标信息;根据所述文字标签的坐标信息和所述目标开关组件的坐标信息确定所述目标开关组件对应的目标文字标签。
在一种可能的实施方式中,获取单元402具体用于根据所述文字标签的坐标信息和所述目标开关组件的坐标信息确定所述文字标签和所述目标开关组件的中心点纵坐标;获取所述目标开关组件的高度;计算所述目标开关组件的中心点纵坐标和所述文字标签的中心点坐标的差值;若所述差值大于或等于0且小于所述目标开关组件的高度,则将所述文字标签作为目标文字标签。
在一种可能的实施方式中,获取单元402还用于获取用户的语音指令;对所述语音指令进行语音识别,得到识别结果;若所述识别结果在所述语音模块中匹配到对应的词条,查找所述词条关联的目标开关组件;根据所述识别结果控制所述关联的目标开关组件的开关状态。
在一种可能的实施方式中,处理单元401还用于若所述词条关联的目标开关组件数量大于1,则获取所述目标开关组件的父节点开关组件;根据所述父节点开关组件和所述语音识别结果生成待确认消息;向所述用户呈现所述待确认消息;获取单元402还用于获取所述用户的语音确认指令并根据所述语音确认指令控制所述目标开关组件的开关状态。
在一种可能的实施方式中,处理单元401还用于对所述语音指令进行声纹识别,判断是否为已注册声纹;若为已注册声纹,则根据所述语音指令控制所述目标开关组件的开关状态。
需要说明的是,各个单元的实现还可以对应参照图2所示的方法实施例的相应描述。
请参照图5,图5是本申请实施例提供的一种计算机设备的结构示意图。如图5所示,该计算机设备500包括处理器501、存储器502和通信接口503,其中存储器502存储有计算机程序504。处理器501、存储器502、通信接口503以及计算机程序504之间可以通过总线505连接。
当计算机设备为电子设备时,上述计算机程序504用于执行以下步骤的指令:
对目标页面进行解析,得到目标开关组件;
获取所述目标开关组件对应的目标文字标签;
将所述目标开关组件和所述目标文字标签关联,生成词条;
将所述词条注册到语音模块;
获取用户的语音指令,并与所述语音模块中注册的词条进行匹配,若匹配成功,则根据所述语音指令控制所述目标开关组件的开关状态。
在一种可能的实施方式中,在所述对目标页面进行解析,得到目标开关组件方面,上述计算机程序504具体用于执行以下步骤的指令:
对目标页面进行解析,得到开关组件;
获取所述开关组件的布局信息;
若所述开关组件为子节点,则将所述开关组件作为目标开关组件;
若所述开关组件为父节点,则获取所述开关组件的子节点开关组件并将所述子节点开关组件作为目标开关组件。
在一种可能的实施方式中,在所述获取所述目标开关组件对应的目标文字标签方面,上述计算机程序504具体用于执行以下步骤的指令:
查找所述目标开关组件对应的文字标签;
若所述文字标签的数量大于1,则获取所述文字标签的坐标信息和所述目标开关组件的坐标信息;
根据所述文字标签的坐标信息和所述目标开关组件的坐标信息确定所述目标开关组件对应的目标文字标签。
在一种可能的实施方式中,在所述根据所述文字标签的坐标信息和所述目标开关组件的坐标信息确定所述目标开关组件对应的目标文字标签方面,上述计算机程序504具体用于执行以下步骤的指令:
根据所述文字标签的坐标信息和所述目标开关组件的坐标信息确定所述文字标签和所述目标开关组件的中心点纵坐标;
获取所述目标开关组件的高度;
计算所述目标开关组件的中心点纵坐标和所述文字标签的中心点坐标的差值;
若所述差值大于或等于0且小于所述目标开关组件的高度,则将所述文字标签作为目标文字标签。
在一种可能的实施方式中,在所述获取用户的语音指令,并与所述语音模块中注册的词条进行匹配,若匹配成功,则根据所述语音指令控制所述目标开关组件的开关状态方面,上述计算机程序504具体用于执行以下步骤的指令:
获取用户的语音指令;
对所述语音指令进行语音识别,得到识别结果;
若所述识别结果在所述语音模块中匹配到对应的词条,查找所述词条关联的目标开关组件;
根据所述识别结果控制所述关联的目标开关组件的开关状态。
在一种可能的实施方式中,上述计算机程序504还用于执行以下步骤的指令:
若所述词条关联的目标开关组件数量大于1,则获取所述目标开关组件的父节点开关组件;
根据所述父节点开关组件和所述语音识别结果生成待确认消息;
向所述用户呈现所述待确认消息;
获取所述用户的语音确认指令并根据所述语音确认指令控制所述目标开关组件的开关状态。
在一种可能的实施方式中,在所述获取用户的语音指令之后,上述计算机程序504还用于执行以下步骤的指令:
对所述语音指令进行声纹识别,判断是否为已注册声纹;
若为已注册声纹,则根据所述语音指令控制所述目标开关组件的开关状态。
本领域技术人员可以理解,为了便于说明,图5中仅示出了一个存储器和处理器。在实际的终端或服务器中,可以存在多个处理器和存储器。存储器502也可以称为存储介质或者存储设备等,本申请实施例对此不做限定。
应理解,在本申请实施例中,处理器501可以是中央处理单元(centralprocessing unit,CPU),该处理器还可以是其他通用处理器、数字信号处理器(digitalsignal processing,DSP)、专用集成电路(application specific integrated circuit,ASIC)、现成可编程门阵列(field-programmable gate array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。
还应理解,本申请实施例中提及的存储器502可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(read-only memory,ROM)、可编程只读存储器(programmable ROM,PROM)、可擦除可编程只读存储器(erasable PROM,EPROM)、电可擦除可编程只读存储器(electrically EPROM,EEPROM)或闪存。易失性存储器可以是随机存取存储器(random access memory,RAM),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(static RAM,SRAM)、动态随机存取存储器(dynamic RAM,DRAM)、同步动态随机存取存储器(synchronous DRAM,SDRAM)、双倍数据速率同步动态随机存取存储器(double datarate SDRAM,DDR SDRAM)、增强型同步动态随机存取存储器(enhanced SDRAM,ESDRAM)、同步连接动态随机存取存储器synchronize link DRAM,SLDRAM)和直接内存总线随机存取存储器(direct rambus RAM,DR RAM)。
需要说明的是,当处理器501为通用处理器、DSP、ASIC、FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件时,存储器(存储模块)集成在处理器中。
应注意,本文描述的存储器502旨在包括但不限于这些和任意其它适合类型的存储器。
该总线505除包括数据总线之外,还可以包括电源总线、控制总线和状态信号总线等。但是为了清楚说明起见,在图中将各种总线都标为总线。
在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。结合本申请实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。为避免重复,这里不再详细描述。
在本申请的各种实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各种说明性逻辑块(illustrative logical block,ILB)和步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘)等。
本申请实施例还提供一种计算机存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行以实现如上述方法实施例中记载的任何一种图像分析的方法的部分或全部步骤。
本申请实施例还提供一种计算机程序产品,所述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质,所述计算机程序可操作来使计算机执行如上述方法实施例中记载的任何一种图像分析的方法的部分或全部步骤。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。

Claims (10)

1.一种语音交互的方法,其特征在于,包括:
对目标页面进行解析,得到目标开关组件;
获取所述目标开关组件对应的目标文字标签;
将所述目标开关组件和所述目标文字标签关联,生成词条;
将所述词条注册到语音模块;
获取用户的语音指令,并与所述语音模块中注册的词条进行匹配,若匹配成功,则根据所述语音指令控制所述目标开关组件的开关状态。
2.根据权利要求1所述的方法,其特征在于,所述对目标页面进行解析,得到目标开关组件,包括:
对目标页面进行解析,得到开关组件;
获取所述开关组件的布局信息;
若所述开关组件为子节点,则将所述开关组件作为目标开关组件;
若所述开关组件为父节点,则获取所述开关组件的子节点开关组件并将所述子节点开关组件作为目标开关组件。
3.根据权利要求1所述的方法,其特征在于,所述获取所述目标开关组件对应的目标文字标签,包括:
查找所述目标开关组件对应的文字标签;
若所述文字标签的数量大于1,则获取所述文字标签的坐标信息和所述目标开关组件的坐标信息;
根据所述文字标签的坐标信息和所述目标开关组件的坐标信息确定所述目标开关组件对应的目标文字标签。
4.根据权利要求3所述的方法,其特征在于,所述根据所述文字标签的坐标信息和所述目标开关组件的坐标信息确定所述目标开关组件对应的目标文字标签,包括:
根据所述文字标签的坐标信息和所述目标开关组件的坐标信息确定所述文字标签和所述目标开关组件的中心点纵坐标;
获取所述目标开关组件的高度;
计算所述目标开关组件的中心点纵坐标和所述文字标签的中心点坐标的差值;
若所述差值大于或等于0且小于所述目标开关组件的高度,则将所述文字标签作为目标文字标签。
5.根据权利要求1-4任一项所述的方法,其特征在于,所述获取用户的语音指令,并与所述语音模块中注册的词条进行匹配,若匹配成功,则根据所述语音指令控制所述目标开关组件的开关状态,包括:
获取用户的语音指令;
对所述语音指令进行语音识别,得到识别结果;
若所述识别结果在所述语音模块中匹配到对应的词条,查找所述词条关联的目标开关组件;
根据所述识别结果控制所述关联的目标开关组件的开关状态。
6.根据权利要求5所述的方法,其特征在于,所述方法还包括:
若所述词条关联的目标开关组件数量大于1,则获取所述目标开关组件的父节点开关组件;
根据所述父节点开关组件和所述语音识别结果生成待确认消息;
向所述用户呈现所述待确认消息;
获取所述用户的语音确认指令并根据所述语音确认指令控制所述目标开关组件的开关状态。
7.根据权利要求5所述的方法,其特征在于,在所述获取用户的语音指令之后,还包括:
对所述语音指令进行声纹识别,判断是否为已注册声纹;
若为已注册声纹,则根据所述语音指令控制所述目标开关组件的开关状态。
8.一种语音交互的装置,其特征在于,包括:
处理单元,用于对目标页面进行解析,得到目标开关组件;还用于将所述目标开关组件和所述目标文字标签关联,生成待注册词条;还用于将所述待注册词条注册到语音模块;
获取单元,用于获取所述目标开关组件对应的目标文字标签;还用于获取语音指令,并与所述语音模块中注册的词条进行匹配,若匹配成功,则根据所述语音指令控制所述目标开关组件的开关状态。
9.一种计算机设备,其特征在于,包括处理器、存储器和通信接口,其中,所述存储器存储有计算机程序,所述计算机程序被配置由所述处理器执行,所述计算机程序包括用于执行权利要求1-7中任一项方法中的步骤的指令。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储计算机程序,所述计算机程序使得计算机执行以实现权利要求1-7中任一项所述的方法。
CN202210032578.XA 2022-01-12 2022-01-12 语音交互的方法、装置、设备以及存储介质 Pending CN116469380A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210032578.XA CN116469380A (zh) 2022-01-12 2022-01-12 语音交互的方法、装置、设备以及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210032578.XA CN116469380A (zh) 2022-01-12 2022-01-12 语音交互的方法、装置、设备以及存储介质

Publications (1)

Publication Number Publication Date
CN116469380A true CN116469380A (zh) 2023-07-21

Family

ID=87174045

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210032578.XA Pending CN116469380A (zh) 2022-01-12 2022-01-12 语音交互的方法、装置、设备以及存储介质

Country Status (1)

Country Link
CN (1) CN116469380A (zh)

Similar Documents

Publication Publication Date Title
US11514909B2 (en) Third party account linking for voice user interface
US11227585B2 (en) Intent re-ranker
US11887590B2 (en) Voice enablement and disablement of speech processing functionality
US20200349943A1 (en) Contact resolution for communications systems
US10089981B1 (en) Messaging account disambiguation
US10229680B1 (en) Contextual entity resolution
US11455989B2 (en) Electronic apparatus for processing user utterance and controlling method thereof
CN110223695B (zh) 一种任务创建方法及移动终端
CN109461437B (zh) 唇语识别的验证内容生成方法及相关装置
US20190221208A1 (en) Method, user interface, and device for audio-based emoji input
US20210335360A1 (en) Electronic apparatus for processing user utterance and controlling method thereof
CN111710337B (zh) 语音数据的处理方法、装置、计算机可读介质及电子设备
CN109215638B (zh) 一种语音学习方法、装置、语音设备及存储介质
US11474780B2 (en) Method of providing speech recognition service and electronic device for same
CN110827803A (zh) 方言发音词典的构建方法、装置、设备及可读存储介质
CN110827825A (zh) 语音识别文本的标点预测方法、系统、终端及存储介质
US10950221B2 (en) Keyword confirmation method and apparatus
KR20200080400A (ko) 페르소나에 기반하여 문장을 제공하는 방법 및 이를 지원하는 전자 장치
KR102312993B1 (ko) 인공신경망을 이용한 대화형 메시지 구현 방법 및 그 장치
KR20190122457A (ko) 음성 인식을 수행하는 전자 장치 및 전자 장치의 동작 방법
CN110826637A (zh) 情绪识别方法、系统及计算机可读存储介质
CN109326284A (zh) 语音搜索的方法、装置和存储介质
KR20210036527A (ko) 사용자 발화를 처리하는 전자 장치 및 그 작동 방법
CN111667824A (zh) 智能体装置、智能体装置的控制方法及存储介质
CN110781329A (zh) 图像搜索方法、装置、终端设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination