CN106101789B - 终端的语音交互方法及装置 - Google Patents

终端的语音交互方法及装置 Download PDF

Info

Publication number
CN106101789B
CN106101789B CN201610529267.9A CN201610529267A CN106101789B CN 106101789 B CN106101789 B CN 106101789B CN 201610529267 A CN201610529267 A CN 201610529267A CN 106101789 B CN106101789 B CN 106101789B
Authority
CN
China
Prior art keywords
matching
terminal
information
text information
cloud server
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610529267.9A
Other languages
English (en)
Other versions
CN106101789A (zh
Inventor
韩菁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen TCL Digital Technology Co Ltd
Original Assignee
Shenzhen TCL Digital Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen TCL Digital Technology Co Ltd filed Critical Shenzhen TCL Digital Technology Co Ltd
Priority to CN201610529267.9A priority Critical patent/CN106101789B/zh
Priority to PCT/CN2016/098147 priority patent/WO2018006489A1/zh
Publication of CN106101789A publication Critical patent/CN106101789A/zh
Application granted granted Critical
Publication of CN106101789B publication Critical patent/CN106101789B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/422Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
    • H04N21/42203Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS] sound input device, e.g. microphone
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/27Server based end-user applications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/422Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/422Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
    • H04N21/42204User interfaces specially adapted for controlling a client device through a remote control device; Remote control devices therefor
    • H04N21/42206User interfaces specially adapted for controlling a client device through a remote control device; Remote control devices therefor characterized by hardware details

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Telephonic Communication Services (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种终端的语音交互方法,包括步骤:终端接收语音输入设备输出的音频流,获取所述音频流对应的文本信息;所述终端将所述文本信息上传至所述终端对应运营商构建的云服务器,以通过所述云服务器搜索与所述文本信息对应的输出信息并返回至所述终端;所述终端接收所述云服务器返回的输出信息并输出。本发明还公开了一种终端的语音交互装置。本发明语义识别的操作在终端自身的服务器中识别,无需依赖第三方服务商提供服务,可以根据需求进行调整,灵活性大大增加。

Description

终端的语音交互方法及装置
技术领域
本发明涉及终端技术领域,尤其涉及终端的语音交互方法及装置。
背景技术
随着科学技术的不断发展,越来越多的智能终端进入人们的日常生活和工作当中。例如,以智能电视为例,用户对智能电视的智能化要求越来越高,用户期望通过语音的方式与智能电视交流,达到想要的目的(电视的控制、节目推送或信息推送等)。然而,目前智能电视在智能语音助手这方面还处于初级阶段,需要依赖语音识别技术和语义识别技术。在现有的电视系统上的智能交互系统实现模式都是定制模式,即电视厂商提出需求,由第三方的识别系统定制实现。语音与语义识别一般采取绑定的方式,电视厂商只能在一台电视上选择一个服务提供商来完成语音交互中的语音和语义识别,这种实现模式对于传统的电视企业来说局限性太大,无法根据需求进行调整,灵活性差。
上述内容仅用于辅助理解本发明的技术方案,并不代表承认上述内容是现有技术。
发明内容
本发明的主要目的在于提供一种终端的语音交互方法及装置,旨在解决目前电视厂商只能在一台电视上选择一个服务提供商来完成语音交互中的语音和语义识别,这种实现模式对于传统的电视企业来说局限性太大,无法根据需求进行调整,灵活性差的问题。
为实现上述目的,本发明提供的一种终端的语音交互方法,包括步骤:
终端接收语音输入设备输出的音频流,获取所述音频流对应的文本信息;
所述终端将所述文本信息上传至所述终端对应运营商构建的云服务器,以通过所述云服务器搜索与所述文本信息对应的输出信息并返回至所述终端;
所述终端接收所述云服务器返回的输出信息并输出。
优选地,所述获取所述音频流对应的文本信息的步骤之后,还包括:
终端按照所述文本信息与终端本地数据库预先存储的信息进行匹配操作;
在所述匹配操作成功后,获取匹配操作对应的控制信息;
执行与所述控制信息对应的响应控制操作。
优选地,所述按照所述文本信息与终端本地数据库预先存储的信息进行匹配操作的步骤包括:
终端根据所述文本信息以及预先采集的当前页面的信息计算出匹配参数;
将所述匹配参数与当前页面词条匹配,在当前页面词条匹配成功后,设置与所述当前页面词条匹配的标签。
优选地,所述将所述匹配参数与当前页面词条匹配的步骤之后,还包括:
终端在当前页面词条匹配失败后,将所述匹配参数与全局静态词条匹配,在与全局静态词条匹配成功后,设置与全局静态词条匹配的标签;
在与全局静态词条匹配失败后,将所述匹配参数与应用信息匹配,在与应用信息匹配成功后,设置与应用信息匹配的标签;
在与应用信息匹配失败后,提示匹配操作操作失败。
优选地,所述方法还包括步骤:
在识别出搜索参数后,由云服务器确定搜索参数对应的业务类型,接入与所述业务类型对应的信息商提供信息服务。
此外,为实现上述目的,本发明还提供一种终端的语音交互装置,包括:
接收模块,用于接收语音输入设备输出的音频流;
获取模块,用于获取所述音频流对应的文本信息;
发送模块,用于将所述文本信息上传至所述终端对应运营商构建的云服务器,以通过所述云服务器搜索与所述文本信息对应的输出信息并返回至所述终端;
所述接收模块,还用于接收所述云服务器返回的输出信息;
输出模块,用于输出云服务器返回的输出信息。
优选地,还包括:
匹配模块,用于按照所述文本信息与终端数据库存储的信息进行匹配操作;
所述获取模块,还用于在所述匹配操作成功后,获取匹配操作对应的控制信息;
响应模块,用于执行与所述控制信息对应的响应控制操作;
所述发送模块,用于在匹配操作失败后,将所述文本信息上传至所述终端的云服务器。
优选地,所述匹配模块包括:
计算单元,用于根据所述文本信息以及预先采集的当前页面的信息计算出匹配参数;
匹配单元,用于将所述匹配参数与当前页面词条匹配,在当前页面词条匹配成功后;
设置单元,用于设置与所述当前页面词条匹配的标签。
优选地,所述匹配模块还包括:提示单元,
所述匹配单元,还用于在当前页面词条匹配失败后,将所述匹配参数与全局静态词条匹配;
所述设置单元,还用于在与全局静态词条匹配成功后,设置与全局静态词条匹配的标签;
所述匹配单元,还用于在与全局静态词条匹配失败后,将所述匹配参数与应用信息匹配;
所述设置单元,还用于在与应用信息匹配成功后,设置与应用信息匹配的标签;
所述提示单元,用于在与应用信息匹配失败后,提示匹配操作操作失败。
优选地,在识别出搜索参数后,由云服务器确定搜索参数对应的业务类型,接入与所述业务类型对应的信息商提供信息服务。
本发明终端搭建自己的终端平台的语音交互,通过电视服务器作为接口,自主选择接入的语音识别服务识别服务和语义解析引擎,将语音识别与语义识别分开,不绑定起来,且语义识别的操作在终端自身的服务器中识别,无需依赖第三方服务商提供服务,可以根据需求进行调整,灵活性大大增加。
附图说明
图1为本发明终端的语音交互方法的第一实施例的流程示意图;
图2为本发明终端的语音交互方法的第二实施例的流程示意图;
图3为本发明一实施例中匹配操作的流程示意图;
图4为本发明终端的语音交互方法的第三实施例的流程示意图;
图5为本发明终端的语音交互装置的第一实施例的功能模块示意图;
图6为本发明终端的语音交互装置的第二实施例的功能模块示意图;
图7为图6中匹配模块一实施例的细化功能模块示意图;
图8为本发明一实施例中语音交互业务逻辑示意图;
图9为本发明一实施例中语音交互的流程示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明实施例的主要解决方案是:终端搭建自己的终端平台的语音交互,通过电视服务器作为接口,自主选择接入的语音识别服务识别服务和语义解析引擎,将语音识别与语义识别分开,不绑定起来,且语义识别的操作在终端自身的服务器中识别,无需依赖第三方服务商提供服务,可以根据需求进行调整,灵活性大大增加。
目前存在电视厂商只能在一台电视上选择一个服务提供商来完成语音交互中的语音和语义识别,这种实现模式对于传统的电视企业来说局限性太大,无法根据需求进行调整,灵活性差的问题
基于上述问题,本发明提供一种终端的语音交互方法。
参照图1,图1为本发明终端的语音交互方法的第一实施例的流程示意图。
在一实施例中,所述终端的语音交互方法包括:
步骤S10,终端接收语音输入设备输出的音频流,获取所述音频流对应的文本信息;
在本实施例中,所述语音输入设备为手机或遥控器等,手机可借助微信语音或多屏互动语音模块向终端输入语音;遥控器则为能够支持语音输入功能的遥控器。所述终端优选为电视机,也还可以是被控显示设备。
用户在需要与电视交互时,通过手机与电视连接,所述连接可以是无线或有线的连接。在建立连接后,用户通过手机录入语音,同时手机会将录入的语音实时转化为音频流,传输给电视,或者在一段语音录入结束后,将转换的音频流传输给电视。电视获取所述音频流对应的文本信息。获取过程包括但不限于:1)电视将所述音频流上传到第三方的语音识别服务器,第三方语音识别服务器将对音频流进行识别得到音频流的文本信息,将所述文本信息反馈至电视;2)电视定制或购买了语音识别服务,在电视本端保存定制或者购买的语音识别服务数据库,电视接收到音频流后,通过本地的数据库识别出音频流的文本信息,在电视本端完成音频流转文本信息的过程。以上获取所述音频流对应的文本信息的方式仅仅为示例性说明,而不代表本发明仅仅局限于上述记载的范围。
步骤S20,所述终端将所述文本信息上传至所述终端对应运营商构建的云服务器,以通过所述云服务器搜索与所述文本信息对应的输出信息并返回至所述终端;
电视有自身的云服务器,所述云服务器上加载有语义解析引擎,用以识别音频流的文本信息的语义。在获取到文本信息后,将所述文本信息上传至所述终端的云服务器,例如,在电视为A服务商的,则将文本信息上传至A服务商的云服务器。所述云服务器在接收到文本信息后,根据自身加载的语义解析引擎识别出所述文本信息的搜索参数(进行语义识别,从用户通过语音输入设备发出的语音中识别用户的语义即需求),所述搜索参数为文本信息的关键字信息或者用户的需求信息,例如,是点播服务、歌曲搜索服务或电商服务等。所述搜索参数以关键字信息为例,根据所述关键字信息搜索与所述文本信息对应的输出信息,所述输出信息可以是本地服务器数据库存储的资源,也可以是通过第三方服务商提供的。在搜索到信息后,将所搜索到的输出信息返回至电视。所述输出信息可以是电商推送信息、产品广告信息等。
步骤S30,所述终端接收所述云服务器返回的信息并输出。
电视接收所述云服务器返回的输出信息并输出,所述输出的方式包括直接显示,或者推送至其他与电视连接的终端(例如,手机、pad等)或者播放。本实施例终端搭建自己的终端平台的语音交互,通过电视服务器作为接口,自主选择接入的语音识别服务识别服务和语义解析引擎,将语音识别与语义识别分开,不绑定起来,且语义识别的操作在终端自身的服务器中识别,无需依赖第三方服务商提供服务,可以根据需求进行调整,灵活性大大增加。
参照图2,图2为本发明终端的语音交互方法的第二实施例的流程示意图。基于上述终端的语音交互方法的第一实施例,所述步骤S10之后,还包括:
步骤S40,终端按照所述文本信息与终端本地数据库预先存储的信息进行匹配操作;
步骤S50,在所述匹配操作成功后,获取匹配操作对应的控制信息;
步骤S60,执行与所述控制信息对应的响应控制操作。
在本实施例中,在获取到文本信息后,先进行电视控制的匹配操作。电视存储了控制信息的数据库,例如包括音量加减,上下左右控制,播放、暂停、快进或快退等控制信息。将所述文本信息与终端本地数据库预先存储的信息进行匹配操作在所述匹配操作成功后,获取匹配操作对应的控制信息;执行与所述控制信息对应的响应控制操作;在匹配操作失败后,执行将所述文本信息上传至所述终端的云服务器的过程。
具体的,参考图3,所述按照所述文本信息与终端本地数据库预先存储的信息进行匹配操作的过程包括:
步骤S41,终端根据所述文本信息以及预先采集的当前页面的信息计算出匹配参数;
步骤S42,将所述匹配参数与当前页面词条匹配,在当前页面词条匹配成功后,设置与所述当前页面词条匹配的标签。
步骤S43,在当前页面词条匹配失败后,将所述匹配参数与全局静态词条匹配,在与全局静态词条匹配成功后,设置与全局静态词条匹配的标签;
步骤S44,在与全局静态词条匹配失败后,将所述匹配参数与应用信息匹配,在与应用信息匹配成功后,设置与应用信息匹配的标签;
步骤S45,在与应用信息匹配失败后,提示匹配操作操作失败。
在手机传输音频流至电视的过程中,电视在后台的页面空间收集算法会开始进行电视当前页面可操控控件文本信息的收集,电视获取到文本信息后,进行电视本地模糊匹配操作,通过模糊匹配算法对文本信息和结合场景控件采集的文本计算得到字符匹配数、源匹配度和目标匹配度等数据作为匹配参数,不同的场景下,目标匹配度的设置也不同,根据需求和性能设置,例如可以是0.67或1等。同样也设置匹配的优先顺序,首先优先匹配的是当前页面词条,匹配度要求达到0.67;当前页面词条匹配失败后,就匹配全局静态词条,全局静态词条包括预设的一些全局控制命令,例如,音量加减,上下左右控制等;全局静态词条匹配失效后就匹配播放控制词条,比如暂停、播放、快进或快退等;最后匹配的是应用词条,及本机安装的所有应用名的匹配;除当前词条匹配的目标匹配度为0.67外,其余场景的匹配度都为1,即,必须全匹配才算匹配成功。不同场景的标签定义如下:当前页面匹配成功标签为FUZZY_MATCH,全局静态匹配成功标签为GLOBAL_MATCH,本地应用匹配成功标签为APP_MATCH,播放控制匹配成功标签为PLAYER_MATCH,模糊匹配失败标签为FAIL_MATCH。例如匹配成功标签为FUZZY_MATCH时,代表在当前页面词条中完成匹配,处理当前页面的控制指令;当匹配成功标签为PLAYER_MATCH时,代表在播放控制词条中完成匹配,处理对应的播放控制指令;本地模糊匹配成功,完成对应的控制指令后本次语音交互结束;在匹配失败后,提示匹配操作操作失败,转入与云服务的交互操作,获取用户需求的信息。本实施例通过将匹配操作放在终端本地执行,无需连接第三方去完成匹配操作和控制,有效的提高了终端本地控制效率。
参照图4,图4为本发明终端的语音交互方法的第三实施例的流程示意图。所述方法还包括步骤:
步骤S70,在识别出搜索参数后,由云服务器确定搜索参数对应的业务类型,接入与所述业务类型对应的信息商提供信息服务。
在本实施例中,在识别到用户通过语音输入设备输出的音频流的搜索参数后,即,识别出用户的需求后,由云服务器确定搜索参数对应的业务类型,例如,是需要点播业务、歌曲搜索业务还是电商业务等。云服务器根据识别的搜索参数对应的业务类型,选择接入与所述业务类型对应的信息商提供信息服务。在本发明其他实施例中也还可以是根据需求自定义业务类型,通过终端的服务器这个接口选择合适的信息提供商提供服务。图中仅仅为一个实施例的执行顺序,在本发明其他实施例中,所述步骤S70也可以执行在其他的步骤之前或者之后,可以根据实际需求进行顺序的调整。本实施例基于终端的云平台,有云平台提供接口,自定义扩展业务类型并选择合适的信息商提供信息服务,避免由一个语音服务厂商外包完成所导致的局限性,提高了资助控制的灵活性。
本发明进一步提供一种终端的语音交互装置。
参照图5,图5为本发明终端的语音交互装置的第一实施例的功能模块示意图。
在一实施例中,所述装置包括:接收模块10、获取模块20、发送模块30及输出模块40。
所述接收模块10,用于接收语音输入设备输出的音频流;
所述获取模块20,用于获取所述音频流对应的文本信息;
在本实施例中,所述语音输入设备为手机或遥控器等,手机可借助微信语音或多屏互动语音模块向终端输入语音;遥控器则为能够支持语音输入功能的遥控器。所述终端优选为电视机,也还可以是被控显示设备。
用户在需要与电视交互时,通过手机与电视连接,所述连接可以是无线或有线的连接。在建立连接后,用户通过手机录入语音,同时手机会将录入的语音实时转化为音频流,传输给电视,或者在一段语音录入结束后,将转换的音频流传输给电视。接收模块10接收语音输入设备输出的音频流,获取模块20获取所述音频流对应的文本信息。获取模块20获取过程包括但不限于:1)将所述音频流上传到第三方的语音识别服务器,第三方语音识别服务器将对音频流进行识别得到音频流的文本信息,将所述文本信息反馈至电视;2)电视定制或购买了语音识别服务,在电视本端保存定制或者购买的语音识别服务数据库,接收到音频流后,通过本地的数据库识别出音频流的文本信息,在本端完成音频流转文本信息的过程。以上获取所述音频流对应的文本信息的方式仅仅为示例性说明,而不代表本发明仅仅局限于上述记载的范围。
所述发送模块30,用于将所述文本信息上传至所述终端对应运营商构建的云服务器,以通过所述云服务器搜索与所述文本信息对应的输出信息并返回;
电视有自身的云服务器,所述云服务器上加载有语义解析引擎,用以识别音频流的文本信息的语义。在获取到文本信息后,将所述文本信息上传至所述终端的云服务器,例如,在电视为A服务商的,则将文本信息上传至A服务商的云服务器。所述云服务器在接收到文本信息后,根据自身加载的语义解析引擎识别出所述文本信息的搜索参数(进行语义识别,从用户通过语音输入设备发出的语音中识别用户的语义即需求),所述搜索参数为文本信息的关键字信息或者用户的需求信息,例如,是点播服务、歌曲搜索服务或电商服务等。所述搜索参数以关键字信息为例,根据所述关键字信息搜索与所述文本信息对应的输出信息,所述输出信息可以是本地服务器数据库存储的资源,也可以是通过第三方服务商提供的。在搜索到输出信息后,将所搜索到的输出信息返回至电视。所述信息可以是电商推送信息、产品广告信息等。
所述接收模块10,还用于接收所述云服务器返回的输出信息;
所述输出模块40,用于输出所述云服务器返回的输出信息。
接收模块10接收所述云服务器返回的信息并通过输出模块40输出,所述输出的方式包括直接显示,或者推送至其他与输出模块40连接的终端(例如,手机、pad等)或者播放。本实施例终端搭建自己的终端平台的语音交互,通过电视服务器作为接口,自主选择接入的语音识别服务识别服务和语义解析引擎,将语音识别与语义识别分开,不绑定起来,且语义识别的操作在终端自身的服务器中识别,无需依赖第三方服务商提供服务,可以根据需求进行调整,灵活性大大增加。
参照图6,图6为本发明终端的语音交互装置的第二实施例的功能模块示意图。还包括:匹配模块50和响应模块60,
所述匹配模块50,用于按照所述文本信息与终端本地数据库预先存储的信息进行匹配操作;
所述获取模块20,还用于在所述匹配操作成功后,获取匹配操作对应的控制信息;
所述响应模块60,用于与所述控制信息对应的响应控制操作。
在本实施例中,在获取到文本信息后,先进行电视控制的匹配操作。预先存储了控制信息的数据库,例如包括音量加减,上下左右控制,播放、暂停、快进或快退等控制信息。将所述文本信息与终端本地数据库预先存储的信息进行匹配操作在所述匹配操作成功后,获取匹配操作对应的控制信息;执行与所述控制信息对应的响应控制操作;在匹配操作失败后,执行将所述文本信息上传至所述终端的云服务器的过程。
参考图7,所述匹配模块50包括:
计算单元51,用于根据所述文本信息以及预先采集的当前页面的信息计算出匹配参数;
匹配单元52,用于将所述匹配参数与当前页面词条匹配,在当前页面词条匹配成功后;
设置单元53,用于设置与所述当前页面词条匹配的标签。
所述匹配单元52,还用于在当前页面词条匹配失败后,将所述匹配参数与全局静态词条匹配;
所述设置单元53,还用于在与全局静态词条匹配成功后,设置与全局静态词条匹配的标签;
所述匹配单元52,还用于在与全局静态词条匹配失败后,将所述匹配参数与应用信息匹配;
所述设置单元53,还用于在与应用信息匹配成功后,设置与应用信息匹配的标签;
所述提示单元54,用于在与应用信息匹配失败后,提示匹配操作操作失败。
在手机传输音频流至电视的过程中,计算单元51在后台的页面空间收集算法会开始进行电视当前页面可操控控件文本信息的收集,获取模块20获取到文本信息后,匹配单元52进行电视本地模糊匹配操作,计算单元51通过模糊匹配算法对文本信息和结合场景控件采集的文本计算得到字符匹配数、源匹配度和目标匹配度等数据作为匹配参数,不同的场景下,目标匹配度的设置也不同,根据需求和性能设置,例如可以是0.67或1等。同样也设置匹配的优先顺序,首先优先匹配的是当前页面词条,匹配度要求达到0.67;当前页面词条匹配失败后,就匹配全局静态词条,全局静态词条包括预设的一些全局控制命令,例如,音量加减,上下左右控制等;全局静态词条匹配失效后就匹配播放控制词条,比如暂停、播放、快进或快退等;最后匹配的是应用词条,及本机安装的所有应用名的匹配;除当前词条匹配的目标匹配度为0.67外,其余场景的匹配度都为1,即,必须全匹配才算匹配成功。不同场景的标签定义如下:当前页面匹配成功标签为FUZZY_MATCH,全局静态匹配成功标签为GLOBAL_MATCH,本地应用匹配成功标签为APP_MATCH,播放控制匹配成功标签为PLAYER_MATCH,模糊匹配失败标签为FAIL_MATCH。例如匹配成功标签为FUZZY_MATCH时,代表在当前页面词条中完成匹配,处理当前页面的控制指令;当匹配成功标签为PLAYER_MATCH时,代表在播放控制词条中完成匹配,处理对应的播放控制指令;本地模糊匹配成功,完成对应的控制指令后本次语音交互结束;在匹配失败后,提示单元54提示匹配操作操作失败,转入与云服务的交互操作,获取用户需求的信息。本实施例通过将匹配操作放在终端本地执行,无需连接第三方去完成匹配操作和控制,有效的提高了终端本地控制效率。
进一步地,在识别出搜索参数后,由云服务器确定搜索参数对应的业务类型,接入与所述业务类型对应的信息商提供信息服务。
在本实施例中,在识别到用户通过语音输入设备输出的音频流的搜索参数后,即,识别出用户的需求后,由云服务器确定搜索参数对应的业务类型,例如,是需要点播业务、歌曲搜索业务还是电商业务等。云服务器根据识别的搜索参数对应的业务类型,选择接入与所述业务类型对应的信息商提供信息服务。在本发明其他实施例中也还可以是根据需求自定义业务类型,通过终端的服务器这个接口选择合适的信息提供商提供服务。本实施例基于终端的云平台,有云平台提供接口,自定义扩展业务类型并选择合适的信息商提供信息服务,避免由一个语音服务厂商外包完成所导致的局限性,提高了资助控制的灵活性。
为了更好的描述本发明的实现过程,参考图8,语音交互的业务逻辑图,包括:
本系统(包括上述运行过程的系统,也为云平台)包括几大部分,包括:语音输入模块、本地模糊匹配模块、本地控制模块、业务展示模块、云服务模块;
语音输入即为语音输入设备,本系统支持的语音输入设备有手机和遥控器。手机输入设备可借助微信语音或多屏互动语音模块输入语音;遥控器则支持所有支持语音输入功能遥控器。
本地模糊匹配模块是实现本地控制的关键,包括本地词条的收集和词条的模糊匹配算法。用户的语音输入转换成语音文本后首先给到模糊匹配算法,判断用户当前指令是否匹配到本地词条,如匹配成功返回匹配类型及匹配ID。在做本地模糊匹配时我们设置了本地场景的匹配优先次序,首先匹配当前页面控件词条,匹配不成功则继续匹配预设的静态词条,匹配不成功则继续匹配播放控制词条,匹配不成功则继续匹配本地应用词条,匹配不成功则提交云平台进行语义理解;
本地控制模块则是完成本地控制功能的模块。依据模糊匹配的结果,找到匹配结果对应的控件,完成控制操作。本地控制模块包括查找算法和控制指令。
业务展示模块则指除本地控制外由云平台反馈的结果的展示。例如影视列表、歌曲列表、商品列表等;
云平台模块则包括所有服务器端的处理。在本系统中云平台包括本地服务器和第三方服务器。本地服务器负责和终端业务对接以及和第三方服务器对接,第三方服务器则包括语音识别服务器、语义理解服务和第三方的内容提供商。
本系统的执行流程图如图9所示,现结合图9将整个系统的操作流程详细描述如下:
步骤S100:用户输入语音命令,同时收集算法收集系统当前页面可控控件的词条信息。将语音识别的文本信息传给本地模糊匹配算法进行匹配,匹配成功则进入本地控制模块,执行响应的控制功能,完成一次语音交互体验;匹配不成功则将语音识别的文本信息传给云端的语义理解服务器,语义理解服务器将语义理解的结果反馈给本地服务器;本地服务器根据语义理解反馈的关键字去资源库搜素对应内容交给业务展示模块;业务展示模块将本地服务器反馈的内容在终端进行合理的展示。从而完成一次语音交互体验。
该系统在电视平台搭建了一套语音识别、语义理解和业务内容接入标准框架。作为传统电视厂商,可以自主选择合作方接入,我们可以自主选择语音识别服务引擎,也可以自主规划终端业务接入类型。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种终端的语音交互方法,其特征在于,包括步骤:
终端接收语音输入设备输出的音频流,所述终端或与所述终端关联的第三方服务器对所述音频流进行语音识别,获取所述音频流对应的文本信息;
所述终端将所述文本信息上传至所述终端对应运营商构建的云服务器,以通过所述云服务器对所述文本信息进行语义识别,搜索与所述文本信息对应的输出信息并返回至所述终端;
所述终端接收所述云服务器返回的输出信息并输出。
2.如权利要求1所述的终端的语音交互方法,其特征在于,所述获取所述音频流对应的文本信息的步骤之后,还包括:
终端按照所述文本信息与终端本地数据库预先存储的信息进行匹配操作;
在所述匹配操作成功后,获取匹配操作对应的控制信息;
执行与所述控制信息对应的响应控制操作。
3.如权利要求2所述的终端的语音交互方法,其特征在于,所述按照所述文本信息与终端本地数据库预先存储的信息进行匹配操作的步骤包括:
终端根据所述文本信息以及预先采集的当前页面的信息计算出匹配参数;
将所述匹配参数与当前页面词条匹配,在当前页面词条匹配成功后,设置与所述当前页面词条匹配的标签。
4.如权利要求3所述的终端的语音交互方法,其特征在于,所述将所述匹配参数与当前页面词条匹配的步骤之后,还包括:
终端在当前页面词条匹配失败后,将所述匹配参数与全局静态词条匹配,在与全局静态词条匹配成功后,设置与全局静态词条匹配的标签;
在与全局静态词条匹配失败后,将所述匹配参数与应用信息匹配,在与应用信息匹配成功后,设置与应用信息匹配的标签;
在与应用信息匹配失败后,提示匹配操作操作失败。
5.如权利要求1至4任一项所述的终端的语音交互方法,其特征在于,所述方法还包括步骤:
在识别出搜索参数后,由云服务器确定搜索参数对应的业务类型,接入与所述业务类型对应的信息商提供信息服务。
6.一种终端的语音交互装置,其特征在于,包括:
接收模块,用于接收语音输入设备输出的音频流;
获取模块,用于对所述音频流进行语音识别,获取所述音频流对应的文本信息;
发送模块,用于将所述文本信息上传至所述终端对应运营商构建的云服务器,以通过所述云服务器对所述文本信息进行语义识别,搜索与所述文本信息对应的输出信息并返回至所述终端;
所述接收模块,还用于接收所述云服务器返回的输出信息;
输出模块,用于输出云服务器返回的输出信息。
7.如权利要求6所述的终端的语音交互装置,其特征在于,还包括:
匹配模块,用于按照所述文本信息与终端本地数据库预先存储的信息进行匹配操作;
所述获取模块,还用于在所述匹配操作成功后,获取匹配操作对应的控制信息;
响应模块,用于执行与所述控制信息对应的响应控制操作;
所述发送模块,用于在匹配操作失败后,将所述文本信息上传至所述终端的云服务器。
8.如权利要求7所述的终端的语音交互装置,其特征在于,所述匹配模块包括:
计算单元,用于根据所述文本信息以及预先采集的当前页面的信息计算出匹配参数;
匹配单元,用于将所述匹配参数与当前页面词条匹配,在当前页面词条匹配成功后;
设置单元,用于设置与所述当前页面词条匹配的标签。
9.如权利要求8所述的终端的语音交互装置,其特征在于,所述匹配模块还包括:提示单元,
所述匹配单元,还用于在当前页面词条匹配失败后,将所述匹配参数与全局静态词条匹配;
所述设置单元,还用于在与全局静态词条匹配成功后,设置与全局静态词条匹配的标签;
所述匹配单元,还用于在与全局静态词条匹配失败后,将所述匹配参数与应用信息匹配;
所述设置单元,还用于在与应用信息匹配成功后,设置与应用信息匹配的标签;
所述提示单元,用于在与应用信息匹配失败后,提示匹配操作操作失败。
10.如权利要求6至9任一项所述的终端的语音交互装置,其特征在于,在识别出搜索参数后,由云服务器确定搜索参数对应的业务类型,接入与所述业务类型对应的信息商提供信息服务。
CN201610529267.9A 2016-07-06 2016-07-06 终端的语音交互方法及装置 Active CN106101789B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201610529267.9A CN106101789B (zh) 2016-07-06 2016-07-06 终端的语音交互方法及装置
PCT/CN2016/098147 WO2018006489A1 (zh) 2016-07-06 2016-09-06 终端的语音交互方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610529267.9A CN106101789B (zh) 2016-07-06 2016-07-06 终端的语音交互方法及装置

Publications (2)

Publication Number Publication Date
CN106101789A CN106101789A (zh) 2016-11-09
CN106101789B true CN106101789B (zh) 2020-04-24

Family

ID=57213435

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610529267.9A Active CN106101789B (zh) 2016-07-06 2016-07-06 终端的语音交互方法及装置

Country Status (2)

Country Link
CN (1) CN106101789B (zh)
WO (1) WO2018006489A1 (zh)

Families Citing this family (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108109618A (zh) * 2016-11-25 2018-06-01 宇龙计算机通信科技(深圳)有限公司 语音交互方法、系统以及终端设备
CN106782561A (zh) * 2016-12-09 2017-05-31 深圳Tcl数字技术有限公司 语音识别方法和系统
CN106792047B (zh) * 2016-12-20 2020-05-05 Tcl科技集团股份有限公司 一种智能电视的语音控制方法及系统
CN107845384A (zh) * 2017-10-30 2018-03-27 江西博瑞彤芸科技有限公司 一种语音识别方法
CN109785844A (zh) * 2017-11-15 2019-05-21 青岛海尔多媒体有限公司 用于智能电视交互操作的方法及装置
CN109741749B (zh) * 2018-04-19 2020-03-27 北京字节跳动网络技术有限公司 一种语音识别的方法和终端设备
CN110444200B (zh) * 2018-05-04 2024-05-24 北京京东尚科信息技术有限公司 信息处理方法、电子设备、服务器、计算机系统及介质
CN108877797A (zh) * 2018-06-26 2018-11-23 上海早糯网络科技有限公司 主动交互式的智能语音系统
CN110164411A (zh) * 2018-07-18 2019-08-23 腾讯科技(深圳)有限公司 一种语音交互方法、设备及存储介质
CN110795175A (zh) * 2018-08-02 2020-02-14 Tcl集团股份有限公司 模拟控制智能终端的方法、装置及智能终端
CN109584870A (zh) * 2018-12-04 2019-04-05 安徽精英智能科技有限公司 一种智能语音交互服务方法及系统
CN111801731B (zh) * 2019-01-22 2024-02-13 京东方科技集团股份有限公司 语音控制方法、语音控制装置以及计算机可执行非易失性存储介质
CN109979449A (zh) * 2019-02-15 2019-07-05 江门市汉的电气科技有限公司 一种智能灯具的语音控制方法、装置、设备和存储介质
CN109859761A (zh) * 2019-02-22 2019-06-07 安徽卓上智能科技有限公司 一种智能语音交互控制方法
CN109785840B (zh) * 2019-03-05 2021-01-29 湖北亿咖通科技有限公司 自然语言识别的方法、装置及车载多媒体主机、计算机可读存储介质
CN110335602A (zh) * 2019-07-10 2019-10-15 青海中水数易信息科技有限责任公司 一种具有语音识别功能的河长制信息化系统
CN110517690A (zh) * 2019-08-30 2019-11-29 四川长虹电器股份有限公司 语音控制功能的引导方法及系统
CN110600003A (zh) * 2019-10-18 2019-12-20 北京云迹科技有限公司 机器人的语音输出方法、装置、机器人和存储介质
CN111223485A (zh) * 2019-12-19 2020-06-02 深圳壹账通智能科技有限公司 智能交互方法、装置、电子设备及存储介质
CN111176607A (zh) * 2019-12-27 2020-05-19 国网山东省电力公司临沂供电公司 一种基于电力业务的语音交互系统及方法
CN111367492B (zh) * 2020-03-04 2023-07-18 深圳市腾讯信息技术有限公司 网页页面展示方法及装置、存储介质
CN111475241B (zh) * 2020-04-02 2022-03-11 深圳创维-Rgb电子有限公司 一种界面的操作方法、装置、电子设备及可读存储介质
CN111627440A (zh) * 2020-05-25 2020-09-04 红船科技(广州)有限公司 一种基于三维虚拟人物和语音识别实现交互的学习系统
CN112767943A (zh) * 2021-02-26 2021-05-07 湖北亿咖通科技有限公司 一种语音交互系统
CN115396709A (zh) * 2022-08-22 2022-11-25 海信视像科技股份有限公司 显示设备、服务器及免唤醒语音控制方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102740014A (zh) * 2011-04-07 2012-10-17 青岛海信电器股份有限公司 语音控制电视机、电视系统及通过语音控制电视机的方法
CN103188409A (zh) * 2011-12-29 2013-07-03 上海博泰悦臻电子设备制造有限公司 语音自动应答云端服务器、系统及方法
CN104506901A (zh) * 2014-11-12 2015-04-08 科大讯飞股份有限公司 基于电视场景状态及语音助手的语音辅助方法及系统
CN104599669A (zh) * 2014-12-31 2015-05-06 乐视致新电子科技(天津)有限公司 一种语音控制方法和装置
CN105161106A (zh) * 2015-08-20 2015-12-16 深圳Tcl数字技术有限公司 智能终端的语音控制方法、装置及电视机系统
CN105512182A (zh) * 2015-11-25 2016-04-20 深圳Tcl数字技术有限公司 语音控制方法及智能电视
CN105551488A (zh) * 2015-12-15 2016-05-04 深圳Tcl数字技术有限公司 语音控制方法及系统

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102957711A (zh) * 2011-08-16 2013-03-06 广州欢网科技有限责任公司 在电视上通过语音进行网址定位的方法及系统
CN103176591A (zh) * 2011-12-21 2013-06-26 上海博路信息技术有限公司 一种基于语音识别的文本定位和选择方法
CN103093755B (zh) * 2012-09-07 2016-05-11 深圳市信利康电子有限公司 基于终端及互联网语音交互的网络家电控制方法及系统
CN102855872B (zh) * 2012-09-07 2015-08-05 深圳市信利康电子有限公司 基于终端及互联网语音交互的家电控制方法及系统
CN105609104A (zh) * 2016-01-22 2016-05-25 北京云知声信息技术有限公司 一种信息处理方法、装置及智能语音路由控制器

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102740014A (zh) * 2011-04-07 2012-10-17 青岛海信电器股份有限公司 语音控制电视机、电视系统及通过语音控制电视机的方法
CN103188409A (zh) * 2011-12-29 2013-07-03 上海博泰悦臻电子设备制造有限公司 语音自动应答云端服务器、系统及方法
CN104506901A (zh) * 2014-11-12 2015-04-08 科大讯飞股份有限公司 基于电视场景状态及语音助手的语音辅助方法及系统
CN104599669A (zh) * 2014-12-31 2015-05-06 乐视致新电子科技(天津)有限公司 一种语音控制方法和装置
CN105161106A (zh) * 2015-08-20 2015-12-16 深圳Tcl数字技术有限公司 智能终端的语音控制方法、装置及电视机系统
CN105512182A (zh) * 2015-11-25 2016-04-20 深圳Tcl数字技术有限公司 语音控制方法及智能电视
CN105551488A (zh) * 2015-12-15 2016-05-04 深圳Tcl数字技术有限公司 语音控制方法及系统

Also Published As

Publication number Publication date
WO2018006489A1 (zh) 2018-01-11
CN106101789A (zh) 2016-11-09

Similar Documents

Publication Publication Date Title
CN106101789B (zh) 终端的语音交互方法及装置
CN109325097B (zh) 一种语音引导方法及装置、电子设备、存储介质
US10311877B2 (en) Performing tasks and returning audio and visual answers based on voice command
KR102004872B1 (ko) 전자장치, 서버 및 그 제어방법
CN105391730A (zh) 一种信息反馈方法、装置及系统
US20190213209A1 (en) Information search method and apparatus
EP2961172A1 (en) Method and device for information acquisition
CN109688475B (zh) 视频播放跳转方法、系统及计算机可读存储介质
KR101511297B1 (ko) 객체에 대한 부가정보를 생성하는 장치 및 방법 그리고, 부가정보를 공유하는 서버
CN103699530A (zh) 根据语音输入信息在目标应用中输入文本的方法与设备
US20180173714A1 (en) Search results integrated with interactive conversation service interface
CN103914234A (zh) 交互服务器及其控制方法和交互系统
US20130041666A1 (en) Voice recognition apparatus, voice recognition server, voice recognition system and voice recognition method
CN110609957B (zh) 一种进行全局搜索的方法、终端和服务器
CN108694827B (zh) 一种家用电器语音控制的方法、装置及中控设备
CN108170785B (zh) 终端搜索操作的引导方法、装置及计算机可读存储介质
CN113921004A (zh) 智能设备控制方法、装置、存储介质和电子设备
CN110728981A (zh) 一种交互功能的执行方法、装置、电子设备及存储介质
CN104980807B (zh) 一种用于多媒体互动的方法及终端
CN112732379A (zh) 智能终端上应用程序的运行方法、终端和存储介质
CN108509442B (zh) 搜索方法和装置、服务器以及计算机可读存储介质
CN113793588A (zh) 智能语音提示方法、装置、设备及存储介质
CN113314115A (zh) 终端设备的语音处理方法、终端设备及可读存储介质
CN112309387A (zh) 用于处理信息的方法和装置
CN113126744A (zh) 虚拟营业厅系统、业务处理方法、电子设备及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant