CN111968638A - 一种语音控制显示终端的方法、系统、设备以及存储介质 - Google Patents
一种语音控制显示终端的方法、系统、设备以及存储介质 Download PDFInfo
- Publication number
- CN111968638A CN111968638A CN202010815826.9A CN202010815826A CN111968638A CN 111968638 A CN111968638 A CN 111968638A CN 202010815826 A CN202010815826 A CN 202010815826A CN 111968638 A CN111968638 A CN 111968638A
- Authority
- CN
- China
- Prior art keywords
- voice
- user
- processing terminal
- terminal
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 41
- 238000012545 processing Methods 0.000 claims abstract description 156
- 230000009471 action Effects 0.000 claims abstract description 19
- 230000009467 reduction Effects 0.000 claims description 47
- 238000004590 computer program Methods 0.000 claims description 11
- 238000009877 rendering Methods 0.000 claims description 8
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 238000004891 communication Methods 0.000 description 13
- 238000010586 diagram Methods 0.000 description 9
- 238000012544 monitoring process Methods 0.000 description 9
- 230000003993 interaction Effects 0.000 description 8
- 230000002159 abnormal effect Effects 0.000 description 5
- 238000013461 design Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 238000012423 maintenance Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1822—Parsing for meaning understanding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N7/00—Television systems
- H04N7/18—Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Artificial Intelligence (AREA)
- Signal Processing (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
本申请涉及一种语音控制显示终端的方法、系统、设备以及存储介质,其中,该语音控制显示终端的方法包括:语音处理终端获取用户语音数据;语音处理终端对用户语音数据进行语义识别以获取用户意图;语音处理终端生成与用户意图相对应的控制指令;语音处理终端调用显示终端执行与控制指令相对应的执行动作,通过本申请,解决了不能灵活方便地操控显示终端的问题,实现了对显示终端的灵活操控,提高了工作的效率和时效性。
Description
技术领域
本申请涉及语音交互领域,特别是涉及一种语音控制显示终端的方法、系统、设备以及存储介质。
背景技术
目前车站、商场或其他公共区域一般设置有若干显示屏以展示工作信息或广告信息,且可以通过监控室来实现对显示屏的监控、调度以及切换。现有的监控室一般是在基于B/S架构的浏览器上通过鼠标来实现对显示屏所展示的内容进行监控、调度以及切换。如在商场可以通过浏览器对监控画面进行切换;且一些大型企业或社区BI报表展示除了使用基于B/S架构的浏览器对显示屏进行监控、调度以及切换之外,还可以通过触控或输入文本命令以实现对显示屏的监控、调度以及切换。
相关技术中,在通过基于B/S架构的浏览器对显示屏进行监控、调度以及切换的情况下,一般需要使用鼠标点击切换,不是非常方便,操作区域以及灵活性都会受到限制;在一些大型企业或社区BI报表展示使用触控以实现监控、调度以及切换的情况下,若显示屏较大或设置的较高,会发生无法触控完成;在通过文本输入控制指令的情况下,因为比较依赖于输入设备,所以并不能灵活地实现对显示屏的监控、调度以及切换。
目前针对相关技术中不能灵活方便地操控显示终端的问题,尚未提出有效地解决方案。
发明内容
本申请实施例提供了一种语音控制显示终端的方法、系统、设备以及存储介质,以至少解决相关技术中不能灵活方便地操控显示终端的问题。
本发明的第一个方面,提供了一种语音控制显示终端的方法,包括:
语音处理终端获取用户语音数据;
所述语音处理终端对所述用户语音数据进行语义识别以获取用户意图;
所述语音处理终端生成与所述用户意图相对应的控制指令;
所述语音处理终端调用显示终端执行与所述控制指令相对应的执行动作。
进一步地,在所述语音处理终端获取用户语音数据之前,所述方法还包括:
所述语音处理终端获取手持终端发送的经过降噪处理的用户语音数据。
进一步地,对所述语音处理终端所述用户语音数据进行语义识别以获取用户意图包括:
所述语音处理终端将所述用户语音数据转换为文本数据;
所述语音处理终端对所述文本数据进行语义理解以获取用户意图。
进一步地,在所述语音处理终端将所述用户语音数据转换为文本数据之后,所述方法还包括:
所述语音处理终端显示所述文本数据;
所述语音处理终端渲染所述文本数据,以生成图形用户界面。
本发明的第二个方面,提供了一种语音控制显示终端的系统,包括:
手持终端,用于获取用户语音数据并生成降噪语音数据;
语音处理终端,用于获取所述降噪语音数据,并对所述降噪语音数据进行语义识别以获取用户意图,生成与用户意图相对应的控制指令;
显示终端,用于执行与所述控制指令相对应的执行动作。
进一步地,所述手持终端还包括:
降噪模块,用于对所述用户语音数据进行降噪处理以生成所述降噪语音数据。
进一步地,所述语音处理终端还包括:
转换模块,用于将所述降噪语音数据转换为文本数据;
语义识别模块,用于对文本数据进行语义识别以获取用户意图。
进一步地,所述语音处理终端还包括:
显示模块,用于显示所述文本数据;
渲染模块,用于渲染所述文本数据,以生成图形用户界面。
本发明的第三个方面,提供了一种计算机设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如第一方面中任一项所述的语音控制显示终端的方法。
本发明的第四个方面,提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如第一方面中任一项所述的语音控制显示终端的方法。
相比于相关技术,本申请实施例提供的一种语音控制显示终端的方法、系统、设备以及存储介质,通过语音处理终端获取用户语音数据;语音处理终端对用户语音数据进行语义识别以获取用户意图;语音处理终端生成与用户意图相对应的控制指令;语音处理终端调用显示终端执行与控制指令相对应的执行动作,解决了不能灵活方便地操控显示终端的问题,实现了对显示终端的灵活操控,提高了工作的效率和时效性。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本发明实施例的一种语音控制显示终端的方法的流程图一;
图2是根据本发明实施例的一种语音控制显示终端的方法的流程图二;
图3是根据本发明实施例的一种语音控制显示终端的方法的流程图三;
图4是根据本发明实施例的一种语音控制显示终端的方法的流程图四;
图5是根据本发明实施例的一种语音控制显示终端的系统的结构框图一;
图6是根据本发明实施例的一种语音控制显示终端的系统的结构框图二;
图7是根据本发明实施例的一种语音控制显示终端的系统的结构框图三;
图8是根据本发明实施例的一种语音控制显示终端的系统的结构框图四;
图9是根据本发明实施例的一种语音控制显示终端的系统的应用场景示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行描述和说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。基于本申请提供的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
显而易见地,下面描述中的附图仅仅是本申请的一些示例或实施例,对于本领域的普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图将本申请应用于其他类似情景。此外,还可以理解的是,虽然这种开发过程中所作出的努力可能是复杂并且冗长的,然而对于与本申请公开的内容相关的本领域的普通技术人员而言,在本申请揭露的技术内容的基础上进行的一些设计,制造或者生产等变更只是常规的技术手段,不应当理解为本申请公开的内容不充分。
在本申请中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域普通技术人员显式地和隐式地理解的是,本申请所描述的实施例在不冲突的情况下,可以与其它实施例相结合。
除非另作定义,本申请所涉及的技术术语或者科学术语应当为本申请所属技术领域内具有一般技能的人士所理解的通常意义。本申请所涉及的“一”、“一个”、“一种”、“该”等类似词语并不表示数量限制,可表示单数或复数。本申请所涉及的术语“包括”、“包含”、“具有”以及它们任何变形,意图在于覆盖不排他的包含;例如包含了一系列步骤或模块(单元)的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可以还包括没有列出的步骤或单元,或可以还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。本申请所涉及的“连接”、“相连”、“耦接”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电气的连接,不管是直接的还是间接的。本申请所涉及的“多个”是指两个或两个以上。“和/或”描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。本申请所涉及的术语“第一”、“第二”、“第三”等仅仅是区别类似的对象,不代表针对对象的特定排序。
本发明提供的一种语音控制显示终端的方法,系统、设备以及存储介质,可应用于显示终端控制领域,通过手持终端获取用户语音数据,然后将用户语音数据进行降噪处理后发送到语音处理终端,在语音处理终端对该用户语音数据进行语义识别的情况下,获取与该用户语音数据相对应的用户意图,然后语音处理终端根据用户意图生成控制指令,最后语音处理终端调用显示终端执行与控制指令相对应的执行动作。解决了现有的不能灵活方便地操控显示终端的问题,提高了对显示终端的操作便捷性,节约了操作时间,提高了后台工作人员的工作效率。
图1是根据本发明实施例的一种语音控制显示终端的方法的流程图一,请参见图1,该方法包括如下步骤:
步骤S102,语音处理终端获取用户语音数据;
步骤S104,语音处理终端对用户语音数据进行语义识别以获取用户意图;
步骤S106,语音处理终端生成与用户意图相对应的控制指令;
步骤S108,语音处理终端调用显示终端执行与控制指令相对应的执行动作。
其中,语音处理终端获取用户语音数据包括获取远程终端发送的用户语音数据、直接获取用户语音数据。
在一些实施例中,在语音处理终端获取远程终端发送的用户语音数据的情况下,语音处理终端能够远程接收用户语音数据,进而能够通过远程终端远程控制显示终端。
例如,语音处理终端获取手持终端发送用户语音数据,其中,手持终端可以远离语音处理终端放置,手持终端内部设置有若干麦克风阵列,在手持终端接收到用户语音数据的情况下,手持终端将用户语音数据发送到语音处理终端,语音处理终端对该用户语音数据进行语义识别以获取用户意图,然后根据用户意图生成控制指令,语音处理终端调用显示终端执行与控制指令相对应的执行动作,从而实现远程控制显示终端。
在一些实施例中,语音处理终端可以直接获取邻近用户的用户语音数据,以实现对显示终端进行现场控制。
例如,可以在语音处理终端内部设置一语音芯片,从而使语音处理终端能够执行录音操作,进而使语音处理终端可以直接获取用户语音数据,并对用户语音数据进行语义识别以获取用户意图,语音处理终端生成与用户意图相对应的控制指令,语音处理终端根据该控制指令实现对显示终端的现场控制。
在一些实施例中,可以在语音处理终端内部设置降噪模块,通过降噪模块对用户语音信息进行降噪处理,从而使语音处理终端能够排除外界噪音或自身的内部噪音,进而准确地获取用户语音数据,解决了在语音处理终端处于较为嘈杂环境的情况下,语音处理终端不能准确地识别用户意图的问题。具体地,在语音处理终端直接获取邻近用户的用户语音数据的情况下,若邻近用户所处的环境较为嘈杂,语音处理终端可以通过降噪模块清晰准确地获取用户语音数据,进而准确地获取用户意图,提升用户的人机交互体验。
其中,语音处理终端可以仅获取一用户语音数据,也可以同时获取若干用户语音数据。
在一些实施例中,在语音处理终端仅获取一用户语音数据的情况下,语音处理终端对用户语音数据进行语义识别并获取一用户意图。
例如,在用户语音数据为“打开浏览器”的情况下,此时语音处理终端对该用户语音数据进行语义识别从而获取用户意图,然后根据用户意图生成一控制指令,即“打开浏览器”,然后语音处理终端调用显示终端执行该控制指令,也即“打开浏览器”。
在一些实施例中,在语音处理终端仅获取一用户语音数据的情况下,语音处理终端对用户语音数据进行语义识别并获取若干用户意图。
例如,在用户语音数据为“播放音乐”的情况下,此时语音处理终端对用户语音数据进行识别,以获取用户意图“播放音乐”,然后生成与该用户意图相对应的若干控制指令,即“打开音乐软件”、“播放音乐”,然后语音处理终端根据该若干控制指令调用显示终端执行相对应的执行动作,也即显示终端打开音乐软件,然后播放音乐。
在一些实施例中,在语音处理终端获取若干用户语音数据的情况下,语音处理终端依次对该若干用户语音数据进行语义识别,并生成若干控制指令,且语音处理终端调用显示终端依次执行该控制指令。
例如,在第一用户语音数据为“打开音乐软件”,第二用户语音数据为“打开视频播放软件”的情况下,此时语音处理终端对第一用户语音数据进行语义识别,获取第一用户意图,然后对第二用户语音数据进行语义识别,获取第二用户意图,然后语音处理终端生成与第一用户意图相对应的第一控制指令,生成与第二用户意图相对应的第二控制指令,最后语音处理终端调用显示终端依次执行与第一控制指令、第二控制指令相对应的执行动作,也即显示终端先打开音乐软件,然后打开视频播放器。
通过步骤S102至步骤S104,解决了相关技术中不能灵活方便对操控显示终端的问题,实现了远程语音控制显示终端的技术效果。
图2是本发明实施例的一种语音控制显示终端的方法的流程图二,请参见图2,在获取用户语音数据之前,该方法还包括:
步骤S202,语音处理终端获取手持终端发送的经过降噪处理的用户语音数据。
其中,语音处理终端可以获取手持终端发送的经过降噪处理的用户语音数据,从而能够准确的识别用户意图,然后根据该用户意图生成控制指令,并根据控制指令调用显示终端执行相对应的执行动作。
其中,降噪处理包括通过硬件模块对用户语音数据进行降噪处理、通过软件模块对用户语音数据进行降噪处理以及同时通过硬件模块和软件模块对用户语音数据进行降噪处理,从而使语音处理终端获取清晰而准确的用户语音数据,使语音处理终端准确地获取用户意图,使语音处理终端能够准确地根据用户意图生成准确的控制指令,进而使语音处理终端能够准确地控制显示终端执行相对应的执行动作,进而提高了用户的人机交互体验。
在一些实施例中,在语音处理终端获取手持终端发送的经过降噪处理的用户语音数据的情况下,可以再次对该用户语音数据进行降噪处理,以获取更为准确的用户语音数据。例如,在语音处理终端获取到手持终端经过降噪处理的用户语音数据的情况下,语音处理终端可以通过内部的降噪模块以对该用户语音数据进行二次降噪处理,以实现获取准确的用户语音数据,进而实现准确地获取用户意图以及生成与用户意图相对应的控制指令,进而准确地控制显示终端执行相对应的执行动作,从而提高用户的人机交互体验。
通过步骤S202,语音处理终端接收经过降噪处理的用户语音数据,在用户处于嘈杂环境的情况下,语音处理终端能够清晰且准确地接收用户语音数据,从而能够准确地获取用户意图,进而提高了人机交互体验,并提高了工作效率以及操作便捷性。
图3是根据本发明实施例的一种语音控制显示终端的方法的流程图三,请参见图3,对用户语音数据进行语义识别以获取用户意图包括如下步骤:
步骤S302,语音处理终端将用户语音数据转换为文本数据;
步骤S304,语音处理终端对文本数据进行语义理解以获取用户意图。
其中,语音处理终端对用户语音数据进行语义识别以获取用户意图包括语音处理终端将用户语音数据转换为文本数据,然后对该文本数据进行语义理解以获取用户意图。
例如,在用户语音数据为“我要打开音乐播放软件”的情况下,此时可以将该用户语音数据转换为文本数据,即“我要打开音乐播放软件”,然后语音处理终端对该文本数据进行语义理解以获取用户意图,即“打开音乐播放软件”。
通过步骤S302至步骤S304,语音处理终端能够通过语义识别实时获取用户意图,从而能够实时调用显示终端执行与用户意图相对应的执行动作。
图4是根据本发明实施例的一种语音控制显示终端的方法的流程图四,请参见图4,在将用户语音数据转换为文本数据之后,该方法还包括:
步骤S402,语音处理终端显示文本数据;
步骤S404,语音处理终端渲染文本数据,以生成图形用户界面。
其中,在语音处理终端获取用户语音数据,并将该用户语音数据转换为文本数据的情况下,语音处理终端可以显示该文本数据,从而能够使用户实时观察到所转换的文本是否正确,在不正确的情况下,用户可以重新输入用户语音数据,以使语音处理终端能够获取正确的用户意图。
例如,在用户输入的文本数据为“打开音乐播放软件”的情况下,语音处理终端将用户语音数据转换为文本数据,若该文本数据为“打开软件”,则说明此时语音处理终端没有准确地获取到用户语音数据,或者语音处理终端在获取到用户语音数据的情况下,没有将用户语音数据转换为用户所需要的文本数据,此时用户可以重新输入用户语音数据,以获取正确的文本数据,以使语音处理终端能够准确地获取用户意图。
其中,在语音处理终端获取到文本数据的情况下,可以根据该文本数据,渲染生成图形用户界面,使用户能够根据图形用户界面进行下一步操作。
例如,在第一用户语音数据为“打开音乐播放软件”的情况下,语音处理终端可以渲染生成与音乐播放软件相对应的图形用户界面,用户可以根据该图形用户界面输入第二用户语音数据控制显示终端执行相对应的执行动作,如该图形用户界面可以包括“上一首”、“播放”、“暂停”、“下一首”,用户可以在显示终端播放音乐的情况下,输入第二语音数据“播放下一首”控制显示终端将当前播放的音乐切换到下一首。
通过步骤S402至步骤S404,用户能够实时观察到语音处理终端所转换的文本数据,从而使用户能够通过语音处理终端实时观察到自己所输入的指令是否正确,进一步提高了用户的人机交互体验。
对应于上述一种语音控制显示终端的方法,本发明还提供了一种语音控制显示终端的系统,用于实现上述实施例以及优选实施例,已经进行过说明的不在进行赘述。
图5是根据本发明实施例的一种语音控制显示终端的系统的结构框图一,请参见图5,包括:
手持终端510,用于获取用户语音数据并生成降噪语音数据;
语音处理终端520,用于获取降噪语音数据,并对降噪语音数据进行语义识别以获取用户意图,生成与用户意图相对应的控制指令;
显示终端530,用于执行与控制指令相对应的执行动作。
其中,手持终端510与语音处理终端520为通信连接,如可以通过蓝牙模块进行连接,可以在手持终端510上设置第一蓝牙模块,在语音处理终端520上设置第二蓝牙模块,通过第一蓝牙模块和第二蓝牙模块进行连接,以实现手持终端510与语音处理终端520进行连接,并进行语音流传输,也即传输用户语音数据。
其中,手持终端510可以为智能手机、遥控器以及智能麦克风。
在一些实施例中,语音处理终端520与显示终端530可以是分体式设计,也可以是集成式设计。在语音处理终端520与显示终端530进行分体式设计的情况下,语音处理终端520与显示终端530可以进行通信连接;在语音处理终端520与显示终端530进行集成式设计的情况下,语音处理终端520与显示终端530可以进行通信连接,其中,通信连接包括但不限于有线连接、无线连接。
其中,在语音处理终端520与显示终端530进行集成式设计的情况下,语音处理终端520可以是一核心板,该核心板可以包括处理器和AI语音芯片。
其中,通信连接通过网络540进行连接,可以是有线网络连接,也可以是无线网络连接。在其中的一些实施例中,网络540可以包括公共网络(例如,因特网)、专用网络(例如,局域网(LAN)、广域网(WAN)等)、无线网络(例如,802.11网络、Wi-Fi网络等)、蜂窝网络(例如,4G网络、5G网络等)、帧中继网络、虚拟专用网络(VPN)、卫星网络、路由器、集线器、交换机、服务器等或者其任意组合。仅作为示例,网络540可包括电缆网络、有线网络、光纤网络、电信网络、内联网、无线局域网(WLAN)、城域网(MAN)、公共电话交换网(PSTN)等或者其任意组合。在一些实施例中,网络540可包括一个或多个网络接入点。例如,网络540可包括有线和/或无线网络接入点,诸如基站和/或因特网交换点,上述装置可通过这些接入点连接到网络以交换信息和/或数据。
在一些实施例中,语音处理终端520可以安装有语音助手,以协助语音处理终端520更好地控制显示终端530。
在一些实施例中,语音处理终端520可以是机顶盒、智能音箱。
在一些实施例中,在语音处理终端520根据用户意图发送控制指令的情况下,语音处理终端520对显示终端530将要执行的与控制指令相对应的执行动作进行监控,若发现异常信息,将该异常信息发送到维护人员。例如,在用户意图为拉取设置有权限的显示内容的情况下,语音处理终端520可以对显示终端530所执行的执行动作进行实时监控,若语音处理终端520检测到显示终端530的执行动作异常的情况下,语音处理终端520生成异常信息,并将该异常信息发送到维护人员。
在相关技术中,键鼠操作点击切换不是非常灵活方便;触摸操作受显示终端530大小影响较大,在显示终端530的屏幕尺寸较大或者显示终端530的位置较高的情况下,也会影响用户的操作体验;以及文本输入控制指令也比较依赖于输入设备,用户并不能灵活地操控显示终端530,所以通过手持终端510、语音处理终端520以及显示终端530组成的系统,解决了相关技术在使用键鼠操作、触摸操作以及文本输入指令操作的情况下,不能灵活方便地操控显示终端530的问题,从而提高了用户的工作效率。
图6是根据本发明实施例的一种语音控制显示终端的系统的结构框图二,请参见图6,手持终端510还包括:
降噪模块511,用于对用户语音数据进行降噪处理以生成降噪语音数据。
其中,降噪模块511可以仅包括硬件降噪模块,也可以仅包括软件降噪模块,还可以同时包括硬件降噪模块和软件降噪模块。
优选地,降噪模块511为硬件降噪模块。
通过手持终端510内部设置降噪模块511,能够使语音处理终端520获取清晰而准确的用户语音数据,从而准确地获取用户意图,进一步提高用户的人机交互体验。
图7是根据本发明实施例的一种语音控制显示终端的系统的结构框图三,请参见图7,语音处理终端520还包括:
转换模块521,用于将降噪语音数据转换为文本数据;
语义识别模块522,用于对文本数据进行语义识别以获取用户意图。
通过转换模块521和语义识别模块522将降噪语音数据转换为文本数据,并及时获取与该文本数据相对应的用户意图,从而使语音处理终端520能够根据用户意图实时调用显示终端530执行相对应的执行动作。
图8是根据本发明实施例的一种语音控制显示终端的系统的结构框图四,请参见图8,语音处理终端520还包括:
显示模块523,用于显示文本数据;
渲染模块524,用于渲染文本数据,以生成图形用户界面。
通过显示模块523实时显示文本数据,且通过渲染模块524渲染文本数据以生成图形用户界面,从而使用户能够通过语音处理终端520实时观察到自己所输入的指令是否正确,进一步提高了用户的人机交互体验。
例如,如图9所示,手持终端发送用户语音数据到语音处理终端,语音处理终端对该用户语音数据进行语义识别以获取用户意图,其中用户意图可以是拉取一路摄像头视频流,也可以是播放音视频,也可以是拉取网页内容,还可以是监控报警,然后语音处理终端根据该用户意图生成相对应的控制指令,显示终端执行与该控制指令相对应的执行动作。
另外,本申请实施例的一种语音控制显示终端的方法可以由计算机设备来实现。计算机设备的组件可以包括但不限于处理器以及存储有计算机程序指令的存储器。
在一些实施例中,处理器可以包括中央处理器(CPU),或者特定集成电路(Application Specific Integrated Circuit,简称为ASIC),或者可以被配置成实施本申请实施例的一个或多个集成电路。
在一些实施例中,存储器可以包括用于数据或指令的大容量存储器。举例来说而非限制,存储器可包括硬盘驱动器(Hard Disk Drive,简称为HDD)、软盘驱动器、固态驱动器(Solid State Drive,简称为SSD)、闪存、光盘、磁光盘、磁带或通用串行总线(UniversalSerial Bus,简称为USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下,存储器可包括可移除或不可移除(或固定)的介质。在合适的情况下,存储器可在数据处理装置的内部或外部。在特定实施例中,存储器是非易失性(Non-Volatile)存储器。在特定实施例中,存储器包括只读存储器(Read-Only Memory,简称为ROM)和随机存取存储器(RandomAccess Memory,简称为RAM)。在合适的情况下,该ROM可以是掩模编程的ROM、可编程ROM(Programmable Read-Only Memory,简称为PROM)、可擦除PROM(Erasable ProgrammableRead-Only Memory,简称为EPROM)、电可擦除PROM(Electrically Erasable ProgrammableRead-Only Memory,简称为EEPROM)、电可改写ROM(Electrically Alterable Read-OnlyMemory,简称为EAROM)或闪存(FLASH)或者两个或更多个以上这些的组合。在合适的情况下,该RAM可以是静态随机存取存储器(Static Random-Access Memory,简称为SRAM)或动态随机存取存储器(Dynamic Random Access Memory,简称为DRAM),其中,DRAM可以是快速页模式动态随机存取存储器(Fast Page Mode Dynamic Random Access Memory,简称为FPMDRAM)、扩展数据输出动态随机存取存储器(Extended Date Out Dynamic RandomAccess Memory,简称为EDODRAM)、同步动态随机存取内存(Synchronous Dynamic Random-Access Memory,简称SDRAM)等。
存储器可以用来存储或者缓存需要处理和/或通信使用的各种数据文件,以及处理器所执行的可能的计算机程序指令。
处理器通过读取并执行存储器中存储的计算机程序指令,以实现上述实施例中的任意一种语音控制显示终端的的方法。
在其中一些实施例中,计算机设备还可包括通信接口和总线。其中,处理器、存储器、通信接口通过总线连接并完成相互间的通信。
通信接口用于实现本申请实施例中各模块、装置、单元和、或设备之间的通信。通信接口还可以实现与其他部件例如:外接设备、图像、数据采集设备、数据库、外部存储以及图像、数据处理工作站等之间进行数据通信。
总线包括硬件、软件或两者,将计算机设备的部件彼此耦接在一起。总线包括但不限于以下至少之一:数据总线(Data Bus)、地址总线(Address Bus)、控制总线(ControlBus)、扩展总线(Expansion Bus)、局部总线(Local Bus)。举例来说而非限制,总线可包括图形加速接口(Accelerated Graphics Port,简称为AGP)或其他图形总线、增强工业标准架构(Extended Industry Standard Architecture,简称为EISA)总线、前端总线(FrontSide Bus,简称为FSB)、超传输(Hyper Transport,简称为HT)互连、工业标准架构(Industry Standard Architecture,简称为ISA)总线、无线带宽(InfiniBand)互连、低引脚数(Low Pin Count,简称为LPC)总线、存储器总线、微信道架构(Micro ChannelArchitecture,简称为MCA)总线、外围组件互连(Peripheral Component Interconnect,简称为PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(Serial AdvancedTechnology Attachment,简称为SATA)总线、视频电子标准协会局部(Video ElectronicsStandards Association Local Bus,简称为VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下,总线可包括一个或多个总线。尽管本申请实施例描述和示出了特定的总线,但本申请考虑任何合适的总线或互连。
另外,结合上述实施例中的语音控制显示终端的方法,本申请实施例可提供一种计算机可读存储介质来实现。该计算机可读存储介质上存储有计算机程序指令;该计算机程序指令被处理器执行时实现上述实施例中的任意一种语音控制显示终端的方法。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种语音控制显示终端的方法,其特征在于,包括:
语音处理终端获取用户语音数据;
所述语音处理终端对所述用户语音数据进行语义识别以获取用户意图;
所述语音处理终端生成与所述用户意图相对应的控制指令;
所述语音处理终端调用显示终端执行与所述控制指令相对应的执行动作。
2.根据权利要求1所述的方法,其特征在于,在语音处理终端获取用户语音数据之前,所述方法还包括:
所述语音处理终端获取手持终端发送的经过降噪处理的用户语音数据。
3.根据权利要求1所述的方法,其特征在于,对所述语音处理终端对所述用户语音数据进行语义识别以获取用户意图包括:
所述语音处理终端将所述用户语音数据转换为文本数据;
所述语音处理终端对所述文本数据进行语义理解以获取用户意图。
4.根据权利要求3所述的方法,其特征在于,在所述语音处理终端将所述用户语音数据转换为文本数据之后,所述方法还包括:
所述语音处理终端显示所述文本数据;
所述语音处理终端渲染所述文本数据,以生成图形用户界面。
5.一种语音控制显示终端的系统,其特征在于,包括:
手持终端,用于获取用户语音数据并生成降噪语音数据;
语音处理终端,用于获取所述降噪语音数据,对所述降噪语音数据进行语义识别以获取用户意图,生成与用户意图相对应的控制指令;
显示终端,用于执行与所述控制指令相对应的执行动作。
6.根据权利要求5所述的系统,其特征在于,所述手持终端还包括:
降噪模块,用于对所述用户语音数据进行降噪处理以生成所述降噪语音数据。
7.根据权利要求5所述的系统,其特征在于,所述语音处理终端还包括:
转换模块,用于将所述降噪语音数据转换为文本数据;
语义识别模块,用于对文本数据进行语义识别以获取用户意图。
8.根据权利要求7所述的系统,其特征在于,所述语音处理终端还包括:
显示模块,用于显示所述文本数据;
渲染模块,用于渲染所述文本数据,以生成图形用户界面。
9.一种计算机设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至4中任一项所述的语音控制显示终端的方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1至4中任一项所述的语音控制显示终端的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010815826.9A CN111968638A (zh) | 2020-08-14 | 2020-08-14 | 一种语音控制显示终端的方法、系统、设备以及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010815826.9A CN111968638A (zh) | 2020-08-14 | 2020-08-14 | 一种语音控制显示终端的方法、系统、设备以及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111968638A true CN111968638A (zh) | 2020-11-20 |
Family
ID=73364873
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010815826.9A Pending CN111968638A (zh) | 2020-08-14 | 2020-08-14 | 一种语音控制显示终端的方法、系统、设备以及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111968638A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112579036A (zh) * | 2020-12-17 | 2021-03-30 | 南方电网深圳数字电网研究院有限公司 | 语音输入的报告设计器实现方法、系统、设备及存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105827618A (zh) * | 2016-04-25 | 2016-08-03 | 四川联友电讯技术有限公司 | 改善碎片化异步会议系统通话质量的方法 |
CN107909997A (zh) * | 2017-09-29 | 2018-04-13 | 威创集团股份有限公司 | 一种拼接墙控制方法及系统 |
CN207946726U (zh) * | 2018-01-29 | 2018-10-09 | 苏州麦迪斯顿医疗科技股份有限公司 | 一种基于语音识别的一体机 |
CN208444525U (zh) * | 2018-06-28 | 2019-01-29 | 广东康云多维视觉智能科技有限公司 | 一种具有语音识别功能的显示系统 |
CN209328511U (zh) * | 2018-10-15 | 2019-08-30 | 南京亚太嘉园智慧空间营造有限公司 | 一种便携式ai语音交互控制系统 |
CN111524516A (zh) * | 2020-04-30 | 2020-08-11 | 青岛海信网络科技股份有限公司 | 一种基于语音交互的控制方法、服务器及显示设备 |
-
2020
- 2020-08-14 CN CN202010815826.9A patent/CN111968638A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105827618A (zh) * | 2016-04-25 | 2016-08-03 | 四川联友电讯技术有限公司 | 改善碎片化异步会议系统通话质量的方法 |
CN107909997A (zh) * | 2017-09-29 | 2018-04-13 | 威创集团股份有限公司 | 一种拼接墙控制方法及系统 |
CN207946726U (zh) * | 2018-01-29 | 2018-10-09 | 苏州麦迪斯顿医疗科技股份有限公司 | 一种基于语音识别的一体机 |
CN208444525U (zh) * | 2018-06-28 | 2019-01-29 | 广东康云多维视觉智能科技有限公司 | 一种具有语音识别功能的显示系统 |
CN209328511U (zh) * | 2018-10-15 | 2019-08-30 | 南京亚太嘉园智慧空间营造有限公司 | 一种便携式ai语音交互控制系统 |
CN111524516A (zh) * | 2020-04-30 | 2020-08-11 | 青岛海信网络科技股份有限公司 | 一种基于语音交互的控制方法、服务器及显示设备 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112579036A (zh) * | 2020-12-17 | 2021-03-30 | 南方电网深圳数字电网研究院有限公司 | 语音输入的报告设计器实现方法、系统、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105659318B (zh) | 声音识别处理装置、声音识别处理方法以及显示装置 | |
CN110166729B (zh) | 云视频会议方法、装置、系统、介质和计算设备 | |
CN111599358A (zh) | 语音交互方法及电子设备 | |
CN111405301B (zh) | 终端的录屏交互方法、装置、计算机设备及存储介质 | |
CN108737765B (zh) | 一种视频通话处理方法、装置、终端设备及存储介质 | |
CN107808007A (zh) | 信息处理方法和装置 | |
CN111696556A (zh) | 一种分析用户对话情绪方法、系统、设备和存储介质 | |
JP6374854B2 (ja) | 画面共有システム及び画面共有方法 | |
CN111629234B (zh) | 不同类型视频共存的传输方法、装置、设备和存储介质 | |
CN111124229B (zh) | 通过语音交互实现网页动画控制的方法、系统及浏览器 | |
US11488603B2 (en) | Method and apparatus for processing speech | |
CN111968638A (zh) | 一种语音控制显示终端的方法、系统、设备以及存储介质 | |
EP2416551A1 (en) | Voice interactive method for mobile terminal based on vocie xml and apparatus thereof | |
CN106790171A (zh) | 会话控制的方法、装置和计算机可读存储介质 | |
CN105120056A (zh) | 一种通话控制方法及终端 | |
CN112786070A (zh) | 音频数据处理方法、装置、存储介质与电子设备 | |
KR20190034494A (ko) | 번역 장치 및 번역 시스템 | |
JP2015100054A (ja) | 音声通信システム、音声通信方法及びプログラム | |
CN115831138A (zh) | 一种音频信息处理方法、装置和电子设备 | |
CN111124874A (zh) | 调试网页的方法、调试服务器以及主控设备 | |
WO2021107308A1 (ko) | 전자 장치 및 이의 제어 방법 | |
CN114979387A (zh) | 基于模拟电话的网络电话服务方法、系统、设备和介质 | |
CN108132767A (zh) | 应用窗口预览方法和系统 | |
JP6669374B1 (ja) | 設定装置、設定方法及び設定プログラム | |
CN110855832A (zh) | 一种辅助通话的方法、装置和电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |