CN114840168A

CN114840168A - 人机交互装置及方法

Info

Publication number: CN114840168A
Application number: CN202210609614.4A
Authority: CN
Inventors: 范琳翊
Original assignee: BOE Technology Group Co Ltd
Current assignee: BOE Technology Group Co Ltd
Priority date: 2022-05-31
Filing date: 2022-05-31
Publication date: 2022-08-02

Abstract

本发明提供了一种人机交互装置及方法，属于人机交互技术领域。人机交互装置包括：服务器，用于获取用户输入的音频数据，对所述音频数据进行语音识别，得到文本数据，对所述文本数据进行解析，得到关键词组合；确定与所述关键词组合匹配的页面信息，将所述页面信息发送给显示屏；显示屏，用于根据所述页面信息显示对应的页面。本发明的技术方案能够提升人机交互效率，改善用户体验。

Description

人机交互装置及方法

技术领域

本发明涉及人机交互技术领域，特别是指一种人机交互装置及方法。

背景技术

相关技术中，与尺寸较大的显示设备进行人机交互时，有以下两种技术方案：

技术方案1、通过鼠标点击显示设备的显示界面上的菜单按钮进行交互；

技术方案2、通过与显示设备关联的控制设备上的功能按钮进行交互。

以上2种技术方案，在进行人机交互时都存在缺陷，对于技术方案1，如果显示界面的尺寸过大，用鼠标点击时需要跨越的区域比较远，操作体验较差；对于技术方案2，如果使用控制设备来进行人机交互，还需要设置额外控制设备，需要额外的开发工作，增加了成本。

发明内容

本发明要解决的技术问题是提供一种人机交互装置及方法，能够提升人机交互效率，改善用户体验。

为解决上述技术问题，本发明的实施例提供技术方案如下：

一方面，提供一种人机交互装置，包括：

服务器，用于获取用户输入的音频数据，对所述音频数据进行语音识别，得到文本数据，对所述文本数据进行解析，得到关键词组合；确定与所述关键词组合匹配的页面信息，将所述页面信息发送给显示屏；

显示屏，用于根据所述页面信息显示对应的页面。

一些实施例中，所述服务器具体用于将所述音频数据的原始音频格式转换为目标音频格式；对所述目标音频格式下的所述音频数据进行切分处理，得到目标语音数据；将所述目标语音数据输入至语音识别引擎，得到所述文本数据。

一些实施例中，所述服务器还用于根据词库和上下文语意识别算法识别所述文本数据中的错别字，并对所述错别字进行更正。

一些实施例中，所述服务器具体用于根据中文文法语序和词性对所述文本数据进行分词，得到多个词汇，所述词性包括动词、名词、形容词、连接词、量词和外语；根据所述多个词汇确定关键词组合，所述关键词组合包括第一组合、第二组合和第三组合，所述第一组合包括所述多个词汇中的动词、名词、量词和外语，所述第二组合包括所述多个词汇中表示动作的词汇和表示对象的词汇；所述第三组合包括所述第一组合中表示动作的词汇和表示对象的词汇。

一些实施例中，所述服务器具体用于分别计算所述第一组合、所述第二组合和所述第三组合与预设语料库中的语料的匹配度，确定匹配度最高的一条语料，根据所述语料中包括动作的词汇和表示对象的词汇得到所述页面信息；

其中，所述预设语料库包括多条语料，每一所述语料包括表示执行主体的词汇、表示动作的词汇和表示对象的词汇，或，每一所述语料包括表示动作的词汇和表示对象的词汇。

本发明的实施例还提供了一种人机交互方法，包括：

服务器获取用户输入的音频数据，对所述音频数据进行语音识别，得到文本数据；

所述服务器对所述文本数据进行解析，得到关键词组合；

所述服务器确定与所述关键词组合匹配的页面信息，将所述页面信息发送给显示屏；

所述显示屏根据所述页面信息显示对应的页面。

一些实施例中，所述对所述音频数据进行语音识别，得到文本数据包括：

所述服务器将所述音频数据的原始音频格式转换为目标音频格式；对所述目标音频格式下的所述音频数据进行切分处理，得到目标语音数据；将所述目标语音数据输入至语音识别引擎，得到所述文本数据。

一些实施例中，所述对所述文本数据进行解析，得到关键词组合之前，所述方法还包括：

所述服务器根据词库和上下文语意识别算法识别所述文本数据中的错别字，并对所述错别字进行更正。

一些实施例中，所述对所述文本数据进行解析，得到关键词组合包括：

根据中文文法语序和词性对所述文本数据进行分词，得到多个词汇，所述词性包括动词、名词、形容词、连接词、量词和外语；

根据所述多个词汇确定关键词组合，所述关键词组合包括第一组合、第二组合和第三组合，所述第一组合包括所述多个词汇中的动词、名词、量词和外语，所述第二组合包括所述多个词汇中表示动作的词汇和表示对象的词汇；所述第三组合包括所述第一组合中表示动作的词汇和表示对象的词汇。

一些实施例中，所述确定与所述关键词匹配的页面信息包括：

分别计算所述第一组合、所述第二组合和所述第三组合与预设语料库中的语料的匹配度，确定匹配度最高的一条语料；

根据所述语料中包括动作的词汇和表示对象的词汇得到所述页面信息；

本发明的实施例还提供了一种可读存储介质，所述可读存储介质上存储程序或指令，所述程序或指令被处理器执行时实现如上所述的人机交互方法的步骤。

本发明的实施例具有以下有益效果：

上述方案中，可以根据用户输入的音频数据，通过语音识别来控制显示屏的显示，无需用户通过手工操作，即可实现用户通过语音来对显示屏上显示的页面进行切换和打开。本实施例中，由于用户可以通过语音控制显示屏的显示，能够释放用户在浏览显示屏时的行动，让用户能随意走动观看显示的页面内容，不用固定在鼠标位置或者手持控制设备来控制显示页面；另外，如果通过鼠标点击或者控制设备去控制显示的页面，只能根据展开的菜单功能去选择，根据一级菜单二级菜单的顺序去浏览，不能快速跳转到需要的页面，通过语音控制，可以使得用户浏览页面的顺序和内容更具灵活性，用户能够根据需要和喜爱，快速查阅到需要的页面并进行浏览，能够提升人机交互效率和用户体验。

附图说明

图1为本发明实施例的应用场景示意图；

图2为本发明实施例人机交互装置的结构框图；

图3为本发明实施例人机交互方法的流程示意图；

图4为本发明实施例对文本数据进行解析以及确定页面信息的示意图。

具体实施方式

为使本发明的实施例要解决的技术问题、技术方案和优点更加清楚，下面将结合附图及具体实施例进行详细描述。

本发明实施例提供一种人机交互装置及方法，能够提升人机交互效率，改善用户体验。

本发明实施例应用于图1所示的场景中，该人机交互装置能够与用户进行人机交互，如图2所示，本实施例的人机交互装置包括：

服务器11，用于获取用户输入的音频数据，对所述音频数据进行语音识别，得到文本数据，对所述文本数据进行解析，得到关键词组合；确定与所述关键词组合匹配的页面信息，将所述页面信息发送给显示屏12；

显示屏12，用于根据所述页面信息显示对应的页面。

其中，服务器11和/或显示屏12内可以配置有麦克风或麦克风阵列，能够获取用户输入的音频数据，并且服务器11与显示屏12之间可以进行通信，进行数据的传递，显示屏12可以根据服务器11传递的页面信息进行显示，服务器11与显示屏12可以集成在一起，也可以相互独立，通过硬件连接在一起。

该人机交互装置可以包括但不限于以下至少之一：手机(如Android手机、iOS手机等)、笔记本电脑、平板电脑、掌上电脑、MID(Mobile Internet Devices，移动互联网设备)、PAD、台式电脑、智能电视等。

其中，显示屏12可以为大尺寸显示屏(比如65寸以上的屏幕或数字显示终端)，也可以为小尺寸的显示屏。

一些实施例中，可以在显示屏12内配置麦克风或麦克风阵列，用户站在显示屏的前方或者周围，可以通过语音发出控制指令。显示屏12可以通过麦克风或麦克风阵列录音来获取用户输入的音频数据，并将音频数据发送给服务器11进行处理分析。音频数据可以为麦克风或麦克风阵列录音获取到的各种音频格式的数据文件，包括但不限于：ACT、REC、MP3、WAV、WMA、VY1、VY2、DVF、MSC、AIFF等格式；该音频数据也可以是脉冲编码调制(PulseCode Modulation，PCM)音频流数据。

可以通过自动语音识别技术(Automatic Speech Recognition，ASR)中的语音识别引擎将音频数据转换为文本数据，ASR是一种将人的语音转换为文本的技术，其目标是让计算机能够“听写”出不同人所说出的连续语音，也称之为“语音听写机”，是实现“声音”到“文字”转换的技术。在本实施例中，语音识别引擎可以为谷歌语音识别引擎、微软语音识别引擎或科大讯飞的语音识别引擎，在此不作限定，通过语音识别引擎可以将音频数据中的语音片段转换为文字信息。

具体地，服务器11可以基于FFMPEG工具等将所述音频数据的原始音频格式转换为目标音频格式；对所述目标音频格式下的所述音频数据进行切分处理，得到目标语音数据；将所述目标语音数据输入至语音识别引擎，得到所述文本数据。例如，基于FFMPEG工具将音频数据从PCM格式转换为MP3格式，将该MP3格式的音频数据进行切分，得到包含语音片段的目标语音数据，也就是说该MP3格式的音频数据中可以只保留包含人声的音频片段，能够减少后续处理的计算量，提高处理效率。另外，将音频数据转换为MP3格式，方便用户对音频数据进行切分及保存。

另外，在将音频数据转换为文本数据后，文本数据中可能出现错别字，影响后续准确识别用户的意图，因此，服务器11可以根据词库和上下文语意识别算法识别所述文本数据中的错别字，并对所述错别字进行更正，以提高后续处理的效率。比如，用户输入的音频数据经过语音识别后，得到的文本数据为“我想看做用户数据”，则根据上下文语意识别算法可以知道其中的“做”为语音识别过程导致的错别字，可以将文本数据更正为“我想看看用户数据”，有助于后续准确识别用户的意图。

在获取文本数据后，服务器11需要根据语义解析确定文本数据中的关键词，分析用户的意图。服务器11具体用于根据中文文法语序和词性对所述文本数据进行分词，得到多个词汇，所述词性包括动词、名词、形容词、连接词、量词和外语；根据所述多个词汇确定关键词组合，所述关键词组合包括第一组合、第二组合和第三组合，所述第一组合包括所述多个词汇中的动词、名词、量词和外语，所述第二组合包括所述多个词汇中表示动作的词汇和表示对象的词汇；所述第三组合包括所述第一组合中表示动作的词汇和表示对象的词汇。

服务器11以得到的文本数据为基础，根据中文文法语序(主谓宾、定谓宾等)和词性对文本数据进行语义分割，即将主语、谓语、宾语、定语等从文本数据中分割出来，并将动词、名词、形容词、连接词、量词和外语等从文本数据中分割出来，得到多个词汇，比如对于文本数据“看看这个月的营收情况”，通过语义分割可以得到以下词汇：“看看”“这个”“月”“营收情况”；“看”“看”“这”“个”“月”“营收”“情况”；“看看”“这个月”“营收情况”等。其中，外语包括但不限于英语、法语、西班牙语等。

利用分割后的多个词汇确定关键词组合。首先从多个词汇中将动词、名词、量词、外语选择出来作为第一组合，比如，从“看看”“这个”“月”“营收情况”；“看”“看”“这”“个”“月”“营收”“情况”；“看看”“这个月”“营收情况”等词汇中，可以选择出“看看”“月”“营收情况”作为第一组合；之后，从分割后的多个词汇中将表示动作的词汇和表示对象的词汇选择出来作为第二组合，比如，从上述多个词汇中，可以选择出“看看”(动作)“这个月”(对象)“营收情况”(对象)作为第二组合；再从第一组合中选择出表示动作的词汇和表示对象的词汇作为第三组合，比如从上述第一组合中可以选择出“看看”(动作)“营收情况”(对象)作为第三组合，通过上述第一组合、第二组合和第三组合，可以从文本数据中有效提取出能够表示用户意图的词汇。

其中，上述实施例中，表示动作的词汇可以是动词和外语，表示对象的词汇可以是名词、量词、形容词和外语。

在从文本数据中提取出能够表示用户意图的词汇后，可以通过将关键词组合与预设语料库中的语料进行匹配，来获取对应的页面信息。事先需要建立起预设语料库，预设语料库中存储有多条结构化的语料，每一所述语料包括表示执行主体的词汇、表示动作的词汇和表示对象的词汇，或，每一所述语料包括表示动作的词汇和表示对象的词汇，其中，动作用于指示显示屏要执行的操作，包括但不限于启动某个链接、跳转页面、关闭页面等，对象用于指示显示屏上的所有可见界面。

预设语料库中的语料可按照“主体+动作+对象”的结构或“动作+对象”的结构进行存储。一具体示例中，预设语料库中存储的语料可以如下表1所示，

表1

所述服务器11具体用于分别计算所述第一组合、所述第二组合和所述第三组合与预设语料库中的语料的匹配度，确定匹配度最高的一条语料，根据所述语料中包括动作的词汇和表示对象的词汇得到所述页面信息。

具体地，将第一组合与预设语料库中的语料进行匹配，计算第一组合与预设语料库中的语料之间的匹配度，确定匹配度最高的一条语料A，匹配度为a；将第二组合与预设语料库中的语料进行匹配，计算第二组合与预设语料库中的语料之间的匹配度，确定匹配度最高的一条语料B，匹配度为b；将第三组合与预设语料库中的语料进行匹配，计算第三组合与预设语料库中的语料之间的匹配度，确定匹配度最高的一条语料C，匹配度为c，比较a、b、c的大小，取其中匹配度最高的一者对应的语料，比如，匹配度c最高，则输出语料C。

一具体示例中，输出的语料为表1中的第一条语料，则可以根据其中包括动作的词汇“看”和表示对象的词汇“这个月”“营收表”进行检索得到这个月的营收表，进而确定对应的页面信息，页面信息包括但不限于URL(统一资源定位符)、域名等，将页面信息发送给显示屏12，则显示屏12可以根据该页面信息打开含有营收数据的页面，展示给用户观看。

本实施例中，可以根据用户输入的音频数据，通过语音识别来控制显示屏的显示，无需用户通过手工操作，即可实现用户通过语音来对显示屏上显示的页面进行切换和打开。本实施例中，由于用户可以通过语音控制显示屏的显示，能够释放用户在浏览显示屏时的行动，让用户能随意走动观看显示的页面内容，不用固定在鼠标位置或者手持控制设备来控制显示页面；另外，如果通过鼠标点击或者控制设备去控制显示的页面，只能根据展开的菜单功能去选择，根据一级菜单二级菜单的顺序去浏览，不能快速跳转到需要的页面，通过语音控制，可以使得用户浏览页面的顺序和内容更具灵活性，用户能够根据需要和喜爱，快速查阅到需要的页面并进行浏览，能够提升人机交互效率和用户体验。

本发明的实施例还提供了一种人机交互方法，应用于如上所述的人机交互装置，如图3所示，包括：

步骤101：服务器获取用户输入的音频数据，对所述音频数据进行语音识别，得到文本数据；

步骤102：所述服务器对所述文本数据进行解析，得到关键词组合；

步骤103：所述服务器确定与所述关键词组合匹配的页面信息，将所述页面信息发送给显示屏；

步骤104：所述显示屏根据所述页面信息显示对应的页面。

具体地，服务器11可以基于FFMPEG工具将音频数据从PCM格式转换为MP3格式，将该MP3格式的音频数据进行切分，得到包含语音片段的目标语音数据，也就是说该MP3格式的音频数据中可以只保留包含人声的音频片段，能够减少后续处理的计算量，提高处理效率。另外，将音频数据转换为MP3格式，方便用户对音频数据进行切分及保存。

另外，在将音频数据转换为文本数据后，文本数据中可能出现错别字，影响后续准确识别用户的意图，一些实施例中，所述对所述文本数据进行解析，得到关键词组合之前，所述方法还包括：

比如，用户输入的音频数据经过语音识别后，得到的文本数据为“我想看做用户数据”，则根据上下文语意识别算法可以知道其中的“做”为语音识别过程导致的错别字，可以将文本数据更正为“我想看看用户数据”，有助于后续准确识别用户的意图。

一些实施例中，如图4所示，所述对所述文本数据进行解析，得到关键词组合包括：

步骤1031：根据中文文法语序和词性对所述文本数据进行分词，得到多个词汇，所述词性包括动词、名词、形容词、连接词、量词和外语；

步骤1032：根据所述多个词汇确定关键词组合，所述关键词组合包括第一组合、第二组合和第三组合，所述第一组合包括所述多个词汇中的动词、名词、量词和外语，所述第二组合包括所述多个词汇中表示动作的词汇和表示对象的词汇；所述第三组合包括所述第一组合中表示动作的词汇和表示对象的词汇。

一些实施例中，如图4所示，所述确定与所述关键词匹配的页面信息包括：

步骤1041：分别计算所述第一组合、所述第二组合和所述第三组合与预设语料库中的语料的匹配度，确定匹配度最高的一条语料；

步骤1042：根据所述语料中包括动作的词汇和表示对象的词汇得到所述页面信息；

表1

本实施例中，可以根据用户输入的音频数据，通过语音识别来控制显示屏的显示，无需用户通过手工操作，即可实现用户通过语音来对显示屏上显示的页面进行切换和打开。本实施例中，由于用户可以通过语音控制显示屏的显示，能够释放用户在浏览显示屏时的行动，让用户能随意走动观看显示的页面内容，不用固定在鼠标位置或者手持控制设备来控制显示页面；另外，如果通过鼠标点击或者控制设备去控制显示的页面，只能根据展开的菜单功能去选择，根据一级菜单二级菜单的顺序去浏览，不能快速跳转到需要的页面，通过语音控制，可以使得用户浏览页面的顺序和内容更具灵活性，用户能够根据需要和喜爱，快速查阅到需要的页面并进行浏览，能够提升人机交互效率和用户体验

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储待检测终端设备或任何其他非传输介质，可用于存储可以被计算待检测终端设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。此外，需要指出的是，本申请实施方式中的方法和装置的范围不限按示出或讨论的顺序来执行功能，还可包括根据所涉及的功能按基本同时的方式或按相反的顺序来执行功能，例如，可以按不同于所描述的次序来执行所描述的方法，并且还可以添加、省去、或组合各种步骤。另外，参照某些示例所描述的特征可在其他示例中被组合。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以计算机软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本申请各个实施例所述的方法。

上面结合附图对本申请的实施例进行了描述，但是本申请并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本申请的启示下，在不脱离本申请宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本申请的保护之内。

Claims

1.一种人机交互装置，其特征在于，包括：

显示屏，用于根据所述页面信息显示对应的页面。

2.根据权利要求1所述的人机交互装置，其特征在于，

所述服务器具体用于将所述音频数据的原始音频格式转换为目标音频格式；对所述目标音频格式下的所述音频数据进行切分处理，得到目标语音数据；将所述目标语音数据输入至语音识别引擎，得到所述文本数据。

3.根据权利要求1所述的人机交互装置，其特征在于，

所述服务器还用于根据词库和上下文语意识别算法识别所述文本数据中的错别字，并对所述错别字进行更正。

4.根据权利要求1所述的人机交互装置，其特征在于，

所述服务器具体用于根据中文文法语序和词性对所述文本数据进行分词，得到多个词汇，所述词性包括动词、名词、形容词、连接词、量词和外语；根据所述多个词汇确定关键词组合，所述关键词组合包括第一组合、第二组合和第三组合，所述第一组合包括所述多个词汇中的动词、名词、量词和外语，所述第二组合包括所述多个词汇中表示动作的词汇和表示对象的词汇；所述第三组合包括所述第一组合中表示动作的词汇和表示对象的词汇。

5.根据权利要求4所述的人机交互装置，其特征在于，

所述服务器具体用于分别计算所述第一组合、所述第二组合和所述第三组合与预设语料库中的语料的匹配度，确定匹配度最高的一条语料，根据所述语料中包括动作的词汇和表示对象的词汇得到所述页面信息；

6.一种人机交互方法，其特征在于，包括：

所述服务器对所述文本数据进行解析，得到关键词组合；

所述显示屏根据所述页面信息显示对应的页面。

7.根据权利要求6所述的人机交互方法，其特征在于，所述对所述音频数据进行语音识别，得到文本数据包括：

8.根据权利要求6所述的人机交互方法，其特征在于，所述对所述文本数据进行解析，得到关键词组合之前，所述方法还包括：

9.根据权利要求6所述的人机交互方法，其特征在于，所述对所述文本数据进行解析，得到关键词组合包括：

10.根据权利要求9所述的人机交互方法，其特征在于，所述确定与所述关键词匹配的页面信息包括：

11.一种可读存储介质，其特征在于，所述可读存储介质上存储程序或指令，所述程序或指令被处理器执行时实现如权利要求6-10任一项所述的人机交互方法的步骤。