CN111459288B - 一种运用头控实现语音输入的方法和装置 - Google Patents

一种运用头控实现语音输入的方法和装置 Download PDF

Info

Publication number
CN111459288B
CN111459288B CN202010325910.2A CN202010325910A CN111459288B CN 111459288 B CN111459288 B CN 111459288B CN 202010325910 A CN202010325910 A CN 202010325910A CN 111459288 B CN111459288 B CN 111459288B
Authority
CN
China
Prior art keywords
head
input
control
voice
preset time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010325910.2A
Other languages
English (en)
Other versions
CN111459288A (zh
Inventor
包追军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiekai Communications Shenzhen Co Ltd
Original Assignee
Jiekai Communications Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiekai Communications Shenzhen Co Ltd filed Critical Jiekai Communications Shenzhen Co Ltd
Priority to CN202010325910.2A priority Critical patent/CN111459288B/zh
Priority to PCT/CN2020/092848 priority patent/WO2021212603A1/zh
Priority to US17/996,930 priority patent/US20230168859A1/en
Priority to EP20932538.0A priority patent/EP4141620A1/en
Publication of CN111459288A publication Critical patent/CN111459288A/zh
Application granted granted Critical
Publication of CN111459288B publication Critical patent/CN111459288B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • G06F3/012Head tracking input arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0481Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
    • G06F3/04812Interaction techniques based on cursor appearance or behaviour, e.g. being affected by the presence of displayed objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0484Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
    • G06F3/04842Selection of displayed objects or displayed text elements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0487Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本发明实施例公开了一种运用头控实现语音输入的方法和装置。本发明实施例根据用户第一头部转动动作在语音输入界面使头控指示光标在第一预设时间内悬停在输入控件所处位置;进行语音识别,在语音转换结果文本框中生成输入文本;根据所述第一头部转动动作判断所述头控指示光标在第二预设时间内是否移动至所述语音转换结果文本框中;将所述输入文本添加至所述输入控件中,完成输入,提高输入操作的效率和便捷性。

Description

一种运用头控实现语音输入的方法和装置
技术领域
本发明涉及移动通信技术领域,具体涉及一种运用头控实现语音输入的方法和装置。
背景技术
随着科技的进步,20世纪发展起来一项全新的实用技术,即虚拟现实技术。虚拟现实技术囊括计算机、电子信息、仿真技术于一体,其基本实现方式是计算机模拟虚拟环境从而给人以环境沉浸感,随着社会生产力和科学技术的不断发展,各行各业对虚拟现实技术的需求日益旺盛,虚拟或增强现实头戴式设备也应运而生,在很多应用领域尤其是个人娱乐领域非常具有价值,佩戴虚拟或增强现实头戴式设备可以输入具体内容,即通过手柄控制光标移动到文本输入框,然后系统弹出虚拟键盘,再通过手柄在虚拟键盘上移动光标,选择相应的按键,输入对应的文字,在对现有技术的研究和实践过程中,本发明的发明人发现,佩戴虚拟或增强现实头戴式设备利用手柄控制光标在虚拟键盘上操作进行输入时,操作不方便,输入效率低。
发明内容
本发明实施例提供一种运用头控实现语音输入的方法和装置,通过用户头部转动使光标悬停在输入区域触发语音输入,提高输入操作的效率和便捷性。
本发明实施例提供一种运用头控实现语音输入的方法,包括:
根据用户第一头部转动动作在语音输入界面使头控指示光标在第一预设时间内悬停在输入控件所处位置;
进行语音识别,在语音转换结果文本框中生成输入文本;
根据所述第一头部转动动作判断所述头控指示光标在第二预设时间内是否移动至所述语音转换结果文本框中;
将所述输入文本添加至所述输入控件中。
可选的,在本发明的一些实施例中,所述根据用户第一头部转动动作在语音输入界面移动头控指示光标至输入控件所处位置,包括:
根据所述第一头部转动动作产生所述头控指示光标的移动信息;
根据所述移动信息在所述语音输入界面移动所述头控指示光标至所述输入控件所处位置。
可选的,在本发明的一些实施例中,所述根据用户第一头部转动动作在语音输入界面使头控指示光标在第一预设时间内悬停在输入控件所处位置,包括:
若所述头控指示光标在第一预设时间内移出所述输入控件所处位置,则不进行语音识别。
可选的,在本发明的一些实施例中,所述进行语音识别,包括:
隐藏所述头控指示光标,进行语音识别;
在语音识别过程中,感应用户第二头部转动动作,显现所述头控指示光标,结束语音识别。
可选的,在本发明的一些实施例中,所述根据所述第一头部转动动作判断所述头控指示光标在第二预设时间内是否移动至所述语音转换结果文本框中,包括:
若所述头控指示光标在第二预设时间内移动至所述语音转换结果文本框中,则根据所述第一头部转动动作判断所述头控指示光标在第三预设时间内是否悬停在所述语音转换结果文本框中;
若所述头控指示光标在第二预设时间内没有移动至所述语音转换结果文本框中,则将所述输入文本添加至所述输入控件中。
可选的,在本发明的一些实施例中,所述根据所述第一头部转动动作判断所述头控指示光标在第三预设时间内是否悬停在所述语音转换结果文本框中,包括:
若是,则将所述头控指示光标在第一预设时间内悬停在输入控件所处位置;
若否,则将所述输入文本添加至所述输入控件中。
相应的,本发明实施例还提供一种运用头控实现语音输入的装置,包括:
交互单元,用于根据用户第一头部转动动作在语音输入界面使头控指示光标在第一预设时间内悬停在输入控件所处位置;
输入文本生成单元,用于进行语音识别,在语音转换结果文本框中生成输入文本;
处理单元,用于根据所述第一头部转动动作判断所述头控指示光标在第二预设时间内是否移动至所述语音转换结果文本框中,将所述输入文本添加至所述输入控件中。
可选的,在本发明的一些实施例中,所述输入文本生成单元,用于在语音识别之前隐藏所述头控指示光标,在语音识别过程中,接收用户做出第二头部转动动作的信息,显现所述头控指示光标,结束语音识别。
可选的,在本发明的一些实施例中,所述处理单元,用于确定所述头控指示光标在第二预设时间内移动至所述语音转换结果文本框中,根据所述第一头部转动动作判断所述头控指示光标在第三预设时间内是否悬停在所述语音转换结果文本框中。
可选的,在本发明的一些实施例中,所述处理单元,用于确定所述头控指示光标在第二预设时间内没有移动至所述语音转换结果文本框中,将所述输入文本添加至所述输入控件中。
本发明实施例提供一种运用头控实现语音输入的方法和装置,佩戴虚拟或增强现实头戴式设备,根据用户第一头部转动动作在语音输入界面使头控指示光标在第一预设时间内悬停在输入控件所处位置,触发语音识别,将用户说出的想要输入的内容生成输入文本,显示在语音转换结果文本框中,若在第二预设时间内,根据用户第一头部转动动作,头控指示光标没有移动至语音转换结果文本框中,则将输入文本添加至输入控件中,完成输入,若在第二预设时间内,根据用户第一头部转动动作,头控指示光标移动至语音转换结果文本框中,则根据用户第一头部转动动作判断头控指示光标在第三预设时间内是否悬停在语音转换结果文本框中,若是,则将头控指示光标在第一预设时间内悬停在输入控件所处位置,修改原先输入的内容,重新进行语音输入,若否,则将输入文本添加至输入控件中,完成输入,通过此方法,既避免了利用手柄控制光标,也避免了在小区域内反复移动的操作不便,提高了输入操作的效率和便捷性。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的运用头控实现语音输入的场景示意图;
图2是本发明实施例提供的运用头控实现语音输入方法的流程图;
图3是本发明实施例提供的运用头控实现语音输入方法的另一流程图;
图4是本发明实施例提供的运用头控实现语音输入装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供一种运用头控实现语音输入的方法和装置。其中该装置可以集成在虚拟现实设备中,该设备可以是虚拟现实眼镜、虚拟或增强现实头戴式设备、虚拟现实座椅等设备。
例如,如图1所示,用户100戴上虚拟或增强现实头戴式设备101,在虚拟现实体验场景的语音输入界面10中具有头控指示光标11、输入控件12和输入光标15,用户100做出第一头部转动动作,例如轻微的上下左右转动头部,虚拟或增强现实头戴式设备101中的交互单元102会根据用户100的头部转动距离和方向在语音输入界面10中产生头控指示光标11的移动信息,包括头控指示光标11在语音输入界面的移动距离和方向,用户100在语音输入界面10中看到此移动信息,再次做出第一头部转动动作直到控制头控指示光标11在语音输入界面10中移动至输入控件12所处位置,用户100保持头部不动,使头控指示光标11在语音输入界面10中悬停在输入控件12所处位置,经过第一预设时间,例如2秒,此时头控指示光标11下方出现语音输入提示动画13和语音转换结果文本框14,头控指示光标11从语音输入界面10中隐藏,虚拟或增强现实头戴式设备101系统启动语音输入服务,打开麦克风,用户100进行语音输入,说出要输入的具体内容,例如最近的餐厅,麦克风采集用户100的声音,在语音输入过程中,用户100做出第二头部转动动作,例如进行稍大幅度的点头,则头控指示光标11会重新出现在语音输入界面10中原先隐藏的位置,则系统获取语音输入结束的信息,结束声音采集,系统进行语音识别,在语音转换结果文本框14中生成对应的输入文本,若用户100做出第一头部转动动作,在第二预设时间内,例如2秒,使头控指示光标11在语音输入界面10中移动至语音转换结果文本框14中,并在第三预设时间之内,例如2秒,悬停在语音转换结果文本框14中,则用户可以对生成的输入文本进行修改,用户100做出第一头部转动动作,重新使头控指示光标11移动至输入控件12所处位置,再次进行语音输入,否则,语音转换结果文本框14中生成的对应的输入文本自动添加到输入控件12中,输入控件12中的输入光标15移动至输入控件12的末尾,则完成输入。
以下分别进行详细说明。需说明的是,以下实施例的描述顺序不作为对实施例优选顺序的限定。
本实施例将从运用头控实现语音输入装置的角度进行描述,该运用头控实现语音输入装置具体可以集成在虚拟现实设备中,该设备包括虚拟现实眼镜、虚拟或增强现实头戴式设备、虚拟现实座椅等。
一种运用头控实现语音输入的方法,包括:根据用户第一头部转动动作在语音输入界面使头控指示光标在第一预设时间内悬停在输入控件所处位置;进行语音识别,在语音转换结果文本框中生成输入文本;根据所述第一头部转动动作判断所述头控指示光标在第二预设时间内是否移动至所述语音转换结果文本框中;将所述输入文本添加至所述输入控件中。
如图2所示,运用头控实现语音输入的方法的具体流程如下:
步骤201、根据用户第一头部转动动作在语音输入界面使头控指示光标在第一预设时间内悬停在输入控件所处位置。
例如,请一并参阅图3,用户戴上虚拟现实设备,在虚拟现实场景中预先设置第一预设时间,在场景的语音输入界面中,用户做出第一头部转动动作,执行步骤301,虚拟设备系统感应到用户的头部转动动作,并判断出该头部转动动作属于第一头部转动动作,根据第一头部转动动作的转动距离和方向通过算法得出头控指示光标的移动信息,并在语音输入界面中对应显示该头控指示光标的移动信息,执行步骤302,用户根据在语音输入界面中看到的移动信息,再次做出第一头部转动动作,直到在语音输入界面中控制头控指示光标移动到输入控件中,并且控制头控指示光标在第一预设时间内悬停在输入控件中,此时语音输入界面中会显示第一预设时间的倒计时图标,直观的提醒用户控制头控指示光标在第一预设时间内悬停在输入控件的等待时间。
其中,虚拟现实,就是虚拟和现实相互结合。虚拟现实技术是一种可以创建和体验虚拟世界的计算机仿真系统,它利用计算机生成一种模拟环境,使用户沉浸到该环境中。虚拟现实技术就是利用现实生活中的数据,通过计算机技术产生的电子信号,将其与各种输出设备结合使其转化为能够让人们感受到的现象,这些现象可以是现实中真真切切的物体,也可以是我们肉眼所看不到的物质,通过三维模型表现出来。
其中,移动信息指头控指示光标在语音输入界面中移动的距离和方向。
可选的,第一预设时间指的是一段较短的时间间隔,例如2秒,不可以设置过长的时间间隔,影响用户的体验满意度,可以根据实际情况灵活设置。
其中,第一头部转动动作指用户小幅度的上下左右转动头部,或顺时针、逆时针使头部转圈,或小幅度的点头、摇头等头部动作。
可选的,用户做出第一头部转动动作,直到在语音输入界面中控制头控指示光标移动到输入控件中,用户在第一预设时间内保持头部静止不动,从而控制头控指示光标在输入控件中静止不动,悬停在输入控件中。
可选的,用户做出第一头部转动动作,直到在语音输入界面中控制头控指示光标移动到输入控件中,用户在第一预设时间内做出第一头部转动动作,控制头控指示光标在输入控件范围内小幅度的移动,但不移出输入控件所包括的范围,则表明头控指示光标在第一预设时间内悬停在输入控件中。
可选的,请一并参阅图3,用户做出第一头部转动动作,直到在语音输入界面中控制头控指示光标移动到输入控件中后,执行步骤303,系统会检测头控指示光标所在的控件是否是一个可以输入文本内容的控件,若是,则执行步骤304,触发语音输入服务,生成输入文本,若否,则结束此次语音输入,重新执行步骤301,用户重新做出第一头部转动动作,在语音输入界面中控制头控指示光标移动到另一个输入控件中,直至系统检测后表明此头控指示光标所在的控件是一个可以输入文本内容的控件,则触发语音输入服务。
步骤202、进行语音识别,在语音转换结果文本框中生成输入文本。
例如,请一并参阅图3,用户控制头控指示光标在第一预设时间内悬停在输入控件中,执行步骤304,触发系统的语音输入服务,系统在语音输入界面中隐藏头控指示光标,打开麦克风,采集用户的声音,直至感应到用户做出第二头部转动动作,则系统接收到用户结束语音输入的信号,结束对用户声音的采集,并且使头控指示光标重新在语音输入界面原先隐藏的地方出现,然后对采集到的声音进行语音识别,生成输入文本,显示在语音输入界面的语音转换结果文本框中。
其中,第二头部转动动作指用户进行稍大幅度的点头、摇头或稍大幅度的上下左右转动头部等头部动作。
其中,语音识别就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。
步骤203、根据所述第一头部转动动作判断所述头控指示光标在第二预设时间内是否移动至所述语音转换结果文本框中。
例如,请一并参阅图3,在虚拟现实场景中预先设置第二预设时间和第三预设时间,在语音输入界面的语音转换结果文本框中显示出即将要输入的文本后,执行步骤305,判断用户是否想要修改此输入文本,若是,则执行步骤306,用户做出第一头部转动动作,控制头控指示光标在第二预设时间内移动至语音转换结果文本框中,此时语音输入界面中会显示第二预设时间的倒计时图标,直观的提醒用户第二预设时间的时间长度,然后执行步骤307,判断头控指示光标是否在第三预设时间内悬停在语音转换结果文本框中,此时语音输入界面中会显示第三预设时间的倒计时图标,直观的提醒用户第三预设时间的时间长度,若是,则重新执行步骤301,用户做出第一头部转动动作,直至控制头控指示光标移动至输入控件所处位置,并且在第一预设时间内悬停在输入控件所处位置,重新进行语音输入,直至再一次在语音转换结果文本框中生成输入文本后,用户不需要进行修改,没有在第二预设时间内将将头控指示光标移动至语音转换结果文本框中,将该输入文本自动添加至输入控件中,完成输入。
其中,第二预设时间和第三预设时间都指的是一段较短的时间间隔,例如2秒,不可以设置过长的时间间隔,影响用户的体验满意度,可以根据实际情况灵活设置,第一预设时间、第二预设时间和第三预设时间可以相同,也可以互不相同。
可选的,请一并参阅图3,在虚拟现实场景中预先设置第二预设时间和第三预设时间,在语音输入界面的语音转换结果文本框中显示出即将要输入的文本后,若用户想要修改此输入文本,则执行步骤306,用户做出第一头部转动动作,控制头控指示光标在第二预设时间内移动至语音转换结果文本框中,然后执行步骤307,判断头控指示光标是否在第三预设时间内悬停在语音转换结果文本框中,此时语音输入界面中会显示第三预设时间的倒计时图标,直观的提醒用户第三预设时间的时间长度,若否,在第三预设时间内,用户控制头部指示光标移出了语音转换结果文本框中,且在第二预设时间结束之前都没将头部指示光标重新移回至语音转换结果文本框中,则无法修改之前产生的输入文本,执行步骤308,将此输入文本自动添加至输入控件中,完成输入。
可选的,请一并参阅图3,在语音输入界面的语音转换结果文本框中显示出即将要输入的文本后,执行步骤305,判断用户是否想要修改此输入文本,若否,用户在第二预设时间之内没有将头控指示光标移动至语音转换结果文本框中,则执行步骤308,将此输入文本自动添加至输入控件中,完成输入。
步骤204、将所述输入文本添加至所述输入控件中。
例如,请一并参阅图3,在语音输入界面的语音转换结果文本框中显示出即将要输入的文本后,系统确定用户不想修改此输入文本,执行步骤308,将此输入文本自动添加至输入控件中,完成输入。
为了更好地实施以上方法,本发明实施例还可以提供一种运用头控实现语音输入的装置,该运用头控实现语音输入的装置可以集成在虚拟现实设备中,该设备包括虚拟现实眼镜、虚拟或增强现实头戴式设备、虚拟现实座椅等。
例如,如图4所示,该运用头控实现语音输入的装置可以包括交互单元401、输入文本生成单元402和处理单元403,如下:
(1)交互单元401
交互单元401,用于根据用户第一头部转动动作在语音输入界面使头控指示光标在第一预设时间内悬停在输入控件所处位置。
例如,在虚拟现实场景的语音输入界面中,用户做出第一头部转动动作,交互单元401感应到用户的头部转动动作,并判断出该头部转动动作属于第一头部转动动作,然后交互单元401根据第一头部转动动作的转动距离和方向通过算法得出头控指示光标的移动信息,并在语音输入界面中对应显示该头控指示光标的移动信息,从而使得用户转动头部便可以控制头控指示光标在语音输入界面上移动,实现用户与虚拟现实设备交互,交互单元401通过识别用户第一头部转动动作,从而控制头控指示光标移动至输入控件所处位置,并在第一预设时间内悬停在输入控件所处位置。
(2)输入文本生成单元402
输入文本生成单元402,用于进行语音识别,在语音转换结果文本框中生成输入文本。
例如,交互单元401识别用户控制头控指示光标移动至输入控件所处位置,并在第一预设时间内悬停在输入控件所处位置,则触发语音输入服务,输入文本生成单元402在语音输入界面中隐藏头控指示光标,打开麦克风,采集用户的声音,交互单元401感应到用户的头部转动动作,并判断出该头部转动动作属于第二头部转动动作,交互单元401反馈用户做出第二头部转动动作的信息,输入文本生成单元402接收此信息,结束对用户声音的采集,并且使头控指示光标重新在语音输入界面原先隐藏的地方出现,然后输入文本生成单元402对采集到的声音进行语音识别,生成输入文本,显示在语音输入界面的语音转换结果文本框中。
(3)处理单元403
处理单元403,用于根据所述第一头部转动动作判断所述头控指示光标在第二预设时间内是否移动至所述语音转换结果文本框中。
例如,在虚拟现实场景中预先设置第二预设时间和第三预设时间,输入文本生成单元402在语音输入界面的语音转换结果文本框中显示输入文本后,交互单元401感应到用户的头部转动动作,并判断出该头部转动动作属于第一头部转动动作,交互单元401控制头控指示光标在第二预设时间内移动至语音转换结果文本框中,并且控制头控指示光标在第三预设时间内悬停在语音转换结果文本框中,则处理单元403提醒用户重新进行语音输入,交互单元401感应到用户做出第一头部转动动作,直至控制头控指示光标移动至输入控件所处位置,并且在第一预设时间内悬停在输入控件所处位置,重新进行语音输入,输入文本生成单元402重新进行语音识别,直至再一次在语音转换结果文本框中生成输入文本后,交互单元401没有感应到用户做出第一头部转动动作在第二预设时间内将头控指示光标移动至语音转换结果文本框中,处理单元403将该输入文本自动添加至输入控件中,完成输入。
可选的,在虚拟现实场景中预先设置第二预设时间和第三预设时间,在语音输入界面的语音转换结果文本框中显示出即将要输入的文本后,交互单元401感应到用户做出第一头部转动动作,控制头控指示光标在第二预设时间内移动至语音转换结果文本框中,则处理单元403若在第三预设时间内,交互单元401感应到用户控制头部指示光标移出了语音转换结果文本框中,且在第二预设时间结束之前都没将头部指示光标重新移回至语音转换结果文本框中,处理单元403将该输入文本自动添加至输入控件中,完成输入。
可选的,在语音输入界面的语音转换结果文本框中显示出即将要输入的文本后,交互单元401感应到用户在第二预设时间之内没有将头控指示光标移动至语音转换结果文本框中,则处理单元403直接将此输入文本自动添加至输入控件中,完成输入。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
以上对本发明实施例所提供的一种运用头控实现语音输入的方法和装置进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的技术方案及其核心思想;本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例的技术方案的范围。

Claims (7)

1.一种运用头控实现语音输入的方法,其特征在于,包括:
根据用户第一头部转动动作在语音输入界面使头控指示光标在第一预设时间内悬停在输入控件所处位置;
进行语音识别,在语音转换结果文本框中生成输入文本;
根据所述第一头部转动动作判断所述头控指示光标在第二预设时间内是否移动至所述语音转换结果文本框中;
将所述输入文本添加至所述输入控件中;
所述根据所述第一头部转动动作判断所述头控指示光标在第二预设时间内是否移动至所述语音转换结果文本框中,包括:
若所述头控指示光标在第二预设时间内移动至所述语音转换结果文本框中,则根据所述第一头部转动动作判断所述头控指示光标在第三预设时间内是否悬停在所述语音转换结果文本框中;
若所述头控指示光标在第二预设时间内没有移动至所述语音转换结果文本框中,则将所述输入文本添加至所述输入控件中;
所述根据所述第一头部转动动作判断所述头控指示光标在第三预设时间内是否悬停在所述语音转换结果文本框中,包括:
若是,则根据用户的所述第一头部转动动作控制所述头控指示光标移动至输入控件所处位置;
若否,则将所述输入文本添加至所述输入控件中。
2.根据权利要求1所述的方法,其特征在于,所述根据用户的所述第一头部转动动作控制所述头控指示光标移动至输入控件所处位置,包括:
根据所述第一头部转动动作产生所述头控指示光标的移动信息;
根据所述移动信息在所述语音输入界面移动所述头控指示光标至所述输入控件所处位置。
3.根据权利要求1所述的方法,其特征在于,所述根据用户第一头部转动动作在语音输入界面使头控指示光标在第一预设时间内悬停在输入控件所处位置,包括:
若所述头控指示光标在第一预设时间内移出所述输入控件所处位置,则不进行语音识别。
4.根据权利要求1所述的方法,其特征在于,所述进行语音识别,包括:
隐藏所述头控指示光标,进行语音识别;
在语音识别过程中,感应用户第二头部转动动作,显现所述头控指示光标,结束语音识别。
5.一种运用头控实现语音输入的装置,其特征在于,包括:
交互单元,用于根据用户第一头部转动动作在语音输入界面使头控指示光标在第一预设时间内悬停在输入控件所处位置;
输入文本生成单元,用于进行语音识别,在语音转换结果文本框中生成输入文本;
处理单元,用于根据所述第一头部转动动作判断所述头控指示光标在第二预设时间内是否移动至所述语音转换结果文本框中,将所述输入文本添加至所述输入控件中;
所述处理单元还用于确定所述头控指示光标在第二预设时间内移动至所述语音转换结果文本框中,根据所述第一头部转动动作判断所述头控指示光标在第三预设时间内是否悬停在所述语音转换结果文本框中,若是,则将所述头控指示光标在第一预设时间内悬停在输入控件所处位置,若否,则将所述输入文本添加至所述输入控件中。
6.根据权利要求5所述的装置,其特征在于,所述输入文本生成单元,用于在语音识别之前隐藏所述头控指示光标,在语音识别过程中,接收用户进行第二头部转动动作的信息,显现所述头控指示光标,结束语音识别。
7.根据权利要求5所述的装置,其特征在于,所述处理单元,用于确定所述头控指示光标在第二预设时间内没有移动至所述语音转换结果文本框中,将所述输入文本添加至所述输入控件中。
CN202010325910.2A 2020-04-23 2020-04-23 一种运用头控实现语音输入的方法和装置 Active CN111459288B (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN202010325910.2A CN111459288B (zh) 2020-04-23 2020-04-23 一种运用头控实现语音输入的方法和装置
PCT/CN2020/092848 WO2021212603A1 (zh) 2020-04-23 2020-05-28 运用头控实现语音输入的方法和装置
US17/996,930 US20230168859A1 (en) 2020-04-23 2020-05-28 Method and device for voice input using head control device
EP20932538.0A EP4141620A1 (en) 2020-04-23 2020-05-28 Method and apparatus for achieving voice input by using head control

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010325910.2A CN111459288B (zh) 2020-04-23 2020-04-23 一种运用头控实现语音输入的方法和装置

Publications (2)

Publication Number Publication Date
CN111459288A CN111459288A (zh) 2020-07-28
CN111459288B true CN111459288B (zh) 2021-08-03

Family

ID=71686126

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010325910.2A Active CN111459288B (zh) 2020-04-23 2020-04-23 一种运用头控实现语音输入的方法和装置

Country Status (4)

Country Link
US (1) US20230168859A1 (zh)
EP (1) EP4141620A1 (zh)
CN (1) CN111459288B (zh)
WO (1) WO2021212603A1 (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106168895A (zh) * 2016-07-07 2016-11-30 北京行云时空科技有限公司 用于智能终端的语音控制方法及智能终端
CN108845754A (zh) * 2018-07-03 2018-11-20 西交利物浦大学 用于移动虚拟现实头戴显示器的无驻留文本输入方法

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9019205B1 (en) * 1999-03-24 2015-04-28 Intelpro Llc Apparatus and method for controlling display cursor
CN103428336A (zh) * 2012-05-17 2013-12-04 西安闻泰电子科技有限公司 手机语音输入方法
KR102641655B1 (ko) * 2015-10-20 2024-02-27 매직 립, 인코포레이티드 3차원 공간에서 가상 객체들 선택
CN106126157B (zh) * 2016-06-13 2019-04-05 北京云知声信息技术有限公司 基于医院信息系统的语音输入方法及装置
CN106775555B (zh) * 2016-11-24 2020-02-07 歌尔科技有限公司 一种虚拟现实设备及虚拟现实设备的输入控制方法
CN106658146A (zh) * 2016-12-28 2017-05-10 上海翌创网络科技股份有限公司 基于虚拟现实的弹幕方法
CA3059234A1 (en) * 2017-04-19 2018-10-25 Magic Leap, Inc. Multimodal task execution and text editing for a wearable system
CN107436749A (zh) * 2017-08-03 2017-12-05 安徽智恒信科技有限公司 基于三维虚拟现实场景的文字输入方法及系统
CN109471537A (zh) * 2017-09-08 2019-03-15 腾讯科技(深圳)有限公司 语音输入方法、装置、计算机设备和存储介质
CN107943296A (zh) * 2017-11-30 2018-04-20 歌尔科技有限公司 应用于头戴式设备中的控制方法及设备
CN109669662A (zh) * 2018-12-21 2019-04-23 惠州Tcl移动通信有限公司 一种语音输入方法、装置、存储介质及移动终端
CN109917982B (zh) * 2019-03-21 2021-04-02 科大讯飞股份有限公司 一种语音输入方法、装置、设备及可读存储介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106168895A (zh) * 2016-07-07 2016-11-30 北京行云时空科技有限公司 用于智能终端的语音控制方法及智能终端
CN108845754A (zh) * 2018-07-03 2018-11-20 西交利物浦大学 用于移动虚拟现实头戴显示器的无驻留文本输入方法

Also Published As

Publication number Publication date
CN111459288A (zh) 2020-07-28
EP4141620A1 (en) 2023-03-01
WO2021212603A1 (zh) 2021-10-28
US20230168859A1 (en) 2023-06-01

Similar Documents

Publication Publication Date Title
US11398067B2 (en) Virtual reality presentation of body postures of avatars
AU2022200965B2 (en) Avatar creation and editing
CN108089727B (zh) 用于屏幕的手写键盘
TWI439960B (zh) 虛擬使用者編輯環境
KR101851356B1 (ko) 3d 디지털액터에 의한 지능형 사용자 인터페이스 제공방법
CN103425479A (zh) 用于远程设备的用户接口虚拟化
JP2010534895A (ja) 高度なカメラをベースとした入力
KR20120132096A (ko) 휴대 단말기 및 그 동작 제어방법
JP2023525173A (ja) レンダリングされたグラフィカル出力を利用する会話型aiプラットフォーム
US11182044B2 (en) Device, method, and graphical user interface for manipulating 3D objects on a 2D screen
CN106406537A (zh) 一种显示方法以及装置
CN111459288B (zh) 一种运用头控实现语音输入的方法和装置
KR20210129067A (ko) 상호작용 방법, 장치, 상호작용 장치, 전자 장치 및 저장 매체
CN107770253A (zh) 远程控制方法及系统
Blokša Design guidelines for user interface for augmented reality
KR102026172B1 (ko) 사물 의인화 및 사물 컨텍스트를 이용한 인공지능 대화 방법 및 시스템
Van de Broek et al. Perspective Chapter: Evolution of User Interface and User Experience in Mobile Augmented and Virtual Reality Applications
JP2023072111A (ja) 情報処理装置、制御プログラム、制御方法および情報処理システム
Jutterström Innovative User Interfaces in the Industrial Domain

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant