CN114697717A - 一种文本输入方法和终端设备 - Google Patents
一种文本输入方法和终端设备 Download PDFInfo
- Publication number
- CN114697717A CN114697717A CN202011580128.1A CN202011580128A CN114697717A CN 114697717 A CN114697717 A CN 114697717A CN 202011580128 A CN202011580128 A CN 202011580128A CN 114697717 A CN114697717 A CN 114697717A
- Authority
- CN
- China
- Prior art keywords
- voice
- information
- text input
- input instruction
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 34
- 230000001960 triggered effect Effects 0.000 claims description 18
- 238000004590 computer program Methods 0.000 claims description 14
- 230000003993 interaction Effects 0.000 abstract description 24
- 230000006870 function Effects 0.000 description 12
- 238000010586 diagram Methods 0.000 description 6
- 230000006872 improvement Effects 0.000 description 6
- 230000008569 process Effects 0.000 description 5
- 238000012545 processing Methods 0.000 description 4
- 230000004044 response Effects 0.000 description 3
- 238000012905 input function Methods 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/41—Structure of client; Structure of client peripherals
- H04N21/422—Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
- H04N21/42203—Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS] sound input device, e.g. microphone
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/47—End-user applications
- H04N21/472—End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Databases & Information Systems (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
本发明提供了一种文本输入方法和终端设备,所述文本输入方法包括:获取语音输入指令,根据所述语音输入指令选中显示画面中的文本输入区域,并根据所述语音输入指令获取语音信息,其中,所述显示画面是终端设备的显示屏上显示的画面;基于所述语音信息确定文字信息,并将所述文字信息输入所述文本输入区域中。本发明中,根据语音输入指令获取语音信息,对语音信息进行识别,以得到文字信息,并将文字信息输入文本输入区域中。通过语音识别实现用户与设备之间的交互,不需要手动向文本输入区域中输入文字信息,减少了用户与设备交互所需的时间,降低了用户与设备交互的操作难度。
Description
技术领域
本申请涉及语音交互领域,特别是涉及一种文本输入方法和终端设备。
背景技术
目前,用户与智能电视之间的交互,大多是在搜索页面中搜索想看的节目,常规操作是,通过遥控器的上下左右按键选择搜索词,智能电视根据搜索词进行搜索,并展示搜索结果供用户选择。
通过输入文本实现用户与智能电视之间的交互,时长和操作复杂度较高,对于输入文本这一操作不熟悉的用户,更加耗时,甚至无法通过输入文本实现与智能电视之间的交互,为智能电视的人机交互带来限制。
因此,现有技术有待改进。
发明内容
本发明提供了一种文本输入方法和终端设备,通过语音识别实现用户与设备之间的交互,不需要手动向文本输入区域中输入文字信息,减少了用户与设备交互所需的时间,降低了用户与设备交互的操作难度。
第一方面,本发明实施例提供了文本输入方法,包括:
获取语音输入指令,根据所述语音输入指令选中显示画面中的文本输入区域,并根据所述语音输入指令获取语音信息,其中,所述显示画面是终端设备的显示屏上显示的画面;
基于所述语音信息确定文字信息,并将所述文字信息输入所述文本输入区域中。
在进一步的改进方案中,所述文本输入方法应用于显示设备,当所述语音输入指令是所述显示设备触发时,所述获取语音输入指令包括:
接收第一预设按键的触发信息,其中,所述第一预设按键为设置在所述显示画面上的虚拟按键,所述设置在所述文本输入区域的一侧,且与所述文本输入区域的边界之间的距离不超过预设距离;
根据所述第一预设按键的触发信息,获取所述语音输入指令。在进一步的改进方案中,当所述语音输入指令是控制设备发送时,所述获取语音输入指令包括:
接收第二预设按键的触发信息,其中,所述第二预设按键为设置在所述控制设备上的实体按键;
根据所述第二预设按键的触发信息,获取所述语音输入指令。
在进一步的改进方案中,所述预设模式包括:所述第二预设按键处于按下状态,且处于按下状态的时长达到第一预设时长。
在进一步的改进方案中,所述预设模式包括:所述第二预设按键被双击。
在进一步的改进方案中,所述根据所述语音输入指令获取语音信息,具体包括:
根据所述语音输入指令接收音频流;
当未接收到音频流的时长达到第二预设时长时,将自接收所述语音输入指令起接收到的音频流作为所述语音信息。
在进一步的改进方案中,所述根据所述语音输入指令获取语音信息,具体包括:
当接收到音频流的时长达到第二预设时长时,则停止接收所述音频流,并将在所述第二预设时长内所接收到的音频流作为所述语音信息。
在进一步的改进方案中,所述基于所述语音信息确定文字信息,具体包括:
提取所述语音信息对应的特征信息;
基于所述特征信息和声学模型,确定所述语音信息对应的音素序列;
基于所述音素序列和语言模型,确定所述语音信息对应的文字信息。
第二方面,本发明实施例提供了一种文本输入装置,包括:
语音信息获取模块,用于获取语音输入指令,根据所述语音输入指令选中显示画面中的文本输入区域,并根据所述语音输入指令获取语音信息,其中,所述显示画面是正在运行的应用程序所显示的画面;
输入模块,用于基于所述语音信息确定文字信息,并将所述文字信息输入所述文本输入区域中。
第三方面,本发明实施例提供了一种终端设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取语音输入指令,根据所述语音输入指令选中显示画面中的文本输入区域,并根据所述语音输入指令获取语音信息,其中,所述显示画面是终端设备的显示屏上显示的画面;
基于所述语音信息确定文字信息,并将所述文字信息输入所述文本输入区域中。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取语音输入指令,根据所述语音输入指令选中显示画面中的文本输入区域,并根据所述语音输入指令获取语音信息,其中,所述显示画面是正在运行的应用程序所显示的画面;
基于所述语音信息确定文字信息,并将所述文字信息输入所述文本输入区域中。
与现有技术相比,本发明实施例具有以下优点:
在本发明实施例中,获取语音输入指令,根据所述语音输入指令选中显示画面中的文本输入区域,并根据所述语音输入指令获取语音信息,其中,所述显示画面是终端设备的显示屏上显示的画面;基于所述语音信息确定文字信息,并将所述文字信息输入所述文本输入区域中。本发明中,根据语音输入指令获取语音信息,对语音信息进行识别,以得到文字信息,并将文字信息输入文本输入区域中。通过语音识别实现用户与设备之间的交互,不需要手动向文本输入区域中输入文字信息,减少了用户与设备交互所需的时间,降低了用户与设备交互的操作难度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例中一种文本输入方法的流程示意图;
图2为本发明实施例中,在显示设备自带应用程序的搜索页面中,设置一第一预设按键的示意图;
图3为本发明实施例中,在显示设备自带应用程序的的登录页面中,设置一第二预设按键的示意图;
图4为本发明实施例中,通过控制设备配置的第二预设按键发送语音输入指令到显示设备时,语音识别的控制方法的示意图;
图5为本发明实施例中一种文本输入装置的结构示意图;
图6为本发明实施例中终端设备的内部结构图。
具体实施方式
为了使本发明的目的、技术方案及效果更加清楚、明确,以下参照附图并举实施例对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个
其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。
发明人经过研究发现,目前,用户与智能电视之间的交互,大多是在搜索页面中搜索想看的节目,常规操作是,通过遥控器的上下左右按键选择搜索词,智能电视根据搜索词进行搜索,并展示搜索结果供用户选择。通过输入文本实现用户与智能电视之间的交互,时长和操作复杂度较高,对于输入文本这一操作不熟悉的用户,更加耗时,甚至无法通过输入文本实现与智能电视之间的交互,为智能电视的人机交互带来限制。
为了解决上述问题,在本发明实施例中,获取语音输入指令,根据所述语音输入指令选中显示画面中的文本输入区域,并根据所述语音输入指令获取语音信息,其中,所述显示画面是终端设备的显示屏上显示的画面;基于所述语音信息确定文字信息,并将所述文字信息输入所述文本输入区域中。本发明中,根据语音输入指令获取语音信息,对语音信息进行识别,以得到文字信息,并将文字信息输入文本输入区域中。通过语音识别实现用户与设备之间的交互,不需要手动向文本输入区域中输入文字信息,减少了用户与设备交互所需的时间,降低了用户与设备交互的操作难度。
本发明实施例提供的一种文本输入方法,可以应用于电子设备中,所述电子设备为可以接收语音信息,并对语音信息进行处理的设备,例如,电脑、智能终端、智能电视、智能音箱、智能冰箱等设备。
参阅图1,本实施例提供了一种文本输入方法,包括:
S1、获取语音输入指令,根据所述语音输入指令选中显示画面中的文本输入区域,并根据所述语音输入指令获取语音信息。
在本发明实施例中,为了便于说明,将执行所述文本输入方法的设备记为显示设备。所述语音输入指令用于触发获取选中文本输入区域,并获取语音信息。所述显示画面是终端设备的显示屏上显示的画面。该显示画面可以是终端设备的桌面,也可以是该终端设备的显示屏上正在运行的应用程序所显示的画面。在一种实现方式中,所述应用程序可以是显示设备自带的应用程序,所述应用程序也可以是显示设备下载的第三方应用程序。在应用程序运行时,获取语音输入指令,根据语音输入指令选中显示画面中的文本输入区域,并根据语音输入指令获取语音信息。
在本发明实施例中,所述显示画面中的文本输入区域,是用于写入文字信息的载体,现有技术中,通过键盘向文本输入区域中写入文字信息。所述语音信息可以是用户发出的语音信息,例如,用户说出:一出好戏,则“一出好戏”是语音信息。
在本发明实施例中,所述语音输入指令可以显示设备自身的语音输入功能被触发,以使得显示设备获取语音输入指令;所述语音输入指令还可以是控制设备发送到显示设备,以使得显示设备获取语音输入指令,所述语音输入指令也可以是所述显示设备自身的语音识别功能被触发,以使得显示设备获取语音输入指令。
在本方发明实施例中,当所述语音输入指令是所述显示设备触发时,所述获取语音输入指令的条件包括:所述显示画面中的第一预设按键被触发,以获取语音输入指令。也就是说,若本实施例语音识别的文本输入方法应用于显示设备,则在获取所述语音指令时,本实施例可通过接收第一预设按键的触发信息,该触发信息即为所述第一预设按键被触发时所产生的提示信息,以提示获取语音输入指令。因此本实施例就可以根据所述第一预设按键的触发信息,获取所述语音输入指令。
具体的,所述第一预设按键,用于被点击时生成语音输入指令。所述第一预设按键可以是显示画面中的虚拟按键。所述第一预设按键可以设置在所述文本输入区域的一侧,且与所述文本输入区域的边界之间的距离不超过预设距离。当所述第一预设按键的形状为矩形时,所述预设距离所述预设距离可以是所述第一预设按键的任一边长;当所述第一预设按键的形状为圆形时,所述预设距离可以是所述第一预设按键的直径。
在本发明实施例中,对于显示设备自带的应用程序,在包括文本输入区域的显示画面中设置一虚拟按键,作为第一预设按键。例如,参见图2,在显示设备自带应用程序的搜索页面中,设置一虚拟的第一预设按键100,点击该第一预设按键后,显示设备获取语音输入指令。参见图3,在显示设备自带应用程序的登录页面中,设置一虚拟的第二预设按键200,点击该第二预设按键后,显示设备获取语音输入指令。
在本发明实施例中,所述语音输入指令可以是控制设备发送的,具体的,当所述语音输入指令是控制设备发送时,所述获取语音输入指令的条件包括:控制设备上配置的第二预设按键按照预设模式被触发,其中,所述控制设备用于控制所述显示设备。也就是说,若本实施例语音识别的文本输入方法应用于控制设备,则在获取所述语音指令时,本实施例可通过接收第二预设按键的触发信息,该触发信息即为该第二预设按键被触发时所产生的提示信息,以提示获取语音输入指令。因此本实施例就可以根据所述第二预设按键的触发信息,获取所述语音输入指令。
在本发明实施例中,所述控制设备可以是与显示设备成套配置的遥控器、可以控制显示设备的智能终端等。所述控制设备可以发送控制指令至显示设备,以对显示设备进行控制。控制设备可以发送语音输入指令至显示设备。
在本发明实施例中,可以将控制设备上的一个实体按键设置为第二预设按键,当第二预设按键按照预设模式被触发时,则控制设备发送语音输入指令到显示设备。
在本发明实施例中,所述预设模式包括:第二预设按键被按下,或者,所述第二预设按键被双击,或者所述第二预设按键处于按下状态,且处于按下状态的时长达到第一预设时长。其中,所述第一预设时长可以自定义设置,例如,所述第一预设时长为1秒。
在本发明实施例中,所述第二预设按键可以是控制设备上专用于发送语音输入指令的按键,也就是说,所述第二预设按键只能用于发送语音输入指令。当所述第二预设按键是专用于发送语音输入指令的按键时,所述预设模式可以是所述第二预设按键被按下。
在本发明实施例中,所述第二预设按键可以是控制设备上具有多种功能的按键,并且多种功能中除了包括有该按键的初始定义功能以外,还包括有发送语音指令的功能,例如,所述第二预设按键的功能除了发送语音指令以外,还具备音量调节的功能,换句话说,该第二预设按键可以是控制设备上用于增加音量的按键。在本实施例中,所述第二预设按键实现发送语音指令的功能与实现初始定义功能的触发方式并不相同,具体地,所述第二预设按键在预设模式下被触发,可以发送语音输入指令到显示设备,所述第二预设按键在非预设模式下被触发,可以用于实现该第二预设按键的初始定义功能。当所述第二预设按键可以是具有多种功能的按键时,所述预设模式包括:第二预设按键被双击,或者第二预设按键被按下,并且第二预设按键处于被按下的状态达到第一时长。
例如,假设第二预设按键是增加音量键,预设模式包括第二预设按键被双击;当所述第二预设按键被按下时,实现增加音量的功能,当所述第二预设按键被双击时,发送语音输入指令到显示设备。
在一个参考示例中,显示设备为智能电视,在智能电视的第三方应用程序中,例如,下载的视频应用程序。在第三方应用程序中,向文本输入区域中写入文字信息的常规方法是:通过遥控器的上下左右键选择字母,通过手动输入字母得到要输入的文字信息。例如,在第三方应用程序的搜索页面的文本输入区域中通过键盘输入文字信息,或者在第三方应用程序的登录页面的文本输入区域中输入文字信息。在第三方应用程序中实现语音输入的功能时,无法对第三方应用本身进行改进,因此,可以在遥控器上新增一个第二预设按键,当第二预设按键被按下时,发送语音输入指令到显示设备,以代替现有的手动输入的方式。
在本发明实施例中,通过控制设备上配置的第二预设按键按照预设模式被触发以获取语音输入指令,和通过显示画面中的第一预设按键被触发以获取语音输入指令可以同时存在,也就是说,当控制设备配置有第二预设按键,并且显示画面中配置有第一预设按键时,即可以通过第二预设按键发送语音输入指令,也可以通过触发显示画面中的第一预设按键获取语音输入指令。
接下来介绍根据所述语音输入指令获取语音信息的具体过程。
步骤S1包括:
S11、根据所述语音输入指令接收音频流。
在本发明实施例中,响应于所述语音输入指令,显示设备的麦克风开始录制声音,生成脉冲编码调制(Pulse-code-modulation,pcm)格式的音频流。
S12、当未接收到音频流的时长达到第二预设时长时,将自接收所述语音输入指令起接收到的音频流作为所述语音信息。
S13、当接收到音频流的时长达到第二预设时长时,则停止接收所述音频流,并将在所述第二预设时长内所接收到的音频流作为所述语音信息。
在本发明实施例中,接收音频流是实时进行的,当未接收到音频流的时长达到第二预设时长时,可以认为用户已经停止输出语音信息。所述第二预设时长可以自定义设置,如设置为1秒。所谓自接收所述语音输入指令起接收到的音频流,是指从开始接收音频流,到停止接收到音频流之间接收到的音频流。
在本发明实施例中,当未接收到音频流的时长达到第二预设时长时,即表示此时接收音频流的时间过长,会停止接收所述音频流,并生成一个音频结束信息,并添加至所述音频流的末尾,然后将在所述第二预设时长内所接收到的音频流作为所述语音信息,这样可以避免因音频流过长,给语音信息的识别所带来的不便,提高语音信息识别的准确性。所述音频结束信息是音频流结束的标志。所述音频结束信息为二进制形式。
例如,显示设备在t1时刻获取语音输入指令,从t1时刻开始接收音频流直至t2时刻,从t2时刻开始未接收到音频流,并且未接收到音频流的时长达到第二预设时长时,获取从t1时刻至t2时刻之间接收的音频流,将t1时刻至t2时刻之间接收的音频流作为语音信息。
S2、基于所述语音信息确定文字信息,并将所述文字信息输入所述文本输入区域中。
在本发明实施例中,通过语音识别(Automatic Speech Recognition,ASR)得到语音信息对应的文字信息。可以通过显示设备配置的ASR模块将语音信息转换为文字信息,或者将语音信息发送至ASR服务器,通过ASR服务器将语音信息转换为文字信息。
ASR模块,或者ASR服务器执行的过程包括:提取语音信息对应的特征信息,基于特征信息、声学模型和语言模型得到语音信息对应的文字信息。
具体的,步骤S2包括:
S21、提取所述语音信息对应的特征信息。
在本发明实施例中,首先对语音信息进行预处理,以得到预处理后信号。对语音信息进行预处理的过程包括:将语音信息转换为音频信号,对音频信号进行去噪处理,得到第一信号;对第一信号进行信道增强处理,得到第二信号;将第二信号转化为频域信号,以得到预处理后信号。基于预处理后信号确定语音信息对应的特征信息。
在本发明实施例中,所述语音信息对应的特征信息可以是语音信息对应的梅尔倒谱系数(Mel-scaleFrequency Cepstral Coefficients,MFCC)。具体的,对预处理后信号进行采样处理,得到数字信号;对数字信号进行快速傅里叶变化,得到第三信号;对第三信号进行梅尔滤波,得到第四信号;对第四信号进行对数运算处理,得到第五信号;对第五信号进行离散预选变换,以及正则化处理,得到语音信息对应的特征信息。
S22、基于所述特征信息和声学模型,确定所述语音信息对应的音素序列。
在本发明实施例中,所述声学模型可以是混合高斯模型-隐马尔可夫(GMM-HMM)模型。将特征信息输入GMM-HMM模型,得到音素序列。所述音素序列包括多个音素,音素是根据语音的自然属性划分出来的最小语音单位,例如,啊(ā)只有一个音素:ā,爱(ài)有两个音素:à和i。
例如,特征信息为(x1,x2,x3,x4,x5),通过GMM-HMM模型,得到音素序列为(w,o,m,e,n)。
S23、基于所述音素序列和语言模型,确定所述语音信息对应的文字信息。
在本发明实施例中,所述语言模型用于确定各文字为文字信息中出的文字的概率,各文字是语言模型配置的字典中的文字。对于音素序列中的每个音素,通过语言模型确定字典中各个文字是该音素对应的文字的概率。所述语言模型可以是N-Gram模型,N-Gram模型可以根据第N个文字之前的N-1个文字,预测第N个文字。例如,前N-1个文字是:“forex”,通过“for ex”预测位于x后的文字,得到第N个文字是a的概率是0.4,是b的概率是0.0001,是c的概率是…。将概率最大的文字作为第N个文字。
例如,特征信息为(x1,x2,…,x12),通过GMM-HMM模型,得到音素序列为(w,o,s,h,i,j,i,q,i,r,e,n),语言模型输出:我:0.0786,是:0.0546,我是:0.0898,机器:0.0967,机器人:0.6785。得到文字信息(我是机器人)。
S3、执行所述文字信息对应的操作。
在本发明实施例中,将文字信息输入显示画面中的文本输入区域中之后,获取执行指令,并基于所述执行指令执行文字信息对应的操作。
在本发明实施例中,所述执行指令可以通过控制设备发送,例如,在将文字信息输入显示画面中的文本输入区域中之后,用户点击显示画面中的执行按键,以发送执行指令至显示设备。也就是说,所述执行指令是通过显示设备的显示画面上配置的执行按键触发,例如,当显示画面上设置有执行按键被点击时,触发执行指令。
在本发明实施例中,当所述执行指令为搜索时,基于所述文字信息进行搜索操作,并返回搜索结果。具体的,若显示画面为搜索界面,则将文字信息输入显示画面中的文本输入区域中之后,触发执行指令,响应于执行指令,基于文字信息执行搜索操作,并得到搜索结果。当显示画面为搜索界面时,所述执行按键可以是显示画面中显示为搜索的按键。
在本发明实施例中,当所述执行指令为登录时,对所述文字信息进行验证,并在验证通过后进入下一界面。具体的,若显示画面为登录界面,则将文字信息输入显示画面中的文本输入区域中之后,触发执行指令,响应于执行指令,对所述文字信息进行验证,并在验证通过后进入下一界面。当显示画面为登录界面时,所述执行按键可以是显示画面中显示为登录的按键。
在一个示例中,参见图4,以控制设备配置的第二预设按键按照预设模式被触发,以发送所述语音输入指令为例,对文本输入方法进行说明。
步骤1、控制设备的第二预设按键按照预设模式被触发,发送语音输入指令到显示设备;
步骤2、显示设备获取显示画面中的文本输入区域,并打开麦克风,以获取语音信息;
步骤3、显示设备对语音信息进行处理,以得到文字信息;
步骤4、显示设备将文字信息填入显示画面的文本输入区域中。
在本发明实施例中,获取语音输入指令,根据所述语音输入指令选中显示画面中的文本输入区域,并根据所述语音输入指令获取语音信息,其中,所述显示画面是终端设备的显示屏上显示的画面;基于所述语音信息确定文字信息,并将所述文字信息输入所述文本输入区域中。本发明中,根据语音输入指令获取语音信息,对语音信息进行识别,以得到文字信息,并将文字信息输入文本输入区域中。通过语音识别实现用户与设备之间的交互,不需要手动向文本输入区域中输入文字信息,减少了用户与设备交互所需的时间,降低了用户与设备交互的操作难度。
基于上述一种文本输入方法,参见图5,本发明实施例还提供了一种文本输入装置,包括:
语音信息获取模块,用于获取语音输入指令,根据所述语音输入指令选中显示画面中的文本输入区域,并根据所述语音输入指令获取语音信息,其中,所述显示画面是终端设备的显示屏上显示的画面;
输入模块,用于基于所述语音信息确定文字信息,并将所述文字信息输入所述文本输入区域中。
在一个实施例中,本发明提供了一种终端设备,该设备可以是终端,内部结构如图6所示。该终端设备包括通过系统总线连接的处理器、存储器、网络模型接口、显示屏和输入装置。其中,该终端设备的处理器用于提供计算和控制能力。该终端设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该终端设备的网络模型接口用于与外部的终端通过网络模型连接通信。该计算机程序被处理器执行时以实现一种文本输入方法。该终端设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该终端设备的输入装置可以是显示屏上覆盖的触摸层,也可以是终端设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图6所示的仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的终端设备的限定,具体的终端设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
本发明实施例提供了一种终端设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取语音输入指令,根据所述语音输入指令选中显示画面中的文本输入区域,并根据所述语音输入指令获取语音信息,其中,所述显示画面是终端设备的显示屏上显示的画面;
基于所述语音信息确定文字信息,并将所述文字信息输入所述文本输入区域中。
本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取语音输入指令,根据所述语音输入指令选中显示画面中的文本输入区域,并根据所述语音输入指令获取语音信息,其中,所述显示画面是终端设备的显示屏上显示的画面;
基于所述语音信息确定文字信息,并将所述文字信息输入所述文本输入区域中。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (11)
1.一种文本输入方法,其特征在于,包括:
获取语音输入指令,根据所述语音输入指令选中显示画面中的文本输入区域,并根据所述语音输入指令获取语音信息,其中,所述显示画面是终端设备的显示屏上显示的画面;
基于所述语音信息确定文字信息,并将所述文字信息输入所述文本输入区域中。
2.根据权利要求1所述的文本输入方法,其特征在于,所述文本输入方法应用于显示设备,当所述语音输入指令是所述显示设备触发时,所述获取语音输入指令包括:
接收第一预设按键的触发信息,其中,所述第一预设按键为设置在所述显示画面上的虚拟按键,所述设置在所述文本输入区域的一侧,且与所述文本输入区域的边界之间的距离不超过预设距离;
根据所述第一预设按键的触发信息,获取所述语音输入指令。
3.根据权利要求1所述的文本输入方法,其特征在于,当所述语音输入指令是控制设备发送时,所述获取语音输入指令包括:
接收第二预设按键的触发信息,其中,所述第二预设按键为设置在所述控制设备上的实体按键;
根据所述第二预设按键的触发信息,获取所述语音输入指令。
4.根据权利要求3所述的文本输入方法,其特征在于,所述预设模式包括:所述第二预设按键处于按下状态,且处于按下状态的时长达到第一预设时长。
5.根据权利要求3所述的文本输入方法,其特征在于,所述预设模式包括:所述第二预设按键被双击。
6.根据权利要求1所述的文本输入方法,其特征在于,所述根据所述语音输入指令获取语音信息,具体包括:
根据所述语音输入指令接收音频流;
当未接收到音频流的时长达到第二预设时长时,将自接收所述语音输入指令起接收到的音频流作为所述语音信息。
7.根据权利要求6所述的文本输入方法,其特征在于,所述根据所述语音输入指令获取语音信息,具体包括:
当接收到音频流的时长达到第二预设时长时,则停止接收所述音频流,并将在所述第二预设时长内所接收到的音频流作为所述语音信息。
8.根据权利要求1所述的文本输入方法,其特征在于,所述基于所述语音信息确定文字信息,具体包括:
提取所述语音信息对应的特征信息;
基于所述特征信息和声学模型,确定所述语音信息对应的音素序列;
基于所述音素序列和语言模型,确定所述语音信息对应的文字信息。
9.一种文本输入装置,其特征在于,包括:
语音信息获取模块,用于获取语音输入指令,根据所述语音输入指令选中显示画面中的文本输入区域,并根据所述语音输入指令获取语音信息,其中,所述显示画面是终端设备的显示屏上显示的画面;
输入模块,用于基于所述语音信息确定文字信息,并将所述文字信息输入所述文本输入区域中。
10.一种终端设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至8中任意一项所述的文本输入方法中的步骤。
11.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至8中任意一项所述的文本输入方法中的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011580128.1A CN114697717A (zh) | 2020-12-28 | 2020-12-28 | 一种文本输入方法和终端设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011580128.1A CN114697717A (zh) | 2020-12-28 | 2020-12-28 | 一种文本输入方法和终端设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114697717A true CN114697717A (zh) | 2022-07-01 |
Family
ID=82129621
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011580128.1A Pending CN114697717A (zh) | 2020-12-28 | 2020-12-28 | 一种文本输入方法和终端设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114697717A (zh) |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106683677A (zh) * | 2015-11-06 | 2017-05-17 | 阿里巴巴集团控股有限公司 | 语音识别方法及装置 |
CN107193914A (zh) * | 2017-05-15 | 2017-09-22 | 广东艾檬电子科技有限公司 | 一种语音输入方法及移动终端 |
CN107864289A (zh) * | 2017-11-17 | 2018-03-30 | 珠海市魅族科技有限公司 | 一种语音输入方法和装置、终端、可读存储介质 |
CN107909998A (zh) * | 2017-10-18 | 2018-04-13 | 成都市共维科技有限公司 | 语音指令处理方法、装置、计算机设备和存储介质 |
CN108520750A (zh) * | 2018-03-13 | 2018-09-11 | 努比亚技术有限公司 | 一种语音输入控制方法、设备及计算机可读存储介质 |
CN108572764A (zh) * | 2018-03-13 | 2018-09-25 | 努比亚技术有限公司 | 一种文字输入控制方法、设备及计算机可读存储介质 |
CN109147796A (zh) * | 2018-09-06 | 2019-01-04 | 平安科技(深圳)有限公司 | 语音识别方法、装置、计算机设备及计算机可读存储介质 |
CN109331470A (zh) * | 2018-08-21 | 2019-02-15 | 平安科技(深圳)有限公司 | 基于语音识别的抢答游戏处理方法、装置、设备及介质 |
US20190164549A1 (en) * | 2017-11-30 | 2019-05-30 | Baidu Online Network Technology (Beijing) Co., Ltd | Method and apparatus for controlling page |
CN111145786A (zh) * | 2019-12-17 | 2020-05-12 | 深圳追一科技有限公司 | 语音情感识别方法和装置、服务器、计算机可读存储介质 |
CN111312245A (zh) * | 2020-02-18 | 2020-06-19 | 腾讯科技(深圳)有限公司 | 一种语音应答方法、装置和存储介质 |
CN111742539A (zh) * | 2018-08-07 | 2020-10-02 | 华为技术有限公司 | 一种语音控制命令生成方法及终端 |
CN112073785A (zh) * | 2020-09-07 | 2020-12-11 | 深圳创维-Rgb电子有限公司 | 文字输入方法、装置、智能电视及计算机可读存储介质 |
-
2020
- 2020-12-28 CN CN202011580128.1A patent/CN114697717A/zh active Pending
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106683677A (zh) * | 2015-11-06 | 2017-05-17 | 阿里巴巴集团控股有限公司 | 语音识别方法及装置 |
CN107193914A (zh) * | 2017-05-15 | 2017-09-22 | 广东艾檬电子科技有限公司 | 一种语音输入方法及移动终端 |
CN107909998A (zh) * | 2017-10-18 | 2018-04-13 | 成都市共维科技有限公司 | 语音指令处理方法、装置、计算机设备和存储介质 |
CN107864289A (zh) * | 2017-11-17 | 2018-03-30 | 珠海市魅族科技有限公司 | 一种语音输入方法和装置、终端、可读存储介质 |
US20190164549A1 (en) * | 2017-11-30 | 2019-05-30 | Baidu Online Network Technology (Beijing) Co., Ltd | Method and apparatus for controlling page |
CN108520750A (zh) * | 2018-03-13 | 2018-09-11 | 努比亚技术有限公司 | 一种语音输入控制方法、设备及计算机可读存储介质 |
CN108572764A (zh) * | 2018-03-13 | 2018-09-25 | 努比亚技术有限公司 | 一种文字输入控制方法、设备及计算机可读存储介质 |
CN111742539A (zh) * | 2018-08-07 | 2020-10-02 | 华为技术有限公司 | 一种语音控制命令生成方法及终端 |
CN109331470A (zh) * | 2018-08-21 | 2019-02-15 | 平安科技(深圳)有限公司 | 基于语音识别的抢答游戏处理方法、装置、设备及介质 |
CN109147796A (zh) * | 2018-09-06 | 2019-01-04 | 平安科技(深圳)有限公司 | 语音识别方法、装置、计算机设备及计算机可读存储介质 |
CN111145786A (zh) * | 2019-12-17 | 2020-05-12 | 深圳追一科技有限公司 | 语音情感识别方法和装置、服务器、计算机可读存储介质 |
CN111312245A (zh) * | 2020-02-18 | 2020-06-19 | 腾讯科技(深圳)有限公司 | 一种语音应答方法、装置和存储介质 |
CN112073785A (zh) * | 2020-09-07 | 2020-12-11 | 深圳创维-Rgb电子有限公司 | 文字输入方法、装置、智能电视及计算机可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10614803B2 (en) | Wake-on-voice method, terminal and storage medium | |
CN102568478B (zh) | 一种基于语音识别的视频播放控制方法和系统 | |
CA3158979C (en) | Headless task completion within digital personal assistants | |
US7801728B2 (en) | Document session replay for multimodal applications | |
Reddy et al. | Speech to text conversion using android platform | |
EP3824462B1 (en) | Electronic apparatus for processing user utterance and controlling method thereof | |
CN112099628A (zh) | 基于人工智能的vr互动方法、装置、计算机设备及介质 | |
CN107886944B (zh) | 一种语音识别方法、装置、设备及存储介质 | |
US20050203740A1 (en) | Speech recognition using categories and speech prefixing | |
US20180182399A1 (en) | Control method for control device, control method for apparatus control system, and control device | |
WO2020024620A1 (zh) | 语音信息的处理方法以及装置、设备和存储介质 | |
US8868419B2 (en) | Generalizing text content summary from speech content | |
CN110827825A (zh) | 语音识别文本的标点预测方法、系统、终端及存储介质 | |
CN111640434A (zh) | 用于控制语音设备的方法和装置 | |
CN101253547B (zh) | 语音对话方法和系统 | |
CN101243391A (zh) | 介绍交互模式与应用功能的方法 | |
CN110660393B (zh) | 语音交互方法、装置、设备及存储介质 | |
KR101775532B1 (ko) | 서로 다른 적어도 2개 이상의 데이터베이스를 이용하여 음성 인식 서비스를 제공하는 멀티미디어 디바이스 및 그 제어 방법 | |
JP2015052745A (ja) | 情報処理装置、制御方法、及びプログラム | |
CN114697717A (zh) | 一种文本输入方法和终端设备 | |
EP4276827A1 (en) | Speech similarity determination method, device and program product | |
CN102542705A (zh) | 语音提醒的方法和系统 | |
CN111768756B (zh) | 信息处理方法、装置、车辆和计算机存储介质 | |
CN112380871A (zh) | 语义识别方法、设备及介质 | |
JP2015052744A (ja) | 情報処理装置、制御方法、及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20220701 |