CN110569017A - 基于语音的文本输入方法 - Google Patents
基于语音的文本输入方法 Download PDFInfo
- Publication number
- CN110569017A CN110569017A CN201910864000.9A CN201910864000A CN110569017A CN 110569017 A CN110569017 A CN 110569017A CN 201910864000 A CN201910864000 A CN 201910864000A CN 110569017 A CN110569017 A CN 110569017A
- Authority
- CN
- China
- Prior art keywords
- text
- input
- edit box
- edit
- exists
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 28
- 230000009286 beneficial effect Effects 0.000 abstract description 2
- 238000005457 optimization Methods 0.000 description 4
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1822—Parsing for meaning understanding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
本发明涉及文本输入技术,解决了现有通过语音输入文本的方法用户使用不方便快捷,并且文本输入效率较低的问题。技术方案概括为:基于语音的文本输入方法,包括将语音信号转换为文本信息,该文本信息进行语义理解,判断该文本信息是否是文本输入意图,若是文本输入意图,则提取出该文本信息中的待输入文本;检测当前显示界面是否存在编辑框,根据当前显示界面中编辑框的有无、编辑框数量以及编辑框上焦情况等,将待输入文本输入到相应的编辑框中。有益效果是:本发明的文本输入方法用户使用起来非常方便快捷,并且输入文本时不受第三方输入法的影响,避免调起第三方输入法以及显示其操作界面时对文本输入效率产生影响,使得文本输入效率较高。
Description
技术领域
本发明涉及文本输入技术,特别涉及通过语音进行文本输入的技术。
背景技术
目前通过语音输入文本的方法是:用户选择需要输入文本的编辑框后,编辑框上焦,并调起第三方输入法,然后用户长按第三方输入法提供的语音输入按钮,在长按时间内说出需要输入的内容,进而将用户的语音信号转换为文本输入到相应的编辑框中。上述输入方法中,用户需要手动选择编辑框和长按语音输入按钮,导致通过语音输入文本时不方便快捷,另外,由于用户每次选择编辑框后,都会调起第三方输入法并显示其操作界面,这样会影响输入文本的效率,例如用户选择一个编辑框后,由于调起第三方输入法以及显示其操作界面都需要时间和处理资源,用户无法立即输入文本,实际应用中体现在用户选择编辑框后,第三方输入法的操作界面可能不会立即弹出。
发明内容
本发明为解决现有通过语音输入文本的方法用户使用不方便快捷,并且文本输入效率较低的问题,提供一种基于语音的文本输入方法。
为解决上述问题,本发明采用的技术方案是:
基于语音的文本输入方法,包括以下步骤:
步骤一、对采集到的语音信号进行语音识别,将语音信号转换为文本信息;
步骤二、对该文本信息进行语义理解,判断该文本信息是否是文本输入意图,若不是文本输入意图,则执行该文本信息所对应的操作,然后执行步骤四,若是文本输入意图,则提取出该文本信息中的待输入文本,然后执行步骤三;
步骤三、检测当前显示界面是否存在编辑框,若不存在编辑框,则执行步骤四,若只存在一个编辑框,则将待输入文本输入该编辑框,若存在多个编辑框,则判断该多个编辑框中是否存在已上焦的编辑框,若存在已上焦的编辑框,则将待输入文本输入已上焦的编辑框,若不存在已上焦的编辑框,则按照预设的规则从该多个编辑框中选取一个编辑框,然后将待输入文本输入该选取出的编辑框;
步骤四、结束本次处理流程。
作为进一步优化:
所述步骤二中,若是文本输入意图,还判断并记录该文本信息中是否存在文本输入位置信息,若存在,则提取出该文本信息中的文本输入位置信息;
所述步骤三中,若存在编辑框且存在文本输入位置信息,则获取当前显示界面中各个编辑框所对应的预设的编辑框提示信息,然后通过遍历获取到的所有编辑框提示信息,查询是否存在与文本输入位置信息相匹配的编辑框提示信息,若存在与文本输入位置信息相匹配的编辑框提示信息,则将待输入文本输入与文本输入位置信息相匹配的编辑框提示信息所对应的编辑框,若不存在与文本输入位置信息相匹配的编辑框提示信息且只存在一个编辑框,则将待输入文本输入该编辑框,若不存在与文本输入位置信息相匹配的编辑框提示信息且存在多个编辑框,则判断该多个编辑框中是否存在已上焦的编辑框,若存在已上焦的编辑框,则将待输入文本输入已上焦的编辑框,若不存在已上焦的编辑框,则按照预设的规则从该多个编辑框中选取一个编辑框,然后将待输入文本输入该选取出的编辑框。
作为进一步优化,通过继承操作系统的辅助服务来检测当前显示界面是否存在编辑框、编辑框的上焦状态、获取各个编辑框所对应的预设的编辑框提示信息以及向编辑框输入文本。
作为进一步优化,所述步骤三中预设的规则采用:从当前显示界面显示出的所有编辑框中,按照编辑框显示位置从上到下以及从左到右的顺序,选取第一个尚未输入任何文本的编辑框。
作为进一步优化,所述步骤三中若不存在编辑框,则发出相应的提示信息。
有益效果是:本发明通过对用户语音输入内容进行语义理解,判断用户的意图是不是想要输入文本,如果用户想要输入文本,再根据本发明在各种情况下所设置的文本输入方式,自动将待输入文本输入到相应的编辑框中。通过本发明的输入方法,用户只需通过语言就能完成文本的输入,不需要长按语音输入按钮,也可以不选择编辑框,使用起来非常方便快捷,由于不需要长按语音输入按钮,也可以不选择编辑框,进而在输入文本时不受第三方输入法的影响,避免调起第三方输入法以及显示其操作界面时对文本输入效率产生影响,使得文本输入效率较高。
具体实施方式
下面结合实施例,详细说明本发明的技术方案。
本发明提供一种基于语音的文本输入方法,包括以下步骤:
步骤一、对采集到的语音信号进行语音识别,将语音信号转换为文本信息;
步骤二、对该文本信息进行语义理解,判断该文本信息是否是文本输入意图,若不是文本输入意图,则执行该文本信息所对应的操作,然后执行步骤四,若是文本输入意图,则提取出该文本信息中的待输入文本,然后执行步骤三;
步骤三、检测当前显示界面是否存在编辑框,若不存在编辑框,则执行步骤四,若只存在一个编辑框,则将待输入文本输入该编辑框,若存在多个编辑框,则判断该多个编辑框中是否存在已上焦的编辑框,若存在已上焦的编辑框,则将待输入文本输入已上焦的编辑框,若不存在已上焦的编辑框,则按照预设的规则从该多个编辑框中选取一个编辑框,然后将待输入文本输入该选取出的编辑框;
步骤四、结束本次处理流程。
上述对用户输入的语音信号进行识别,再通过语义理解,判断用户所说的话的意图,如果不是文本输入意图,则表示用户所说的是一条语音控制指令,此时执行该语音控制指令,如果是文本输入意图,则进一步检测当前显示界面中的编辑框及其上焦状态,然后根据不同的情况,将文本输入到相应的编辑框中。
对上述方法进行进一步的优化,具体可以有以下几个方面:
第一、为了让用户能够通过语音指定所要输入文本的编辑框,在上述步骤二中,若是文本输入意图,还判断并记录该文本信息中是否存在文本输入位置信息,若存在,则提取出该文本信息中的文本输入位置信息;上述步骤三中,若存在编辑框且存在文本输入位置信息,则获取当前显示界面中各个编辑框所对应的预设的编辑框提示信息,然后通过遍历获取到的所有编辑框提示信息,查询是否存在与文本输入位置信息相匹配的编辑框提示信息,若存在与文本输入位置信息相匹配的编辑框提示信息,则将待输入文本输入与文本输入位置信息相匹配的编辑框提示信息所对应的编辑框,若不存在与文本输入位置信息相匹配的编辑框提示信息且只存在一个编辑框,则将待输入文本输入该编辑框,若不存在与文本输入位置信息相匹配的编辑框提示信息且存在多个编辑框,则判断该多个编辑框中是否存在已上焦的编辑框,若存在已上焦的编辑框,则将待输入文本输入已上焦的编辑框,若不存在已上焦的编辑框,则按照预设的规则从该多个编辑框中选取一个编辑框,然后将待输入文本输入该选取出的编辑框。
第二、可以通过继承操作系统的辅助服务来检测当前显示界面是否存在编辑框、编辑框的上焦状态、获取各个编辑框所对应的预设的编辑框提示信息以及向编辑框输入文本。实际应用时,可以通过继承操作系统的辅助服务来实现对编辑框的检测、文本输入等功能,以避免调用第三方输入法,并且通过继承操作系统辅助服务的方式,开发更简单容易。
第三、上述步骤三中预设的规则可以采用:从当前显示界面显示出的所有编辑框中,按照编辑框显示位置从上到下以及从左到右的顺序,选取第一个尚未输入任何文本的编辑框。当不存在已上焦的编辑框时,按照大多数人的输入习惯选择编辑框,即按照当前显示出的编辑框从左到右、从上到下依次输入文本。
第四、上述步骤三中若不存在编辑框,则发出相应的提示信息。例如发出“当前无编辑框,无法输入”等提示信息。
实施例
下面具体举例说明本发明的技术方案。
本例中,假设当前显示界面是一个登陆界面,界面提供一个提示信息为“账号”的编辑框,一个提示信息为“密码”的编辑框。用户想要输入登录账号时,说出“输入账号12345”,系统采集用户所说的话并进行语音识别,将“输入账号12345”转换为文本信息,然后对该文本信息进行语义理解,得知用户的意图是输入文本意图,输文本输入位置是“账号”,待输入文本是“12345”,然后获取当前显示界面中各个编辑框所对应的预设的编辑框提示信息,即“账号”和“密码”,然后进行匹配,查询到与文本输入位置信息相匹配的编辑框提示信息所对应的编辑框,然后将文本“12345”输入提示信息为“账号”的编辑框中,完成了对账号的输入;用户输入密码时同理,这里不再赘述。账号和密码都输入完成后,接下来需要执行登录操作,用户说出“登录”,经系统进行相应的分析处理后,得知用户所说的不是文本输入意图,然后系统认为用户所说的“登录”是语音控制命令,则执行登录操作。
Claims (5)
1.基于语音的文本输入方法,其特征在于,包括以下步骤:
步骤一、对采集到的语音信号进行语音识别,将语音信号转换为文本信息;
步骤二、对该文本信息进行语义理解,判断该文本信息是否是文本输入意图,若不是文本输入意图,则执行该文本信息所对应的操作,然后执行步骤四,若是文本输入意图,则提取出该文本信息中的待输入文本,然后执行步骤三;
步骤三、检测当前显示界面是否存在编辑框,若不存在编辑框,则执行步骤四,若只存在一个编辑框,则将待输入文本输入该编辑框,若存在多个编辑框,则判断该多个编辑框中是否存在已上焦的编辑框,若存在已上焦的编辑框,则将待输入文本输入已上焦的编辑框,若不存在已上焦的编辑框,则按照预设的规则从该多个编辑框中选取一个编辑框,然后将待输入文本输入该选取出的编辑框;
步骤四、结束本次处理流程。
2.如权利要求1所述的基于语音的文本输入方法,其特征在于:
所述步骤二中,若是文本输入意图,还判断并记录该文本信息中是否存在文本输入位置信息,若存在,则提取出该文本信息中的文本输入位置信息;
所述步骤三中,若存在编辑框且存在文本输入位置信息,则获取当前显示界面中各个编辑框所对应的预设的编辑框提示信息,然后通过遍历获取到的所有编辑框提示信息,查询是否存在与文本输入位置信息相匹配的编辑框提示信息,若存在与文本输入位置信息相匹配的编辑框提示信息,则将待输入文本输入与文本输入位置信息相匹配的编辑框提示信息所对应的编辑框,若不存在与文本输入位置信息相匹配的编辑框提示信息且只存在一个编辑框,则将待输入文本输入该编辑框,若不存在与文本输入位置信息相匹配的编辑框提示信息且存在多个编辑框,则判断该多个编辑框中是否存在已上焦的编辑框,若存在已上焦的编辑框,则将待输入文本输入已上焦的编辑框,若不存在已上焦的编辑框,则按照预设的规则从该多个编辑框中选取一个编辑框,然后将待输入文本输入该选取出的编辑框。
3.如权利要求2所述的基于语音的文本输入方法,其特征在于,通过继承操作系统的辅助服务来检测当前显示界面是否存在编辑框、编辑框的上焦状态、获取各个编辑框所对应的预设的编辑框提示信息以及向编辑框输入文本。
4.如权利要求1所述的基于语音的文本输入方法,其特征在于,所述步骤三中预设的规则采用:从当前显示界面显示出的所有编辑框中,按照编辑框显示位置从上到下以及从左到右的顺序,选取第一个尚未输入任何文本的编辑框。
5.如权利要求1所述的基于语音的文本输入方法,其特征在于,所述步骤三中若不存在编辑框,则发出相应的提示信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910864000.9A CN110569017A (zh) | 2019-09-12 | 2019-09-12 | 基于语音的文本输入方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910864000.9A CN110569017A (zh) | 2019-09-12 | 2019-09-12 | 基于语音的文本输入方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110569017A true CN110569017A (zh) | 2019-12-13 |
Family
ID=68779517
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910864000.9A Pending CN110569017A (zh) | 2019-09-12 | 2019-09-12 | 基于语音的文本输入方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110569017A (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1470015A (zh) * | 2000-10-11 | 2004-01-21 | ������������ʽ���� | 信息处理装置、信息处理方法及存储介质 |
CN1892819A (zh) * | 2005-06-30 | 2007-01-10 | 佳能株式会社 | 语音识别方法和语音识别设备 |
CN102880649A (zh) * | 2012-08-27 | 2013-01-16 | 北京搜狗信息服务有限公司 | 一种个性化信息处理方法和系统 |
CN105512105A (zh) * | 2015-12-07 | 2016-04-20 | 百度在线网络技术(北京)有限公司 | 语义解析方法和装置 |
CN106126157A (zh) * | 2016-06-13 | 2016-11-16 | 北京云知声信息技术有限公司 | 基于医院信息系统的语音输入方法及装置 |
CN107785021A (zh) * | 2017-08-02 | 2018-03-09 | 上海壹账通金融科技有限公司 | 语音输入方法、装置、计算机设备和介质 |
US20190025878A1 (en) * | 2017-07-19 | 2019-01-24 | Samsung Electronics Co., Ltd. | Electronic device and system for deciding duration of receiving voice input based on context information |
-
2019
- 2019-09-12 CN CN201910864000.9A patent/CN110569017A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1470015A (zh) * | 2000-10-11 | 2004-01-21 | ������������ʽ���� | 信息处理装置、信息处理方法及存储介质 |
CN1892819A (zh) * | 2005-06-30 | 2007-01-10 | 佳能株式会社 | 语音识别方法和语音识别设备 |
CN102880649A (zh) * | 2012-08-27 | 2013-01-16 | 北京搜狗信息服务有限公司 | 一种个性化信息处理方法和系统 |
CN105512105A (zh) * | 2015-12-07 | 2016-04-20 | 百度在线网络技术(北京)有限公司 | 语义解析方法和装置 |
CN106126157A (zh) * | 2016-06-13 | 2016-11-16 | 北京云知声信息技术有限公司 | 基于医院信息系统的语音输入方法及装置 |
US20190025878A1 (en) * | 2017-07-19 | 2019-01-24 | Samsung Electronics Co., Ltd. | Electronic device and system for deciding duration of receiving voice input based on context information |
CN107785021A (zh) * | 2017-08-02 | 2018-03-09 | 上海壹账通金融科技有限公司 | 语音输入方法、装置、计算机设备和介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101909807B1 (ko) | 메시지 입력 방법 및 장치 | |
JP6351562B2 (ja) | 情報処理システム、受付サーバ、情報処理方法及びプログラム | |
US8345830B2 (en) | Method and apparatus for voice interactive messaging | |
EP3039531B1 (en) | Display apparatus and controlling method thereof | |
EP2770445A2 (en) | Method and system for supporting a translation-based communication service and terminal supporting the service | |
US9807243B2 (en) | Method and system for voice transmission control | |
AU2016277548A1 (en) | A smart home control method based on emotion recognition and the system thereof | |
US9576572B2 (en) | Methods and nodes for enabling and producing input to an application | |
WO2017175363A1 (ja) | 情報処理システム、受付サーバ、情報処理方法及びプログラム | |
JP2014126600A (ja) | 音声認識装置、音声認識方法、およびテレビ | |
JP7059929B2 (ja) | 情報処理装置 | |
US20120278719A1 (en) | Method for providing link list and display apparatus applying the same | |
CN105206272A (zh) | 语音传输控制方法及系统 | |
JP2003263188A (ja) | 対話フォーカス追跡機能を有する音声命令解釈装置及びその方法並びにその方法を記録したコンピュータで読込み可能な記録媒体 | |
JP2014002737A (ja) | サーバ及びサーバの制御方法 | |
EP3157236A1 (en) | Method and device for quickly accessing ivr menu | |
CN107077510A (zh) | 一种信息输出方法及装置 | |
CN111477231B (zh) | 人机交互方法、装置和存储介质 | |
CN104331148A (zh) | 一种语音用户界面信息交互方法 | |
CN112102828A (zh) | 大屏幕自动播报内容的语音控制方法及系统 | |
CN110569017A (zh) | 基于语音的文本输入方法 | |
CN111062729A (zh) | 一种信息获取方法、装置和设备 | |
CN109243449A (zh) | 一种语音识别方法和系统 | |
CN107180027A (zh) | 语音控制业务分类方法及装置 | |
CN105118507A (zh) | 声控系统及其控制方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20191213 |