CN112579035A - 语音采集终端输入系统及输入方法 - Google Patents
语音采集终端输入系统及输入方法 Download PDFInfo
- Publication number
- CN112579035A CN112579035A CN202011466513.3A CN202011466513A CN112579035A CN 112579035 A CN112579035 A CN 112579035A CN 202011466513 A CN202011466513 A CN 202011466513A CN 112579035 A CN112579035 A CN 112579035A
- Authority
- CN
- China
- Prior art keywords
- voice
- modified
- information
- image
- action
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 39
- 230000009471 action Effects 0.000 claims description 115
- 230000004048 modification Effects 0.000 claims description 52
- 238000012986 modification Methods 0.000 claims description 52
- 230000000977 initiatory effect Effects 0.000 claims description 6
- 230000004913 activation Effects 0.000 claims description 3
- 238000005516 engineering process Methods 0.000 abstract description 29
- 230000010365 information processing Effects 0.000 abstract description 6
- 230000005540 biological transmission Effects 0.000 description 10
- 238000002372 labelling Methods 0.000 description 8
- 230000008569 process Effects 0.000 description 3
- 244000062793 Sorghum vulgare Species 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000003780 insertion Methods 0.000 description 2
- 230000037431 insertion Effects 0.000 description 2
- 235000019713 millet Nutrition 0.000 description 2
- 238000011161 development Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/048—Interaction techniques based on graphical user interfaces [GUI]
- G06F3/0484—Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Social Psychology (AREA)
- Psychiatry (AREA)
- Acoustics & Sound (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
一种语音采集终端输入方法和输入系统,所述语音采集终端输入方法包括:接收修改语音信息,所述修改语音信息包括对待修改文本进行修改的操作、内容和位置;对所述修改语音信息进行识别,获得所述修改语音信息的内容;采集待修改文本的图像;对所述待修改文本的图像进行识别,基于所述修改语音信息确定修改的位置;根据所述修改语音信息,在所述待修改文本的位置执行相对应内容的操作。语音识别和图像识别技术的结合,能够达到进一步释放双手,扩大用户操作空间即可实现文字信息处理的目的。
Description
技术领域
本发明涉及输入方法和输入系统,特别涉及一种语音采集终端输入系统及输入方法。
背景技术
随着语音识别技术的深度发展,智能家居平台的兴起,越来越多的家庭使用语音指令来控制智能设备.目前语音识别技术,被广泛应用在人与家庭智能音箱,智能电视,智能手机等交互系统
图像识别技术也是人工智能的一个重要领域,目前文字识别和数字图像处理已经被广泛应用在各个领域.图像识别是计算机对图像进行处理、分析和理解,以识别各种不同模式的目标和对像的技术。
利用语音识别进行文字输入,已有类似方案。例如语音鼠标等。但是该方案需要人为干预操作,才能进行语音输入转变成文字输入,且不能离开人的双手操作。
发明内容
本发明解决的问题是提供一种语音采集终端输入系统及输入方法,以释放双手,扩大用户操作空间。
为解决上述问题,本发明提供一种语音采集输入方法,包括:
接收修改语音信息,所述修改语音信息包括对待修改文本进行修改的操作、内容和位置;对所述修改语音信息进行识别,获得所述修改语音信息的内容;采集待修改文本的图像;对所述待修改文本的图像进行识别,基于所述修改语音信息确定修改的位置;根据所述修改语音信息,在所述待修改文本的位置执行相对应内容的操作。
可选的,接收修改语音信息之前,还包括:确定检测到修改唤醒信息。
可选的,确定检测到修改唤醒信息的步骤包括:确定检测到修改唤醒动作;在检测到修改唤醒动作时,确定检测到修改唤醒信息。
可选的,确定检测到修改唤醒动作的步骤包括:采集用户的动作图像;对所述用户的动作图像进行动作识别;若用户的动作图像为预设的修改唤醒动作,则确定检测到修改唤醒动作。
可选的,接收修改语音信息之前,还包括:确定检测到语音唤醒信息。
可选的,确定检测到语音唤醒信息的步骤包括:确定检测到语音唤醒动作;在检测到语音唤醒动作时,确定检测到语音唤醒信息。
可选的,确定检测到语音唤醒动作的步骤包括:采集用户的动作图像;对所述用户的动作图像进行动作识别;若用户的动作图像为预设的语音唤醒动作,则确定检测到语音唤醒动作。
可选的,还包括:接收演示操作信息,所述演示操作信息包括:与演示操作指令相对应的演示执行操作,其中,所述演示操作指令包括:语音指令和动作指令中的至少一种;对所述演示操作信息进行识别,获得所述演示操作信息;根据所述演示操作信息,对待操作演示文件执行所述演示操作指令所对应的操作。
相应的,本发明还提供一种语音采集输入系统,包括:图像采集模块、语音采集模块、语音识别模块、图像识别模块以及控制模块;
所述语音采集模块,适宜于接收修改语音信息,所述修改语音信息包括对待修改文本进行修改的操作、内容和位置;所述语音识别模块,适宜于对所述修改语音信息进行识别,获得所述修改语音信息;所述图像采集模块,适宜于采集待修改文本的图像;所述图像识别模块,适宜于对所述待修改文本的图像进行识别,基于所述修改语音信息确定所述修改的位置;所述控制模块,适宜于根据所述修改语音信息,在所述待修改文本的位置执行相对应内容的操作。
可选的,还包括:修改启动模块,所述修改启动模块适宜于接收修改语音信息之前,确定检测到修改唤醒信息。
可选的,修改唤醒信息包括:修改唤醒动作;在检测到修改唤醒动作时,所述修改启动模块确定检测到修改唤醒信息。
可选的,所述图像采集模块适宜于采集用户的动作图像;所述图像识别模块适宜于对所述用户的动作图像进行动作识别;所述图像识别模块识别用户的动作图像为预设的修改唤醒动作时,所述修改启动模块确定检测到修改唤醒动作。
可选的,还包括:语音启动模块,所述语音启动模块适宜于在接收修改语音信息之前,确定检测到语音唤醒信息。
可选的,语音唤醒信息包括:语音唤醒动作;在检测到语音唤醒动作时,所述语音启动模块确定检测到语音唤醒信息。
可选的,所述图像采集模块适宜于采集用户的动作图像;所述图像识别模块适宜于对所述用户的动作图像进行动作识别;所述图像识别模块识别用户的动作图像为预设的语音唤醒动作时,所述语音启动模块确定检测到语音唤醒动作。
可选的,所述图像采集模块和所述语音采集模块中至少一个适宜于接收演示操作信息,所述演示操作信息包括:与演示操作指令相对应的演示执行操作,其中,所述演示操作指令包括:语音指令和动作指令中的至少一种;所述演示操作指令为语音指令时,所述语音采集模块还适宜于采集所述演示操作指令,所述演示操作指令为动作指令时,所述图像采集模块还适宜于采集所述演示操作指令;所述语音识别模块和所述图像识别模块中至少一个适宜于对所述演示操作信息进行识别,获得所述演示操作信息;所述演示操作指令为语音指令时,所述语音识别模块还适宜于对所述演示操作信息进行识别,获得所述演示操作信息;所述演示操作指令为动作指令时,所述图像识别模块还适宜于对所述演示操作信息进行识别,获得所述演示操作信息;所述控制模块还适宜于根据所述演示操作信息,对待操作演示文件执行所述演示操作指令所对应的操作。
与现有技术相比,本发明的技术方案具有以下优点:
本发明技术方案中,采用语音识别技术获得包括修改的内容和修改的位置在内的修改语音信息;采用图像识别技术在待修改文本中确定所述修改的位置;从而能够在完全排除人为干预的前提下,进行待修改文本的修改。语音识别和图像识别技术的结合,能够达到进一步释放双手,扩大用户操作空间即可实现文字信息处理的目的。
附图说明
图1是本发明语音采集终端输入方法一实施例的流程示意图;
图2是本发明所述语音采集终端输入系统一实施例的结构示意图。
具体实施方式
由背景技术可知,现有技术语音输入方法和系统,采用采用语音输入替代打字输入,即利用语音输入转换成文字的方式进行。但是现有方案中依旧需要人为干预方能完成操作,特别是在进行文档修改的时候,需要人为选择控制修改位置。因此现有防范无法更大限度的释放双手。
为解决所述技术问题,本发明提供一种语音输入方法,包括:
接收修改语音信息,所述修改语音信息包括对待修改文本进行修改的内容和修改的位置;对所述修改语音信息进行识别,获得修改指令和修改位置;采集待修改文本的图像;对所述待修改文本的图像进行识别,基于所述修改语音信息确定所述修改的位置;根据所述修改的内容在所述修改的位置执行相应的修改操作。
本发明技术方案采用语音识别技术获得包括修改的内容和修改的位置在内的修改语音信息;采用图像识别技术在待修改文本中确定所述修改的位置;从而能够在完全排除人为干预的前提下,进行文档修改。语音识别和图像识别技术的结合,能够达到进一步释放双手,扩大用户操作空间即可实现文字信息处理的目的。
为使本发明的上述目的、特征和优点能够更为明显易懂,下面结合附图对本发明的具体实施例做详细的说明。
参考图1,示出了本发明语音采集终端输入方法一实施例的流程示意图。
如图1所示,所述语音采集终端输入方法包括:执行步骤S111,接收修改语音信息,所述修改语音信息包括对待修改文本进行修改的操作、内容和位置;执行步骤S112,对所述修改语音信息进行识别,获得所述修改语音信息;执行步骤S121,采集待修改文本的图像;执行步骤S122,对所述待修改文本的图像进行识别,基于所述修改语音信息确定所述修改的位置;执行步骤S130,根据所述修改语音信息,在所述待修改文本的位置执行相对应内容的操作。
所述语音采集终端输入方法中,语音识别和图像识别技术的结合,能够达到进一步释放双手,扩大用户操作空间即可实现文字信息处理的目的。
首先执行步骤S111,接收修改语音信息,所述修改语音信息包括对待修改文本进行修改的操作、内容和位置。
所述修改语音信息是指对待修改文本进行修改的信息,具体的,所述修改语音信息包括对待修改文本进行修改的内容和修改的位置。例如,所述修改语音信息可以为“我要在第5行,‘A’之前/之后插入‘B’内容”,其中修改的操作为“插入”,内容为“B”,位置为第5行中已输入内容“A”之前/之后的位置;再例如,所述修改语音信息可以为“我要将第7行,‘C’改写为‘D’”,其中修改的操作为“改写”,内容为“D”,位置为第7行中的“C”的位置。
接收修改语音信息之后,执行步骤S112,对所述修改语音信息进行识别,获得修改指令和修改位置。
由于所述修改语音信息为声音信息,因此需要进行识别方可获得其中的信息内容。本发明一些实施例中,可以将所接收的修改语音信息上传至云端,在云端进行识别以获得所述修改语音信息的内容。例如,对“我要在第5行,‘A’之前/之后插入‘B’内容”的声音信息进行识别,获得修改的操作为“插入”,内容为“B”,位置为第5行中已输入内容“A”之前/之后的位置;再例如,对“我要将第7行,‘C’改写为‘D’”的声音信息进行识别,获得修改的操作为“改写”,内容为“D”,位置为第7行中已输入内容“C”的位置。
继续参考图1,所述语音采集终端输入方法还包括:执行步骤S121,采集待修改文本的图像。
采集待修改文本的图像的步骤,能够实现待修改文本内容的即时提取,以实现对待修改文本的位置的具体定位。本发明一些实施例中,可以通过对显示屏进行图像采集;具体的,可以通过例如摄像头等成像技术采集显示屏的图像,以获得待修改文本的图像。
采集待修改文本的图像之后,执行步骤S122,对所述待修改文本的图像进行识别,基于所述修改语音信息确定修改的位置。
由于所获得的待修改文本的图像为图像信息,因此需要对图像进行识别方可实现对文本具体位置和内容的定位。本发明一些实施例中,可以将所获得的文本图像上传至云端,在云端进行识别以获得所述待修改文本的具体位置信息。例如,对待修改文本进行图像识别后,对识别后所获得的待修改文本具有包括行数在内的文档属性,还具有与行数相对应的每一行的文本内容。
继续参考图1,在对所述修改语音信息进行识别和对所述待修改文本的图像进行识别之后,执行步骤S130,根据所述修改语音信息,在所述待修改文本的位置执行相对应内容的操作。
所述修改语音信息识别后能够获得修改的操作、内容、位置;所述修改文本图像识别后能够获得待修改文本中具体的位置;从而执行步骤S130能够在所述待修改文本中相应的位置,执行对应内容的操作。
例如,根据“我要在第5行,‘A’之前/之后插入‘B’内容”的修改语音信息,在所述待修改文本中第5行已输入内容“A”之前/之后的位置执行内容为“B”的插入操作;根据“我要将第7行,‘C’改写为‘D’”的修改语音信息,在所述待修改文本中第7行中的“C”的位置执行内容为“D”的改写操作。
由于在修改的过程中,将语音识别技术与图像识别技术相结合,从而使得用户在输入文字、修改文档时均无需使用双手进行操作,能够在精确定位修改位置的同时,最大限度的释放双手,从而能够有效扩大用户操作空间。
需要说明的是,本发明对执行步骤S111接收修改语音信息的步骤和执行步骤S121采集待修改文本的图像的步骤的先后顺序并不限定;可以同时执行步骤S111和步骤S121;或者先执行步骤S111,之后再执行步骤S121;或者先执行步骤S121,之后再执行步骤S111。
继续参考图1,本发明一些实施例中,执行步骤S111,接收修改语音信息之前,所述语音采集终端输入方法还包括:执行步骤S102,确定检测到修改唤醒信息。本实施例中,确定检测到修改唤醒信息的步骤包括:确定检测到修改唤醒动作;在检测到修改唤醒动作时,确定检测到修改唤醒信息。
为了区分正常输入和修改操作,通过设定修改唤醒动作,利用修改唤醒动作唤醒修改步骤,既快捷又方便,能够有效拓展操作空间,有利于提升用户体验。
具体的,确定检测到修改唤醒动作的步骤包括:采集用户的动作图像;对所述用户的动作图像进行动作识别;若用户的动作图像为预设的修改唤醒动作,则确定检测到修改唤醒动作。
需要说明的是,本实施例中,采用修改唤醒动作以区分正常输入和修改操作的做法仅为一示例。本发明其他实施例中,也可以通过修改唤醒词进入修改步骤,即确定检测到修改唤醒信息的步骤包括:确定检测到修改唤醒词;在检测到修改唤醒词时,确定检测到修改唤醒信息。例如,修改唤醒词为“我要修改”,因此当检测到“我要修改”的语音信息的时候,进入修改步骤。
继续参考图1,本发明一些实施例中,执行步骤S111,接收修改语音信息之前,所述语音采集终端输入方法还包括:执行步骤S101,确定检测到语音唤醒信息。本实施例中,确定检测到语音唤醒信息的步骤包括:确定检测到语音唤醒动作;在检测到语音唤醒动作时,确定检测到语音唤醒信息。
通过特定动作、特定手势,利用图像识别技术,打开语音采集功能,既快捷又方便,而且能够拓展操作空间,有利于提升用户体验。
具体的,确定检测到语音唤醒动作的步骤包括:采集用户的动作图像;对所述用户的动作图像进行动作识别;若用户的动作图像为预设的语音唤醒动作,则确定检测到语音唤醒动作。
需要说明的是,本实施例中,采用语音唤醒动作以打开语音采集功能的做法仅为一示例。本发明其他实施例中,也可以通过语音唤醒词打开语音采集功能;例如百度的“小度小度”、小米的“小爱同学”等,本发明在此不再赘述。
本发明一些实施例中,在采用语音唤醒动作或者语音唤醒词打开语音采集功能之后,所述语音采集终端输入方法还包括:接收文件操作信息,所述文件操作信息包括操作文件的种类、文件属性和所执行的操作指令;接收文件操作信息之后,对所述文件操作信息进行识别,以获得所述文件操作信息的内容;识别之后,根据所识别的文件操作信息的内容,执行文件操作指令。例如接收的文件操作信息为“新建一个名称为‘E’的WORD文档”;经识别之后,根据指令执行新建名称为“E”的word文档的操作。
本发明另一些实施例中,在新建文件之后,还可以利用语音采集功能进行语音输入,用户可以利用语音输入想要输入的内容。本发明使用图像识别技术,使用户在输入文字,修改文档的时候,能够在精确定位修改位置的同时,进一步解放双手,拓展操作空间。
本发明另一些实施例中,所述语音采集终端输入方法还包括:接收演示操作信息,所述演示操作信息包括:与演示操作指令相对应的演示执行操作;其中,所述演示操作指令包括:语音指令和动作指令中的至少一种;对所述演示操作信息进行识别,获得所述演示操作信息;根据所述演示操作信息,对待操作演示文件执行所述演示操作指令所对应的操作。
具体的,可以进行诸如PPT演示操作时候,可以通过语音指令进行文件打开操作,例如:在通过语音指令进行文件打开操作时,接收演示操作信息的步骤中,所述演示操作信息包括内容为“打开F文件(ppt文件)”的语音指令;对所述演示操作信息进行识别之后,获得打开F文件的操作的演示执行操作;根据打开F文件的操作的演示执行操作,对F文件执行打开的操作。
除了利用语音指令进行操作之外,还可以通过动作手势进行操作,例如可以通过动作手势进行翻页、标注等操作。具体的,在动作手势进行翻页、标注等操作时,接收演示操作信息的步骤中,所述演示操作信息包括预设的,与翻页、标注等操作相对应的动作指令,接收演示操作信息的步骤包括:采集用户的动作图像;对所述演示操作信息进行识别的步骤包括:对所述用户的动作图形进行动作识别,若用户的动作图形为预设的、与翻页、标注等操作相对应的动作指令,则对待操作演示文件执行翻页、标注等操作。
相应的,本发明还提供一种语音采集终端输入系统,具体包括:图像采集模块、语音采集模块、语音识别模块、图像识别模块以及控制模块;所述语音采集模块,适宜于接收修改语音信息,所述修改语音信息包括对待修改文本进行修改的操作、内容和位置;所述语音识别模块,适宜于对所述修改语音信息进行识别,获得所述修改语音信息;所述图像采集模块,适宜于采集待修改文本的图像;所述图像识别模块,适宜于对所述待修改文本的图像进行识别,基于所述修改语音信息确定所述修改的位置;所述控制模块,适宜于根据所述修改语音信息,在所述待修改文本的位置执行相对应内容的操作。
所述语音采集终端输入系统,采用语音识别技术获得包括修改的内容和修改的位置在内的修改语音信息;采用图像识别技术在待修改文本中确定所述修改的位置;从而能够在完全排除人为干预的前提下,进行待修改文本的修改。语音识别和图像识别技术的结合,能够达到进一步释放双手,扩大用户操作空间即可实现文字信息处理的目的。
需要说明的是,所述语音采集终端输入系统还包括传输模块,所述传输模块适宜于实现图像采集模块、语音采集模块、语音识别模块、图像识别模块以及控制模块之间的数据传输。具体的,所述传输模块包括无线传输单元和有线传输单元;其中无线传输单元可以包括WIFI、蓝牙、ZIGBEE中的一种或几种;有线传输单元可以为通过USB线等其他方式实现连接的数据传输单元。
参考图2,示出了本发明所述语音采集终端输入系统一实施例的结构示意图。
所述语音采集模块用于接收语音信息。具体的,所述语音采集模块用于接收修改语音信息;所述修改语音信息包括对待修改文本进行修改的操作、内容和位置。
如图2所示,本实施例中,所述语音采集终端输入系统包括:家庭智能终端,其中所述家庭智能终端包括智能音响110,所述语音采集模块可以为所述智能音响110。
例如,所述修改语音信息可以为“我要在第5行,‘A’之前/之后插入‘B’内容”,其中修改的操作为“插入”,内容为“B”,位置为第5行中已输入内容“A”之前/之后的位置;再例如,所述修改语音信息可以为“我要将第7行,‘C’改写为‘D’”,其中修改的操作为“改写”,内容为“D”,位置为第7行中的“C”的位置。
所述语音识别模块用于对语音信息进行识别。具体的,所述语音识别模块适宜于对所述修改语音信息进行识别,获得所述修改语音信息。
如图2所示,本实施例中,所述家庭智能终端与云端服务器200相连,所述语音识别模块设置于所述云端服务器200;所述智能音响110接收修改语音信息之后,上传至云端服务器200,设置于所述云端服务器200的语音识别模块对上传的语音信息进行识别,从而获得所述修改语音信息。
例如,对“我要在第5行,‘A’之前/之后插入‘B’内容”的声音信息进行识别,获得修改的操作为“插入”,内容为“B”,位置为第5行中已输入内容“A”之前/之后的位置;再例如,对“我要将第7行,‘C’改写为‘D’”的声音信息进行识别,获得修改的操作为“改写”,内容为“D”,位置为第7行中已输入内容“C”的位置。
所述图像采集模块用于采集图像。具体的,所述图像采集模块适宜于采集待修改文本的图像。
如图2所示,本实施例中,所述家庭智能终端还包括:摄像头120;所述图像采集模块可以为所述摄像头120。待修改文本会在显示屏130上显示;因此所述摄像头120能够通过采集所述显示屏的图像实现对待修改文本的图像的采集,从而能够实现待修改文本内容的即时提取,以实现对待修改文本的位置的具体定位。
所述图像识别模块用于对图像信息进行识别。具体的,所述图像识别模块适宜于对所述待修改文本的图像进行识别,基于所述修改语音信息确定所述修改的位置。
如图2所示,本实施例中,所述家庭智能终端与云端服务器200相连,所述图像识别模块设置于所述云端服务器200;所述摄像头120采集待修改文本的图像滞后,上传至云端服务器200,设置于所述云端服务器200的图像识别模块对上传的语音信息进行识别,从而获得所述修改语音信息。例如,对待修改文本进行图像识别后,对识别后所获得的待修改文本具有包括行数在内的文档属性,还具有与行数相对应的每一行的文本内容。
所述控制模块用于控制本地电脑对待修改文本进行修改。具体的,所述控制模块适宜于根据所述修改语音信息,在所述待修改文本的位置执行相对应内容的操作。
所述语音识别模块对所述修改语音信息进行识别、所述图像识别模块对待修改文本的图像进行识别之后,通过所述传输模块所述识别结果及指令被反馈到本地电脑的上位机,设置于所述上位机的控制模块根据识别结果及指令执行相对应的操作。
例如,根据“我要在第5行,‘A’之前/之后插入‘B’内容”的修改语音信息,在所述待修改文本中第5行已输入内容“A”之前/之后的位置执行内容为“B”的插入操作;根据“我要将第7行,‘C’改写为‘D’”的修改语音信息,在所述待修改文本中第7行中的“C”的位置执行内容为“D”的改写操作。
在修改的过程中,通过将图像采集识别技术和语音采集识别技术的结合,能够使得用户在输入文字、修改文档时均无需使用双手进行操作,能够在精确定位修改位置的同时,最大限度的释放双手,从而能够有效扩大用户操作空间。
需要说明的是,本实施例中,所述语音采集终端输入系统还包括:修改启动模块,所述修改启动模块适宜于接收修改语音信息之前,确定检测到修改唤醒信息。具体的,修改唤醒信息包括:修改唤醒动作;在检测到修改唤醒动作时,所述修改启动模块确定检测到修改唤醒信息。
为了区分正常输入和修改操作,通过设定修改唤醒动作,利用修改唤醒动作唤醒修改步骤,既快捷又方便,能够有效拓展操作空间,有利于提升用户体验。
本实施例中,所述图像采集模块中的摄像头120适宜于采集用户的动作图像;设置于云端服务器200的所述图像识别模块适宜于对所述用户的动作图像进行动作识别;所述图像识别模块识别用户的动作图像为预设的修改唤醒动作时,所述修改启动模块确定检测到修改唤醒动作。
此外,本实施例中,采用修改唤醒动作以区分正常输入和修改操作的做法仅为一示例。本发明其他实施例中,也可以通过修改唤醒词进入修改步骤,即所述语音识别模块中的智能音响110确定检测到修改唤醒词;在检测到修改唤醒词时,确定检测到修改唤醒信息。例如,修改唤醒词为“我要修改”,因此当检测到“我要修改”的语音信息的时候,进入修改步骤。
还需要说明的是,本实施例中,所述语音采集终端输入系统还包括:语音启动模块,所述语音启动模块适宜于在接收修改语音信息之前,确定检测到语音唤醒信息。具体的,语音唤醒信息包括:语音唤醒动作;在检测到语音唤醒动作时,所述语音启动模块确定检测到语音唤醒信息。
本实施例中,所述图像采集模块中的摄像头120适宜于采集用户的动作图像;设置于云端服务器200的所述图像识别模块适宜于对所述用户的动作图像进行动作识别;所述图像识别模块识别用户的动作图像为预设的语音唤醒动作,则确定检测到语音唤醒动作。
需要说明的是,本实施例中,通过图像采集识别技术以开启语音采集功能的的做法仅为一示例。本发明其他实施例中,也可以通过语音唤醒词,即通过语音采集识别技术打开语音采集功能;例如百度的“小度小度”、小米的“小爱同学”等,本发明在此不再赘述。
本发明一些实施例中,通过语音唤醒动作或者语音唤醒词打开语音采集功能之后,所述语音采集模块还适宜于接收文件操作信息,所述文件操作信息包括操作文件的种类、文件属性和所执行的操作指令;接收文件操作信息之后,所述语音识别模块对所述文件操作信息进行识别,以获得所述文件操作信息的内容;所述控制模块还适宜于根据所识别的文件操作信息的内容,执行文件操作指令。例如接收的文件操作信息为“新建一个名称为‘E’的WORD文档”;经识别之后,根据指令执行新建名称为“E”的word文档的操作。
在新建文件之后,还可以利用语音采集功能进行语音输入,用户可以利用语音输入想要输入的内容。本发明使用图像识别技术,使用户在输入文字,修改文档的时候,能够在精确定位修改位置的同时,进一步解放双手,拓展操作空间。
本发明另一些实施例中,所述图像采集模块和所述语音采集模块中至少一个适宜于接收演示操作信息,所述演示操作信息包括:与演示操作指令相对应的演示执行操作,其中,所述演示操作指令包括:语音指令和动作指令中的至少一种;所述演示操作指令为语音指令时,所述语音采集模块还适宜于采集所述演示操作指令,所述演示操作指令为动作指令时,所述图像采集模块还适宜于采集所述演示操作指令;所述语音识别模块和所述图像识别模块中至少一个适宜于对所述演示操作信息进行识别,获得所述演示操作信息;所述演示操作指令为语音指令时,所述语音识别模块还适宜于对所述演示操作信息进行识别,获得所述演示操作信息;所述演示操作指令为动作指令时,所述图像识别模块还适宜于对所述演示操作信息进行识别,获得所述演示操作信息;所述控制模块还适宜于根据所述演示操作信息,对待操作演示文件执行所述演示操作指令所对应的操作。
具体的,可以进行诸如PPT演示操作时候,可以利用所述语音采集模块和所述语音识别模块通过语音指令进行文件打开操作,例如:通过语音指令进行文件打开操作时,所述语音采集模块接收包括内容为“打开F文件(ppt文件)”的语音指令;所述语音识别模块对所述演示操作信息进行识别,并将打开F文件的操作的演示执行操作的识别结果反馈至本地电脑的上位机;所述控制模块根据,对F文件执行打开的操作。
除了利用语音指令进行操作之外,还可以通过动作手势进行操作,例如:在动作手势进行翻页、标注等操作时,所述图像采集模块采集用户的动作图像;所述图像识别模块对所述用户的动作图形进行动作识别,若用户的动作图形为预设的、与翻页、标注等操作相对应的动作指令,则控制模块对待操作演示文件执行翻页、标注等操作。
综上,采用语音识别技术获得包括修改的内容和修改的位置在内的修改语音信息;采用图像识别技术在待修改文本中确定所述修改的位置;从而能够在完全排除人为干预的前提下,进行待修改文本的修改。语音识别和图像识别技术的结合,能够达到进一步释放双手,扩大用户操作空间即可实现文字信息处理的目的。
虽然本发明披露如上,但本发明并非限定于此。任何本领域技术人员,在不脱离本发明的精神和范围内,均可作各种更动与修改,因此本发明的保护范围应当以权利要求所限定的范围为准。
Claims (16)
1.一种语音采集终端输入方法,其特征在于,包括:
接收修改语音信息,所述修改语音信息包括对待修改文本进行修改的操作、内容和位置;
对所述修改语音信息进行识别,获得所述修改语音信息的内容;
采集待修改文本的图像;
对所述待修改文本的图像进行识别,基于所述修改语音信息确定修改的位置;
根据所述修改语音信息,在所述待修改文本的位置执行相对应内容的操作。
2.如权利要求1所述的语音采集终端输入方法,其特征在于,接收修改语音信息之前,还包括:确定检测到修改唤醒信息。
3.如权利要求2所述的语音采集终端输入方法,其特征在于,确定检测到修改唤醒信息的步骤包括:确定检测到修改唤醒动作;
在检测到修改唤醒动作时,确定检测到修改唤醒信息。
4.如权利要求3所述的语音采集终端输入方法,其特征在于,确定检测到修改唤醒动作的步骤包括:
采集用户的动作图像;
对所述用户的动作图像进行动作识别;
若用户的动作图像为预设的修改唤醒动作,则确定检测到修改唤醒动作。
5.如权利要求2所述的语音采集终端输入方法,其特征在于,接收修改语音信息之前,还包括:确定检测到语音唤醒信息。
6.如权利要求5所述的语音采集终端输入方法,其特征在于,确定检测到语音唤醒信息的步骤包括:确定检测到语音唤醒动作;
在检测到语音唤醒动作时,确定检测到语音唤醒信息。
7.如权利要求6所述的语音采集终端输入方法,其特征在于,确定检测到语音唤醒动作的步骤包括:
采集用户的动作图像;
对所述用户的动作图像进行动作识别;
若用户的动作图像为预设的语音唤醒动作,则确定检测到语音唤醒动作。
8.如权利要求2所述的语音采集终端输入方法,其特征在于,还包括:
接收演示操作信息,所述演示操作信息包括:与演示操作指令相对应的演示执行操作,其中,所述演示操作指令包括:语音指令和动作指令中的至少一种;
对所述演示操作信息进行识别,获得所述演示操作信息;
根据所述演示操作信息,对待操作演示文件执行所述演示操作指令所对应的操作。
9.一种语音采集终端输入系统,其特征在于,包括:图像采集模块、语音采集模块、语音识别模块、图像识别模块以及控制模块;
所述语音采集模块,适宜于接收修改语音信息,所述修改语音信息包括对待修改文本进行修改的操作、内容和位置;
所述语音识别模块,适宜于对所述修改语音信息进行识别,获得所述修改语音信息;
所述图像采集模块,适宜于采集待修改文本的图像;
所述图像识别模块,适宜于对所述待修改文本的图像进行识别,基于所述修改语音信息确定所述修改的位置;
所述控制模块,适宜于根据所述修改语音信息,在所述待修改文本的位置执行相对应内容的操作。
10.如权利要求9所述的语音采集终端输入系统,其特征在于,还包括:修改启动模块,所述修改启动模块适宜于接收修改语音信息之前,确定检测到修改唤醒信息。
11.如权利要求10所述的语音采集终端输入系统,其特征在于,修改唤醒信息包括:修改唤醒动作;
在检测到修改唤醒动作时,所述修改启动模块确定检测到修改唤醒信息。
12.如权利要求11所述的语音采集终端输入系统,其特征在于,所述图像采集模块适宜于采集用户的动作图像;所述图像识别模块适宜于对所述用户的动作图像进行动作识别;
所述图像识别模块识别用户的动作图像为预设的修改唤醒动作时,所述修改启动模块确定检测到修改唤醒动作。
13.如权利要求9所述的语音采集终端输入系统,其特征在于,还包括:语音启动模块,所述语音启动模块适宜于在接收修改语音信息之前,确定检测到语音唤醒信息。
14.如权利要求13所述的语音采集终端输入系统,其特征在于,语音唤醒信息包括:语音唤醒动作;
在检测到语音唤醒动作时,所述语音启动模块确定检测到语音唤醒信息。
15.如权利要求14所述的语音采集终端输入系统,其特征在于,所述图像采集模块适宜于采集用户的动作图像;所述图像识别模块适宜于对所述用户的动作图像进行动作识别;
所述图像识别模块识别用户的动作图像为预设的语音唤醒动作时,所述语音启动模块确定检测到语音唤醒动作。
16.如权利要求9所述的语音采集终端输入系统,其特征在于,所述图像采集模块和所述语音采集模块中至少一个适宜于接收演示操作信息,所述演示操作信息包括:与演示操作指令相对应的演示执行操作,其中,所述演示操作指令包括:语音指令和动作指令中的至少一种;所述演示操作指令为语音指令时,所述语音采集模块还适宜于采集所述演示操作指令,所述演示操作指令为动作指令时,所述图像采集模块还适宜于采集所述演示操作指令;
所述语音识别模块和所述图像识别模块中至少一个适宜于对所述演示操作信息进行识别,获得所述演示操作信息;所述演示操作指令为语音指令时,所述语音识别模块还适宜于对所述演示操作信息进行识别,获得所述演示操作信息;所述演示操作指令为动作指令时,所述图像识别模块还适宜于对所述演示操作信息进行识别,获得所述演示操作信息;
所述控制模块还适宜于根据所述演示操作信息,对待操作演示文件执行所述演示操作指令所对应的操作。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011466513.3A CN112579035A (zh) | 2020-12-14 | 2020-12-14 | 语音采集终端输入系统及输入方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011466513.3A CN112579035A (zh) | 2020-12-14 | 2020-12-14 | 语音采集终端输入系统及输入方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112579035A true CN112579035A (zh) | 2021-03-30 |
Family
ID=75134783
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011466513.3A Pending CN112579035A (zh) | 2020-12-14 | 2020-12-14 | 语音采集终端输入系统及输入方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112579035A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113572769A (zh) * | 2021-07-23 | 2021-10-29 | 河南省洛阳正骨医院(河南省骨科医院) | 一种基于5g实时传输的vr沉浸式中医药文化传播系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102932524A (zh) * | 2011-08-09 | 2013-02-13 | 宏达国际电子股份有限公司 | 可实现自定义语音闹铃的电子装置、方法和服务器 |
CN103150294A (zh) * | 2011-12-06 | 2013-06-12 | 盛乐信息技术(上海)有限公司 | 基于语音识别结果的修正方法和系统 |
CN105501121A (zh) * | 2016-01-08 | 2016-04-20 | 北京乐驾科技有限公司 | 一种智能唤醒方法及系统 |
CN106406807A (zh) * | 2016-09-19 | 2017-02-15 | 北京云知声信息技术有限公司 | 一种语音修改文字的方法及装置 |
CN110400568A (zh) * | 2018-04-20 | 2019-11-01 | 比亚迪股份有限公司 | 智能语音系统的唤醒方法、智能语音系统及车辆 |
-
2020
- 2020-12-14 CN CN202011466513.3A patent/CN112579035A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102932524A (zh) * | 2011-08-09 | 2013-02-13 | 宏达国际电子股份有限公司 | 可实现自定义语音闹铃的电子装置、方法和服务器 |
CN103150294A (zh) * | 2011-12-06 | 2013-06-12 | 盛乐信息技术(上海)有限公司 | 基于语音识别结果的修正方法和系统 |
CN105501121A (zh) * | 2016-01-08 | 2016-04-20 | 北京乐驾科技有限公司 | 一种智能唤醒方法及系统 |
CN106406807A (zh) * | 2016-09-19 | 2017-02-15 | 北京云知声信息技术有限公司 | 一种语音修改文字的方法及装置 |
CN110400568A (zh) * | 2018-04-20 | 2019-11-01 | 比亚迪股份有限公司 | 智能语音系统的唤醒方法、智能语音系统及车辆 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113572769A (zh) * | 2021-07-23 | 2021-10-29 | 河南省洛阳正骨医院(河南省骨科医院) | 一种基于5g实时传输的vr沉浸式中医药文化传播系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103824481B (zh) | 一种检测用户背诵的方法及装置 | |
TWI544366B (zh) | 語音輸入命令之技術 | |
KR102309175B1 (ko) | 스크랩 정보를 제공하는 전자 장치 및 그 제공 방법 | |
CN105989841B (zh) | 车载语音控制方法及装置 | |
CN101893993B (zh) | 电子白板系统及其语音处理方法 | |
CN111247536A (zh) | 用于搜索相关图像的电子装置及其控制方法 | |
EP2891041B1 (en) | User interface apparatus in a user terminal and method for supporting the same | |
JP2007116270A (ja) | 端末装置及び機器制御システム | |
CN103176595B (zh) | 一种信息提示方法及系统 | |
EP3112982A1 (en) | Multimodal information processing device | |
CN111197841A (zh) | 控制方法、装置、遥控终端、空调器、服务器及存储介质 | |
CN114740981A (zh) | 信息处理方法、装置、可读介质、电子设备及程序产品 | |
CN112579035A (zh) | 语音采集终端输入系统及输入方法 | |
CN113721582B (zh) | 座舱系统响应效率测试方法、设备、存储介质及装置 | |
US9342152B2 (en) | Signal processing device and signal processing method | |
CN113641328A (zh) | 基于语音识别的电脑控制方法、装置、设备及存储介质 | |
US11978252B2 (en) | Communication system, display apparatus, and display control method | |
CN116048329A (zh) | 一种光标的展示方法以及相关设备 | |
CN114220034A (zh) | 图像处理方法、装置、终端及存储介质 | |
CN105513588B (zh) | 一种信息处理方法及电子设备 | |
ShanmugaPriya et al. | Gesture Recognition based Fingertip Air Writing to Text Convertor using Image Processing and HCI | |
CN113485619B (zh) | 信息收集表的处理方法、装置、电子设备及存储介质 | |
CN115877997B (zh) | 一种面向交互元素的语音交互方法、系统及存储介质 | |
US11893982B2 (en) | Electronic apparatus and controlling method therefor | |
CN102929548A (zh) | 显示操控方法和装置、用户终端及显示操控系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |