CN107153499B - 交互式白板设备的语音控制 - Google Patents

交互式白板设备的语音控制 Download PDF

Info

Publication number
CN107153499B
CN107153499B CN201710075916.7A CN201710075916A CN107153499B CN 107153499 B CN107153499 B CN 107153499B CN 201710075916 A CN201710075916 A CN 201710075916A CN 107153499 B CN107153499 B CN 107153499B
Authority
CN
China
Prior art keywords
interactive whiteboard
command
whiteboard device
transcription
language
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710075916.7A
Other languages
English (en)
Other versions
CN107153499A (zh
Inventor
拉思纳卡拉·马拉泰沙
拉娜·王
北田博之
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Publication of CN107153499A publication Critical patent/CN107153499A/zh
Application granted granted Critical
Publication of CN107153499B publication Critical patent/CN107153499B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0487Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser
    • G06F3/0488Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser using a touch-screen or digitiser, e.g. input of commands through traced gestures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/03Arrangements for converting the position or the displacement of a member into a coded form
    • G06F3/033Pointing devices displaced or positioned by the user, e.g. mice, trackballs, pens or joysticks; Accessories therefor
    • G06F3/0354Pointing devices displaced or positioned by the user, e.g. mice, trackballs, pens or joysticks; Accessories therefor with detection of 2D relative movements between the device, or an operating part thereof, and a plane or surface, e.g. 2D mice, trackballs, pens or pucks
    • G06F3/03545Pens or stylus
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/03Arrangements for converting the position or the displacement of a member into a coded form
    • G06F3/041Digitisers, e.g. for touch screens or touch pads, characterised by the transducing means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0484Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/56Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities
    • H04M3/568Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities audio processing specific to telephonic conferencing, e.g. spatial distribution, mixing of participants
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2203/00Indexing scheme relating to G06F3/00 - G06F3/048
    • G06F2203/038Indexing scheme relating to G06F3/038
    • G06F2203/0381Multimodal input, i.e. interface arrangements enabling the user to issue commands by simultaneous use of input devices of different nature, e.g. voice plus gesture on digitizer
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Abstract

本发明公开了交互式白板设备的语音控制。本发明提供用于向交互式白板设备提供语音命令功能性的方法和装置。一种交互式白板设备包括:一个或多个处理器;具有在其上嵌入指令的非瞬态计算机可读介质,当通过一个或多个处理器执行指令时使得执行:在交互式白板设备上执行注释窗口的期间,检测从用户接收到的语音输入;将语音输入的记录存储在音频包中;将音频包发送到语言到文本服务;从语言到文本服务接收包括语音输入的记录的转录的命令串;利用命令处理器中的语音模式命令处理,从命令串中识别通过交互式白板设备可执行的可执行命令;使得交互式白板设备的应用来执行该可执行命令。

Description

交互式白板设备的语音控制
技术领域
本发明总体上涉及电话会议技术,尤其涉及经由交互式白板设备提供电话会议能力。
背景技术
控制电话会议技术困难而繁重。这种困难会导致用户无法或者不希望利用电话会议技术的可用特征。例如,用户必须学会导航复杂的菜单或者记住对应于常用命令的图标。此外,虽然专业用户有时间学习可用的特征,但是初学用户在向其他用户展示使用新特征时会不知所措或者明显犹豫,减少了初学用户的可信度。
许多电子设备能够利用输入设备(如键盘、鼠标或触摸屏)来控制,用户利用手来控制该输入设备。语音识别技术为用户提供了一种利用语音与电子设备进行交互的方式,产生无需用手的用户体验。一些智能手机,比如位于加里弗尼亚州库比提诺(Cupertino)的苹果计算机公司出品的
Figure BDA0001224330280000011
或者位于加里弗尼亚州山景城市(Mountain View)字母表(Alphabet)公司所发布的
Figure BDA0001224330280000012
操作系统上运行的
Figure BDA0001224330280000013
设备,这些智能手机包括与设备上的兼容应用进行交互的语音控制应用,从而使得设备对于语音命令进行响应。
本部分中所描述的方法是能够寻找到的方法,但是不必是先前已经构思出或寻找到的方法。因此,除非另外指出,不应当假设仅由于包括在该部分中就将本部分中所描述的任何方法视为现有技术。
发明内容
一种交互式白板设备包括:一个或多个处理器;具有在其上嵌入指令的非瞬态计算机可读介质,当通过一个或多个处理器执行指令时使得执行:在交互式白板设备上执行注释窗口的期间,检测从用户接收到的语音输入;将该语音输入的记录存储在音频包中;将该音频包发送到语言到文本服务;从语言到文本服务接收命令串,该命令串包括语音输入的记录的转录(transcription);利用命令处理器中的语音模式命令处理,从命令串当中识别通过交互式白板设备可执行的可执行命令;使得交互式白板设备的应用来执行该可执行命令。
在一些示例中,在交互式白板设备中,当执行指令时,还使得执行:在交互式白板设备上执行注释窗口的期间,在注释窗口中检测来自用户的触控笔输入;利用命令处理器中的笔模式命令处理,从触控笔输入当中识别另外的命令;使得交互式白板设备的应用来执行另外的命令。
在一些示例中,在交互式白板设备中,检测语音输入包括:在捕获持续音频馈送的持续收听模式下运行传声器;从持续音频馈送捕获语音输入。在一些示例中,在交互式白板设备中,检测语音输入包括:在启动命令模式下运行传声器;检测启动命令;响应于检测到启动命令,从随后的音频馈送捕获语音输入。
在一些示例中,在交互式白板设备中,从语言到文本服务接收指令串包括:利用与交互式白板设备相关联的客户端设备,在与交互式白板设备相关联的客户端设备上执行应用的期间,检测来自第二用户的第二语音输入;利用客户端设备,将第二语音输入的记录存储在第二音频包中;利用客户端设备,将第二音频包发送到语言到文本服务;其中,当执行指令时,还使得执行:在交互式白板设备中,从语言到文本服务接收命令串,该命令串包括第二语音输入的记录的转录;在交互式白板设备中,利用命令处理器中的语音模式命令处理,从第二语音输入的记录的转录当中识别第二可执行命令;在交互式白板设备中,使得交互式白板设备的应用来执行第二可执行命令。
在一些示例中,在交互式白板设备中,利用经由移动设备上的应用从用户接收到的交互式白板设备的选择,将客户端设备与交互式白板设备相关联。
在一些示例中,在交互式白板设备中,客户端设备包括移动设备。
在一些示例中,在交互式白板设备中,客户端设备包括另外的交互式白板设备。
在一些示例中,在交互式白板设备中,音频包包括从多个交互式白板设备当中识别交互式白板设备的交互式白板设备的标识符。
在一些示例中,在交互式白板设备中,将音频包发送到语言到文本服务包括:经由音频包队列来发送音频包,其中的音频包队列存储通过多个交互式白板设备来发送的经过排队的多个音频包。
在一些示例中,在交互式白板设备中,从语言到文本服务接收命令串包括:经由命令串队列接收命令串,其中的命令串队列存储将要发送到多个交互式白板设备的经过排队的多个命令串;确定音频包中所包括的交互式白板设备的标识符与交互式白板设备的标识符相匹配。
在一些示例中,在交互式白板设备中,从语音输入的记录的转录识别可执行命令包括:通过从转录添加或移除一个或多个字符来修改记录的转录,产生经过修改的转录;将经过修改的转录与可执行命令相匹配。
在一些示例中,在交互式白板设备中,使得交互式白板设备的应用来执行可执行命令包括:经由应用编程接口(API),将可执行命令传送到交互式白板设备的操作系统。
在一些示例中,在交互式白板设备中,在交互式白板设备上实施语言到文本服务。
附图说明
在附图中:
图1表示可以实现各种实施例的联网环境。
图2表示用于提供根据一些实施例的交互式白板设备的语音控制的系统。
图3表示用于提供根据一些实施例的交互式白板设备的语音控制的过程的多线流程图。
图4表示可以实现各种实施例的另一种联网环境。
图5是表示可以在其上实施本发明的实施例的计算机系统的框图。
具体实施方式
在下面的描述中,为了说明的目的,阐述了多个具体的细节以便提供对于本发明的深入理解。但是,需要清楚的是,本发明可以不利用这些具体的细节来实现。在其他的示例中,为了避免不必要地模糊本发明,将熟知的结构和设备以框图的形式示出。
概述
交互式白板设备具有语音控制能力。语音控制能力允许交互式白板设备的用户利用多个语音命令来控制交互式白板设备。语音命令提供对于交互式白板设备的无需用手的操作。此外,语音控制能力在不需要用户先前了解显示器中所包括的交互式图标或者菜单流的情况下,允许用户更直观地控制交互式白板设备。语音控制能力允许交互式白板设备提供相对简单的图形化用户界面,同时提供大部分通过设备以外的(off-device)计算资源来支持增强的功能性。这样减少了交互式白板设备上的计算负载。此外,语音命令的使用减少如下情况中的用户错误:导航图形化用户界面,消除在向用户提供不需要的菜单、帮助功能性以及图标过程中所花费的计算资源的消耗。
在交互式白板(IWB)设备中,用户经由传声器提供语音命令。交互式白板设备中语音识别处理器捕获语音命令的记录。语音识别处理器将记录和包括交互式白板设备的标识符的元数据打包成音频包,并且将该音频包发送到音频队列管理器。音频队列管理器将音频包在音频队列中进行排队,适当地将该音频包发送到语言到文本服务。语言到文本服务将该记录进行转录,产生转录。语言到文本服务将该转录和元数据作为命令串发送到命令串队列管理器。命令串队列管理器将命令串进行排队,适当地将命令串发送到交互式白板设备(IWB设备)中的命令处理器。命令处理器识别转录中的可执行命令,并且使得IWB设备通过调用IWB设备中的API来执行可执行的命令串。
联网环境
图1表示可以实现各种实施例的联网环境100。联网环境100包括两个或更多个计算设备,这些计算设备用于经由电子网络相互通信,诸如局域网(LAN)、广域网(WAN)或者因特网。在一些示例中,一些计算设备可以经由LAN进行通信,同时其他的设备可以经由WAN或者因特网进行通信。联网环境100允许IWB设备在不需要对于IWB设备本身进行实质性改变的情况下,访问语言到文本服务的附加功能性。
IWB设备102用于经由网络与远程的语言到文本服务108通信。IWB设备102是为多个用户提供实时通信和注释能力的协同和会议设备。IWB设备102的一些特征包括但不限于:文档的注释;文件的分享;遍及多个IWB设备(未示出)、移动应用以及第三方解决方案的实时注释,与基于云服务的数据共享和同步;光学字符识别;以及定位能力。IWB设备102可以由用户经由触控笔或触摸屏幕来控制。IWB设备102包括计算设备基础设施,诸如联网能力、操作系统、网络浏览器,并且能够执行来自第三方的专用应用。IWB设备102还包括IWB设备特定的应用,用于检索和打开文档、注释文档、文档和注释的实时分享、视频会议、电话会议以及保存文档。
IWB设备102包括捕获紧邻IWB设备102的声音的传声器104。传声器104可以是嵌入IWB设备102的内部传声器。在一些示例中,传声器104可以包括紧邻IWB设备102的一个或多个传声器,并且经由有线或无线技术连接到IWB设备102。有线传声器的示例包括经由IWB设备102的USB端口或音频插孔插入到IWB设备102中的传声器。无线传声器的示例包括经由蓝牙链接与蓝牙使能的IWB设备102进行通信的蓝牙使能传声器。
与传声器104通信的语音识别处理器106识别一部分捕获到的声音作为潜在的语音命令。语音识别处理器106可以包括IWB设备102的操作系统中所包括的语音识别程序,诸如位于华盛顿州雷蒙德(Redmond)的微软公司(Microsoft)所开发的WINDOWS SPEECHRECOGNITION(“Windows语音识别”)语音识别组件。可替换地,语音识别处理器106可以是IWB设备102上执行的应用。
语音识别处理器106可以在给定时间在两种模式中的一种模式下运行,并且可以在任何时间在两种模式之间切换。第一模式,持续收听模式,包括不断捕获声音并且分析声音,从而识别潜在的声音命令。在持续收听模式中,语音识别处理器106通过在持续阈值时长的声音中识别延长的暂停来检测潜在的语音命令。阈值时长例如可以是少于一秒、一秒或者多于一秒。当检测到阈值时长时,语音识别处理器106可以分析暂停之前所捕获的声音片段,并且保存暂停之前刚发生的声音的记录。该记录可以包括暂停之前特定时期期间所捕获的声音,诸如十秒、五秒或三秒。在其他的实施例中,语音识别处理器106可用于对于片段执行最初的语音识别分析,以便识别潜在的命令。接着将说出潜在的命令的这段时期内所捕获的声音保存为记录。
语音识别处理器106的第二模式是启动命令模式。在启动命令模式中,语音识别软件106通过在传声器所捕获的声音中识别用户所说的启动命令来检测潜在的语音命令。启动命令例如可以是“嘿,鲍勃!”,其中“鲍勃”是语音识别处理器106的昵称。当检测到启动命令时,语音识别处理器106开始保存说出启动命令之后或者随后发生的声音的记录。记录可以持续一段时间,诸如3秒、5秒或者10秒。在其他实施例中,语音识别处理器106可用于对于捕获到的声音片段执行最初的语音识别分析,以便识别潜在的命令。将说出潜在的命令的这段时期内所捕获的声音保存为记录。
语音识别处理器106将记录组装成音频包。音频包的内容和结构不限于任何特定的数据结构或格式,诸如联网包,而是通常用于指包括音频数据和元数据两者的数据。音频包可包括附加元数据,诸如但不限于对于记录进行记录的IWB设备102的标识符,以及意图执行从记录识别出的命令的IWB设备102的标识符。在一些示例中,这些标识符可以识别相同的IWB设备102,但是在其他的示例中,这些标识符可以识别不同的IWB设备102。元数据还可以包括音频包队列管理器(见图2)的标识符,和语言到文本服务110的标识符,以及命令串队列管理器(见图2)的标识符。元数据中所包括的标识符可以包括因特网协议(IP)地址和/或与通过元数据识别出的每个实体相关联的端口。已经组装音频包的语音识别处理器106将音频包发送到语言到文本服务112。
IWB设备102的命令处理器108从语言到文本服务112接收命令串,从语音识别处理器106所存储的记录的转录识别出命令,并且使得IWB设备102执行该命令。命令处理器108可以通过添加或移除一个或多个字符来修改已转录的命令串从而识别命令,以便转录与所存储的命令相匹配。这是为了保证在白板上能够很好地处理语音输入和用户的大变动,而且将语音到文本转录从错误修正到所期望的命令。将所存储的命令及其描述的非限制性示例包括在表1:
表1
Figure BDA0001224330280000061
Figure BDA0001224330280000071
命令处理器在从转录中识别出可执行的命令时,使得操作系统或操作系统上执行的应用执行与该命令对应的动作。
图1的可选云端110托管语言到文本服务112。云端110是在云环境中提供服务的一组联网的计算设备。语言到文本服务112可以替换地由云环境之外的传统线上服务提供商来托管。在可替换的实施例中,可以在防火墙内对于语言到文本服务112进行内部(on-premise)托管。在其他的可替换实施例中,语言到文本服务112可以是独立的过程,该过程在IWB设备102上运行并且处理只针对一个IWB设备102的命令。这些可替换的实施例可以提供语言到文本服务112的更多安全和隐私。
语言到文本服务112可以是音频包的自动转录的第三方供应商。这样的供应商的示例包括但不限于,位于纽约州阿蒙克市(Armonk)的国际商业机器公司(InternationalBusiness Machines)开发的
Figure BDA0001224330280000081
(沃森),以及马萨诸塞州伯林顿(Burlington)的纽昂司(Nuance)公司开发的
Figure BDA0001224330280000082
(声龙)语音识别。
客户端设备114可以包括用户的移动计算设备或者其他的IWB设备。客户端设备114包括交互式白板应用116。交互式白板应用116是用于与IWB设备102交互的专用应用。交互式白板应用116提供用户界面,该用户界面允许用户建立客户端设备114和IWB设备102以及交互式白板应用116之间的关联。该关联由客户端设备114上的语音识别处理器106用于向IWB设备102发送命令,以便执行客户端设备114上发起的命令。交互式白板应用116可以允许用户从多个IWB设备当中选择IWB设备102。例如,交互式白板应用116可以提供图形化用户界面,该图形化用户界面允许客户端设备114的用户选择特定的IWB设备或者IWB设备群组,以便经由客户端设备114进行远程地命令。客户端设备114上的语音识别处理器106可以执行关于IWB设备102上的语音识别处理器106在此所述的相同的功能。
客户端设备114还包括上述的语音识别处理器106。语音识别处理器106可以经由连接到客户端设备114或者与客户端设备114集成的传声器来接收声音输入,如结合传声器104所描述。利用具有移动应用的客户端,用户不需要在白板前面说出命令,并且使得IWB应用102执行该命令。用户可以远程控制IWB设备102。控制IWB设备102在可以由远程与会人员远程控制多个IWB设备102的情况中是有价值的。
图2表示用于提供根据一些实施例的交互式白板设备的语音控制的系统200。系统200提供联网环境100更细致的视图。系统200可以位于单个位置,诸如完全在IWB设备102之内,或者可以越过多个位置来实施并且包括多个IWB设备102。例如,虚线218左侧所示的系统200的部分(包括语音识别处理器106、白板注释应用202、交互式白板API 216以及命令处理器108)可以是IWB设备102本身的部分。虚线218与虚线220之间所示的系统200的部分(包括音频包队列管理器204、音频包队列206、命令串队列管理器208以及命令串队列210)可以位于实体范围的LAN或者在云端环境中。虚线220的右侧所示的系统200的部分(包括语言到文本服务112)可以位于云端环境中或者在第三方服务器上。因此,各个实施例适用于单个位置、多个位置以及基于云端的实施方式。
白板注释应用202是IWB设备102所执行的提供注释窗口的应用,其中的注释窗口包括电子绘图表面,用户可以利用触控笔或手指在电子绘图表面上绘画,从而实时创建、打开、注释以及保存电子文档。例如,用户可以经由注释窗口浏览和编辑已有的文档,诸如文字处理文档、工作表、图画等。白板注释应用202通常在IWB设备102开机时被自动调用(invoke),IWB设备102的图形化用户界面包括允许用户在注释窗口与其他窗口(诸如,视频会议窗口)之间切换的图形化用户界面控制。当白板注释应用202在运行时,可以通过上述的语音识别处理器106来检测语音命令。
当语音识别处理器106生成包括语音命令记录的音频包时,就将该音频包发送到音频包队列管理器204。音频包队列管理器204可以从多个IWB设备102和/或客户端设备114接收音频包。文件队列管理器204将接收到的音频包在音频包队列206中进行排队。音频包队列206可以作为先入先出(FIFO)队列来实施和管理,但是实施例不限于FIFO队列实施方式,还可以使用其他的实施方式。当接收到的音频包到达FIFO队列的起始端时,音频包队列管理器204将音频包发送到语言到文本服务112。
在一些实施例中,语言到文本服务112是命令未知的(agnostic),只是利用普通的转录程序来转录记录。在一些实施例中,利用所存储的可执行命令和所存储的语音输入来训练语言到文本服务,以便识别和转录特定的命令。训练可以有助于语言到文本服务112更准确且更少错误地识别出针对特定产品或服务的命令。其他的实施例可以包括反馈机制,因此IWB设备102上的命令处理器108通过该反馈机制提供将特定的记录与指定存储的可执行命令进行关联的反馈。例如,IWB设备102可以向用户提供用户所说的命令已经由IWB设备102成功处理和识别的可视和/或可听的指示。
语音到文本服务112利用音频包中所包括的元数据,将包括元数据和记录的转录的命令串发送到命令串队列管理器208。命令串队列管理器208将接收到的命令串在命令串队列210中进行排队。命令串队列210可以作为FIFO队列来实现,但是也可以使用其他的排队方法。当接收到的命令串到达FIFO队列的起始端时,命令串队列管理器208利用命令串中所包括的元数据,从多个IWB设备中识别IWB设备102,并且将命令串发送到识别出的IWB设备102。
在IWB设备102处,命令处理器108包括语音模式命令处理212和笔模式命令处理214。语音模式命令处理212包括从命令串队列管理器208接收命令串。语音模式命令处理212包括访问记录的转录,并且确定该转录是否与诸如表1中所列出的那些存储的可执行命令相匹配。如果不匹配,语音模式命令处理212可以包括通过从转录添加或移除字符来修改该转录。这包括例如确定与记录的转录最佳匹配的所存储的可执行命令,然后修改该转录以便与所存储的可执行命令相匹配。当命令处理器108接收到命令串时,针对支持的命令查询知识库(见例如表1)。如果命令串精确匹配,那么IWB设备102执行该命令。否则,IWB设备102解析该命令串以近似于最接近的匹配(例如,“Color reed”对于“Color Red”,“AddPager”对于“Add Page”),从而与所支持的命令中的一个命令匹配。在IWB设备102上执行动作之前,IWB设备102可以向用户提供确认经过解析的命令串的消息。例如,消息可以询问“Do you want to change color to Red[Yes/No](你想将颜色变为红色[是/否])”,并且基于用户输入,命令处理器108可以在IWB设备102上执行动作。
笔模式命令处理214用于响应于来自用户的触控笔输入的检测,识别可执行的命令。这可以包括,例如检测与IWB设备102上的可执行命令对应的一个或多个图形化用户界面控制的选择。
当通过语音模式命令处理212或笔模式命令处理214识别出可执行命令时,命令处理器108使得可执行命令由IWB设备102经由IWB设备102的交互式白板应用程序接口(API)来执行。IWB设备例如响应于用户说出命令“开始会议”,IWB设备102可以在IWB设备102上实例化视频会议窗口。命令也可以对于现有的窗口来进行处理,包括白板注释应用202所管理的注释窗口。
图3表示用于提供根据一些实施例的交互式白板设备的语音控制的过程的多线流程图。该过程向IWB设备102提供功能性,用于识别、辨别以及执行语音命令。因为IWB设备102执行语音命令,用户可以对于IWB设备102具有无需用手的体验。
在操作302中,IWB设备102在IWB设备上执行应用。应用的示例包括注释应用202、电话会议应用、协调应用或者如云存储应用的第三方应用。
在操作304中,语音识别处理器106利用通过传声器104所捕获的声音,在正在执行的应用中检测语音输入。语音识别处理器106可以运行在持续收听模式或者启动命令模式。
在操作306中,语音识别处理器106生成包含记录和元数据的音频包,其中的元数据包括对于记录进行记录的IWB设备102的标识符以及意图执行从记录识别出的命令的IWB设备的标识符。在一些示例中,这些标识符可以识别相同的IWB设备102,但是在其他的示例中,这些标识符可以识别不同的IWB设备。元数据还可以包括音频包队列管理器的标识符、语言到文本服务110的标识符、以及命令串队列管理器的标识符。元数据中所包括的标识符可以包括因特网协议(IP)地址和/或与通过元数据识别出的每个实体相关联的端口。语音识别处理器106将所生成的音频包发送到音频包队列206。
移动应用
在可替换的实施例中,操作302、304以及306可以通过客户端设备114来执行。客户端设备114可以是用户的移动设备或者另外的IWB设备。客户端设备114可以包括将客户端设备114或者客户端设备114上的交互式白板应用116与将要执行语音命令的IWB设备102相关联的应用。在该实施例中,客户端设备114上的语音识别处理器106执行操作304和306。客户端设备114上所生成的音频包可包括识别IWB设备102的元数据。客户端设备114上的语音识别处理器106将音频包发送到音频包队列206。这允许客户端设备114的用户控制本地的IWB设备或远程IWB设备。在客户端设备114的用户选择多个IWB设备的情况下,客户端设备114上的语音识别处理器106接着生成多个音频包并且将其发送到音频包队列206。音频包可以是具有元数据的一个包,其中包含生成的命令串将要发送到的IWB设备102的列表。这样,如果音频包是针对多个IWB设备102,则音频包队列106不负担多个音频包。音频包队列管理器204可以包括基于音频包中所包括的元数据将生成的命令串发送到多个IWB设备102的指令。这允许客户端设备114的用户经由交互式白板应用116来控制多个IWB设备。
在操作308中,音频包队列206将音频包与其他音频在FIFO队列中进行排队,其他音频包来自IWB设备102和/或来自与音频包队列206电子通信的多个其他的IWB设备。当音频包到达队列的起始端时,音频包队列206将音频包发送到语言到文本服务112。
在操作310中,语言到文本服务112访问音频包中的记录,并且生成记录的转录。转录可以是命令串的载荷或文本字段。命令串由语言到文本服务来组装,并且包括音频包中所包括的元数据和转录。利用命令串中的元数据,语言到文本服务112将命令串发送到命令串队列210。
在操作312中,命令串队列210将命令串与其他命令串在FIFO队列中进行排队,其中的其他命令串将被发送到IWB设备102和/或发送到与命令串队列210电子通信的多个其他的IWB设备。当命令串到达队列的起始端时,命令串队列210将音频包发送到IWB设备102上的命令处理器108。
在操作314中,命令处理器108从命令串当中识别可执行命令。命令处理器108将转录与一组所存储的可执行命令中的一个命令进行匹配。命令处理器108可以修改转录,并且将经过修改的转录与一组所存储的可执行命令中的一个命令进行匹配。如果命令处理器108无法从转录当中识别可执行命令,命令处理器108可以丢弃该命令,或者指示IWB设备102向用户呈现询问用户重复语音命令的提示。如果用户重复语音命令,则过程返回到操作304。当识别出可执行命令时,命令处理器108将可执行命令经由交互式白板API 216发送到IWB设备102上运行的应用。
在操作316上,IWB设备102利用操作系统或者通过将命令发送到IWB设备102上运行的应用来执行命令。应用可以是操作302的应用或者可以是另外的应用。
图4表示可以实施各种实施例的另一种联网环境400。联网环境400表示两个站点参与电话会议的示例环境。每个站点可以有一个或多个IWB设备102,表示为IWB设备402、404、408以及410。此外,电话会议中的与会者可以有单独的移动设备406,如客户端设备114具有上述的IWB应用116和语音识别过程106。IWB设备402或者移动设备406,例如可以捕获将要通过IWB设备408和/或IWB设备410来执行的语音命令,或者在另外的实施例中,也可以捕获通过IWB设备402和IWB设备404来执行的语音命令。
在图4中,IWB设备402、404和移动设备406利用语音识别处理器106,从经由例如传声器104所捕获的语音输入来生成音频包。IWB设备402、404和移动设备406利用例如交互式白板应用116,将音频包与IWB设备408和/或410相关联。经过排队的音频包被发送到语言到文本服务122。将生成的命令串在命令串队列210中排队。命令串队列210获取与命令串相关联的元数据,并且从元数据确定将要发送到IWB设备408和/或IWB设备410的命令串。基于该确定,将命令串发送到IWB设备408和/或IWB设备410。
实施方式示例
根据一个实施例中,本公开文本中所述的技术可以通过一个或多个特殊用途的计算设备来实施。特殊用途的计算设备可以是被硬接线以便执行这些技术,或者可以包括被持续编程以便执行这些技术的数字电子设备,诸如一个或多个应用专用集成电路(ASIC)或现场可编程门阵列(FPGA),或者可以包括根据固件、存储器、其他存储器或组合中的程序指令来执行这些技术所编程的一个或多个普通用途的硬件处理器。这样的特殊用途的计算设备也可以将硬接线逻辑器件、ASIC或FPGA与定制编程进行组合从而完成这些技术。特殊用途的计算设备可以是桌上型计算机系统、便携式计算机系统、手持设备、联网设备或者并入硬接线的和/或程序逻辑器件来实施这些技术的任何其他设备。
例如,图5是表示可以在其上实施本发明的实施例的计算机系统500的框图。计算机系统500包括总线502或用于传送信息的其他通信设备,以及与总线502耦接的用于处理信息的硬件处理器504。例如,硬件处理器504可以是普通用途的微处理器。
计算机系统500也可以包括耦接到总线502用于存储信息以及处理器504待执行的指令的主存储器506,诸如随机存取存储器(RAM)或其他动态存储器设备。主存储器506也可用于存储处理器504待执行的指令的执行期间的临时变量或其他中间信息。当将这样的指令存储在处理器504可访问的非瞬态存储器介质时,这些指令使得计算机系统500成为被定制为执行指令中所指定的操作的特殊用途的设备。
计算机系统500进一步包括耦接到总线502用于存储静态信息以及针对处理器504的指令的只读存储器(ROM)508或其他静态存储器设备。提供存储器设备510(诸如磁盘、光盘或固态驱动器)并且将其耦接到总线502,用于存储信息以及指令。
计算机系统500可以经由总线502耦接到显示器512,诸如阴极射线管(CRT),用于向计算机用户显示信息。将包括字母数字以及其他键的输入设备514耦接到总线502,用于向处理器504传送信息以及命令选项。另一种类型的用户输入设备是光标控制器516,诸如鼠标、跟踪球或光标方向键,用于向处理器504传送方向信息以及命令选项,并且用于控制显示器512上的光标移动。该输入设备通常具有允许设备指定平面内位置的两个轴上的两个自由度,第一轴(例如,x轴)以及第二轴(例如,y轴)。
计算机系统500可以利用将定制的硬接线逻辑器件、一个或多个ASIC或FPGA、固件和/或程序逻辑器件与计算机系统相结合来实施公开文本中所述的技术,其中计算机系统使得或编程计算机系统500成为特殊功能的计算机。根据一个实施例,响应于处理器504执行主存储器506中所包含的一个或多个指令的一个或多个序列,公开文本中的技术可以通过计算机系统500来实现。可将这样的指令从诸如存储设备510的另一个存储介质读取到主存储器506。主存储器506中所包括的指令的序列的执行使得处理器504执行公开文本中所述的处理步骤。在替换的实施例中,可将硬接线电路用于代替软件指令或与软件指令结合。
如公开文本中所用的术语“存储介质”指的是存储使得设备以特定方式执行操作的指令和/或数据的任何非瞬态介质。这样的存储介质可以包括非易失性介质和/或易失性介质。非易失性介质包括例如光盘、磁盘或者固态驱动器,诸如存储设备510。易失性介质包括动态存储器,诸如主存储器506。普通形式的存储介质包括例如软盘、软磁盘、硬盘、固态驱动器、磁带或任何其他磁数据存储介质、CD-ROM、任何其他光数据存储介质、任何带有孔图案的物理介质、RAM、PROM、EPROM、FLASH-EPROM、NVRAM、任何其他存储芯片或存储盒。
存储介质不同于传送介质,但是可以与传送介质联合使用。传送介质参与在存储介质之间传送信息。例如,传送介质包括同轴电缆、铜线以及光纤,包括分组含总线502的线。传送介质也可采用声波或光波的形式,诸如微波和近红外数据通信中所生成的那些。
可将各种形式的介质分组含于将一个或多个指令的一个或多个序列传送到处理器504用于执行。例如,可以最初将指令承载于远程计算机的固态驱动器或磁盘上。远程计算机可以将指令载入它的动态存储器中,并且利用调制解调器在电话线上发送这些指令。计算机系统500本地的调制解调器能够在电话线上接收数据,并且使用近红外发送器将数据转换为近红外信号。近红外探测器能够接收到近红外信号中所传送的数据,而合适的电路能够将该数据放置于总线502上。总线502将该数据传送到处理器504检索并且执行指令的主存储器506。可在由处理器504执行之前或之后选择性地将主存储器506接收到的指令存储于存储设备510。
计算机系统500也可以包括耦接到总线502的通信接口518。通信接口518提供耦接到网络链路520的双向数据通信,其中网络链路520与局域网络522连接。例如,通信接口518可以是综合业务数字网络(ISDN)卡、光缆调制解调器、卫星调制解调器或者向对应类型的电话线提供数据通信连接的调制解调器。又例如,通信接口518可以是向兼容的LAN提供数据通信连接的局域网(LAN)卡。也可以实施无线链路。在任何这样的实施例中,通信接口518发送并且接收电、电磁或光信号,这些信号传送体现各种类型信息的数字数据流。
网络链路520通常通过一个或多个网络向其他数据设备提供数据通信。例如,网络链路520可以通过局域网络522向主机524或向因特网服务供应商(ISP)526操作的数据设备提供连接。进而,ISP 526通过世界范围的分组数据通信网(现在通常称为“因特网”)528提供数据通信服务。局域网络522和因特网528都使用传送数字数据流的电、电磁或光信号。将数字数据传送到计算机系统500并且从计算机系统500传送出的通过各种网络的信号、网络链路520上的信息以及通过通信接口518的信号是传送介质的示例形式。
计算机系统500能够通过网络、网络链路520以及通信接口518,发送消息以及接收包括程序代码的数据。在因特网示例中,服务器530可以通过因特网528、ISP 526、局域网络522以及通信接口518,针对应用程序发送被请求的代码。
接收到的代码可以在被接收到时通过处理器504来执行,和/或存储于存储设备510,或者其他非易失性存储器用于随后的执行。
在上述说明书中,已经参考因实施方式而不同的大量具体细节对于实施例进行描述。因此,以描述意义而非限制意义来考虑该说明书及附图。因此,本发明的范围以及申请人意图作为本发明范围的唯一且排他的指示是以权利要求出现的具体形式而从本申请发布一组权利要求的字面及等效的范围,包括任何后续修正。
本申请基于并且主张2016年3月4日提交的美国优先权申请No.15/061,806的优先权,将以上全部内容作为参考并入于此。

Claims (18)

1.一种交互式白板设备,包括:
一个或多个处理器;
具有在其上嵌入指令的非瞬态计算机可读介质,当通过所述一个或多个处理器执行所述指令时使得执行:
在所述交互式白板设备上执行注释窗口的期间,检测从用户接收到的语音输入;
将所述语音输入的记录存储在音频包中;
将所述音频包发送到语言到文本服务;
从所述语言到文本服务接收包括所述语音输入的记录的转录的命令串;
通过从转录添加或移除一个或多个字符来修改所述记录的转录,产生经过修改的转录;
利用命令处理器中的语音模式命令处理,通过将所述经过修改的转录与一个或多个预定可执行命令进行比较,以识别所述经过修改的转录与所述一个或多个预定可执行命令之间的匹配,从包括所述语音输入的记录的经修改的转录的所述命令串中识别通过所述交互式白板设备可执行的可执行命令;以及
使得所述交互式白板设备的应用来执行所述可执行命令。
2.根据权利要求1所述的交互式白板设备,其中当执行所述指令时,还使得执行:
在所述交互式白板设备上执行注释窗口的期间,在所述注释窗口中检测来自用户的触控笔输入;
利用命令处理器中的笔模式命令处理,从所述触控笔输入当中识别另外的命令;以及
使得所述交互式白板设备的应用来执行所述另外的命令。
3.根据权利要求1所述的交互式白板设备,其中检测语音输入包括:
在捕获持续音频馈送的持续收听模式下运行传声器;以及
从所述持续音频馈送当中捕获语音输入。
4.根据权利要求1所述的交互式白板设备,其中检测语音输入包括:
在启动命令模式下运行传声器;
检测启动命令;以及
响应于检测到所述启动命令,从随后的音频馈送当中捕获语音输入。
5.根据权利要求1所述的交互式白板设备,其中从所述语言到文本服务接收指令串包括:
利用与所述交互式白板设备相关联的客户端设备,在与所述交互式白板设备相关联的客户端设备上执行应用期间,检测来自第二用户的第二语音输入;
利用所述客户端设备,将所述第二语音输入的记录存储在第二音频包中;以及
利用所述客户端设备,将所述第二音频包发送到所述语言到文本服务,
其中,当执行所述指令时,还使得执行:
在所述交互式白板设备中,从所述语言到文本服务接收命令串,所述命令串包括第二语音输入的记录的转录;
在所述交互式白板设备中,利用所述命令处理器中的语音模式命令处理,从第二语音输入的记录的转录当中识别第二可执行命令;以及
在所述交互式白板设备中,使得所述交互式白板设备的应用来执行所述第二可执行命令。
6.根据权利要求5所述的交互式白板设备,其中利用经由移动设备上的应用从用户接收到的交互式白板设备的选择,将所述客户端设备与所述交互式白板设备相关联。
7.根据权利要求5所述的交互式白板设备,其中所述客户端设备包括移动设备。
8.根据权利要求5所述的交互式白板设备,其中所述客户端设备包括另外的交互式白板设备。
9.根据权利要求1所述的交互式白板设备,其中所述音频包包括从多个交互式白板设备当中识别所述交互式白板设备的交互式白板设备的标识符。
10.根据权利要求9所述的交互式白板设备,其中将音频包发送到语言到文本服务包括:
经由音频包队列来发送音频包,所述音频包队列存储通过多个交互式白板设备来发送的经过排队的多个音频包。
11.根据权利要求9所述的交互式白板设备,其中从语言到文本服务接收命令串包括:
经由命令串队列接收命令串,其中所述命令串队列存储将要发送到多个交互式白板设备的经过排队的多个命令串;以及
确定音频包中所包括的交互式白板设备的标识符与所述交互式白板设备的标识符相匹配。
12.根据权利要求1所述的交互式白板设备,其中使得所述交互式白板设备的应用来执行可执行命令包括:
经由应用编程接口(API),将所述可执行命令传送到所述交互式白板设备的操作系统。
13.根据权利要求1所述的交互式白板设备,其中在所述交互式白板设备上实施所述语言到文本服务。
14.一种用于交互式白板设备的语音控制的方法,包括:
在交互式白板设备上执行注释窗口的期间,检测从用户接收到的语音输入;
将所述语音输入的记录存储在音频包中;
将所述音频包发送到语言到文本服务;
从所述语言到文本服务接收包括所述语音输入的记录的转录的命令串;
通过从转录添加或移除一个或多个字符来修改所述记录的转录,产生经过修改的转录;
利用命令处理器中的语音模式命令处理,通过将所述经过修改的转录与一个或多个预定可执行命令进行比较,以识别所述经过修改的转录与所述一个或多个预定可执行命令之间的匹配,从包括所述语音输入的记录的经修改的转录的所述命令串当中识别通过所述交互式白板设备可执行的可执行命令;以及
使得所述交互式白板设备的应用来执行所述可执行命令。
15.根据权利要求14所述的方法,其中从所述语言到文本服务接收命令串包括:
利用与所述交互式白板设备相关联的客户端设备,在与所述交互式白板设备相关联的客户端设备上执行应用的期间,检测来自第二用户的第二语音输入;
利用所述客户端设备,将第二语音输入的记录存储在第二音频包中;以及
利用所述客户端设备,将所述第二音频包发送到所述语言到文本服务,
其中,当执行指令时,还使得执行:
在所述交互式白板设备中,从所述语言到文本服务接收命令串,所述命令串包括第二语音输入的记录的转录;
在所述交互式白板设备中,利用所述命令处理器中的语音模式命令处理,从第二语音输入的记录的转录当中识别第二可执行命令;以及
在所述交互式白板设备中,使得所述交互式白板设备的应用来执行所述第二可执行命令。
16.根据权利要求15所述的方法,其中利用经由移动设备上的应用从用户接收到的交互式白板设备的选择,将所述客户端设备与所述交互式白板设备相关联。
17.根据权利要求15所述的方法,其中所述客户端设备包括移动设备。
18.根据权利要求15所述的方法,其中所述客户端设备包括另外的交互式白板设备。
CN201710075916.7A 2016-03-04 2017-02-13 交互式白板设备的语音控制 Active CN107153499B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US15/061,806 2016-03-04
US15/061,806 US10409550B2 (en) 2016-03-04 2016-03-04 Voice control of interactive whiteboard appliances

Publications (2)

Publication Number Publication Date
CN107153499A CN107153499A (zh) 2017-09-12
CN107153499B true CN107153499B (zh) 2021-02-09

Family

ID=58054053

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710075916.7A Active CN107153499B (zh) 2016-03-04 2017-02-13 交互式白板设备的语音控制

Country Status (4)

Country Link
US (2) US10409550B2 (zh)
EP (1) EP3214542A1 (zh)
JP (3) JP6414241B2 (zh)
CN (1) CN107153499B (zh)

Families Citing this family (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11120342B2 (en) 2015-11-10 2021-09-14 Ricoh Company, Ltd. Electronic meeting intelligence
US10417021B2 (en) 2016-03-04 2019-09-17 Ricoh Company, Ltd. Interactive command assistant for an interactive whiteboard appliance
US10771969B2 (en) 2016-07-11 2020-09-08 T-Mobile Usa, Inc. Voice control and telecommunications service integration
US10555172B2 (en) 2016-09-07 2020-02-04 T-Mobile Usa, Inc. Untrusted device access to services over a cellular network
US10510051B2 (en) 2016-10-11 2019-12-17 Ricoh Company, Ltd. Real-time (intra-meeting) processing using artificial intelligence
US11307735B2 (en) 2016-10-11 2022-04-19 Ricoh Company, Ltd. Creating agendas for electronic meetings using artificial intelligence
US10572858B2 (en) 2016-10-11 2020-02-25 Ricoh Company, Ltd. Managing electronic meetings using artificial intelligence and meeting rules templates
US10860985B2 (en) 2016-10-11 2020-12-08 Ricoh Company, Ltd. Post-meeting processing using artificial intelligence
US10565989B1 (en) * 2016-12-16 2020-02-18 Amazon Technogies Inc. Ingesting device specific content
US10375130B2 (en) * 2016-12-19 2019-08-06 Ricoh Company, Ltd. Approach for accessing third-party content collaboration services on interactive whiteboard appliances by an application using a wrapper application program interface
US10298635B2 (en) 2016-12-19 2019-05-21 Ricoh Company, Ltd. Approach for accessing third-party content collaboration services on interactive whiteboard appliances using a wrapper application program interface
US10250592B2 (en) 2016-12-19 2019-04-02 Ricoh Company, Ltd. Approach for accessing third-party content collaboration services on interactive whiteboard appliances using cross-license authentication
US10395405B2 (en) 2017-02-28 2019-08-27 Ricoh Company, Ltd. Removing identifying information from image data on computing devices using markers
CN109093627A (zh) * 2017-06-21 2018-12-28 富泰华工业(深圳)有限公司 智能机器人
US10565986B2 (en) * 2017-07-20 2020-02-18 Intuit Inc. Extracting domain-specific actions and entities in natural language commands
US11062271B2 (en) 2017-10-09 2021-07-13 Ricoh Company, Ltd. Interactive whiteboard appliances with learning capabilities
US11030585B2 (en) 2017-10-09 2021-06-08 Ricoh Company, Ltd. Person detection, person identification and meeting start for interactive whiteboard appliances
US10956875B2 (en) 2017-10-09 2021-03-23 Ricoh Company, Ltd. Attendance tracking, presentation files, meeting services and agenda extraction for interactive whiteboard appliances
US10552546B2 (en) 2017-10-09 2020-02-04 Ricoh Company, Ltd. Speech-to-text conversion for interactive whiteboard appliances in multi-language electronic meetings
US10553208B2 (en) 2017-10-09 2020-02-04 Ricoh Company, Ltd. Speech-to-text conversion for interactive whiteboard appliances using multiple services
JP2019101754A (ja) * 2017-12-01 2019-06-24 キヤノン株式会社 要約装置及びその制御方法、要約システム、プログラム
US10757148B2 (en) * 2018-03-02 2020-08-25 Ricoh Company, Ltd. Conducting electronic meetings over computer networks using interactive whiteboard appliances and mobile devices
CN111427529B (zh) * 2019-01-09 2023-05-30 斑马智行网络(香港)有限公司 交互方法、装置、设备及存储介质
US11392754B2 (en) 2019-03-15 2022-07-19 Ricoh Company, Ltd. Artificial intelligence assisted review of physical documents
US11270060B2 (en) 2019-03-15 2022-03-08 Ricoh Company, Ltd. Generating suggested document edits from recorded media using artificial intelligence
US11720741B2 (en) 2019-03-15 2023-08-08 Ricoh Company, Ltd. Artificial intelligence assisted review of electronic documents
US11263384B2 (en) 2019-03-15 2022-03-01 Ricoh Company, Ltd. Generating document edit requests for electronic documents managed by a third-party document management service using artificial intelligence
US11573993B2 (en) 2019-03-15 2023-02-07 Ricoh Company, Ltd. Generating a meeting review document that includes links to the one or more documents reviewed
US11080466B2 (en) 2019-03-15 2021-08-03 Ricoh Company, Ltd. Updating existing content suggestion to include suggestions from recorded media using artificial intelligence
US11854551B2 (en) * 2019-03-22 2023-12-26 Avaya Inc. Hybrid architecture for transcription of real-time audio based on event data between on-premises system and cloud-based advanced audio processing system
US11349888B2 (en) * 2020-03-31 2022-05-31 Ricoh Company, Ltd. Text data transmission-reception system, shared terminal, and method of processing information
CN112767943A (zh) * 2021-02-26 2021-05-07 湖北亿咖通科技有限公司 一种语音交互系统
US11705125B2 (en) * 2021-03-26 2023-07-18 International Business Machines Corporation Dynamic voice input detection for conversation assistants
CN113593571A (zh) * 2021-07-30 2021-11-02 思必驰科技股份有限公司 声音信息传输方法和装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8554559B1 (en) * 2012-07-13 2013-10-08 Google Inc. Localized speech recognition with offload
US9070367B1 (en) * 2012-11-26 2015-06-30 Amazon Technologies, Inc. Local speech recognition of frequent utterances

Family Cites Families (114)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7711672B2 (en) 1998-05-28 2010-05-04 Lawrence Au Semantic network methods to disambiguate natural language meaning
JPH11355747A (ja) * 1998-06-10 1999-12-24 Nec Corp 映像・音声通信装置と同装置を用いたテレビ会議装置
US6581033B1 (en) * 1999-10-19 2003-06-17 Microsoft Corporation System and method for correction of speech recognition mode errors
US7299405B1 (en) * 2000-03-08 2007-11-20 Ricoh Company, Ltd. Method and system for information management to facilitate the exchange of ideas during a collaborative effort
AU2001227797A1 (en) * 2000-01-10 2001-07-24 Ic Tech, Inc. Method and system for interacting with a display
JP2002268581A (ja) * 2001-03-09 2002-09-20 Matsushita Electric Ind Co Ltd 電子機器及びその模様替えサービス方式
US7100432B2 (en) * 2002-06-06 2006-09-05 Mineral Lassen Llc Capacitive pressure sensor
US7260257B2 (en) * 2002-06-19 2007-08-21 Microsoft Corp. System and method for whiteboard and audio capture
JP2004102632A (ja) * 2002-09-09 2004-04-02 Ricoh Co Ltd 音声認識装置および画像処理装置
US8972266B2 (en) * 2002-11-12 2015-03-03 David Bezar User intent analysis extent of speaker intent analysis system
JP2004239963A (ja) 2003-02-03 2004-08-26 Mitsubishi Electric Corp 車載制御装置
AU2004232289A1 (en) 2003-04-18 2004-11-04 Insulet Corporation User interface for infusion pump remote controller and method of using the same
JP2005072764A (ja) * 2003-08-21 2005-03-17 Hitachi Ltd 機器制御システムとそのための装置及び機器制御方法
WO2005045461A1 (en) * 2003-10-16 2005-05-19 Hill-Rom Services, Inc. Universal communications, monitoring, tracking, and control system for a healthcare facility
ATE363120T1 (de) * 2003-11-10 2007-06-15 Koninkl Philips Electronics Nv Audio-dialogsystem und sprachgesteuertes browsing-verfahren
JP2005175627A (ja) * 2003-12-08 2005-06-30 Fuji Photo Film Co Ltd 議事録作成システム
US9224394B2 (en) * 2009-03-24 2015-12-29 Sirius Xm Connected Vehicle Services Inc Service oriented speech recognition for in-vehicle automated interaction and in-vehicle user interfaces requiring minimal cognitive driver processing for same
JP2006164177A (ja) * 2004-12-10 2006-06-22 Ricoh Co Ltd 電子会議システム
US8890882B2 (en) * 2005-02-28 2014-11-18 Microsoft Corporation Computerized method and system for generating a display having a physical information item and an electronic information item
JP2006279492A (ja) * 2005-03-29 2006-10-12 Tsuken Denki Kogyo Kk 電話会議システム
US7603413B1 (en) 2005-04-07 2009-10-13 Aol Llc Using automated agents to facilitate chat communications
US20070020604A1 (en) 2005-07-19 2007-01-25 Pranaya Chulet A Rich Media System and Method For Learning And Entertainment
US20070239453A1 (en) * 2006-04-06 2007-10-11 Microsoft Corporation Augmenting context-free grammars with back-off grammars for processing out-of-grammar utterances
EP2035909A1 (en) * 2006-06-16 2009-03-18 Khaled A. Kaladeh Interactive printed position coded pattern whiteboard
US20100145729A1 (en) * 2006-07-18 2010-06-10 Barry Katz Response scoring system for verbal behavior within a behavioral stream with a remote central processing system and associated handheld communicating devices
DE102006049716A1 (de) * 2006-10-12 2008-04-17 Thyssenkrupp Transrapid Gmbh Magnetpol für Magnetschwebefahrzeuge
US7706904B2 (en) 2006-12-08 2010-04-27 Universal City Studios Lllp Attraction multilanguage audio device and method
US7958104B2 (en) * 2007-03-08 2011-06-07 O'donnell Shawn C Context based data searching
TWI345218B (en) * 2007-04-20 2011-07-11 Asustek Comp Inc Portable computer with function for identiying speech and processing method thereof
WO2009015460A1 (en) * 2007-07-27 2009-02-05 Clear-Com Research Inc. Multi-point to multi-point intercom system
US9201527B2 (en) * 2008-04-04 2015-12-01 Microsoft Technology Licensing, Llc Techniques to remotely manage a multimedia conference event
US8862731B2 (en) * 2008-04-25 2014-10-14 Smart Technologies Ulc Method and system for coordinating data sharing in a network with at least one physical display device
US8316089B2 (en) * 2008-05-06 2012-11-20 Microsoft Corporation Techniques to manage media content for a multimedia conference event
CN101286865B (zh) 2008-05-14 2010-11-10 华为技术有限公司 音视频会议中实现电子白板的方法、装置及系统
US9935793B2 (en) 2009-02-10 2018-04-03 Yahoo Holdings, Inc. Generating a live chat session in response to selection of a contextual shortcut
WO2010105115A2 (en) * 2009-03-11 2010-09-16 The Board Of Regents Of The University Of Texas System Audience response system
JP5212334B2 (ja) * 2009-10-22 2013-06-19 コニカミノルタホールディングス株式会社 会議支援システム
JP5229209B2 (ja) * 2009-12-28 2013-07-03 ブラザー工業株式会社 ヘッドマウントディスプレイ
US9210200B1 (en) * 2010-02-15 2015-12-08 Insors Integrated Communications Methods, systems and program products for connecting users to operating nodes
US8554280B2 (en) * 2010-03-23 2013-10-08 Ebay Inc. Free-form entries during payment processes
US9183560B2 (en) * 2010-05-28 2015-11-10 Daniel H. Abelow Reality alternate
CN101893993B (zh) * 2010-07-15 2012-05-23 杭州华银视讯科技有限公司 电子白板系统及其语音处理方法
US20120059655A1 (en) * 2010-09-08 2012-03-08 Nuance Communications, Inc. Methods and apparatus for providing input to a speech-enabled application program
US20120260176A1 (en) * 2011-04-08 2012-10-11 Google Inc. Gesture-activated input using audio recognition
US20120321062A1 (en) * 2011-06-17 2012-12-20 Fitzsimmons Jeffrey E Telephonic Conference Access System
US9393001B2 (en) * 2011-07-29 2016-07-19 Olympus Corporation Operation method of endoscope
JP6085907B2 (ja) * 2011-09-13 2017-03-01 株式会社リコー 会議システム、イベント管理サーバ、および、プログラム
US20130096919A1 (en) * 2011-10-12 2013-04-18 Research In Motion Limited Apparatus and associated method for modifying media data entered pursuant to a media function
KR101402506B1 (ko) 2011-12-01 2014-06-03 라인 가부시키가이샤 인스턴트 메시징 어플리케이션을 이용한 대화형 정보제공 시스템 및 방법
CN102662631B (zh) * 2012-03-15 2014-09-10 龙芯中科技术有限公司 间接分支指令处理方法和装置
US20130275317A1 (en) * 2012-04-11 2013-10-17 Alamy Limited Managing digital media objects
US8909536B2 (en) * 2012-04-20 2014-12-09 Nuance Communications, Inc. Methods and systems for speech-enabling a human-to-machine interface
CN102664009B (zh) * 2012-05-07 2015-01-14 乐视致新电子科技(天津)有限公司 一种通过移动通信终端对视频播放装置进行语音控制的系统及方法
US20150319203A1 (en) 2012-05-17 2015-11-05 Leo Jeremias Computer system and methods for chat enabled online search
JP6075971B2 (ja) * 2012-05-29 2017-02-08 シャープ株式会社 画像表示装置
US20130339537A1 (en) 2012-06-13 2013-12-19 Harman International Industries, Incorporated System for dynamic stream management in audio video bridged networks
KR101309794B1 (ko) * 2012-06-27 2013-09-23 삼성전자주식회사 디스플레이 장치, 디스플레이 장치의 제어 방법 및 대화형 시스템
CN103678269A (zh) 2012-08-30 2014-03-26 国际商业机器公司 一种信息处理方法和装置
US20150248534A1 (en) * 2012-09-18 2015-09-03 Draeger Medical Systems, Inc. System And Method Of Generating A User Interface Display Of Patient Parameter Data
US20140115456A1 (en) 2012-09-28 2014-04-24 Oracle International Corporation System for accessing software functionality
GB201219231D0 (en) * 2012-10-25 2012-12-12 Soleis As Teaching support system
CN103839549A (zh) * 2012-11-22 2014-06-04 腾讯科技(深圳)有限公司 一种语音指令控制方法及系统
CN104641410A (zh) * 2012-11-30 2015-05-20 日立麦克赛尔株式会社 影像显示装置,及其设定变更方法,设定变更程序
US9368114B2 (en) * 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
GB201305837D0 (en) * 2013-03-29 2013-05-15 Mid City Holdings Llc Electronic presentation aid
KR101799294B1 (ko) * 2013-05-10 2017-11-20 삼성전자주식회사 디스플레이 장치 및 이의 제어 방법
KR20140144104A (ko) 2013-06-10 2014-12-18 삼성전자주식회사 전자기기 및 이의 서비스 제공 방법
US9252151B2 (en) * 2013-07-08 2016-02-02 Sandisk Technologies Inc. Three dimensional NAND device with birds beak containing floating gates and method of making thereof
US9665259B2 (en) * 2013-07-12 2017-05-30 Microsoft Technology Licensing, Llc Interactive digital displays
JP2015053020A (ja) * 2013-09-09 2015-03-19 株式会社リコー 情報表示装置、情報表示方法およびプログラム
CN104469256B (zh) * 2013-09-22 2019-04-23 思科技术公司 沉浸式和交互式的视频会议房间环境
JP6229403B2 (ja) * 2013-09-26 2017-11-15 日本電気株式会社 議事録作成補助装置、電子会議装置および電子会議システム
EP2866153A1 (en) 2013-10-22 2015-04-29 Agfa Healthcare Speech recognition method and system with simultaneous text editing
JP6232930B2 (ja) * 2013-10-30 2017-11-22 株式会社リコー 会議支援装置、会議支援システム及び会議支援方法
JP6088414B2 (ja) * 2013-12-16 2017-03-01 日本電信電話株式会社 端末制御装置、端末制御方法及び端末制御プログラム
US9372543B2 (en) * 2013-12-16 2016-06-21 Dell Products, L.P. Presentation interface in a virtual collaboration session
WO2015098079A1 (ja) * 2013-12-26 2015-07-02 パナソニックIpマネジメント株式会社 音声認識処理装置、音声認識処理方法、および表示装置
US9514748B2 (en) 2014-01-15 2016-12-06 Microsoft Technology Licensing, Llc Digital personal assistant interaction with impersonations and rich multimedia in responses
US20150199965A1 (en) * 2014-01-16 2015-07-16 CloudCar Inc. System and method for recognition and automatic correction of voice commands
EP3100259A4 (en) 2014-01-31 2017-08-30 Hewlett-Packard Development Company, L.P. Voice input command
US9430186B2 (en) * 2014-03-17 2016-08-30 Google Inc Visual indication of a recognized voice-initiated action
US9754503B2 (en) * 2014-03-24 2017-09-05 Educational Testing Service Systems and methods for automated scoring of a user's performance
US10117600B2 (en) * 2014-04-15 2018-11-06 Apple Inc. Pacing activity data of a user
US9361068B2 (en) * 2014-05-21 2016-06-07 International Business Machines Corporation System and method for using development objectives to guide implementation of source code
US9462112B2 (en) 2014-06-19 2016-10-04 Microsoft Technology Licensing, Llc Use of a digital assistant in communications
CN104066254B (zh) * 2014-07-08 2017-01-04 昂宝电子(上海)有限公司 使用triac调光器进行智能调光控制的系统和方法
US20160117730A1 (en) 2014-07-08 2016-04-28 Expertbeacon, Inc. System and method for user controlled interactive online advertisements
US9939132B2 (en) * 2014-07-18 2018-04-10 Iunu, Inc. RFI shielding for luminaires using reflection optics
WO2016018111A1 (en) 2014-07-31 2016-02-04 Samsung Electronics Co., Ltd. Message service providing device and method of providing content via the same
WO2016017978A1 (en) * 2014-07-31 2016-02-04 Samsung Electronics Co., Ltd. Device and method for performing functions
US9354841B2 (en) * 2014-08-13 2016-05-31 Smart Technologies Ulc Wirelessly communicating configuration data for interactive display devices
KR102304052B1 (ko) * 2014-09-05 2021-09-23 엘지전자 주식회사 디스플레이 장치 및 그의 동작 방법
US20160071486A1 (en) * 2014-09-09 2016-03-10 Cisco Technology, Inc. Immersive projection lighting environment
CN104332159B (zh) * 2014-10-30 2017-05-10 上海修源网络科技有限公司 一种车载语音操作系统人机互动方法及装置
US9741342B2 (en) * 2014-11-26 2017-08-22 Panasonic Intellectual Property Corporation Of America Method and apparatus for recognizing speech by lip reading
CN104468572A (zh) * 2014-12-08 2015-03-25 上海大学 一种Android手机语音远程控制菌种挑选仪的方法
KR101643560B1 (ko) * 2014-12-17 2016-08-10 현대자동차주식회사 음성 인식 장치, 그를 가지는 차량 및 그 방법
KR20160076201A (ko) 2014-12-22 2016-06-30 엘지전자 주식회사 이동 단말기 및 그 제어 방법
US20160182579A1 (en) * 2014-12-23 2016-06-23 Smart Technologies Ulc Method of establishing and managing messaging sessions based on user positions in a collaboration space and a collaboration system employing same
KR20160085614A (ko) 2015-01-08 2016-07-18 엘지전자 주식회사 이동단말기 및 그 제어방법
US10200653B2 (en) 2015-01-12 2019-02-05 MathYak Inc. System and method for network-based provision of on-demand real-time video communication
US20160292897A1 (en) * 2015-04-03 2016-10-06 Microsoft Technology Licensing, LLP Capturing Notes From Passive Recordings With Visual Content
US9699411B2 (en) * 2015-05-09 2017-07-04 Ricoh Company, Ltd. Integration of videoconferencing with interactive electronic whiteboard appliances
US20160337416A1 (en) * 2015-05-14 2016-11-17 Smart Technologies Ulc System and Method for Digital Ink Input
US10554602B2 (en) 2015-05-15 2020-02-04 Samsung Electronics Co., Ltd. User terminal apparatus, server, and control method thereof
US10268340B2 (en) 2015-06-11 2019-04-23 International Business Machines Corporation Organizing messages in a hierarchical chat room framework based on topics
US20170018282A1 (en) * 2015-07-16 2017-01-19 Chunghwa Picture Tubes, Ltd. Audio processing system and audio processing method thereof
US11196739B2 (en) * 2015-07-16 2021-12-07 Avaya Inc. Authorization activation
US20170017861A1 (en) * 2015-07-17 2017-01-19 Xerox Corporation Methods and systems for recommending content
US9635413B2 (en) * 2015-09-23 2017-04-25 Echostar Technologies L.L.C. Advance decryption key acquisition for streaming media content
US10455088B2 (en) 2015-10-21 2019-10-22 Genesys Telecommunications Laboratories, Inc. Dialogue flow optimization and personalization
US20170223069A1 (en) 2016-02-01 2017-08-03 Microsoft Technology Licensing, Llc Meetings Conducted Via A Network
US10102844B1 (en) 2016-03-29 2018-10-16 Amazon Technologies, Inc. Systems and methods for providing natural responses to commands
US9728188B1 (en) 2016-06-28 2017-08-08 Amazon Technologies, Inc. Methods and devices for ignoring similar audio being received by a system

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8554559B1 (en) * 2012-07-13 2013-10-08 Google Inc. Localized speech recognition with offload
US9070367B1 (en) * 2012-11-26 2015-06-30 Amazon Technologies, Inc. Local speech recognition of frequent utterances

Also Published As

Publication number Publication date
US10606554B2 (en) 2020-03-31
US10409550B2 (en) 2019-09-10
CN107153499A (zh) 2017-09-12
JP6575658B2 (ja) 2019-09-18
JP6414241B2 (ja) 2018-10-31
EP3214542A1 (en) 2017-09-06
US20190377546A1 (en) 2019-12-12
JP2019049985A (ja) 2019-03-28
JP2020009459A (ja) 2020-01-16
JP2017157204A (ja) 2017-09-07
US20170255446A1 (en) 2017-09-07

Similar Documents

Publication Publication Date Title
CN107153499B (zh) 交互式白板设备的语音控制
US9666190B2 (en) Speech recognition using loosely coupled components
US11114091B2 (en) Method and system for processing audio communications over a network
EP2321821B1 (en) Distributed speech recognition using one way communication
US20130085753A1 (en) Hybrid Client/Server Speech Recognition In A Mobile Device
US9093071B2 (en) Interleaving voice commands for electronic meetings
WO2013127367A1 (zh) 一种即时通信的语音识别方法和终端
US20180013718A1 (en) Account adding method, terminal, server, and computer storage medium
KR20060050966A (ko) 음성 인식에 있어서 동사 에러 복원
US9444927B2 (en) Methods for voice management, and related devices
CN103973542B (zh) 一种语音信息处理方法及装置
CN110992955A (zh) 一种智能设备的语音操作方法、装置、设备及存储介质
WO2022213943A1 (zh) 消息发送方法、消息发送装置、电子设备和存储介质
US11430444B2 (en) Systems and methods for a wireless microphone to access remotely hosted applications
CN113808592A (zh) 通话录音的转写方法及装置、电子设备和存储介质
US20200395020A1 (en) Systems, methods, and apparatus for real-time dictation and transcription with multiple remote endpoints
JP2016024379A (ja) 情報処理装置、その制御方法及びプログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant