CN105518657B - 信息处理设备、信息处理方法及计算机可读记录介质 - Google Patents

信息处理设备、信息处理方法及计算机可读记录介质 Download PDF

Info

Publication number
CN105518657B
CN105518657B CN201480046509.8A CN201480046509A CN105518657B CN 105518657 B CN105518657 B CN 105518657B CN 201480046509 A CN201480046509 A CN 201480046509A CN 105518657 B CN105518657 B CN 105518657B
Authority
CN
China
Prior art keywords
text
user
unit
information processing
text string
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201480046509.8A
Other languages
English (en)
Other versions
CN105518657A (zh
Inventor
河野真一
泽井邦仁
高桥慧
西条信广
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Publication of CN105518657A publication Critical patent/CN105518657A/zh
Application granted granted Critical
Publication of CN105518657B publication Critical patent/CN105518657B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • G06F40/129Handling non-Latin characters, e.g. kana-to-kanji conversion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/232Orthographic correction, e.g. spell checking or vowelisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • User Interface Of Digital Computer (AREA)
  • Document Processing Apparatus (AREA)

Abstract

【问题】提供让使用者能够容易地对输入文本串进行编辑的信息处理设备、信息处理方法及程序。【解决方案】根据本发明的信息处理设备设置有:文本分割单元,该文本分割单元用于将输入文本串分割成多个第一文本部;文本指定单元,该文本指定单元用于基于使用者的输入在显示文本串的显示画面上移动控制点的移动方向的操作,来指定多个第一文本部中的由使用者所选择的一个第一文本部;以及文本编辑单元,该文本编辑单元用于基于由使用者输入的输入信息对所指定的第一文本部进行编辑。

Description

信息处理设备、信息处理方法及计算机可读记录介质
技术领域
本公开内容涉及信息处理设备、信息处理方法及程序。
背景技术
近年来,开发了用于让使用者能够在如移动电话、个人计算机(PC)等信息装置上输入或修改文本的各种技术。例如,开发了用于识别使用者的语音和使用者在触摸屏上的触摸操作以使使用者能够输入文本的技术。
例如,专利文献1描述了下述技术:当使用者输入修改后的字符串时,在已输入的字符串中搜索对应字符串,即与所修改的字符串对应的字符串,并且响应于使用者的输入而将对应字符串替换为修改后的字符串。文献列表
专利文献
专利文献1:JP H5-143593A
发明内容
技术问题
然而,在上述技术中,使用者花费大量的时间和精力来编辑文本串。例如,在上述技术中,为了从文本串中指定待修改的文本的位置,使用者必须逐字符地移动光标,并指出待修改的文本的首字符。因此,使用者花费大量的精力来完成这样的任务。
考虑到上述问题,本公开内容提出了一种能够让使用者能够容易地对所输入的文本串进行编辑的新颖和改进的信息处理设备、信息处理方法及程序。
问题的解决方案
为了解决问题,根据本公开内容的一方面,提供了一种信息处理设备,包括:文本分割单元,该文本分割单元被配置为将输入文本串分割成多个第一文本部;文本指定单元,该文本指定单元被配置为基于使用者的输入在显示文本串的显示画面上移动指示位置的移动方向的操作,来指定通过分割而获得的多个第一文本部中的待由使用者选择的第一文本部;以及文本编辑单元,该文本编辑单元被配置为基于由使用者输入的输入信息对所指定的第一文本部进行编辑。
为了解决问题,根据本公开内容的另一方面,提供了一种信息处理方法,包括:将输入文本串分割成多个第一文本部;基于使用者的输入在显示文本串的显示画面上移动指示位置的移动方向的操作,来指定通过分割而获得的多个第一文本部中的待由使用者选择的第一文本部;以及由处理器基于由使用者输入的输入信息对所指定的第一文本部进行编辑。
为了解决问题,根据本公开内容的另一方面,提供了一种程序,该程序用于使计算机用作:文本分割单元,该文本分割单元被配置为将输入文本串分割成多个第一文本部;文本指定单元,该文本指定单元被配置为基于使用者的输入在显示文本串的显示画面上移动指示位置的移动方向的操作,来指定通过分割而获得的多个第一文本部中的待由使用者选择的第一文本部;以及文本编辑单元,该文本编辑单元被配置为基于由使用者输入的输入信息对所指定的第一文本部进行编辑。
本发明的有益效果
如上所述,根据本公开内容,使用者能够容易地对输入文本串进行编辑。应注意,不一定限于上述效果,并且连同或替代该效果,可以体现本说明书中描述的任何效果。
附图说明
[图1]图1是示出输入文本串的示例的示意图。
[图2]图2是示出输入文本串的示例的示意图。
[图3]图3是示出根据本公开内容的第一实施方式的信息处理系统的基本配置的示意图。
[图4]图4是示出根据第一实施方式的信息处理设备10的硬件配置的示意图。
[图5]图5是示出根据第一实施方式的控制器20的外观的示例的示意图。
[图6]图6是示出根据第一实施方式的控制器20的外观的示例的示意图。
[图7]图7是示出根据第一实施方式的控制器20的配置的功能框图。
[图8]图8是示出根据第一实施方式的信息处理设备10的配置的功能框图。
[图9]图9是示出根据第一实施方式对选定文本候选进行指定的示例的示意图。
[图10]图10是示出根据第一实施方式由使用的操作来移动光标的示例的示意图。
[图11]图11是示出根据第一实施方式由使用者的操作来移动光标的示例的示意图。
[图12]图12是示出根据第一实施方式修改选定文本的示例的示意图。
[图13]图13是示出根据第一实施方式删除选定文本的示例的示意图。
[图14]图14是示出根据第一实施方式简化选定文本的示例的示意图。
[图15]图15是示出根据第一实施方式添加选定文本的示例的示意图。
[图16]图16是示出根据第一实施方式添加选定文本的示例的示意图。
[图17]图17是示出根据第一实施方式的第一操作示例的流程图。
[图18]图18是示出第一操作示例中的“选择/修改处理”的操作的流程图。
[图19]图19是示出第一操作示例中的“删除/改变形式处理”的操作的流程图。
[图20]图20是示出根据第一实施方式的第二操作示例的一部分的流程图。
[图21]图21是示出根据第一实施方式的第二操作示例的一部分的流程图。
[图22]图22是示出第二操作示例中的“改变形式/添加处理”的操作的流程图。
[图23]图23是示出第二操作示例中的“修改/添加处理”的操作的流程图。
[图24]图24是示出根据本公开内容的第二实施方式的信息处理系统的基本配置的示意图。
[图25]图25是示出根据第二实施方式的电视机60的配置的功能框图。
[图26]图26是示出根据第二实施方式的用于确定视线的方向的方法的示例的示意图。
[图27]图27是示出根据第二实施方式的操作示例的一部分的流程图。
[图28]图28是示出根据第二实施方式的操作示例的一部分的流程图。
具体实施方式
在下文中,将参照附图对本公开内容的一个或更多个优选实施方式进行详细描述。在本说明书和附图中,具有基本上相同功能和结构的元件用相同的附图标记来表示,并省略重复的说明。
另外,在本说明书和附图中,具有基本上相同功能性配置的元件可以通过在相同的附图标记的末尾添加不同的字母来彼此区分。例如,在必要时将具有基本上相同功能性配置的多个元件彼此区分,如显示画面40a和显示画面40b。注意,当具有基本上相同功能性配置的多个元件不必特别地彼此区分时,这些元件仅用相同的附图标记来表示。例如,当显示画面40a和显示画面40b不必特别地彼此区分时,这些显示画面被简称为显示画面40。
另外,“对实施方式的描述”将按以下项目顺序来描述。
1.背景
2.实施方式的详细描述
2-1.第一实施方式
2-2.第二实施方式
3.变化实施例
《1.背景》
本公开内容可以各种形式来实现,如通过“2.实施方式的详细描述”中的示例的方式所详细描述的。首先,为了清楚地指出本公开内容的特征,将对本公开内容的信息处理设备的开发背景进行描述。
图1示出了由使用者输入的文本串50被显示在显示画面40上的示例(文本串50a)。文本串50a是已完全按照使用者的意图输入的示例。
此外,图2示出了下述示例,在该示例中,当使用者试图用自己的声音来输入图1中示出的文本串50a时,由于例如语音识别等过程中的识别错误而实际上输入了与使用者意图不同的文本串50b,并且文本串50b被显示在显示画面40上。如图2所示,在文本串50b中,例如,单词“drove(“drive”的过去式)”是“drive(驾驶)”的错误输入,单词“50”是“15”的笔误,并且错误地输入了不必要的单词“umm”。
如上所述,当使用者使用语音识别功能来输入文本时,由于例如语音识别等过程中的识别错误,因此可能会输入与使用者意图不同的文本。可替换地,即使当按照使用者的意图输入文本时,使用者仍然可能期望在输入后修改文本串的一部分。
当考虑到上述环境时,制造了本公开内容的信息处理设备。根据本公开内容的信息处理设备让使用者能够容易地对输入的文本串进行编辑。现在将详细描述本公开内容的实施方式。
《2.实施方式的详细描述》
<2-1.第一实施方式>
(2-1-1.基本配置)
接下来,将描述第一实施方式。首先,将参照图3来描述根据第一实施方式的信息处理系统的基本配置。如图3所示,根据第一实施方式的信息处理系统包括信息处理设备10、控制器20和显示设备30。
(2-1-1-1.信息处理设备10)
信息处理设备10是根据本公开内容的信息处理设备的示例。可以将软件安装到信息处理设备10,该软件用于在例如备忘录、电子邮件、博客等应用程序或网络服务的使用期间对文本进行编辑。
另外,信息处理设备10可以具有语音识别功能,该语音由例如后面将描述的被包括在控制器20中的麦克风202等拾取。此外,信息处理设备10可以将所识别的语音转换为文本串,并且之后将该文本串显示在显示画面40上。
信息处理设备10可以是例如移动电话如智能电话等、PC、服务器装置、平板终端、个人数字助理(PDA)、电视机、数码相机等。
应注意,信息处理设备10具有例如如图4所示的硬件配置。如图4所示,信息处理设备10包括中央处理单元(CPU)150、只读存储器(ROM)152、随机存取存储器(RAM)154、内部总线156、接口158、输入设备160、输出设备162、存储设备164和通信设备166。
-CPU 150-
包括例如各种处理电路等的CPU 150被用作对整个信息处理设备10进行控制的控制单元100。此外,CPU 150在信息处理设备10中提供例如后述的语音识别单元102、文本分割单元104、文本指定单元106、文本编辑单元108、显示控制单元110和文本添加单元112的功能。
-ROM 152-
ROM 152存储例如由CPU 150使用的如程序、计算参数等控制数据。
-RAM 154-
在RAM 154临时存储例如由CPU 150执行的程序。
-接口158-
接口158将输入设备160、输出设备162、存储设备164和通信设备166连接至内部总线156。例如、输入设备160通过接口158和内部总线156与CPU 150等交换数据。
-输入设备160-
输入设备160包括:用于让使用者能够输入信息的输入装置,如触摸屏、按钮、麦克风、开关等;用于基于使用者的输入来生成输入信号并且将该输入信号输出至CPU 150等的输入控制电路。
-输出设备162-
输出设备162包括显示设备如液晶显示(LCD)设备、有机发光二极管(OLED)设备、灯等。显示设备显示捕获的图像、生成的图像等。
此外,输出设备162包括如扬声器等语音输出设备。语音输出设备将语音数据等转换为语音,并输出该语音。
-存储设备164-
存储设备164是存储例如各项数据以及由CPU 150执行的程序的数据存储设备。存储设备164包括例如存储介质、用于将数据记录到存储介质的记录设备、用于从存储介质读取数据的读取设备、用于删除记录在存储介质中的数据的删除设备等。
-通信设备166-
通信设备166是包括例如用于连接到通信网络如公共网络、因特网等的通信设备的通信接口。另外,通信设备166可以是无线LAN兼容通信设备、长期演进(LTE)兼容通信设备或者执行有线通信的有线通信设备。通信设备166可以被用作例如后述的通信单元120。
应注意,信息处理设备10的硬件配置不限于上述配置。例如,信息处理设备10可以不包括输入设备160、输出设备162或存储设备164中的至少一个设备。
(2-1-1-2.控制器20)
-基本配置-
控制器20是由使用者用来编辑显示画面40上显示的文本串50的设备。图5是示出控制器20的外观的示例(控制器20a)的示意图。如图5所示,控制器20a包括例如麦克风202、方向键212、确定键214、语音输入键216和返回键218。文中,麦克风202是用于拾取语音的设备。此外,方向键212是由使用者用来移动显示画面40上显示的指示位置的按键。应注意,指示位置是用于示出由使用者指定的位置或范围的显示,例如显示画面40上显示的光标等。在后面的描述中,将主要描述指示位置是显示画面40上显示的光标的位置的示例。
另外,确定键214是例如由使用者用来确定选择的按键。另外,语音输入键216是由使用者用来将自己的语音输入到麦克风202中的按键。另外,返回键218由使用者用来进行输入以切换操作画面、操作模式等的按键,例如从文本编辑画面返回到显示在显示画面40上的菜单画面等。
虽然图5示出了方向键212是用于选择左、右方向的按键的示例,但是本公开内容不限于该示例。例如,方向键212还可以包括用于选择向上和向下方向的按键,或者可以是圆形按键。
图6是示出控制器20的外观的另一示例(控制器20b)的示意图。如图6所示,控制器20b与如图5所示的控制器20a的不同之处在于:控制器20b包括旋转键220而不是方向键212和确定键214。旋转键220是具有方向键212和确定键214二者的功能的按键。如图6所示,旋转键220被使用者朝控制器20b的内部按下,由此生成指示由使用者做出了确定操作的信号。另外,旋转键220被使用者在例如向上和向下的方向上旋转,由此生成指示用于移动显示画面40上显示的光标的位置的操作的信号。
-配置-
此外,图7是示出控制器20的内部配置的功能框图。如图7所示,控制器20具有通信单元200、语音输入单元202和操作单元210。
通信单元200使用控制器20中包括的通信设备(未示出)通过符合如蓝牙等标准的无线通信向位于能够与控制器20通信的范围内的装置发送信息并且从该装置接收信息。例如,通信单元200向信息处理设备10发送由后述的操作单元210接收到的对光标的移动方向的选择、由语音输入单元202接收到的语音数据等。
语音输入单元202包括麦克风202等。例如,当语音输入键216被使用者按下时,语音输入单元202拾取外部语音。使用者可以使用语音输入单元202将自己的语音输入到控制器20中。
操作单元210包括例如方向键212、确定键214、语音输入键216、返回键218、旋转键220等。操作单元210接收用于选择显示画面40上的光标的移动方向的使用者输入、用于决定进行显示在显示画面40上的内容的使用者输入等。
(2-1-1-3.显示设备30)
显示设备30是用于显示显示画面40的显示器。显示设备30具有例如液晶显示器或OLED显示器。虽然图3示出了显示设备30是具有眼镜型显示器的显示设备的示例,但是本公开内容不限于该示例。例如,显示设备30可以是头戴式显示器(HMD)、电视机、手表型计算机、游戏机等。
应注意,根据第一实施方式的信息处理系统不限于上述配置。例如,当输出装置162具有显示设备30的功能时,信息处理设备10和显示设备30可以被集成在一起。
(2-1-2.配置)
前面描述了根据第一实施方式的信息处理系统的基本配置。接下来,将详细描述根据第一实施方式的信息处理设备10的配置。图8是示出信息处理设备10的配置的功能框图。如图8所示,信息处理设备10具有控制单元100和通信单元120。
(2-1-2-1.控制单元100)
控制单元100使用包括在信息处理设备10中的包括CPU 150、RAM154等的硬件配置来控制信息处理设备10的所有操作。此外,如图8所示,控制单元100包括语音识别单元102、文本分割单元104、文本指定单元106、文本编辑单元108、显示控制单元110和文本添加单元112。
(2-1-2-2.语音识别单元102)
语音识别单元102使用例如隐藏式马可夫模型(hidden Markov model)等语音识别技术从控制器20识别由后述的通信单元120接收的语音数据。此外,语音识别单元102将所识别的语音转换为文本数据。
(2-1-2-3.文本分割单元104)
文本分割单元104将由使用者输入的文本串分割成多个选定文本候选。文中,文本串是例如由语音识别单元102识别的文本数据。可替换地,文本串可以是由使用者使用例如键盘连续键入的字符串、由手写识别功能识别的字符串等。
选定文本候选是本公开内容中的第一文本部的示例。例如,当文本串使用单词被分隔开的语言如英文、法文、德文等书写时,选定文本候选可以是单个单词单元或多个单词的组合。此外,当文本串使用单词不被分隔开的语言如日文、中文、韩文等书写时,选定文本候选可以是通过对文本串执行语素分析而获得的语素单元,或者可以是独立词和附属语的组合(短语)单元。可替换地,选定文本候选可以是具有用于分割的预定数目的字符的字符串单元,或者可以是使用语音来输入的句子单元。
此处将参照图9来更详细地描述上述文本分割单元104的功能。图9是示出由文本分割单元104将图2中示出的文本串50分割成多个选定文本候选的示例的示意图。如图9所示,文本分割单元104能够使用文本串50中包含的空格作为分隔符将文本串50分割成多个选定文本候选,例如,第一选定文本候选52a为“I”,第二选定文本候选52b为“drove”。
此外,在变化形式中,文本分割单元104能够基于输入的文本串的上下文将文本串分割成多个选定文本候选。例如,文本分割单元104通过参考预先存储的词典数据来计算包含在文本串中的每个单词与前一单词或后一单词连接的可能性,从而将被确定为单个意群的一个或更多个单词的组合分隔成选定文本候选。在图1中示出的文本串50的示例中,文本分割单元104不将第一个句子中的“your(你的)”和“car(汽车)”分隔成不同的选定文本候选,并且可以确定“your car(你的汽车)”是单个选定文本候选。
(2-1-2-4.文本指定单元106)
文本指定单元106根据用于输入在显示画面40上移动光标的位置的移动方向的使用者操作,从通过由文本分割单元104执行的分割而获得的多个选定文本候选中指定待由使用者选择的文本(在下文中也称为“选定文本”)。此处,输入移动方向的操作是例如使用者按下控制器20的方向键212、使用者对旋转键220的操作等。
此处将参照图10或图11来更详细地描述上述功能。图10或图11是示出根据使用者的输入操作而在显示画面40上移动光标42的位置的示例的示意图。例如,当使用者通过例如按下图5中示出的向右键212a来执行一次向右移动操作时,后述的显示控制单元110将光标42的位置从光标42a向右移过一个选定文本候选而到达如图10中间的图中示出的光标42b。在此之后,文本指定单元106将与移动后的光标42b的位置对应的选定文本候选即“I”指定为选定文本。
此外,当使用者再次执行向右移动操作或者继续向右移动操作达至少预定时间段时,显示控制单元110进一步将光标42的位置从光标42b向右移过一个选定文本候选而到达如图10下方的图中示出的光标42c。在此之后,文本指定单元106将与移动后的光标42c的位置对应的选定文本候选即“drove”指定为选定文本。
此外,图11是示出使用者将显示画面40上的光标42的位置向左移动的示例的示意图。如图11中间的图所示,当使用者执行用于将光标位置向左移动的操作时,文本指定单元106将与移动后的光标42b的位置对应的选定文本候选即“jam(堵塞)”指定为选定文本。此外,如图11下方的图所示,当使用者执行用于将光标位置进一步向左移动的操作时,文本指定单元106将与移动后的光标42c的位置对应的选定文本候选即“traffic(交通)”指定为选定文本。
根据这些具体示例,使用者可以通过操作控制器20以对光标的移动方向进行选择来将光标以选定文本候选为单位进行移动,从而指定使用者期望修改的选定文本候选。因此,使用者可以用较少的时间和精力来指定该使用者期望修改的字符串。
(2-1-2-5.文本编辑单元108)
文本编辑单元108基于由使用者输入的输入信息来编辑由文本指定单元106指定的选定文本。
-编辑示例1(通过重写来进行修改)-
例如,当使用者输入修改后的文本时,文本编辑单元108可以在文本串中将由文本指定单元106指定的选定文本替换为修改后的文本。此处,修改后的文本是本公开内容中的第二文本的示例。应注意,修改后的文本可以是例如由语音识别单元102通过识别由使用者输入到控制器20的语音输入单元202中的语音而获得的文本数据。可替换地,修改后的文本也可以是由使用者通过键盘、软键盘等输入的字符串。
此处将参照图12来更详细地描述上述文本编辑单元108的功能。图12是示出根据使用者的输入操作将显示画面40上显示的文本串中包含的选定文本替换为修改后的文本的示例的示意图。如图12所示,例如,当使用者将自己的语音输入到控制器20中来输入修改后的文本(“15”)时,文本编辑单元108将与光标42的位置对应的选定文本即“50”替换为“15”。
根据本编辑示例1,在指定使用者期望修改的选定文本候选之后,使用者可以通过例如将自己的语音输入到语音输入单元202中来将选定文本候选修改成期望的字符串(修改后的文本)。因此,使用者可以容易地修改文本串。
-编辑示例2(删除)-
此外,在编辑示例2中,当使用者输入用于删除文本的删除指令信息时,文本编辑单元108可以从文本串中删除由文本指定单元106指定的选定文本。
此处将参照图13来更详细地描述上述功能。图13是示出根据使用者的输入操作来删除显示画面40上显示的文本串中包含的选定文本的示例的示意图。如图13中间的图所示,当光标移动到使用者期望删除的选定文本候选的位置并且对控制器20的操作单元210执行确定操作时,首先,显示控制单元110使显示画面40显示功能选择图像44。功能选择图像44是用于使使用者对选定文本的编辑效果进行选择的图像。当使用者选择功能选择图像44中的“删除”功能时,文本编辑单元108从如图13下方的图所示的文本串中删除与光标42b的位置对应的选定文本即“umm”。
应注意,如图13中间的图所示,在功能选择图像44中的“删除”功能被确认之前,光标位于显示“删除”上,显示控制单元110可以使显示画面40显示用于强调选定文本的显示,例如在与光标42b的位置对应的选定文本(“umm”)上显示水平线等。根据这个显示示例,在确认“删除”功能之前,使用者可以肯定地意识到,如果使用者执行确定操作,则选定文本将被删除。因此,可以显著减少人为错误,例如使用者对选定文本的误删除。
-编辑示例3(简化)-
此外,作为编辑示例3,例如,当文本串用英文书写并且使用者输入用于将单词转换为不定式形式的转换指令信息时,文本编辑单元108可以将由文本指定单元106指定的选定文本替换为选定文本的简化版本的文本。此处,选定文本的简化意味着例如当选定文本为动词时,将选定文本从过去式或过去分词形式转换为例如现在式。可替换地,选定文本的简化意味着例如当选定的文本为名词时,将选定文本从复数形式转换为单数形式。
此处将参照图14来更详细地描述编辑示例3。图14是示出根据使用者的输入操作将显示画面40上显示的文本串中包含的选定文本转换为选定文本的不定式形式的示例的示意图。当使用者选择如图14中间的图所示的显示画面40上显示的功能选择图像44中的“改变形式”功能时,如图14下方的图所示,文本编辑单元108将与光标42的位置对应的选定文本候选即“drove”替换为“drove”的不定式形式即“drive”。
应注意,在变化实施方式中,当文本串用日文书写并且使用者输入用于将日文汉字转换为平假名的转换指令信息时,文本编辑单元108可以将由文本指定单元106指定的选定文本替换为通过将选定文本转换为平假名而获得的文本。
一般地,在例如同音词——即一个词听起来与另一个词一样——等情况下,即使使用者试图使用不同的发音再次输入这样的词,语音识别技术仍然难以按照使用者的意图来修改文本。同时,根据编辑示例3,有利地将所选文本转换为更简单的文本,因此,可以将所选文本替换为基本上表达使用者意图的文本。例如,当使用者试图使用自己的声音来输入单词“began(“begin”的过去式)”并且单词“began”被语音识别功能识别成“begun(“begin”的过去分词)”时,文本编辑单元108将“begun”转换为“begin”(开始),即“begun”的不定式形式。因此,文本可以被替换为基本上表达使用者意图的文本。
(2-1-2-6.显示控制单元110)
显示控制单元110使显示画面40显示各种显示图像、由使用者输入的文本串等。例如,如图15所示,当光标位于文本串的尾端并且执行预定操作如确定操作等时,显示控制单元110使显示画面40显示符号选择图像。注意,符号选择图像是用于让使用者能够选择一个或更多个符号的图像,符号选择图像是本公开内容中的选择图像的示例。
(2-1-2-7.文本添加单元112)
文本添加单元112根据使用者的输入操作将第二文本串添加到文本串的尾端。此处,第二文本串是例如由使用者在显示画面40中显示的符号选择图像中选择的符号。可替换地,第二文本串可以是由语音识别单元102识别的文本数据,或者可以是通过键盘、软键盘等输入的字符串。
此处将参照图15或图16来更详细地描述上述功能。图15是示出根据使用者的输入操作将元件添加到显示画面40上显示的文本串的尾端的示例的示意图。如图15中间的图所示,当光标位于文本串的尾端并且执行对控制器20的操作单元210的确定操作时,首先,显示控制单元110使显示画面40显示符号选择图像。之后,当由使用者选择符号选择图像中的任何符号时,文本添加单元112将所选择的符号添加到文本串的尾端。应注意,图15所示的示例示出了“!”被使用者选择然后被添加到文本串的尾端的示例。
根据该添加示例,即使在字符(或字符串)例如“!”或“?”不容易被语音识别功能识别的情况下,使用者仍然可以从符号选择图像中选择期望的字符,从而容易地将所选择的字符添加到文本串。另外,在肯定句和疑问句的语音可能具有相同文本的语言如日语的情况下,如果使用者将“?”添加到句子的尾端,则读者可以确定地了解这句话是疑问句,这是一个显著的优势。
图16是示出基于使用者的语音输入将文本数据添加到显示画面40上显示的文本串的尾端的示例的示意图。如图16所示,当光标位于文本串的尾端并且使用者输入附加的语音输入时,首先,语音识别单元102识别附加的输入语音。在此之后,如图16下方的图所示,文本添加单元112将由语音识别单元102识别的文本串添加到显示画面40上显示的文本串的尾端。注意,图16所示的示例示出了使用者使用自己的声音来输入文本串“I’ll textyou as soon as I get there(我一到那里就给你发信息)”然后输入的文本串被添加到显示画面40上显示的文本串的尾端的示例。
(2-1-2-7.通信单元120)
通信单元120向可以经由例如无线通信与信息处理设备10进行通信的各种装置发送信息并且从这些装置接收信息。例如,通信单元120从控制器20接收下述信息,该信息指示由使用者输入的对光标的移动方向的选择、输入到语音输入单元202的语音数据等。
应注意,根据第一实施方式的信息处理设备10的配置不限于上述配置。例如,通信单元120可以不包括在信息处理设备10中,并且可以包括在其他装置中。
(2-1-3.操作)
在前述中,描述了根据第一实施方式的配置。接下来,将描述根据第一实施方式的操作。文中,将描述两种操作示例,即,“操作示例1”和“操作示例2”。应注意,“操作示例1”和“操作示例2”两者都是在其中使用者使用语音识别来输入文本并且修改已识别文本的情况下所执行的操作的示例。
(2-1-3-1.操作示例1)
-一般操作-
首先,将描述操作示例1。图17是示出根据操作示例1的一般操作的流程图。如图17所示,首先,使用者按下控制器20的语音输入键216(S101)。
接下来,使用者将自己的语音输入到语音输入单元202中。在此之后,通信单元200将输入语音数据传输至信息处理设备10(S102)。
接下来,信息处理设备10的语音识别单元102使用语音识别技术对从控制器20接收的语音数据进行识别。在此之后,文本分割单元104将由语音识别单元102识别的文本串分割成多个选定文本候选(S103)。
接下来,显示控制单元110使通信单元120将控制信息传输至显示设备30,所述控制信息用于使显示画面40显示由语音识别单元102识别的文本串。在此之后,显示设备30基于从信息处理设备10接收的控制信息在显示画面40上显示文本串(S104)。
接下来,控制单元100监测由通信单元120所执行的接收的状态,以及在此之后,确定使用者是否已重新按下语音输入键216(S105)。如果确定已按下语音输入键216(S105:是),那么信息处理设备10再次执行S102的操作。
同时,当确定未按下语音输入键216时(S105:否),控制单元100确定使用者是否已执行水平移动操作,例如,按下方向键212等(S106)。如果确定已执行水平移动操作(S106:是),那么信息处理设备10执行下面描述的“选择/修改处理”(S107)。在此之后,信息处理设备10再次执行S106的操作。
同时,如果确定未执行水平移动操作(S106:否),那么控制单元100确定使用者是否已按下确定键214(S108)。如果确定已按下确定键214(S108:是),那么文本编辑单元108确认由使用者输入文本串(S109)。在此之后,信息处理设备10结束处理。
同时,如果确定未按下确定键214(S108:否),那么控制单元100再次执行S106的操作。
-选择/修改处理-
接下来,将参照图18描述S107中的“选择/修改处理”的操作。如图18所示,首先,信息处理设备10的显示控制单元110基于由使用者输入的对光标的移动方向的选择将光标移动到一个选定文本候选之上(S111)。
接下来,控制单元100监测由通信单元120所执行的接收的状态,并且确定使用者是否已再次执行水平移动操作(S112)。如果确定已再次执行水平移动操作(S112:是),那么信息处理设备10再次执行S111的操作。
同时,如果确定未执行水平移动操作(S112:否),那么控制单元100确定使用者是否已重新按下语音输入键216(S113)。
如果确定已重新按下语音输入键216(S113:是),那么显示控制单元110使显示画面40显示用于提示使用者输入自己的语音的消息。在此之后,使用者将自己的语音输入到语音输入单元202中(S114)。
接下来,语音识别单元102使用语音识别技术对从控制器20接收的语音数据进行识别(S115)。
接下来,控制单元100确定光标是否位于文本串的尾端(S116)。如果光标位于文本串的尾端(S116:是),那么文本添加单元112将由语音识别单元102识别的文本数据作为第二文本串添加到文本串的尾端(S117)。同时,如果光标位于除了文本串的尾端以外的其他位置(S116:否),那么文本编辑单元108确定由语音识别单元102识别的文本数据是修改文本,并且然后在文本串中将与光标的位置对应的选定文本候选替换为修改文本(S118)。
如果在S113中确定未按下语音输入键216(S113:否),那么控制单元100确定使用者是否已重新按下确定键214(S119)。如果确定未按下确定键214(S119:否),那么控制单元100再次执行S112的操作。
同时,如果确定已按下确定键214(S119:是),那么控制单元100确定光标是否位于文本串的尾端(S120)。
如果光标位于文本串的尾端(S120:是),首先,显示控制单元110使显示画面40显示符号选择图像(S121)。接下来,使用者从符号选择图像中选择使用者期望添加到光标的位置即文本串的尾端(S122)的符号。在此之后,文本添加单元112将在S122中所选择的符号添加到文本串的尾端(S123)。
同时,如果光标位于除了文本串的尾端以外的其他位置(S120:否),那么信息处理设备10执行后述的“删除/改变形式处理”的操作(S124)。
-删除/改变形式处理-
接下来,将参照图19详细描述S124中的“删除/改变形式处理”的操作。如图19所示,首先,信息处理设备10的显示控制单元110使显示画面40显示功能选择图像(S131)。
如果使用者已选择功能选择图像中的“删除”功能(S132:是),那么文本编辑单元108从文本串中删除与光标的位置对应的选定文本候选(S133)。
同时,如果使用者已选择功能选择图像中的“改变形式”功能(S132:否,S134:是),那么文本编辑单元108简化与光标的位置对应的选定文本候选,例如,将选定文本候选替换为通过将选定文本候选转换为不定式形式而获得的文本,等等(S135)。
如果使用者没有选择功能选择图像中的“删除”功能和“改变形式”(S134:否),那么信息处理设备10结束“删除/改变形式处理”的操作。
在上述中,描述了操作示例1。根据操作示例1,功能选择图像显示在“删除/改变形式处理”中,并且因此,使用者可以在功能选择图像中明确地选择文本串的编辑效果,例如,删除、简化等,并且可以防止选择错误的编辑效果。
(2-1-3-2.操作示例2)
-一般操作-
接下来,将描述操作示例2。图20是示出根据操作示例2的一般操作的一部分的流程图。应注意,图20中所示的S201-S204的操作类似于操作示例1中的S101-S104的操作,并且因此,这里将不再进行描述。
接下来,将参照图21描述S204下面的操作。如图21所示,首先,信息处理设备10的控制单元100监测由通信单元120所执行的接收的状态,并且确定使用者是否已执行水平移动操作(S205)。如果确定已执行水平移动操作(S205:是),那么显示控制单元110基于由使用者输入的对方向的选择将光标移动到一个选定文本候选之上(S206)。因此,信息处理设备10再次执行S205的操作。
同时,如果确定未执行水平移动操作(S205:否),那么控制单元100确定使用者是否已长敲击确定键214(S207)。如果确定键214确定使用者已长敲击确定键214(S207:是),那么信息处理设备10执行后述的“改变形式/添加处理”的操作(S208)。在此之后,信息处理设备10再次执行S205的操作。
同时,如果确定已(正常)敲击确定键214(S207:否,S209:是),那么控制单元100确定光标是否位于文本串的尾端(S210)。
如果光标位于文本串的尾端(S210:是),那么文本编辑单元108确认由使用者输入文本串(S211)。在此之后,信息处理设备10结束处理。
同时,如果光标位于除了文本串的尾端以外的其他位置(S210:否),那么文本编辑单元108从文本串中删除与光标的位置对应的选定文本候选(S212)。在此之后,信息处理设备10再次执行S205的操作。
如果在S209中确定未敲击确定键214(S209:否),那么控制单元100确定使用者是否已按下语音输入键216(S213)。如果确定已按下语音输入键216(S213:是),那么信息处理设备10执行后述的“修改/添加处理”的操作(S214)。同时,如果确定未按下语音输入键216(S213:否),那么信息处理设备10再次执行S205的操作。
-改变形式/添加处理-
接下来,将参照图22详细描述S208中的“改变形式/添加处理”的操作。如图22所示,首先,信息处理设备10的控制单元100确定光标是否位于文本串的尾端(S221)。如果光标位于文本串的尾端(S221:是),那么信息处理设备10执行S222-S224的操作。应注意,S222-S224的操作类似于操作示例1中的S121-S123的操作。
同时,如果光标位于除了文本串的尾端以外的其他位置(S221:否),那么如在操作示例1中的S135那样,文本编辑单元108简化与光标的位置对应的选定文本候选(S225)。
修改/添加处理-
接下来,将参照图23描述S214中的“修改/添加处理”的操作。应注意,图23中所示的S231-S235的操作类似于操作示例1中的S114-S118的操作,并且因此,这里将不再进行描述。
在上述中,描述了操作示例2。在操作示例2中,使用者可以通过长敲击或敲击确定键214来选择文本串的编辑效果。因此,使用者可以通过执行更直观的操作(与操作示例1相比)来编辑文本串。
此外,在操作示例2中,使用者将处理切换至“改变形式/添加处理”以用于通过重写或简化文本串来进行修改,这是由长敲击确定键214而触发的。因此,有利地,使用者可以更容易地理解在编辑期间处理处于什么状态。
(2-1-4.效果)
因此,如参照例如图8、图17至图23等所描述的,根据第一实施方式中的信息处理设备10首先将输入文本串分割成多个选定文本候选。在此之后,信息处理设备10根据使用者的输入移动方向以在显示画面上移动光标的操作来指定通过分割而获得的多个文本候选中的待由使用者选择的选定文本候选动。在此之后,信息处理设备10基于由使用者输入的输入信息对由此指定的选定文本候选进行编辑。因此,使用者能够容易地对输入文本串进行编辑。
例如,使用者可以通过对控制器20进行操作逐选定文本候选地即逐字符串地移动光标,从而对光标的移动方向进行选择,其中字符串是语法或语义单元。因此,使用者可以采用更少的时间和精力来指定使用者期望进行修改的文本的位置。此外,在对使用者期望修改的文本进行选择之后,例如,使用者可以通过按下控制器20的语音输入键216以及然后将使用者的语音输入到语音输入单元202中来将选定文本候选重写并且修改为所需的字符串。因此,使用者可以通过简单的操作对要被修改的文本进行编辑。
此外,可以通过简单的设备包括例如仅方向键212、确定键214以及语音输入键216作为操作键来实现控制器20。因此,例如,使用者可以在对使用者应该按下的那个操作键不进行高频脉动的情况下简单地执行所需操作。此外,控制器20可以以小尺寸和低成本进行配置。
<2-2.第二实施方式>
在上述中,描述了第一实施方式。如上所述,在第一实施方式中,例如,使用者可以通过对控制器20进行操作来输入用于对光标的移动方向进行选择的输入、用于确定各种编辑效果的输入等。如上所述,根据第二实施方式,使用者可以在不使用控制器20的情况下以不用手的方式输入这些输入。
(2-2-1.基本配置)
首先,将参照图24描述根据第二实施方式的信息处理系统的基本配置。如图24所示,根据第二实施方式的信息处理系统包括电视机60和摄像头70。
(2-2-1-1.电视机60)
在本公开内容中,电视机60是信息处理设备的示例。电视机60是可以对显示画面40进行显示的设备。此外,如在根据第一实施方式的信息处理设备10中那样,用于编辑文本的软件可以安装在电视机60中。此外,电视机60可以具有使用包括在电视机60中的输入设备160来拾取语音的功能,以及然后识别被这样拾取的语音。
应注意,电视机60具有通常与根据图4中所示的第一实施方式的信息处理设备10的硬件配置类似的硬件配置。应注意,本公开不限于该配置。例如,电视机60可以不包括存储设备164。
(2-2-1-2.摄像头70)
摄像头70具有通过透镜在诸如电荷耦合器件(CCD)、互补金属氧化物半导体(CMOS)等的图像传感器上对外部视频进行成像从而捕获静止图像或运动图像的功能。例如,摄像头70捕获位于透镜前方的物体或使用者的图像。
此外,摄像头70可以经由有线通信或无线通信将所捕获的图像传输至电视机60。
应注意,根据第二实施方式的信息处理系统不限于上述配置。例如,电视机60和摄像头70可以被集成在一起,如摄像头70包括在电视机60中等。
(2-2-2.配置)
在前述中,描述了根据第二实施方式的信息处理系统的基本配置。接下来,将详细描述根据第二实施方式的电视机60的配置。图25是示出电视机60的配置的功能框图。如图25所示,电视机60具有控制单元100、通信单元120、语音输入/输出单元122以及显示单元124。应注意,语音识别单元102、文本分割单元104、文本编辑单元108、显示控制单元110以及文本添加单元112具有与第一实施方式的各相应功能类似的功能。
(2-2-2-1.控制单元100)
根据第二实施方式的控制单元100与第一实施方式的不同之处在于:前者额外具有视线方向确定单元114和目视观察位置计算单元116。应注意,控制单元100的其他功能与第一实施方式的功能基本类似。
(2-2-2-2.文本指定单元106)
根据第二实施方式的文本指定单元106基于由视线方向确定单元114所确定的使用者的视线方向的移动从通过由文本分割单元104进行分割而获得的多个选定文本候选中指定选定文本。例如,文本指定单元106指定位于显示画面40上的由使用者目视观察并且由后述的目视观察位置计算单元116所计算的位置处的选定文本候选作为选定文本。
(2-2-2-3.视线方向确定单元114)
-A.确定使用者眼睛的位置-
视线方向确定单元114可以基于由摄像头70所捕获的图像来确定使用者眼睛的位置。例如,视线方向确定单元114首先通过从由摄像头70所捕获的图像中提取特征如例如一只或两只眼睛、鼻子或轮廓来检测使用者的面部。在此之后,视线方向确定单元114基于例如被这样检测到的使用者眼睛之间的距离、使用者的面部的大小等计算从摄像头70到使用者眼睛的相对位置。
-B.确定使用者的视线方向-
此外,视线方向确定单元114可以基于由摄像头70所捕获的图像确定使用者的视线方向。例如,视线方向确定单元114相对于从由摄像头70所捕获的图像中检测到的使用者眼睛的图像通过执行图案匹配来确定使用者的视线方向。
应注意,例如,作为特定确定技术,下面的技术是适用的。首先,某个图像处理设备用于使用所捕获的多个人的与自己的视线方向有关的整个眼睛的图像来执行机器学习,从而创建用于图案匹配的词典数据。在此之后,视线方向确定单元114对从由摄像头70所捕获的图像中检测到的使用者眼睛相关的特征量与上述词典数据进行比较以确定使用者的视线方向。应注意,上述图像处理设备可以是电视机60或其他设备。
(2-2-2-4.目视观察位置计算单元116)
目视观察位置计算单元116基于使用者眼睛的位置和由视线方向确定单元114确定的使用者的视线方向来计算使用者在显示画面40上的目视观察的位置。文中,目视观察位置是使用者在显示画面40上观看的位置,或者是观看位置的附近区域,例如,图26中所示的坐标点(a,b)的位置。
例如,如图26所示,目视观察位置计算单元116计算从使用者眼睛的位置(x,y,z)沿使用者的视线方向V(vx,vy,vz)延伸的射线与显示画面40之间的交点的位置,其被限定为目视观察位置。
(2-2-2-5.通信单元120)
根据第二实施方式的通信单元120从可以与电视机60进行通信的各种装置接收信息以及向可以与电视机60进行通信的各种装置发送信息。例如,通信单元120从摄像头70接收由摄像头70所捕获的图像。
(2-2-2-6.语音输入/输出单元122)
语音输入/输出单元122包括语音输入设备如麦克风等,以及语音输出设备如扬声器等。例如,语音输入/输出单元122拾取外部语音或者将由电视机60生成的语音数据转换为语音并且输出该语音。
(2-2-2-7.显示单元124)
例如,显示单元124在显示控制单元110的控制下在显示画面40上显示由使用者输入的文本串。
应注意,根据第二实施方式的电视机60的配置不限于上述配置。例如,通信单元120可以不包括在电视机60中,而可以包括在其他装置中。此外,当电视机60和摄像头70被集成在一起时,电视机60可以不包括通信单元120。
(2-2-3.操作)
在前述中,描述了根据第二实施方式的配置。接下来,将描述根据第二实施方式的操作。应注意,文中,作为示例,将描述与根据第一实施方式的“操作示例2”对应的操作示例。此外,在下述描述中,假设其中“麦克风图标”即具有麦克风形状的图标显示在显示画面40上的预定位置如例如左下部上的示例。
图27是示出根据第二实施方式的一般操作的一部分的流程图。如图27所示,首先,电视机60的视线方向确定单元114基于由摄像头70所捕获的图像来确定使用者眼睛的位置和使用者的视线方向。在此之后,目视观察位置计算单元116基于使用者眼睛的位置和由视线方向确定单元114确定的使用者的视线方向来计算使用者在显示画面40上目视观察的位置。在此之后,基于由目视观察位置计算单元116计算的结果,控制单元100监测使用者观看显示在显示画面40上的麦克风图标的操作是否已持续至少预定时间段(S301)。
如果观看麦克风图标的操作已持续至少预定时间段(S301:是),那么显示控制单元110使显示画面40显示用于提示使用者输入自己的语音的消息。在此之后,使用者将自己的语音输入到语音输入/输出单元122中(S302)。
接下来,语音识别单元102使用语音识别技术对由语音输入/输出单元122接收的语音数据进行识别。在此之后,文本分割单元104将由语音识别单元102识别的文本串分割成多个选定文本候选(S303)。
接下来,显示控制单元110使显示画面40显示由语音识别单元102识别的文本串(S304)。
接下来,视线方向确定单元114基于由摄像头70所捕获的图像确定使用者是否已执行闭上自己的眼睛的操作。在此之后,基于由视线方向确定单元114确定的结果,控制单元100监测使用者闭上眼睛的操作是否已持续至少预定时间段(S305)。
接下来,将参照图28描述S305下面的操作。如果闭上眼睛的操作已持续至少预定时间段(S305:是),那么控制单元100确定是否已选择多个选定文本候选中的任一个(S306)。应注意,假设在初始状态,未选择任何选定文本候选。
如果未选择任何选定文本候选(S306:否),那么控制单元100基于由目视观察位置计算单元116计算的结果来监测观看显示画面40上的特定位置的操作是否已持续至少预定时间段(S307)。在此之后,如果观看特定位置的操作已持续至少预定时间段(S307:是),那么文本指定单元106确定已选择与由使用者观看的位置对应的选定文本候选。应注意,如果使用者正在观看文本串的尾端,那么确定已选择文本串的尾端。接下来,显示控制单元110使显示画面40在选定文本候选的位置处或已选择的文本的尾端(下文中还被称为选定位置)处显示光标(S308)。在此之后,电视机60再次执行S306的操作。
如果,在S306中,已选择任何选定文本候选(或文本的尾端)(S306:是),那么控制单元100基于由目视观察位置计算单元116计算的结果监测使用者目视观察的位置的变化(S309,S311,S315)。
-S309-
如果使用者目视观察的位置已经移动至少预定距离(S309:是),那么电视机60执行通常类似于第一实施方式的S208的操作的“改变形式/添加处理”的操作(S310)。在此之后,电视机60再次执行S306的操作。
-S311-
同时,如果使用者观看选定位置的操作已持续至少预定时间段(S311:是),那么控制单元100确定选定位置是否是文本的尾端(S312)。如果选定位置是文本的尾端(S312:是),那么文本编辑单元108确认由使用者输入文本串(S313)。在此之后,信息处理设备10结束处理。
如果选定位置不是文本的尾端(S312:否),那么文本编辑单元108从文本串中移除已被选择的选定文本候选(S314)。在此之后,信息处理设备10再次执行S306的处理。
-S315-
同时,如果观看显示在显示画面40上的麦克风图标的操作已持续至少预定时间段(S315:是),那么电视机60执行“修改/添加处理”的操作,这通常类似于第一实施方式中的S214(S316)。在此之后,电视机60再次执行S306的操作。
(2-2-4.效果)
因此,如参照例如图25、图27、图28等所描述的,根据第二实施方式的电视机60基于使用者的视线方向的移动来指定通过分割输入文本串而获得的多个选定文本候选中的待由使用者选择的选定文本候选。在此之后,电视机60基于使用者的视线移动或使用者的语音对指定的选定文本候选进行编辑。因此,使用者可以在不使用控制器20的情况下以不用手的方式选择和编辑文本。此外,例如,不需要持续持有控制器20,以使得在编辑文本期间降低了关于使用者操作的负荷。
此外,例如,当使用者观看麦克风图标持续至少预定时间段时,电视机60让使用者能够输入自己的语音,或者当使用者观看选定位置持续至少预定时间段时,电视机60让使用者能够删除选定文本。因此,所述处理根据显示画面40上的位置和经过时间进行切换,并且因此,当使用者打算进行操作时,使用者可以仅通过移动自己的视线来进行操作。
《3.变化实施例》
上面参照附图描述了本公开的一个或多个优选实施方式,而本公开不限于上述实施方式。本领域的技术人员可以在所附权利要求的范围内发现各种替换和修改形式,并且应当理解,这些替换和修改方式自然在本公开的技术范围内。
例如,包括在控制器20中的键可以被配置为提供键的功能的软件而不是硬件配置。例如,当根据第一实施方式的信息处理设备10是具有触摸屏的设备如智能电话时,那么如果上述软件还被安装在设备中,那么信息处理设备10和控制器20可以被集成在一起。
此外,根据本公开内容的各实施方式,可以设置用于使硬件如CPU150、ROM 152、RAM 154等执行与信息处理设备10或电视机60的配置的功能类似的功能的计算机程序。此外,还提供了存储计算机程序的记录介质。
此外,本技术也可以配置如下。
(1)一种信息处理设备,包括:
文本分割单元,所述文本分割单元被配置为将输入的文本串分割成多个第一文本部;
文本指定单元,所述文本指定单元被配置为基于使用者的输入在显示所述文本串的显示画面上移动指示位置的移动方向的操作,来指定通过分割而获得的所述多个第一文本部中的待由所述使用者选择的第一文本部;以及
文本编辑单元,所述文本编辑单元被配置为基于由所述使用者输入的输入信息对所指定的第一文本部进行编辑。
(2)根据(1)所述的信息处理设备,
其中,由所述使用者输入的输入信息包含由所述使用者输入的第二文本,并且
其中,当所述使用者输入所述第二文本时,所述文本编辑单元在所述文本串中将由所述文本指定单元指定的第一文本部替换为所述第二文本。
(3)根据(2)所述的信息处理设备,
其中,所述第二文本包含通过对由所述使用者发出的语音执行的语音识别所确定的文本。
(4)根据(1)至(3)中任一项所述的信息处理设备,
其中,由所述使用者输入的输入信息包含用于删除文本的删除指令信息,并且
其中,当所述使用者输入所述删除指令信息时,所述文本编辑单元从所述文本串中删除由所述文本指定单元指定的第一文本部。
(5)根据(1)至(4)中任一项所述的信息处理设备,
其中,由所述使用者输入的输入信息包含用于将单词转换为不定式形式的转换指令信息,并且
其中,当所述使用者输入所述转换指令信息时,所述文本编辑单元将由所述文本指定单元指定的第一文本部替换为通过将所述第一文本部转换为不定式形式所获得的文本。
(6)根据(1)至(4)中任一项所述的信息处理设备,
其中,由所述使用者输入的输入信息包含用于将日文汉字转换为平假名的转换指令信息,并且
其中,当所述使用者输入所述转换指令信息时,所述文本编辑单元将由所述文本指定单元指定的第一文本部替换为通过将所述第一文本部转换为平假名所获得的文本。
(7)根据(1)至(6)中任一项所述的信息处理设备,
其中,所述输入文本串包含通过对由所述使用者发出的语音执行的语音识别所确定的文本串。
(8)根据(1)至(6)中任一项所述的信息处理设备,还包括:
文本添加单元,所述文本添加单元被配置为当所述指示位置位于所述文本串的尾端并且执行预定操作时,将第二文本串添加到所述文本串的尾端。
(9)根据(8)所述的信息处理设备,还包括:
显示控制单元,所述显示控制单元被配置为当执行所述预定操作时使所述显示画面显示选择图像以用于使所述使用者选择一个或更多个符号,其中,所述文本添加单元将由所述使用者在所述选择图像中选择的一个或更多个符号作为所述第二文本串添加到所述文本串的尾端。
(10)根据(8)所述的信息处理设备,
其中,所述文本添加单元将通过对由所述使用者发出的语音执行的语音识别所确定的文本串作为所述第二文本串添加到所述文本串的尾端。
(11)根据(1)至(10)中任一项所述的信息处理设备,
其中,所述文本分割单元基于所述文本串的上下文将所述文本串分割成所述多个第一文本部。
(12)根据(1)至(11)中任一项所述的信息处理设备,
其中,所述第一文本部包括一个或更多个字。
(13)根据(1)至(12)中任一项所述的信息处理设备,
其中,所述使用者的输入移动方向的操作包括所述使用者的选择方向键的操作以在所述显示画面上移动所述指示位置。
(14)根据(1)至(13)中任一项所述的信息处理设备,还包括:
视线方向确定单元,所述视线方向确定单元被配置为确定所述使用者的视线方向,
其中,所述使用者的输入移动方向的操作包括由所述使用者执行的视线方向的移动。
(15)一种信息处理方法,包括:
将输入文本串分割成多个第一文本部;
基于使用者的输入在显示所述文本串的显示画面上移动指示位置的移动方向的操作,来指定通过分割而获得的所述多个第一文本部中的待由所述使用者选择的第一文本部;以及
由处理器基于由所述使用者输入的输入信息对所指定的第一文本部进行编辑。
(16)一种程序,所述程序用于使计算机用作:
文本分割单元,所述文本分割单元被配置为将输入文本串分割成多个第一文本部;
文本指定单元,所述文本指定单元被配置为基于使用者的输入在显示所述文本串的显示画面上移动指示位置的移动方向的操作,来指定通过分割而获得的所述多个第一文本部中的待由所述使用者选择的第一文本部;以及
文本编辑单元,所述文本编辑单元被配置为基于由所述使用者输入的输入信息对所指定的第一文本部进行编辑。
附图标记列表
10 信息处理设备
20 控制器
30 显示设备
60 电视机
70 摄像头
100 控制单元
102 语音识别单元
104 文本分割单元
106 文本指定单元
108 文本编辑单元
110 显示控制单元
112 文本添加单元
114 视线方向确定单元
116 目视观察位置计算单元
120 通信单元
122 语音输入/输出单元
124 显示单元
150 CPU
152 ROM
154 RAM
156 内部总线
158 接口
160 输入设备
162 输出设备
164 存储设备
166 通信设备
200 通信单元
202 麦克风
202 语音输入单元
210 操作单元
212 方向键
214 确定键
216 语音输入键
220 旋转键

Claims (14)

1.一种信息处理设备,包括:
文本分割单元,所述文本分割单元被配置为将输入的文本串分割成多个第一文本部;
文本指定单元,所述文本指定单元被配置为基于使用者的输入在显示所述文本串的显示画面上移动指示位置的移动方向的操作,来指定通过分割而获得的所述多个第一文本部中的待由所述使用者选择的第一文本部;
文本编辑单元,所述文本编辑单元被配置为基于由所述使用者输入的输入信息对所指定的第一文本部进行编辑;
文本添加单元,所述文本添加单元被配置为当所述指示位置位于所述文本串的尾端并且执行预定操作时,将第二文本串添加到所述文本串的尾端;以及
显示控制单元,所述显示控制单元被配置为当所述指示位置位于所述文本串的所述尾端并且执行所述预定操作时,使所述显示画面显示符号选择图像以用于使所述使用者选择一个或更多个符号,
其中,所述文本添加单元将由所述使用者在所述符号选择图像中选择的一个或更多个符号作为所述第二文本串添加到所述文本串的所述尾端。
2.根据权利要求1所述的信息处理设备,
其中,由所述使用者输入的输入信息包含由所述使用者输入的第二文本,并且
其中,当所述使用者输入所述第二文本时,所述文本编辑单元在所述文本串中将由所述文本指定单元指定的第一文本部替换为所述第二文本。
3.根据权利要求2所述的信息处理设备,
其中,所述第二文本包含通过对由所述使用者发出的语音执行的语音识别所确定的文本。
4.根据权利要求1所述的信息处理设备,
其中,由所述使用者输入的输入信息包含用于删除文本的删除指令信息,并且
其中,当所述使用者输入所述删除指令信息时,所述文本编辑单元从所述文本串中删除由所述文本指定单元指定的第一文本部。
5.根据权利要求1所述的信息处理设备,
其中,由所述使用者输入的输入信息包含用于将单词转换为不定式形式的转换指令信息,并且
其中,当所述使用者输入所述转换指令信息时,所述文本编辑单元将由所述文本指定单元指定的第一文本部替换为通过将所述第一文本部转换为不定式形式所获得的文本。
6.根据权利要求1所述的信息处理设备,
其中,由所述使用者输入的输入信息包含用于将日文汉字转换为平假名的转换指令信息,并且
其中,当所述使用者输入所述转换指令信息时,所述文本编辑单元将由所述文本指定单元指定的第一文本部替换为通过将所述第一文本部转换为平假名所获得的文本。
7.根据权利要求1所述的信息处理设备,
其中,所述输入文本串包含通过对由所述使用者发出的语音执行的语音识别所确定的文本串。
8.根据权利要求1所述的信息处理设备,
其中,所述文本添加单元将通过对由所述使用者发出的语音执行的语音识别所确定的文本串作为所述第二文本串添加到所述文本串的尾端。
9.根据权利要求1所述的信息处理设备,
其中,所述文本分割单元基于所述文本串的上下文将所述文本串分割成所述多个第一文本部。
10.根据权利要求1所述的信息处理设备,
其中,所述第一文本部包括一个或更多个单词。
11.根据权利要求1所述的信息处理设备,
其中,所述使用者的输入移动方向的操作包括所述使用者的选择方向键的操作以在所述显示画面上移动所述指示位置。
12.根据权利要求1所述的信息处理设备,还包括:
视线方向确定单元,所述视线方向确定单元被配置为确定所述使用者的视线方向,
其中,所述使用者的输入移动方向的操作包括由所述使用者执行的视线方向的移动。
13.一种信息处理方法,包括:
将输入文本串分割成多个第一文本部;
基于使用者的输入在显示所述文本串的显示画面上移动指示位置的移动方向的操作,来指定通过分割而获得的所述多个第一文本部中的待由所述使用者选择的第一文本部;
由处理器基于由所述使用者输入的输入信息对所指定的第一文本部进行编辑;
当所述指示位置位于所述文本串的尾端并且执行预定操作时,将第二文本串添加到所述文本串的尾端;以及
当所述指示位置位于所述文本串的所述尾端并且执行所述预定操作时,使所述显示画面显示符号选择图像以用于使所述使用者选择一个或更多个符号,
其中,将由所述使用者在所述符号选择图像中选择的一个或更多个符号作为所述第二文本串添加到所述文本串的所述尾端。
14.一种记录有程序的计算机可读记录介质,所述程序用于使计算机执行方法,所述方法包括:
将输入文本串分割成多个第一文本部;
基于使用者的输入在显示所述文本串的显示画面上移动指示位置的移动方向的操作,来指定通过分割而获得的所述多个第一文本部中的待由所述使用者选择的第一文本部;
基于由所述使用者输入的输入信息对所指定的第一文本部进行编辑;
当所述指示位置位于所述文本串的尾端并且执行预定操作时,将第二文本串添加到所述文本串的尾端;以及
当所述指示位置位于所述文本串的所述尾端并且执行所述预定操作时,使所述显示画面显示符号选择图像以用于使所述使用者选择一个或更多个符号,
其中,将由所述使用者在所述符号选择图像中选择的一个或更多个符号作为所述第二文本串添加到所述文本串的所述尾端。
CN201480046509.8A 2013-10-24 2014-08-04 信息处理设备、信息处理方法及计算机可读记录介质 Expired - Fee Related CN105518657B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2013221125 2013-10-24
JP2013-221125 2013-10-24
PCT/JP2014/070510 WO2015059976A1 (ja) 2013-10-24 2014-08-04 情報処理装置、情報処理方法、及びプログラム

Publications (2)

Publication Number Publication Date
CN105518657A CN105518657A (zh) 2016-04-20
CN105518657B true CN105518657B (zh) 2019-09-24

Family

ID=52992587

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201480046509.8A Expired - Fee Related CN105518657B (zh) 2013-10-24 2014-08-04 信息处理设备、信息处理方法及计算机可读记录介质

Country Status (5)

Country Link
US (1) US20160210276A1 (zh)
EP (1) EP3062237A4 (zh)
JP (1) JPWO2015059976A1 (zh)
CN (1) CN105518657B (zh)
WO (1) WO2015059976A1 (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6374854B2 (ja) * 2015-11-10 2018-08-15 株式会社オプティム 画面共有システム及び画面共有方法
CN106933561A (zh) * 2015-12-31 2017-07-07 北京搜狗科技发展有限公司 语音输入方法和终端设备
CA3018758A1 (en) 2016-03-31 2017-10-05 Magic Leap, Inc. Interactions with 3d virtual objects using poses and multiple-dof controllers
JP6772636B2 (ja) * 2016-07-29 2020-10-21 セイコーエプソン株式会社 情報処理装置、情報処理装置の制御方法、及び、制御プログラム
CN109643547A (zh) * 2016-08-31 2019-04-16 索尼公司 信息处理装置、处理信息的方法和程序
JP6969576B2 (ja) 2016-12-22 2021-11-24 ソニーグループ株式会社 情報処理装置、および情報処理方法
JP6942995B2 (ja) 2017-03-31 2021-09-29 ブラザー工業株式会社 情報処理プログラム、情報処理装置、および情報処理装置の制御方法
CA3059234A1 (en) 2017-04-19 2018-10-25 Magic Leap, Inc. Multimodal task execution and text editing for a wearable system
CN107203505A (zh) * 2017-05-26 2017-09-26 北京小米移动软件有限公司 文本信息编辑方法及装置
JP7023743B2 (ja) * 2018-02-28 2022-02-22 シャープ株式会社 情報処理装置、情報処理方法、及びプログラム
US11900931B2 (en) 2018-11-20 2024-02-13 Sony Group Corporation Information processing apparatus and information processing method

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6356886B1 (en) * 1995-11-30 2002-03-12 Electronic Data Systems Corporation Apparatus and method for communicating with a knowledge base
CN1122967C (zh) * 1996-10-31 2003-10-01 微软公司 在语音识别过程中用于选择替换词的方法和系统
US7263657B2 (en) * 2002-05-13 2007-08-28 Microsoft Corporation Correction widget
CN102934458A (zh) * 2011-02-04 2013-02-13 松下电器产业株式会社 兴趣度估计装置以及兴趣度估计方法

Family Cites Families (39)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS58115526A (ja) * 1981-12-29 1983-07-09 Sharp Corp 仮名漢字変換装置
US4914704A (en) * 1984-10-30 1990-04-03 International Business Machines Corporation Text editor for speech input
JPH0447358A (ja) * 1990-06-01 1992-02-17 Nippon Telegr & Teleph Corp <Ntt> 文章等の編集方法
JPH05298315A (ja) * 1992-04-24 1993-11-12 Toshiba Corp 情報処理装置
US5666139A (en) * 1992-10-15 1997-09-09 Advanced Pen Technologies, Inc. Pen-based computer copy editing apparatus and method for manuscripts
JP3375701B2 (ja) * 1993-12-13 2003-02-10 松下電器産業株式会社 電子辞書引き装置
JPH07191796A (ja) * 1993-12-27 1995-07-28 Canon Inc 視線入力システム
JP3082576B2 (ja) * 1994-08-01 2000-08-28 日本電気株式会社 文書編集装置
US5682439A (en) * 1995-08-07 1997-10-28 Apple Computer, Inc. Boxed input correction system and method for pen based computer systems
US5778404A (en) * 1995-08-07 1998-07-07 Apple Computer, Inc. String inserter for pen-based computer systems and method for providing same
JPH09305343A (ja) * 1996-05-13 1997-11-28 Hitachi Ltd 対象範囲指定方法
US6396482B1 (en) * 1998-06-26 2002-05-28 Research In Motion Limited Hand-held electronic device with a keyboard optimized for use with the thumbs
US6356866B1 (en) * 1998-10-07 2002-03-12 Microsoft Corporation Method for converting a phonetic character string into the text of an Asian language
EP1422692A3 (en) * 2002-11-22 2004-07-14 ScanSoft, Inc. Automatic insertion of non-verbalized punctuation in speech recognition
JP4032181B2 (ja) * 2003-11-14 2008-01-16 敏志 網野 文字入力方法
US7921374B2 (en) * 2004-07-08 2011-04-05 Research In Motion Limited Adding interrogative punctuation to an electronic message
US20060064652A1 (en) * 2004-09-20 2006-03-23 Nokia Corporation Input of punctuation marks
US8117540B2 (en) * 2005-05-18 2012-02-14 Neuer Wall Treuhand Gmbh Method and device incorporating improved text input mechanism
US7429108B2 (en) * 2005-11-05 2008-09-30 Outland Research, Llc Gaze-responsive interface to enhance on-screen user reading tasks
US20080270895A1 (en) * 2007-04-26 2008-10-30 Nokia Corporation Method, computer program, user interface, and apparatus for predictive text input
JP4503069B2 (ja) * 2007-12-27 2010-07-14 シャープ株式会社 文字入力装置、システム、及び文字入力制御方法
JP2010002830A (ja) * 2008-06-23 2010-01-07 Sharp Corp 音声認識装置
US8671357B2 (en) * 2008-11-25 2014-03-11 Jeffrey R. Spetalnick Methods and systems for improved data input, compression, recognition, correction, and translation through frequency-based language analysis
US9223590B2 (en) * 2010-01-06 2015-12-29 Apple Inc. System and method for issuing commands to applications based on contextual information
JP5267450B2 (ja) * 2009-12-28 2013-08-21 株式会社デンソー 電子機器及びプログラム
US20120146955A1 (en) * 2010-12-10 2012-06-14 Research In Motion Limited Systems and methods for input into a portable electronic device
EP2699443B1 (en) * 2011-05-23 2020-06-17 Cerence Operating Company Text browsing, editing and correction methods for automotive applications
US8954329B2 (en) * 2011-05-23 2015-02-10 Nuance Communications, Inc. Methods and apparatus for acoustic disambiguation by insertion of disambiguating textual information
US8640026B2 (en) * 2011-07-11 2014-01-28 International Business Machines Corporation Word correction in a multi-touch environment
US20130212515A1 (en) * 2012-02-13 2013-08-15 Syntellia, Inc. User interface for text input
WO2013033842A1 (en) * 2011-09-07 2013-03-14 Tandemlaunch Technologies Inc. System and method for using eye gaze information to enhance interactions
US8290772B1 (en) * 2011-10-03 2012-10-16 Google Inc. Interactive text editing
US20130159919A1 (en) * 2011-12-19 2013-06-20 Gabriel Leydon Systems and Methods for Identifying and Suggesting Emoticons
CN102750088B (zh) * 2012-06-04 2017-01-25 华为终端有限公司 一种提示字符输入的方法和电子设备
CN103885743A (zh) * 2012-12-24 2014-06-25 大陆汽车投资(上海)有限公司 结合注视跟踪技术的语音文本输入方法和系统
JP6155821B2 (ja) * 2013-05-08 2017-07-05 ソニー株式会社 情報処理装置、情報処理方法、及びプログラム
US8943405B1 (en) * 2013-11-27 2015-01-27 Google Inc. Assisted punctuation of character strings
EP3193261B1 (en) * 2014-03-18 2020-11-04 smartwork solutions GmbH Method and system for editing virtual documents
US20180342248A1 (en) * 2017-05-23 2018-11-29 Ronen Rabinovici Integrated speech recognition text input with manual punctuation

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6356886B1 (en) * 1995-11-30 2002-03-12 Electronic Data Systems Corporation Apparatus and method for communicating with a knowledge base
CN1122967C (zh) * 1996-10-31 2003-10-01 微软公司 在语音识别过程中用于选择替换词的方法和系统
US7263657B2 (en) * 2002-05-13 2007-08-28 Microsoft Corporation Correction widget
CN102934458A (zh) * 2011-02-04 2013-02-13 松下电器产业株式会社 兴趣度估计装置以及兴趣度估计方法

Also Published As

Publication number Publication date
EP3062237A4 (en) 2017-06-28
US20160210276A1 (en) 2016-07-21
EP3062237A1 (en) 2016-08-31
WO2015059976A1 (ja) 2015-04-30
CN105518657A (zh) 2016-04-20
JPWO2015059976A1 (ja) 2017-03-09

Similar Documents

Publication Publication Date Title
CN105518657B (zh) 信息处理设备、信息处理方法及计算机可读记录介质
JP6903808B2 (ja) リアルタイム手書き認識の管理
US10146318B2 (en) Techniques for using gesture recognition to effectuate character selection
US10078376B2 (en) Multimodel text input by a keyboard/camera text input module replacing a conventional keyboard text input module on a mobile device
US20200068304A1 (en) Terminal and vehicle control method of mobile terminal using machine learning
AU2022201650A1 (en) Word flow annotation
EP2877909B1 (en) Multimodal interaction with near-to-eye display
CN101998107B (zh) 信息处理装置、会议系统和信息处理方法
CN109691074A (zh) 用于增强的用户交互的图像数据
KR101756042B1 (ko) 입력 처리 방법, 장치 및 설비
CN106462249A (zh) 便携式电子设备和操作用户界面的方法
US10409324B2 (en) Glass-type terminal and method of controlling the same
JP2010067104A (ja) デジタルフォトフレーム、情報処理システム、制御方法、プログラム及び情報記憶媒体
CN111126009A (zh) 表单填写方法、装置、终端设备及存储介质
CN107832036A (zh) 语音控制方法、装置及计算机可读存储介质
CN110855893A (zh) 一种视频拍摄的方法及电子设备
CN113572889B (zh) 简化用户接口生成
JP5077879B2 (ja) 視線入力装置、視線入力方法、及び、視線入力プログラム
US11900931B2 (en) Information processing apparatus and information processing method
JP2016181018A (ja) 情報処理システムおよび情報処理方法
KR101567154B1 (ko) 다중 사용자 기반의 대화 처리 방법 및 이를 수행하는 장치
JP6950708B2 (ja) 情報処理装置、情報処理方法、および情報処理システム
CN107133216A (zh) 一种消息处理方法及装置
CN113138676A (zh) 表情符号显示方法及装置
US20180356973A1 (en) Method And System For Enhanced Touchscreen Input And Emotional Expressiveness

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20190924

CF01 Termination of patent right due to non-payment of annual fee