CN109643544A - 信息处理装置和信息处理方法 - Google Patents

信息处理装置和信息处理方法 Download PDF

Info

Publication number
CN109643544A
CN109643544A CN201780050727.2A CN201780050727A CN109643544A CN 109643544 A CN109643544 A CN 109643544A CN 201780050727 A CN201780050727 A CN 201780050727A CN 109643544 A CN109643544 A CN 109643544A
Authority
CN
China
Prior art keywords
unit
information processing
recognition result
processing unit
presented
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201780050727.2A
Other languages
English (en)
Inventor
滝祐平
河野真
河野真一
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Publication of CN109643544A publication Critical patent/CN109643544A/zh
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/221Announcement of recognition results
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • User Interface Of Digital Computer (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及一种信息处理装置和一种信息处理方法,其被配置为使得可以容易地获得期望的语音识别结果。信息处理装置设置有呈现控制单元,用于在呈现语音识别的识别结果时控制中断。例如,本发明可应用于独立执行语音识别的信息处理装置、响应于来自客户端的请求执行语音识别并将识别结果传输给客户端的服务器、或者从服务器请求语音识别、从服务器接收识别结果并呈现识别结果的客户端。

Description

信息处理装置和信息处理方法
技术领域
本技术涉及一种信息处理装置和一种信息处理方法,更具体地,涉及一种能够容易地获得期望的语音识别结果的信息处理装置和信息处理方法。
背景技术
传统上已经公开了向用户呈现候选。在呈现中,从第一和第二语音识别的候选组识别结果中去除具有第一语音识别中的最大分数的候选,并且在去除之后,从第一和第二候选组中具有较大分数分散的候选组中选择具有最大分数的其他候选(例如,参见专利文献1)。
引用列表
专利文献
专利文献1:日本专利申请公开No.2016-62069
发明内容
本发明要解决的问题
遗憾的是,在专利文献1中公开的发明中,第一次和第二次试验需要相同句子的语音输入,并且随着句子的延长,用户的负担增加。
然后,本技术旨在使得能够容易地获得期望的语音识别结果。
问题的解决方案
在本技术的一个方面的信息处理装置包括呈现控制单元,该呈现控制单元基于与语音识别相关的上下文来控制在呈现语音识别的识别结果时的分离。
可以通过分离识别结果来确定允许修改识别结果的单元。
还可以提供语音识别单元,并且呈现控制单元可以控制由语音识别单元呈现的识别结果的分离。
呈现控制单元可以生成用于控制识别结果的分离的控制信息,并输出识别结果和控制信息。
还可以提供通信单元,其从其他信息处理装置接收输入语音并将识别结果和控制信息发送到其他信息处理装置,语音识别单元可以对输入语音执行语音识别,并且呈现控制单元可以基于控制信息控制在其他信息处理装置中呈现识别结果时的分离。
通信单元可以从其他信息处理装置接收指示上下文的数据,并且呈现控制单元可以基于指示上下文的数据控制在其他信息处理装置中呈现识别结果时的分离。
还可以提供通信单元,通信单元可以从其他信息处理装置接收输入语音和控制信息,用于控制识别结果的分离,语音识别单元可以对输入语音执行语音识别,呈现控制单元可以基于控制信息分离由语音识别单元呈现的识别结果,并且通信单元可以将由呈现控制单元分离的识别结果发送到其他信息处理装置。
还可以提供通信单元,通信单元向其他信息处理装置传输输入语音,并从其他信息处理装置接收通过对输入语音执行语音识别而获得的识别结果,并且呈现控制单元可以在呈现从其他信息处理装置接收的识别结果时控制分离。
通信单元可以从其他信息处理装置接收用于控制识别结果的分离的控制信息,并且呈现控制单元可以基于控制信息来控制在呈现从其他信息处理装置接收的识别结果时的分离。
通信单元可以向其他信息处理装置传输用于控制识别结果的分离的控制信息,并且从其他信息处理装置接收基于控制信息分离的识别结果,并且呈现控制单元可以控制由其他信息处理装置分离的识别结果的呈现。
上下文可以包含语音识别的试验次数。
随着试验次数的增加,呈现控制单元可以延长识别结果的分离。
随着试验次数的增加,呈现控制单元可以缩短识别结果的分离。
上下文可以包含输入语音时的噪声环境或语音识别的使用中的至少一个。
可以基于与语音识别相关的上下文来控制在呈现语音识别的识别结果时的分离。
在本技术的一个方面中的信息处理方法包括呈现控制步骤,用于基于与语音识别相关的上下文来控制在呈现语音识别的识别结果时的分离。
在本技术的一个方面,基于与语音识别有关的上下文来控制在呈现语音识别的识别结果时的分离。
发明效果
根据本技术的一个方面,可以单独呈现语音识别的识别结果。特别地,根据本技术的一个方面,可以容易地获得期望的语音识别结果。
注意,在此处描述的效果不一定受限制,并且可以对应于本公开中描述的效果之一。
附图说明
[图1]是示出应用本技术的信息处理系统的一个实施例的方框图;
[图2]是用于示出客户端的处理的第一实施例的流程图;
[图3]示出了分离模式的示例;
[图4]是用于示出服务器的处理的第一实施例的流程图;
[图5]示出了在客户端和服务器之间传输和接收的数据的第一示例;
[图6]示出了在客户端和服务器之间传输和接收的数据的第二示例;
[图7]是用于示出客户端的处理的第二实施例的流程图;
[图8]是用于示出服务器的处理的第二实施例的流程图;
[图9]示出了在客户端和服务器之间传输和接收的数据的第三示例;
[图10]示出了在客户端和服务器之间传输和接收的数据的第四示例;
[图11]示出了呈现识别的句子的方法的变化;
[图12]是示出计算机的配置示例的方框图。
具体实施方式
现在将参考附图详细描述用于实现本发明的实施例(下文中称为“实施例”)。注意,将按以下顺序给出描述。
1.实施例
2.变型例
3.应用
<<1.实施例>>
<1-1.信息处理系统的配置示例>
首先,将首先参考图1描述应用本技术的信息处理系统10的配置示例。
信息处理系统10是对用户输入的语音输入执行语音识别并呈现识别结果的系统。信息处理系统10包括客户端11、服务器12和网络13。客户端11和服务器12经由网络13相互连接。
注意,尽管图中仅示出了一个客户端11,但是实际上,多个客户端11可以连接到网络13,并且多个用户可以经由客户端11使用信息处理系统10。
客户端11将用户输入的输入语音发送到服务器12,从服务器12接收输入语音的语音识别结果,并呈现结果。
例如,客户端11包括便携式信息终端,例如,智能手机、平板电脑、移动电话和笔记本个人计算机、穿戴式装置、台式个人计算机、游戏机、运动图像再现装置、音乐再现装置等。此外,穿戴式装置可以采用各种类型,例如,眼镜、手表、手镯、项链、颈带、耳机、头戴式受话器、头戴式等。
客户端11包括语音输入单元21、操作单元22、显示单元23、呈现单元24、传感器单元25、通信单元26、控制单元27和存储单元28。控制单元27包括语音识别控制单元41、呈现控制单元42和上下文检测单元43。语音输入单元21、操作单元22、显示单元23、呈现单元24、传感器单元25、通信单元26、控制单元27和存储单元28经由总线29相互连接。
语音输入单元21包括例如麦克风。可以设置任意数量的麦克风。语音输入单元21收集例如用户发出的语音,将指示收集的语音的语音数据提供给控制单元27,并使存储单元28存储语音数据。
操作单元22包括各种操作构件,并且用于操作客户端11。例如,操作单元22包括控制器、遥控器、触摸板、硬件按钮等。
显示单元23包括例如显示器。显示单元23在呈现控制单元42的控制下显示图像,例如,指示语音识别结果的屏幕图像、图形用户界面(GUI)以及用于各种应用程序和服务的屏幕图像。
呈现单元24包括例如扬声器、振动装置、其他协作装置等。呈现单元24例如在呈现控制单元42的控制下呈现语音识别结果。
传感器单元25包括相机、距离传感器、全球定位系统(GPS)接收器、以及诸如加速度传感器、陀螺仪传感器等各种传感器。传感器单元25将指示每个传感器的检测结果的传感器数据提供给控制单元27,并使存储单元28存储传感器数据。
通信单元26包括各种通信装置。通信单元26的通信方法不受特别限制,并且无线和有线通信都是适用的。此外,通信单元26可以符合多种通信方法。通信单元26经由网络13与服务器12进行通信,并发送和接收各种数据。通信单元26将从服务器12接收的数据提供给控制单元27,并使存储单元28存储接收的数据。
控制单元27包括例如各种处理器等。
语音识别控制单元41获取处理服务器12的语音识别单元71所需的数据,并经由通信单元26和网络13将数据发送给服务器12。此外,语音识别控制单元41经由通信单元26和网络13从服务器12接收例如语音识别的识别结果。
呈现控制单元42通过显示单元23和呈现单元24控制例如各种信息的呈现。
上下文检测单元43基于例如来自语音输入单元21的语音数据、来自传感器单元25的传感器数据以及由控制单元27执行的程序,检测与语音识别的执行有关的上下文(下文中也称为执行上下文)。例如,上下文检测单元43检测例如客户端11周围的噪声环境、语音识别的使用等。
存储单元28存储例如处理客户端11所需的程序和数据。
服务器12对从客户端11接收的输入语音执行语音识别,并经由网络13将识别结果发送到客户端11。服务器12包括通信单元61、控制单元62和存储单元63。控制单元62包括语音识别单元71和呈现控制单元72。通信单元61、控制单元62和存储单元63经由总线64相互连接。
通信单元61包括各种通信装置。通信单元61的通信方法不受特别限制,并且无线和有线通信都是适用的。此外,通信单元61可以符合多种通信方法。通信单元61经由网络13与客户端11通信,并传输和接收各种数据。通信单元61将从客户端11接收的数据提供给控制单元62,并使存储单元63存储接收的数据。
控制单元62包括例如各种处理器等。
语音识别单元71对从客户端11获取的输入语音执行语音识别。
呈现控制单元72控制客户端11中的语音识别结果的呈现。例如,呈现控制单元72控制在客户端11中从语音识别单元71呈现识别结果时的分离。
存储单元63存储例如处理服务器12所需的程序和数据。
注意,在客户端11(通信单元26)和服务器12(通信单元61)经由网络13通信的情况下,在下文中省略对“经由网络13”的描述。在客户端11的每个单元经由总线29传送数据的情况下,在下文中省略对“经由总线29”的描述。在服务器12的每个单元经由总线64传送数据的情况下,在下文中省略对“经由总线64”的描述。
<1-2.信息处理系统10的处理的第一实施例>
接下来,将参考图2至6描述信息处理系统10的处理的第一实施例。
(客户端11的处理)
首先将参考图2的流程图描述客户端11的处理。注意,例如,当用户经由操作单元22输入执行语音识别的指令时,开始处理。
在步骤S1中,上下文检测单元43检测与语音识别的执行有关的上下文(执行上下文)。
例如,上下文检测单元43基于来自语音输入单元21的语音数据和来自传感器单元25的传感器数据,检测客户端11周围的噪声环境,换言之,用户输入语音时的噪声环境。例如,上下文检测单元43基于例如客户端11周围的噪声水平、客户端11的当前位置等,将噪声环境分为好、平均和差三个级别。例如,在噪声水平小于预定第一阈值的情况下,噪声环境被确定为良好,在噪声水平等于或大于第一阈值且小于预定第二阈值的情况下,噪声环境被确定为平均,而在噪声水平等于或大于第二阈值的情况下,噪声环境被确定为差。此外,例如,在客户端11的当前位置处于预期具有小噪声量的地方(例如,住宅等)的情况下,噪声环境被确定为良好,在客户端11的当前位置处于预期具有平均噪声量的地方(例如,车辆内部等)的情况下,噪声环境被确定为平均,而在客户端11的当前位置处于预期具有大噪声量的地方(例如,车站等)的情况下,噪声环境被确定为差。
此外,上下文检测单元43基于例如使用语音识别的程序和服务来检测语音识别的使用。例如,语音识别的使用被分类为,例如输入密码或用户ID、向搜索引擎输入关键字、输入聊天的句子、输入邮件的句子等。
在步骤S2中,呈现控制单元42设置分离模式的初始值。
这里,分离模式是指在呈现识别的句子时设置位置以分离作为语音识别的识别结果而获得的句子(下文中称为识别的句子)的模式。分离识别的句子的位置确定可以修改识别的句子的单元(下文中称为修饰单元)。换言之,通过划分识别的句子,将识别的句子分成多个修饰单元。用户可以在修饰单元的基础上修改识别的句子。
注意,所识别的句子不一定是一个完整的句子,并且可以是例如不构成完整句子的一个或多个单词的序列。或者,识别的句子可以包括两个或更多个句子。
图3示出了分离模式的示例。这些示例示出了四种类型的分离模式:单字符模式、单词划分模式、冠词/所有格连接模式和子句/短语连接模式。手动输入模式是与分离模式不同的模式,稍后将描述细节。注意,这些示例示出了当用户输入语音“我看到一个穿着红色衬衫的人”时,获得识别结果“我起诉穿着一件红色衬衫的人”的情况。
在单字符模式中,识别的句子的每个字符逐个独立呈现,而不连接。因此,识别的句子的每个字符被定义为修饰单元,并且用户可以通过字符修改识别的句子。注意,在单字符模式中,使用与在其他分离模式中使用的语音识别引擎不同的语音识别引擎。
在单词划分模式中,识别的句子以单词为基础单独呈现。因此,识别的句子的每个单词被定义为修饰单元,并且用户可以通过单词修改识别的句子。
在冠词/所有格连接模式中,在单词的基础上基本上以与单词划分模式类似的方式,单独呈现所识别的句子。然而,冠词(“一个(a)”、“该(the)”等)或所有格(例如,“我的(my)”、“你的(your)”等)和下一个词连接,以便呈现。例如,在图4的示例中,连接“一个(a)”和“人(person)”以及“一个(a)”和“红色(red)”。因此,在将冠词或所有格放置在单词之前的情况下,通过连接冠词或所有格获得范围,该单词被定义为修饰单元,并且在冠词之前没有放置冠词和所有格的情况下,该单词被依赖地定义为修饰单元。
在该子句/短语连接模式下,在子句或短语的基础上单独呈现所识别的句子。例如,在图4的示例中,呈现识别的句子,同时分成子句“我起诉某人”和名词短语“穿着红色衬衫”。因此,识别的句子的每个短语或每个子句被定义为修饰单元,并且用户可以通过短语或子句来修改所识别的句子。
注意,在每种分离模式中由斜线表示的修饰单元表示放置光标的修饰单元。
此外,在每个分离模式中,在修改识别的句子的情况下,可以通过插入模式插入语音识别的识别结果并且通过重写模式重写。
通过将光标放置在例如识别的句子的头部、相邻的修饰单元之间或识别的句子的末尾,输入语音,来将输入语音的识别结果插入光标(未示出)的位置。例如,在图3中的单词划分模式中,光标位于“起诉(sue)”和“一个(a)”之间的情况下,输入语音的识别结果插入“起诉(sue)”和“一个(a)”之间。
此外,通过将光标放置在例如识别的句子的一个修饰单元上,输入语音,来在光标的位置上重写输入语音的识别结果。例如,在如图3中的子句/短语连接模式中一样,将光标放置在“我起诉某人”的情况下,在“我起诉某人”上重写输入语音的识别结果。
此外,在每种分离模式中,可以在修饰单元的基础上删除所识别的句子的字符或短语。
此外,分离模式从底部按照单字符模式、单词划分模式、冠词/所有格连接模式和子句/短语连接模式的顺序排列。换言之,较低级别的分离模式具有较短的修饰单元,而较高级别的分离模式具有较长的修饰单元。
此外,分离模式基本上从底部转换到顶部。然而,单字符模式是独立模式,并且在单字符模式旁边不存在分离模式。如稍后将描述的,分离模式因此基本上按单词划分模式、冠词/所有格连接模式和子句/短语连接模式的顺序转换。在子句/短语连接模式旁边,分离模式转换为手动输入模式。相反,在单字符模式旁边,执行到手动输入模式的转换,而不转换到其他种分离模式。
注意,较长的修饰单元和包含在修饰单元中的更多单词使得能够基于单词之间的相关性进行语音识别,从而通常提高识别准确度。因此,在修改识别结果的情况下,上级分离模式具有提高的语音识别精度,并且具有更高的适当修改可能性。
呈现控制单元42基于执行上下文设置分离模式的初始值。
例如,呈现控制单元42基于语音识别的使用来设置分离模式的初始值。例如,在语音识别用于输入例如用户名、ID等的情况下,换言之,在不太可能输入有意义的句子和短语的情况下,分离模式的初始值设置为单字符模式。或者,在语音识别用于在搜索站点中输入搜索关键字的情况下,换言之,在可能输入短语的情况下,将分离模式的初始值设置为单词分离模式。或者,在语音识别用于输入邮件的句子的情况下,换言之,在通过句子输入来输入语音并且精度比速度更重要的情况下,分离模式的初始值设置为冠词/所有格连接模式。或者,在语音识别用于输入聊天的句子的情况下,换言之,在通过句子输入来输入语音并且速度比准确度更重要的情况下,分离模式的初始值设置为子句/短语连接模式。
此外,例如,呈现控制单元42基于周围噪声环境设置分离模式的初始值。例如,在周围噪声环境良好的情况下,分离模式的初始值设置为单词分离模式。或者,在周围噪声环境是平均的情况下,分离模式的初始值设置为冠词/所有格连接模式。或者,在周围噪声环境差的情况下,分离模式的初始值设置为子句/短语连接模式。
注意,呈现控制单元42可以通过使用其他种类型的上下文或者组合多个上下文来设置分离模式的初始值。此外,例如,呈现控制单元42可以与上下文无关地固定分离模式的初始值。
在步骤S3中,语音识别控制单元41请求执行语音识别。具体地,语音识别控制单元41生成语音识别开始命令,该命令是给出开始语音识别的指令的命令。此外,语音识别控制单元41根据需要将额外信息数据添加到语音识别开始命令。尽管稍后将描述额外信息数据的细节,但是例如包含与语音识别有关的上下文(例如,试验次数等)。语音识别控制单元图41经由通信单元26将语音识别开始命令发送到服务器12。
服务器12在稍后描述的图4中的步骤S51中接收语音识别开始命令。
在步骤S4中,客户端11接收语音输入。例如,呈现控制单元42控制显示单元23或呈现单元24,并提示用户输入语音。然后,语音识别控制单元41获取指示用户输入到语音输入单元21的输入语音的语音数据,并且经由通信单元26将获取的语音数据发送到服务器12。
在步骤S53中,服务器12在图4中的后述步骤S52中接收语音数据,基于语音数据执行语音识别,并且将表示识别结果的识别结果数据发送到客户端11。
在步骤S5中,语音识别控制单元41接收识别结果。换言之,语音识别控制单元41经由通信单元26接收从服务器12传输的识别结果数据。
在步骤S6中,显示单元23在呈现控制单元42的控制下以设置的分离模式呈现识别结果。换言之,识别的句子以单字符模式、单词划分模式,冠词/所有格连接模式和子句/短语连接模式中的一种分离模式呈现,如上面参考图3所述。注意,在步骤S6的第一处理中,识别的句子在步骤S2的处理中设置的分离模式中呈现。相反,在步骤S6的第二和随后的处理中,识别的句子在稍后描述的步骤S10的处理中设置的分离模式中呈现。
注意,在改变分离模式的情况下,通过使用例如动画等平滑地改变显示,以便不给出对用户的非兼容性感觉。
在步骤S7中,语音识别控制单元41确定声音识别结果是否需要修改。例如,在用户经由操作单元22执行用于修改所呈现的识别的句子的操作的情况下,语音识别控制单元41确定识别结果需要修改。处理进入步骤S8。
在步骤S8中,呈现控制单元42确定是否要执行对手动输入模式的改变。例如,在语音识别的试验次数未达到指定值,并且在分成两个或更多个片段的同时,呈现所识别的句子的情况下,呈现控制单元42确定不执行对手动输入模式的改变。处理进入步骤S9。
在步骤S9中,呈现控制单元42根据需要改变分离模式。具体地,在当前分离模式中已经尝试了预定次数的语音识别的情况下,呈现控制单元42将分离模式改变为紧接当前模式的模式。相反,在当前分离模式中尚未尝试预定次数的语音识别的情况下,呈现控制单元42不改变分离模式。
例如,在每个分离模式中要尝试两次语音识别并且在当前分离模式中已经尝试了两次语音识别的情况下,分离模式设置为下一模式。相反,在当前分离模式中仅尝试了一次语音识别的情况下,不改变分离模式。注意,在每种分离模式中要尝试一次语音识别,分离模式自动设置为下一模式。
在步骤S10中,以与步骤S3的处理类似的方式请求执行语音识别。
在步骤S11中,以与步骤S4的处理类似的方式接收语音输入。
注意,由于如上所述在每个分离模式中修饰单元不同,因此用于修改识别结果的用户输入语音的范围不同。例如,在图3中的上述示例中修改“起诉(sue)”的情况下,用户在单词划分模式或监视/所有格连接模式中输入要替换“起诉(sue)”的短语的语音。相反,用户在子句/短语连接模式中输入要替换“我起诉某人”的短语的语音。
以这种方式,在低级模式中,用户重新输入语音的范围较短,并且减轻了用户的负担。
相反,在上级模式中,用户重新输入语音的范围更长。因此,改善了语音识别的准确性,并且更可能获得期望的识别结果。此外,即使在上级模式中,用户也不需要重新输入所有句子的语音,从而减轻了用户的负担。
在步骤S12中,以与步骤S5的处理类似的方式接收识别结果。
此后,处理返回到步骤S6,并且重复执行步骤S6到S12的处理,直到在步骤S7中确定识别结果不需要修改,或者确定在步骤S8中执行对手动输入模式的改变。
相反,在步骤S8中,例如,在语音识别的试验次数已达到指定值的情况下,换言之,在通过语音识别的进一步试验来获得不太可能获得的期望识别结果的情况下,呈现控制单元42确定要执行对手动输入模式的改变。此外,例如,在没有分离地呈现识别的句子的情况下,换言之,在需要重新输入所有句子的语音并且可能获得与原始识别结果类似的结果的情况下,呈现控制单元42确定要执行对手动输入模式的改变。在确定要执行对手动输入模式的改变的情况下,然后,处理进入步骤S13。
在步骤S13中,呈现控制单元42执行对手动输入模式的设置。具体地,呈现控制单元42控制显示单元23,并显示字符输入条101,如图3中的手动输入模式的示例所示。
在步骤S14中,语音识别控制单元41通过手动输入来接收识别结果的修改。具体地,用户输入具有字符输入栏101的字符,并修改识别的句子。在字符输入栏101中,可以通过在左右方向上滚动字符来切换光标102中的字符。此外,字符输入栏101可以移动到识别的句子的期望位置。在通过指示识别的句子的一个字符的字符输入栏101的指针103确认光标102中的字符输入的情况下,由指针103指示的字符然后被确认的字符重写。相反,在通过表示头部、字符之间的位置或识别的句子的末尾的指针103确认光标102中的字符输入的情况下,将确认的字符插入指针103的位置。
然后,语音识别控制单元41根据用户输入修改识别的句子。此外,显示单元23在呈现控制单元42的控制下呈现修改的识别的句子。
此后,处理进入步骤S15。
相反,在步骤S7中,例如,在用户执行确认识别的句子的操作或者经由操作单元22对下一个句子执行语音识别的操作的情况下,语音识别控制单元41确定识别结果不需要修改。处理进入步骤S15。
在步骤S15中,语音识别控制单元41确认识别结果。例如,语音识别控制单元41然后使存储单元28存储确认的识别结果,并经由通信单元26将结果发送到其他装置。
在步骤S16中,语音识别控制单元41确定是否要继续语音识别。例如,在用户经由操作单元22执行用于对下一个句子执行语音识别的操作的情况下,语音识别控制单元41确定要继续语音识别。处理返回到步骤S2。
此后,重复执行步骤S2至S16的处理,直到在步骤S16中确定完成语音识别。
相反,在步骤S16中用户经由操作单元22执行用于完成语音识别的操作的情况下,语音识别控制单元41确定要完成语音识别。完成客户端11的处理。
(服务器12的处理)
接下来,将参考图4的流程图,与图2中的客户端11的处理相对应地描述由服务器12执行的处理。
在步骤S51中,语音识别单元71确定是否请求执行语音识别。语音识别单元71在预定时间重复执行步骤S51的处理,直到确定请求执行语音识别。当经由通信单元61接收到在图2中的步骤S3或S10中从客户端11传输的语音识别开始命令时,语音识别单元71然后确定请求执行语音识别。处理进入步骤S52。
在步骤S52中,语音识别单元71执行语音识别。具体地,语音识别单元71经由通信单元61接收在图2中的步骤S4或S11中从客户端11传输的语音数据。语音识别单元71执行由接收的语音数据指示的输入语音的语音识别。此外,语音识别单元71计算识别结果的可靠性。
在步骤S53中,呈现控制单元72传输识别结果。具体地,呈现控制单元72生成包含指示识别结果的识别句子的识别结果数据。注意,识别结果数据可以包含例如识别结果的可靠性等。呈现控制单元72经由通信单元61将识别结果数据发送到客户端11。
此后,处理返回到步骤S51,并且执行步骤S51之后的处理。
图5和图6示出了在图2和4的处理中在客户端11和服务器12之间传输和接收的数据的示例。
在图5的示例中,不包含额外信息数据的语音识别开始指令从客户端11发送到服务器12。
相反,识别结果数据从服务器12传输至客户端11。识别结果数据符合例如JavaScript(注册商标)对象符号(JSON),并含有结果和confidence_level。结果表明识别结果。confidence_level表示识别结果的可靠性。在该示例中,结果中设置的识别结果(识别的句子)不分开。因此,客户端11根据分离模式单独地呈现识别结果。
在图6的示例中,包含额外信息数据的语音识别开始命令从客户端11发送到服务器12。额外信息数据符合例如JSON,并含有separation_level、current_text、target_phrase以及edit_mode。separation_level表示由客户端11设置的分离模式,并且是用于在呈现识别的句子时控制分离的分离控制信息。current_text指示用户设置的修改范围的当前识别结果。注意,基于修饰单元设置修改范围。target_phrase指示要通过输入声音修改的current_text中的短语。该示例示出了要修改的短语是“起诉(sue)”的情况。edit_mode表示修改模式。例如,edit_mode在重写模式下设置为“OVERWRITE”,在插入模式下设置为“INSERT”。
相反,识别结果数据从服务器12传输至客户端11。识别结果数据以类似于图5中的示例的方式包含结果和confidence_level。在此处,在获得“看到(see)”,作为识别结果的情况下,服务器12通过用“看到(see)”替换“起诉(sue)”来生成要发送到客户端11的识别结果。“起诉(sue)”是“我起诉某人”中的target_phrase,“我起诉某人”是额外信息数据的current_text。此外,服务器12(呈现控制单元72)根据客户端11指定的separation_level(分离模式)将识别结果分为“我看到”和“某人”,并将识别结果设置为识别结果数据的结果。
在该配置中,客户端11可以通过在保持由识别结果数据的结果指示的分离的同时呈现识别结果,来以客户端11设置的分离模式呈现识别结果。
以这种方式,在呈现识别结果(识别的句子)时的分离位置基于与语音识别有关的上下文(例如,试验次数、执行上下文等)而改变,并且修饰单元改变。该配置可以适当地缩小用户输入语音以修改识别结果的范围,并且减轻了用户的负担。此外,可以预期,与例如输入整个句子的情况相比,缩小语音的输入范围,使得用户小心地输入语音,并且提高了识别准确度。
此外,随着试验次数的增加,通过延长修饰单元来提高识别精度,并且用户可以快速获得期望的识别结果。
<1-3.信息处理系统10的处理的第二实施例>
接下来,将参考图7到10描述信息处理系统10的处理的第二实施例。注意,虽然在第一实施例中,客户端11设置分离模式,但是服务器12在第二实施例中设置分离模式。
(客户端11的处理)
首先将参考图7的流程图描述客户端11的处理。注意,例如,当用户经由操作单元22输入执行语音识别的指令时,开始处理。
在步骤S101中,以与图2中的步骤S1的处理类似的方式,检测与语音识别的执行有关的上下文(执行上下文)。
在步骤S102中,语音识别控制单元41请求执行语音识别。具体地,语音识别控制单元41生成语音识别开始命令。此外,语音识别控制单元41根据需要将额外信息数据添加到语音识别开始命令。尽管稍后将描述额外信息数据的细节,但是例如包含与语音识别有关的上下文(例如,试验次数和执行上下文)。语音识别控制单元41经由通信单元26将语音识别开始命令发送到服务器12。
服务器12在稍后描述的图8中的步骤S151中接收语音识别开始命令。
在步骤S103中,以与图2中的步骤S4的处理类似的方式接收语音输入。
在步骤S158中,服务器12在图8中的后述步骤S152中接收语音数据,基于语音数据执行语音识别,并且将表示识别结果的识别结果数据发送到客户端11。注意,识别结果数据包含用于指示分离模式和在呈现识别的句子时控制分离的分离控制信息。
在步骤S104中,以与图2中的步骤S5的处理类似的方式接收识别结果。
在步骤S105中,显示单元23在呈现控制单元42的控制下以指定的分离模式呈现识别结果。换言之,呈现控制单元42基于包含在从服务器12接收的识别结果数据中的分离控制信息来设置分离模式,控制显示单元23,使得以设置的分离模式呈现识别的句子。
在步骤S106中,以与图2中的步骤S7的处理类似的方式,确定识别结果是否需要修改。在确定识别结果需要修改的情况下,处理进入步骤S107。
在步骤S107中,以与步骤S102的处理类似的方式请求执行语音识别。
在步骤S108中,以与图2中的步骤S11的处理类似的方式接收语音输入。
在步骤S109中,以与图2中的步骤S12的处理类似的方式接收识别结果。
在步骤S110中,呈现控制单元42基于从服务器12接收的识别结果数据中包含的分离控制信息来确定是否指定了手动输入模式。在确定未指定手动输入模式的情况下,处理返回到步骤S105。
此后,重复执行步骤S105至S110的处理,直到在步骤S106中确定识别结果不需要修改,或者在步骤S110中确定指定手动输入模式。
相反,在步骤S110中确定指定了手动输入模式的情况下,处理进入步骤S111。
在步骤S111中,显示单元23在呈现控制单元42的控制下以手动输入模式呈现识别结果。换言之,如上述图3所示,识别的句子与字符输入栏101一起呈现。
在步骤S112中,以与图2中的步骤S7的处理类似的方式确定识别结果是否需要修改。在确定识别结果需要修改的情况下,处理进入步骤S113。
在步骤S113中,以与图2中的步骤S14的处理类似的方式接收通过手动输入的识别结果的修改。
此后,处理进入步骤S114。
相反,在步骤S106或S112中确定识别结果不需要修改,处理进入步骤S114。
在步骤S114中,以与图2中的步骤S15的处理类似的方式确认识别结果。
在步骤S115中,在图2的步骤S116中,确定是否要继续语音识别。在确定继续语音识别的情况下,处理返回到步骤S102。
此后,重复执行步骤S102到S115的处理,直到在步骤S115中确定完成语音识别。
相反,在步骤S115中确定语音识别完成,客户端11的处理结束。
(服务器12的处理)
接下来,将参考图8的流程图,与图7中的客户端11的处理相对应地描述由服务器12执行的处理。
在步骤S151中,以与图4中的步骤S51的处理类似的方式,确定是否请求执行语音识别。在预定时间重复执行步骤S151的确定处理,直到确定请求执行语音识别。在确定执行语音识别的执行的情况下,处理进入步骤S152。
在步骤S152中,以与图4中的步骤S52的处理类似的方式执行语音识别。
在步骤S153中,呈现控制单元72基于语音识别开始命令的额外信息数据来确定是否是第一次尝试。在确定是第一次试验的情况下,处理进入步骤S154。
在步骤S154中,呈现控制单元72设置分离模式的初始值。例如,呈现控制单元72基于包含在语音识别开始命令的额外信息数据中的执行上下文的检测结果,通过与在图2的步骤S2中由客户端11执行的方法类似的方法来设置分离模式的初始值。
此后,处理进入步骤S158。
相反,在步骤S153中确定是第二次或后续试验的情况下,处理进入步骤S155。
在步骤S155中,呈现控制单元72确定是否要执行对手动输入模式的改变。注意,步骤S155中的确定条件类似于图2中的步骤S8中的确定条件。在确定不执行对手动输入模式的改变的情况下,处理然后进入步骤S156。
在步骤S156中,呈现控制单元72根据需要改变分离模式。具体地,在当前分离模式中已经尝试了预定次数的语音识别的情况下,呈现控制单元72将分离模式变为紧接当前模式的模式。相反,在当前分离模式中尚未尝试预定次数的语音识别的情况下,呈现控制单元72将分离模式变为紧接当前模式的模式。
此后,处理进入步骤S158。
相反,在步骤S155中,在确定要执行对手动输入模式的改变的情况下,处理进入步骤S157。
在步骤S157中,呈现控制单元72执行对手动输入模式的设置。
此后,处理进入步骤S158。
在步骤S158中,呈现控制单元72传输识别结果。具体地,呈现控制单元72生成包含识别结果和分离控制信息的识别结果数据。注意,识别结果数据可以包含例如识别结果的可靠性等。呈现控制单元72经由通信单元61将识别结果数据发送到客户端11。
此后,处理返回到步骤S151,并且执行步骤S151之后的处理。
图9和10示出了在图7和8的处理中在客户端11和服务器12之间传输和接收的数据的示例。
在图9的示例中,包含额外信息数据的语音识别开始命令从客户端11发送到服务器12。额外信息数据符合例如JSON,并含有trial_num和session_id。session_id是用于识别语音识别会话的ID。在同一句子的语音识别会话中设置相同的session_id,并且在其他句子的语音识别会话之间设置不同的session_id。trial_num表示同一会话内语音识别的试验次数。该示例表示trial_num=3,表明这是同一会话中语音识别的第三次试验,并且在过去的两次试验中尚未获得期望的识别结果。
注意,尽管未示出,但额外信息数据包含例如客户端11提供的执行上下文的检测结果。
相反,识别结果数据从服务器12传输至客户端11。识别结果数据符合例如JSON,并含有结果和separation_mode。结果表明识别结果。在该示例中,结果中设置的识别结果(识别的句子)不分开。separation_mode是表示分离模式的分离控制信息。基于separation_mode控制在客户端11中呈现识别结果时的分离。换言之,客户端11根据在separation_mode中设置的分离模式,分别呈现在结果中设置的识别结果。
在图10的示例中,包含与在图9的示例中的额外信息数据类似的额外信息数据的语音识别开始命令从客户端11发送到服务器12。注意,尽管未示出,但是额外信息数据包含例如客户端11提供的执行上下文的检测结果。
相反,识别结果数据从服务器12传输至客户端11。识别结果数据符合例如JSON,并含有结果。结果表明识别结果。在该示例中,根据分离模式分离在结果中设置的识别结果(识别的句子)。在该配置中,客户端11可以通过在保持由识别结果数据的结果指示的分离的同时呈现识别结果,来在服务器12设置的分离模式中呈现识别结果。在该示例中,在结果中设置的识别结果的分离因此对应于分离控制信息。
以这种方式,服务器12还可以控制客户端11的分离模式。
注意,例如,在相同用户可能使用多个这种的情况下,并且输入语音的方法和内容的差异在用户之间小(例如,在对网络搜索浏览器的语音输入中),并且可以向其他用户开发控制分离模式的方法的情况下,优选地在服务器12侧控制每个客户端11的分离模式。
相反,例如,在输入语音的方法和内容的差异在用户之间大的情况下,优选地,在客户端11侧控制分离模式。例如,在客户端11是游戏控制台的情况下,假设在客户端11侧控制分离模式,因为在输入语音的方法和内容的差异在用户之间大,用于控制分离模式的存储区域可能是安全的。
<<2.变型例>>
现在将描述本技术的上述实施例的变化。
<2-1.与系统的配置示例相关的变化>
图1中的信息处理系统10的配置示例是其一个示例,并且可以根据需要改变。
例如,可以在服务器12中提供客户端11的部分功能,并且可以在客户端11中提供服务器12的部分功能。
此外,例如,客户端11和服务器12可以集成为一个装置并执行上述处理。
此外,例如,可以在客户端11和服务器12之间共享对分离模式的控制。
此外,例如,客户端11可以将与上下文有关的数据(例如,语音数据和传感器数据)发送到服务器12,并且服务器12可以检测与语音识别有关的上下文。
<2-2.与呈现识别结果的方法有关的变化>
例如,本技术也可以应用于在没有分离地呈现识别的句子的情况。
例如,如图11所示,在服务器12获得识别的句子“我起诉穿着红色衬衫的人”,用于输入语音“我看到穿着红色衬衫的人”的情况下,呈现识别的句子,因为这首先出现在客户端11。
接下来,用户删除所呈现的识别句子的“起诉”,并重新输入语音“看到”。对于该操作,在获得识别结果“起诉”的情况下,将作为识别结果新获得的“起诉”插入要呈现的删除的“起诉”的位置。此时,光标131显示在“我起诉”的位置,并显示消息132。光标131指示推荐重新输入语音的范围。消息132指示在“起诉”(例如,“我”)之前输入短语同时提高了识别准确度。
然后,用户删除所呈现的识别语句的“我起诉”,并重新输入语音“我看到”。对于该操作,在获得识别结果“我起诉”的情况下,将作为识别结果新获得的“我起诉”插入要呈现的删除的“我起诉”的位置。此时,光标133显示在“我起诉某人”的位置,并显示消息134。光标133指示推荐重新输入语音的范围。消息134指示在“起诉”(例如,“我”和“某人”)之前和之后输入单词同时提高了识别准确度。
然后,用户删除所呈现的识别语句“我起诉某人”,并重新输入语音“我看到某人”。对于该操作,在获得识别结果“我起诉某人”的情况下,将新获得的“我起诉某人”作为识别结果插入到要呈现的删除的“我起诉某人”的位置。此时,在“我起诉某人”的位置显示光标135。光标135指示推荐重新输入语音的范围。此外,在相同错误重复一定次数或更多次的情况下,显示消息136。消息136指示推荐由光标135指示的部分的释义到其他表达和表达的输入,以便获得正确的识别结果。
以这种方式,即使在没有分离地呈现识别的句子的情况下,也可以通过改变推荐重新输入语音的范围并呈现改变的范围来获得与上述呈现方法中的效果类似的效果。
注意,在使用例如dai词汇和一个字符的语音识别引擎的情况下,使用呈现方法,并且对一个字符使用语音识别引擎的单字符模式可能会被用户通过不同的使用来频繁地执行。
此外,尽管在呈现方法中没有分离地呈现所识别的句子,但是通过改变推荐重新输入语音的范围,可以认为部分地改变所识别的句子的分离。
此外,例如,本技术还可以应用于识别的句子不是通过视觉而是通过语音呈现的情况。
例如,在获得识别的句子“我起诉穿着红色衬衫的人”的情况下,输出语音“一个,我起诉”,“两个,人”,“三个,带”和“四个,红色衬衫”,作为识别结果。换言之,识别的句子通过语音呈现,其中,识别的句子以修饰单元为基础分开,并且在每个修饰单元之前添加用于唯一地标识每个修饰单元的数字。此外,在识别句子输出到末端之后,输出语音消息,提示用户确认例如“你没事吧?”。
对于该操作,用户通过数字指定希望通过输入语音来修改的部分,例如,“改变一个”。此后,通过重新输入用户指定的部分的语音来执行对重新输入语音的语音识别。
接下来,例如,识别的句子的分离变为“一个,我起诉某人”和“两个,穿着红色衬衫”,并且在每个修饰单元之前添加用于唯一地识别每个修饰单元的数字。然后,通过语音呈现所识别的句子。此外,在识别句子输出到模锻之后,输出语音消息,提示用户确认例如“你没事吧?”。
以这种方式,随着试验次数以与视觉呈现识别的句子的情况类似的方式增加,识别的句子的分离延长。在不能获得期望的识别结果并且最终不再能够识别所识别的句子的情况下,然后,将输入模式变为单字符模式。然后,输出语音消息,提示输入由一个字符输入的短语的拼写,例如“请拼写你的单词”。
以这种方式,同样在通过语音呈现识别的句子的情况下,识别的句子可以在修饰单元的基础上单独呈现,并且在每个修饰单元中以与视觉上呈现识别的句子的情况类似的方式修改。
注意,过度分离的识别句子在读取识别的句子时导致巨大的信息量。为了避免这种情况,可以通过提供例如分离的最大数量,来限制识别的句子的分离数量。此外,例如,为了避免过多次试验语音识别,例如,可以通过提供最大试验次数来限制试验次数,并且可以在试验次数已达到最大试验次数之后,执行转换到单字符模式。
<2-3.与分离模式有关的变化>
分离模式的类型和转换方法不限于上述示例,并且可以可选地改变。
例如,代替在单字符模式之后立即转换到手动输入模式,可以执行转换到诸如单词划分模式等其他分离模式。
此外,例如,可以在子句/短语连接模式之后执行转换到单字符模式。
此外,例如,可以基于执行上下文来改变分离模式的转换方法。
此外,例如,可以基于除了执行上下文之外的与语音识别有关的试验次数和上下文,来控制分离模式的转换。例如,可以基于例如语音识别的可靠性和执行语音识别的句子的长度,来控制分离模式的转换。
此外,在上述描述中,随着试验次数的增加,识别的句子的分离延长的示例。相反,可以缩短识别句子的分离。
此外,可以增加或减少上述分离模式的类型。例如,识别的句子可以在以浊音结束的短语的位置处分开。
<<3.应用>>
上述一系列处理可以由硬件和软件执行。在通过软件执行一系列处理的情况下,将构成软件的程序安装在计算机中。在此处,计算机包括包含在专用硬件中的计算机,例如,能够通过安装各种程序来执行各种功能的通用个人计算机。
图12是示出利用程序执行上述一系列处理的计算机的硬件的配置示例的方框图。
在计算机中,中央处理单元(CPU)301、只读存储器(ROM)302和随机存取存储器(RAM)303经由总线304相互连接。
输入/输出接口305也连接到总线304。输入单元306、输出单元307、存储单元308、通信单元309和驱动器310连接到输入/输出接口305。
输入单元306包括键盘、鼠标和麦克风。输出单元307包括显示器和扬声器。存储单元308包括硬盘和非易失性存储器。通信单元309包括网络接口。驱动器310驱动可移动介质311,例如,磁盘、光盘、磁光盘和半导体存储器。
在上述配置的计算机中,上述一系列处理由CPU 301执行,例如,经由输入/输出接口305和总线304将存储在存储单元308中的程序加载到RAM 303中,并执行程序。
由计算机(CPU 301)执行的程序可以提供有存储在可移动介质311中的程序,例如,作为封装介质。此外,可以经由诸如局域网、因特网和数字卫星广播等有线或无线传输介质,来提供程序。
在计算机中,通过将可移动介质311安装在驱动器310中,可以经由输入/输出接口305将程序安装在存储单元308中。此外,可以由通信单元309经由有线或无线传输介质接收程序,并且该程序安装在存储单元308中。另外,程序可以预先安装在ROM 302和存储单元308中。
注意,在由计算机执行的程序中,可以按照说明书的描述的顺序按时间顺序执行处理,或者可以并行地执行处理,或者在必要时(例如,在执行呼叫的时间)执行处理。
此外,多个计算机可以协作,以执行上述处理。然后,计算机系统由执行上述处理的单个或多个计算机构成。
此外,在说明书中,系统意味着一组多个组件(例如,装置和模块(部件)),并且所有组件是否放置在同一壳体中并不重要。因此,容纳在单独的壳体中并经由网络连接的多个装置和具有容纳在单个壳体中的多个模块的单个装置都被定义为系统。
此外,本技术的实施例不限于上述实施例,并且在不脱离本技术的精神的情况下,可以进行各种改变。
例如,本技术可以采用云计算的配置,其中,多个装置经由网络共享单个功能,并且协作地执行处理。
此外,除了单个装置可以执行上述流程图中描述的每个步骤之外,多个装置可以共享和执行每个步骤。
此外,在单个步骤包括多个处理的情况下,除了单个装置可以执行包含在单个步骤中的多个处理之外,多个装置可以共享和执行多个处理。
此外,说明书中描述的效果不是限制性的,而仅仅是示例,并且可以提供其他效果。
此外,例如,本技术还可以具有如下配置。
(1)一种信息处理装置,包括呈现控制单元,所述呈现控制单元基于与语音识别相关的上下文来控制在呈现语音识别的识别结果时的分离。
(2)根据(1)所述的信息处理装置,
其中,通过分离识别结果来确定允许修改识别结果的单元。
(3)根据(1)或(2)所述的信息处理装置,还包括语音识别单元,
其中,所述呈现控制单元控制由语音识别单元呈现的识别结果的分离。
(4)根据(3)所述的信息处理装置,
其中,所述呈现控制单元生成用于控制识别结果的分离的控制信息,并输出识别结果和控制信息。
(5)根据(4)所述的信息处理装置,还包括通信单元,其从其他信息处理装置接收输入语音,并将识别结果和控制信息发送到其他信息处理装置,
其中,所述语音识别单元对所述输入语音执行语音识别,并且
所述呈现控制单元基于控制信息控制在其他信息处理装置中呈现识别结果时的分离。
(6)根据(5)所述的信息处理装置,
其中,所述通信单元从所述其他信息处理装置接收指示所述上下文的数据,并且
所述呈现控制单元基于指示上下文的数据控制在其他信息处理装置中呈现识别结果时的分离。
(7)根据(3)所述的信息处理装置,还包括通信单元,
其中,所述通信单元从其他信息处理装置接收输入语音和控制信息,用于控制识别结果的分离,
所述语音识别单元对输入语音执行语音识别,
所述呈现控制单元基于控制信息分离由语音识别单元呈现的识别结果,并且
所述通信单元将由呈现控制单元分离的识别结果发送到其他信息处理装置。
(8)根据(1)或(2)所述的信息处理装置,还包括通信单元,所述通信单元向其他信息处理装置传输输入语音,并从其他信息处理装置接收通过对输入语音执行语音识别而获得的识别结果,
其中,所述呈现控制单元在呈现从其他信息处理装置接收的识别结果时控制分离。
(9)根据(8)所述的信息处理装置,
其中,所述通信单元从所述其他信息处理装置接收用于控制识别结果的分离的控制信息,并且
所述呈现控制单元基于控制信息来控制在呈现从其他信息处理装置接收的识别结果时的分离。
(10)根据(8)所述的信息处理装置,
其中,所述通信单元向所述其他信息处理装置传输用于控制所述识别结果的分离的控制信息,并且从所述其他信息处理装置接收基于所述控制信息分离的识别结果,并且
所述呈现控制单元控制由其他信息处理装置分离的识别结果的呈现。
(11)根据(1)至(10)中任一项所述的信息处理装置,
其中,所述上下文包含语音识别的试验次数。
(12)根据(11)所述的信息处理装置,
其中,随着试验次数的增加,所述呈现控制单元延长识别结果的分离。
(13)根据(11)所述的信息处理装置,
其中,随着试验次数的增加,所述呈现控制单元缩短识别结果的分离。
(14)根据(1)至(13)中任一项所述的信息处理装置,
其中,所述上下文包含输入语音时的噪声环境或语音识别的使用中的至少一个。
(15)一种信息处理方法,包括呈现控制步骤,用于基于与语音识别相关的上下文来控制在呈现语音识别的识别结果时的分离。
附图标记列表
10 信息处理系统
11 客户端
12 服务器
21 语音输入单元
23 显示单元
24 呈现单元
25 传感器单元
26 通信单元
27 控制单元
41 语音识别控制单元
42 呈现控制单元
43 上下文检测单元
61 通信单元
62 控制单元
71 语音识别单元
72 呈现控制单元。

Claims (15)

1.一种信息处理装置,包括呈现控制单元,所述呈现控制单元基于与语音识别相关的上下文来控制在呈现语音识别的识别结果时的分离。
2.根据权利要求1所述的信息处理装置,
其中,通过所述识别结果的分离来确定允许修改所述识别结果的单元。
3.根据权利要求1所述的信息处理装置,还包括语音识别单元,
其中,所述呈现控制单元控制语音识别单元的所述识别结果的分离。
4.根据权利要求3所述的信息处理装置,
其中,所述呈现控制单元生成用于控制所述识别结果的分离的控制信息,并输出所述识别结果和所述控制信息。
5.根据权利要求4所述的信息处理装置,还包括通信单元,所述通信单元从其他信息处理装置接收输入语音并将所述识别结果和所述控制信息发送到所述其他信息处理装置,
其中,所述语音识别单元对所述输入语音执行语音识别,并且所述呈现控制单元基于所述控制信息控制在所述其他信息处理装置中呈现所述识别结果时的分离。
6.根据权利要求5所述的信息处理装置,
其中,所述通信单元从所述其他信息处理装置接收指示所述上下文的数据,并且
所述呈现控制单元基于指示所述上下文的数据来控制在所述其他信息处理装置中呈现所述识别结果时的分离。
7.根据权利要求3所述的信息处理装置,还包括通信单元,
其中,所述通信单元从其他信息处理装置接收输入语音和用于控制所述识别结果的分离的控制信息,
所述语音识别单元对输入语音执行语音识别,
所述呈现控制单元基于所述控制信息分离所述语音识别单元的所述识别结果,并且
所述通信单元将由所述呈现控制单元分离的所述识别结果发送到所述其他信息处理装置。
8.根据权利要求1所述的信息处理装置,还包括通信单元,所述通信单元向其他信息处理装置发送输入语音,并从所述其他信息处理装置接收通过对输入语音执行语音识别而获得的所述识别结果,
其中,所述呈现控制单元控制在呈现从所述其他信息处理装置接收的所述识别结果时的分离。
9.根据权利要求8所述的信息处理装置,
其中,所述通信单元从所述其他信息处理装置接收用于控制所述识别结果的分离的控制信息,并且
所述呈现控制单元基于所述控制信息来控制在呈现从所述其他信息处理装置接收的所述识别结果时的分离。
10.根据权利要求8所述的信息处理装置,
其中,所述通信单元向所述其他信息处理装置发送用于控制所述识别结果的分离的控制信息,并且从所述其他信息处理装置接收基于所述控制信息分离的所述识别结果,并且
所述呈现控制单元控制由所述其他信息处理装置分离的所述识别结果的呈现。
11.根据权利要求1所述的信息处理装置,
其中,所述上下文包含语音识别的试验次数。
12.根据权利要求11所述的信息处理装置,
其中,随着试验次数的增加,所述呈现控制单元延长所述识别结果的分离。
13.根据权利要求11所述的信息处理装置,
其中,随着试验次数的增加,所述呈现控制单元缩短所述识别结果的分离。
14.根据权利要求1所述的信息处理装置,
其中,所述上下文包含输入语音时的噪声环境和语音识别的用途中的至少一个。
15.一种信息处理方法,包括呈现控制步骤,用于基于与语音识别相关的上下文来控制在呈现语音识别的识别结果时的分离。
CN201780050727.2A 2016-08-26 2017-08-14 信息处理装置和信息处理方法 Withdrawn CN109643544A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2016165711 2016-08-26
JP2016-165711 2016-08-26
PCT/JP2017/029255 WO2018037956A1 (ja) 2016-08-26 2017-08-14 情報処理装置及び情報処理方法

Publications (1)

Publication Number Publication Date
CN109643544A true CN109643544A (zh) 2019-04-16

Family

ID=61244887

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201780050727.2A Withdrawn CN109643544A (zh) 2016-08-26 2017-08-14 信息处理装置和信息处理方法

Country Status (5)

Country Link
US (1) US10950240B2 (zh)
EP (1) EP3506256A4 (zh)
JP (1) JP6922920B2 (zh)
CN (1) CN109643544A (zh)
WO (1) WO2018037956A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112712825A (zh) * 2020-12-30 2021-04-27 维沃移动通信有限公司 音频处理方法、装置及电子设备

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10950240B2 (en) * 2016-08-26 2021-03-16 Sony Corporation Information processing device and information processing method
EP3809671A4 (en) * 2018-07-04 2021-06-02 Huawei Technologies Co., Ltd. MESSAGE READING PROCESS AND TERMINAL
EP3931826A4 (en) * 2019-08-13 2022-05-11 Samsung Electronics Co., Ltd. SERVER SUPPORTING VOICE RECOGNITION OF A DEVICE AND METHOD OF OPERATING THE SERVER
CN111243587A (zh) * 2020-01-08 2020-06-05 北京松果电子有限公司 语音交互方法、装置、设备及存储介质
JP7481894B2 (ja) 2020-05-11 2024-05-13 日本放送協会 発話音声テキスト生成装置、発話音声テキスト生成プログラムおよび発話音声テキスト生成方法

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5566272A (en) * 1993-10-27 1996-10-15 Lucent Technologies Inc. Automatic speech recognition (ASR) processing using confidence measures
US5884258A (en) * 1996-10-31 1999-03-16 Microsoft Corporation Method and system for editing phrases during continuous speech recognition
JP3082746B2 (ja) * 1998-05-11 2000-08-28 日本電気株式会社 音声認識システム
US8311823B2 (en) * 2006-08-31 2012-11-13 Sony Mobile Communications Ab System and method for searching based on audio search criteria
JP4997601B2 (ja) * 2006-11-30 2012-08-08 独立行政法人産業技術総合研究所 音声データ検索用webサイトシステム
JP4791984B2 (ja) * 2007-02-27 2011-10-12 株式会社東芝 入力された音声を処理する装置、方法およびプログラム
US8510103B2 (en) * 2009-10-15 2013-08-13 Paul Angott System and method for voice recognition
US8645136B2 (en) * 2010-07-20 2014-02-04 Intellisist, Inc. System and method for efficiently reducing transcription error using hybrid voice transcription
JP5396426B2 (ja) * 2011-04-21 2014-01-22 株式会社Nttドコモ 音声認識装置、音声認識方法及び音声認識プログラム
US9064492B2 (en) * 2012-07-09 2015-06-23 Nuance Communications, Inc. Detecting potential significant errors in speech recognition results
US8924211B2 (en) * 2012-07-09 2014-12-30 Nuance Communications, Inc. Detecting potential significant errors in speech recognition results
US8924213B2 (en) * 2012-07-09 2014-12-30 Nuance Communications, Inc. Detecting potential significant errors in speech recognition results
US9064493B2 (en) * 2012-07-09 2015-06-23 Nuance Communications, Inc. Detecting potential significant errors in speech recognition results
US9070367B1 (en) * 2012-11-26 2015-06-30 Amazon Technologies, Inc. Local speech recognition of frequent utterances
US9818407B1 (en) * 2013-02-07 2017-11-14 Amazon Technologies, Inc. Distributed endpointing for speech recognition
US9437186B1 (en) * 2013-06-19 2016-09-06 Amazon Technologies, Inc. Enhanced endpoint detection for speech recognition
US9448991B2 (en) * 2014-03-18 2016-09-20 Bayerische Motoren Werke Aktiengesellschaft Method for providing context-based correction of voice recognition results
JP6284462B2 (ja) 2014-09-22 2018-02-28 株式会社日立製作所 音声認識方法、及び音声認識装置
JP2016109725A (ja) * 2014-12-02 2016-06-20 ソニー株式会社 情報処理装置、情報処理方法およびプログラム
US10950240B2 (en) * 2016-08-26 2021-03-16 Sony Corporation Information processing device and information processing method

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112712825A (zh) * 2020-12-30 2021-04-27 维沃移动通信有限公司 音频处理方法、装置及电子设备
CN112712825B (zh) * 2020-12-30 2022-09-23 维沃移动通信有限公司 音频处理方法、装置及电子设备

Also Published As

Publication number Publication date
JP6922920B2 (ja) 2021-08-18
JPWO2018037956A1 (ja) 2019-06-20
WO2018037956A1 (ja) 2018-03-01
EP3506256A1 (en) 2019-07-03
US20200327893A1 (en) 2020-10-15
EP3506256A4 (en) 2019-08-21
US10950240B2 (en) 2021-03-16

Similar Documents

Publication Publication Date Title
US11574116B2 (en) Apparatus and method for providing summarized information using an artificial intelligence model
CN109643544A (zh) 信息处理装置和信息处理方法
EP3821330B1 (en) Electronic device and method for generating short cut of quick command
WO2021139701A1 (zh) 一种应用推荐方法、装置、存储介质及电子设备
US10789078B2 (en) Method and system for inputting information
US20190339840A1 (en) Augmented reality device for rendering a list of apps or skills of artificial intelligence system and method of operating the same
US20180366114A1 (en) Exporting dialog-driven applications to digital communication platforms
US10970900B2 (en) Electronic apparatus and controlling method thereof
US11157694B2 (en) Content suggestion system
JP2018036621A (ja) 情報入力方法および装置
US10789952B2 (en) Voice command execution from auxiliary input
EP3866160A1 (en) Electronic device and control method thereof
US20170115853A1 (en) Determining Image Captions
US11501753B2 (en) System and method for automating natural language understanding (NLU) in skill development
US20200051559A1 (en) Electronic device and method for providing one or more items in response to user speech
KR20190118108A (ko) 전자 장치 및 그의 제어방법
KR20190115405A (ko) 검색 방법 및 이 방법을 적용하는 전자 장치
CN109643545A (zh) 信息处理设备和信息处理方法
US20240045899A1 (en) Icon based tagging
CN115269989B (zh) 对象推荐方法、装置、电子设备和存储介质
US20230015797A1 (en) User terminal and control method therefor
JP2023547299A (ja) オブジェクト推薦方法及び装置
US20170052590A1 (en) System and method for generating identifiers from user input associated with perceived stimuli
US10380460B2 (en) Description of content image
WO2020193391A1 (en) An apparatus and method for performing image-based dish recognition

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20190416