CN109074809B

CN109074809B - 信息处理设备、信息处理方法和计算机可读存储介质

Info

Publication number: CN109074809B
Application number: CN201780024800.9A
Authority: CN
Inventors: 河野真一; 泷祐平
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2016-07-26
Filing date: 2017-04-24
Publication date: 2020-06-23
Anticipated expiration: 2037-04-24
Also published as: EP3493201A4; JPWO2018020763A1; CN109074809A; EP3493201B1; WO2018020763A1; JP2019124952A; JP6915637B2; US10847154B2; US20190103110A1; JP6496942B2; EP3493201A1

Abstract

[问题]提供可以用来执行话语识别的信息处理设备、信息处理方法和计算机可读存储介质，该话语识别适应于收集音频状态中的兴奋水平。[解决方案]一种信息处理设备，该信息处理设备设置有：获取单元，获取单元获取指示收集话语状态中的兴奋水平的信息，其中：收集状态是对包括用户话语声音的语音数据进行收集的状态，并且指示兴奋程度的信息包括包括音量或声音频率的语音数据的声音的属性信息；以及话语识别单元，话语识别单元基于指示兴奋水平的信息、兴奋程度与第一阈值之间的比较以及兴奋程度大于第一阈值的持续时间的长度来执行基于话语中的音素的第一话语识别。

Description

信息处理设备、信息处理方法和计算机可读存储介质

技术领域

本公开内容涉及信息处理设备、信息处理方法和计算机可读存储介质。

背景技术

过去，已经提出了与自然语言处理相关的各种技术。例如，以下专利文献1公开了基于用户在多个短语当中选择的短语来生成句子的技术。

此外，还提出了与语音识别相关的各种技术。在语音识别中，可以将正在讲话的用户的语音转换成字符串。

引用列表

专利文献

专利文献1：JP 2012-53634A

发明内容

技术问题

然而，在现有技术中，例如，无论用户在声音收集状态下的兴奋程度如何，都对所收集的语音固定地执行语音识别。因此，在现有技术中，无法获得反映兴奋程度的语音识别结果。

在这方面，本公开内容提出了新颖的和改进的、并且能够适应于声音收集状态中的兴奋程度来执行语音识别的信息处理设备、信息处理方法和程序。

问题的解决方案

根据本公开内容，提供了一种信息处理设备，包括：获取单元，获取单元被配置成获取指示语音的收集状态中的兴奋程度的信息，其中：收集状态是对包括用户话语声音的语音数据进行收集的状态，并且指示兴奋程度的信息包括包括音量或声音频率的语音数据的声音的属性信息；语音识别单元，语音识别单元被配置成基于指示兴奋程度的信息、兴奋程度与第一阈值之间的比较以及兴奋程度大于第一阈值的持续时间的长度来执行基于语音的音素的第一语音识别。

另外，根据本公开内容，提供了一种信息处理方法，包括：获取指示语音的收集状态中的兴奋程度的信息，其中：收集状态是对包括用户话语声音的语音数据进行收集的状态，并且指示兴奋程度的信息包括包括音量或声音频率的语音数据的声音的属性信息；以及由处理器基于指示兴奋程度的信息、兴奋程度与第一阈值之间的比较以及兴奋程度大于第一阈值的持续时间的长度来执行基于语音的音素的第一语音识别。

另外，根据本公开内容，提供了一种计算机可读存储介质，其上存储有包括指令的程序，指令当由计算机执行时使计算机执行上述信息处理方法。

本发明的有益效果

如上所述，根据本公开内容，可以适应于声音收集状态中的兴奋程度来执行语音识别。此外，这里描述的效果不一定是限制性的，并且可以包括本公开内容中描述的任何效果。

附图说明

[图1]图1是示出根据本公开内容的信息处理系统的配置示例的说明图。

[图2]图2是示出根据本公开内容的比较例的语音识别的示例的说明图。

[图3]图3是示出根据实施方式的服务器10的配置示例的功能框图。

[图4]图4是示出根据实施方式的语音识别的示例的说明图。

[图5]图5是示出根据实施方式的集合决定示例的说明图。

[图6]图6是示出根据实施方式的处理流程的一部分的流程图。

[图7]图7是示出根据实施方式的处理流程的一部分的流程图。

[图8]图8是示出根据实施方式的处理流程的一部分的流程图。

[图9]图9是示出根据实施方式的“识别方法控制处理”的流程的流程图。

[图10]图10是示出根据实施方式的“第一语音识别处理”的流程的流程图。

[图11]图11是示出根据实施方式的服务器10的硬件配置示例的说明图。

具体实施方式

在下文中，将参照附图详细描述本公开内容的一个或更多个优选实施方式。注意，在本说明书和附图中，具有基本相同的功能和结构的结构元件用相同的附图标记表示，并且省略对这些结构元件的重复说明。

此外，在本说明书和附图中，通过在相同的附图标记后面附加不同的字母来区分具有基本相同的功能配置的多个组成元件。例如，如果需要，可以区分具有基本相同功能配置的多个配置，如服务器10a和服务器10b。这里，在不必特别区分具有基本相同的功能配置的多个组成元件中的每一个的情况下，仅附上相同的附图标记。例如，在不需要特别区分服务器10a和服务器10b的情况下，将服务器10a和服务器10b简称为服务器10。

此外，将根据下面描述的项目的顺序描述“用于执行本发明的模式”。

1.信息处理系统的配置

2.对实施方式的详细描述

3.硬件配置

4.修改例

<<1.信息处理系统的配置>>

首先，将参照图1描述根据本公开内容的信息处理系统的配置。如图1所示，信息处理系统包括服务器10、终端20和通信网络22。

<1-1.终端20>

终端20是由用户使用的信息处理终端。例如，终端20可以收集诸如用户的话语之类的声音或者显示显示画面。

如图1所示，终端20包括例如声音收集单元200和操纵/显示单元202。声音收集单元200是例如麦克风。声音收集单元200检测外部声音(空气振动)并且将检测到的声音转换成电信号。

操纵/显示单元202包括用于显示显示画面的显示单元以及用于检测用户的触摸操纵的操纵单元。显示单元包括例如液晶显示(LCD)设备或有机发光二极管(OLED)设备。此外，操纵单元包括例如触摸板。

此外，终端20可以经由稍后描述的通信网络22与其他设备通信。例如，终端20经由通信网络22将由声音收集单元200收集的语音数据发送到服务器10。此外，例如，终端20可以在单个语音输入时将语音数据集中地发送到服务器，或者可以以预定的时间间隔将仅在预定时间段期间收集的语音顺序地(例如，实时地)发送到服务器10。

{1-1-1.修改例}

此外，尽管图1示出了终端20是智能手机的示例，但是终端20不限于该示例。例如，终端20可以是通用个人计算机(PC)、平板终端、游戏机、除智能手机之外的电话、便携式音乐播放器、电视接收器、机器人或者诸如头戴式显示器(HMD)、耳机或智能手表的可穿戴式设备等。

此外，终端20的配置不限于上述示例。例如，终端20可以不包括操纵/显示单元202。在这种情况下，包括上述显示单元和上述操纵单元的任何其他设备(未示出)可以连接到通信网络22。此外，显示单元和操纵单元可以被包括在单个设备中或者可以被包括在分立的设备中。

<1-2.服务器10>

服务器10是本公开内容中的信息处理设备的示例。服务器10具有语音识别功能。例如，服务器10可以对经由通信网络22从终端20接收的语音数据执行语音识别(云语音识别)。此外，服务器10可以对从语音识别结果获得的字符串组执行各种类型的语言处理。这里，字符串组包括一个或更多个字符串。

此外，服务器10可以基于针对字符串组的语言处理结果来确定字符串组的一个或更多个集合。此外，服务器10可以执行控制，使得一个或更多个所决定的集合被显示在终端20上。这里，集合包括一个或更多个字符。例如，集合可以包括一个或更多个词汇。更具体地，在语言是英语、德语等的情况下，集合可以包括一个或更多个单词。此外，在语言是日语的情况下，集合可以包括一个或更多个短语。

<1-3.通信网络22>

通信网络22是从连接到通信网络22的设备发送的信息的有线或无线传输路径。通信网络22的示例包括诸如电话网、因特网或卫星通信网的公共线路网络、包括以太网(注册商标)和广域网(WAN)的各种类型的局域网(LAN)。此外，通信网络22可以包括诸如互联网协议-虚拟专用网(IP-VPN)的专用线路网络。

<1-4.对问题的描述>

上面已经描述了本实施方式的信息处理系统的配置。这里，为了阐明本实施方式的特征，将描述根据本公开内容的比较例的语音识别方法。在本比较例中，使用声学模型和语言模型二者对所收集的语音一致地执行语音识别。然而，例如，在识别目标的语音中包括“喊叫话语”的情况下，在本比较例中，存在可能发生错误识别的问题。

这里，将参照图2更详细地描述上述内容。图2是示出根据本比较例的语音识别示例的说明图。在图2所示的示例中，用户说出话语30“What acoooooooooooooooooooooooooool game”。话语30是这样的话语：如图2所示的音量波形32那样音量暂时增加，好像用户在与“coooooooooooooooooooooooooool”对应的间隔中喊叫一样。在这种情况下，在本比较例中，使用声学模型和语言模型二者对话语30的所有语音数据执行语音识别，并且将语音数据转换成字符串组34。换言之，在本比较例中，不将“喊叫话语”与其他话语进行区分，并且使用声学模型和语言模型一致地执行语音识别。结果，如字符串组34中所示，特别地，“喊叫话语”与紧接在喊叫之前或之后的语音可能被错误地识别。

此外，在本比较例中，对字符串组34执行语言处理，并且基于语言处理的结果来确定两个集合400。如图2所示，两个集合400都包含错误识别的字符串。结果，例如，在以集合为单位编辑字符串的应用中，在用户希望在讲话时按预来期修改字符串组34的情况下，用户不得不删除两个集合400，因此需要花费很多时间和精力来校正。

在这方面，鉴于上述情况发明了根据本实施方式的服务器10。根据本实施方式的服务器10获取指示语音的收集状态中的兴奋程度的信息，并且基于指示兴奋程度的信息来执行基于语音的音素的第一语音识别或者执行不同于第一语音识别的第二语音识别。因此，可以根据用户的兴奋程度动态地改变语音识别方法。例如，可以在包括在所收集的语音数据中的“喊叫话语”与其他话语之间使用不同的语音识别方法来执行语音识别。

<<2.对实施方式的具体描述>>

<2-1.配置>

接下来，将详细描述本实施方式的配置。图3是示出根据本实施方式的服务器10的配置示例的功能框图。如图3所示，服务器10包括控制单元100、通信单元120和存储单元122。

{2-1-1.控制单元100}

控制单元100通常使用诸如中央处理单元(CPU)150(稍后描述)或者安装在其中的随机存取存储器(RAM)154(稍后描述)之类的硬件来控制服务器10的操作。此外，如图3所示，控制单元100包括兴奋程度指定单元102、语音识别单元104和汇集单元110。此外，语音识别单元104包括特征提取单元106和识别单元108。

{2-1-2.兴奋程度指定单元102}

兴奋程度指定单元102是本公开内容中的获取单元的示例。例如，在从终端20接收到语音数据的情况下，兴奋程度指定单元102获取指示语音数据的声音收集状态中的兴奋程度的信息。这里，语音数据的声音收集状态基本上是收集语音数据的状态，但是声音收集状态不限于该示例，并且可以使用紧接着收集语音数据之前或者紧接着收集语音数据之后的状态。此外，语音数据可以仅包括携带终端20的用户的话语声音，可以仅包括例如位于用户附近的另一用户的话语声音，或者可以包括该用户的语音和另一用户的语音二者。

(2-1-2-1.音量)

这里，指示兴奋程度的信息可以包括语音数据的声音的属性信息(例如，音量、声音频率等)。例如，兴奋程度指定单元102基于声音的音量的检测来指定兴奋程度。例如，兴奋程度指定单元102指定兴奋程度，使得兴奋程度随着检测到的声音音量的增加而增加。

(2-1-2-2.尖峰)

此外，指示兴奋程度的信息可以包括指示与语音数据相关的音量或音高的变化程度的信息。例如，在检测到音量或音高在短时间内突然增加(即，尖峰强)的情况下，兴奋程度指定单元102指定例如仅在该时间段中兴奋程度大于第一阈值。

(2-1-2-3.话语的特征)

此外，指示兴奋程度的信息可以包括与从用户的先前话语的学习结果获得的语音的特征与语音数据的特征之间的差异相关的信息。在这种情况下，可以预先累积用户的先前话语的数据，并且可以预先学习用户的话语的声音的特征(例如，与声音的音量和频率特性的组合相关的特征)。然后，兴奋程度指定单元102通过将语音数据的特征与从学习结果获得的特征进行比较来指定兴奋程度。例如，兴奋程度指定单元102指定兴奋程度，使得兴奋程度随着指示语音数据的特征与从学习结果获得的特征之间的差异的值的绝对值的增加而增加。换言之，在确定了对应话语与用户的通常话语显著不同的情况下，可以将兴奋程度设置为大于特定值的值。

(2-1-2-4.其他用户的兴奋)

此外，指示兴奋程度的信息可以包括与不同于对应语音的说话者的用户的状态相关的信息。这里，与另一用户的状态相关的信息可以包括例如内容(例如，电视节目、电影、音乐等)或者当收集语音时由说话者使用的服务(例如，社交网络服务(SNS)、在线游戏等)中的另一用户的兴奋程度的检测结果。此外，例如，可以基于下述来指定另一用户的兴奋程度：参与预定服务的另一用户的面部表情的检测结果(另一用户是否正在笑)或者正在笑的用户的数目、在收集声音时对另一用户的说话状况的检测结果(话语音量是否大于预定阈值、是否检测到笑声等)等。替选地，例如，可以基于对另一用户发布到SNS的句子的语义分析的结果来指定另一用户的兴奋程度。

此外，与另一用户的状态相关的信息可以包括对位于说话者附近的另一用户(例如，在相同设施中或者在预定室外区域中)的兴奋的检测结果。在这种情况下，例如，可以基于另一用户的话语的检测结果或者对另一用户的面部表情的图像分析结果来检测另一用户的兴奋程度。

例如，兴奋程度指定单元102指定兴奋程度，使得兴奋程度随着检测到的另一用户的兴奋程度的增加而增加。此外，对应语音的说话者是本公开内容中的第一用户的示例，而另一用户是本公开内容中的第二用户的示例。

(2-1-2-5.说话者的生物信息)

此外，指示兴奋程度的信息可以包括对应语音的说话者的生物信息。这里，生物信息可以包括例如体温、脉搏率、呼吸率、血压、瞳孔(或眼睛)的开度、脑电波和/或出汗率。例如，兴奋程度指定单元102基于由说话者的生物信息指示的值与兴奋程度之间的预定关系来指定兴奋程度。作为示例，兴奋程度指定单元102指定兴奋程度，使得兴奋程度随着说话者的脉搏率或血压的增加而增加。此外，兴奋程度指定单元102指定兴奋程度，使得兴奋程度随着说话者的瞳孔开度的增加而增加。

(2-1-2-6.说话者的行为信息)

此外，指示兴奋程度的信息可以包括与对应语音的说话者的行为状况相关的信息。例如，指示兴奋程度的信息可以包括指示说话者的预定设备(例如，终端20、游戏控制器等)的操纵状态的信息。例如，在检测到说话者在说话时连续敲击、快速移动或大幅移动游戏控制器的情况下，兴奋程度指定单元102指定兴奋程度是大于第一阈值的值。

(2-1-2-7.组合)

此外，兴奋程度指定单元102可以基于上述多种类型的信息的组合来指定兴奋程度。例如，在语音数据中包括的话语的音量低但是根据其他类型的信息指定兴奋程度高的情况下，兴奋程度指定单元102可以指定兴奋程度是大于第一阈值的值。

{2-1-3.特征提取单元106}

特征提取单元106分析从终端20接收的语音数据并且提取预定的特征量。例如，特征提取单元106通过对包括在语音数据中的语音信号应用傅里叶变换、离散余弦变换等来提取诸如梅尔频率倒谱系数(MFCC)的特征量。

{2-1-4.识别单元108}

(2-1-4-1.识别示例1)

识别单元108基于由特征提取单元106提取的特征量以及由兴奋程度指定单元102指定的兴奋程度来识别所接收的语音数据。例如，识别单元108将指定的兴奋程度与第一阈值进行比较并且决定是对语音数据执行基于语音数据的音素的第一语音识别还是执行第二语音识别。作为示例，在兴奋程度大于第一阈值的情况下，识别单元108对语音数据执行第一语音识别。此外，在兴奋程度小于或等于第一阈值的情况下，识别单元108对语音数据执行第二语音识别。

例如，在相对于语音数据在短时间段内检测到音量暂时高于第一阈值然后音量小于或等于第一阈值的情况下，识别单元108可以仅对语音数据当中的与短时间对应的语音执行第一语音识别，而对其他语音数据执行第二语音识别。

这里，第一语音识别是例如使用声学模型而不使用语言模型的语音识别。此外，第二语音识别可以是基于语音数据的音素以及多个字符串的关联的概率的语音识别。例如，第二语音识别是使用声学模型、语言模型和词典数据库124的语音识别。这里，声学模型是用于对例如可能会出现的特定字符串(例如词汇)的声音进行建模的模型。例如，可以使用隐马尔可夫(Hidden markov)模型等生成声学模型。此外，语言模型是用于对以特定语言出现的多个字符串(词汇串等)的概率进行建模的模型。例如，可以使用N-gram、无上下文语法等来生成语言模型。此外，字典数据库124是针对多个字符串(词汇等)中的每一个存储字符串与音素串之间的对应关系的数据库。字典数据库124可以被存储在例如存储单元122中。

(2-1-4-2.识别示例2)

替选地，识别单元108可以基于兴奋程度大于第一阈值的持续时间的长度来决定对语音数据是执行第一语音识别还是执行第二语音识别。例如，识别单元108基于持续时间的长度与第二阈值之间的比较来确定对语音数据是执行第一语音识别还是执行第二语音识别。作为示例，在持续时间的长度大于第二阈值的情况下，识别单元108对语音数据当中的与持续时间对应的第一语音执行第一语音识别，并且对除第一语音之外的语音执行第二语音识别。此外，在持续时间的长度等于或小于第二阈值的情况下，识别单元108对所有语音数据执行第二语音识别。

-具体示例

这里，将参照图4更详细地描述上述功能。图4是示出由识别单元108对图2所示话语30的语音数据进行语音识别的示例的说明图。如图4所示，假设话语30的语音数据当中的与“coooooooooooooooooooooooooool”对应的语音(在下文中称为“语音A”)的音量大于第一阈值Vt，并且假设除语音A之外的语音的音量等于或小于Vt。此外，假设与语音A对应的时间段的长度大于第二阈值。

在这种情况下，识别单元108对语音A执行第一语音识别。具体地，识别单元108首先基于对语音A的音素检测结果获取识别结果的字符串。如图4所示，字符串包括例如连续排列着“o”的下述字符串，“o”在数目上对应于与“o”对应的音素持续的时间段的长度的音素。此外，识别单元108通过在识别结果的字符串的末尾添加例如诸如“！”的一个或更多个预定字符来获得字符串组360b。

此外，识别单元108对接收到的语音当中的除语音A之外的语音(即，与“What a”或“game”对应的语音)执行第二语音识别，并且将语音转换成字符串组360a和字符串组360c。根据该识别方法，例如，可以在将“尖叫话语”与其他话语区分开的同时执行语音识别，因此可以减少错误识别。

(2-1-4-3.识别示例3)

替选地，识别单元108可以基于兴奋程度与第一阈值之间的比较结果以及同一音素持续的时间段的长度来决定对语音数据是执行第一语音识别还是第二语音识别。例如，识别单元108基于第二阈值与在兴奋程度大于第一阈值的时间段中同一音素持续的时间段的长度之间的比较来决定对语音数据是执行第一语音识别还是第二语音识别。

作为示例，在兴奋程度大于第一阈值的时间段中同一音素持续的时间段的长度大于第二阈值的情况下，识别单元108对语音数据当中的与同一音素持续的时间段对应的第三语音执行第一语音识别，并且对除第三语音之外的语音执行第二语音识别。例如，在语言是英语、德语等的情况下，识别单元108输出作为第一语音识别结果的一部分的字符串，在该字符串中，按照与同一音素持续的时间段的长度对应的音素的数目连续地排列与该音素对应的字符。此外，在语言是日语的情况下，识别单元108输出作为第一语音识别结果的一部分的字符串，在该字符串中，按照与同一音素持续的时间段的长度对应的音素的数目连续地排列字符“-”。

此外，在兴奋程度大于第一阈值的时间段中同一音素持续的时间段的长度等于或小于第二阈值的情况下，识别单元108可以对整个语音数据执行第二语音识别。

{2-1-5.汇集单元110}

汇集单元110基于从识别单元108的识别结果获得的字符串组来决定一个或更多个集合。例如，汇集单元110可以决定多个集合，使得与第一语音识别的结果对应的字符串组和与第二语音识别的结果对应的字符串组被包括在单独的集合中。

作为示例，汇集单元110将与第一语音识别的每个结果对应的字符串组决定为一个集合。此外，汇集单元110基于与第二语音识别的结果对应的字符串组的预定设置标准来决定一个或更多个集合。这里，预定设置标准可以是例如与一个集合中包括的词汇的数目相关的约束条件(例如，词汇的数目是5或更少等)，或者可以是与一个集合中包括的字符的数目相关的约束条件(例如，30个或更少个字符)。

这里，将参照图5更详细地描述上述功能。图5是示出基于图4所示的字符串组36决定的多个集合400的示例的说明图。如图5所示，汇集单元110将从第一语音识别的结果获得的字符串组360b决定为一个集合400b。此外，汇集单元110基于字符串组360a的预定设置标准以及从第二语音识别的结果获得的字符串组360c来决定集合400a和集合400c。

{2-1-6.通信单元120}

通信单元120经由例如通信网络22执行与其他设备的信息的发送和接收。例如，通信单元120从终端20接收语音数据。此外，通信单元120在控制单元100的控制下将用于显示由汇集单元110确定的一个或更多个集合的控制信息发送到终端20。

{2-1-7.存储单元122}

存储单元122存储各种类型的数据和各种类型的软件。例如，存储单元122存储词典数据库124。

<2-2.处理的流程>

上面已经描述了本实施方式的配置。接下来，将参照图6至图10描述根据本实施方式的处理的流程。此外，以下描述将以在用户通过语音向终端20输入字符串的情况下的处理的流程的示例进行。此外，以下描述将以“指示兴奋程度的信息”是音量的示例进行。此外，以下描述将以终端20在单个语音输入时将语音数据共同发送到服务器10的示例进行。

{2-2-1.整体流程}

图6是示出根据本实施方式的处理流程的示例的一部分的流程图。如图6所示，例如，终端20基于用户对终端20的预定操作来激活语音输入应用(S101)。然后，用户向终端20说话，并且声音收集单元200收集话语的声音(S103)。

然后，终端20将所收集的语音数据发送到服务器10(S105)。

此后，服务器10的语音识别单元104将非常短的时间ΔT设置为分析目标时间段T(S107)。

这里，将参照图7描述S107之后的处理流程。如图7所示，在S107之后，语音识别单元104确定先前检测到的音量(即，时间段T-ΔT中)是否大于在S105中接收的语音数据的第一阈值(S111)。此外，在第一确定中，语音识别单元104可以确定先前音量小于或等于第一阈值。

在确定了先前音量大于第一阈值的情况下(在S111中为“是”)，语音识别单元104然后确定当前检测到的音量(即，时间段T中)是否大于第一阈值(S113)。在确定了当前音量大于语音数据的第一阈值的情况下(在S113中为“是”)，语音识别单元104将时间段T中的声音信息添加到当前存储的声音信息并且存储所得到的声音信息(S115)。此外，在初始状态下，假设根本不存储声音信息。

然后，语音识别单元104将ΔT加到当前存储的“音量大于第一阈值的持续时间”(在下文中称为“高音量状态持续时间”)(S117)。此外，在初始状态下，假设“0秒”被设置为高音量状态持续时间。此后，服务器10执行稍后描述的S141的处理。

另一方面，在确定了当前音量等于或小于第一阈值的情况下(在S113中为“否”)，语音识别单元104执行稍后将描述的“识别方法控制处理”。(S119)。此后，服务器10执行稍后描述的S141的处理。

此外，在S111中确定先前音量等于或小于第一阈值的情况下(在S111中为“否”)，语音识别单元104然后确定当前检测到的音量是否大于语音数据的第一阈值(S121)。在确定了当前音量大于第一阈值的情况下(在S121中为“是”)，语音识别单元104对当前存储的声音信息执行第二语音识别(S123)。然后，语音识别单元104获取在S123中从识别结果获得的字符串组(S125)。然后，语音识别单元104清除当前存储的声音信息(S127)。然后，语音识别单元104将高音量状态持续时间设置为ΔT(S129)。此后，服务器10执行稍后描述的S141的处理。

另一方面，在确定了当前音量等于或小于第一阈值的情况下(在S121中为“否”)，语音识别单元104将时间段T中的声音信息添加并存储到当前存储的声音信息(S131)。此后，服务器10执行稍后描述的S141的处理。

这里，将参照图8描述S141之后的处理流程。如图8所示，语音识别单元104确定对整个语音数据的语音识别是否结束(S141)。在对整个语音数据的语音识别没有结束的情况下(在S141中为“否”)，语音识别单元104将ΔT加到T(S147)。此后，语音识别单元104再次执行从S111开始的处理。

另一方面，在对整个语音数据的语音识别结束(在S141中为“是”)并且用户执行了结束语音输入的操作(在S143中为“是”)的情况下，终端20结束语音输入应用(S145)。此外，本处理结束。

另一方面，在未执行结束语音输入的操作的情况下(在S143中为“否”)，再次执行从S103开始的处理。

{2-2-2.识别方法控制处理}

接下来，将参照图9描述S119中的“识别方法控制处理”的流程。如图9所示，首先，语音识别单元104确定当前存储的高音量状态持续时间的长度是否大于第二阈值(S201)。在高音量状态持续时间的长度大于第二阈值的情况下(在S201中为“是”)，语音识别单元104执行稍后描述的“第一语音识别处理”(S203)。此后，语音识别单元104清除当前存储的声音信息和当前存储的“高音量状态持续时间”(S205)。

另一方面，在高音量状态持续时间的长度等于或小于第二阈值的情况下(在S201中为“否”)，语音识别单元104对当前存储的声音信息执行第二语音识别(S207)。然后，语音识别单元104获取在S207中从识别结果获得的字符串组(S209)。此后，语音识别单元104执行S205的处理。

{2-2-3.第一语音识别处理}

接下来，将参照图10描述S203中的“第一语音识别处理”的流程。如图10所示，首先，语音识别单元104从当前存储的声音信息中提取音素信息(S301)。然后，语音识别单元104基于所提取的音素信息来指定字符串组，并且获取字符串组(S303)。此后，语音识别单元104将诸如“！”的一个或更多个预定字符添加到所获取的字符串组(S305)。

<2-3.效果>

{2-3-1.效果1}

如上所述，根据本实施方式，服务器10获取指示语音的收集状态中的兴奋程度的信息，并且基于指示兴奋程度的信息来执行第一语音识别或第二语音识别。为此，例如，可以根据声音收集时说话者或另一用户的兴奋程度动态地改变语音识别方法。

例如，在音量大于第一阈值的持续时间的长度大于语音的第二阈值的情况下，服务器10对语音当中的与持续时间对应的语音执行第一语音识别(即，不使用语音模型的语音识别)，并且对其他语音执行第二语音识别(即，使用语言模型的语音识别)。因此，可以在对例如包括在语音中的“喊叫话语”与其他话语进行区分的同时执行语音识别，因此与例如本公开内容的比较例相比，可以减少错误识别。

此外，由于仅使用声学模型对“尖叫话语”执行语音识别，所以即使在执行错误识别时，仍获得传达了话语的氛围的字符串组作为语音识别的结果。

{2-3-2.效果2}

此外，例如，在语音的音量小但是指定用户的兴奋程度高的情况下，服务器10对所收集的语音数据执行第一语音识别。因此，在声音收集时指定用户(或另一用户)的兴奋程度高的情况下，即使在例如用户对于发出响亮语音感到踌躇的情况下，服务器10仍可以将语音数据转换成指示兴奋程度高(或感情强烈)的字符串组。因此，例如，与本公开内容的比较例相比，获得了更合适的语音识别结果。

{2-3-3.效果3}

此外，服务器10可以将与第一语音识别的每个结果对应的每个字符串组决定为一个集合。相应地，例如，可以确定多个集合，使得例如“喊叫话语”的识别结果和其他话语的识别结果分别被包括在单独的集合中。结果，例如，在以集合为单位编辑字符串的应用中，用户容易修改字符串，因此，例如在语音识别结果包含错误的情况下，便利性高。

<<3.硬件配置>>

接下来，将参照图11描述根据本实施方式的服务器10的硬件配置。如图11所示，服务器10包括CPU 150、只读存储器(ROM)152、RAM 154、总线156、接口158、存储设备160和通信设备162。

CPU 150担当算术处理设备和控制设备，并且根据各种类型的程序来控制服务器10的整体操作。此外，CPU 150实现服务器10中的控制单元100的功能。此外，CPU 150由诸如微处理器的处理器构成。

ROM 152存储例如由CPU 150使用的诸如程序、操作参数等的控制数据。

RAM 154临时存储例如由CPU 150执行的程序。

总线156由CPU总线等构成。总线156将CPU 150、ROM 152和RAM 154彼此连接。

接口158将存储设备160和通信设备162与总线156连接。

存储设备160是担当存储单元122的数据存储设备。存储设备160包括例如存储介质、用于在存储介质中记录数据的记录设备、用于从存储介质中读取数据的读取设备、用于删除记录在存储介质中的数据的删除设备等。

通信设备162是由用于与例如通信网络22等建立连接的通信设备等构成的通信接口。此外，通信设备162可以是支持无线LAN的通信设备、支持长期演进(LTE)的通信设备或者以有线方式执行通信的有线通信设备。通信设备162担当通信单元120。

<<4.修改例>>

以上已经参照附图描述了本公开内容的一个或多个优选实施方式，然而本公开内容不限于上述示例。本领域技术人员可以在所附权利要求书的范围内找到各种改变和修改，并且应该理解，这些改变和修改将自然地落入本公开内容的技术范围内。

<4-1.修改例1>

例如，在图4所示的示例中，已经描述了服务器10(识别单元108)将预定字符(“！”等)添加到与第一语音识别的结果对应的字符串(即，字符串组360b)的末尾的示例，但是本公开内容不限于这样的示例。例如，识别单元108可以将预定字符添加到对应句子的末尾(在图4所示的示例中，字符串组360c的末尾)。替选地，识别单元108可以在与第一语音识别的结果对应的字符串之前和之后添加诸如双引号或单引号的字符(作为预定字符)。

替选地，代替添加预定字符，服务器10可以使与第一语音识别的结果对应的字符串的字体与标准字体不同。例如，服务器10可以使字符串成为粗体、使字符串的显示颜色改变或者为字符串添加下划线。替选地，代替添加预定字符，服务器10可以添加预定图像。

<4-2.修改例2>

此外，根据本实施方式的信息处理系统的配置不限于图1所示的示例。例如，尽管图1中仅示出了一个服务器10，但是本公开内容不限于该示例，并且多个计算机可以协同操作以实现服务器10的上述功能。此外，尽管图1中仅示出了一个终端20，但是本公开内容不限于该示例，并且信息处理系统可以包括多个终端20。

<4-3.修改例3>

此外，根据本实施方式的服务器10的配置不限于图3所示的示例。例如，汇集单元110可以不被包括在服务器10中，而是可以被包括在能够与服务器10通信的另一设备例如终端20中。

<4-4.修改例4>

此外，在上述实施方式中，已经描述了本公开内容中的信息处理设备是服务器10的示例，但是本公开内容不限于这样的示例。例如，在终端20至少具有兴奋程度指定单元102和语音识别单元104的功能的情况下，信息处理设备可以是终端20。

替选地，终端20可以包括上述控制单元100中包括的所有组成元件。在这种情况下，不一定需要安装服务器10。

<4-5.修改例5>

此外，不必按所描述的顺序处理图6至图10中所示的处理的流程中的步骤。例如，可以以适当改变的顺序来处理这些步骤。此外，这些步骤可以不按时间顺序处理而是可以并行或单独处理。此外，可以省略所描述的一些步骤或者可以添加另一步骤。

此外，根据上述实施方式，还可以提供计算机程序，该计算机程序使诸如CPU 150、ROM 152、RAM 154等的硬件执行与根据上述实施方式的服务器10的部件相同的功能。此外，还提供了记录计算机程序的存储介质。

此外，本说明书中描述的效果仅仅是说明性的或示例性的效果而不是限制性的。也就是说，利用或代替上述效果，根据本公开内容的技术可以实现本领域技术人员从本说明书的描述中清楚的其他效果。

另外，本技术还可以如下配置。

(1)

一种信息处理设备，包括：

获取单元，其被配置成获取指示语音的收集状态中的兴奋程度的信息；以及

语音识别单元，其被配置成基于指示所述兴奋程度的信息来执行基于所述语音的音素的第一语音识别。

(2)

根据(1)所述的信息处理设备，其中，所述语音识别单元基于所述兴奋程度与第一阈值之间的比较来执行所述第一语音识别。

(3)

根据(2)所述的信息处理设备，其中，在所述兴奋程度大于所述第一阈值的情况下，所述语音识别单元对所述语音执行所述第一语音识别，并且

在所述兴奋程度等于或小于所述第一阈值的情况下，所述语音识别单元对所述语音执行与所述第一语音识别不同的第二语音识别。

(4)

根据(2)或(3)所述的信息处理设备，其中，所述语音识别单元基于所述兴奋程度大于所述第一阈值的持续时间的长度来执行所述第一语音识别。

(5)

根据(4)所述的信息处理设备，其中，所述语音识别单元基于所述持续时间的长度与第二阈值之间的比较来执行所述第一语音识别。

(6)

根据(5)所述的信息处理设备，其中，在所述持续时间的长度大于所述第二阈值的情况下，所述语音识别单元对所述语音当中的与所述持续时间对应的第一语音执行基于所述第一语音的音素的所述第一语音识别，并且

所述语音识别单元对所述语音当中的除所述第一语音之外的第二语音执行与所述第一语音识别不同的第二语音识别。

(7)

根据(6)所述的信息处理设备，其中，在所述持续时间的长度等于或小于所述第二阈值的情况下，所述语音识别单元对所述语音执行所述第二语音识别。

(8)

根据(1)至(3)中任一项所述的信息处理设备，其中，所述获取单元还获取指示从所述语音中指定的同一音素持续的时间段的长度的信息，并且

所述语音识别单元还基于所述同一音素持续的时间段的长度来执行所述第一语音识别。

(9)

根据(8)所述的信息处理设备，其中，所述语音识别单元基于所述兴奋程度与第一阈值之间的比较以及所述同一音素持续的时间段的长度与第二阈值之间的比较来执行所述第一语音识别。

(10)

根据(9)所述的信息处理设备，其中，所述语音识别单元基于当所述兴奋程度大于所述第一阈值时所述同一音素持续的时间段的长度是否大于所述第二阈值来执行所述第一语音识别或者与所述第一语音识别不同的第二语音识别。

(11)

根据(1)至(10)中任一项所述的信息处理设备，其中，指示所述兴奋程度的信息包括所述语音的音量。

(12)

根据(1)至(11)中任一项所述的信息处理设备，其中，指示所述兴奋程度的信息包括与所述语音的特征与根据说出所述语音的第一用户的话语的学习结果而获得的语音的特征之间的差异相关的信息。

(13)

根据(1)至(12)中任一项所述的信息处理设备，其中，指示所述兴奋程度的信息包括与不同于说出所述语音的第一用户的第二用户的状态相关的信息。

(14)

根据(1)至(13)中任一项所述的信息处理设备，其中，指示所述兴奋程度的信息包括说出所述语音的第一用户的生物信息。

(15)

根据(1)至(14)中任一项所述的信息处理设备，其中，指示所述兴奋程度的信息包括与说出所述语音的第一用户的行为状况相关的信息。

(16)

根据(15)所述的信息处理设备，其中，与所述第一用户的行为状况相关的信息包括所述第一用户对预定设备的操纵状态。

(17)

根据(3)或(6)所述的信息处理设备，其中，所述第二语音识别是基于识别目标的语音的音素以及与多个字符串的关联相关的概率的语音识别。

(18)

根据(17)所述的信息处理设备，其中，所述第一语音识别是不使用语言模型的语音识别，并且

所述第二语音识别是使用所述语言模型的语音识别。

(19)

一种信息处理方法，包括：

获取指示语音的收集状态中的兴奋程度的信息；以及

由处理器基于指示所述兴奋程度的信息来执行基于所述语音的音素的第一语音识别。

(20)

一种用于使计算机担当以下单元的程序：

获取单元，所述获取单元被配置成获取指示语音的收集状态中的兴奋程度的信息；以及

语音识别单元，所述语音识别单元被配置成基于指示所述兴奋程度的信息来执行基于所述语音的音素的第一语音识别。

附图标记列表

10 服务器

20 终端

22 通信网络

100 控制单元

102 兴奋程度指定单元

104 语音识别单元

106 特征提取单元

108 识别单元

110 汇集单元

120 通信单元

122 存储单元

124 词典数据库

200 声音收集单元

202 操纵/显示单元

Claims

1.一种信息处理设备，包括：

获取单元，所述获取单元被配置成获取指示语音的收集状态中的兴奋程度的信息，其中：所述收集状态是对包括用户话语声音的语音数据进行收集的状态，并且指示所述兴奋程度的信息包括包括音量或声音频率的所述语音数据的声音的属性信息；以及

语音识别单元，所述语音识别单元被配置成基于指示所述兴奋程度的信息、所述兴奋程度与第一阈值之间的比较以及所述兴奋程度大于所述第一阈值的持续时间的长度来执行基于所述语音的音素的第一语音识别。

2.根据权利要求1所述的信息处理设备，其中：

在所述兴奋程度大于所述第一阈值的情况下，所述语音识别单元对所述语音执行所述第一语音识别，并且

3.根据权利要求1所述的信息处理设备，其中，所述语音识别单元基于所述持续时间的长度与第二阈值之间的比较来执行所述第一语音识别。

4.根据权利要求3所述的信息处理设备，其中：

在所述持续时间的长度大于所述第二阈值的情况下，所述语音识别单元对所述语音当中的与所述持续时间对应的第一语音执行基于所述第一语音的音素的所述第一语音识别，并且

5.根据权利要求4所述的信息处理设备，其中，在所述持续时间的长度等于或小于所述第二阈值的情况下，所述语音识别单元对所述语音执行所述第二语音识别。

6.根据权利要求1所述的信息处理设备，其中：

所述获取单元还获取指示从所述语音中指定的同一音素持续的时间段的长度的信息，并且

7.根据权利要求6所述的信息处理设备，其中，所述语音识别单元基于所述兴奋程度与第一阈值之间的比较以及所述同一音素持续的时间段的长度与第二阈值之间的比较来执行所述第一语音识别。

8.根据权利要求7所述的信息处理设备，其中，所述语音识别单元基于当所述兴奋程度大于所述第一阈值时所述同一音素持续的时间段的长度是否大于所述第二阈值来执行所述第一语音识别或者与所述第一语音识别不同的第二语音识别。

9.根据权利要求1所述的信息处理设备，其中，指示所述兴奋程度的信息包括与所述语音的特征与根据说出所述语音的第一用户的话语的学习结果而获得的语音的特征之间的差异相关的信息。

10.根据权利要求1所述的信息处理设备，其中，指示所述兴奋程度的信息包括与不同于说出所述语音的第一用户的第二用户的状态相关的信息。

11.根据权利要求1所述的信息处理设备，其中，指示所述兴奋程度的信息包括说出所述语音的第一用户的生物信息。

12.根据权利要求1所述的信息处理设备，其中，指示所述兴奋程度的信息包括与说出所述语音的第一用户的行为状况相关的信息。

13.根据权利要求12所述的信息处理设备，其中，与所述第一用户的行为状况相关的信息包括所述第一用户对预定设备的操纵状态。

14.根据权利要求2所述的信息处理设备，其中，所述第二语音识别是基于识别目标的语音的音素以及与多个字符串的关联相关的概率的语音识别。

15.根据权利要求14所述的信息处理设备，其中，所述第一语音识别是不使用语言模型的语音识别，并且

所述第二语音识别是使用所述语言模型的语音识别。

16.一种信息处理方法，包括：

获取指示语音的收集状态中的兴奋程度的信息，其中：所述收集状态是对包括用户话语声音的语音数据进行收集的状态，并且指示所述兴奋程度的信息包括包括音量或声音频率的所述语音数据的声音的属性信息；以及

由处理器基于指示所述兴奋程度的信息、所述兴奋程度与第一阈值之间的比较以及所述兴奋程度大于所述第一阈值的持续时间的长度来执行基于所述语音的音素的第一语音识别。

17.一种计算机可读存储介质，其上存储有包括指令的程序，所述指令当由计算机执行时使所述计算机执行根据权利要求16所述的信息处理方法。