CN110111781A

CN110111781A - 信息处理装置和信息处理方法

Info

Publication number: CN110111781A
Application number: CN201910087000.2A
Authority: CN
Inventors: 林田辉英
Original assignee: Toyota Motor Corp
Current assignee: Toyota Motor Corp
Priority date: 2018-01-31
Filing date: 2019-01-29
Publication date: 2019-08-09
Anticipated expiration: 2039-01-29
Also published as: US20190237075A1; JP7056185B2; US11217238B2; JP2019133025A; CN110111781B

Abstract

一种信息处理装置包括：第一接收单元，其被配置为接收一个以上字符的输入；第二接收单元，其被配置为接收语音的输入；以及语音识别单元，其被配置为识别所述语音，并且当所述第二接收单元随着所述第一接收单元接收到所述一个以上字符的所述输入而接收到所述语音输入时，所述语音识别单元输出以输入到所述第一接收单元中的所述一个以上字符开始的语音识别结果。

Description

信息处理装置和信息处理方法

技术领域

本发明涉及一种信息处理装置和信息处理方法。

背景技术

已知一种语音识别装置，其根据用户对触摸板的输入的内容来选择导航装置的菜单的分层级别，并使用为该分层级别准备的语音识别字典来识别语音(例如，参考日本专利申请公开第2007-240688号(JP2007-240688A))。

发明内容

在某些情况下，在使用除语音识别之外的方法输入所需字符之后，用户可以中途退出输入字符，然后使用语音识别重新输入字符。在这种情况下，存在提高语音识别精度的空间。

本发明提供一种提高语音识别精度的信息处理装置和信息处理方法。

本发明的第一方案提供了一种信息处理装置。所述信息处理装置包括：第一接收单元，其被配置为接收一个以上字符的输入；第二接收单元，其被配置为接收语音的输入；以及语音识别单元，其被配置为识别所述语音，并且当所述第二接收单元随着所述第一接收单元接收到所述一个以上字符的所述输入而接收到所述语音输入时，所述语音识别单元输出以输入到所述第一接收单元中的所述一个以上字符开始的语音识别结果。

根据该方案，当随着接收到字符的输入而接收到语音的输入时，信息处理装置输出以输入到第一接收单元中的字符开始的语音识别结果，从而提高了语音识别精度。

在第一方案中，所述信息处理装置可以包括：存储单元，其被配置为存储包括多个单词的语音识别字典。所述语音识别单元可以被配置为从所述语音识别字典中包括的所述多个单词中选择以输入到所述第一接收单元中的所述一个以上字符开始的特定单词，并且输出所述特定单词作为所述语音识别结果。

在第一方案中，所述语音识别单元可以被配置为当未获取到以输入到所述第一接收单元中的所述一个以上字符开始的所述语音识别结果时，输出与输入到所述第一接收单元中的所述一个以上字符无关的所述语音识别结果。

在第一方案中，所述语音识别单元可以被配置为当所述第一接收单元接收到多个字符的输入时并且当未获取到以所述多个字符开始的所述语音识别结果时，输出以所述多个字符的预定部分的字符开始的所述语音识别结果。

在第一方案中，所述预定部分的字符可以是所述多个字符的除最后字符之外的字符。

本发明的第二方案提供了一种信息处理方法。所述信息处理方法包括：接收一个以上字符的输入；接收语音输入；识别所述语音；并且当随着接收到所述一个以上字符而接收到所述语音输入时，输出以所述一个以上字符开始的语音识别结果。

根据本发明，提高了语音识别精度。

附图说明

下面将参照附图描述本发明的示例性实施例的特征、优点以及技术和工业重要性，附图中相同的数字表示相同的元件，并且其中：

图1是示出根据第一实施例的车载系统的配置的框图；以及

图2是示出图1中所示的语音识别装置的处理的流程图。

具体实施方式

(第一实施例)

图1是示出根据第一实施例的车载系统1的配置的框图。车载系统1安装在车辆上。车载系统1包括输入装置10、车载装置12、麦克风14、语音识别开关16和语音识别装置18。

输入装置10是用于响应于用户操作而输入字符的装置。输入装置10例如是设置在驾驶员座椅和车辆的乘客座椅之间的中央控制台上用于允许用户执行触摸操作的触摸板。输入装置10将通过触摸操作产生的操作信号输出到车载装置12。在他或她的手腕在中央控制台上的情况下，用户在观看仪表板上显示单元的同时在输入装置10上执行触摸操作，而不用看输入装置10。例如，用户滑动他或她的手指或轻敲屏幕以输入字符或选择车载功能。

输入装置10可以是设置在显示单元的显示表面上以允许用户进行触摸的的触摸板，或者可以是用户可以在其上执行输入字符的操作的其他输入装置。

车载装置12使显示单元基于从输入装置10提供的操作信号显示与用户的操作有关的图像。车载装置12例如是汽车导航装置但是不限于此。例如，当在车载装置12上设定目的地以获得路线引导时，用户在输入装置10上滑动他或她的手指以移动显示在显示单元上的光标。然后，当用户轻敲与显示在显示单元上的多个字符之一相对应的位置时，该字符被输入到车载装置12中。以这种方式输入多个字符以设定目的地。可在许多情况下输入字符，例如，当输入个人姓名以搜索电话号码时输入字符。车载装置12将输入的字符数据输出到语音识别装置18。

在一些情况下，在输入装置10上手动输入一些所需字符之后，用户可以中途退出输入字符。例如，因为用户感觉在输入装置10上输入字符很困难或很麻烦，或者因为驾驶情况已经改变，用户可能退出输入字符。退出输入字符后，用户通过语音识别重新输入字符。例如，当要输入的字符是“Wanwan Park”时，用户经由输入装置10输入“Wa”或“Wan”，然后退出输入字符并说出“Wanwan Park”。

设置在车辆内部的麦克风14获取车辆的乘员的语音并将语音数据输出到语音识别装置18。

例如，在方向盘中设置语音识别开关16，即，当用户期望语音识别时由用户操作的开关。语音识别开关16是按钮型或杠杆式机械开关。当用户按下该开关时，操作信号被输出到语音识别装置18。

语音识别装置18包括第一接收单元30、第二接收单元32、第三接收单元34、存储单元36和语音识别单元38。语音识别装置18用作信息处理装置。

第一接收单元30从车载装置12接收字符输入，并将字符输出到语音识别单元38。

第三接收单元34从语音识别开关16接收操作信号。在接收到操作信号时，第三接收单元34将语音识别指令输出到第二接收单元32。

当从第三接收单元34输出语音识别指令时，第二接收单元32以预定时段从麦克风14接收语音输入，并将语音输出到语音识别单元38。

存储单元36存储包括多个单词的语音识别字典。多个单词包括例如可以被设定为汽车导航装置中的目的地的地名和诸如在电话目录中登记的人名的固有名字。存储单元36可以设置在车载装置12中。

在第一接收单元30没有接收到字符的情况下，当第二接收单元32接收到语音输入时，语音识别单元38使用已知技术来识别语音，并将语音识别结果输出到车载装置12。更具体地，语音识别单元38从存储在语音识别字典中的多个单词中选择与识别的字符串高度匹配的单词，并将所选择的单词作为语音识别结果输出到车载装置12。

与识别的字符串的高度匹配意味着可靠性为高。可靠性指示从语音数据中正确识别单词的可能性的程度。可靠性越高，正确识别单词的可能性越高。语音识别单元38输出其可靠性是预定值以上的一个或多个语音识别结果。可以通过实验适当地设定预定值。

另一方面，在一个或多个字符输入到第一接收单元30中的情况下，当第二接收单元32接收到语音输入时，语音识别单元38识别语音，并将以输入到第一接收单元30的字符开始的语音识别结果输出到车载装置12。更具体地，语音识别单元38从存储在语音识别字典中的多个单词中选择以输入到第一接收单元30中的字符开始并且与识别出的字符串高度匹配的单词，并且将以这种方式选择的单词作为语音识别结果输出。语音识别单元38将可靠性为预定值以上的一个或多个语音识别结果输出到车载装置12。

例如，假设用户想要输入的字符是“Wanwan park”，输入到第一接收单元30的字符是“Wan”，识别出的字符串是“Wanwan park”，并且“Wanwan park”包含在语音识别词典中。在这种情况下，输出“Wanwan park”作为语音识别结果。如果诸如“Daiichi park”等以“Wan”之外的字符开头的字符“...park”包括在语音识别字典中，则其不作为语音识别结果输出。另外，如果诸如“Wan hotel”等以“Wan”开头的字符包括在语音识别字典中，则其在可靠性为低的情况下不作为语音识别结果输出。

如果未获取到以输入到第一接收单元30中的字符开始的语音识别结果，即，如果未获取到以输入的字符开始并且具有等于或高于预定值的可靠性等级的语音识别结果，则语音识别单元38独立于输入到第一接收单元30中的字符而输出语音识别结果。即，在这种情况下，语音识别单元38从存储在语音识别字典中的多个单词中选择与识别出的字符串高度匹配的单词，并将它们作为语音识别结果而输出。在这种情况下，输入到第一接收单元30的字符可能是错误的。

车载装置12使显示单元显示从语音识别单元38输出的一个或多个语音识别结果，以允许用户选择它们中的一个。为了选择它们中的一个，用户触摸输入装置10上的一个语音识别结果。于是，在车载装置12中设定了作为语音识别结果之一的选定字符串。

该配置可以由计算机的CPU、存储器和其他LSI基于硬件实现，并且也可以基于软件通过加载到存储器中的程序而实现。上面的例子显示了通过硬件和软件之间的协作而实施的功能块。因此，本领域技术人员应当理解，这些功能块可以仅通过硬件、仅通过软件或通过硬件和软件的组合以各种形式实现。

接下来，将描述具有上述配置的车载系统1的总体操作。图2是示出图1中所示的语音识别装置18的处理的流程图。图2中的处理周期性重复。

如果未接收到语音识别指令(S10中的否)，则终止处理。如果接收到语音识别指令(S10中的是)，则第二接收单元32接收来自麦克风14的语音输入(S12)。如果第一接收单元30没有接收到字符(S14中的否)，则语音识别单元38识别语音(S16)，输出语音识别结果(S18)，并终止处理。

另一方面，如果第一接收单元30已经接收到字符(S14中的是)，则语音识别单元38在参考接收到的字符的同时识别语音(S20)。如果获得以接收到的字符开始的语音识别结果(S22中的“是”)，则语音识别单元38输出所获得的语音识别结果(S24)，并终止处理。如果未获得以接收到的字符开始的语音识别结果(S22中的否)，则语音识别单元38独立于接收到的字符而输出语音识别结果(S26)，并终止处理。

根据本实施例，如果在接收到字符输入的情况下接收语音输入，则语音识别装置18输出以接收到的字符开始的语音识别结果，从而在参考接收到的字符的同时提高了语音识别精度。

另外，语音识别装置18从存储在语音识别字典中的多个单词中选择以接收到的字符开始的单词，并将所选单词作为语音识别结果而输出，进一步提高了语音识别精度。

另外，如果未获取到以输入的字符开始的语音识别结果，则语音识别装置18独立于输入到第一接收单元30中的字符而输出语音识别结果。这使得如果错误输入字符，则可以采取适当的动作，提供了更好的语音识别结果。

(第二实施例)

第二实施例与第一实施例的不同之处在于，如果未获取到以输入到第一接收单元30中的多个字符开始的语音识别结果，则语音识别单元38输出以多个字符中的预定部分字符开始的语音识别结果。下面将描述第二实施例，且重点在于与第一实施例的不同之处。

未示出第二实施例中的车载系统1的配置，因为该配置与图2中所示的配置相同。如果第一接收单元30接收到多个字符的输入，并且如果没有获得以多个字符开头的语音识别结果，则语音识别单元38输出从多个字符中的预定部分字符开始的语音识别结果。预定部分字符例如是除最后一个字符之外的多个字符。也就是说，语音识别单元38输出以多个字符中的除了最后一个字符之外的一个或多个字符开始的语音识别结果。

例如，假设当用户想要输入的字符是“Wanwan park”时，用户错误地输入了第三个字符，于是输入到第一接收单元30的字符是“Waw”，然后，用户使用语音识别。在这种情况下，如果识别出的字符串是“Wanwan park”，如果语音识别字典中包括“Wanwan park”，并且如果语音识别字典中不包括以“Waw”开头的单词，则语音识别结果为未获取到。在这种情况下，输出以通过从输入的字符“Waw”中排除最后一个字符“w”而产生的“Wa”开头的“Wanwanpark”作为语音识别结果。

如果未获取到以多个字符的预定部分字符开始的语音识别结果，则语音识别单元38独立于输入的字符而输出语音识别结果。

如果第一接收单元30接收到一个字符并且如果未获取到以接收到的字符开始的语音识别结果，则语音识别单元38独立于接收到的字符而输出语音识别结果。

根据本实施例，如果未获取到以多个接收字符开始的语音识别结果，则输出以多个字符的预定部分字符开始的语音识别结果。以这种方式，本实施例排除了可能被错误输入的字符，从而增加了输出正确的语音识别结果的可能性。

在一些情况下，当字符被错误地输入到输入装置10中时，用户可以退出输入字符。在这种情况下，多个字符中的最后一个字符很可能以高概率出错。在本实施例中，语音识别单元38输出以多个字符的除了最后一个字符之外的字符开始的语音识别结果。以这种方式，本实施例排除了可能错误输入的最后一个字符，使得可以输出更准确的语音识别结果。

已经参考各实施例描述了本发明。应注意，实施例仅是示例。本领域技术人员应理解，通过组合部件和处理过程可以进行各种变型，并且这些变型也在本发明的范围内。

例如，在第一实施例中，如果未获取到以输入到第一接收单元30中的字符开始的语音识别结果，则语音识别单元38可以通知车载装置12未获得语音识别结果,然后进入等待状态。在第二实施例中，如果未获取到以输入到第一接收单元30中的一个字符开始的语音识别结果，或者如果未获取到以输入到第一接收单元30中的多个字符的预定部分开始的语音识别结果，则语音识别单元38可以通知车载装置12未获得语音识别结果，然后进入等待状态。在接收到该通知时，车载装置12经由语音或图像通知用户无法识别语音。在这些情况下，用户需要操作语音识别开关16然后再说话。当第二接收单元32响应于新的语音识别指令而接收到新语音的输入时，语音识别单元38识别该语音并独立于输入到第一接收单元30中的字符而输出语音识别结果。该变型可以使语音识别装置18的配置更加灵活。

Claims

1.一种信息处理装置，其特征在于包括：

第一接收单元，其被配置为接收一个以上字符的输入；

第二接收单元，其被配置为接收语音的输入；以及

语音识别单元，其被配置为

识别所述语音，并且

当所述第二接收单元随着所述第一接收单元接收到所述一个以上字符的所述输入而接收到所述语音输入时，所述语音识别单元输出以输入到所述第一接收单元中的所述一个以上字符开始的语音识别结果。

2.根据权利要求1所述的信息处理装置，其特征在于，还包括：存储单元，其被配置为存储包括多个单词的语音识别字典，其中

所述语音识别单元被配置为

从所述语音识别字典中包括的所述多个单词中选择以输入到所述第一接收单元中的所述一个以上字符开始的特定单词，并且

输出所述特定单词作为所述语音识别结果。

3.根据权利要求1或2所述的信息处理装置，其特征在于：

所述语音识别单元被配置为当未获取到以输入到所述第一接收单元中的所述一个以上字符开始的所述语音识别结果时，输出与输入到所述第一接收单元中的所述一个以上字符无关的所述语音识别结果。

4.根据权利要求1或2所述的信息处理装置，其特征在于：

所述语音识别单元被配置为当所述第一接收单元接收到多个字符的输入时并且当未获取到以所述多个字符开始的所述语音识别结果时，输出以所述多个字符的预定部分的字符开始的所述语音识别结果。

5.根据权利要求4所述的信息处理装置，其特征在于：

所述预定部分的字符是所述多个字符的除最后字符之外的字符。

6.一种信息处理方法，其特征在于包括：

接收一个以上字符的输入；

接收语音输入；

识别所述语音；并且

当随着接收到所述一个以上字符而接收到所述语音输入时，输出以所述一个以上字符开始的语音识别结果。