CN111199738A

CN111199738A - 语音识别装置、语音识别方法以及语音识别程序

Info

Publication number: CN111199738A
Application number: CN201910864295.XA
Authority: CN
Inventors: 和田文雄
Original assignee: Toyota Motor Corp
Current assignee: Toyota Motor Corp
Priority date: 2018-11-19
Filing date: 2019-09-12
Publication date: 2020-05-26
Anticipated expiration: 2039-09-12
Also published as: US20200160871A1; CN111199738B; US11195535B2; JP7251953B2; JP2020086010A

Abstract

公开了语音识别装置、语音识别方法以及语音识别程序。所述语音识别装置包括存储器和包括硬件的处理器。所述处理器被配置为提取输入的语音数据的特征，并设定在所述语音数据转变为无声状态之后的所述无声状态的持续时间。所述持续时间用于判定所述语音数据的输入已完成。

Description

语音识别装置、语音识别方法以及语音识别程序

技术领域

本发明涉及语音识别装置、语音识别方法以及语音识别程序。

背景技术

从提高车辆用户的便利性的观点来看，通过麦克风的方式捕获的用户的语音被语音识别，并且基于语音识别结果操作汽车导航系统或开始各种搜索操作。例如，在用户说话并说出作为目的地的地址的情况下，在汽车导航系统中或通过网络连接到汽车导航系统的语音识别装置中搜索预先准备的设施信息。然后，搜索结果显示在汽车导航系统的显示屏上。

作为可以引入到汽车导航系统的语音识别装置，已知一种根据搜索项目的类别来改变用于判定用户的话语结束(即，语音数据的输入完成)的持续时间的设定的技术(例如，参见日本未审查专利申请公开第2006-71794号(JP2006-71794A))。持续时间是未输入语音数据的无声状态持续的时间。根据JP 2006-71794A，根据地址的语音输入或设施名称的语音输入的持续时间被设定，并且基于设定的持续时间判定语音数据的输入是否完成。

发明内容

在JP 2006-71794A中，预先设定搜索项目的类别，并且将持续时间设定为根据类别的时间。然后，用户说话以输入语音数据，并且语音识别装置判定语音数据的输入是否完成。在JP 2006-71794A中，在用户在没有预先设定搜索项目的类别的情况下讲话的情况下，可能无法适当地设定持续时间，并且可能无法适当地执行关于语音数据的输入完成的判定。在与语音识别有关的技术中，未考虑用户的语音的特征，并且期望提高判定的灵活性。

考虑到上述情况完成了本发明，并且本发明提供了能够提高搜索词的话语结束判定的灵活性的语音识别装置、语音识别方法和语音识别程序。

本发明的第一方案涉及一种语音识别装置。所述语音识别装置包括存储器和包括硬件的处理器。处理器被配置为提取输入的语音数据的特征并基于所述特征设定在语音数据转变为无声状态后的所述无声状态的持续时间，所述持续时间用于判定语音数据的输入已完成。

在根据本发明的第一方案的语音识别装置中，处理器可以被配置为在输入的语音数据转变为无声状态之后经过的无声时间超过持续时间的情况下，判定语音数据的输入完成。

利用该语音识别装置，由于在无声时间超过根据语音数据的特征设定的持续时间的情况下判定用户的话语结束(语音数据的输入完成)，所以可以在适当的时间判定用户的话语结束。

在根据本发明第一方案的语音识别装置中，处理器可以被配置为由语音数据判定所述特征是地址、设施名称还是电话号码，并根据判定的特征来设定所述持续时间。

利用该语音识别装置，由于根据通过语音输入的类别来设定持续时间，因此设定了根据类别的持续时间，并且可以在适当的时间判定用户的话语的结束。

在根据本发明第一方案的语音识别装置中，处理器可以被配置为计算语音数据中的语音识别的错误的数量，并根据错误的数量来设定持续时间。

利用该语音识别装置，由于持续时间是根据语音识别的错误的数量而设定，因此在发生识别错误的情况下，可以执行调整以使得在适当的时间判定话语的结束。

在根据本发明第一方案的语音识别装置中，处理器可以被配置为由使用语音识别装置的用户的信息获取语音数据的特征，并根据获取的语音数据的特征来设定持续时间。

利用该语音识别装置，由于可以根据个人来设定持续时间，因此可以根据执行语音输入的个人用户的特性在适当的时间判定用户的话语的结束。

在根据本发明第一方案的语音识别装置中，处理器可以被配置为判定用户的年龄并根据判定的年龄来设定持续时间。

利用该语音识别装置，由于根据说话的用户的年龄来设定持续时间，因此可以在适当的时间判定用户的话语的结束。

在根据本发明第一方案的语音识别装置中，处理器可以被配置为由语音数据计算语速并根据所计算的语速设定持续时间。

利用该语音识别装置，由于根据语速设定持续时间，因此可以在适合于执行语音输入的个人的时间判定话语的结束。另外，由于根据话语情况在适当的时间判定话语的结束，因此可以减轻用户的压力。

本发明的第二方案涉及一种识别从外部输入的语音的语音识别方法。所述语音识别方法包括：提取输入的语音数据的特征；以及基于所述特征设定在所述语音数据转变为无声状态之后的所述无声状态的持续时间，所述持续时间用于判定所述语音数据的输入已完成。

本发明的第三方案涉及一种语音识别程序，其使被配置为识别从外部输入的语音的语音识别装置执行：提取输入的语音数据的特征；以及基于所述特征设定在所述语音数据转变为无声状态之后的所述无声状态的持续时间，所述持续时间用于判定所述语音数据的输入已完成。

利用根据本发明的各方案的语音识别装置、语音识别方法和语音识别程序，由于根据语音数据的特征来设定持续时间，因此获得了能够提高搜索词的话语结束判定的灵活性的效果。

附图说明

下面将参照附图描述本发明的示例性实施例的特征、优点以及技术和工业意义，其中相同的附图标记表示相同的元件，并且其中：

图1是示出根据本发明的实施例的包括语音识别装置的用于车辆的语音识别系统的概略图；

图2是示出根据本发明的实施例的用于车辆的语音识别系统中的语音识别装置和车辆控制装置的配置的框图；

图3A是示出根据本发明的实施例的包括语音识别装置的用于车辆的语音识别系统中的话语内容的示例的图；

图3B是示出根据本发明的实施例的包括语音识别装置的用于车辆的语音识别系统中的话语内容的示例的图；

图4是示出根据本发明的实施例的由用于车辆的语音识别系统执行的语音识别处理的流程的图；

图5是示出根据本发明的实施例的变型例1的由用于车辆的语音识别系统执行的语音识别处理的流程的图；

图6是示出根据本发明的实施例的变型例2的用于车辆的语音识别系统中的语音识别装置和车辆控制装置的配置的框图；

图7是示出根据本发明的实施例的变型例2的由用于车辆的语音识别系统执行的语音识别处理的流程的图；

图8是示出根据本发明的实施例的变型例3的用于车辆的语音识别系统中的语音识别装置和车辆控制装置的配置的框图；以及

图9是示出根据本发明的实施例的变型例3的由用于车辆的语音识别系统执行的语音识别处理的流程的图。

具体实施方式

在下文中，将参照附图描述本发明的实施例。应当注意，在所有附图中，相同的附图标记被分配给相同或相应的部件。此外，本发明不限于下面描述的实施例。

实施例

首先，将描述根据本发明的实施例的包括语音识别装置的用于车辆的语音识别系统。图1是示出根据本发明的实施例的用于车辆的语音识别系统的概略图。图2是示出根据本发明的实施例的用于车辆的语音识别系统中的语音识别装置和车辆控制装置的配置的框图。

如图1所示，根据本实施例的用于车辆的语音识别系统1包括语音识别装置20和车辆30。在根据本实施例的用于车辆的语音识别系统1中，语音识别装置20和每个车辆30通过网络10连接为可以彼此通信。具体地，语音识别装置20和车辆30中的车辆控制装置31通过网络10连接以便能够通信。网络10由因特网网络、移动电话网络构成，语音识别装置20和车辆30通过其可相互通信。

语音识别装置20接收来自每个车辆30通过语音输入的语音数据，并发送基于接收的语音数据处理的信息。语音识别装置20可以执行车辆30中的驾驶辅助处理，例如安全确认处理。

如图2所示，语音识别装置20包括通信单元21、话语信息处理单元22、控制器23和存储单元24。语音识别装置20使用一个或多个具有中央处理单元(CPU)、现场可编程门阵列(FPGA)、只读存储器(ROM)、随机存取存储器(RAM)等的计算机来构成。

通信单元21连接到网络10以执行与车辆30的通信。通信单元21从车辆30接收语音数据或者将与语音识别的搜索词有关的搜索结果发送到作为发送目标的车辆30。通信单元21可以接收与车辆30有关的信息，并且可以发送用于辅助车辆30的驾驶的信息。

在从车辆30接收到语音数据的情况下，话语信息处理单元22执行搜索词的判定和与搜索词相对应的搜索处理。话语信息处理单元22包括转换单元221、类别判定单元222、持续时间设定单元223、话语结束判定单元224和信息提取单元225。在下文中，“话语”是指用户发出一个或多个词语，而“话语结束”是指用户结束话语。为此，在“话语”期间，从车辆控制装置31按顺序输入语音数据。“话语结束”意味着完成了通过用户话语的语音数据输入。

转换单元221将从车辆控制装置31接收的语音数据转换为词语串。话语信息处理单元22将预先在存储单元24中登记的音素(例如，“a”、“i”等)与接收的语音数据进行核对，从而将语音数据中包括的每个音素转换为字符。然后，转换单元221将一组转换后的字符与预先登记在存储单元24中的词语进行核对，从而执行将语音数据转换为词语串的处理。转换单元221将预先登记的语法应用于词语串，从而将词语串中包括的词语(例如，助词)区别于作为搜索关键词的词语输出到类别判定单元222。

这里，可以使用外部数据库更新存储在存储单元24中的词语和语法内容，并且更新的内容也反映在存储单元24中。例如，在新商店或设施被添加到数据库的情况下，将添加的商店名称或设施名称作为新词语添加到存储单元24。

类别判定单元222判定从转换单元221获取的词语串的类别(话语域)。作为类别，例示出了地址、设施和电话号码。类别判定单元222基于词语串而选择地址、设施和电话号码中的一个作为词语串的类别。在本实施例中，由类别判定单元222判定的类别对应于语音数据的特征。

持续时间设定单元223设定用于判定语音数据的输入完成的持续时间。在本实施例中，持续时间设定单元223根据类别判定单元222判定的类别来设定持续时间。持续时间是从接收上次的语音数据的时刻开始接收新语音数据的输入的时段。例如，在选择“地址”作为类别的情况下，持续时间设定单元223将持续时间设定得比选择“设施”的情况时间更长。

话语结束判定单元224基于由持续时间设定单元223设定的持续时间来判定用户的话语是否结束(话语结束)。具体地，话语结束判定单元224判定从上次语音数据输入的时刻起保持被判定为没有语音数据输入的无声的状态的无声时间是否超过设定的持续时间，从而判定通过用户的话语的语音数据输入是否已完成。

图3A和图3B是示出根据本发明的实施例的包括语音识别装置的用于车辆的语音识别系统中的话语内容的示例的图。例如，在用户通过语音输入设施名称(“附近的便利店”)的情况下，如图3A所示，在类别判定单元222中选择“设施”作为类别，并且持续时间设定单元223将持续时间设定为T1。相反，在用户通过语音输入地址的情况下(“爱知县，名古屋市…昭和区，1丁目…”)，如图3B所示，在类别判定单元222中选择“地址”作为类别，并且持续时间设定单元223将持续时间设定为T₂(>T₁)。

具体而言，如图3A所示，在从话语开始起完成了“附近的便利店”的词语串的语音数据输入，并且即使从转变为没有语音数据输入的无声状态的时间t₁₁起经过了持续时间T₁也没有新的语音数据输入的情况下，话语结束判定单元224判定关于本次语音输入的语音数据输入已完成(话语结束)。相反，如图3B所示，在从话语开始起完成了“爱知县，名古屋市”的词语串的语音数据的输入，并且在从转变为没有语音数据输入的无声状态的时间t₂₁起经过持续时间T₂之前的持续时间内输入了新的语音数据的情况下，继续词语串的输入处理。例如，从时间t₂₁起经过了持续时间T₁并且在持续时间T₂(从时间t₂₁到时间t₂₃的时间段)内的时间t₂₂输入语音，继续词语串的输入处理。另外，在从完成后续词语串“昭和区，1丁目”的识别的时间t₂₄起的持续时间T₂内(直到时刻t₂₅)没有输入新的语音数据的情况下，话语结束判定单元224判定关于本次语音输入的语音数据的输入已完成(话语结束)。

信息提取单元225提取关于由转换单元221转换的词语串的对应信息。例如，在用户说出地址的情况下，信息提取单元225从存储在存储单元24中的地图信息中提取与该地址对应的位置以及周围地图信息。在这种情况下，类别判定单元222选择“地址”作为类别，并且由持续时间设定单元223设定根据地址的语音输入的持续时间。信息提取单元225基于输入的词语串提取信息，无需等待话语结束的判定。在这种情况下，可以从词语串中提取多种信息。在信息提取单元225提取了信息的情况下，语音识别装置20将提取的信息输出到车辆30。

控制器23整体控制语音识别装置20的各单元的操作。

存储单元24具有诸如硬盘或半导体存储器的存储介质，以及存储介质的驱动装置，并且以可写和可读的方式存储各种程序和各种数据。在存储单元24中，将待搜索的信息存储为语音识别数据。作为待搜索的信息，例如，例示出了地图信息、设施信息、与地图信息或设施信息相关联的电话号码等。

存储单元24具有个人信息存储单元241。在个人信息存储单元241中，存储有用户的个人信息，例如与车辆30相关联地登记的用户的年龄、语速、面部图像、语音信息和体重。语速例如是由基于语音数据转换的词语串的词语之间的无声时间计算的速度。语速可以是由不同用户中的每一个所表征的速度的相对值。

设置在车辆30中的车辆控制装置31被连接为能够通过网络10与语音识别装置20通信，并且电气控制车辆30的各单元。车辆控制装置31包括通信单元32、输入/输出单元33、语音识别单元34和电子控制单元(ECU)35。车辆30设置有收集语音的麦克风36。由麦克风36收集的语音数据被输出到语音识别单元34。

通信单元32通过经由网络10的无线通信执行与语音识别装置20的通信。

输入/输出单元33由触摸面板显示器、扬声器等构成。输入/输出单元33被配置为在ECU 35的控制下在触摸板显示器的屏幕上显示字符、图形等或者从扬声器输出声音以输入和输出诸如与驾驶辅助有关的信息的预定信息。输入/输出单元33被配置为在用户等操作触摸面板显示器的情况下将预定信息输入到ECU 35。输入/输出单元33例如构成汽车导航系统的一部分。

语音识别单元34根据通过麦克风36输入的语音生成语音数据，并将语音数据输出到ECU 35。在输入语音数据的情况下，ECU 35经由网络10将语音数据发送到语音识别装置20。在语音识别单元34中，语音数据可以被转换为上述词语串。

ECU 35由信息处理装置构成，例如具有CPU、FPGA、ROM、RAM等的微计算机。ECU 35整体地控制车辆30的各单元的电气操作。ECU 35被配置为使用输入数据或预先存储的数据和程序来执行计算，并输出计算结果作为控制命令信号。例如，在从语音识别装置20接收到信息的情况下，ECU 35使输入/输出单元33显示信息。具体地，根据信息的图像显示在汽车导航系统的显示屏上。

尽管未示出，但是车辆控制装置31包括诸如硬盘或半导体存储器的存储介质，以及存储介质的驱动装置。在存储单元中，存储有程序，例如在ECU35整体控制车辆30的各单元和各种应用的情况下所需的操作系统(OS)。

车辆30包括行驶所需的现有技术中的已知设备。具体地，车辆30包括发动机。发动机可以配置为由燃料的燃烧驱动，以使用电动机发电。所产生的电力被充电到例如可充电电池。车辆30包括全球定位系统(GPS)单元(未示出)，其接收来自GPS卫星的电波并检测车辆30的位置。检测到的位置作为车辆30的位置信息被输出到外部或存储在存储单元中。

随后，将参照图4描述由用于车辆的语音识别系统1执行的语音识别处理。图4是示出由根据本发明实施例的用于车辆的语音识别系统执行的语音识别处理的流程的图。例如，在车辆30被驱动之后，开始图4所示的处理。

ECU 35判定是否开始语音识别(步骤S101)。ECU 35判定语音识别单元34是否检测到通过麦克风36输入的语音，从而判定语音识别的开始。此处，在语音识别单元34未检测到语音输入的情况下(步骤S101：否)，ECU35重复确认语音识别的开始。相反，在语音识别单元34检测到语音输入的情况下(步骤S101：是)，ECU 35开始语音识别并进行到步骤S102。

在步骤S102中，语音识别单元34由输入语音生成语音数据，并将语音数据输出到ECU 35。ECU 35通过网络10将语音数据发送到语音识别装置20。

在步骤S102之后的步骤S103中，在语音识别装置20中，转换单元221将语音数据转换为词语串，并且类别判定单元222判定词语串的类别。类别判定单元222选择地址、设施名称和电话号码中的一个作为类别。

持续时间设定单元223根据在步骤S103中判定的类别来设定持续时间(步骤S104)。在设定了持续时间的情况下，控制器23进行到步骤S105。

在步骤S105中，信息提取单元225提取与输入的词语串相对应的信息。在提取了与词语串对应的信息的情况下，提取的信息从通信单元21发送到车辆30(步骤S106)。在提取的信息中，可以包括多个选择候选。

此后，在车辆30中，显示所获取的提取信息(步骤S107)。可以颠倒上述步骤S103和S104以及步骤S105至S107的顺序。

话语结束判定单元224判定是否进入无声状态(步骤S108)。具体地，话语结束判定单元224判定是否从车辆控制装置31输入了语音数据(步骤S108)。这里，在没有进入无声状态的情况下，即，在输入了新的语音数据的情况下(步骤S108：否)，话语结束判定单元224返回到步骤S103并重复上述处理。相反，在进入了没有输入语音数据的无声状态的情况下(步骤S108：是)，ECU 35进行到步骤S109。

在步骤S109中，话语结束判定单元224判定是否已经在测量无声时间。在正在测量无声时间的情况下(步骤S109：是)，话语结束判定单元224进行到步骤S111。相反，在未开始无声时间的测量的情况下(步骤S109：否)，话语结束判定单元224进行到步骤S110。

在步骤S110中，话语结束判定单元224开始测量无声时间。话语结束判定单元224测量从输入最新语音数据的时刻起经过的时间作为无声时间。

在步骤S111中，话语结束判定单元224判定测量的无声时间是否超过设定的持续时间。在判定无声时间没有超过持续时间的情况下(步骤S111：否)，话语结束判定单元224返回到步骤S108。相反，在判定无声时间超过持续时间的情况下(步骤S111：是)，话语结束判定单元224进行到步骤S112。

在步骤S112中，话语结束判定单元224判定完成了语音数据的输入(用户结束话语(话语结束))。

用户确认在车辆30中每次显示的提取结果，并选择所期望的信息或进行设定。例如，在搜索地址的情况下，并且在显示作为目的地的地址的情况下，用户将地址设定为目的地。此时，执行从当前地方到目的地的路线搜索等。在未显示期望的信息的情况下，并且在用户再次执行语音输入的情况下，在用于车辆的语音识别系统1中再次执行上述语音识别处理。

在上述实施例中，由输入的语音数据判定话语类别，并且根据判定的话语类别设定用于判定完成语音数据输入的持续时间。根据本实施例，紧接在执行语音输入之前，在不预先设定搜索项目的类别的情况下也能够适当地判定搜索词的话语的结束。

在上述实施例中，尽管判定了话语类别并且基于所判定的话语类别来设定持续时间，但是持续时间的设定不限于话语类别。

变型例1

接下来，将参照图5描述本实施例的变型例1。在根据变型例1的用于车辆的语音识别系统中，在车辆控制装置31中设置上述语音识别装置20中的话语结束判定单元224。其他配置与上述用于车辆的语音识别系统1中的那些相同，因此，将不再重复描述。

图5是示出根据本发明实施例的变型例1的由用于车辆的语音识别系统执行的语音识别处理的流程的图。例如，在车辆30被驱动之后开始图5所示的处理。

ECU 35判定是否开始语音识别(步骤S201)。ECU 35判定语音识别单元34是否检测到通过麦克风36输入的语音，从而判定语音识别的开始。这里，在语音识别单元34未检测到语音输入的情况下(步骤S201：否)，ECU35重复确认语音识别的开始。相反，在语音识别单元34检测到语音输入的情况下(步骤S201：是)，ECU 35开始语音识别并进行到步骤S202。

在步骤S202中，语音识别单元34由输入的语音生成语音数据，并将语音数据输出到ECU 35。ECU 35通过网络10将语音数据发送到语音识别装置20。

在步骤S202之后的步骤S203中，在语音识别装置20中，转换单元221将语音数据转换为词语串，并且类别判定单元222判定词语串的类别。类别判定单元222选择地址、设施名称和电话号码中的一个作为类别。

持续时间设定单元223根据在步骤S203中判定的类别来设定持续时间(步骤S204)。在设定了持续时间的情况下，控制器23将设定的持续时间发送到车辆控制装置31(步骤S205)。

控制器23根据接收的持续时间设定持续时间(步骤S206)。

在语音识别装置20中，信息提取单元225提取与输入的词语串对应的信息(步骤S207)。在提取了对应于词语串的信息的情况下，将提取的信息从通信单元21发送到车辆30(步骤S208)。在提取的信息中，可以包括多个选择候选。

此后，在车辆30中，显示所获取的提取信息(步骤S209)。可以颠倒上述步骤S203至S206和步骤S207至S209的顺序。

车辆控制装置31中设置的话语结束判定单元224判定是否进入无声状态(步骤S210)。具体地，话语结束判定单元224判定是否通过麦克风36输入了语音数据。这里，在输入语音数据的情况下(步骤S210：否)，话语结束判定单元224返回到步骤S202并重复上述处理。相反，在进入未输入语音数据的无声状态的情况下(步骤S210：是)，ECU 35进行到步骤S211。

在步骤S211中，话语结束判定单元224判定无声时间是否已经在测量中。在正在测量无声时间的情况下(步骤S211：是)，话语结束判定单元224进行到步骤S213。相反，在未开始无声时间的测量的情况下(步骤S211：否)，话语结束判定单元224进行到步骤S212。

在步骤S212中，话语结束判定单元224开始无声时间的测量。话语结束判定单元224测量从输入最新语音数据的时刻起经过的时间作为无声时间。

在步骤S213中，话语结束判定单元224判定测量的无声时间是否超过设定的持续时间。在判定无声时间不超过持续时间的情况下(步骤S213：否)，话语结束判定单元224返回到步骤S210。相反，在判定无声时间超过持续时间的情况下(步骤S213：是)，话语结束判定单元224进行到步骤S214。

在步骤S214中，话语结束判定单元224判定语音数据的输入已完成(用户结束话语(话语结束))。

如在上述变型例1中那样，在车辆控制装置31中，可以判定话语结束完成。即使在变型例1中，紧接在执行语音输入之前，也可以在没有预先设定搜索项目的类别的情况下，适当地判定搜索词的话语的结束。

变型例2

图6是示出根据本发明的实施例的变型例2的用于车辆的语音识别系统中的语音识别装置和车辆控制装置的配置的框图。根据变型例2的用于车辆的语音识别系统包括语音识别装置20A和车辆控制装置31A，以代替上述的语音识别装置20和车辆控制装置31。

除了上述通信单元21、控制器23和存储单元24之外，语音识别装置20A还包括话语信息处理单元22A。通信单元21、控制器23和存储单元24具有与上述用于车辆的语音识别系统1中的配置相同的配置，因此，将不再重复描述。

话语信息处理单元22A包括转换单元221、持续时间设定单元223、话语结束判定单元224和信息提取单元225。与上述话语信息处理单元22相比，话语信息处理单元22A不具有类别判定单元222。

除了上述通信单元32、输入/输出单元33、语音识别单元34和ECU 35之外，车辆控制装置31A还包括个人信息存储单元37。车辆30设置有收集语音的麦克风36。设置在车辆中的通信单元32、输入/输出单元33、语音识别单元34、ECU 35和麦克风36具有与上述用于车辆的语音识别系统1中的配置相同的配置，因此，将不再重复描述。

个人信息存储单元37存储使用车辆30的用户的个人信息。在个人信息存储单元37中，与个人姓名相关联地存储年龄、语速等。ECU 35参照个人信息存储单元37提取信息，并将关于通过输入/输出单元33选择的个人所提取的信息输出到语音识别装置20A。

在变型例2中，基于预先设定的个人信息设定持续时间。图7是示出根据本发明实施例的变型例2的由用于车辆的语音识别系统执行的语音识别处理的流程的图。图7所示的处理例如在车辆被驱动之后开始。

首先，当车辆被驱动时，ECU 35参照个人信息存储单元37将车辆的用户的个人信息发送到语音识别装置20A(步骤S301)。要发送的个人信息是包括登上车辆、使用语音输入并且通过输入/输出单元33选择的用户的年龄的信息。在变型例2中，用户的年龄对应于语音数据的特征。

在语音识别装置20A从车辆控制装置31A获取个人信息的情况下，持续时间设定单元223基于个人信息设定持续时间(步骤S302)。在变型例2中，持续时间设定单元223从个人信息中提取年龄并根据年龄设定持续时间。此时，例如，当个人的年龄越高时，持续时间被设定得越长。

ECU 35判定是否开始语音识别(步骤S303)。ECU 35判定语音识别单元34是否检测到通过麦克风36输入的语音，从而判定语音识别的开始。这里，在语音识别单元34未检测到语音输入的情况下(步骤S303：否)，ECU35重复确认语音识别的开始。相反，在语音识别单元34检测到语音输入的情况下(步骤S303：是)，ECU 35开始语音识别并进行到步骤S304。

在步骤S304中，语音识别单元34从输入的语音生成语音数据，并将语音数据输出到ECU 35。ECU 35通过网络10将语音数据发送到语音识别装置20A。

在步骤S304之后的步骤S305中，在语音识别装置20中，转换单元221将语音数据转换为词语串，并且信息提取单元225提取与输入的词语串对应的信息。在提取了对应于词语串的信息的情况下，提取的信息从通信单元21发送到车辆30(步骤S306)。在提取的信息中，可以包括多个选择候选。

此后，在车辆30中，显示所获取的提取信息(步骤S307)。

话语结束判定单元224判定是否进入无声状态(步骤S308)。具体地，话语结束判定单元224判定是否从车辆控制装置31A输入了语音数据(步骤S308)。这里，在输入了语音数据的情况下(步骤S308：否)，话语结束判定单元224返回到步骤S305并重复上述处理。相反，在进入未输入语音数据的无声状态的情况下(步骤S308：是)，ECU 35进行到步骤S309。

在步骤S309中，话语结束判定单元224判定是否已经在测量无声时间。在正在测量无声时间的情况下(步骤S309：是)，话语结束判定单元224进行到步骤S311。相反，在未开始无声时间的测量的情况下(步骤S309：否)，话语结束判定单元224进行到步骤S310。

在步骤S310中，话语结束判定单元224开始无声时间的测量。话语结束判定单元224测量从输入最新语音数据的时刻起经过的时间作为无声时间。

在步骤S311中，话语结束判定单元224判定测量的无声时间是否超过设定的持续时间。在判定无声时间没有超过持续时间的情况下(步骤S311：否)，话语结束判定单元224返回到步骤S308。相反，在判定无声时间超过持续时间的情况下(步骤S311：是)，话语结束判定单元224进行到步骤S312。

在步骤S312中，话语结束判定单元224判定语音数据的输入完成(用户结束话语(话语结束))。

在上述变型例2中，由输入的个人信息设定持续时间。根据变型例2，当执行语音输入时，由于根据个人信息设定持续时间，因此可以在不预先设定搜索项目的类别的情况下适当地判定搜索词的话语的结束。以这种方式，根据个人信息判定话语的结束，从而可以提高搜索词的话语结束判定的灵活性。

在上述变型例2中，例如，可以获取登上车辆的个人的面部信息，并且可以通过基于面部图像的识别处理来指定个人，或者可以通过语音(频率等)指定个人。通过语音判定个人，由此即使在多个人登上车辆30的情况下也可以根据说话的用户来设定持续时间。

变型例3

图8是示出根据本发明实施例的变型例3的语音识别系统中的语音识别装置和车辆控制装置的配置的框图。根据变型例3的用于车辆的语音识别系统包括语音识别装置20B，代替上述语音识别装置20。除语音识别装置20B之外的配置与上述用于车辆的语音识别系统1中的配置相同，因此，将不再重复描述。

除了上述通信单元21、控制器23和存储单元24之外，语音识别装置20B还包括话语信息处理单元22B。通信单元21、控制器23和存储单元24具有与上述用于车辆的语音识别系统1中的配置相同的配置，因此，将不再重复描述。

话语信息处理单元22B包括转换单元221、识别错误判定单元226、持续时间设定单元223、话语结束判定单元224和信息提取单元225。与上述话语信息处理单元22相比，话语信息处理单元22B具有识别错误判定单元226，代替类别判定单元222。

识别错误判定单元226检测话语内容(词语或词语串)的上下文，以判定在语音识别处理中是否发生识别错误。例如，在话语类别、话语内容等在中途改变的情况下，在话语内容建立之后没有设定而执行新的语音输入的情况下，或者在存在多个设定候选作为搜索结果的状态下结束处理的情况下，识别错误判定单元226判定发生识别错误。这里，在判定话语内容没有联系的情况下(例如，话语内容从地址改变为设施名称)识别错误判定单元226判定话语内容被改变。在判定发生识别错误的情况下，控制器23将存储在个人信息存储单元241中的用户的识别错误的数量增加1。在变型例3中，识别错误的数量对应于语音数据的特征。

在变型例3中，基于预先设定的个人信息设定持续时间。图9是示出根据本发明实施例的变型例3的由用于车辆的语音识别系统执行的语音识别处理的流程的图。在图9所示的处理中，预先设定基本持续时间。

ECU 35判定是否开始语音识别(步骤S401)。ECU 35判定语音识别单元34是否检测到通过麦克风36输入的语音，从而判定语音识别的开始。这里，在语音识别单元34未检测到语音输入的情况下(步骤S401：否)，ECU35重复确认语音识别的开始。相反，在语音识别单元34检测到语音输入的情况下(步骤S401：是)，ECU 35开始语音识别并进行到步骤S402。

在步骤S402中，语音识别单元34由输入的语音生成语音数据，并将语音数据输出到ECU 35。ECU 35通过网络10将语音数据发送到语音识别装置20B。

在步骤S402之后的步骤S403中，在语音识别装置20B中，转换单元221将语音数据转换为词语串，并且信息提取单元225提取与输入的词语串相对应的信息。在提取了与词语串相对应的信息的情况下，提取的信息从通信单元21发送到车辆30(步骤S404)。在提取的信息中，可以包括多个选择候选。

此后，在车辆30中，显示所获取的提取信息(步骤S405)。

在语音识别装置20B中，执行识别错误的判定处理(步骤S406)。识别错误判定单元226基于语音数据比较用户上次说出的话语内容(词语或词语串)和本次的话语内容(词语或词语串)，以判定是否发生识别错误。这里，在判定在话语内容中发生识别错误的情况下(步骤S406：是)，识别错误判定单元226进行到步骤S407。相反，在判定在话语内容中没有发生识别错误的情况下(步骤S406：否)，识别错误判定单元226进行到步骤S410。

在步骤S407中，控制器23对识别错误的数量进行计数。这样，与用户相关联的识别错误的数量增加一。此时，控制器23可以使存储单元24存储识别错误的数量。

此后，控制器23判定计数之后的识别错误的数量是否等于或大于阈值(步骤S408)。在判定识别错误的数量等于或大于阈值的情况下(步骤S408：是)，控制器23进行到步骤S409。相反，在判定识别错误的数量小于阈值的情况下(步骤S408：否)，控制器23进行到步骤S410。这里，阈值是预先设定的，并且根据作出应该延长持续时间的判定的识别错误的数量来设定。

在步骤S409中，持续时间设定单元223重置持续时间。此时，持续时间设定单元223执行设定使得持续时间变长。

在步骤S410中，持续时间设定单元223保持当前设定的持续时间的设定。

在步骤S409或S410中设定持续时间之后，话语结束判定单元224判定是否进入无声状态(步骤S411)。具体地，话语结束判定单元224判定是否从车辆控制装置31输入了语音数据(步骤S411)。这里，在输入了语音数据的情况下(步骤S411：否)，话语结束判定单元224返回到步骤S403并重复上述处理。相反，在进入未输入语音数据的无声状态的情况下(步骤S411：是)，ECU 35进行到步骤S412。

在步骤S412中，话语结束判定单元224判定是否已经在测量无声时间。在正在测量无声时间的情况下(步骤S412：是)，话语结束判定单元224进行到步骤S414。相反，在未开始无声时间的测量的情况下(步骤S412：否)，话语结束判定单元224进行到步骤S413。

在步骤S413中，话语结束判定单元224开始无声时间的测量。话语结束判定单元224测量从输入最新语音数据的时刻起经过的时间作为无声时间。

在步骤S414中，话语结束判定单元224判定测量的无声时间是否超过设定的持续时间。在判定无声时间没有超过持续时间的情况下(步骤S414：否)，话语结束判定单元224返回到步骤S411。相反，在判定无声时间超过持续时间的情况下(步骤S414：是)，话语结束判定单元224进行到步骤S415。

在步骤S415中，话语结束判定单元224判定语音数据的输入已完成(用户结束话语(话语结束))。

在上述变型例3中，根据语音识别的识别错误的数量来设定持续时间。根据变型例3，当执行语音输入时，由于在识别错误继续的情况下重置持续时间，因此可以在不预先设定搜索项目的类别的情况下适当地判定搜索词的话语的结束。

在变型例3中，在指定登上车辆30的个人之后，每次通过将识别错误的数量与个人信息相关联，可以针对每个个人给出识别错误的计数值，可以提取该识别错误的计数值，并且可以根据计数值设定持续时间。

本发明不限于上述实施例和变型例，并且例如，当用户的语速越快时，持续时间可以越短。在这种情况下，例如，在图4的步骤S103和S104中，持续时间设定单元223基于语音数据检测例如词语串的词语之间的无声时间或者检测词语数量和话语所需的时间，由检测结果计算语速，并且根据语速设定持续时间。由此，例如，在用户匆忙说话的情况下，话语相对快速地结束，从而可以减轻用户的压力。另外，可以根据用户的语音的音量或语调来改变持续时间。可以应用要使用的星期几等作为持续时间的设定参数。可以适当地组合上述参数。

在上述实施例和变型例中，尽管通过语音识别装置20和车辆30之间的通信来执行类别判定或信息提取，但是例如，话语信息处理单元22可以向车辆30提供处理所需的信息，并且整个语音识别处理可以在车辆30内执行。本发明不限于在车辆30内执行语音识别处理的情况。语音识别单元34或麦克风36可以设置在用户的终端中，并且用户可以将终端连接到包括话语信息处理单元的服务器，以执行语音输入或语音识别处理。

本领域技术人员可以容易地得出进一步的效果或变型例。本发明的更广泛的方案不限于上面示出和描述的具体细节和代表性实施例。因此，在不脱离由所附权利要求及其等同物限定的总的发明构思的精神或范围的情况下，可以进行各种改变。

Claims

1.一种语音识别装置，包括：

存储器；以及

处理器，其包括硬件，

其中，所述处理器被配置为提取输入的语音数据的特征，并且基于所述特征设定在所述语音数据转变为无声状态之后的所述无声状态的持续时间，所述持续时间用于判定所述语音数据的输入已完成。

2.根据权利要求1所述的语音识别装置，其中，所述处理器被配置为在输入的所述语音数据转变为所述无声状态之后经过的无声时间超过所述持续时间的情况下，判定所述语音数据的输入已完成。

3.根据权利要求1所述的语音识别装置，其中，所述处理器被配置为由所述语音数据判定所述特征是地址、设施名称还是电话号码，并根据所判定的特征来设定所述持续时间。

4.根据权利要求1所述的语音识别装置，其中，所述处理器被配置为计算所述语音数据中的语音识别的错误的数量，并根据所述错误的数量来设定所述持续时间。

5.根据权利要求1所述的语音识别装置，其中，所述处理器被配置为由使用所述语音识别装置的用户的信息获取所述语音数据的所述特征，并根据获取的所述语音数据的所述特征来设定所述持续时间。

6.根据权利要求4所述的语音识别装置，其中，所述处理器被配置为判定用户的年龄并根据所判定的年龄来设定所述持续时间。

7.根据权利要求1所述的语音识别装置，其中，所述处理器被配置为由所述语音数据计算语速，并根据所计算的语速来设定所述持续时间。

8.一种识别从外部输入的语音的语音识别方法，所述语音识别方法包括：

提取输入的语音数据的特征；以及

基于所述特征设定在所述语音数据转变为无声状态之后的所述无声状态的持续时间，所述持续时间用于判定所述语音数据的输入已完成。

9.一种语音识别程序，其使被配置为识别从外部输入的语音的语音识别装置执行：

提取输入的语音数据的特征；以及