CN111199735A

CN111199735A - 车载装置以及语音识别方法

Info

Publication number: CN111199735A
Application number: CN201911028900.6A
Authority: CN
Inventors: 大平正明; 有北知弘
Original assignee: Alpine Electronics Inc
Current assignee: Alpine Electronics Inc
Priority date: 2018-11-16
Filing date: 2019-10-28
Publication date: 2020-05-26
Anticipated expiration: 2039-10-28
Also published as: US20200160862A1; CN111199735B; EP3654329B1; JP2020086571A; JP7023823B2; US11158316B2; EP3654329A1

Abstract

提供提高对车载装置进行语音指示时的便利性的车载装置以及语音识别方法。车载装置的特征在于，具有：第1语音识别部，基于输入的语音，对表示车载装置的词语以及表示下述词语中的第1指示内容的词语进行语音识别，该词语是表示用于操作车载装置的指示内容的词语；以及第2语音识别部，通过表示车载装置的词语被语音识别出而动作，基于接在表示车载装置的词语后输入的语音，对表示用于操作车载装置的第2指示内容的词语进行语音识别，第1语音识别部无论相对于表示车载装置的词语的出现顺序如何，都对表示第1指示内容的词语进行语音识别。

Description

车载装置以及语音识别方法

技术领域

本发明涉及车载装置以及语音识别方法。

背景技术

以往，已知有能够基于藉由语音的指示进行动作的车载装置(例如，搭载了语音识别功能的车载的音频装置等)。在该车载装置中，兼备内置式的语音识别功能、以及基于云的语音识别功能来进行语音识别。

具体而言，使用内置式的语音识别功能来检测触发词语(例如，用于呼叫作为语音指示的对象的车载装置的词语)，使用基于云的语音识别功能来识别触发词语之后的语音指示的指示内容。根据该车载装置，由于能够通过检测触发词语来使基于云的语音识别功能动作，因此能够确切地识别触发词语之后的各种语音指示的指示内容。

现有技术文献

专利文献

专利文献1：日本特开2000－322078号公报

发明内容

发明所要解决的课题

另一方面，在如上述车载装置那样，采用在进行语音指示前必须说出触发词语的构成的情况下，损害与手动操作等相比便利性较高的语音指示的优势。

本发明鉴于上述课题而做出，目的在于提高对车载装置进行语音指示时的便利性。

用于解决课题的手段

根据一方式，车载装置的特征在于，具有：

第1语音识别部，基于输入的语音，对表示所述车载装置的词语、以及表示第1指示内容的词语进行语音识别，该第1指示内容是表示用于操作所述车载装置的指示内容的词语之中的第1指示内容；以及

第2语音识别部，通过表示所述车载装置的词语被语音识别出而动作，基于接在表示所述车载装置的词语后输入的语音，对表示用于操作所述车载装置的第2指示内容的词语进行语音识别，

无论相对于表示所述车载装置的词语的出现顺序如何，所述第1语音识别部都对表示所述第1指示内容的词语进行语音识别。

发明效果

能够提高对车载装置进行语音指示时的便利性。

附图说明

图1是表示车载音频装置的配置例的图。

图2是表示车载音频装置的硬件构成的一例的图。

图3是表示车载音频装置的功能构成的一例的第1图。

图4是表示在词语信息储存部中储存的各种词语的具体例的图。

图5是表示车载音频装置的语音识别处理的流程的第1流程图。

图6是表示车载音频装置的动作例的第1图。

图7是表示车载音频装置的功能构成的一例的第2图。

图8是表示车载音频装置的语音识别处理的流程的第2流程图。

图9是表示车载音频装置的动作例的第2图。

附图标记的说明

100：车载音频装置

310：语音取得部

320：通信部

330：识别部

340：音频部

350：影像输出部

360：语音输出部

370：操作识别部

380：词语信息储存部

710：说话频度解析部

720：识别部。

具体实施方式

以下，参照附图对各实施方式进行说明。另外，在本说明书以及附图中，对于具有实际上相同的功能构成的构成要素，通过赋予相同的附图标记来省略重复的说明。

[第1实施方式]

＜车载音频装置的配置例＞

首先，说明作为车载装置的一例的车载音频装置的配置例。图1是表示第1实施方式的车载音频装置的配置例的图。如图1所示，车载音频装置100例如配置于车厢内的中央控制台。根据该配置，车辆的搭乘者既能够通过手动操作车载音频装置100使其动作，也能够通过藉由语音的指示使其动作。

另外，设为在车载音频装置100安装有音频数据播放程序。并且，通过执行该程序，车载音频装置100进行与车辆的搭乘者的手动操作或者语音指示相应的动作(各种音频数据的播放、停止等)。

＜车载音频装置的硬件构成＞

接下来，说明车载音频装置100的硬件构成。图2是表示车载音频装置的硬件构成的一例的图。如图2所示，车载音频装置100具有CPU(Central Processing Unit：中央处理单元)201、ROM(Read Only Memory：只读存储器)202、以及RAM(Random Access Memory：随机存取存储器)203。CPU201、ROM202、RAM203形成所谓的计算机。

此外，车载音频装置100具有辅助存储装置204、通信装置205、操作装置206、显示装置207、语音输出装置208、语音输入装置209、以及驱动装置210。另外，车载音频装置100的各硬件经由总线211相互连接。

CPU201是执行安装于辅助存储装置204的各种程序(例如，音频数据播放程序等)的运算设备。

ROM202是非易失性存储器。ROM202作为储存用于CPU201执行安装于辅助存储装置204的各种程序所需的各种程序、数据等的主存储设备发挥功能。具体而言，ROM202作为储存BIOS(Basic Input/Output System：基本输入/输出系统)、EFI(Extensible FirmwareInterface：可扩展固件接口)等的启动程序等的主存储设备发挥功能。

RAM203是DRAM(Dynamic Random Access Memory：动态随机存取存储器)、SRAM(Static Random Access Memory：静态随机存取存储器)等的易失性存储器。RAM203作为提供在通过CPU201执行安装于辅助存储装置204的各种程序时展开的作业区域的主存储设备发挥功能。

辅助存储装置204是储存各种程序、通过执行各种程序而播放的各种音频数据、以及在执行各种程序时使用的数据(词语)的辅助存储设备。例如，作为后述的储存部的一例的词语信息储存部在辅助存储装置204中实现。

通信装置205是用于与车外的网络进行通信的通信设备。车载音频装置100经由通信装置205与网络上的云装置进行通信。

操作装置206是接受车辆的搭乘者对车载音频装置100进行的手动的操作的操作设备(例如，触摸面板、各种操作按钮等)。显示装置207是显示音频数据(影像数据)的显示设备。

语音输出装置208是对音频数据(语音数据)进行语音输出的扬声器等的语音输出设备。语音输入装置209是对车辆的搭乘者说话时的语音进行检测并生成语音数据的麦克风等的输入设备。

驱动装置210是用于设置记录介质220的设备。这里所说的记录介质220包括如CD－ROM、软盘、光磁盘等那样通过光、电或磁来记录信息的介质。此外，记录介质220也可以包括如ROM、闪存等那样通过电来记录信息的半导体存储器等。

另外，安装于辅助存储装置204的各种程序例如通过分发的记录介质220被设置于驱动装置210、并由驱动装置210读出在该记录介质220中记录的各种程序来安装。或者，安装于辅助存储装置204的各种程序也可以通过经由通信装置205从网络下载来安装。

＜车载音频装置的功能构成＞

接下来，对车载音频装置100的功能构成进行说明。图3是表示车载音频装置的功能构成的一例的第1图。如上所述，在车载音频装置100安装有音频数据播放程序。车载音频装置100通过执行该程序，从而作为语音指示识别部300、音频部340、影像输出部350、语音输出部360、操作识别部370发挥功能。

语音指示识别部300基于由语音输入装置209取得的语音数据，对表示车辆的搭乘者的语音指示的指示内容的词语进行语音识别，并将指示内容通知音频部340。具体而言，语音指示识别部300具有语音取得部310、通信部320、以及识别部330。

语音取得部310通过语音输入装置209取得语音数据，并通知通信部320以及识别部330。

通信部320是第2语音识别部的一例，在接受到来自识别部330的动作命令的情况下，将之后由语音取得部310通知的规定长度量的语音数据向网络上的云装置发送。规定长度量的语音数据是指例如规定时间量的语音数据、或者1个短语量的语音数据等。此外，通信部320若与发送了语音数据相应地从网络上的云装置接收到语音识别结果(指示内容)，则对音频部340通知指示内容(第2指示内容)。

识别部330是第1语音识别部的一例，读出在词语信息储存部380中储存的词语，在从语音取得部310通知的语音数据中，对与所读出的词语对应的词语进行语音识别。此外，识别部330在语音识别出的词语是表示作为语音指示的指示对象的车载音频装置100的词语的情况下，对通信部320发送用于使基于云的语音识别功能动作的动作命令。

另一方面，在语音识别出的词语是表示用于操作作为语音指示的指示对象的车载音频装置100的第1指示内容的词语的情况下，识别部330对音频部340通知该第1指示内容。

操作识别部370对操作装置206接受到的手动的操作进行识别，并对音频部340通知指示内容。

音频部340进行与从通信部320、识别部330或者操作识别部370通知的指示内容相应的动作。例如，在从通信部320、识别部330或者操作识别部370通知的指示内容为“音频播放”的情况下，音频部340播放音频数据，并向影像输出部350以及语音输出部360发送所播放的音频数据。

此外，在从通信部320、识别部330或者操作识别部370通知的指示内容为“音频停止”的情况下，音频部340停止播放中的音频数据。

另外，音频部340在由通信部320或者识别部330通知了指示内容的情况下，生成用于复述指示内容的复述数据(语音数据)，并经由语音输出部360输出所生成的复述数据。

影像输出部350输出由音频部340发送来的音频数据(影像数据)。语音输出部360输出由音频部340发送来的音频数据(语音数据)。由此，车辆的搭乘者能够在车厢内中视听音频数据。

进而，语音输出部360通过输出由音频部340发送来的复述数据(语音数据)，从而复述语音指示的指示内容。由此，车辆的搭乘者能够确认车载音频装置100已识别出语音指示的指示内容。

＜在词语信息储存部中储存的词语的具体例＞

接下来，说明在词语信息储存部380中储存的各种词语的具体例。图4是表示在词语信息储存部中储存的各种词语的具体例的图。如图4所示，在词语信息储存部380中，各种词语分为“触发词语”与“音频操作用词语”来储存。

“触发词语”是表示作为语音指示的指示对象的车载音频装置100的词语。在图4的例中，表示“XXX”(例如XXX中包含车载音频装置100的商品名等)作为触发词语而被储存。

“音频操作用词语”是表示用于操作作为语音指示的指示对象的车载音频装置100的第1指示内容(播放、停止等)的词语。图4的例子示出了至少“音频停止”、“音频播放”作为音频操作用词语被储存。

＜语音识别处理＞

接下来，说明车载音频装置100的语音识别处理的流程。图5是表示车载音频装置的语音识别处理的流程的第1流程图。

在步骤S501中，语音取得部310判定是否由语音输入装置209取得了语音数据。在步骤S501中判定为未取得语音数据的情况(步骤S501中否的情况)下，等待至取得语音数据。

另一方面，在步骤S501中判定为取得了语音数据的情况(步骤S501中是的情况)下，对通信部320以及识别部330通知所取得的语音数据。

在步骤S502中，识别部330判定由语音取得部310通知的语音数据是否是触发词语。具体而言，识别部330判定由语音取得部310通知的语音数据是否相当于在词语信息储存部380中储存的“触发词语”。

在步骤S502中判定为是触发词语的情况(步骤S502中是的情况)下，识别部330对通信部320发送用于使基于云的语音识别功能动作的动作命令，并进入步骤S508。

在步骤S508中，通信部320在从识别部330接受到用于使基于云的语音识别功能动作的动作命令后，向网络上的云装置发送由语音取得部310通知的规定长度量的语音数据。由此，在云装置中，对接收到的规定长度量的语音数据进行语音识别。

在步骤S509中，通信部320与发送了语音数据相应地，从网络上的云装置接收语音识别结果(指示内容)，并对语音指示的指示内容进行识别。

在步骤S510中，通信部320将识别出的指示内容通知音频部340。

另一方面，在步骤S502中判定为不是触发词语的情况(步骤S502中否的情况)下，进入步骤S503。在步骤S503中，识别部330判定由语音取得部310通知的语音数据是否是音频操作用词语。具体而言，识别部330判定由语音取得部310通知的语音数据是否相当于在词语信息储存部380中储存的“音频操作用词语”中的某一个。

在步骤S503中判定为不是音频操作用词语的情况(步骤S503中否的情况)下，进入步骤S511。另一方面，在步骤S503中判定为音频操作用词语的情况(步骤S503中是的情况)下，进入步骤S504。

在步骤S504中，识别部330对语音指示的指示内容进行识别。在步骤S505中，识别部330对音频部340通知识别出的指示内容。

在步骤S506中，音频部340生成用于复述由通信部320或者识别部330通知的指示内容的复述数据(语音数据)，并经由语音输出部360对所生成的复述数据进行语音输出。

在步骤S507中，音频部340进行与由通信部320或者识别部330的任一个通知的指示内容相应的动作。

在步骤S511中，语音取得部310判定是否结束语音识别处理。在步骤S511中判定为不结束语音识别处理的情况(步骤S511中否的情况)下，返回步骤S501。另一方面，在步骤S511中判定为结束语音识别处理的情况下，结束语音识别处理。

这样，在本实施方式的车载音频装置100中，除了出现顺序只有在触发词语之后才进行语音识别的词语之外，还准备即使出现顺序不在触发词语之后也进行语音识别的词语(音频操作用词语)。由此，根据本实施方式的车载音频装置100，车辆的搭乘者610能够不说出触发词语地对第1指示内容(播放、停止等)进行语音指示。

＜车载音频装置的动作例＞

接下来，说明车载音频装置100的动作例。图6是表示车载音频装置的动作例的第1图。其中，图6的(a)作为比较例示出通常的车载音频装置600的动作例。

如图6的(a)所示，在通常的车载音频装置600的情况下，在每次进行语音指示(“播放音频”、“停止音频”)时，车辆的搭乘者610需要说出触发词语(“XXX”(下划线部分))。

另一方面，图6的(b)示出本实施方式的车载音频装置100的动作例。如图6的(b)所示，在车载音频装置100的情况下，搭乘者610在进行语音指示时，对于第1指示内容既可以说出触发词语，也可以不说出触发词语。

例如，如图6的(b)上侧所示，在进行语音指示(“播放音频”)前说出触发词语(“XXX”(下划线部分))的情况下，与比较例相同，触发词语在识别部330中被语音识别。此外，接在触发词语之后的语音指示(“音频播放”)在云装置中被语音识别。由此，在音频部340中播放音频数据。

另一方面，如图6的(b)下侧所示，设为在进行语音指示(“停止音频”)前不说出触发词语(“XXX”)。在该情况下，该语音指示作为音频操作用词语(“音频停止”)在识别部330中被语音识别。由此，在音频部340中停止音频数据的播放。

这样，在车载音频装置100中，由于与相对于触发词语的出现顺序无关地对音频操作用词语进行语音识别，因此车辆的搭乘者610能够不说出触发词语地使音频部340动作。其结果，根据车载音频装置100，能够避免车辆的搭乘者610在每次进行语音指示时都说出触发词语的状况。换句话说，能够提高车辆的搭乘者610对车载音频装置100进行语音指示时的便利性。

＜总结＞

根据以上的说明可知，在第1实施方式的车载音频装置中，

·词语信息储存部不仅储存表示车载音频装置的词语(触发词语)，还储存表示用于操作车载音频装置的第1指示内容的词语(音频操作用词语)。

·在取得了语音数据时，判定相当于触发词语或者音频操作用词语中的哪一个。

·在判定为相当于触发词语的情况下，在云装置中对后续于触发词语的语音数据进行语音识别，并向音频部通知指示内容(第2指示内容)。

·在判定为不相当于触发词语，且判定为相当于音频操作用词语的情况下，对音频部通知与音频操作用词语对应的指示内容(第1指示内容)。

换句话说，在第1实施方式的车载音频装置中，与相对于触发词语的出现顺序无关地对音频操作用词语进行语音识别。

由此，根据第1实施方式的车载音频装置，能够避免在每次进行语音指示时都必须说出触发词语的状况，能够对第1指示内容不说出触发词语地进行语音指示。其结果，能够提高对车载音频装置进行语音指示时的便利性。

[第2实施方式]

在上述第1实施方式中，说明了识别部330与车厢内的状况无关地，常时将触发词语与音频操作用词语这两种词语作为进行语音识别的词语。然而，识别部330也可以代替构成为常时对两种词语进行语音识别，而是构成为根据车厢内的状况，仅对触发词语进行语音识别。

例如，设为在车厢内搭乘有多个搭乘者，彼此进行对话的情况下，偶然说出了与音频操作用词语相当的词语。在该情况下，在车载音频装置100中，将与音频操作用词语相当的词语误识别为语音指示，进行与第1指示内容相应的动作。

为此，在第2实施方式中，在车厢内搭乘有多个搭乘者，将与音频操作用词语相当的词语误识别为语音指示的可能性高的情况下，切换为仅对触发词语进行语音识别。由此，能够降低将与音频操作用词语相当的词语误识别为语音指示的可能性。以下，以与上述第1实施方式的不同点为中心对第2实施方式进行说明。

＜车载音频装置的功能构成＞

首先，说明第2实施方式的车载音频装置的功能构成。图7是表示车载音频装置的功能构成的一例的第2图。与图3的不同点是说话频度解析部710、以及识别部720。

说话频度解析部710基于语音取得部310取得的语音数据，对搭乘者的说话频度进行解析。此外，说话频度解析部710在搭乘者的说话频度为规定的阈值以上的情况下，判定为车厢内搭乘有多个搭乘者，并且多个搭乘者处于对话中。进而，说话频度解析部710在判定为处于对话中的情况下，对识别部720通知表示处于对话中的信息。

识别部720读出在词语信息储存部380中储存的词语，在由语音取得部310通知的语音数据中，对与读出的词语对应的词语进行语音识别。这里，在识别部720中，在由说话频度解析部710通知了表示处于对话中的信息的期间，仅对由词语信息储存部380读出的词语中的“触发词语”进行语音识别。另一方面，在识别部720中，在未由说话频度解析部710通知表示处于对话中的信息的情况下，对从词语信息储存部380读出的“触发词语”以及“音频操作用词语”双方进行语音识别。

＜语音识别处理＞

接下来，说明由车载音频装置100进行的语音识别处理的流程。图8是表示语音识别处理的流程的第2流程图。与使用图5说明的语音识别处理的不同点是步骤S801以及步骤S802。

在步骤S801中，说话频度解析部710对搭乘者的说话频度进行计算，在计算出的说话频度为规定的阈值以上的情况下，判定为车厢内搭乘有多个搭乘者，并且多个搭乘者处于对话中。此外，说话频度解析部710对识别部720通知表示处于对话中的信息。

在步骤S802中，识别部720通过判定是否从说话频度解析部710通知了表示处于对话中的信息，来判定车辆的搭乘者是否处于对话中。

在步骤S802中判定为处于对话中的情况(步骤S802中是的情况)下，进入步骤S511。另一方面，在步骤S802中判定为不是处于对话中的情况下，进入步骤S503。另外，以下的处理已使用图5进行了说明，故在这里省略说明。

＜车载音频装置的动作例＞

接下来，说明车载音频装置100的动作例。图9是表示车载音频装置的动作例的第2图。其中，图9的(a)是作为比较例，示出了车辆的搭乘者为一人的情况、或者车辆的搭乘者为多人但未彼此对话的情况。

如图9的(a)所示，在车辆的搭乘者610、910未彼此对话的情况下，识别部720对触发词语与音频操作用词语这两种词语进行语音识别。因此，例如在车辆的搭乘者610说出的语音中，出现了音频操作用词语的情况下，对其进行语音识别。在该情况下，搭乘者610与第1实施方式相同，能够不说出触发词语地进行语音指示。

另一方面，如图9的(b)所示，在车辆的搭乘者610、910正彼此对话的情况下，仅对触发词语进行语音识别。因此，即使在车辆的搭乘者说出的语音中，出现了与音频操作用词语相当的词语的情况下，也不被语音识别。其结果，能够避免将与音频操作用词语相当的词语误识别为语音指示的情况。

＜总结＞

如以上的说明可知，在第2实施方式的车载音频装置中，

·在取得了语音数据时，通过计算车辆的搭乘者的说话频度，判定车辆的搭乘者是否处于对话中。

·在判定为车辆的搭乘者处于对话中的情况下，仅对词语信息储存部中储存的触发词语与音频操作用词语中的触发词语进行语音识别。

·另一方面，在判定为车辆的搭乘者不是处于对话中的情况下，对词语信息储存部中储存的触发词语与音频操作用词语双方进行语音识别。

由此，根据第2实施方式的车载音频装置，即使在车辆的搭乘者的对话中，出现了与音频操作用词语相当的词语的情况下，也能够避免误识别为语音指示的状况。

[其他的实施方式]

在上述第1以及第2实施方式中，设为在词语信息储存部380中仅储存一个触发词语，但也可以储存多个触发词语。此外，作为在词语信息储存部380中储存的音频操作用词语，例示出“音频停止”、“音频播放”，也可以在词语信息储存部380中储存其他的音频操作用词语。

此外，在上述第2实施方式中，说明了识别部720在从说话频度解析部710通知了表示处于对话中的信息的期间，仅将触发词语设为进行语音识别的词语。然而，也可以构成为对触发词语与音频操作用词语的一部分进行语音识别。换句话说，也可以构成为在被通知了表示处于对话中的信息的期间，筛选在“音频操作用词语”中储存的词语，仅对一部分的词语进行语音识别。

此外，在上述第1以及第2实施方式中，说明了语音指示的指示对象为车载音频装置的情况，但语音指示的指示对象不限于车载音频装置，也可以是其他的车载装置。

另外，本发明不限于上述实施方式列举的构成等、以及与其他要素的组合等在这里示出的构成。关于上述点，能够在不脱离本发明的主旨的范围进行变更，能够根据其应用形态适当设定。

Claims

1.一种车载装置，其特征在于，具有：

第1语音识别部，基于输入的语音，对表示所述车载装置的词语以及表示第1指示内容的词语进行语音识别，该第1指示内容是表示用于操作所述车载装置的指示内容的词语之中的第1指示内容；以及

所述第1语音识别部，无论表示所述第1指示内容的词语相对于表示所述车载装置的词语的出现顺序如何，都对表示所述第1指示内容的词语进行语音识别。

2.如权利要求1所述的车载装置，其特征在于，

所述车载装置还具有储存部，该储存部储存表示所述车载装置的词语、以及表示用于操作所述车载装置的第1指示内容的词语，

所述第1语音识别部通过读出在所述储存部中储存的词语，并判定所述输入的语音是否相当于读出的词语，来对所述词语进行语音识别。

3.如权利要求2所述的车载装置，其特征在于，

在基于所述输入的语音计算出的说话频度为规定的阈值以上的情况下，第1语音识别部读出所述储存部中储存的词语之中的表示所述车载装置的词语，并判定所述输入的语音是否相当于读出的表示所述车载装置的词语。

4.一种语音识别方法，是车载装置中的语音识别方法，其特征在于，具有：

第1语音识别工序，基于输入的语音，对表示所述车载装置的词语以及表示第1指示内容的词语进行语音识别，该第1指示内容是表示用于操作所述车载装置的指示内容的词语之中的第1指示内容；以及

第2语音识别工序，通过表示所述车载装置的词语被语音识别出而执行，基于接在表示所述车载装置的词语后输入的语音，对表示用于操作所述车载装置的第2指示内容的词语进行语音识别，

所述第1语音识别工序，无论表示所述第1指示内容的词语相对于表示所述车载装置的词语的出现顺序如何，都对表示所述第1指示内容的词语进行语音识别。