CN111755007B

CN111755007B - 终端装置、终端装置的控制方法及存储介质

Info

Publication number: CN111755007B
Application number: CN202010215503.6A
Authority: CN
Inventors: 菊池慎一; 暮桥昌宏; 栗原正树; 本田裕
Original assignee: Honda Motor Co Ltd
Current assignee: Honda Motor Co Ltd
Priority date: 2019-03-27
Filing date: 2020-03-24
Publication date: 2024-05-07
Anticipated expiration: 2040-03-24
Also published as: JP7278830B2; CN111755007A; JP2020160281A

Abstract

本发明提供能够有效活用具有声音识别功能且互不相同的多个服务器装置的终端装置、终端装置的控制方法及存储介质。一种终端装置，其搭载于车辆，其中，所述终端装置具备：两个以上的前处理部，它们对由话筒收到的车室内的声音进行分别与具有声音识别功能的多个服务器装置中的两个以上的服务器装置相应的前处理；以及通信控制部，其将分别由所述两个以上的前处理部进行了前处理后的声音使用通信部而向对应的服务器装置发送。

Description

终端装置、终端装置的控制方法及存储介质

技术领域

本发明涉及终端装置、终端装置的控制方法及存储介质。

背景技术

以往，关于识别在车辆中由乘员发出的声音的技术正在推进研究。在日本特开2017-102822号公报中公开了车载装置的发明，该车载装置具备：声音信号输入部，其被输入基于用户的讲话的声音信号；操作信号输入部，其被输入基于用户的手动操作的操作信号；SN比算出部，其算出与声音信号中包含的噪声相关的指标即噪声指标；以及控制部，其接受声音信号和操作信号中的任一者作为输入信号，执行基于输入信号的控制，控制部基于SN比算出部算出的噪声指标来决定在下次的操作输入中接受声音信号和操作信号中的哪一个作为输入信号。

发明要解决的课题

在声音识别的领域中，以下结构是主流：从终端装置经由网络而向服务器装置发送声音，在服务器装置中进行声音识别，其结果向终端装置回复。然而，在以往的技术中，关于用于对多个服务器装置选择性地或并行地委托声音识别的结构没有充分研究。因此，在以往的技术中，有时无法有效活用具有声音识别功能的多个服务器装置。

发明内容

本发明的目的之一在于，提供能够有效活用具有声音识别功能且互不相同的多个服务器装置的终端装置、终端装置的控制方法及存储介质。

用于解决课题的手段

本发明的终端装置、终端装置的控制方法及存储介质采用了以下的结构。

(1)：本发明的一方案的终端装置搭载于车辆，其中，所述终端装置具备：两个以上的前处理部，它们对由话筒收到的车室内的声音进行分别与具有声音识别功能的多个服务器装置中的两个以上的服务器装置相应的前处理；以及通信控制部，其将分别由所述两个以上的前处理部进行了前处理后的声音使用通信部而向对应的服务器装置发送。

(2)：在上述(1)的方案中，所述通信控制部对所述多个服务器装置中的第一服务器装置至少发送未由所述前处理部进行前处理的声音。

(3)：在上述(2)的方案中，所述终端装置搭载有：第一OS，其实现所述两个以上的前处理部中的、进行与所述第一服务器装置以外的服务器装置相应的前处理的前处理部；以及第OS，其用于取出未由所述前处理部进行前处理的声音。

(4)：在上述(1)～(3)的方案中，所述两个以上的前处理部中的一部分或全部按顺序进行处理。

(5)：在上述(1)～(4)的方案中，所述终端装置具备与所述多个服务器装置分别对应的多个所述通信控制部。

(6)：本发明的另一方案的终端装置的控制方法是搭载于车辆的终端装置的控制方法，其中，所述终端装置所具备的两个以上的前处理部分别对由话筒收到的车室内的声音进行分别与具有声音识别功能的多个服务器装置中的两个以上的服务器装置相应的前处理，所述终端装置将分别由所述两个以上的前处理部进行了前处理后的声音使用通信部而向对应的服务器装置发送。

(7)：本发明的另一方案的存储介质存储由搭载于车辆的终端装置执行的程序，其中，所述程序使所述终端装置执行以下处理：对由话筒收到的车室内的声音进行分别与具有声音识别功能的多个服务器装置中的两个以上的服务器装置相应的前处理；以及将进行了分别与所述多个服务器装置相应的前处理后的声音使用通信部而向对应的服务器装置发送。

发明效果

根据上述(1)～(7)的方案，能够有效活用具有声音识别功能且互不相同的多个服务器装置。

附图说明

图1是包括终端装置的服务系统1的结构图。

图2是示出第一实施方式的终端装置的结构和搭载于车辆的设备的图。

图3是示出显示·操作装置的配置例的图。

图4是示出扬声器单元的配置例的图。

图5是示出服务器装置的结构的一例的图。

图6是用于对由前处理部执行的处理进行说明的图。

附图标记说明

10 话筒

20 显示·操作装置

30 扬声器单元

60 车载通信装置

70 通用通信装置

100 终端装置

110 第一管理部

112-1、112-2、122-3 前处理部

116、126 显示控制部

118、128 声音控制部

120 第二管理部

150-1、150-2、150-3 通信控制部

152 配对应用执行部

200-1、200-2、200-3 服务器装置

具体实施方式

以下，参照附图，对本发明的终端装置、终端装置的控制方法及存储介质的实施方式进行说明。终端装置是实现服务系统的一部分或全部的装置。终端装置例如搭载于车辆(以下，记为车辆M)。服务系统是指以下系统：将在车辆M的车室内收集到的声音向服务器装置发送，将在服务器装置中进行了包括声音识别的信息处理后的结果向车辆M回复，在车辆M中提供某些服务(信息提供、设备控制等，可以是任意的)。

在服务系统中，例如，统合地利用识别乘员的声音的声音识别功能(将声音文本化的功能)、自然语言处理功能(理解文本的构造、含义的功能)及其他各种服务功能等而实现。这些功能的一部分或全部可以由AI(Artificial Intelligence)技术实现。

[整体结构]

图1是包括终端装置100的服务系统1的结构图。服务系统1例如具备终端装置100和多个服务器装置200-1、200-2、200-3、200-4…。附图标记的末尾的连字符后的数字是用于区分服务的标识符。在不区分是哪个服务器装置的情况下，有时简称作服务器装置200。在图1中虽然示出了3个服务器装置200，但服务器装置200的数量也可以是2个以下，还可以是3个以上。各服务器装置200由互不相同的服务的提供者运营。因此，本发明中的服务由互不相同的提供者实现。任意的主体(法人、团体、个人等)可能成为服务的提供者。

终端装置100经由网络NW而与服务器装置200通信。网络NW例如包括互联网、蜂窝网、Wi-Fi网、WAN(Wide Area Network)、LAN(Local Area Network)、公用线路、电话回线、无线基地站等中的一部分或全部。

终端装置100将由车辆M的乘员发出的声音向服务器装置200发送，基于从服务器装置200回复的信息来向乘员提供任意的服务。服务可以是仅仅显示声音识别出的内容，也可以是翻译成任意的语言，除此之外，还可以是任意的服务。

[车辆]

图2是示出第一实施方式的终端装置100的结构和搭载于车辆M的设备的图。在车辆M例如搭载有一个以上的话筒10、显示·操作装置20、扬声器单元30、车载通信装置60及终端装置100。另外，有时智能手机等通用通信装置70被带入车室内，作为通信装置而使用。这些装置通过CAN(Controller Area Network)通信线等多路通信线、串行通信线、无线通信网等而互相连接。需要说明的是，图2所示的结构只不过是一例，也可以省略结构的一部分，还可以进一步追加别的结构。

话筒10是收集在车室内发出的声音的收音部。显示·操作装置20是能够显示图像并且接受输入操作的装置(或装置群)。显示·操作装置20例如包括构成为触摸面板的显示器装置。显示·操作装置20也可以还包括HUD(Head Up Display)、机械式的输入装置。扬声器单元30例如包括在车室内的互不相同的位置配设的多个扬声器(声音输出部)。显示·操作装置20也可以由终端装置100和导航装置40共用。

车载通信装置60例如是能够利用蜂窝网、Wi-Fi网来访问网络NW的无线通信装置。

图3是示出显示·操作装置20的配置例的图。显示·操作装置20例如包括第一显示器22、第二显示器24及操作开关组件26。显示·操作装置20也可以还包括HUD28。

在车辆M中，例如存在没置有转向盘SW的驾驶员座DS和相对于驾驶员座DS在车宽方向(图中Y方向)上设置的副驾驶员座AS。第一显示器22是从仪表板中的驾驶员座DS与副驾驶员座AS的中间附近延伸至与副驾驶员座AS的左端部对置的位置的横长形状的显示器装置。第二显示器24设置于驾驶员座DS与副驾驶员座AS的在车宽方向上的中间附近且第一显示器的下方。例如，第一显示器22和第二显示器24都构成为触摸面板，具备LCD(LiquidCrystal Display)、有机EL(Electroluminescence)、等离子体显示器等作为显示部。操作开关组件26集成有拨码开关、按钮式开关等。显示·操作装置20将由乘员进行的操作的内容向终端装置100输出。第一显示器22或第二显示器24所显示的内容可以由终端装置100决定。

图4是示出扬声器单元30的配置例的图。扬声器单元30例如包括扬声器30A～30H。扬声器30A设置于驾驶员座DS侧的窗柱(所谓的A柱)。扬声器30B设置于接近驾驶员座DS的车门的下部。扬声器30C设置于副驾驶员座AS侧的窗柱。扬声器30D设置于接近副驾驶员座AS的车门的下部。扬声器30E设置于接近右侧后部座位BS1侧的车门的下部。扬声器30F设置于接近左侧后部座位BS2侧的车门的下部。扬声器30G设置于第二显示器24的附近。扬声器30H设置于车室的顶棚(车顶)。

在上述配置中，例如，在专门使扬声器30A及扬声器30B输出了声音的情况下，声像会向驾驶员座DS附近定位。另外，在专门使扬声器30C及扬声器30D输出了声音的情况下，声像会向副驾驶员座AS附近定位。另外，在专门使扬声器30E输出了声音的情况下，声像会向右侧后部座位BS1附近定位。另外，在专门使扬声器30F输出了声音的情况下，声像会向左侧后部座位BS2附近定位。另外，在专门使扬声器30G输出了声音的情况下，声像会向车室的前方附近定位，在专门使扬声器30H输出了声音的情况下，声像会向车室的上方附近定位。不限定于此，扬声器单元30通过使用混合器、放大器来调整各扬声器输出的声音的分配，能够使声像向车室内的任意的位置定位。

[终端装置]

返回图2，终端装置100例如具备第一管理部110、第二管理部120、通信控制部150-1～150-3及配对应用执行部152。第一管理部110具备前处理部112-1、112-2、显示控制部116及声音控制部118。第二管理部120具备前处理部122-3、显示控制部126及声音控制部128。在不区分是哪个通信控制部的情况下，简称作通信控制部150。示出3个通信控制部150只不过是与图1中的服务器装置200的数量对应的一例，通信控制部150的数量也可以是2个，还可以是4个以上。图2所示的软件配置为了说明而简易地示出，实际上能够任意改变，例如也可以在通信控制部150与车载通信装置60之间夹设管理部110。

终端装置100的各构成要素例如通过CPU(Central Processing Unit)等硬件处理器执行程序(软件)而实现。这些构成要素中的一部分或全部也可以由LSI(Large ScaleIntegration)、ASIC(Application Specific Integrated Circuit)、FPGA(Field-Programmable Gate Array)、GPU(Graphics Processing Unit)等硬件(包括：电路部circuitry)实现，还可以通过软件与硬件的协同配合而实现。程序可以预先保存于HDD(Hard Disk Drive)、闪存器等存储装置(具备非暂时性的存储介质的存储装置)，也可以保存于DVD、CD-ROM等能够装卸的存储介质(非暂时性的存储介质)，通过存储介质向驱动装置装配而安装。

管理部110通过执行OS(Operating System)、中间件等程序而发挥功能。管理部120也是同样，终端装置100也可以分别搭载用于实现管理部110的OS和用于实现管理部120的OS。

前处理部112-1及通信控制部150-1进行与服务器装置200-1对应的处理。前处理部112-2及通信控制部150-2进行与服务器装置200-2对应的处理。前处理部122-3及通信控制部150-3进行与服务器装置200-3对应的处理。各前处理部以成为适合于对应的服务器装置200进行声音识别的状态的方式，进行或不进行对声音的音响处理等。通信控制部150将从对应的前处理部输出的声音或进行了声音处理后的结果向对应的服务器装置200发送。关于它们的详情将在后文叙述。

在通信控制部150中，可以存在经由配对应用执行部152而与通用通信装置70协作并与服务器装置200通信的通信控制部150。通信控制部150-1使用车载通信装置60来与服务器装置200-1通信。通信控制部150-2使用车载通信装置60来与服务器装置200-2通信。通信控制部150-3经由配对应用执行部152而与通用通信装置70协作，与服务器装置200-3通信。车载通信装置60及通用通信装置70分别是“通信部”的一例。配对应用执行部152例如通过Bluetooth(注册商标)来与通用通信装置70进行配对，使通信控制部150-3与通用通信装置70连接。需要说明的是，通信控制部150-3也可以通过利用了USB(Universal SerialBus)等的有线通信来与通用通信装置70连接。

显示控制部116及显示控制部126使第一显示器22或第二显示器24显示基于从服务器装置200回复的信息的图像。

声音控制部118及声音控制部128使包含于扬声器单元30的扬声器中的一部分或全部输出基于从服务器装置200回复的信息的声音。

[服务器装置]

图5是示出服务器装置200的结构的一例的图。在此，省略关于从终端装置100到网络NW的物理通信的说明。

服务器装置200具备通信部210。通信部210例如是NIC(Network Interface Card)等网络接口。而且，服务器装置200例如具备声音识别部220、自然语言处理部222及回复信息生成部224。这些构成要素例如通过CPU等硬件处理器执行程序(软件)而实现。这些构成要素中的一部分或全部也可以由LSI、ASIC、FPGA、GPU等硬件(包括：电路部circuitry)实现，还可以通过软件与硬件的协同配合来实现。程序可以预先保存于HDD、闪存器等存储装置(具备非暂时性的存储介质的存储装置)，也可以保存于DVD、CD-ROM等能够装卸的存储介质(非暂时性的存储介质)，通过存储介质向驱动装置装配而安装。

服务器装置200具备存储部250。存储部250由上述的各种存储装置实现。在存储部250中保存字典DB(数据库)252等数据、程序。

当通信部210从终端装置取得了声音或进行了声音处理后的结果时，声音识别部220进行声音识别并输出文本化的文字信息，自然语言处理部222一边参照字典DB252一边对文字信息进行含义解释。字典DB252是抽象化的含义信息相对于文字信息建立了对应关系的字典DB。字典DB252也可以包括同义词、近义词的一览信息。声音识别部220的处理和自然语言处理部222的处理可以不是明确地划分阶段而是如声音识别部220接受自然语言处理部222的处理结果而修正识别结果等这样相互影响而进行。回复信息生成部224基于自然语言处理部222的处理结果来生成向终端装置100回复的信息(回复信息)。回复信息可以是任意的，例如可以是将声音变换成了别的语言的信息。需要说明的是，也可以省略自然语言处理部222，服务器装置200仅仅输出文本化的文字信息。

[前处理]

以下，对在终端装置100中由前处理部执行的前处理进行说明。图6是用于对由前处理部执行的处理进行说明的图。由话筒10收到的声音例如向前处理部112-1和至少通信控制部150-3供给。需要说明的是，图6所示的例子只不过是一例，由话筒10收到的声音可以向各前处理部并行地供给。

前处理部112-1例如将包括对输入的声音进行波束形成、噪声消除、补偿等处理后的已处理声音(1)在内的处理结果(1)向通信控制部150-1输出。另外，前处理部112-1也可以对已处理声音(1)进行简易的声音识别，将其结果包含于处理结果(1)而向通信控制部150-1输出。通信控制部150-1使用车载通信装置60使处理结果(1)向服务器装置200-1发送。已处理声音(1)向前处理部112-2输出。

前处理部112-2例如将包括对输入的已处理声音(1)进行仅靠前处理部112-1的处理而不足的部分的处理后的已处理声音(2)在内的处理结果(2)向通信控制部150-2输出。另外，前处理部112-2也可以对已处理声音(2)进行简易的声音识别，将其结果包含于处理结果(2)而向通信控制部150-1输出。通信控制部150-2使用车载通信装置60使处理结果(2)向服务器装置200-2发送。

前处理部122-3也可以省略，不管在存在前处理部122-3的情况下还是在不存在前处理部122-3的情况下，都向通信控制部150-3输入由话筒10收到的声音。在存在前处理部122-3的情况下，前处理部122-3将包括对输入的声音进行波束形成、噪声消除、补偿等处理后的已处理声音(3)的处理结果(3)向通信控制部150-3输出。另外，前处理部112-1也可以对已处理声音(3)进行简易的声音识别，将其结果包含于处理结果(3)而向通信控制部150-3输出。通信控制部150-3经由配对应用执行部152而向通用通信装置70指示，至少将由话筒10收到的声音向服务器装置200-3发送。另外，通信控制部150-3也可以进一步将处理结果(3)向服务器装置200-3发送。服务器装置200-3是“第一服务器装置”的一例。

这样，根据实施方式的终端装置100，具备两个以上的前处理部，该两个以上的前处理部进行分别与具有声音识别功能的多个服务器装置200中的两个以上的服务器装置200相应的前处理，通信控制部150将分别由两个以上的前处理部进行了前处理后的声音向对应的服务器装置200发送。由此，能够将进行了与服务器装置200的特性相应的前处理后的处理结果向各服务器装置200发送。例如，在某服务器装置200的噪声耐受性强，别的服务器装置200的噪声耐受性弱的情况下，通过对前者发送接近由话筒10收到的声音的数据，对后者发送进行了较强的噪声消除后的数据，能够对所有服务器装置200都发送接近要求品质的数据。其结果是，能够有效活用具有声音识别功能且互不相同的多个服务器装置200。

另外，在终端装置100中，通信控制部150-3对服务器装置200-3至少发送未由前处理部122-3进行前处理的声音。由此，能够对要求未进行前处理的声音的服务器装置200-3也发送用于声音识别的适当的数据。

另外，在终端装置100中，搭载有：第一OS，其实现进行与服务器装置200-3以外的服务器装置200相应的前处理的前处理部；以及第二OS，其用于取出未由前处理部进行前处理的声音，以便向服务器装置200-3发送。由此，能够消除在利用同一软件进行处理的情况下所需的调停等麻烦。

另外，在终端装置100中，前处理部112-1和前处理部112-2按顺序地(串联地、连续地)进行处理。由此，在存在两者共通的处理的情况下，仅前处理部112-1安装共通的处理所涉及的功能即可，因此能够节约存储器资源。另外，由于不是并列地进行处理，所以也消除了在两者产生排他性的处理结果的担心。

根据以上说明的实施方式的终端装置100，能够有效活用具有声音识别功能且互不相同的多个服务器装置。

以上，使用实施方式说明了本发明的具体实施方式，但本发明丝毫不被这样的实施方式限定，在不脱离本发明的主旨的范围内能够施加各种变形及替换。

Claims

1.一种终端装置，其搭载于车辆，其中，

所述终端装置具备：

两个以上的前处理部，它们对由话筒收到的车室内的声音进行与具有声音识别功能的多个服务器装置中的两个以上的服务器装置分别相应的前处理；以及

通信控制部，其将分别由所述两个以上的前处理部进行了前处理后的声音使用通信部而向对应的服务器装置发送，

所述通信控制部对所述多个服务器装置中的第一服务器装置至少发送未由所述前处理部进行前处理的声音，

所述终端装置搭载有：

第一OS，其实现所述两个以上的前处理部中的、进行与所述第一服务器装置以外的服务器装置相应的前处理的前处理部；以及

第二OS，其用于取出未由所述前处理部进行前处理的声音。

2.根据权利要求1所述的终端装置，其中，

所述两个以上的前处理部中的一部分或全部按顺序进行处理。

3.根据权利要求1或2所述的终端装置，其中，

所述终端装置具备与所述多个服务器装置分别对应的多个所述通信控制部。

4.一种终端装置的控制方法，所述终端装置搭载于车辆，其中，

所述终端装置所具备的两个以上的前处理部分别对由话筒收到的车室内的声音进行与具有声音识别功能的多个服务器装置中的两个以上的服务器装置分别相应的前处理，

所述终端装置将分别由所述两个以上的前处理部进行了前处理后的声音使用通信部而向对应的服务器装置发送，

所述终端装置对所述多个服务器装置中的第一服务器装置至少发送未由所述前处理部进行前处理的声音，

所述终端装置搭载有：

第二OS，其用于取出未由所述前处理部进行前处理的声音。

5.一种存储介质，其存储由搭载于车辆的终端装置执行的程序，其中，

所述程序使所述终端装置执行以下处理：

分别使用所述终端装置具备的两个以上的前处理部对由话筒收到的车室内的声音进行与具有声音识别功能的多个服务器装置中的两个以上的服务器装置分别相应的前处理；

将由所述两个以上的前处理部分别进行了前处理后的声音使用通信部而向对应的服务器装置发送；以及

对所述多个服务器装置中的第一服务器装置至少发送未由所述前处理部进行前处理的声音，

所述终端装置搭载有：

第二OS，其用于取出未由所述前处理部进行前处理的声音。