CN105659318A

CN105659318A - 声音识别处理装置、声音识别处理方法以及显示装置

Info

Publication number: CN105659318A
Application number: CN201480057905.0A
Authority: CN
Inventors: 小金井智弘; 小沼知浩
Original assignee: Panasonic Intellectual Property Management Co Ltd
Current assignee: Panasonic Intellectual Property Management Co Ltd
Priority date: 2013-12-26
Filing date: 2014-12-22
Publication date: 2016-06-08
Anticipated expiration: 2034-12-22
Also published as: JP6244560B2; US20160210966A1; JPWO2015098079A1; EP3089157A4; US9905225B2; WO2015098079A1; EP3089157B1; CN105659318B; EP3089157A1

Abstract

本发明提供一种声音识别处理装置、声音识别处理方法以及显示装置，提升声音操作的操作性。为此，在声音识别处理装置(100)中，声音处理部(102)将声音信息变换为指令信息。声音识别部(50)将声音信息变换为字符串信息。意图解释处理部(104)从字符串信息之中筛选保留字信息和自由字信息。存储部存储指令信息、保留字信息以及自由字信息。搜索处理部(107)执行基于指令信息、保留字信息以及自由字信息的搜索处理。若指令信息、保留字信息以及自由字信息之中有一个或者两个不足信息，则搜索处理部(107)从存储部(170)之中读出该不足信息来执行搜索处理。

Description

声音识别处理装置、声音识别处理方法以及显示装置

技术领域

本公开涉及识别用户发出的声音来进行动作的声音识别处理装置、声音识别处理方法以及显示装置。

背景技术

专利文献1公开了具有声音识别功能的声音输入装置。该声音输入装置构成为：接收用户发出的声音，对接收到的声音进行解析，由此对用户的声音所表示的命令进行识别(声音识别)，并根据声音识别出的命令来控制设备。即，专利文献1的声音输入装置能够对用户任意发出的声音进行声音识别，并根据作为该声音识别出的结果的命令(指令)来控制设备。

例如，使用该声音输入装置的用户在利用电视接收机(以下记为“电视机”)、PC(PersonalComputer；个人计算机)等对浏览器进行操作时，能够利用该声音输入装置的声音识别功能来进行显示在浏览器上的超文本的选择。此外，用户也能够利用该声音识别功能来进行在提供搜索服务的网站(搜索站点)上的搜索。

在先技术文献

专利文献

专利文献1：日本专利第4812941号公报

发明内容

本公开提供提升用户的操作性的声音识别处理装置以及声音识别处理方法。

本公开中的声音识别处理装置具备：声音获取部、第1声音识别部、第2声音识别部、筛选部、存储部和处理部。声音获取部构成为获取用户发出的声音并输出声音信息。第1声音识别部构成为将声音信息变换为第1信息。第2声音识别部构成为将声音信息变换为第2信息。筛选部构成为从第2信息之中筛选第3信息和第4信息。存储部构成为存储第1信息、第3信息以及第4信息。处理部构成为执行基于第1信息、第3信息以及第4信息的处理。并且，处理部构成为：若第1信息、第3信息以及第4信息之中有一个或者两个不足信息，则利用存储部中存储的信息补充该不足信息来执行处理。

本公开中的声音识别处理方法包括：获取用户发出的声音并变换为声音信息的步骤；将声音信息变换为第1信息的步骤；将声音信息变换为第2信息的步骤；从第2信息之中筛选第3信息和第4信息的步骤；在存储部中存储第1信息、第3信息以及第4信息的步骤；执行基于第1信息、第3信息以及第4信息的处理的步骤；和若第1信息、第3信息以及第4信息之中有一个或者两个不足信息，则利用存储部中存储的信息来补充的步骤。

本公开中的显示装置具备：声音获取部、第1声音识别部、第2声音识别部、筛选部、存储部、处理部和显示部。声音获取部构成为获取用户发出的声音并输出声音信息。第1声音识别部构成为将声音信息变换为第1信息。第2声音识别部构成为将声音信息变换为第2信息。筛选部构成为从第2信息之中筛选第3信息和第4信息。存储部构成为存储第1信息、第3信息以及第4信息。处理部构成为执行基于第1信息、第3信息以及第4信息的处理。显示部构成为显示处理部中的处理结果。并且，处理部构成为：若第1信息、第3信息以及第4信息之中有一个或者两个不足信息，则利用存储部中存储的信息补充该不足信息来执行处理。

本公开中的声音识别处理装置能够提升用户进行声音操作时的操作性。

附图说明

图1是示意性地表示实施方式1中的声音识别处理系统的图。

图2是表示实施方式1中的声音识别处理系统的一构成例的框图。

图3是表示实施方式1中的声音识别处理系统所进行的听写的概要的图。

图4是表示实施方式1中的声音识别处理装置所进行的关键字单一搜索处理的一动作例的流程图。

图5是表示实施方式1中的声音识别处理装置所进行的关键字联想搜索处理的一动作例的流程图。

图6是表示实施方式1中的声音识别处理装置所进行的声音识别解释处理的一动作例的流程图。

图7是示意性地表示实施方式1中的声音识别处理装置的保留字表格的一例的图。

具体实施方式

以下，适当参照附图来详细地说明实施方式。不过，有时也会根据需要来省略详细说明。例如，有时将省略已经熟知的事项的详细说明、针对实质上为相同构成的重复说明。其原因在于，为了避免下面的说明变得不必要的冗长，使本领域技术人员易于理解。

另外，为了使本领域技术人员充分地理解本公开而提供了附图以及下述说明，并非意图通过这些内容来限定请求保护的范围所记载的主题。

(实施方式1)

以下，利用图1～图7来说明实施方式1。另外，在本实施方式中，作为具备声音识别处理装置的显示装置的一例而列举了电视接收机(电视机)10，但显示装置丝毫不限定于电视机10。例如，也可以为PC、平板终端等。

[1-1.构成]

图1是示意性地表示实施方式1中的声音识别处理系统11的图。在本实施方式中，在作为显示装置的一例的电视机10中内置有声音识别处理装置。

本实施方式中的声音识别处理系统11具备电视机10和声音识别部50。此外，声音识别处理系统11也可以具备遥控器(以下也记为“遥控”)20和便携式终端30的至少一者。

若电视机10中启动了声音识别处理装置，则在电视机10的显示部140中，与基于输入影像信号、接收到的广播信号等的影像一起显示声音识别图标201和表示集音到的声音的音量的指示器202。这是为了向用户700示出已变为能够实现基于用户700的声音的电视机10的操作(以下记为“声音操作”)的状态，并且促使用户700发言。

若用户700发出声音，则该声音被用户700所使用的遥控器20、便携式终端30中内置的话筒集音，并转发给电视机10。然后，用户700发出的声音被电视机10中内置的声音识别处理装置声音识别。在电视机10中，根据该声音识别的结果来进行电视机10的控制。

电视机10也可以具备内置话筒130。在此情况下，若用户700朝向电视机10所具备的内置话筒130发言，则该声音被内置话筒130集音，并被声音识别处理装置声音识别。因此，也能够将声音识别处理系统11设为不具备遥控器20以及便携式终端30的构成。

此外，电视机10经由网络40而与声音识别部50连接。并且，能够在电视机10与声音识别部50之间进行通信。

图2是表示实施方式1中的声音识别处理系统11的一构成例的框图。

电视机10具有：声音识别处理装置100、显示部140、收发部150、调谐器160、存储部171、内置话筒130和无线通信部180。

声音识别处理装置100构成为获取用户700发出的声音并对获取到的声音进行解析。并且，构成为识别该声音所表示的关键字以及指令并根据识别出的结果来进行电视机10的控制。声音识别处理装置100的具体构成将后述。

内置话筒130是构成为主要对来自与显示部140的显示面对置的方向的声音进行集音的话筒。即，内置话筒130将集音方向设定为能够对与电视机10的显示部140面对的用户700发出的声音进行集音，从而能够集音用户700发出的声音。内置话筒130可以设置在电视机10的框体内，也可以如图1中示出的一例那样设置在电视机10的框体外。

遥控器20是用户700对电视机10进行远程操作用的控制器。遥控器20除了电视机10的远程操作所需的一般构成之外，还具有话筒21以及输入部22。话筒21构成为集音用户700发出的声音并输出声音信号。输入部22构成为受理用户700手动进行的输入操作并输出与输入操作相应的输入信号。输入部22例如为触摸板，但也可以为键盘、按钮等。根据被话筒21集音到的声音而产生的声音信号、或者通过用户700对输入部22进行输入操作而产生的输入信号，例如通过红外线、电波等方式被无线发送至电视机10。

显示部140例如为液晶显示器，但也可以为等离子显示器、或者有机EL(ElectroLuminescence；电致发光)显示器等。显示部140由显示控制部108来控制，显示基于来自外部的输入影像信号、由调谐器160接收到的广播信号等的图像。

收发部150与网络40连接，构成为通过网络40而与网络40所连接的外部设备(例如声音识别部50)进行通信。

调谐器160构成为经由天线(未图示)来接收地面广播、卫星广播的电视广播信号。调谐器160也可以构成为接收经由专用线缆而发送的电视广播信号。

存储部171例如为非易失性的半导体存储器，但也可以为易失性的半导体存储器、或者硬盘等。存储部171存储电视机10的各部分的控制中所利用的信息(数据)、程序等。

便携式终端30例如为智能手机，能够实现用于对电视机10进行远程操作的软件的动作。因此，在本实施方式中的声音识别处理系统11之中，能够将该软件动作的便携式终端30使用在电视机10的远程操作中。便携式终端30具有话筒31以及输入部32。话筒31是便携式终端30所内置的话筒，与遥控器20所配备的话筒21同样，构成为集音用户700发出的声音并输出声音信号。输入部32构成为受理用户700手动进行的输入操作并输出与输入操作相应的输入信号。输入部32例如为触摸面板，但也可以为键盘、按钮等。该软件动作的便携式终端30与遥控器20同样，将基于被话筒31集音到的声音的声音信号、或者通过用户700对输入部32进行输入操作而产生的输入信号，例如通过红外线、电波等方式无线发送至电视机10。

电视机10、与遥控器20或者便携式终端30，例如通过无线LAN(LocalAreaNetwork；局域网)、Bluetooth(注册商标)等无线通信而被连接。

网络40例如为因特网，但也可以为其他网络。

声音识别部50是经由网络40而与电视机10连接的服务器(云上的服务器)。声音识别部50接收从电视机10发送来的声音信息，并将接收到的声音信息变换为字符串。另外，该字符串既可以为多个字符也可以为一个字符。然后，声音识别部50将表示变换后的字符串的字符串信息作为声音识别的结果经由网络40发送至电视机10。

声音识别处理装置100具有：声音获取部101、声音处理部102、识别结果获取部103、意图解释处理部104、字存储处理部105、指令处理部106、搜索处理部107、显示控制部108、操作受理部110和存储部170。

存储部170例如为非易失性的半导体存储器，但也可以为易失性的半导体存储器或者硬盘等。存储部170由字存储处理部105来控制，能够任意地实现数据的写入与读出。此外，存储部170还存储被声音处理部102参照的信息(例如后述的“声音-指令”对应信息)等。“声音-指令”对应信息是将声音信息和指令建立了对应的信息。另外，存储部170和存储部171也可以构成为一体。

声音获取部101获取基于用户700发出的声音的声音信号。声音获取部101既可以从电视机10的内置话筒130来获取基于用户700发出的声音的声音信号，也可以从遥控器20所内置的话筒21或者便携式终端30所内置的话筒31经由无线通信部180来获取基于用户700发出的声音的声音信号。然后，声音获取部101将该声音信号变换为能够在后级的各种处理中利用的声音信息，并输出至声音处理部102。另外，如果声音信号为数字信号，则声音获取部101也可以将该声音信号直接用作声音信息。

声音处理部102为“第1声音识别部”的一例。声音处理部102构成为将声音信息变换为作为“第1信息”的一例的指令信息。声音处理部102进行“指令识别处理”。所谓“指令识别处理”，是指判断在从声音获取部101获取到的声音信息中是否包含预先设定的指令，并在包含的情况下确定该指令的处理。具体而言，声音处理部102基于从声音获取部101获取到的声音信息，参照预先存储在存储部170中的“声音-指令”对应信息。“声音-指令”对应信息是声音信息和作为针对电视机10的指示信息的指令被建立了关联的对应表。指令有多个种类，各个指令与互不相同的声音信息建立了对应。声音处理部102参照“声音-指令”对应信息，如果能够确定从声音获取部101获取到的声音信息中包含的指令，则作为声音识别的结果而将表示该指令的信息(指令信息)输出至识别结果获取部103。

此外，声音处理部102将从声音获取部101获取到的声音信息自收发部150经由网络40发送至声音识别部50。

声音识别部50为“第2声音识别部”的一例。声音识别部50构成为将声音信息变换为作为“第2信息”的一例的字符串信息，进行“关键字识别处理”。声音识别部50若接收到从电视机10发送来的声音信息，则为了区分关键字和关键字以外(例如助词等)，按照每个句节来划分该声音信息，将各句节分别变换为字符串(以下称作“听写”)。然后，声音识别部50将听写后的字符串的信息(字符串信息)作为声音识别的结果发送至电视机10。声音识别部50既可以从接收到的声音信息之中获取指令以外的声音信息，也可以根据接收到的声音信息将指令以外的声音信息变换为字符串后返回。或者，也可以从电视机10向声音识别部50发送除指令之外的声音信息。

识别结果获取部103从声音处理部102获取作为声音识别的结果的指令信息。此外，识别结果获取部103经由网络40以及收发部150而从声音识别部50获取作为声音识别的结果的字符串信息。

意图解释处理部104为“筛选部”的一例。意图解释处理部104构成为从字符串信息之中筛选作为“第3信息”的一例的保留字信息和作为“第4信息”的一例的自由字信息。意图解释处理部104若从识别结果获取部103获取到指令信息和字符串信息，则从字符串信息之中筛选“自由字”和“保留字”。然后，基于筛选出的自由字和保留字、以及指令信息，来进行用于确定用户700发言的声音操作的意图的意图解释。该动作的详细内容将后述。意图解释处理部104将被进行了意图解释的指令信息输出至指令处理部106。此外，将表示自由字的自由字信息、表示保留字的保留字信息、以及指令信息输出给字存储处理部105。意图解释处理部104也可以将自由字信息以及保留字信息输出至指令处理部106。

字存储处理部105将从意图解释处理部104输出的指令信息、自由字信息、保留字信息存储至存储部170。

指令处理部106为“处理部”的一例。指令处理部106构成为执行基于指令信息、保留字信息、以及自由字信息的处理。指令处理部106执行与被意图解释处理部104进行了意图解释的指令信息对应的指令处理。此外，指令处理部106执行与由操作受理部110受理的用户操作对应的指令处理。

进而，指令处理部106也有时执行基于通过字存储处理部105被存储至存储部170的指令信息、自由字信息、以及保留字信息当中的一个或者两个信息的新的指令处理。即，指令处理部106构成为：如果指令信息、保留字信息、以及自由字信息之中有一个或者两个不足信息，则利用存储部170中存储的信息补充该不足信息来执行指令处理。该详细内容将后述。

搜索处理部107为“处理部”的一例。搜索处理部107构成为：如果指令信息为搜索指令，则执行基于保留字信息以及自由字信息的搜索处理。如果指令信息为对应于与预先设定的应用建立了关联的搜索指令的信息，则搜索处理部107以该应用来进行基于自由字信息以及保留字信息的搜索。

例如，如果指令信息为与作为预先设定的应用之一的因特网搜索应用建立了关联的搜索指令，则搜索处理部107以该因特网搜索应用来进行基于自由字信息以及保留字信息的搜索。

或者，如果指令信息为与作为预先设定的应用之一的节目表应用建立了关联的搜索指令，则搜索处理部107以该节目表应用来进行基于自由字信息以及保留字信息的搜索。

此外，如果指令信息不是与预先设定的应用建立了关联的搜索指令，则搜索处理部107在能够进行基于该自由字信息以及保留字信息的搜索的所有应用(能搜索应用)中进行基于该自由字信息以及保留字信息的搜索。

另外，搜索处理部107构成为：如果保留字信息以及自由字信息之中有一个或者两个不足信息，则利用存储部170中存储的信息补充该不足信息来执行搜索处理。此外，如果不足信息为指令信息、紧前面的指令处理为搜索处理部107中的搜索处理，则再次执行搜索处理。

显示控制部108将搜索处理部107中的搜索的结果显示于显示部140。例如，显示控制部108将在因特网搜索应用中的关键字搜索的结果、在节目表应用中的关键字搜索的结果、或者在能搜索应用中的关键字搜索的结果显示于显示部140。

操作受理部110从遥控器20或者便携式终端30经由无线通信部180来接收通过用户700利用遥控器20的输入部22所进行的输入操作而产生的输入信号、或者基于用户700利用便携式终端30的输入部32所进行的输入操作的输入信号。如此，操作受理部110受理用户700所进行的操作(用户操作)。

[1-2.动作]

接下来，说明本实施方式中的电视机10的声音识别处理装置100的动作。

首先，说明电视机10的声音识别处理装置100所执行的声音识别处理的开始方法。作为声音识别处理的开始方法，主要列举以下的两种方法。

第一种开始方法如下所述。用户700为了开始声音识别处理，按下设于遥控器20的作为输入部22之一的话筒按钮(未图示)。如果用户700按下遥控器20的话筒按钮，则在电视机10中操作受理部110受理遥控器20的话筒按钮被按下这一操作。然后，电视机10将电视机10的扬声器(未图示)的音量变更为预先设定的音量。该音量是不妨碍到基于话筒21的声音识别的程度的充分小的音量。并且，如果电视机10的扬声器的音量变为预先设定的音量，则声音识别处理装置100开始声音识别处理。此时，如果扬声器的音量为预先设定的音量以下，则电视机10无需进行上述的音量调整，因此使音量保持不变。

另外，在该方法中，也能够取代遥控器20来使用便携式终端30(例如具备触摸面板的智能手机)。在此情况下，用户700启动便携式终端30所配备的软件(用于对电视机10进行声音操作的软件)，通过该软件动作而按下显示于触摸面板的话筒按钮。该用户动作相当于按下遥控器20的话筒按钮的用户动作。由此，声音识别处理装置100开始声音识别处理。

第二种开始方法如下所述。用户700向电视机10的内置话筒130发出表示使预先设定的声音识别处理开始的指令(开始指令)的声音(例如“声音操作开始”等)。如果声音识别处理装置100识别出被内置话筒130集音到的声音为预先设定的开始指令，则电视机10与上述同样地将扬声器的音量变更为预先设定的音量，开始基于声音识别处理装置100的声音识别处理。

另外，也可以组合上述方法来作为声音识别处理的开始方法。

另外，假设电视机10中的这些控制由控制电视机10的各模块的控制部(未图示)来进行。

如果基于声音识别处理装置100的声音识别处理被开始，则显示控制部108为了促使用户700发言，则在显示部140的图像显示面上显示：表示声音识别处理开始并且已变为能够实现基于用户700的声音操作这一行情况的声音识别图标201、和表示集音到的声音的音量的指示器202。

另外，显示控制部108也可以取代声音识别图标201而将表示声音识别处理已开始的消息显示于显示部140。或者，也可以从扬声器利用声音来输出表示声音识别处理已开始的消息。

另外，声音识别图标201以及指示器202丝毫不限定于图1所示的设计。只要可获得作为目的的效果，则可以为任何设计。

接下来，说明电视机10的声音识别处理装置100所进行的声音识别处理。

在本实施方式中，声音识别处理装置100进行两种声音识别处理。第一种为用于对与预先设定的指令对应的声音进行识别的声音识别处理(指令识别处理)。另一种为用于对预先设定的指令以外的关键字进行识别的声音识别处理(关键字识别处理)。

如上所述，指令识别处理由声音处理部102来进行。声音处理部102将基于用户700向电视机10发出的声音的声音信息与预先存储在存储部170中的“声音-指令”对应信息进行比较。并且，如果在该声音信息中有被登记于“声音-指令”对应信息的指令，则确定该指令。另外，在“声音-指令”对应信息中登记有用于对电视机10进行操作的各种指令，例如还登记有自由字搜索的操作指令等。

如上所述，关键字识别处理利用经由网络40而与电视机10连接的声音识别部50来进行。声音识别部50从电视机10经由网络40来获取声音信息。然后，声音识别部50按照每个句节来划分获取到的声音信息，分为关键字和关键字以外(例如助词等)。如此，声音识别部50进行听写。声音识别部50在进行听写之际，利用将声音信息和字符串(也包含1个字符)建立了对应的数据库。声音识别部50通过将获取到的声音信息与该数据库进行比较而分离为关键字和关键字以外，并且分别变换为字符串。

另外，在本实施方式中，声音识别部50构成为：从电视机10接收由声音获取部101获取到的所有声音(声音信息)，对这些所有声音信息进行听写，并将其结果的所有字符串信息发送给电视机10。但是，电视机10的声音处理部102也可以构成为将由“声音-指令”对应信息声音识别出的指令以外的声音信息发送至声音识别部50。

接下来，利用图3来说明关键字识别处理。

图3是表示实施方式1中的声音识别处理系统11所进行的听写的概要的图。

在图3中示出电视机10的显示部140上显示出网页浏览器的状态。例如在用户700以网页浏览器的因特网搜索应用来进行基于关键字的搜索(关键字搜索)时，若声音识别处理装置100开始声音识别处理，则图3中作为一例示出的图像被显示于显示部140。

输入栏203是用于在网页浏览器上输入搜索所利用的关键字的区域。如果在输入栏203中显示出光标，则用户700能够在输入栏203中输入关键字。

若在该状态下用户700朝向遥控器20或者便携式终端30或者电视机10的内置话筒130发言，则基于该声音的声音信号被输入至声音获取部101，被变换为声音信息。然后，该声音信息被从电视机10经由网络40而发送至声音识别部50。例如，如果用户700发言为“ABC”，则基于该声音的声音信息被从电视机10发送至声音识别部50。

声音识别部50将从电视机10接收到的声音信息与数据库进行比较而变换为字符串。然后，声音识别部50作为基于接收到的声音信息的声音识别的结果而将该字符串的信息(字符串信息)经由网络40发送至电视机10。如果接收到的声音信息为基于“ABC”这一声音的信息，则声音识别部50将该声音信息与数据库进行比较而变换为“ABC”这一字符串，并将该字符串信息发送至电视机10。

电视机10若从声音识别部50接收到字符串信息，则基于该字符串信息而使识别结果获取部103、意图解释处理部104、指令处理部106、显示控制部108动作，以使与该字符串信息对应的字符串显示于输入栏203。例如，电视机10若从声音识别部50接收到与“ABC”这一字符串对应的字符串信息，则在输入栏203中显示“ABC”这一字符串。

然后，电视机10的显示部140上显示出的网页浏览器进行基于输入栏203中显示的字符串的关键字搜索。

接下来，利用图4～图7来说明本实施方式的声音识别处理装置100所进行的关键字单一搜索处理和关键字联想搜索处理。

图4是表示实施方式1中的声音识别处理装置100所进行的关键字单一搜索处理的一动作例的流程图。

图5是表示实施方式1中的声音识别处理装置100所进行的关键字联想搜索处理的一动作例的流程图。

图6是表示实施方式1中的声音识别处理装置100所进行的声音识别解释处理的一动作例的流程图。图6所示的流程图是表示图4以及图5所示的各搜索处理中的声音识别解释处理步骤的详细内容的流程图。

图7是示意性地表示实施方式1中的声音识别处理装置100的保留字表格的一例的图。

在本实施方式中的声音识别处理装置100之中，在图4所示的关键字单一搜索处理的声音识别解释处理(步骤S101)、和图5所示的关键字联想搜索处理的声音识别解释处理(步骤S201)中进行实质上相同的处理。首先，利用图6来说明该声音识别解释处理。

如上所述，在电视机10中，用户700按下例如遥控器20的话筒按钮等而开始声音识别处理装置100的声音识别处理。

若在该状态下用户700发言，则用户700的声音被内置话筒130或者遥控器20的话筒21或者便携式终端30的话筒31变换为声音信号，该声音信号被输入至声音获取部101。如此，声音获取部101获取用户700的声音信号(步骤S301)。

声音获取部101将获取到的用户700的声音信号变换为能够在后级的各种处理中利用的声音信息。用户700如果发言为例如“搜索ABC的图像”，则声音获取部101输出基于该声音的声音信息。

声音处理部102将从声音获取部101输出的声音信息与预先存储在存储部170中的“声音-指令”对应信息进行比较。并且，调查在从声音获取部101输出的声音信息中是否有与登记于“声音-指令”对应信息的指令相应的信息(步骤S302)。

例如，如果在从声音获取部101输出的声音信息中包含基于用户700发出的“搜索”这一话语的声音信息，并且在“声音-指令”对应信息中作为指令信息而登记有“搜索”，则声音处理部102判断出在声音信息中包含“搜索”的指令。

在“声音-指令”对应信息中登记有电视机10的动作、显示部140上显示出的应用的动作等所需的指令。在这些指令信息中例如包含“搜索”、“频道向上”、“声音提高”、“播放”、“停止”、“词语变换”、“文字显示”等与声音信息对应的指令信息。

另外，“声音-指令”对应信息能够实现基于指令信息的追加、删除等的更新。例如，用户700能够将新的指令信息追加到“声音-指令”对应信息中。或者，也能够经由网络40而将新的指令信息追加到“声音-指令”对应信息中。由此，声音识别处理装置100能够进行基于最新的“声音-指令”对应信息的声音识别处理。

此外，在步骤S302中，声音处理部102将从声音获取部101输出的声音信息自收发部150经由网络40而发送至声音识别部50。

声音识别部50将接收到的声音信息变换成划分为关键字和关键字以外(例如助词等)的字符串。因而，声音识别部50进行基于接收到的声音信息的听写。

声音识别部50将关键字和字符串建立了对应的数据库、与接收到的声音信息进行比较。如果登记于数据库的关键字包含在接收到的声音信息中，则选择与该关键字对应的字符串(也包含单词)。如此一来，声音识别部50进行听写，将接收到的声音信息变换为字符串。例如，如果声音识别部50接收到基于用户700发言的“搜索ABC的图像”这一声音的声音信息，则声音识别部50通过听写而将该声音信息变换为“搜索”、“ABC”、“的”、“图像”这一字符串。声音识别部50将表示变换后的各字符串的字符串信息经由网络40而发送给电视机10。

该数据库虽然配备在声音识别部50中，但也可以位于网络40上的其他场所。此外，该数据库也可以构成为定期地或者不定期地更新关键字的信息。

电视机10的识别结果获取部103获取从声音处理部102被作为声音识别的结果输出的指令信息、和从声音识别部50被作为声音识别的结果发送来的字符串信息，并输出给意图解释处理部104。

意图解释处理部104基于从识别结果获取部103获取到的指令信息和字符串信息，来进行用于确定用户700发言的声音操作的意图的意图解释(步骤S303)。

意图解释处理部104为了进行意图解释而进行字符串信息的筛选。该筛选的种类有自由字、保留字、指令。如果字符串信息中有与指令信息重复的信息，则意图解释处理部104将其判断为指令来进行筛选。此外，基于图7中示出一例的保留字表格，从字符串信息之中筛选保留字。从剩余的字符串信息之中将与关键字不相应的助词等字符串除外，来筛选自由字。

意图解释处理部104，例如在获取到“搜索”、“ABC”、“的”、“图像”这一字符串信息和表示“搜索”的指令信息时，将“ABC”筛选为自由字，将“图像”筛选为保留字，将“搜索”筛选为指令。由意图解释处理部104进行这种意图解释，从而声音识别处理装置100能够实现基于用户700的意图(用户700发言的声音操作的意图)的动作。例如，声音识别处理装置100关于保留字“图像”，能够执行利用了自由字“ABC”的指令“搜索”。

另外，意图解释处理部104将图7中作为一例示出的保留字表格和字符串信息进行比较，如果在字符串信息之中包含登记于保留字表格的用语，则将该用语作为保留字而从字符串信息之中筛选出。保留字例如为如图7示出一例那样的“图像”、“运动图像”、“节目”、“互联网”等预先规定的用语。但是，保留字丝毫不限定于这些用语。

另外，意图解释处理部104也可以利用字符串信息中包含的助词等字符串来进行意图解释。

如此一来，意图解释处理部104执行声音识别解释处理(图4所示的步骤S101、以及图5所示的步骤S201)。

接下来，利用图4来说明本实施方式中的关键字单一搜索处理。

意图解释处理部104基于用户700发出的声音来执行图6所示的声音识别解释处理(步骤S101)。由于重复，因此将省略步骤S101的详细说明。

意图解释处理部104基于步骤S101中的处理结果来判断在字符串信息中是否包含保留字信息(步骤S102)。

在步骤S102中判断出不含保留字信息时(否)，进入步骤S104。

在步骤S102中判断出包含保留字信息时(是)，字存储处理部105将该保留字信息存储至存储部170(步骤S103)。在上述的例子中，保留字信息的“图像”被存储至存储部170。

声音识别处理装置100基于步骤S101中的处理结果来判断在字符串信息中是否包含自由字信息(步骤S104)。

在步骤S104中判断出不含自由字信息时(否)，进入步骤S106。

在步骤S104中判断出包含自由字信息时(是)，字存储处理部105将该自由字信息存储至存储部170(步骤S105)。在上述的例子中，自由字信息的“ABC”被存储至存储部170。

此外，字存储处理部105将指令信息存储至存储部170。

指令处理部106执行基于自由字信息、保留字信息以及指令信息的指令处理(步骤S106)。

指令处理部106若从意图解释处理部104接受到指令信息，并且从字存储处理部105接受到自由字信息以及(或者)保留字信息，则针对自由字信息和保留字信息的每一方或者双方来执行基于指令信息的命令(指令)。另外，指令处理部106也可以从意图解释处理部104接受自由字信息和保留字信息。此外，也可以从字存储处理部105接受指令信息。

另外，在指令处理部106中，主要进行搜索以外的指令处理。该指令处理例如有电视机10的频道变更、音量变更等。

如果在指令信息中包含“搜索”，则由搜索处理部107执行搜索处理(步骤S107)。在上述的例子中，搜索处理部107基于保留字信息的“图像”，将搜索对象内容设为“图像”来进行基于自由字信息的“ABC”的图像搜索。

步骤S107中的搜索结果通过显示控制部108被显示于显示部140。这样，关键字单一搜索处理结束。

接下来，利用图5来说明本实施方式中的关键字联想搜索处理。

所谓关键字联想搜索处理，是指在用户700连续执行搜索处理时，纵使不再次输入在上次的搜索中输入的内容，也能执行基于上次的输入内容和新输入的内容的新的搜索的处理。另外，在本实施方式中，说明通过用户700发出的声音来进行输入操作的例子，但也可以进行使用了遥控器20的输入部22(例如触摸板)、便携式终端30的输入部32(例如触摸面板)的输入操作。

以下，示出具体例并说明关键字联想搜索处理。在此，假设用户700首先发言为“搜索ABC的图像”，并且已经进行了基于自由字“ABC”的“图像”的搜索。

接下来，假设用户700以与在紧前面的图像搜索中利用的自由字相同的自由字“ABC”来重新进行“运动图像”的搜索。在此情况下，在本实施方式中，用户700能够省略与上次的搜索重复的自由字“ABC”的发言。即，用户700只要发言为“搜索运动图像”即可。

意图解释处理部104基于用户700发出的声音来执行图6所示的声音识别解释处理(步骤S201)。由于重复，因此将省略步骤S201的详细说明。

基于用户发出的声音的声音信息(例如“搜索运动图像”)从声音识别处理装置100经由网络40而发送给声音识别部50。声音识别部50返回基于接收到的声音信息的字符串信息。该字符串信息中包含保留字信息(例如“运动图像”)以及指令信息(例如“搜索”)，但也可以不含自由字信息。返回的字符串信息被识别结果获取部103接收，并被输出给意图解释处理部104。

在该动作例中，声音识别处理装置100的声音处理部102判断出在基于用户700发出的声音的声音信息中包含指令“搜索”。然后，声音处理部102将与指令“搜索”对应的指令信息输出至识别结果获取部103。此外，识别结果获取部103从声音识别部50接收包含字符串“运动图像”的字符串信息。然后，意图解释处理部104将从识别结果获取部103获取的字符串信息中包含的“运动图像”判断为保留字。此外，由于字符串信息中不含自由字信息，因此从意图解释处理部104不输出自由字信息。

意图解释处理部104基于步骤S201中的处理结果来判断在字符串信息中是否包含保留字信息(步骤S202)。

在步骤S202中判断出不含保留字信息时(否)，进入步骤S205。步骤S205以后的动作将后述。

在步骤S202中判断出包含保留字信息时(是)，字存储处理部105将该保留字信息(例如“运动图像”)作为新的搜索对象内容而存储至存储部170(步骤S203)。

由于新的保留字信息被存储至存储部170，因此保留字信息被更新。在上述的例子中，上次的保留字信息“图像”被切换为新的保留字信息“运动图像”(步骤S204)。

在该动作例中，由于从意图解释处理部104不输出自由字信息，因此字存储处理部105读出存储部170中存储的自由字信息(例如“ABC”)，并输出至指令处理部106。指令处理部106从意图解释处理部104接受指令信息，从字存储处理部105接受读出的自由字信息和新的保留字信息。然后，针对该读出的自由字信息和新的保留字信息来进行与指令信息相应的指令处理(步骤S208)。另外，如上所述，在指令处理部106中主要进行搜索以外的指令处理。

如果指令信息中包含“搜索”，则由搜索处理部107来执行搜索处理(步骤S209)。在上述的例子中，搜索处理部107基于新的保留字信息的“运动图像”，将搜索对象内容设为“运动图像”来进行基于从存储部170读出的自由字信息的“ABC”的运动图像搜索。

步骤S209中的搜索结果通过显示控制部108被显示于显示部140。这样，关键字联想搜索处理结束。

接下来，说明在步骤S202中判断出不含保留字信息(否)时的关键字联想搜索处理。

以下，示出具体例并进行说明。在此，假设用户700首先发言为“搜索ABC的图像”，并且已经进行了基于自由字“ABC”的“图像”的搜索。

接下来，假设用户700以与紧前面的图像搜索中利用的自由字不同的自由字“XYZ”来进行“图像”的搜索。在此情况下，在本实施方式中，用户700能够省略与上次的搜索重复的保留字“图像”和指令“搜索”的发言。即，用户700只要发言为“XYZ”即可。

由于重复，因此将省略步骤S201、S202的详细说明。

基于用户发出的声音的声音信息(例如“XYZ”)从声音识别处理装置100经由网络40而发送给声音识别部50。声音识别部50返回基于接收到的声音信息的字符串信息。该字符串信息中包含自由字信息(例如“XYZ”)，但不含保留字信息和指令信息。返回的字符串信息被识别结果获取部103接收，并被输出给意图解释处理部104。

这样，在该动作例中，字符串信息中不含保留字信息，从声音处理部102不输出指令信息。因此，从意图解释处理部104不输出保留字信息以及指令信息。

由此，在步骤S202中判断出不含保留字信息(否)。意图解释处理部104基于步骤S201中的处理结果来判断在字符串信息中是否包含自由字信息(步骤S205)。

在步骤S205中判断出不含自由字信息时(否)，进入步骤S208。

在步骤S205中判断出包含自由字信息时(是)，字存储处理部105将该自由字信息(例如“XYZ”)作为新的自由字信息而存储至存储部170(步骤S206)。

由于新的自由字信息被存储至存储部170，因此自由字信息被更新。在上述的例子中，上次的自由字信息“ABC”被切换为新的自由字信息“XYZ”(步骤S207)。

在该动作例中，由于从意图解释处理部104不输出保留字信息以及指令信息，因此字存储处理部105读出存储部170中存储的保留字信息(例如“图像”)以及指令信息(例如“搜索”)，并输出至指令处理部106。指令处理部106接受字存储处理部105从存储部170读出的保留字信息以及指令信息、和新的自由字信息(例如“XYZ”)。然后，针对该读出的保留字信息和新的自由字信息，来进行与读出的指令信息相应的指令处理(步骤S208)。

如果从存储部170读出的指令信息中包含“搜索”，则由搜索处理部107来执行搜索处理(步骤S209)。在上述的例子中，搜索处理部107基于从存储部170读出的保留字信息的“图像”，将搜索对象内容设为“图像”来进行基于新的自由字信息的“XYZ”的图像搜索。

另外，在步骤S205中判断出不含自由字信息时(否)，假设搜索处理部107进入步骤S208来进行通常的指令处理或者搜索处理。

[1-3.效果等]

如以上，在本实施方式中，声音识别处理装置100具备：声音获取部101、作为第1声音识别部的一例的声音处理部102、作为第2声音识别部的一例的声音识别部50、作为筛选部的一例的意图解释处理部104、存储部170、作为处理部的一例的指令处理部106以及搜索处理部107。声音获取部101构成为获取用户发出的声音并输出声音信息。声音处理部102构成为将声音信息变换为作为第1信息的一例的指令信息。声音识别部50构成为将声音信息变换为作为第2信息的一例的字符串信息。意图解释处理部104构成为从字符串信息之中筛选作为第3信息的一例的保留字信息和作为第4信息的一例的自由字信息。存储部170构成为存储指令信息、保留字信息以及自由字信息。指令处理部106构成为执行基于指令信息、保留字信息以及自由字信息的处理。并且，指令处理部106以及搜索处理部107构成为：若指令信息、保留字信息以及自由字信息之中有一个或者两个不足信息，则利用存储部170中存储的信息补充该不足信息来执行处理。

搜索处理部107构成为：在第1信息为搜索指令时，执行基于该搜索指令和保留字信息以及自由字信息的搜索处理。

也可以是声音识别部50设置在网络40上，声音识别处理装置100具备：收发部150，构成为经由网络40而与声音识别部50进行通信。

声音处理部102也可以构成为：利用预先设定的对多个指令信息和声音信息建立了对应的“声音-指令”对应信息，将声音信息变换为指令信息。

使用如此构成的声音识别处理装置100的用户700在连续进行声音操作的情况下，纵使不再次发言在上次的声音操作中发言的内容，也能够进行基于上次的发言内容和新发言的内容的新的操作。例如，用户700在连续进行搜索处理的情况下，纵使不再次发言在上次的搜索中通过声音操作所输入的内容，也能够进行基于上次的发言内容和新发言的内容的新的搜索。

作为具体的一例，在用户700发言为“搜索ABC的图像”并以自由字“ABC”来搜索“图像”，然后接着发言为“搜索ABC的运动图像”的情况下，省略与上次的搜索重复的自由字“ABC”的发言，只发言为“搜索运动图像”即可。由此，能够执行与发言为“搜索ABC的运动图像”时相同的搜索处理。

或者，在用户700发言为“搜索ABC的图像”并以自由字“ABC”来搜索“图像”，然后接着发言为“搜索XYZ的图像”的情况下，省略与上次的搜索重复的保留字“图像”和指令“搜索”的发言，只发言为“XYZ”即可。由此，能够执行与发言为“搜索XYZ的图像”时相同的搜索处理。

如此，本实施方式中的声音识别处理装置100能够减轻用户700进行声音操作时的繁杂度，提升操作性。

(其他实施方式)

如以上，作为本申请中公开的技术例示，说明了实施方式1。然而，本公开中的技术并不限定于此，也能够适用于进行了变更、置换、附加、省略等之后的实施方式。此外，也能够组合上述实施方式1中所说明的各构成要素来作为新的实施方式。

为此，以下例示其他实施方式。

在实施方式1中，虽然说明了指令信息为“搜索”时的动作例，但在此记载了其他指令的例子。“声音-指令”对应信息中例如也可以登记“频道向上”、“声音提高”、“再生”、“停止”、“词语变更”、“文字显示”等与声音信息对应的指令信息。

例如，假设用户发言为“再生光盘”。在此情况下，在声音识别处理装置100中声音识别出自由字“光盘”、指令信息“再生”。由此，在搭载有声音识别处理装置100的光盘再生装置中，再生光盘中记录的影像。若继该状态之后用户700发言为“停止”，则声音识别处理装置100中声音识别出指令信息“停止”，在该光盘再生装置中光盘的再生停止。这是由于：通过字存储处理部105而在存储部170中存储有自由字“光盘”，因此指令处理部106针对从存储部170读出的自由字“光盘”来执行新输入的指令信息“再生”的处理。即，纵使用户700不发言“停止光盘”，只是发言为“停止”，也能够控制光盘再生装置的动作。

此外，在其他例子中，例如假设用户700发言为“日语的文字显示”。在此情况下，在声音识别处理装置100中声音识别出自由字信息“日语”、指令信息“文字显示”。由此，在搭载有声音识别处理装置100的电视机10中，执行将日文字幕显示于电视机10的显示部140中的指令“文字显示”。若继该状态之后用户700发言为“英语”，则声音识别处理装置100声音识别出自由字信息“英语”。然后，电视机10从存储部170之中读出指令信息“文字显示”，继续进行“文字显示”的动作不变，而将显示于显示部140的字符从“日语”变更为“英语”。即，纵使用户700不发言为“英语的文字显示”，只发言为“英语”，也能够将电视机10的显示字符从“日语”变更为“英语”。

如此，声音识别处理装置100中，若声音信息中有不足信息，则从存储部170读出该信息来进行补充，执行指令处理，因此用户700无需反复发言与上次的声音操作时重复的话语，声音操作时的繁杂度被减轻，操作性得到提升。

另外，在此列举的两个例子中，虽然用户700的发言中不含保留字，但指令处理部106能够执行该指令处理。如此，如果是即便不含保留字或者自由字但也能执行的指令信息，则意图解释处理部104向字存储处理部105以及指令处理部106(搜索处理部107)发送可以不含保留字或者自由字这一情况。因此，指令处理部106(搜索处理部107)基于从意图解释处理部104发送的信息，来判断是以自由字信息、保留字信息和指令信息的组合来进行指令处理、还是以自由字信息和指令信息的组合来进行指令处理、还是以保留字信息和指令信息的组合来进行指令处理，从而能够执行指令处理。此外，在字存储处理部105中，可防止从存储部170读出不必要信息的动作。在上述的例子中，虽然声音信息中不含保留字信息，但因为不需要保留字信息，因此字存储处理部105不从存储部170读出保留字信息。

另外，在“声音-指令”对应信息中，也可以与指令信息建立关联地预先登记表示该指令处理中是需要保留字以及自由字双方、还是有任一方即可的信息。并且，声音处理部102可以进行动作，使得与指令信息一起将该信息输出至后级。

另外，在本实施方式中，虽然说明了搜索“图像”、“运动图像”的动作例，但搜索的对象丝毫不限定于“图像”、“运动图像”，也可以将节目表、录像节目等设为搜索的对象。

另外，在本实施方式中虽然并未特别提及，但在声音识别处理之中用户700发出的声音包含指令信息的“搜索”和关键字，并且该“搜索”的种类为基于因特网搜索应用的搜索的情况下，在声音识别处理装置100中以因特网搜索应用来进行基于该关键字的搜索。例如，如果用户700发言为“在因特网上搜索ABC”，则声音识别处理装置100将“在因特网上搜索”这一声音识别为是基于因特网搜索应用的“搜索”。因而，用户700只是发出该声音，便能够使电视机10进行基于该关键字的因特网搜索。

此外，在声音识别处理之中用户700发出的声音包含指令信息的“搜索”和关键字，并且该“搜索”的种类是基于节目表应用的搜索的情况下，在声音识别处理装置100中以节目表应用来进行基于该关键字的搜索。例如，如果用户700发言为“在节目表中搜索ABC”，则声音识别处理装置100将“在节目表中搜索”这一声音识别为是基于节目表应用的“搜索”。因而，用户700只是发出该声音，便能够使电视机10进行基于该关键字的节目表搜索。

此外，在声音识别处理之中用户700发出的声音包含指令信息的“搜索”和自由字但不含保留字信息时，在声音识别处理装置100中可以是以包含该自由字的所有应用来进行基于该自由字的“搜索”，并将进行了搜索的所有应用中的搜索结果显示于显示部140。

另外，在电视机10中，能够以上述的方法来开始声音识别处理。因而，如果声音识别处理被开始，则用户700即便是通过电视机10来视听节目的中途，也能够进行上述那样的搜索。

另外，在本实施方式中，虽然说明了声音识别部50配置在网络40上的例子，但声音识别部50也可以配备于声音识别处理装置100。

另外，在本实施方式中，虽然说明了从存储部170读出自由字信息来补充指令处理的动作例、和从存储部170读出保留字信息以及指令信息来补充指令处理的动作例，但本公开丝毫不限定于该构成。例如，也可以从存储部170读出保留字信息来补充指令处理，还可以从存储部170读出指令信息来补充指令处理。或者，也可以从存储部170读出保留字信息以及自由字信息来补充指令处理，还可以从存储部170读出自由字信息以及指令信息来补充指令处理。

另外，图2所示的各模块可以分别作为独立的电路模块来构成，也可以是由处理器来执行被编程为实现各模块的动作的软件的构成。

产业上的可利用性

本公开能够适用于执行用户指示的处理动作的设备。具体而言，本公开能够适用于便携式终端设备、电视接收机、个人计算机、机顶盒、录影机、游戏机、智能手机、平板终端等。

符号说明

10电视接收机

11声音识别处理系统

20遥控器

21，31话筒

22，32输入部

30便携式终端

40网络

50声音识别部

100声音识别处理装置

101声音获取部

102声音处理部

103识别结果获取部

104意图解释处理部

105字存储处理部

106指令处理部

107搜索处理部

108显示控制部

110操作受理部

130内置话筒

140显示部

150收发部

160调谐器

170，171存储部

180无线通信部

201声音识别图标

202指示器

700用户

Claims

1.一种声音识别处理装置，具备：

声音获取部，构成为获取用户发出的声音并输出声音信息；

第1声音识别部，构成为将所述声音信息变换为第1信息；

第2声音识别部，构成为将所述声音信息变换为第2信息；

筛选部，构成为从所述第2信息之中筛选第3信息和第4信息；

存储部，构成为存储所述第1信息、所述第3信息以及所述第4信息；和

处理部，构成为执行基于所述第1信息、所述第3信息以及所述第4信息的处理，

所述处理部构成为：若所述第1信息、所述第3信息以及所述第4信息之中有一个或者两个不足信息，则利用所述存储部中存储的信息补充所述不足信息来执行处理。

2.根据权利要求1所述的声音识别处理装置，其中，

所述处理部构成为：在所述第1信息为搜索指令时，执行基于所述搜索指令的搜索处理。

3.根据权利要求1所述的声音识别处理装置，其中，

所述第2声音识别部设置在网络上，

所述声音识别处理装置具备：收发部，构成为经由所述网络而与所述第2声音识别部进行通信。

4.根据权利要求1所述的声音识别处理装置，其中，

所述第1声音识别部构成为：利用预先设定的对多个第1信息和所述声音信息建立了对应的信息，将所述声音信息变换为所述第1信息。

5.一种声音识别处理方法，包括：

获取用户发出的声音并变换为声音信息的步骤；

将所述声音信息变换为第1信息的步骤；

将所述声音信息变换为第2信息的步骤；

从所述第2信息之中筛选第3信息和第4信息的步骤；

在存储部中存储所述第1信息、所述第3信息以及所述第4信息的步骤；

执行基于所述第1信息、所述第3信息以及所述第4信息的处理的步骤；和

若所述第1信息、所述第3信息以及所述第4信息之中有一个或者两个不足信息，则利用所述存储部中存储的信息来补充的步骤。

6.一种显示装置，具备：

声音获取部，构成为获取用户发出的声音并输出声音信息；

第1声音识别部，构成为将所述声音信息变换为第1信息；

第2声音识别部，构成为将所述声音信息变换为第2信息；

筛选部，构成为从所述第2信息之中筛选第3信息和第4信息；

存储部，构成为存储所述第1信息、所述第3信息以及所述第4信息；

处理部，构成为执行基于所述第1信息、所述第3信息以及所述第4信息的处理；和

显示部，构成为显示所述处理部中的处理结果，