CN105940399B - 声音检索装置、声音检索方法以及显示装置 - Google Patents

声音检索装置、声音检索方法以及显示装置 Download PDF

Info

Publication number
CN105940399B
CN105940399B CN201580006319.8A CN201580006319A CN105940399B CN 105940399 B CN105940399 B CN 105940399B CN 201580006319 A CN201580006319 A CN 201580006319A CN 105940399 B CN105940399 B CN 105940399B
Authority
CN
China
Prior art keywords
url
retrieval
character string
sound
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201580006319.8A
Other languages
English (en)
Other versions
CN105940399A (zh
Inventor
中冈英明
小金井智弘
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Intellectual Property Management Co Ltd
Original Assignee
Panasonic Intellectual Property Management Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Intellectual Property Management Co Ltd filed Critical Panasonic Intellectual Property Management Co Ltd
Publication of CN105940399A publication Critical patent/CN105940399A/zh
Application granted granted Critical
Publication of CN105940399B publication Critical patent/CN105940399B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9566URL specific, e.g. using aliases, detecting broken or misspelled links
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Databases & Information Systems (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • User Interface Of Digital Computer (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

提高声音操作的操作性。为此,声音检索装置具备声音识别部、匹配部和URL生成部。声音识别部对所输入的声音进行识别并变换为字符串信息。匹配部参考URL列表,进行在显示部正在显示的网页的URL与URL列表的字符串的匹配处理,确定与该URL对应的URL列表的字符串。URL生成部基于匹配部所确定的字符串以及字符串信息来生成新的URL。

Description

声音检索装置、声音检索方法以及显示装置
技术领域
本发明涉及对用户发出的声音进行识别来执行动作的声音检索装置、声音检索方法以及显示装置。
背景技术
专利文献1公开具有声音识别功能的声音输入装置。该声音输入装置构成为接收用户发出的声音,通过对所接收到的声音进行解析来识别用户的声音所指示的命令(以下也记作“声音识别”),根据声音识别出的命令来控制设备。即,专利文献1的声音输入装置能够对用户任意发出的声音进行声音识别,根据该声音识别出的结果即命令(以下也记作“指令”)来控制设备。以下,将利用了声音识别功能的设备的操作记作“声音操作”。
使用该声音输入装置的用户,例如在操作电视接收机(以下记作“电视机”)、PC(Personal Computer,个人计算机)等时,能够利用该声音输入装置的声音识别功能来进行在因特网上提供检索服务的网站(以下也记作“检索站点”)上的检索。以下,将基于声音操作的检索记作“声音检索”。成为此时的检索对象的数据例如可划分为网页、图像、地图等多个类别。此外,用户还能够利用该声音输入装置的声音识别功能来进行保存在电视机内的节目表数据、所录像的动态图像等属于与上述数据不同类别的数据的检索。
专利文献2公开了一种信息检索方法,使用对关键字与类别进行关联的表(对应表)来进行信息检索。在该信息检索方法中,在用户所发出的声音能够归类为表中所登记的类别的任意一种类别的情况下,能够对用户所发出的声音进行声音识别,使用该声音识别的结果得到的字符串中包含的关键字来进行类别内的检索。
利用专利文献2所记载的信息检索方法的用户,例如在“图像”的类别内对图像“ABC”进行声音检索的情况下,说出“检索ABC的图像”即可。由此,在检索站点上,在“图像”的类别内进行“ABC”的检索。接着,检索图像“XYZ”时,用户例如说出“检索XYZ的图像”即可。
现有技术文献
专利文献
专利文献1:日本国特许第3292190号公报
专利文献2:JP特开2001-75968号公报
发明内容
本发明提供一种提高用户的操作性的声音检索装置以及声音检索方法。
本发明中的声音检索装置具备网页显示控制部、声音识别部、匹配部以及URL生成部。网页显示控制部对显示于显示部的网页进行控制。声音识别部对所输入的声音进行识别并变换为字符串信息来进行输出。匹配部参考按照每个检索类别而登记了表示URL的一部分的字符串的URL列表,进行正在显示部进行显示的网页的URL与URL列表的字符串的匹配处理,来确定与该URL对应的URL列表的字符串。URL生成部基于匹配部所确定的字符串以及字符串信息来生成URL。
本发明中的声音检索方法具备:将网页显示于显示部的步骤;对所输入的声音进行识别并变换为字符串信息的步骤;参考按照每个检索类别而登记了表示URL的一部分的字符串的URL列表,进行正在显示部进行显示的网页的URL与URL列表的字符串的匹配处理,来确定与该URL对应的URL列表的字符串的步骤;以及基于所确定的字符串以及字符串信息来生成URL的步骤。
本发明中的显示装置具备:显示部、网页显示控制部、声音识别部、匹配部以及URL生成部。网页显示控制部对显示于显示部的网页进行控制。声音识别部对所输入的声音进行识别并变换为字符串信息来进行输出。匹配部参考按照每个检索类别而登记了表示URL的一部分的字符串的URL列表,进行正在显示部进行显示的网页的URL与URL列表的字符串的匹配处理,来确定与该URL对应的URL列表的字符串。URL生成部基于匹配部所确定的字符串以及字符串信息来生成URL。
本发明中的声音检索装置能够提高用户进行声音操作时的操作性。
附图说明
图1是简要表示实施方式1中的声音识别系统的图。
图2是表示实施方式1中的声音识别系统的一构成例的框图。
图3是简要表示实施方式1中的声音识别装置的存储部中所存储的保留字表的一例的图。
图4是简要表示实施方式1中的声音识别装置的存储部中所存储的检索URL列表的一例的图。
图5是表示在实施方式1中的声音识别系统中进行的听写的概略的图。
图6是表示实施方式1中的电视接收机的显示部所显示的网页浏览器的一例的图。
图7是表示在实施方式1中的声音识别系统中进行的声音检索处理的一动作例的流程图。
图8是表示在实施方式1中的声音识别系统中进行的声音识别意图解释处理的一动作例的流程图。
图9是表示在实施方式1中的声音识别系统中进行的检索类别决定处理的一动作例的流程图。
具体实施方式
以下,适当参考附图来详细说明实施方式。但是,存在省略不必要的详细说明的情况。例如,存在省略已经被熟知的事项的详细说明、对于实质上相同的构成的重复说明的情况。这是为了使以下的说明避免成为不必要的冗长,使本领域技术人员能够容易理解。
另外,附图以及以下的说明是为了使本领域技术人员充分理解本发明而提供的,并不意图通过这些附图以及说明来限定权利要求书所记载的主题。
(实施方式1)
以下,使用图1~图9来说明实施方式1。另外,在本实施方式中,作为具备声音检索装置的显示装置的一例而列举了电视接收机(电视机)10,但显示装置并不限定于电视机10。例如,也可以是PC、平板终端等。
[1-1.构成]
图1是简要表示实施方式1中的声音识别系统11的图。在本实施方式中,在作为显示装置的一例的电视机10中内置有声音检索装置。内置于电视机10的声音检索装置所具有的声音识别装置对用户发出的声音进行识别,并根据该声音识别的结果来进行电视机10的控制。
如图1所示,本实施方式中的声音识别系统11具备电视机10和声音识别部50。此外,声音识别系统11也可以具备远程控制器(以下也记作“遥控器”)20和便携式终端30的至少一方。
若在电视机10启动声音识别装置,则在电视机10的显示部140中,与基于输入影像信号、所接收到的广播信号等的影像一起,显示声音识别图标201以及表示所收集的声音的音量的指示器202。这是为了向用户700表示已经处于能够进行基于用户700的声音的电视机10的操作(声音操作)的状态,并且促使用户700发声。
若用户700朝向远程控制器20或便携式终端30发出声音,则该声音被远程控制器20或便携式终端30所内置的麦克风收集,并传送给电视机10。然后,用户700所发出的声音由内置于电视机10的声音识别装置来进行声音识别。在电视机10中,根据该声音识别的结果来进行电视机10的控制。
电视机10也可以具备麦克风130。在该情况下,若用户700朝向电视机10所具备的麦克风130发声,则该声音由麦克风130收集,由声音识别装置进行声音识别。因此,声音识别系统11也可以是不具备远程控制器20以及便携式终端30的构成。
此外,电视机10经由网络40与声音识别部50连接。电视机10能够通过网络40与声音识别部50进行通信。
图2是表示实施方式1中的声音识别系统11的一构成例的框图。另外,在图2中,省略了远程控制器20以及便携式终端30。
电视机10具有:声音检索装置200、调谐器190、显示控制部108、麦克风130、显示部140、存储部181、操作受理部110以及收发部150。电视机10也可以具备与远程控制器20或便携式终端30进行无线通信的无线通信部(未图示)。
声音检索装置200具有声音识别装置100和网页浏览器控制部170。
声音识别装置100构成为,取得用户700发出的声音,并对所取得的声音进行解析。而且构成为,对该声音所示的“自由字(free word)”以及“保留字”进行识别,根据识别出的结果来进行电视机10的控制。关于声音识别装置100的具体构成在后面叙述。另外,所谓“保留字”,是预先决定的用语,是登记在后述的保留字表中的用语。
麦克风130是构成为主要收集从与显示部140的显示面相对的方向过来的声音的麦克风。即,麦克风130被设定收集声音的方向,使得能够收集由与电视机10的显示部140面对的用户700发出的声音,其能够收集用户700所发出的声音。麦克风130既可以设置于电视机10的壳体内,也可以如图1中示出一例那样设置于电视机10的壳体外。
图1所示的远程控制器20是用于用户700对电视机10进行远程操作的控制器。远程控制器20除了具有电视机10的远程操作所需要的一般的构成以外,还具有麦克风以及输入部。麦克风构成为收集用户700所发出的声音,并输出声音信号。输入部构成为受理用户700手动进行的输入操作,并输出与输入操作相应的输入信号。该输入部例如是触摸板,但也可以是键盘、按钮等。根据由麦克风收集到的声音而产生的声音信号、或通过用户700对输入部进行输入操作而产生的输入信号,例如通过红外线、电波等而无线发送给电视机10。
显示控制部108进行网页浏览器控制部170所生成的图像数据、基于调谐器190经由天线(未图示)而接收到的广播信号的图像数据等多个图像数据的解码以及复用等,生成显示于显示部140的图像的图像信号。然后,控制显示部140,使显示部140显示基于这些图像信号的图像。
显示部140例如是液晶显示器,但也可以是等离子显示器、有机EL(ElectroLuminescence)显示器等。显示部140由显示控制部108进行控制,对基于由显示控制部108根据来自外部的输入影像信号、由调谐器190接收到的广播信号等而生成的图像信号的图像进行显示。
收发部150与网络40连接,其构成为与连接至网络40的外部设备(例如声音识别部50、URL服务器60、检索站点70等)通过网络40来进行通信。
调谐器190构成为经由天线(未图示)来接收地面广播、卫星广播的电视广播信号。调谐器190也可以构成为接收经由专用线缆而发送的电视广播信号。
存储部181例如是非易失性的半导体存储器,但也可以是易失性的半导体存储器或硬盘等。存储部181存储了用于电视机10的各部的控制的信息(数据)、程序等。
图1所示的便携式终端30例如是智能电话,能够执行用于远程操作电视机10的软件的动作。因此,在本实施方式中的声音识别系统11中,能够将运行有该软件的便携式终端30用于电视机10的远程操作。便携式终端30具有麦克风以及输入部。内置于便携式终端30的麦克风构成为与远程控制器20所具备的麦克风同样地,收集用户700所发出的声音,并输出声音信号。输入部构成为受理用户700手动进行的输入操作,并输出与输入操作相应的输入信号。输入部例如足触摸面板,也可以是键盘、按钮等。运行有该软件的便携式终端30与远程控制器20同样地,将由麦克风收集到的声音的声音信号、或通过用户700对输入部进行输入操作而产生的输入信号例如通过红外线、电波等而无线发送给电视机10。
电视机10与远程控制器20或便携式终端30例如通过无线LAN(Local AreaNetwork,局域网)、Bluetooth(注册商标)等无线通信而进行了连接。
网络40例如是因特网,但也可以是其他网络。
声音识别部50是通过网络40与电视机10连接的服务器(例如云上的服务器)。声音识别部50接收从电视机10发送来的声音信息,将所接收到的声音信息变换为字符串。另外,该字符串可以是多个字符,也可以是1个字符。然后,声音识别部50将表示变换后的字符串的字符串信息(文本信息)作为声音识别的结果而经由网络40发送给电视机10。
检索站点70是连接至网络40、在网络40上提供检索服务的网站的服务器。检索站点70的服务器可以是1个,也可以是多个。检索站点70的服务器构成为提供以下的服务。若用户700在连接至网络40的终端(例如电视机10)进行以检索为目的的用户操作,则表示基于该用户操作的查询串(query string)、路径的字符串被设定到网页浏览器的URL栏(Uniform Resource Locator bar)。在该URL栏中,包含基于用户操作的字符串的信息、以及指定特定的服务器(例如进行检索的服务器)的信息。在URL栏指定的检索站点70的服务器接收URL栏的字符串信息,进行基于该字符串信息的检索。然后,该服务器将表示其检索的结果的信息(表示作为检索的结果而得到的网页的信息)返回给该终端。
电视机10的网页浏览器控制部170构成为在与检索站点70的各服务器之间,进行上述交换。
URL服务器60是经由网络40与电视机10连接的服务器。在URL服务器60中存储有检索URL列表。所谓检索URL列表,是指将在网页浏览器的URL栏设定的字符串的模板(以下记作“检索URL模板”)与检索对象的类别(以下记作“检索类别”)进行了关联的一览表(列表)。所谓检索类别,是指以自由字进行检索时的检索范围。在该检索URL列表中,登记了表示通信方法(例如“http”(Hyper Text Transfer Protocol))、检索站点70的各服务器名(例如“search.co.jp”等)、检索类别(例如“images”等)等的字符串作为检索URL模板。检索URL列表的详细内容在后面叙述。URL服务器60的检索URL列表构成为能够更新,URL服务器60能够从网络40拾取信息等,来定期或者不定期地更新检索URL列表。
电视机10构成为能够从URL服务器60经由网络40来取得检索URL列表。由此,电视机10能够适当更新存储在电视机10的存储部180中的检索URL列表D500。
电视机10的声音识别装置100具有:声音取得部101、声音处理部102、识别结果取得部103、意图解释处理部104、保留字处理部106以及存储部180。
声音取得部101构成为取得用户所发出的声音的声音信号。声音取得部101既可以从内置于电视机10的麦克风130取得用户所发出的声音的声音信号,或者也可以经由无线通信部(未图示)从内置于远程控制器20的麦克风或内置于便携式终端30的麦克风来取得。然后,声音取得部101将该声音信号变换为能够用于在后续阶段的各种处理的声音信息,并输出到声音处理部102。另外,若声音信号为数字信号,则声音取得部101也可以直接使用该声音信号作为声音信息。
声音处理部102构成为进行“保留字识别处理”,将声音信息变换为保留字信息。所谓“保留字识别处理”,是指如下处理:判断在从声音取得部101取得的声音信息中是否包含预先设定的保留字,在包含的情况下确定该保留字。具体而言,声音处理部102基于从声音取得部101取得的声音信息,参考预先存储在存储部180中的保留字表D400。保留字表D400是将声音信息与保留字建立了关联的对应表。在保留字表D400中登记有多个保留字,各个保留字与彼此不同的声音信息进行了关联。因此,声音处理部102通过将声音信息与保留字表D400进行对照,从而能够判断在声音信息中是否包含保留字。
在此,使用图3对保留字表D400进行说明。图3是简要表示实施方式1中的声音识别装置100的存储部180中存储的保留字表D400的一例的图。
在声音识别装置100的存储部180中,存储有图3中示出一例的保留字表D400。在保留字表D400中,多个保留字和表示保留字的属性的信息被彼此关联地进行了登记。
在图3所示的例子中,在保留字表D400中,作为保留字,登记了“图像”、“动态图像”、“节目”、“网页”、“新闻”、“地图”、“餐厅”、“加油站”、“前进”、“后退”、“检索”等词语,作为保留字的属性,登记了“检索”、“指令”等。在保留字表D400中,对电视机10的指示中使用的词语(以下记作“指示信息”)被分类为“指令”,检索类别的指定中使用的词语被分类为“检索”。在保留字表D400中,“图像”、“动态图像”、“节目”、“网页”、“新闻”、“地图”、“餐厅”、“加油站”各自的属性为“检索”,“前进”、“后退”、“检索”各自的属性为“指令”。另外,所谓指定检索类别的词语,是指对以自由字进行检索时的检索范围进行指定的词语。
声音处理部102若参考保留字表D400,能够确定从声音取得部101取得的声音信息中包含的保留字,则作为声音识别的结果而将“保留字信息”输出到识别结果取得部103。所谓“保留字信息”,是指表示声音信息中包含的保留字以及该保留字的属性的信息。
例如,若在声音信息中包含保留字“图像”,则声音处理部102将声音信息与保留字表D400进行对照,向识别结果取得部103输出表示声音信息中包含的保留字是“图像”、其属性是“检索”的保留字信息。
另外,图3所示的保留字表D400仅为一例,也可以将图3所示的保留字以外的词语作为保留字而登记到保留字表D400中。此外,也可以将“检索”、“指令”以外的属性的保留字登记到保留字表D400中。
此外,声音处理部102将从声音取得部101取得的声音信息,从收发部150经由网络40而发送给声音识别部50。
声音识别部50构成为进行“自由字识别处理”,将声音信息变换为字符串信息(文本信息)。声音识别部50若接收从电视机10发送来的声音信息,则为了对自由字与自由字以外的词语加以区分,将该声音信息按照每个短语划分开,将各短语分别变换为字符串(以下称作“听写(dictation)”)。在自由字以外的词语中,例如存在助词、前置词等。然后,声音识别部50将听写后的字符串的信息(字符串信息)作为声音识别的结果而发送给电视机10。即,声音识别部50对所输入的声音进行识别并变换为字符串信息来输出。另外,声音识别部50中的自由字中,也可以包含保留字。
另外,声音识别部50构成为,接收从电视机10发送来的所有的声音信息,针对所接收到的所有的声音信息进行听写,将作为听写的结果而得到的全部字符串信息发送给电视机10。但是,本实施方式并不限定于该构成。例如,声音识别部50也可以从所接收到的声音信息中,取得保留字以外的声音信息,或者还可以从所接收到的声音信息中将保留字以外的声音信息变换为字符串来发送。或者,也可以从电视机10向声音识别部50发送除了保留字以外的声音信息。
识别结果取得部103从声音处理部102,作为声音识别的结果而取得保留字信息。此外,识别结果取得部103从声音识别部50,经由网络40以及收发部150而取得作为声音识别的结果的字符串信息。然后,将所取得的保留字信息以及字符串信息输出到意图解释处理部104。
意图解释处理部104是“筛选部”的一例。意图解释处理部104构成为从字符串信息中对保留字信息和自由字信息进行筛选。意图解释处理部104若从识别结果取得部103取得保留字信息和字符串信息,则基于该保留字信息,从字符串信息中对“自由字”和“保留字”进行筛选。另外,意图解释处理部104中的自由字,是指从字符串信息中去除了保留字以及助词、前置词等而得到的字符串。因此,在意图解释处理部104中的自由字中,不包含保留字。此外,从保留字信息中,提取表示保留字的属性的信息。然后,基于所筛选出的自由字和保留字、以及表示保留字的属性的信息,进行用于确定用户700发声的声音操作的意图的意图解释。意图解释处理部104的动作的详细内容在后面叙述。从意图解释处理部104输出的自由字、保留字以及表示保留字的属性的各信息(自由字信息以及保留字信息)被输入到保留字处理部106。
保留字处理部106构成为若从意图解释处理部104取得信息,则确认在该信息中是否包含规定信息。该规定信息,是指表示“属性为“检索”的保留字”的信息。本实施方式中的网页浏览器控制部170构成为,根据在从意图解释处理部104输出的信息中是否包含属性为“检索”的保留字,来切换后续的处理。具体而言,在由保留字处理部106判断为在从意图解释处理部104输出的信息中包含属性为“检索”的保留字时,网页浏览器控制部170的检索URL生成部171执行处理。另一方面,在由保留字处理部106判断为在从意图解释处理部104输出的信息中不包含属性为“检索”的保留字时,网页浏览器控制部170的检索URL匹配处理部172执行处理。
另外,保留字处理部106在判断为在从意图解释处理部104输出的信息中不包含保留字而仅包含自由字的情况下、或判断为仅包含“检索”以外的属性的保留字的情况下,判断为在从意图解释处理部104输出的信息中不包含属性为“检索”的保留字。这些动作的详细内容在后面叙述。
存储部180例如是非易失性的半导体存储器,但也可以是挥发性的半导体存储器或硬盘等。存储部180构成为能够任意写入和读出数据。存储部180存储了由声音处理部102参考的保留字表D400以及由网页浏览器控制部170参考的检索URL列表D500等。另外,存储部180和存储部181也可以一体构成。
电视机10的网页浏览器控制部170具有:检索URL生成部171、检索URL匹配处理部172、URL栏显示控制部173以及网页显示控制部174。
检索URL生成部171是“URL生成部”的一例。检索URL生成部171构成为:若在从意图解释处理部104输出的信息中包含自由字和属性为“检索”的保留字,则基于该保留字,参考存储在存储部180中的检索URL列表D500。
在检索URL列表D500中,按照每个保留字登记了表示URL的一部分的字符串。在检索URL列表D500中,保留字示出了检索的对象范围(即检索类别)。
在此,使用图4来说明检索URL列表D500。图4是简要表示实施方式1中的声音识别装置100的存储部180中存储的检索URL列表D500的一例的图。
在声音识别装置100的存储部180中,存储了图4中示出一例的检索URL列表D500。在检索URL列表D500中,属性为“检索”的多个保留字与保留字所示的检索对象范围的检索所使用的检索URL模板被彼此关联地进行了登记。即,所谓检索URL列表D500,是按照每个保留字(检索类别)登记了表示URL的一部分的字符串的“URL列表”,是以“保留字(检索类别)”为索引的检索URL模板的一览。
在图4所示的例子中,例如若保留字为“图像”,则与该保留字对应的检索URL模板为:http://search.co.jp/images?q=。在该检索URL模板中,“http”表示通信方法,“search.co.jp”表示委托检索的检索站点70的服务器名,“images”示出了所检索的类别为“图像”。此外,在“?q=”之后添加自由字。这样,在检索URL列表D500中,按照每个保留字,登记了彼此不同的检索URL模板。
然后,检索URL生成部171参考检索URL列表D500,从检索URL列表D500中读出与该保留字对应的检索URL模板。
例如,假定在意图解释处理部104的输出中,包含保留字的“图像”和自由字的“ABC”这样的字符串。在该情况下,检索URL生成部171从检索URL列表D500中读出与保留字的“图像”对应的检索URL模板。然后,在所读出的检索URL模板的最后,添加作为自由字的字符串“ABC”。若基于图4所示的例子,则结果会生成如下这样的字符串:http://search.co.jp/images?q=ABC。该字符串成为用于检索处理的新的URL(即检索URL)。
检索URL生成部171这样基于属性为“检索”的保留字(图3)、检索URL列表D500(图4)和自由字的字符串,生成用于检索处理的URL(检索URL)。
检索URL匹配处理部172是“匹配部”的一例。检索URL匹配处理部172构成为在从保留字处理部106输出的信息中不包含属性为“检索”的保留字的情况下,执行以下的处理。
检索URL匹配处理部172从URL栏显示控制部173取得URL的信息。该URL是作为用于在电视机10的显示部140对显示中的网页进行显示的URL而由URL栏显示控制部173进行管理的URL。
由URL栏显示控制部173所管理的URL的一例如下所示。例如,在电视机10的显示部140正在显示以自由字“ABC”进行的地图检索的网页时,以下的URL由URL栏显示控制部173进行管理。
http://search.co.jp/maps?q=ABC或者,在显示部140正在显示以自由字“ABC”进行的餐厅检索的网页时,以下的URL由URL栏显示控制部173进行管理。
http://web-navi.co.jp/search?category=restaurant&query=ABC
然后,检索URL匹配处理部172进行从URL栏显示控制部173取得的URL与存储在存储部180中的检索URL列表D500的检索URL模板的对照(即匹配处理)。
检索URL匹配处理部172从检索URL列表D500中依次读出检索URL模板,并调查所读出的检索URL模板的字符串是否包含在从URL栏显示控制部173取得的URL中。具体而言,调查在从URL栏显示控制部173取得的URL的字符串内,是否存在与所读出的检索URL模板的字符串一致的字符串。若被判断为存在一致的字符串的检索URL模板位于检索URL列表D500中,则检索URL匹配处理部172判断为匹配处理成功。然后,检索URL匹配处理部172读出该检索URL模板,在所读出的检索URL模板的字符串的最后添加从保留字处理部106输出的自由字的字符串。检索URL匹配处理部172这样生成用于检索处理的新的URL(即,检索URL)。
另外,声音识别装置100也可以定期或不定期地从URL服务器60取得检索URL列表,使用所取得的检索URL列表,来更新存储在存储部180中的检索URL列表D500。或者,也可以在检索URL生成部171或检索URL匹配处理部172使用检索URL列表D500的定时,从URL服务器60取得检索URL列表。另外,决定上述的检索类别时的处理的详细内容在后面叙述。
URL栏显示控制部173构成为对由网页显示控制部174经由显示控制部108而使显示部140显示的网页的URL进行管理。此外,URL栏显示控制部173构成为进行显示于URL栏的字符串的控制。
网页显示控制部174具备:解析(parse)处理部、DOM(Document Obiect Model)生成部、渲染器(renderer)、JavaScript(注册商标)引擎(均未图示)等。然后,网页显示控制部174经由显示控制部108,使从网站或本地存储中取得的HTML(Hyper Text MarkupLanguage)、CSS(Cascading Style Sheets)、PNG(Portable Network Graphics)、JavaScript(注册商标)等文件显示于显示部140。
操作受理部110从远程控制器20或便携式终端30经由无线通信部(未图示),接收通过用户700在远程控制器20的输入部进行的输入操作而产生的输入信号、或通过用户700在便携式终端30的输入部进行的输入操作而产生的输入信号。这样,操作受理部110受理用户700所进行的操作(即用户操作)。
[1-2.动作]
接着,说明本实施方式中的电视机10的声音检索装置200的动作。
首先,说明电视机10的声音识别装置100的声音识别处理的开始方法。作为声音识别装置100的声音识别处理的开始方法,主要列举以下2个方法。
第一个开始方法如下所示。用户700为了开始声音识别处理,按压作为设置于远程控制器20的输入部之一的麦克风按钮(未图示)。若用户700按压远程控制器20的麦克风按钮,则在电视机10中,操作受理部110受理远程控制器20的麦克风按钮被按压的情况。然后,电视机10将电视机10的扬声器(未图示)的音量变更为预先设定的音量。该音量是不会妨碍基于远程控制器20的麦克风的声音识别的程度的十分小的音量。然后,若电视机10的扬声器的音量变为预先设定的音量,则声音识别装置100开始声音识别处理。此时,若扬声器的音量为预先设定的音量以下,则电视机10不必进行上述的音量调整,使音量保持不变。
另外,在该方法中,也能够取代远程控制器20而使用便携式终端30(例如具备触摸面板的智能电话)。在该情况下,用户700启动便携式终端30所具备的软件(例如用于对电视机10进行声音操作的软件),并按压通过该软件运行而显示于触摸面板的麦克风按钮。该用户动作相当于按压远程控制器20的麦克风按钮的用户动作。由此,声音识别装置100开始声音识别处理。
第二个开始方法如下所示。用户700对电视机10的麦克风130,发出表示预先设定的开始声音识别处理的指令(开始指令)的声音。另外,该声音例如是“嗨(Hi),电视机”或者“声音操作开始”等,声音识别处理的开始指令并不限定于这些声音,也可以是其他声音。若声音识别装置100识别出由麦克风130收集到的声音是预先设定的开始指令,则电视机10与上述同样地将电视机10的扬声器的音量变更为预先设定的音量,开始声音识别装置100的声音识别处理。
另外,也可以将上述方法进行组合,作为声音识别装置100的声音识别处理的开始方法。
另外,电视机10中的这些控制,由控制电视机10的各模块的控制部(未图示)来进行。
若声音识别装置100的声音识别处理开始,则显示控制部108为了促使用户700发声,例如如图1所示,将表示声音识别处理开始且能够进行用户700的声音操作的声音识别图标201、和表示正在收集的声音的音量的指示器202显示于显示部140的图像显示面。
另外,显示控制部108也可以取代声音识别图标201而将表示声音识别处理开始的消息显示于显示部140。或者也可以从扬声器用声音输出表示声音识别处理开始的消息。
另外,声音识别图标201以及指示器202并不限定于图1所示的设计。只要能够获得想要的效果,可以是任意的设计。
接着,说明电视机10的声音识别装置100所进行的声音识别处理。
在本实施方式中,声音识别装置100进行2种声音识别处理。一个是用于识别与预先设定的保留字对应的声音的声音识别处理(以下记作“保留字识别处理”)。另一个是用于将预先设定的保留字以外的词语识别为自由字的声音识别处理(以下记作“自由字识别处理”)。
如上所述,保留字识别处理,由声音识别装置100所具有的声音处理部102来进行。声音处理部102将基于用户700对电视机10发出的声音的声音信息与预先存储在存储部180中的保留字表D400进行比较。然后,若在该声音信息中存在登记于保留字表D400中的保留字,则确定该保留字。
如上所述,自由字识别处理利用经由网络40与电视机10连接的声音识别部50来进行。声音识别部50从电视机10经由网络40取得声音信息。然后,声音识别部50将所取得的声音信息按照每个短语进行划分,分为自由字和自由字以外(例如助词、前置词等)。这样,声音识别部50进行听写。声音识别部50在进行听写时,使用将声音信息与字符串进行了关联的数据库。声音识别部50将所取得的声音信息通过与该数据库进行比较而分离为自由字和自由字以外,并分别变换为字符串。
这样,在电视机10的声音识别装置100中,作为声音识别处理而进行保留字识别处理和自由字识别处理,由电视机10进行基于它们的结果的处理。然后,若保留字是与预先设定的检索用的应用(以下记作“检索应用”)建立了关联的指令(以下记作“检索指令”),则电视机10构成为进行基于该检索应用的自由字检索。
例如,若用户700发出声音“检索ABC的图像”,则声音识别装置100判断为在所取得的声音中包含自由字“ABC”、属性为“检索”的保留字“图像”、以及属性为“指令”的保留字“检索”。结果,由电视机10进行以自由字“ABC”检索保留字(检索类别)“图像”的处理。
另外,在本实施方式中,声音识别部50构成为从电视机10接收由声音取得部101所取得的全部声音(声音信息),针对这些全部声音信息进行听写,将其结果的全部字符串信息发送给电视机10。但是,电视机10的声音处理部102也可以构成为将通过保留字表D400而被声音识别出的保留字以外的声音信息发送给声音识别部50。
接着,使用图5来说明自由字识别处理。
图5是表示在实施方式1中的声音识别系统11中进行的听写的概要的图。
在图5中,示出在电视机10的显示部140显示了网页浏览器的状态。例如,用户700利用网页浏览器的因特网检索应用来进行基于自由字的检索(即自由字检索)时,在显示部140显示图5中作为一例示出的图像。
另外,图5中作为一例示出的网页浏览器的因特网检索应用可以基于上述的保留字识别处理来启动,或者也可以基于利用了远程控制器20等的用户操作来启动。
输入栏203是用于在网页浏览器上输入用于检索的自由字的区域。若使光标显示于输入栏203中,则用户700就能够在输入栏203中输入自由字。
在该状态下,若用户700朝向远程控制器20或便携式终端30或电视机10的麦克风130发出声音,则基于该声音的声音信号被输入到声音取得部101而被变换为声音信息。然后,该声音信息从电视机10经由网络40而被发送到声音识别部50。例如,若用户700发出声音“ABC”,则基于该声音的声音信息从电视机10被发送到声音识别部50。
声音识别部50通过将从电视机10接收到的声音信息与数据库进行比较来将其变换为字符串。然后,声音识别部50作为针对所接收到的声音信息的声音识别的结果,将该字符串的信息(即字符串信息)经由网络40发送给电视机10。若所接收到的声音信息是基于“ABC”这样的声音的声音信息,则声音识别部50将该声音信息与数据库进行比较而变换为“ABC”这样的字符串,并将该字符串信息发送给电视机10。
电视机10若从声音识别部50接收字符串信息,则基于该字符串信息使识别结果取得部103、意图解释处理部104、保留字处理部106、显示控制部108等进行动作,将与该字符串信息对应的字符串显示于输入栏203中。例如,电视机10若从声音识别部50接收表示“ABC”这样的字符串的字符串信息,则在输入栏203中显示“ABC”这样的字符串。
如此,声音识别装置100能够取得用户发出的声音,并通过进行声音识别处理将该声音变换为字符串,将该字符串输入到电视机10。
然后,电视机10的显示部140所显示的网页浏览器进行基于显示于输入栏203中的字符串的自由字检索。
另外,在本实施方式中,作为由电视机10进行的检索处理的一例,如上所述列举了使网页浏览器启动基于自由字来进行因特网检索的例子,但由电视机10进行的检索处理并不限定于此。例如,也可以由电视机10进行从节目表中基于自由字来检索节目的检索处理、从所录像的多个节目中基于自由字来检索录像节目的检索处理等。
此外,也可以构成为电视机10具备指令处理部,该指令处理部在保留字不是检索指令时执行基于保留字的指令处理。这样的保留字例如为指示所录像的节目的重放的“重放”、指示节目的录像的“录像”等。
接着,使用图6~图9来说明本实施方式中的电视机10的网页浏览器控制部170所进行的自由字检索处理。
图6是表示在实施方式1中的电视机10的显示部140显示的网页浏览器的一例的图。
若在电视机10启动网页浏览器,在网页浏览器上显示检索站点,则例如如图6所示,在显示部140中,显示如下内容:网页浏览器的URL栏301;网页浏览器的搜索栏302;网页浏览器所显示的检索站点的网页303;网页303上的多个按钮304;网页303上的检索用字符串输入区域305;网页303上的多个检索结果306;网页303上的登录用字符串输入区域307;显示在网页303上的广告308;广告308内的检索用字符串输入区域309等。
图7是表示实施方式1中的声音识别系统11所进行的声音检索处理的一动作例的流程图。
图8是表示实施方式1中的声音识别系统11所进行的声音识别意图解释处理的一动作例的流程图。
图9是表示实施方式1中的声音识别系统11所进行的检索类别决定处理的一动作例的流程图。
如图7所示,在声音识别系统11中,若声音检索处理开始,则首先进行声音识别意图解释处理(步骤S701)。
使用图8来说明步骤S701的声音识别意图解释处理。
如上所述,在电视机10中,通过用户700例如按压远程控制器20的麦克风按钮等,从而开始声音识别装置100的声音识别处理。
在该状态下,若用户700发声,则用户700的声音通过麦克风130或远程控制器20的麦克风或便携式终端30的麦克风而被变换为声音信号,该声音信号被输入到声音取得部101。如此声音取得部101取得用户700的声音信号(步骤S801)。
声音取得部101将所取得的用户700的声音信号变换为能够用于后续阶段中的各种处理的声音信息并输出到声音处理部102。若用户700例如发声“检索ABC的图像”,则声音取得部101将基于该声音的声音信息输出到声音处理部102。
声音处理部102将从声音取得部101输出的声音信息与预先存储于存储部180中的保留字表D400进行比较。然后,调查在从声音取得部101输出的声音信息中,是否存在与登记在保留字表D400中的保留字相应的信息(步骤S802)。
例如,若在从声音取得部101输出的声音信息中,包含基于用户700所发出的“检索”的词语的声音信息,并且在保留字表D400中作为属性为“指令”的保留字而登记有“检索”,则声音处理部102判断为在声音信息中包含有作为属性为“指令”的保留字的“检索”这样的词语。
然后,声音处理部102将表示声音信息中所包含的保留字以及该保留字的属性的保留字信息输出到识别结果取得部103。
另外,如图3所示,在保留字表D400中,登记了用于电视机10的操作、网页浏览器的操作等的词语作为保留字。
此外,保留字表D400构成为能够进行基于保留字的追加、删除等的更新。例如,用户700能够向保留字表D400中追加新的保留字。或者,也能够经由网络40将新的保留字追加到保留字表D400中。由此声音识别装置100能够进行基于被加以更新的保留字表D400的声音识别处理。
此外,在步骤S802中,声音处理部102从收发部150经由网络40将从声音取得部101输出的声音信息发送到声音识别部50。
声音识别部50将所接收到的声音信息变换为自由字和自由字以外的词(例如前置词以及助词等)被分隔开的字符串。
声音识别部50将对自由字和字符串进行了关联的数据库与所接收到的声音信息进行比较。若在所接收到的声音信息中包含登记在数据库中的自由字,则选择与该自由字对应的字符串(也包含一个字符)。另外,在声音识别部50中的自由字中也可以包含保留字。如此,声音识别部50将所接收到的声音信息变换为字符串。例如,若声音识别部50接收到基于用户700所发出的“检索ABC的图像”这样的声音的声音信息,则声音识别部50将该声音信息变换为“ABC”、“的”、“图像”、“检索”这样的字符串。声音识别部50经由网络40向电视机10发送表示变换后的各字符串的字符串信息(文本信息)(步骤S802)。
该数据库设置在声音识别部50中,但也可以位于网络40上的其他地点。此外,该数据库也可以构成为定期或不定期地对登记信息进行更新。
电视机10的识别结果取得部103取得从声音处理部102作为声音识别的结果而输出的保留字信息(在该保留字信息中包含保留字、属性)、和从声音识别部50作为声音识别的结果而发送来的字符串信息(在该字符串信息中包含自由字、保留字),并输出给意图解释处理部104。
意图解释处理部104为了确定用户700发声的声音操作的意图,基于从识别结果取得部103取得的保留字信息,进行字符串信息的筛选(步骤S803)。
意图解释处理部104例如通过字符串信息与保留字信息的对照而将保留字从字符串信息中去除。另外,意图解释处理部104也可以将图3中示出一例的保留字表D400与字符串信息进行比较,若在字符串信息之中包含登记在保留字表D400中的保留字,则将该词语作为保留字而从字符串信息中去除。
然后,意图解释处理部104通过从剩下的字符串信息中,去除不是自由字的前置词、助词等的字符串,来筛选自由字。因此,在意图解释处理部104中的自由字中不包含保留字。
意图解释处理部104例如在取得了“ABC”、“的”、“图像”、“检索”这样的字符串信息和表示“图像”、“检索”的保留字信息时,将“ABC”筛选为自由字,将“图像”筛选为属性为“检索”的保留字,将“检索”筛选为属性为“指令”的保留字。通过由意图解释处理部104进行这样的筛选,从而电视机10能够进行基于用户700的意图(用户700发声的声音操作的意图)的动作。在上述例子中,电视机10能够关于属性为“检索”的保留字“图像”,执行使用了自由字“ABC”的属性为“指令”的保留字“检索”。
另外,属性为“检索”的保留字是例如图3中示出一例那样的“图像”、“动态图像”、“节目”、“网页”、“新闻”、“地图”、“餐厅”、“加油站”等用于检索类别的指定的用语。此外,属性为“指令”的保留字是例如图3中示出一例那样的“前进”、“后退”、“检索”等用于电视机10的操作的用语。但是,保留字并不限定于这些用语。
另外,意图解释处理部104也可以使用字符串信息中所包含的助词、前置词等的字符串来进行意图解释。
如此,意图解释处理部104执行步骤S701的声音识别意图解释处理。
接着,保留字处理部106判断在基于步骤S701的处理从意图解释处理部104输出的信息中,是否包含属性为“检索”的保留字(步骤S702)。
在步骤S702中,判断为在从意图解释处理部104输出的信息中包含属性为“检索”的保留字时(“是”),前进至步骤S704。然后,由网页浏览器控制部170的检索URL生成部171来生成基于从意图解释处理部104输出的信息中所包含的保留字以及自由字的检索URL(步骤S704)。
在步骤S704中,检索URL生成部171基于保留字,参考存储在存储部180中的检索URL列表D500,来生成检索URL。
例如,若在从意图解释处理部104输出的信息中包含“ABC”、“图像”这样的词语,则由于“图像”作为属性为“检索”的保留字而被登记在保留字表D400中,因此在步骤S702中判断为“是”。
然后,由检索URL生成部171生成使用了自由字“ABC”和保留字“图像”的检索URL。检索URL生成部171基于保留字“图像”,从检索URL列表D500(图4)中读出与保留字的“图像”对应的检索URL模板。然后,对所读出的检索URL模板添加自由字。由此,例如若基于图4所示的检索URL列表D500的示例,则生成如下这样的字符串的检索URL:http://search.co.jp/images?q=ABC。
URL栏显示控制部173将在步骤S704生成的检索URL输入到网页浏览器的URL栏301(图6)中。由此,利用检索站点70来进行基于该检索URL的检索。作为该检索的结果而得到的网页的信息由网页显示控制部174来读入到网页浏览器中。然后,通过显示控制部108将该网页的信息显示于显示部140正在显示的网页浏览器上(步骤S705)。
在步骤S705中,在显示部140显示例如图6所示那样的图像。在图6中,示出了在网页303上显示了以自由字“ABC”对保留字的“图像”进行了检索的结果的图像例。另外,图6所示的网页303是从检索站点70取得而显示于网页浏览器的网页的一例,网页303内的各要素的配置、检索结果的显示方法、广告的有无、字符串输入区域的数量等并不限定于图6所示的例子。网页的设计可以按照每个检索站点而不同。
在步骤S702中,判断为在从意图解释处理部104输出的信息中不包含属性为“检索”的保留字时(“否”),前进至步骤S703。然后,在网页浏览器控制部170的检索URL匹配处理部172中,执行用于决定检索类别的处理。以下,将在步骤S703中进行的处理也记作“检索类别决定处理”。
所谓检索类别,是指表示检索的对象范围的数据要素,在本实施方式中,相当于图4的检索URL列表D500的保留字。
在此,示出具体例来说明在什么时候在步骤S702中会判断为“否”。
在此,假定用户700首先发声“检索ABC的图像”,并已经以自由字“ABC”进行了保留字的“图像”的检索。然后,作为该检索的结果,例如假定在显示部140显示了图6所示的网页303。
另外,该检索并不限定于声音操作,例如也可以基于使用了远程控制器20的输入部(例如触摸板)、便携式终端30的输入部(例如触摸面板)的用户操作(输入操作)来进行。
若在该状态下,紧接着用户700例如按下网页303上的“Map”的按钮304,则在网页浏览器上,检索类别从“图像”变更为“地图”。该操作可以通过声音操作和使用了远程控制器20或便携式终端30的输入部的用户操作(即用户的输入操作)当中的任意一种方式来进行。
由此,显示在网页浏览器上的网页从图6所示的网页303移动到与检索类别“地图”对应的网页(例如地图的网页)。即,按照从处理地图信息的网站发送的信息,在网页浏览器上,显示地图的网页。
然后,若用户700仅发声自由字“XYZ”这样的词语,则步骤S701的声音识别意图解释处理的结果是从意图解释处理部104仅输出表示自由字“XYZ”这样的字符串的信息。
保留字处理部106判断为在从意图解释处理部104输出的信息中,不包含属性为“检索”的保留字。因此,在步骤S702中,被做出“否”的判断。然后,流程图前进至步骤S703。
在步骤S703中,进行检索类别决定处理。具体而言,在检索URL匹配处理部172中,进行检索URL列表D500与URL栏显示控制部173当然管理的URL(与显示部140正在显示的网页关联的URL)的匹配处理(字符串的匹配处理),基于其结果来决定检索类别(步骤S703)。
使用图9米说明步骤S703的检索类别决定处理的详细内容。
为了决定检索类别,由检索URL匹配处理部172针对在检索URL列表D500中登记的检索URL模板,按照规定顺序,进行与URL栏显示控制部173当前管理的URL的匹配处理。以下,将该顺序设为检索URL模板被登记到检索URL列表D500中的顺序(图4所示的检索URL列表D500的从上到下的顺序)来进行说明,匹配处理的顺序并不限定于此,也可以是其他顺序。
检索URL匹配处理部172向变量n中代入初始值“1”(步骤S901)。
接着,检索URL匹配处理部172取得正在网页浏览器的URL栏301(例如图6所示的URL栏301)中显示的由URL栏显示控制部173当前管理的URL的字符串(步骤S902)。以下,将该字符串设为字符串A。
接着,检索URL匹配处理部172从检索URL列表D500中,取得检索URL列表D500的第n个登记的检索URL模板的字符串(步骤S903)。
在图4所示的例子中,n=1时的检索类别是检索URL列表D500的第1行的“网页”,其检索URL模板为http://search.co.jp/web?q=。n=2时的检索类别是检索URL列表D500的第2行目的“图像”,其检索URL模板为http://search.co.jp/images?q=。n=9时的检索类别是检索URL列表D500的第9行的“加油站”,其检索URL模板为http://web-navi.co.jp/search?category=gas-station&query=。这样,检索URL匹配处理部172基于变量n,从检索URL列表D500中读出检索URL模板。以下,将与变量n对应的检索URL模板的字符串设为字符串B。
接着,检索URL匹配处理部172判断在字符串A中是否包含与字符串B一致的字符串(步骤S904)。
在此,将检索URL匹配处理部172在步骤S904中进行的该判断称为匹配处理。在步骤S904中,判断为在字符串A中包含与字符串B一致的字符串时(即匹配处理成功时)(“是”),前进至步骤S905。然后,检索URL匹配处理部172从检索URL列表D500中,将检索URL列表D500的第n个登记的检索类别设定为返回值(步骤S905)。
例如,若字符串B为http://search.co.jp/images?q=,字符串A为http://search.co.jp/images?q=ABC,则由于在字符串A中包含与字符串B一致的字符串,因此在步骤S904中判断为“是”。
在图4所示的例子中,若在n=1时在步骤S904中判断为“是”,则在步骤S905中检索URL列表D500的第1个登记的“网页”被设定为返回值,若在n=2时判断为“是”,则检索URL列表D500的第2个登记的“图像”被设定为返回值。
在步骤S904中,判断为在字符串A中不包含与字符串B一致的字符串时(即匹配处理失败时)(“否”),检索URL匹配处理部172使变量n加1(步骤S906)。
接着,检索URL匹配处理部172对变量n与检索URL列表D500中登记的检索类别的数量(检索URL模板的数量)进行比较(步骤S907)。
在步骤S907中,判断为变量n大于检索URL列表D500中登记的检索类别的数量(“是”)时,检索URL匹配处理部172将预先设定的检索类别(以下记作“默认的检索类别”)设定为返回值(步骤S908)。
步骤S908是在检索URL列表D500中登记的所有检索URL模板均不包含与字符串B一致的字符串时执行的处理。另外,默认的检索类别例如是“网页”,但也可以是其他检索类别。
在步骤S907中,判断为变量n是检索URL列表D500中登记的检索类别的数量以下(“否”)时,检索URL匹配处理部172返回至步骤S903继续匹配处理。该处理是在检索URL列表D500中存在尚未进行匹配处理的检索URL模板时执行的处理。
另外,在图9所示的流程图中为了反复处理而使用了变量n,但也可以进行使用了迭代器(Iterator)的反复处理。
这样,在步骤S702中,判断为在从意图解释处理部104输出的信息中不包含属性为“检索”的保留字时(“否”),检索URL匹配处理部172通过进行步骤S703的检索类别决定处理,来决定检索类别。然后,检索URL匹配处理部172将所决定的检索类别设定为返回值,并将该返回值输出到网页浏览器控制部170的检索URL生成部171。
步骤S703的结束后前进至步骤S704。然后,检索URL生成部171从检索URL列表D500中读出与从检索URL匹配处理部172输出的返回值(即在步骤S703中决定的检索类别)对应的检索URL模板,并基于所读出的检索URL模板以及从意图解释处理部104输出的信息中包含的自由字来生成检索URL(步骤S704)。在步骤S704之后的步骤S705的处理与上述相同。
另外,检索URL匹配处理部172也可以将变量n设定为返回值。在该情况下,检索URL生成部171基于变量n从检索URL列表D500中读出检索URL模板即可。
列举具体例对上述的检索类别决定处理进行说明。在此,说明上述的在步骤S702中判断为“否”时的具体例的后续,作为检索类别决定处理的具体例。
在该例中,在从意图解释处理部104输出的信息中,不包含属性为“检索”的保留字而只包含表示自由字“XYZ”这样的字符串的信息。
此外,在该例中,由于之前用户700刚刚进行的检索,因而在网页浏览器上,显示了地图的网页。因此,检索URL匹配处理部172在步骤S902中,将用于显示地图的网页的URL的字符串设定为字符串A。该字符串例如为http://search.co.jp/maps?q=。假定若以自由字“ABC”对检索类别“地图”进行检索,则被设定为字符串A的字符串例如成为http://search.co.jp/maps?q=ABC。
由此,检索URL匹配处理部172在步骤S904中,在n=5时即与检索类别“地图”对应的检索URL模板http://search.co.jp/maps?q=被设定为字符串B时,匹配处理成功。即,判断为在字符串A中包含与字符串B一致的字符串。因此,检索URL匹配处理部172在步骤S905中,将检索类别“地图”设定为返回值,并将该返回值输出到检索URL生成部171。
检索URL生成部171在步骤S704中,从检索URL列表D500中读出与从检索URL匹配处理部172输出的返回值(在此为检索类别“地图”)对应的以下的检索URL模板。
http://search.co.jp/maps?q=
然后,检索URL生成部171根据所读出的检索URL模板以及从意图解释处理部104输出的信息中所包含的自由字“XYZ”,来生成以下的检索URL。
http://search.co.jp/maps?q=XYZ
URL栏显示控制部173在步骤S705中,将由检索URL生成部171生成的上述检索URL输入到网页浏览器的URL栏301中。作为该检索的结果而从检索站点70得到的网页的信息(即,以自由字“XYZ”对检索类别“地图”进行了检索的结果)由网页显示控制部174读入到网页浏览器中。然后,该网页的信息通过显示控制部108而被显示在显示部140正在显示的网页浏览器上。
[1-3.效果等]
如上所述,在本实施方式中,声音检索装置具备:网页显示控制部、声音识别部、匹配部以及URL生成部。网页显示控制部控制在显示部显示的网页。声音识别部对所输入的声音进行识别并变换为字符串信息来进行输出。匹配部参考按照每个检索类别对表示URL的一部分的字符串进行了登记的URL列表,进行正在显示部进行显示的网页的URL与URL列表的字符串的匹配处理,来确定与该URL对应的URL列表的字符串。URL生成部根据匹配部所确定的字符串以及字符串信息来生成URL。
另外,声音检索装置200是声音检索装置的一例,网页显示控制部174是网页显示控制部的一例,声音识别部50是声音识别部的一例,检索URL匹配处理部172是匹配部的一例,检索URL列表D500是URL列表的一例,检索URL生成部171是URL生成部的一例。
使用如此构成的声音检索装置200的用户700在连续进行检索处理的情况下,即使不再次对上次的检索中所输入的内容进行发声,也能够基于上次的检索内容和新发声的内容来进行新的检索。
例如,用户700在按照与之前刚刚检索的检索类别相同的检索类别,进行以新的自由字的检索的情况下,能够省略与上次检索重复的检索类别的发声。即,用户700仅对新的自由字进行发声即可。
作为具体的一例,用户700在之前刚刚对“以ABC检索地图”进行发声或输入操作,按照检索类别“地图”对自由字“ABC”进行了检索之后,重新以自由字“XYZ”进行检索类别“地图”的检索的情况下,不需要发声“以XYZ检索地图”。用户700只要发声“XYZ”即可。由此,声音检索装置200生成检索URL,使得按照与直前刚刚检索的检索类别相同的检索类别“地图”来进行自由字“XYZ”的检索。即,用户700仅通过发声“XYZ”便能够执行与发声“以XYZ检索地图”时相同的检索处理。
这样,对于本实施方式中的声音检索装置200而言,用户700可以不重复发声与上次声音操作时重复的词语,因此能够减轻对具备声音检索装置200的设备进行声音操作时的繁杂度,操作性得到提高。
(其他实施方式)
如上所述,作为本申请中公开的技术的例示而对实施方式1进行了说明。但是,本发明中的技术并不限定于此,也能够应用于进行了变更、置换、追加、省略等的实施方式。此外,也能够对上述实施方式1中说明的各构成要素进行组合来形成新的实施方式。
因此,以下,例示其他实施方式。
检索URL匹配处理部172也可以利用去除了“http”、“https”等预先规定的字符串(例如URL方案)的剩余的部分,来进行匹配处理。
此外,检索URL匹配处理部172也可以在进行匹配处理时,从检索URL列表D500中读出1个检索URL模板来提取域名和查询串,判断所提取出的各个字符串是否被包含在URL栏显示控制部173所管理的URL的域名和查询串中。
列举具体的一例来说明该动作例。例如,在图4所示的检索URL列表D500中,作为与检索类别“加油站”对应的检索URL模板而登记有以下的字符串。
http://web-navi.co.jp/search?category=gas-station&query=
从该检索URL模板中,利用URL方案的分隔符的“:”、查询串的分隔符的“?”,能够提取域名“web-navi.co.jp”和查询串“category=gas-station”。因此,检索URL匹配处理部172在该域名的字符串被包含在URL栏显示控制部173所管理的URL的域名的字符串之中、并且该查询串的字符串被包含在URL栏显示控制部173所管理的URL的查询串的字符串中时,做出匹配处理成功这样的判断。另外,检索URL匹配处理部172除了使用了域名以及查询串的上述匹配处理以外,还能够构成为进行使用域名以及路径的匹配处理、使用路径以及查询串的匹配处理。
另外,检索URL列表D500并不限定于图4所示的数据结构。检索URL列表D500也可以是将域名、路径、查询串预先分离,并将检索类别决定处理中使用的要素与不使用的要素分开进行登记的数据结构。示出该具体的一例。例如,对于图4所示的检索URL列表D500的与检索类别“加油站”对应的检索URL模板的例子而言,将域名“web-navi.co.jp”、路径“/search”和查询串“category=gas-station”作为检索类别决定处理中使用的要素而登记到检索URL列表D500中,将URL方案“http://”、路径“/search”以及查询串的其他项目“q=”作为检索类别决定处理中不使用的要素而登记到检索URL列表D500中。也可以将检索URL列表D500设为这样的数据结构。
通过将检索URL列表D500设为这样的数据结构,从而能够减轻由检索URL匹配处理部172进行检索类别决定处理时的匹配处理的负荷。
检索URL匹配处理部172也可以在进行检索类别决定处理时,按如下方式进行匹配处理。检索URL匹配处理部172对于与默认的检索类别对应的检索URL模板不进行匹配处理,而对于除了默认的检索类别以外的检索类别进行匹配处理。然后,在该匹配处理全部失败时,将检索类别设为默认的检索类别。
此外,在本实施方式中,说明了声音检索装置200在因特网上进行检索的动作例,但声音检索装置200所进行的检索并不限定于因特网检索。声音检索装置200例如也可以进行基于节目表应用的节目检索。在基于节目表应用的节目检索的情况下,例如也可以如图4的检索URL列表D500的与检索类别“节目”对应的检索URL模板所示,使用“file”方案或“epg_app”这样的应用名的方案。或者,声音检索装置200也可以将录像节目等作为检索的对象。
另外,电视机10能够通过上述方法来开始声音识别处理。因此,若声音识别处理开始,则用户700即使在电视机10收看节目的中途,也能够进行上述那样的检索。
电视机10也可以具备执行检索以外的指令处理的指令处理部。在该指令处理中,例如存在电视机10的频道变更、音量变更等。此外,在保留字表D400中,也可以登记由该指令处理部能够执行的指令例如“频道向上”、“音量增加”、“重放”、“停止”、“字符显示”等作为属性为“指令”的保留字。
本实施方式所示的声音检索装置200也可以设置于不具备显示部140的设备中。
在本实施方式中,说明了将声音识别部50配置在网络40上的例子,但声音识别部50也可以设置于声音检索装置200中。
在本实施方式中,保留字表D400和检索URL列表D500可以存储于存储部180和存储部181中的任意一方。或者,保留字表D400和检索URL列表D500的至少一方也可以构成为根据需要经由网络40来取得。
另外,图2所示的各模块既可以构成为各自独立的电路模块,也可以构成为由处理器执行编程的软件使得实现各模块的动作。
产业上的可利用性
本发明能够应用于执行用户指示的处理动作的设备。具体而言,本发明能够应用于汽车导航系统、驾驶支援系统、便携式终端设备、电视接收机、个人计算机(PC)、打印机等PC周边设备、机顶盒、录像机、光盘播放器等家庭用AV设备、远程控制器、游戏机、智能电话、平板终端、微波炉等家庭用电器设备等。
标号说明
10 电视接收机
11 声音识别系统
20 远程控制器
30 便携式终端
40 网络
50 声音识别部
60 URL服务器
70 检索站点
100 声音识别装置
101 声音取得部
102 声音处理部
103 识别结果取得部
104 意图解释处理部
106 保留字处理部
108 显示控制部
110 操作受理部
130 麦克风
140 显示部
150 收发部
170 网页浏览器控制部
171 检索URL生成部
172 检索URL匹配处理部
173 URL栏显示控制部
174 网页显示控制部
180、181 存储部
190 调谐器
200 声音检索装置
201 声音识别图标
202 指示器
203 输入栏
301 URL栏
302 搜索栏
303 网页
304 按钮
305 检索用字符串输入区域
306 检索结果
307 登录用字符串输入区域
308 广告
309 检索用字符串输入区域
700 用户
D400 保留字表
D500 检索URL列表

Claims (3)

1.一种声音检索装置,具备:
网页显示控制部,其对显示于显示部的网页进行控制;
声音识别部,其对所输入的声音进行识别并变换为字符串信息来进行输出;
匹配部,其参考按照每个检索类别而登记了检索URL模板的URL列表,进行在所述显示部正在显示的网页的URL与所述URL列表的所述检索URL模板的匹配处理,确定与所述URL对应的所述URL列表的所述检索URL模板;以及
URL生成部,其基于所述匹配部所确定的所述检索URL模板以及所述字符串信息中的自由字来生成URL。
2.一种声音检索方法,包括:
将网页显示于显示部的步骤;
对所输入的声音进行识别并变换为字符串信息的步骤;
参考按照每个检索类别而登记了检索URL模板的URL列表,进行在所述显示部正在显示的网页的URL与所述URL列表的所述检索URL模板的匹配处理,确定与所述URL对应的所述URL列表的所述检索URL模板的步骤;以及
基于所确定的所述检索URL模板以及所述字符串信息中的自由字来生成URL的步骤。
3.一种显示装置,具备:
显示部;
网页显示控制部,其对显示于所述显示部的网页进行控制;
声音识别部,其对所输入的声音进行识别并变换为字符串信息来进行输出;
匹配部,其参考按照每个检索类别而登记了检索URL模板的URL列表,进行在所述显示部正在显示的网页的URL与所述URL列表的所述检索URL模板的匹配处理,确定与所述URL对应的所述URL列表的所述检索URL模板;以及
URL生成部,其基于所述匹配部所确定的所述检索URL模板以及所述字符串信息中的自由字来生成URL。
CN201580006319.8A 2014-03-28 2015-03-09 声音检索装置、声音检索方法以及显示装置 Active CN105940399B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2014-068183 2014-03-28
JP2014068183 2014-03-28
PCT/JP2015/001257 WO2015146017A1 (ja) 2014-03-28 2015-03-09 音声検索装置、音声検索方法、および表示装置

Publications (2)

Publication Number Publication Date
CN105940399A CN105940399A (zh) 2016-09-14
CN105940399B true CN105940399B (zh) 2019-04-26

Family

ID=54194571

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201580006319.8A Active CN105940399B (zh) 2014-03-28 2015-03-09 声音检索装置、声音检索方法以及显示装置

Country Status (5)

Country Link
US (1) US9928030B2 (zh)
EP (1) EP3125134B1 (zh)
JP (1) JP6375521B2 (zh)
CN (1) CN105940399B (zh)
WO (1) WO2015146017A1 (zh)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7516190B2 (en) 2000-02-04 2009-04-07 Parus Holdings, Inc. Personal voice-based information retrieval system
CN104871240A (zh) * 2012-12-28 2015-08-26 索尼公司 信息处理设备、信息处理方法、以及程序
JP2017138476A (ja) * 2016-02-03 2017-08-10 ソニー株式会社 情報処理装置、情報処理方法、及びプログラム
US10149002B1 (en) * 2016-03-21 2018-12-04 Tribune Broadcasting Company, Llc Systems and methods for retrieving content files
US11195517B2 (en) 2016-05-12 2021-12-07 Sony Corporation Information processing apparatus and information processing method
WO2018013564A1 (en) * 2016-07-12 2018-01-18 Bose Corporation Combining gesture and voice user interfaces
US11907316B2 (en) * 2016-08-15 2024-02-20 Richard S. Brown Processor-implemented method, computing system and computer program for invoking a search
KR102542766B1 (ko) 2016-11-17 2023-06-14 엘지전자 주식회사 디스플레이 장치 및 그의 동작 방법
CN108986800B (zh) * 2017-05-31 2022-08-09 上海智觅智能科技有限公司 一种基于多处理器协调链表逻辑实时离线语音交互系统及方法
CN107993650A (zh) * 2017-11-30 2018-05-04 百度在线网络技术(北京)有限公司 用于生成信息的方法和装置
KR102661340B1 (ko) * 2018-09-21 2024-04-30 삼성전자주식회사 전자 장치 및 이의 제어 방법
JP2020087262A (ja) * 2018-11-30 2020-06-04 株式会社Nttぷらら 情報提示システム、情報提示装置、情報提示方法及びコンピュータプログラム
JP2022028094A (ja) * 2018-12-21 2022-02-15 ソニーグループ株式会社 情報処理装置、制御方法、情報処理端末、情報処理方法
CN110085232A (zh) * 2019-03-13 2019-08-02 佛山市云米电器科技有限公司 一种基于语音的红外控制系统及其方法
WO2021002493A1 (ko) * 2019-07-01 2021-01-07 엘지전자 주식회사 지능형 게이트웨이 장치 및 그를 포함하는 제어 시스템
CN114556353A (zh) * 2019-12-16 2022-05-27 深圳市欢太科技有限公司 数据处理方法、装置、电子设备和存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1154611A2 (en) * 2000-05-08 2001-11-14 Internet Number Corporation Method and system for accessing information on a network using message aliasing functions having shadow callback functions
CN101989299A (zh) * 2010-08-30 2011-03-23 无锡滨达工业创意设计有限公司 基于互联网的语音搜索方法
CN102629246A (zh) * 2012-02-10 2012-08-08 北京百纳信息技术有限公司 识别浏览器语音命令的服务器及浏览器语音命令识别方法
CN102968992A (zh) * 2012-11-26 2013-03-13 北京奇虎科技有限公司 用于浏览器的语音识别处理方法和浏览器
CN103020165A (zh) * 2012-11-26 2013-04-03 北京奇虎科技有限公司 可进行语音识别处理的浏览器及处理方法

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7206747B1 (en) 1998-12-16 2007-04-17 International Business Machines Corporation Speech command input recognition system for interactive computer display with means for concurrent and modeless distinguishing between speech commands and speech queries for locating commands
US6192343B1 (en) 1998-12-17 2001-02-20 International Business Machines Corporation Speech command input recognition system for interactive computer display with term weighting means used in interpreting potential commands from relevant speech terms
US8275617B1 (en) 1998-12-17 2012-09-25 Nuance Communications, Inc. Speech command input recognition system for interactive computer display with interpretation of ancillary relevant speech query terms into commands
US6937984B1 (en) 1998-12-17 2005-08-30 International Business Machines Corporation Speech command input recognition system for interactive computer display with speech controlled display of recognized commands
CN1176432C (zh) * 1999-07-28 2004-11-17 国际商业机器公司 提供本国语言查询服务的方法和系统
JP2001075968A (ja) 1999-08-31 2001-03-23 Toshiba Corp 情報検索方法及びそれを記録した記録媒体
JP2001134580A (ja) * 1999-11-02 2001-05-18 Nippon Telegr & Teleph Corp <Ntt> データベース管理システム,データベース管理システムにおける問い合わせ処理方法およびこの方法を実現するためのプログラムを格納した記録媒体
JP3703080B2 (ja) 2000-07-27 2005-10-05 インターナショナル・ビジネス・マシーンズ・コーポレーション ウェブコンテンツを簡略化するための方法、システムおよび媒体
US6934675B2 (en) * 2001-06-14 2005-08-23 Stephen C. Glinski Methods and systems for enabling speech-based internet searches
JP2006285855A (ja) 2005-04-04 2006-10-19 Ntt Docomo Inc 検索サーバ
US8751240B2 (en) * 2005-05-13 2014-06-10 At&T Intellectual Property Ii, L.P. Apparatus and method for forming search engine queries based on spoken utterances
US7672931B2 (en) * 2005-06-30 2010-03-02 Microsoft Corporation Searching for content using voice search queries
JP2009009170A (ja) * 2005-10-24 2009-01-15 Advanced Media Inc 情報検索システム及びサーバ装置
US20140372119A1 (en) * 2008-09-26 2014-12-18 Google, Inc. Compounded Text Segmentation
US8234111B2 (en) * 2010-06-14 2012-07-31 Google Inc. Speech and noise models for speech recognition
EP2612261B1 (en) * 2010-09-08 2018-11-07 Nuance Communications, Inc. Internet search related methods and apparatus
EP2518722A3 (en) * 2011-04-28 2013-08-28 Samsung Electronics Co., Ltd. Method for providing link list and display apparatus applying the same
WO2014197336A1 (en) * 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
US9646606B2 (en) * 2013-07-03 2017-05-09 Google Inc. Speech recognition using domain knowledge
US9710566B2 (en) * 2013-12-16 2017-07-18 Google Inc. User interface for webpage permission requests

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1154611A2 (en) * 2000-05-08 2001-11-14 Internet Number Corporation Method and system for accessing information on a network using message aliasing functions having shadow callback functions
CN101989299A (zh) * 2010-08-30 2011-03-23 无锡滨达工业创意设计有限公司 基于互联网的语音搜索方法
CN102629246A (zh) * 2012-02-10 2012-08-08 北京百纳信息技术有限公司 识别浏览器语音命令的服务器及浏览器语音命令识别方法
CN102968992A (zh) * 2012-11-26 2013-03-13 北京奇虎科技有限公司 用于浏览器的语音识别处理方法和浏览器
CN103020165A (zh) * 2012-11-26 2013-04-03 北京奇虎科技有限公司 可进行语音识别处理的浏览器及处理方法

Also Published As

Publication number Publication date
JP6375521B2 (ja) 2018-08-22
EP3125134B1 (en) 2018-08-15
EP3125134A4 (en) 2017-03-01
WO2015146017A1 (ja) 2015-10-01
JPWO2015146017A1 (ja) 2017-04-13
US20160328206A1 (en) 2016-11-10
CN105940399A (zh) 2016-09-14
US9928030B2 (en) 2018-03-27
EP3125134A1 (en) 2017-02-01

Similar Documents

Publication Publication Date Title
CN105940399B (zh) 声音检索装置、声音检索方法以及显示装置
US8843467B2 (en) Method and system for providing relevant information to a user of a device in a local network
JP2005115790A (ja) 情報検索方法、情報表示装置及びプログラム
US20080183681A1 (en) Method and system for facilitating information searching on electronic devices
CN104144357B (zh) 视频播放方法和系统
CN110737840A (zh) 语音控制方法及显示设备
CN105630876A (zh) 跨应用的信息获取方法和装置
US9524277B2 (en) Execution and display of events in a plurality of web browsers and devices systems and method
US20090055393A1 (en) Method and system for facilitating information searching on electronic devices based on metadata information
US20110314363A1 (en) Information processing device, information processing method, program, and information processing system
US20140324858A1 (en) Information processing apparatus, keyword registration method, and program
JP2015022550A (ja) 端末装置およびプログラム
CN111625716A (zh) 媒资推荐方法、服务器及显示设备
US20130254808A1 (en) Electronic apparatus and display control method
KR20200008341A (ko) 화면을 제어하는 미디어 재생 장치, 방법 및 화면을 분석하는 서버
JP5805134B2 (ja) 端末装置および装置のプログラム
CN111460180A (zh) 信息显示方法、装置、电子设备及存储介质
JP2008217228A (ja) ウェブページ閲覧方法、ウェブページ閲覧装置、ウェブページ閲覧プログラム及びウェブページ閲覧プログラムを記録した記録媒体
JP2015022555A (ja) 端末装置及びプログラム
JPH10301944A (ja) Wwwブラウザ装置
CN112380871A (zh) 语义识别方法、设备及介质
JP5630107B2 (ja) 情報検索システム、情報処理装置、及び情報検索方法
CN111858856A (zh) 多轮检索式聊天方法及显示设备
KR20200023094A (ko) 간편 이미지 검색 방법 및 이를 지원하는 서비스 장치
KR101480411B1 (ko) 전자 장치 상에서 정보 검색을 용이하게 하는 방법 및 시스템

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant