CN111857636A - 声音操作系统及装置、声音操作控制方法和记录介质 - Google Patents
声音操作系统及装置、声音操作控制方法和记录介质 Download PDFInfo
- Publication number
- CN111857636A CN111857636A CN202010260261.2A CN202010260261A CN111857636A CN 111857636 A CN111857636 A CN 111857636A CN 202010260261 A CN202010260261 A CN 202010260261A CN 111857636 A CN111857636 A CN 111857636A
- Authority
- CN
- China
- Prior art keywords
- instruction
- user
- candidate
- unit
- content
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000000034 method Methods 0.000 title claims abstract description 107
- 239000000284 extract Substances 0.000 claims abstract description 7
- 238000000605 extraction Methods 0.000 claims description 6
- 230000006399 behavior Effects 0.000 description 27
- 238000010586 diagram Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000035622 drinking Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/242—Query formulation
- G06F16/2425—Iterative querying; Query formulation based on the results of a preceding query
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/248—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/29—Geographical information databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/9035—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/9038—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60K—ARRANGEMENT OR MOUNTING OF PROPULSION UNITS OR OF TRANSMISSIONS IN VEHICLES; ARRANGEMENT OR MOUNTING OF PLURAL DIVERSE PRIME-MOVERS IN VEHICLES; AUXILIARY DRIVES FOR VEHICLES; INSTRUMENTATION OR DASHBOARDS FOR VEHICLES; ARRANGEMENTS IN CONNECTION WITH COOLING, AIR INTAKE, GAS EXHAUST OR FUEL SUPPLY OF PROPULSION UNITS IN VEHICLES
- B60K2360/00—Indexing scheme associated with groups B60K35/00 or B60K37/00 relating to details of instruments or dashboards
- B60K2360/148—Instrument input by voice
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60K—ARRANGEMENT OR MOUNTING OF PROPULSION UNITS OR OF TRANSMISSIONS IN VEHICLES; ARRANGEMENT OR MOUNTING OF PLURAL DIVERSE PRIME-MOVERS IN VEHICLES; AUXILIARY DRIVES FOR VEHICLES; INSTRUMENTATION OR DASHBOARDS FOR VEHICLES; ARRANGEMENTS IN CONNECTION WITH COOLING, AIR INTAKE, GAS EXHAUST OR FUEL SUPPLY OF PROPULSION UNITS IN VEHICLES
- B60K35/00—Instruments specially adapted for vehicles; Arrangement of instruments in or on vehicles
- B60K35/10—Input arrangements, i.e. from user to vehicle, associated with vehicle functions or specially adapted therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/225—Feedback of the input speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
- G10L2015/227—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of the speaker; Human-factor methodology
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Acoustics & Sound (AREA)
- General Health & Medical Sciences (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- Remote Sensing (AREA)
- Navigation (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
提供声音操作系统及装置、声音操作控制方法和记录介质,能够根据利用者的简单的讲话受理利用者意图的指示。声音操作系统(2)具有:指示候选决定部(12),其提取利用者U的讲话中包含的指示要素,在无法根据指示要素确定利用者(U)的指示内容的情况下,根据指示要素和由行动习惯估计部(17)估计出的利用者(U)的行动习惯,决定作为利用者意图的指示内容的候选的第1指示候选;规定处理执行部(15),其执行与第1指示候选相应的第1规定处理;以及显示控制部(13),其将第1指示候选的内容和第1规定处理的执行内容中的至少任意一方显示于显示器。
Description
技术领域
本发明涉及声音操作系统、声音操作装置、声音操作控制方法和记录了声音操作控制用程序的记录介质。
背景技术
以往,已知有识别车辆的驾驶员说出的地理名称并在显示器上显示识别结果的车载声音识别装置(例如,参照专利文献1)。在上述以往的车载声音识别装置中,按照每个驾驶员存储车辆的行驶历史,构成基于行驶历史的声音识别辞典。而且,使用该声音识别辞典进行针对驾驶员的讲话的声音识别。
现有技术文献
专利文献
专利文献1:日本特开2006-349427号公报
发明内容
发明要解决的问题
在上述以往的车载声音识别装置中,特别是在讲话句子长的情况下,驾驶员容易说错。而且,存在说错时驾驶员必须重新讲话这样的麻烦。因此,为了使利用者容易进行声音操作,考虑通过AI(Artificial Intelligence:人工智能)等对基于短的讲话句子的模糊的指示进行估计,确定利用者的指示内容。然而,该情况下,通过估计而确定的指示内容有时与利用者意图的指示内容不同。
本发明是鉴于该背景而完成的,其目的在于,提供声音操作系统、声音操作装置、声音操作控制方法和记录了声音操作控制用程序的记录介质,能够根据利用者的简单的讲话来受理利用者意图的指示。
用于解决问题的手段
作为用于达成上述目的的第1方式,举出声音操作系统,该声音操作系统具有:讲话识别部,其识别利用者的讲话;行动习惯估计部,其估计所述利用者的行动习惯;指示候选决定部,其在由所述讲话识别部识别出所述利用者的讲话时,提取该讲话中包含的指示要素,在无法根据所述指示要素确定所述利用者的指示内容的情况下,根据所述指示要素和由所述行动习惯估计部估计出的所述利用者的行动习惯,决定作为所述利用者意图的指示内容的候选的第1指示候选;规定处理执行部,其执行与所述第1指示候选相应的第1规定处理;以及显示控制部,其将所述第1指示候选的内容和所述第1规定处理的执行内容中的至少任意一方显示于显示器。
在上述声音操作系统中,也可以是,所述声音操作系统具有取消操作受理部,该取消操作受理部受理所述利用者的取消操作,在所述第1指示候选的内容和所述第1规定处理的执行内容中的至少任意一方被显示于所述显示器的情况下由所述取消操作受理部受理了所述取消操作时,所述规定处理执行部取消所述第1规定处理的执行。
在上述声音操作系统中,也可以是,在所述第1指示候选的内容和所述第1规定处理的执行内容中的至少任意一方被显示于所述显示器的情况下由所述取消操作受理部受理了所述取消操作时,所述指示候选决定部根据所述指示要素和不依赖于所述行动习惯的规定的选择条件,决定作为所述利用者意图的指示内容的候选的第2指示候选,所述规定处理执行部执行与所述第2指示候选相应的第2规定处理,所述显示控制部将所述第2指示候选和所述第2规定处理的执行内容中的至少任意一方显示于所述显示器。
在上述声音操作系统中,也可以是,所述声音操作系统被用于指示导航装置中的目的地的搜索条件,所述指示候选决定部在提取了多个店铺中共同的名称作为指示目的地的所述指示要素的情况下,决定将多个所述店铺中的存在所述利用者的利用实绩的所述店铺指示为目的地的第1搜索条件的所述第1指示候选,
所述规定处理执行部按照所述第1搜索条件,执行根据所述利用者的行动习惯搜索存在所述利用者的利用实绩的所述店铺的处理,作为所述第1规定处理。
在上述声音操作系统中,也可以是,所述声音操作系统被用于指示导航装置中的目的地,所述指示候选决定部在提取了在多个店铺中共同的名称作为指示目的地的所述指示要素的情况下,决定将多个所述店铺中的存在所述利用者的利用实绩的所述店铺指示为目的地的第1搜索条件的所述第1指示候选,在由所述取消操作受理部受理了所述取消操作时,使用距所述导航装置的当前地最近作为所述选择条件,决定将多个所述店铺中的距所述导航装置的当前位置最近的所述店铺指示为目的地的第2搜索条件的所述第2指示候选,所述规定处理执行部按照所述第1搜索条件,执行根据所述利用者的行动习惯搜索存在所述利用者的利用实绩的所述店铺的处理,作为所述第1规定处理,按照所述第2搜索条件,执行搜索距所述导航装置的当前位置最近的所述店铺的处理,作为所述第2规定处理。
作为用达成上述目的的第2方式,举出声音操作装置,该声音操作装置具有显示器和识别利用者的讲话的讲话识别部,该声音操作装置具有:行动习惯估计部,其估计所述利用者的行动习惯;指示候选决定部,其在由所述讲话识别部识别出所述利用者的讲话时,提取该讲话中包含的指示要素,在无法根据所述指示要素确定所述利用者的指示内容的情况下,根据所述指示要素和由所述行动习惯估计部估计出的所述利用者的行动习惯,决定作为所述利用者意图的指示内容的候选的第1指示候选;规定处理执行部,其执行与所述第1指示候选相应的第1规定处理;以及显示控制部,其将所述第1指示候选的内容和所述第1规定处理的执行内容中的至少任意一方显示于所述显示器。
作为用达成上述目的的第3方式,举出声音操作控制方法,该声音操作控制方法由单个或多个计算机执行,该声音操作控制方法包括以下步骤:讲话识别步骤,识别利用者的讲话;指示要素提取步骤,在识别出所述利用者的讲话时,提取该讲话中包含的指示要素;行动习惯估计步骤,估计所述利用者的行动习惯;指示候选决定步骤,在无法根据所述指示要素确定所述利用者的指示内容的情况下,根据所述指示要素和通过所述行动习惯估计步骤估计出的所述利用者的行动习惯,决定作为所述利用者意图的指示内容的候选的第1指示候选;规定处理执行步骤,执行与所述第1指示候选相应的第1规定处理;以及显示控制步骤,将所述第1指示候选的内容和所述第1规定处理的执行内容中的至少任意一方显示于显示器。
作为用达成上述目的的第4方式,举出记录介质,该记录介质记录有声音操作控制用程序,该声音操作控制用程序被安装于单个或多个计算机,并使所述计算机执行以下处理:讲话识别处理,识别利用者的讲话;指示要素提取处理,在识别出所述利用者的讲话时,提取该讲话中包含的指示要素;行动习惯估计处理,估计所述利用者的行动习惯;指示候选决定处理,在无法根据所述指示要素确定所述利用者的指示内容的情况下,根据所述指示要素和通过所述行动习惯估计处理估计出的所述利用者的行动习惯,决定作为所述利用者意图的指示内容的候选的第1指示候选;规定处理执行处理,执行与所述第1指示候选相应的第1规定处理;以及显示控制处理,将所述第1指示候选的内容和所述第1规定处理的执行内容中的至少任意一方显示于显示器。
发明的效果
根据上述声音操作系统,在无法根据利用者的讲话中包含的指示要素确定利用者的指示内容的情况下,由指示候选决定部根据指示要素和由行动习惯估计部估计出的利用者的行动习惯,决定作为利用者意图的指示内容的候选的第1指示候选。然后,通过显示控制部,将第1指示候选的内容和根据第1指示候选而执行的第1处理的执行内容中的至少任意一方显示于显示器。由此,利用者通过讲出操作指示的一部作为指示要素,能够确认第1指示候选或第1规定处理的执行内容并容易地进行操作指示。因此,能够抑制由于利用者进行操作指示整体较长的讲话而产生说错或误识别的情况,能够使基于声音的操作指示简单化。
附图说明
图1是包含声音操作系统的功能的导航装置的结构图。
图2是利用者数据的说明图。
图3是根据利用者的行动习惯决定目的地的第1搜索条件的处理的流程图。
图4是根据规定的选择条件决定目的地的第2搜索条件的处理的流程图。
图5是对目的地的第1搜索条件和与第1搜索条件相应的第1搜索处理的执行内容进行显示的画面的说明图。
图6是对目的地的第2搜索条件和与第2搜索条件相应的第2搜索处理的执行内容进行显示的画面的说明图。
标号说明
1…导航装置,2…声音操作系统,10…CPU,11…讲话识别部,12…指示候选决定部,13…显示控制部,14…取消操作受理部,15…规定处理执行部,16…行动历史保存部,17…行动习惯估计部,20…存储器,21…控制用程序,22…利用者数据,23…地图数据,30…通信部,31…麦克风,32…扬声器,33…触摸面板,34…开关,35…GPS单元,36…记录介质,50…第1搜索画面,54…取消按钮,60…第2搜索画面,90…利用者终端,100…通信网络,110…操作支援服务器。
具体实施方式
[1.声音操作系统的结构]
参照图1,对本实施方式的声音操作系统2的结构进行说明。声音操作系统2构成为搭载于车辆(未图示)的导航装置1的功能的一部分。另外,在本实施方式中,示出搭载于车辆的导航装置1,但是,也可以是便携式的导航装置。此外,也可以是在智能手机等的便携终端中通过执行导航用应用(应用程序)而构成的导航装置。
导航装置1具有CPU(Central Processing Unit:中央处理单元)10、存储器20、通信部30、麦克风31、扬声器32、触摸面板33、开关34、和GPS(Global Positioning System:全球定位系统)单元35。通信部30经由通信网络100,在与操作支援服务器110等外部系统之间进行通信。此外,通信部30经由通信网络100或直接在与导航装置1的利用者U使用的利用者终端90之间进行通信。利用者终端90是智能手机、平板终端、便携电话等便携式的通信终端。
麦克风31输入利用者U的声音。扬声器32输出对利用者U的声音引导等。触摸面板33通过液晶面板等平面式的显示器、在显示器的表面配置的触摸开关而构成。开关34通过利用者U的按压而操作。GPS单元35通过接收从GPS卫星发送的电波,检测导航装置1的当前位置。由声音操作系统2和触摸面板33构成本发明的声音操作装置。
导航装置1根据利用者U对触摸面板33的触摸操作、或输入到麦克风31的基于利用者的声音的操作,来设定目的地。然后,导航装置1根据通过GPS单元35检测到的导航装置1的当前位置(搭载了导航装置1的车辆的当前位置)、和存储器20中保存的地图数据23,进行到目的地的路线引导。另外,可以通过通信部30访问操作支援服务器110等外部服务器,从而取得地图数据。
声音操作系统2由CPU 10、存储器20等构成,CPU 10读入并执行存储器20所保持的声音操作系统2的控制用程序21(通过进行安装),从而作为讲话识别部11、指示候选决定部12、显示控制部13、取消操作受理部14、规定处理执行部15、行动历史保存部16和行动习惯估计部17发挥功能。CPU 10相当于本发明的单个或多个计算机,执行声音操作控制方法。控制用程序21包含本发明的声音操作控制用程序。控制用程序21的数据也可以被记录于非易失性的记录介质36(闪存、磁盘、光盘等),从记录介质36被转送到存储器20。
行动历史保存部16将表示利用者U此前移动的场所和日期时间的行动历史保存于利用者数据22。行动历史保存部16根据由GPS单元35检测到的导航装置1的当前位置,识别利用者U移动到的场所并将其记录于行动历史。在利用者数据22中,如图2所示,针对使用搭载有导航装置1的车辆的多个利用者中的每个利用者,记录有利用者ID 122a、用于识别利用者的生物体数据22b、和行动历史22c。生物体数据22b中保存面部图像、声纹、虹膜、指纹等用于进行生物体认证的数据。图2例示了关于利用者U的利用者数据22。
讲话识别部11对输入于麦克风31的利用者U的声音进行解析,识别利用者U的讲话内容。指示候选决定部12根据通过讲话识别部11识别出的讲话内容、和记录于利用者数据22中的行动历史22c,决定利用者U意图的目的地的第1搜索条件(相当于本发明的第1指示候选)。此外,指示候选决定部12根据通过讲话识别部11识别出的利用者U的讲话内容、和规定的选择条件,决定利用者U意图的目的地的第2搜索条件(相当于本发明的第2指示候选)。
规定处理执行部15按照目的地的第1搜索条件执行第1搜索处理(相当于本发明的第1规定处理)、并按照目的地的第2搜索条件执行第2搜索处理(相当于本发明的第2规定处理)。显示控制部13将第1搜索条件和第1搜索处理的执行内容、以及第2搜索条件和第2搜索处理的执行内容显示于触摸面板33。取消操作受理部14受理基于利用者U的第1搜索条件的取消操作。取消操作受理部14识别利用者U对触摸面板33的触摸操作、或被输入到麦克风31的利用者U的声音,受理取消操作。
行动习惯估计部17根据记录于利用者数据22中的行动历史22c,估计利用者U的行动习惯。行动习惯估计部17例如估计以下那样的行动习惯。
(1)平日在咖啡店喝咖啡的频度高。
(2)平日的回家时间在19点前后。
(3)平日从工作地回家的中途有时顺便去超市。
(4)从工作地外出的情况下,多数情况下在16点前后返回工作地。
[2.目的地的搜索条件的决定处理]
按照图3~图4所示的流程图,对如图5所示在利用者U进行了指示目的地的讲话V1时,由声音操作系统2执行的目的地的搜索条件的决定处理进行说明。在图3的步骤S1中,讲话识别部11在根据被输入到麦克风31的声音识别出利用者U的讲话时,使处理进入步骤S2。在步骤S2中,识别利用者U的讲话的处理相当于本发明的声音操作控制方法中的讲话识别步骤,并且相当于本发明的声音操作控制用程序中的讲话识别处理。
在步骤S2中,讲话识别部11判断是否能够根据讲话内容确定目的地的搜索条件(利用者U的指示内容)。然后,讲话识别部11在能够确定搜索条件时使处理进入步骤S20,在无法确定搜索条件时使处理进入步骤S3。在步骤S20中,规定处理执行部15基于确定出的搜索条件来执行目的地的搜索处理,使处理进入图4的步骤S12。
在图5的例中,通过讲话识别部11识别出“Y咖啡”的讲话V1,由于存在具有“Y咖啡”这样的共同的名称的多个店铺,因此,不清楚利用者U意图“Y咖啡”的哪个店铺。因此,指示候选决定部12估计利用者U所意图的“Y咖啡”的搜索条件。
指示候选决定部12在步骤S3中,从利用者U的讲话V1中提取“Y咖啡”作为目的地的指示要素。在步骤S3中提取指示要素的处理相当于本发明的声音操作控制方法中的指示要素提取步骤,并且相当于本发明的声音操作控制用程序中的指示要素提取处理。接着,在步骤S4中,指示候选决定部12通过基于声纹的生物体认证来识别利用者U,在步骤S5中,参照通过行动习惯估计部17估计出的利用者U的行动习惯。另外,也可以代替声纹,而进行基于面部图像、指纹、虹膜等的生物体认证。
这里,假设通过行动习惯估计部17估计为“利用咖啡店喝咖啡的频度高”作为利用者U的行动习惯。行动习惯估计部17估计利用者U的行动习惯的处理相当于本发明的声音操作控制方法中的行动习惯估计步骤,并且相当于本发明的声音操作控制用程序中的行动习惯估计处理。
由于利用者U利用咖啡店的频度高,因此,指示候选决定部12选择“平常的”作为目的地搜索的可选要素,将“平常的Y咖啡”决定为目的地的第1搜索条件。指示候选决定部12决定第1搜索条件(相当于本发明的第1指示候选)的处理相当于本发明的声音操作控制方法中的指示候选决定步骤,并且相当于本发明的声音操作控制用程序中的指示候选决定处理。
接着,在步骤S6中,显示控制部13如图5所示在触摸面板33中显示第1搜索画面50,该第1搜索画面50包含目的地的第1搜索条件(平常的Y咖啡)的显示51、以及与第1搜索条件相应的第1搜索处理的执行内容(正在搜索您平常利用的Y咖啡)的显示52。在第1搜索画面50中显示:估计中显示53,其表示正在估计利用者U所意图的目的地;以及取消按钮54,其用于受理利用者U对第1搜索条件的取消操作。步骤S6的处理相当于本发明的声音操作控制方法中的显示控制步骤,并且相当于本发明的声音操作控制程序中的显示控制处理。
利用者U通过观看第1搜索画面50,能够确认针对“Y咖啡”的讲话而决定出的目的地的第1搜索条件是“平常的Y咖啡”,且搜索利用者U平常利用的Y候选。在接下来的的步骤S7中,规定处理执行部15参照利用者U的行动历史22c,根据利用者U的利用实绩识别出“平常的Y咖啡”是“Y咖啡b街店”。然后,规定处理执行部15参照地图数据23,执行搜索“Y咖啡b街店”的所在场所的第1搜索处理。规定处理执行部15执行第1搜索处理(相当于本发明的第1规定处理)的处理相当于本发明的声音操作控制方法中的规定处理执行步骤,并且相当于本发明的声音操作控制程序中的规定处理执行处理。
在接下来的图4的步骤S8中,取消操作受理部14判断利用者U是否进行了取消操作。取消操作受理部14在图5所示的第1搜索画面50的取消按钮54被进行了操作时,或如图6所示,识别出利用者U进行的“取消”的讲话V2时,受理利用者U的取消操作。由此,利用者U在“平常的Y咖啡”这样的第1搜索条件不是意图的搜索条件时,能够容易地取消搜索条件。
取消操作受理部14在受理了利用者U的取消操作时,使处理进入步骤S9。另一方面,在没有受理到利用者U的取消操作时,取消操作受理部14使处理进入步骤S12,该情况下,将通过“平常的Y咖啡”这样的第1搜索条件搜索到的Y咖啡的店铺(图2的例中为Y咖啡b街店)确定为目的地。
在步骤S9中,指示候选决定部12根据指示要素“Y咖啡”和作为既定的选择条件的“附近的”,决定第2搜索条件“附近的Y咖啡”。在接下来的步骤S10中,显示控制部13如图6所示,在触摸面板33中显示第2搜索画面60,该第2搜索画面60包含目的地的第2搜索条件(附近的Y咖啡)的显示61、以及与第2搜索条件相应的第2搜索处理的执行内容(正在搜索距当前地最近的Y咖啡)的显示62。在接下来的步骤S11中,规定处理执行部15参照地图数据23,执行搜索距导航装置1的当前位置最近的Y咖啡的店铺作为“附近的Y咖啡”的第2搜索处理。
如以上说明的那样,利用者U在希望去平常利用的“Y咖啡b街店”时,能够通过进行“Y咖啡”这样的短的讲话而将“Y咖啡b街店”设定为目的地。此外,在不是平常利用的“Y咖啡”,而希望去附近的“Y咖啡”的情况在下,利用者U如图6所示,进行“取消”的讲话V2、或图5所示的取消按钮54的触摸操作即可。因此,能够避免如下的麻烦的操作:由于在通过“将Y咖啡b街店设定为目的地”这样的长的讲话输入了目的地的搜索条件的情况下容易发生的讲错、或声音的误识别,设定了违反使用者的意图的目的地,为了修正目的地而需要重新讲话。
[3.其他的实施方式]
在上述实施方式中,示出了将声音操作系统2构成为导航装置1的功能的一部分,并搜索店铺作为目的地的例子,但是,目的地不限于店铺,也可以是自己家或工作地。例如可以是,在利用者U讲出“返回”的情况下,提取“返回”作为指示要素,根据利用者U的行动习惯选择“自己家”作为可选要素,根据“返回”和“自己家”,将“返回自己家”决定为第1搜索条件(相当于第1指示候选)。该情况下,在利用者U进行了取消操作时,可以选择“工作地”作为可选要素,根据“返回”和“工作地”,将“返回工作地”决定为第2搜索条件。此外,也可以是,根据利用者U讲出“返回”的时刻,如果讲话时刻在过去的回家时刻(图2中为19:00)的前后规定时间以内,则将“返回自己家”决定为第1搜索条件,如果讲话时刻在过去的返回工作地的时刻(图2的例中为16:00)的前后规定时间以内,则将“返回工作地”决定为第1搜索条件。
此外,在利用者U在特定的日期时间或星期例如进行了“告诉我附近的超市”、“告诉我附近的Y咖啡”这样的与特定的场所有关的提问的指示时,指示候选决定部可以根据利用者U的行动习惯,识别为“平常的超市”、“平常的Y咖啡”而决定为第1搜索条件(相当于第1指示候选)。
在上述实施方式中,将声音操作系统2构成为导航装置1的功能的一部分,但是,也可以将声音操作系统2构成为家电商品等其他种类的装置的一部分,或者也可以构成为专用装置。而且,针对利用者进行的目的地的搜索条件以外的指示的讲话,可以根据从讲话提取出的指示要素和利用者的行动习惯,决定第1指示候选。例如,针对将空调设备作为对象的声音操作系统,可以针对“开定时器”的讲话,根据利用者的行动习惯,按照平日和休息日将开定时器的设定时刻设定为不同的时刻。
此外,也可以将声音操作系统2构成为广播接收机的声音操作部。而且,也可以是,针对利用者说出的仅“打开广播”的讲话的指示,根据利用者的行动习惯,将要接收的广播台(通过广播电台名称或频道名称等,确定FM、AM、卫星等广播频率)决定为利用者在进行了讲话的时间段经常收听的广播电台。此外,该情况下,也可以根据利用者的行动习惯,按照平日和休息日决定不同的广播台。
此外,也可以将声音操作系统2的结构设置于操作支援服务器110。该情况下,操作支援服务器110接收从导航装置1发送的利用者U的讲话数据,提取指示要素,决定基于指示要素和利用者的行动习惯的第1指示候选、以及基于指示要素和规定的选择条件的第2指示候选。然后,操作支援服务器110成为将第1指示候选和第2指示候选的信息发送到导航装置1的实施方式。
在上述实施方式中,具有取消操作受理部14,根据利用者U的取消操作,选择第2可选要素而决定第2指示候选,但是,也可以构成为省略取消操作受理部14。
在上述实施方式中,如图5所示,在第1搜索画面50中显示了第1搜索条件(相当于第1指示候选)的显示51、以及第1搜索处理(相当于第1规定处理)的执行内容的显示52,但是,也可以仅显示第1搜索条件的显示51和第1搜索处理的执行内容的显示52中的任意一方。针对图6所示的第2搜索画面60,也可以仅显示第2搜索条件(相当于第2指示候选)的显示61和第2搜索处理(相当于第2规定处理)的执行内容的显示62中的任意一方。
在上述实施方式中,通过车辆所具有的麦克风31输入利用者U的声音,并在车辆所具有的触摸面板33中显示了第1搜索画面50和第2搜索画面60。作为其他结构,也可以通过利用者终端90所具有的麦克风(未图示)来输入利用者U的声音,并将声音数据从利用者终端90发送到导航装置1。此外,也可以从导航装置1向利用者终端90发送第1搜索画面50和第2搜索画面60的数据,并使利用者终端90的画面显示第1搜索画面50和第2搜索画面60。
另外,图1是为了容易理解本申请的发明而根据主要的处理内容区分并示出声音操作系统2的功能结构的概略图,但也可以通过其他区分来构成声音操作系统2的结构。此外,各结构要素的处理可以通过1个硬件单元执行,也可以通过多个硬件单元执行。此外,各结构要素的处理可以通过1个程序执行,也可以通过多个程序执行。
Claims (8)
1.一种声音操作系统,该声音操作系统具有:
讲话识别部,其识别利用者的讲话;
行动习惯估计部,其估计所述利用者的行动习惯;
指示候选决定部,其在由所述讲话识别部识别出所述利用者的讲话时,提取该讲话中包含的指示要素,在无法根据所述指示要素确定所述利用者的指示内容的情况下,根据所述指示要素和由所述行动习惯估计部估计出的所述利用者的行动习惯,决定作为所述利用者所意图的指示内容的候选的第1指示候选;
规定处理执行部,其执行与所述第1指示候选相应的第1规定处理;以及
显示控制部,其将所述第1指示候选的内容和所述第1规定处理的执行内容中的至少任意一方显示于显示器。
2.根据权利要求1所述的声音操作系统,其中,
所述声音操作系统具有取消操作受理部,该取消操作受理部受理所述利用者的取消操作,
在所述第1指示候选的内容和所述第1规定处理的执行内容中的至少任意一方被显示于所述显示器的情况下由所述取消操作受理部受理了所述取消操作时,所述规定处理执行部取消所述第1规定处理的执行。
3.根据权利要求2所述的声音操作系统,其中,
在所述第1指示候选的内容和所述第1规定处理的执行内容中的至少任意一方被显示于所述显示器的情况下由所述取消操作受理部受理了所述取消操作时,所述指示候选决定部根据所述指示要素和不依赖于所述行动习惯的规定的选择条件,决定作为所述利用者所意图的指示内容的候选的第2指示候选,
所述规定处理执行部执行与所述第2指示候选相应的第2规定处理,
所述显示控制部将所述第2指示候选和所述第2规定处理的执行内容中的至少任意一方显示于所述显示器。
4.根据权利要求1至3中的任意一项所述的声音操作系统,其中,
所述声音操作系统被用于指示导航装置中的目的地的搜索条件,
所述指示候选决定部在提取了在多个店铺中共同的名称作为指示目的地的所述指示要素的情况下,决定将多个所述店铺中的存在所述利用者的利用实绩的所述店铺指示为目的地的第1搜索条件的所述第1指示候选,
所述规定处理执行部按照所述第1搜索条件,执行根据所述利用者的行动习惯搜索存在所述利用者的利用实绩的所述店铺的处理,作为所述第1规定处理。
5.根据权利要求3所述的声音操作系统,其中,
所述声音操作系统被用于指示导航装置中的目的地,
所述指示候选决定部在提取了在多个店铺中共同的名称作为指示目的地的所述指示要素的情况下,决定将多个所述店铺中的存在所述利用者的利用实绩的所述店铺指示为目的地的第1搜索条件的所述第1指示候选,在由所述取消操作受理部受理了所述取消操作时,使用距所述导航装置的当前地最近作为所述选择条件,决定将多个所述店铺中的距所述导航装置的当前位置最近的所述店铺指示为目的地的第2搜索条件的所述第2指示候选,
所述规定处理执行部按照所述第1搜索条件,执行根据所述利用者的行动习惯搜索存在所述利用者的利用实绩的所述店铺的处理,作为所述第1规定处理,按照所述第2搜索条件,执行搜索距所述导航装置的当前位置最近的所述店铺的处理,作为所述第2规定处理。
6.一种声音操作装置,该声音操作装置具有显示器和识别利用者的讲话的讲话识别部,该声音操作装置具有:
行动习惯估计部,其估计所述利用者的行动习惯;
指示候选决定部,其在由所述讲话识别部识别出所述利用者的讲话时,提取该讲话中包含的指示要素,在无法根据所述指示要素确定所述利用者的指示内容的情况下,根据所述指示要素和由所述行动习惯估计部估计出的所述利用者的行动习惯,决定作为所述利用者所意图的指示内容的候选的第1指示候选;
规定处理执行部,其执行与所述第1指示候选相应的第1规定处理;以及
显示控制部,其将所述第1指示候选的内容和所述第1规定处理的执行内容中的至少任意一方显示于所述显示器。
7.一种声音操作控制方法,该声音操作控制方法由单个或多个计算机执行,该声音操作控制方法包括以下步骤:
讲话识别步骤,识别利用者的讲话;
指示要素提取步骤,在识别出所述利用者的讲话时,提取该讲话中包含的指示要素;
行动习惯估计步骤,估计所述利用者的行动习惯;
指示候选决定步骤,在无法根据所述指示要素确定所述利用者的指示内容的情况下,根据所述指示要素和通过所述行动习惯估计步骤估计出的所述利用者的行动习惯,决定作为所述利用者所意图的指示内容的候选的第1指示候选;
规定处理执行步骤,执行与所述第1指示候选相应的第1规定处理;以及
显示控制步骤,将所述第1指示候选的内容和所述第1规定处理的执行内容中的至少任意一方显示于显示器。
8.一种记录介质,该记录介质记录有声音操作控制用程序,该声音操作控制用程序被安装于单个或多个计算机,使所述计算机执行以下处理:
讲话识别处理,识别利用者的讲话;
指示要素提取处理,在识别出所述利用者的讲话时,提取该讲话中包含的指示要素;
行动习惯估计处理,估计所述利用者的行动习惯;
指示候选决定处理,在无法根据所述指示要素确定所述利用者的指示内容的情况下,根据所述指示要素和通过所述行动习惯估计处理估计出的所述利用者的行动习惯,决定作为所述利用者所意图的指示内容的候选的第1指示候选;
规定处理执行处理,执行与所述第1指示候选相应的第1规定处理;以及
显示控制处理,将所述第1指示候选的内容和所述第1规定处理的执行内容中的至少任意一方显示于显示器。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019082512A JP2020181037A (ja) | 2019-04-24 | 2019-04-24 | 音声操作システム、音声操作装置、音声操作制御方法、及び音声操作制御用プログラム |
JP2019-082512 | 2019-04-24 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111857636A true CN111857636A (zh) | 2020-10-30 |
Family
ID=72922055
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010260261.2A Withdrawn CN111857636A (zh) | 2019-04-24 | 2020-04-03 | 声音操作系统及装置、声音操作控制方法和记录介质 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20200341729A1 (zh) |
JP (1) | JP2020181037A (zh) |
CN (1) | CN111857636A (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20220045644A (ko) * | 2020-10-06 | 2022-04-13 | 현대자동차주식회사 | 평판형 스피커 및 이를 포함하는 차량 |
CN115440212A (zh) * | 2022-06-30 | 2022-12-06 | 北京罗克维尔斯科技有限公司 | 语音控制方法、装置、电子设备、车辆和存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005030982A (ja) * | 2003-07-09 | 2005-02-03 | Matsushita Electric Ind Co Ltd | 音声入力方法及び、車載装置 |
JP2008014818A (ja) * | 2006-07-06 | 2008-01-24 | Denso Corp | 作動制御装置、プログラム |
JP2008076811A (ja) * | 2006-09-22 | 2008-04-03 | Honda Motor Co Ltd | 音声認識装置、音声認識方法及び音声認識プログラム |
CN102137085A (zh) * | 2010-01-22 | 2011-07-27 | 谷歌公司 | 语音命令的多维消歧 |
JP2013054074A (ja) * | 2011-08-31 | 2013-03-21 | Aisin Aw Co Ltd | 音声認識装置、音声認識方法、及び音声認識プログラム |
JP2019061297A (ja) * | 2017-09-22 | 2019-04-18 | 大日本印刷株式会社 | 情報処理装置、プログラム及び検索方法 |
-
2019
- 2019-04-24 JP JP2019082512A patent/JP2020181037A/ja active Pending
-
2020
- 2020-04-03 CN CN202010260261.2A patent/CN111857636A/zh not_active Withdrawn
- 2020-04-20 US US16/852,980 patent/US20200341729A1/en not_active Abandoned
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005030982A (ja) * | 2003-07-09 | 2005-02-03 | Matsushita Electric Ind Co Ltd | 音声入力方法及び、車載装置 |
JP2008014818A (ja) * | 2006-07-06 | 2008-01-24 | Denso Corp | 作動制御装置、プログラム |
JP2008076811A (ja) * | 2006-09-22 | 2008-04-03 | Honda Motor Co Ltd | 音声認識装置、音声認識方法及び音声認識プログラム |
CN102137085A (zh) * | 2010-01-22 | 2011-07-27 | 谷歌公司 | 语音命令的多维消歧 |
JP2013054074A (ja) * | 2011-08-31 | 2013-03-21 | Aisin Aw Co Ltd | 音声認識装置、音声認識方法、及び音声認識プログラム |
JP2019061297A (ja) * | 2017-09-22 | 2019-04-18 | 大日本印刷株式会社 | 情報処理装置、プログラム及び検索方法 |
Also Published As
Publication number | Publication date |
---|---|
US20200341729A1 (en) | 2020-10-29 |
JP2020181037A (ja) | 2020-11-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107851437B (zh) | 语音操作系统、服务器装置、车载设备和语音操作方法 | |
US9188456B2 (en) | System and method of fixing mistakes by going back in an electronic device | |
CN104535071B (zh) | 一种语音导航方法及装置 | |
US7434178B2 (en) | Multi-view vehicular navigation apparatus with communication device | |
US9263058B2 (en) | Communication system and method between an on-vehicle voice recognition system and an off-vehicle voice recognition system | |
US20090156241A1 (en) | Automatic Service Vehicle Hailing and Dispatch System and Method | |
US20110213553A1 (en) | Navigation device | |
KR20140007282A (ko) | 음성 인식 장치 및 그 방법 | |
CN103903611A (zh) | 一种语音信息的识别方法和设备 | |
US20150187351A1 (en) | Method and system for providing user with information in vehicle | |
US9451396B2 (en) | Facility search system, facility search program product, and in-vehicle device | |
CN111857636A (zh) | 声音操作系统及装置、声音操作控制方法和记录介质 | |
US20190130908A1 (en) | Speech recognition device and method for vehicle | |
KR20150060300A (ko) | 음성 인식을 이용한 명령 수행 시스템 및 그 동작 방법 | |
JP2023179631A (ja) | 情報処理装置 | |
JP6281202B2 (ja) | 応答制御システム、およびセンター | |
JP2020187163A (ja) | 音声操作システム、音声操作制御方法、及び音声操作制御プログラム | |
CN113012696A (zh) | 一种接单方法及设备、介质、程序产品 | |
JP4941494B2 (ja) | 音声認識システム | |
US11057734B2 (en) | Geospecific information system and method | |
JP4705398B2 (ja) | 音声案内装置、音声案内装置の制御方法及び制御プログラム | |
KR100749088B1 (ko) | 대화형 네비게이션 시스템 및 그 제어방법 | |
WO2019124142A1 (ja) | ナビゲーション装置およびナビゲーション方法、ならびにコンピュータプログラム | |
KR20110025510A (ko) | 전자 기기 및 이를 이용한 음성인식 방법 | |
JP2017181667A (ja) | 音声認識装置および音声認識方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20201030 |
|
WW01 | Invention patent application withdrawn after publication |