CN1890708B - 音频设备控制装置、音频设备控制方法及程序 - Google Patents
音频设备控制装置、音频设备控制方法及程序 Download PDFInfo
- Publication number
- CN1890708B CN1890708B CN2004800360694A CN200480036069A CN1890708B CN 1890708 B CN1890708 B CN 1890708B CN 2004800360694 A CN2004800360694 A CN 2004800360694A CN 200480036069 A CN200480036069 A CN 200480036069A CN 1890708 B CN1890708 B CN 1890708B
- Authority
- CN
- China
- Prior art keywords
- mentioned
- audio frequency
- frequency apparatus
- music
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0631—Creating reference templates; Clustering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
- G10L2015/228—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context
Abstract
语言分析部(2)对语音输入部(1)输入的语音实施语音识别,来确定该语音可能表示的单词和其得分,将表示它们的单词数据供给到代理处理部(6)。代理处理部(6)存储着定义取得单词数据等的数据取得处理、判别处理、输入输出处理的处理项目数据,和定义从一个处理向下一个处理的迁移、向该迁移赋予加权系数的数据——接线,通过执行处理项目数据和接线整体表示的流程,来控制属于输入输出对象设备组(5)的设备。要迁移到流程内的哪个处理,根据由处理进至的地点和接线的连接关系所决定的各接线的加权系数、和单词数据的得分来决定。接线或处理项目数据可以从外部服务器下载。
Description
技术领域
本发明涉及音频设备控制装置、音频设备控制方法、数据输出装置及程序。
背景技术
近年来,采用了用语音识别技术来识别语音、响应识别结果来控制电器等的手法。具体地说,该手法是识别输入的语音所表示的单词,判别识别出的单词是否与规定的关键词一致,根据判别结果来控制外部设备。这种手法例如也被用于音频设备的控制(例如参照专利文献1及专利文献2)。
专利文献1:(日本)特开平4-324312号公报
专利文献2:(日本)特开2000-182688号公报
但是,要完全识别人以语言的形式发出的指示很困难。因此,上述手法有时不能适当地响应人以语言的形式发出的指示。
发明内容
本发明就是鉴于上述实际情况而提出的,目的在于提供一种音频设备控制装置、音频设备控制方法及程序,能够适当地响应人以语言的形式发出的指示来控制设备。
为了实现上述目的,本发明第1观点的种音频设备控制装置的特征在于,包括:
语音识别单元,取得表示语音的语音数据,通过对该语音数据实施语音识别,来确定该语音所表示的语句的候补;
动作状态信息取得单元,取得表示作为控制对象的音频设备的动作状态的动作状态信息;以及
音频设备控制单元,根据上述语音识别单元确定出的候补,根据上述语音的发话者所要的该音频设备的使用形态、和上述动作状态信息取得单元取得的动作状态信息,来确定为了实现该使用形态而应向该音频设备施加的操作,为了施加确定出的操作而控制上述音频设备。
此外,本发明第2观点的音频设备控制装置的特征在于,包括:
语音识别单元,取得表示语音的语音数据,通过对该语音数据实施语音识别,来确定该语音所表示的语句的候补;和
音频设备控制单元,根据上述语音识别单元确定出的候补、表示使用外部音频设备的环境状况的环境数据及/或表示该音频设备的动作状态的动作状态数据,来确定上述语音的发话者所要的该音频设备的使用形态、和为了实现该使用形态而应向该音频设备施加的操作,为了施加确定出的操作而控制上述音频设备。
此外,本发明第3观点的音频设备控制装置的特征在于,包括:
语音识别单元,取得表示语音的语音数据,通过对该语音数据实施语音识别,来确定该语音所表示的语句的候补;
发话者确定单元,根据上述语音数据,来确定上述语音的发话者或发话者的属性;以及
音频设备控制单元,根据上述语音识别单元确定出的候补、上述发话者确定单元确定出的发话者或发话者的属性、以及表示使用外部音频设备的环境状况的环境数据及/或表示该音频设备的动作状态的动作状态数据,来确定上述语音的发话者所要的该音频设备的使用形态、和为了实现该使用形态而应向该音频设备施加的操作,为了施加确定出的操作而控制上述音频设备。
上述环境数据例如由表示使用上述音频设备的环境的当前位置的数据组成。
上述环境数据例如由表示使用上述音频设备的环境的隔音状况的数据构成。
此外,本发明第4观点的音频设备控制方法的特征在于,包括下述步骤:
语音识别步骤,取得表示语音的语音数据,通过对该语音数据实施语音识别,来确定该语音所表示的语句的候补;
动作状态取得步骤,取得作为控制对象的音频设备的动作状态;以及
音频设备控制步骤,根据上述语音识别步骤中确定出的候补,根据上述语音的发话者所要的该音频设备的使用形态、和动作状态取得步骤中取得的动作状态,来确定为了实现该使用形态而应向该音频设备施加的操作,为了施加确定出的操作而控制上述音频设备。
此外,本发明第5观点的音频设备控制方法的特征在于,包括下述步骤:
语音识别步骤,取得表示语音的语音数据,通过对该语音数据实施语音识别,来确定该语音所表示的语句的候补;和
音频设备控制步骤,根据上述语音识别步骤中确定出的候补、和表示使用外部音频设备的环境状况的环境数据及/或表示该音频设备的动作状态的动作状态数据,来确定上述语音的发话者所要的该音频设备的使用形态、和为了实现该使用形态而应向该音频设备施加的操作,为了施加确定出的操作而控制上述音频设备。
此外,本发明第6观点的音频设备控制方法的特征在于,包括下述步骤:
语音识别步骤,取得表示语音的语音数据,通过对该语音数据实施语音识别,来确定该语音所表示的语句的候补;
发话者确定步骤,根据上述语音数据,来确定上述语音的发话者或发话者的属性;以及
音频设备控制步骤,根据上述语音识别步骤中确定出的候补、上述发话者确定步骤中确定出的发话者或发话者的属性、以及表示使用外部音频设备的环境状况的环境数据及/或表示该音频设备的动作状态的动作状态数据,来确定上述语音的发话者所要的该音频设备的使用形态、和为了实现该使用形态而应向该音频设备施加的操作,为了施加确定出的操作而控制上述音频设备。
此外,本发明第7观点的计算机程序的特征在于,使计算机执行:
语音识别步骤,取得表示语音的语音数据,通过对该语音数据实施语音识别,来确定该语音所表示的语句的候补;
动作状态取得步骤,取得作为控制对象的音频设备的动作状态;以及
音频设备控制步骤,根据上述语音识别步骤中确定出的候补,根据上述语音的发话者所要的该音频设备的使用形态、和动作状态取得步骤中取得的动作状态,来确定为了实现该使用形态而应向该音频设备施加的操作,为了施加确定出的操作而控制上述音频设备。
此外,本发明的8观点的计算机程序的特征在于,使计算机执行:
语音识别步骤,取得表示语音的语音数据,通过对该语音数据实施语音识别,来确定该语音所表示的语句的候补;和
音频设备控制步骤,根据上述语音识别步骤中确定出的候补、和表示使用外部音频设备的环境状况的环境数据及/或表示该音频设备的动作状态的动作状态数据,来确定上述语音的发话者所要的该音频设备的使用形态、和为了实现该使用形态而应向该音频设备施加的操作,为了施加确定出的操作而控制上述音频设备。
此外,本发明第9观点的计算机程序的特征在于,使计算机执行:
语音识别步骤,取得表示语音的语音数据,通过对该语音数据实施语音识别,来确定该语音所表示的语句的候补;
发话者确定步骤,根据上述语音数据,来确定上述语音的发话者或发话者的属性;以及
音频设备控制步骤,根据上述语音识别步骤中确定出的候补、上述发话者确定步骤中确定出的发话者或发话者的属性、以及表示使用外部音频设备的环境状况的环境数据及/或表示该音频设备的动作状态的动作状态数据,来确定上述语音的发话者所要的该音频设备的使用形态、和为了实现该使用形态而应向该音频设备施加的操作,为了施加确定出的操作而控制上述音频设备。
本发明的效果如下:
根据本发明,能实现一种音频设备控制装置、音频设备控制方法及程序,能适当地响应人以语言的形式发出的指示来控制设备。
附图说明
图1是本发明实施方式的音频设备控制系统的图。
图2是本实施方式的音频设备控制系统的更详细的结构图。
图3是乐曲数据库的数据结构的示例图。
图4是单词数据库的具体例的示意图。
图5是用于说明触发取得处理的图。
图6是用于说明判别处理的图。
图7是用于说明带询问的判别处理的图。
图8是用于说明输入输出处理的图。
图9是接线(wire:线路)的示例图。
图10是处理项目数据库及接线数据库整体表示的流程的图。
图11是处理项目数据库及接线数据库整体表示的流程的图。
图12是处理项目数据库及接线数据库整体表示的流程的图。
图13是处理项目数据库及接线数据库整体表示的流程的图。
图14是处理项目数据库及接线数据库整体表示的流程的图。
图15是处理项目数据库及接线数据库整体表示的流程的图。
图16是用于说明对各接线设定的加权系数J的图。
图17是用于说明代理处理部的动作的流程图。
图18是外部服务器(分发服务器)的结构和网络结构的图。
图19是用于说明下载处理的流程图。
符号说明
1 语音输入部
2 语言分析部
3 语音合成处理部
4 语音输出部
5 输入输出对象设备组
51 CD播放器
52 MD播放器
53 HDD播放器
54 车辆位置确定部
55 窗户开闭控制部
56 时钟
6 代理处理部
具体实施方式
以下,参照附图,以车辆内设置的音频设备控制系统为例来说明本发明的实施方式。
图1是该音频设备控制系统的结构的方框图。此外,图2是各部的物理结构的示例方框图。
如图1所示,该音频设备控制系统由语音输入部1、语言分析部2、语音合成处理部3、语音输出部4、输入输出对象设备组5、以及代理处理部6构成。
语音输入部1输入语音,由输入的语音来生成数字形式的语音数据,将该语音数据提供给语言分析部2。具体地说,语音输入部1如图2所示,例如由话筒11、AF(Audio Frequency,音频)放大器12、以及内置采样保持电路的A/D(Analog-to-Digital,模拟/数字)变换器13等构成。话筒11将语音变换为语音信号并输出。AF放大器12放大来自话筒11的语音信号并输出。A/D变换器13通过对来自AF放大器12的放大过的语音信号进行采样、A/D变换,来生成数字语音数据,提供给语言分析部2。
语言分析部2、语音合成处理部3以及代理处理部6如图2所示,分别例如由下述部分构成:处理器21、31、61,由CPU(CentralProcessing Unit,中央处理单元)等组成;硬盘装置等非易失性存储器22、32、62,存储该处理器21、31、61执行的程序;以及RAM(Random Access Memory,随机存取存储器)等易失性存储器23、33、63,具有作为处理器的工作区的存储区域。其中,也可以用1个处理器、1个非易失性存储器、1个易失性存储器来构成语言分析部2、语音合成处理部3及代理处理部6的一部分或全部功能。
语言分析部2对从语音输入部1供给的语音数据进行语音识别处理。语言分析部2通过语音识别处理,来确定语音数据所表示的单词的候补、和该候补的似然(得分)。语音识别的手法是任意的。此外,可以确定单词的多个候补。语言分析部2生成表示确定出的候补及该候补的得分的数据(以下称为单词数据),提供给代理处理部6。
语音合成处理部3的非易失性存储器32存储:音片数据库D1,存储表示单词的波形的数据;和素片数据库D2,存储表示用于构成音素的波形的数据。
音片数据库D1存储表示单词的波形的数据。素片数据库D2存储表示用于构成音素的波形的数据。语音合成处理部3用音片数据库D1及/或素片数据库D2中保存着的数据,来生成表示从代理处理部6供给的文章数据的朗读语音的数字语音数据。
语音合成部3将生成的语音数据提供给语音输出部4。
生成数字语音数据的手法是任意的,例如可以使用录音编辑方式或规则合成方式(Rule-based synthesis)。其中,录音编辑方式例如是预先请播音员读以单词(最小的语言单位)为单位的语音、将它们相连并输出的方式。而规则合成方式是将音素(辅音或元音)或假名等比较小的单位相连并输出的方式。
语音输出部4再生从语音合成处理部3供给的数字语音数据所表示的语音。更详细地说,语音输出部4如图2所示,包括D/A(Digital-to-Analog,数字/模拟)变换器41、AF放大器42及扬声器43。
D/A变换器41对从语音合成处理部3供给的数字语音数据进行D/A变换,而变换为模拟语音信号。AF放大器42放大模拟语音信号。扬声器43根据模拟语音信号来振动,再生、播放模拟语音数据所表示的语音。
输入输出对象设备组5例如包含CD(Compact Disc,光盘)播放器51、MD(Mini Disc,微型光盘)播放器52、HDD(硬盘装置)播放器53、车辆位置确定部54、窗户开闭控制部55、时钟装置56等。
CD播放器51根据代理处理部6供给的控制信号来进行自己中插入的CD上记录的语音数据所表示的语音的再生或再生停止、静音、快进再生、倒退再生、暂停、CD弹出等动作。
MD播放器52根据代理处理部6供给的控制信号来进行自己中插入的MD上记录的语音数据所表示的语音的再生或再生停止、静音、快进再生、倒退再生、暂停、MD弹出等动作。
HDD播放器53是非易失性的磁盘,根据代理处理部6供给的控制信号来进行语音数据存储、语音数据所表示的语音的再生或再生停止、静音、快进再生、倒退再生、暂停等动作。
车辆位置确定部54由采用了GPS(Global Positioning System,全球定位系统)移动局的公知的汽车导航系统等构成。车辆位置确定部54例如根据代理处理部6供给的控制信号来检测车辆的当前位置,生成表示检测出的当前位置在地图上相当于哪个位置的数据,提供给代理处理部6。
窗户开闭控制部55由电机、根据控制信号来控制电机的旋转及停止的控制电路、用于根据电机的旋转来移动车辆的窗户玻璃的绞盘等构成。窗户开闭控制部55根据向自己供给的控制信号,来进行车辆窗户的开闭。此外,窗户开闭控制部55的控制电路例如生成并输出表示待开闭的窗户的打开量的数据,作为表示窗户开闭控制部55的动作状态的数据。
时钟装置56例如由晶体振荡器或计数器电路等构成。时钟装置56连续地生成表示当前时刻的数据,提供给代理处理部6。其中,时钟装置56也可以采用经车辆导航系统从GPS得到的时刻信息。
代理处理部6包括由调制解调器和数据包通信终端等组成的通信控制装置64,经该通信控制装置并经外部网络(例如经无线电话线路的因特网)连接在后述分发服务器100上。
此外,代理处理部6的非易失性存储器62还存储乐曲数据库D6。乐曲数据库D6是相互对应地保存乐曲的曲名、表演该乐曲的艺术家的艺术家名、记录着该乐曲的CD、MD及/或MDD 53、以及该CD、MD及/或HDD 53上记录着该乐曲的音轨的号码的数据库。
具体地说,乐曲数据库D6如图3(a)所示,相互对应地保存乐曲的曲名、表演该乐曲的艺术家的艺术家名、记录着该乐曲的CD、MD及/或MDD 53的ID(标识信息)、该CD、MD及/或HDD上记录着该乐曲的音轨的号码、以及该乐曲的乐速、与该乐曲有关的各种属性信息(例如该乐曲的氛围适合的季节、时间带、地理位置等信息)。
此外,乐曲数据库D6如图3(b)所示,相对应地存储确定用户的用户信息和表示乐曲再生历史的再生历史信息。用户信息不必是能够确定用户个人的信息,而是能够区别用户的信息。用户信息例如由表示各用户的语音波形的基音(基本音调)的形状的基音信息构成,由语音输入部1来取得,从语言分析部2附随单词数据来提供。再生历史信息包含确定乐曲的信息、表示再生过该乐曲的信息、表示重复过该乐曲的再生的信息、表示途中停止过该乐曲的再生的信息、在该乐曲的途中表述了“聒噪”等否定性感想的历史信息等。通过分析这些信息,能够判别用户的嗜好(喜欢的乐曲、讨厌的乐曲)。
代理处理部6的非易失性存储器62存储单词数据库D3。单词数据库D3相互对应地保存多个单词的数据、和用于表示多个单词的分组的单词分组用的标志。
与1个单词相对应的标志与某个概念相对应而被分组。在标志呈现规定值(以下为“1”)的情况下,与该标志相对应的单词属于与该标志相对应的组。而在该标志呈现其他值(例如“0”)的情况下,表示该单词不属于与该标志相对应的组。
图4是分组用标志的具体例的示意图。如图4所示,各有规定数目的单词分组用的标志(位)与多个单词(在图3中为“再生”、“想听”、“停止”、“无聊”、“昨天”、“越天乐”、“津轻浪花调”、“久米利佳”)相对应。此外,对于与任一个单词相对应的标志组,其最高位的标志都与“再生”这一概念相对应,从高位起第2位的标志与“感想”这一概念相对应,从高位起第3位的标志与“否定”这一概念相对应,从高位起第4位的标志与“乐曲名”这一概念相对应,从高位起第5位的标志与“艺术家”这一概念相对应。
另一方面,如图所示,与单词“再生”相对应的高5位的标志组的值是二进制数“10000”,与单词“想听”相对应的高5位的标志组的值是二进制数“11000”,与单词“停止”相对应的标志组的值是二进制数“00100”,与单词“无聊”相对应的标志组的值是二进制数“01100”,与单词“昨天”相对应的标志组的值是二进制数“00000”,与单词“越天乐”和“津轻浪花调”相对应的标志组的值是二进制数“00010”,与单词“久米利佳”相对应的标志组的值是二进制数“00001”。
在此情况下,该标志组表示单词“再生”和“想听”被分组在概念“再生”下,单词“想听”及“无聊”被分组在概念“感想”下,单词“停止”及“无聊”被分组在概念“否定”下,单词“越天乐”及“津轻浪花调”被分组在概念“乐曲名”下,单词“久米利佳”被分组在概念“艺术家”下。
此外,也可以有单词“昨天”那样不属于任一个概念的单词。
其中,各单词及各概念例如被用作处理项目数据库D4中保存着的各处理项目的“触发”、“判别条件”等。
代理处理部6的非易失性存储器62还存储着处理项目数据库D4及接线数据库D5。
处理项目数据库D4是保存着对每个处理项目(指针)描述代理处理部6进行的各种处理例如触发取得处理(TGxx)、判别处理(CNxx或QBxx)及输入输出处理(后述的EXxx)的内容的数据(处理项目数据)的数据库。其中,“xx”是标识号。
处理项目数据库D4中保存的处理项目中的、描述“触发取得处理(TGxx)”的内容的数据包含确定启动这些处理的触发的触发数据(指定作为触发而取得的数据的内容的数据)、和后述的行进方向决定用的迁移常数k(用于表示沿该行进方向迁移的程度、作为后述的加权系数J的计算基准的常数)。
触发数据是任意的,例如是表示窗户打开量的数据、表示室内温度的数据、或从语言分析部2供给的上述单词数据。触发数据也可以是从代理处理部6自身进行的处理那里接受的数据。在触发数据是单词数据的情况下,也可以是表示被分配给该单词数据所表示的单词所属的分组的“概念”的数据。其中,假设触发取得处理的内容例如被描述得使得多个触发取得处理不会取得表示同一单词的单词数据。
图5(a)示出触发取得处理TGxx的例子。在本例中,触发TG01是取得作为触发的概念“再生”(识别分组为概念“再生”的单词(在图3的例子中,为单词“再生”或“想听”))的处理,用于决定是否进至(迁移至)该处理的后续处理的迁移常数k是0.8。图5(b)示出触发取得处理TG01的流程图。
触发取得处理TG02是取得单词“MD”的处理。触发取得处理TG03是取得属于与概念“否定”对应的组的单词(在图3中,取得“停止”、“无聊”中的某一个)的处理。
处理项目数据库D4中保存着的描述“判别处理(CNxx)”的内容的数据,包含对各判别处理分别描述了判别条件、作为判别结果而取得的结果的列表、取得了该判别结果的情况下用于决定处理行进方向的迁移常数k、以及后述的返回方向的迁移常数k的数据。
图6(a)示出判别处理CNxx的例子。在本例中,判别处理CN01是“判别窗户是否已打开的处理”,在判别为已打开时用于决定是否进至其后续处理的迁移常数是0.5,判别为未打开时用于决定是否进至其后续处理的迁移常数k是0.5。本例的流程图示于图6(b)。图6(b)所示的节点CN01.1是表示处理开始点的始点节点,节点CN01.2是判别为窗户已关闭时的行进方向的节点,其迁移常数k是0.5。再者,节点CN01.3是判别为窗户已打开时的行进方向的节点,其迁移常数k是0.5。此外,判别处理CN02是判别MD播放器52、CD播放器51、以及HDD 53中的哪一个处于动作中的处理,判别为处于动作中时用于决定是否进至后续处理的迁移常数k分别是0.5。
“判别处理”也可以包含从任意的取得源取得判别所用的数据的处理。作为取得源,例如有语言分析部2、代理处理部6执行的其他处理、属于输入输出对象设备组5的设备、或其他外部设备·传感器等。在此情况下,描述判别处理的内容的数据例如还包含指定判别所用的数据的取得源的数据。
此外,在“判别处理”中,也可以在判别之前将规定的数据输出到规定的输出目的地(在此情况下,将表示处理的记号设为QBxx)。作为这种判别处理,例如有在判别之前将规定的表示提问的数据交给语音合成处理部3、然后等待来自语言分析部2的输入的处理。在判别处理QBxx中在判别之前输出规定的数据的情况下,描述处理的内容的数据例如包含要输出的数据的内容、和指定该数据的输出目的地的数据。
图7(a)示出判别处理QBxx的例子。在本例中,例如判别处理QB01询问用户“再生MD?再生CD?再生HDD?”,其应答(用户的回答)是“MD”时的迁移常数k是0.5,是“CD”时的迁移常数k是0.5,是“HDD”时的迁移常数k是0.5。本例的流程图示于图7(b)。图7(b)所示的节点QB01.1是表示处理开始点的始点节点,节点QB01.2是判别出对询问指定了再生“CD”时的行进方向的节点,其迁移常数k是0.7。此外,节点QB01.3是判别出指定了再生“MD”时的行进方向的节点,其迁移常数k是0.5。再者,节点QB01.4是判别出指定了再生“HDD”时的行进方向的节点,其迁移常数k是0.5。
处理项目数据库D4中保存着的描述“输入输出处理”的内容的数据由指定要输入或输出的数据的内容的数据构成。输入数据及输出数据可以具有任意的内容。例如,输出数据也可以是表示经语音合成处理部3使语音输出部4产生的语音的读音的数据或控制外部设备的控制信号。此外,输入数据例如也可以是从外部设备供给的数据。
图8(a)示出输入输出处理EXxx的例子。在本例中,例如输入输出处理EX01是“关闭窗户”这一动作,进行动作后的处理的行进方向的迁移常数k是0.8。本例的流程图示于图8(b)。图8(b)所示的节点EX01.1是表示处理开始点的始点节点,节点EX01.2是表示处理结束的节点,迁移常数k是0.8。其中,对于输入输出处理EXxx,也可以不进行迁移常数k的设定等,而将选择表示处理结束的节点作为必须的处理。
接线数据库D5由描述多个处理(TG、CNxx、QBxx、EXxx)间的迁移的数据(以下将该数据称为接线)的集合构成。接线例如由以图9所示的格式描述的数据构成。如图所示,对于从先行处理X(From(X))向后续处理Y(To(Y))的迁移(From(X)To(Y)),接线Wn(W1、W2…)是指定该先行处理(X)、该后续处理(Y)、以及向该迁移赋予的加权系数J的数据。其中,在先行处理X是判别处理的情况下,还需要描述是从该判别处理的哪个判别结果的迁移。
此外,迁移源处理X和迁移目的地Y分别由各处理的节点号来确定。
各接线的加权系数J不是固定值,而是按照处理的行进来适当地计算、设定的。接线的加权系数J的计算在后面参照图15来描述。
代理处理部6执行处理项目数据库D4及接线数据库D5整体表示的流程。例如根据图4~图9的例子,处理项目数据库D4及接线数据库D5能够整体描述图10~图13所示的流程。
在图10所示的流程中,代理处理部6在触发处理TG01中,等待从语言分析部2供给表示属于概念“再生”这个组的单词的单词数据,如果供给了,则取得它并交给判别处理CN01(接线W1)。
代理处理部6在判别处理步骤CN01中,从窗户开闭控制部55取得表示窗户是否已打开的信息,如果判别为已打开则将处理移至输入输出处理EX01(接线W2)。在输入输出处理EX01中向窗户开闭控制部55输出指示关闭窗户的控制信号。其结果是,窗户开闭控制部55关闭窗户。然后,进至判别处理QB01。其中,也可以在进行输入输出处理EX01前,执行询问是否关闭窗户的判别处理QBxx,按照其应答来执行输入输出处理EX01。
即,在本例中,代理处理部6在识别出指示了乐曲的再生的情况下,在移至指示乐曲的再生的处理前,判别车辆的窗户是否已打开。然后,在判别为已打开的情况下,在指示乐曲的再生前,识别车内的隔音状况是否很差,来指示窗户开闭控制部55关闭窗户,或者经语音合成处理部3使语音输出部4产生提醒关闭窗户的消息的朗读语音。其中,在乐曲的再生中表示“提高音量”这一意思的单词数据呈现高得分的情况下,也可以在音量提高处理之前检测窗户的开闭状态,如果窗户已打开则用语音合成处理部3形成“窗户已打开。关闭窗户?”这一语音数据,用语音输出部4来输出。
如果在判别处理CN01中判别为“窗户已关闭”,或者要结束输入输出处理EX01,则将处理移至包含提问的判别处理QB01(接线W3、接线W7)。在判别处理QB01中代理处理部6首先将表示“再生MD?再生CD?再生HDD?”这一文章的数据提供给语音合成处理部3。语音合成处理部3经语音输出部4来再生该文章的朗读语音。
接着,代理处理部6等待从语言分析部2供给表示单词“MD”、单词“CD”或单词“HDD”的数据。如果供给了该单词数据,则代理处理部6判别该数据表示单词“MD”、“CD”以及“HDD”中的哪一个。然后,如果判别为表示单词“MD”则将处理移至输入输出处理EX03(接线W5);如果判别为表示单词“CD”,则将处理移至输入输出处理EX02(接线W6);如果表示单词“HDD”,则将处理移至输入输出处理EX04(接线W9)。
代理处理部6在输入输出处理EX02中向CD驱动器51输出指示开始再生CD的控制信号。代理处理部6在输入输出处理EX03中向MD驱动器52输出指示开始再生MD的控制信号。代理处理部6在输入输出处理EX04中向HDD驱动器53输出指示开始再生HDD的控制信号。
另一方面,代理处理部6等待从语言分析部2供给表示“听MD”或“再生MD”这一单词的数据(触发处理TG02),如果供给了,则将控制移至输入输出处理EX03(接线W4)。
同样,代理处理部6等待从语言分析部2供给表示“听CD”或“再生CD”这一单词的数据(触发处理TG03),如果供给了,则将控制移至输入输出处理EX02(接线W8)。
此外,代理处理部6等待从语言分析部2供给表示“听HDD”或“再生HDD”这一单词的数据(触发处理TG04),如果供给了,则将控制移至输入输出处理EX04(接线W8)。
接着,在图11所示的流程中,代理处理部6在触发处理TG54中,等待从语言分析部2供给表示单词“停止”的单词数据,如果供给了则取得它并交给判别处理CN02(接线W11)。
代理处理部6在判别处理CN02中,判别MD播放器52、CD播放器51和HDD播放器53中的哪一个正在动作。代理处理部6如果判别为“MD播放器52正在动作”,则将处理移至输入输出处理EX05(接线W13)。在输入输出处理EX05中,向MD播放器52输出指示停止的控制信号。其结果是,MD播放器52停止动作。
代理处理部6在判别处理CN02中如果判别为“CD播放器51正在动作”,则将处理移至输入输出处理EX06(接线W12)。代理处理部6在输入输出处理EX05中,向CD播放器51输出指示停止的控制信号。其结果是,CD播放器51停止动作。
代理处理部6在判别处理CN02中如果判别为“HDD播放器53正在动作”,则将处理移至输入输出处理EX07(接线W14)。代理处理部6在输入输出处理EX07中,向HDD播放器53输出指示停止的控制信号。其结果是,HDD播放器53停止动作。
此外,代理处理部6在触发处理TG06中等待从语言分析部2供给表示单词“聒噪”的单词数据,如果供给了则取得它并交给判别处理CN03(接线W15)。
代理处理部6在判别处理CN03中判别MD播放器52、CD播放器51以及HDD播放器53中的哪一个处于再生动作中。如果判别为“MD播放器52处于再生中”,则将处理移至输入输出处理EX08(接线W16)。在输入输出处理EX08中,向MD播放器52输出指示将音量降低规定量的控制信号。其结果是,MD播放器52降低再生音量。
代理处理部6在判别处理CN03中如果判别为“CD播放器51处于再生中”,则将处理移至输入输出处理EX09(接线W17)。在输入输出处理EX09中,向CD播放器51输出降低再生音量的控制信号。其结果是,CD播放器51降低再生音量。
代理处理部6在判别处理CN03中如果判别为“HDD播放器53处于再生中”,则将处理移至输入输出处理EX10(接线W18)。在输入输出处理EX10中,向HDD播放器53输出降低再生音量的控制信号。其结果是,HDD播放器53降低再生音量。
此外,如果从语言分析部2供给了表示概念“曲名”或概念“艺术家名”的单词数据,则代理处理部6在图12所示的触发取得处理TG07和TG08中检测这些单词,经由接线W19或W20,而将控制移至输入输出处理EX11。
代理处理部6在输入输出处理EX11中搜索乐曲数据库D6。即,代理处理部6用从语言分析部2提供的单词(乐曲名或艺术家名)来搜索图3(a)所示的数据结构的乐曲名和艺术家名,如果有该单词,则提取该乐曲的MD/CD/HDD标识信息和音轨号。
如果搜索处理结束,则代理控制部6将控制经由接线W21而移至判别处理CN04,判别是否能检测出该乐曲。
如果能检测出该乐曲,则代理控制部6将控制经由接线W22而移至输入输出处理EX12,再生该乐曲。
而如果未能检测出该乐曲,则将控制经由接线W23移至输入输出处理EX13,输出表示未能检测出适当的乐曲的消息。
此外,也可以在用户发出“无聊”时,检测它并再生用户可能期望的音乐源。
参照图13来说明本例。
首先,在目标处理TG09中等待单词“无聊”。如果检测出它,则经由接线W24,在判别处理CN05中检查各播放器51~53的状态,并判别各播放器51~53是否正在进行再生动作。在任一个播放器51~53都未进行动作的情况下,经进行W25移至带询问的判别处理QB11,经语音合成部3来输出“打开音频?”这一消息数据。
这里,在有“ハイ(Hai,是)”、“Yes(是的)”等一般性的回答的情况下,经接线W26移至带询问的判定处理QB12,经语音合成部3来输出“打开哪个播放器?”等确定播放器的消息。
这里,如果发出了“MD”、“CD”、“HDD”等,则检测它,分别经接线W27、W28、W29移至输入输出处理EX14、EX15、EX16,再生指示的MD、CD、HDD。
而在判别处理CN05中判别为某一个播放器51、52或53正在进行动作的情况下,经接线W30移至带询问的判别处理QB 13,经语音合成部3来输出“变更为其他播放器?”这一消息数据。
这里,在只有“ハイ(Hai,是)”、“Yes(是的)”等一般性的回答的情况下,经接线W31移至输入输出处理EX17,停止当前正在进行再生动作的播放器,起动其他播放器(例如随机选择)。
此外,在带询问的输入输出处理QB11、QB13中,如果发出了“MD”、“MD播放器”、“CD”、“CD播放器”、“HDD”、“HDD播放器”等确定具体播放器的单词,则检测它,分别经W32,W35;W33,W36;W34,W37而移至输入输出处理EX14、EX15、EX16,再生指示的MD、CD、HDD。
其中,在任意的处理中搜索到多个作为再生对象的乐曲的情况下,可以再生该所有多个乐曲,也可以根据从控制对象设备组5取得的任意的数据,按照任意的基准,选择要再生的乐曲。
参照图14(a)~图15(b)来说明从多个乐曲中选择任意的曲子的手法。
在图14(a)的例子中,代理处理部6在判别处理CN04等中搜索到多个乐曲的情况下,在输入输出处理EX14中从车辆位置确定部54取入与车辆的行驶状态有关的数据并判别车辆的速度。接着,代理处理部6在输入输出处理EX15中选择具有与车辆的行驶速度对应的乐速的乐曲,并在输入输出处理E EXxx中再生选择出的乐曲。由此,例如在车辆在高速公路上行驶时,可以进行选择并再生乐速快的乐曲等动作。
在图14(b)的例子中,代理处理部6在搜索到多个乐曲的情况下,在输入输出处理EX16中从车辆位置确定部54取入与车辆的行驶状态有关的数据和地图信息,判别当前位置的地理特征(海滨、山区、乡间、车辆驶向东西南北中的哪一个等)。代理处理部6在输入输出处理EX17中搜索具有符合地理特征的标题或属性信息的乐曲,在输入输出处理EXxx中再生它。由此,例如正在沿海的道路上行驶的情况下,再生具有与该环境相关联的属性的乐曲。这可以根据演奏者的形象来相关联,也可以选择在乐曲的标题中包含“波浪”、“海”等词的乐曲。
在图15(a)的例子中,代理处理部6在搜索到多个乐曲的情况下,在输入输出处理EX18中从时钟装置56取入与当前的年月日时有关的数据,并判别当前的时间特征(春夏秋冬、初夏、晚秋、..早上、中午、傍晚、夜里等)。代理控制部6在输入输出处理EX19中搜索具有符合当前的时间特征的标题或属性信息的乐曲,并在输入输出处理EXxx中再生它。
在图15(b)的例子中,代理处理部6在搜索到多个乐曲的情况下,在输入输出处理EX20中从语言分析部2取入话者的音调信息,参照乐曲数据库D6内的用户信息,来确定用户。
接着,代理处理部6在输入输出处理EX21中根据确定出的话者的历史信息,来确定符合话者的嗜好的乐曲,并在输入输出处理EXxx中再生它。
选择符合话者的嗜好的乐曲的手法是任意的。例如,判别过去重复再生过的乐曲的流派、艺术家、乐曲的年代等,选择与其相应的乐曲即可。
此外,如果从时钟装置56供给了符合规定的条件的日期时间数据,则代理处理部6也可以响应它,并经网络连接到外部服务器等上,下载乐曲数据,并添加到乐曲数据库D6中。
此外,代理处理部6也可以下载表示应告知用户的信息(该艺术家的商品的销售时间表)的数据,并经语音合成处理部3,使语音输出部4以语音的形式提供该信息。
此外,也可以在乐曲数据库D6中没有与用户要求的艺术家或曲名对应的乐曲的情况下,连接到外部服务器等上,将该艺术家或乐曲等下载到乐曲数据库并添加到乐曲D6中。
其中,也可以在开始下载前输出“当前没有希望的乐曲,所以要购买并下载吗?”这一询问的消息。
此外,如果从语言分析部2供给了表示艺术家名的单词数据,则代理处理部6也可以响应它,经网络连接到外部购物网站的服务器等上,变为能够进行该艺术家的商品的订购手续的状态,例如经语音合成处理部3使语音输出部4以语音的形式发出提醒订购该商品的消息。
例如在语言分析部2供给了多个单词数据等情况下,代理处理部6并行进行多个判别处理。在此情况下,在将同一单词作为输入对象的处理(例如触发取得处理、判别处理中的数据的输入)有多个、从语言分析部2供给了表示该单词的单词数据的情况下,代理处理部6并行进行所有这些处理。
接着,说明计算各接线的加权系数J的方法。
在多个处理通过接线W连结着的情况下,关注的接线W的加权系数J如下来求:将当前正在进行的处理作为起点,依次乘以迁移到关注的接线W的路径上的行进方向决定用的迁移常数k。
为了容易理解,设想图16(a)示出流程的处理。
图16(a)的处理整体上是下述处理:如果输入了单词“音乐”,则音频设备判别是否处于再生动作中,如果不处于再生中,则询问发话者是否要再生,按照响应来执行下一个处理。
在图16(a)所示的处理中,对于处理TG101、CN101、QB101中的任一个,各行进方向决定用的迁移常数k在正方向上都是0.5,在反(返回)方向上都是0.1。在此情况下,接线例如如图16(b)所示来定义。
例如,在处理(或控制)位于触发处理TG101时(在处理指针PP指向目标处理TG101时),代理处理部6通过将触发处理TG101作为起点,沿迁移路径依次乘以行进方向的迁移常数k,来计算接线W51~W55(在存在未图示的接线的情况下是包含它们在内的所有接线)分别的加权系数J,将计算结果与接线W51~W55相对应而写入到接线数据库D5中。
具体地说,在处理到达了触发处理TG101时,例如接线W51的加权系数J为分配给触发处理TG101的与判别处理CN101相连的节点的迁移常数k的值即0.5。
判别处理CN101的接线W52的加权系数J为触发处理TG101的接线W51的迁移常数k=0.5乘以分配给与判别处理CN101的接线W52相连的节点的迁移常数k=0.5所得的结果即0.25。同样,判别处理CN101的接线W54的加权系数J为分配给与触发处理TG101的接线W51相连的节点的迁移常数k=0.5乘以分配给与判别处理CN101的接线W54相连的节点的迁移常数k=0.5所得的结果即0.25。
接线W53的加权系数J为分配给与触发处理TG101的接线W51相连的节点的迁移常数k=0.5乘以分配给与判别处理CN101的接线W52相连的节点的迁移常数k=0.5所得的结果再乘以分配给与判别处理QB101的接线W53相连的节点的迁移常数k=0.5所得的结果、即0.125。同样,接线W53的加权系数J为分配给与触发处理TG101的接线W51相连的节点的迁移常数k=0.5乘以分配给与判别处理CN101的接线W52相连的节点的迁移常数k=0.5所得的结果再乘以分配给与判别处理QB101的接线W55相连的节点的迁移常数k=0.5所得的结果、即0.125。
这样,计算出将正在进行的处理作为基点时的各个接线的加权系数J。由此,如果当前状态迁移了,则将当前处理作为基点来每次计算出各接线W的加权系数J。
具体地说,如果当前状态迁移到判别处理CN101,则接线W52的加权系数J为和分配给与接线W52相连的节点的迁移常数k相等的值0.5,接线W54的加权系数J为和分配给与接线W52相连的节点的迁移常数k相等的值0.5。此外,接线W53的加权系数J为分配给与接线W52相连的节点的迁移常数k=0.5和分配给与判别处理QB101的接线W55相连的节点的迁移常数k=0.5之积即0.25,接线W55的加权系数J为分配给与接线W52相连的节点的迁移常数k=0.5和分配给与判别处理QB101的接线W55相连的节点的迁移常数k=0.5之积即0.25。再者,反方向(返回到触发处理TG101的方向)的接线W51的加权系数J为和分配给与接线W51相连的节点的返回方向的节点的迁移常数k=0.1相等的值0.1。
此外,如果当前状态迁移到判别处理QB101,则接线W53和W55的加权系数J为和分配给与接线W53和W55分别相连的节点的迁移常数k相等的值0.5。
再者,接线W52的加权系数J直接采用分配给与其相连的返回方向的节点的返回方向的迁移常数k=0.1。再者,接线W51的加权系数J为分配给与判别处理QB101的接线W52相连的节点的返回方向的迁移常数k=0.1和分配给与判别处理CN101的接线W51相连的返回方向的节点的返回方向的迁移常数k=0.1之积0.01。接线W54的加权系数J为分配给与判别处理QB101的接线W52相连的节点的返回方向的迁移常数k=0.1和分配给与判别处理CN101的接线W54相连的节点的迁移常数k=0.5之积0.05。
各接线Wn的加权系数J的变化的例子示于图15(c)。
加权系数J的计算不仅对关联的流程的处理,而且对所有流程的所有接线执行,计算出的加权系数J被设定给各接线。这里对于与当前处理没有关联的接线,分配预定的低的系数值即可。但是,特别是对于将触发取得处理作为先行处理的接线,将迁移常数k设定得比较高。通过这样做,也能够跳跃到内容与此前刚进行的会话显著不同的会话。
接着,参照图17来说明这样构成的整个系统的动作。
语音输入部1和语言分析部2独自动作,取入、分析语音,将单词数据提供给代理处理部6。
然后,如果从语言分析部2供给了与判别条件有关的(1个或多个)单词数据,则代理处理部6进行以下处理。
识别(鉴别)供给的单词(图17步骤S11),判别它是否相当于单词数据库D4中登录着的单词(步骤S12)。如果未登录(步骤S12,“否”),则结束单词输入处理。
而如果登录了(步骤S12,“是”),则对以该单词或该单词所属的组的“概念”为条件的处理,计算单词的似然S和接线的加权系数J之积S·J(步骤S13)。
例如,假设在执行图16(a)所示的流程的情况下,处理指针PP指示着触发处理TG101。此情况下的各接线的加权系数J如图16(c-1)所示。
假定在此状态下输入了表示得分为80%的单词“音乐”、和得分为50%的单词“再生”的单词数据。
在图16(a)和(b)所示的例子中,在触发处理TG101中,单词“音乐”与判别条件关联;而在判别处理QB101中,单词“再生”与判别条件关联。
如图16(c-1)所示,将输入表示单词“音乐”的单词数据的处理作为先行处理的接线W51的加权系数J是0.5,将输入表示单词“再生”的单词数据的处理作为先行处理的接线W53的加权系数J是0.25。在此情况下,对接线W51及W53求出的似然(得分)S和加权系数J之积如公式1及2所示。
(式1)接线W51的积S·J:“音乐”的得分S80%×接线W51的加权系数J(=0.5)=40
(式2)接线W53的积S·J:“再生”的得分S50%×接线W53的加权系数J(=0.25)=12.5
代理处理部6对流程具有的所有接线进行求各单词的似然(得分)S和加权系数J之积的上述处理。
接着,代理控制部6选择计算出的积S·J最大的接线(图17,步骤S14)。代理控制部6将控制进至选择出的接线的后续处理(步骤S15)。例如在对接线W51求出的积呈现最高值的情况下,识别出输入的单词数据表示单词“音乐”,接线W51迁移到后续处理--判别处理CN101。通常,如果将当前正在进行的处理作为起点则接线的加权系数J比较大。因此,一般移至下一个处理,但是在输入了与从前完全不同的、似然S高的单词的情况下,有时也开始与该单词对应的处理。
如果处理迁移,则代理处理部6根据迁移后的状态,来重新计算各接线的加权系数J(步骤S16)。
以后,根据该处理的内容来推进处理(步骤S17)。在本例中,执行判别处理CN101。即,代理处理部6从窗户开闭控制部55取入窗户开闭信息,根据取入的信息来求接线W52和W54的似然S和加权系数J之积,求接线W24的似然S和加权系数J之积S·J,选择某一个接线W,来执行选择出的接线W的后续处理。
其中,来自窗户开闭控制部55的表示窗户开闭的信号可以是开的似然S为100%或0%、闭的似然S为0%或100%,也可以使其按照开度来变化。如果在处理的过程中,有输入输出处理EXxx,代理处理部6执行该处理并输出语音数据,则其作为语音被播放,如果执行控制输入输出设备组5的处理,则根据其处理内容来控制输入输出设备组5。
对于来自触发取得处理TGxx的迁移,设定比较高的迁移常数k较好。具体地说,对于来自取得概念“再生”、单词“停止”、“聒噪”的触发取得处理TGxx的迁移,例如赋予迁移常数k=0.9。这样,在检测出该概念或单词的输入时,来自该触发取得处理TGxx的接线的积J·S容易大,比其他接线的积大,结果是也能够应对与会话的流程不同的请求。
在本实施方式中,也会发生向返回方向的迁移。但是,在现实中往往不希望使会话返回。因此,将返回方向的迁移常数k设定为比行进方向的迁移常数k低的值即可。这样,即使根据输入的语音得到了高得分的语音数据,由于对将返回方向的迁移常数k作为加权系数写入的接线求出的积为低值,所以能够将迁移到返回方向的可能性抑制得很低。
此外,代理处理部6也可以进行处理,将求出的积的值不符合规定的条件的处理(例如积的值未达到规定值的处理)从执行迁移的对象中排除。
其中,例如如图9所示,接线以从处理项目到处理项目这一形式来定义迁移。通过以图8所示的形态来描述接线并保存到接线数据库D5中,能够将各处理项目之间的关系定义得好像是计算机的宏处理。由此,能够容易地连接各处理项目。
此外,作为触发的处理项目实际上为连接的接线的待识别单词等(也可能是来自其他输入对象设备组的输入)的得分的判定,所以在接线中不将触发处理项目定义为接线的开始点,而将接线本身定义为迁移源。
再者,通过如上所述用接线来定义各处理项目的连接关系,能够简单地添加接线。例如,在“热”这一语音输入之后用户想休息而输入“搜索家庭餐馆”这一语音的机会多的情况下,对家庭餐馆的搜索处理项目自动添加接线。这样,在自动添加了接线后,通过使与家庭餐馆搜索处理项目连接的接线的迁移常数k比较大,能够适当地应对该输入“搜索家庭餐馆”。(其中在此情况下,假设代理处理部6例如存储包含表示家庭餐馆的位置的信息的地图数据等,或者访问外部的地图数据等。)
该接线的自动添加如下进行即可:对从某个处理项目跳跃到某个处理项目的次数进行计数,在其达到规定次数时自动进行。
如前所述,代理处理部6具有将处理项目数据库D4或接线数据库D5的内容更新为从外部供给的新处理项目数据或接线的功能。具体地说,例如如果存储处理项目数据及/或接线的外部服务器更新了其内容,则经网络向代理处理部6通知处理项目数据及/或接线有更新。于是,代理处理部6响应该通知,经网络接入该服务器,并下载新处理项目数据及/或接线。然后,将自己的处理项目数据库D4或接线数据库D5中保存着的旧处理项目数据及/或接线更新为下载的新处理项目数据及/或接线。
此外,也可以使代理处理部6接入外部服务器,如果数据库已被更新,则下载它。
外部服务器的结构例示于图18。
该外部服务器100用于将单词数据、处理项目数据及/或接线数据经通信网分发到多个车辆的代理处理部6,包括:控制部110、通信控制部120、单词数据库130、处理项目数据库140、接线数据库150、输入部160、输出部170。
控制部110例如由CPU(Central Processing Unit:中央处理单元)等构成,控制分发服务器100的各部,并且通过执行规定的程序来实现后述各处理。
通信控制部120例如由调制解调器、路由器等通信装置构成,控制分发服务器100和车辆的代理处理部6(通信控制部)之间经网络进行的通信。
网络的结构是任意的。例如,可以采用专线、公用线路网、有线电视(CATV)网、无线通信网、有线广播网等。
单词数据库130例如由硬盘装置等可改写的存储装置构成,存储分发服务器100分发的单词数据以及版本信息(例如时间戳)。
处理项目数据库140例如由硬盘装置等可改写的存储装置构成,存储待分发的处理项目数据以及版本信息(例如时间戳)。
接线数据库150例如由硬盘装置等可改写的存储装置构成,存储待分发的接线数据以及版本信息(例如时间戳)。
分发服务器100的管理者适当地操作输入部160,来更新各数据库130~150的信息。
各车辆的代理处理部6如果经通信控制部(CCU)64接收到来自分发服务器100的更新通知,则例如开始图19(a)的处理,建立会话(步骤S21),下载更新过的数据,更新自己的数据库(步骤S22)。戡者,各车辆的代理处理部6定期或适当地经通信控制部(CCU)64接入该分发服务器100并建立会话(步骤S31),取得各数据库的版本信息(更新日期等)(步骤S32)。然后,比较两个数据的版本(步骤S33),下载比自己存储着的数据更加新的数据,设置到自己的数据库中(步骤S34)。
如果采用这种结构,则只需更新分发服务器100中记录着的信息,就能够适当地更新可利用分发服务器100的所有车辆控制系统的数据。
其中,在分发服务器100中,最好压缩及加密地保存着数据,代理处理部6进行下载并对数据进行解压及解密并设置到数据库中。通过这样做,能够抑制通信量,防止信息泄漏。
代理处理部6从分发服务器100下载数据的定时不限于上述例子,而是任意的,例如也可以在未存储与用户的请求对应的处理项目及/或接线的情况下,检测它并经网络来接入分发服务器100,下载新处理项目数据及/或接线。再者,也可以在新添加了连接在代理处理部6上输入输出对象设备5的情况下,或在添加了新功能的情况下,自动检测它,与上述同样,经网络来接入分发服务器100,下载新处理项目数据及/或接线。
其中,本发明的代理处理部6具有自动生成新接线的功能,但是也可以一起下载描述对下载了的新处理项目及已有的处理项目设定何种关系的接线的程序。
如果适当地描述了表示处理内容的数据或接线,则以上说明过的该音频系统可以不必完全确定作为控制的对象的设备或要施加的控制的内容,而是响应用户发出的语言,根据该语言来推测用户的欲求,适当地判断为了满足该欲求应对哪个设备施加何种控制才好,并根据判断结果对设备施加控制。
此外,处理项目数据或接线随时被更新为新的,所以始终有余地改变代理处理部6的响应方法,用户不易厌倦与该音频系统的对话。
其中,该汽车音频系统的结构不限于上述结构。
例如,属于输入输出对象设备组5的设备不必是直接带来满足用户欲求的结果的设备,例如,也可以由控制外部显示装置等并输出提醒用户采取特定行动的消息的设备(例如液晶显示器等显示装置)组成。
此外,单词数据库不必只存储表示单词的数据,也可以存储表示由多个单词组成的语句的数据作为单词数据库的元素,或者也可以存储表示单词的一部分或音素的数据作为单词数据库的元素。此外,单词等不必被分组到特定的概念下,就是在进行分组的情况下,为了进行分组而采用的数据也可以不必采取标志的集合的形式。
此外,代理处理部6也可以使接线中描述的迁移常数k根据过去执行该接线所表示的迁移的次数等、按照规定的基准来变化,改写分配给接线(作为接线始点的节点)的迁移常数k,使得迁移常数k成为变化后的值。
具体地说,例如在接线数据库中,对各个接线,存储该接线所表示的迁移被执行的次数。每当新进行该迁移时,代理处理部6就通过改写该次数的值,而将该次数的值递增1,将各个接线中描述的迁移常数k例如改写为与对该接线存储的次数成正比的值。
此外,代理处理部6也可以使判别处理或输入输出处理中输出的数据根据交给这些处理的数据、伴随这些处理而输入的数据、或其他任意的条件来变化。
此外,该汽车音频系统也可以包括用于根据代理处理部6的控制来输出图像的显示装置(例如液晶显示器等),代理处理部6也可以在输入输出处理或判别处理中控制该显示装置,使其对每个处理显示规定的图像。
此外,代理处理部6也可以在1个输入处理或1个判别处理中一并取得连续发话等的多个单词数据。此外,代理处理部6也可以确定一并取得的多个单词数据在哪个概念下被分组在同一组内,只在确定出的概念与规定的概念一致的情况下,将取得的单词数据的一部分或全部用于处理。
此外,代理处理部6也可以由相互连接的多个数据处理装置(例如计算机等)构成,分担进行触发取得处理、判别处理、输入输出处理等各种处理和接线整体形成的流程。在此情况下,构成代理处理部6的各个数据处理装置只要存储表示分析处理部3会执行的整个流程中的、自己有可能执行的部分的数据作为处理项目数据库或接线数据库的元素就够了。如果各个数据处理装置存储的数据为宏定义该数据处理装置执行那部分处理的数据,则使多个数据处理装置进行分布式处理也很容易。
此外,该汽车音频系统也可以包括多个语音输入部1、语言分析部2或语音输出部4。
此外,语音输入部1例如也可以包括从记录着表示语音的数据的记录媒体(例如フ口ツピ一(注册商标)(软)盘、CD、MO(Magnet-Optical Disk,磁光盘)等)读出波形信号并提供给语言分析部2的记录媒体驱动器(例如フロツピ一(注册商标)(软)盘驱动器、CD-ROM驱动器、MO驱动器等)。
语言分析部2也可以用任意的手法来确定从语音输入部1供给的语音数据所表示的语音的话者(话者话者的性别等),将表示确定出的话者的话者数据提供给代理处理部3。另一方面,代理处理部3也可以例如每当指示再生乐曲时,都向乐曲数据库中添加表示作为再生对象的乐曲已为话者数据所表示的话者再生过了的历史数据(或者,将表示该乐曲已为该话者再生过的次数的数据作为历史数据,将该历史数据递增1)。然后,在选择要再生的乐曲的情况下,也可以根据这种历史数据来选择乐曲。
以上说明了本发明的实施方式,但是本发明的音频设备控制装置可以不由专用的系统、而用通常的计算机系统来实现。
例如,通过从保存着用于使个人计算机执行上述语音输入部1、语言分析部2、语音合成处理部3、语音输出部4及代理处理部6的动作的程序的记录媒体,向与输入输出对象设备组5及通信控制装置连接的个人计算机中安装该程序,能够构成执行上述处理的汽车音频系统。假设执行该程序的个人计算机例如执行图16所示的流程,作为与图1的汽车音频系统的动作相当的处理。
其中,使个人计算机完成上述汽车音频系统的功能的程序例如可以上载到通信线路的公告板(BBS)上,经通信线路来分发它;也可以用表示该程序的信号来调制载波,传输得到的已调波,接收到该已调波的装置对已调波进行解调来还原该程序。然后,通过起动该程序,在OS的控制下,与其他应用程序同样来执行,能够执行上述处理。
其中,在OS分担处理的一部分的情况下,或者在OS构成本发明的1个构件的一部分的情况下,也可以在记录媒体上保存除去了该部分以后的程序。在此情况下,在本发明中,也假设在该记录媒体上保存着用于执行计算机要执行的各功能或步骤的程序。
Claims (12)
1.一种音频设备控制装置,对再生音乐的音频设备进行控制,其特征在于,包括:
音乐识别信息存储单元,预先存储用于识别该音乐的识别信息;
常数存储单元,预先将语句和规定的常数对应地存储;
语音识别单元,取得表示语音的语音数据,通过对该语音数据实施语音识别,来确定该语音所表示的语句的候补,对上述确定出的语句的候补分别计算似然;
动作状态信息取得单元,取得表示上述音频设备的动作状态的动作状态信息;以及
音频设备控制单元,根据由上述语音识别单元确定出的语句的候补所对应的规定的常数计算出的加权系数与上述语音识别单元计算出的似然之积、上述语音的发话者所要的该音频设备的使用形态、以及由上述动作状态信息取得单元取得的动作状态,来确定为了实现该使用形态而应向该音频设备施加的操作,为了施加该确定出的操作而控制上述音频设备。
2.如权利要求1所述的音频设备控制装置,其特征在于,
上述音频设备控制单元根据由上述语音识别单元确定出的语句的候补所对应的规定的常数计算出的加权系数与上述语音识别单元计算出的似然之积为最大的语句的候补、上述语音的发话者所要的该音频设备的使用形态、以及由上述动作状态信息取得单元取得的动作状态信息,来确定为了实现该使用形态而应向该音频设备施加的操作。
3.如权利要求1所述的音频设备控制装置,其特征在于,
上述音频设备具有用于再生音乐的多个再生单元;
上述音频设备控制单元根据表示上述音频设备是否正在使用上述多个再生单元之中的任一个再生单元进行再生的该动作状态,来确定该音频设备再生的音乐。
4.如权利要求1所述的音频设备控制装置,其特征在于,
上述音乐识别信息存储单元将用于识别该音乐的识别信息、与音乐名或艺术家名之中的至少任一个对应地存储;
上述音频设备控制单元确定包括上述语音识别单元确定出的语句的音乐名或艺术家名,控制上述音频设备以便再生与该确定出的音乐名或艺术家名相对应的音乐。
5.一种音频设备控制装置,对再生音乐的音频设备进行控制,其特征在于,包括:
音乐识别信息存储单元,预先存储用于识别该音乐的识别信息;
常数存储单元,预先将语句和规定的常数对应地存储;
语音识别单元,取得表示语音的语音数据,通过对该语音数据实施语音识别,来确定该语音所表示的语句的候补,对上述确定出的语句的候补分别计算似然;
动作状态信息取得单元,取得表示上述音频设备的动作状态的动作状态信息;以及
音频设备控制单元,根据由上述语音识别单元确定出的语句的候补所对应的规定的常数计算出的加权系数与上述语音识别单元计算出的似然之积、表示使用外部的音频设备的环境的状况的环境数据、及上述动作状态信息取得单元取得的表示该音频设备的动作状态的动作状态信息,或者,根据由上述语音识别单元确定出的语句的候补所对应的规定的常数计算出的加权系数与上述语音识别单元计算出的似然之积、及表示使用外部的音频设备的环境的状况的环境数据,或者,根据由上述语音识别单元确定出的语句的候补所对应的规定的常数计算出的加权系数与上述语音识别单元计算出的似然之积、及上述动作状态信息取得单元取得的表示该音频设备的动作状态的动作状态信息,来确定为了实现该使用形态而应向该音频设备施加的操作,为了施加该确定出的操作而控制上述音频设备。
6.如权利要求5所述的音频设备控制装置,其特征在于,
上述环境数据包括表示上述音频设备的当前位置的数据或表示使用上述音频设备的环境的隔音状况的数据。
7.如权利要求5所述的音频设备控制装置,其特征在于,
还具备:地图存储单元,预先存储地图信息;及位置取得单元,取得上述音频设备的当前位置;
上述音频设备控制单元根据上述存储的地图信息和上述取得的当前位置,判断该当前位置的地理的特征,将符合上述判断的地理的特征的识别信息所表示的音乐,确定为上述音频设备再生的音乐。
8.如权利要求5所述的音频设备控制装置,其特征在于,
还具备取得当前时刻的时刻取得单元;
上述音乐识别信息存储单元将用于识别该音乐的识别信息与时间的特征对应地存储;
上述音频设备控制单元取得表示包含了该当前时刻的时间的特征的该环境数据,将上述取得的时间的特征所对应的识别信息表示的音乐,确定为上述音频设备再生的音乐。
9.一种音频设备控制装置,对再生音乐的音频设备进行控制,其特征在于,包括:
音乐识别信息存储单元,预先存储用于识别该音乐的识别信息;
常数存储单元,预先将语句和规定的常数对应地存储;
语音识别单元,取得表示语音的语音数据,通过对该语音数据实施语音识别,来确定该语音所表示的语句的候补,对上述确定出的语句的候补分别计算似然;
动作状态信息取得单元,取得表示上述音频设备的动作状态的动作状态信息;
发话者确定单元,根据上述语音识别单元取得的语音数据,来确定上述语音的发话者或发话者的属性;以及
音频设备控制单元,根据由上述语音识别单元确定出的语句的候补所对应的规定的常数计算出的加权系数与上述语音识别单元计算出的似然之积、上述发话者确定单元确定出的发话者或发话者的属性、表示使用外部的音频设备的环境的状况的环境数据、及上述动作状态信息取得单元取得的表示该音频设备的动作状态的动作状态信息,或者,根据由上述语音识别单元确定出的语句的候补所对应的规定的常数计算出的加权系数与上述语音识别单元计算出的似然之积、上述发话者确定单元确定出的发话者或发话者的属性、及表示使用外部的音频设备的环境的状况的环境数据,或者,根据由上述语音识别单元确定出的语句的候补所对应的规定的常数计算出的加权系数与上述语音识别单元计算出的似然之积、上述发话者确定单元确定出的发话者或发话者的属性、及上述动作状态信息取得单元取得的表示该音频设备的动作状态的动作状态信息,来确定为了实现该使用形态而应向该音频设备施加的操作,为了施加该确定出的操作而控制上述音频设备。
10.如权利要求9所述的音频设备控制装置,其特征在于,
上述音乐识别信息存储单元将表示由上述音频设备再生的音乐的履历的履历信息、与确定用户的用户信息对应地存储;
上述音频设备控制单元根据与由上述发话者确定单元确定出的发话者或发话者的属性相对应的履历信息,确定上述音频设备再生的音乐。
11.如权利要求10所述的音频设备控制装置,其特征在于,
该履历信息包括再生的音乐的流派、再生的音乐的艺术家、再生的音乐的年代之中的至少任一个。
12.一种音频设备控制方法,对再生音乐的音频设备进行控制,其特征在于,包括下述步骤:
语音识别步骤,取得表示语音的语音数据,通过对该语音数据实施语音识别,来确定该语音所表示的语句的候补,对上述确定出的语句的候补分别计算似然;
动作状态取得步骤,取得上述音频设备的动作状态;以及
音频设备控制步骤,根据通过上述语音识别步骤确定出的语句的候补所对应的规定的常数计算出的加权系数与上述语音识别单元计算出的似然之积、上述语音的发话者所要的该音频设备的使用形态、以及由上述动作状态取得步骤所取得的动作状态,来确定为了实现该使用形态而应向该音频设备施加的操作,为了施加该确定出的操作而控制上述音频设备。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003406669 | 2003-12-05 | ||
JP406669/2003 | 2003-12-05 | ||
PCT/IB2004/004007 WO2005062293A1 (ja) | 2003-12-05 | 2004-12-06 | オーディオ機器制御装置、オーディオ機器制御方法及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1890708A CN1890708A (zh) | 2007-01-03 |
CN1890708B true CN1890708B (zh) | 2011-12-07 |
Family
ID=34708667
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2004800360694A Expired - Fee Related CN1890708B (zh) | 2003-12-05 | 2004-12-06 | 音频设备控制装置、音频设备控制方法及程序 |
Country Status (6)
Country | Link |
---|---|
US (1) | US7529676B2 (zh) |
EP (1) | EP1691343B1 (zh) |
JP (1) | JP4533845B2 (zh) |
CN (1) | CN1890708B (zh) |
DE (1) | DE602004016681D1 (zh) |
WO (1) | WO2005062293A1 (zh) |
Families Citing this family (228)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AU6630800A (en) | 1999-08-13 | 2001-03-13 | Pixo, Inc. | Methods and apparatuses for display and traversing of links in page character array |
US8645137B2 (en) | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
ITFI20010199A1 (it) | 2001-10-22 | 2003-04-22 | Riccardo Vieri | Sistema e metodo per trasformare in voce comunicazioni testuali ed inviarle con una connessione internet a qualsiasi apparato telefonico |
WO2007008248A2 (en) * | 2005-07-11 | 2007-01-18 | Voicedemand, Inc. | Voice control of a media player |
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US7633076B2 (en) | 2005-09-30 | 2009-12-15 | Apple Inc. | Automated response to and sensing of user activity in portable devices |
JP4131978B2 (ja) * | 2006-02-24 | 2008-08-13 | 本田技研工業株式会社 | 音声認識機器制御装置 |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
EP1930906A1 (en) * | 2006-12-08 | 2008-06-11 | Sony Corporation | Information processing apparatus, display control processing method and display control processing program |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
CN101312040B (zh) * | 2007-05-24 | 2011-08-17 | 佳世达科技股份有限公司 | 声音命令处理装置与方法 |
US9053089B2 (en) | 2007-10-02 | 2015-06-09 | Apple Inc. | Part-of-speech tagging using latent analogy |
US8620662B2 (en) * | 2007-11-20 | 2013-12-31 | Apple Inc. | Context-aware unit selection |
US10002189B2 (en) | 2007-12-20 | 2018-06-19 | Apple Inc. | Method and apparatus for searching using an active ontology |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US8065143B2 (en) | 2008-02-22 | 2011-11-22 | Apple Inc. | Providing text input using speech data and non-speech data |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US10496753B2 (en) | 2010-01-18 | 2019-12-03 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US8464150B2 (en) | 2008-06-07 | 2013-06-11 | Apple Inc. | Automatic language identification for dynamic text processing |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
WO2010026639A1 (ja) * | 2008-09-04 | 2010-03-11 | パイオニア株式会社 | 楽曲再生装置、楽曲再生方法、及び楽曲再生プログラム |
US8768702B2 (en) | 2008-09-05 | 2014-07-01 | Apple Inc. | Multi-tiered voice feedback in an electronic device |
US8898568B2 (en) | 2008-09-09 | 2014-11-25 | Apple Inc. | Audio user interface |
WO2010029639A1 (ja) * | 2008-09-12 | 2010-03-18 | パイオニア株式会社 | 楽曲再生装置、楽曲再生方法、及び楽曲再生プログラム |
WO2010029640A1 (ja) * | 2008-09-12 | 2010-03-18 | パイオニア株式会社 | 楽曲再生装置、楽曲再生方法、及び楽曲再生プログラム |
US8712776B2 (en) | 2008-09-29 | 2014-04-29 | Apple Inc. | Systems and methods for selective text to speech synthesis |
US8583418B2 (en) | 2008-09-29 | 2013-11-12 | Apple Inc. | Systems and methods of detecting language and natural language strings for text to speech synthesis |
US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
WO2010067118A1 (en) | 2008-12-11 | 2010-06-17 | Novauris Technologies Limited | Speech recognition involving a mobile device |
KR101057191B1 (ko) * | 2008-12-30 | 2011-08-16 | 주식회사 하이닉스반도체 | 반도체 소자의 미세 패턴 형성방법 |
US8862252B2 (en) * | 2009-01-30 | 2014-10-14 | Apple Inc. | Audio user interface for displayless electronic device |
US8380507B2 (en) | 2009-03-09 | 2013-02-19 | Apple Inc. | Systems and methods for determining the language to use for speech generated by a text to speech engine |
US20120309363A1 (en) | 2011-06-03 | 2012-12-06 | Apple Inc. | Triggering notifications associated with tasks items that represent tasks to perform |
US10540976B2 (en) | 2009-06-05 | 2020-01-21 | Apple Inc. | Contextual voice commands |
US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
US8682649B2 (en) | 2009-11-12 | 2014-03-25 | Apple Inc. | Sentiment prediction from textual data |
US20110110534A1 (en) * | 2009-11-12 | 2011-05-12 | Apple Inc. | Adjustable voice output based on device status |
US8600743B2 (en) | 2010-01-06 | 2013-12-03 | Apple Inc. | Noise profile determination for voice-related feature |
US8311838B2 (en) | 2010-01-13 | 2012-11-13 | Apple Inc. | Devices and methods for identifying a prompt corresponding to a voice input in a sequence of prompts |
US8381107B2 (en) | 2010-01-13 | 2013-02-19 | Apple Inc. | Adaptive audio feedback system and method |
US10553209B2 (en) | 2010-01-18 | 2020-02-04 | Apple Inc. | Systems and methods for hands-free notification summaries |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US10679605B2 (en) | 2010-01-18 | 2020-06-09 | Apple Inc. | Hands-free list-reading by intelligent automated assistant |
US10705794B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
WO2011089450A2 (en) | 2010-01-25 | 2011-07-28 | Andrew Peter Nelson Jerram | Apparatuses, methods and systems for a digital conversation management platform |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US8639516B2 (en) | 2010-06-04 | 2014-01-28 | Apple Inc. | User-specific noise suppression for voice quality improvements |
US8713021B2 (en) | 2010-07-07 | 2014-04-29 | Apple Inc. | Unsupervised document clustering using latent semantic density analysis |
US8719006B2 (en) | 2010-08-27 | 2014-05-06 | Apple Inc. | Combined statistical and rule-based part-of-speech tagging for text-to-speech synthesis |
US8719014B2 (en) | 2010-09-27 | 2014-05-06 | Apple Inc. | Electronic device with text error correction based on voice recognition data |
US10762293B2 (en) | 2010-12-22 | 2020-09-01 | Apple Inc. | Using parts-of-speech tagging and named entity recognition for spelling correction |
US10515147B2 (en) | 2010-12-22 | 2019-12-24 | Apple Inc. | Using statistical language models for contextual lookup |
US8781836B2 (en) | 2011-02-22 | 2014-07-15 | Apple Inc. | Hearing assistance system for providing consistent human speech |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US10672399B2 (en) | 2011-06-03 | 2020-06-02 | Apple Inc. | Switching between text data and audio data based on a mapping |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US8812294B2 (en) | 2011-06-21 | 2014-08-19 | Apple Inc. | Translating phrases from one language into another using an order-based set of declarative rules |
US8706472B2 (en) | 2011-08-11 | 2014-04-22 | Apple Inc. | Method for disambiguating multiple readings in language conversion |
US8994660B2 (en) | 2011-08-29 | 2015-03-31 | Apple Inc. | Text correction processing |
US8762156B2 (en) | 2011-09-28 | 2014-06-24 | Apple Inc. | Speech recognition repair using contextual information |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US9483461B2 (en) | 2012-03-06 | 2016-11-01 | Apple Inc. | Handling speech synthesis of content for multiple languages |
US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US10417037B2 (en) | 2012-05-15 | 2019-09-17 | Apple Inc. | Systems and methods for integrating third party services with a digital assistant |
US8775442B2 (en) | 2012-05-15 | 2014-07-08 | Apple Inc. | Semantic search using a single-source semantic model |
US10019994B2 (en) | 2012-06-08 | 2018-07-10 | Apple Inc. | Systems and methods for recognizing textual identifiers within a plurality of words |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
US9495129B2 (en) | 2012-06-29 | 2016-11-15 | Apple Inc. | Device, method, and user interface for voice-activated navigation and browsing of a document |
US9576574B2 (en) | 2012-09-10 | 2017-02-21 | Apple Inc. | Context-sensitive handling of interruptions by intelligent digital assistant |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
US8935167B2 (en) | 2012-09-25 | 2015-01-13 | Apple Inc. | Exemplar-based latent perceptual modeling for automatic speech recognition |
CN103971688B (zh) * | 2013-02-01 | 2016-05-04 | 腾讯科技(深圳)有限公司 | 一种语音数据采集服务系统及方法 |
EP4138075A1 (en) | 2013-02-07 | 2023-02-22 | Apple Inc. | Voice trigger for a digital assistant |
US10642574B2 (en) | 2013-03-14 | 2020-05-05 | Apple Inc. | Device, method, and graphical user interface for outputting captions |
US10572476B2 (en) | 2013-03-14 | 2020-02-25 | Apple Inc. | Refining a search based on schedule items |
US9733821B2 (en) | 2013-03-14 | 2017-08-15 | Apple Inc. | Voice control to diagnose inadvertent activation of accessibility features |
US10652394B2 (en) | 2013-03-14 | 2020-05-12 | Apple Inc. | System and method for processing voicemail |
US9368114B2 (en) | 2013-03-14 | 2016-06-14 | Apple Inc. | Context-sensitive handling of interruptions |
US9977779B2 (en) | 2013-03-14 | 2018-05-22 | Apple Inc. | Automatic supplementation of word correction dictionaries |
KR101759009B1 (ko) | 2013-03-15 | 2017-07-17 | 애플 인크. | 적어도 부분적인 보이스 커맨드 시스템을 트레이닝시키는 것 |
WO2014144579A1 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | System and method for updating an adaptive speech recognition model |
KR101857648B1 (ko) | 2013-03-15 | 2018-05-15 | 애플 인크. | 지능형 디지털 어시스턴트에 의한 사용자 트레이닝 |
US10748529B1 (en) | 2013-03-15 | 2020-08-18 | Apple Inc. | Voice activated device for use with a voice-based digital assistant |
US10078487B2 (en) | 2013-03-15 | 2018-09-18 | Apple Inc. | Context-sensitive handling of interruptions |
US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
WO2014197336A1 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
WO2014200728A1 (en) | 2013-06-09 | 2014-12-18 | Apple Inc. | Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
CN105265005B (zh) | 2013-06-13 | 2019-09-17 | 苹果公司 | 用于由语音命令发起的紧急呼叫的系统和方法 |
JP6163266B2 (ja) | 2013-08-06 | 2017-07-12 | アップル インコーポレイテッド | リモート機器からの作動に基づくスマート応答の自動作動 |
JP2015089697A (ja) * | 2013-11-05 | 2015-05-11 | トヨタ自動車株式会社 | 車両用音声認識装置 |
US9469247B2 (en) * | 2013-11-21 | 2016-10-18 | Harman International Industries, Incorporated | Using external sounds to alert vehicle occupants of external events and mask in-car conversations |
JP5929879B2 (ja) * | 2013-12-06 | 2016-06-08 | カシオ計算機株式会社 | 音声出力装置、プログラム、及び音声出力方法 |
US10296160B2 (en) | 2013-12-06 | 2019-05-21 | Apple Inc. | Method for extracting salient dialog usage from live data |
US9620105B2 (en) | 2014-05-15 | 2017-04-11 | Apple Inc. | Analyzing audio input for efficient speech and music recognition |
US10592095B2 (en) | 2014-05-23 | 2020-03-17 | Apple Inc. | Instantaneous speaking of content on touch devices |
US9502031B2 (en) | 2014-05-27 | 2016-11-22 | Apple Inc. | Method for supporting dynamic grammars in WFST-based ASR |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US9785630B2 (en) | 2014-05-30 | 2017-10-10 | Apple Inc. | Text prediction using combined word N-gram and unigram language models |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US9734193B2 (en) | 2014-05-30 | 2017-08-15 | Apple Inc. | Determining domain salience ranking from ambiguous words in natural speech |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US9842101B2 (en) | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
US10289433B2 (en) | 2014-05-30 | 2019-05-14 | Apple Inc. | Domain specific language for encoding assistant dialog |
WO2015184186A1 (en) | 2014-05-30 | 2015-12-03 | Apple Inc. | Multi-command single utterance input method |
US9760559B2 (en) | 2014-05-30 | 2017-09-12 | Apple Inc. | Predictive text input |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
US10078631B2 (en) | 2014-05-30 | 2018-09-18 | Apple Inc. | Entropy-guided text prediction using combined word and character n-gram language models |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US10659851B2 (en) | 2014-06-30 | 2020-05-19 | Apple Inc. | Real-time digital assistant knowledge updates |
JP6011584B2 (ja) * | 2014-07-08 | 2016-10-19 | トヨタ自動車株式会社 | 音声認識装置及び音声認識システム |
US10446141B2 (en) | 2014-08-28 | 2019-10-15 | Apple Inc. | Automatic speech recognition based on user feedback |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US9646609B2 (en) | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US9886432B2 (en) | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
US10552013B2 (en) | 2014-12-02 | 2020-02-04 | Apple Inc. | Data detection |
US9711141B2 (en) | 2014-12-09 | 2017-07-18 | Apple Inc. | Disambiguating heteronyms in speech synthesis |
US9865280B2 (en) | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
US10152299B2 (en) | 2015-03-06 | 2018-12-11 | Apple Inc. | Reducing response latency of intelligent automated assistants |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
US9842105B2 (en) | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
US10460227B2 (en) | 2015-05-15 | 2019-10-29 | Apple Inc. | Virtual assistant in a communication session |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US10127220B2 (en) | 2015-06-04 | 2018-11-13 | Apple Inc. | Language identification from short strings |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US10101822B2 (en) | 2015-06-05 | 2018-10-16 | Apple Inc. | Language input correction |
US10255907B2 (en) | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US10186254B2 (en) | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
US20160378747A1 (en) | 2015-06-29 | 2016-12-29 | Apple Inc. | Virtual assistant for media playback |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
KR102453603B1 (ko) * | 2015-11-10 | 2022-10-12 | 삼성전자주식회사 | 전자 장치 및 그 제어 방법 |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US9798512B1 (en) * | 2016-02-12 | 2017-10-24 | Google Inc. | Context-based volume adjustment |
WO2017141502A1 (ja) * | 2016-02-18 | 2017-08-24 | ソニー株式会社 | 情報処理装置、情報処理方法およびプログラム |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US11227589B2 (en) | 2016-06-06 | 2022-01-18 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
DK179309B1 (en) | 2016-06-09 | 2018-04-23 | Apple Inc | Intelligent automated assistant in a home environment |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
US10474753B2 (en) | 2016-09-07 | 2019-11-12 | Apple Inc. | Language identification using recurrent neural networks |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
JP6760394B2 (ja) | 2016-12-02 | 2020-09-23 | ヤマハ株式会社 | コンテンツ再生機器、収音機器、及びコンテンツ再生システム |
US11281993B2 (en) | 2016-12-05 | 2022-03-22 | Apple Inc. | Model and ensemble compression for metric learning |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
US11204787B2 (en) | 2017-01-09 | 2021-12-21 | Apple Inc. | Application integration with a digital assistant |
DK201770383A1 (en) | 2017-05-09 | 2018-12-14 | Apple Inc. | USER INTERFACE FOR CORRECTING RECOGNITION ERRORS |
US10417266B2 (en) | 2017-05-09 | 2019-09-17 | Apple Inc. | Context-aware ranking of intelligent response suggestions |
DK201770439A1 (en) | 2017-05-11 | 2018-12-13 | Apple Inc. | Offline personal assistant |
US10395654B2 (en) | 2017-05-11 | 2019-08-27 | Apple Inc. | Text normalization based on a data-driven learning network |
US10726832B2 (en) | 2017-05-11 | 2020-07-28 | Apple Inc. | Maintaining privacy of personal information |
US11301477B2 (en) | 2017-05-12 | 2022-04-12 | Apple Inc. | Feedback analysis of a digital assistant |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK201770428A1 (en) | 2017-05-12 | 2019-02-18 | Apple Inc. | LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK201770432A1 (en) | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
US10311144B2 (en) | 2017-05-16 | 2019-06-04 | Apple Inc. | Emoji word sense disambiguation |
DK179549B1 (en) | 2017-05-16 | 2019-02-12 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
US10303715B2 (en) | 2017-05-16 | 2019-05-28 | Apple Inc. | Intelligent automated assistant for media exploration |
US10403278B2 (en) | 2017-05-16 | 2019-09-03 | Apple Inc. | Methods and systems for phonetic matching in digital assistant services |
US10657328B2 (en) | 2017-06-02 | 2020-05-19 | Apple Inc. | Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling |
US10445429B2 (en) | 2017-09-21 | 2019-10-15 | Apple Inc. | Natural language understanding using vocabularies with compressed serialized tries |
US10755051B2 (en) | 2017-09-29 | 2020-08-25 | Apple Inc. | Rule-based natural language processing |
US10636424B2 (en) | 2017-11-30 | 2020-04-28 | Apple Inc. | Multi-turn canned dialog |
US10733982B2 (en) | 2018-01-08 | 2020-08-04 | Apple Inc. | Multi-directional dialog |
US10733375B2 (en) | 2018-01-31 | 2020-08-04 | Apple Inc. | Knowledge-based framework for improving natural language understanding |
US10789959B2 (en) | 2018-03-02 | 2020-09-29 | Apple Inc. | Training speaker recognition models for digital assistants |
US10592604B2 (en) | 2018-03-12 | 2020-03-17 | Apple Inc. | Inverse text normalization for automatic speech recognition |
KR20190111624A (ko) | 2018-03-23 | 2019-10-02 | 삼성전자주식회사 | 전자 장치 및 전자 장치의 음성 인식 제어 방법 |
US10818288B2 (en) | 2018-03-26 | 2020-10-27 | Apple Inc. | Natural assistant interaction |
US10909331B2 (en) | 2018-03-30 | 2021-02-02 | Apple Inc. | Implicit identification of translation payload with neural machine translation |
US11145294B2 (en) | 2018-05-07 | 2021-10-12 | Apple Inc. | Intelligent automated assistant for delivering content from user experiences |
US10928918B2 (en) | 2018-05-07 | 2021-02-23 | Apple Inc. | Raise to speak |
US10984780B2 (en) | 2018-05-21 | 2021-04-20 | Apple Inc. | Global semantic word embeddings using bi-directional recurrent neural networks |
DK180639B1 (en) | 2018-06-01 | 2021-11-04 | Apple Inc | DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT |
US10892996B2 (en) | 2018-06-01 | 2021-01-12 | Apple Inc. | Variable latency device coordination |
DK179822B1 (da) | 2018-06-01 | 2019-07-12 | Apple Inc. | Voice interaction at a primary device to access call functionality of a companion device |
US11386266B2 (en) | 2018-06-01 | 2022-07-12 | Apple Inc. | Text correction |
DK201870355A1 (en) | 2018-06-01 | 2019-12-16 | Apple Inc. | VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS |
US10944859B2 (en) | 2018-06-03 | 2021-03-09 | Apple Inc. | Accelerated task performance |
US11010561B2 (en) | 2018-09-27 | 2021-05-18 | Apple Inc. | Sentiment prediction from textual data |
US11170166B2 (en) | 2018-09-28 | 2021-11-09 | Apple Inc. | Neural typographical error modeling via generative adversarial networks |
US10839159B2 (en) | 2018-09-28 | 2020-11-17 | Apple Inc. | Named entity normalization in a spoken dialog system |
US11462215B2 (en) | 2018-09-28 | 2022-10-04 | Apple Inc. | Multi-modal inputs for voice commands |
US11475898B2 (en) | 2018-10-26 | 2022-10-18 | Apple Inc. | Low-latency multi-speaker speech recognition |
US11638059B2 (en) | 2019-01-04 | 2023-04-25 | Apple Inc. | Content playback on multiple devices |
US11348573B2 (en) | 2019-03-18 | 2022-05-31 | Apple Inc. | Multimodality in digital assistant systems |
US11307752B2 (en) | 2019-05-06 | 2022-04-19 | Apple Inc. | User configurable task triggers |
US11475884B2 (en) | 2019-05-06 | 2022-10-18 | Apple Inc. | Reducing digital assistant latency when a language is incorrectly determined |
US11423908B2 (en) | 2019-05-06 | 2022-08-23 | Apple Inc. | Interpreting spoken requests |
DK201970509A1 (en) | 2019-05-06 | 2021-01-15 | Apple Inc | Spoken notifications |
US11140099B2 (en) | 2019-05-21 | 2021-10-05 | Apple Inc. | Providing message response suggestions |
US11289073B2 (en) | 2019-05-31 | 2022-03-29 | Apple Inc. | Device text to speech |
DK180129B1 (en) | 2019-05-31 | 2020-06-02 | Apple Inc. | USER ACTIVITY SHORTCUT SUGGESTIONS |
US11496600B2 (en) | 2019-05-31 | 2022-11-08 | Apple Inc. | Remote execution of machine-learned models |
US11360641B2 (en) | 2019-06-01 | 2022-06-14 | Apple Inc. | Increasing the relevance of new available information |
US11488406B2 (en) | 2019-09-25 | 2022-11-01 | Apple Inc. | Text detection using global geometry estimators |
JP7287258B2 (ja) * | 2019-12-10 | 2023-06-06 | トヨタ自動車株式会社 | エージェント管理装置、プログラムおよびエージェント管理方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1140295A (zh) * | 1995-03-31 | 1997-01-15 | 松下电器产业株式会社 | 语音识别装置、响应装置、响应选择装置以及采用这些装置的响应玩具 |
US5774859A (en) * | 1995-01-03 | 1998-06-30 | Scientific-Atlanta, Inc. | Information system having a speech interface |
EP0911808A1 (en) * | 1997-10-23 | 1999-04-28 | Sony International (Europe) GmbH | Speech interface in a home network environment |
CN1229971A (zh) * | 1997-12-30 | 1999-09-29 | Lg情报通信株式会社 | 语音识别方法 |
US5983189A (en) * | 1996-08-27 | 1999-11-09 | Samsung Electronics Co., Ltd. | Control device for controlling the starting a vehicle in response to a voice command |
US20020156830A1 (en) * | 2001-03-29 | 2002-10-24 | Shinichi Gayama | Information processing apparatus and information processing method |
US6584439B1 (en) * | 1999-05-21 | 2003-06-24 | Winbond Electronics Corporation | Method and apparatus for controlling voice controlled devices |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH04324312A (ja) | 1991-04-24 | 1992-11-13 | Sharp Corp | ナビゲーション装置 |
JP2000181500A (ja) * | 1998-12-15 | 2000-06-30 | Equos Research Co Ltd | 音声認識装置及びエ―ジェント装置 |
JP3708747B2 (ja) * | 1999-04-16 | 2005-10-19 | アルパイン株式会社 | 音声認識方法 |
JP2002165298A (ja) * | 2000-11-28 | 2002-06-07 | Matsushita Electric Ind Co Ltd | 車載用音響装置 |
JP3838029B2 (ja) | 2000-12-18 | 2006-10-25 | セイコーエプソン株式会社 | 音声認識を用いた機器制御方法および音声認識を用いた機器制御システム |
JP4155383B2 (ja) * | 2001-03-05 | 2008-09-24 | アルパイン株式会社 | 音声認識機器操作装置 |
JP2003140664A (ja) | 2001-11-07 | 2003-05-16 | Fujitsu Ten Ltd | 音声再生装置、情報提供装置及び音声再生プログラム、情報提供プログラム |
-
2004
- 2004-12-06 JP JP2005516408A patent/JP4533845B2/ja not_active Expired - Fee Related
- 2004-12-06 DE DE602004016681T patent/DE602004016681D1/de active Active
- 2004-12-06 EP EP04801318A patent/EP1691343B1/en not_active Expired - Fee Related
- 2004-12-06 US US10/581,823 patent/US7529676B2/en active Active
- 2004-12-06 WO PCT/IB2004/004007 patent/WO2005062293A1/ja active IP Right Grant
- 2004-12-06 CN CN2004800360694A patent/CN1890708B/zh not_active Expired - Fee Related
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5774859A (en) * | 1995-01-03 | 1998-06-30 | Scientific-Atlanta, Inc. | Information system having a speech interface |
CN1140295A (zh) * | 1995-03-31 | 1997-01-15 | 松下电器产业株式会社 | 语音识别装置、响应装置、响应选择装置以及采用这些装置的响应玩具 |
US5983189A (en) * | 1996-08-27 | 1999-11-09 | Samsung Electronics Co., Ltd. | Control device for controlling the starting a vehicle in response to a voice command |
EP0911808A1 (en) * | 1997-10-23 | 1999-04-28 | Sony International (Europe) GmbH | Speech interface in a home network environment |
CN1229971A (zh) * | 1997-12-30 | 1999-09-29 | Lg情报通信株式会社 | 语音识别方法 |
US6584439B1 (en) * | 1999-05-21 | 2003-06-24 | Winbond Electronics Corporation | Method and apparatus for controlling voice controlled devices |
US20020156830A1 (en) * | 2001-03-29 | 2002-10-24 | Shinichi Gayama | Information processing apparatus and information processing method |
Non-Patent Citations (2)
Title |
---|
Evans, G..Solving home automation problems using artificial intelligencetechniques.IEEE Transactions on Consumer Electronics37 3.1991,37(3),395-400. |
Evans, G..Solving home automation problems using artificial intelligencetechniques.IEEE Transactions on Consumer Electronics37 3.1991,37(3),395-400. * |
Also Published As
Publication number | Publication date |
---|---|
US20070265844A1 (en) | 2007-11-15 |
DE602004016681D1 (de) | 2008-10-30 |
JPWO2005062293A1 (ja) | 2007-07-19 |
US7529676B2 (en) | 2009-05-05 |
EP1691343A4 (en) | 2007-08-22 |
CN1890708A (zh) | 2007-01-03 |
WO2005062293A1 (ja) | 2005-07-07 |
EP1691343A1 (en) | 2006-08-16 |
JP4533845B2 (ja) | 2010-09-01 |
EP1691343B1 (en) | 2008-09-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN1890708B (zh) | 音频设备控制装置、音频设备控制方法及程序 | |
US8103510B2 (en) | Device control device, speech recognition device, agent device, on-vehicle device control device, navigation device, audio device, device control method, speech recognition method, agent processing method, on-vehicle device control method, navigation method, and audio device control method, and program | |
RU2726739C1 (ru) | Способ, аппарат и устройство для обработки естественного языка | |
CN108630190A (zh) | 用于生成语音合成模型的方法和装置 | |
EP0752129B1 (en) | A method and apparatus for providing a human-machine dialog supportable by operator intervention | |
US10170121B2 (en) | Speech recognition system and method for operating a speech recognition system with a mobile unit and an external server | |
CN103810995A (zh) | 用于语音系统的调节方法和系统 | |
CN1906661B (zh) | 设备控制装置和设备控制方法 | |
CN104900231B (zh) | 语音检索装置以及语音检索方法 | |
WO2021000403A1 (zh) | 智能对话系统的语音匹配方法、电子装置、计算机设备 | |
JPWO2019031268A1 (ja) | 情報処理装置、及び情報処理方法 | |
CN108831459A (zh) | 语音识别方法及装置 | |
JP5101989B2 (ja) | 情報提供支援方法及び情報提供支援装置 | |
US20070256435A1 (en) | Air Conditioner Control Device and Air Conditioner Control Method | |
JP6772916B2 (ja) | 対話装置および対話方法 | |
CN100590710C (zh) | 设备控制装置及设备控制方法 | |
CN110890089B (zh) | 语音识别方法及装置 | |
CN1890710B (zh) | 设备控制装置、以及设备控制方法 | |
CN111723234A (zh) | 一种音频提供方法、装置、设备及存储介质 | |
CN114927140A (zh) | 语音播报方法、装置、设备及介质 | |
JP4198040B2 (ja) | データ利用装置及びデータ利用方法 | |
US20200272413A1 (en) | Interaction system, interaction method, and program | |
CN117744753A (zh) | 大语言模型的提示词确定方法、装置、设备及介质 | |
CN113901181A (zh) | 一种人机交互的对话方法及装置 | |
CN115641838A (zh) | 一种基于口语音调标记的语音自适应方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
C17 | Cessation of patent right | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20111207 Termination date: 20131206 |