CN106257583B - 语音识别系统以及用于运行语音识别系统的方法 - Google Patents

语音识别系统以及用于运行语音识别系统的方法 Download PDF

Info

Publication number
CN106257583B
CN106257583B CN201610432109.1A CN201610432109A CN106257583B CN 106257583 B CN106257583 B CN 106257583B CN 201610432109 A CN201610432109 A CN 201610432109A CN 106257583 B CN106257583 B CN 106257583B
Authority
CN
China
Prior art keywords
data
statements
speech recognition
external server
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610432109.1A
Other languages
English (en)
Other versions
CN106257583A (zh
Inventor
D.吕德克
M.施皮卡
E.贝尔纳
J.施奈德
S.肖尔茨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Volkswagen AG
Original Assignee
Volkswagen AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Volkswagen AG filed Critical Volkswagen AG
Publication of CN106257583A publication Critical patent/CN106257583A/zh
Application granted granted Critical
Publication of CN106257583B publication Critical patent/CN106257583B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/285Memory allocation or algorithm optimisation to reduce hardware requirements
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Abstract

本发明题为“语音识别系统以及用于运行语音识别系统的方法”。本发明涉及一种语音识别系统,其具有移动单元和外部服务器。移动单元包括存储单元,在存储单元上存储有语音模块数据,其包含具有语句的至少一个语句集合。存储单元还包括语音识别单元和数据接口,通过数据接口可建立与外部服务器的数据接口的数据连接。外部服务器包含具有事件数据的数据库,对事件数据分配时间数据和语句。通过外部服务器经由比较对事件数据分配的时间数据和当前的时刻可产生更新数据,其至少包含对数据库的事件数据分配的语句。更新数据可传输给移动单元。此外,借助更新数据可将传输的语句添加到语句集合中。本发明还涉及一种用于运行语音识别系统的方法。

Description

语音识别系统以及用于运行语音识别系统的方法
技术领域
本发明涉及一种语音识别系统,其具有移动单元和外部服务器。移动单元在此包括存储单元,在该存储单元上存储有语音模块数据,其包含具有语句的至少一个语句集合。移动单元还包括:语音识别单元,可通过语音识别单元借助语音模块数据对于探测的语音输入数据产生识别的文本;和数据接口,通过该数据接口可至少暂时建立与外部服务器的数据接口的数据连接。本发明还涉及一种用于运行语音识别系统的方法,该语音识别系统具有移动单元和外部服务器。在此,在移动单元的存储单元上存储有语音模块数据,其包含具有语句的至少一个语句集合。借助语音模块数据可关于探测的语音输入数据产生识别的文本。在此,至少暂时建立与外部服务器的数据接口的数据连接。
背景技术
语音识别系统在操作系统中有很广的应用范围。这同样涉及设备的操作以及借助于语音计算机(例如电话银行)执行通过电话的任务。通过语音输入操纵车辆的装置还已经作为当前用户界面的重要的特征设立在车辆中。例如,为了输入复杂的情况,相应的信息通过语音对话系统连续由用户查询。
在此有决定性意义的是,尽可能无缺陷且快速地实现用户的语音输入的识别和解读。为此虽然已经提出了各种方法,然而为了实现而需要的大的计算能力使得难于实现常见地使用例如在移动设备的领域中或在车辆中。用来解决这一问题的一种方法是,将计算任务转移到可通过因特网访问的服务器上。
然而这基于语音识别系统可随时与服务器交换数据,这尤其在具有有缺陷的移动网络覆盖的区域中不能随时得到保证。
已经提出了各种解决方案,其设置成使语音识别系统动态地匹配相应的要求并且由此改善语音识别。尤其可扩宽可通过系统识别的语音输入的范围。
对于在文献WO2011/054324A1中说明的方法,基于存在的结构化的例如源自因特网的数据建立语法说明并且将其传输给语音识别应用。
文献DE19942869A1说明了一种方法,在其中语音控制系统通过有适应性的转录学习新的语音模式。例如转录和存储通过RDS (radio data system)接收的广播电台的名字,从而其随后可被识别为指令。新的语音模式还可通过因特网发送。
对于在文献DE102009017177A1中提出的车辆中的语音识别组件,将语音指令传输给车外语音识别系统。在车外确定语音指令的语音表达和含义并且将其传达给车载系统。在此可存储语音指令的语音表达和含义。因此,车载系统从车外语音识别的事件中来学习。
在文献EP2273491A1中说明的用来提供用于导航仪的语音操纵的系统设置成,语音识别借助动态生成的语法实现。在此可限制语法的大小,以便可实现要求的系统不是太大。升级可通过服务器提供,尤其根据语音输入的地理的情景。
发明内容
因此,本发明的目的是提供一种语音识别系统和用于运行语音识别系统的方法,通过其可可靠地且节省资源地执行语音识别。
根据本发明,该目的通过具有权利要求1的特征的语音识别系统以及根据权利要求9所述的用于运行语音识别系统的方法实现。有利的设计方案和改进方案从从属权利要求中得到。
上述类型的根据本发明的语音识别系统的特征在于,外部服务器包含具有事件数据的数据库,对该事件数据分配时间数据和语句。通过外部服务器经由比较对事件数据分配的时间数据与当前的时刻可产生对语音模块数据的更新数据,其至少包含对数据库的事件数据分配的语句。更新数据可通过服务器的数据接口传输给移动单元的数据接口。借助更新数据可将传输的语句添加到语句集合中。
根据本发明,词“语句集合”表示词和语句量,其提供用于执行语音识别的语音识别单元。措辞“语句”在此尤其表示代表的单个词、词组和语言结构,但也表示单个词或词组彼此的统计的关系。语句的整体形成语句集合。这被所使用的语音模块包括,其用于语音识别,其中,在语音模块中,语句集合可通过其他数据进行补充。
在本发明中,除了执行真正的语音识别的移动单元之外,设置有外部服务器,通过其可更新移动单元的语音模块数据。在此将语句添加到语句集合中,其从服务器的数据库中提取出来。以这种方式添加的语句的选择借助相联系的时间数据实现。数据库尤其包含事件数据,对该事件数据分配的是时间数据和语句。
事件数据在此涉及“事件”,其根据本发明可包含各种数据。尤其可理解成这样的过程,其可带到时间情景中。事件例如可以是活动,例如音乐会。
在这种情况下,时间数据可包含活动的开始和结束。可对事件分配该事件涉及的语句,例如参与者的名字、表演的乐曲名、表演地点的名称以及术语,其涉及到活动的说明和例如说明了音乐风格。在另一示例中,事件可为运动事件,对该运动事件分配的是开始时刻和预计的结束时刻。还可分配这样的语句,其涉及到运动事件运动类型,例如参加的运动员和团体的名字、运动场所名称、比赛规则的术语以及对于说明相应的运动类型典型的术语。
事件例如还可从新闻中得悉。分配的语句例如可涉及政治事态,例如政客或其他参与者和组织的名字、在报道中提到的地点或专业术语。时间数据可在这种情况下例如相应于报道的日期。
因此,对事件分配有时刻和/或时段,例如事件发生的日期或事件的持续时间。还对事件数据分配这样的语句,其例如与相应的事件相关。语句例如可包含于事件相关的名称和标记,也包含事件属于的领域的术语和语句。
通过添加与更新时刻有时间关系的语句,可确保语句集合提供尽可能相关的语句,以保证可靠的语音识别。比较对事件数据分配的时间数据与当前的时刻可在此以不同的方式实现:时间数据包含时刻,因此可确定在该时刻和更新时刻之间的时间间隔。尤其可在此确定,是否对事件分配在更新时刻之前存在的时刻。事件例如可已经在过去发生并且因此不再相关。时间数据还可包含时段并且可确定更新时刻存在于该时段之前、之后或中。这还能确定相应的事件是否相关以及是否应考虑该事件。
尤其可通过阈值确定,事件在将来有多大程度存在且可能仍然相关,或者过去的事件是否(仍然)相关。
对事件分配的语句可包含不同的词和语言结构,其出现对相应的事件而言很有可能的。就该事件而言,例如可包含参与者的名字、场所名称、目的地以及其他语句。因此,添加的语句有针对性地扩展了语句集合,使得可实现特别好的且可靠的语音识别。可提供的资源被有效利用,因为语句集合不必一开始涵盖所有的可能性并且其范围仅以添加的相关的语句增长。
在一种根据本发明的语音识别系统的构造方案中,还可借助更新数据删除语句集合的语句的子集。由此可有利地减小语句集合的大小。所有的语句集合的大小尤其可通过添加一条语句和删除另一语句基本上保持恒定。
随着提供用于语音识别的语句集合的大小的渐增,对语音识别系统的计算能力的要求也随之提升。这尤其在移动应用中典型地导致的困难是,提供的计算能力对于大的语句集合并不足够。因此,必须限制语句集合的范围。
根据本发明,尤其可将不那么相关或不相关的语句从语句集合中去除,其中,待删除的语句通过更新数据预定。例如可由此去除这样的语句,该语句在更早的时刻是相关的,但其例如对在过去存在的事件分配。
因此,更新数据可不仅说明应从语句集合中删除的语句,而且应说明应添加的语句。
因此,通过在更新时同时添加和删除语句可避免语句集合的过度增长。由此可优化语音识别系统的可靠性和反应速度。
更新尤其还可包括语句集合的一般的升级,其中,除了根据本发明结合时间数据确定的语句之外还可添加或去除其他语句。在此尤其将升级考虑为应在确定的时刻执行的事件。这使得能够实现高效低执行系统的更新。
在一种改进方案中,传输的语句还包含对事件数据分配的时间数据。由此可有利地确定哪些时刻或时段分配相应的语句。
尤其还可由此在没有访问服务器的情况下确定,确定的语句是否仍是最新的,即,该语句在当前的时刻处于哪个时间间隔中。例如可在此去除与过去存在的事件相关的语句。
在另一设计方案中,移动单元还包括更新单元,利用该更新单元可通过语音模块数据产生状态数据并且可将其传输给外部服务器。状态数据包含关于语句集合通过服务器的更新数据的过去进行的改变的信息和/或关于语句集合的当前的范围的信息。更新数据还可借助状态数据产生。由此可有利地在产生更新数据时告知服务器,语句集合在更新之前如何得到,例如语句集合包含哪些和多少语句。
尤其可由此确定上次更新过去了多长时间。这使得易于确定必须添加或去除的语句,以便将系统带到当前的状态。还可借助当前的语句集合的大小确定是否应通过进一步添加语句来扩容或是否应缩小语句的数量。
在一种构造方案中,可通过移动单元的情景探测单元探测情景数据并且可将其传输给外部服务器。接着取决于情景数据产生更新数据。这有利地允许以特别高的相关性确定待添加或待删除的语句。
情景数据在此尤其可涉及用户、移动单元和移动单元的环境。因此,例如可探测用户和/或移动单元的识别。这允许个性化地更新语音识别系统,其中,可考虑到用户的特别的设定、嗜好和习惯。用户的特征(例如个人数据,如年龄、性别和出生)还可使得能够改善地预测哪些语句对于用户是相关的。关于移动单元的情景数据例如可包含激活或可提供哪些装置和应用。以这种方式可调整提供给移动单元的其他应用的更新数据。
确定关于移动单元的环境的情景数据例如可借助移动单元的地理的位置实现,例如还可通过提供关于环境的数据的传感机构实现。因此,其他移动单元的靠近例如可借助具有短的有效距离的信号传输来确定。
在一种构造方案中,可探测其他装置、尤其导航仪和/或电子式备忘录的情景数据。由此可有利地以很高的可能性确定确定的语句和事件是否相关。
由导航仪探测的情景数据例如可包含移动单元的当前位置、路线的计划的目的地或关于移动单元的环境的地理信息。通过电子式备忘录可探测具有时间数据的事件数据,其尤其对用户分配。例如可探测即将来临的期限的地点和时间并且然后可产生更新数据,使得针对该期限将相关的语句添加给语句集合。反之,例如可将与过去的期限相关的语句去除。
在一种构造方案中,还对数据库的事件数据分配地理的位置数据。借助于位置确定单元可确定移动单元的当前位置并且可将其传输给外部服务器。更新数据还通过比较对事件数据分配的地理的位置数据与位置产生。
这还使得能够借助移动单元的位置更精确地确定事件的相关性,尤其结合导航仪的情景数据。然而还可借助其他方法进行确定,例如通过与在已知位置的位置固定的站的无线连接或借助用户的输入。
尤其可将这样的事件识别为是相关的,其地理的位置数据并未超过相对于移动单元的位置的预定的最大距离。尤其可设定成,比起临近的事件,相对于用户在更大的空间距离中的事件相关性更低。反之,可借助在移动单元和事件之间的空间上的接近推出,必须以很高的可能性使用和识别与事件相关的语句。例如,如果音乐会发生在用户的更近的环境中,可为音乐会确定很高的相关性,而在距离大的运动事件并未归类为是相关的。
在另一构造方案中,还可代替移动单元的当前的位置将过去的位置传输给外部服务器。以这种方式可将在回顾时相关的事件数据识别为相关,例如以允许用户参考过去的事件来输入。
此外,还可代替移动单元的当前的位置将将来可到达的位置传输给外部服务器,例如当前在导航系统中激活的路线的目的地。这尤其允许识别涉及的事件的语音输入,对于该事件,用户恰好在路上。
在一种改进方案中,通过语音识别单元还可探测探测的语音输入数据的统计数据并且可将其传输给服务器。
此时,更新数据可通过服务器取决于统计数据产生。这有利地允许语音识别系统的高的人格化。
尤其可在此确定用户在过去的语音输入中需要的确定的语句的频率。频繁使用的语句可指明,该语句在将来也有很高的可能性被使用。而很少使用的语句可表示低的相关性。由此可确保,极少使用或不使用的语句从语句集合中去除,而经常使用的语句未被去除和/或可添加其他的例如使用的语句。
除了统计上的分析之外还可使用机器学习的方法,以识别出相关的词并且将不相关的词删除。
在一种构造方案中,移动单元布置在车辆中。用户在此尤其可为车辆的驾驶员。这有利地允许借助于语音控制操纵车辆的装置。
语音识别系统在此可访问数据布置在车辆中的其他装置。因此,语音识别系统的可靠的和快速的功能性在车辆中具有特别的意义,因为车辆的驾驶员应尽可能少地从交通事件分心。此外,由于车辆的运动必须考虑到,各个语句的相关性可取决于地理的位置和时间变化。在嵌入车辆中的计算系统的受限的能力的情况下,这意味着,如果语句集合的范围不应太大,必须一直更新语句集合。
上述类型的根据本发明的方法的特征在于,外部服务器包含具有事件数据的数据库,对该事件数据分配有时间数据和语句。通过外部服务器经由比较对事件数据分配的时间数据与当前的时刻产生对语音模块数据的更新数据,其至少包含对数据库的事件数据分配的语句并且将其传输给移动单元。
借助更新数据紧接着将传输的语句添加到语句集合中。根据本发明的方法尤其用于运行根据本发明的语音识别系统。因此,方法具有和根据本发明的语音识别系统相同的优点。
在一种改进方案中,借助更新数据还删除语句集合的语句的子集。由此可有利地缩小语句集合的范围。
附图说明
现在借助实施例参考附图阐述本发明。
图1示出了根据本发明的语音识别系统的实施例,
图2示出了根据本发明的方法的实施例。
具体实施方式
参考图1阐述根据本发明的语音识别系统的实施例。
语音识别系统包括移动单元1和外部服务器10。移动单元1包括具有麦克风2a的语音探测单元2。用户可在示出的实施例中通过以下方式发出开始语音输入的信号,即,用户按压按键通话(push-to-talk)开关(PTT),接着语音探测单元2探测并且记录用户讲出的语音输入数据。将进行暂存,从而语音输入数据可用于其他用途。
与语音探测单元2耦联的是语音识别单元3。通过语音识别单元可借助探测的语音输入数据产生识别出的机器可读的文本。为此使用语音模块数据SM,其存储在存储单元4上。语音模块数据SM在此包含具有语句的至少一个语句集合Ai。语句集合Ai的语句尤其说明了用于识别文本的词和语句量。语音模块数据SM的整体用作用于语音识别的语音模块。
移动单元1还包括更新单元5,其与移动单元的数据接口6a耦联。移动单元1还包括情景探测单元8,其在示出的情况下与语音识别单元3、更新单元5和其他四个装置7a至7d耦联。装置7a至7d中的一个是导航仪,另一装置是电子备忘录。
通过移动单元1的数据接口6a可至少暂时建立与外部服务器10的数据接口6b的数据连接。外部服务器10包括数据库9。数据连接可尤其无线地进行,例如通过局域网或广域网,例如因特网。连接还可通过电信网络(例如电话网)或无线的无线局域网(WLAN)建立。还可通过数据线的端口实现数据连接。连接还可通过其他单元建立,其本身可建立与外部服务器10的连接。例如可存在在移动单元1和与因特网连接的移动电话之间的数据连接,例如通过数据线或无线连接,例如通过蓝牙。尤其通过因特网建立与外部服务器10的连接。
参考图1和图2阐述根据本发明的方法的实施例。
如上面已经阐述的那样,在存储单元4上存储有语音模块数据SM,其包含语句集合Ai。通过移动单元1和服务器10的数据接口6a和6b建立数据连接,从而可更新语音模块数据SM。为此,更新单元5产生关于语音模块数据SM的状态数据SD。状态数据SD尤其包含以下信息:在哪个时刻进行语音模块数据SM的上次的更新、语句集合Ai有多大以及哪个是语句集合Ai的最大期望的参数。
此外,通过情景探测单元8探测情景数据KD,其中,尤其探测其他装置7a至7d的数据。
情景数据KD尤其包含移动单元1的地理位置、路线(其在此时通过导航系统发布)以及关于环境的地理信息。此外,情景数据KD包含备忘录的数据,尤其时间、地理位置和等候处理的日程的说明文本。情景数据KD还包含以下统计数据:在过去的语音输入中使用的语句集合Ai的各语句的频率。尤其包含语句集合Ai的特别频繁或特别少地使用的语句。
状态数据SD和情景数据KD传输给服务器10。服务器包含具有事件数据的数据库9。数据组尤其相应于各事件。对事件数据分配的是时间数据,例如将来的事件的时刻和/或事件的持续时间。还对事件数据分配语句。尤其是对于结合相应的事件的语音输入特别相关的语句。
在示出的示例中,事件中的一个是音乐会,该事件在用户的日程安排中提到并且为此可在服务器上提供附加的信息。在这种情况下,时间数据包含音乐会的开始和结束。对音乐会分配的是这样的语句,例如演员的名字、表演的和其他乐曲的名称、表演场所以及术语,其典型地用在音乐的说明中,尤其对于音乐风格的说明。
还示例性地包括运动事件,对其分配开始时刻和预计结束的时刻。还分配有这样的语句,其涉及运动事件和运动类型,例如运动员和团体的名字、比赛场地、比赛规则以及对于说明相应的运行类型典型的术语。
还从新闻中得悉事件。在此,分配的语句例如涉及政治事态,例如政客的名字、在报道中提到的地点或专业术语。时间数据在此相应于报道的日期并且确定“截止日期”,在该截止日期结束之后该事件解读为不那么或不再相关。
现在产生更新数据AD。该更新数据至少包含在数据库中对事件分配的语句Aj。在示出的示例中,为此借助当前的时刻,即,借助更新的时刻,将每个事件考虑为很相关,其时间数据可识别出事件仍是当前的,并且在其中,地理的位置数据并未与移动单元1的当前的位置离得太远,或在由导航仪确定的路线结束时并未与目标位置离得太远。尤其考虑将来的或持续时间尚未结束的事件。在这种持续时间不可明确定义的事件中,例如对于来自新闻的信息,将限定的时间间隔(例如始于关于该事件的报道的时刻)确定为持续时间。
更新数据AD还包含以下信息:哪些语句Ak应从语句集合Ai中删除。这例如可为语句的集合,其在更早地更新时添加并且其不再存在现实意义。此外,这例如可为罕见使用或不使用的语句。更新数据AD从服务器10传输给移动单元1。更新单元5借助更新数据AD改变语音模块数据SM,其中,尤其删除语句集合Ai的子集AK,而重新添加语句Aj。在此尤其保持语句集合Ai的范围基本上恒定。
在另一实施例中将移动单元1布置在车辆中。装置7a至7d在这种情况下为车辆的其他装置,其中包括车辆的各种行驶辅助系统、导航系统、信息娱乐系统和传感器。因此,情景探测单元8尤其可更有针对性地确定情景数据KD,使得以更高的精度针对相应的情况产生更新数据AD。
语音识别系统尤其可用在车辆中,以探测用户的语音输入来控制车辆的装置7a至7d,例如导航仪。尤其在此如此确定更新数据AD,即,语句集合Ai使得能够结合在计划的路线的环境中的目的地实现可靠且快速的语音识别。
附图标记列表
1 移动单元
2 语音探测单元
2a 麦克风
3 语音识别单元
4 存储单元
5 更新单元
6a 移动单元的数据接口
6b 外部服务器的数据接口
7a、7b、7c、7d 装置
8 情景探测单元
9 数据库
10 外部服务器
Ai 语句集合
Aj 数据库的语句
Ak 待删除的语句
AD 更新数据
KD 情景数据
SD 状态数据
SM 语音模块数据

Claims (8)

1.一种车辆用户界面语音识别系统,其具有:
设置在车辆上的移动单元(1),和
外部服务器(10),其中所述移动单元(1)与外部服务器(10)通信,
其中,所述移动单元(1)包括:
存储单元(4),在该存储单元上存储有语音模块数据(SM),该语音模块数据包含具有语句的至少一个语句集合(Ai),所述语句被用于使用用户的语音输入来控制车辆功能,
语音识别单元(3),通过该语音识别单元借助所述语音模块数据(SM)针对所探测的、基于用户的语音输入而生成的语音输入数据能产生识别的文本,其中所识别的文本被分析以确定如何控制所述车辆功能,和
数据接口(6a),通过该数据接口能至少暂时建立与所述外部服务器(10)的数据接口(6b)的数据连接,
其特征在于,
所述外部服务器(10)包含具有事件数据的数据库(9),对该事件数据分配时间数据和用于控制车辆功能的语句,通过所述外部服务器(10)经由比较分配给所述事件数据的时间数据与当前的时刻能产生对存储在所述移动单元的存储单元中的所述语音模块数据(SM)的更新数据(AD),该更新数据至少包含分配给所述数据库(9)的事件数据的语句,并且能将该更新数据从所述服务器(10)的数据接口(6b)传输给所述移动单元(1)的数据接口(6a),并且
借助所述更新数据(AD)能将传输的语句(Aj)添加到所存储的至少一个语句集合(Ai)中,并能基于所述更新数据从所述存储单元中删除存储在所述存储单元中的至少一个语句集合的语句子集。
2.根据权利要求1所述的车辆用户界面语音识别系统,其特征在于,传输的语句(Aj)还包含对所述事件数据分配的时间数据。
3.根据权利要求1所述的车辆用户界面语音识别系统,其特征在于,
所述移动单元(1)还包括更新单元(5),通过该更新单元经由所述语音模块数据(SM)能产生状态数据(SD),并且能将该状态数据传输给外部服务器(10),
所述状态数据(SD)包含关于语句集合(Ai)通过所述服务器(10)的更新数据(AD)早先进行的改变的信息和/或关于所述语句集合(Ai)的当前的范围的信息,并且
所述更新数据(AD)还能借助所述状态数据(SD)产生。
4.根据权利要求1所述的车辆用户界面语音识别系统,其特征在于,
情景数据(KD)能通过所述移动单元(1)的情景探测单元(8)探测并且能传输给所述外部服务器(10),并且
所述更新数据(AD)还取决于所述情景数据(KD)产生。
5.根据权利要求4所述的车辆用户界面语音识别系统,其特征在于,所述情景数据(KD)能由导航仪和/或电子式备忘录探测。
6.根据上述权利要求1-5中任一项所述的车辆用户界面语音识别系统,其特征在于,
对所述数据库(9)的事件数据还分配有地理的位置数据,
借助于位置确定单元能确定所述移动单元(1)的当前位置,
所述当前位置能传输给所述外部服务器(10),并且
所述更新数据(AD)还通过比较对所述事件数据分配的地理的位置数据与所述当前位置产生。
7.根据上述权利要求1-5中任一项所述的车辆用户界面语音识别系统,其特征在于,
通过所述语音识别单元(3)还能探测关于探测的语音输入数据的统计数据并且能将该统计数据传输给所述服务器(10),并且
所述更新数据(AD)能通过所述服务器(10)取决于所述统计数据产生。
8.一种用于运行具有移动单元(1)和外部服务器(10)的语音识别系统的方法,所述方法包括:
在所述移动单元(1)的存储单元(4)上存储有语音模块数据(SM),所述语音模块数据包含具有语句的至少一个语句集合(Ai),其中所述语句被用于使用用户的语音输入来控制车辆功能,
借助所述语音模块数据(SM)针对所探测的语音输入数据能产生识别的文本,其中所识别的文本被分析以确定如何控制所述车辆功能,并且
至少暂时建立与所述外部服务器(10)的数据接口的数据连接,
其特征在于,
所述外部服务器(10)包含具有事件数据的数据库,对该事件数据分配时间数据和用于控制车辆功能的语句,
通过所述外部服务器(10)经由比较对所述事件数据分配的时间数据与当前的时刻产生对语音模块数据(SM)的更新数据(AD),所述更新数据至少包含对所述数据库的事件数据分配的语句(Aj)并且被传输给所述移动单元,并且
借助所述更新数据(AD)将传输的语句(Aj)添加到所述语句集合(Ai)中并基于所述更新数据(AD)删除所述语句集合(Ai)的语句子集(Ak)。
CN201610432109.1A 2015-06-17 2016-06-17 语音识别系统以及用于运行语音识别系统的方法 Active CN106257583B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE102015211101.6A DE102015211101A1 (de) 2015-06-17 2015-06-17 Spracherkennungssystem sowie Verfahren zum Betreiben eines Spracherkennungssystems mit einer mobilen Einheit und einem externen Server
DE102015211101.6 2015-06-17

Publications (2)

Publication Number Publication Date
CN106257583A CN106257583A (zh) 2016-12-28
CN106257583B true CN106257583B (zh) 2020-03-10

Family

ID=57466733

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610432109.1A Active CN106257583B (zh) 2015-06-17 2016-06-17 语音识别系统以及用于运行语音识别系统的方法

Country Status (3)

Country Link
US (1) US10170121B2 (zh)
CN (1) CN106257583B (zh)
DE (1) DE102015211101A1 (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102015211101A1 (de) * 2015-06-17 2016-12-22 Volkswagen Aktiengesellschaft Spracherkennungssystem sowie Verfahren zum Betreiben eines Spracherkennungssystems mit einer mobilen Einheit und einem externen Server
KR20180070970A (ko) * 2016-12-19 2018-06-27 삼성전자주식회사 음성 인식 방법 및 장치
KR20180130672A (ko) * 2017-05-30 2018-12-10 현대자동차주식회사 상황 기반 대화 개시 장치, 시스템, 차량 및 방법
CN109308896B (zh) * 2017-07-28 2022-04-15 江苏汇通金科数据股份有限公司 语音处理方法及装置、存储介质及处理器
JP7459791B2 (ja) * 2018-06-29 2024-04-02 ソニーグループ株式会社 情報処理装置、情報処理方法、およびプログラム
CN109243458A (zh) * 2018-11-22 2019-01-18 苏州米机器人有限公司 一种用于智能机器人的语音识别系统
CN111858016A (zh) 2019-04-29 2020-10-30 阿里巴巴集团控股有限公司 计算作业处理方法、系统、移动设备及加速设备
KR20210054800A (ko) * 2019-11-06 2021-05-14 엘지전자 주식회사 사용자의 음성샘플 수집
CN112667255B (zh) * 2020-12-02 2022-03-29 北京百度网讯科技有限公司 更新方法、装置、电子设备及存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6195641B1 (en) * 1998-03-27 2001-02-27 International Business Machines Corp. Network universal spoken language vocabulary
CN103020069A (zh) * 2011-09-22 2013-04-03 联想(北京)有限公司 一种搜索数据的方法、装置及电子设备
CN103443785A (zh) * 2011-01-28 2013-12-11 英特尔公司 作为上下文信息的函数而概括源文本的方法和系统
CN103516780A (zh) * 2012-06-20 2014-01-15 Lg电子株式会社 移动终端、服务器、系统及其控制方法
CN103811002A (zh) * 2012-11-13 2014-05-21 通用汽车环球科技运作有限责任公司 用于语音系统的调节方法和系统
CN104040480A (zh) * 2011-03-28 2014-09-10 安比恩特兹公司 利用声学语境进行搜索的方法和系统
KR20140133069A (ko) * 2013-05-09 2014-11-19 삼성전자주식회사 사용자 단말 및 사용자 활동 예측 방법
JP2015049254A (ja) * 2013-08-29 2015-03-16 株式会社日立製作所 音声データ認識システム及び音声データ認識方法

Family Cites Families (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE19942869A1 (de) 1999-09-08 2001-03-15 Volkswagen Ag Verfahren und Einrichtung zum Betrieb einer sprachgesteuerten Einrichtung bei Kraftfahrzeugen
US6442519B1 (en) * 1999-11-10 2002-08-27 International Business Machines Corp. Speaker model adaptation via network of similar users
US7392185B2 (en) * 1999-11-12 2008-06-24 Phoenix Solutions, Inc. Speech based learning/training system using semantic decoding
US6741963B1 (en) 2000-06-21 2004-05-25 International Business Machines Corporation Method of managing a speech cache
JP2007033901A (ja) * 2005-07-27 2007-02-08 Nec Corp 音声認識システム、音声認識方法、および音声認識用プログラム
US7729911B2 (en) * 2005-09-27 2010-06-01 General Motors Llc Speech recognition method and system
ATE439665T1 (de) * 2005-11-25 2009-08-15 Swisscom Ag Verfahren zur personalisierung eines dienstes
US7870142B2 (en) 2006-04-04 2011-01-11 Johnson Controls Technology Company Text to grammar enhancements for media files
DE102006056286B4 (de) * 2006-11-29 2014-09-11 Audi Ag Verfahren zur Wiedergabe von Textinformationen durch Sprache in einem Fahrzeug
US8620652B2 (en) * 2007-05-17 2013-12-31 Microsoft Corporation Speech recognition macro runtime
US8140335B2 (en) 2007-12-11 2012-03-20 Voicebox Technologies, Inc. System and method for providing a natural language voice user interface in an integrated voice navigation services environment
US8255224B2 (en) * 2008-03-07 2012-08-28 Google Inc. Voice recognition grammar selection based on context
US20090271200A1 (en) 2008-04-23 2009-10-29 Volkswagen Group Of America, Inc. Speech recognition assembly for acoustically controlling a function of a motor vehicle
US8255217B2 (en) * 2009-10-16 2012-08-28 At&T Intellectual Property I, Lp Systems and methods for creating and using geo-centric language models
DE112009005347A5 (de) 2009-11-05 2012-08-16 Bertram Stoll System und methode zur spracherfassung von strukturierten daten
US8468012B2 (en) * 2010-05-26 2013-06-18 Google Inc. Acoustic model adaptation using geographic information
US9099087B2 (en) * 2010-09-03 2015-08-04 Canyon IP Holdings, LLC Methods and systems for obtaining language models for transcribing communications
US8352245B1 (en) * 2010-12-30 2013-01-08 Google Inc. Adjusting language models
US9009025B1 (en) * 2011-12-27 2015-04-14 Amazon Technologies, Inc. Context-based utterance recognition
US8473293B1 (en) * 2012-04-17 2013-06-25 Google Inc. Dictionary filtering using market data
US9190057B2 (en) * 2012-12-12 2015-11-17 Amazon Technologies, Inc. Speech model retrieval in distributed speech recognition systems
KR102257910B1 (ko) * 2014-05-02 2021-05-27 삼성전자주식회사 음성 인식 장치 및 방법, 잡음-음성 인식 모델 생성 장치 및 방법
KR102292546B1 (ko) * 2014-07-21 2021-08-23 삼성전자주식회사 컨텍스트 정보를 이용하는 음성 인식 방법 및 장치
DE102015211101A1 (de) * 2015-06-17 2016-12-22 Volkswagen Aktiengesellschaft Spracherkennungssystem sowie Verfahren zum Betreiben eines Spracherkennungssystems mit einer mobilen Einheit und einem externen Server

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6195641B1 (en) * 1998-03-27 2001-02-27 International Business Machines Corp. Network universal spoken language vocabulary
CN103443785A (zh) * 2011-01-28 2013-12-11 英特尔公司 作为上下文信息的函数而概括源文本的方法和系统
CN104040480A (zh) * 2011-03-28 2014-09-10 安比恩特兹公司 利用声学语境进行搜索的方法和系统
CN103020069A (zh) * 2011-09-22 2013-04-03 联想(北京)有限公司 一种搜索数据的方法、装置及电子设备
CN103516780A (zh) * 2012-06-20 2014-01-15 Lg电子株式会社 移动终端、服务器、系统及其控制方法
CN103811002A (zh) * 2012-11-13 2014-05-21 通用汽车环球科技运作有限责任公司 用于语音系统的调节方法和系统
KR20140133069A (ko) * 2013-05-09 2014-11-19 삼성전자주식회사 사용자 단말 및 사용자 활동 예측 방법
JP2015049254A (ja) * 2013-08-29 2015-03-16 株式会社日立製作所 音声データ認識システム及び音声データ認識方法

Also Published As

Publication number Publication date
DE102015211101A1 (de) 2016-12-22
CN106257583A (zh) 2016-12-28
US20160372115A1 (en) 2016-12-22
US10170121B2 (en) 2019-01-01

Similar Documents

Publication Publication Date Title
CN106257583B (zh) 语音识别系统以及用于运行语音识别系统的方法
US11232265B2 (en) Context-based natural language processing
CN108346430B (zh) 对话系统、具有对话系统的车辆以及对话处理方法
CN107112013B (zh) 用于创建可定制对话系统引擎的平台
JP6671379B2 (ja) 音声および接続プラットフォーム
CN101939740B (zh) 在集成语言导航服务环境中提供自然语言语音用户界面
CN105486325A (zh) 具有语音处理机制的导航系统及其操作方法
JP2017097373A (ja) 音声認識処理のための方法、車載システム及び不揮発性記憶媒体
JP2002341892A (ja) 音声認識装置
JP2017521724A (ja) 単一音響モデルと自動アクセント検出を用いたテキスト規則ベースの複数アクセントの音声認識
US9202459B2 (en) Methods and systems for managing dialog of speech systems
US8160876B2 (en) Interactive speech recognition model
JP6846617B2 (ja) 情報提供方法、サーバ、情報端末装置、システム及び音声対話システム
WO2006076304A1 (en) Method and system for controlling input modalties in a multimodal dialog system
EP3783606B1 (en) Electronic device and method for controlling the electronic device
JP2016042293A (ja) 情報提案システム
US20150168151A1 (en) Cloud system for a vehicle
CN111301312A (zh) 语音识别系统的会话引导方法
US9715878B2 (en) Systems and methods for result arbitration in spoken dialog systems
CN112673367A (zh) 用于预测用户意图的电子设备和方法
EP1691346B1 (en) Device control device and device control method
CN115705844A (zh) 语音交互配置方法、电子设备和计算机可读介质
KR20220057249A (ko) 사용자 발화를 처리하는 전자 장치, 및 그 전자 장치의 제어 방법
CN111095398A (zh) 机动车
JP7080297B2 (ja) 出発タイマーの提供方法およびシステム

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant