CN101443732A - 用于从第一自适应数据处理版本转换至第二自适应数据处理版本的方法 - Google Patents

用于从第一自适应数据处理版本转换至第二自适应数据处理版本的方法 Download PDF

Info

Publication number
CN101443732A
CN101443732A CNA2007800170320A CN200780017032A CN101443732A CN 101443732 A CN101443732 A CN 101443732A CN A2007800170320 A CNA2007800170320 A CN A2007800170320A CN 200780017032 A CN200780017032 A CN 200780017032A CN 101443732 A CN101443732 A CN 101443732A
Authority
CN
China
Prior art keywords
version
data
data processing
data model
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA2007800170320A
Other languages
English (en)
Inventor
J·翁弗里德
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nuance Communications Austria GmbH
Original Assignee
Koninklijke Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips Electronics NV filed Critical Koninklijke Philips Electronics NV
Publication of CN101443732A publication Critical patent/CN101443732A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/60Software deployment
    • G06F8/65Updates
    • G06F8/656Updates while running
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/32Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Security & Cryptography (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及用于从数据处理装置上的第一自适应数据处理版本(V1)转换至第二自适应数据处理版本(V2)的方法和系统,其中,所述第一自适应数据处理版本(V1)采用至少一个基于数据处理结果受到连续调整的数据模型(dm),所述第二自适应数据处理版本(V2)也采用了至少一个受到连续调整的数据模型(DM),所述方法和系统的特征在于,在第一阶段内,与所述第一数据处理版本(V1)并行采用第二自适应数据处理版本(V2),由此连续调整所述与第一版本(V1)相关的所述至少一个数据模型(dm)以及与所述第二版本(V2)相关数据模型(DM),所述方法和系统的特征还在于检验利用所述第二版本(V2)的数据处理的性能以符合质量标准,而后,在第二阶段内,一旦满足了所述质量标准,就输出利用所述第二版本(V2)的数据处理的结果,以供使用。本发明还涉及其上记录有计算机程序的计算机程序产品,所述程序用于执行这样的方法。

Description

用于从第一自适应数据处理版本转换至第二自适应数据处理版本的方法
技术领域
本发明总体涉及用于从数据处理器上的第一自适应数据处理版本转换至第二自适应数据处理版本的方法和系统,其中,所述第一自适应数据处理版本采用至少一个基于数据处理结果受到连续调整的第一数据模型,所述第二自适应数据处理版本采用至少一个受到连续调整的第二数据模型。此外,本发明涉及一种计算机程序产品,可以采用所述计算机程序产品执行这样的从所述第一数据处理版本转换至第二数据处理版本的方法。
背景技术
本领域,尤其是字处理领域的一个已知的问题是,在从旧的(第一)处理软件版本转换到新的(第二)处理软件版本时保持前向兼容性和后向兼容性。已知,与之相联系的一种做法是,在采用可能部分不兼容的不同软件版本时,采用特定的识别位来保持数据文件的完整性,例如,参考US5983242A。而且,还已知,可以在数据文件中包含“水印”,以指示特定文件是基于前一应用程序版本的还是基于更新的应用程序版本的;例如,参考US 6704432B。但是,这些已知技术涉及,当诸如个人计算机之类的计算装置的系统中存在不同的应用软件版本时,如何处理这种和同样的数据的问题。
但是,当在通过运行程序来处理大量的数据时采用了特定的自适应数据(adaptive data)模型的情况下,将基于校正后的结果对所述数据模型进行连续地“训练”,即,调整(adapt),这时,采用新的程序版本替代旧的程序版本将是一个严肃得多的问题,例如,在自动语音识别以及语音文件到文本文件的转换领域内就是这种情况。在基于语音识别输入数据将语音数据转换为文本文件时,已知将鉴于这些语音数据中的一些种类的数据是用户相关的而采用特定的自适应数据模型。具体而言,通常采用含有针对各个用户的语音特征的声学参考数据模型;此外,例如,可以采用语言数据模型来考虑取决于特定用户的单词变换的具体概率,因为作者可能经常采用给定的单词Y作为紧随给定单词X的词;之后,数据模型可以以含有可识别的单词的辞典为基础,其中,所述辞典包括特定用户如何发音的信息;并且,还有可能采用语法数据模型,其中,所述语法数据模型包含了涉及数字语法、日期语法等的数据。
在数据处理过程中,也就是说,在自动语音识别,以及将语音数据自动转换为文本文件的过程中,将通过反馈环路对这些数据中的一些数据进行连续调整,通过这种连续的调整或训练,将显著提高识别准确度。例如,通过这一基于所述处理结果的反馈,能够将新词添加到辞典数据模型内;可以对语言数据模型进行更新,从而使其越来越好地表现用户的说话风格;还能够采用新的语法表达更新语法;并且将对声学参考数据模型中的语音进行更新,使之与用户的具体发音更加相象。在而后通过听语音文件,并阅读与之相关的转换后的文本文件而对经过自动转换的文件加以校正时,通过反馈能够使所有的这些与数据模型相关的自适应工作成为可能。
在其他数据处理系统中可能会遇到类似的情况,在所述系统中,将基于数据模型的采用来处理大量的数据,其中,将基于数据处理结果通过反馈环路对所述数据模型进行连续的自适应调整,其中,所述系统一直不允许对新的模型进行预先训练,或者以前一直允许,但现在不允许对新的模型进行预先训练,例如,所述系统可以是带有基于与算法相关的图像数据模型的数据处理的系统,例如,就卫星图像传输而言,就地图创建而言等;基因分析领域的系统;相关语音数据领域的系统;或者将要基于自适应数据模型传输(image)大量图像数据的任何其他领域内的系统。
在这样的自适应数据模型系统中,将时常引入新的数据处理软件版本,所述新的版本的优点在于,相对于所采用的算法,例如用于执行语音识别的算法有所改进,从而能够得到更高的性能。但是,这些算法改变往往隐藏着下层数据模型的变化,乃至会出现全新的初始数据模型。原则上,只有在很少的情况下,能够只是简单地将数据模型转换为适于新的软件版本使用的新的数据模型。但是,在很多情况下,数据模型根本就是不可转换的,或者预先调整数据模型根本就是不可行的,因为数据校正将耗费过多的劳动。也就是说,即使从原则上能够对数据模型进行预先调整,这样的预先调整也往往相当耗时,并且需要复杂的升级程序。具体而言,就自动语音识别以及向文本文件的自动转换而言,通常,采用大量的语音材料对数据模型进行优化,在出于迁移(migration)目的而实施新的语音识别软件版本时,通常不可能保存这样的语音材料。因此,在实施新的语音识别版本(或者通常为新的数据处理版本)的情况下,当不能保持以前的得到了连续调整的数据模型时,以前得到的信息即在以前的数据处理当中经过调整的数据模型将丢失,因为必须以和新的(第二)数据处理软件版本相关的初始数据模型作为开端;这意味着,这样的系统的用户将宁愿还是采用旧的(第一)软件版本,因为在这一软件版本中,已经基于连续调整的数据模型实现了相当好的识别性能。如果现在转换到新的软件版本,那么在过渡时间内这一质量将丧失,因为已经无法再使用经过了连续调整的旧的数据模型,而在采用新的软件版本中的新的改进算法时,又必须对新的初始数据模型进行调整,直到将足够的数据训练到新的数据模型中,从而至少达到足够的性能为止。出于这一原因,很多用户倾向于坚持采用旧的具有经调整的数据模型的软件版本,因而新的软件版本的推行和使用受到了阻滞,因为客户能够预期到识别性能的不足,但是拒绝转换到新的软件版本(尽管,从更长的时间周期上来看,由于这一新的版本采用了改进的算法,从而能够实现更佳的语音识别精确度等)。
从新的软件版本的前景上来看,可能在原则上可以对数据模型进行调整,但是应当记住,例如语音识别系统往往具有15000个连接用户,而每一用户都具有自己的数据模型。要想实施这样的初始调整,从而使数据模型适于新的软件版本,意味着(例如)要对每个用户实施高达20MB的调整,而这又意味着大约300GB的调整数据总量,因而可能需要300GB的对应磁盘空间。
因此,长期以来一直需要一种从旧的数据处理版本转换到新的数据处理版本,而又不会因必须回退到初始数据模型而降低数据处理结果的质量,相反其将恰如其分地转换到新的软件版本,从而获得新版本的新改进算法优势的解决方案。
发明内容
因而,本发明的一个目的在于提供用于从旧的或第一数据处理版本转换到新的或第二数据处理版本的方法和系统,其中,能够在至少基本上不丧失第一版本中已经获得的一定质量的结果的情况下,能够从第一版本转换到第二版本。
此外,本发明的一个目的在于提供一种含有计算机程序的计算机程序产品,在将所述计算机程序加载到数据处理器内时,所述计算机程序用于执行根据本发明的用于在不降低性能的情况下从第一软件版本转换至第二软件版本的方法。
根据本发明的第一方面,提供了一种用于从数据处理装置上的第一自适应数据处理版本转换至第二自适应数据处理版本的方法,其中,所述第一自适应数据处理版本采用至少一个基于数据处理结果受到连续调整的第一数据模型,所述第二自适应数据处理版本也采用至少一个受到连续调整的第二数据模型,所述方法的特征在于,在第一阶段内,与所述第一数据处理版本并行采用第二自适应数据处理版本,从而连续调整与所述第一版本相关的至少一个第一数据模型以及与所述第二版本相关的至少一个第二数据模型,所述方法的特征还在于检验利用所述第二版本的数据处理的性能是否符合质量标准,而后,在第二阶段内,一旦满足了所述质量标准,就输出利用所述第二版本的数据处理结果,以供使用。
根据本发明的第二方面,本发明提供了一种包括数据处理器的系统,所述数据处理器具有第一数据处理版本,所述第一数据版本采用至少一个基于数据处理结果受到连续调整的第一数据模型来处理数据,所述系统的特征在于,所述数据处理器与所述第一数据处理版本并行运行第二数据处理版本,所述第二数据处理版本采用至少一个基于数据处理结果受到连续调整的第二数据模型,还将所述数据处理器配置为,一旦通过对相应的至少一个数据模型的连续调整使第二数据处理版本的结果具有足够的质量,那么就从输出所述第一数据处理版本的数据处理结果转换至第二数据处理版本的结果。
根据本发明的另一方面,提供了一种计算机程序产品,其具有记录于其上的适于执行根据本发明的转换方法的计算机程序。具体而言,记录于所述计算机程序产品上的计算机程序额外包括还适于执行所述第二自适应数据处理版本的软件。
本发明基于这样的想法,将新的(即第二数据处理版本)配置到后台(“阴影”中),从而对处于后台的与新的版本相关的数据模型或新的数据模型进行当前调整,直到所述经调整的数据模型(或多个数据模型)的性能等于或优于与第一数据处理版本相关的以前的数据模型(“继承”的模型)的性能为止。在第二版本能够得到可比拟的或者更好的结果之前,向用户提供基于以前的数据模型并且通过第一数据处理版本获得的结果。能够以完全自动的方式完成从第一版本和第一数据模型到第二版本和第二数据模型的转换或切换,为此可以假设,采用给定的训练到与第二自适应数据处理版本相关的数据模型内的数据量作为预定标准,将经调整的数据量与所述给定的数据量进行比较,在达到所述给定的数据量时,自动转换至使用利用第二版本的数据处理的结果。这一解决方案是非常方便的,并且能够使计算机节约时间的解决方案。但是,也可以基于直接的性能比较在两个版本之间转换,就此而言,一种尤为有利的方式是,在性能方面,使利用第二版本的数据处理的结果与利用第一版本的数据处理的结果进行自动比较,在所述第二版本的结果等于或优于第一版本的结果时,自动转换至使用第二版本的结果。
另一方面,还可以提供从第一版本到第二版本的强制转换,就此而言,一种有用的做法是,如果相关于第一版本的结果对第二数据处理版本的性能进行了评估,并且在性能足够的情况下,就强制转换至使用第二版本的结果。
因而,本发明的系统的优选实施例的特征在于,采用给定的训练到与第二自适应数据处理版本相关的数据模型中的数据量作为预定质量标准,采取手段将经调整的数据量与所述给定的数据量进行比较,在达到所述给定的数据量时,自动转换至使用利用第二版本的数据处理的结果;或者采取手段对利用第二版本的数据处理的结果和利用第一版本的数据处理的结果进行比较,在所述第二版本的结果优于所述第一版本的结果时,自动转换至使用所述第二版本的结果。
本发明在与自动语音识别和从语音数据向将受到校正的文本文件的自动转换相关时尤为有用。就此而言,尤为有利的做法是,针对各个用户连续调整诸如语音数据模型和语言数据模型的特定声学参考数据模型;不过也可以为语言数据模型以及语法和辞典数据模型应用连续调整,这本身是已知的。有利地,如上所述,还可以将本发明用于采用数据模型处理大量数据的其他数据处理,其中将通过基于数据处理结果的反馈对所述数据模型进行连续调整。
附图说明
通过结合并参考附图阅读下文给出的对优选实施例的详细说明,本发明的上述和其他方面、目的、特征和优点将变得显而易见。
图1表示一种数据处理系统的示意性布置图,具体而言,表示一种语音识别和自适应系统的示意性布置图,在所述系统中,将语音数据自动转换为文本文件,之后基于所接收到的声音文件对所述文本文件进行校正,并且其中采用了对应的反馈来调整所存储的数据模型;
图2示意性地示出了第一和第二数据处理软件版本的相互并行使用,其中,对相关数据模型进行并行调整,并且采用第一版本的数据处理的结果,而第二版本将在后台与第一版本并行运行,从而处于恰当的能够以足够的规模调整与第二版本相关的数据模型的位置上;
图3示出了说明根据本发明的方法的流程图,所述方法涉及与第一版本并行运行第二数据处理版本,由此将采用第一版本的结果,直到第二版本的结果足够为止;以及
图4示意性地示出了用于与第一版本并行运行第二数据处理软件版本、并且对于从第一版本向第二版本的转换而言一旦采用所述第二版本就至少能够获得与第一版本相当的性能的系统。
具体实施方式
现在将参考示出了本发明的优选实施例的附图来详细说明本发明,在附图中,采用类似的附图标记表示类似的元件。
在图1中,示出了数据处理系统1的示意性表示;具体而言,作为这样的系统的例子,示出了系统1,其用于自动识别所记录的声音数据,并且将声音文件转换为文本文件,而后基于所述声音文件对所述文本文件进行人工校正。这一系统1包括多个记录站2.1...2.i,这些记录站统称为附图标记2,例如,每一记录站包括个人计算机(PC),其具有音频装置(麦克风、扬声器;未示出),以记录并播放语音数据,在记录之后,所述语音数据被作为声音文件(语音文件)输出至网络3,例如,局域网/广域网(LAN/WAN)网络3。此外,将识别/调整站4(具体而言,将4.1...4.k)连接至这一网络3,在识别/调整站内,对由记录站2输出并存储在数据库5内的声音文件进行自动识别,并转换为文本文件,这是本领域公知的。而且,这些识别/调整站4可以包括PC。数据库或文件服务器5含有声音文件,此外还含有识别后的文本文件以及校正后的文本文件。就自动获得的文本文件的校正而言,提供了多个校正站6(仍然包括(例如)PC),并将其连接至网络3;通过采用这些校正站6,或具体而言6.1...6.1,将对自动获得并存储在数据库5内的文本文件进行人工校正,这些人在执行校正任务时,要听对应的声音文件。之后,采用所提供的校正作为针对另一数据库7中存储的数据模型的反馈,所述数据库7含有数据库元信息,尤其含有相应的用户特定数据模型,具体而言,所述数据模型可以是包括与用户特定语音相关的数据的声学参考模型;具有用户特异性,并且涉及针对各个用户的单词变换的可能性的语言数据模型;语法数据模型;以及含有可识别单词的辞典数据模型,其包括各个用户如何对所述可识别单词发音的信息。将所有的这些数据模型都存储在信息库7内。在下文中,将涉及这样的数据模型,在称其为“至少一个”数据模型或者“一”数据模型时,显然实际上存在大量这样的数据模型,即对于大量的用户中的每者都存在几个模型。
就到目前为止已经描述过的语音识别系统1而言,仍然是本领域已知的一种系统。
对于自动语音识别和转换而言,识别调整站4采用(第一)软件版本(V1),比较图2,其采用了特定的V1算法以及存储在数据库7内的相关V1数据模型。如上文所述,在基于校正后的文本文件的反馈的文本文件的自动语音识别、转换和校正过程中将对这些V1数据模型(dmi)进行连续调整。该反馈可以包括涉及语言模型并且以改进的方式反映了各个用户的说话风格的数据、适于更好地表现用户发音的针对声学参考数据模型的更新语音体系、用于更新语法数据模型的新的语法表达以及添加至辞典数据模型的新词。由于这种对数据模型做出的连续调整,将提高识别准确度。
然而,时常要实施新的数据处理版本(软件版本),在图2中为(V2),所述新的版本具有相对于所采用的、这里用来执行自动语音识别和转换的算法做出的改进。由于将要引入(例如)新的参数或变量的算法变化,还将采用新的下层数据模型(Dmi),并且在大多数情况下,不可能将先前版本V1采用的旧的数据模型Dmi转换成新的第二版本V2采用的新的数据模型Dmi。即使这种与V1模型相关的基于过去收集的数据的转换或预先调整是可能的,这种转换或预先调整也是相当消耗时间和存储空间的,并且非常复杂,尤其是在系统1中可能连接了(例如)15000个用户(对应于15000个记录站2)的情况下。因此,尽管采用相关的V2数据模型的基于V2版本的识别性能将允许获得比第一软件版本V1更高的识别准确度,但是用户仍然倾向于坚持采用旧的软件版本V1,因为通过过去的连续数据模型调整,此时的语音识别性能优于软件版本V2的性能,因为此时的软件版本V2所基于的相关初始数据模型是没有经训练的数据的数据模型。如果以后新的(第二)V2软件版本将含有V1算法,并且将通过应用所述V1算法而采用所述V1数据模型,那么情况一样,将无法从具有改进的V2算法的新的软件版本V2中获得任何益处。因此,实际上,到目前为止,不存在任何其他的能够克服在一开始基于初始的V2数据模型的V2系统性能较差这一缺点而转换至新的V2系统版本的可能性。
在图2中,示意性地示出了如何基于V1数据模型dml...dmi...dmn(其中,i=1...n),通过第一处理版本V1执行语音识别和转换,其中,采用反馈环8对所述数据模型dmi连续调整,以提高识别性能。在9处输出所述转换结果(文本文件)。之后,根据本发明,采用对应(初始)的数据模型DM1...DMi...DMn与第一版本V1并行实现第二或新的软件版本V2。通过采用反馈环8’,在与所述V1处理并行执行采用所述V2版本的语音识别转换时,也能够对这些V2数据模型DMi进行连续调整。但是,只有在数据模型DMi得到了足够调整之后开始,才从9’处输出这一语音识别转换的结果,因而所输出的结果至少等同于采用第一版本V1在输出9处得到的结果。
在图2中,通过模块10以虚线示意性地示出了通过采用V1数据模型dmi的数据而对新的V2数据模型DMi进行预先调整或转换的原理上的可能性,其中的保留条件是,即使有的话,这样的对数据模型的预先调整或转换只有在小规模上是可能的,这一点如上所述。因此,根据本发明执行的并行数据模型调整,比较反馈环8和8’,在过渡时间之后,能够在不降低识别性能的情况下从版本V1转换至新的版本V2。
在图3中示出了说明并行实现版本V1和V2,并且根据V2相关数据模型DM的调整级别而从第一版本V1转换至第二版本V2的流程图。为了简单起见,只分别引用一个相应的数据模型dm或DM,但是应当明白,如上所述,数据模型的数量大得多,例如,就自动语音识别转换而言,每个用户具有四个数据模型。
根据图3,根据块11安装第一软件版本V1。此外,根据块12,安装V1相关数据模型dm,#1代。
此后,记录语音文件,比较块13,而后将基于V1数据模型#1自动识别这一声音文件,并将其转换为文本文件,之后对自动获得的文本文件进行校正,并且在对文本文件执行的校正的基础上执行对数据模型dm#1的调整;随后将所述文本文件传送至输出处;通过图3中的块14表示这些步骤。这里,应当指出,在这一例子中是相对于一个特定用户在与这一用户相关的数据模型的基础上执行所述自动识别和转换的,并且是在迄今可得的声音/经识别的/经校正的文本三元组(text triple)的基础上对数据模型dm进行调整的。但是,如上所述,在所述系统中连接了大量的用户,对于每一用户而言,或者对于每一用户特定的数据模型而言,都将包括对应的数据处理和调整。
显而易见的是,没有必要在每次自动识别声音文件并将其转换为文本文件,以及对对应的文本文件予以校正时都对数据模型进行调整;取而代之,有可能积累很多这样的语音/经识别的/经校正的文本三元组,并仅在获得了预定量的调整数据之后对数据模型dm进行调整。
图3中的块15涉及现在已经经过了调整的数据模型(dm#2代)的存在。
在下文中,将反复地重复根据块13、14、15的步骤,并且可以假定所述过程结束于受到了良好训练的高代数据模型dm。
在这一阶段,根据块21安装第二软件版本V2,并且根据块22实施与之相关的初始数据模型DM。之后,与具有更高代的数据模型dm的第一软件版本V1并行运行这一第二软件版本V2连同其数据模型DM。此时,对于特定用户而言,根据块23记录了另一声音文件,如上所述,根据块14’,仍然采用版本V1以自动的方式再次识别这一语音文件并将其转换为文本文件,并且可能根据块15’获得对版本V1的对应数据模型dm的更新或调整。
在执行这些步骤的同时,基于第二软件版本V2和对应的数据模型DM对所述声音文件进行自动识别,并将其转换为文本文件,并且为由此获得的文本文件提供在根据块14’对所述文本文件加以校正时输入的校正。通过所述的文本文件的校正还将实现对V2数据模型DM的调整,参考图3中的块25。但是,同样在这里,也能够在如上所述调整V2数据模型DM之前累积若干声音/经识别的/经校正的文本三元组。之后,在步骤26中,检验更新后的V2数据模型是否是有利的,例如,这一点是基于训练到V2数据模型中的数据量判断的。如果不存在益处,那么返回块23,从而继续所述的基于版本V1和V2的并行数据处理。但是,如果步骤26中的判断表明现在可以通过采用新的软件版本V2与现在已得到了足够训练的数据模型DM相结合而获得至少适合的结果(所述数据模型DM在前面的处理步骤中得到了连续调整),那么继续只采用版本V2进行数据处理,参考图3中的块27,并停止基于V1数据模型采用V1版本进行数据处理,参考图3中的块27’。现在将基于仅与对应的更新的数据模型DM相结合的新的软件版本V2继续数据处理,即,语音和文本文件的接收、识别、转换和校正,参考图3中步骤23、24、25的暗示。此外,显然现在可以理所当然地在系统的输出(比较图2中的输出9’)处提供采用版本V2和受到了连续更新的经调整的V2数据模型获得的经校正的文本文件。
图4以类似于方框图的形式示出了本系统,由此示出了系统4-7通过接口模块31与网络3的连接。之后,以示意性的方式示出了两个分支,所述分支分别是针对软件版本V1或V2的。根据模块32.1和32.2,示出了声学文件或语音文件的接收,而后在模块33.1和33.2(仍然比较图1中的站4)中以自动识别和转换继之。分别基于分别存储在数据库7.1和7.2中的数据模型dm和DM执行这一语音文件的自动识别和转换。应当提及的是,数据库7.1和7.2可以是数据库7的部分,如图1所示。
为了易于理解,简化了图4中的表示,其中未示出数据库5中对语音文件(声音文件)的存储。
在下文中,在相应的校正站6(图1)中,校正在自动识别和转换模块33.1或33.2的输出处获得的经转换的文本文件,参考图4中的模块34.1和34.2或者图1中的站6。这里,应当指出,通过在具体的校正站6处执行的同一校正工作将可以得到根据图4所示的模块34.1和34.2的文件校正。这一校正引发对数据库7.1中的数据模型dm和数据库7.2中的数据模型DM的调整;此外,在针对新的软件版本V2的分支中,将计数器模块35连接至校正模块34.2,从而在将对应的更新信息提供给数据库7.2时对V2数据模型DM的经训练(更新)的数据量进行计数(具体而言以千字节为单位),并且将对应的信息提供给判决和控制模块36。所述判决和控制模块36包括比较器模块37,在比较器模块37中,将所接收的针对数据模块DM的调整量的数据与预定的并存储的将要训练的数据量进行比较;一旦达到了这一预定数据量,模块36就激活转换模块38,从而自动从V1结果输出39.1转换至V2结构输出39.2。在模块40处提供相应的经校正的V2文本文件。
作为对从V1结果到V2结果的自动转换的替代,可以在自动转换之后,在校正之前比较所得到的相应的文本文件,更优选地,比较校正自动转换的文本文件所需的校正数据量,如图4中由虚线表示的37’处的比较器所示。另一种可能性是根据对相应的V1和V2结果的评估而强制激活转换模块36,如图4中的处于41处的虚线所示。
到目前为止,已经描述了本发明的优选实施例,但是仍然应当清楚,在本发明的范围内各种修改都是可能的。具体而言,本发明还适用于需要采用大量的数据的其他数据处理领域,尤其还适用于对数据模型进行更新,而且在所述领域中,鉴于以前的数据模型的数据不够,或者这一预先训练可能过分耗费时间,或者因为V1数据模型根本就无法转换为V2数据模型,因而不可能对新的初始数据模型进行预先训练。例如,可以将本发明应用于对诸如接收来自卫星的视频信息的图像数据、大量的声音数据乃至基因序列数据进行处理的领域
在与图1的系统进行比较时,作为备选实施例,还可以安装独立单元42,在该单元中分别安装并运行第二软件版本V2,就在上述并行V1/V2操作的过渡时间内涉及基于V2版本的数据处理工作这一点而言,这样能够缓解识别/调整站4的负荷。当然,这一修改意味着,在从V1版本转换至V2版本时,必须在相应的识别/调整站4内安装或下载V2版本,从而能够处理相应的语音文件,其中,将采用版本V2和相关的数据模型DMi将所述语音文件自动转换为文本文件。
应当注意,上述实施例旨在对本发明进行举例说明,而不是对其做出限制,并且本领域技术人员能够在不背离权利要求的范围的情况下设计出很多备选的实施例。在权利要求中,不应当将任何放置在括号内的附图标记推断为限制所述权利要求。“包括”一词不排除权利要求中列举的元件或步骤以外的元件或步骤的存在。元件前的单数冠词不排除存在复数个这样的元件。可以通过包括几个分立的元件的硬件,以及通过适当编程的计算机实现本发明。在囊括了几个部件的系统权利要求中,可以通过同一个计算机可读软件或硬件实现这些部件中的几个。在互不相同的从属权利要求中陈述的某些措施不表示不能有利地采用这些措施的组合。

Claims (10)

1、一种用于从数据处理器上的第一自适应数据处理版本(V1)转换至第二自适应数据处理版本(V2)的方法,其中,所述第一自适应数据处理版本(V1)采用至少一个基于数据处理结果受到连续调整的第一数据模型(dm),所述第二自适应数据处理版本(V2)也采用至少一个受到连续调整的第二数据模型(DM),
所述方法的特征在于:在第一阶段内,与所述第一数据处理版本(V1)并行采用所述第二自适应数据处理版本(V2),从而连续调整与所述第一版本(V1)相关的至少一个第一数据模型(dm)以及与所述第二版本(V2)相关的至少第二数据模型(DM),
所述方法的特征还在于:检验利用所述第二版本(V2)的数据处理的性能是否符合质量标准,而后,在第二阶段内,一旦满足了所述质量标准,就输出利用所述第二版本(V2)的数据处理的结果,以供使用。
2、根据权利要求1所述的方法,其特征在于,采用给定的数据量作为所述质量标准,将经调整的数据量与所述给定的数据量进行比较,其中所述给定的数据量被训练到了与所述第二自适应数据处理版本(V2)相关的第二数据模型(DM)内,在达到所述给定的数据量时,自动转换到采用利用所述第二版本(V2)的数据处理的结果。
3、根据权利要求1所述的方法,其特征在于,相关于所述第一版本的结果评估所述第二数据处理版本的性能,并且在取得足够的性能的情况下,强制转换至采用所述第二版本的结果。
4、根据权利要求1所述的方法,其特征在于,就性能而言,将利用所述第二版本(V2)的数据处理的结果与利用所述第一版本(V1)的数据处理的结果进行自动比较,并且在所述第二版本的结果等于或优于所述第一版本的结果时,自动转换至采用所述第二版本的结果。
5、根据权利要求1到4中的任何一项所述的方法,其特征在于,通过所述自适应数据处理,基于声学参考数据模型、语言数据模型、语法数据模型和/或辞典数据模型识别语音数据并将所述语音数据自动转换为文本文件,基于所述语音数据检验所述经自动转换的文本文件并且在有必要时对所述文本文件进行校正,从而实现所述数据模型的连续调整的反馈。
6、一种在其上记录有计算机程序的计算机程序产品,所述计算机程序适于执行根据权利要求1到5中的任何一项所述的方法。
7、根据权利要求6所述的计算机程序产品,其特征在于,所述计算机程序还包括适于执行所述第二自适应数据处理版本的软件。
8、一种包括数据处理器(4;42)的系统,所述数据处理器具有采用至少一个第一数据模型(dm)来处理数据的第一数据处理版本(V1),所述第一数据模型(dm)基于数据处理的结果受到连续调整,所述系统的特征在于,
所述数据处理器使第二数据处理版本(V2)与所述第一数据处理版本并行运行,所述第二数据处理版本采用至少一个基于数据处理结果受到连续调整的第二数据模型(DM),而且,
将所述数据处理器配置为,一旦通过对相应的至少一个数据模型的连续调整而使所述第二数据处理版本的结果具有了足够的质量,那么就从输出所述第一数据处理版本的数据处理的结果转换至输出所述第二数据处理版本的结果。
9、根据权利要求8所述的系统,其特征在于,采用给定的数据量作为预定的质量标准,采用比较器(37,38)将经调整的数据量和给定的数据量进行比较,其中所述给定的数据量被训练到了与所述第二自适应数据处理版本(V2)相关的第二数据模型(DM)内,并在达到所述给定的数据量时,自动转换至采用利用所述第二版本的数据处理的结果。
10、根据权利要求8所述的系统,其特征在于第二比较器(37’),所述第二比较器(37’)用于将利用所述第二版本的数据处理的结果与利用所述第一版本的数据处理的结果进行比较,并且在所述第二版本的结果优于所述第一版本的结果时自动转换至采用所述第二版本的结果。
CNA2007800170320A 2006-05-12 2007-05-09 用于从第一自适应数据处理版本转换至第二自适应数据处理版本的方法 Pending CN101443732A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP06113888 2006-05-12
EP06113888.9 2006-05-12

Publications (1)

Publication Number Publication Date
CN101443732A true CN101443732A (zh) 2009-05-27

Family

ID=38694287

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA2007800170320A Pending CN101443732A (zh) 2006-05-12 2007-05-09 用于从第一自适应数据处理版本转换至第二自适应数据处理版本的方法

Country Status (5)

Country Link
US (1) US9009695B2 (zh)
EP (1) EP2019985B1 (zh)
JP (1) JP5208104B2 (zh)
CN (1) CN101443732A (zh)
WO (1) WO2007132404A2 (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104756185A (zh) * 2012-11-05 2015-07-01 三菱电机株式会社 语音识别装置
CN105355198A (zh) * 2015-10-20 2016-02-24 河海大学 一种基于多重自适应的模型补偿语音识别方法
CN107783896A (zh) * 2017-02-16 2018-03-09 平安科技(深圳)有限公司 一种数据处理模型的优化方法和装置
CN109901979A (zh) * 2019-01-24 2019-06-18 平安科技(深圳)有限公司 模型优化智能评估方法、服务器及计算机可读存储介质

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8056070B2 (en) * 2007-01-10 2011-11-08 Goller Michael D System and method for modifying and updating a speech recognition program
US8365140B2 (en) * 2007-12-20 2013-01-29 Hsbc Technologies Inc. Automated methods and systems for developing and deploying projects in parallel
US8364481B2 (en) 2008-07-02 2013-01-29 Google Inc. Speech recognition with parallel recognition tasks
DE102010012622B4 (de) * 2010-03-24 2015-04-30 Siemens Medical Instruments Pte. Ltd. Binaurales Verfahren und binaurale Anordnung zur Sprachsteuerung von Hörgeräten
KR20120046627A (ko) * 2010-11-02 2012-05-10 삼성전자주식회사 화자 적응 방법 및 장치
US9256850B2 (en) 2012-11-21 2016-02-09 International Business Machines Corporation Orphan token management during in-flight process system migration
US9786296B2 (en) * 2013-07-08 2017-10-10 Qualcomm Incorporated Method and apparatus for assigning keyword model to voice operated function
CN103903613A (zh) * 2014-03-10 2014-07-02 联想(北京)有限公司 一种信息处理方法及电子设备
US10242696B2 (en) * 2016-10-11 2019-03-26 Cirrus Logic, Inc. Detection of acoustic impulse events in voice applications
US10475471B2 (en) * 2016-10-11 2019-11-12 Cirrus Logic, Inc. Detection of acoustic impulse events in voice applications using a neural network
US10152318B2 (en) * 2017-01-31 2018-12-11 Oracle Financial Services Software Limited Computer system and method for executing applications with new data structures
US9741337B1 (en) * 2017-04-03 2017-08-22 Green Key Technologies Llc Adaptive self-trained computer engines with associated databases and methods of use thereof
JP6883471B2 (ja) * 2017-05-11 2021-06-09 オリンパス株式会社 収音装置、収音方法、収音プログラム、ディクテーション方法及び情報処理装置
CN110858479B (zh) 2018-08-08 2022-04-22 Oppo广东移动通信有限公司 语音识别模型更新方法、装置、存储介质及电子设备
US20220366911A1 (en) * 2021-05-17 2022-11-17 Google Llc Arranging and/or clearing speech-to-text content without a user providing express instructions

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1081010A (zh) * 1992-07-01 1994-01-19 L·M·埃利克逊电话股份有限公司 用于计算机运行期间改变软件的系统
US20030225719A1 (en) * 2002-05-31 2003-12-04 Lucent Technologies, Inc. Methods and apparatus for fast and robust model training for object classification
US20040148165A1 (en) * 2001-06-06 2004-07-29 Peter Beyerlein Pattern processing system specific to a user group

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2584249B2 (ja) * 1986-10-31 1997-02-26 三洋電機株式会社 音声認識電話機
US5917891A (en) * 1996-10-07 1999-06-29 Northern Telecom, Limited Voice-dialing system using adaptive model of calling behavior
US6167117A (en) * 1996-10-07 2000-12-26 Nortel Networks Limited Voice-dialing system using model of calling behavior
US6173259B1 (en) * 1997-03-27 2001-01-09 Speech Machines Plc Speech to text conversion
US5983242A (en) 1997-07-01 1999-11-09 Microsoft Corporation Method and system for preserving document integrity
JP2000259420A (ja) 1999-03-05 2000-09-22 Denso Corp 電子制御装置用の学習値更新装置
JP2001100781A (ja) * 1999-09-30 2001-04-13 Sony Corp 音声処理装置および音声処理方法、並びに記録媒体
US6629315B1 (en) * 2000-08-10 2003-09-30 International Business Machines Corporation Method, computer program product, and system for dynamically refreshing software modules within an actively running computer system
US20020169605A1 (en) * 2001-03-09 2002-11-14 Damiba Bertrand A. System, method and computer program product for self-verifying file content in a speech recognition framework
US20020143540A1 (en) * 2001-03-28 2002-10-03 Narendranath Malayath Voice recognition system using implicit speaker adaptation
US6996525B2 (en) * 2001-06-15 2006-02-07 Intel Corporation Selecting one of multiple speech recognizers in a system based on performance predections resulting from experience
US6704432B2 (en) 2001-10-18 2004-03-09 Microsoft Corporation Extensible file format
US20030145315A1 (en) 2002-01-23 2003-07-31 Tuomo Aro Exchange of data between components of distributed software having different versions of software
CA2483287C (en) * 2002-05-11 2009-10-13 Accenture Global Services Gmbh Automated software testing system and method
US7370316B2 (en) * 2003-06-03 2008-05-06 Sap Ag Mining model versioning
US7949533B2 (en) * 2005-02-04 2011-05-24 Vococollect, Inc. Methods and systems for assessing and improving the performance of a speech recognition system
US7793269B2 (en) * 2005-02-15 2010-09-07 Ebay Inc. Parallel software testing based on a normalized configuration
US20070106685A1 (en) * 2005-11-09 2007-05-10 Podzinger Corp. Method and apparatus for updating speech recognition databases and reindexing audio and video content using the same
TWI311311B (en) * 2006-11-16 2009-06-21 Inst Information Industr Speech recognition device, method, application program, and computer readable medium for adjusting speech models with selected speech data
US8219407B1 (en) * 2007-12-27 2012-07-10 Great Northern Research, LLC Method for processing the output of a speech recognizer

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1081010A (zh) * 1992-07-01 1994-01-19 L·M·埃利克逊电话股份有限公司 用于计算机运行期间改变软件的系统
US20040148165A1 (en) * 2001-06-06 2004-07-29 Peter Beyerlein Pattern processing system specific to a user group
US20030225719A1 (en) * 2002-05-31 2003-12-04 Lucent Technologies, Inc. Methods and apparatus for fast and robust model training for object classification

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104756185A (zh) * 2012-11-05 2015-07-01 三菱电机株式会社 语音识别装置
CN104756185B (zh) * 2012-11-05 2018-01-09 三菱电机株式会社 语音识别装置
CN105355198A (zh) * 2015-10-20 2016-02-24 河海大学 一种基于多重自适应的模型补偿语音识别方法
CN105355198B (zh) * 2015-10-20 2019-03-12 河海大学 一种基于多重自适应的模型补偿语音识别方法
CN107783896A (zh) * 2017-02-16 2018-03-09 平安科技(深圳)有限公司 一种数据处理模型的优化方法和装置
CN107783896B (zh) * 2017-02-16 2020-10-02 平安科技(深圳)有限公司 一种数据处理模型的优化方法和装置
CN109901979A (zh) * 2019-01-24 2019-06-18 平安科技(深圳)有限公司 模型优化智能评估方法、服务器及计算机可读存储介质

Also Published As

Publication number Publication date
EP2019985A2 (en) 2009-02-04
JP5208104B2 (ja) 2013-06-12
WO2007132404A3 (en) 2008-05-08
US20090125899A1 (en) 2009-05-14
JP2009537037A (ja) 2009-10-22
EP2019985B1 (en) 2018-04-04
US9009695B2 (en) 2015-04-14
WO2007132404A2 (en) 2007-11-22

Similar Documents

Publication Publication Date Title
CN101443732A (zh) 用于从第一自适应数据处理版本转换至第二自适应数据处理版本的方法
US6937986B2 (en) Automatic dynamic speech recognition vocabulary based on external sources of information
CN101206857B (zh) 用于修改语音处理设置的方法和系统
US20130030802A1 (en) Maintaining and supplying speech models
US7386449B2 (en) Knowledge-based flexible natural speech dialogue system
US7899673B2 (en) Automatic pruning of grammars in a multi-application speech recognition interface
US6785651B1 (en) Method and apparatus for performing plan-based dialog
DE69822296T2 (de) Mustererkennungsregistrierung in einem verteilten system
US7562014B1 (en) Active learning process for spoken dialog systems
US8463608B2 (en) Interactive speech recognition model
JP7171532B2 (ja) 音声を認識する装置及び方法、音声認識モデルをトレーニングする装置及び方法
US20190318737A1 (en) Dynamic gazetteers for personalized entity recognition
CN105190614A (zh) 使用声调细微差别的搜索结果
CN101004806A (zh) 用于对合成数据进行语音呈现的方法和系统
WO2009143030A3 (en) Interactive voice access and retrieval of information
EP1952270A1 (en) Indexing and searching speech with text meta-data
CN101183525A (zh) 用于自动语音识别系统的自适应语境
AU2001259162A1 (en) Method and system of implementing recorded data for automating internet interactions
CN110459222A (zh) 语音控制方法、语音控制装置及终端设备
CN104969288A (zh) 基于话音记录日志提供话音识别系统的方法和系统
CN103871402A (zh) 语言模型训练系统、语音识别系统及相应方法
CN105609101A (zh) 语音识别系统及语音识别方法
CN1879149A (zh) 音频对话系统和语音浏览方法
CN1801322B (zh) 使用转录门户组件随需转录语音的方法和系统
US8782171B2 (en) Voice-enabled web portal system

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
ASS Succession or assignment of patent right

Owner name: NEWANGS AUSTRIA COMUNICATION CO., LTD.

Free format text: FORMER OWNER: KONINKLIJKE PHILIPS ELECTRONICS N.V.

Effective date: 20091218

C41 Transfer of patent application or patent right or utility model
TA01 Transfer of patent application right

Effective date of registration: 20091218

Address after: Austria Vienna

Applicant after: Nuance Comm Austria GmbH

Address before: Holland Ian Deho Finn

Applicant before: Koninklijke Philips Electronics N.V.

C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20090527