CN102460423B - 使用重新识别和统计分类的识别 - Google Patents
使用重新识别和统计分类的识别 Download PDFInfo
- Publication number
- CN102460423B CN102460423B CN201080025833.3A CN201080025833A CN102460423B CN 102460423 B CN102460423 B CN 102460423B CN 201080025833 A CN201080025833 A CN 201080025833A CN 102460423 B CN102460423 B CN 102460423B
- Authority
- CN
- China
- Prior art keywords
- recognition result
- grammer
- environment
- identification
- result
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 claims description 43
- 238000012545 processing Methods 0.000 claims description 20
- 230000008569 process Effects 0.000 claims description 12
- 238000004458 analytical method Methods 0.000 claims description 3
- 238000010224 classification analysis Methods 0.000 claims 1
- 238000004891 communication Methods 0.000 description 15
- 230000015654 memory Effects 0.000 description 15
- 238000003860 storage Methods 0.000 description 13
- 238000010586 diagram Methods 0.000 description 6
- 230000009471 action Effects 0.000 description 4
- 235000014510 cooky Nutrition 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 241001269238 Data Species 0.000 description 1
- 230000000712 assembly Effects 0.000 description 1
- 238000000429 assembly Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 210000003127 knee Anatomy 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000001144 postural effect Effects 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 238000013138 pruning Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2462—Approximate or statistical queries
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/32—Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/34—Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
- G06F11/3452—Performance evaluation by statistical analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/18—Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/70—Machine learning, data mining or chemometrics
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/19—Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
- G10L2015/228—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- Medical Informatics (AREA)
- Mathematical Physics (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Databases & Information Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Artificial Intelligence (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Probability & Statistics with Applications (AREA)
- Computing Systems (AREA)
- Evolutionary Biology (AREA)
- Mathematical Optimization (AREA)
- Computational Mathematics (AREA)
- Pure & Applied Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Analysis (AREA)
- Operations Research (AREA)
- Bioethics (AREA)
- Fuzzy Systems (AREA)
- Crystallography & Structural Chemistry (AREA)
- Computer Hardware Design (AREA)
- Quality & Reliability (AREA)
- Algebra (AREA)
- Chemical & Material Sciences (AREA)
- Biophysics (AREA)
- Epidemiology (AREA)
Abstract
描述了采用总体语法作为用于识别输入的一组环境专用语法的体系结构,每个环境专用语法负责一个特定的环境,诸如子任务类别、地理区域等等。这些语法一起覆盖了整个域。此外,对于同一个输入可以并行地运行多个识别,其中每个识别使用环境专用语法中的一个或多个。通过使用基于多个识别结果以及可能其它域知识的动态合成语法、或者使用对从多个识别结果及其他域知识提取的分类特征进行操作的统计分类器来选择获胜者,来自不同识别器语法的多个中间识别结果得以被协调。
Description
背景
当涉及到大的语法搜索空间时,诸如覆盖大量企业名称、web搜索查询、语音拨号请求等的语音搜索任务,语音识别性能有时是次优的。经常显现的三种主要的次优性包括:长的识别等待时间、差的识别准确性、以及不充足的语法覆盖。
一种现有的移动语音搜索应用在第一阶段使用全国性的企业目录语法加上地区语法,然后在第二阶段使用地区专用的企业目录语法来重新识别同一个发言(其中地区在第一阶段中确定)。这种方法不解决等待时间问题,但是能在非常具体的情况下改进覆盖和准确性.另一种方法尝试通过在子发言级对不同识别器的输出进行投票来减小单词错误率。该方法及其扩展一般假定每个识别器用对整个任务而言完整的语法来尝试识别。
发明内容
下面提供了简化的发明内容,以便提供对此处所描述的一些新颖实施例的基本理解。本发明内容不是详尽的概述,并且它不旨在标识关键/重要元素或描绘本发明的范围。其唯一目的是以简化形式呈现一些概念,作为稍后呈现的更具体实施例的序言。
所公开的体系结构获得用于识别的输入,并且对用于识别处理的输入应用环境专用的限制条件的不同实例。单独的约束条件实例合起来提供了对给定输入的总体环境域。通过例如针对这些约束条件并行地进行识别,改进了识别等待时间、识别准确性和识别域覆盖。此外,通过对系统等待产生一结果将花费多久加以时间限制,可以对单独的识别通道的识别处理进行管理。
在语音识别的环境中,体系结构采用一总体语法,该总体语法的形式是用于识别发言输入的较小单独环境专用语法的逻辑和,每个较小单独环境专用语法负责一个特定的环境,诸如子任务类别、地理区域等等。这些语法一起覆盖了整个域。此外,对于同一个输入可以并行地运行多个识别,其中每个识别通道使用环境专用语法中的一个或多个。
通过使用基于多个识别结果以及可能其它域知识的动态合成语法、或者使用对从多个识别结果及其他域知识提取的分类特征进行操作的统计分类器来选择获胜者,来自不同识别器语法通道的多个中间识别结果得以被协调。
为了为实现上述及相关目的,本文结合下面的描述和附图来描述某些说明性方面。这些方面指示了可以实践本文所公开的原理的各种方式,并且所有方面及其等效方面旨在落入所要求保护的主题的范围内。结合附图阅读下面的详细描述,其他优点和新颖特征将变得显而易见。
附图说明
图1示出根据所公开的体系结构的计算机实现的识别系统。
图2示出采用规则来确定单个识别结果的系统的替代实施例。
图3示出一环境专用约束条件识别系统,该系统采用重新识别且约束条件是用于语音识别的语法。
图4示出一环境专用约束条件识别系统,该系统采用统计分类且约束条件是用于并行语音识别的语法。
图5示出计算机实现的识别方法。
图6示出图5的方法的其它方面。
图7示出图5的方法的其它方面。
图8示出可用于根据所公开的体系结构执行识别的计算系统的框图。
图9示出了根据所公开的体系结构提供并行识别的计算环境的示意性框图。
具体实施方式
所公开的体系结构是首先使用环境专用约束条件来执行同一输入(例如发言)的独立识别的识别系统。这些独立识别或者串行执行,或者并行执行。每个环境专用约束条件都小于尝试统一所有域知识的约束条件。多个识别结果的协调可以使用后续识别(重新识别)和/或通过统计分类来完成。
该体系结构解决了与传统的单语法、单识别方法相关联的识别等待时间、识别准确性和不充足语法覆盖的问题。关于识别等待时间,并行识别中的每个识别实例都针对比能覆盖相同任务的单个大语法要小的语法。而且,重新识别步骤是针对小动态语法。特别是在非流化情况下,和具有单个大语法的识别相比,并行识别的最大等待时间加上重新识别的等待时间的两个组合的识别阶段可能具有较小的等待时间。
对于单个识别,识别准确性有时由于假设搜索期间的修剪而丢失。具有多个识别能减轻这一限制,因为可以保持大得多的假设集。此外,和覆盖许多环境的单个、通用语法相比,诸如语法这样的环境专用约束条件更可能具有关于来自例如目标环境的发言的较佳准确性。因此,来自多个识别的结果更有可能包含正确的结果,和单语法、单识别方法相比,用重新识别或分类器来协调多个识别结果更可能产生正确的结果。
关于不充足的语法覆盖,例如,对于单个语法能有多大和/或单个识别中语法能有多大通常有实际的限制(例如,硬件、软件)。并行地运行多个识别能显著地提高总的语法覆盖,因此每个识别可能在不同的软件进程和/或硬件资源上运行。
考虑所公开的体系结构在大规模语音识别任务中的应用。以下例子通过使用语音搜索任务作为例子来说明概念,语音搜索任务可以包括web、本地企业、个人联系人等的开放式搜索。改变和提高对于该解决方案的各部分是可能的。
提供了识别语法作为多个较小的且可能重叠的环境专用语法,每个环境专用语法覆盖原始任务空间的一个特定子集。用于分隔的环境可以基于子任务类别(例如企业名称相对于电影标题)、地理位置(例如,加利福尼亚州的企业相对于纽约州的企业)、人口发源地(面向青年的内容相对于成年人内容)、等等。每个内容专用语法可以单独地构建,利用关于每个环境的知识、结构和其它可用信息来使来自每个环境的预期用户输入的成功率最大化。
现在将参考附图,全部附图中相同的附图标记用于表示相同的元件。在下面的描述中,为了进行说明,阐述了很多具体细节以便提供对本发明的全面理解。然而,显而易见,可以没有这些具体细节的情况下实施各新颖实施例。在其它情况下,以框图形式示出了公知的结构和设备以便于描述它们。本发明将涵盖落入所要求保护的主题的精神和范围内的所有修改、等效方案和替换方案。
图1示出根据所公开的体系结构的计算机实现的识别系统100。系统100包括协调组件110和环境专用约束条件104的约束条件组件102,约束条件组件102用于将输入106识别处理成识别结果108,协调组件110用于将识别结果108协调到单个识别结果112中。
系统100还可以包括识别组件114,用于在并行路径中和/或串行地对相应的环境专用约束条件104进行分开的识别处理。例如,环境专用约束条件104可以包括用于在并行路径和/或串行路径中对针对输入106的语法进行识别处理的语法。环境专用约束条件104的单独集合可以包括不连续的和相交的环境覆盖。换言之,一个约束条件集合可以与另一约束条件集合的约束条件有某些重叠。也存在某些约束条件集合不与其它约束条件集合的约束条件相重叠的情况。
通过采用基于识别结果108的动态合成的语法,协调组件110可以使用重新识别来协调识别结果108以生成单个识别结果112。
或者,协调组件110可以使用对从识别结果108提取的分类特征进行操作的统计分类器来协调结果108,以生成单个识别结果112。
协调处理还可以处理相关任务数据以得到单个识别结果112。相关任务数据可以包括以下中的至少一个:所识别的字符串、发言级别和子发言级别置信分数、语音覆盖、并发识别间的相对等待时间、环境的先验概率、每个识别的相对难度、或者识别结果间的一致同意。此外,反映任务的特定要求的多个手工导出的和/或自动导出的规则可以影响多个识别假设的协调过程。
图2示出采用规则来确定单个识别结果112的系统200的替代实施例。系统200包括环境专用约束条件104的约束条件组件102、协调组件110和识别组件114,其中约束条件组件102用于将输入106识别处理成识别结果108、协调组件110用于将识别结果108协调成单个识别结果112,识别组件114用于在并行路径中和/或串行地对相应的环境专用约束条件104进行分开的识别处理。
提供了规则组件202来应用用于宣告识别结果108和/或单个识别结果112(例如最终结果)中的一个或多个的规则(例如优先级)。例如,可以创建和应用一规则,该规则确定特定的识别器是否返回具有足够高置信分数的特定结果,然后确定该结果可以被接受作为该相应识别器过程或甚至对于单个识别结果112来说的最终结果。
图3示出一环境专用约束条件识别系统300,该系统300采用重新识别且约束条件是用于语音识别的语法。系统300包括并行操作的N个识别—语法对,其中每个对包括一个或多个环境专用语法和识别器(表示为识别N)。如图所示,语法是不同的;然而,一个语法和另一个语法间可能有一定重叠,然而这不是必然的。如在现有的识别系统中,系统300保留单独的语法(而不是合并到一个大语法中),而不是创建和使用一个大语法,并且对每个语法运行语音发言输入302的识别。
换言之,发言输入302通过产生第一结果308的第一识别器304和相关联的第一环境专用语法306来处理,以及通过产生第二结果314的第二识别器310和相关联的第二环境专用语法312来处理,依此类推,直到产生N个结果的期望数量N个识别器和语法。使用结果来生成动态语法316,动态语法316然后可用于重新识别318以输出最终识别结果320。
换言之,对于用户发言输入302,针对每一个环境专用语法来运行单独识别。这被示出为同时或近似同时地以并行方式出现。每一个并行识别可以采用同种或不同种类的识别器(例如,嵌入式识别器相对网络识别器、具有不同声学模型的网络识别器、等),并且使用相同或不同的识别参数。一直到最大等待周期,系统300收集所有可用的识别结果(例如结果308、结果314、等),并且通过重新识别来确定最终识别结果320。
构造动态语法316以包括从所有识别结果导出的竞争项,包括N个最佳识别结果的识别字符串、解释和置信分数、和/或识别结构(如果可用)。对于该动态语法316执行原始发言输入302的重新识别。重新识别318的结果,包括置信分数,被作为最终识别结果320。
任选地,规则组件202可以包括特定优先级规则以便在完成所有识别之前宣布最终识别结果320,诸如如果特定的识别器返回具有足够高的置信分数的特定结果,该结果可被接受作为最终结果。任选地,可以提供与任务相关的其它域知识322作为到动态语法的输入,以便提供更聚集的识别过程。这一知识322可以包括用户偏好、与发言中正在说的内容相关的内容、硬件/软件考虑因素、地区性等等。
图4示出一环境专用约束条件识别系统400,该系统采用统计分类且约束条件是用于并行语音识别的语法。可以从所有识别结果(例如结果308、结果314等)且可能从和识别任务相关的其他域知识322导出多个数字的和/或分类的特征402。使用统计分类器来确定每个结果有多少可能反映实际的用户输入。可以选择具有最高分类分数的结果作为最终识别结果320,分类分数可以被标准化为最终识别置信。
系统400包括并行操作的N个识别—语法对,其中每个对包括环境专用语法(表示为环境专用语法N)和识别器(表示为识别N)。如前所述,语法是不同的;然而,一个语法和另一个语法间可能有一定重叠,然而这不是必然的。如在现有的识别系统中,系统400保留单独的语法(而不是合并到一个大语法中),而不是创建和使用一个大语法,并且对每个语法运行语音发言输入302的识别。
换言之,发言输入302通过产生第一结果308的第一识别器304和相关联的第一环境专用语法306来处理,以及通过产生第二结果314的第二识别器310和相关联的第二环境专用语法312来处理,依此类推,直到产生N个结果的期望数量N个识别器和语法。使用结果(结果308、结果314、...结果N)来生成特征402,特征402然后被传递至用于最终识别结果320的统计分类404。
如前所示和如图3所述,任选地,规则组件202可以包括特定优先级规则以便在完成所有识别之前宣布最终识别结果320,诸如如果特定的识别器返回具有足够高的置信分数的特定结果,该结果可被接受作为最终结果。任选地,可以提供与任务相关的其它域知识322作为到动态语法的输入,以便提供更聚集的识别过程。这一知识322可以包括用户偏好、与发言中正在说的内容相关的内容、硬件/软件考虑因素、地区性等等。
注意到这里的描述涵盖了体系结构在在线接收用户输入发言时如何工作。该解决方案的另一方面是选择由系统特别是在多个识别结果的协调期间使用的适当的设置、特征等等。对于重新识别和统计分类器方法两者而言,可以使用训练数据,并且可以采用离线训练过程来选择最优的配置和参数。
对于重新识别方法而言,也可能任选地执行诸如回归这样的统计分析,以便向重新识别动态语法中的路径分配相对权重。可以控制其它域知识322的输出来影响每一个重新识别过程的动态语法316。
在任一种方法中,可以采用以下特征402中的一个或多个,其中一些特征直接从并行识别结果获得,而其它特征从相关任务知识导出。特征402可以包括但不限于:所识别的字符串、发言级别和子发言级别置信分数、语音覆盖(例如,被假设为语音的发言的部分)、识别间的相对等待时间(例如,并行)、环境的先验概率(例如,用户请求企业名称相对体育分数的频繁程度)、每个环境专用识别的相对难度(例如,在环境识别准确性内,环境专用语法的混乱)、每个语法的容许性(例如,web搜索语法可以接受各种各样的查询)、以及识别结果间的一致同意。
注意到,单独的识别过程可以跨诸如服务器、客户机或服务器客户机的组合这样的不同的机器而分布。这在分类和重新识别两种情况下应用于并行识别以及串行识别。
换言之,所公开的体系结构是一种计算机实现的识别系统,该系统包括环境专用语法的约束条件组件、识别组件和协调组件,所述约束条件组件用于将发言输入识别处理成识别结果,识别组件使用环境专用语法在并行的路径中使用相应的环境专用语法对发言输入进行单独的识别处理,协调组件用于将识别结果协调到最终识别结果中。
协调组件采用识别结果的动态合成语法,并且使用重新协调来协调识别结果以产生最终识别结果。任选地,协调组件通过在重新识别前采用诸如回归这样的统计分析来协调识别结果,以确定最终识别结果。或者,协调组件使用对从识别结果提取的特征进行操作的统计分类来协调识别结果,以产生最终的识别结果。此外,规则组件施加了定义最终识别结果的确定的一个或多个规则,其它域知识可以影响统计分类协调的特征以及用于重新识别协调的动态语法。
此处所包括的是一组代表用于执行所公开的体系结构的新颖方面的示例性方法的流程图。尽管出于解释简明的目的,此处例如以流图或流程图形式示出的一个或多个方法被示出并描述为一系列动作,但是可以理解和明白,各方法不受动作的次序的限制,因为根据本发明,某些动作可以按与此处所示并描述的不同的次序和/或与其它动作同时发生。例如,本领域技术人员将会明白并理解,方法可被替换地表示为一系列相互关联的状态或事件,诸如以状态图的形式。此外,并非在一方法中示出的所有动作都是新颖实现所必需的。
图5示出一种计算机实现的识别方法。在500,接收到用于处理发言输入的单独的环境专用语法。在502,使用每个路径的相应环境专用语法在并行路径中识别发言输入。在504,从每个路径产生中间识别结果。在506,将中间识别结果协调至最终识别结果。
图6示出了图5的方法的其他方面。在600,使用从识别结果产生的动态语法的重新识别来协调中间识别结果。在602,在重新识别对中间识别结果的协调期间输入其它域知识。在604,施加一个或多个规则以产生最终识别结果。在606,在统计分类对中间识别结果的协调期间输入其它域知识。在608,施加一个或多个规则以产生最终识别结果。
图7示出图5的方法的其它方面。在700,执行诸如回归这样的统计分析。在所有路径上并行地实现该分析。在702,在重新识别动态语法中向每个路径分配相对权重。在704,等待一预定量的时间,用于产生路径的中间识别结果。在706,基于在该时间量内产生的中间识别结果来产生最终识别结果。
如在本申请中所使用的,术语“组件”和“系统”旨在表示计算机相关的实体,其可以是硬件、硬件和软件的组合、软件、或者执行中的软件。例如,组件可以是,但不仅限于,在处理器上运行的进程、处理器、硬盘驱动器、多个存储驱动器(光学的、固态和/或磁存储介质)、对象、可执行件、运行的线程、程序,和/或计算机。作为说明,在服务器上运行的应用程序和该服务器两者都可以是组件。一个或多个组件可以驻留在进程和/或执行的线程内,并且组件可以位于一个计算机上和/或分布在两个或更多的计算机之间。词语“示例性”此处可用于表示用作示例、实例或说明。在此被描述为“示例性”的任何方面或设计并不一定要被解释为相比其它方面或设计更优选或有利。
现在参考图8,所示是根据所公开的体系结构的可用于执行识别的计算系统800的框图。为了提供用于其各方面的附加上下文,图8及以下讨论旨在提供对其中可实现各方面的合适的计算系统800的简要概括描述。尽管以上描述是在可在一个或多个计算机上运行的计算机可执行指令的一般上下文中进行的,但是本领域的技术人员将认识到,新颖实施例也可结合其它程序模块和/或作为硬件和软件的组合来实现。
用于实现各方面的计算系统800包括计算机802,其具有处理单元804、系统存储器806、以及系统总线808。处理单元804可以是各种市场上可买到的处理器中的任一种,诸如单处理器、多处理器、单核单元以及多核单元等。此外,本领域的技术人员将明白,各新颖方法可用其它计算机系统配置来实施,包括小型计算机、大型计算机、以及个人计算机(例如、台式、膝上型等)、手持式计算设备、基于微处理器的或可编程消费电子产品等,其每一个都可在操作上耦合到一个或多个相关联的设备。
系统存储器806可以包括易失性(VOL)存储器810(例如,随机存取存储器(RAM))和非易失性存储器(NON-VOL)812(例如ROM、EPROM、EEPROM等)。基本输入/输出系统(BIOS)可以被存储在非易失性存储器812中,并且包括诸如在启动期间便于在计算机802内的组件之间传递数据和信号的基本例程。易失性存储器810还可以包括诸如静态RAM等高速RAM来用于高速缓存数据。
系统总线808提供了用于包括,但不限于存储器子系统806的系统组件到处理单元804的接口。系统总线808可以是若干种总线结构中的任一种,这些总线结构还可使用各类可购买到的总线体系结构中的任一种互连到存储器总线(带有或没有存储器控制器)以及外围总线(例如,PCI,PCIe,AGP,LPC等)。
计算机802还包括存储子系统814以及用于将存储子系统814接口到系统总线808和其它所需计算机组件的存储接口816。存储子系统814可以包括例如硬盘驱动器(HDD)、磁软盘驱动器(FDD)和/或光盘存储驱动器(例如,CD-ROM驱动器、DVD驱动器)中的一种或多种。存储接口816可以包括诸如例如EIDE、ATA、SATA和IEEE 1394等接口技术。
一个或多个程序和数据可以被存储在存储器子系统806、可移动存储器子系统818(例如,闪存驱动器形状因子技术)和/或存储子系统814(例如,光、磁、固态)中,包括操作系统820、一个或多个应用程序822、其它程序模块824以及程序数据826。
一个或多个应用程序822、其他程序模块824以及程序数据826可包括例如图1的系统100的组件、实体和结果、图2的系统200的组件、实体和结果、图3的系统300的组件、实体和结果、图4的系统400的组件、实体和结果、以及图5-7的方法和附加方法。
一般而言,程序模块包括执行特定任务或实现特定抽象数据类型的例程、方法、数据结构、其它软件组件等。操作系统820、应用程序822、模块824和/或数据826的全部或部分也可以被高速缓存在诸如易失性存储器810等存储器中。应当明白,所公开的体系结构可以用各种市场上可购得的操作系统或操作系统的组合(例如,作为虚拟机)来实现。
存储子系统814和存储器子系统(806和818)用作用于数据、数据结构、计算机可执行指令等的易失性和非易失性存储的计算机可读介质。计算机可读介质可以是可由计算机802访问的任何可用介质,且包括易失性和非易失性介质、可移动和不可移动介质。对于计算机802,介质容纳任何适当的数字格式的数据的存储。本领域的技术人员应当明白,可以使用其它类型的计算机可读介质,诸如zip驱动器、磁带、闪存卡、磁带盒等,来存储用于执行所公开的体系结构的新颖方法的计算机可执行指令。
用户可以使用诸如键盘和鼠标等外部用户输入设备828来与计算机802、程序和数据交互。其它外部用户输入设备828可以包括话筒、IR(红外)遥控器、操纵杆、游戏手柄、照相机识别系统、指示笔、触摸屏、姿势系统(例如,眼移动、头移动等)和/或类似物。在计算机802是例如便携式计算机的情况下,用户可以使用诸如触摸垫、话筒、键盘等板载用户输入设备830来与计算机802、程序和数据交互。这些和其它输入设备通过输入/输出(I/O)设备接口832经由系统总线808连接到处理单元804,但也可通过其它接口连接,如并行端口、IEEE 1394串行端口、游戏端口、USB端口、IR接口等。I/O设备接口832也便于输出外围设备834的使用,如打印机、音频设备、摄像设备等,如声卡和/或板载音频处理能力。
一个或多个图形接口836(通常也称为图形处理单元(GPU))提供计算机802和外部显示器838(例如,LCD、等离子)和/或板载显示器840(例如,对于便携式计算机)之间的图形和视频信号。图形接口836也可作为计算机系统板的一部分来制造。
计算机802可以使用经由有线/无线通信子系统842到一个或多个网络和/或其它计算机的逻辑连接在联网环境(例如,IP)中操作。其它计算机可以包括工作站、服务器、路由器、个人计算机、基于微处理器的娱乐设备、对等设备或其它常见的网络节点,并且通常包括以上相对于计算机802描述的许多或所有元素。逻辑连接可以包括到局域网(LAN)、广域网(WAN)、热点等的有线/无线连接。LAN和WAN联网环境常见于办公室和公司,并且方便了诸如内联网等企业范围计算机网络,所有这些都可连接到诸如因特网等全球通信网络。
当在联网环境中使用时,计算机802经由有线/无线通信子系统842(例如,网络接口适配器、板载收发机子系统等)连接到网络来与有线/无线网络、有线/无线打印机、有线/无线输入设备844等通信。计算机802可以包括用于通过网络建立通信的调制解调器或其它装置。在联网环境中,相对于计算机802的程序和数据可以被存储在远程存储器/存储设备中,如与分布式系统相关联。应当明白,所示网络连接是说明性的,并且可以使用在计算机之间建立通信链路的其它手段。
计算机802可以用于使用诸如IEEE 802.xx标准家族等无线电技术来与有线/无线设备或实体通信,例如在操作上安置在与例如打印机、扫描仪、台式和/或便携式计算机、个人数字助理(PDA)、通信卫星、任何一件与无线可检测标签相关联的设备或位置(例如,电话亭、报亭、休息室)以及电话的无线通信(例如,IEEE 802.11空中调制技术)中的无线设备。这至少包括用于热点的Wi-Fi(即无线保真)、WiMax和蓝牙TM无线技术。由此,通信可以是如对于常规网络那样的预定义结构,或者仅仅是至少两个设备之间的自组织(ad hoc)通信。Wi-Fi网络使用称为IEEE 802.11x(a、b、g等等)的无线电技术来提供安全、可靠、快速的无线连接。Wi-Fi网络可以用于将计算机彼此连接、连接到因特网以及连接到有线网络(使用IEEE 802.3相关介质和功能)。
现在参考图9,示出了根据所公开的体系结构提供并行识别的计算环境900的示意性框图。环境900包括一个或多个客户机902。客户机902可以是硬件和/或软件(例如,线程、进程、计算设备)。例如,客户机902可以容纳cookie和/或相关联的上下文信息。
环境900还包括一个或多个服务器904。服务器904也可以是硬件和/或软件(例如,线程、进程、计算设备)。服务器904可以例如通过使用本体系结构来容纳线程以执行变换。客户机902和服务器904之间的一种可能的通信可以是以适用于在两个或更多计算机进程之间传输的数据包的形式。例如,数据包可以包括cookie和/或相关联的上下文信息。环境900包括可以用来促进客户机902和服务器904之间通信的通信框架906(例如,诸如因特网等全球通信网络)。
通信可以经由有线(包括光纤)和/或无线技术来促进。客户机902可操作地连接到一个或多个客户机数据存储908,可以使用这些客户机数据存储来存储客户机902本地的信息(例如,cookie和/或相关联的上下文信息)。同样地,服务器904可以在操作上连接到可以用来存储服务器904本地的信息的一个或多个服务器数据存储910。
客户机902可以包括一个客户机,经由该客户机接收到语音信号,用于由服务器904或其它客户机902进行识别处理。语法可以被存储在客户机数据存储908和/或服务器数据存储910中。
以上描述的包括所公开的体系结构的各示例。当然,描述每一个可以想到的组件和/或方法的组合是不可能的,但本领域内的普通技术人员可以认识到,许多其它组合和排列都是可能的。因此,该新颖体系结构旨在涵盖所有这些落入所附权利要求书的精神和范围内的更改、修改和变化。此外,就在详细描述或权利要求书中使用术语“包括”而言,这一术语旨在以与术语“包含”在被用作权利要求书中的过渡词时所解释的相似的方式为包含性的。
Claims (15)
1.一种计算机实现的识别系统(100),包括:
环境专用约束条件的约束条件组件(102),被配置成沿多个识别路径将输入识别处理成各个识别结果;以及
协调组件(110),被配置成使用识别结果来生成动态语法,并被配置成执行回归分析以便在所述动态语法中向每个识别路径分配相对权重,以及确定最终识别结果。
2.如权利要求1所述的系统,其特征在于,所述约束条件包括用于在并行路径中对输入进行识别处理的语法。
3.如权利要求1所述的系统,其特征在于,所述协调组件使用重新识别来协调所述结果以产生单个识别结果。
4.如权利要求3所述的系统,其特征在于,所述重新识别采用基于识别结果的动态合成的语法。
5.如权利要求1所述的系统,其特征在于,所述协调组件使用统计分类器来协调所述结果,所述统计分类器对从识别结果提取的分类特征进行操作以产生单个识别结果。
6.如权利要求1所述的系统,其特征在于,所述环境专用约束条件包括不连续的和相交的环境覆盖。
7.如权利要求1所述的系统,其特征在于,所述识别处理处理相关的任务数据以得到单个识别结果,所述相关任务数据包括以下中的至少一个:所识别的字符串、发言级别和子发言级别置信分数、语音覆盖、并行识别间的相对等待时间、环境的先验概率、每个识别的相对难度、或识别结果间的一致同意。
8.如权利要求1所述的系统,还包括一识别组件,被配置成用于在每一个并行路径中使用相应的环境专用约束条件来对输入进行单独的识别处理。
9.如权利要求1所述的系统,还包括一规则组件,被配置成施加定义了单个识别结果的确定的一个或多个规则。
10.一种计算机实现的识别方法,包括:
接收用于处理发言输入的单独的环境专用语法(500);
使用每个路径的相应环境专用语法在各并行路径中识别发言输入(502);
从每个路径产生中间识别结果(504);
利用所述来自每个路径的中间识别结果来生成动态语法;以及
执行回归分析以向所述动态语法的识别路径中的每个路径分配相对权重,并确定最终识别结果(506)。
11.如权利要求10所述的方法,还包括:使用从所述中间识别结果产生的动态语法的重新识别来协调中间识别结果。
12.根据权利要求10所述的方法,其特征在于,还包括:
在由重新识别对中间识别结果的协调期间输入其它域知识;以及
施加一个或多个规则以产生最终识别结果。
13.根据权利要求10所述的方法,其特征在于,还包括:
在由分类对中间识别结果的协调期间输入其它域知识;以及
施加一个或多个规则以产生最终识别结果。
14.根据权利要求10所述的方法,其特征在于,还包括:
执行分类分析;以及
在重新识别动态语法中向每个路径分配相对权重。
15.根据权利要求10所述的方法,其特征在于,还包括:
等待一预定量的时间,用于产生路径的中间识别结果;以及
基于在该时间量内产生的中间识别结果来产生最终识别结果。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US12/477,918 US8930179B2 (en) | 2009-06-04 | 2009-06-04 | Recognition using re-recognition and statistical classification |
US12/477,918 | 2009-06-04 | ||
PCT/US2010/036964 WO2010141513A2 (en) | 2009-06-04 | 2010-06-01 | Recognition using re-recognition and statistical classification |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102460423A CN102460423A (zh) | 2012-05-16 |
CN102460423B true CN102460423B (zh) | 2015-09-09 |
Family
ID=43298454
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201080025833.3A Active CN102460423B (zh) | 2009-06-04 | 2010-06-01 | 使用重新识别和统计分类的识别 |
Country Status (10)
Country | Link |
---|---|
US (1) | US8930179B2 (zh) |
EP (1) | EP2438533B1 (zh) |
JP (2) | JP2012529080A (zh) |
KR (1) | KR101700466B1 (zh) |
CN (1) | CN102460423B (zh) |
AU (1) | AU2010256788B2 (zh) |
BR (1) | BRPI1014550B1 (zh) |
CA (1) | CA2760992C (zh) |
RU (1) | RU2571519C2 (zh) |
WO (1) | WO2010141513A2 (zh) |
Families Citing this family (36)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011033680A (ja) * | 2009-07-30 | 2011-02-17 | Sony Corp | 音声処理装置及び方法、並びにプログラム |
US9711167B2 (en) * | 2012-03-13 | 2017-07-18 | Nice Ltd. | System and method for real-time speaker segmentation of audio interactions |
US9093076B2 (en) * | 2012-04-30 | 2015-07-28 | 2236008 Ontario Inc. | Multipass ASR controlling multiple applications |
US9431012B2 (en) | 2012-04-30 | 2016-08-30 | 2236008 Ontario Inc. | Post processing of natural language automatic speech recognition |
KR20140082157A (ko) * | 2012-12-24 | 2014-07-02 | 한국전자통신연구원 | 다중 음향 모델을 이용하여 음성을 인식하기 위한 장치 및 그 방법 |
CN103077718B (zh) * | 2013-01-09 | 2015-11-25 | 华为终端有限公司 | 语音处理方法、系统和终端 |
US9414004B2 (en) | 2013-02-22 | 2016-08-09 | The Directv Group, Inc. | Method for combining voice signals to form a continuous conversation in performing a voice search |
US20140365218A1 (en) * | 2013-06-07 | 2014-12-11 | Microsoft Corporation | Language model adaptation using result selection |
US9728184B2 (en) | 2013-06-18 | 2017-08-08 | Microsoft Technology Licensing, Llc | Restructuring deep neural network acoustic models |
US9589565B2 (en) | 2013-06-21 | 2017-03-07 | Microsoft Technology Licensing, Llc | Environmentally aware dialog policies and response generation |
US9311298B2 (en) | 2013-06-21 | 2016-04-12 | Microsoft Technology Licensing, Llc | Building conversational understanding systems using a toolset |
US9324321B2 (en) | 2014-03-07 | 2016-04-26 | Microsoft Technology Licensing, Llc | Low-footprint adaptation and personalization for a deep neural network |
US9529794B2 (en) | 2014-03-27 | 2016-12-27 | Microsoft Technology Licensing, Llc | Flexible schema for language model customization |
EP2933067B1 (en) * | 2014-04-17 | 2019-09-18 | Softbank Robotics Europe | Method of performing multi-modal dialogue between a humanoid robot and user, computer program product and humanoid robot for implementing said method |
US9614724B2 (en) | 2014-04-21 | 2017-04-04 | Microsoft Technology Licensing, Llc | Session-based device configuration |
US9520127B2 (en) | 2014-04-29 | 2016-12-13 | Microsoft Technology Licensing, Llc | Shared hidden layer combination for speech recognition systems |
US9384334B2 (en) | 2014-05-12 | 2016-07-05 | Microsoft Technology Licensing, Llc | Content discovery in managed wireless distribution networks |
US10111099B2 (en) | 2014-05-12 | 2018-10-23 | Microsoft Technology Licensing, Llc | Distributing content in managed wireless distribution networks |
US9430667B2 (en) | 2014-05-12 | 2016-08-30 | Microsoft Technology Licensing, Llc | Managed wireless distribution network |
US9384335B2 (en) | 2014-05-12 | 2016-07-05 | Microsoft Technology Licensing, Llc | Content delivery prioritization in managed wireless distribution networks |
US9874914B2 (en) | 2014-05-19 | 2018-01-23 | Microsoft Technology Licensing, Llc | Power management contracts for accessory devices |
US10037202B2 (en) | 2014-06-03 | 2018-07-31 | Microsoft Technology Licensing, Llc | Techniques to isolating a portion of an online computing service |
US9367490B2 (en) | 2014-06-13 | 2016-06-14 | Microsoft Technology Licensing, Llc | Reversible connector for accessory devices |
US9786276B2 (en) * | 2014-08-25 | 2017-10-10 | Honeywell International Inc. | Speech enabled management system |
KR102365757B1 (ko) * | 2015-09-09 | 2022-02-18 | 삼성전자주식회사 | 인식 장치, 인식 방법 및 협업 처리 장치 |
US20180366123A1 (en) * | 2015-12-01 | 2018-12-20 | Nuance Communications, Inc. | Representing Results From Various Speech Services as a Unified Conceptual Knowledge Base |
KR102019757B1 (ko) * | 2015-12-15 | 2019-09-10 | 한국전자통신연구원 | 언어 분석 오류 보정 장치 및 방법 |
DE102016005629B4 (de) * | 2016-05-06 | 2020-06-25 | Audi Ag | Kraftfahrzeug-Bedienvorrichtung und Verfahren zum Ermitteln zumindest eines Erkennungsergebnisses zu einem Sprachsignal |
JP2018191145A (ja) * | 2017-05-08 | 2018-11-29 | オリンパス株式会社 | 収音装置、収音方法、収音プログラム及びディクテーション方法 |
CN107437414A (zh) * | 2017-07-17 | 2017-12-05 | 镇江市高等专科学校 | 基于嵌入式gpu系统的并行化游客识别方法 |
CN107943452B (zh) * | 2017-11-20 | 2020-07-14 | 中国运载火箭技术研究院 | 一种多用户协同开发的体系结构设计平台 |
US11360872B2 (en) | 2018-10-18 | 2022-06-14 | Hewlett-Packard Development Company, L.P. | Creating statistical analyses of data for transmission to servers |
WO2021019775A1 (ja) * | 2019-08-01 | 2021-02-04 | 三菱電機株式会社 | 多言語音声認識装置および多言語音声認識方法 |
US11238884B2 (en) * | 2019-10-04 | 2022-02-01 | Red Box Recorders Limited | Systems and methods for recording quality driven communication management |
US11961511B2 (en) | 2019-11-08 | 2024-04-16 | Vail Systems, Inc. | System and method for disambiguation and error resolution in call transcripts |
JP6786005B1 (ja) * | 2020-04-09 | 2020-11-18 | 日鉄エンジニアリング株式会社 | 情報出力装置、情報出力システム、情報出力方法、プログラム、サーバ装置及びデータ出力方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6122613A (en) * | 1997-01-30 | 2000-09-19 | Dragon Systems, Inc. | Speech recognition using multiple recognizers (selectively) applied to the same input sample |
CN1351744A (zh) * | 1999-03-26 | 2002-05-29 | 皇家菲利浦电子有限公司 | 具有互补语言模型的识别引擎 |
Family Cites Families (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6265089A (ja) | 1985-09-18 | 1987-03-24 | 株式会社リコー | 音声認識装置 |
JPS6346496A (ja) | 1986-04-04 | 1988-02-27 | 株式会社リコー | 音声認識装置 |
US5390279A (en) * | 1992-12-31 | 1995-02-14 | Apple Computer, Inc. | Partitioning speech rules by context for speech recognition |
US5677990A (en) * | 1995-05-05 | 1997-10-14 | Panasonic Technologies, Inc. | System and method using N-best strategy for real time recognition of continuously spelled names |
US7082391B1 (en) * | 1998-07-14 | 2006-07-25 | Intel Corporation | Automatic speech recognition |
US6434524B1 (en) * | 1998-09-09 | 2002-08-13 | One Voice Technologies, Inc. | Object interactive user interface using speech recognition and natural language processing |
JP2000181487A (ja) | 1998-12-14 | 2000-06-30 | Toshiba Tec Corp | 音声認識装置 |
DE19910234A1 (de) | 1999-03-09 | 2000-09-21 | Philips Corp Intellectual Pty | Verfahren mit mehreren Spracherkennern |
JP2001249684A (ja) * | 2000-03-02 | 2001-09-14 | Sony Corp | 音声認識装置および音声認識方法、並びに記録媒体 |
US7213027B1 (en) | 2000-03-21 | 2007-05-01 | Aol Llc | System and method for the transformation and canonicalization of semantically structured data |
US6973429B2 (en) * | 2000-12-04 | 2005-12-06 | A9.Com, Inc. | Grammar generation for voice-based searches |
US7409349B2 (en) * | 2001-05-04 | 2008-08-05 | Microsoft Corporation | Servers for web enabled speech recognition |
JP2003029783A (ja) | 2001-07-17 | 2003-01-31 | Oki Electric Ind Co Ltd | 音声認識制御方式 |
US20030149566A1 (en) | 2002-01-02 | 2003-08-07 | Esther Levin | System and method for a spoken language interface to a large database of changing records |
US7184957B2 (en) * | 2002-09-25 | 2007-02-27 | Toyota Infotechnology Center Co., Ltd. | Multiple pass speech recognition method and system |
EP1774516B1 (en) | 2004-01-12 | 2011-03-16 | Voice Signal Technologies Inc. | Normalization of cepstral features for speech recognition |
JP2006039382A (ja) | 2004-07-29 | 2006-02-09 | Nissan Motor Co Ltd | 音声認識装置 |
US7747437B2 (en) | 2004-12-16 | 2010-06-29 | Nuance Communications, Inc. | N-best list rescoring in speech recognition |
US8364481B2 (en) * | 2008-07-02 | 2013-01-29 | Google Inc. | Speech recognition with parallel recognition tasks |
-
2009
- 2009-06-04 US US12/477,918 patent/US8930179B2/en active Active
-
2010
- 2010-06-01 EP EP10783961.5A patent/EP2438533B1/en active Active
- 2010-06-01 CN CN201080025833.3A patent/CN102460423B/zh active Active
- 2010-06-01 AU AU2010256788A patent/AU2010256788B2/en active Active
- 2010-06-01 KR KR1020117028895A patent/KR101700466B1/ko active IP Right Grant
- 2010-06-01 CA CA2760992A patent/CA2760992C/en active Active
- 2010-06-01 BR BRPI1014550A patent/BRPI1014550B1/pt active IP Right Grant
- 2010-06-01 WO PCT/US2010/036964 patent/WO2010141513A2/en active Application Filing
- 2010-06-01 JP JP2012514054A patent/JP2012529080A/ja active Pending
- 2010-06-01 RU RU2011149321/08A patent/RU2571519C2/ru active
-
2015
- 2015-10-13 JP JP2015202120A patent/JP2016026326A/ja active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6122613A (en) * | 1997-01-30 | 2000-09-19 | Dragon Systems, Inc. | Speech recognition using multiple recognizers (selectively) applied to the same input sample |
CN1351744A (zh) * | 1999-03-26 | 2002-05-29 | 皇家菲利浦电子有限公司 | 具有互补语言模型的识别引擎 |
Also Published As
Publication number | Publication date |
---|---|
AU2010256788A1 (en) | 2011-11-17 |
JP2016026326A (ja) | 2016-02-12 |
AU2010256788B2 (en) | 2014-09-11 |
EP2438533A2 (en) | 2012-04-11 |
RU2011149321A (ru) | 2013-06-10 |
EP2438533A4 (en) | 2016-05-11 |
EP2438533B1 (en) | 2019-01-23 |
JP2012529080A (ja) | 2012-11-15 |
CN102460423A (zh) | 2012-05-16 |
WO2010141513A2 (en) | 2010-12-09 |
KR20120029413A (ko) | 2012-03-26 |
BRPI1014550B1 (pt) | 2020-05-05 |
KR101700466B1 (ko) | 2017-01-26 |
US8930179B2 (en) | 2015-01-06 |
CA2760992A1 (en) | 2010-12-09 |
CA2760992C (en) | 2017-04-25 |
US20100312546A1 (en) | 2010-12-09 |
WO2010141513A3 (en) | 2011-03-03 |
BRPI1014550A2 (pt) | 2016-04-05 |
RU2571519C2 (ru) | 2015-12-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102460423B (zh) | 使用重新识别和统计分类的识别 | |
US20230132020A1 (en) | Streaming real-time dialog management | |
US11030412B2 (en) | System and method for chatbot conversation construction and management | |
EP3095113B1 (en) | Digital personal assistant interaction with impersonations and rich multimedia in responses | |
US10923115B2 (en) | Dynamically generated dialog | |
US20210067470A1 (en) | Methods and systems for improving chatbot intent training | |
CN108509591B (zh) | 信息问答交互方法及系统、存储介质、终端、智能知识库 | |
US11189267B2 (en) | Intelligence-driven virtual assistant for automated idea documentation | |
CN105144286A (zh) | 用于交互的虚拟人物对话的系统和方法 | |
CN111813910B (zh) | 客服问题的更新方法、系统、终端设备及计算机存储介质 | |
KR102170968B1 (ko) | 머신 러닝 기반의 근사모델 구축 방법 및 시스템 | |
CN102160083A (zh) | 跨复杂任务的向导 | |
KR20190143583A (ko) | 대화 이해 ai 시스템에 의하여, 머신러닝을 대화 관리 기술에 적용한 하이브리드 계층적 대화 흐름 모델을 기초로 답변을 제공하는 방법 및 컴퓨터 판독가능 기록 매체 | |
CN110472798A (zh) | 时间序列数据的预测方法、装置及计算机可读存储介质 | |
US20230169272A1 (en) | Communication framework for automated content generation and adaptive delivery | |
KR20190046062A (ko) | 대화 시스템을 위한 대화 시나리오 데이터베이스 구축 방법 및 장치 | |
CN114942944A (zh) | 培训内容生成与数据处理方法、装置、设备及存储介质 | |
US20210197074A1 (en) | Natural speech data generation systems and methods | |
CN114449297B (zh) | 一种多媒体信息的处理方法、计算设备及存储介质 | |
KR101757314B1 (ko) | 학습 서비스 제공 방법 및 장치 | |
CN114625894A (zh) | 鉴赏力评估、模型训练方法、装置、介质和计算设备 | |
CN109891410A (zh) | 用于新的会话对话系统的数据收集 | |
CN115812193A (zh) | 经由数字助理传递兼容的补充内容 | |
CN111159373B (zh) | 智能问答系统的知识库建立方法、装置和存储介质 | |
US11011174B2 (en) | Method and system for determining speaker-user of voice-controllable device |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
ASS | Succession or assignment of patent right |
Owner name: MICROSOFT TECHNOLOGY LICENSING LLC Free format text: FORMER OWNER: MICROSOFT CORP. Effective date: 20150717 |
|
C41 | Transfer of patent application or patent right or utility model | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20150717 Address after: Washington State Applicant after: Micro soft technique license Co., Ltd Address before: Washington State Applicant before: Microsoft Corp. |
|
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |