CN109710727B - 用于自然语言处理的系统和方法 - Google Patents
用于自然语言处理的系统和方法 Download PDFInfo
- Publication number
- CN109710727B CN109710727B CN201811249888.7A CN201811249888A CN109710727B CN 109710727 B CN109710727 B CN 109710727B CN 201811249888 A CN201811249888 A CN 201811249888A CN 109710727 B CN109710727 B CN 109710727B
- Authority
- CN
- China
- Prior art keywords
- results
- speech recognition
- correct
- data fusion
- correct result
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 25
- 238000003058 natural language processing Methods 0.000 title claims abstract description 14
- 230000004927 fusion Effects 0.000 claims abstract description 25
- 238000012549 training Methods 0.000 claims abstract description 9
- 230000008569 process Effects 0.000 claims abstract description 6
- 238000012545 processing Methods 0.000 claims description 6
- 230000006870 function Effects 0.000 claims description 4
- 230000008901 benefit Effects 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 6
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 230000001755 vocal effect Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 241000238558 Eucarida Species 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/32—Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/19—Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
- G10L15/197—Probabilistic grammars, e.g. word n-grams
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1815—Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Theoretical Computer Science (AREA)
- Probability & Statistics with Applications (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
一种用于使用多个语音辨识引擎、数据融合模型和语义理解模型来提高自然语言处理的准确性的系统和方法,所述数据融合模型用以识别来自所述多个语音辨识引擎的正确结果,所述语义理解模型与所述语音辨识模型分开且不同,用以处理所述正确结果。使用所述正确结果开发语料库并且使用所述语料库来训练所述数据融合模型和所述语义理解模型。
Description
技术领域
本发明主题涉及用于自动语音辨识的自然语言处理,且更具体地涉及提高自然语言处理的准确性。
背景技术
在连接性正变得普遍的世界中,有许多集成了语音辨识技术以改善用户与所连接装置之间存在的人机界面的装置。例如,在车辆中,导航系统、信息娱乐系统、气候控制系统或其他车辆操作都可以使用语音辨识技术来控制。在被连接的家中,家庭用品例如电视机、时钟、电器、照明开关、恒温器和真空吸尘器可以集成语音辨识技术。其他便携式装置例如个人助理、智能手表、平板电脑、移动电话(仅举几个例子)也集成了语音辨识技术。
在目前的装置实践中,单个语音辨识引擎负责自动语音辨识和语义理解功能。然而,已知语音辨识引擎并不完全准确,并且经常无法辨识或识别自然语言处理中的错误。
需要提高语音辨识技术中使用的自然语言处理的准确性。
发明内容
本发明提供一种用于使用多个语音辨识引擎、数据融合模型和语义理解模型来提高自然语言处理的准确性的系统和方法,所述数据融合模型用以识别来自所述多个语音辨识引擎的正确结果,所述语义理解模型与所述语音辨识模型分开且不同,用以处理所述正确结果。使用所述正确结果开发语料库并且使用所述语料库来训练所述数据融合模型和所述语义理解模型。
附图说明
图1是用于自然语言处理的系统的系统架构的框图;
图2是用于自然语言处理的方法的流程图;以及
图3是用于确定正确结果的方法的流程图。
附图中的元件和步骤是为了简单和清楚起见而示出,并且并不一定根据任何特定顺序呈现。例如,在附图中示出可以同时或按不同次序实施的步骤以帮助改进对本发明主题的实施例的理解。
具体实施方式
虽然参考特定说明性实施例描述本发明主题的各个方面,但是本发明主题并不限于此类实施例,并且可以在不背离本发明主题的情况下实现额外修改、应用和实施例。在附图中,将使用相似参考编号来示出相同部件。本领域技术人员将认识到,可以更改本文阐述的各种部件而不改变本发明主题的范围。
传统上,装置只使用一个语音辨识引擎。该单个引擎负责自动语音辨识功能和语义理解功能两者。图1是在例如便携式或移动电话或平板电脑、计算机、信息娱乐系统或实现语音辨识技术的任何其他装置等装置上的用于自然语言处理的系统100的框图。该系统包括可以从使用多种编程语言和/或技术创建的计算机程序编译或解译的计算机可执行指令。一般来说,处理器(例如,微处理器)例如从存储器、计算机可读介质或类似物接收指令并执行指令。处理器包括能够执行软件程序的指令的非暂时性计算机可读存储介质。计算机可读存储介质可以是但不限于电子存储装置、磁性存储装置、光学存储装置、电磁存储装置、半导体存储装置或其任何合适的组合。还包括用于与处理器通信的通信构件,例如数据总线。
输入装置102(例如,麦克风)接收自然语言输入,例如来自用户的口头命令,并且将口头输入命令呈现给可通过处理器访问的多个语音辨识引擎104a-n。语音辨识引擎104a-n是市场上可买到的引擎,例如iFlyTek、Baidu、Hound、Siri、Amazon Alexa和Microsoft Cortana(仅举几个例子)。多个语音辨识引擎104a-n中的每个语音辨识引擎104仅负责自然语言处理的自动语音辨识部分。语义理解部分在本文稍后将讨论的语义理解模型106中单独实现。
多个语音辨识引擎104a-n中的每个语音辨识引擎104提供结果108,从而产生多个结果108a-n。对于口头输入命令,可能将在语音辨识引擎104a-n中产生不同的结果。数据融合模型110合并多个结果108a-n以选择正确结果。语义理解模型106接收正确结果以供装置使用。本文将不讨论多个语音辨识引擎中的每个语音辨识引擎104的细节。每个语音辨识引擎获得其对应结果108有若干种方法,其多样性对于数据融合模型106在选择正确结果时或在没有正确结果供选择的情况下确定正确结果时在本质上是有用的。
此外,系统100可以涉及处理器数字地处理在输入102处接收的音频信号以增强输入信号。例如,可以数字化并过滤在输入102处接收的口头命令来消除背景噪声。
参考图2,示出了方法200的流程图。在例如麦克风等输入处接收语音或音频输入(202),并将其发送至多个语音辨识引擎(204)。每个语音辨识引擎产生结果,该结果由数据融合模型接收并编译成一组结果(206)。识别正确结果(208),将正确结果传输至语义理解模型以供装置处理(210)。当来自语音辨识引擎中的每一者的结果相同时,容易识别正确结果。然而,当结果不同时,需要进一步开发以便识别正确结果。
当来自多个语音辨识引擎的结果不相同时,在许多情形下很可能是这种情况,通过统计语言建模来实现对正确结果的确定。统计语言建模用于计算句子或口头命令的概率。有许多统计语言建模方法可用。一个例子是N元语法模型。
参考图3,示出了更详细的流程图300来描述通过使用从多个语音辨识引擎收集的正确结果开发语料库来确定正确或最佳结果以及训练语言模型。对多个语音辨识结果中的每个结果进行编译(302)并将彼此进行比较(304)。在所有结果都相同(306)的情况下,识别正确结果(308)。在结果并不都相同(310)的情况下,通过应用语言模型(314)并为结果中的每一个分配概率来选择结果(312)。基于其作为正确结果的概率而选择结果(312)。所选择的结果(312)在该组结果中具有作为正确结果的最高概率。结果的概率是基于如使用所应用的语言模型(314)而确定的当前应用或语境中的句子或口头命令。记录正确结果(316)并将其并入至语料库中(318)。应用模型(例如,N元语法模型)来选择正确的语料库并将其用于训练(320)语言模型(314)。例如,可以应用维特比算法来选择具有作为正确结果的最高概率的结果(312),并且将那个选择的结果识别为正确结果(312)。总之,在数据融合模型中出现的数据融合允许从多个所识别的结果中选择正确结果或从组合结果中选择最佳结果,这在统计上产生更准确的结果。
例如,用户输入口头命令“I want to go to Mike’s house”。语音辨识引擎1返回结果1,“I want to go to Mike’s house”。语音辨识引擎2返回结果2“I want to go toMike’s horse”。语音辨识引擎3返回结果3,“I won’t to go to Mike’s house”。显然,结果1表示正常的表达,并且将具有这个是正确结果的更高联合概率。在另一例子中,用户输入口头命令“Start Music”。语音辨识引擎1返回结果1“Music start”,语音辨识引擎2返回结果2“Music star”。这个例子较复杂,因为这两个陈述都可能是正常表达。然而,考虑到被对着“讲话”的装置的车辆环境,“Music start”更有可能,并且因此将得到被识别为正确结果的更大联合概率。
通过语音辨识模型,将语音辨识为文本。通过数据融合模型,识别正确结果。通过语义理解模型,将数据结构化使得正确或最佳结果以逻辑方式呈现。集成多个语音辨识引擎的结果增加了识别正确结果的概率。类似地,准确性的提高将适用于语义理解模型。例如,通过语音辨识模型处理输入句子“I need to go to the store”,并将正确结果识别为“I need to go to the store”。语义理解模型将识别具有目的地为“the store”的“导航”中的动作。如上所述,存在许多可以应用于这个模型并使用文本分类来识别动作,即导航,然后使用信息提取方法来识别对应的参数,即the store目的地的技术。可以使用支持向量机(SVM)来实现文本分类,并且可以使用条件随机场(CRM)来实现信息提取。
由于将句子输入发送至多个语音辨识引擎,因此对多个语音辨识引擎的结果进行编译。因此,通过收集在训练语义理解模型(也称为语言模型314)中使用的更多语料库来提高系统100和方法200、300的准确性。
通过获得正确的语音辨识结果,不断地改进数据融合模型110和语义理解模型106。数据融合模型的更多语料库意味着更好的训练,并因此增大识别正确结果的概率。同样,对于语义理解模型,更多语料库意味着更好的训练并增大辨识正确结果的概率。通过记录语音辨识引擎的所有结果来收集语料库。通过选择具有低联合概率的输入句子来排列语料库。手动地确定输入句子是否为正常表达可能是必要的。在这样的确定之后,将输入句子添加至语料库。当语料库达到预定大小时,可以重新训练模型。然后应用重新训练的模型以作为对正在装置上使用或正由装置使用的系统的更新。
在上述说明书中,已经参考特定示例性实施例描述了本发明主题。然而,可以在不背离如权利要求书中阐述的本发明主题的范围的情况下作出各种修改和改变。说明书和附图是说明性而非限制性的,并且修改打算包含在本发明主题的范围内。因此,本发明主题的范围应由权利要求书及其合法等效内容、而非仅由所述示例确定。
例如,任何方法或过程权利要求中列举的步骤可以按任何顺序执行,并且不限于在权利要求中呈现的特定顺序。另外,任何设备权利要求中陈述的部件和/或元件可组装或以其他方式可操作地配置成各种置换形式,并且因此并不限于权利要求中陈述的特定配置。
上文已经关于特定实施例描述了益处、其他优点和问题的解决方案;然而,任何益处、优点、问题的解决方案或任何可导致任何特定益处、优点或解决方案发生或变得更明显的元件不应被解释为任何或所有权利要求的关键、所需或必要特征或部件。
术语“包括”、“具有”、“包含”或其任何变型都打算引用非排他性包含,使得包括元件列表的过程、方法、物品、组成或设备不仅包含那些所陈述的元件,而且可以包含未明确列出或此过程、方法、物品、组成或设备固有的其他元件。除了未具体陈述的那些之外,在本发明主题的实践中使用的上述结构、布置、应用、比例、元件、材料或部件的其他组合和/或修改可以改变或以其他方式特别适于特定环境、制造技术规范、设计参数或其他操作要求,而不背离其一般原理。
Claims (11)
1.一种用于提高自然语言处理的准确性的系统,所述系统包括:
自然语言输入装置;
多个语音辨识引擎,所述多个语音辨识引擎仅用于自动语音辨识功能,所述多个语音辨识引擎连接至所述输入装置,所述多个语音辨识引擎从所述输入装置接收输入,并且将语音辨识结果作为一组语音辨识结果的一部分而呈现;
数据融合模型,所述数据融合模型用以接收所述一组语音辨识结果并从所述一组语音辨识结果中识别正确结果;
语义理解模型,所述语义理解模型与所述多个语音辨识引擎分开且不同,用以处理所述正确结果;以及
所述语音辨识结果中的所有结果的集合,用于开发包括所述正确结果的语料库,所述语料库用于训练所述数据融合模型和所述语义理解模型。
2.如权利要求1所述的系统,其中所述数据融合模型从所述一组语音辨识结果中识别正确结果进一步包括当所述一组语音辨识结果中的所述结果中的每一者相同时识别所述正确结果。
3.如权利要求1所述的系统,其中所述数据融合模型从所述一组语音辨识结果中识别正确结果进一步包括将所述正确结果识别为所述一组语音辨识结果中的具有作为正确结果的最高概率的结果。
4.一种自然语言处理的方法,在具有自然语言输入装置、多个语音辨识引擎、数据融合模型和语义理解模型的系统中进行处理,所述方法在具有计算机可执行指令的处理器中实施,所述计算机可执行指令用于执行以下步骤:
在所述自然语言输入装置处接收输入句子;
在所述多个语音辨识引擎处处理所述输入句子,所述多个语音辨识引擎中的每一者产生结果,所述结果是所有所述语音辨识引擎的一组结果的一部分;
应用所述数据融合模型来从所述一组结果中识别正确结果;
在所述语义理解模型中处理所述正确结果;
记录来自所述多个语音辨识引擎的所有所述结果以开发包括正确结果的语料库;以及
使用所述开发的语料库来训练所述数据融合模型和所述语义理解模型。
5.如权利要求4所述的方法,其中所述应用所述数据融合模型来识别正确结果的步骤进一步包括通过所述一组语音辨识结果中的所述结果中的每一者相同来识别所述正确结果。
6.如权利要求4所述的方法,其中所述应用所述数据融合模型来从所述一组语音辨识结果中识别正确结果的步骤进一步包括将所述正确结果识别为所述一组语音辨识结果中的具有作为正确结果的最高概率的结果。
7.如权利要求4所述的方法,其中记录所述多个语音辨识引擎的所述结果以开发语料库进一步包括以下步骤:
从所述输入句子的所述一组结果中选择具有作为正确结果的低概率的一个或多个结果;
手动地确定所述输入句子是正常表达;以及
将所述输入句子添加至所述开发的语料库。
8.一种包括程序的计算机可读介质,所述程序在由一个或多个处理器执行时执行包括以下各项的操作:
使用多个语音辨识引擎处理由输入装置接收的输入句子;
产生包括所述多个语音辨识引擎中的每个语音辨识引擎的所有结果的一组结果;
将数据融合模型应用于所述一组结果以从所述一组结果中识别正确结果;以及
在语义理解模型中处理所述正确结果;
记录来自所述多个语音辨识引擎的所有所述结果以开发包括正确结果的语料库;以及
使用所述开发的语料库来训练所述数据融合模型和所述语义理解模型。
9.如权利要求8所述的计算机可读介质,其中所述程序执行将数据融合模型应用于所述一组结果以从所述一组结果中识别正确结果的操作进一步包括当所述一组结果中的所有所述结果相同时识别所述正确结果。
10.如权利要求8所述的计算机可读介质,其中所述程序执行将数据融合模型应用于所述一组结果以从所述一组结果中识别正确结果的操作进一步包括将所述正确结果识别为所述一组语音辨识结果中的具有作为正确结果的最高概率的结果。
11.如权利要求8所述的计算机可读介质,其中所述包括记录所述多个语音辨识引擎的所述结果以开发语料库的操作进一步包括以下各项的操作:
从所述输入句子的所述一组结果中选择具有作为正确结果的低概率的一个或多个结果;
手动地确定所述输入句子是正常表达;以及
将所述输入句子添加至所述开发的语料库。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US15/794,114 US10395647B2 (en) | 2017-10-26 | 2017-10-26 | System and method for natural language processing |
US15/794,114 | 2017-10-26 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109710727A CN109710727A (zh) | 2019-05-03 |
CN109710727B true CN109710727B (zh) | 2023-09-12 |
Family
ID=63762179
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811249888.7A Active CN109710727B (zh) | 2017-10-26 | 2018-10-25 | 用于自然语言处理的系统和方法 |
Country Status (4)
Country | Link |
---|---|
US (1) | US10395647B2 (zh) |
EP (1) | EP3477635B1 (zh) |
KR (1) | KR20190046631A (zh) |
CN (1) | CN109710727B (zh) |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20210398521A1 (en) * | 2018-11-06 | 2021-12-23 | Systran International | Method and device for providing voice recognition service |
CN110246486B (zh) * | 2019-06-03 | 2021-07-13 | 北京百度网讯科技有限公司 | 语音识别模型的训练方法、装置及设备 |
CN110910890A (zh) * | 2019-12-11 | 2020-03-24 | 微创(上海)网络技术股份有限公司 | 一种自然语言的识别处理方法及系统 |
CN111291758B (zh) * | 2020-02-17 | 2023-08-04 | 北京百度网讯科技有限公司 | 用于识别印章文字的方法和装置 |
US11495211B2 (en) * | 2020-10-29 | 2022-11-08 | International Business Machines Corporation | Memory deterioration detection and amelioration |
CN112562640B (zh) * | 2020-12-01 | 2024-04-12 | 北京声智科技有限公司 | 多语言语音识别方法、装置、系统及计算机可读存储介质 |
KR102384694B1 (ko) | 2021-06-24 | 2022-04-08 | 주식회사 렉스퍼 | 신경망 모델과 비 신경망 모델을 이용한 자연어 처리 방법 및 자연어 처리 장치 |
KR102594734B1 (ko) | 2021-06-24 | 2023-10-26 | 주식회사 렉스퍼 | LDA(Latent Dirichlet Allocation) 토픽 모델링 기법을 이용한 텍스트 분석 방법 및 이를 수행하는 텍스트 분석 장치 |
CN113506565B (zh) * | 2021-07-12 | 2024-06-04 | 北京捷通华声科技股份有限公司 | 语音识别的方法、装置、计算机可读存储介质与处理器 |
CN117219067B (zh) * | 2023-09-27 | 2024-04-09 | 北京华星酷娱文化传媒有限公司 | 一种基于语音理解的短视频自动生成字幕的方法及系统 |
CN117198292B (zh) * | 2023-11-08 | 2024-02-02 | 太平金融科技服务(上海)有限公司 | 一种语音融合处理方法、装置、设备及介质 |
CN117238276B (zh) * | 2023-11-10 | 2024-01-30 | 深圳市托普思维商业服务有限公司 | 一种基于智能化语音数据识别的分析纠正系统 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1831937A (zh) * | 2005-03-08 | 2006-09-13 | 台达电子工业股份有限公司 | 语音辨识与语言理解分析的方法与装置 |
Family Cites Families (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6606597B1 (en) * | 2000-09-08 | 2003-08-12 | Microsoft Corporation | Augmented-word language model |
EP3091535B1 (en) * | 2009-12-23 | 2023-10-11 | Google LLC | Multi-modal input on an electronic device |
US9129225B2 (en) * | 2011-05-25 | 2015-09-08 | Nokia Technologies Oy | Method and apparatus for providing rule-based recommendations |
US8650031B1 (en) | 2011-07-31 | 2014-02-11 | Nuance Communications, Inc. | Accuracy improvement of spoken queries transcription using co-occurrence information |
US9384734B1 (en) * | 2012-02-24 | 2016-07-05 | Google Inc. | Real-time audio recognition using multiple recognizers |
US9058805B2 (en) * | 2013-05-13 | 2015-06-16 | Google Inc. | Multiple recognizer speech recognition |
US9818401B2 (en) | 2013-05-30 | 2017-11-14 | Promptu Systems Corporation | Systems and methods for adaptive proper name entity recognition and understanding |
US9286892B2 (en) | 2014-04-01 | 2016-03-15 | Google Inc. | Language modeling in speech recognition |
WO2015199731A1 (en) * | 2014-06-27 | 2015-12-30 | Nuance Communications, Inc. | System and method for allowing user intervention in a speech recognition process |
US10121471B2 (en) * | 2015-06-29 | 2018-11-06 | Amazon Technologies, Inc. | Language model speech endpointing |
US20180366123A1 (en) | 2015-12-01 | 2018-12-20 | Nuance Communications, Inc. | Representing Results From Various Speech Services as a Unified Conceptual Knowledge Base |
US10373612B2 (en) * | 2016-03-21 | 2019-08-06 | Amazon Technologies, Inc. | Anchored speech detection and speech recognition |
JP6727607B2 (ja) * | 2016-06-09 | 2020-07-22 | 国立研究開発法人情報通信研究機構 | 音声認識装置及びコンピュータプログラム |
US9959861B2 (en) * | 2016-09-30 | 2018-05-01 | Robert Bosch Gmbh | System and method for speech recognition |
US10971157B2 (en) * | 2017-01-11 | 2021-04-06 | Nuance Communications, Inc. | Methods and apparatus for hybrid speech recognition processing |
US10586528B2 (en) * | 2017-02-02 | 2020-03-10 | Adobe Inc. | Domain-specific speech recognizers in a digital medium environment |
US20170173262A1 (en) * | 2017-03-01 | 2017-06-22 | François Paul VELTZ | Medical systems, devices and methods |
-
2017
- 2017-10-26 US US15/794,114 patent/US10395647B2/en active Active
-
2018
- 2018-09-13 EP EP18194140.2A patent/EP3477635B1/en active Active
- 2018-10-02 KR KR1020180117334A patent/KR20190046631A/ko not_active Application Discontinuation
- 2018-10-25 CN CN201811249888.7A patent/CN109710727B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1831937A (zh) * | 2005-03-08 | 2006-09-13 | 台达电子工业股份有限公司 | 语音辨识与语言理解分析的方法与装置 |
Also Published As
Publication number | Publication date |
---|---|
US10395647B2 (en) | 2019-08-27 |
CN109710727A (zh) | 2019-05-03 |
EP3477635B1 (en) | 2023-06-07 |
US20190130895A1 (en) | 2019-05-02 |
KR20190046631A (ko) | 2019-05-07 |
EP3477635A1 (en) | 2019-05-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109710727B (zh) | 用于自然语言处理的系统和方法 | |
US10733983B2 (en) | Parameter collection and automatic dialog generation in dialog systems | |
CN110770736B (zh) | 将对话驱动式应用程序导出到数字通信平台 | |
US10832674B2 (en) | Voice data processing method and electronic device supporting the same | |
US9865264B2 (en) | Selective speech recognition for chat and digital personal assistant systems | |
US10719507B2 (en) | System and method for natural language processing | |
US11217230B2 (en) | Information processing device and information processing method for determining presence or absence of a response to speech of a user on a basis of a learning result corresponding to a use situation of the user | |
CN107256706B (zh) | 一种计算设备及其存储介质 | |
CN110858481B (zh) | 用于处理用户语音话语的系统和用于操作该系统的方法 | |
KR20190100334A (ko) | 문맥상의 핫워드들 | |
EP2587478A2 (en) | Speech recognition repair using contextual information | |
CN112970059B (zh) | 用于处理用户话语的电子装置及其控制方法 | |
EP3564948A1 (en) | Information processing device and information processing method | |
CN110308886B (zh) | 提供与个性化任务相关联的声音命令服务的系统和方法 | |
US9202459B2 (en) | Methods and systems for managing dialog of speech systems | |
JP2018072560A (ja) | 情報処理システム、情報処理装置及び情報処理方法 | |
CN111508481A (zh) | 语音唤醒模型的训练方法、装置、电子设备及存储介质 | |
US12062370B2 (en) | Electronic device and method for controlling the electronic device thereof | |
CN112037772A (zh) | 基于多模态的响应义务检测方法、系统及装置 | |
KR20210044606A (ko) | 웨이크업 모델 생성 방법 및 이를 위한 전자 장치 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |