CN109710727A - 用于自然语言处理的系统和方法 - Google Patents

用于自然语言处理的系统和方法 Download PDF

Info

Publication number
CN109710727A
CN109710727A CN201811249888.7A CN201811249888A CN109710727A CN 109710727 A CN109710727 A CN 109710727A CN 201811249888 A CN201811249888 A CN 201811249888A CN 109710727 A CN109710727 A CN 109710727A
Authority
CN
China
Prior art keywords
result
group
speech recognition
correct
data fusion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811249888.7A
Other languages
English (en)
Other versions
CN109710727B (zh
Inventor
齐连军
马建军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Crown Audio Inc
Original Assignee
Crown Audio Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Crown Audio Inc filed Critical Crown Audio Inc
Publication of CN109710727A publication Critical patent/CN109710727A/zh
Application granted granted Critical
Publication of CN109710727B publication Critical patent/CN109710727B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • G10L15/197Probabilistic grammars, e.g. word n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/32Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Theoretical Computer Science (AREA)
  • Probability & Statistics with Applications (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

一种用于使用多个语音辨识引擎、数据融合模型和语义理解模型来提高自然语言处理的准确性的系统和方法,所述数据融合模型用以识别来自所述多个语音辨识引擎的正确结果,所述语义理解模型与所述语音辨识模型分开且不同,用以处理所述正确结果。使用所述正确结果开发语料库并且使用所述语料库来训练所述数据融合模型和所述语义理解模型。

Description

用于自然语言处理的系统和方法
技术领域
本发明主题涉及用于自动语音辨识的自然语言处理,且更具体地涉及提高自然语言处理的准确性。
背景技术
在连接性正变得普遍的世界中,有许多集成了语音辨识技术以改善用户与所连接装置之间存在的人机界面的装置。例如,在车辆中,导航系统、信息娱乐系统、气候控制系统或其他车辆操作都可以使用语音辨识技术来控制。在被连接的家中,家庭用品例如电视机、时钟、电器、照明开关、恒温器和真空吸尘器可以集成语音辨识技术。其他便携式装置例如个人助理、智能手表、平板电脑、移动电话(仅举几个例子)也集成了语音辨识技术。
在目前的装置实践中,单个语音辨识引擎负责自动语音辨识和语义理解功能。然而,已知语音辨识引擎并不完全准确,并且经常无法辨识或识别自然语言处理中的错误。
需要提高语音辨识技术中使用的自然语言处理的准确性。
发明内容
本发明提供一种用于使用多个语音辨识引擎、数据融合模型和语义理解模型来提高自然语言处理的准确性的系统和方法,所述数据融合模型用以识别来自所述多个语音辨识引擎的正确结果,所述语义理解模型与所述语音辨识模型分开且不同,用以处理所述正确结果。使用所述正确结果开发语料库并且使用所述语料库来训练所述数据融合模型和所述语义理解模型。
附图说明
图1是用于自然语言处理的系统的系统架构的框图;
图2是用于自然语言处理的方法的流程图;以及
图3是用于确定正确结果的方法的流程图。
附图中的元件和步骤是为了简单和清楚起见而示出,并且并不一定根据任何特定顺序呈现。例如,在附图中示出可以同时或按不同次序实施的步骤以帮助改进对本发明主题的实施例的理解。
具体实施方式
虽然参考特定说明性实施例描述本发明主题的各个方面,但是本发明主题并不限于此类实施例,并且可以在不背离本发明主题的情况下实现额外修改、应用和实施例。在附图中,将使用相似参考编号来示出相同部件。本领域技术人员将认识到,可以更改本文阐述的各种部件而不改变本发明主题的范围。
传统上,装置只使用一个语音辨识引擎。该单个引擎负责自动语音辨识功能和语义理解功能两者。图1是在例如便携式或移动电话或平板电脑、计算机、信息娱乐系统或实现语音辨识技术的任何其他装置等装置上的用于自然语言处理的系统100的框图。该系统包括可以从使用多种编程语言和/或技术创建的计算机程序编译或解译的计算机可执行指令。一般来说,处理器(例如,微处理器)例如从存储器、计算机可读介质或类似物接收指令并执行指令。处理器包括能够执行软件程序的指令的非暂时性计算机可读存储介质。计算机可读存储介质可以是但不限于电子存储装置、磁性存储装置、光学存储装置、电磁存储装置、半导体存储装置或其任何合适的组合。还包括用于与处理器通信的通信构件,例如数据总线。
输入装置102(例如,麦克风)接收自然语言输入,例如来自用户的口头命令,并且将口头输入命令呈现给可通过处理器访问的多个语音辨识引擎104a-n。语音辨识引擎104a-n是市场上可买到的引擎,例如iFlyTek、Baidu、Hound、Siri、Amazon Alexa和Microsoft Cortana(仅举几个例子)。多个语音辨识引擎104a-n中的每个语音辨识引擎104仅负责自然语言处理的自动语音辨识部分。语义理解部分在本文稍后将讨论的语义理解模型106中单独实现。
多个语音辨识引擎104a-n中的每个语音辨识引擎104提供结果108,从而产生多个结果108a-n。对于口头输入命令,可能将在语音辨识引擎104a-n中产生不同的结果。数据融合模型110合并多个结果108a-n以选择正确结果。语义理解模型106接收正确结果以供装置使用。本文将不讨论多个语音辨识引擎中的每个语音辨识引擎104的细节。每个语音辨识引擎获得其对应结果108有若干种方法,其多样性对于数据融合模型106在选择正确结果时或在没有正确结果供选择的情况下确定正确结果时在本质上是有用的。
此外,系统100可以涉及处理器数字地处理在输入102处接收的音频信号以增强输入信号。例如,可以数字化并过滤在输入102处接收的口头命令来消除背景噪声。
参考图2,示出了方法200的流程图。在例如麦克风等输入处接收语音或音频输入(202),并将其发送至多个语音辨识引擎(204)。每个语音辨识引擎产生结果,该结果由数据融合模型接收并编译成一组结果(206)。识别正确结果(208),将正确结果传输至语义理解模型以供装置处理(210)。当来自语音辨识引擎中的每一者的结果相同时,容易识别正确结果。然而,当结果不同时,需要进一步开发以便识别正确结果。
当来自多个语音辨识引擎的结果不相同时,在许多情形下很可能是这种情况,通过统计语言建模来实现对正确结果的确定。统计语言建模用于计算句子或口头命令的概率。有许多统计语言建模方法可用。一个例子是N元语法模型。
参考图3,示出了更详细的流程图300来描述通过使用从多个语音辨识引擎收集的正确结果开发语料库来确定正确或最佳结果以及训练语言模型。对多个语音辨识结果中的每个结果进行编译(302)并将彼此进行比较(304)。在所有结果都相同(306)的情况下,识别正确结果(308)。在结果并不都相同(310)的情况下,通过应用语言模型(314)并为结果中的每一个分配概率来选择结果(312)。基于其作为正确结果的概率而选择结果(312)。所选择的结果(312)在该组结果中具有作为正确结果的最高概率。结果的概率是基于如使用所应用的语言模型(314)而确定的当前应用或语境中的句子或口头命令。记录正确结果(316)并将其并入至语料库中(318)。应用模型(例如,N元语法模型)来选择正确的语料库并将其用于训练(320)语言模型(314)。例如,可以应用维特比算法来选择具有作为正确结果的最高概率的结果(312),并且将那个选择的结果识别为正确结果(312)。总之,在数据融合模型中出现的数据融合允许从多个所识别的结果中选择正确结果或从组合结果中选择最佳结果,这在统计上产生更准确的结果。
例如,用户输入口头命令“I want to go to Mike’s house”。语音辨识引擎1返回结果1,“I want to go to Mike’s house”。语音辨识引擎2返回结果2“I want to go toMike’s horse”。语音辨识引擎3返回结果3,“I won’t to go to Mike’s house”。显然,结果1表示正常的表达,并且将具有这个是正确结果的更高联合概率。在另一例子中,用户输入口头命令“Start Music”。语音辨识引擎1返回结果1“Music start”,语音辨识引擎2返回结果2“Music star”。这个例子较复杂,因为这两个陈述都可能是正常表达。然而,考虑到被对着“讲话”的装置的车辆环境,“Music start”更有可能,并且因此将得到被识别为正确结果的更大联合概率。
通过语音辨识模型,将语音辨识为文本。通过数据融合模型,识别正确结果。通过语义理解模型,将数据结构化使得正确或最佳结果以逻辑方式呈现。集成多个语音辨识引擎的结果增加了识别正确结果的概率。类似地,准确性的提高将适用于语义理解模型。例如,通过语音辨识模型处理输入句子“I need to go to the store”,并将正确结果识别为“I need to go to the store”。语义理解模型将识别具有目的地为“the store”的“导航”中的动作。如上所述,存在许多可以应用于这个模型并使用文本分类来识别动作,即导航,然后使用信息提取方法来识别对应的参数,即the store目的地的技术。可以使用支持向量机(SVM)来实现文本分类,并且可以使用条件随机场(CRM)来实现信息提取。
由于将句子输入发送至多个语音辨识引擎,因此对多个语音辨识引擎的结果进行编译。因此,通过收集在训练语义理解模型(也称为语言模型314)中使用的更多语料库来提高系统100和方法200、300的准确性。
通过获得正确的语音辨识结果,不断地改进数据融合模型110和语义理解模型106。数据融合模型的更多语料库意味着更好的训练,并因此增大识别正确结果的概率。同样,对于语义理解模型,更多语料库意味着更好的训练并增大辨识正确结果的概率。通过记录语音辨识引擎的所有结果来收集语料库。通过选择具有低联合概率的输入句子来排列语料库。手动地确定输入句子是否为正常表达可能是必要的。在这样的确定之后,将输入句子添加至语料库。当语料库达到预定大小时,可以重新训练模型。然后应用重新训练的模型以作为对正在装置上使用或正由装置使用的系统的更新。
在上述说明书中,已经参考特定示例性实施例描述了本发明主题。然而,可以在不背离如权利要求书中阐述的本发明主题的范围的情况下作出各种修改和改变。说明书和附图是说明性而非限制性的,并且修改打算包含在本发明主题的范围内。因此,本发明主题的范围应由权利要求书及其合法等效内容、而非仅由所述示例确定。
例如,任何方法或过程权利要求中列举的步骤可以按任何顺序执行,并且不限于在权利要求中呈现的特定顺序。另外,任何设备权利要求中陈述的部件和/或元件可组装或以其他方式可操作地配置成各种置换形式,并且因此并不限于权利要求中陈述的特定配置。
上文已经关于特定实施例描述了益处、其他优点和问题的解决方案;然而,任何益处、优点、问题的解决方案或任何可导致任何特定益处、优点或解决方案发生或变得更明显的元件不应被解释为任何或所有权利要求的关键、所需或必要特征或部件。
术语“包括”、“具有”、“包含”或其任何变型都打算引用非排他性包含,使得包括元件列表的过程、方法、物品、组成或设备不仅包含那些所陈述的元件,而且可以包含未明确列出或此过程、方法、物品、组成或设备固有的其他元件。除了未具体陈述的那些之外,在本发明主题的实践中使用的上述结构、布置、应用、比例、元件、材料或部件的其他组合和/或修改可以改变或以其他方式特别适于特定环境、制造技术规范、设计参数或其他操作要求,而不背离其一般原理。

Claims (14)

1.一种用于提高自然语言处理的准确性的系统,所述系统包括:
自然语言输入装置;
多个语音辨识引擎,所述多个语音辨识引擎仅用于自动语音辨识功能,所述多个语音辨识引擎连接至所述输入装置,所述多个语音辨识引擎从所述输入装置接收输入,并且将语音辨识结果作为一组语音辨识结果的一部分而呈现;
数据融合模型,所述数据融合模型用以接收所述一组语音辨识结果并从所述一组语音辨识结果中识别正确结果;以及
语义理解模型,所述语义理解模型与所述多个语音辨识引擎分开且不同,用以处理所述正确结果。
2.如权利要求1所述的系统,其中所述数据融合模型从所述一组语音辨识结果中识别正确结果进一步包括当所述一组语音辨识结果中的所述结果中的每一者相同时识别所述正确结果。
3.如权利要求1所述的系统,其中所述数据融合模型从所述一组语音辨识结果中识别正确结果进一步包括将所述正确结果识别为所述一组语音辨识结果中的具有作为正确结果的最高概率的结果。
4.如权利要求1所述的系统,其进一步包括所述多个语音辨识结果中的所有所述结果的集合,所述集合定义语料库,所述语料库用于训练所述数据融合模型和所述语义理解模型。
5.一种在具有自然语言输入装置、多个语音辨识引擎、数据融合模型和语义理解模型的系统中进行自然语言处理的方法,所述方法在具有计算机可执行指令的处理器中实施,所述计算机可执行指令用于执行以下步骤:
在所述自然语言输入装置处接收输入句子;
在所述多个语音辨识引擎处处理所述输入句子,所述多个语音辨识引擎中的每一者产生结果,所述结果是所有所述语音辨识引擎的一组结果的一部分;
应用所述数据融合模型来从所述一组结果中识别正确结果;以及
在所述语义理解模型中处理所述正确结果。
6.如权利要求5所述的方法,其中所述应用所述数据融合模型来识别正确结果的步骤进一步包括通过所述一组语音辨识结果中的所述结果中的每一者相同来识别所述正确结果。
7.如权利要求5所述的方法,其中所述应用所述数据融合模型来从所述一组语音辨识结果中识别正确结果的步骤进一步包括将所述正确结果识别为所述一组语音辨识结果中的具有作为正确结果的最高概率的结果。
8.如权利要求5所述的方法,其进一步包括以下步骤:
记录来自所述多个语音辨识引擎的所有所述结果以开发语料库;以及
使用所述开发的语料库来训练所述数据融合模型和所述语义理解模型。
9.如权利要求8所述的方法,其中记录所述多个语音辨识引擎的所述结果以开发语料库进一步包括以下步骤:
从所述输入句子的所述一组结果中选择具有作为正确结果的低概率的一个或多个结果;
手动地确定所述输入句子是正常表达;以及
将所述输入句子添加至所述开发的语料库。
10.一种包括程序的计算机可读介质,所述程序在由一个或多个处理器执行时执行包括以下各项的操作:
使用多个语音辨识引擎处理由输入装置接收的输入句子;
产生包括所述多个语音辨识引擎中的每个语音辨识引擎的所有结果的一组结果;
将数据融合模型应用于所述一组结果以从所述一组结果中识别正确结果;以及
在所述语义理解模型中处理所述正确结果。
11.如权利要求10所述的计算机可读介质,其中所述程序执行将数据融合模型应用于所述一组结果以从所述一组结果中识别正确结果的操作进一步包括当所述一组结果中的所有所述结果相同时识别所述正确结果。
12.如权利要求10所述的计算机可读介质,其中所述程序执行将数据融合模型应用于所述一组结果以从所述一组结果中识别正确结果的操作进一步包括将所述正确结果识别为所述一组语音辨识结果中的具有作为正确结果的最高概率的结果。
13.如权利要求10所述的计算机可读介质,其中所述程序执行包括以下各项的操作:
记录来自所述多个语音辨识引擎的所有所述结果以开发语料库;以及
使用所述开发的语料库来训练所述数据融合模型和所述语义理解模型。
14.如权利要求13所述的计算机可读介质,其中所述包括记录所述多个语音辨识引擎的所述结果以开发语料库的操作进一步包括以下各项的操作:
从所述输入句子的所述一组结果中选择具有作为正确结果的低概率的一个或多个结果;
手动地确定所述输入句子是正常表达;以及
将所述输入句子添加至所述开发的语料库。
CN201811249888.7A 2017-10-26 2018-10-25 用于自然语言处理的系统和方法 Active CN109710727B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US15/794,114 US10395647B2 (en) 2017-10-26 2017-10-26 System and method for natural language processing
US15/794,114 2017-10-26

Publications (2)

Publication Number Publication Date
CN109710727A true CN109710727A (zh) 2019-05-03
CN109710727B CN109710727B (zh) 2023-09-12

Family

ID=63762179

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811249888.7A Active CN109710727B (zh) 2017-10-26 2018-10-25 用于自然语言处理的系统和方法

Country Status (4)

Country Link
US (1) US10395647B2 (zh)
EP (1) EP3477635B1 (zh)
KR (1) KR20190046631A (zh)
CN (1) CN109710727B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110246486A (zh) * 2019-06-03 2019-09-17 北京百度网讯科技有限公司 语音识别模型的训练方法、装置及设备
CN110910890A (zh) * 2019-12-11 2020-03-24 微创(上海)网络技术股份有限公司 一种自然语言的识别处理方法及系统
CN113506565A (zh) * 2021-07-12 2021-10-15 北京捷通华声科技股份有限公司 语音识别的方法、装置、计算机可读存储介质与处理器
CN117198292A (zh) * 2023-11-08 2023-12-08 太平金融科技服务(上海)有限公司 一种语音融合处理方法、装置、设备及介质

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020096078A1 (ko) * 2018-11-06 2020-05-14 주식회사 시스트란인터내셔널 음성인식 서비스를 제공하기 위한 방법 및 장치
CN111291758B (zh) * 2020-02-17 2023-08-04 北京百度网讯科技有限公司 用于识别印章文字的方法和装置
US11495211B2 (en) * 2020-10-29 2022-11-08 International Business Machines Corporation Memory deterioration detection and amelioration
CN112562640B (zh) * 2020-12-01 2024-04-12 北京声智科技有限公司 多语言语音识别方法、装置、系统及计算机可读存储介质
KR102594734B1 (ko) 2021-06-24 2023-10-26 주식회사 렉스퍼 LDA(Latent Dirichlet Allocation) 토픽 모델링 기법을 이용한 텍스트 분석 방법 및 이를 수행하는 텍스트 분석 장치
KR102384694B1 (ko) 2021-06-24 2022-04-08 주식회사 렉스퍼 신경망 모델과 비 신경망 모델을 이용한 자연어 처리 방법 및 자연어 처리 장치
CN117219067B (zh) * 2023-09-27 2024-04-09 北京华星酷娱文化传媒有限公司 一种基于语音理解的短视频自动生成字幕的方法及系统
CN117238276B (zh) * 2023-11-10 2024-01-30 深圳市托普思维商业服务有限公司 一种基于智能化语音数据识别的分析纠正系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1831937A (zh) * 2005-03-08 2006-09-13 台达电子工业股份有限公司 语音辨识与语言理解分析的方法与装置
US20150279360A1 (en) * 2014-04-01 2015-10-01 Google Inc. Language modeling in speech recognition

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6606597B1 (en) * 2000-09-08 2003-08-12 Microsoft Corporation Augmented-word language model
EP2339576B1 (en) * 2009-12-23 2019-08-07 Google LLC Multi-modal input on an electronic device
US9129225B2 (en) * 2011-05-25 2015-09-08 Nokia Technologies Oy Method and apparatus for providing rule-based recommendations
US8650031B1 (en) 2011-07-31 2014-02-11 Nuance Communications, Inc. Accuracy improvement of spoken queries transcription using co-occurrence information
US9384734B1 (en) * 2012-02-24 2016-07-05 Google Inc. Real-time audio recognition using multiple recognizers
US9058805B2 (en) * 2013-05-13 2015-06-16 Google Inc. Multiple recognizer speech recognition
US9818401B2 (en) 2013-05-30 2017-11-14 Promptu Systems Corporation Systems and methods for adaptive proper name entity recognition and understanding
US10430156B2 (en) * 2014-06-27 2019-10-01 Nuance Communications, Inc. System and method for allowing user intervention in a speech recognition process
US10121471B2 (en) * 2015-06-29 2018-11-06 Amazon Technologies, Inc. Language model speech endpointing
WO2017095476A1 (en) 2015-12-01 2017-06-08 Nuance Communications, Inc. Representing results from various speech services as a unified conceptual knowledge base
US10373612B2 (en) * 2016-03-21 2019-08-06 Amazon Technologies, Inc. Anchored speech detection and speech recognition
JP6727607B2 (ja) * 2016-06-09 2020-07-22 国立研究開発法人情報通信研究機構 音声認識装置及びコンピュータプログラム
US9959861B2 (en) * 2016-09-30 2018-05-01 Robert Bosch Gmbh System and method for speech recognition
US10971157B2 (en) * 2017-01-11 2021-04-06 Nuance Communications, Inc. Methods and apparatus for hybrid speech recognition processing
US10586528B2 (en) * 2017-02-02 2020-03-10 Adobe Inc. Domain-specific speech recognizers in a digital medium environment
US20170173262A1 (en) * 2017-03-01 2017-06-22 François Paul VELTZ Medical systems, devices and methods

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1831937A (zh) * 2005-03-08 2006-09-13 台达电子工业股份有限公司 语音辨识与语言理解分析的方法与装置
US20150279360A1 (en) * 2014-04-01 2015-10-01 Google Inc. Language modeling in speech recognition

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110246486A (zh) * 2019-06-03 2019-09-17 北京百度网讯科技有限公司 语音识别模型的训练方法、装置及设备
CN110246486B (zh) * 2019-06-03 2021-07-13 北京百度网讯科技有限公司 语音识别模型的训练方法、装置及设备
CN110910890A (zh) * 2019-12-11 2020-03-24 微创(上海)网络技术股份有限公司 一种自然语言的识别处理方法及系统
CN113506565A (zh) * 2021-07-12 2021-10-15 北京捷通华声科技股份有限公司 语音识别的方法、装置、计算机可读存储介质与处理器
CN113506565B (zh) * 2021-07-12 2024-06-04 北京捷通华声科技股份有限公司 语音识别的方法、装置、计算机可读存储介质与处理器
CN117198292A (zh) * 2023-11-08 2023-12-08 太平金融科技服务(上海)有限公司 一种语音融合处理方法、装置、设备及介质
CN117198292B (zh) * 2023-11-08 2024-02-02 太平金融科技服务(上海)有限公司 一种语音融合处理方法、装置、设备及介质

Also Published As

Publication number Publication date
US10395647B2 (en) 2019-08-27
US20190130895A1 (en) 2019-05-02
EP3477635A1 (en) 2019-05-01
KR20190046631A (ko) 2019-05-07
CN109710727B (zh) 2023-09-12
EP3477635B1 (en) 2023-06-07

Similar Documents

Publication Publication Date Title
CN109710727A (zh) 用于自然语言处理的系统和方法
US10832674B2 (en) Voice data processing method and electronic device supporting the same
US9454958B2 (en) Exploiting heterogeneous data in deep neural network-based speech recognition systems
EP3608906B1 (en) System for processing user voice utterance and method for operating same
US20210134278A1 (en) Information processing device and information processing method
KR20200046117A (ko) 공동 오디오-비디오 얼굴 애니메이션 시스템
KR20190022109A (ko) 음성 인식 서비스를 활성화하는 방법 및 이를 구현한 전자 장치
KR102429583B1 (ko) 전자 장치, 그의 가이드 제공 방법 및 비일시적 컴퓨터 판독가능 기록매체
EP3588493A1 (en) Method of controlling dialogue system, dialogue system, and storage medium
US20170308389A1 (en) Methods And Apparatus For Module Arbitration
CN109712610A (zh) 用于识别语音的方法和装置
TW201737125A (zh) 回應產生裝置、對話控制系統以及回應產生方法
CN103426429B (zh) 语音控制方法和装置
KR20210042523A (ko) 전자 장치 및 이의 제어 방법
KR20200059112A (ko) 로봇 상호작용 시스템 및 그를 위한 프로그램
KR101579292B1 (ko) 범용 음성인식 제어 장치 및 제어 방법
KR20200016774A (ko) 사용자 음성 발화를 처리하기 위한 시스템 및 그의 동작 방법
CN110308886A (zh) 提供与个性化任务相关联的声音命令服务的系统和方法
US12008988B2 (en) Electronic apparatus and controlling method thereof
WO2020202862A1 (ja) 応答生成装置及び応答生成方法
KR102433964B1 (ko) 관계 설정을 이용한 실감형 인공지능기반 음성 비서시스템
US20210166685A1 (en) Speech processing apparatus and speech processing method
CN111161718A (zh) 语音识别方法、装置、设备、存储介质及空调
CN115410572A (zh) 语音交互方法、装置、终端、存储介质及程序产品
CN115062131A (zh) 一种基于多模态的人机交互方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant