CN109903770A - 用于校正用户的话语错误的装置及其方法 - Google Patents
用于校正用户的话语错误的装置及其方法 Download PDFInfo
- Publication number
- CN109903770A CN109903770A CN201810337775.6A CN201810337775A CN109903770A CN 109903770 A CN109903770 A CN 109903770A CN 201810337775 A CN201810337775 A CN 201810337775A CN 109903770 A CN109903770 A CN 109903770A
- Authority
- CN
- China
- Prior art keywords
- text
- voice
- user
- name entity
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 35
- 238000010606 normalization Methods 0.000 claims abstract description 26
- 230000000694 effects Effects 0.000 claims abstract description 13
- 238000012937 correction Methods 0.000 claims description 4
- 230000015654 memory Effects 0.000 description 22
- 230000006870 function Effects 0.000 description 17
- 238000004891 communication Methods 0.000 description 12
- 230000002452 interceptive effect Effects 0.000 description 10
- 238000004458 analytical method Methods 0.000 description 9
- 238000005516 engineering process Methods 0.000 description 9
- 230000008569 process Effects 0.000 description 9
- 239000000284 extract Substances 0.000 description 8
- 238000003860 storage Methods 0.000 description 7
- 238000002955 isolation Methods 0.000 description 6
- 238000011160 research Methods 0.000 description 6
- 230000008901 benefit Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 230000015572 biosynthetic process Effects 0.000 description 4
- 230000003993 interaction Effects 0.000 description 4
- 238000010295 mobile communication Methods 0.000 description 4
- 238000003786 synthesis reaction Methods 0.000 description 4
- 238000000605 extraction Methods 0.000 description 3
- 230000030279 gene silencing Effects 0.000 description 3
- 230000007774 longterm Effects 0.000 description 3
- 208000003028 Stuttering Diseases 0.000 description 2
- 238000004378 air conditioning Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 239000003795 chemical substances by application Substances 0.000 description 2
- 230000007423 decrease Effects 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 229920001296 polysiloxane Polymers 0.000 description 1
- 230000008439 repair process Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/10—Speech classification or search using distance or distortion measures between unknown speech and reference templates
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1815—Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/93—Discriminating between voiced and unvoiced parts of speech signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/027—Concept to speech synthesisers; Generation of natural phrases from machine-based concepts
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Signal Processing (AREA)
- Navigation (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
本申请涉及一种配置为校正用户的话语错误的装置及其相关方法,该装置经配置用于即使用户的话语不完整也以高精度提取语义框架,并且其方法可包括:语音活动检测器,其配置为在区分用户话语中的语音部分和静音部分之后提取语音;语音识别器,其配置为在识别语音之后输出对应于由语音活动检测器提取的语音的文本;命名实体识别器,其配置为识别从语音识别器输出的每个文本的命名实体;文本规范化器,其配置为基于由命名实体识别器识别的每个文本的命名实体来规范化每个文本;以及文本确定器,其配置为在规范化的文本中确定最终文本。
Description
相关申请的交叉引证
本申请要求于2017年12月7日在韩国知识产权局提交的韩国专利申请第10-2017-0167665号的优先权,其全部内容通过引证并入本文以用于所有目的。
技术领域
本发明涉及一种配置为用于校正用户的话语错误的装置及其方法,并且更具体地涉及一种校正用户的话语错误使得即使交互式语音识别系统中的话语不完整,也精确地识别用户的话语,其中话语是指以通过用户的嘴部说出的句子为单位的语言。
背景技术
通常,各种设备被设置在车辆中。近年来,为了驾驶员和乘客的方便而不断开发和设置设备。例如,除了音频设备、空调等之外,几乎所有车辆中都已经设置了导航系统,该导航系统通过穿过卫星等定位车辆来引导到目的地的路线。
然而,尽管此类便利设备为驾驶员和乘客提供了各种便利,但是在驾驶时操作便利设备的过程中驾驶员的驾驶集中度下降,使得驾驶员分心,增加了事故风险。为了解决此类问题,最近开发了一种交互式语音识别系统,其在驾驶员以他的语音命令时识别驾驶员的语音,而不需要直接操纵便利设备并且根据驾驶员的语音命令控制各种便利设备。
根据相关技术,例如,当用户的话语不成熟时,例如,用户未在输入的时间说话,或者在说话时结巴(stumble),如“引导到那个…现代汽车”、“引导到现代.现代汽车”或“引导到现汽车不现代汽车”,交互式语音识别系统通常不会通过将其识别为“那个现代汽车”、“现代现代汽车”或“现代不现代汽车”来识别正确的目的地“现代汽车”。
本发明背景技术中公开的信息仅用于增强对本发明的一般背景的理解,并且不能被视为对该信息构成本领域技术人员已知的现有技术的承认或任何形式的暗示。
发明内容
本发明的各个方面旨在提供一种经配置用于校正用户的话语错误的装置,该装置可以从作为识别用户语音的结果的文本中提取语义框架,确定语义框架中每个语音的命名实体,并且基于每个命名实体规范化对应语音的文本以确定最终文本,使得即使用户的话语不完整也以高精度提取该语义框架,以及其方法。
本发明的技术目的不限于上述内容,并且从下面的描述中,其他未提及的技术目的和优点将变得明显。而且,可以容易地理解,本发明的目的和优点可以通过权利要求书中记载的单元及其组合来实现。
根据本发明的方面,提供了一种经配置用于校正用户的话语错误的装置,该装置可以包括:语音活动检测器,配置为在用户话语中区分语音部分和静音部分之后提取语音;语音识别器,配置为在识别语音之后输出对应于由语音活动检测器提取的语音的文本;命名实体识别器,配置为识别从语音识别器输出的每个文本的命名实体;文本规范化器,配置为基于由命名实体识别器识别的每个文本的命名实体来规范化每个文本;以及文本确定器,配置为从规范化文的本中确定最终文本。
文本规范化器可以生成包括规范化的文本的列表。文本确定器可以将列表上的每个文本作为搜索词来搜索地图数据库(DB),并且将作为目的地的待搜索的文本确定为最终文本。
命名实体识别器可以将指示代词、否定词、商标名称和专有名词辨识为每个文本或文本组合的命名实体。
文本规范化器可以从每个文本和文本组合中删除指示代词、重复词或否定词及否定词之前的词。
当在正常输入的主要用户话语的验证期间在辅助输入用户话语中包括否定词时,文本规范化器可以进一步通过使用否定词之后的词来执行校正主要用户话语的功能。
用户话语可以从车辆终端发送。
根据本发明的另一方面,提供了一种校正用户的话语错误的方法,该方法可以包括:在区分用户话语中的语音部分和静音部分之后提取语音;在识别提取的语音之后输出对应于所提取的语音的文本;识别每个输出的文本的命名实体;基于每个识别的文本的命名实体而规范化每个文本;并且从规范化的文本中确定最终文本。
文本的规范化可以包括生成包括规范化文本的列表。确定最终文本的步骤可以包括:将列表上的每个文本作为搜索词来搜索地图数据库(DB),以将作为目的地的待搜索的文本确定为最终文本。
识别命名实体的步骤可以包括:将指示代词、否定词、商标名称和专有名词辨识为每个文本或文本组合的命名实体。
规范化文本的步骤可以包括:从每个文本和文本组合中删除指示代词,从每个文本和文本组合中删除重复的词,并且从每个文本和文本组合中删除否定词和否定词之前的词。
规范化文本的步骤可以进一步包括:当在正常输入的主要用户话语的验证期间在辅助输入用户话语中包括否定词时,通过使用该否定词之后的词来执行主要用户话语的校正。
用户话语可以从车辆终端发送。
本发明的方法和装置具有其他特征和优点,这些特征和优点将通过并入本文的附图以及下面的具体实施方式而显而易见或更详细地阐述,所述附图和具体实施方式共同用于解释本发明的某些原理。
附图说明
图1是示出应用了本发明的示例性实施例的交互式语音识别系统的一个示例的框图;
图2是示出用于本发明的示例性实施例的车辆终端的一个示例的框图;
图3是示出应用了本发明的示例性实施例的服务器的一个示例的框图;
图4是示出根据本发明的示例性实施例的经配置用于校正用户的话语错误的装置的一个示例的框图;
图5是示出根据本发明的示例性实施例的通过校正用户的话语错误的装置的语音活动检测器而将用户的话语分离成语音和沉默的处理的一个示例的视图;
图6是示出根据本发明的示例性实施例的在通过经配置用于校正用户的话语错误的装置的命名实体名称识别器识别每个文本的命名实体之后梳理文本的过程的一个示例的视图;
图7是示出根据本发明的示例性实施例通过经配置用于校正用户的话语错误的装置的文本规范化器、基于每个文本的命名实体而规范化每个文本的过程的一个示例的视图;
图8是示出根据本发明的示例性实施例通过经配置用于校正用户的话语错误的装置的文本确定器、基于由文本规范化器生成的列表来确定最终文本的过程的一个示例的视图;
图9是示出根据本发明的示例性实施例的校正用户的话语错误的方法的一个示例的流程图;以及
图10是图示根据本发明的示例性实施例的用于执行校正用户的话语错误的方法的计算系统的框图。
可以理解的是,附图不一定按比例绘制,呈现了说明本发明的基本原理的各种特征的稍微简化的表示。本文所公开的本发明的具体设计特征,包括例如具体尺寸、取向、位置和形状将部分由特定预期的应用和使用环境来确定。
在附图中,贯穿附图的多个图,附图标记是指本发明的相同或等同部分。
具体实施方式
现在将详细参考本发明的各种实施例,其示例在附图中示出并在下面进行描述。虽然本发明将结合本发明的示例性实施例进行描述,但应理解,本描述并非旨在将本发明限制于那些示例性实施例。相反,本发明旨在不仅覆盖本发明的示例性实施例,而且还覆盖可以被包括在由所附权利要求限定的本发明的精神和范围内的各种替换、修改、等同和其它实施例。
在下文中,将参照附图更具体地描述本发明的各种示例性实施例。在整个说明书中,应注意,相同或相似的附图标记表示相同或相似的组件,尽管它们提供在不同的附图中。此外,在本发明的以下描述中,当其可能使本发明的主题不清楚时,将省略对包含于本文的已知功能和配置的详细描述。
此外,在描述本发明的组件时,在本文可以使用诸如第一、第二、A、B、(a)、(b)等的术语。提供的术语用于区分元件与其他元件,并且元件的本质、序列、顺序和数量不受术语限制。此外,除非另有定义,否则本文所使用的包括技术术语或科学术语的所有术语具有的含义与本发明所属领域的技术人员通常理解的含义相同。在通用字典中定义的术语应该被解释为具有与相关技术的上下文的含义一致的含义,并且除非在本发明的说明书中明确地定义,否则不应该被解释为理想的或过于正式的含义。
图1是示出应用了本发明的示例性实施例的交互式语音识别系统的一个示例的框图。
如图1所示,本发明的示例性实施例的交互式语音识别系统包括车辆终端10和服务器20。
首先,车辆终端10可以设置在车辆中以提供用户界面并且可以提供隔离语言语音识别功能。
如图2所示,车辆终端10可以包括输入设备11、显示器12、通信设备13、处理器14、储存器15和扬声器16。
输入设备11可以接收用户语音。例如,输入设备11可以包括麦克风,并且在用户语音被输入时将用户语音转换成电信号以将电信号发送到隔离语言语音识别引擎。输入设备11可以设置在车辆的仪表板的中央仪表盘区域或方向盘上,但是示例性实施例不限于此。如果用户语音容易被接收,则输入设备11可以被设置在车辆内的任何位置处。
显示器12可以显示:示出车辆的操作状态的图像、导航图像、信息娱乐节目图像等。例如,显示器12可以根据输入的用户语音来显示车辆的操作的结果图像。显示器12可以包括各种显示设备,其包括液晶显示器(LCD)、发光二极管(LED)、等离子显示面板(PDP)、有机发光二极管(OLED)、阴极射线管(CRT)等。同时,当显示器12设置有触摸屏时,显示器12可以接收用户的触摸输入。
通信设备13可以通过网络与外部设备(例如,远程车辆、基础设施、服务器等)通信。例如,通信设备13可以向/从外部设备发送/接收消息。
此外,通信设备13可以将通过输入设备11输入的用户语音发送到服务器20以识别用户语音。
通信设备13可以包括移动通信模块、无线互联网模块和短程通信模块中的至少一个。
移动通信模块112可以通过根据用于移动通信的技术标准或通信方法配置的移动通信网络向服务器发送和/或从服务器接收数据(例如全球移动通信系统(GSM)、码分多址(CDMA)、码分多址2000(CDMA2000)、增强型语音数据优化或增强型仅语音数据(EV-DO)、宽带CDMA WCDMA)、高速下行链路分组接入(HSDPA)、高速上行链路分组接入(HSUPA)、长期演进(LTE)和高级长期演进(LTE-A))。
作为用于无线互联网接入的模块的无线互联网模块可以通过根据无线互联网技术配置的通信网络发送/接收各种数据。
此类无线互联网技术的示例包括无线LAN(WLAN)、无线保真(Wi-Fi)、Wi-Fi直连、数字生活网络联盟(DLNA)、无线宽带(WiBro)、全球微波接入互操作性(WiMAX)、高速下行链路分组接入(HSDPA)、高速上行链路分组接入(HSUPA)、长期演进(LTE)和高级长期演进(LTE-A)。无线互联网模块可以根据此类无线互联网技术和其他互联网技术中的至少一个来发送/接收数据。
作为用于短距离通信的模块的短距离通信模块可以通过使用蓝牙TM、射频识别(RFID)、红外数据协会(IrDA)、超宽带(UWB)、无线个域网、近场通信(NFC)、无线保真(Wi-Fi)、Wi-Fi直连和无线通用串行总线(无线USB)。
处理器14可以控制车辆的整体操作。例如,处理器14可以控制包括与车辆的驾驶控制有关的操作、娱乐相关操作、通信相关操作、导航相关操作、音频和视频相关操作、空调相关操作等的各种操作。例如,处理器14可以基于从设置在车辆10中的隔离语言语音识别引擎或设置在服务器10中的大词汇量语音识别引擎发送的操作命令来控制设置在车辆中的每个组件的操作。
作为用于执行上述操作的软件模块的处理器14可以包括应用(app)事件管理器、连接汽车操作系统(ccOS)应用编程接口(API)、语境感知引擎、隔离语言语音识别引擎等。
应用事件管理器监控车辆的状态以及在应用中发生的所有事件。
ccOS API包括与终端的语音识别引擎交互的API、与服务器的语音识别引擎交互的API、语境感知引擎API和智能代理(服务器)交互API。
语境感知引擎推荐或建议基于语境数据的服务,通过将状况分析结果应用于用户命令识别结果来处理操作步骤,并且通过将状况分析结果应用于搜索信息来执行包括重新排序的功能。
隔离语言语音识别引擎可以执行隔离语言语音识别,作为相对简单的语音识别功能。
储存器15可以存储与车辆有关的各种数据、与车辆用户有关的各种数据等。例如,储存器15可以存储车辆的驾驶历史数据、导航相关数据、用户时间表、与个人信息有关的数据等。
储存器15可以包括闪存类型、硬盘类型、固态盘类型、硅盘驱动类型、多媒体卡微型类型和卡类型(例如,SD或XD存储器等)、随机存取存储器(RAM)、静态随机存取存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁存储器、磁盘和光盘的存储器中的存储介质的至少一种类型。
扬声器16可以在处理器14的控制下输出声源。例如,扬声器16可以输出执行音频功能、导航功能等所需的声源。
根据本发明的示例性实施例的车辆终端10可以识别用户语音,并且通过执行对应于识别的语音的操作命令来执行对应于用户语音的操作。例如,车辆终端10可以执行对应于识别用户语音的结果的包括使用预订的目的地、导航目的地设定、消息发送/接收、问题回答、信息搜索等的操作,但是示例性实施例是不限于此。
接下来,服务器20连接到网络并作为智能代理进行操作。如图3所示,为了提供交互式语音识别功能,服务器20可以包括输入管理设备21,输出管理设备22、会话管理设备23、语境感知分析引擎24、车辆环境大数据存储器25、情景管理设备26、内容提供商(CP)适配器27、外部交互数据存储器28等。
输入管理设备21设置有大词汇量语音识别引擎,以将用户语音转换成文本。输入管理设备21设置有意图分析引擎,其通过利用自然语言处理方案从作为语音识别处理结果的文本中提取语义框架,并且提取与语义框架的含义有关的关键信息(实体)。
输出(动作)管理设备22包括自然语言生成引擎,以生成对应于语音识别结果的动作的文本,并分析生成的文本的内容以生成合成相关参数。
此外,输出管理设备22包括语音合成引擎,以将由自然语言生成引擎生成的文本转换为语音。在本例中,语音合成引擎基于该参数执行合成功能。
会话管理设备23可以管理作为会话管理的语义框架的连续性,管理作为会话添加管理的语义框架的添加和删除,管理作为会话状态管理的语义框架的状态,管理作为会话历史管理的语义框架间关联,管理作为服务管理的连接到语义框架的服务,并且管理情景数据库、情景状态、内容提供商(CP)交互等。
语境感知分析引擎24可以基于使用历史将使用模式分析为大型统计分析,基于使用历史将关联信息恢复为短期或长期存储器分析,将不同信息连接为综合或复合推断,将语音信息和文本信息分析为文本或语音分析以推断语境,并且将问题分析为问题和回答分析以推断连接的答案。
车辆环境大数据存储器25可以包括其中记录车辆使用信息的汽车客户关系管理(VCRM)DB,其中记录服务订购客户信息的客户DB,其中记录服务使用历史信息的历史DB,其中记录数据关系信息和数据交互信息的关系DB,以及其中记录用于查询响应所需的知识信息的知识库。
情景管理设备26管理用于车辆服务的情景(目的地搜索、音乐推荐、时间表管理、餐厅推荐等)。
内容提供商适配器27从内容提供商接收外部交互工作数据28。此类外部交互数据28可以包括地图、音乐、时间表、餐厅评论等。
上述交互式语音识别系统是基于连接到网络的车辆的系统,是本领域普遍和广泛已知的技术。
在下文中,将更具体地描述应用于服务器20以校正用户的话语错误的技术。
图4是示出根据本发明的示例性实施例的经配置用于校正用户的话语错误的装置的一个示例的框图。
如图4所示,根据本发明的示例性实施例的经配置用于校正用户的话语错误的装置可以包括语音活动检测器41、语音识别器42、命名实体识别器43、文本规范化器44和文本确定器45。根据实现本发明的示例性实施例的方案,可以将元件彼此组合成一个单元,并且根据实现本发明的元件的方案可以省略一些元件。经配置用于校正用户的话语错误的装置的每个元件可以用硬件或软件或硬件和软件的组合来实现。当每个元件以软件实现时,每个元件的功能可以以程序的形式存储在存储器中,并且作为控制器操作的处理器可以基于程序完全执行每个元件的功能。
首先,描述每个元件,作为执行用于由用户说出的言语中的语音和沉默的功能(语音活动检测)的硬件或软件模块的语音活动检测器41从用户话语中提取语音,其中作为通过用户的嘴部输出的句子的单位的语言的话语包括语音部分和静音部分。
此外,语音活动检测器41可以从车辆终端10发送的用户话语中提取语音。
语音识别器42识别由语音活动检测器41提取的语音,并且输出对应于语音的文本。语音识别器42可以以本领域中公知的各种方式识别语音。
命名实体识别器43识别从语音识别器42输出的每个文本的命名实体以及文本组合结果的命名实体。在本例中,由于组合文本结果是文本,因此每个文本应理解为包括非组合文本和组合文本的概念。
命名实体识别器43可以将指示代词、否定词、商标名称和专有名词辨识为每个文本的命名实体。识别命名实体的此类技术在本领域中也是公知的,并且可以利用本领域中通常已知的任何方法。
文本规范化器44基于由命名实体识别器43识别的每个文本的命名实体规范化每个文本,并且生成其上记录每个规范化文本的列表。
也就是说,当文本中存在指示代词时,文本规范化器44删除对应的文本。
此外,当每个文本中存在重复的词时,文本规范化器44删除重复的词。
此外,文本规范化器44从每个文本中删除否定词和否定词之前的词。
此外,文本规范化器44可以执行链接校正。例如,如果通常将用户的话语输入为“引导到现代汽车南洋研究所”,则搜索话语“现代汽车南洋研究所”使得可以正常地设定目的地。在本例中,交互式语音识别系统可以通过话语“你想搜索现代汽车南洋研究所吗?”来向用户确认搜索词,并且用户可以改变其主意并输入话语“不是南阳研究所,而是总部”。在本例中,在第一次输入的“现代汽车南洋研究所”中,文本规范化器44在由命名实体识别器43识别的否定词“不是”之后用“总部”替换“南洋研究所”。结果,搜索词变成“现代汽车总部”,并且交互式语音识别系统可以输出“你想搜索现代汽车总部吗?”。
文本确定器45基于地图DB确定由文本规范化器44生成的列表中的最终文本。即,文本确定器45将列表上的每个文本作为搜索项来搜索地图DB,并且将作为目的地的待搜索的文本确定为最终文本。
此外,当输入的户话语关于音乐搜索时,文本确定器45可以基于音乐DB确定最终文本。当输入的用户话语关于时间表搜索时,文本确定器45可以基于时间表DB来确定最终文本。
在下文中,将参照图5至图8更具体地描述校正用户的话语错误的过程。
图5是示出根据本发明的示例性实施例的通过校正用户的话语错误的装置的语音活动检测器41将用户的话语分离成语音和沉默的过程的一个示例的视图。
在图5中,尽管用户应当说出“引导到现代汽车”,但是当用户因为用户不能立即想到“现代汽车”而说出“引导到那个现代汽车”时,用户话语被输入到语音提取器41并且语音提取器41基于VAD功能从用户话语中提取语音。提取的语音可以包括词“引导到”、“那个”和“现代汽车”。
此外,尽管用户应当说出“引导到现代汽车”,但是当用户结巴使得用户说出“引导到现代现代汽车”时,用户话语被输入到语音提取器41,并且语音提取器41基于VAD功能从用户话语提取语音。
此外,尽管用户应当说出“引导到现代汽车”,但是当用户在疏忽的时刻说出“引导到现汽车(现代汽车的简称)不,现代汽车”时,用户话语被输入到语音提取器41并且语音提取器41基于VAD功能从用户话语中提取语音。提取的语音包括“引导到”、“代汽车”、“不”和“现代汽车”。
每个提取的语音通过语音识别器42连接到对应的文本。也就是说,每个语音与对应的文本匹配。
图6是示出根据本发明的示例性实施例的在通过经配置用于校正用户的话语错误的装置的命名实体名称识别器识别每个文本的命名实体之后梳理文本的过程的一个示例的视图。
在图6中,当从语音识别器42输出的文本包括“引导到”、“那个”和“现代汽车”时,该输出被输入到命名实体识别器43。命名实体识别器43基于命名实体识别功能将“那个”识别为指示代词,将“现代汽车”识别为商标名称,并且将“那个+现代汽车”识别为专有名词。
此外,当从语音识别器42输出的文本包括“引导到”、“现代”和“现代汽车”时,该输出被输入到命名实体识别器43。命名实体识别器43基于命名实体识别功能将“那个”识别为指示代词,将“现代汽车”识别为商标名称,将“现代+现代汽车”识别为专有名词。
此外,当从语音识别器42输出的文本包括“引导到”、“代汽车”、“不是”和“现代汽车”时,该输出被输入到命名实体识别器43。命名实体识别器43基于命名实体识别功能将“代汽车”识别为商标名称,将“不”识别为否定词,将“现代汽车”识别为商标名称,将“现汽车+不”识别为专有名词,将“不+现代汽车”识别为专有名词,并且将“现汽车+不+现代汽车”识别为专有名词。
在本例中,命名实体识别器43将“引导到”识别为谓词并将其删除。此外,命名实体识别器43将“到”识别为介词,使得命名实体识别器43在识别命名实体时不考虑“到”。
图7是示出根据本发明的示例性实施例的通过经配置用于校正用户的话语错误的装置的文本规范化器基于每个文本的命名实体规范化每个文本的过程的一个示例的视图。
当输入指示代词“那个”、商标名称“现代汽车”和专有名词“那个+现代汽车”时,文本规范化器44检查是否存在指示代词并去除指示代词。在本例中,由于指示代词是“那个”,所以作为规范化结果,生成包括“现代汽车”和“那个现代汽车”的列表。
当输入商标名称“现代”和“现代汽车”以及专有名词“现代+现代汽车”时,文本规范化器44检查是否存在重复的词并将其删除。在本例中,由于重复的词是“现代”,所以作为规范化结果,生成包括“现代汽车”和“现代现代汽车”的列表。
此外,当输入商标名称“现汽车”和“现代汽车”、否定词“不”以及专有名词“现汽车+不”、“不+现代汽车”和“现汽车+不+现代汽车”时,文本规范化器44删除否定词和否定词之前的词。在本例中,由于否定词是“不”并且在否定词之前的词是“现汽车”,所以作为规范化结果,生成包括“现代汽车”、“现汽车+不”、“不+现代汽车”和“现汽车+不+现代汽车”的列表。
图8是示出根据本发明的示例性实施例通过经配置用于校正用户的话语错误的装置的文本确定器基于由文本规范化器生成的列表来确定最终文本的过程的一个示例的视图。
在图8中,当列表上的文本包括“现代汽车”和“那个现代汽车”时,文本确定器45利用“现代汽车”作为地图DB中的搜索词。当正常检测到“现代汽车”的位置时,文本确定器45将“现代汽车”确定为最终文本。在本例中,可能找不到“那个现代汽车”的位置。
此外,当列表上的文本包括“现代汽车”和“现代现代汽车”时,文本确定器45将“现代汽车”确定为最终文本。在本例中,可能找不到“现代现代汽车”的位置。
此外,当列表上的文本包括“现代汽车”、“现汽车不”、“不现代汽车”和“现汽车不现代汽车”时,文本确定器45将“现代汽车”确定为最终文本。在本例中,可能找不到“现汽车不”、“不现代汽车”和“现汽车不现代汽车”的位置。
此外,在识别出用户话语之后,通过利用自然语言处理方案从文本输出中提取语义框架作为识别结果。在基于所提取的语义框架设定目的地的一般目的地设定过程中,当没有找到对应于语义框架的目的地时,可以激活根据本发明的示例性实施例的用于校正用户的话语错误的装置,以校正用户的话语错误。
图9是示出根据本发明的示例性实施例的校正用户的话语错误的方法的一个示例的流程图。
首先,在操作901中,语音提取器41在用户话语中区分语音部分和静音部分之后提取语音。
由此,在操作902中,在识别由语音提取器41提取的语音之后,语音识别器42输出对应于所提取的语音的文本。
由此,在操作903中,命名实体识别器43识别从语音识别器42输出的每个文本的命名实体。
由此,在操作904中,文本规范化器44基于由命名实体识别器43识别的每个文本的命名实体来规范化每个文本。
由此,在操作905中,文本确定器45从由文本规范化器44规范化的文本中确定最终文本。
图10是示出根据本发明的示例性实施例的用于执行校正用户的话语错误的方法的计算系统的视图。
参考图10,如上所述,根据本发明的示例性实施例的校正用户的话语错误的方法可以通过计算系统来实现。计算系统1000可以包括通过系统总线1200、存储器1300、用户界面输入设备1400、用户界面输出设备1500、储存器1600和网络界面1700连接的至少一个处理器1100。
处理器1100可以是处理存储在存储器1300和/或储存器1600中的指令的中央处理单元(CPU)或半导体设备。存储器1300和储存器1600可以包括各种易失性或非易失性存储介质。例如,存储器1300可以包括只读存储器(ROM)和随机存取存储器(RAM)。
因此,关于本发明的示例性实施例描述的方法或算法的过程可以直接由处理器1100、软件模块或其组合执行的硬件来实现。软件模块可以驻留在包括RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可拆卸的磁盘或CD-ROM的存储介质(即,存储器1300和/或储存器1600)中。示例性存储介质耦合到处理器1100,并且处理器1100可从存储介质读取信息且可将信息写入存储介质中。在另一种方法中,存储介质可以与处理器1100集成。处理器和存储介质可以驻留在专用集成电路(ASIC)中。ASIC可以驻留在用户终端中。在另一种方法中,处理器和存储介质可作为单独组件驻留在用户终端中。
根据本发明的示例性实施例,可以从用户的语音中提取该语义框架,并且可以确定该语义框架中的每个语音的命名实体。可以基于每个命名实体规范化对应语音的文本以确定最终文本,使得即使用户的话语不完整也可以高精度地提取该语义框架。
此外,根据本发明的示例性实施例,可以从用户的语音中提取语义框架,并且可以确定语义框架中的每个语音的命名实体。可以基于每个命名实体规范化对应语音的文本以确定最终文本,使得即使用户的话语不完整也能识别目的地。
以上描述是本发明的技术精神的简单范例,并且本发明可以由本发明所属领域的技术人员在不脱离本发明的基本特征的情况下进行各种修正和修改。
为了便于解释和精确限定所附权利要求,术语“上”、“下”、“内部”、“外部”、“上升”、“下降”、“上方”、“下方”、“向上”,“向下”、“前”、“后”、“背”、“内侧”、“外侧”、“向内”、“向外”、“内”、“外”、“外部的”、“内部的”、“向前”和“向后”用于参考附图中显示的此类特征的位置来描述示例性实施例的特征。
已经出于说明和描述的目的呈现了本发明的具体示例性实施例的前述描述。它们并非旨在穷举或将本发明限制于所公开的确切形式,并且显然根据上述教导可以进行许多修改和变化。选择和描述示例性实施例是为了解释本发明的某些原理及其实际应用,以使本领域的其他技术人员能够制造和利用本发明的各种示例性实施例以及其各种替代和修改。本发明的范围旨在由所附权利要求及其等同物限定。
Claims (18)
1.一种配置为用于校正用户的话语错误的装置,所述装置包括:
语音活动检测器,配置为在区分用户话语中的语音部分和静音部分之后提取语音;
语音识别器,配置为在识别所述语音之后输出对应于由所述语音活动检测器所提取的语音的文本;
命名实体识别器,配置为识别从所述语音识别器输出的每个文本的命名实体;
文本规范化器,配置为基于由所述命名实体识别器所识别的每个文本的命名实体来规范化每个文本;以及
文本确定器,配置为从规范化的文本中确定最终文本。
2.根据权利要求1所述的装置,其中,所述文本规范化器生成包括规范化的文本的列表。
3.根据权利要求2所述的装置,其中,所述文本确定器配置为将所述列表上的每个文本作为搜索词来搜索地图数据库,并且配置为将作为目的地的待搜索的文本确定为所述最终文本。
4.根据权利要求1所述的装置,其中,所述命名实体识别器将指示代词、否定词、商标名称和专有名词识别为每个文本以及文本组合的所述命名实体。
5.根据权利要求4所述的装置,其中,所述文本规范化器从每个文本和文本组合中删除指示代词。
6.根据权利要求4所述的装置,其中,所述文本规范化器从每个文本和文本组合中删除重复的单词。
7.根据权利要求4所述的装置,其中,所述文本规范化器从每个文本和文本组合中删除否定词和否定词之前的词。
8.根据权利要求1所述的装置,其中,当在正常输入的先前的用户话语的验证期间在随后输入的用户话语中包括否定词时,所述文本规范化器通过使用该否定词之后的词而进一步执行该先前的用户话语的校正。
9.根据权利要求1所述的装置,其中,所述用户话语从车辆终端发送。
10.一种校正用户的话语错误的方法,所述方法包括:
在区分用户话语中的语音部分和静音部分之后,提取语音;
在识别所提取的语音之后输出对应于所提取的语音的文本;
识别每个输出的文本的命名实体;
基于每个识别的文本的命名实体而规范化每个文本;以及
从规范化的文本中确定最终文本。
11.根据权利要求10所述的方法,其中,规范化文本的步骤包括:
生成包括规范化的文本的列表。
12.根据权利要求11所述的方法,其中,确定所述最终文本的步骤包括:
将所述列表上的每个文本作为搜索词来搜索地图数据库,以将作为目的地的待搜索的文本确定为所述最终文本。
13.根据权利要求10所述的方法,其中,识别所述命名实体的步骤包括:
将指示代词、否定词、商标名称和名词识别为每个文本和文本组合的所述命名实体。
14.根据权利要求13所述的方法,其中,规范化文本的步骤包括:
从每个文本和文本组合删除指示代词。
15.根据权利要求13所述的方法,其中,规范化文本的步骤包括:
从每个文本和文本组合删除重复的单词。
16.根据权利要求13所述的方法,其中,规范化文本的步骤包括:
从每个文本和文本组合中删除否定词和否定词之前的词。
17.根据权利要求10所述的方法,其中,规范化文本的步骤进一步包括:
当在正常输入的先前的用户话语的验证期间在随后输入的用户话语中包括否定词时,通过使用该否定词之后的词来执行该先前的用户话语的校正。
18.根据权利要求10所述的方法,其中,所述用户话语从车辆终端发送。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020170167665A KR102518543B1 (ko) | 2017-12-07 | 2017-12-07 | 사용자의 발화 에러 보정 장치 및 그 방법 |
KR10-2017-0167665 | 2017-12-07 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109903770A true CN109903770A (zh) | 2019-06-18 |
Family
ID=66629610
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810337775.6A Pending CN109903770A (zh) | 2017-12-07 | 2018-04-16 | 用于校正用户的话语错误的装置及其方法 |
Country Status (4)
Country | Link |
---|---|
US (1) | US10629201B2 (zh) |
KR (1) | KR102518543B1 (zh) |
CN (1) | CN109903770A (zh) |
DE (1) | DE102018108947A1 (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110853621A (zh) * | 2019-10-09 | 2020-02-28 | 科大讯飞股份有限公司 | 语音顺滑方法、装置、电子设备及计算机存储介质 |
CN111554295A (zh) * | 2020-04-24 | 2020-08-18 | 科大讯飞(苏州)科技有限公司 | 文本纠错方法、相关设备及可读存储介质 |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11183186B2 (en) * | 2019-01-16 | 2021-11-23 | International Business Machines Corporation | Operating a voice response system |
KR20200119377A (ko) * | 2019-03-25 | 2020-10-20 | 삼성전자주식회사 | 화자 식별 뉴럴 네트워크를 구현하는 방법 및 장치 |
US11107468B2 (en) * | 2019-03-27 | 2021-08-31 | Lenovo (Singapore) Pte. Ltd. | Apparatus, method, and program product for context-based communications |
US12003176B2 (en) * | 2019-06-07 | 2024-06-04 | Panasonic Intellectual Property Management Co., Ltd. | In-vehicle power supply system to detect failure for a bi-directional DC-DC converter's conversion circuit |
KR20190089128A (ko) * | 2019-07-10 | 2019-07-30 | 엘지전자 주식회사 | 음성 인식 방법 및 음성 인식 장치 |
KR20190118996A (ko) * | 2019-10-01 | 2019-10-21 | 엘지전자 주식회사 | 음성 처리 방법 및 음성 처리 장치 |
KR20210050901A (ko) * | 2019-10-29 | 2021-05-10 | 엘지전자 주식회사 | 음성 인식 방법 및 음성 인식 장치 |
US11482214B1 (en) * | 2019-12-12 | 2022-10-25 | Amazon Technologies, Inc. | Hypothesis generation and selection for inverse text normalization for search |
CN111523327B (zh) * | 2020-04-23 | 2023-08-22 | 北京市科学技术情报研究所 | 一种基于语音识别的文本确定方法及系统 |
US11586821B2 (en) * | 2020-11-25 | 2023-02-21 | Iqvia Inc. | Classification code parser |
CN113836935A (zh) * | 2021-09-09 | 2021-12-24 | 海信视像科技股份有限公司 | 服务器及文本纠错方法 |
CN116129906B (zh) * | 2023-02-14 | 2024-09-20 | 新声科技(深圳)有限公司 | 语音识别文本修订方法、装置、计算机设备以及存储介质 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005215474A (ja) * | 2004-01-30 | 2005-08-11 | Denso Corp | 音声認識装置、プログラム、記憶媒体及びナビゲーション装置 |
US20070118372A1 (en) * | 2005-11-23 | 2007-05-24 | General Electric Company | System and method for generating closed captions |
JP2007136009A (ja) * | 2005-11-21 | 2007-06-07 | Sysmex Corp | 医療用シミュレーションシステム及びそのコンピュータプログラム |
US20080243498A1 (en) * | 2007-03-30 | 2008-10-02 | Verizon Data Services, Inc. | Method and system for providing interactive speech recognition using speaker data |
JP2008310004A (ja) * | 2007-06-14 | 2008-12-25 | Panasonic Corp | 音声認識装置、音声認識方法、及び音声認識プログラム |
CN103546787A (zh) * | 2012-07-12 | 2014-01-29 | 三星电子株式会社 | 校正语音识别错误的方法和应用该方法的广播接收设备 |
CN104252864A (zh) * | 2013-06-28 | 2014-12-31 | 国际商业机器公司 | 实时语音分析方法和系统 |
CN107315737A (zh) * | 2017-07-04 | 2017-11-03 | 北京奇艺世纪科技有限公司 | 一种语义逻辑处理方法及系统 |
Family Cites Families (29)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9076448B2 (en) * | 1999-11-12 | 2015-07-07 | Nuance Communications, Inc. | Distributed real time speech recognition system |
US7065201B2 (en) * | 2001-07-31 | 2006-06-20 | Sbc Technology Resources, Inc. | Telephone call processing in an interactive voice response call management system |
US20030171926A1 (en) * | 2002-03-07 | 2003-09-11 | Narasimha Suresh | System for information storage, retrieval and voice based content search and methods thereof |
US7266553B1 (en) * | 2002-07-01 | 2007-09-04 | Microsoft Corporation | Content data indexing |
US7493253B1 (en) * | 2002-07-12 | 2009-02-17 | Language And Computing, Inc. | Conceptual world representation natural language understanding system and method |
US7933399B2 (en) * | 2005-03-22 | 2011-04-26 | At&T Intellectual Property I, L.P. | System and method for utilizing virtual agents in an interactive voice response application |
US7983401B1 (en) * | 2006-08-15 | 2011-07-19 | At&T Mobility Ii Llc | Customized provision of automated menu options |
US8180735B2 (en) * | 2006-12-29 | 2012-05-15 | Prodea Systems, Inc. | Managed file backup and restore at remote storage locations through multi-services gateway at user premises |
US8374872B2 (en) * | 2008-11-04 | 2013-02-12 | Verizon Patent And Licensing Inc. | Dynamic update of grammar for interactive voice response |
KR20100111164A (ko) | 2009-04-06 | 2010-10-14 | 삼성전자주식회사 | 사용자의 발화의도를 파악하는 음성 대화 처리장치 및 음성 대화 처리방법 |
US20130166303A1 (en) * | 2009-11-13 | 2013-06-27 | Adobe Systems Incorporated | Accessing media data using metadata repository |
US8675842B2 (en) * | 2010-03-30 | 2014-03-18 | Verizon Patent And Licensing Inc. | Speech usage and performance tool |
US20130163746A1 (en) * | 2011-12-21 | 2013-06-27 | Matthew J. Wick | Voice response unit (vru) optimization |
EP2839391A4 (en) * | 2012-04-20 | 2016-01-27 | Maluuba Inc | CONVERSATION AGENT |
US20140214541A1 (en) * | 2013-01-30 | 2014-07-31 | Kiosked Oy | Method and system for user-controlled rendering of mobile advertisements |
US10191987B2 (en) * | 2013-11-22 | 2019-01-29 | Capital One Services, Llc | Systems and methods for searching financial data |
US10063701B2 (en) * | 2014-05-29 | 2018-08-28 | Genesys Telecommunications Laboratories, Inc. | Custom grammars builder platform |
KR101594835B1 (ko) * | 2014-11-05 | 2016-02-17 | 현대자동차주식회사 | 음성인식 기능을 갖는 차량 및 헤드유닛과 이를 위한 음성 인식방법 |
US9609126B2 (en) * | 2015-05-11 | 2017-03-28 | Paypal, Inc. | User device detection and integration for an IVR system |
US9691070B2 (en) * | 2015-09-01 | 2017-06-27 | Echostar Technologies L.L.C. | Automated voice-based customer service |
CA2941950A1 (en) * | 2015-09-21 | 2017-03-21 | Wal-Mart Stores, Inc. | Adjustable interactive voice response system |
KR101696555B1 (ko) * | 2015-10-06 | 2017-02-02 | 서울시립대학교 산학협력단 | 영상 또는 지리 정보에서 음성 인식을 통한 텍스트 위치 탐색 시스템 및 그 방법 |
WO2017112813A1 (en) * | 2015-12-22 | 2017-06-29 | Sri International | Multi-lingual virtual personal assistant |
US9998601B2 (en) * | 2016-04-28 | 2018-06-12 | Verizon Patent And Licensing Inc. | Dynamically configuring interactive voice response call trees |
US20180020093A1 (en) * | 2016-07-15 | 2018-01-18 | Circle River, Inc. | Automated call answering based on artificial intelligence |
US20180068031A1 (en) * | 2016-08-16 | 2018-03-08 | Ebay Inc. | Enhancing user queries using implicit indicators |
US10467509B2 (en) * | 2017-02-14 | 2019-11-05 | Microsoft Technology Licensing, Llc | Computationally-efficient human-identifying smart assistant computer |
US20190082043A1 (en) * | 2017-09-14 | 2019-03-14 | Tal Lavian | Systems and methods for visual presentation and selection of ivr menu |
US10714084B2 (en) * | 2018-02-09 | 2020-07-14 | Accenture Global Solutions Limited | Artificial intelligence based service implementation |
-
2017
- 2017-12-07 KR KR1020170167665A patent/KR102518543B1/ko active IP Right Grant
-
2018
- 2018-03-23 US US15/933,753 patent/US10629201B2/en active Active
- 2018-04-16 CN CN201810337775.6A patent/CN109903770A/zh active Pending
- 2018-04-16 DE DE102018108947.3A patent/DE102018108947A1/de active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005215474A (ja) * | 2004-01-30 | 2005-08-11 | Denso Corp | 音声認識装置、プログラム、記憶媒体及びナビゲーション装置 |
JP2007136009A (ja) * | 2005-11-21 | 2007-06-07 | Sysmex Corp | 医療用シミュレーションシステム及びそのコンピュータプログラム |
US20070118372A1 (en) * | 2005-11-23 | 2007-05-24 | General Electric Company | System and method for generating closed captions |
US20080243498A1 (en) * | 2007-03-30 | 2008-10-02 | Verizon Data Services, Inc. | Method and system for providing interactive speech recognition using speaker data |
JP2008310004A (ja) * | 2007-06-14 | 2008-12-25 | Panasonic Corp | 音声認識装置、音声認識方法、及び音声認識プログラム |
CN103546787A (zh) * | 2012-07-12 | 2014-01-29 | 三星电子株式会社 | 校正语音识别错误的方法和应用该方法的广播接收设备 |
CN104252864A (zh) * | 2013-06-28 | 2014-12-31 | 国际商业机器公司 | 实时语音分析方法和系统 |
CN107315737A (zh) * | 2017-07-04 | 2017-11-03 | 北京奇艺世纪科技有限公司 | 一种语义逻辑处理方法及系统 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110853621A (zh) * | 2019-10-09 | 2020-02-28 | 科大讯飞股份有限公司 | 语音顺滑方法、装置、电子设备及计算机存储介质 |
CN110853621B (zh) * | 2019-10-09 | 2024-02-13 | 科大讯飞股份有限公司 | 语音顺滑方法、装置、电子设备及计算机存储介质 |
CN111554295A (zh) * | 2020-04-24 | 2020-08-18 | 科大讯飞(苏州)科技有限公司 | 文本纠错方法、相关设备及可读存储介质 |
CN111554295B (zh) * | 2020-04-24 | 2021-06-22 | 科大讯飞(苏州)科技有限公司 | 文本纠错方法、相关设备及可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
KR102518543B1 (ko) | 2023-04-07 |
US10629201B2 (en) | 2020-04-21 |
DE102018108947A1 (de) | 2019-06-13 |
US20190180741A1 (en) | 2019-06-13 |
KR20190067582A (ko) | 2019-06-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109903770A (zh) | 用于校正用户的话语错误的装置及其方法 | |
US10755713B2 (en) | Generic virtual personal assistant platform | |
CN109841212B (zh) | 分析具有多个意图的命令的语音识别系统和语音识别方法 | |
KR102297394B1 (ko) | 적절한 에이전트의 자동화된 어시스턴트 호출 | |
US11610579B2 (en) | Processing natural language using machine learning to determine slot values based on slot descriptors | |
CN109325091B (zh) | 兴趣点属性信息的更新方法、装置、设备及介质 | |
US7974835B2 (en) | Method, system, and apparatus for natural language mixed-initiative dialogue processing | |
US9188456B2 (en) | System and method of fixing mistakes by going back in an electronic device | |
US20160163314A1 (en) | Dialog management system and dialog management method | |
JP2015176099A (ja) | 対話システム構築支援装置、方法、及びプログラム | |
US8509396B2 (en) | Automatic creation of complex conversational natural language call routing system for call centers | |
CN108564944B (zh) | 智能控制方法、系统、设备及存储介质 | |
EP2863385B1 (en) | Function execution instruction system, function execution instruction method, and function execution instruction program | |
US11942091B2 (en) | Alphanumeric sequence biasing for automatic speech recognition using a grammar and a speller finite state transducer | |
US11615788B2 (en) | Method for executing function based on voice and electronic device supporting the same | |
WO2016136207A1 (ja) | 音声対話装置、音声対話システム、音声対話装置の制御方法、および、プログラム | |
US10319378B2 (en) | Interaction apparatus and method | |
US20210193125A1 (en) | Artificial intelligence apparatus for recognizing speech including multiple languages, and method for the same | |
US20190325322A1 (en) | Navigation and Cognitive Dialog Assistance | |
US20240127810A1 (en) | Dialogue Management Method, Dialogue Management System, And Computer-Readable Recording Medium | |
WO2016136208A1 (ja) | 音声対話装置、音声対話システム、および、音声対話装置の制御方法 | |
CN117198289B (zh) | 语音交互方法、装置、设备、介质及产品 | |
CN114943237A (zh) | 一种语言翻译方法、装置、电子设备和存储介质 | |
EP4350558A2 (en) | Speech signal processing method and speech signal processing apparatus |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190618 |
|
RJ01 | Rejection of invention patent application after publication |