CN105529026B - 语音识别装置和语音识别方法 - Google Patents

语音识别装置和语音识别方法 Download PDF

Info

Publication number
CN105529026B
CN105529026B CN201510601128.8A CN201510601128A CN105529026B CN 105529026 B CN105529026 B CN 105529026B CN 201510601128 A CN201510601128 A CN 201510601128A CN 105529026 B CN105529026 B CN 105529026B
Authority
CN
China
Prior art keywords
speaker
speech
acoustic model
speech data
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510601128.8A
Other languages
English (en)
Other versions
CN105529026A (zh
Inventor
房圭燮
李昌宪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hyundai Motor Co
Original Assignee
Hyundai Motor Co
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hyundai Motor Co filed Critical Hyundai Motor Co
Publication of CN105529026A publication Critical patent/CN105529026A/zh
Application granted granted Critical
Publication of CN105529026B publication Critical patent/CN105529026B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • G10L15/07Adaptation to the speaker
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/187Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/32Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Telephonic Communication Services (AREA)
  • Computer Vision & Pattern Recognition (AREA)

Abstract

本公开涉及语音识别装置和语音识别方法。一种语音识别装置,包括:收集器,从基于语音的装置收集第一说话者的语音数据;第一存储器,累积第一说话者的语音数据;学习器,学习累积在第一存储器中的第一说话者的语音数据并且基于所学习的知语音数据生成第一说话者的个人声学模型;第二存储器,存储通用声学模型和第一说话者的个人声学模型;特征向量提取器,当从第一说话者接收到语音识别请求时,该特征向量提取器从第一说话者的语音数据提取特征向量;以及语音识别器,基于第一说话者的语音数据的累积量来选择通用声学模型和第一说话者的个人声学模型中的任一个并且使用所提取的特征向量和所选择的声学模型来识别语音命令。

Description

语音识别装置和语音识别方法
相关申请的交叉引用
本申请要求于2014年10月17日向韩国知识产权局提交的韩国专利申请第10-2014-0141167号的优先权和权益,通过引用将其全部内容结合于本文中。
技术领域
本公开涉及语音识别装置和语音识别方法。
背景技术
根据传统的语音识别方法,使用已预先存储在语音识别装置中的声学模型来执行语音识别。声学模型被用于表示说话者的语音的属性。例如,音素、双音素、三音素、五音素、音节以及字被用作声学模型的基本单位。如果将音素用作声学模型的基本模型,由于声学模型的数量减少,所以诸如双音素、三音素或五音素的上下文相关的声学模型被广泛使用以便反映相邻音素之间的变化所引起的协同发音(coarticulation)现象。需要大量数据来学习上下文相关的声学模型。
通常,将在消声室被录音的或通过服务器收集的各个说话者的声音存储作为语音数据,并且通过学习语音数据来生成声学模型。然而,在这种方法中,因为实际上使用语音识别功能的说话者的音调常常不同于与所收集的语音数据相对应的音调,故难以收集大量的语音数据并且保证语音识别性能。因此,由于通常通过学习成年男性的语音数据来生成声学模型,故难以识别具有不同的声音音调的成年女性、年长者或孩子的语音命令。
在该背景部分中公开的上述信息仅用于增强对本公开内容的背景的理解,并且因此本公开内容可以包含在该国家中未构成为本领域普通技术人员所已知的相关技术的信息。
发明内容
所创作的本公开致力于提供具有基于说话者的语音数据生成个人声学模型(individual acoustic model)并且通过使用个人声学模型进行语音识别的优点的语音识别装置和语音识别方法。除了前述目的以外,本公开的实施方式可被用于实现未详细描述的其他目的。
根据本公开的实施方式的语音识别装置包括:收集器,从基于语音的装置收集第一说话者(first speaker)的语音数据;第一存储器,累积第一说话者的语音数据;学习器(learner),学习累积在第一存储器中的第一说话者的语音数据并且基于所学习的语音数据生成第一说话者的个人声学模型;第二存储器,存储通用声学模型(generic acousticmodel)和第一说话者的个人声学模型;特征向量提取器,当从第一说话者接收到语音识别请求时,该特征向量提取器从第一说话者的语音数据提取特征向量;以及语音识别器,该语音识别器基于第一说话者的语音数据的累积量来选择通用声学模型和第一说话者的个人声学模型中的任一个并且语音识别器使用所提取的特征向量和所选择的声学模型识别语音命令。
语音识别装置可以进一步包括检测并且去除第一说话者的语音数据中的噪声的预处理器。
当第一说话者的语音数据的累积量大于或等于预定阈值时,语音识别器可以选择第一说话者的个人声学模型;并且当第一说话者的语音数据的累积量小于预定阈值时,语音识别器可以选择通用声学模型。
收集器可以收集包括第一说话者的多个说话者的语音数据,并且第一存储器可以累积多个说话者的各个说话者的语音数据。
学习器可以学习多个说话者的语音数据并且基于所学习的多个说话者的语音数据生成用于各个说话者的个人声学模型。
学习器可以学习多个说话者的语音数据并且基于所学习的多个说话者的语音数据来更新通用声学模型。
语音识别装置可以进一步包括执行与所识别的语音命令相对应的功能的识别结果处理器。
此外,根据本公开的实施方式,语音识别方法包括:从基于语音的装置收集第一说话者的语音数据;将第一说话者的语音数据累积在第一存储器中;学习所累积的第一说话者的语音数据;基于所学习的语音数据生成第一说话者的个人声学模型;将第一说话者的个人声学模型和通用声学模型存储在第二存储器中;当从第一说话者接收语音识别请求时,从第一说话者的语音数据提取特征向量;基于第一说话者的语音数据的累积量来选择第一说话者的个人声学模型和通用声学模型中的任一个;以及使用所提取的特征向量和所选择的声学模型识别语音命令。
语音识别方法可以进一步包括检测并且去除第一说话者的语音数据中的噪声。
语音识别方法可以进一步包括将第一说话者的语音数据的累积量与预定阈值进行比较;当第一说话者的语音数据的累积量大于或等于预定阈值时选择第一说话者的个人声学模型;并且当第一说话者的语音数据的累积量小于预定阈值时选择通用声学模型。
语音识别方法可以进一步包括收集包括第一说话者的多个说话者的语音数据,并且在第一存储器中累积多个说话者的各个说话者的语音数据。
语音识别方法可以进一步包括学习多个说话者的语音数据;并且基于所学习的多个说话者的语音数据生成用于各个说话者的个人声学模型。
语音识别方法可以进一步包括学习多个说话者的语音数据;并且基于所学习的多个说话者的语音数据来更新通用声学模型。
语音识别方法可以进一步包括执行与所识别的语音命令相对应的功能。
此外,根据本公开的实施方式,一种非易失性计算机可读介质,包含用于执行语音识别方法的程序指令,该计算机可读介质包括:从基于语音的装置收集第一说话者的语音数据的程序指令;将第一说话者的语音数据累积在第一存储器中的程序指令;学习所累积的第一说话者的语音数据的程序指令;基于所学习的语音数据生成第一说话者的个人声学模型的程序指令;将第一说话者的个人声学模型和通用声学模型存储在第二存储器中的程序指令;如果当从第一说话者接收语音识别请求时,从第一说话者的语音数据提取特征向量的程序指令;基于第一说话者的语音数据的累积量来选择通用声学模型和第一说话者的个人声学模型中的任一个的程序指令;以及使用所提取的特征向量和所选择的声学模型识别语音命令的程序指令。
因此,可以使用说话者的个人声学模型执行语音识别,从而改善语音识别性能。此外,可以减少生成个人声学模型所需的语音数据的收集时间和收集成本。
附图说明
图1是根据本公开的实施方式的语音识别装置的框图。
图2是根据本公开的实施方式的语音识别器和第二存储器的框图。
图3是根据本公开的实施方式的语音识别方法的流程图。
<符号说明>
110:车载信息娱乐装置 120:电话
210:收集器 220:预处理器
230:第一存储器 240:学习器
250:第二存储器 260:特征向量提取器
270:语音识别器 280:识别结果处理器
具体实施方式
在下文中,将参照附图详细地描述本公开。本领域的技术人员应理解的是,在不背离本公开的精神或范围的前提下,可以以各种不同的方式对所描述的实施方式进行修改。此外,贯穿本说明书,相同的参考标号指代相同的元件。
贯穿本说明书,除非另有明确说明,否则词语“包括(comprise)”以及诸如“包含(comprises)”或者“含有(comprising)”的变形应被理解为意指包括所陈述的元件,但并不排除任何其他元件。此外,在说明书中所描述的术语“单元”、“...者(-er)”、“...器(-or)”或者“模块(module)”意指用于处理至少一个功能和操作的器件并且可通过硬件组件或者软件组件及它们的组合来实现。
贯穿说明书,“说话者(speaker)”意指诸如车载信息娱乐装置或电话的基于语音的装置的用户,并且“语音数据(speech data)”意指用户的声音。此外,应理解的是,在本文中所使用的术语“车辆(vehicle)”或“车辆的(vehicular)”或其他类似术语包括广义上的机动车辆,诸如载客车辆,包括运动型多用途车辆(SUV)、公共汽车、卡车、各种商用车、包括各种小船和船只的船舶、飞机等等;并且包括混合动力车辆、电动车辆、插电式混合动力车辆、氢动力车辆以及其他可替代的燃料车辆(例如,燃料来源于除石油以外的能源)。如本文中所提及的,混合车辆是具有两个或更多个动力源的车辆,例如,汽油动力和电动力车辆这两者。
此外,应理解的是,可以由至少一个处理器执行一个或多个下面的方法或者该方法的方面。术语“处理器”可以指与存储器结合操作的硬件装置。该存储器被配置为存储程序指令,并且处理器被具体编程为执行用于执行下面进一步描述的一个或多个处理的程序指令。此外,应理解的是,如本领域普通技术人员应理解的,可由包括结合一个或多个其他组件的处理器的设备来执行下面的方法。
图1是根据本公开的实施方式的语音识别装置的框图;以及图2是根据本公开的实施方式的语音识别器和第二存储器的框图。
如在图1中所示,语音识别装置200可以通过有线或无线方式连接到基于语音的装置100。基于语音的装置110可以包括诸如音频视频导航(AVN)装置的车载信息娱乐装置110和电话120。语音识别装置200可以包括收集器210、预处理器220、第一存储器230、学习器240、第二存储器250、特征向量提取器260、语音识别器270以及识别结果处理器280。
收集器210可以从基于语音的装置100收集第一说话者(例如,车辆的驾驶员)的语音数据。例如,如果说明基于语音的装置100属于第一说话者,那么收集器210可以从基于语音的装置100收集语音数据作为第一说话者的语音数据。此外,收集器210可以收集包括第一说话者的多个说话者的语音数据。
预处理器220可以检测并且去除通过收集器210所收集的第一说话者的语音数据中的噪声。
在第一存储器230中累积去除了噪声的第一说话者的语音数据。此外,第一存储器230可以累积多个说话者的各个说话者的语音数据。
学习器240可以学习累积在第一存储器230中的第一说话者的语音数据,以生成第一说话者的个人声学模型252。将所生成的个人声学模型252存储在第二存储器250中。此外,学习器240可以通过学习累积在第一存储器230中的多个说话者的语音数据来生成用于各个说话者的个人声学模型。
第二存储器250预先存储通用声学模型254。可以通过学习消音室中的各个说话者的语音数据来预先生成通用声学模型254。此外,学习器240可以通过学习累积在第一存储器230中的多个说话者的语音数据来更新通用声学模型254。第二存储器250可以进一步存储被用于执行语音识别的上下文信息和语言模型。
如果从第一说话者接收到语音识别请求,那么特征向量提取器260从第一说话者的语音数据提取特征向量。将所提取的特征向量发送至语音识别器270。特征向量提取器260可以通过使用Mel频率倒谱参数(MelFrequency Cepstral Coefficient)(MFCC)提取法、线性预测编码(LPC)提取法、高频域强调提取法(high frequency domain emphasisextraction method)或窗口函数提取法来提取特征向量。由于提取特征向量的方法对于本领域普通技术人员是显而易见的,所以将省略对其的详细说明。
语音识别器270基于从特征向量提取器260接收的特征向量执行语音识别。语音识别器270可以基于第一说话者的语音数据的累积量来选择通用声学模型254和第一说话者的个人声学模型252中的任一个。具体地,语音识别器270可以将第一说话者的语音数据的累积量与预定阈值进行比较。预定阈值可被设定为是由本领域普通技术人员所确定的值,该值用于确定第一存储器230中是否累积了足够的第一说话者的语音数据。
如果第一说话者的语音数据的累积量大于或等于预定阈值,那么语音识别器270选择第一说话者的个人声学模型252。语音识别器270通过使用特征向量和第一说话者的个人声学模型252来识别语音命令。相反,如果第一说话者的语音数据的累积量小于预定阈值,那么语音识别器270选择通用声学模型254。语音识别器270通过使用特征向量和通用声学模型254来识别语音命令。
识别结果处理器280从语音识别器270接收语音识别结果(即,语音命令)。识别结果处理器280可以基于语音识别结果控制基于语音的装置100。例如,识别结果处理器280可以执行与所识别的语音命令相对应的功能(例如,呼叫功能或路线指导功能)。
图3是根据本公开的实施方式的语音识别方法的流程图。
在步骤S11中,收集器210从基于语音的装置100收集第一说话者的语音数据。预处理器220可以检测并且去除第一说话者的语音数据的噪声。此外,收集器210可以收集包括第一说话者的多个说话者的语音数据。
在步骤S12中,将中第一说话者的语音数据累积在第一存储器230。可以在第一存储器230中累积多个说话者的各个说话者的语音数据。
在步骤S13中,学习器240通过学习累积在第一存储器230中的第一说话者的语音数据来生成第一说话者的个人声学模型252。此外,学习器240可以通过学习多个说话者的语音数据来生成用于各个说话者的个人声学模型。此外,学习器240可以通过学习多个说话者的语音数据来更新通用声学模型254。
如果从第一说话者接收到语音识别请求,那么在步骤S14中,特征向量提取器260从第一说话者的语音数据提取特征向量。
在步骤S15中,语音识别器270可以将第一说话者的语音数据的累积量与预定阈值进行比较。
如果在步骤S15中第一说话者的语音数据的累积量大于或等于预定阈值,那么在步骤S16中,语音识别器270通过使用第一说话者的个人声学模型252和特征向量来识别语音命令。
如果在步骤S15中第一说话者的语音数据的累积量小于预定阈值,那么在步骤S17中,语音识别器270通过使用通用声学模型254和特征向量来识别语音命令。此后,识别结果处理器280可以执行与语音命令相对应的功能。
如上所述,根据本公开的实施方式,可以基于说话者的语音数据的累积量来选择个人声学模型和通用声学模型中的一个并且可以通过使用所选择的声学模型来执行语音识别。此外,可以基于所累积的语音数据生成说话者的定制声学模型,从而改善语音识别性能。
虽然结合目前被视为实践的实施方式描述了本公开内容,但是应理解的是,本公开内容不限于所公开的实施方式,相反,本公开内容旨在覆盖被包含在所附权利要求的实质和范围内的各种修改和等同配置。

Claims (13)

1.一种语音识别装置,包括:
收集器,从基于语音的装置收集第一说话者的语音数据;
第一存储器,累积所述第一说话者的语音数据;
学习器,学习累积在所述第一存储器中的所述第一说话者的语音数据并且所述学习器基于所学习的语音数据生成所述第一说话者的个人声学模型;
第二存储器,存储通用声学模型和所述第一说话者的个人声学模型;
特征向量提取器,当从所述第一说话者接收到语音识别请求时,所述特征向量提取器从所述第一说话者的语音数据提取特征向量;以及
语音识别器,基于所述第一说话者的语音数据的累积量来选择所述通用声学模型和所述第一说话者的个人声学模型中的任一个并且所述语音识别器使用所提取的特征向量和所选择的声学模型识别语音命令,
其中,当所述第一说话者的语音数据的累积量大于或等于预定阈值时,所述语音识别器选择所述第一说话者的个人声学模型;并且当所述第一说话者的语音数据的累积量小于所述预定阈值时,所述语音识别器选择所述通用声学模型。
2.根据权利要求1所述的语音识别装置,进一步包括检测并且去除所述第一说话者的语音数据中的噪声的预处理器。
3.根据权利要求1所述的语音识别装置,其中,
所述收集器收集包括所述第一说话者的多个说话者的语音数据;并且
所述第一存储器累积所述多个说话者的各个说话者的语音数据。
4.根据权利要求3所述的语音识别装置,其中,所述学习器学习所述多个说话者的语音数据并且所述学习器基于所学习的所述多个说话者的语音数据生成用于各个说话者个人声学模型。
5.根据权利要求3所述的语音识别装置,其中,所述学习器学习所述多个说话者的语音数据并且基于所学习的所述多个说话者的语音数据来更新所述通用声学模型。
6.根据权利要求1所述的语音识别装置,进一步包括执行与所识别的语音命令相对应的功能的识别结果处理器。
7.一种语音识别方法,包括:
从基于语音的装置收集第一说话者的语音数据;
将所述第一说话者的语音数据累积在第一存储器中;
学习所累积的所述第一说话者的语音数据;
基于所学习的语音数据生成所述第一说话者的个人声学模型;
将通用声学模型和所述第一说话者的个人声学模型存储在第二存储器中;
当从所述第一说话者接收到语音识别请求时,从所述第一说话者的语音数据提取特征向量;
基于所述第一说话者的语音数据的累积量来选择所述通用声学模型和所述第一说话者的个人声学模型中的任一个;以及
使用所提取的特征向量和所选择的声学模型识别语音命令,
所述语音识别方法进一步包括:
将所述第一说话者的语音数据的累积量与预定阈值进行比较;
当所述第一说话者的语音数据的累积量大于或等于所述预定阈值时,选择所述第一说话者的个人声学模型;并且
当所述第一说话者的语音数据的累积量小于所述预定阈值时,选择所述通用声学模型。
8.根据权利要求7所述的语音识别方法,进一步包括检测并且去除所述第一说话者的语音数据中的噪声。
9.根据权利要求7所述的语音识别方法,进一步包括:
收集包括所述第一说话者的多个说话者的语音数据;并且
在所述第一存储器中累积所述多个说话者的各个说话者的语音数据。
10.根据权利要求9所述的语音识别方法,进一步包括:
学习所述多个说话者的语音数据;并且
基于所学习的所述多个说话者的语音数据生成用于各个说话者的个人声学模型。
11.根据权利要求9所述的语音识别方法,进一步包括:
学习所述多个说话者的语音数据;并且
基于所学习的所述多个说话者的语音数据更新所述通用声学模型。
12.根据权利要求7所述的语音识别方法,进一步包括执行与所识别的语音命令相对应的功能。
13.一种非易失性计算机可读介质,包含用于执行语音识别方法的程序指令,所述非易失性计算机可读介质包括:
从基于语音的装置收集第一说话者的语音数据的程序指令;
将所述第一说话者的语音数据累积在第一存储器中的程序指令;
学习所累积的所述第一说话者的语音数据的程序指令;
基于所学习的语音数据生成所述第一说话者的个人声学模型的程序指令;
将通用声学模型和所述第一说话者的个人声学模型存储在第二存储器中的程序指令;
如果当从所述第一说话者接收到语音识别请求时,从所述第一说话者的语音数据提取特征向量的程序指令;
基于所述第一说话者的语音数据的累积量来选择所述通用声学模型和所述第一说话者的个人声学模型中的任一个的程序指令;以及
使用所提取的特征向量和所选择的声学模型来识别语音命令的程序指令,
所述计算机可读介质还包括:
将所述第一说话者的语音数据的累积量与预定阈值进行比较的程序指令;
当所述第一说话者的语音数据的累积量大于或等于所述预定阈值时,选择所述第一说话者的个人声学模型的程序指令;以及
当所述第一说话者的语音数据的累积量小于所述预定阈值时,选择所述通用声学模型的程序指令。
CN201510601128.8A 2014-10-17 2015-09-18 语音识别装置和语音识别方法 Active CN105529026B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2014-0141167 2014-10-17
KR1020140141167A KR101610151B1 (ko) 2014-10-17 2014-10-17 개인음향모델을 이용한 음성 인식장치 및 방법

Publications (2)

Publication Number Publication Date
CN105529026A CN105529026A (zh) 2016-04-27
CN105529026B true CN105529026B (zh) 2021-01-01

Family

ID=55638192

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510601128.8A Active CN105529026B (zh) 2014-10-17 2015-09-18 语音识别装置和语音识别方法

Country Status (4)

Country Link
US (1) US20160111084A1 (zh)
KR (1) KR101610151B1 (zh)
CN (1) CN105529026B (zh)
DE (1) DE102015213715A1 (zh)

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6391895B2 (ja) * 2016-05-20 2018-09-19 三菱電機株式会社 音響モデル学習装置、音響モデル学習方法、音声認識装置、および音声認識方法
CN106710591A (zh) * 2016-12-13 2017-05-24 云南电网有限责任公司电力科学研究院 用于电力终端的语音客服系统
KR20180082033A (ko) 2017-01-09 2018-07-18 삼성전자주식회사 음성을 인식하는 전자 장치
US10325592B2 (en) 2017-02-15 2019-06-18 GM Global Technology Operations LLC Enhanced voice recognition task completion
CN108630193B (zh) * 2017-03-21 2020-10-02 北京嘀嘀无限科技发展有限公司 语音识别方法及装置
CN107170444A (zh) * 2017-06-15 2017-09-15 上海航空电器有限公司 航空座舱环境自适应语音特征模型训练方法
CN109102801A (zh) * 2017-06-20 2018-12-28 京东方科技集团股份有限公司 语音识别方法和语音识别装置
JP6891736B2 (ja) * 2017-08-29 2021-06-18 富士通株式会社 音声処理プログラム、音声処理方法および音声処理装置
CN109559759B (zh) * 2017-09-27 2021-10-08 华硕电脑股份有限公司 具备增量注册单元的电子设备及其方法
US11182565B2 (en) 2018-02-23 2021-11-23 Samsung Electronics Co., Ltd. Method to learn personalized intents
CN108538293B (zh) * 2018-04-27 2021-05-28 海信视像科技股份有限公司 语音唤醒方法、装置及智能设备
CN108717854A (zh) * 2018-05-08 2018-10-30 哈尔滨理工大学 基于优化gfcc特征参数的说话人识别方法
KR102562227B1 (ko) * 2018-06-12 2023-08-02 현대자동차주식회사 대화 시스템, 그를 가지는 차량 및 차량의 제어 방법
US11314940B2 (en) 2018-05-22 2022-04-26 Samsung Electronics Co., Ltd. Cross domain personalized vocabulary learning in intelligent assistants
US11011162B2 (en) * 2018-06-01 2021-05-18 Soundhound, Inc. Custom acoustic models
KR102637339B1 (ko) * 2018-08-31 2024-02-16 삼성전자주식회사 음성 인식 모델을 개인화하는 방법 및 장치
CN111326141A (zh) * 2018-12-13 2020-06-23 南京硅基智能科技有限公司 一种处理获取人声数据的方法
KR102346026B1 (ko) 2019-02-11 2021-12-31 삼성전자주식회사 전자 장치 및 이의 제어 방법
CN113096646B (zh) * 2019-12-20 2022-06-07 北京世纪好未来教育科技有限公司 音频识别方法、装置、电子设备及存储介质
CN113555032B (zh) * 2020-12-22 2024-03-12 腾讯科技(深圳)有限公司 多说话人场景识别及网络训练方法、装置
KR102613698B1 (ko) * 2023-07-31 2023-12-14 주식회사 효돌 사용자 음성 데이터에 기초하여 사용자 유형화를 수행하는방법 및 장치

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020116192A1 (en) * 1998-09-09 2002-08-22 Makoto Shozakai Speech recognizer
US20020123891A1 (en) * 2001-03-01 2002-09-05 International Business Machines Corporation Hierarchical language models
US20050004799A1 (en) * 2002-12-31 2005-01-06 Yevgenly Lyudovyk System and method for a spoken language interface to a large database of changing records
CN101281745A (zh) * 2008-05-23 2008-10-08 深圳市北科瑞声科技有限公司 一种车载语音交互系统
CN102237086A (zh) * 2010-04-28 2011-11-09 三星电子株式会社 用于语音识别设备的补偿装置和方法
CN102280106A (zh) * 2010-06-12 2011-12-14 三星电子株式会社 用于移动通信终端的语音网络搜索方法及其装置
CN103187053A (zh) * 2011-12-31 2013-07-03 联想(北京)有限公司 输入方法和电子设备
CN103226949A (zh) * 2011-09-30 2013-07-31 苹果公司 在虚拟助理中使用情境信息来促进命令的处理
US20140180675A1 (en) * 2012-12-21 2014-06-26 Arbitron Inc. Audio Decoding with Supplemental Semantic Audio Recognition and Report Generation

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6941264B2 (en) * 2001-08-16 2005-09-06 Sony Electronics Inc. Retraining and updating speech models for speech recognition
KR101493452B1 (ko) 2013-05-31 2015-02-16 국방과학연구소 함정 전투체계의 트래픽 모델링 방법

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020116192A1 (en) * 1998-09-09 2002-08-22 Makoto Shozakai Speech recognizer
US20020123891A1 (en) * 2001-03-01 2002-09-05 International Business Machines Corporation Hierarchical language models
US20050004799A1 (en) * 2002-12-31 2005-01-06 Yevgenly Lyudovyk System and method for a spoken language interface to a large database of changing records
CN101281745A (zh) * 2008-05-23 2008-10-08 深圳市北科瑞声科技有限公司 一种车载语音交互系统
CN102237086A (zh) * 2010-04-28 2011-11-09 三星电子株式会社 用于语音识别设备的补偿装置和方法
CN102280106A (zh) * 2010-06-12 2011-12-14 三星电子株式会社 用于移动通信终端的语音网络搜索方法及其装置
CN103226949A (zh) * 2011-09-30 2013-07-31 苹果公司 在虚拟助理中使用情境信息来促进命令的处理
CN103187053A (zh) * 2011-12-31 2013-07-03 联想(北京)有限公司 输入方法和电子设备
US20140180675A1 (en) * 2012-12-21 2014-06-26 Arbitron Inc. Audio Decoding with Supplemental Semantic Audio Recognition and Report Generation

Also Published As

Publication number Publication date
CN105529026A (zh) 2016-04-27
US20160111084A1 (en) 2016-04-21
DE102015213715A1 (de) 2016-04-21
KR101610151B1 (ko) 2016-04-08

Similar Documents

Publication Publication Date Title
CN105529026B (zh) 语音识别装置和语音识别方法
US10380992B2 (en) Natural language generation based on user speech style
US8639508B2 (en) User-specific confidence thresholds for speech recognition
JP5957269B2 (ja) 音声認識サーバ統合装置および音声認識サーバ統合方法
JP4709663B2 (ja) ユーザ適応型の音声認識方法及び音声認識装置
JP4260788B2 (ja) 音声認識機器制御装置
EP1936606A1 (en) Multi-stage speech recognition
US8762151B2 (en) Speech recognition for premature enunciation
US10621985B2 (en) Voice recognition device and method for vehicle
CN109920410B (zh) 用于基于车辆的环境确定推荐的可靠性的装置和方法
US20160111090A1 (en) Hybridized automatic speech recognition
CN112397065A (zh) 语音交互方法、装置、计算机可读存储介质及电子设备
US20150215716A1 (en) Audio based system and method for in-vehicle context classification
US20210183362A1 (en) Information processing device, information processing method, and computer-readable storage medium
US9286888B1 (en) Speech recognition system and speech recognition method
KR101065188B1 (ko) 진화 학습에 의한 화자 적응 장치 및 방법과 이를 이용한 음성인식 시스템
US20150310853A1 (en) Systems and methods for speech artifact compensation in speech recognition systems
US10468017B2 (en) System and method for understanding standard language and dialects
CN112927688B (zh) 用于车辆的语音交互方法及系统
Loh et al. Speech recognition interactive system for vehicle
CN112823387A (zh) 语音识别装置、语音识别系统以及语音识别方法
US20140343947A1 (en) Methods and systems for managing dialog of speech systems
KR20220073513A (ko) 대화 시스템, 차량 및 대화 시스템의 제어 방법
US20140136204A1 (en) Methods and systems for speech systems
WO2018029071A1 (en) Audio signature for speech command spotting

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant