CN105210147B - 用于改进至少一个语义单元集合的方法、设备及计算机可读记录介质 - Google Patents

用于改进至少一个语义单元集合的方法、设备及计算机可读记录介质 Download PDF

Info

Publication number
CN105210147B
CN105210147B CN201580000567.1A CN201580000567A CN105210147B CN 105210147 B CN105210147 B CN 105210147B CN 201580000567 A CN201580000567 A CN 201580000567A CN 105210147 B CN105210147 B CN 105210147B
Authority
CN
China
Prior art keywords
semantic
semantic unit
improved
units
unit set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201580000567.1A
Other languages
English (en)
Other versions
CN105210147A (zh
Inventor
金玟澈
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Naver Corp
Original Assignee
Naver Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from KR1020140048315A external-priority patent/KR101651909B1/ko
Application filed by Naver Corp filed Critical Naver Corp
Priority to CN201911020246.4A priority Critical patent/CN110675866B/zh
Publication of CN105210147A publication Critical patent/CN105210147A/zh
Application granted granted Critical
Publication of CN105210147B publication Critical patent/CN105210147B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0635Training updating or merging of old and new templates; Mean values; Weighting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/086Recognition of spelled words
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/06Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being correlation coefficients

Abstract

本发明提供一种用于改进至少一个语义单元的集合的方法、系统和计算机可读记录介质。根据本发明,可通过使用语声或文本来改进至少一个语义单元的集合。

Description

用于改进至少一个语义单元集合的方法、设备及计算机可读 记录介质
技术领域
本发明涉及一种用于通过使用语声来改进至少一个语义单元集合(下文中简称为“语义单元”)的方法、设备及计算机可读记录介质。
相关申请的交叉引用
本申请请求韩国申请No.10-2014-0048315和韩国申请No.10-2014-0077056的权益,其公开内容通过引用整体并入于此。
背景技术
已经尝试识别人类的语音并将所识别的语音转换为语义单元的标准集合(即,包括至少一个语义单元的集合)。这种语义单元集合可输出为与指定语言对应的数字语声,或者可书写为指定语言的文本。在前一种情况下,该语义单元集合可为作为模拟语声的分析结果的数字语声,模拟语声分析是一种扩展的语音识别;而在后一种情况下,该语义单元集合可为作为有限(narrow)的语音识别的结果的语音识别文本。
然而,根据前述尝试获得的语义单元集合在品质方面有一定的局限性。例如,人们各种各样的惯用语习惯、一些人的发音不清楚、不存在于字典中的词汇和地域方言的使用、包括噪音的周围环境等实质上使得难以根据语音识别技术获得语义单元集合。
由此,本申请的发明人提出了一种通过使用改进的语声(即,为了改进而单独说出的语声)来改进至少一个语义单元集合从而获得优良品质的语义单元集合的新技术。
在此,作为通过改进的语声而实现的改进目标,语义单元集合不必局限于通过语音识别技术获得。例如,作为改进目标的语义单元集合可为初始以文本输入的集合(即,其可能不是基于语音识别技术获得的语义单元集合)。
相反地,即使是在作为改进目标的语义单元集合为基于语音识别技术而获得的集合的情况下,为了改进该语义单元集合,也可设想到使用改进的文本而不是改进的语声。
本申请的发明人还提出了一种可用于上述各种情况的新技术。
在本背景技术部分中公开的上述信息仅用于加强对本发明的背景技术的理解,因此,其可能包含不构成在本国对于本领域技术人员而言已知的现有技术的信息
发明内容
技术问题
技术主题
本发明致力于解决相关领域的所有问题。
本发明还致力于通过使用语声或文本来改进至少一个语义单元集合。
本发明还致力于简单地并且精确地改进语音识别的结果。
本发明还致力于简单地并且精确地改进文本输入的结果。
技术方案
根据下文中描述的本发明,可通过改进的语声来改进包括至少一个语义单元的集合,无论该集合是不是通过预定的电子装置(未示出)识别人类的模拟语音而获得的数字语声或文本结果,或者无论该集合是不是通过电子装置(未示出)输入(例如,通过键盘或按键输入)并且随后基于文本到语音(TTS)技术输出的数字语声,或者无论该集合是不是经输入并且随后被显示在屏幕上的文本。这种改进的方面可包括语音识别结果的校正或在经输入后被显示的文本中的打字错误的校正。
同时,根据下文中描述的本发明,可通过改进的文本来改进包括至少一个语义单元的集合,这种情况下该集合是通过预定的电子装置(未示出)识别人类的模拟语音而获得的数字语声或文本结果。作为这种改进的一方面,可包括语音识别结果的校正。
在这个角度上,本发明的代表性配置如下。
本发明的示例性实施例提供一种用于改进包括至少一个语义单元的集合的方法,其中所述包括至少一个语义单元的集合是捕获的语义单元集合,所述方法包括:根据用户的说话接收改进的语声;在所述改进的语声的基础上指定改进的语义单元集合;在所述捕获的语义单元集合内作为实际待改进的目标的语义单元集合与所述改进的语义单元集合的关联性的基础上、在所述捕获的语义单元集合内指定作为实际待改进的目标的语义单元集合为匹配的语义单元集合;以及用所述改进的语义单元集合来替换所述捕获的语义单元集合内的所述匹配的语义单元集合。
本发明的另一示例性实施例提供一种存储用于执行其他方法、其他设备和前述方法的计算机程序的计算机可读记录介质。
有益效果
根据本发明的一实施例,可通过使用语声来改进具有至少一个语义单元的集合。
根据本发明的一实施例,可简单地并且精确地改进语音识别的结果。
根据本发明的一实施例,可简单地并且精确地改进文本输入的结果。
附图说明
图1是以图解方式例示了根据本发明的示例性实施例的语义单元改进装置的外观的视图;
图2是在概念上例示了根据本发明的示例性实施例的语义单元改进装置的内部配置的框图;
图3是例示了根据本发明的示例性实施例的匹配方法的流程图;
图4是例示了根据本发明的示例性实施例的语义单元改进方法的流程图;
图5是例示了根据本发明的示例性实施例的数字语声比较方法的流程图;
图6是例示了根据本发明的示例性实施例的文本比较方法的流程图。
具体实施方式
下文中的详细说明参照了随附附图,该附图以例示的方式示出了本发明得以实践的具体实施例。这些实施例以充分的细节被描述从而使得本领域技术人员能够实践本发明。应理解的是,本发明的各种实施例即使存在区别也不必一定互相排斥。例如,在本文中结合一个实施例描述的某些特征、结构或特性可在不脱离本发明的精神和范围的前提下在其他实施例中实施。此外,应理解的是,可在不脱离本发明的精神和范围的前提下对所公开的每个实施例中的各个单独的元素的位置或设置进行修改。因此,下文中的详细说明不应理解为是具有限制性的,并且本发明的范围仅由随附权利要求书限定并且连同所述权利要求的等同方案所覆盖的全部范围进行适当解读。在附图中,贯穿若干视图相同的数字标记指相同或类似的功能。
下面将参照随附附图详细描述各实施例以使得本发明所属领域的技术人员可以容易地实践这些实施例。
本发明的示例性实施例
装置的配置
图1是以图解方式例示了根据本发明的示例性实施例的语义单元改进装置的外观的视图。
如图1所示,语义单元改进装置100包括:显示单元110(例如,显示面板),为用户显示关于各种语义单元集合的视觉信息等;按钮单元120(例如,智能手机的主画面按钮),当用户根据语义单元改进装置100的类型按压或触摸按钮单元120时,执行预定功能;声音输出单元130(例如,扬声器),输出在语义单元改进装置100内生成的语音或声音;声传感器(典型地为设置于按钮单元120下方的麦克风)(未示出);以及任意已知的电气/电子部件(未示出)。在图1中,语义单元改进装置100被示出为智能手机,但语义单元改进装置100不限于此,而是任意数码装置都可被当作语义单元改进装置100,只要其包括存储单元和支持计算功能的微处理器,比如台式计算机、笔记本电脑、工作站、个人数字助理(PDA)、连网板、移动电话(不包括智能手机)和各种智能可穿戴装置(例如,智能手表、智能手环、智能眼镜或智能戒指)。
同时,显示单元110可用作已知的触摸面板并且进一步执行接收用户的文本输入的功能。在此,用户的文本输入可由触摸面板上通过与触摸面板交互工作的软件而提供的键盘/按键(未示出)来执行。然而,语义单元改进设备100可通过包含单独的硬件键盘/按键(未示出)来接收用户的文本输入。
下面将参照图2详细描述语义单元改进装置100的内部配置。图2是在概念上例示了根据本发明的示例性实施例的语义单元改进装置的内部配置的框图。
如图2所示,根据本发明的示例性实施例的语义单元改进装置100可包括语音检测单元210、语音处理单元220、语义单元改进单元230、数据库250以及控制单元260。根据本发明的示例性实施例,语音检测单元210、语音处理单元220、语义单元改进单元230、数据库250以及控制单元260中的至少一部分可为用于执行预定计算、控制其它硬件组件或软件组件或者与这种组件通信的程序模块。程序模块可作为语义单元改进装置100中的操作系统、应用程序模块或其它程序模块而包含在其内,并且可被物理地存储在各种已知存储装置中。而且,这种程序模块可被存储在远程存储装置(未示出),或者甚至可被存储在能够与语义单元改进装置100通信的外部电子装置(未示出)中。由此,根据本领域技术人员的自由选择,语义单元改进装置100的至少一部分功能可由外部电子装置等执行。程序模块可被存储在可与终端200通信的远程存储装置上。程序模块可包括但不限于将依照本发明进行描述的、执行指定操作或指定抽象数据类型的例程、子程序、程序、对象、组件和数据结构。
首先,根据本发明的示例性实施例的语音检测单元210可执行检测由用户说出的语音的功能,即,该语音是与包括待改进的至少一个语义单元集合的、更大的语义单元集合对应的模拟语音,或者是可单独地由用户说出的、用于上述这种改进的改进的语声。
为此,语音检测单元210可包括前述声传感器作为其一部分或者可至少与声传感器通信。声传感器可包括,例如,甚至能够检测振幅较小的语音信号的噪声传感器、振动传感器和超声传感器,以及比如麦克风的一般的声传感器。
声传感器可设置在语音检测单元210、机架、主板(未示出)、印刷电路板(PCB)(未示出)和语义单元改进装置100的外壳(未示出)中的至少一部分中。
语音检测单元210可将检测到的语音的模拟信号传送给语音处理单元220,如下文中描述的。
根据本发明的示例性实施例的语音处理单元220可用于将从语音检测单元210传送的模拟语音信号转换为数字信号。
语音处理单元220可包括已知的模数转换器(ADC)。由此,语音处理单元220可通过执行采样处理、量化处理和编码处理中的至少一种处理来将与包括作为改进目标(即,待改进)的语义单元集合的更大的语义单元集合对应的语音的信号或用于改进的语声信号从模拟信号转换为数字信号。
而且,语音处理单元220可放大语音信号、消除语音信号中的噪声、选择性地仅接收指定频段的语音信号或改变语音信号的波形。为此,语音处理单元220可包括已知的放大器、已知的噪声滤波器、已知的带通/带阻滤波器、卡尔曼(Kalman)滤波器、EMA滤波器或Savitzky-Golay滤波器。语音处理单元220可将时域的语音信号转换为频域的语音信号,或者将频域的语音信号转换为时域的语音信号。
语音处理单元220可将作为处理结果的数字语声信号传送给语义单元改进单元230,如下文中描述的。
根据本发明的示例性实施例的语义单元改进单元230可根据从语音处理单元220传送的数字语声信号来捕获包括作为改进目标的指定语义单元集合的更大的语义单元集合。该更大的语义单元集合物理地可为对应的数字语声本身,或者可为文本转换结果。在后一种情况下,或者为了下文中描述的其他语音识别需要,语义单元改进单元230可包括已知的语音识别模块或可与已知的语音识别模块交互工作。下文中,前述语义单元集合将被称为“捕获的语义单元集合”。
语义单元改进单元230还可根据从语音处理单元220传送的数字语声信号来指定改进的语声。下文中,如上所述与指定的改进的语声对应的语义单元集合将被称为“改进的语义单元集合”。该“改进的语义单元集合”物理地可为对应的数字语声本身,或者可为文本转换结果。
而且,由语义单元改进单元230处理的捕获的语义单元集合可不必一定源自数字语声信号。换言之,例如,与通过用户的键输入的或通过读取光学字符(opticalcharacter)获取(与模拟或数字语声的产生无关)的文本对应的语义单元集合也可为上述捕获的语义单元集合。
同时,预定的改进的文本可形成改进的语义单元集合。例如,由用户通过键盘输入的文本可直接为改进的语义单元集合。
总的来说,可获得关于捕获的语义单元集合和改进的语义单元集合之间的关系的多个实例,如在下方的表1中所示。
【表1】
实例 捕获的语义单元集合 改进的语义单元集合
1 数字语声 数字语声
2 将数字语声转换为文本的结果 数字语声
3 根据用户的键输入获得的文本 数字语声
4 数字语声 将数字语声转换为文本的结果
5 将数字语声转换为文本的结果 将数字语声转换为文本的结果
6 根据用户的键输入获得的文本 将数字语声转换为文本的结果
7 数字语声 根据用户的键输入获得的文本
8 将数字语声转换为文本的结果 根据用户的键输入获得的文本
语义单元改进单元230可比较捕获的语义单元集合和改进的语义单元集合,并且提取作为实际改进目标的、与捕获的语义单元集合中的改进的语义单元集合高度相关的语义单元集合。这种提取也被称为作为改进目标的语义单元集合与改进的语义单元集合之间的匹配。为了匹配而进行的比较可为数字语声之间的比较、文本之间的比较或数字语声和文本之间的比较(在此情况下,可能需要预先将数字语声和文本中的一个转换为与另一个相同的格式)。为了说明的目的,作为改进目标的、匹配的语义单元集合将被称为“匹配的语义单元集合”。在一个捕获的语义单元集合中,可能仅存在一个匹配的语义单元集合或多个语义单元集合。
为了匹配的目的,语义单元改进单元230还可利用基于用户输入(即,除了说出用于改进的语声之外进行的输入,或者改进的文本的输入)的信息。例如,当提取出具有较高关联性的多个语义单元集合时,可允许用户被动地选择多个语义单元集合的至少一部分来确定匹配的语义单元集合。
下文中将进一步描述根据本发明的示例性实施例的匹配。
此后,语义单元改进单元230可在改进的语义单元集合的基础上改进匹配的语义单元集合。换言之,可用改进的语义单元集合来替换匹配的语义单元集合。这种替换可为删除捕获的语义单元集合中的匹配的语义单元集合并且在其位置插入改进的语义单元集合。结果可能是捕获的语义单元集合具有改进的品质并且同时维持物理格式。这种结果物理地可为数字语声或文本。
下文中将进一步描述根据本发明的示例性实施例的语义单元集合的改进。
此后,可将捕获的语义单元集合、改进的语义单元集合和关于匹配的信息存储在根据本发明的示例性实施例的数据库250中。尽管所例示的数据库250被包含在语义单元改进装置100内,但必要时数据库250也可配置为是与语义单元改进装置100分离的元件。根据本发明的示例性实施例的数据库250可具有包括计算机可读记录介质的概念,并且可为广义的包括基于文件系统的数据记录等的数据库以及狭义的数据库,甚至连简单的日志集合也可作为根据本发明的示例性实施例的数据库250,只要该日志集合可被检索以提取数据。
根据本发明的示例性实施例的控制单元260可用于控制语音检测单元210、语音处理单元220、语义单元改进单元230和数据库250之间的数据流。换言之,控制单元260可控制语义单元改进装置100的各元件之间的数据流,从而允许语音检测单元210、语音处理单元220、语义单元改进单元220和数据库250执行其固有功能。
匹配
下面将参照图3对上文中简述的匹配进行详细描述。图3是例示了根据本发明的示例性实施例的匹配方法的流程图。
首先,语义单元改进单元230可指定改进的语义单元集合(S1)。
根据示例性实施例,语义单元改进单元230可在从语音处理单元220传送的数字语声信号之中指定:在用户的预定指令之前或之后(或紧接前或紧接后)传送的数字信号的语音,并将其作为待改进的语音,即,将其作为改进的语义单元集合(前述指令可为用户说出的预设词或预设键的输入)。
例如,当用户说出比如“I can correct typing at all without backspaceerror”这样的话语并且随后发出预定指令时,对应于“error”的数字语声或者根据语音识别而从数字语声转换得到的文本可能被指定为改进的语义单元集合。这种指定可能是基于:对应于“error”的语音部分(即,改进的语声)和“error”前面的语音部分(即,对应于“backspace”的语音部分或者对应于“without backspace”的语音部分)之间的时间间隔等于或大于预定阈值。同时,在此示例中,对应于“I can correct typing at all withoutbackspace”的数字语声或者根据语音识别而从该数字语声转换得到的文本可为捕获的语义单元集合。
根据另一示例性实施例,例如,即使用户在发出旨在改进显示在屏幕上的比如“Ican correct typing at all without backspace”这样的文本(即,捕获的语义单元集合)的预定指令之前或之后说出“error”,语义单元改进单元230仍可在对应的数字语声的基础上指定改进的语义单元集合。
而且,根据另一示例性实施例,在用户说出对应于“I can correct typing atall without backspace”的短句并且随后看到显示在屏幕上的文本之后,当用户在发出旨在改进显示在屏幕上的文本的预定指令之前或之后(或紧接前或紧接后)、通过键盘输入比如“error”的改进的文本时,语义单元改进单元230可在对应的数字语声的基础上指定改进的语义单元集合。
此后,语义单元改进单元230可在指定的改进的语义单元集合的基础上,在捕获的语义单元集合内指定作为实际待改进的目标的语义单元集合(S2)。
在执行前述步骤之前,如上所述,可能已经捕获了作为实际改进目标的、包括指定的语义单元集合的更大的语义单元集合。这种捕获的语义单元集合可为比如如上所述的“Ican correct typing at all without backspace”的语义集合。
语义单元改进单元230可在捕获的语义单元集合内的各单元之间的时间间隔或空间和/或改进的语义单元集合的长度(例如,对应的数字语声信号的持续时间、文本长度、对应的句法词的数量、单词的数量、音节的数量、字母的数量以及语符的数量)的基础上、将捕获的语义单元集合划分并扩展为多个部分,比如“I can”、“can correct”、“correcttyping”、“typing at”、“at all”、“all without”、“without backspace”,并且将划分出的各部分与改进的语义单元集合进行比较。当然,语义单元改进单元230可将捕获的语义单元集合划分为多个部分,比如“I”、“can”、“correct”、“typing”、“at”、“all”、“without”和“backspace”,或者可将捕获的语义单元集合划分为“cor”、“rect”等而不是“correct”。在这种情况下,可将各部分中的一个或多个与改进的语义单元集合进行比较。在上下文中描述了划分和扩展捕获的语义单元集合从而将捕获的语义单元集合与改进的语义单元集合进行比较,但除了将捕获的语义单元集合分离(划分)为多个部分或扩展各部分(即:各部分彼此覆盖地布置)之外,也可采用其他任何方案,只要将捕获的语义单元集合的各部分与改进的语义单元集合进行比较即可。
在数字语声之间进行比较的情况下,这种比较可为时域或频域中的数字语声的特征之间的比较。数字语声信号波中的特征点在语音特征之中可能是典型的。换言之,在相同的播放时间间隔内,在两个数字语声信号之间发现的共同特征点越多,这两个数字语声可视为具有越高的关联性。然而,为了比较数字语声,可能会使用各种算法,由此,需要考虑的数字语声的特征(特点)可自由地包括以下中的一个或多个。
(1)时域中语音信号的特征
最大振幅、平均振幅、平均频率、平均值、标准偏差、通过整体振幅归一化的标准偏差、方差、偏度、峰度、和、绝对和、均方根(RMS)、波峰因子、离差、熵、功率和、质心、变异系数、互相关、过零点、周期性、直流(DC)偏压或对上述特征计算获得的语音信号的一阶、二阶、三阶或更高阶导数。
(2)频域中语音信号的特征
谱矩心(spectral centroid)、谱密度、球谐函数、总平均谱能量、每个八度音阶的带能比、日志谱带比、基于线性预测的倒谱系数(LPCC)、知觉线性预测(PLP)倒谱系数、梅尔频率(mel-frequency)倒谱系数、频率相位、对上述特征计算得到的频域表达中语音信号的一阶、二阶、三阶或更高阶导数。
同时,前述比较可为文本之间的比较。在这种情况下,可关于句法词、单词、音节、字母及其语符中的至少一个来比较该文本。可使用一种或多种已知的文本比较算法来进行该比较。例如,可将在音节上具有高序贯相似性(例如,音值或拼写相似)的两个文本定义为具有高关联性的文本。
根据比较结果,语义单元改进单元230可确定捕获的语义单元集合内与改进的语义单元集合具有高关联性的部分并将其作为匹配的语义单元集合。结果,在上述示例中,对应于部分“at all”的数字语声或文本可被确定为是匹配的语义单元集合。
具体比较方法
在此将更详细地描述由语义单元改进单元230执行的比较方法。应意识到的是,本领域技术人员可自由地采用用于计算在此描述的关联度值的一个或多个方法,以用于捕获的语义单元集合的一部分和改进的语义单元集合之间的最佳比较。
语义单元改进单元230最终是将上述实例1-8中任一的数字语声或文本进行比较。这是因为,即使是在对数字语声和文本进行比较时,在定期比较之前,两个语义单元集合的格式被统一为数字语声和文本中的一种。为此,语义单元改进单元230可包括已知的语音识别模块和/或已知的TTS模块,或至少与这些模块交互工作。
首先,将参照图5描述执行数字语声之间的比较的实例。图5是例示了根据本发明的示例性实施例的数字语声比较方法的流程图。
在步骤501中,语义单元改进单元230可测量与改进的语义单元集合对应的数字语声的长度。这种长度的单位通常可为时间(秒)。
在步骤502中,语义单元改进单元230可根据该长度或根据通过将预定长度添加至该长度而获得的长度或根据从该长度减去预定长度而获得的长度,将捕获的语义单元集合划分为若干部分,并且扩展各部分。例如,当捕获的语义单元集合是播放时间为10秒的数字语声并且改进的语义单元集合是播放时间为1秒的数字语声时,可将捕获的语义单元集合划分为91个部分,其对应的播放时间间隔为0-1秒、0.1-1.1秒、…、8.9-9.9秒以及9-10秒,并且可扩展划分出的各部分。可根据语义单元改进单元230和语义单元改进装置100的性能适当地调整前述各部分的数量。
在步骤503中,语义单元改进单元230可将捕获的语义单元集合的各部分与改进的语义单元集合进行比较。比较的实质可为数字语声信号的特征之间的比较。这种比较可包括预定关联度值的计算。例如,在相互对应的时间间隔内,每次在两个数字语声信号之间发现相同或相似的特征点时,就累加关联度值。可将确定的关联度值赋予捕获的语义单元集合的对应部分。当然,还可将如上所述的各种特征(包括频域中的特征)的一致性或相似度用作计算关联度值的基础。
如有必要,可重复执行步骤503。换言之,在已诱导用户以同样的效果、两次或更多次说出改进的语声之后,语义单元改进单元230可基于关于捕获的语义单元集合的所有部分或其已具有预定关联度值的部分的数字语声之间的比较、两次或更多次地重复执行关联度值的计算。在该重复的关联度值计算之后,可将捕获的语义单元集合中具有最高关联度值(累计值或平均值)的部分确定为匹配的语义单元集合。
下面将参照图6描述对文本进行比较的实例。图6是例示了根据本发明的示例性实施例的文本比较方法的流程图。
在步骤601中,语义单元改进单元230可测量与改进的语义单元集合对应的文本的长度。文本的这种长度通常可通过句法词、单词、音节、字母或语符的数量表示。例如,与改进的语义单元集合对应的文本可为“error”,并且“error”的长度为两个音节。
在步骤602中,语义单元改进单元230可根据该长度或根据通过将预定长度添加至该长度而获得的长度或根据从该长度减去预定长度而获得的长度,将捕获的语义单元集合划分为若干部分,并且扩展各部分。例如,当捕获的语义单元集合是比如“I can correcttyping at all without backspace”的文本时,在划分捕获的语义单元集合之后经扩展的各部分可各种地包括“I”、“can”、“correct”、“I can”、“can correct”、“I can correct”、“cor”和“rect”(捕获的语义单元集合的其他各部分并无不同)。在此,以最期望的方式划分捕获的语义单元集合之后经扩展的各部分可为具有两个音节的那些部分,比如“I can”、“can cor”、“correct”、“rect ty”、“typing”、“ping at”、“at all”、“all with”、“without”、“out back”和“backspace”。
可根据语义单元改进单元230和语义单元改进装置100的性能适当地调整前述各部分的数量。
在步骤603中,语义单元改进单元230可将捕获的语义单元集合的各部分与改进的语义单元集合进行比较。该比较可为各文本之间关于句法词、单词、音节、字母和语符中的至少一个的顺序比较。这种比较可包括预定的关联度值计算。例如,每次在相互对应的各部分中发现两个文本之间的相同或相似音节时,可累加关联度值。可将确定的关联度值赋予捕获的语义单元集合的对应部分。在此,确定两个文本之间相似的标准可为:音节在拼写上相似,或者不如说是音节在音值上相似。例如,在与捕获的语义单元集合的一部分对应的文本为“at all”并且与改进的语义单元集合对应的文本为“error”的情况下,音节“all”和“or”包括相同的流音“l”和“r”,因此可确定其相似。在捕获的语义单元集合的各部分之中,“at all”部分的关联度值是必然会增加的。
同时,该比较可为基于各文本之间的语义相关性的整体比较。可根据两个单词是否分别与属于相同类别或者实际上指的是相似的含义(单词的类别或含义可参照已知的语言库)的两个文本对应来发现这种相关性。例如,在捕获的语义单元集合为文本“I can doit this Saturday”并且改进的语义单元集合为文本“may”或“Friday”的情况下,可识别出改进的语义单元集合“may”与捕获的语义单元集合的部分“can”(尽管其音值和拼写都完全不同,但实际上)具有语义关联性(即,英语中的助动词),并且可识别出改进的语义单元集合“Friday”与捕获的语义单元集合的部分“Saturday”(尽管其前面部分的音值和拼写都完全不同,但实际上)具有语义关联性(即,“星期”类)。所发现的关联性可产生捕获的语义单元集合中与其对应的部分的关联度值。
另一方面,该比较可为各文本之间基于键位置关联性的比较。在这种比较中,可对属于捕获的语义单元集合的一部分的文本的拼写和改进的语音单元集合的文本的拼写进行顺序比较,并且即使在确定了不同的拼写在键盘上位于彼此邻近的位置的情况下以及在发现了相同的拼写的情况下,根据比较结果,对前述部分赋予关联度值。例如,当使用QWERTY键盘时,可确定捕获的语义单元集合的一部分的文本“wyw”与在音值或拼写上完全不同的、改进的语义单元集合的文本“eye”具有高关联度值。
如有必要,可重复地执行步骤603。换言之,在已诱导用户以同样的效果、两次或更多次说出改进的语声之后,语义单元改进单元230可基于关于捕获的语义单元集合的所有部分或其已具有预定关联度值的部分的文本之间的比较、两次或更多次地重复执行关联度值的计算。在该重复的关联度值计算之后,可将捕获的语义单元集合中具有最高关联度值(累计值或平均值)的部分确定为匹配的语义单元集合。
根据本发明的示例性实施例,为了更合理地取得关联度值,可一同采用如上所述的两个或更多种关联度值计算方法。在这种情况下,根据一种方法的关联度值乘以相应权重所获得的值可与根据另一种方法的关联度值乘以相应权重所获得的值相加。相应地,所得到的关联度值可为组合(composite)关联度值。而且,在这种情况下,捕获的语义单元集合中具有高的组合关联度值的一个或若干部分可为匹配的语义单元集合。
可根据语义单元改进装置100的环境或用户意图以不同方式来确定与根据一种方法的关联度值相乘的权重。例如,当用户重复说出改进的语声从而生成改进的语义单元集合时,基于数字语声比较的关联度值可被赋予较高的权重。可替换地,当用户通过可容易发生错误的小触摸面板来创建与捕获的语义单元集合对应的文本时,基于文本比较的各关联度值之中反应出键盘上的键邻接关系的关联度值可被赋予高的权重。
语义单元集合的改进
下面将参照附图4对上文中简要描述过的语义单元集合的改进进行详细描述。图4是例示了根据本发明的示例性实施例的改进方法的流程图。
首先,语义单元改进单元230可用改进的语义单元集合来替换匹配的语义单元集合(步骤T1)。在此,作为替换的结果,捕获的语义单元集合可包括改进的语义单元集合而不是匹配的语义单元集合。这种替换的结果可为改进的语音识别结果或改进的文本。根据前述示例,改进的语音识别结果或文本可为“I can correct typing error withoutbackspace”。改进的语音识别结果或文本可精确地满足用户的原始意图。
语义单元改进单元230可在改进之后向用户提供与待用作替代物的捕获的语义单元集合对应的数字语声,或者可显示对应的文本(步骤T2)。由此,根据前述示例,与语义单元集合“I can correct typing error without backspace”对应的数字语声或文本可被用户听到或显示给用户。
然而,在此,改进的语声可能无法确保根据环境的充分改进(改进的文本基本上不存在这种问题)。换言之,改进的语声的品质因用户本身固有的问题(例如,发音不准、使用方言等)而从一开始就不够高,并因此改进的语声被错误地识别为与另一语义单元集合对应,或者即使改进的语声的品质没有那么低,改进的语声仍然会在特定过程中因环境问题(例如,包含噪音的环境、语义单元改进装置100的低规格等)而被错误地识别为与另一语义单元集合对应。在这种情况下,在尝试改进之后,用户听到的或者显示给用户的可能不是与例如语义单元集合“I can correct typing error without backspace”对应的数字语声或文本,而仍然是与语义单元集合“I can correct typing at all without backspace”对应的数字语声或文本,或是与语义单元集合“I can correct typing era withoutbackspace”对应的数字语声或文本。这一结果对于用户而言是相当令人失望的。
因此,根据本发明的示例性实施例,可进一步执行以下额外步骤。
通常,如果在执行步骤T2之后,或者可替换地在执行步骤T1之后并且在执行步骤T2之前,或者执行步骤T1之前,进一步与改进的语声一起使用预定的额外信息,则语义单元改进单元230可更精确地还在该额外信息的基础上指定与改进的语声对应的语义单元集合。下面将描述能够实现更精确的指定的额外信息的各种示例。
1-1.部分拼写
例如,除了前述示例中与改进的语声对应的“error”之外,用户可进一步顺序地说出“e”、“r”和“r”。在这种情况下,语义单元改进单元230可识别出“e”、“r”和“r”事实上是用于在预设设定或其他机械运行技术的基础上更精确地指定改进的语义单元集合的部分拼写(即,在连续说出预定数量的字母之后,当说出对应于改进的语义单元集合的、具有与对应的字母表按顺序相同的前面部分的改进的语声时,前述各字母全部被视为改进的语义单元集合的部分拼写)。显而易见地,这可确保更精确地指定改进的语义单元集合。
1-2.军用语音字母表(Military phonetic alphabet)
例如,除了前述示例中与改进的语声对应的“error”之外,用户可顺序地说出“echo”、“romeo”和“romeo”。在这种情况下,语义单元改进单元230可识别“echo”、“romeo”和“romeo”事实上是用于在预设设定或其他机械运行技术的基础上更精确地指定改进的语义单元集合的部分拼写(即,在连续说出预定数量的军用语音字母之后,当说出对应于改进的语义单元集合的、具有与对应的字母表按顺序相同的前面部分的改进的语声时,前述各字母全部被视为改进的语义单元集合的部分拼写)。
同时,在韩语中,可通过难以指定的双元音字符的解读性表达(interpretationutterance)(例如,针对改进的语义单元集合连续说出
Figure BDA00008238395500001410
)来执行部分拼写技术;而在日语中,可通过关于汉字的左偏旁部首的表达(例如,为了防止改进的语义单元集合“嶋田”(しまだ)被错误地识别为“島田”(しまだ),额外地说出“山編”(やまへん)))来执行部分拼写技术。
2.提示词
例如,除了前述示例中与改进的语声对应的“error”之外,用户可进一步顺序说出“of”和“erroneous”。在这种情况下,语义单元改进单元230可识别“erroneous”为用于在预设设定(即,在该设定中,当在已说出该改进的语声的部分中说出“of”时,对应于语声的下一个单词被视为提示词)或其他机械运行技术的基础上、更精确地指定改进的语义单元集合的提示词(即,单词的至少一部分具有与改进的语义单元集合校正中的单词相同或类似的拼写)。显而易见地,这可确保更精确地指定改进的语义单元集合。在此,被视为是保留词的“of”可由其他容易被用户理解或错误识别率较低的词取代,比如“like”等。
同时,除前述示例之外,在用户说出“Zoe”作为改进的语声但“Zoe”被识别为“Joe”而做出了错误的改进的情况下,用户可再次说出“Zoe”,并且可进一步连同保留词和对应字母一起说出提示词,比如“Z”、“of”和“Zebra”,以用于强调应包含在正确的改进的语义单元集合中的各字母。因此,语义单元改进单元230可校正改进的语义单元集合,使其包括提示词(即,“Zoe”)的各字母。
对于韩语,在
Figure BDA0000823839550000141
被错误地识别为
Figure BDA0000823839550000142
的情况下,当用户再次说出
Figure BDA0000823839550000143
并且进一步说出
Figure BDA0000823839550000144
Figure BDA0000823839550000145
时,语义单元改进单元230可校正改进的语义单元集合,使其包含关键词“即,将其校正为
Figure BDA0000823839550000148
在日语的情况下,为了对将“感じ”(かんじ)错误地识别为“漢字”(かんじ)进行校正,可额外地说出“感動の感”(かんどうのかん);或者,为了对将“買いに”(かいに)错误地识别为“海に”(かいに)进行校正,可额外地说出“買い物の買い”(かいもののかい)。
同时,无论是何语言,可额外地说出在含义上接近于正确的改进的语义单元集合的单词(例如,为了使改进的语义单元集合包括“error”,可连同保留词“like”一起额外地说出同义词“mistake”),可说出具有上下位关系的单词(例如,为了使改进的语义单元集合包括“Kia”,可连同保留词“like”一起额外地说出被关系者“car company”),或者可额外地说出联想词(例如,为了使
Figure BDA0000823839550000151
成为改进的语义单元集合,可连同保留词“like”一起额外地说出联想词或者为了使“queries”成为改进的语义单元集合,可连同保留词“for”一起额外地说出联想词“database”)。
换言之,当用户进一步连同保留词一起说出与改进的语声接近的提示词(或提示字)时,语义单元改进单元230可解读提示词并且更精确地指定与改进的语声对应的改进的语义单元集合。
本发明的各实施例可以通过可记录至计算机可读介质的各种计算机装置、以可执行的程序命令的形式实施。计算机可读介质可单独地或以结合方式包括程序命令、数据文件和数据结构。记录至介质的程序命令可为特别设计以用于本发明的组件,或者可由计算机软件领域的技术人员使用。计算机可读记录介质包括诸如硬盘、软盘和磁带的磁介质;诸如CD-ROM和DVD的光学介质;诸如软式光盘的磁光介质;以及诸如ROM、RAM的硬件装置和特别设计以存储和运行各程序的闪速存储器。程序命令不仅包括由编译器制成的机器语言代码,还包括可由通过计算机执行的解译器等使用的高级代码。前述硬件装置可不止像软件模块一样工作以执行本发明的动作,而且还可在相反的实例中以同样的方式工作。
虽然已经结合当前被视为是实际示例性实施例的实施例描述了本发明,但应理解的是,本发明不限于所公开的实施例,正相反,本发明旨在覆盖包含在随附权利要求书的精神和范围内的各种不同修改和等同设置。
因此,本发明的范围不应限于所说明的实施例,并且下面的专利权利要求书以及包括等同于该专利权利要求书的各变形的所有内容均落入本发明的范畴内。

Claims (8)

1.一种用于改进包括显示在屏幕上并包括打字错误的至少一个语义单元的集合的方法,其中包括至少一个语义单元的集合是捕获的语义单元集合,所述方法包括:
根据用户的说话接收用于校正包含在所述语义单元集合中的打字错误的改进的语声,所述改进的语声包括与包含所述打字错误的单词对应的单词;
在所述改进的语声的基础上指定改进的语义单元集合;
基于所述改进的语义单元集合的关联性,将所述捕获的语义单元集合内作为实际待改进的对象的包括所述语义单元集合中包含的打字错误的语义单元集合,指定为匹配的语义单元集合;以及
用所述改进的语义单元集合来替换所述捕获的语义单元集合内的所述匹配的语义单元集合,
在所述改进的语声的基础上还同时使用在所述改进的语声的说话之后进一步说话的用于更精确地指定改进的语义单元集合的预定的额外信息指定改进的语义单元集合,
所述指定改进的语义单元集合包括:测量所述改进的语义单元集合的长度,
指定匹配的语义单元集合包括:在所述改进的语义单元集合的各单元之间的间隔或所述改进的语义单元集合的长度的基础上、将所述捕获的语义单元集合划分为多个部分,并且扩展划分出的各部分,
指定匹配的语义单元集合还包括:将所述捕获的语义单元集合的多个部分中的每个部分与所述改进的语义单元集合进行比较。
2.如权利要求1所述的方法,其中,
所述比较包括:将与所述捕获的语义单元集合的多个部分中的每个部分对应的数字音信号的特征和与所述改进的语义单元集合对应的数字音信号的特征进行比较。
3.如权利要求1所述的方法,其中,
所述比较包括:将与所述捕获的语义单元集合的多个部分中的每个部分对应的文本和与所述改进的语义单元集合对应的文本进行比较。
4.如权利要求3所述的方法,其中,
文本的所述比较包括:在音值或拼写方面顺序地比较两个文本。
5.如权利要求3所述的方法,其中,
文本的所述比较包括:比较两个文本是否属于相同的种类或者是否具有类似的含义。
6.如权利要求3所述的方法,其中,
文本的所述比较包括:在键位置关联性的基础上比较两个文本。
7.一种存储用于执行如权利要求1-6中任一项所述的方法的计算机程序的计算机可读记录介质。
8.一种用于改进包括显示在屏幕上并包括打字错误的至少一个语义单元的集合的设备,其中包括至少一个语义单元的集合是捕获的语义单元集合,所述设备包括:
语音检测单元,被配置为根据用户的说话接收用于校正包含在所述语义单元集合中的打字错误的改进的语声,所述改进的语声包括与包含所述打字错误的单词对应的单词;以及
语义单元改进单元,被配置为在所述改进的语声的基础上指定改进的语义单元集合,以基于所述改进的语义单元集合的关联性,将所述捕获的语义单元集合内作为实际待改进的对象的包括所述语义单元集合中包含的打字错误的语义单元集合,指定为匹配的语义单元集合,并且用所述改进的语义单元集合来替换所述捕获的语义单元集合内的所述匹配的语义单元集合,
所述语义单元改进单元还在所述改进的语声的说话之后进一步说话的用于更精确地指定改进的语义单元集合的预定的额外信息的基础上指定改进的语义单元集合,
指定改进的语义单元集合时,测量所述改进的语义单元集合的长度,
指定匹配的语义单元集合时,在所述改进的语义单元集合的各单元之间的间隔或所述改进的语义单元集合的长度的基础上、将所述捕获的语义单元集合划分为多个部分,并且扩展划分出的各部分,
指定匹配的语义单元集合时,还将所述捕获的语义单元集合的多个部分中的每个部分与所述改进的语义单元集合进行比较。
CN201580000567.1A 2014-04-22 2015-04-22 用于改进至少一个语义单元集合的方法、设备及计算机可读记录介质 Active CN105210147B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911020246.4A CN110675866B (zh) 2014-04-22 2015-04-22 用于改进至少一个语义单元集合的方法、设备及计算机可读记录介质

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
KR10-2014-0048315 2014-04-22
KR1020140048315A KR101651909B1 (ko) 2014-04-22 2014-04-22 음성 인식 텍스트 수정 방법 및 이 방법을 구현한 장치
KR1020140077056 2014-06-24
KR10-2014-0077056 2014-06-24
PCT/KR2015/004010 WO2015163684A1 (ko) 2014-04-22 2015-04-22 적어도 하나의 의미론적 유닛의 집합을 개선하기 위한 방법, 장치 및 컴퓨터 판독 가능한 기록 매체

Related Child Applications (1)

Application Number Title Priority Date Filing Date
CN201911020246.4A Division CN110675866B (zh) 2014-04-22 2015-04-22 用于改进至少一个语义单元集合的方法、设备及计算机可读记录介质

Publications (2)

Publication Number Publication Date
CN105210147A CN105210147A (zh) 2015-12-30
CN105210147B true CN105210147B (zh) 2020-02-07

Family

ID=54332775

Family Applications (2)

Application Number Title Priority Date Filing Date
CN201580000567.1A Active CN105210147B (zh) 2014-04-22 2015-04-22 用于改进至少一个语义单元集合的方法、设备及计算机可读记录介质
CN201911020246.4A Active CN110675866B (zh) 2014-04-22 2015-04-22 用于改进至少一个语义单元集合的方法、设备及计算机可读记录介质

Family Applications After (1)

Application Number Title Priority Date Filing Date
CN201911020246.4A Active CN110675866B (zh) 2014-04-22 2015-04-22 用于改进至少一个语义单元集合的方法、设备及计算机可读记录介质

Country Status (4)

Country Link
US (1) US10395645B2 (zh)
JP (1) JP2016521383A (zh)
CN (2) CN105210147B (zh)
WO (1) WO2015163684A1 (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102217292B1 (ko) * 2015-02-26 2021-02-18 네이버 주식회사 적어도 하나의 의미론적 유닛의 집합을 음성을 이용하여 개선하기 위한 방법, 장치 및 컴퓨터 판독 가능한 기록 매체
KR101704501B1 (ko) * 2015-10-30 2017-02-09 주식회사 큐키 적어도 하나의 의미론적 유닛의 집합을 개선하기 위한 방법, 장치 및 컴퓨터 판독 가능한 기록 매체
KR101830210B1 (ko) * 2016-04-28 2018-02-21 네이버 주식회사 적어도 하나의 의미론적 유닛의 집합을 개선하기 위한 방법, 장치 및 컴퓨터 판독 가능한 기록 매체
KR20180012464A (ko) * 2016-07-27 2018-02-06 삼성전자주식회사 전자 장치 및 그의 음성 인식 방법
US10503467B2 (en) 2017-07-13 2019-12-10 International Business Machines Corporation User interface sound emanation activity classification
CN108962228B (zh) * 2018-07-16 2022-03-15 北京百度网讯科技有限公司 模型训练方法和装置
CN110827799B (zh) * 2019-11-21 2022-06-10 百度在线网络技术(北京)有限公司 用于处理语音信号的方法、装置、设备和介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1409842A (zh) * 1999-10-28 2003-04-09 佳能株式会社 模式匹配方法和装置
CN1453766A (zh) * 2002-04-24 2003-11-05 株式会社东芝 声音识别方法以及声音识别装置
CN1555553A (zh) * 2001-09-17 2004-12-15 �ʼҷ����ֵ��ӹɷ����޹�˾ 通过比较所识别的文本中的语音学序列与手动输入的校正词的语音学转换来校正通过语音识别而识别的文本
CN102141889A (zh) * 2010-02-12 2011-08-03 微软公司 用于编辑的打字辅助

Family Cites Families (43)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3663758A (en) * 1970-03-24 1972-05-16 Teaching Complements Inc Speech pattern recognition system
JPH01237597A (ja) * 1988-03-17 1989-09-22 Fujitsu Ltd 音声認識訂正装置
JP2000010586A (ja) * 1998-06-22 2000-01-14 Nec Corp 音声認識応答装置及び認識結果確認方法
JP2950823B1 (ja) * 1998-09-29 1999-09-20 株式会社エイ・ティ・アール音声翻訳通信研究所 音声認識誤り訂正装置
US6302698B1 (en) * 1999-02-16 2001-10-16 Discourse Technologies, Inc. Method and apparatus for on-line teaching and learning
US7310600B1 (en) * 1999-10-28 2007-12-18 Canon Kabushiki Kaisha Language recognition using a similarity measure
US6868383B1 (en) * 2001-07-12 2005-03-15 At&T Corp. Systems and methods for extracting meaning from multimodal inputs using finite-state devices
US8321427B2 (en) * 2002-10-31 2012-11-27 Promptu Systems Corporation Method and apparatus for generation and augmentation of search terms from external and internal sources
TWI226600B (en) * 2003-03-12 2005-01-11 Leadtek Research Inc Nasal detection method and device thereof
US20060229878A1 (en) * 2003-05-27 2006-10-12 Eric Scheirer Waveform recognition method and apparatus
US20050071170A1 (en) 2003-09-30 2005-03-31 Comerford Liam D. Dissection of utterances into commands and voice data
US20060004570A1 (en) 2004-06-30 2006-01-05 Microsoft Corporation Transcribing speech data with dialog context and/or recognition alternative information
JP4301102B2 (ja) * 2004-07-22 2009-07-22 ソニー株式会社 音声処理装置および音声処理方法、プログラム、並びに記録媒体
US20060057545A1 (en) * 2004-09-14 2006-03-16 Sensory, Incorporated Pronunciation training method and apparatus
JP4784120B2 (ja) * 2005-03-23 2011-10-05 日本電気株式会社 音声書き起こし支援装置及びその方法ならびにプログラム
US20060292531A1 (en) * 2005-06-22 2006-12-28 Gibson Kenneth H Method for developing cognitive skills
US20070016421A1 (en) * 2005-07-12 2007-01-18 Nokia Corporation Correcting a pronunciation of a synthetically generated speech object
JP4734155B2 (ja) * 2006-03-24 2011-07-27 株式会社東芝 音声認識装置、音声認識方法および音声認識プログラム
US20080059152A1 (en) 2006-08-17 2008-03-06 Neustar, Inc. System and method for handling jargon in communication systems
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US7904298B2 (en) * 2006-11-17 2011-03-08 Rao Ashwin P Predictive speech-to-text input
US20110060587A1 (en) * 2007-03-07 2011-03-10 Phillips Michael S Command and control utilizing ancillary information in a mobile voice-to-speech application
WO2009040790A2 (en) * 2007-09-24 2009-04-02 Robert Iakobashvili Method and system for spell checking
US8332212B2 (en) * 2008-06-18 2012-12-11 Cogi, Inc. Method and system for efficient pacing of speech for transcription
WO2009158581A2 (en) * 2008-06-27 2009-12-30 Adpassage, Inc. System and method for spoken topic or criterion recognition in digital media and contextual advertising
KR101197010B1 (ko) 2011-03-30 2012-11-05 포항공과대학교 산학협력단 음성 처리 장치 및 방법
US9236045B2 (en) 2011-05-23 2016-01-12 Nuance Communications, Inc. Methods and apparatus for proofing of a text input
KR20130008663A (ko) * 2011-06-28 2013-01-23 엘지전자 주식회사 사용자 인터페이스 방법 및 장치
US8645825B1 (en) 2011-08-31 2014-02-04 Google Inc. Providing autocomplete suggestions
US8515751B2 (en) * 2011-09-28 2013-08-20 Google Inc. Selective feedback for text recognition systems
US9715489B2 (en) 2011-11-10 2017-07-25 Blackberry Limited Displaying a prediction candidate after a typing mistake
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
KR20130135410A (ko) * 2012-05-31 2013-12-11 삼성전자주식회사 음성 인식 기능을 제공하는 방법 및 그 전자 장치
US8606577B1 (en) 2012-06-25 2013-12-10 Google Inc. Visual confirmation of voice recognized text input
US8909526B2 (en) * 2012-07-09 2014-12-09 Nuance Communications, Inc. Detecting potential significant errors in speech recognition results
US9292621B1 (en) 2012-09-12 2016-03-22 Amazon Technologies, Inc. Managing autocorrect actions
US20160117940A1 (en) * 2012-09-12 2016-04-28 Lingraphicare America Incorporated Method, system, and apparatus for treating a communication disorder
US9489372B2 (en) 2013-03-15 2016-11-08 Apple Inc. Web-based spell checker
CN105027197B (zh) 2013-03-15 2018-12-14 苹果公司 训练至少部分语音命令系统
JP5893588B2 (ja) * 2013-07-09 2016-03-23 京セラ株式会社 携帯端末、編集誘導プログラムおよび編集誘導方法
KR101381101B1 (ko) * 2013-11-13 2014-04-02 주식회사 큐키 문자열 사이의 연관성 판단을 통한 오타 수정 방법
US9653073B2 (en) * 2013-11-26 2017-05-16 Lenovo (Singapore) Pte. Ltd. Voice input correction
CN103645876B (zh) * 2013-12-06 2017-01-18 百度在线网络技术(北京)有限公司 语音输入方法和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1409842A (zh) * 1999-10-28 2003-04-09 佳能株式会社 模式匹配方法和装置
CN1555553A (zh) * 2001-09-17 2004-12-15 �ʼҷ����ֵ��ӹɷ����޹�˾ 通过比较所识别的文本中的语音学序列与手动输入的校正词的语音学转换来校正通过语音识别而识别的文本
CN1453766A (zh) * 2002-04-24 2003-11-05 株式会社东芝 声音识别方法以及声音识别装置
CN102141889A (zh) * 2010-02-12 2011-08-03 微软公司 用于编辑的打字辅助

Also Published As

Publication number Publication date
US10395645B2 (en) 2019-08-27
CN110675866B (zh) 2023-09-29
WO2015163684A1 (ko) 2015-10-29
CN110675866A (zh) 2020-01-10
JP2016521383A (ja) 2016-07-21
US20170032778A1 (en) 2017-02-02
CN105210147A (zh) 2015-12-30

Similar Documents

Publication Publication Date Title
CN105210147B (zh) 用于改进至少一个语义单元集合的方法、设备及计算机可读记录介质
US9711139B2 (en) Method for building language model, speech recognition method and electronic apparatus
JP4791984B2 (ja) 入力された音声を処理する装置、方法およびプログラム
US9613621B2 (en) Speech recognition method and electronic apparatus
KR102191425B1 (ko) 인터랙티브 캐릭터 기반 외국어 학습 장치 및 방법
US9471568B2 (en) Speech translation apparatus, speech translation method, and non-transitory computer readable medium thereof
CN109686383B (zh) 一种语音分析方法、装置及存储介质
KR101590724B1 (ko) 음성 인식 오류 수정 방법 및 이를 수행하는 장치
US20150112674A1 (en) Method for building acoustic model, speech recognition method and electronic apparatus
US11043213B2 (en) System and method for detection and correction of incorrectly pronounced words
US9202466B2 (en) Spoken dialog system using prominence
JP6284462B2 (ja) 音声認識方法、及び音声認識装置
JP6127422B2 (ja) 音声認識装置及び方法、並びに、半導体集積回路装置
CN110503956A (zh) 语音识别方法、装置、介质及电子设备
US10347242B2 (en) Method, apparatus, and computer-readable recording medium for improving at least one semantic unit set by using phonetic sound
KR20180033875A (ko) 음성 신호를 번역하는 방법 및 그에 따른 전자 디바이스
Sim Haptic voice recognition: Augmenting speech modality with touch events for efficient speech recognition
JP2012255867A (ja) 音声認識装置
KR102392992B1 (ko) 음성 인식 기능을 활성화시키는 호출 명령어 설정에 관한 사용자 인터페이싱 장치 및 방법
JP6221267B2 (ja) 音声認識装置及び方法、並びに、半導体集積回路装置
KR101704501B1 (ko) 적어도 하나의 의미론적 유닛의 집합을 개선하기 위한 방법, 장치 및 컴퓨터 판독 가능한 기록 매체
KR101729972B1 (ko) 타국인 발화 음성을 위한 음성 인식 장치
CN113112996A (zh) 用于基于语音的音频和文本对齐的系统和方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20170801

Address after: Gyeonggi Do, South Korea

Applicant after: NAVER CORP.

Address before: Seoul, South Kerean

Applicant before: KEUKEY INC

GR01 Patent grant
GR01 Patent grant