CN108630202A - 语音识别装置、语音识别方法以及语音识别程序 - Google Patents

语音识别装置、语音识别方法以及语音识别程序 Download PDF

Info

Publication number
CN108630202A
CN108630202A CN201710767713.4A CN201710767713A CN108630202A CN 108630202 A CN108630202 A CN 108630202A CN 201710767713 A CN201710767713 A CN 201710767713A CN 108630202 A CN108630202 A CN 108630202A
Authority
CN
China
Prior art keywords
voice
threshold value
signal
input
level
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710767713.4A
Other languages
English (en)
Other versions
CN108630202B (zh
Inventor
笼岛岳彦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Publication of CN108630202A publication Critical patent/CN108630202A/zh
Application granted granted Critical
Publication of CN108630202B publication Critical patent/CN108630202B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/165Management of the audio stream, e.g. setting of volume, audio stream path
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60QARRANGEMENT OF SIGNALLING OR LIGHTING DEVICES, THE MOUNTING OR SUPPORTING THEREOF OR CIRCUITS THEREFOR, FOR VEHICLES IN GENERAL
    • B60Q9/00Arrangement or adaptation of signal devices not provided for in one of main groups B60Q1/00 - B60Q7/00, e.g. haptic signalling
    • B60Q9/002Arrangement or adaptation of signal devices not provided for in one of main groups B60Q1/00 - B60Q7/00, e.g. haptic signalling for parking purposes, e.g. for warning the driver that his vehicle has contacted or is about to contact an obstacle
    • B60Q9/007Arrangement or adaptation of signal devices not provided for in one of main groups B60Q1/00 - B60Q7/00, e.g. haptic signalling for parking purposes, e.g. for warning the driver that his vehicle has contacted or is about to contact an obstacle providing information about the distance to an obstacle, e.g. varying sound
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L2025/783Detection of presence or absence of voice signals based on threshold decision
    • G10L2025/786Adaptive threshold

Abstract

本发明涉及语音识别装置、语音识别方法以及语音识别程序。实施方式涉及的语音识别装置具备取得部、调整部和识别部。取得部收集语音,取得语音信号。调整部将阈值调整为比输入语音信号的音量等级低的值并进行登记。识别部读取所登记的阈值,将该阈值与输入语音信号进行比较,在输入语音信号的音量等级小于阈值的情况下,废弃语音信号的输入,在输入语音信号的音量等级大于等于阈值的情况下,将输入语音信号作为识别对象的说话者的语音信号,执行识别处理。由此,提供能够基于与用户的交互式调整指示,取得用户期望范围内的语音的语音识别装置。

Description

语音识别装置、语音识别方法以及语音识别程序
本申请以日本专利申请2017-054907(申请日:03/21/2017)为在先申请而享有优先权。本申请通过参照该申请而包括同申请的全部内容。
技术领域
本发明的实施方式涉及语音识别装置、语音识别方法以及语音识别程序。
背景技术
语音识别装置具有用话筒(microphone)收录作为对象的说话者的语音并进行识别,使其识别结果文本化(文字化)的功能。但是,根据环境,难以区分背景中的噪声及语音。尤其在收录多人的语音的情况下,根据与话筒的距离和/或方向,会产生难以取得语音的状况。另外,在室内或会议等中,即使是一个人的语音有时也会包含由于回声而不适合进行语音识别的声音。然而,如果为了切实地取得语音而取音量小的语音,则会变得更难以与噪声区分。
发明内容
如上所述,在现有的语音识别装置中,存在难以根据环境适当地设定相对于用于语音识别的音量的阈值这一问题。
本发明所要解决的问题在于,提供能够基于与用户的交互式调整指示,取得用户期望范围内的语音的语音识别装置、语音识别方法以及语音识别程序。
实施方式涉及的语音识别装置具备取得部、调整部和识别部。取得部收集语音,取得语音信号。调整部根据调整指示输入,将阈值调整为比输入语音信号的音量等级(level)低的值并进行登记。识别部根据识别指示输入,读取所登记的阈值,将该阈值与输入语音信号进行比较,在输入语音信号的音量等级小于阈值的情况下,废弃语音信号的输入,在输入语音信号的音量等级大于等于阈值的情况下,将输入语音信号作为识别对象的说话者的语音信号,执行识别处理。
根据上述构成的语音识别装置,能够基于与用户的交互式调整指示,取得用户期望范围内的语音。
附图说明
图1是表示第1实施方式涉及的语音识别装置的构成的框图。
图2是表示第1实施方式涉及的语音识别装置的处理流程的流程图。
图3是表示第2实施方式涉及的语音识别装置的处理流程的流程图。
图4A是表示第2实施方式涉及的语音识别装置的具体例的概念图。
图4B是表示第2实施方式涉及的语音识别装置的具体例的概念图。
图5是表示第3实施方式涉及的语音识别装置的处理流程的流程图。
图6是表示第4实施方式涉及的语音识别装置的处理流程的流程图。
图7是表示第4实施方式涉及的语音识别装置的显示例的概念图。
图8是表示第5实施方式涉及的语音识别装置的处理流程的流程图。
图9是表示具有与第5实施方式涉及的语音识别装置一起使用而有用的混响消除功能的声学处理装置的构成的框图。
图10是表示通过计算机装置实现第1~第5实施方式涉及的语音识别装置时的构成的框图。
标号说明
100:语音识别装置 101:话筒
102:变换器 103:信号处理器
104:指示输入装置 105:显示装置
200:声学处理装置 201:存储部
202:推定部 203:消除部
301:CPU 302:ROM
303:RAM 304:输入输出I/F
305:通信I/F 306:总线
具体实施方式
在语音识别处理中,例如利用设定与从收录点的距离相应的阈值的方法,能够使得将音量小于阈值的语音信号删掉,并在输入了阈值以上的音量的语音信号的情况下,对该语音进行识别处理。但是,阈值的设定对环境敏感,因而未必总是能设定为适当的值。于是,提供能够基于与用户的交互式调整指示,在用户期望范围内取得语音的语音识别装置。
下面,参照附图,对实施方式的语音识别装置进行说明。
(第1实施方式)
图1是表示第1实施方式涉及的语音识别装置100的构成的框图。该语音识别装置将由话筒101收集的语音信号通过变换器102变换为数字信号后,输入到信号处理器103。该信号处理器103根据来自指示输入装置104的指示,将语音信号与基于各条件的阈值进行比较,删掉小于阈值的信号成分后,进行语音信号的语音识别,变换为文本数据,使显示装置105进行显示。
关于上述构成的语音识别装置100,参照图2,对其语音识别处理进行说明。
图2是表示上述信号处理器103中的语音识别处理的流程的流程图。在本实施方式涉及的语音识别处理中,包括调整处理过程和识别处理过程。
在调整处理过程中,等待来自指示输入装置104的调整指示输入(步骤S11),在有调整指示输入的情况下设定调整区间(步骤S12),截取该调整区间的语音信号(步骤S13),将阈值调整为比输入语音信号的音量等级低的值并进行登记(步骤S14)。在识别处理过程中,等待来自指示输入装置104的识别指示输入(步骤S15),在有识别指示输入的情况下读取所登记的阈值(步骤S16),将该阈值与输入语音信号进行比较(步骤S17),判断输入语音信号的音量等级是否超出阈值(步骤S18)。在此,在输入语音信号的音量等级小于阈值的情况下,废弃语音信号的输入(步骤S19),返回步骤S18等待下一个识别指示输入。在输入语音信号的音量等级超过阈值的情况下,将输入语音信号作为识别对象的说话者的语音信号,执行识别处理(步骤S20),变换为文本数据(步骤S21),使显示装置105进行显示(步骤S22)。
根据上述的语音识别处理,对于根据调整指示输入所设定的调整区间的输入语音信号,调整并登记阈值,因此,能够排除音量小于该阈值的噪声和/或对象者以外的谈话的信号,收录以阈值以上的音量输入的识别对象的说话者的语音信号并执行语音识别。
此外,在上述实施方式中,在阈值调整时以调整指示输入为触发来设定调整区间,但也可以为,在该输入操作时播放提示“请说点什么以便调整阈值。”,在提示通知后设定调整区间,对于该调整区间的输入语音信号调整阈值。另外,也可以取代调整指示输入而利用触发字。即,也可以检测识别对象的说话者说出的预先所设定的触发字,对于该触发字或者继触发字之后的语音信号调整阈值。例如,预先登记昵称(爱称)“AAA”作为触发字,在输入了“AAA,打开电视”的语音信号的情况下,对“AAA”做出反应并启动调整处理,根据“打开电视”的语音信号来调整阈值。
作为上述实施方式中的音量等级,可以使用输入语音信号的每个预定时间区间的功率,也可以使用其他各种指标。例如,也可以在非语音区间内预先求取背景噪声的功率,使用输入语音信号的功率与背景噪声的功率之比作为音量等级。如此,具有即使在话筒的灵敏度和/或放大器的增益变更的情况下也无需重新调整阈值这一效果。另外,除此之外也可以组合使用表示输入语音的周期性的指标等表示语音符合程度的指标。在使用组合了多个指标的向量的情况下,也可以使用比对预先在混合高斯分布等中学习到的语音模型与向量而获得的似然度作为音量等级。由此,具有会减少将音量大的噪声截取为语音的错误的效果。
(第2实施方式)
接着,对第2实施方式涉及的语音识别装置进行说明。此外,本实施方式涉及的语音识别装置与第1实施方式涉及的语音识别装置基本为相同构成,因而此处省略其构成的说明。
图3是表示本实施方式涉及的语音识别处理的流程的流程图,图4A及图4B是具体例。此外,在图3中,对与图2所示的第1实施方式的处理相同的处理赋予同一标号进行表示,此处对不同部分进行说明。
本实施方式具备重新调整处理过程。即,在步骤S22中,文本数据被显示装置105进行了显示时,用户查看该显示内容,在存在不希望使其识别的语音的识别结果的情况下,通过指示输入装置103指示重新调整处理(步骤S23)。在该重新调整处理中,等待指定并删除不希望使其识别的语音的识别结果的指示输入(步骤S24),若收到该删除指示,则提高阈值至该语音不被检测出的等级为止(步骤S25)。由此,在语音识别处理中,仅拾取识别对象的说话者的语音信号供给到语音识别处理。
图4A及图4B中表示具体例。在此,假定如图4A所示那样布置的员工旅游策划成员A、B、C以朝向语音识别装置的话筒M的方式举行会议时,拾取了邻近的非策划成员D的说话声的情况。
会议内容如图4B所示那样被语音识别并显示为文本。此时,邻近的非策划成员D的说话声也被进行文本显示。由于无需进行该非策划成员D的语音识别,因此,指示重新调整处理,指定非策划成员D的文本部分并指示删除。由此,将会提高阈值至非策划成员D的语音不被检测出的等级为止,在之后的谈话中忽视D的声音。
(第3实施方式)
接着,对第3实施方式涉及的语音识别装置进行说明。此外,本实施方式涉及的语音识别装置与第1实施方式涉及的语音识别装置基本为相同构成,因而此处省略其构成的说明。
图5是表示本实施方式涉及的语音识别处理的流程的流程图。此外,在图5中,对与图2所示的第1实施方式的处理相同的处理赋予同一标号进行表示,此处对不同部分进行说明。
本实施方式在调整处理过程中,在步骤S13的处理后,准备并登记两个阈值(第1阈值t1、第2阈值t2,t1<t2)(步骤S26)。在此,在步骤S15中有识别指示输入的情况下,读取第2阈值t2(步骤S27),将第2阈值t2与输入语音信号进行比较(步骤S28),在输入语音信号的音量等级高于第2阈值t2的情况下,移至步骤S20的语音识别处理。
再者,在本实施方式中,在步骤S29中输入语音信号的音量等级不超过第2阈值t2的情况下,进行阈值重新调整。
具体而言是,首先,读取第1阈值t1(步骤S30),将第1阈值t1与输入语音信号进行比较(步骤S31),在输入语音信号的音量等级超过第1阈值t1的情况下,进行语音识别处理(步骤S33)。判断该语音识别处理是否为第一次(步骤S34),是第一次的情况下,指示重新输入语音(步骤S35),并在语音信号被重新输入的情况下(步骤S36),返回步骤S30,进行与第1阈值t1的比较。在步骤S34的语音识别处理是第二次且识别结果与第一次的内容相同的情况下,判断为“由于说话声小未能录入故重新说了一遍”,降低第2阈值t2并重新登记(步骤S37),移至步骤S28的比较处理。在步骤S32中音量等级不超过第1阈值t1的情况下,移至步骤S19的输入语音信号废弃,结束一系列的处理。
此外,在步骤S37中降低了第2阈值t2的情况下,也可以从以往的识别结果中检测阈值以上的结果并输出。
(第4实施方式)
接着,对第4实施方式涉及的语音识别装置进行说明。此外,本实施方式涉及的语音识别装置与第1实施方式涉及的语音识别装置基本为相同构成,因而此处省略其构成的说明。
图6是表示本实施方式涉及的语音识别处理的流程的流程图,图7是显示例。此外,在图6中,对与图2所示的第1实施方式的处理相同的处理赋予同一标号进行表示,此处对不同部分进行说明。
本实施方式在阈值的调整·登记处理(步骤S14)中,计测输入语音信号的音量(步骤S141),在显示装置105中显示如图7所示的表示音量等级的声级计(levelmeter)及阈值(步骤S142),将阈值调整为用户通过指示输入装置104所指定的值(步骤S143)。
如此,根据本实施方式,显示语音特征量的声级计及阈值,使用户能够调整阈值。
(第5实施方式)
接着,对第5实施方式涉及的语音识别装置进行说明。此外,本实施方式涉及的语音识别装置与第1实施方式涉及的语音识别装置基本为相同构成,因而此处省略其构成的说明。
图8是表示本实施方式涉及的语音识别处理的流程的流程图。此外,在图8中,对与图2所示的第1实施方式的处理相同的处理赋予同一标号进行表示,此处对不同部分进行说明。
本实施方式在阈值的调整·登记处理(步骤S14)中,提取输入语音信号的特征量(步骤S144),根据该特征量推定话筒101与说话者之间的距离(步骤S145),将阈值调整为获取预定距离范围内的说话者的语音信号的值(步骤S146)。由此,(1)能够仅识别离话筒101近的说话者的说话声。再者,推定说话者的说话声的大小并调整阈值(步骤S147)。由此,(2)能够推定说话者的说话声的大小并判断是否进行识别,因此使得不识别近处的说话者的窃窃私语。
在此,作为上述语音信号的特征量,可以利用混响声。即,着眼于直达声与混响声的比率根据距离而不同这一情况,能够通过一起使用用于消除混响的声学处理装置(从收录的语音信号减去弹回的语音信号)并计测混响声的音量来推定距离。
上述用于消除混响的声学处理装置的具体构成表示在图9中。图9所示的声学处理装置200具备存储部201、推定部202和消除部203。存储部201存储参照信号,该参照信号表示对于第1处理区间所包含的第1观测信号完成了混响消除后的信号。推定部202使用第2处理区间所包含的第2观测信号和上述存储部201所存储的参照信号,推定混响消除滤波器的滤波系数。该滤波系数的推定基于与通过远离声源的话筒进行声音收集的状况相适的模型来进行。该模型例如是表示将通过对延迟输入的声学信号适用混响消除滤波器从而消除了混响的信号与上述声学信号相加所获得的观测信号的模型。消除部203使用第2观测信号、参照信号、具有所推定的滤波系数的混响消除滤波器,求取表示从第2观测信号中消除了混响的信号的输出信号。
上述构成的声学处理装置基于相对于通过远离声源的话筒进行声音收集的状况,与其物理现象相适的模型,利用使滤波系数保持稳定的方法,推定混响消除滤波器,使用推定出的滤波器来进行混响消除处理。由此,混响消除处理的精度提高,能够有效使用混响声作为用于语音识别的特征量。
如上所述,根据第1至第5实施方式,能够提高语音识别处理的精度。
接着,使用图10,对第1至第5实施方式涉及的语音识别装置的硬件结构进行说明。图10是表示第1至第5实施方式涉及的语音识别装置的硬件结构例的框图。
第1至第5实施方式涉及的语音识别装置具备:CPU(Central Processing Unit)301等控制装置;ROM(Read Only Memory)302和/或RAM(Random Access Memory)303等存储装置;连接有话筒101、操作输入装置104、显示装置105的输入输出I/F304;连接于网络进行通信的通信I/F305;以及连接各部的总线306。
由第1至第5实施方式涉及的语音识别装置执行的程序预先装载在ROM302等中来提供。
由第1至第5实施方式涉及的语音识别装置执行的程序也可以构成为,用可安装形式或可执行形式的文件,记录在CD-ROM(Compact Disk Read Only Memory)、软盘(FD)、CD-R(Compact Disk Recordable)、DVD(Digital Versatile Disk)等计算机可读取的记录介质中,作为计算机程序产品来提供。
再者,也可以构成为将由第1至第5实施方式涉及的语音识别装置执行的程序保存在与互联网等网络连接的计算机上,通过经由网络下载来提供。另外,也可以构成为将由第1至第5实施方式涉及的语音识别装置执行的程序经由互联网等网络来提供或发布。
由第1至第5实施方式涉及的语音识别装置执行的程序能够使计算机作为上述的语音识别装置的各部发挥功能。该计算机为,CPU301能够从计算机可读取的存储介质中将程序读取到主存储装置上,由此执行该程序。
根据上述至少一个实施方式的语音识别装置,通过具备现有技术没有的、实施方式中的共通特征,能够基于与用户的交互式调整指示,取得用户期望范围内的语音。
虽然对本发明的几个实施方式进行了说明,但是这些实施方式是作为例子提出的,并非旨在限定发明的范围。这些实施方式能够以其他各种方式实施,在不偏离发明宗旨的范围内,可以进行各种省略、替换、变更。这些实施方式和/或其变形包含在发明的范围和/或宗旨中,并且,包含在技术方案所记载的发明和其等同的范围内。

Claims (12)

1.一种语音识别装置,具备:
取得部,其收集语音,取得语音信号;
调整部,其根据调整指示输入,将阈值调整为比输入语音信号的音量等级低的值并进行登记;以及
识别部,其根据识别指示输入,读取所登记的阈值,将该阈值与输入语音信号进行比较,在输入语音信号的音量等级小于阈值的情况下,废弃语音信号的输入,在输入语音信号的音量等级大于等于阈值的情况下,将输入语音信号作为识别对象的说话者的语音信号,执行识别处理。
2.根据权利要求1所述的语音识别装置,
还具备重新调整部,该重新调整部对所述阈值进行重新调整,以使得废弃根据所述识别部的识别处理结果指定为不需要的部分的语音信号。
3.根据权利要求1所述的语音识别装置,
所述调整部准备并登记第1阈值t1和第2阈值t2,在此,t1<t2,
所述识别部读取第2阈值t2,将第2阈值t2与输入语音信号进行比较,在输入语音信号的音量等级高于第2阈值t2的情况下,移至语音识别处理,
还具备重新调整部,该重新调整部在输入语音信号的音量等级不超过第2阈值t2的情况下,进行所述第2阈值t2的重新调整,
所述重新调整部读取第1阈值t1并将其与输入语音信号进行比较,在输入语音信号的音量等级超过第1阈值t1的情况下,进行语音识别处理,并促使重新输入语音信号,再次将重新输入的语音信号与第1阈值t1进行比较,在重新输入的语音信号的音量等级超过所述第1阈值t1的情况下,进行语音识别处理,在第二次的语音识别结果与第一次的语音识别结果相同的情况下,降低第2阈值t2并重新登记,在输入语音信号、重新输入语音信号的音量等级不超过第1阈值的情况下,废弃该语音信号。
4.根据权利要求1所述的语音识别装置,
所述调整部计测所述输入语音信号的音量,向用户提示该音量等级及阈值,将阈值调整为用户指定的值。
5.根据权利要求1所述的语音识别装置,
所述调整部提取所述输入语音信号的特征量,根据该特征量来推定所述取得部与说话者之间的距离,将阈值调整为获取预定距离范围内的说话者的语音信号的值。
6.根据权利要求5所述的语音识别装置,
所述取得部与说话者之间的距离基于直达声与混响声的比率来推定。
7.一种语音识别装置,具备:
取得部,其取得多个语音;以及
识别部,其根据在用户进行指示的期间中所取得的所述语音的等级,对所述多个语音中的至少一个进行识别。
8.根据权利要求7所述的语音识别装置,还具备:
提示部,其提示所述语音的识别结果;以及
设定部,其根据所述识别结果中与用户指示的部分相当的语音的等级,设定作为所述识别的对象的语音。
9.一种语音识别装置,具备:
取得部,其取得多个语音;
输出部,其输出促使用户发声的内容;以及
识别部,其根据所述用户发出的语音等级,对所述多个语音中的至少一个进行识别。
10.根据权利要求9所述的语音识别装置,还具备:
提示部,其提示所述语音的识别结果;以及
设定部,其根据所述识别结果中与用户指示的部分相当的语音的等级,设定作为所述识别的对象的语音。
11.一种语音识别方法,包括:
收集语音,取得语音信号;
根据调整指示,将阈值调整为比输入语音信号的音量等级低的值并进行登记;
根据识别指示,读取所登记的阈值,将该阈值与输入语音信号进行比较,在输入语音信号的音量等级小于阈值的情况下,废弃语音信号的输入,在输入语音信号的音量等级大于等于阈值的情况下,将输入语音信号作为识别对象的说话者的语音信号,执行识别处理。
12.一种语音识别程序,是用于使计算机执行语音识别处理的语音识别程序,包括:
取得步骤,收集语音,取得语音信号;
调整步骤,根据调整指示输入,将阈值调整为比输入语音信号的音量等级低的值并进行登记;以及
识别步骤,根据识别指示输入,读取所登记的阈值,将该阈值与输入语音信号进行比较,在输入语音信号的音量等级小于阈值的情况下,废弃语音信号的输入,在输入语音信号的音量等级大于等于阈值的情况下,将输入语音信号作为识别对象的说话者的语音信号,执行识别处理。
CN201710767713.4A 2017-03-21 2017-08-31 语音识别装置、语音识别方法以及记录介质 Active CN108630202B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2017054907A JP6553111B2 (ja) 2017-03-21 2017-03-21 音声認識装置、音声認識方法及び音声認識プログラム
JP2017-054907 2017-03-21

Publications (2)

Publication Number Publication Date
CN108630202A true CN108630202A (zh) 2018-10-09
CN108630202B CN108630202B (zh) 2021-12-03

Family

ID=63581073

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710767713.4A Active CN108630202B (zh) 2017-03-21 2017-08-31 语音识别装置、语音识别方法以及记录介质

Country Status (3)

Country Link
US (1) US10579327B2 (zh)
JP (1) JP6553111B2 (zh)
CN (1) CN108630202B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110265018A (zh) * 2019-07-01 2019-09-20 成都启英泰伦科技有限公司 一种连续发出的重复命令词识别方法
CN110265010A (zh) * 2019-06-05 2019-09-20 四川驹马科技有限公司 基于百度语音的货车多人语音识别方法及系统
CN111354358A (zh) * 2018-12-20 2020-06-30 丰田自动车株式会社 控制方法、语音交互装置、语音识别服务器、存储介质和控制系统
CN112599126A (zh) * 2020-12-03 2021-04-02 海信视像科技股份有限公司 一种智能设备的唤醒方法、智能设备及计算设备

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6642808B2 (ja) * 2017-03-29 2020-02-12 京セラドキュメントソリューションズ株式会社 音声入力システム、音声入力装置および音声入力プログラム
WO2019138651A1 (ja) * 2018-01-10 2019-07-18 ソニー株式会社 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム
JP2020085953A (ja) * 2018-11-16 2020-06-04 トヨタ自動車株式会社 音声認識支援装置及び音声認識支援プログラム
WO2020111880A1 (en) 2018-11-30 2020-06-04 Samsung Electronics Co., Ltd. User authentication method and apparatus
KR20200084727A (ko) * 2019-01-03 2020-07-13 삼성전자주식회사 전자 장치 및 이의 제어 방법
US11308949B2 (en) * 2019-03-12 2022-04-19 International Business Machines Corporation Voice assistant response system based on a tone, keyword, language or etiquette behavioral rule
JP7266432B2 (ja) * 2019-03-14 2023-04-28 本田技研工業株式会社 エージェント装置、エージェント装置の制御方法、およびプログラム
CN110083645A (zh) 2019-05-06 2019-08-02 浙江核新同花顺网络信息股份有限公司 一种报告生成的系统和方法
KR20200141860A (ko) 2019-06-11 2020-12-21 삼성전자주식회사 전자 장치 및 그 제어 방법
JP7248564B2 (ja) * 2019-12-05 2023-03-29 Tvs Regza株式会社 情報処理装置及びプログラム
TWI719791B (zh) * 2019-12-31 2021-02-21 緯創資通股份有限公司 觸控靈敏度的調整方法及使用此方法的行動裝置
CN111416909B (zh) * 2020-03-31 2022-07-08 惠州Tcl移动通信有限公司 音量自适应调节方法、系统、存储介质及移动终端
CN112463107A (zh) * 2020-11-25 2021-03-09 Oppo广东移动通信有限公司 音频播放参数确定方法、装置、电子设备和可读存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011002534A (ja) * 2009-06-17 2011-01-06 Brother Industries Ltd 音声認識装置
CN102047322A (zh) * 2008-06-06 2011-05-04 株式会社雷特龙 语音识别装置、语音识别方法以及电子设备
CN103811014A (zh) * 2012-11-15 2014-05-21 纬创资通股份有限公司 语音干扰的滤除方法和语音干扰的滤除系统
US20150039305A1 (en) * 2013-08-02 2015-02-05 Mstar Semiconductor, Inc. Controller for voice-controlled device and associated method
WO2015030642A1 (en) * 2013-08-29 2015-03-05 Telefonaktiebolaget L M Ericsson (Publ) Volume reduction for an electronic device
CN105812517A (zh) * 2014-12-31 2016-07-27 陕西天涯信息技术有限公司 一种具有语音识别功能的受话装置
WO2016136044A1 (ja) * 2015-02-23 2016-09-01 ソニー株式会社 情報処理システムおよび情報処理方法
US20170001561A1 (en) * 2013-11-29 2017-01-05 Harman Becker Automotive Systems Gmbh Generating an audio signal with a configurable distance cue

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1998041978A1 (fr) 1997-03-19 1998-09-24 Hitachi, Ltd. Procede et dispositif destines a detecter des points de depart et de terminaison d'une section son dans une sequence video
JP2000310993A (ja) * 1999-04-28 2000-11-07 Pioneer Electronic Corp 音声検出装置
JP3891023B2 (ja) * 2002-04-01 2007-03-07 日本電気株式会社 通訳システム及びプログラム
JP2009075263A (ja) * 2007-09-19 2009-04-09 Kddi Corp 音声認識装置およびコンピュータプログラム
JP2009109536A (ja) * 2007-10-26 2009-05-21 Panasonic Electric Works Co Ltd 音声認識システム及び音声認識装置
US9009053B2 (en) 2008-11-10 2015-04-14 Google Inc. Multisensory speech detection
JP5402089B2 (ja) * 2009-03-02 2014-01-29 富士通株式会社 音響信号変換装置、方法、及びプログラム
WO2011070972A1 (ja) * 2009-12-10 2011-06-16 日本電気株式会社 音声認識システム、音声認識方法および音声認識プログラム
JP5695447B2 (ja) * 2011-03-01 2015-04-08 株式会社東芝 テレビジョン装置及び遠隔操作装置
JP5673330B2 (ja) 2011-04-25 2015-02-18 株式会社デンソー 音声入力装置
JP6276132B2 (ja) * 2014-07-30 2018-02-07 株式会社東芝 発話区間検出装置、音声処理システム、発話区間検出方法およびプログラム

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102047322A (zh) * 2008-06-06 2011-05-04 株式会社雷特龙 语音识别装置、语音识别方法以及电子设备
JP2011002534A (ja) * 2009-06-17 2011-01-06 Brother Industries Ltd 音声認識装置
CN103811014A (zh) * 2012-11-15 2014-05-21 纬创资通股份有限公司 语音干扰的滤除方法和语音干扰的滤除系统
US20150039305A1 (en) * 2013-08-02 2015-02-05 Mstar Semiconductor, Inc. Controller for voice-controlled device and associated method
WO2015030642A1 (en) * 2013-08-29 2015-03-05 Telefonaktiebolaget L M Ericsson (Publ) Volume reduction for an electronic device
US20170001561A1 (en) * 2013-11-29 2017-01-05 Harman Becker Automotive Systems Gmbh Generating an audio signal with a configurable distance cue
CN105812517A (zh) * 2014-12-31 2016-07-27 陕西天涯信息技术有限公司 一种具有语音识别功能的受话装置
WO2016136044A1 (ja) * 2015-02-23 2016-09-01 ソニー株式会社 情報処理システムおよび情報処理方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
YI WANG等: "A Framework of Energy Efficient Mobile Sensing for Automatic User State Recognition", 《PROCEEDINGS OF 17TH INTERNATIONAL CONFERENCE ON MOBILE SYSTEM,APPLICATIONS,AND SERVIVES》 *
李银国等: "基于统计阈值的鲁棒性语音识别", 《重庆邮电大学学报(自然科学版)》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111354358A (zh) * 2018-12-20 2020-06-30 丰田自动车株式会社 控制方法、语音交互装置、语音识别服务器、存储介质和控制系统
CN111354358B (zh) * 2018-12-20 2023-04-25 丰田自动车株式会社 控制方法、语音交互装置、语音识别服务器、存储介质和控制系统
CN110265010A (zh) * 2019-06-05 2019-09-20 四川驹马科技有限公司 基于百度语音的货车多人语音识别方法及系统
CN110265018A (zh) * 2019-07-01 2019-09-20 成都启英泰伦科技有限公司 一种连续发出的重复命令词识别方法
CN110265018B (zh) * 2019-07-01 2022-03-04 成都启英泰伦科技有限公司 一种连续发出的重复命令词识别方法
CN112599126A (zh) * 2020-12-03 2021-04-02 海信视像科技股份有限公司 一种智能设备的唤醒方法、智能设备及计算设备
CN112599126B (zh) * 2020-12-03 2022-05-27 海信视像科技股份有限公司 一种智能设备的唤醒方法、智能设备及计算设备

Also Published As

Publication number Publication date
US20180275951A1 (en) 2018-09-27
CN108630202B (zh) 2021-12-03
JP2018156044A (ja) 2018-10-04
US10579327B2 (en) 2020-03-03
JP6553111B2 (ja) 2019-07-31

Similar Documents

Publication Publication Date Title
CN108630202A (zh) 语音识别装置、语音识别方法以及语音识别程序
US20210192033A1 (en) Detection of replay attack
US11631402B2 (en) Detection of replay attack
US8589167B2 (en) Speaker liveness detection
US11270707B2 (en) Analysing speech signals
CN103957359B (zh) 摄像装置及其对焦方法
KR100636317B1 (ko) 분산 음성 인식 시스템 및 그 방법
US20200227071A1 (en) Analysing speech signals
GB2583420A (en) Speaker identification
KR101888058B1 (ko) 발화된 단어에 기초하여 화자를 식별하기 위한 방법 및 그 장치
CN108831456A (zh) 一种通过语音识别对视频标记的方法、装置及系统
CN112509598A (zh) 音频检测方法及装置、存储介质
JP6268916B2 (ja) 異常会話検出装置、異常会話検出方法及び異常会話検出用コンピュータプログラム
US7340398B2 (en) Selective sampling for sound signal classification
KR20200116617A (ko) 주변의 환경에 기초하여 오디오의 전처리 방법을 결정하는 방법 및 장치
CN113012684B (zh) 一种基于语音分割的合成语音检测方法
GB2516208A (en) Noise reduction in voice communications
JP2005157086A (ja) 音声認識装置
Baghel et al. Overlapped speech detection using phase features
WO2019073233A1 (en) ANALYSIS OF VOICE SIGNALS
Ramesh et al. Hybrid artificial neural network and hidden Markov model (ANN/HMM) for speech and speaker recognition
EP3319085B1 (fr) Procédé et système d&#39;authentification par biométrie vocale d&#39;un utilisateur
KR100563316B1 (ko) 보완적 특징벡터를 이용한 화자특징벡터 생성방법 및 장치
KR102148245B1 (ko) 문자 음성변환 시스템
JP2020091381A (ja) 電子機器、電子機器の制御方法、及び、電子機器の制御プログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant