CN113053376A - 语音辨识装置 - Google Patents

语音辨识装置 Download PDF

Info

Publication number
CN113053376A
CN113053376A CN202110284516.3A CN202110284516A CN113053376A CN 113053376 A CN113053376 A CN 113053376A CN 202110284516 A CN202110284516 A CN 202110284516A CN 113053376 A CN113053376 A CN 113053376A
Authority
CN
China
Prior art keywords
voice
speech
signal
processor
entity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110284516.3A
Other languages
English (en)
Inventor
王毓翔
梁智能
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Automotive Research and Testing Center
Original Assignee
Automotive Research and Testing Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Automotive Research and Testing Center filed Critical Automotive Research and Testing Center
Priority to CN202110284516.3A priority Critical patent/CN113053376A/zh
Publication of CN113053376A publication Critical patent/CN113053376A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Abstract

本发明公开一种语音辨识装置,其包括至少一个位置采集装置、一方向性收音装置、一噪声抑制器与一语音辨识处理器。位置采集装置依序耦接方向性收音装置、噪声抑制器与语音辨识处理器。位置采集装置取得音源的实体语音位置,并输出语音位置至方向性收音装置,使方向性收音装置根据语音位置接收音源产生的语音信号。噪声抑制器根据语音位置对应的噪声模型消除语音信号的噪声,以产生一语音辨识信号。语音辨识处理器接收语音辨识信号,并据此产生一操作信号,进而提升语音辨识的精确性。

Description

语音辨识装置
技术领域
本发明涉及一种辨识装置,特别是涉及一种语音辨识装置。
背景技术
随着语音辨识功能越发成熟,各种多媒体装置都会将语音辨识装置作为输入装置,如手机的智慧助理、车辆的语音控制装置与智慧家电等,以崭新的方式为科技生活增加了新的色彩,使用者不须再通过按钮或接触设备,直接便能与设备进行互动操作。
目前搭载语音辨识系统大多是应用在个人化设备上,个人化设备可以通过指向性麦克风,或是限缩收音范围与情境,达到较好的收音与辨识效果,然而在较复杂的环境或是麦克风收音距离较远,如车内,就容易被噪音影响或是发生回授,且若是应用在公用设备上,则也会有操作干扰的问题。举例来说,当第一操作者需连续与公用设备互动时,若第二操作者有意或无意产生语音信号争夺操作权,将造成第一操作者的人机互动体验不佳。此外,在较容易产生噪音的环境中,且无法限缩收音范围或移动使用者位置时,将造成语音辨识率不佳及系统操作困难。目前车辆中常见的语音辨识功能,部分采用安卓自动(AndroidAuto)系统,通过说出OK Google,或按住方向盘上的语音指令按钮,便开始接收语音命令进行操作。在一般车用语音用途大多针对驾驶使用需求:如播打电话、进行导航、控制音乐播放或恒温系统控制,这几项需求,功能上来说均为单向提出需求,且不会有长时间持续操作等问题。市售车的中控系统大多直接采用无指向性麦克风,故收音效果容易受到喇叭回授影响与噪音干扰,若改用市面的指向性麦克风,则除驾驶者外,其他位置的乘客则较难进行操作。现今既有会议收音产品,为提供会议收音需求,采用360度全向性收音,且大多是高敏度的麦克风,目的是在会议室中准确收到所有参与会议者讲话的声音。这些设备着重于噪声滤除功能以保持声音清晰,大多在接收到声音后,会采用动态降噪(Digital NoiseReduction,DNR)、声音增益控制,或是其他相关方法增加人声强度与收音能力。但由于要尽量接收所有会议参与者的声音,较无指向性的需求,不会针对个别操作者方向去收音,也不会特别抑制其他人声。
发明内容
本发明的目的是提供一种语音辨识装置,其在语音信号控制公用设备时,降低抢夺控制权的频率及提升公用设备的操作性,并在复杂且密闭的环境中,改善收音质量、收音方向性与降噪功能,以提升语音辨识的精确性。
为实现上述目的,本发明提供了如下方案:
在本发明的一实施例中,提供一种语音辨识装置,其包括至少一个位置采集装置、一方向性收音装置、一噪声抑制器与一语音辨识处理器。位置采集装置对应至少一个触发条件。在一音源满足触发条件时,位置采集装置取得音源的实体语音位置,并输出实体语音位置。方向性收音装置耦接位置采集装置,方向性收音装置用以接收实体语音位置,并根据实体语音位置接收音源产生的语音信号。噪声抑制器耦接位置采集装置与方向性收音装置。噪声抑制器存有复数个语音产生位置分别对应的噪声模型,所有语音产生位置包括实体语音位置。噪声抑制器用以接收语音信号与实体语音位置,并根据实体语音位置对应的噪声模型消除语音信号的噪声,以产生一语音辨识信号。语音辨识处理器耦接噪声抑制器,其中语音辨识处理器用以接收语音辨识信号,并据此产生一操作信号。
在本发明的一实施例中,语音辨识装置还包括一坐标转换器,其耦接位置采集装置、噪声抑制器与方向性收音装置。坐标转换器用以接收实体语音位置,并转换实体语音位置的坐标系为对应噪声抑制器与方向性收音装置的坐标系后,传送被转换的实体语音位置至噪声抑制器与方向性收音装置。
在本发明的一实施例中,位置采集装置的数量为复数个,触发条件的数量为复数个,所有触发条件分别对应所有位置采集装置。在音源依序满足所有触发条件时,由最早被满足的触发条件所对应的位置采集装置取得并输出实体语音位置。
在本发明的一实施例中,位置采集装置为影像定位模块。在影像定位模块采集具有一使用者的举手姿势的影像时,触发条件被满足,使用者作为音源,且使用者的实体位置作为实体语音位置。
在本发明的一实施例中,位置采集装置为语音定位模块。在语音定位模块于不同位置接收音源产生的触发语音时,触发条件被满足,且语音定位模块用以取得在不同位置的触发语音的不同接收时间点,并据此取得实体语音位置。
在本发明的一实施例中,位置采集装置包括一触控显示面板与一应用处理器。触控显示面板用以显示应用程序的操作界面,其中操作界面具有对应实体语音位置的影像。应用处理器耦接触控显示面板、噪声抑制器与方向性收音装置,应用处理器安装有应用程序。在触控显示面板对应影像的位置被按下时,触发条件被满足,应用处理器取得并输出实体语音位置。
在本发明的一实施例中,方向性收音装置包括一麦克风阵列与一音信处理器。麦克风阵列用以接收不同位置的语音信号。音信处理器耦接麦克风阵列、位置采集装置与噪声抑制器,音信处理器存有所有语音产生位置分别对应的复数组偏移时段。音信处理器用以接收实体语音位置,并根据实体语音位置与其对应的一组偏移时段移动在不同位置的语音信号的波形至同一时间点,且在此同一时间点相加语音信号,以产生被强化的语音信号。音信处理器用以传输被强化的语音信号至噪声抑制器。
在本发明的一实施例中,方向性收音装置包括一方向性收音器与一自动旋转平台。方向性收音器耦接噪声抑制器,自动旋转平台耦接位置采集装置,自动旋转平台支撑方向性收音器。自动旋转平台用以接收实体语音位置,并控制方向性收音器的收音方向朝向实体语音位置。方向性收音器用以接收语音信号,并传输语音信号至噪声抑制器。
在本发明的一实施例中,语音辨识处理器耦接位置采集装置与方向性收音装置。在语音辨识处理器未接收语音辨识信号长达一预设时段时,语音辨识处理器控制位置采集装置停止取得实体语音位置,并控制方向性收音装置停止接收实体语音位置与产生语音信号,且控制位置采集装置与方向性收音装置操作在待机状态。
在本发明的一实施例中,提供一种语音辨识装置,其包括复数个语音接收器、一音信处理器、一噪声抑制器与一语音辨识处理器。所有语音接收器用以于不同位置接收一音源产生的语音信号。音信处理器耦接所有语音接收器,音信处理器存有复数个语音产生位置分别对应的复数组偏移时段。音信处理器用以取得在不同位置的语音信号的不同接收时间点,并据此取得音源的实体语音位置。所有语音产生位置包括实体语音位置。音信处理器用以根据实体语音位置与其对应的一组偏移时段移动在不同位置的语音信号的波形至同一时间点,且在此同一时间点相加语音信号,以产生被强化的语音信号。噪声抑制器耦接音信处理器。噪声抑制器存有所有语音产生位置分别对应的噪声模型。噪声抑制器用以接收被强化的语音信号与实体语音位置,并根据实体语音位置对应的噪声模型消除被强化的语音信号的噪声,以产生一语音辨识信号。语音辨识处理器耦接噪声抑制器,其中语音辨识处理器用以接收语音辨识信号,并据此产生一操作信号。
在本发明的一实施例中,语音辨识处理器耦接音信处理器。在语音辨识处理器未接收语音辨识信号长达一预设时段时,语音辨识处理器控制音信处理器停止取得实体语音位置,并控制音信处理器停止产生被强化的语音信号,且控制音信处理器操作在待机状态。
基于上述,语音辨识装置先取得音源的实体语音位置,并输出语音位置至方向性收音装置,使方向性收音装置根据语音位置接收音源产生的语音信号。如此一来,在语音信号控制公用设备时,降低抢夺控制权的频率及提升公用设备的操作性,并在复杂且密闭的环境中,改善收音质量、收音方向性与降噪功能,以提升语音辨识的精确性。
根据本发明提供的具体实施例,本发明公开了以下技术效果:
通过在语音信号控制公用设备时,降低抢夺控制权的频率及提升公用设备的操作性,并在复杂且密闭的环境中,改善收音质量、收音方向性与降噪功能,提升了语音辨识的精确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的第一实施例的语音辨识装置的电路方块图;
图2为本发明的第二实施例的语音辨识装置的电路方块图;
图3为本发明的第三实施例的语音辨识装置的电路方块图;
图4为本发明的一实施例的位置采集装置、方向性收音装置与噪声抑制器的电路方块图;
图5为本发明的另一实施例的位置采集装置、方向性收音装置与噪声抑制器的电路方块图;
图6为本发明的一实施例的音源与方向性收音装置的电路示意图;
图7为本发明的再一实施例的位置采集装置、方向性收音装置与噪声抑制器的电路方块图;
图8为本发明的第四实施例的语音辨识装置的电路方块图;
图9为本发明的一实施例的音源、语音接收器与音信处理器的电路示意图。
符号说明:
1…语音辨识装置,10…位置采集装置,100…触控显示面板,101…应用处理器,11…方向性收音装置,110…麦克风阵列,111…音信处理器,1111、1111’、1111”…时间偏移器,1112…平均计算器,1113…参数调整器,112…方向性收音器,113…自动旋转平台,12…噪声抑制器,13…语音辨识处理器,14…坐标转换器,2…音源,3…语音辨识装置,30…语音接收器,31…音信处理器,311、311’、311”…时间偏移器,312…平均计算器,313…参数调整器,32…噪声抑制器,33…语音辨识处理器,4…音源,
P…实体语音位置,V…语音信号,R…语音辨识信号,O…操作信号,P’…被转换的实体语音位置,V’…被强化的语音信号,m1、m2、m3…麦克风,M1、M2、M3…麦克风。
具体实施方式
本发明的实施例将由下文配合相关附图进一步加以解说。尽可能的,在附图与说明书中,相同标号代表相同或相似构件。在附图中,基于简化与方便标示,形状与厚度可能经过夸大表示。可以理解的是,未特别显示于图式中或描述于说明书中的元件,为所属技术领域中具有通常技术者所知的形态。本领域的通常技术者可依据本发明的内容而进行多种的改变与修改。
特别以下述例子加以描述,这些例子仅用以举例说明而已,因为对于熟习此技艺者而言,在不脱离本公开内容的精神和范围内,当可作各种的更动与润饰,因此本发明公开的内容的保护范围应当以后面的申请专利范围所界定的为准。在通篇说明书与申请专利范围中,除非内容清楚指定,否则「一」以及「所述」的意义包括这一类叙述包括「一或至少一」所述元件或成分。此外,如本发明所用,除非从特定上下文明显可见将复数个排除在外,否则单数冠词也包括复数个元件或成分的叙述。而且,应用在此描述中与下述的全部申请专利范围中时,除非内容清楚指定,否则「在其中」的意思可包括「在其中」与「在其上」。在通篇说明书与申请专利范围所使用的用词(terms),除有特别注明,通常具有每个用词使用在此领域中、在此公开的内容中与特殊内容中的平常意义。某些用以描述本发明公开的用词将于下或在此说明书的别处讨论,以提供从业人员(practitioner)在有关本发明公开的描述上额外的引导。在通篇说明书的任何地方的例子,包括在此所讨论的任何用词的例子的使用,仅用以举例说明,当然不限制本发明或任何例示用词的范围与意义。同样地,本发明并不限于此说明书中所提出的各种实施例。
此外,若使用「电(性)耦接」或「电(性)连接」一词在此包括任何直接及间接的电气连接手段。举例而言,若文中描述一第一装置电性耦接于一第二装置,则代表所述第一装置可直接连接于所述第二装置,或通过其他装置或连接手段间接地连接至所述第二装置。另外,若描述关于电信号的传输、提供,熟习此技艺者应所述可了解电信号的传递过程中可能伴随衰减或其他非理想性的变化,但电信号传输或提供的来源与接收端若无特别说明,实质上应视为同一信号。举例而言,若由电子电路的端点A传输(或提供)电信号S给电子电路的端点B,其中可能经过一晶体管开关的源汲极两端及/或可能的杂散电容而产生电压降,但此设计的目的若非刻意使用传输(或提供)时产生的衰减或其他非理想性的变化而达到某些特定的技术效果,电信号S在电子电路的端点A与端点B应可视为实质上为同一信号。
于下文中关于“一个实施例”或“一实施例”的描述是指关于至少一实施例内所相关连的一特定元件、结构或特征。因此,于下文中多处所出现的“一个实施例”或“一实施例”的多个描述并非针对同一实施例。再者,于一或多个实施例中的特定构件、结构与特征可依照一适当方式而结合。
除非特别说明,一些条件句或字词,例如「可以(can)」、「可能(could)」、「也许(might)」,或「可(may)」,通常是试图表达本案实施例具有,但是也可以解释成可能不需要的特征、元件,或步骤。在其他实施例中,这些特征、元件,或步骤可能是不需要的。
本发明的目的是提供一种语音辨识装置,通过在语音信号控制公用设备时,降低抢夺控制权的频率及提升公用设备的操作性,并在复杂且密闭的环境中,改善收音质量、收音方向性与降噪功能,以提升语音辨识的精确性。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
图1为本发明的第一实施例的语音辨识装置的电路方块图。请参阅图1,以下介绍本发明的语音辨识装置的第一实施例。语音辨识装置1包括至少一个位置采集装置10、一方向性收音装置11、一噪声抑制器12与一语音辨识处理器13,其中这些元件均为硬件。方向性收音装置11耦接位置采集装置10,噪声抑制器12耦接位置采集装置10与方向性收音装置11,语音辨识处理器13耦接噪声抑制器12。至少一个位置采集装置10对应至少一个触发条件。为了清晰度与方便,位置采集装置10与触发条件的数量均以一为例。此外,位置采集装置10、方向性收音装置11与噪声抑制器12可使用相同坐标系统。
以下介绍第一实施例的运作过程。在一音源2满足触发条件时,位置采集装置10取得音源2的实体语音位置P,并输出实体语音位置P。方向性收音装置11接收实体语音位置P,并根据实体语音位置P接收音源2产生的语音信号V,其中语音信号V包括对应操作权的操作语音。举例来说,方向性收音装置11可以波束成型(beamforming)模块实现,以强化对应实体语音位置P的方向的语音信号V,并弱化其他方向的语音信号V。由于噪声抑制器12存有复数个语音产生位置分别对应的噪声模型,其中所有语音产生位置包括实体语音位置P。因此,噪声抑制器12接收语音信号V与实体语音位置P,并根据实体语音位置P对应的噪声模型消除语音信号V的噪声,以产生一语音辨识信号R。其中噪声抑制器12更可采用自适应性滤波算法(adaptive filter algorithm)与有限脉冲响应(Finite impulse response,FIR)滤波器消除语音信号V的噪声,以提高噪声抑制效率。语音辨识处理器13接收语音辨识信号R,并据此产生一操作信号O。操作信号O可用以控制公用设备。位置采集装置10先取得音源2的实体语音位置P,并输出实体语音位置P至方向性收音装置11,使方向性收音装置11根据实体语音位置P接收音源2产生的语音信号V。如此一来,在语音信号V控制公用设备时,可降低抢夺控制权的频率及提升公用设备的操作性,并在复杂且密闭的环境中,改善收音质量、收音方向性与降噪功能,以提升语音辨识的精确性。
在本发明的某些实施例中,语音辨识处理器13可耦接位置采集装置10与方向性收音装置11。在语音辨识处理器13未接收语音辨识信号R长达一预设时段时,表示语音辨识装置1的操作结束,以释放出操作权。在语音辨识处理器13于预设时段中未接收语音辨识信号R时,语音辨识处理器13控制位置采集装置10停止取得实体语音位置P,并控制方向性收音装置11停止接收实体语音位置P与产生语音信号V,且控制位置采集装置10与方向性收音装置11操作在待机状态,直到位置采集装置10采集到新音源的新实体位置为止。
图2为本发明的第二实施例的语音辨识装置的电路方块图。请参阅图2,以下介绍本发明的语音辨识装置的第二实施例。第二实施例与第一实施例差别在于位置采集装置10及其触发条件的数量。在第二实施例中,有复数个位置采集装置10与复数个触发条件。为了避免音源2产生的语音信号V被遮蔽而无法满足单一触发条件,故第二实施例使用不同的触发条件,例如语音相关触发条件、影像相关触发条件与应用程序相关触发条件。所有触发条件分别对应所有位置采集装置10。本发明不考虑多个触发条件同时被触发的状态。在音源2依序满足所有触发条件时,由最早被满足的触发条件所对应的位置采集装置10取得并输出实体语音位置P。
图3为本发明的第三实施例的语音辨识装置的电路方块图。请参阅图3,以下介绍本发明的语音辨识装置的第三实施例。第三实施例与第一实施例差别在于第三实施例还包括一坐标转换器14。于第三实施例中,位置采集装置10与方向性收音装置11可使用不同坐标系统,方向性收音装置11与噪声抑制器12可使用相同坐标系统。坐标转换器14耦接位置采集装置10、噪声抑制器12与方向性收音装置11。坐标转换器14接收实体语音位置P,并转换实体语音位置P的坐标系为对应噪声抑制器12与方向性收音装置11的坐标系后,传送被转换的实体语音位置P’至噪声抑制器12与方向性收音装置11,其中所有语音产生位置也包括被转换的实体语音位置P’。因此,方向性收音装置11接收被转换的实体语音位置P’,并根据被转换的实体语音位置P’接收音源2产生的语音信号V。噪声抑制器12则接收语音信号V与被转换的实体语音位置P’,并根据被转换的实体语音位置P’对应的噪声模型消除语音信号V的噪声,以产生一语音辨识信号R。
在本发明的一实施例中,位置采集装置10可为影像定位模块,触发条件为影像相关触发条件。在影像定位模块采集具有一使用者的特定姿势,例如举手姿势的影像时,触发条件被满足,此使用者作为音源2,且此使用者的实体位置作为实体语音位置P。举例来说,影像定位模块可以把采集到的影像区分为复数个区块,并对每一区块标上号码,如此便可知道具有举手姿势的区块的号码,并将此作为实体语音位置P。或者,若影像定位模块具有双镜头,则影像定位模块可以采用双镜头对上述使用者进行定位,以取得使用者的三维坐标,并将此作为实体语音位置P。
在本发明的另一实施例中,位置采集装置10可为语音定位模块,触发条件为语音相关触发条件。在语音定位模块于不同位置接收音源2产生的触发语音时,触发条件被满足。其中触发语音可与语音信号相同或不同。语音定位模块取得在不同位置的触发语音的不同接收时间点。因为不同接收时间点分别表示音源2相距语音定位模块的不同位置的距离,故语音定位模块可根据不同接收时间点取得实体语音位置P。举例来说,语音定位模块可包括互相耦接的立体式麦克风阵列与语音处理器,立体式麦克风阵列包括复数个麦克风,因为所有麦克风位于不同位置,所以所有麦克风会在不同时间点接收到音源2产生的触发语音,语音处理器可根据不同时间点的时间间隔与所有麦克风的位置计算出音源2的三维坐标,并将此作为实体语音位置P。
图4为本发明的一实施例的位置采集装置10、方向性收音装置11与噪声抑制器12的电路方块图。请参阅图4,位置采集装置10可包括一触控显示面板100与一应用处理器101,其中应用处理器101耦接触控显示面板100、噪声抑制器12与方向性收音装置11。触控显示面板100显示应用程序的操作界面,其中此操作界面具有对应实体语音位置P的影像。应用处理器101安装有应用程序,故触发条件为应用程序相关触发条件。在触控显示面板100对应上述影像的位置被按下时,触发条件被满足,应用处理器101取得并输出实体语音位置P。此外,图4中所示的电路可应用于图1或本发明中的其它实施例,但是不限于此。当图4中所示的电路应用在图3的实施例中时,应用处理器101耦接坐标转换器14。
图5为本发明的另一实施例的位置采集装置10、方向性收音装置11与噪声抑制器12的电路方块图。请参阅图5,方向性收音装置11可包括一麦克风阵列110与一音信处理器111。麦克风阵列110接收不同位置的语音信号V。音信处理器111耦接麦克风阵列110、位置采集装置10与噪声抑制器12,音信处理器111存有所有语音产生位置分别对应的复数组偏移时段。音信处理器111接收实体语音位置P,并根据实体语音位置P与其对应的一组偏移时段移动在不同位置的语音信号V的波形至同一时间点,且在此同一时间点相加语音信号V,以产生被强化的语音信号V’。音信处理器111传输被强化的语音信号V’至噪声抑制器12,使噪声抑制器12根据实体语音位置P对应的噪声模型消除被强化的语音信号V’的噪声,以产生一语音辨识信号R。此外,图5中所示的电路可应用于图1或本发明中的其它实施例,但是不限于此。当图5中所示的电路应用在图3的实施例中时,音信处理器111与噪声抑制器12耦接坐标转换器14,并以被转换的实体语音位置P’代替实体语音位置P。当图5中所示的电路应用在图4的实施例中时,音信处理器111耦接应用处理器101。
图6为本发明的一实施例的音源2与方向性收音装置11的电路示意图。请参阅图6,麦克风阵列110可包括麦克风m1、m2与m3,音信处理器111可包括时间偏移器1111、1111’与1111”、一平均计算器1112与一参数调整器1113,其中时间偏移器1111、1111’与1111”分别耦接麦克风m1、m2与m3,参数调整器1113耦接时间偏移器1111、1111’与1111”,时间偏移器1111、1111’与1111”耦接平均计算器1112。参数调整器1113存有所有语音产生位置分别对应的复数组偏移时段。因为麦克风m1、m2与m3相距音源2的距离均不同,所以麦克风m1、m2与m3会在不同时间点接收到语音信号V。举例来说,麦克风m2与m3所接收到的语音信号V的时间点的间隔为t1,麦克风m1与m3所接收到的语音信号V的时间点的间隔为t2。假设被转换的实体语音位置P’或实体语音位置P对应麦克风m3,即代表麦克风m3距离音源2最近。参数调整器1113分别调整时间偏移器1111、1111’与1111”的偏移时段分别为d1、d2与d3,使d1=t2,d2=t1,d3=0。因此,麦克风m1、m2与m3所接收到的语音信号V的波形都被偏移到对应麦克风m3接收到语音信号V的时间点。接着,平均计算器1112从时间偏移器1111、1111’与1111”接收所有语音信号V,并将其相加且平均,以产生被强化的语音信号V’。此外,图6中所示的电路可应用于图1或本发明中的其它实施例,但是不限于此。当图6中所示的电路应用在图1的实施例中时,参数调整器1113耦接位置采集装置10。当图6中所示的电路应用在图3的实施例中时,参数调整器1113耦接坐标转换器14。当图6中所示的电路应用在图4的实施例中时,参数调整器1113耦接应用处理器101。
图7为本发明的再一实施例的位置采集装置10、方向性收音装置11与噪声抑制器12的电路方块图。请参阅图7,方向性收音装置11也可包括一方向性收音器112与一自动旋转平台113。方向性收音器112耦接噪声抑制器12,自动旋转平台113耦接位置采集装置10,自动旋转平台113支撑方向性收音器112。自动旋转平台113接收实体语音位置P,并控制方向性收音器112的收音方向朝向实体语音位置P,且方向性收音器112接收语音信号V,并传输语音信号V至噪声抑制器12。此外,图7中所示的电路可应用于图1或本发明中的其它实施例,但是不限于此。当图7中所示的电路应用在图3的实施例中时,自动旋转平台113与噪声抑制器12耦接坐标转换器14,并以被转换的实体语音位置P’代替实体语音位置P。当图7中所示的电路应用在图4的实施例中时,自动旋转平台113耦接应用处理器101。
图8为本发明的第四实施例的语音辨识装置的电路方块图。请参阅图8,以下介绍本发明的语音辨识装置的第四实施例。语音辨识装置3包括复数个语音接收器30、一音信处理器31、一噪声抑制器32与一语音辨识处理器33,其中这些元件均为硬件。音信处理器31耦接所有语音接收器30,音信处理器31存有复数个语音产生位置分别对应的复数组偏移时段。噪声抑制器32耦接音信处理器31,其中噪声抑制器32存有所有语音产生位置分别对应的噪声模型。语音辨识处理器33耦接噪声抑制器32。此外,音信处理器31与噪声抑制器32使用相同坐标系统。
以下介绍第四实施例的运作过程。首先,所有语音接收器30于不同位置接收一音源4产生的语音信号V,其中语音信号V包括对应操作权的操作语音。因为所有语音接收器30相距音源4的距离均不同,所以所有语音接收器30会于不同时间点接收语音信号V。音信处理器31取得在不同位置的语音信号V的不同接收时间点,并据此取得音源4的实体语音位置P,所有语音产生位置包括实体语音位置P。音信处理器31根据实体语音位置P与其对应的一组偏移时段移动不同位置的语音信号V的波形至同一时间点,且在此同一时间点相加语音信号V,以产生被强化的语音信号V’。噪声抑制器32接收被强化的语音信号V’与实体语音位置P,并根据实体语音位置P对应的噪声模型消除被强化的语音信号V’的噪声,以产生一语音辨识信号R。其中噪声抑制器32还可采用自适应性滤波算法(adaptive filteralgorithm)与有限脉冲响应(Finite impulse response,FIR)滤波器消除语音信号V的噪声,以提高噪声抑制效率。语音辨识处理器33接收语音辨识信号R,并据此产生一操作信号O。操作信号O可用以控制公用设备。音信处理器31先取得音源4的实体语音位置P,使音信处理器31根据实体语音位置P产生被强化的语音信号V’。如此一来,在语音信号V控制公用设备时,可降低抢夺控制权的频率及提升公用设备的操作性,并在复杂且密闭的环境中,改善收音质量、收音方向性与降噪功能,以提升语音辨识的精确性。
在本发明的某些实施例中,语音辨识处理器33可耦接音信处理器31。在语音辨识处理器33未接收语音辨识信号R长达一预设时段时,表示语音辨识装置3的操作结束,以释放出操作权。在语音辨识处理器33未接收语音辨识信号R长达预设时段时,语音辨识处理器33控制音信处理器31停止取得实体语音位置P,并控制音信处理器31停止产生被强化的语音信号V’,且控制音信处理器31操作在待机状态,直到语音接收器30接收到新的语音信号为止。
图9为本发明的一实施例的音源4、语音接收器30与音信处理器31的电路示意图。请参阅图8与图9,语音接收器30可以麦克风M1、M2与M3实现,音信处理器31可包括时间偏移器311、311’与311”、一平均计算器312与一参数调整器313,其中时间偏移器311、311’与311”分别耦接麦克风M1、M2与M3,参数调整器313耦接时间偏移器311、311’与311”与麦克风M1、M2与M3,时间偏移器311、311’与311”耦接平均计算器312。参数调整器313存有所有语音产生位置分别对应的复数组偏移时段。因为麦克风M1、M2与M3相距音源4的距离均不同,所以麦克风M1、M2与M3会在不同时间点接收到语音信号V。举例来说,麦克风M2与M3所接收到的语音信号V的时间点的间隔为t1,麦克风M1与M3所接收到的语音信号V的时间点的间隔为t2。假设参数调整器313发现实体语音位置P对应麦克风M3,即代表麦克风M3距离音源4最近。参数调整器313分别调整时间偏移器311、311’与311”的偏移时段分别为d1、d2与d3,使d1=t2,d2=t1,d3=0。因此,麦克风M1、M2与M3所接收到的语音信号V的波形都被偏移到对应麦克风M3接收到语音信号V的时间点。接着,平均计算器312从时间偏移器311、311’与311”接收所有语音信号V,并将其相加且平均,以产生被强化的语音信号V’。此外,图9中所示的电路可应用于图8或本发明中的其它实施例,但是不限于此。
根据上述实施例,语音辨识装置先取得音源的实体语音位置,并输出语音位置至方向性收音装置,使方向性收音装置根据语音位置接收音源产生的语音信号。如此一来,在语音信号控制公用设备时,降低抢夺控制权的频率及提升公用设备的操作性,并在复杂且密闭的环境中,改善收音质量、收音方向性与降噪功能,以提升语音辨识的精确性。
以上所述者,仅为本发明一较佳实施例而已,并非用来限定本发明实施的范围,故举凡依本发明申请专利范围所述的形状、构造、特征及精神所为的均等变化与修饰,均应包括于本发明的申请专利范围内。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。

Claims (11)

1.一种语音辨识装置,其特征在于,所述语音辨识装置包括:
至少一个位置采集装置,所述至少一个位置采集装置对应至少一个触发条件,在一音源满足所述至少一个触发条件时,所述至少一个位置采集装置取得所述音源的实体语音位置,并输出所述实体语音位置;
一方向性收音装置,耦接所述至少一个位置采集装置,所述方向性收音装置用以接收所述实体语音位置,并根据所述实体语音位置接收所述音源产生的语音信号;
一噪声抑制器,耦接所述至少一个位置采集装置与所述方向性收音装置,所述噪声抑制器存有复数个语音产生位置分别对应的噪声模型,所述复数个语音产生位置包括所述实体语音位置,所述噪声抑制器用以接收所述语音信号与所述实体语音位置,并根据所述实体语音位置对应的所述噪声模型消除所述语音信号的噪声,产生一语音辨识信号;以及
一语音辨识处理器,耦接所述噪声抑制器,所述语音辨识处理器用以接收所述语音辨识信号,并据此产生一操作信号。
2.根据权利要求1所述的语音辨识装置,其特征在于,所述语音辨识装置还包括一坐标转换器,所述坐标转换器耦接所述至少一个位置采集装置、所述噪声抑制器与所述方向性收音装置,所述坐标转换器用以接收所述实体语音位置,并转换所述实体语音位置的坐标系为对应所述噪声抑制器与所述方向性收音装置的坐标系后,传送被转换的所述实体语音位置至所述噪声抑制器与所述方向性收音装置。
3.根据权利要求1所述的语音辨识装置,其特征在于,所述位置采集装置的数量为复数个,所述触发条件的数量为复数个,所述复数个触发条件分别对应所述复数个位置采集装置,在所述音源依序满足所述复数个触发条件时,由最早被满足的所述触发条件所对应的所述位置采集装置取得并输出所述实体语音位置。
4.根据权利要求1所述的语音辨识装置,其特征在于,所述至少一个位置采集装置为影像定位模块,在所述影像定位模块采集具有一使用者的举手姿势的影像时,所述至少一个触发条件被满足,所述使用者作为所述音源,且所述使用者的实体位置作为所述实体语音位置。
5.根据权利要求1所述的语音辨识装置,其特征在于,所述至少一个位置采集装置为语音定位模块,在所述语音定位模块于不同位置接收所述音源产生的触发语音时,所述至少一个触发条件被满足,且所述语音定位模块用以取得在所述不同位置的所述触发语音的不同接收时间点,并据此取得所述实体语音位置。
6.根据权利要求1所述的语音辨识装置,其特征在于,所述至少一个位置采集装置包括:
一触控显示面板,用以显示应用程序的操作界面,所述操作界面具有对应所述实体语音位置的影像;以及
一应用处理器,耦接所述触控显示面板、所述噪声抑制器与所述方向性收音装置,所述应用处理器安装有所述应用程序,在所述触控显示面板对应所述影像的位置被按下时,所述至少一个触发条件被满足,所述应用处理器取得并输出所述实体语音位置。
7.根据权利要求1所述的语音辨识装置,其特征在于,所述方向性收音装置包括:
一麦克风阵列,用以接收不同位置的所述语音信号;以及
一音信处理器,耦接所述麦克风阵列、所述至少一个位置采集装置与所述噪声抑制器,所述音信处理器存有所述复数个语音产生位置分别对应的复数组偏移时段,所述音信处理器用以接收所述实体语音位置,并根据所述实体语音位置与对应的所述组偏移时段移动在所述不同位置的所述语音信号的波形至同一时间点,且在所述同一时间点相加所述语音信号,以产生被强化的所述语音信号,所述音信处理器用以传输所述被强化的所述语音信号至所述噪声抑制器。
8.根据权利要求1所述的语音辨识装置,其特征在于,所述方向性收音装置包括:
一方向性收音器,耦接所述噪声抑制器;以及
一自动旋转平台,耦接所述至少一个位置采集装置,所述自动旋转平台支撑所述方向性收音器,所述自动旋转平台用以接收所述实体语音位置,并控制所述方向性收音器的收音方向朝向所述实体语音位置,且所述方向性收音器用以接收所述语音信号,并传输所述语音信号至所述噪声抑制器。
9.根据权利要求1所述的语音辨识装置,其特征在于,所述语音辨识处理器耦接所述至少一个位置采集装置与所述方向性收音装置,在所述语音辨识处理器未接收所述语音辨识信号长达一预设时段时,所述语音辨识处理器控制所述至少一个位置采集装置停止取得所述实体语音位置,并控制所述方向性收音装置停止接收所述实体语音位置与产生所述语音信号,且控制所述至少一个位置采集装置与所述方向性收音装置操作在待机状态。
10.一种语音辨识装置,其特征在于,所述语音辨识装置包括:
复数个语音接收器,用以于不同位置接收一音源产生的语音信号;
一音信处理器,耦接所述复数个语音接收器,所述音信处理器存有复数个语音产生位置分别对应的复数组偏移时段,所述音信处理器用以取得在所述不同位置的所述语音信号的不同接收时间点,并据此取得所述音源的实体语音位置,所述复数个语音产生位置包括所述实体语音位置,所述音信处理器用以根据所述实体语音位置与对应的所述组偏移时段移动在所述不同位置的所述语音信号的波形至同一时间点,且在所述同一时间点相加所述语音信号,以产生被强化的所述语音信号;
一噪声抑制器,耦接所述音信处理器,所述噪声抑制器存有所述复数个语音产生位置分别对应的噪声模型,所述噪声抑制器用以接收所述被强化的所述语音信号与所述实体语音位置,并根据所述实体语音位置对应的所述噪声模型消除所述被强化的所述语音信号的噪声,以产生一语音辨识信号;以及
一语音辨识处理器,耦接所述噪声抑制器,所述语音辨识处理器用以接收所述语音辨识信号,并据此产生一操作信号。
11.根据权利要求10所述的语音辨识装置,其特征在于,所述语音辨识处理器耦接所述音信处理器,在所述语音辨识处理器未接收所述语音辨识信号长达一预设时段时,所述语音辨识处理器控制所述音信处理器停止取得所述实体语音位置,并控制所述音信处理器停止产生所述被强化的所述语音信号,且控制所述音信处理器操作在待机状态。
CN202110284516.3A 2021-03-17 2021-03-17 语音辨识装置 Pending CN113053376A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110284516.3A CN113053376A (zh) 2021-03-17 2021-03-17 语音辨识装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110284516.3A CN113053376A (zh) 2021-03-17 2021-03-17 语音辨识装置

Publications (1)

Publication Number Publication Date
CN113053376A true CN113053376A (zh) 2021-06-29

Family

ID=76512975

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110284516.3A Pending CN113053376A (zh) 2021-03-17 2021-03-17 语音辨识装置

Country Status (1)

Country Link
CN (1) CN113053376A (zh)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002204493A (ja) * 2000-10-25 2002-07-19 Matsushita Electric Ind Co Ltd ズームマイクロホン装置
CN1422494A (zh) * 2000-12-05 2003-06-04 皇家菲利浦电子有限公司 在电视会议和其他应用中预测事件的方法和装置
JP2005229420A (ja) * 2004-02-13 2005-08-25 Toshiba Corp 音声入力装置
US20070274536A1 (en) * 2006-05-26 2007-11-29 Fujitsu Limited Collecting sound device with directionality, collecting sound method with directionality and memory product
CN102903360A (zh) * 2011-07-26 2013-01-30 财团法人工业技术研究院 以麦克风阵列为基础的语音辨识系统与方法
CN103282961A (zh) * 2010-12-21 2013-09-04 日本电信电话株式会社 语音增强方法、装置、程序和记录介质
CN104049721A (zh) * 2013-03-11 2014-09-17 联想(北京)有限公司 信息处理方法及电子设备
WO2016086633A1 (zh) * 2014-12-04 2016-06-09 中兴通讯股份有限公司 一种自适应调整语音识别率的方法、装置及存储介质
CN107257996A (zh) * 2015-03-26 2017-10-17 英特尔公司 环境敏感自动语音识别的方法和系统
WO2019169616A1 (zh) * 2018-03-09 2019-09-12 深圳市汇顶科技股份有限公司 语音信号处理方法及装置

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002204493A (ja) * 2000-10-25 2002-07-19 Matsushita Electric Ind Co Ltd ズームマイクロホン装置
CN1422494A (zh) * 2000-12-05 2003-06-04 皇家菲利浦电子有限公司 在电视会议和其他应用中预测事件的方法和装置
JP2005229420A (ja) * 2004-02-13 2005-08-25 Toshiba Corp 音声入力装置
US20070274536A1 (en) * 2006-05-26 2007-11-29 Fujitsu Limited Collecting sound device with directionality, collecting sound method with directionality and memory product
CN103282961A (zh) * 2010-12-21 2013-09-04 日本电信电话株式会社 语音增强方法、装置、程序和记录介质
CN102903360A (zh) * 2011-07-26 2013-01-30 财团法人工业技术研究院 以麦克风阵列为基础的语音辨识系统与方法
CN104049721A (zh) * 2013-03-11 2014-09-17 联想(北京)有限公司 信息处理方法及电子设备
WO2016086633A1 (zh) * 2014-12-04 2016-06-09 中兴通讯股份有限公司 一种自适应调整语音识别率的方法、装置及存储介质
CN107257996A (zh) * 2015-03-26 2017-10-17 英特尔公司 环境敏感自动语音识别的方法和系统
WO2019169616A1 (zh) * 2018-03-09 2019-09-12 深圳市汇顶科技股份有限公司 语音信号处理方法及装置

Similar Documents

Publication Publication Date Title
EP3304548B1 (en) Electronic device and method of audio processing thereof
EP3664291A1 (en) Audio signal adjustment method and device, storage medium, and terminal
US20120134507A1 (en) Methods, Systems, and Products for Voice Control
CN106960670B (zh) 一种录音方法和电子设备
CN110349582B (zh) 显示装置与远场语音处理电路
JP2022081381A (ja) オーディオ再生方法及び装置、電子機器並びに記憶媒体
CN206559550U (zh) 一种内置麦克风阵列的遥控器及电视系统
KR102454761B1 (ko) 영상표시장치의 동작 방법
US20240096343A1 (en) Voice quality enhancement method and related device
CN115482830A (zh) 语音增强方法及相关设备
EP4084003A1 (en) Adaptive noise cancelling for conferencing communication systems
CN112313971A (zh) 信息处理装置、信息处理方法和信息处理系统
CN113053376A (zh) 语音辨识装置
TWI770867B (zh) 語音辨識裝置
US20160275960A1 (en) Voice enhancement method
CN112243182A (zh) 拾音电路、方法及装置
JP2016206646A (ja) 音声再生方法、音声対話装置及び音声対話プログラム
US11626109B2 (en) Voice recognition with noise supression function based on sound source direction and location
US10362397B2 (en) Voice enhancement method for distributed system
CN110716181A (zh) 声音信号采集方法以及分离式麦克风阵列
EP3195618A1 (en) A method for operating a hearing system as well as a hearing system
CN113763940A (zh) 一种用于ar眼镜的语音信息处理方法及系统
JP2018518067A (ja) スマートテレビの外付装置用コネクタ
CN212135954U (zh) 一种语音控制装置及智能终端
CN113645542B (zh) 语音信号处理方法和系统及音视频通信设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination