CN110942770A - 音声识别装置、音声识别方法、存储音声识别程序的非暂时性计算机可读介质 - Google Patents

音声识别装置、音声识别方法、存储音声识别程序的非暂时性计算机可读介质 Download PDF

Info

Publication number
CN110942770A
CN110942770A CN201910864279.0A CN201910864279A CN110942770A CN 110942770 A CN110942770 A CN 110942770A CN 201910864279 A CN201910864279 A CN 201910864279A CN 110942770 A CN110942770 A CN 110942770A
Authority
CN
China
Prior art keywords
sound
user
content
sound recognition
output
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910864279.0A
Other languages
English (en)
Other versions
CN110942770B (zh
Inventor
菅原嘉彦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toyota Motor Corp
Original Assignee
Denso Corp
Toyota Motor Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Denso Corp, Toyota Motor Corp filed Critical Denso Corp
Publication of CN110942770A publication Critical patent/CN110942770A/zh
Application granted granted Critical
Publication of CN110942770B publication Critical patent/CN110942770B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/165Management of the audio stream, e.g. setting of volume, audio stream path
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04KSECRET COMMUNICATION; JAMMING OF COMMUNICATION
    • H04K1/00Secret communication
    • H04K1/02Secret communication by adding a second signal to make the desired signal unintelligible
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04KSECRET COMMUNICATION; JAMMING OF COMMUNICATION
    • H04K3/00Jamming of communication; Counter-measures
    • H04K3/40Jamming having variable characteristics
    • H04K3/45Jamming having variable characteristics characterized by including monitoring of the target or target signal, e.g. in reactive jammers or follower jammers for example by means of an alternation of jamming phases and monitoring phases, called "look-through mode"
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04KSECRET COMMUNICATION; JAMMING OF COMMUNICATION
    • H04K3/00Jamming of communication; Counter-measures
    • H04K3/80Jamming or countermeasure characterized by its function
    • H04K3/82Jamming or countermeasure characterized by its function related to preventing surveillance, interception or detection
    • H04K3/825Jamming or countermeasure characterized by its function related to preventing surveillance, interception or detection by jamming
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04KSECRET COMMUNICATION; JAMMING OF COMMUNICATION
    • H04K3/00Jamming of communication; Counter-measures
    • H04K3/80Jamming or countermeasure characterized by its function
    • H04K3/86Jamming or countermeasure characterized by its function related to preventing deceptive jamming or unauthorized interrogation or access, e.g. WLAN access or RFID reading
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04KSECRET COMMUNICATION; JAMMING OF COMMUNICATION
    • H04K2203/00Jamming of communication; Countermeasures
    • H04K2203/10Jamming or countermeasure used for a particular application
    • H04K2203/12Jamming or countermeasure used for a particular application for acoustic communication

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Theoretical Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Security & Cryptography (AREA)
  • Electromagnetism (AREA)
  • Microelectronics & Electronic Packaging (AREA)
  • Quality & Reliability (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明提供一种音声识别装置、音声识别方法、存储音声识别程序的非暂时性计算机可读介质。本发明的音声识别装置识别用户的发话音声,并且包括控制器,所述控制器配置为根据向所述用户要求的发话内容是否为不期望第三者听到的内容来控制任何干扰声的输出,并且响应于所述用户的发话的结束而停止所述干扰声的所述输出。

Description

音声识别装置、音声识别方法、存储音声识别程序的非暂时性 计算机可读介质
技术领域
本发明涉及一种识别用户的发话音声的音声识别装置、一种音声识别方法以及一种存储音声识别程序的非暂时性计算机可读介质。
背景技术
日本未审查专利申请公开第2013-019803号(JP 2013-019803A)描述了一种声音对话装置,所述声音对话装置在开始音乐的输出或者维持音乐输出状态的同时,根据用户的发话音量的计算结果来调节音乐的音量,从而将用户的发话音量引导至期望的级别。
发明内容
在使用音声识别装置的情况下,用户可能不期望诸如车辆的乘客的第三者听到发话内容。然而,在JP 2013-019803A描述的声音对话装置中,因为音乐没有以妨碍第三者听到用户的发话内容的级别的音量再生,所以用户的发话内容有可能被第三者听到。
本发明提供一种音声识别装置、一种音声识别方法以及一种存储能够抑制第三者听到用户的发话内容的音声识别程序的非暂时性计算机可读介质。
本发明的第一方案涉及一种识别用户的发话音声的音声识别装置。所述音声识别装置包括控制器,所述控制器配置为:根据向所述用户要求的发话内容是否为不期望第三者听到的内容来控制任何干扰声的输出,并且响应于所述用户的发话的结束而停止所述干扰声的所述输出。
在根据本发明的第一方案的音声识别装置中,所述控制器可以被配置为:当在输出音乐时,将所述音乐的输出音量控制到干扰听到所述发话内容的级别。因此,能够抑制第三者听到用户的发话内容。
在根据本发明的第一方案的音声识别装置中,所述控制器可以被配置为:基于向所述用户要求所述发话的场景或情况以及来自所述用户的要求信号是否存在,来判定向所述用户要求的所述发话内容是否为不期望所述第三者听到的所述内容。因此,能够精确地判定向用户要求的发话内容是否为不期望第三者听到的内容。
在根据本发明的第一方案的音声识别装置中,所述控制器可以被配置为:从经由音声输入装置获取的音声数据去除所述干扰声,从而识别所述用户的发话音声。因此,即使在干扰声正在输出的状态下也能够精确地识别用户的发话音声。
本发明的第二方案涉及一种识别用户的发话音声的音声识别方法。所述音声识别方法包括:根据向所述用户要求的发话内容是否为不期望第三者听到的内容来控制任何干扰声的输出,并且响应于所述用户的发话的结束而停止所述干扰声的所述输出。
根据本发明的第二方案的音声识别方法还可以包括:判定向所述用户要求的所述发话内容是否为不期望所述第三者听到的所述内容,当所述发话内容为不期望所述第三者听到的所述内容时:当在输出音乐时,将所述音乐的输出音量控制到干扰听到所述发话内容的级别,以及当没有在输出所述音乐时则再生所述干扰声。
本发明的第三方案涉及一种非暂时性计算机可读介质,其存储使计算机实行识别用户的发话音声的处理的音声识别程序。所述处理包括:根据向所述用户要求的发话内容是否为不期望第三者听到的内容来控制任何干扰声的输出,并且响应于所述用户的发话的结束而停止所述干扰声的所述输出。
通过根据本发明的各个方案的音声识别装置、音声识别方法以及存储音声识别程序的非暂时性计算机可读介质,由于根据向用户要求的发话内容是否为不期望第三者听到的内容来控制任何干扰声的输出,所以能够抑制第三者听到用户的发话内容。
附图说明
将在下文中参照附图描述本发明的示例性实施例的特征、益处以及技术和工业方面的重要性,其中相同的附图标记表示相同的元件,并且其中:
图1为图示出根据本发明的一个实施例的音声识别装置的配置的框图;
图2A为图示出根据本发明的一个实施例的音声识别处理的流程的流程图;以及
图2B为图示出根据本发明的一个实施例的音声识别处理的流程的流程图。
具体实施方式
在下文中,将参照附图描述根据本发明的一个实施例的音声识别装置的配置和操作。
音声识别装置的配置
首先,将参照图1描述根据本发明的一个实施例的音声识别装置的配置。
图1为图示出根据本发明的一个实施例的音声识别装置的配置的框图。如图1所示,根据本发明的一个实施例的音声识别装置1被配置为包括处理器和存储单元的、诸如工作站的通用信息处理装置,所述处理器诸如中央处理单元(CPU)、数字信号处理器(DSP)或者现场可编程门阵列(FPGA),所述存储单元诸如随机存取存储器(RAM)和只读存储器(ROM),并且包括音声识别处理单元11、声音数据库(声音DB)12、音频再生单元13以及音量设定单元14。音声识别处理单元11、音频再生单元13以及音量设定单元14的功能由执行存储在存储单元中的计算机程序的处理器实现。音声识别单元11、音频再生单元13以及音量设定单元14可以用作控制器。
音声识别处理单元11经由诸如麦克风的音声输入装置2获取用户P1的发话音声,并且识别获取的发话音声的内容。如将在下文中详细描述的,在本实施例中,音声识别处理单元11从经由音声输入装置2获取的音声(麦克风声音)数据去除音乐或干扰声的数据,并且使用去除处理之后的音声数据在再生音乐或干扰声的环境下识别用户P1的发话音声的内容。
声音DB 12存储音乐或者干扰声的数据。在此,干扰声的示例能够包括适于干扰听到用户P1的发话内容的专用音声(例如,没有令人不快并且没有无声状态的噪声音乐),以及用户所拥有的音乐。
音频再生单元13从声音DB 12获取音乐或者干扰声的数据,并且再生获取的数据并输出已经再生的获取的数据。
音量设定单元14调节由音频再生单元13再生的音乐或者干扰声的音量,并且从安装在用户P1附近的扬声器3A或者安装在第三者(例如,车辆的乘客)P2附近的扬声器3B输出音乐或干扰声。
上述计算机程序能够被记录在诸如CD-ROM、软盘、可记录光盘(CD-R)以及数字多功能光盘(DVD)的计算机可读记录介质中,并且提供为可安装格式或者可执行格式的文件。而且,上述计算机程序可以被存储在连接至电气通信线路的计算机中,并且通过经由电气通信线路下载来提供。而且,上述计算机程序可以经由电气通信线路提供或分布。
具有这样的配置的音声识别装置1执行如下的音声识别处理,由此抑制第三者P2听到用户P1的发话内容。在下文中,将参照图2A和图2B描述执行音声识别处理时的音声识别装置1的操作。
音声识别处理
图2A和图2B为图示出根据本发明的一个实施例的音声识别处理的流程的流程图。每次音声识别装置1向用户P1要求发话,则开始图2A和图2B所示的流程图,并且音声识别处理进行到步骤S1的处理。
在步骤S1的处理中,音声识别处理单元11判定向用户P1要求的发话内容(要求用户P1提供的发话的内容)是否为不期望第三者P2听到的内容。具体地,音声识别处理单元11基于向用户P1要求发话的场景或状况(例如,在进行车辆中的全部乘客参与的智力游戏的状况下识别向用户P1要求不能被其他人听到的答案的情况)以及来自用户P1的要求信号是否存在,来判定向用户P1要求的发话内容是否为不期望第三者P2听到的内容。作为判定的结果,当向用户P1要求的发话内容为不期望第三者P2听到的内容时(步骤S1:是),音声识别处理单元11中的音声识别处理进行到步骤S2的处理。另一方面,当向用户P1要求的发话内容并非不期望第三者P2听到的内容时(步骤S1:否),音声识别处理单元11中的音声识别处理进行到步骤S5的处理。
应当注意到的是,不期望第三者P2听到的发话内容可以由音声识别处理单元11根据向用户P1要求发话(回答)的内容来提前定义。定义可以被划分为多个级别以指示内容不能被听到的程度,诸如要设定的目的地定义为级别1、姓名被定义为级别1、地址被定义为级别2、电话号码被定义为级别2、银行账号被定义为级别3并且智力游戏的答案被定义为级别3,或者可以被二值化定义(不可以被听到或者可以被听到)。当定义被划分为多个级别时,可以为每个用户P1设定阈值,该阈值指示在哪个级别以上的情况下不期望内容被听到。在该情况下,当使用户P1以超过阈值的级别的内容发话时,音声识别装置1执行听取发话内容和引导向第三者的干扰声的控制。而且,当不存在第三者P2时,音声识别装置1可以自动地判定阈值是无效的(设定为零)。不存在第三者P2的情况的示例能够包括就坐传感器判定驾驶座以外的座椅中没有乘客的情况,以及厢内摄像机没有检测到驾驶员以外的乘客的情况。
在步骤S2的处理中,音量设定单元14判定音频再生单元13是否在再生音乐。作为判定的结果,当音频再生单元13在再生音乐时(步骤S2:是),音量设定单元14中的音声识别处理进行到步骤S3的处理。另一方面,当音频再生单元13并非在再生音乐时(步骤S2:否),音量设定单元14中的音声识别处理进行到步骤S4的处理。
在步骤S3的处理中,音量设定单元14将从设置在第三者P2附近的扬声器3B输出的音乐的音量增加至第三者P2不能听到用户P1的发话音声的音量(继续音乐再生)。在该情况下应当注意到的是,可以增加用户P1和第三者P2所在的车厢等的全部空间的音量或者只在用户P1周围的音量。而且,不仅执行简单的音量调节,而且可以应用使用户P1的发话音声难以被听到的均衡器。因此,步骤S3的处理完成,并且音声识别处理进行到步骤S5的处理。
在步骤S4的处理中,音量设定单元14控制音频再生单元13,使得音频再生单元13再生存储在声音DB 12中的干扰声。音量设定单元14将从设置在第三者P2附近的扬声器3B输出的干扰声的音量控制到第三者P2不能听到用户P1的发话音声的音量。由此,完成步骤S4的处理,并且音声识别处理进行到步骤S5的处理。
在步骤S5的处理中,音声识别处理单元11执行音声识别,同时执行从经由音声输入装置2获得的音声数据中去除(消除)在再生的音乐或干扰声的去除处理,以等待用户P1发话。由此,完成步骤S5的处理,并且音声识别处理进行到步骤S6的处理。
在步骤S6的处理中,音声识别处理单元11基于音声识别结果判定是否存在用户P1的发话。作为判定的结果,当存在用户P1的发话时(步骤S6:是),音声识别处理单元11中的音声识别处理进行到步骤S7的处理。另一方面,当不存在用户P1的发话时(步骤S6:否),音声识别处理单元11使音声识别处理进行到步骤S8的处理。
在步骤S7的处理中,音声识别处理单元11对用户P1的发话内容执行音声识别。由此,完成步骤S7的处理,并且音声识别处理进行到步骤S8的处理。
在步骤S8的处理中,音声识别处理单元11基于用户P1的发话内容、来自用户P1的要求信号是否存在等,判定是否可以结束音声识别。作为判定的结果,当音声识别可以结束时(步骤S8:是),音声识别处理单元11中的音声识别处理进行到步骤S9的处理。另一方面,当音声识别处理单元11不可以结束音声识别时(步骤S8:否),音声识别处理单元11中的音声识别处理返回步骤S5的处理。
在步骤S9的处理中,音声识别处理单元11结束等待用户P1的发话的处理。由此,完成步骤S9的处理,并且音声识别处理进行到步骤S10的处理。
在步骤S10的处理中,音量设定单元14判定在等待用户P1的发话的处理开始之前音频再生单元13是否在再生音乐。作为判定的结果,当音频再生单元13在再生音乐时(步骤S10:是),音量设定单元14中的音声识别处理进行到步骤S11的处理。另一方面,当音频再生单元13没有再生音乐时(步骤S10:否),音量设定单元14中的音声识别处理进行到步骤S12的处理。
在步骤S11的处理中,音量设定单元14使音乐再生音量返回至音声识别处理开始之前的音量。由此,完成步骤S11的处理,并且一系列音声识别处理结束。
在步骤S12的处理中,音量设定单元14控制音频再生单元13以停止干扰声的再生。由此,完成步骤S12的处理,并且一系列音声识别处理结束。
如从以上描述中明白易懂的,在根据本发明的一个实施例的音声识别处理中,音声识别装置1根据向用户P1要求的发话内容是否为不期望第三者P2听到的内容来控制音乐或干扰声的输出,并且根据用户P1的发话的结束来结束干扰声的输出。因此,能够抑制第三者P2听到用户P1的发话内容。
而且,在根据本发明的一个实施例的音声识别处理中,当音声识别装置1在再生音乐时,音声识别装置1将音乐的音量控制到干扰听到用户P1的发话内容的级别。因此,能够抑制第三者P2听到用户P1的发话内容。
而且,在根据本发明的一个实施例的音声识别处理中,由于音声识别装置1基于向用户P1要求发话的场景或情况以及来自用户的要求信号是否存在来判定向用户P1要求的发话内容是否为不期望第三者P2听到的内容,能够精确地判定向用户P1要求的发话内容是否为不期望第三者P2听到的内容。
而且,在根据本发明的一个实施例的音声识别处理中,由于音声识别装置1通过从经由音声输入装置2获取的音声数据去除干扰声来识别用户P1的发话音声,所以即使在输出干扰声的状态下也能够精确地识别用户P1的发话音声。
虽然以上已经描述了应用了本发明人的发明的实施例,但本发明并不被形成根据本实施例的本发明的公开的一部分的描述和附图所限制。即,由本领域技术人员基于本实施例实现的其他实施例、示例、操作技术等全部包括在本发明的范围中。

Claims (7)

1.一种音声识别装置,其识别用户的发话音声,所述音声识别装置的特征在于包括控制器,所述控制器配置为根据向所述用户要求的发话内容是否为不期望第三者听到的内容来控制任何干扰声的输出,并且响应于所述用户的发话的结束而停止所述干扰声的所述输出。
2.根据权利要求1所述的音声识别装置,其特征在于,所述控制器配置为:当输出音乐时,将所述音乐的输出音量控制到干扰听到所述发话内容的级别。
3.根据权利要求1或2所述的音声识别装置,其特征在于,所述控制器配置为:基于向所述用户要求的所述发话的场景或情况以及来自所述用户的要求信号是否存在,来判定向所述用户要求的所述发话内容是否为不期望所述第三者听到的所述内容。
4.根据权利要求1至3中任一项所述的音声识别装置,其特征在于,所述控制器配置为:从经由音声输入装置获取的音声数据去除所述干扰声,从而识别所述用户的发话音声。
5.一种识别用户的发话音声的音声识别方法,所述音声识别方法的特征在于包括:根据向所述用户要求的发话内容是否为不期望第三者听到的内容来控制任何干扰声的输出,并且响应于所述用户的发话的结束而停止所述干扰声的所述输出。
6.根据权利要求5所述的音声识别方法,其特征在于,还包括:
判定向所述用户要求的所述发话内容是否为不期望所述第三者听到的所述内容;
当所述发话内容为不期望所述第三者听到的所述内容时:
当在输出音乐时,将所述音乐的输出音量控制到干扰听到所述发话内容的级别;以及
当没有在输出所述音乐时再生所述干扰声。
7.一种非暂时性计算机可读介质,其存储使计算机实行识别用户的发话音声的处理的音声识别程序,所述处理的特征在于包括:根据向所述用户要求的发话内容是否为不期望第三者听到的内容来控制任何干扰声的输出,并且响应于所述用户的发话的结束而停止所述干扰声的所述输出。
CN201910864279.0A 2018-09-25 2019-09-12 音声识别装置、音声识别方法、存储音声识别程序的非暂时性计算机可读介质 Active CN110942770B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2018-179407 2018-09-25
JP2018179407A JP2020052145A (ja) 2018-09-25 2018-09-25 音声認識装置、音声認識方法、及び音声認識プログラム

Publications (2)

Publication Number Publication Date
CN110942770A true CN110942770A (zh) 2020-03-31
CN110942770B CN110942770B (zh) 2023-07-28

Family

ID=69883292

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910864279.0A Active CN110942770B (zh) 2018-09-25 2019-09-12 音声识别装置、音声识别方法、存储音声识别程序的非暂时性计算机可读介质

Country Status (3)

Country Link
US (1) US11276404B2 (zh)
JP (1) JP2020052145A (zh)
CN (1) CN110942770B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020052145A (ja) * 2018-09-25 2020-04-02 トヨタ自動車株式会社 音声認識装置、音声認識方法、及び音声認識プログラム

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040125922A1 (en) * 2002-09-12 2004-07-01 Specht Jeffrey L. Communications device with sound masking system
JP2006215206A (ja) * 2005-02-02 2006-08-17 Canon Inc 音声処理装置およびその制御方法
JP2007006363A (ja) * 2005-06-27 2007-01-11 Fujitsu Ltd 電話機
US20110188666A1 (en) * 2008-07-18 2011-08-04 Koninklijke Philips Electronics N.V. Method and system for preventing overhearing of private conversations in public places
JP2012113130A (ja) * 2010-11-25 2012-06-14 Yamaha Corp サウンドマスキング装置
US20130185061A1 (en) * 2012-10-04 2013-07-18 Medical Privacy Solutions, Llc Method and apparatus for masking speech in a private environment
US20130322634A1 (en) * 2012-06-05 2013-12-05 Apple Inc. Context-aware voice guidance
JP2014130251A (ja) * 2012-12-28 2014-07-10 Glory Ltd 会話保護システム及び会話保護方法
US20160253149A1 (en) * 2015-02-26 2016-09-01 Motorola Mobility Llc Method and Apparatus for Voice Control User Interface with Discreet Operating Mode
CN106657552A (zh) * 2016-11-30 2017-05-10 广东欧珀移动通信有限公司 防止监听的方法、装置及终端
US20170243580A1 (en) * 2014-09-30 2017-08-24 Mitsubishi Electric Corporation Speech recognition system

Family Cites Families (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3138370B2 (ja) * 1993-09-09 2001-02-26 株式会社日立製作所 情報処理装置
US6937977B2 (en) * 1999-10-05 2005-08-30 Fastmobile, Inc. Method and apparatus for processing an input speech signal during presentation of an output audio signal
US6963759B1 (en) * 1999-10-05 2005-11-08 Fastmobile, Inc. Speech recognition technique based on local interrupt detection
US20010044786A1 (en) * 2000-03-14 2001-11-22 Yoshihito Ishibashi Content usage management system and method, and program providing medium therefor
EP1454451A1 (en) * 2001-12-15 2004-09-08 Thomson Licensing S.A. Videoconference bandwidth selection mechanism
JP2004096664A (ja) * 2002-09-04 2004-03-25 Matsushita Electric Ind Co Ltd ハンズフリー通話装置および方法
US7714878B2 (en) * 2004-08-09 2010-05-11 Nice Systems, Ltd. Apparatus and method for multimedia content based manipulation
US20060109983A1 (en) * 2004-11-19 2006-05-25 Young Randall K Signal masking and method thereof
JP4765394B2 (ja) 2005-05-10 2011-09-07 トヨタ自動車株式会社 音声対話装置
KR100735557B1 (ko) * 2005-10-12 2007-07-04 삼성전자주식회사 음성 신호를 감쇄하고 마스킹하여 음성 신호를 교란시키는방법 및 장치
US20070208806A1 (en) * 2006-03-02 2007-09-06 Sun Microsystems, Inc. Network collaboration system with conference waiting room
JP2007256606A (ja) * 2006-03-23 2007-10-04 Aruze Corp 出音システム
US8886537B2 (en) * 2007-03-20 2014-11-11 Nuance Communications, Inc. Method and system for text-to-speech synthesis with personalized voice
US7689421B2 (en) * 2007-06-27 2010-03-30 Microsoft Corporation Voice persona service for embedding text-to-speech features into software programs
US8983845B1 (en) * 2010-03-26 2015-03-17 Google Inc. Third-party audio subsystem enhancement
WO2012063963A1 (ja) * 2010-11-11 2012-05-18 日本電気株式会社 音声認識装置、音声認識方法、および音声認識プログラム
JP5695447B2 (ja) * 2011-03-01 2015-04-08 株式会社東芝 テレビジョン装置及び遠隔操作装置
US8972251B2 (en) * 2011-06-07 2015-03-03 Qualcomm Incorporated Generating a masking signal on an electronic device
JP2013019803A (ja) 2011-07-12 2013-01-31 Mitsubishi Motors Corp 運転支援装置
KR102069863B1 (ko) * 2012-11-12 2020-01-23 삼성전자주식회사 입력 수단의 결제 기능을 제어하는 전자 장치 및 방법
US9697831B2 (en) * 2013-06-26 2017-07-04 Cirrus Logic, Inc. Speech recognition
US20150117439A1 (en) * 2013-10-24 2015-04-30 Vonage Network, Llc Systems and methods for controlling telephony communications
US20150230022A1 (en) * 2014-02-07 2015-08-13 Samsung Electronics Co., Ltd. Wearable electronic system
US9715283B2 (en) * 2015-02-26 2017-07-25 Motorola Mobility Llc Method and apparatus for gesture detection in an electronic device
JP2016177205A (ja) * 2015-03-20 2016-10-06 ヤマハ株式会社 サウンドマスキング装置
JP2016177204A (ja) * 2015-03-20 2016-10-06 ヤマハ株式会社 サウンドマスキング装置
JP2020052145A (ja) * 2018-09-25 2020-04-02 トヨタ自動車株式会社 音声認識装置、音声認識方法、及び音声認識プログラム
US11915123B2 (en) * 2019-11-14 2024-02-27 International Business Machines Corporation Fusing multimodal data using recurrent neural networks
US11776557B2 (en) * 2020-04-03 2023-10-03 Electronics And Telecommunications Research Institute Automatic interpretation server and method thereof

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040125922A1 (en) * 2002-09-12 2004-07-01 Specht Jeffrey L. Communications device with sound masking system
JP2006215206A (ja) * 2005-02-02 2006-08-17 Canon Inc 音声処理装置およびその制御方法
JP2007006363A (ja) * 2005-06-27 2007-01-11 Fujitsu Ltd 電話機
US20110188666A1 (en) * 2008-07-18 2011-08-04 Koninklijke Philips Electronics N.V. Method and system for preventing overhearing of private conversations in public places
JP2012113130A (ja) * 2010-11-25 2012-06-14 Yamaha Corp サウンドマスキング装置
US20130322634A1 (en) * 2012-06-05 2013-12-05 Apple Inc. Context-aware voice guidance
US20130185061A1 (en) * 2012-10-04 2013-07-18 Medical Privacy Solutions, Llc Method and apparatus for masking speech in a private environment
JP2014130251A (ja) * 2012-12-28 2014-07-10 Glory Ltd 会話保護システム及び会話保護方法
US20170243580A1 (en) * 2014-09-30 2017-08-24 Mitsubishi Electric Corporation Speech recognition system
US20160253149A1 (en) * 2015-02-26 2016-09-01 Motorola Mobility Llc Method and Apparatus for Voice Control User Interface with Discreet Operating Mode
CN106657552A (zh) * 2016-11-30 2017-05-10 广东欧珀移动通信有限公司 防止监听的方法、装置及终端

Also Published As

Publication number Publication date
US11276404B2 (en) 2022-03-15
US20200098371A1 (en) 2020-03-26
JP2020052145A (ja) 2020-04-02
CN110942770B (zh) 2023-07-28

Similar Documents

Publication Publication Date Title
US11348595B2 (en) Voice interface and vocal entertainment system
JP2008299221A (ja) 発話検知装置
US10140089B1 (en) Synthetic speech for in vehicle communication
US11089404B2 (en) Sound processing apparatus and sound processing method
JP2005195895A (ja) 雑音除去装置、及び音声認識装置、並びにカーナビゲーション装置
JP4209247B2 (ja) 音声認識装置および方法
JP7023823B2 (ja) 車載装置及び音声認識方法
JP6459330B2 (ja) 音声認識装置、音声認識方法、及び音声認識プログラム
JP2012163692A (ja) 音声信号処理システム、音声信号処理方法および音声信号処理方法プログラム
US10115392B2 (en) Method for adjusting a voice recognition system comprising a speaker and a microphone, and voice recognition system
CN110942770B (zh) 音声识别装置、音声识别方法、存储音声识别程序的非暂时性计算机可读介质
US8990092B2 (en) Voice recognition device
CN112312280B (zh) 一种车内声音播放方法及装置
JP2007043356A (ja) 音量自動調節装置および音量自動調節方法
JP2019176431A (ja) 音声認識装置
JP4765394B2 (ja) 音声対話装置
JP6995254B2 (ja) 音場制御装置及び音場制御方法
KR20220091151A (ko) 차량용 능동 소음 제어 장치 및 그 제어 방법
JP7474548B2 (ja) オーディオデータの再生の制御
JP7069730B2 (ja) 情報処理装置、方法、及びプログラム
JP4924652B2 (ja) 音声認識装置及びカーナビゲーション装置
WO2021245871A1 (ja) 通話環境生成方法、通話環境生成装置、プログラム
JP2008224960A (ja) 音声認識装置
JP2006171152A (ja) 音声入力装置
CN117698587A (zh) 一种多媒体系统控制方法、装置、设备和介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20230621

Address after: Aichi Prefecture, Japan

Applicant after: Toyota Motor Corp.

Address before: Aichi Prefecture, Japan

Applicant before: Toyota Motor Corp.

Applicant before: DENSO Corp.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant