CN105280183B - 语音交互方法和系统 - Google Patents

语音交互方法和系统 Download PDF

Info

Publication number
CN105280183B
CN105280183B CN201510574318.5A CN201510574318A CN105280183B CN 105280183 B CN105280183 B CN 105280183B CN 201510574318 A CN201510574318 A CN 201510574318A CN 105280183 B CN105280183 B CN 105280183B
Authority
CN
China
Prior art keywords
sound source
targeted customer
voice
user
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510574318.5A
Other languages
English (en)
Other versions
CN105280183A (zh
Inventor
穆向禹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201510574318.5A priority Critical patent/CN105280183B/zh
Publication of CN105280183A publication Critical patent/CN105280183A/zh
Application granted granted Critical
Publication of CN105280183B publication Critical patent/CN105280183B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Telephonic Communication Services (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本发明提出一种语音交互方法和系统,该语音交互方法包括:确定目标用户,并获取目标用户的用户信息;在需要语音交互时,获取多人同时说话时的混合声源,以及,根据目标用户的用户信息,在所述混合声源中识别出目标声源;对目标声源中的语音信息进行语音识别,得到语音识别结果,并将所述语音识别结果作为目标指令对交互设备进行操控。该方法能够在多人说话的场景下依然可以识别出目标声源,从而扩大语音交互系统的适用范围,提升用户体验。

Description

语音交互方法和系统
技术领域
本发明涉及语音处理技术领域,尤其涉及一种语音交互方法和系统。
背景技术
随着汽车工业的发展,车载逐渐成为人们生活中的一个重要场景。由于安全性的要求和移动互联的发展,人们已经逐渐习惯了通过语音输入对车载设备进行操控。
通过语音输入对车载设备进行操控时,如果同时有多人说话,语音交互系统就难以区分出目标指令,为此,通常会要求除了指令的发出者之外的其他人尽量不要说话,但是,这种方式由于增加了对用户的限制,会使得语音交互系统的适应范围受限,并且也会影响用户体验。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的一个目的在于提出一种语音交互方法,该方法可以在多人说话的场景下依然可以识别出目标声源,从而扩大语音交互系统的适用范围,提升用户体验。
本发明的另一个目的在于提出一种语音交互系统。
为达到上述目的,本发明第一方面实施例提出的语音交互方法,包括:确定目标用户,并获取目标用户的用户信息;在需要语音交互时,获取多人同时说话时的混合声源,以及,根据目标用户的用户信息,在所述混合声源中识别出目标声源;对目标声源中的语音信息进行语音识别,得到语音识别结果,并将所述语音识别结果作为目标指令对交互设备进行操控。
本发明第一方面实施例提出的语音交互方法,通过根据目标用户的用户信息在混合声源中识别出目标声源,进而根据目标声源进行操作,可以在多人说话的场景下依然可以识别出目标声源,从而扩大语音系统的适用范围,提升用户体验。
为达到上述目的,本发明第二方面实施例提出的语音交互系统,包括:获取模块,用于确定目标用户,并获取目标用户的用户信息;识别模块,用于在需要语音交互时,获取多人同时说话时的混合声源,以及,根据目标用户的用户信息,在所述混合声源中识别出目标声源;操控模块,用于对目标声源中的语音信息进行语音识别,得到语音识别结果,并将所述语音识别结果作为目标指令对交互设备进行操控。
本发明第二方面实施例提出的语音交互系统,通过根据目标用户的用户信息在混合声源中识别出目标声源,进而根据目标声源进行操作,可以在多人说话的场景下依然可以识别出目标声源,从而扩大语音系统的适用范围,提升用户体验。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1是本发明一实施例提出的语音交互方法的流程示意图;
图2是本发明另一实施例提出的语音交互方法的流程示意图;
图3是本发明实施例中声纹注册的示意图;
图4是本发明实施例中声纹登录的示意图;
图5是本发明实施例中在混合声源中识别目标声源的示意图;
图6是本发明另一实施例提出的语音交互系统的结构示意图;
图7是本发明另一实施例提出的语音交互系统的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的模块或具有相同或类似功能的模块。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。相反,本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。
图1是本发明一实施例提出的语音交互方法的流程示意图,该方法包括:
S11:确定目标用户,并获取目标用户的用户信息。
目标用户是指在需要语音交互时,发出目标指令的用户。例如,可以将当前登录语音交互系统的用户确定为目标用户,此时,如果需要更改目标用户,需要更换当前登录的用户。
用户信息例如包括:声纹信息,和/或,方位信息。
其中,在用户注册时,语音交互系统可以采集并保存用户的声纹信息。相应的,在用户登录时可以采集当前登录用户的声纹信息,如果当前的声纹信息属于已保存的声纹信息,则允许用户登录,并将当前登录的用户确定为目标用户,由于用户登录时采集了声纹信息,因此可以获取到目标用户的声纹信息。
另外,语音交互系统根据声源定位技术可以确定当前登录用户发出的语音信息的方位,从而获取目标用户的方位信息。
S12:在需要语音交互时,获取多人同时说话时的混合声源,以及,根据目标用户的用户信息,在所述混合声源中识别出目标声源。
例如,目标用户需要对车载设备进行操控时,可以发出目标指令,而同时还可能存在其他人在说话,从而语音交互系统获取的声源不仅包括目标用户发出的声源,还包括其他人发出的声源。
为了准确获取目标指令,需要先从混合声源中识别出目标声源。本实施例中,根据目标用户的用户信息进行识别。
其中,当根据目标用户的声纹信息进行识别时,例如,可以分别提取混合声源中的每个声源的声音信息,再与预先获取的目标用户的声纹信息进行比对,获取与目标用户的声纹信息匹配一致的声源,将该匹配一致的声源确定为目标声源。
当根据目标用户的方位信息进行识别时,例如,可以采用声源定位技术分别确定混合声源中的每个声源的方位信息,再与预先获取的目标用户的方位信息进行比对,获取与目标用户的方位信息匹配一致的声源,将该匹配一致的声源确定为目标声源。
当根据目标用户的方位信息和声纹信息进行识别时,例如,先根据方位信息排除到部分的声源,在剩下的声源中再逐一比对声纹信息,从而确定出目标声源。
其中,在将混合声源区分为单个声源时,可以采用听觉场景分析技术。听觉场景分析技术是借鉴视觉场景分析技术产生的,可以对多个同时的语音信号进行区分。
S13:对目标声源中的语音信息进行语音识别,得到语音识别结果,并将所述语音识别结果作为目标指令对交互设备进行操控。
在识别出目标声源后,可以对其采用语言识别技术,将目标声源中的声音数据转换为文字数据,将文字数据作为目标指令,之后可以根据目标指令进行操控,例如,目标指令是搜索某个目的地的路线,则可以给出到该目的地的路线图。
本实施例以车载控制为例,相应的,交互设备是车载设备。可以理解的是,本实施例也可以应用在其他场景,例如,应用在对智能家电的控制等场景。
本实施例中,通过根据目标用户的用户信息在混合声源中识别出目标声源,进而根据目标声源进行操作,可以在多人说话的场景下依然可以识别出目标声源,从而扩大语音系统的适用范围,提升用户体验。
图2是本发明另一实施例提出的语音交互方法的流程示意图,本实施例以对车载设备进行操控为例。该方法包括:
S21:用户进行声纹注册。
例如,参见图3,在用户注册时,获取用户输入的语音信息(S31),并根据语音信息获取并保存用户的声纹信息(S32)。
例如,用户在语音交互系统中注册时,语音交互系统可以向用户展示预设个数的提示文本,用户对提示文本进行朗读,从而获取用户输入的语音信息。预设个数例如为3个,提示文本例如为字符串。
语音交互系统获取到用户的语音信息后,可以采用已有的声纹识别技术对语音信息进行声纹识别,获取对应的声纹信息。
本实施例中的语音交互系统可以是本地语音交互系统(如设置在车载设备内),或者,也可以是在线语音交互系统。
可以理解的,S21可以在用户开车之前完成。
S22:在用户登录时,将当前登录的用户作为目标用户,采集目标用户在登录时产生的语音信息,以及,根据声源定位技术,确定目标用户的方位信息。
例如,参见图4,用户登录流程可以包括:
S41:接收用户输入的预设语音指令。
预设语音指令用于登录语音交互系统。
S42:根据预设语音指令进行声纹登录,并判断是否登录成功,若是,执行,S44,否则,执行S43。
例如,语音交互系统根据预设语音指令确定对应的声纹信息,如果该声纹信息在预先保存的声纹信息中,则可以允许用户登录,否则登录失败。
S43:提示用户进行声纹注册。
例如,采用图3所示的流程,用户通过语音输入进行声纹注册。
S44:将当前登录的用户确定为目标用户,对目标用户的声音信息进行声源定位,确定目标用户的方位信息。
其中,用户(如司机)可以通过预设指令登录语音交互系统,预设指令例如为预设的语音指令,因此,当用户输入预设的语音指令后,一方面可以实现对语音交互系统的登录,另一方面,还可以对预设的语音指令采用声源定位技术,从而确定出当前登录的用户,也就是目标用户的方位信息。
本实施例中,以目标用户是当前登录的用户为例,如果在用户A登录后在后续需要用户B进行语音操控,则需要更改登录的用户,需要用户A退出,用户B登录。
S45:保存目标用户的声纹信息和方位信息。
目标用户的声纹信息和方位信息可以用于后续目标声源的识别。
S23:在需要进行语音操控时,接收唤醒指令,并根据唤醒指令激活语音交互系统。
其中,唤醒指令可以是用户通过语音发送的,当然,唤醒指令也可以是用户通过按键等形式产生的。
语音交互系统在接收到唤醒指令后可以被激活,在被激活后可以为用户提供语音交互服务。
S24:采集当前场景下的语音信息。
例如,需要进行语音操控时,目标用户可以产生语音形式的目标指令,从而采集的语音信息包括目标用户的语音信息,另外,同时可能其他人也在说话,因此,采集的语音信息还可以包括其他人的语音信息,相应的,此时采集的语音信息是混合声源。
一些实施例中,为了提高有效语音信号的指令,可以采用降噪麦克风采集当前场景下的语音信息。降噪麦克风可以将一定噪声水平下的语音信号滤掉,以提高噪声门槛来防止噪声干扰。
S25:如果当前场景是多人说话的混合声源场景,则根据目标用户的方位信息和声纹信息,在混合声源中识别出目标声源。
目标声源是指目标用户对应的声源。而同时其他人也可能在说话,从而可能处于多人说话的混合声源场景下。
参见图5,在混合声源中识别目标声源的流程可以具体包括:
S51:获取混合声源。
例如,对多人同时说话的语音数据进行采集,获取混合声源。
S52:采用听觉场景分析技术区分出每个声源。
听觉场景分析技术是能够对同时存在的多个声源进行区分,从而可以区分出单个声源。
S53:获取单个声源的声纹信息和方位信息,并与保存的目标用户的声纹信息和方位信息进行比对,确定出目标声源。
例如,通过声纹识别技术可以从单个声源的声源数据中获取对应的声纹信息,根据声源定位技术可以获取相应的方位信息。
在识别目标声源时,可以先根据目标用户的方位信息排除那些方位信息不匹配的声源,进一步的,在车载场景下,由于各用户之间的距离比较近,因此,还可以进一步在剩余的声源中确定与目标用户的声纹信息匹配一致的声源,得到目标声源。
S26:对目标声源中的语音信息进行语音识别,获取语音识别结果,根据语音识别结果进行操控。
其中,目标声源中的语音信息是目标用户产生的语音形式的目标指令,采用语音识别技术后,可以将语音信息识别为文本信息,之后可以根据文本信息进行相应的操控。例如,目标指令是查询某个目的地的路线,则进行相应的操控具体是查询到该目的地的路线,并将路线展示给用户。或者,目标指令是查询天气情况,则进行相应的操控具体是查询天气情况并将天气情况展示给用户。可以理解的是,在将查询结果展示给用户时,可以采用文本、语音或图像等形式。
本实施例中,可以在目标用户发出目标指令时,不需要其他人保持静默,是一种更加自然的车载交互方式,扩大语音交互的适用范围,提升用户体验。
图6是本发明另一实施例提出的语音交互系统的结构示意图,该系统30包括:获取模块31、识别模块32和操控模块33。
获取模块31,用于确定目标用户,并获取目标用户的用户信息;
可选的,所述获取模块31用于确定目标用户,包括:
将当前登录的用户确定为目标用户。
目标用户是指在需要语音交互时,发出目标指令的用户。例如,可以将当前登录语音交互系统的用户确定为目标用户,此时,如果需要更改目标用户,需要更换当前登录的用户。
可选的,所述获取模块31用于获取目标用户的用户信息,包括:
根据用户注册时保存的声纹信息,获取与当前登录的用户对应的声纹信息;和/或,
采集当前登录的用户的声音信息,并对所述声音信息进行声源定位处理,确定当前登录的用户的方位信息。
用户信息例如包括:声纹信息,和/或,方位信息。
其中,在用户注册时,语音交互系统可以采集并保存用户的声纹信息。相应的,在用户登录时可以采集当前登录用户的声纹信息,如果当前的声纹信息属于已保存的声纹信息,则允许用户登录,并将当前登录的用户确定为目标用户,由于用户登录时采集了声纹信息,因此可以获取到目标用户的声纹信息。
另外,语音交互系统根据声源定位技术可以确定当前登录用户发出的语音信息的方位,从而获取目标用户的方位信息。
识别模块32,用于在需要语音交互时,获取多人同时说话时的混合声源,以及,根据目标用户的用户信息,在所述混合声源中识别出目标声源;
可选的,所述识别模块32用于根据目标用户的用户信息,在所述混合声源中识别出目标声源,包括:
采用听觉场景分析技术,将所述混合声源区分为单个声源;
根据目标用户的用户信息,与单个声源的相应信息进行比对,识别出目标声源。
例如,目标用户需要对车载设备进行操控时,可以发出目标指令,而同时还可能存在其他人在说话,从而语音交互系统获取的声源不仅包括目标用户发出的声源,还包括其他人发出的声源。
为了准确获取目标指令,需要先从混合声源中识别出目标声源。本实施例中,根据目标用户的用户信息进行识别。
其中,当根据目标用户的声纹信息进行识别时,例如,可以分别提取混合声源中的每个声源的声音信息,再与预先获取的目标用户的声纹信息进行比对,获取与目标用户的声纹信息匹配一致的声源,将该匹配一致的声源确定为目标声源。
当根据目标用户的方位信息进行识别时,例如,可以采用声源定位技术分别确定混合声源中的每个声源的方位信息,再与预先获取的目标用户的方位信息进行比对,获取与目标用户的方位信息匹配一致的声源,将该匹配一致的声源确定为目标声源。
当根据目标用户的方位信息和声纹信息进行识别时,例如,先根据方位信息排除到部分的声源,在剩下的声源中再逐一比对声纹信息,从而确定出目标声源。
其中,在将混合声源区分为单个声源时,可以采用听觉场景分析技术。听觉场景分析技术是借鉴视觉场景分析技术产生的,可以对多个同时的语音信号进行区分。
可选的,所述识别模块32用于获取多人同时说话时的混合声源,包括:
采用降噪麦克风,获取多人同时说话时的混合声源。
例如,需要进行语音操控时,目标用户可以产生语音形式的目标指令,从而采集的语音信息包括目标用户的语音信息,另外,同时可能其他人也在说话,因此,采集的语音信息还可以包括其他人的语音信息,相应的,此时采集的语音信息是混合声源。
一些实施例中,为了提高有效语音信号的指令,可以采用降噪麦克风采集当前场景下的语音信息。降噪麦克风可以将一定噪声水平下的语音信号滤掉,以提高噪声门槛来防止噪声干扰。
操控模块33,用于对目标声源中的语音信息进行语音识别,得到语音识别结果,并将所述语音识别结果作为目标指令对交互设备进行操控。
在识别出目标声源后,可以对其采用语言识别技术,将目标声源中的声音数据转换为文字数据,将文字数据作为目标指令,之后可以根据目标指令进行操控,例如,目标指令是搜索某个目的地的路线,则可以给出到该目的地的路线图。
本实施例以车载控制为例,相应的,交互设备是车载设备。可以理解的是,本实施例也可以应用在其他场景,例如,应用在对智能家电的控制等场景。
一些实施例中,参见图7,该系统还可以包括:
唤醒模块64,用于接收唤醒指令,并根据唤醒指令激活语音交互系统,以便在激活后提供语音交互服务,其中,所述唤醒指令包括:语音形式的唤醒指令。
其中,唤醒指令可以是用户通过语音发送的,当然,唤醒指令也可以是用户通过按键产生的。
语音交互系统在接收到唤醒指令后可以被激活,在被激活后可以为用户提供语音交互服务。
本实施例中,通过根据目标用户的用户信息在混合声源中识别出目标声源,进而根据目标声源进行操作,可以在多人说话的场景下依然可以识别出目标声源,从而扩大语音系统的适用范围,提升用户体验。
需要说明的是,在本发明的描述中,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本发明的描述中,除非另有说明,“多个”的含义是指至少两个。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (9)

1.一种语音交互方法,其特征在于,包括:确定目标用户,并获取目标用户的用户信息;
在需要语音交互时,获取多人同时说话时的混合声源,以及,根据目标用户的用户信息,在所述混合声源中识别出目标声源;
对目标声源中的语音信息进行语音识别,得到语音识别结果,并将所述语音识别结果作为目标指令对交互设备进行操控;
所述用户信息包括:声纹信息和方位信息;
其中,当根据目标用户的方位信息和声纹信息进行识别时,先根据方位信息排除掉部分的声源,在剩下的声源中再逐一比对声纹信息,从而确定出目标声源;
所述确定目标用户,包括:
接收用户输入的预设语音指令;
根据预设语音指令进行声纹登录;
在声纹登录成功后,将当前登录的用户确定为目标用户;以及,对所述预设语音指令采用声源定位技术,确定出目标用户的方位信息;
其中,当前登录的用户为后续需要进行语音操控的用户,且在其他已登录用户退出后进行登录操作;
还包括:
接收唤醒指令,并根据唤醒指令激活语音交互系统,以便在激活后提供语音交互服务,其中,所述唤醒指令包括:语音形式的唤醒指令。
2.根据权利要求1所述的方法,其特征在于,所述获取目标用户的用户信息,包括:
根据用户注册时保存的声纹信息,获取与当前登录的用户对应的声纹信息;和/或,
采集当前登录的用户的声音信息,并对所述声音信息进行声源定位处理,确定当前登录的用户的方位信息。
3.根据权利要求1-2任一项所述的方法,其特征在于,所述根据目标用户的用户信息,在所述混合声源中识别出目标声源,包括:
采用听觉场景分析技术,将所述混合声源区分为单个声源;
根据目标用户的用户信息,与单个声源的相应信息进行比对,识别出目标声源。
4.根据权利要求1-2任一项所述的方法,其特征在于,所述获取多人同时说话时的混合声源,包括:
采用降噪麦克风,获取多人同时说话时的混合声源。
5.根据权利要求1-2任一项所述的方法,其特征在于,所述交互设备包括:车载设备。
6.一种语音交互系统,其特征在于,包括:
获取模块,用于确定目标用户,并获取目标用户的用户信息;
识别模块,用于在需要语音交互时,获取多人同时说话时的混合声源,以及,根据目标用户的用户信息,在所述混合声源中识别出目标声源;
操控模块,用于对目标声源中的语音信息进行语音识别,得到语音识别结果,并将所述语音识别结果作为目标指令对交互设备进行操控;
所述用户信息包括:声纹信息和方位信息;
其中,当根据目标用户的方位信息和声纹信息进行识别时,先根据方位信息排除掉部分的声源,在剩下的声源中再逐一比对声纹信息,从而确定出目标声源;
所述获取模块用于确定目标用户,包括:
接收用户输入的预设语音指令;
根据预设语音指令进行声纹登录;
在声纹登录成功后,将当前登录的用户确定为目标用户;以及,对所述预设语音指令采用声源定位技术,确定出目标用户的方位信息;
其中,当前登录的用户为后续需要进行语音操控的用户,且在其他已登录用户退出后进行登录操作;
还包括:
唤醒模块,用于接收唤醒指令,并根据唤醒指令激活语音交互系统,以便在激活后提供语音交互服务,其中,所述唤醒指令包括:语音形式的唤醒指令。
7.根据权利要求6所述的系统,其特征在于,所述获取模块用于获取目标用户的用户信息,包括:
根据用户注册时保存的声纹信息,获取与当前登录的用户对应的声纹信息;和/或,
采集当前登录的用户的声音信息,并对所述声音信息进行声源定位处理,确定当前登录的用户的方位信息。
8.根据权利要求6-7任一项所述的系统,其特征在于,所述识别模块用于根据目标用户的用户信息,在所述混合声源中识别出目标声源,包括:
采用听觉场景分析技术,将所述混合声源区分为单个声源;
根据目标用户的用户信息,与单个声源的相应信息进行比对,识别出目标声源。
9.根据权利要求6-7任一项所述的系统,其特征在于,所述识别模块用于获取多人同时说话时的混合声源,包括:
采用降噪麦克风,获取多人同时说话时的混合声源。
CN201510574318.5A 2015-09-10 2015-09-10 语音交互方法和系统 Active CN105280183B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510574318.5A CN105280183B (zh) 2015-09-10 2015-09-10 语音交互方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510574318.5A CN105280183B (zh) 2015-09-10 2015-09-10 语音交互方法和系统

Publications (2)

Publication Number Publication Date
CN105280183A CN105280183A (zh) 2016-01-27
CN105280183B true CN105280183B (zh) 2017-06-20

Family

ID=55149075

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510574318.5A Active CN105280183B (zh) 2015-09-10 2015-09-10 语音交互方法和系统

Country Status (1)

Country Link
CN (1) CN105280183B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108597536A (zh) * 2018-03-20 2018-09-28 成都星环科技有限公司 一种基于声音信息定位的交互系统

Families Citing this family (42)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105957535A (zh) * 2016-04-15 2016-09-21 青岛克路德机器人有限公司 机器人语音信号探测识别系统
CN105976815A (zh) * 2016-04-22 2016-09-28 乐视控股(北京)有限公司 车载语音识别方法及装置
CN105810196B (zh) * 2016-06-02 2020-01-31 佛山市顺德区美的电热电器制造有限公司 烹饪器具的语音控制方法、语音控制装置和烹饪器具
CN107622650A (zh) * 2016-07-15 2018-01-23 王勇 语音交互无线路由机器人
CN106782563B (zh) * 2016-12-28 2020-06-02 上海百芝龙网络科技有限公司 一种智能家居语音交互系统
CN108363706B (zh) * 2017-01-25 2023-07-18 北京搜狗科技发展有限公司 人机对话交互的方法和装置、用于人机对话交互的装置
CN106782585B (zh) * 2017-01-26 2020-03-20 芋头科技(杭州)有限公司 一种基于麦克风阵列的拾音方法及系统
CN108630193B (zh) * 2017-03-21 2020-10-02 北京嘀嘀无限科技发展有限公司 语音识别方法及装置
CN107600075A (zh) * 2017-08-23 2018-01-19 深圳市沃特沃德股份有限公司 车载系统的控制方法和装置
CN109493871A (zh) * 2017-09-11 2019-03-19 上海博泰悦臻网络技术服务有限公司 车载系统的多屏语音交互方法及装置、存储介质和车机
CN108305615B (zh) * 2017-10-23 2020-06-16 腾讯科技(深圳)有限公司 一种对象识别方法及其设备、存储介质、终端
CN108172219B (zh) * 2017-11-14 2021-02-26 珠海格力电器股份有限公司 识别语音的方法和装置
CN107993666B (zh) * 2017-12-19 2021-01-29 北京华夏电通科技股份有限公司 语音识别方法、装置、计算机设备及可读存储介质
CN108053828A (zh) * 2017-12-25 2018-05-18 无锡小天鹅股份有限公司 确定控制指令的方法、装置和家用电器
CN108597508B (zh) * 2018-03-28 2021-01-22 京东方科技集团股份有限公司 用户识别方法、用户识别装置和电子设备
WO2019183904A1 (zh) * 2018-03-29 2019-10-03 华为技术有限公司 自动识别音频中不同人声的方法
CN108564943B (zh) * 2018-04-27 2021-02-12 京东方科技集团股份有限公司 语音交互方法及系统
CN108962237B (zh) 2018-05-24 2020-12-04 腾讯科技(深圳)有限公司 混合语音识别方法、装置及计算机可读存储介质
CN108847225B (zh) * 2018-06-04 2021-01-12 上海智蕙林医疗科技有限公司 一种机场多人语音服务的机器人及其方法
CN110838211A (zh) * 2018-08-14 2020-02-25 阿里巴巴集团控股有限公司 语音抢答方法、装置和系统
CN110875053A (zh) * 2018-08-29 2020-03-10 阿里巴巴集团控股有限公司 语音处理的方法、装置、系统、设备和介质
CN109192203B (zh) * 2018-09-29 2021-08-10 百度在线网络技术(北京)有限公司 多音区语音识别方法、装置及存储介质
CN109389978B (zh) * 2018-11-05 2020-11-03 珠海格力电器股份有限公司 一种语音识别方法及装置
CN111292732B (zh) * 2018-12-06 2023-07-21 深圳市广和通无线股份有限公司 音频信息处理方法、装置、计算机设备和存储介质
CN111354369A (zh) * 2018-12-21 2020-06-30 珠海格力电器股份有限公司 一种语音采集方法及系统
CN113782019A (zh) * 2019-03-11 2021-12-10 百度国际科技(深圳)有限公司 语音识别方法、装置、设备和存储介质
CN111724793A (zh) * 2019-03-18 2020-09-29 上海汽车集团股份有限公司 一种车载视频通话方法与系统
CN110324157A (zh) * 2019-08-08 2019-10-11 北京佑仁天下网络科技有限公司 一种多人语音聊天系统
CN110335607B (zh) * 2019-08-19 2021-07-27 北京安云世纪科技有限公司 一种语音指令的执行方法、装置及电子设备
CN112420063A (zh) * 2019-08-21 2021-02-26 华为技术有限公司 一种语音增强方法和装置
CN110942779A (zh) * 2019-11-13 2020-03-31 苏宁云计算有限公司 一种噪声处理方法、装置、系统
CN110992972B (zh) * 2019-11-20 2023-11-14 佳禾智能科技股份有限公司 基于多麦克风耳机的声源降噪方法、电子设备、计算机可读存储介质
CN111103807A (zh) * 2019-12-17 2020-05-05 青岛海信智慧家居系统股份有限公司 一种家用终端设备的控制方法及装置
CN113066504A (zh) * 2019-12-31 2021-07-02 上海汽车集团股份有限公司 音频传输方法、装置及计算机存储介质
CN113141285B (zh) * 2020-01-19 2022-04-29 海信集团有限公司 一种沉浸式语音交互方法及系统
CN113556499B (zh) * 2020-04-07 2023-05-09 上海汽车集团股份有限公司 一种车载视频通话方法及车载系统
CN113470634B (zh) * 2020-04-28 2024-05-17 海信集团有限公司 语音交互设备的控制方法、服务器及语音交互设备
CN112655000B (zh) * 2020-04-30 2022-10-25 华为技术有限公司 车内用户定位方法、车载交互方法、车载装置及车辆
CN113223497A (zh) * 2020-12-10 2021-08-06 上海雷盎云智能技术有限公司 智能语音识别处理方法及系统
CN112750455A (zh) * 2020-12-29 2021-05-04 苏州思必驰信息科技有限公司 音频处理方法及装置
CN113192515A (zh) * 2021-05-25 2021-07-30 北京声智科技有限公司 音频信息的识别方法、装置及耳机
CN116229987B (zh) * 2022-12-13 2023-11-21 广东保伦电子股份有限公司 一种校园语音识别的方法、装置及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009210956A (ja) * 2008-03-06 2009-09-17 National Institute Of Advanced Industrial & Technology 操作方法およびそのための操作装置、プログラム
CN101740028A (zh) * 2009-11-20 2010-06-16 四川长虹电器股份有限公司 家电产品语音控制系统
CN103259906A (zh) * 2012-02-15 2013-08-21 宇龙计算机通信科技(深圳)有限公司 语音通话的处理方法及终端
CN103295572A (zh) * 2012-08-13 2013-09-11 深圳市路畅科技股份有限公司 一种语音识别方法及具有语音识别的车载多媒体导航仪系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009210956A (ja) * 2008-03-06 2009-09-17 National Institute Of Advanced Industrial & Technology 操作方法およびそのための操作装置、プログラム
CN101740028A (zh) * 2009-11-20 2010-06-16 四川长虹电器股份有限公司 家电产品语音控制系统
CN103259906A (zh) * 2012-02-15 2013-08-21 宇龙计算机通信科技(深圳)有限公司 语音通话的处理方法及终端
CN103295572A (zh) * 2012-08-13 2013-09-11 深圳市路畅科技股份有限公司 一种语音识别方法及具有语音识别的车载多媒体导航仪系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108597536A (zh) * 2018-03-20 2018-09-28 成都星环科技有限公司 一种基于声音信息定位的交互系统

Also Published As

Publication number Publication date
CN105280183A (zh) 2016-01-27

Similar Documents

Publication Publication Date Title
CN105280183B (zh) 语音交互方法和系统
KR102371697B1 (ko) 음성 기능 운용 방법 및 이를 지원하는 전자 장치
JP6857699B2 (ja) 音声対話設備のウェイクアップ方法、装置、設備、記憶媒体、及びプログラム
CN105096941B (zh) 语音识别方法以及装置
CN107945792B (zh) 语音处理方法和装置
US11037574B2 (en) Speaker recognition and speaker change detection
CN110047481B (zh) 用于语音识别的方法和装置
US20150302847A1 (en) Keyword model generation for detecting user-defined keyword
CN1920946A (zh) 汽车接口
US9881609B2 (en) Gesture-based cues for an automatic speech recognition system
CN113841195A (zh) 联合端点确定和自动语音识别
US20160111090A1 (en) Hybridized automatic speech recognition
CN102693725A (zh) 依赖于文本信息语境的语音识别
CN106782615A (zh) 语音数据情感检测方法和装置及系统
KR20200057516A (ko) 음성명령 처리 시스템 및 방법
US11200903B2 (en) Systems and methods for speaker verification using summarized extracted features
CN104103271B (zh) 用于适配语音识别声学模型的方法和系统
US7650281B1 (en) Method of comparing voice signals that reduces false alarms
CN106887231A (zh) 一种识别模型更新方法及系统以及智能终端
US7505909B2 (en) Device control device and device control method
CN109791764A (zh) 基于话音的通信
CN105161112B (zh) 语音识别方法和装置
KR102417899B1 (ko) 차량의 음성인식 시스템 및 방법
CN109410946A (zh) 一种识别语音信号的方法、装置、设备及存储介质
US20230206924A1 (en) Voice wakeup method and voice wakeup device

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant