CN107424611A - 语音交互方法及装置 - Google Patents
语音交互方法及装置 Download PDFInfo
- Publication number
- CN107424611A CN107424611A CN201710550258.2A CN201710550258A CN107424611A CN 107424611 A CN107424611 A CN 107424611A CN 201710550258 A CN201710550258 A CN 201710550258A CN 107424611 A CN107424611 A CN 107424611A
- Authority
- CN
- China
- Prior art keywords
- identification information
- speech data
- mic
- service end
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 33
- 230000002452 interceptive effect Effects 0.000 title claims abstract description 32
- 238000004458 analytical method Methods 0.000 claims abstract description 21
- 230000003993 interaction Effects 0.000 claims description 27
- 238000012545 processing Methods 0.000 claims description 11
- 235000013399 edible fruits Nutrition 0.000 claims description 5
- 241001269238 Data Species 0.000 description 13
- 238000005516 engineering process Methods 0.000 description 9
- 238000003860 storage Methods 0.000 description 8
- 230000000694 effects Effects 0.000 description 7
- 230000005540 biological transmission Effects 0.000 description 5
- 238000012216 screening Methods 0.000 description 5
- 238000003491 array Methods 0.000 description 4
- 230000008878 coupling Effects 0.000 description 4
- 238000010168 coupling process Methods 0.000 description 4
- 238000005859 coupling reaction Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000000739 chaotic effect Effects 0.000 description 2
- 230000005611 electricity Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 102100026436 Regulator of MON1-CCZ1 complex Human genes 0.000 description 1
- 101710180672 Regulator of MON1-CCZ1 complex Proteins 0.000 description 1
- 241000209140 Triticum Species 0.000 description 1
- 235000021307 Triticum Nutrition 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 230000007717 exclusion Effects 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明公开了一种语音交互方法及装置,该方法包括:确定多个麦克风Mic采集的至少一条语音数据;将所述至少一条语音数据发送至服务端;接收所述服务端发送的每一条识别信息以及其对应的反馈结果;对所述每一条识别信息进行语义分析,以获得所述每一条识别信息的语义识别分数;确定语义识别分数最高的任一条识别信息对应的反馈结果作为输出数据;输出所述输出数据。本发明实施例提高了语音交互的准确度。
Description
技术领域
本发明属于智能交互领域,具体地说,涉及一种语音交互方法及装置。
背景技术
随着电子技术以及智能技术的发展,很多电子设备可以通过语音识别技术实现语音交互以及语音查找等操作,通常是将采集的用户输入的语音数据,发送至服务端进行语音识别,获取语音识别信息以及确定出反馈结果,将所述反馈结果作为输出数据返回至电子设备以输出。
为了实现语音数据的采集,目前很多电子设备通常采用多个Mic(Microphone,麦克风)构成的Mic阵列进行采集,之后从多个Mic采集的多方位的语音数据中,根据信噪比确定一个方位的Mic采集的语音数据作为用户语音输入的语音数据,将该语音数据作为输入数据,在发送至服务端进行识别。
但是,这种多个Mic同时都有声音输入造成信噪比相似而很难确定用户语音输入的语音数据,导致输入数据选择错误,因此,也无法输出正确的输出数据,造成语音交互的准确度不高。
发明内容
有鉴于此,本发明主要提供了一种语音交互方法及装置,主要为了解决在电子设备中安装有多个麦克风采集的语音数据不准确,进而获得的交互信息不够准确的技术问题。
为了解决上述技术问题,本发明的第一方面提供一种语音交互方法,所述方法包括:
确定多个麦克风Mic采集的至少一条语音数据;
将所述至少一条语音数据发送至服务端,以供所述服务端对每一条语音数据进行语音识别,获得每一条识别信息以及其对应的反馈结果;
接收所述服务端发送的每一条识别信息以及其对应的反馈结果;
对所述每一条识别信息进行语义分析,以获得所述每一条识别信息的语义识别分数;
确定语义识别分数最高的任一条识别信息对应的反馈结果作为输出数据;
输出所述输出数据。
优选地,所述将所述至少一条语音数据发送至服务端包括:
将所述至少一条语音数据以及各自的Mic标签发送至服务端,以供所述服务端基于所述至少一条语音数据对应的Mic标签区分每一条语音数据。
优选地,所述输出所述输出数据之后,还包括:
针对所述任一条识别信息对应的Mic标签,输出提示信息,所述提示信息用于提示用户所述Mic标签对应的Mic。
优选地,所述将所述至少一条语音数据发送至服务端包括:
将所述至少一条语音数据以及各自的Mic标签对应打包至语音数据包;
将所述语音数据包发送至服务端,以使服务端获得所述至少一条语音数据包以及其各自对应的Mic标签,对所述每一条语音数据识别获得每一条识别信息以及其对应的反馈结果,并利用所述每一条语音数据对应的Mic标签区分每一条识别信息以及其对应的反馈结果。
优选地,所述对所述每一条识别信息进行语义分析,以获得所述每一条识别信息的语义识别分数包括:
将所述每一条识别信息发送至第三方系统,以供所述第三方系统对所述每一条识别信息进行语义分析,以获得所述每一条语音信息的语义识别分数。
本发明的第二方面提供一种语音交互方法,所述方法包括
接收所述至少一条语音数据;
对所述至少一条语音数据进行语音识别,以获得每一条识别信息以及其对应的反馈结果;
发送所述每一条识别信息以及其对应的反馈结果至电子设备,以供电子设备对所述每一条识别信息进行语义分析,以获得所述每一条识别信息的语义识别分数,并将语义识别分数最高的任一条识别信息对应的反馈结果作为输出数据进行输出。
优选地,所述发送所述每一条识别信息以及其对应的反馈结果至处理端包括:
判断所述每一条识别信息接收到反馈信息时,发送所述每一条识别信息以及其对应的反馈结果至处理端。
本发明的第三方面提供一种语音交互装置,所述装置包括:
第一确定模块,用于确定多个Mic采集的至少一条语音数据;
第一发送模块,用于将所述至少一条语音数据发送至服务端,以供所述服务端对每一条语音数据进行语音识别,获得每一条识别信息以及其对应的反馈结果;
第一接收模块,用于接收所述服务端发送的每一条识别信息以及其对应的反馈结果;
语义分析模块,用于对所述每一条识别信息进行语义分析,以获得所述每一条识别信息的语义识别分数;
第二确定模块,用于确定语义识别分数最高的任一条识别信息对应的反馈结果作为输出数据;
第一输出模块,用于输出所述输出数据。
本发明的第四方面提供一种语音交互装置,所述装置包括
第二接收模块,用于接收所述至少一条语音数据;
数据识别模块,用于对所述至少一条语音数据进行语音识别,以获得每一条识别信息以及其对应的反馈结果;
第二发送模块,用于发送所述每一条识别信息以及其对应的反馈结果至电子设备,以供电子设备对所述每一条识别信息进行语义分析,以获得所述每一条识别信息的语义识别分数,并将语义识别分数最高的任一条识别信息对应的反馈结果作为输出数据进行输出。
优选地,所述第二发送模块包括:
第三发送单元,用于判断所述每一条识别信息接收到反馈信息时,发送所述每一条识别信息以及其对应的反馈结果至处理端。
本发明中,将多个Mic设备采集的至少一条语音数据均发送至服务端,处理器不再筛选语音数据。服务端可以识别所有语音数据,并将获得每一条识别信息以及与其对应的反馈信息返回至Mic所在电子设备。Mic所在电子设备可以接收所述每一条识别信息以及其对应的反馈结果,并根据所述每一条语音信息的语义识别分数,确定语义识别分数最高的任一条识别信息,之后将所述任一条识别信息的反馈信息作为输出数据进行数据。语义识别分数体现了每一条语音数据的交互性,当其最高时,体现出所述每一条语音数据交互性最高,最有可能是用户发出的交互请求,其对应的反馈数据则是与所述交互请求对应的输出数据,输出时可以达到交互准确度提高的效果。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本发明的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是本发明实施例的一种语音交互方法的一个实施例的流程图;
图2是本发明实施例的一个4Mic阵列的示意图;
图3是本发明实施例的一种语音交互方法的又一个实施例的流程图;
图4是本发明实施例的一个语音数据包的结构示意图;
图5是本发明实施例的一种语音交互方法的再一个实施例的流程图;
图6是本发明实施例的一种语音交互装置的一个实施例的结构示意图;
图7是本发明实施例的一种语音交互装置的又一个实施例的结构示意图。
具体实施方式
以下将配合附图及实施例来详细说明本发明的实施方式,藉此对本发明如何应用技术手段来解决技术问题并达成技术功效的实现过程能充分理解并据以实施。
本发明实施例主要应用于存在多个Mic设备的电子设备中,主要用于解决现有电子设备语音交互不准确的问题。
现有技术中,电子设备中的多个Mic设备在采集了语音数据后,将语音数据在处理端进行筛选,通常情况下,可以确定每一个Mic采集的语音数据的信噪比,并将信噪比较高的语音数据作为输入数据发送至服务端识别。在服务端识别得到该输入数据的反馈信息后,即将该反馈信息作为与所述输入数据对应的输出数据输出。
但是,发明人在研究过程中发现,当多个Mic设备采集的语音数据的信噪比相似时,通过信噪比筛选的语音数据并不准确,进而根据该语音数据识别的反馈信息输出时,并不符合用户的交互意图,造成语音交互的准确度不高。因此,发明人想到是否可以将所有Mic采集的语音数据均发送至服务端进行识别,在识别完毕后,再根据识别的每一条语音数据的识别信息的语义来确定最佳的反馈信息,作为输出数据。据此,发明人提出了本发明的技术方案。
本发明实施例中,在确定了多个Mic采集的至少一条语音数据之后,将所述至少一条语音数据发送至服务端识别。服务端识别获得每一条语音数据的识别信息以及对应的反馈结果后,将二者发送至电子设备的处理器。电子设备的处理器可以接收每一条识别信息以及对应的反馈结果,并确定每一条识别信息对应的语义识别分数,将语义识别分数最高的任一条识别信息以及其对应的反馈结果作为输出数据输出。将多个Mic确定的所有语音数据均发送至服务端进行识别,可以避免因进行筛选而错漏正确的用户请求交互的语音数据;获取语义识别分数最高的识别信息,可以确定与用户交互请求最匹配的一条识别信息;将其对应的反馈信息进行输出时,即输出了最有可能是用户请求交互的语音数据对应的反馈信息,以获得较高的交互准确度。
下面将结合附图对本发明实施例进行详细描述。
如图1所示,为本发明实施例提供的一种语音交互方法的一个实施例的流程图,该方法主要包括以下几个步骤:
101:确定多个麦克风Mic采集的至少一条语音数据。
许多电子设备中可以通过语音识别技术实现语音交互以及语音查找等操作,例如,智能电视中可以安装有智能音箱,智能音箱可以采集用户发出的影音查找请求的语音数据,并可以获取网络端查找与该影音查找请求对应的影音信息。
通常情况下,为了采集到准确的语音数据,电子设备中可以安装有多个Mic(Microphone,麦克风),所述多个Mic设备可以分别采集来自不同位置的多个用户发出的至少一个语音数据。
可选地,所述多个Mic可以以圆形Mic阵列的形式排列,图2中的4Mic阵列201中包含4个Mic,分别为Mic1-202、Mic2-203、Mic3-204、Mic4-205。所述Mic阵列采集语音数据时,可以采集距离其最近的用户发出的语音数据,也可以采集声音最大的语音数据。
可选地,每一个Mic都可以有相应的Mic标签,所述Mic标签可以包含Mic所在的Mic阵列中的位置信息。每一个Mic有相应的Mic标签时,可以将每一个Mic采集的语音数据与其Mic标签对应。
102:将所述至少一条语音数据发送至服务端,以供所述服务端对每一条语音数据进行语音识别,获得每一条识别信息以及其对应的反馈结果。
可选地,所述至少一条语音数据发送至服务端,可以是指将所有的语音数据发送至服务端。服务端接收所有的语音数据,可以将所有的语音数据进行识别,获取每一条识别信息。
可选地,服务端将所述至少一条语音数据进行识别,可以获得每一条语音数据对应的识别信息。根据所述每一条识别信息在网络中进行查找,获取与所述每一条识别信息对应的反馈结果。
可选地,将所述至少一条语音数据发送至服务端时,可以将所述至少一条语音数据对应的Mic标签同时发送至服务端,以使服务端可以将所述至少一条语音数据使用对应的Mic标签进行标记,避免后续的得到反馈结果时,出现顺序混乱。
服务端识别所述至少一条语音数据时,可以分别识别每一条语音数据。每一条语音数据识别时,均可以开启相应的线程来识别每一条语音数据,也即,服务端每获取一条语音数据时,即可以开始一个线程来对该条语音数据进行识别。
103:接收所述服务端发送的每一条识别信息以及其对应的反馈结果。
服务端对每一条语音数据识别获得每一条识别信息后,可以根据所述识别信息进行查找以获取相应的反馈信息。之后,服务端可以将每一条识别信息以及其对应的反馈信息发送至相应的电子设备。
服务端对根据每一条识别信息进行查找时,可以确定与该识别信息匹配的反馈信息,以实现语音交互。例如,当所述识别信息为“青岛今天天气好不好”时,其反馈信息可以为“好,适合户外活动”或者“不好,建议室内活动”。
104:对所述每一条识别信息进行语义分析,以获得所述每一条识别信息的语义识别分数。
将所述每一条识别信息进行语义识别,可以确定出每一条识别信息的语义识别分数。
可选地,将所述每一条识别信息进行语义识别时,可以预先建立一个语义识别库,所述语义识别库中包含大量的语义信息;并将所述每一条识别信息作为查找基础,输入所述语义识别库。可以将所述识别信息与所述语义信息进行匹配,根据匹配程度确定所述每一条识别信息的语义识别分数。所述至少一条识别信息可以确定出相应的语义识别分数,其语义识别分数存在差异。
可选地,所述语义识别库中可以包含不同的中心词,根据所述中心词的含义不同,可以为所述中心词设置不同的权重,当将所述每一条识别信息作为查找基础输入所述语义识别库时,可以是先识别所述每一条识别信息的核心词汇,将所述核心词汇与所述中心词进行匹配,并在获得匹配的中心词时,根据匹配的中心词的权重计算所述每一条识别信息的语义识别分数。
可选地,所述语义识别库可以存储于所述电子设备中,可以实现在电子设备中离线查找,迅速获得识别结果。
105:确定语义识别分数最高的任一条识别信息对应的反馈结果作为输出数据。
所述语义识别分数用于确定所述每一条识别信息与用户发出的交互请求的匹配程度,所述语义识别分数越高时,识别信息与用户发出的交互请求的匹配程度越高,该条识别信息与用户的交互请求最接近。
例如,以上述图2所示的环形4Mic为例,用户发出的语音是“青岛今天的天气好不好”,Mic1采集的语音数据识别后获得的识别信息为“青岛今天天气好”,其语义识别分数为91;Mic2采集的语音数据识别后获得的识别信息为“青岛今天天气不好”,其语义识别分数为92;Mic3采集的语音数据识别后获得的识别信息为“青岛天气好不好”,其语义识别分数为95;Mic4采集的语音数据识别后获得的识别信息为“青岛天气”,其语义识别分数为80。以上4个Mic采集的语音数据识别后获得的识别信息的语音识别分数最高为95,则将该语音识别信息对应的反馈结果作为输出数据。
106:输出所述输出数据。
可选地,输出所述输出数据时,可以将所述反馈结果对应的Mic标签信息同时输出。
所述输出数据为反馈结果,所述反馈结果可以是语音、视频、网页等不同类型的信息。当反馈结果为语音时,可以使用扬声器输出所述输出数据;当所述反馈结果为视频时,可以使用屏幕以及扬声器输出所述输出数据;当所述反馈结果为网页时,可以使用屏幕输出所述输出数据。
本发明实施例中,将所述至少一条语音数据均发送至服务端进行识别,可以将所有的语音数据进行语音识别处理,可以获得相应的所述至少一条语音数据对应的识别信息,以及其对应的反馈信息,可以避免因筛选而造成语音数据的错漏。将每一条识别信息的语义识别分数作为筛选输出数据的基准,可以筛选出最有可能是用户交互请求的一条识别语音,确定出相应的与用户交互请求最匹配的反馈数据作为输出数据进行输出,进而可以提高语音交互的准确度。
如图3所示,为本发明实施例提供的一种语音交互方法的又一个实施例的流程图,该方法包括以下几个步骤:
301:确定多个Mic采集的至少一条语音数据。
302:将所述至少一条语音数据以及各自的Mic标签发送至服务端,以供所述服务端基于所述至少一条语音数据对应的Mic标签区分每一条语音数据,对每一条语音数据进行语音识别,获得每一条识别信息以及其对应的反馈结果,并利用所述每一条语音数据对应的Mic标签区分每一条识别信息以及其对应的反馈结果。
可选地,所述将所述至少一条语音数据发送至服务端可以包括:
将所述至少一条语音数据以及各自的Mic标签对应打包至语音数据包。
将所述语音数据包发送至服务端,以使服务端获得所述至少一条语音数据包以及其各自对应的Mic标签,对所述每一条语音数据识别获得每一条识别信息以及其对应的反馈结果,并利用所述每一条语音数据对应的Mic标签区分每一条识别信息以及其对应的反馈结果。
可选地,可以将同一时间采集的至少一个语音数据同时打包。
所述语音数据包中还可以包括采集时间、采样频率等采样信息,具体地,可以将所述采样信息作为所述语音数据包的数据头,将所述至少一条语音数据连接构成所述语音数据的数据体。
可选地,所述Mic包含有Mic标签时,将所述至少一条语音数据打包时,可以将采集每一条语音数据的Mic设备的Mic标签同时打包,用以区别不同的语音数据,可以避免后续识别获得反馈信息时,接收的反馈信息可以根据Mic标签进行区分。图4中的语音数据包401中即可以包含数据头402,Mic设备的Mic标签403以及与该Mic标签对应的语音数据404。
将所述至少一条语音数据发送至服务端时,可以将所有的语音数据打包到同一个语音数据包中,可以将同一个时间点采集的语音数据同时发送、同时处理,保障了交互的实时性。
303:接收所述服务端发送的每一条识别信息以及其对应的反馈结果。
可选地,所述接收所述服务端发送的每一条识别信息以及其对应的反馈结果可以包括:
接收所述服务端发送的每一条识别信息以及其对应的反馈结果,并利用每一条语音数据对应的Mic标签区分每一条识别信息以及其对应的反馈结果。
304:对所述每一条识别信息进行语义分析,以获得所述每一条识别信息的语义识别分数。
305:确定语义识别分数最高的任一条识别信息对应的反馈结果作为输出数据。
306:输出所述输出数据。
可选地,所述输出所述输出数据之后,所述方法还可以包括:
针对所述任一条识别信息对应的Mic标签,输出提示信息,所述提示信息用于提示用户所述Mic标签对应的Mic。
本发明实施例中,引入了多个Mic设备的方位信息,在获取多个Mic采集的至少一条语音数据之后,可以将多个Mic设备的方位信息以及其采集的方位信息进行对应关联,确定多个Mic风采集的所述至少一条语音数据以及其对应的方位信息,并在服务端识别后,可以将反馈信息与识别的方位信息同时作为输出数据进行输出,可以确定所述多个Mic的采集方位,可以提示用户输出Mic的采集方位,使得输出结果更明确,得到更高的交互准确度。
作为一个实施例,所述对所述每一条识别信息进行语义分析,以获得所述每一条识别信息的语义识别分数包括:
将所述每一条识别信息发送至第三方系统,以供所述第三方系统对所述每一条识别信息进行语义分析,以获得所述每一条语音信息的语义识别分数。
本发明实施例中,在识别每一条识别信息的语义识别分数时,可以在云端进行识别,可以确保识别率更高,可以确保获取更高的语音交互效率。
如图5所示,为本发明实施例提供的一种语音交互方法的一个实施例的流程图,该方法可以包括以下几个步骤:
501:接收所述至少一条语音数据。
502:对所述至少一条语音数据进行语音识别,以获得每一条识别信息以及其对应的反馈结果。
503:发送所述每一条识别信息以及其对应的反馈结果至电子设备,以供电子设备对所述每一条识别信息进行语义分析,以获得所述每一条识别信息的语义识别分数,并将语义识别分数最高的任一条识别信息对应的反馈结果作为输出数据进行输出。
可选地,所述发送所述每一条识别信息以及其对应的反馈结果至处理端可以包括:
判断所述每一条识别信息接收到反馈信息时,发送所述每一条识别信息以及其对应的反馈结果至处理端。
在识别所述至少一条语音数据获得识别信息之后,可以将所述语音数据的识别信息进行筛选,当所述识别信息未获得反馈信息时,可以将该条识别信息删除,以确保识别信息的有效性,可以提高语音交互的识别效率。
可选地,所述服务端还可以接收所述至少一条语音数据以及各自的Mic标签,并基于所述至少一条语音数据对应的Mic标签区分每一条语音数据。
可选地,所述服务端识别每一条语音数据获得识别信息之后,可以确定所述任一条识别信息对应的Mic标签。
本发明实施例中,服务端接收到所述至少一条语音数据之后可以将所述语音数据进行识别,可以确保获得所有语音数据的反馈信息,能够保障语音交互的准确度。
如图6所示,为本发明实施例提供的一种语音交互装置的一个实施例的结构示意图,该装置主要包括以下几个模块:
第一确定模块601:用于确定多个Mic采集的至少一条语音数据。
许多电子设备中可以通过语音识别技术实现语音交互以及语音查找等操作,例如,智能电视中可以安装有智能音箱,智能音箱可以采集用户发出的影音查找请求的语音数据,并可以获取网络端查找与该影音查找请求对应的影音信息。
通常情况下,为了采集到准确的语音数据,电子设备中可以安装有多个Mic(Microphone,麦克风),所述多个Mic设备可以分别采集来自不同位置的多个用户发出的至少一个语音数据。
可选地,所述多个Mic可以以圆形Mic阵列的形式排列。
可选地,每一个Mic都可以有相应的Mic标签,所述Mic标签可以包含Mic所在的Mic阵列中的位置信息。每一个Mic有相应的Mic标签时,可以将每一个Mic采集的语音数据与其Mic标签对应。
第一发送模块602:用于将所述至少一条语音数据发送至服务端,以供所述服务端对每一条语音数据进行语音识别,获得每一条识别信息以及其对应的反馈结果。
可选地,所述至少一条语音数据发送至服务端,可以是指将所有的语音数据发送至服务端。服务端接收所有的语音数据,可以将所有的语音数据进行识别,获取每一条识别信息。
可选地,服务端将所述至少一条语音数据进行识别,可以获得每一条语音数据对应的识别信息。根据所述每一条识别信息在网络中进行查找,获取与所述每一条识别信息对应的反馈结果。
可选地,将所述至少一条语音数据发送至服务端时,可以将所述至少一条语音数据对应的Mic标签同时发送至服务端,以使服务端可以将所述至少一条语音数据使用对应的Mic标签进行标记,避免后续的得到反馈结果时,出现顺序混乱。
服务端识别所述至少一条语音数据时,可以分别识别每一条语音数据。每一条语音数据识别时,均可以开启相应的线程来识别每一条语音数据,也即,服务端每获取一条语音数据时,即可以开始一个线程来对该条语音数据进行识别。
第一接收模块603:用于接收所述服务端发送的每一条识别信息以及其对应的反馈结果。
服务端对每一条语音数据识别获得每一条识别信息后,可以根据所述识别信息进行查找以获取相应的反馈信息。之后,服务端可以将每一条识别信息以及其对应的反馈信息发送至相应的电子设备。
服务端对根据每一条识别信息进行查找时,可以确定与该识别信息匹配的反馈信息,以实现语音交互。例如,当所述识别信息为“青岛今天天气好不好”时,其反馈信息可以为“好,适合户外活动”或者“不好,建议室内活动”。
语义分析模块604:用于对所述每一条识别信息进行语义分析,以获得所述每一条识别信息的语义识别分数。
将所述每一条识别信息进行语义识别,可以确定出每一条识别信息的语义识别分数。
可选地,将所述每一条识别信息进行语义识别时,可以预先建立一个语义识别库,所述语义识别库中包含大量的语义信息;并将所述每一条识别信息作为查找基础,输入所述语义识别库。可以将所述识别信息与所述语义信息进行匹配,根据匹配程度确定所述每一条识别信息的语义识别分数。所述至少一条识别信息可以确定出相应的语义识别分数,其语义识别分数存在差异。
可选地,所述语义识别库中可以包含不同的中心词,根据所述中心词的含义不同,可以为所述中心词设置不同的权重,当将所述每一条识别信息作为查找基础输入所述语义识别库时,可以是先识别所述每一条识别信息的核心词汇,将所述核心词汇与所述中心词进行匹配,并在获得匹配的中心词时,根据匹配的中心词的权重计算所述每一条识别信息的语义识别分数。
可选地,所述语义识别库可以存储于所述电子设备中,可以实现在电子设备中离线查找,迅速获得识别结果。
第二确定模块605:用于确定语义识别分数最高的任一条识别信息对应的反馈结果作为输出数据。
所述语义识别分数用于确定所述每一条识别信息与用户发出的交互请求的匹配程度,所述语义识别分数越高时,识别信息与用户发出的交互请求的匹配程度越高,该条识别信息与用户的交互请求最接近。
第一输出模块606:用于输出所述输出数据。
可选地,输出所述输出数据时,可以将所述反馈结果对应的Mic标签信息同时输出。
所述输出数据为反馈结果,所述反馈结果可以是语音、视频、网页等不同类型的信息。当反馈结果为语音时,可以使用扬声器输出所述输出数据;当所述反馈结果为视频时,可以使用屏幕以及扬声器输出所述输出数据;当所述反馈结果为网页时,可以使用屏幕输出所述输出数据。
本发明实施例中,将所述至少一条语音数据均发送至服务端进行识别,可以将所有的语音数据进行语音识别处理,可以获得相应的所述至少一条语音数据对应的识别信息,以及其对应的反馈信息,可以避免因筛选而造成语音数据的错漏。将每一条识别信息的语义识别分数作为筛选输出数据的基准,可以筛选出最有可能是用户交互请求的一条识别语音,确定出相应的与用户交互请求最匹配的反馈数据作为输出数据进行输出,进而可以提高语音交互的准确度。
作为一个实施例,所述第一发送模块可以包括:
第一发送单元,用于将所述至少一条语音数据以及各自的Mic标签发送至服务端,以供所述服务端基于所述至少一条语音数据对应的Mic标签区分每一条语音数据。
可选地,所述第一发送模块可以包括:
数据打包单元,用于将所述至少一条语音数据以及各自的Mic标签对应打包至语音数据包。
第二发送单元,用于将所述语音数据包发送至服务端,以使服务端获得所述至少一条语音数据包以及其各自对应的Mic标签,对所述每一条语音数据识别获得每一条识别信息以及其对应的反馈结果,并利用所述每一条语音数据对应的Mic标签区分每一条识别信息以及其对应的反馈结果。
可选地,可以将同一时间采集的至少一个语音数据同时打包。
所述语音数据包中还可以包括采集时间、采样频率等采样信息,具体地,可以将所述采样信息作为所述语音数据包的数据头,将所述至少一条语音数据连接构成所述语音数据的数据体。
可选地,所述Mic包含有Mic标签时,将所述至少一条语音数据打包时,可以将采集每一条语音数据的Mic设备的Mic标签同时打包,用以区别不同的语音数据,可以避免后续识别获得反馈信息时,接收的反馈信息可以根据Mic标签进行区分。
将所述至少一条语音数据发送至服务端时,可以将所有的语音数据打包到同一个语音数据包中,可以将同一个时间点采集的语音数据同时发送、同时处理,保障了交互的实时性。
可选地,所述第一接收模块具体可以用于:
接收所述服务端发送的每一条识别信息以及其对应的反馈结果,并利用每一条语音数据对应的Mic标签区分每一条识别信息以及其对应的反馈结果。
可选地,所述装置还可以包括:
第二输出模块,用于针对所述任一条识别信息对应的Mic标签,输出提示信息,所述提示信息用于提示用户所述Mic标签对应的Mic。
本发明实施例中,引入了多个Mic设备的方位信息,在获取多个Mic采集的至少一条语音数据之后,可以将多个Mic设备的方位信息以及其采集的方位信息进行对应关联,确定多个Mic风采集的所述至少一条语音数据以及其对应的方位信息,并在服务端识别后,可以将反馈信息与识别的方位信息同时作为输出数据进行输出,可以确定所述多个Mic的采集方位,可以提示用户输出Mic的采集方位,使得输出结果更明确,得到更高的交互准确度。
作为又一个实施例,所述语义分析模块可以包括:
第一分析单元,用于将所述每一条识别信息发送至第三方系统,以供所述第三方系统对所述每一条识别信息进行语义分析,以获得所述每一条语音信息的语义识别分数。
本发明实施例中,在识别每一条识别信息的语义识别分数时,可以在云端进行识别,可以确保识别率更高,可以确保获取更高的语音交互效率。
如图7所示,为本发明实施例提供的一种语音交互装置的一个实施例的结构流程图,该装置可以包括以下几个模块:
第二接收模块701:用于接收所述至少一条语音数据;
数据识别模块702:用于对所述至少一条语音数据进行语音识别,以获得每一条识别信息以及其对应的反馈结果;
第二发送模块703:用于发送所述每一条识别信息以及其对应的反馈结果至电子设备,以供电子设备对所述每一条识别信息进行语义分析,以获得所述每一条识别信息的语义识别分数,并将语义识别分数最高的任一条识别信息对应的反馈结果作为输出数据进行输出。
可选地,所述第二发送模块可以包括:
第三发送单元,用于判断所述每一条识别信息接收到反馈信息时,发送所述每一条识别信息以及其对应的反馈结果至处理端。
在识别所述至少一条语音数据获得识别信息之后,可以将所述语音数据的识别信息进行筛选,当所述识别信息未获得反馈信息时,可以将该条识别信息删除,以确保识别信息的有效性,可以提高语音交互的识别效率。
可选地,所述服务端还可以接收所述至少一条语音数据以及各自的Mic标签,并基于所述至少一条语音数据对应的Mic标签区分每一条语音数据。
可选地,所述服务端识别每一条语音数据获得识别信息之后,可以确定所述任一条识别信息对应的Mic标签。
本发明实施例中,服务端接收到所述至少一条语音数据之后可以将所述语音数据进行识别,可以确保获得所有语音数据的反馈信息,能够保障语音交互的准确度。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括非暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
如在说明书及权利要求当中使用了某些词汇来指称特定组件。本领域技术人员应可理解,硬件制造商可能会用不同名词来称呼同一个组件。本说明书及权利要求并不以名称的差异来作为区分组件的方式,而是以组件在功能上的差异来作为区分的准则。如在通篇说明书及权利要求当中所提及的“包含”为一开放式用语,故应解释成“包含但不限定于”。“大致”是指在可接收的误差范围内,本领域技术人员能够在一定误差范围内解决所述技术问题,基本达到所述技术效果。此外,“耦接”一词在此包含任何直接及间接的电性耦接手段。因此,若文中描述一第一装置耦接于一第二装置,则代表所述第一装置可直接电性耦接于所述第二装置,或通过其他装置或耦接手段间接地电性耦接至所述第二装置。说明书后续描述为实施本发明的较佳实施方式,然所述描述乃以说明本发明的一般原则为目的,并非用以限定本发明的范围。本发明的保护范围当视所附权利要求所界定者为准。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的商品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种商品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的商品或者系统中还存在另外的相同要素
上述说明示出并描述了本发明的若干优选实施例,但如前所述,应当理解本发明并非局限于本文所披露的形式,不应看作是对其他实施例的排除,而可用于各种其他组合、修改和环境,并能够在本文所述申请构想范围内,通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围,则都应在本发明所附权利要求的保护范围内。
Claims (10)
1.一种语音交互方法,其特征在于,包括:
确定多个麦克风Mic采集的至少一条语音数据;
将所述至少一条语音数据发送至服务端,以供所述服务端对每一条语音数据进行语音识别,获得每一条识别信息以及其对应的反馈结果;
接收所述服务端发送的每一条识别信息以及其对应的反馈结果;
对所述每一条识别信息进行语义分析,以获得所述每一条识别信息的语义识别分数;
确定语义识别分数最高的任一条识别信息对应的反馈结果作为输出数据;
输出所述输出数据。
2.根据权利要求1所述的方法,其特征在于,所述将所述至少一条语音数据发送至服务端包括:
将所述至少一条语音数据以及各自的Mic标签发送至服务端,以供所述服务端基于所述至少一条语音数据对应的Mic标签区分每一条语音数据。
3.根据权利要求2所述的方法,其特征在于,所述输出所述输出数据之后,还包括:
针对所述任一条识别信息对应的Mic标签,输出提示信息,所述提示信息用于提示用户所述Mic标签对应的Mic。
4.根据权利要求2所述的方法,其特征在于,所述将所述至少一条语音数据发送至服务端包括:
将所述至少一条语音数据以及各自的Mic标签对应打包至语音数据包;
将所述语音数据包发送至服务端,以使服务端获得所述至少一条语音数据包以及其各自对应的Mic标签,对所述每一条语音数据识别获得每一条识别信息以及其对应的反馈结果,并利用所述每一条语音数据对应的Mic标签区分每一条识别信息以及其对应的反馈结果。
5.根据权利要求1所述的方法,其特征在于,所述对所述每一条识别信息进行语义分析,以获得所述每一条识别信息的语义识别分数包括:
将所述每一条识别信息发送至第三方系统,以供所述第三方系统对所述每一条识别信息进行语义分析,以获得所述每一条语音信息的语义识别分数。
6.一种语音交互方法,其特征在于,包括
接收所述至少一条语音数据;
对所述至少一条语音数据进行语音识别,以获得每一条识别信息以及其对应的反馈结果;
发送所述每一条识别信息以及其对应的反馈结果至电子设备,以供电子设备对所述每一条识别信息进行语义分析,以获得所述每一条识别信息的语义识别分数,并将语义识别分数最高的任一条识别信息对应的反馈结果作为输出数据进行输出。
7.根据权利要求6所述的方法,其特征在于,所述发送所述每一条识别信息以及其对应的反馈结果至处理端包括:
判断所述每一条识别信息接收到反馈信息时,发送所述每一条识别信息以及其对应的反馈结果至处理端。
8.一种语音交互装置,其特征在于,包括:
第一确定模块,用于确定多个Mic采集的至少一条语音数据;
第一发送模块,用于将所述至少一条语音数据发送至服务端,以供所述服务端对每一条语音数据进行语音识别,获得每一条识别信息以及其对应的反馈结果;
第一接收模块,用于接收所述服务端发送的每一条识别信息以及其对应的反馈结果;
语义分析模块,用于对所述每一条识别信息进行语义分析,以获得所述每一条识别信息的语义识别分数;
第二确定模块,用于确定语义识别分数最高的任一条识别信息对应的反馈结果作为输出数据;
第一输出模块,用于输出所述输出数据。
9.一种语音交互装置,其特征在于,包括
第二接收模块,用于接收所述至少一条语音数据;
数据识别模块,用于对所述至少一条语音数据进行语音识别,以获得每一条识别信息以及其对应的反馈结果;
第二发送模块,用于发送所述每一条识别信息以及其对应的反馈结果至电子设备,以供电子设备对所述每一条识别信息进行语义分析,以获得所述每一条识别信息的语义识别分数,并将语义识别分数最高的任一条识别信息对应的反馈结果作为输出数据进行输出。
10.根据权利要求9所述的装置,其特征在于,所述第二发送模块包括:
第三发送单元,用于判断所述每一条识别信息接收到反馈信息时,发送所述每一条识别信息以及其对应的反馈结果至处理端。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710550258.2A CN107424611B (zh) | 2017-07-07 | 2017-07-07 | 语音交互方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710550258.2A CN107424611B (zh) | 2017-07-07 | 2017-07-07 | 语音交互方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107424611A true CN107424611A (zh) | 2017-12-01 |
CN107424611B CN107424611B (zh) | 2021-10-15 |
Family
ID=60427927
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710550258.2A Active CN107424611B (zh) | 2017-07-07 | 2017-07-07 | 语音交互方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107424611B (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108665893A (zh) * | 2018-03-30 | 2018-10-16 | 斑马网络技术有限公司 | 车载声音反应系统及方法 |
CN109389980A (zh) * | 2018-12-06 | 2019-02-26 | 新视家科技(北京)有限公司 | 一种语音交互方法、系统、电子设备及服务器 |
CN109410941A (zh) * | 2018-12-06 | 2019-03-01 | 新视家科技(北京)有限公司 | 一种交互方法、系统、电子设备及服务器 |
CN109616110A (zh) * | 2018-12-06 | 2019-04-12 | 新视家科技(北京)有限公司 | 一种交互方法、系统、电子设备及服务器 |
CN109920430A (zh) * | 2019-01-10 | 2019-06-21 | 上海言通网络科技有限公司 | 语音识别语义处理系统及其方法 |
CN110265038A (zh) * | 2019-06-28 | 2019-09-20 | 联想(北京)有限公司 | 一种处理方法及电子设备 |
CN110600024A (zh) * | 2018-06-13 | 2019-12-20 | 松下电器(美国)知识产权公司 | 操作终端、语音输入方法以及计算机可读取的记录介质 |
CN112562734A (zh) * | 2020-11-25 | 2021-03-26 | 中检启迪(北京)科技有限公司 | 一种基于语音检测的语音交互方法及其装置 |
CN112735395A (zh) * | 2020-12-25 | 2021-04-30 | 科大讯飞股份有限公司 | 语音识别方法及电子设备、存储装置 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10232691A (ja) * | 1997-02-20 | 1998-09-02 | Nec Robotics Eng Ltd | 複数マイク使用による認識結果選択機能付き音声認識装 置 |
CN104794218A (zh) * | 2015-04-28 | 2015-07-22 | 百度在线网络技术(北京)有限公司 | 语音搜索方法和装置 |
CN105930452A (zh) * | 2016-04-21 | 2016-09-07 | 北京紫平方信息技术股份有限公司 | 一种识别自然语言的智能应答方法 |
JP2017040856A (ja) * | 2015-08-21 | 2017-02-23 | 日本電信電話株式会社 | 音声認識結果編集装置、音声認識結果編集方法、プログラム |
CN106469555A (zh) * | 2016-09-08 | 2017-03-01 | 深圳市金立通信设备有限公司 | 一种语音识别方法及终端 |
CN106782547A (zh) * | 2015-11-23 | 2017-05-31 | 芋头科技(杭州)有限公司 | 一种基于语音识别的机器人语义识别系统 |
CN106886587A (zh) * | 2011-12-23 | 2017-06-23 | 优视科技有限公司 | 语音搜索方法、装置及系统、移动终端、中转服务器 |
-
2017
- 2017-07-07 CN CN201710550258.2A patent/CN107424611B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10232691A (ja) * | 1997-02-20 | 1998-09-02 | Nec Robotics Eng Ltd | 複数マイク使用による認識結果選択機能付き音声認識装 置 |
CN106886587A (zh) * | 2011-12-23 | 2017-06-23 | 优视科技有限公司 | 语音搜索方法、装置及系统、移动终端、中转服务器 |
CN104794218A (zh) * | 2015-04-28 | 2015-07-22 | 百度在线网络技术(北京)有限公司 | 语音搜索方法和装置 |
JP2017040856A (ja) * | 2015-08-21 | 2017-02-23 | 日本電信電話株式会社 | 音声認識結果編集装置、音声認識結果編集方法、プログラム |
CN106782547A (zh) * | 2015-11-23 | 2017-05-31 | 芋头科技(杭州)有限公司 | 一种基于语音识别的机器人语义识别系统 |
CN105930452A (zh) * | 2016-04-21 | 2016-09-07 | 北京紫平方信息技术股份有限公司 | 一种识别自然语言的智能应答方法 |
CN106469555A (zh) * | 2016-09-08 | 2017-03-01 | 深圳市金立通信设备有限公司 | 一种语音识别方法及终端 |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108665893A (zh) * | 2018-03-30 | 2018-10-16 | 斑马网络技术有限公司 | 车载声音反应系统及方法 |
CN110600024A (zh) * | 2018-06-13 | 2019-12-20 | 松下电器(美国)知识产权公司 | 操作终端、语音输入方法以及计算机可读取的记录介质 |
CN109389980A (zh) * | 2018-12-06 | 2019-02-26 | 新视家科技(北京)有限公司 | 一种语音交互方法、系统、电子设备及服务器 |
CN109410941A (zh) * | 2018-12-06 | 2019-03-01 | 新视家科技(北京)有限公司 | 一种交互方法、系统、电子设备及服务器 |
CN109616110A (zh) * | 2018-12-06 | 2019-04-12 | 新视家科技(北京)有限公司 | 一种交互方法、系统、电子设备及服务器 |
CN109920430A (zh) * | 2019-01-10 | 2019-06-21 | 上海言通网络科技有限公司 | 语音识别语义处理系统及其方法 |
CN110265038A (zh) * | 2019-06-28 | 2019-09-20 | 联想(北京)有限公司 | 一种处理方法及电子设备 |
CN112562734A (zh) * | 2020-11-25 | 2021-03-26 | 中检启迪(北京)科技有限公司 | 一种基于语音检测的语音交互方法及其装置 |
CN112735395A (zh) * | 2020-12-25 | 2021-04-30 | 科大讯飞股份有限公司 | 语音识别方法及电子设备、存储装置 |
CN112735395B (zh) * | 2020-12-25 | 2024-05-31 | 科大讯飞股份有限公司 | 语音识别方法及电子设备、存储装置 |
Also Published As
Publication number | Publication date |
---|---|
CN107424611B (zh) | 2021-10-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107424611A (zh) | 语音交互方法及装置 | |
CN107844586A (zh) | 新闻推荐方法和装置 | |
US9786277B2 (en) | System and method for eliciting open-ended natural language responses to questions to train natural language processors | |
US8909525B2 (en) | Interactive voice recognition electronic device and method | |
CN110322869A (zh) | 会议分角色语音合成方法、装置、计算机设备和存储介质 | |
KR102379068B1 (ko) | 커뮤니케이션 방법 및 그를 위한 전자 장치 | |
US9953645B2 (en) | Voice recognition device and method of controlling same | |
US11948595B2 (en) | Method for detecting audio, device, and storage medium | |
CN108520046B (zh) | 搜索聊天记录的方法及设备 | |
CN107316651A (zh) | 基于麦克风的音频处理方法和装置 | |
CN107171816A (zh) | 电话会议中的数据处理方法及装置 | |
CN105592343A (zh) | 针对问题和回答的显示装置和方法 | |
CN106796496A (zh) | 显示设备及其操作方法 | |
CN109271533A (zh) | 一种多媒体文件检索方法 | |
CN109712610A (zh) | 用于识别语音的方法和装置 | |
CN110674385A (zh) | 客服升级场景下匹配客服的方法及装置 | |
CN109858427A (zh) | 一种语料提取方法、装置及终端设备 | |
CN103886860A (zh) | 一种信息处理方法和电子设备 | |
CN107039032A (zh) | 一种语音合成处理方法及装置 | |
US20210409891A1 (en) | Selecting a primary source of text to speech based on posture | |
CN106681523A (zh) | 一种输入法的字库配置方法、装置以及调用处理方法 | |
US20200227069A1 (en) | Method, device and apparatus for recognizing voice signal, and storage medium | |
CN113345439B (zh) | 字幕生成方法、装置、电子设备和存储介质 | |
CN106558311A (zh) | 语音内容提示方法和装置 | |
US10789940B2 (en) | Dynamic wake word identification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |