CN110689890A - 语音交互服务处理系统 - Google Patents
语音交互服务处理系统 Download PDFInfo
- Publication number
- CN110689890A CN110689890A CN201910984417.9A CN201910984417A CN110689890A CN 110689890 A CN110689890 A CN 110689890A CN 201910984417 A CN201910984417 A CN 201910984417A CN 110689890 A CN110689890 A CN 110689890A
- Authority
- CN
- China
- Prior art keywords
- service
- result
- voice
- data
- processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
- G10L21/007—Changing voice quality, e.g. pitch or formants characterised by the process used
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/12—Protocols specially adapted for proprietary or special-purpose networking environments, e.g. medical networks, sensor networks, networks in vehicles or remote metering networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L2021/02082—Noise filtering the noise being echo, reverberation of the speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02165—Two microphones, one receiving mainly the noise signal and the other one mainly the speech signal
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02166—Microphone arrays; Beamforming
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/02—Total factory control, e.g. smart factories, flexible manufacturing systems [FMS] or integrated manufacturing systems [IMS]
Abstract
本发明实施例提供一种语音交互服务处理系统,所述包括语音交互服务处理器和后台服务器,语音交互服务处理器,用于获取采集空间内服务人员和被服务人员之间的交互语音数据,根据所述交互语音数据生成对应于所述服务人员的服务结果,并将所述服务结果发送给后台服务器;后台服务器,用于根据所述服务结果生成分析结果和处理结果。本发明实施例提供的语音交互服务处理系统,通过采集服务人员与被服务人员之间的交互语音数据,并对交互语音数据进行分析处理得到对应于服务人员的服务结果,并能够根据服务结果分析对应结果,从而达到对服务人员的服务状态监控的目的,也为服务行业对服务人员的管理和规范提供重要参考及依据。
Description
技术领域
本发明涉及信息处理技术领域,尤其涉及一种语音交互服务处理系统。
背景技术
在服务行业,目前主要以按键式或触屏式服务评价器来统计客户满意度,只需客户动动手指就能表达好恶,听起来很方便快捷,但实际中却存在很多问题。很多客户为了避免麻烦,往往都是结束服务后不会在评价器上做出评价,服务人员也不会提醒他们进行评价,即便是提醒客户,客户有时也不会去做评价。甚至一些客户根本就不知道有评价器,或者知道有评价器却没习惯去使用它。对于服务人员而言,客户的评价结果去向不得而知,而且相关部门也没有设置奖罚措施,以至于服务人员普遍对评价器不够重视。此外,管理部门仅通过客户在评价器上的选择,很难对服务人员做出明确的评价结果以及做出奖励或惩罚,因为无法确保满意率和不满意率的真实性。整个评价机制和监控系统的缺失,使得服务评价器形同虚设,根本没有发挥它应有的作用。
综上,目前的服务评价器从服务方到客户,再反馈给服务方的过程存在诸多问题,更多地只是流于形式。只是简单地收集客户满意度数据,无法协助管理部门对服务人员在服务过程中的行为进行实时管控。
发明内容
针对现有技术存在的问题,本发明实施例提供一种语音交互服务处理系统。
本发明实施例提供一种语音交互服务处理系统,包括语音交互服务处理器和后台服务器,其中:
语音交互服务处理器,用于获取采集空间内服务人员和被服务人员之间的交互语音数据,根据所述交互语音数据生成对应于所述服务人员的服务结果,并将所述服务结果发送给后台服务器;
后台服务器,用于根据所述服务结果生成分析结果和处理结果。
可选地,所述语音交互服务处理系统还包括中控交互单元,所述中控交互单元设置于所述语音交互服务处理器和后台服务器之间,用于接收所述服务结果上传给所述后台服务器,以及接收所述分析结果和所述处理结果反馈给所述语音交互服务处理器。
可选地,所述后台服务器,还用于根据所述服务结果生成汇总数据,并根据汇总数据生成相同服务类型下不同服务个体对应的综合评价信息。
可选地,所述语音交互服务处理器包括第一主控模块、拾音模块和语音识别模块,其中:
第一主控模块,用于控制所述拾音模块和所述语音识别模块的处理动作;
拾音模块,用于获取采集空间内服务人员和被服务人员之间的交互语音数据;
语音识别模块,用于根据所述交互语音数据生成对应于所述服务人员的服务结果。
可选地,所述后台服务器包括第二主控模块、数据分析模块和数据处理模块,其中:
第二主控模块,用于控制所述数据分析模块和所述数据处理模块的处理动作;
数据分析模块,用于根据所述服务结果生成分析结果;
数据处理模块,用于根据所述服务结果生成处理结果。
可选地,所述语音交互服务处理器还包括语音处理模块,所述语音处理模块设置在所述拾音模块和所述语音识别模块之间,用于根据所述交互语音数据获得交互语音增强数据;
相应地,所述语音识别模块,用于根据所述交互语音增强数据生成对应于所述服务人员的服务结果。
可选地,所述拾音模块包括多路麦克风,分别设置在所述采集空间内的多个采集位置上,用于获取采集空间内服务人员和被服务人员之间的多路交互语音数据。
可选地,所述语音处理模块包括:
降噪单元,用于对多路交互语音数据进行降噪处理;
身份判别单元,用于根据降噪后的多路交互语音数据进行身份判别,获得所述交互语音数据中语音片段对应的身份信息;
混音单元,用于将降噪后的多路交互语音数据进行混音处理获得在单音音轨上的交互语音数据;
回声处理单元,用于对单音音轨上的交互语音数据进行回声对消及抑制处理;
输出单元,用于将回声对消及抑制处理后的单音音轨上的交互语音数据和所述身份信息输出。
可选地,所述身份判别单元具体用于:
根据降噪后的多路交互语音数据分帧进行语音活动检测,获得检测结果;
若所述检测结果为是,则根据多路交互语音数据计算得到能量差;
根据所述能量差与阈值进行比较,获得比较结果,并根据比较结果获得所述交互语音数据中语音片段对应的身份信息。
可选地,所述语音识别模块具体用于:
根据单音音轨上的交互语音数据进行特征提取获得交互语音特征;
根据所述交互语音特征进行关键字匹配获得对应于所述身份信息的交互语音关键字;
根据所述交互语音关键字与场景模型生成对应于所述服务人员的服务结果。
本发明实施例提供的语音交互服务处理系统,通过采集服务人员与被服务人员之间的交互语音数据,并对交互语音数据进行分析处理得到对应于服务人员的服务结果,并能够根据服务结果分析对应结果,从而达到对服务人员的服务状态监控的目的,也为服务行业对服务人员的管理和规范提供重要参考及依据。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明语音交互服务处理系统实施例结构图;
图2为本发明语音交互服务处理器实施例结构图;
图3为本发明拾音模块(双麦克风)应用于出租车运输中的设置示意图;
图4为本发明出租车内部双麦克风安装位置示意图;
图5为本发明双麦克风下的语音处理模块的处理流程框图;
图6为本发明拾音模块(多麦克风)应用于出租车运输中的设置示意图;
图7为本发明出租车内部多麦克风安装位置示意图;
图8为本发明后台服务器实施例结构图;
图9为本发明中控交互单元实施例结构图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在社会生活中,需要根据双方交谈的内容对某一方进行各种评价。尤其是服务行业,如运输业、金融业、餐饮业、企事业等。无论是哪种服务行业,都会存在服务人员与被服务人员的对接,如出租车上的司机与乘客的对接、银行专员与储户的对接、企业员工与到访客户的对接。存在对接,便存在服务人员与被服务人员之间的对话。故为了更好对服务人员的服务状态进行监控,本发明实施例提供一种语音交互服务处理系统,如图1所示,所述语音交互服务处理系统包括语音交互服务处理器1和后台服务器2,其中:
语音交互服务处理器1,用于获取采集空间内服务人员和被服务人员之间的交互语音数据,根据所述交互语音数据生成对应于所述服务人员的服务结果,并将所述服务结果发送给后台服务器2;
后台服务器2,用于根据所述服务结果生成分析结果和处理结果。
针对上述的语音交互服务处理系统,需要说明的是,在本发明实施例中,语音交互服务处理器用于根据服务人员和被服务人员之间的对话内容完成对服务人员的服务状态的评判。为此,需采集服务人员和被服务人员之间的交互语音数据。在这里,交互语音数据为服务人员和被服务人员之间的对话。服务人员在服务被服务人员时,均会在某个空间内存在交谈。如出租车司机与乘客在车厢内及车厢附近存在交谈,银行人员与储户在柜台玻璃两侧存在交谈,企业员工与到访客户在接待室存在交谈。为此,可获取预设的采集空间内服务人员和被服务人员之间的交互语音数据。一方面可限制采集空间的大小,另一方面可使得采集到的交互语音数据避免过大的环境干扰。
采集到的交互语音数据后,需要对交互语音数据进行分析处理,从而可生成对应于服务人员的服务结果。在这里,服务结果可以指对服务人员的综合评分(即分值)、也可以指服务人员在服务过程中的不合理场景,总之可算是对服务人员整个服务过程中的状态的判定。如对应于出租车司机的服务结果可以是“拒载乘客”,对应于银行专员的服务结果可以是“态度傲慢”,对应于企业员工的服务结果可以是“谈合作失败”等,在此不一一举出。
语音交互服务处理器将服务结果发送给后台服务器,以供后台服务器进行分析处理以得到分析结果和处理结果。后台服务器可获得针对于多个服务人员的服务结果,即后台服务器可进行大数据分析。如在运输行业,后台服务器可获得同一客运公司下所有司机在服务过程中的服务结果,如在金融行业,后台服务器可获得同一金融公司下所有银行专员在服务过程中的服务结果。因此,后台服务器可单独对某一个服务人员的服务结果进行分析处理得到分析结果和处理结果。也可对多个服务人员的服务结果进行整体分析处理得到多个服务人员所属整个团队的分析结果和处理结果。在这里,分析结果可为服务人员的综合状态信息,处理结果为应急处理手段。如乘客遇到危险,后台服务器报警。
本发明实施例提供的一种语音交互服务处理系统,通过采集服务人员与被服务人员之间的交互语音数据,并对交互语音数据进行分析处理得到对应于服务人员的服务结果,并能够根据服务结果分析对应结果,从而达到对服务人员的服务状态监控的目的,也为服务行业对服务人员的管理和规范提供重要参考及依据。
在上述实施例的基础上进一步的实施例中,继续参照图1所示结构图,所述语音交互服务处理系统还包括中控交互单元3,所述中控交互单元3设置于所述语音交互服务处理器1和后台服务器2之间,用于接收所述服务结果上传给所述后台服务器2,以及接收所述分析结果和所述处理结果反馈给所述语音交互服务处理器1。
需要说明的是,在不同服务行业中,由于设备安装环境的不同,有时语音交互服务处理器可直接与后台服务器进行线路连接,便可满足数据上传及服务监控目的。如银行内,语音交互服务处理器可直接与设备间内的后台服务器通过网络(包括有线或无线网络)进行连接。有时语音交互服务处理器与后台服务器通信不方便,需要远程无线连接,如出租车内,出租车在行驶过程中,需要采用无线传输技术将服务结果发送给后台服务器。为此,可使语音交互服务处理器可增加无线传输功能,但有时候存在具有无线传输功能的已有设备(即中控交互单元),因此,无需在语音交互服务处理器上增加负载,提高成本和增加技术制作含量。如出租车内设置车载方式的中控交互单元,则可直接使用。故本实施例的中控交互单元是语音交互服务处理器与后台服务器之间的数据传输中转设备。
在上述实施例的基础上进一步的实施例中,所述后台服务器还用于根据所述服务结果生成汇总数据,并根据汇总数据生成相同服务类型下不同服务个体对应的综合评价信息。需要说明的是,后台服务器根据所有的服务结果生成汇总数据,该汇总数据包括对服务人员的各种基本信息和分析结果。如哪些服务人员属于优质服务人员,服务人员的服务年限、所在服务单位等。根据汇总数据生成相同服务类型下不同服务个体对应的综合评价信息。在这里,服务个体可以是服务人员或服务单位。如以运输行业为例,司机所在的运营商不同,因此,可以根据司机的服务结果对运营商的整体服务标准进行评价。
在上述实施例的基础上进一步的实施例中,如图2所示,所述语音交互服务处理器包括第一主控模块11、拾音模块12和语音识别模块13,其中:
第一主控模块11,用于控制所述拾音模块12和所述语音识别模块13的处理动作;
拾音模块12,用于获取采集空间内服务人员和被服务人员之间的交互语音数据;
语音识别模块13,用于根据所述交互语音数据生成对应于所述服务人员的服务结果。
针对上述语音交互服务处理器,需要说明的是,在本发明实施例中,语音交互服务处理器用于根据服务人员和被服务人员之间的对话内容完成对所述服务人员的服务状态的评判。为此,拾音模块需采集服务人员和被服务人员之间的交互语音数据。在这里,交互语音数据为服务人员和被服务人员之间的对话。服务人员在服务被服务人员时,均会在某个空间内存在交谈。如出租车司机与乘客在车厢内及车厢附近存在交谈,银行人员与储户在柜台玻璃两侧存在交谈,企业员工与到访客户在接待室存在交谈。为此,拾音模块可获取预设的采集空间内服务人员和被服务人员之间的交互语音数据。一方面可限制采集空间的大小,另一方面可使得采集到的交互语音数据避免过大的环境干扰。
拾音模块将采集到的交互语音数据发送给语音识别模块。语音识别模块需要对交互语音数据进行分析处理,从而可生成对应于所述服务人员的服务结果。在这里,服务结果可以指对服务人员的综合评分(即分值)、也可以指服务人员在服务过程中的不合理场景,总之可算是对服务人员整个服务过程中的状态的判定。如对应于出租车司机的服务结果可以是“拒载乘客”,对应于银行专员的服务结果可以是“态度傲慢”,对应于企业员工的服务结果可以是“谈合作失败”等,在此不一一举出。
主控模块需控制所述拾音模块和所述语音识别模块的处理动作,该处理动作为拾音模块的采集动作和语言识别模块的分析动作。该主控模块可对存储相应的算法及规则,用于向所需算法及规则的模块下发,供这些模块完成对应的处理动作。该主控模块可对拾音模块和语音识别模块进行开启及关闭。
在上述实施例的基础上进一步的实施例中,继续参照图2所示结构图,所述语音交互服务处理器还包括语音处理模块14,所述语音处理模块14设置在所述拾音模块12和所述语音识别模块13之间,用于根据所述交互语音数据获得交互语音增强数据;
相应地,所述语音识别模块13,用于根据所述交互语音增强数据生成对应于所述服务人员的服务结果。
需要说明的是,由于环境中其他杂音的影响,因此,需要对获取到的交互语音数据进行信号增强处理,以得到交互语音增强数据。对此,语音识别模块在处理过程中,则需根据所述交互语音增强数据生成对应于所述服务人员的服务结果。
在上述实施例的基础上进一步的实施例中,所述拾音模块包括多路麦克风,分别设置在所述采集空间内的多个采集位置上,用于获取采集空间内服务人员和被服务人员之间的多路交互语音数据。
需要说明的是,为了更好在采集空间中采集服务人员和被服务人员之间的对话语音,可采用麦克风阵列采集方式,在采集空间内的多个采集位置上安装上麦克风,可采集多路交互语音数据。
以出租车运输为例,需要采集乘客和司机之间的对话。由于车厢空间较小,因此,可采用双麦克风对语音进行采集。如图3所示为拾音模块应用于出租车运输中的设置示意图和图4所示为出租车内部双麦克风安装位置示意图。从图3和图4中可以看出,麦克风1代表指向性麦克风,与司机较近,麦克风2代表全向性麦克风,与司机和乘客所坐位置均距离相当。图4中的麦克风位置便于采集司机和乘客之间的对话。
在上述实施例的基础上进一步的实施例中,所述语音处理模块包括:
降噪单元,用于对多路交互语音数据进行降噪处理;
身份判别单元,用于根据降噪后的多路交互语音数据进行身份判别,获得所述交互语音数据中语音片段对应的身份信息;
混音单元,用于将降噪后的多路交互语音数据进行混音处理获得在单音音轨上的交互语音数据;
回声处理单元,用于对单音音轨上的交互语音数据进行回声对消及抑制处理;
输出单元,用于将回声对消及抑制处理后的单音音轨上的交互语音数据和所述身份信息输出。
需要说明的是,由于不同采集环境下的噪音影响,需要降噪单元分别对采集到进行降噪处理,能够有效抑制环境噪声,这样不仅能够保证后续处理运行的正确性,而且也可以保证语音识别的准确率。
语音降噪又称噪声抑制。现实生活中,实际采集到的音频通常会有一定强度背景噪音,当背景噪音强度较大时,会对语音应用的效果产生明显的影响,比如语音识别率降低,端点检测灵敏度下降等。因此,在语音的前端处理中,进行噪声抑制是很有必要的。实际系统中常用的降噪算法有:维纳滤波、谱减法、子空间方法等。
由于最终是要对服务人员的服务状态进行评定,因此,需要确定交互语音数据中各个语音片段到底是谁说的,即确定交互语音数据中语音片段对应的身份信息。故身份判别单元,用于根据降噪后的多路交互语音数据进行身份判别。
由于在整个环境中仅服务人员和被服务人员进行对话,因此无论音量是大还是小,每个麦克风均会采集到相同内容的交互语音数据。为了更加方便对交互语音数据进行处理,需要混音单元将各个交互语音数据进行混音,使所有交互语音数据合成到在单音音轨上的交互语音数据。
混音是将不同的音频流在某个节点处通过线性叠加的方法混合成一个音频流的方法,在音乐制作、多媒体会议系统等领域有广泛的应用。解决混音后采样值的溢出问题是混音算法的难点,基本解决思想是对音频信号的振幅做平滑处理。常用的混音溢出处理方法有:箝位法、平均权重法、自适应加权法等。自适应加权一般可分为强对齐权重法,弱对齐权重法和自对齐权重法。由于自对齐权重法可以动态调整衰减因子,与传统算法相比在效果上有了较大改进,且不会发生溢出现象,因而常使用在实际系统中。
由于在采集空间中可能会存在其他声音产生的回声效果,因此,需要回声处理单元用于对单音音轨上的交互语音数据进行回声对消及抑制处理,提高后续语音识别的准确率。
回声就是指说话者通过通信设备发送给其他人的语音又重新又回到自己的听筒里的现象。声学回声消除算法(Acoustic Echo Cancellation,AEC)是对扬声器信号与由它产生的多路径回声的相关性为基础,建立远端信号的语音模型,利用它对回声进行估计,并不断地修改滤波器的系数,使得估计值更加逼近真实的回声。然后,将回声估计值从话筒的输入信号中减去,从而达到消除回声的目的。
处理后的交互语音数据需要进行后续的识别处理,因此,需要输出单元将回声对消及抑制处理后的单音音轨上的交互语音数据和所述身份信息输出。
继续以上述出租车运输为例,如图5所示为双麦克风下的语音处理模块的处理流程框图。
首先,分别对双麦克风拾取的司机、乘客说话的交互语音数据进行降噪处理,能够有效抑制车内环境噪声,如发动机噪声,胎噪,空调、车窗打开时风噪等,这样不仅能够保证后续处理的正确性,而且也可以保证语音识别的准确率。
其次,对交互语音数据进行身份判别,获取身份信息。
再次,利用自对齐权重法将来自两路麦克风降噪后的语音信号进行混音处理,整合到一个单音音轨中。自对齐权重法是现有技术,用于混音制作。
最后,对混音后的语音信号进行回声对消和回声抑制处理,以抑制车内的车载音乐,蓝牙通话,收音机等产生的回声对语音关键词识别的干扰,提高识别率。
在上述实施例的基础上进一步的实施例中,所述身份判别单元具体用于:
根据降噪后的多路交互语音数据分帧进行语音活动检测;
若当前帧的语音活动为是,则根据多路交互语音数据计算得到能量差;
根据所述能量差与阈值进行比较,获得比较结果,并根据比较结果获得所述交互语音数据中语音片段对应的身份信息。
需要说明的是,进行身份判别之前先设置判别条件,例如能量差大于阈值则判别为服务人员,反之,则判别为被服务人员。
由于在整个交互语音数据中,会存在某些时间段服务人员和被服务人员都不说话。故需要对降噪后的多路交互语音数据分帧进行语音活动检测(即VAD检测),语音活动检测是指在语音数据中检测语音的存在与否。若当前帧的语音活动为是,则根据多路交互语音数据计算得到能量差,即计算麦克风采集到的语音数据在相同帧下的语音能量之间的差值。
以双麦克风为例,则存在两路交互语音数据,计算两路语音数据在相同帧下的语音能量之间的差值,即能量差。然后根据能量差与阈值进行比较,获得比较结果,并根据比较结果获得交互语音数据中语音片段对应的身份信息。即确定当前帧对应的语音片段的身份信息。在双麦克风情景下,通常阈值为0。若靠近服务人员的麦克风采集的语音能量大于靠近被服务人员的麦克风采集的语音能量,此时能量差是正数,大于0,身份信息为服务人员(如司机)。若靠近服务人员的麦克风采集的语音能量小于靠近被服务人员的麦克风采集的语音能量,此时能量差是负值,小于0,身份信息为被服务人员(如乘客)。
以多麦克风为例,如图6所示为拾音模块应用于出租车运输中的设置示意图和图7所示为出租车内部多麦克风安装位置示意图,出租车内设置五个麦克风,则存在五路交互语音数据,计算每个麦克风采集的语音数据在相同帧下的语音能量值,并进行排序,然后计算最大能量值和最小能量值之差,即能量差。然后根据能量差与阈值进行比较,获得比较结果,并根据比较结果获得交互语音数据中语音片段对应的身份信息。在多麦克风情景下,由于是基于最大能量值与最小能量值之间的差值,故要对阈值进行设定,此时,阈值可为某个预设值,也可为最小能量值的一定比例值或最大能量值的一定比例值,具体根据需求设定,以尽量有利于精准判定为准。若能量差大于阈值,则基于最大能量值对应的麦克风的安装位置判定身份。
对交互语音数据的身份判别,能够清楚的知晓交互语音数据中的语音片段(即说话内容)对应的身份信息。为后续识别处理,做出更精确的判断。
在上述实施例的基础上进一步的实施例中,所述语音识别模块13具体用于:
根据单音音轨上的交互语音数据进行特征提取获得交互语音特征;
根据所述交互语音特征进行关键字匹配获得对应于所述身份信息的交互语音关键字;
根据所述交互语音关键字与场景模型生成对应于所述服务人员的服务结果。
需要说明的是,由于交互语音数据是音频信息,需要根据单音音轨上的交互语音数据进行特征提取获得交互语音特征。然后根据所述交互语音特征进行关键字匹配获得对应于所述身份信息的交互语音关键字,关键字可以是字、词和句。每段关键字对应相应的身份信息。最后根据所述交互语音关键字与场景模型生成对应于所述服务人员的服务结果。即将关键字从场景模型中进行匹配,匹配到具体的场景信息,作为服务结果。在这里,场景模型为预先设置的在服务过程中遇到的多种场景,每个场景对应可以作为判断依据的对话内容。交互语音关键字需与这些对话内容进行匹配。
继续以上述出租车运输为例,相关的场景定义及检测关键字如下:
不按标准收费关键词:乘客说:你打表XX钱,为啥多收钱,则司机未按标准收费。
故意绕路关键词:司机主动说:高速快城区堵,或者前面堵车建议走较远的路线;乘客说:怎么走的,路线不对,费用比以前高,你绕路了;检测到以上关键词,则判定为故意绕路。
对此,不一一举例说明。
在上述实施例的基础上进一步的实施例中,有时会存在仅仅靠语音识别输出服务结果的误判较高,此时,为了提高某些场景下服务结果的判断正确率,可以增加服务过程中的场景因素,如司机打卡、运营时间、车内有无乘客、计价器状态、车速等,进行综合逻辑判断后输出。
在上述实施例的基础上进一步的实施例中,继续参照图2所示结构图,所述语音交互服务处理器还包括广播模块15和存储模块16;
广播模块15,用于将所述服务结果进行广播;
第一存储模块16,用于将所述服务结果进行存储。
广播模块可为显示屏和/或播音器。
存储模块用于将服务人员的每一次服务结果进行记录,以便后续管理时做分析综合处理。
在上述实施例的基础上进一步的实施例中,继续参照图2所示结构图,所述语音交互服务处理器还包括传输模块17,用于将所述服务结果发送给后台服务器2、用于接收所述后台服务器发送的更新数据包,以及用于接收所述被服务人员的评价信息。
需要说明的是,所述语音交互服务处理器用于安置在采集空间内,因此为了便于后台人员对信息的分析,需要传输模块将所述服务结果发送给后台服务器。
为了使得语音交互服务处理器识别更加精确,需要定期对场景模型(如各麦克风通道的Codec参数配置等)、语音处理算法(如降噪、混音、身份判别、回声对消等)或语音识别算法(如关键词ASR(Automatic Speech Recognition)模型,DNN(Deep NeuralNetworks)模型等)进行升级更新,因此需要传输模块接收所述后台服务器发送的更新数据包,该更新数据包用于对应的模型及算法的升级。
被服务人员有时会对服务人员进行评价,可在评价器上点击相应的评价选项,向语音交互服务处理器发送评价信息。此时,语音交互服务处理器的主控模块还用于根据所述服务结果和所述评价信息生成服务分值,该服务分值可代表服务人员本次服务的评分。
在本发明实施例中,传输模块通过有线或无线(3G/4G技术、WIFI等)网络与后台服务器进行交互。当存在中控交互单元时,传输模块通过RS-232串口与中控交互单元进行交互,中控交互单元通过有线或无线(3G/4G技术、WIFI等)网络与后台服务器进行交互。
在上述实施例的基础上进一步的实施例中,如图8所示,所述后台服务器包括第二主控模块21、数据分析模块22和数据处理模块23,其中:
第二主控模块21,用于控制所述数据分析模块22和所述数据处理模块23的处理动作;
数据分析模块22,用于根据所述服务结果生成分析结果;
数据处理模块23,用于根据所述服务结果生成处理结果。
在上述实施例的基础上进一步的实施例中,继续参照图8的结构图,所述后台服务器还包括第二存储模块24、第一传输模块25。
第二主控模块用于配置其他各模块的信息及控制对应的处理动作。后台服务器采用有限或无线移动通信技术实时接收来自不同服务人员的服务结果,进行数据预处理、存储,形成大数据,采用数据分析和数据挖掘等算法,对所属服务团队的服务质量进行监管。同时,挖掘数据中的有效信息,提高出租车服务质量、提高监管部门的工作效率,提升顾客满意度。后台服务器中第二存储模块所存储的信息主要包括服务人员个人信息(人身保险、身体状况等)、服务质量信息(好评指数等)、服务所需设备状况(维修、检修、保险等)等信息。
如运输行业内,后台服务器中数据分析模块结合第二存储模块所存储的司机及车辆信息进行数据分析,一方面是对机车、驾驶员信息进行汇总,为出租车管理部门提供真实数据方便统一管理,另一方面是对出租车/网约车司机服务质量作出公平合理判定,有利于惩罚奖励制度的实施;数据处理单元在紧急突发事件时做出迅速响应,尤其是在涉及人身安全时会及时联合公安、交警、医院、出租车管理等部门采取应急措施,在第一时间进行救援。
在上述实施例的基础上进一步的实施例中,如图9所示,所述中控交互单元包括第三主控模块31、显示模块32、第三存储模块33和第二传输模块34,其中:
第三主控模块31,用于控制所述显示模块32、第三存储模块和第二传输模块的处理动作;
显示模块32,用于显示所述服务结果;
第三存储模块33,用于存储所述服务结果;
第二传输模块34,用于将所述服务结果上传给所述后台服务器。
其中第三主控模块用于配置其他各模块的信息及控制对应的处理动作,并用于控制RS232串口对数据的传送和反馈。显示模块主要功能是把语音交互服务处理器所传输来的服务结果进行汇总后显示,对当前服务人员的近期服务情况进行概括性的评价显示;第三存储模块是把语音交互服务处理器所传输来的服务结果进行分析后存储,为无线传输单元提供数据;第二传输模块采用有线或无线(3G/4G技术、WIFI等)通信技术,如等,实现中控交互单元与后台服务器进行数据传递和命令交互。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种语音交互服务处理系统,其特征在于,包括语音交互服务处理器和后台服务器,其中:
语音交互服务处理器,用于获取采集空间内服务人员和被服务人员之间的交互语音数据,根据所述交互语音数据生成对应于所述服务人员的服务结果,并将所述服务结果发送给后台服务器;
后台服务器,用于根据所述服务结果生成分析结果和处理结果。
2.根据权利要求1所述的语音交互服务处理系统,其特征在于,所述语音交互服务处理系统还包括中控交互单元,所述中控交互单元设置于所述语音交互服务处理器和后台服务器之间,用于接收所述服务结果上传给所述后台服务器,以及接收所述分析结果和所述处理结果反馈给所述语音交互服务处理器。
3.根据权利要求1所述的语音交互服务处理系统,其特征在于,所述后台服务器,还用于根据所述服务结果生成汇总数据,并根据汇总数据生成相同服务类型下不同服务个体对应的综合评价信息。
4.根据权利要求1或2所述的语音交互服务处理系统,其特征在于,所述语音交互服务处理器包括第一主控模块、拾音模块和语音识别模块,其中:
第一主控模块,用于控制所述拾音模块和所述语音识别模块的处理动作;
拾音模块,用于获取采集空间内服务人员和被服务人员之间的交互语音数据;
语音识别模块,用于根据所述交互语音数据生成对应于所述服务人员的服务结果。
5.根据权利要求4所述的语音交互服务处理系统,其特征在于,所述后台服务器包括第二主控模块、数据分析模块和数据处理模块,其中:
第二主控模块,用于控制所述数据分析模块和所述数据处理模块的处理动作;
数据分析模块,用于根据所述服务结果生成分析结果;
数据处理模块,用于根据所述服务结果生成处理结果。
6.根据权利要求4所述的语音交互服务处理系统,其特征在于,所述语音交互服务处理器还包括语音处理模块,所述语音处理模块设置在所述拾音模块和所述语音识别模块之间,用于根据所述交互语音数据获得交互语音增强数据;
相应地,所述语音识别模块,用于根据所述交互语音增强数据生成对应于所述服务人员的服务结果。
7.根据权利要求4所述的语音交互服务处理系统,其特征在于,所述拾音模块包括多路麦克风,分别设置在所述采集空间内的多个采集位置上,用于获取采集空间内服务人员和被服务人员之间的多路交互语音数据。
8.根据权利要求7所述的语音交互服务处理系统,其特征在于,所述语音处理模块包括:
降噪单元,用于对多路交互语音数据进行降噪处理;
身份判别单元,用于根据降噪后的多路交互语音数据进行身份判别,获得所述交互语音数据中语音片段对应的身份信息;
混音单元,用于将降噪后的多路交互语音数据进行混音处理获得在单音音轨上的交互语音数据;
回声处理单元,用于对单音音轨上的交互语音数据进行回声对消及抑制处理;
输出单元,用于将回声对消及抑制处理后的单音音轨上的交互语音数据和所述身份信息输出。
9.根据权利要求8所述的语音交互服务处理系统,其特征在于,所述身份判别单元具体用于:
根据降噪后的多路交互语音数据分帧进行语音活动检测,获得检测结果;
若所述检测结果为是,则根据多路交互语音数据计算得到能量差;
根据所述能量差与阈值进行比较,获得比较结果,并根据比较结果获得所述交互语音数据中语音片段对应的身份信息。
10.根据权利要求8所述的语音交互服务处理系统,其特征在于,所述语音识别模块具体用于:
根据单音音轨上的交互语音数据进行特征提取获得交互语音特征;
根据所述交互语音特征进行关键字匹配获得对应于所述身份信息的交互语音关键字;
根据所述交互语音关键字与场景模型生成对应于所述服务人员的服务结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910984417.9A CN110689890B (zh) | 2019-10-16 | 2019-10-16 | 语音交互服务处理系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910984417.9A CN110689890B (zh) | 2019-10-16 | 2019-10-16 | 语音交互服务处理系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110689890A true CN110689890A (zh) | 2020-01-14 |
CN110689890B CN110689890B (zh) | 2023-06-06 |
Family
ID=69112955
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910984417.9A Active CN110689890B (zh) | 2019-10-16 | 2019-10-16 | 语音交互服务处理系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110689890B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112218240A (zh) * | 2020-09-30 | 2021-01-12 | 西安工程大学 | 一种基于5g云端控制技术的出租车及其控制方法 |
Citations (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6480532B1 (en) * | 1999-07-13 | 2002-11-12 | Stmicroelectronics, Inc. | Echo cancellation for an ADSL modem |
CN1541456A (zh) * | 2001-07-11 | 2004-10-27 | ������������ʽ���� | 多通道回声消除方法、多通道声音传送方法、立体回声消除器、立体声音传送装置和传递函数计算装置 |
JP2007004001A (ja) * | 2005-06-27 | 2007-01-11 | Tokyo Electric Power Co Inc:The | オペレータ応対能力診断装置、オペレータ応対能力診断プログラム、プログラム格納媒体 |
JP2010068213A (ja) * | 2008-09-10 | 2010-03-25 | Mitsubishi Electric Corp | エコー消去装置 |
CN101753383A (zh) * | 2008-12-02 | 2010-06-23 | 中兴通讯股份有限公司 | 一种分布式麦克系统 |
US20100198589A1 (en) * | 2008-07-29 | 2010-08-05 | Tomokazu Ishikawa | Audio coding apparatus, audio decoding apparatus, audio coding and decoding apparatus, and teleconferencing system |
CN102819009A (zh) * | 2012-08-10 | 2012-12-12 | 汽车零部件研究及发展中心有限公司 | 用于汽车的驾驶者声源定位系统及方法 |
CN102874188A (zh) * | 2012-09-01 | 2013-01-16 | 北京车网互联科技股份有限公司 | 一种基于车辆总线数据的驾驶行为警示方法 |
CN103871122A (zh) * | 2014-03-11 | 2014-06-18 | 深圳市朗仁科技有限公司 | 驾驶行为分析方法及分析系统 |
US20140307882A1 (en) * | 2013-04-11 | 2014-10-16 | Broadcom Corporation | Acoustic echo cancellation with internal upmixing |
CN106372817A (zh) * | 2016-10-25 | 2017-02-01 | 先锋智道(北京)科技有限公司 | 一种司机驾驶行为生成方法、装置及系统 |
CN106600745A (zh) * | 2015-10-19 | 2017-04-26 | 上海汽车集团股份有限公司 | 车辆驾驶行为记录生成方法及系统 |
US20170154293A1 (en) * | 2014-06-16 | 2017-06-01 | Panasonic Intellectual Property Management Co., Ltd. | Customer service appraisal device, customer service appraisal system, and customer service appraisal method |
CN107038610A (zh) * | 2017-05-08 | 2017-08-11 | 鄂尔多斯市普渡科技有限公司 | 一种无人驾驶出租车的乘客信任度评价方法 |
JP2017211703A (ja) * | 2016-05-23 | 2017-11-30 | 三菱電機株式会社 | 運転評価装置および運転評価プログラム |
CN107452385A (zh) * | 2017-08-16 | 2017-12-08 | 北京世纪好未来教育科技有限公司 | 一种基于语音的数据评价方法及装置 |
CN107563677A (zh) * | 2017-10-13 | 2018-01-09 | 深圳市瑞科慧联科技有限公司 | 一种业务数据分析系统及其分析方法 |
US20180261237A1 (en) * | 2017-03-01 | 2018-09-13 | Soltare Inc. | Systems and methods for detection of a target sound |
CN109784678A (zh) * | 2018-12-26 | 2019-05-21 | 秒针信息技术有限公司 | 一种基于音频的客户满意度评估方法和评估系统 |
CN109800663A (zh) * | 2018-12-28 | 2019-05-24 | 华中科技大学鄂州工业技术研究院 | 基于语音和视频特征的教师教学评估方法及设备 |
CN109817240A (zh) * | 2019-03-21 | 2019-05-28 | 北京儒博科技有限公司 | 信号分离方法、装置、设备及存储介质 |
CN110070889A (zh) * | 2019-03-15 | 2019-07-30 | 深圳壹账通智能科技有限公司 | 车辆监控方法、装置及存储介质、服务器 |
CN110326309A (zh) * | 2017-09-01 | 2019-10-11 | 深圳市台电实业有限公司 | 一种拾音设备和系统 |
-
2019
- 2019-10-16 CN CN201910984417.9A patent/CN110689890B/zh active Active
Patent Citations (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6480532B1 (en) * | 1999-07-13 | 2002-11-12 | Stmicroelectronics, Inc. | Echo cancellation for an ADSL modem |
CN1541456A (zh) * | 2001-07-11 | 2004-10-27 | ������������ʽ���� | 多通道回声消除方法、多通道声音传送方法、立体回声消除器、立体声音传送装置和传递函数计算装置 |
JP2007004001A (ja) * | 2005-06-27 | 2007-01-11 | Tokyo Electric Power Co Inc:The | オペレータ応対能力診断装置、オペレータ応対能力診断プログラム、プログラム格納媒体 |
US20100198589A1 (en) * | 2008-07-29 | 2010-08-05 | Tomokazu Ishikawa | Audio coding apparatus, audio decoding apparatus, audio coding and decoding apparatus, and teleconferencing system |
JP2010068213A (ja) * | 2008-09-10 | 2010-03-25 | Mitsubishi Electric Corp | エコー消去装置 |
CN101753383A (zh) * | 2008-12-02 | 2010-06-23 | 中兴通讯股份有限公司 | 一种分布式麦克系统 |
CN102819009A (zh) * | 2012-08-10 | 2012-12-12 | 汽车零部件研究及发展中心有限公司 | 用于汽车的驾驶者声源定位系统及方法 |
CN102874188A (zh) * | 2012-09-01 | 2013-01-16 | 北京车网互联科技股份有限公司 | 一种基于车辆总线数据的驾驶行为警示方法 |
US20140307882A1 (en) * | 2013-04-11 | 2014-10-16 | Broadcom Corporation | Acoustic echo cancellation with internal upmixing |
CN103871122A (zh) * | 2014-03-11 | 2014-06-18 | 深圳市朗仁科技有限公司 | 驾驶行为分析方法及分析系统 |
US20170154293A1 (en) * | 2014-06-16 | 2017-06-01 | Panasonic Intellectual Property Management Co., Ltd. | Customer service appraisal device, customer service appraisal system, and customer service appraisal method |
CN106600745A (zh) * | 2015-10-19 | 2017-04-26 | 上海汽车集团股份有限公司 | 车辆驾驶行为记录生成方法及系统 |
JP2017211703A (ja) * | 2016-05-23 | 2017-11-30 | 三菱電機株式会社 | 運転評価装置および運転評価プログラム |
CN106372817A (zh) * | 2016-10-25 | 2017-02-01 | 先锋智道(北京)科技有限公司 | 一种司机驾驶行为生成方法、装置及系统 |
US20180261237A1 (en) * | 2017-03-01 | 2018-09-13 | Soltare Inc. | Systems and methods for detection of a target sound |
CN107038610A (zh) * | 2017-05-08 | 2017-08-11 | 鄂尔多斯市普渡科技有限公司 | 一种无人驾驶出租车的乘客信任度评价方法 |
CN107452385A (zh) * | 2017-08-16 | 2017-12-08 | 北京世纪好未来教育科技有限公司 | 一种基于语音的数据评价方法及装置 |
CN110326309A (zh) * | 2017-09-01 | 2019-10-11 | 深圳市台电实业有限公司 | 一种拾音设备和系统 |
CN107563677A (zh) * | 2017-10-13 | 2018-01-09 | 深圳市瑞科慧联科技有限公司 | 一种业务数据分析系统及其分析方法 |
CN109784678A (zh) * | 2018-12-26 | 2019-05-21 | 秒针信息技术有限公司 | 一种基于音频的客户满意度评估方法和评估系统 |
CN109800663A (zh) * | 2018-12-28 | 2019-05-24 | 华中科技大学鄂州工业技术研究院 | 基于语音和视频特征的教师教学评估方法及设备 |
CN110070889A (zh) * | 2019-03-15 | 2019-07-30 | 深圳壹账通智能科技有限公司 | 车辆监控方法、装置及存储介质、服务器 |
CN109817240A (zh) * | 2019-03-21 | 2019-05-28 | 北京儒博科技有限公司 | 信号分离方法、装置、设备及存储介质 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112218240A (zh) * | 2020-09-30 | 2021-01-12 | 西安工程大学 | 一种基于5g云端控制技术的出租车及其控制方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110689890B (zh) | 2023-06-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110634485B (zh) | 语音交互服务处理器及处理方法 | |
US20080040110A1 (en) | Apparatus and Methods for the Detection of Emotions in Audio Interactions | |
US9336780B2 (en) | Identification of a local speaker | |
US9412371B2 (en) | Visualization interface of continuous waveform multi-speaker identification | |
CN104040480A (zh) | 利用声学语境进行搜索的方法和系统 | |
Pfeifenberger et al. | DNN-based speech mask estimation for eigenvector beamforming | |
CN107004409A (zh) | 利用运行范围归一化的神经网络语音活动检测 | |
EP2711923B1 (en) | Methods and systems for assessing and improving the performance of a speech recognition system | |
JP7160454B2 (ja) | 情報を出力するための方法、装置及びシステム、電子デバイス、コンピュータ可読記憶媒体及びコンピュータプログラム | |
CN109036450A (zh) | 用于收集并处理音频信号的系统 | |
WO2021169742A1 (zh) | 交通工具运行状态的预测方法、装置、终端及存储介质 | |
Andrei et al. | Detecting Overlapped Speech on Short Timeframes Using Deep Learning. | |
CN110689890B (zh) | 语音交互服务处理系统 | |
WO2019097674A1 (ja) | 車両用操作支援装置 | |
JP2024507916A (ja) | オーディオ信号の処理方法、装置、電子機器、及びコンピュータプログラム | |
KR20120130371A (ko) | Gmm을 이용한 응급 단어 인식 방법 | |
CN113507542B (zh) | 一种用于客服坐席的音视频在线巡检方法及系统 | |
US20220035840A1 (en) | Data management device, data management method, and program | |
JP7364348B2 (ja) | サービス提供装置、サービス提供システム、および、サービス提供方法 | |
US10015310B2 (en) | Detection of privacy breach during a communication session | |
US11308510B2 (en) | Methods and apparatus to collect and analyze rating information | |
CN115050382A (zh) | 一种车内外语音通话方法、装置、电子设备和存储介质 | |
CN112530411B (zh) | 一种实时分角色转录方法、设备和系统 | |
CN117636909B (zh) | 一种数据处理方法、装置、设备以及计算机可读存储介质 | |
US10728383B1 (en) | Controlled-environment facility resident pattern electronic communication detection and controlled-environment facility action |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |