CN114974255A - 基于酒店场景的声纹识别方法、系统、设备及存储介质 - Google Patents
基于酒店场景的声纹识别方法、系统、设备及存储介质 Download PDFInfo
- Publication number
- CN114974255A CN114974255A CN202210533019.7A CN202210533019A CN114974255A CN 114974255 A CN114974255 A CN 114974255A CN 202210533019 A CN202210533019 A CN 202210533019A CN 114974255 A CN114974255 A CN 114974255A
- Authority
- CN
- China
- Prior art keywords
- hotel
- voice
- voiceprint
- audio
- staff
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 48
- 238000000605 extraction Methods 0.000 claims abstract description 20
- 238000013507 mapping Methods 0.000 claims abstract description 17
- 230000007613 environmental effect Effects 0.000 claims abstract description 11
- 230000006870 function Effects 0.000 claims description 7
- 230000005540 biological transmission Effects 0.000 claims description 5
- 239000000284 extract Substances 0.000 claims description 5
- 238000004458 analytical method Methods 0.000 abstract description 17
- 238000012986 modification Methods 0.000 abstract description 7
- 230000004048 modification Effects 0.000 abstract description 7
- 238000010586 diagram Methods 0.000 description 10
- 238000012545 processing Methods 0.000 description 7
- 238000001514 detection method Methods 0.000 description 4
- 239000012634 fragment Substances 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000012790 confirmation Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000001419 dependent effect Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000005111 flow chemistry technique Methods 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 239000013307 optical fiber Substances 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 241000894007 species Species 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013499 data model Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 235000012054 meals Nutrition 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/12—Hotels or restaurants
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Tourism & Hospitality (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Economics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供了基于酒店场景的声纹识别方法、系统、设备及存储介质,该方法包括:建立酒店员工的声纹库,包括每个酒店员工的智能穿戴设备的编号与酒店员工的声纹特征的映射关系表;基于酒店员工的智能穿戴设备采集环境音频流;对环境音频流进行人声提取,获得若干个人声音频片段,并组成人声音频序列;基于声纹库在人声音频序列中确定酒店员工的人声音频片段,并分离出酒店客人人声音频片段,分别进行语音识别获得场景对话文本,基于场景对话文本生成一酒店服务任务。本发明能够基于酒店场景进行定制化分析,通过声纹识别的结果的深度分析,将其价值最大化,实现服务流程的智能化改造,减少人力成本,提升用户的入住体验。
Description
技术领域
本发明涉及酒店管理领域,具体地说,涉及基于酒店场景的声纹识别方法、系统、设备及存储介质。
背景技术
随着酒店行业的发展,越来越多的酒店集团化演进发展,与此同时,服务能力的整合也是必然的趋势。
当前市面上很多具备声纹识别的智能设备,包括智能音箱、智能门锁等智能终端。其使用者大多是个人消费者,本发明中的声纹识别设备和方法,则专门用于酒店对公场景,并且识别难度更大,识别范围更广。
展开讲,目前的声纹识别设备存在的限制:
1、很多声纹设备是文本相关的,也就是说用户每次都要说相同的文字才能识别。
2、一般设备声纹识别的距离大多在1-2米。
3、同时智能识别1个或是少量人员的声纹信息,无法自动化扩展。
4、无法做到多人、跨距离的复杂场景的自动声纹匹配。
5、只会用于鉴别身份,没有配合说话内容进行进一步分析。
因此,本发明提供了一种基于酒店场景的声纹识别方法、系统、设备及存储介质。
发明内容
针对现有技术中的问题,本发明的目的在于提供基于酒店场景的声纹识别方法、系统、设备及存储介质,克服了现有技术的困难,能够基于酒店场景进行定制化分析,通过声纹识别的结果的深度分析,将其价值最大化,实现服务流程的智能化改造,减少人力成本,提升用户的入住体验。
本发明的实施例提供一种基于酒店场景的声纹识别方法,包括以下步骤:
建立酒店员工的声纹库,包括每个所述酒店员工的智能穿戴设备的编号与所述酒店员工的声纹特征的映射关系表;
基于酒店员工的智能穿戴设备采集环境音频流;
对所述环境音频流进行人声提取,获得若干个人声音频片段,并组成人声音频序列;
基于所述声纹库在所述人声音频序列中确定所述酒店员工的人声音频片段,并分离出酒店客人人声音频片段,分别进行语音识别获得场景对话文本,基于所述场景对话文本生成一酒店服务任务。
优选地,所述建立酒店员工的声纹库,包括每个所述酒店员工的智能穿戴设备的编号与所述酒店员工的声纹特征的映射关系表,包括:
每个所述酒店员工通过各自的智能穿戴设备录制各自的音频并发送到酒店服务器;
所述酒店服务器对所述音频提取声纹特征;以及
建立酒店员工的声纹库,包括每个所述酒店员工的智能穿戴设备的编号、所述酒店员工的工作场景所对应的至少一预设酒店服务任务、与所述酒店员工的声纹特征的映射关系表。
优选地,所述建立酒店员工的声纹库,包括每个所述酒店员工的智能穿戴设备的编号与所述酒店员工的声纹特征的映射关系表,还包括:
所述智能穿戴设备是一个具有录音以及网络传输功能的员工胸牌。
优选地,所述基于酒店员工的智能穿戴设备采集环境音频流,包括:
基于酒店员工的智能穿戴设备基于所述酒店员工的预设工作时间,采集所述酒店员工所在场所的环境音频流。
优选地,所述对所述环境音频流进行人声提取,获得若干个人声音频片段,并组成人声音频序列,包括:
对所述环境音频流进行人声提取,获得若干个人声音频片段;以及
基于所述人声音频片段在所述环境音频流中的时序组成人声音频序列。
优选地,所述基于所述声纹库在所述人声音频序列中确定所述酒店员工的人声音频片段,并分离出酒店客人人声音频片段,分别进行语音识别获得场景对话文本,基于所述场景对话文本生成一酒店服务任务,包括:
基于所述声纹库通过声纹比对模型对所述人声音频片段进行声纹识别,至少获得属于所述智能穿戴对应的酒店员工的人声音频片段,并通过经过训练的酒店员工语音识别模型进行声纹识别和文本,获得所述人声音频片段的第一语音文本片段以及对应所述的酒店员工;
将未被识别出的人声音频片段以及在所述人声音频序列时序前后的第一语音文本片段输入通过经过训练的酒店场景语音识别模型,获得第二语音文本片段;
基于所述人声音频序列的顺序排列所述第一语音文本片段和第二语音文本片段,生成所述酒店员工与酒店客人的场景对话文本;以及
至少基于所述对话文本的内容生成一酒店服务任务。
优选地,所述至少基于所述对话文本的内容生成一酒店服务任务,包括:
将所述对话文本的内容和所述对话文本中酒店员工的对应的预设酒店服务任务输入一经过训练的酒店任务生成模型;
基于所述对话文本与所述预设酒店服务任务的关联性,增加所述酒店任务生成模型中所述预设酒店服务任务的置信度;
根据输出置信度最高的一酒店服务任务;以及
将所述酒店服务任务发送到对应的酒店服务部门。
本发明的实施例还提供一种基于酒店场景的声纹识别系统,用于实现上述的基于酒店场景的声纹识别方法,所述基于酒店场景的声纹识别系统包括:
声纹库建立模块,建立酒店员工的声纹库,包括每个所述酒店员工的智能穿戴设备的编号与所述酒店员工的声纹特征的映射关系表;
音频流采集模块,基于酒店员工的智能穿戴设备采集环境音频流;
人声提取模块,对所述环境音频流进行人声提取,获得若干个人声音频片段,并组成人声音频序列;
服务任务模块,基于所述声纹库在所述人声音频序列中确定所述酒店员工的人声音频片段,并分离出酒店客人人声音频片段,分别进行语音识别获得场景对话文本,基于所述场景对话文本生成一酒店服务任务。
本发明的实施例还提供一种基于酒店场景的声纹识别设备,包括:
处理器;
存储器,其中存储有所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行上述基于酒店场景的声纹识别方法的步骤。
本发明的实施例还提供一种计算机可读存储介质,用于存储程序,所述程序被执行时实现上述基于酒店场景的声纹识别方法的步骤。
本发明的目的在于提供基于酒店场景的声纹识别方法、系统、设备及存储介质,能够基于酒店场景进行定制化分析,通过声纹识别的结果的深度分析,将其价值最大化,实现服务流程的智能化改造,减少人力成本,提升用户的入住体验。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显。
图1是本发明的基于酒店场景的声纹识别方法的流程图。
图2是本发明的基于酒店场景的声纹识别方法的一种实施过程示意图。
图3至7是本发明的基于酒店场景的声纹识别方法的另一种实施过程示意图。
图8是本发明的基于酒店场景的声纹识别系统的模块示意图。
图9是本发明的基于酒店场景的声纹识别设备的结构示意图。
图10是本发明一实施例的计算机可读存储介质的结构示意图。
具体实施方式
以下通过特定的具体实例说明本申请的实施方式,本领域技术人员可由本申请所揭露的内容轻易地了解本申请的其他优点与功效。本申请还可以通过另外不同的具体实施方式加以实施或应用系统,本申请中的各项细节也可以根据不同观点与应用系统,在没有背离本申请的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
下面以附图为参考,针对本申请的实施例进行详细说明,以便本申请所属技术领域的技术人员能够容易地实施。本申请可以以多种不同形态体现,并不限定于此处说明的实施例。
在本申请的表示中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的表示意指结合该实施例或示例表示的具体特征、结构、材料或者特点包括于本申请的至少一个实施例或示例中。而且,表示的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本申请中表示的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于表示目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本申请的表示中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
为了明确说明本申请,省略与说明无关的器件,对于通篇说明书中相同或类似的构成要素,赋予了相同的参照符号。
在通篇说明书中,当说某器件与另一器件“连接”时,这不仅包括“直接连接”的情形,也包括在其中间把其它元件置于其间而“间接连接”的情形。另外,当说某种器件“包括”某种构成要素时,只要没有特别相反的记载,则并非将其它构成要素排除在外,而是意味着可以还包括其它构成要素。
当说某器件在另一器件“之上”时,这可以是直接在另一器件之上,但也可以在其之间伴随着其它器件。当对照地说某器件“直接”在另一器件“之上”时,其之间不伴随其它器件。
虽然在一些实例中术语第一、第二等在本文中用来表示各种元件,但是这些元件不应当被这些术语限制。这些术语仅用来将一个元件与另一个元件进行区分。例如,第一接口及第二接口等表示。再者,如同在本文中所使用的,单数形式“一”、“一个”和“该”旨在也包括复数形式,除非上下文中有相反的指示。应当进一步理解,术语“包含”、“包括”表明存在的特征、步骤、操作、元件、组件、项目、种类、和/或组,但不排除一个或多个其他特征、步骤、操作、元件、组件、项目、种类、和/或组的存在、出现或添加。此处使用的术语“或”和“和/或”被解释为包括性的,或意味着任一个或任何组合。因此,“A、B或C”或者“A、B和/或C”意味着“以下任一个:A;B;C;A和B;A和C;B和C;A、B和C”。仅当元件、功能、步骤或操作的组合在某些方式下内在地互相排斥时,才会出现该定义的例外。
此处使用的专业术语只用于言及特定实施例,并非意在限定本申请。此处使用的单数形态,只要语句未明确表示出与之相反的意义,那么还包括复数形态。在说明书中使用的“包括”的意义是把特定特性、区域、整数、步骤、作业、要素及/或成份具体化,并非排除其它特性、区域、整数、步骤、作业、要素及/或成份的存在或附加。
虽然未不同地定义,但包括此处使用的技术术语及科学术语,所有术语均具有与本申请所属技术领域的技术人员一般理解的意义相同的意义。普通使用的字典中定义的术语追加解释为具有与相关技术文献和当前提示的内容相符的意义,只要未进行定义,不得过度解释为理想的或非常公式性的意义。
图1是本发明的基于酒店场景的声纹识别方法的流程图。如图1所示,本发明的实施例提供一种基于酒店场景的声纹识别方法,包括以下步骤:
S110、建立酒店员工的声纹库,包括每个酒店员工的智能穿戴设备的编号与酒店员工的声纹特征的映射关系表。
S120、基于酒店员工的智能穿戴设备采集环境音频流。
S130、对环境音频流进行人声提取,获得若干个人声音频片段,并组成人声音频序列。
S140、基于声纹库在人声音频序列中确定酒店员工的人声音频片段,并分离出酒店客人人声音频片段,分别进行语音识别获得场景对话文本,基于场景对话文本生成一酒店服务任务。
在一个优选实施例中,步骤S110包括:
S111、每个酒店员工通过各自的智能穿戴设备录制各自的音频并发送到酒店服务器。
S112、酒店服务器对音频提取声纹特征。以及
S113、建立酒店员工的声纹库,包括每个酒店员工的智能穿戴设备的编号、酒店员工的工作场景所对应的至少一预设酒店服务任务、与酒店员工的声纹特征的映射关系表。
在一个优选实施例中,步骤S110还包括:智能穿戴设备是一个具有录音以及网络传输功能的员工胸牌。
在一个优选实施例中,步骤S120包括:
S121、基于酒店员工的智能穿戴设备基于酒店员工的预设工作时间,采集酒店员工所在场所的环境音频流。
在一个优选实施例中,步骤S130包括:
S131、对环境音频流进行人声提取,获得若干个人声音频片段。以及
S132、基于人声音频片段在环境音频流中的时序组成人声音频序列。
在一个优选实施例中,步骤S140包括:
S141、基于声纹库通过声纹比对模型对人声音频片段进行声纹识别,至少获得属于智能穿戴对应的酒店员工的人声音频片段,并通过经过训练的酒店员工语音识别模型进行声纹识别和文本,获得人声音频片段的第一语音文本片段以及对应的酒店员工。酒店员工语音识别模型可采用现有的声纹特征识别模型,但不以此为限。按照待识别语音的文本内容,可以把声纹识别划分为以下三种:文本无关、文本相关和文本限定。声纹识别根据实际的应用范畴,分为声纹辨认和声纹确认。这两类任务的识别目标略有不同,声纹辨认是指判定待测试语音属于目标说话人模型集合中哪一个人,是【1:N】的选择问题。对于声纹识别辨认来说,根据测试识别来自说话人范围的不同,说话人辨认就又可以划分为闭集识别和开集识别。而声纹确认是确定待识别的一段语音是否来自其所声明的目标说话人,是一个【1:1】的判决问题。本发明中的步骤S141是与声纹库中智能穿戴对应的酒店员工进行声纹确认,同时,还通过声纹库中其他的酒店员工的声纹特征进行声纹辨认。
S142、将未被识别出的人声音频片段以及在人声音频序列时序前后的第一语音文本片段输入通过经过训练的酒店场景语音识别模型,获得第二语音文本片段。酒店场景语音识别模型可选用现有的语音识别模型,采用酒店场景对话文本进行训练,但不以此为限。
S143、基于人声音频序列的顺序排列第一语音文本片段和第二语音文本片段,生成酒店员工与酒店客人的场景对话文本。以及
S144、至少基于对话文本的内容生成一酒店服务任务。
在一个优选实施例中,步骤S144包括:
S1441、将对话文本的内容和对话文本中酒店员工的对应的预设酒店服务任务输入一经过训练的酒店任务生成模型。本实施例中的酒店任务生成模型是一个经过训练的基于对话文本的输入,通过神经网络,来输出预设的酒店服务任务(送餐、订票等等)中的一个的大数据模型,但不以此为限。
S1442、基于对话文本与预设酒店服务任务的关联性,增加酒店任务生成模型中预设酒店服务任务的置信度。
S1443、根据输出置信度最高的一酒店服务任务。
S1444、将酒店服务任务发送到对应的酒店服务部门。
由于使用了上述技术方案,本发明中改进点如下:
(1)声纹注册,获得每位员工的录音信息,可以随便说话一分钟,不限制说话的内容
(2)自动提取有效录音
(3)计算声纹特征,存储到声纹库中,并且设定声纹ID
(4)集成到很多录音设别中,实时监听环境人声
(5)自动提取有效人声,并将不同的人声进行分离
(6)对分离后的每个人声,自动匹配声纹库中的ID,得到对应的身份
(7)通过语音识别,获得对应到每个员工的说话信息
(8)根据已有声纹库排除员工,在根据具体的语境,判断客人的说话信息
(9)对每位员工的服务质量进行监控,同时分析客户的反馈
图2是本发明的基于酒店场景的声纹识别方法的一种实施过程示意图。如图2所示,本发明的另一种具体实施方式如下:
酒店员工进行声纹注册时,不在需要固定话术注册,使用体验更加人性化。同时声纹注册也只需要一次,不用反馈注册多次,才能确认入库。更加智能化。然后通过静音检测(VAD)和语音质量检测(包括信噪比、截幅大小、音量大小等)进行有效音频提取后进行声纹特征的提取。
后续现场采集时也可以经过静音检测(VAD)和语音质量检测(包括信噪比、截幅大小、音量大小等)进行有效音频提取后,通过现有的声纹特征比对算法来获得比对结果。
该声纹技术可以应用多种智能设备,不仅包含近距离录音设备,比如佩戴在服务人员胸口的小型录音设备,还可以装载于录音范围更大的智能拾音器、智能音箱当中。同样,支持开放场景的录音设备,人声近3-5米范围都可以处理和分析。
声纹库具有足够的扩展性,只要计算和存储资源充足,可以无限量注册声纹ID,并且注册分析时自动过滤了无效杂音。
支持多个人同时说话、多人跨距离说话的复杂场景的自动声纹匹配,其中使用的方法就是精准人声识别、说话分离技术。通过这两项技术可以扩大声纹识别的应用范围。
因为本发明应用的设别并非个人消费中,所以再完成声纹识别之后,还会进行自动语音识别,并结合具体的业务场景和需求,对服务人员、管理人员、客人等角色的说话内容进行深度分析。
本发明中提出的声纹识别方法和应用设备具备以下特征:
1、具备了大范围的人员身份存储和判断,同时维护成本很低,使用体验也很智能化。
2、尤其是在自动声纹匹配环境,可以做到嘈杂环境下,多人复杂场景的分离和精准匹配识别
3、可以根据具体的场景进行定制化分析,通过声纹识别的结果的深度分析,将其价值最大化。
图3至7是本发明的基于酒店场景的声纹识别方法的另一种实施过程示意图。如图3至7所示,本发明的另一种具体实施方式如下:
令每个酒店员工通过各自的员工胸牌1录制各自的音频并发送到酒店服务器。员工胸牌1具有录音以及网络传输功能。酒店服务器对音频提取声纹特征。建立酒店员工的声纹库,包括每个酒店员工的员工胸牌1的编号、酒店员工的工作场景所对应的至少一预设酒店服务任务、与酒店员工的声纹特征的映射关系表。
参见图3,基于酒店员工的员工胸牌1基于酒店员工的预设工作时间,采集酒店员工所在场所的环境音频流2。
参见图4、5,对环境音频流进行人声提取,获得属于员工胸牌1所属酒店员工11的三个个人声音频片段21、22、23,以及酒店员工13的个人声音频片段26,酒店客人(即非酒店员工,不属于酒店声纹库中任一声纹特征)的个人声音频片段24、25。基于人声音频片段在环境音频流中的时序组成人声音频序列,人声音频序列为依序排列的个人声音频片段21、个人声音频片段24、个人声音频片段22、个人声音频片段26、个人声音频片段25、个人声音频片段23。
参见图6、7,基于声纹库通过声纹比对模型对人声音频片段进行声纹识别,至少获得属于智能穿戴对应的酒店员工的人声音频片段,并通过经过训练的酒店员工语音识别模型进行声纹识别和文本,获得人声音频片段的第一语音文本片段以及对应的酒店员工。将未被识别出的人声音频片段以及在人声音频序列时序前后的第一语音文本片段输入通过经过训练的酒店场景语音识别模型,获得第二语音文本片段。基于人声音频序列的顺序排列第一语音文本片段和第二语音文本片段,生成酒店员工11与酒店客人12的场景对话文本。至少基于对话文本的内容生成一酒店服务任务,包括:将对话文本的内容和对话文本中酒店员工11的对应的预设酒店服务任务(例如:酒店员工11为酒店大堂员工,则会为包含酒店员工11的对话文本增加酒店大堂类的预设酒店服务任务的置信度)输入一经过训练的酒店任务生成模型。基于对话文本与预设酒店服务任务的关联性,增加酒店任务生成模型中预设酒店服务任务的置信度,从而增加酒店服务任务识别的准确性。最后,根据输出置信度最高的一酒店服务任务3(酒店前台将501房间客人的行李运到501房间)。将酒店服务任务发(酒店前台将501房间客人的行李运到501房间)送到对应的酒店服务部门(酒店前台)。
图8是本发明的基于酒店场景的声纹识别系统的模块示意图。如图8所示,本发明的实施例还提供一种基于酒店场景的声纹识别系统,用于实现上述的基于酒店场景的声纹识别方法,基于酒店场景的声纹识别系统包括:
声纹库建立模块51,建立酒店员工的声纹库,包括每个酒店员工的智能穿戴设备的编号与酒店员工的声纹特征的映射关系表。
音频流采集模块52,基于酒店员工的智能穿戴设备采集环境音频流。
人声提取模块53,对环境音频流进行人声提取,获得若干个人声音频片段,并组成人声音频序列。
服务任务模块54,基于声纹库在人声音频序列中确定酒店员工的人声音频片段,并分离出酒店客人人声音频片段,分别进行语音识别获得场景对话文本,基于场景对话文本生成一酒店服务任务。
S110、建立酒店员工的声纹库,包括每个酒店员工的智能穿戴设备的编号与酒店员工的声纹特征的映射关系表。
S120、基于酒店员工的智能穿戴设备采集环境音频流。
S130、对环境音频流进行人声提取,获得若干个人声音频片段,并组成人声音频序列。
S140、基于声纹库在人声音频序列中确定酒店员工的人声音频片段,并分离出酒店客人人声音频片段,分别进行语音识别获得场景对话文本,基于场景对话文本生成一酒店服务任务。
在一个优选实施例中,声纹库建立模块51被配置为令每个酒店员工通过各自的智能穿戴设备录制各自的音频并发送到酒店服务器。酒店服务器对音频提取声纹特征。建立酒店员工的声纹库,包括每个酒店员工的智能穿戴设备的编号、酒店员工的工作场景所对应的至少一预设酒店服务任务、与酒店员工的声纹特征的映射关系表。
在一个优选实施例中,智能穿戴设备是一个具有录音以及网络传输功能的员工胸牌。
在一个优选实施例中,音频流采集模块52被配置为基于酒店员工的智能穿戴设备基于酒店员工的预设工作时间,采集酒店员工所在场所的环境音频流。
在一个优选实施例中,人声提取模块53被配置为对环境音频流进行人声提取,获得若干个人声音频片段。基于人声音频片段在环境音频流中的时序组成人声音频序列。
在一个优选实施例中,服务任务模块54被配置为基于声纹库通过声纹比对模型对人声音频片段进行声纹识别,至少获得属于智能穿戴对应的酒店员工的人声音频片段,并通过经过训练的酒店员工语音识别模型进行声纹识别和文本,获得人声音频片段的第一语音文本片段以及对应的酒店员工。将未被识别出的人声音频片段以及在人声音频序列时序前后的第一语音文本片段输入通过经过训练的酒店场景语音识别模型,获得第二语音文本片段。基于人声音频序列的顺序排列第一语音文本片段和第二语音文本片段,生成酒店员工与酒店客人的场景对话文本。至少基于对话文本的内容生成一酒店服务任务,包括:将对话文本的内容和对话文本中酒店员工的对应的预设酒店服务任务输入一经过训练的酒店任务生成模型。基于对话文本与预设酒店服务任务的关联性,增加酒店任务生成模型中预设酒店服务任务的置信度。根据输出置信度最高的一酒店服务任务。将酒店服务任务发送到对应的酒店服务部门。
本发明的基于酒店场景的声纹识别系统能够基于酒店场景进行定制化分析,通过声纹识别的结果的深度分析,将其价值最大化,实现服务流程的智能化改造,减少人力成本,提升用户的入住体验。
本发明实施例还提供一种基于酒店场景的声纹识别设备,包括处理器。存储器,其中存储有处理器的可执行指令。其中,处理器配置为经由执行可执行指令来执行的基于酒店场景的声纹识别方法的步骤。
如上所示,该实施例本发明的基于酒店场景的声纹识别系统能够基于酒店场景进行定制化分析,通过声纹识别的结果的深度分析,将其价值最大化,实现服务流程的智能化改造,减少人力成本,提升用户的入住体验。
所属技术领域的技术人员能够理解,本发明的各个方面可以实现为系统、方法或程序产品。因此,本发明的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“平台”。
图9是本发明的基于酒店场景的声纹识别设备的结构示意图。下面参照图9来描述根据本发明的这种实施方式的电子设备600。图9显示的电子设备600仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图9所示,电子设备600以通用计算设备的形式表现。电子设备600的组件可以包括但不限于:至少一个处理单元610、至少一个存储单元620、连接不同平台组件(包括存储单元620和处理单元610)的总线630、显示单元640等。
其中,存储单元存储有程序代码,程序代码可以被处理单元610执行,使得处理单元610执行本说明书上述电子处方流转处理方法部分中描述的根据本发明各种示例性实施方式的步骤。例如,处理单元610可以执行如图1中所示的步骤。
存储单元620可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(RAM)6201和/或高速缓存存储单元6202,还可以进一步包括只读存储单元(ROM)6203。
存储单元620还可以包括具有一组(至少一个)程序模块6205的程序/实用工具6204,这样的程序模块6205包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
总线630可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任一总线结构的局域总线。
电子设备600也可以与一个或多个外部设备700(例如键盘、指向设备、蓝牙设备等)通信,还可与一个或者多个使得用户能与该电子设备600交互的设备通信,和/或与使得该电子设备600能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口650进行。并且,电子设备600还可以通过网络适配器660与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。网络适配器660可以通过总线630与电子设备600的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备600使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储平台等。
本发明实施例还提供一种计算机可读存储介质,用于存储程序,程序被执行时实现的基于酒店场景的声纹识别方法的步骤。在一些可能的实施方式中,本发明的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当程序产品在终端设备上运行时,程序代码用于使终端设备执行本说明书上述电子处方流转处理方法部分中描述的根据本发明各种示例性实施方式的步骤。
如上所示,该实施例本发明的基于酒店场景的声纹识别系统能够基于酒店场景进行定制化分析,通过声纹识别的结果的深度分析,将其价值最大化,实现服务流程的智能化改造,减少人力成本,提升用户的入住体验。
图10是本发明的计算机可读存储介质的结构示意图。参考图10所示,描述了根据本发明的实施方式的用于实现上述方法的程序产品800,其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在终端设备,例如个人电脑上运行。然而,本发明的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
程序产品可以采用一个或多个可读介质的任一组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任一以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任一合适的组合。
计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任一合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任一合适的组合。
可以以一种或多种程序设计语言的任一组合来编写用于执行本发明操作的程序代码,程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任一种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
综上,本发明的目的在于提供基于酒店场景的声纹识别方法、系统、设备及存储介质,能够基于酒店场景进行定制化分析,通过声纹识别的结果的深度分析,将其价值最大化,实现服务流程的智能化改造,减少人力成本,提升用户的入住体验。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。
Claims (10)
1.一种基于酒店场景的声纹识别方法,其特征在于,包括以下步骤:
建立酒店员工的声纹库,包括每个所述酒店员工的智能穿戴设备的编号与所述酒店员工的声纹特征的映射关系表;
基于酒店员工的智能穿戴设备采集环境音频流;
对所述环境音频流进行人声提取,获得若干个人声音频片段,并组成人声音频序列;
基于所述声纹库在所述人声音频序列中确定所述酒店员工的人声音频片段,并分离出酒店客人人声音频片段,分别进行语音识别获得场景对话文本,基于所述场景对话文本生成一酒店服务任务。
2.如权利要求1所述的基于酒店场景的声纹识别方法,其特征在于,所述建立酒店员工的声纹库,包括每个所述酒店员工的智能穿戴设备的编号与所述酒店员工的声纹特征的映射关系表,包括:
每个所述酒店员工通过各自的智能穿戴设备录制各自的音频并发送到酒店服务器;
所述酒店服务器对所述音频提取声纹特征;以及
建立酒店员工的声纹库,包括每个所述酒店员工的智能穿戴设备的编号、所述酒店员工的工作场景所对应的至少一预设酒店服务任务、与所述酒店员工的声纹特征的映射关系表。
3.如权利要求1所述的基于酒店场景的声纹识别方法,其特征在于,所述建立酒店员工的声纹库,包括每个所述酒店员工的智能穿戴设备的编号与所述酒店员工的声纹特征的映射关系表,还包括:
所述智能穿戴设备是一个具有录音以及网络传输功能的员工胸牌。
4.如权利要求1所述的基于酒店场景的声纹识别方法,其特征在于,所述基于酒店员工的智能穿戴设备采集环境音频流,包括:
基于酒店员工的智能穿戴设备基于所述酒店员工的预设工作时间,采集所述酒店员工所在场所的环境音频流。
5.如权利要求4所述的基于酒店场景的声纹识别方法,其特征在于,所述对所述环境音频流进行人声提取,获得若干个人声音频片段,并组成人声音频序列,包括:
对所述环境音频流进行人声提取,获得若干个人声音频片段;以及
基于所述人声音频片段在所述环境音频流中的时序组成人声音频序列。
6.如权利要求2所述的基于酒店场景的声纹识别方法,其特征在于,所述基于所述声纹库在所述人声音频序列中确定所述酒店员工的人声音频片段,并分离出酒店客人人声音频片段,分别进行语音识别获得场景对话文本,基于所述场景对话文本生成一酒店服务任务,包括:
基于所述声纹库通过声纹比对模型对所述人声音频片段进行声纹识别,至少获得属于所述智能穿戴对应的酒店员工的人声音频片段,并通过经过训练的酒店员工语音识别模型进行声纹识别和文本,获得所述人声音频片段的第一语音文本片段以及对应所述的酒店员工;
将未被识别出的人声音频片段以及在所述人声音频序列时序前后的第一语音文本片段输入通过经过训练的酒店场景语音识别模型,获得第二语音文本片段;
基于所述人声音频序列的顺序排列所述第一语音文本片段和第二语音文本片段,生成所述酒店员工与酒店客人的场景对话文本;以及
至少基于所述对话文本的内容生成一酒店服务任务。
7.如权利要求6所述的基于酒店场景的声纹识别方法,其特征在于,所述至少基于所述对话文本的内容生成一酒店服务任务,包括:
将所述对话文本的内容和所述对话文本中酒店员工的对应的预设酒店服务任务输入一经过训练的酒店任务生成模型;
基于所述对话文本与所述预设酒店服务任务的关联性,增加所述酒店任务生成模型中所述预设酒店服务任务的置信度;
根据输出置信度最高的一酒店服务任务;以及
将所述酒店服务任务发送到对应的酒店服务部门。
8.一种基于酒店场景的声纹识别系统,用于实现权利要求1所述的基于酒店场景的声纹识别方法,其特征在于,包括:
声纹库建立模块,建立酒店员工的声纹库,包括每个所述酒店员工的智能穿戴设备的编号与所述酒店员工的声纹特征的映射关系表;
音频流采集模块,基于酒店员工的智能穿戴设备采集环境音频流;
人声提取模块,对所述环境音频流进行人声提取,获得若干个人声音频片段,并组成人声音频序列;
服务任务模块,基于所述声纹库在所述人声音频序列中确定所述酒店员工的人声音频片段,并分离出酒店客人人声音频片段,分别进行语音识别获得场景对话文本,基于所述场景对话文本生成一酒店服务任务。
9.一种基于酒店场景的声纹识别设备,其特征在于,包括:
处理器;
存储器,其中存储有所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行权利要求1至7任意一项所述基于酒店场景的声纹识别方法的步骤。
10.一种计算机可读存储介质,用于存储程序,其特征在于,所述程序被处理器执行时实现权利要求1至7任意一项所述基于酒店场景的声纹识别方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210533019.7A CN114974255A (zh) | 2022-05-16 | 2022-05-16 | 基于酒店场景的声纹识别方法、系统、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210533019.7A CN114974255A (zh) | 2022-05-16 | 2022-05-16 | 基于酒店场景的声纹识别方法、系统、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114974255A true CN114974255A (zh) | 2022-08-30 |
Family
ID=82983930
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210533019.7A Pending CN114974255A (zh) | 2022-05-16 | 2022-05-16 | 基于酒店场景的声纹识别方法、系统、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114974255A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116935859A (zh) * | 2023-07-21 | 2023-10-24 | 河北华网计算机技术有限公司 | 一种声纹识别处理方法及系统 |
-
2022
- 2022-05-16 CN CN202210533019.7A patent/CN114974255A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116935859A (zh) * | 2023-07-21 | 2023-10-24 | 河北华网计算机技术有限公司 | 一种声纹识别处理方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107481720B (zh) | 一种显式声纹识别方法及装置 | |
US9230547B2 (en) | Metadata extraction of non-transcribed video and audio streams | |
US11315366B2 (en) | Conference recording method and data processing device employing the same | |
JP2018081297A (ja) | 音声データを処理するための方法及び装置 | |
CN112071322B (zh) | 一种端到端的声纹识别方法、装置、存储介质及设备 | |
CN109346088A (zh) | 身份识别方法、装置、介质及电子设备 | |
CN1936967A (zh) | 声纹考勤机 | |
CN109447232A (zh) | 机器人主动问询方法、装置、电子设备及存储介质 | |
CN107492153B (zh) | 考勤系统、方法、考勤服务器及考勤终端 | |
CN107463700A (zh) | 用于获取信息的方法、装置及设备 | |
CN112863529B (zh) | 基于对抗学习的说话人语音转换方法及相关设备 | |
CN107358947A (zh) | 说话人重识别方法及系统 | |
CN109063624A (zh) | 信息处理方法、系统、电子设备和计算机可读存储介质 | |
US20210233517A1 (en) | System and method for language-based service hailing | |
CN111554304A (zh) | 用户标签获取方法、装置及设备 | |
CN110782902A (zh) | 音频数据确定方法、装置、设备和介质 | |
CN109949798A (zh) | 基于音频的广告检测方法以及装置 | |
CN113947376A (zh) | 基于多重生物特征的c/s打卡方法和装置 | |
CN113807103A (zh) | 基于人工智能的招聘方法、装置、设备及存储介质 | |
CN114974255A (zh) | 基于酒店场景的声纹识别方法、系统、设备及存储介质 | |
CN109817223A (zh) | 基于音频指纹的音素标记方法及装置 | |
CN113326678A (zh) | 会议纪要的生成方法、装置、终端设备及计算机存储介质 | |
CN115831125A (zh) | 语音识别方法、装置、设备、存储介质及产品 | |
CN115206328A (zh) | 数据处理方法、装置和客服机器人 | |
CN110765242A (zh) | 一种客服信息的提供方法,装置及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |