CN113490011A

CN113490011A - 一种基于asr直播间气氛烘托系统及方法

Info

Publication number: CN113490011A
Application number: CN202110960218.1A
Authority: CN
Inventors: 马晨光
Original assignee: Unisound Shanghai Intelligent Technology Co Ltd
Current assignee: Unisound Shanghai Intelligent Technology Co Ltd
Priority date: 2021-08-20
Filing date: 2021-08-20
Publication date: 2021-10-08

Abstract

本发明公开了一种基于ASR直播间气氛烘托系统，包括ASR处理模块、词库模块、输入模块以及语音输出模块，所述ASR处理模块用于识别语音信息并将语音信息处理为文字信息；所述词库模块用于管理热词以及对应助播语句；所述输入模块用于热词库中热词以及对应的助播语句的输入；所述语音输出模块用于根据直播热词播放对应的助播语句。本发明结构设计合理，通过ASR技术识别系统定义的热词，在后台根据直播内容定义助播语句，并播放与热词对应的助播语句，并模拟多种人员音色，既达到烘托直播气氛的目的，又能达到减少人力成本的效果。

Description

一种基于ASR直播间气氛烘托系统及方法

技术领域

本发明涉及语音识别技术领域，尤其涉及一种基于ASR直播间气氛烘托系统及方法。

背景技术

语音识别是一个多学科交叉的领域，它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。由于语音信号的多样性和复杂性，语音识别系统只能在一定的限制条件下获得满意的性能，或者说只能应用于某些特定的场合。语音识别系统的性能大致取决于以下4类因素：识别词汇表的大小和语音的复杂性、语音信号的质量、单个说话人还是多说话人以及硬件因素。

目前国内各大直播平台兴起，在直播间直播的过程中，存在助播的角色，他们主要是通过喊话带动直播间氛围，激发客户下单。目前助播主要依靠人员来喊，人力成本极高，且助播体力消耗较大，存在一定缺陷。

发明内容

本发明的目的在于提供一种基于ASR直播间气氛烘托系统及方法，通过ASR技术识别系统定义的热词，在后台定义常用助播语句，烘托直播气氛，并模拟多种人员音色，从而达到替代人力减少成本效果。

本发明是这样实现的：

一种基于ASR直播间气氛烘托系统，包括ASR处理模块、词库模块、输入模块以及语音输出模块，所述ASR处理模块用于识别语音信息并将语音信息处理为文字信息；所述词库模块用于管理热词以及对应助播语句；所述输入模块用于热词库中热词以及对应的助播语句的输入；所述语音输出模块用于根据直播热词播放对应的助播语句。

所述ASR处理模块包括语音输入单元，所述语音输入单元连接有用于提取声音信号特征的编码单元，所述编码单元连接有用于将向量变成文字的解码单元，所述解码单元连接有输出文字信息的文字输出单元。

所述语音输入单元为麦克风。

所述ASR处理模块采用的声学模型为隐马尔可夫模型。

一种基于ASR直播间气氛烘托方法，其特征是：包括如下具体步骤：

S100、录入热词：根据直播内容，定义对应的直播热词，并将热词信息储存在热词库内；

S200、录入助播语句：根据直播内容，录入对应直播热词的助播语句，并将助播语句储存在热词库内；

S300、语音识别：在直播过程中，对主播的语音信息进行识别，转换为文字信息，将文字信息与热词库内的热词进行对比，识别文字信息是否为热词；

S400、播放助播语句：若识别的文字信息为热词，则调用热词库，通过语音输出模块，模仿多种音色播放热词库内对应的助播语句。

相较于现有技术，本发明具有如下有益效果：

(1)自动识别直播人员的语音内容，将语音内容转换为文字信息，并将文字信息与词库中的热词进行比对，识别其语音内容是否包含热词，同时调用热词库中与当前热词对应的助播语句，通过语音输出模块进行播放，以此烘托直播间的氛围，减少因人工喊话助播导致较高的人力成本，且避免人工喊话导致助播人员的较大体力消耗；

(2)可根据直播内容，自定义热词与对应的助播语句，以应付多种场景，且语音输出模块可模拟多种音色，功能性好、智能性高。

附图说明

图1是本发明基于ASR直播间气氛烘托系统的整体结构框图；

图2是本发明基于ASR直播间气氛烘托系统的ASR处理模块结构框图；

图3是本发明基于ASR直播间气氛烘托方法的整体流程图；

图4是本发明基于ASR直播间气氛烘托方法语音识别工作流程框图。

图中，1、ASR处理模块；2、词库模块；3、输入模块；4、语音输出模块；5、语音输入单元；6、编码单元；7、解码单元；8、文字输出单元。

具体实施方式

下面结合附图和具体实施例对本发明作进一步说明。

请参见附图1，一种基于ASR直播间气氛烘托系统，包括ASR处理模块1、词库模块2、输入模块3以及语音输出模块4，所述ASR处理模块1用于识别语音信息并将语音信息处理为文字信息；所述词库模块2用于管理热词以及对应助播语句；所述输入模块3用于热词库中热词以及对应的助播语句的输入；所述语音输出模块4用于根据直播热词播放对应的助播语句。

通过输入模块3向词库模块2录入、添加热词，并添加与热词对应的助播语句，在直播过程中，通过ASR处理模块1对直播人员的语音进行识别处理，将语音信息转换为文字信息，并将文字信息与词库模块2内的热词进行比对，如果文字信息与热词词库中的热词一致，则将词库中与热词对应的助播语句通过语音输出模块4输出，语音输出模块4模拟多种音色对助播语句进行朗读，以达到烘托直播间气氛的目的。

如图2所示，所述ASR处理模块1包括语音输入单元5，所述语音输入单元5连接有用于提取声音信号特征的编码单元6，所述编码单元6连接有用于将向量变成文字的解码单元7，所述解码单元7连接有输出文字信息的文字输出单元8。在本实施方式中，直播人员通过语音输入单元5实现语音输入，并将语音信息转换为电信号，通过声学模型将其转化成数字信号，并对其中的特征进行提取，编码时，会将声音切成很小的片段，成为帧，类似于视频中最小时间单位的帧，帧和帧之间会有一定的重叠，对于得到的每一帧，按照人耳听声的特定的MCFF规则，提取其中的特征，转成多维向量，向量中的每一个维度可以看作是这一帧中的特征，解码过程是解码单元7将得到的向量变成文字的过程，其中用到两个模型声学模型和语言模型，声学模型是将特征向量转化成单个字母(中文的拼音声母和韵母)，成为音素，语言模型是将音素拼接起来成为单词或者汉字，随后将文字信息输出至词库模块2。

所述语音输入单元5为麦克风。在本实施方式中，麦克风，学名为传声器，也称话筒，微音器，麦克风是将声音信号转换为电信号的能量转换器件。分类有动圈式、电容式、驻极体和最近新兴的硅微传声器，此外还有液体传声器和激光传声器，大多数麦克风都是驻极体电容器麦克风，其的工作原理是利用具有永久电荷隔离的聚合材料振动膜。

所述ASR处理模块1采用的声学模型为隐马尔可夫模型。在本实施方式中，隐马尔可夫模型是统计模型，它用来描述一个含有隐含未知参数的马尔可夫过程，其难点是从可观察的参数中确定该过程的隐含参数，然后利用这些参数来作进一步的分析，例如模式识别，如今主流语音识别系统都采用隐马尔科夫模型作为声学模型，这是因为隐马尔可夫模型具有很多优良特性。隐马尔可夫模型的状态跳转模型很适合人类语音的短时平稳特性，可以对不断产生的观测值(语音信号)进行方便的统计建模；与神经网络相伴生的动态规划算法可以有效地实现对可变长度的时间序列进行分段和分类的功能。

如图3所示，一种基于ASR直播间气氛烘托方法，其特征是：包括如下具体步骤：

S400、播放助播语句：若识别的文字信息为热词，则调用热词库，通过语音输出模块4，模仿多种音色播放热词库内对应的助播语句。

对于步骤S100、录入热词：根据直播内容，定义对应的直播热词，并将热词信息储存在热词库内。具体的，通过输入模块3实现热词录入、添加，输入模块3为具有文字输入功能的设备，例如键盘、手写板等；根据直播内容，添加对应的热词。

对于步骤S200、录入助播语句：根据直播内容，录入对应直播热词的助播语句，并将助播语句储存在热词库内。具体的，通过输入模块3实现与热词对应的助播语句的录入、添加，根据直播内容，添加对应的助播语句。

对于步骤S300、语音识别：在直播过程中，对主播的语音信息进行识别，转换为文字信息，将文字信息与热词库内的热词进行对比，识别文字信息是否为热词。具体的，通过ASR处理模块1对直播人员的语音进行转换，使电信号转换为数字信号，编码单元6对数字信号进编码，提取信号特征，随后通过解码单元7，对信号特征向量进行解码还原，将语音转换为文字信息，将文字信息与词库模块2中存储的热词进行比对，识别当前语音是否为热词。

对于步骤S400、播放助播语句：若识别的文字信息为热词，则调用热词库，通过语音输出模块4，模仿多种音色播放热词库内对应的助播语句。具体的，词库模块2将文字输出单元8输出的文字信息与热词库内的热词进行比对，判断文字信息是否为热词，如为热词，则调用热词库内与此热词对应的助播语句，通过语音输出模块4，播放对应的助播语句，以达到烘托直播气氛的目的。

如图4所示，为本发明一种基于ASR直播间气氛烘托方法语音识别工作流程框图，其具体步骤包括：

①当直播间处于直播状态时，ASR处理模块1处于正常工作状态；

②通过输入模块3对词库模块2中的热词进行输入并定义，并在词库中添加对应的助播语句；

③ASR处理模块1对直播人员的语音进行识别处理，转换为文字信息，将文字信息与词库中的热词进行比对，识别直播人员是否说出热词，如识别到热词，则通过词库模块2调用词库中与此热词对应的助播语句；

④判断直播是否结束，若直播进行中，则ASR处理模块1、词库模块2以及语音输出模块4均正常工作，若直播结束，则上述模块均停止运行。

在工作时，先根据直播内容，通过输入模块3向词库模块2录入、添加热词，并添加与热词对应的助播语句，在直播过程中，通过ASR处理模块1对直播人员的语音进行识别处理，将语音信息转换为文字信息，并将文字信息与词库模块2内的热词进行比对，如果文字信息与热词词库中的热词一致，则将词库中与热词对应的助播语句通过语音输出模块4输出，语音输出模块4模拟多种音色对助播语句进行朗读，以达到烘托直播间气氛的目的。

以上仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围，因此，凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于ASR直播间气氛烘托系统，包括ASR处理模块、词库模块、输入模块以及语音输出模块；

其特征在于：所述ASR处理模块用于识别语音信息并将语音信息处理为文字信息；所述词库模块用于管理热词以及对应助播语句；所述输入模块用于热词库中热词以及对应的助播语句的输入；所述语音输出模块用于根据直播热词播放对应的助播语句。

2.根据权利要求1所述的基于ASR直播间气氛烘托系统，其特征是：所述ASR处理模块包括语音输入单元，所述语音输入单元连接有用于提取声音信号特征的编码单元，所述编码单元连接有用于将向量变成文字的解码单元，所述解码单元连接有输出文字信息的文字输出单元。

3.根据权利要求2所述的基于ASR直播间气氛烘托系统，其特征是：所述语音输入单元为麦克风。

4.根据权利要求1所述的基于ASR直播间气氛烘托系统，其特征是：所述ASR处理模块采用的声学模型为隐马尔可夫模型。

5.一种基于ASR直播间气氛烘托方法，其特征是：包括如下具体步骤：