CN109065052A - 一种语音机器人 - Google Patents
一种语音机器人 Download PDFInfo
- Publication number
- CN109065052A CN109065052A CN201811311809.0A CN201811311809A CN109065052A CN 109065052 A CN109065052 A CN 109065052A CN 201811311809 A CN201811311809 A CN 201811311809A CN 109065052 A CN109065052 A CN 109065052A
- Authority
- CN
- China
- Prior art keywords
- voice
- businessman
- speech
- user
- interactive
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000002452 interceptive effect Effects 0.000 claims abstract description 74
- 238000000034 method Methods 0.000 claims abstract description 38
- 238000004891 communication Methods 0.000 claims abstract description 8
- 238000012545 processing Methods 0.000 claims description 16
- 230000008569 process Effects 0.000 claims description 13
- 230000003993 interaction Effects 0.000 claims description 11
- 230000015572 biosynthetic process Effects 0.000 claims description 6
- 238000003786 synthesis reaction Methods 0.000 claims description 6
- 238000004458 analytical method Methods 0.000 claims description 4
- 238000013135 deep learning Methods 0.000 claims description 4
- 230000005540 biological transmission Effects 0.000 claims description 3
- 239000003086 colorant Substances 0.000 claims description 3
- 238000012517 data analytics Methods 0.000 claims description 3
- 238000006243 chemical reaction Methods 0.000 claims description 2
- 238000013527 convolutional neural network Methods 0.000 claims description 2
- 238000005516 engineering process Methods 0.000 abstract description 4
- 238000012549 training Methods 0.000 description 8
- 238000012216 screening Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000003936 working memory Effects 0.000 description 2
- 235000014161 Caesalpinia gilliesii Nutrition 0.000 description 1
- 244000003240 Caesalpinia gilliesii Species 0.000 description 1
- 241000234435 Lilium Species 0.000 description 1
- 241000220317 Rosa Species 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000005266 casting Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000009223 counseling Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 230000005764 inhibitory process Effects 0.000 description 1
- 230000015654 memory Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000011017 operating method Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000001376 precipitating effect Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0241—Advertisements
- G06Q30/0251—Targeted advertisements
- G06Q30/0269—Targeted advertisements based on user profile or attribute
- G06Q30/0271—Personalized advertisement
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1815—Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/50—Network services
- H04L67/55—Push-based network services
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/225—Feedback of the input speech
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Business, Economics & Management (AREA)
- Development Economics (AREA)
- Finance (AREA)
- Accounting & Taxation (AREA)
- Strategic Management (AREA)
- Entrepreneurship & Innovation (AREA)
- Signal Processing (AREA)
- Game Theory and Decision Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Economics (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Manipulator (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
本发明属于机器人技术领域,特别涉及一种语音机器人;其一种语音机器人的语音交互方法,包括:S1:若干商家端通过语音交互服务器向与各自商家所属的若干用户端建立语音信道,第一商家端基于第一商家语音策略库将预设商务提问语音发送给所述用户端,并判断语音交互服务器是否在预设阈值时间内识别到用户的回答语音信息。本发明提供一种新的语音机器人,该语音机器人在用户端对第一商家端的提问语音信息答非所问时,通过语音交互服务器将语音通话转至相应的第二商家端,在用户端不回答第一商家端的提问语音信息时,向用户端推送来自通用语音广告系统的广告,可以有效解决用户拒绝配合的情况,有效保障了平台、商家以及用户之间的利益。
Description
技术领域
本发明属于机器人技术领域,特别涉及一种语音机器人。
背景技术
随着科技的飞速跃进,机器人被广泛应用于多个领域,且逐渐向智能化方向发展。目前,语音机器人可以根据用户输入的语音指令,进行语音信息的解析。传统的语音机器人可以对用户输入的语音问题进行智能解答,并且可以实现商家对客户的智能呼叫服务,但是,在商家对客户进行语音呼叫时,会出现用户拒绝配合的情况,如,答非所问和不问答,现有的语音机器人无法对出现的这种用户拒绝配合的情况进行处理,会损害平台、商家以及用户之间的利益。
发明内容
针对上述问题,本发明提供一种新的语音机器人,该语音机器人可以有效解决用户拒绝配合的情况,有效保障了平台、商家以及用户之间的利益。
本发明具体技术方案如下:
本发明提供一种语音机器人的语音交互方法,包括如下步骤:
S1:若干商家端通过语音交互服务器向与各自商家所属的若干用户端建立语音信道,第一商家端基于第一商家语音策略库将预设商务提问语音发送给所述用户端,语音交互服务器在预设阈值时间内识别不到用户的回答语音信息时,进入S3步骤,语音交互服务器识别到用户的回答语音信息时,依次经过语音转文字处理、语义处理、语音合成处理后,第一商家端再次基于第一商家语音策略库将预设商务提问语音向用户端,实现第一商家端和客户端的自动语音交互;
S2:语义处理时,语音交互服务器判断出用户的问答语音信息与第一商家语音策略库无法匹配时,遍历其他商家语音策略库,获得与该不匹配的问答语音信息匹配的第二商家语音策略库,实现第二商家端和客户端的自动语音交互;
S3:第三商家推送来自通用语音广告系统的广告给所述用户端,实现第三商家向客户端的自动语音广告播放;
S4:自动语音广告播放时,语音交互服务器继续侦听用户的回答语音信息,如侦听到用户的回答语音信息,循环执行S1-S4步骤。
一种语音机器人的语音交互系统,包括语音交互服务器以及与所述语音交互服务器通讯的商家端和用户端,所述语音交互服务器包括:
语音转文字子系统,用于识别实时语音,并将语音转化为文字;
语义处理子系统,用于对于语音转文字子系统转化的文字,基于深度学习和卷积神经网络算法并结合上下文语义进行理解,并且可根据知识库实现多轮会话,同时,判断用户的问答语音信息与第一商家语音策略库是否匹配,在无法匹配时,遍历其他商家语音策略库,获得与该不匹配的问答语音信息匹配的第二商家语音策略库;
语音合成子系统,用于将实时文字转化为具有多种音色的语音发送给用户,并可调节语速和音量;
数据分析子系统,用于根据语义处理子系统对转化的文字进行理解,分析筛选出重点客户,并且通过分析数据完善会话场景话术。
本发明的有益效果如下:
本发明提供一种新的语音机器人,该语音机器人在用户端对第一商家端的提问语音信息答非所问时,通过语音交互服务器将语音通话转至相应的第二商家端,在用户端不回答第一商家端的提问语音信息时,向用户端推送来自通用语音广告系统的广告,可以有效解决用户拒绝配合的情况,有效保障了平台、商家以及用户之间的利益。
附图说明
图1为实施例1语音机器人的语音交互方法的流程图;
图2为实施例2步骤S2的流程图;
图3为实施例3语音机器人的语音交互方法的流程图;
图4为实施例5语音转文字处理的流程图;
图5为实施例5步骤S11的流程图;
图6为实施例6语音机器人的语音交互系统的结构框图;
图7为实施例6语音转文字子系统的结构框图。
具体实施方式
下面结合附图和以下实施例对本发明作进一步详细说明。
附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行。虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤
实施例1
本发明实施例1提供一种语音机器人的语音交互方法,如图1所示,包括如下步骤:
S1:若干商家端通过语音交互服务器向与各自商家所属的若干用户端建立语音信道,第一商家端基于第一商家语音策略库将预设商务提问语音发送给所述用户端,语音交互服务器在预设阈值时间内识别不到用户的回答语音信息时,进入S3步骤,语音交互服务器识别到用户的回答语音信息时,依次经过语音转文字处理、语义处理、语音合成处理后,第一商家端再次基于第一商家语音策略库将预设商务提问语音向用户端,实现第一商家端和客户端的自动语音交互;
S2:语义处理时,语音交互服务器判断出用户的问答语音信息与第一商家语音策略库无法匹配时,遍历其他商家语音策略库,获得与该不匹配的问答语音信息匹配的第二商家语音策略库,实现第二商家端和客户端的自动语音交互;
S3:第三商家推送来自通用语音广告系统的广告给所述用户端,实现第三商家向客户端的自动语音广告播放;
S4:自动语音广告播放时,语音交互服务器继续侦听用户的回答语音信息,如侦听到用户的回答语音信息,循环执行S1-S4步骤。
本发明提供一种新的语音机器人,该语音机器人在用户端对第一商家端的提问语音信息答非所问时,通过语音交互服务器将语音通话转至相应的第二商家端,在用户端不回答第一商家端的提问语音信息时,向用户端推送来自通用语音广告系统的广告,可以有效解决用户拒绝配合的情况,有效保障了平台、商家以及用户之间的利益。
步骤S2中的语音策略库由各商家端分别建立,且所述语音策略库中存储有商家所属的语音策略,语音策略为商家产品相关的关键词及预设的商务语音问题,例如,商家为鲜花商店,关键词为玫瑰花,百合花等,预设的商务语音问题为:“您需要购买鲜花吗?”等等。
步骤S1中与各自商家所属的若干用户端即为商家掌握的用户,这些用户组成了客户列表,各商家的客户列表可能会有重复,但是,依据行为的不同,差别较大,例如,商家以英语培训B1,鲜花B2,财务服务B3为例,B1的客户列表有C1、C2、C3、C4、C5,B2的客户列表有C4、C6、C7、C8、C9,B3的客户列表有C10、C11,B1商家与B2商家仅有客户C4重复,现以B1向C4语音呼叫为例:
B1向C4发出语音电话,并询问“您有英语培训需求吗?”
用户回答“如果有鲜花还可以”,此时,语音交互服务器判断出用户回答的问题与B1商家的语音策略库不匹配,但与B2商家的语音策略库相匹配,则语音交互服务器向B2发送启动指令,B2与C4开始进行语音通话。
实施例2
一种语音机器人的语音交互方法,如图2所示,与实施例1不同的是:步骤S2包括如下步骤:
S21:第一商家端与第二商家端向语音交互服务器发送授权申请,在接收到同一指令后,两所述商家端互相开通访问许可,此时,两家的语音策略库是相通的;
S22:语音交互服务器判断出用户的问答语音信息与第一商家语音策略库无法匹配时,判断是否与第二商家语音策略库是否匹配,若匹配,则进行步骤S23,否则,进行步骤S24;
S23:第一商家端向第二商家端发送启动指令,实现第二商家端和客户端的自动语音交互;
S24:语音交互服务器遍历其他商家语音策略库,获得与该不匹配的问答语音信息匹配的第三商家语音策略库,语音交互服务器向第三商家端发送启动指令,实现第三商家端和客户端的自动语音交互;或者语音交互服务器随意指定第四商家与客户端进行自动语音交互;或者直接返回第一商家。
本实施例中第一商家和第二商家可以互换语音策略库,此时,在用户对第一商家提问的语音问题答非所问时,服务器直接将第二商家与客户连接,即,第二商家加入原有的信道,减轻了语音交互服务器的工作量;比如,商家为英语培训B1,鲜花B2,B1的客户列表有C1、C2、C3、C4、C5,B2的客户列表有C4、C6、C7、C8、C9,现以B1向C4语音呼叫为例:
B1向C4发出语音电话,并询问“您有英语培训需求吗?”
用户回答“如果有鲜花还可以”,此时,语音交互服务器判断出用户回答的问题与B1商家的语音策略库不匹配,但与B2商家的语音策略库相匹配,B1直接向B2发送启动指令,B2与C4开始进行语音通话。
在用户答非所问时,实施例1的语音交互服务器遍历其他商家语音策略库进行商家的匹配以及本实施例的语音交互服务器直接进行第二商家的匹配为两种不同的解决方式,但都可以解决用户答非所问的问题,具体采用哪种实施方式根据实际情况而定。
实施例3
一种语音机器人的语音交互方法,如图3所示,与实施例1不同的是:步骤S1之前进行的步骤为:
S01:多个商家端基于相应的商家语音策略库将预设商务提问语音同时发送给同一用户端时,各商家端被列入群呼列队,且将队列的消息相关联;
S02:各商家端分别对用户信息进行识别,若该用户为签约用户,则呼叫保持,若该用户为普通用户,则强制呼出。
本实施例中主要解决商家群呼的问题,各商家之间的用户可能会有重叠,此时,当这些商家同时向该用户呼叫时,可以对该用户的身份信息进行识别,根据识别结果采取相应的手段,可以有效保证商家与用户之间的利益;例如,商家以英语培训B1,鲜花B2为例,B1的客户列表有C1、C2、C3、C4、C5,B2的客户列表有C4、C6、C7、C8、C9,B1商家与B2商家的客户C4是重复,现以B1、B2同时向C4语音呼叫为例:
B1、B2商家同时向C4发送语音电话,B1、B2会被列入群呼列队,此时,系统会强制将两个队列消息相关联。判断客户的身份信息,a,如果为签约用户,则呼叫保持;b,如果为普通用户,则强制呼出,此时,系统将限制强制呼出的商家的通话时长,或者B1、B2商家呼叫合并,同时与C4进行通话。
实施例4
一种语音机器人的语音交互方法,如图4所示,与实施例1不同的是:步骤S3中语音交互服务器在预设阈值时间内识别不到用户的回答语音信息时,第一商家端与用户端的语音交互结束,此时,语音交互服务器推送来自通用语音广告系统的关于第三商家端的广告给所述用户端,或者第三商家端直接推送来自通用语音广告系统的广告给所述用户端。
本实施例中在用户对第一商家的呼叫信息不回答时,语音交互服务器开始计时,当用户的沉默时间达到阈值(如30s)时,此时,可以是第三商家向用户推送来自通用语音广告系统的广告,也可以是语音交互服务器向用户推送来自通用语音广告系统的与第三商家或其他商家相关的广告,该方法不仅可以使得用户舒适的接受推送的广告,而且还可以保证平台、商家以及用户之间的利益;例如,商家以英语培训B1,财务服务B3为例,B1的客户列表有C1、C2、C3、C4、C5,B3的客户列表有C10、C11,现以B1向C6语音呼叫为例:
以C6为例,B1向C6发送语音,C6回复“您好”,接着,B1开始向用户播报英语培训方面的广告,当广告播报完后,开始计时,当在阈值时间段内,C6不说话时,B1结束通话,此时,
(1)B3开始推送来自通用语音广告系统的财务服务方面的广告,当播报完财务服务方面的广告后C6开始回复时,B3开始与C6进行通话;
(2)语音交互服务器推送来自通用语音广告系统的财务服务方面的广告,当播报完财务服务方面的广告后C6开始回复时,B3开始与C6进行通话。
实施例5
一种语音机器人的语音交互方法,如图4所示,与实施例1不同的是:步骤S1中的语音转文字处理包括如下步骤:
S11:建立语音知识库,所述语音知识库中存储有常见问题以及各常见问题的关键词对应的声音特征;
S12:获取待识别的语音信号的声音特征;
S13:基于语音识别模型根据语音知识库对步骤S12中获取的声音特征进行识别,获取相应的关键词,并根据关键词定位常见问题。
如图5所示,本实施例步骤S11包括如下步骤:
S111:建立子知识库,所述子知识库根据不同行业或地域分类存储常见问题并且对各常见问题进行标记处理;
S112:提取各常见问题的关键词以及对应的标记,获取各关键词的多种声音特征并与对应的关键词相关联存储,所述关键词为专业名词或使用次数大于等于阈值的高频词汇。
本发明中采用声音特征对语音信号进行识别,由于语音知识库中已经存储了常见问题及问题的答案,因此,通过对声音特征的识别可以快速定位到常见问题,寻找到所需的答案,该方法可以提高识别效率。
本实施例中关键词对应的声音特征可以有多种,如,关键词手机,对应的声音特征有河北口音、新疆口音、东北口音等等,对手机对应的各种声音特征分别建立声音特征库,并将声音特征库中的声音特征与关键词建立关联关系;常见问题可以根据行业或者地域分类存储,如,心理问题、法律问题等,或者河北、河南、山东等;
例如,常见问题a的关键词及对应的标记为:关键词A Md01+关键词B Md01+关键词C Md01,即这三个关键词构成了a的框架,通过这三个关键词及标记可以准确定位到问题a,大大提高了识别效率。
实施例6
一种语音机器人的语音交互系统,如图6所示,包括语音交互服务器1以及与所述语音交互服务器1通讯的商家端2和用户端3,所述语音交互服务器1包括:
语音转文字子系统11,用于识别实时语音,并将语音转化为文字;
语义处理子系统12,用于对于语音转文字子系统11转化的文字,基于深度学习和卷积神经网络算法并结合上下文语义进行理解,并且可根据知识库实现多轮会话,同时,判断用户的问答语音信息与第一商家语音策略库是否匹配,在无法匹配时,遍历其他商家语音策略库,获得与该不匹配的问答语音信息匹配的第二商家语音策略库;
语音合成子系统13,用于将实时文字转化为具有多种音色的语音发送给用户,并可调节语速和音量;
数据分析子系统14,用于根据语义处理子系统12对转化的文字进行理解,分析筛选出重点客户,并且通过分析数据完善会话场景话术。
本发明可实现批量化真人群呼,高效的批量化自动群呼可预约群呼的时间专业的销售客服语音;安全、专业的数据分析,高效筛选处理客户资料知识库数据监控优化支持定制化的数据筛选多样化的部署方案多层数据安全保障服务;业务知识结构化,搭建完整专业的话术场景支持专业的行业知识数据沉淀自动收集类似问题和问法智能自主知识学习;接近真人的交互体验,异常会话过渡平滑自然自动收集类似问题和问法真人式的会话效果。
本发明的应用场景服务,智能机器人采用自然语言语音方式,实现企业内部系统相关事务的自助查询、咨询和处理,可有效释放企业内部服务的工作量,提高员工内务处理效率;咨询服务,智能机器人采用自然语言语音方式,向公众提供法律、心理类行业信息咨询、受理等服务;行业服务,针对不同行业形成语音知识库,为特定领域提供智能云服务,精确定位常见问题等,通过自然语音有效解答用户问题;语音机器人可以通过语义分析,自动识别当前客户是否为意向客户,从而大大提高推广范围,降低人工成本;智能实体机器人,将语音机器人植入硬件,通过智能语音云实现机器人自动解答问题,提高窗口服务效率。
如图7所示,本实施例中所述语音转文字子系统11包括:
语音知识库模块111,用于建立语音知识库,所述语音知识库存储常见问题以及各常见问题的关键词对应的声音特征;
语音声音特征获取模块112,用于获取待识别的语音信号的声音特征;
语音识别模块113,用于基于语音识别模型根据语音知识库模块111对语音声音特征获取模块112获取的声音特征进行识别,获取相应的关键词,并根据关键词定位常见问题。
本实施例中关键词对应的声音特征可以有多种,如,关键词手机,对应的声音特征有河北口音、新疆口音、东北口音等等,对手机对应的各种声音特征分别建立声音特征库,并将声音特征库中的声音特征与关键词建立关联关系。
本实施例中所述语音知识库模块111包括:
子知识库单元1111,用于建立子知识库,所述子知识库根据不同行业或地域分类存储常见问题并且对各常见问题进行标记处理;
词库单元1112,用于提取各常见问题的关键词以及对应的标记,获取各关键词的多种声音特征并与对应的关键词相关联存储,所述关键词为专业名词或使用次数大于等于阈值的高频词汇。
常见问题可以根据行业或者地域分类存储,如,心理问题、法律问题等,或者河北、河南、山东等,例如心理行业的问题标记为Md01,此时,模型识别声音特征输出的关键词会带有相关的标记,可以通过标记直接定位到相应的问题,加快了识别速度。
例如,常见问题a的关键词及对应的标记为:关键词A Md01+关键词B Md01+关键词C Md01,即这三个关键词构成了a的框架,通过这三个关键词及标记可以准确定位到问题a。
所述语音声音特征获取模块112包括:
获取单元1121,用于获取用户发送的待识别的语音信号;
拆分单元1122,用于将获取的语音信号拆分成多个语音语句,同时,以音节为单位提取各语音语句的声音特征。
所述语音识别模块113包括:
模型建立单元1131,用于通过人工智能深度学习技术对语音知识库模块中的多种声音特征进行深度学习并建立语音识别模型;
识别单元1132,用于通过语音识别模型自动识别语音声音特征获取模块获取的语音信号的声音特征,输出关键词及其对应的标记;
筛选单元1133,用于筛选出具有相同标记的关键词,并根据关键词的标记定位到相应的常见问题。
语音识别模型对语音知识库中的每种声音特征库及其对应的关键词进行学习,训练,将各种声音特征进行综合训练,因此,模型可以直接识别待识别语音信号的声音特征来输出关键词,不必建立多个声学模型和语言模型,简化了操作步骤,但是有效提高了识别速度,并且大大提高了识别的准确率。
所述筛选单元1133包括:
阵列子模块11331,用于将识别单元输出的关键词按照语音信号的顺序排列,形成多个关键词阵列,且识别同一语音语句输出的关键词形成同一关键词阵列;
匹配子模块11332,用于依次将相邻两阵列中的关键词对应的标记分别进行匹配,且各关键词阵列中分别至多匹配出一关键词;
定位子模块11333,用于根据匹配出的各关键词相同的标记在语音知识库模块中定位用户询问的常见问题。
所述语音信号为实时语音,采用端点检测的方法拆分语音语句。
所述语音识别模块113还包括:
问题生成单元1134,用于在筛选单元未筛选出具有相同标记的关键词,并无法根据关键词的标记定位到相应的常见问题时,通过语音识别模型识别完整的语音信号,生成文字问题;
调用单元1135,用于将生成的文字问题发送至第三方进行查询,并对该问题以及查询得到的答案发送至语音知识库模块进行存储。
模型识别出的关键词可能不唯一,对同一个词的识别可能会识别出多个不同的关键词,如,语音a中,语音语句A处、B处、C处分别识别出三个不同的关键词,识别出的关键词为:
A1 Md01 B1 L02 C1 L03
A2 L01 + B2 Em01 + C2 Md01
A3 Em01 B3 Md01 C3 Em03
将相邻两阵列中的关键词的标记相匹配,结果为:A1 Md01+B3 Md01+C2 Md01,根据标记Md01定位到知识库中标记为Md01的问题。
这种识别方式可以使得定位出的问题更加准确,更加符合用户的需求,从而保证了平台、商家以及用户之间的利益。
实施例8
一种语音机器人的语音交互系统,与实施例7不同的是:所述调用单元1135将生成的文字问题发送至第三方网站进行查询。本实施例中在无法根据识别出的关键词定位到相应问题时,语音识别模型将识别完整的语音信号,并生成文字问题,此时,生成的文字问题可以发送至第三方网站进行查询,如通过百度进行搜索;如,语音a中,语音语句A处、B处、C处分别识别出三个不同的关键词,识别出的关键词为:
A1 Md01 B1 L02 C1 L03
A2 L01 + B2 Em04 + C2 Md04
A3 Em01 B3 Md02 C3 Em03
将相邻两阵列中的关键词的标记相匹配,但是A处、B处、C处没有标记完全相同的关键词,此时,识别完整的语音a,结果为“怎么让工作记忆好好为我们服务”,将识别的结果通过百度搜索答案,将结果“工作记忆的模式是帮助你把信息存储在意识之中。不管是第一次学什么,或者是为了回忆起过去曾学过的东西。
关键在于,你怎么让信息尽可能长时间的保存;或者在你需要的时候,记忆能完全呈现。
心理学有3个方法帮助你:
(1)组块式记忆:通过将大量的信息分割成一些小的组块。
(2)通过对信息进行编码,使你能运用自如。也就是说你要对信息进行系统化的梳理。
(3)使用深度处理法。
你给一个信息越多的意义,就越容易记住它。比如记单词的时候,与其死记硬背,而不如把单词放进句子里去记忆”转换成语音信息发送给客户。
实施例9
一种语音机器人的语音交互系统,与实施例7不同的是:所述调用单元1135将生成的文字问题转发送至人工客服进行询问,并接收人工客服的回答。
本发明为实施例8的另一种解决方式,可以将生成的文字问题发送给人工客服,由客服进行问答,或者可以直接转成客户与用户之间的语音通话,不仅可以有效帮助用户解决问题,还可以保证商家与用户之间的利益。
由于本发明的方法描述是在计算机系统中实现的。该计算机系统例如可以设置在服务器或客户端的处理器中。例如本文所述的方法可以实现为能以控制逻辑来执行的软件,其由服务器中的CPU来执行。本文所述的功能可以实现为存储在非暂时性有形计算机可读介质中的程序指令集合。当以这种方式实现时,该计算机程序包括一组指令,当该组指令由计算机运行时其促使计算机执行能实施上述功能的方法。可编程逻辑可以暂时或永久地安装在非暂时性有形计算机可读介质中,例如只读存储器芯片、计算机存储器、磁盘或其他存储介质。除了以软件来实现之外,本文所述的逻辑可以利用分利部件、集成电路、与可编程逻辑设备(诸如,现场可编程门阵列(FPGA)或微处理器)结合使用的可编程逻辑,或者包括它们任意组合的任何其他设备来体现。所有此类实施旨在落入本发明的范围之内。
以上所述实施例仅仅是本发明的优选实施方式进行描述,并非对本发明的范围进行限定,在不脱离本发明设计精神的前提下,本领域普通技术人员对本发明的技术方案作出的各种变形和改进,均应落入本发明的权利要求书确定的保护范围内。
Claims (10)
1.一种语音机器人的语音交互方法,其特征在于,包括如下步骤:
S1:若干商家端通过语音交互服务器向与各自商家所属的若干用户端建立语音信道,第一商家端基于第一商家语音策略库将预设商务提问语音发送给所述用户端,语音交互服务器在预设阈值时间内识别不到用户的回答语音信息时,进入S3步骤,语音交互服务器识别到用户的回答语音信息时,依次经过语音转文字处理、语义处理、语音合成处理后,第一商家端再次基于第一商家语音策略库将预设商务提问语音向用户端,实现第一商家端和客户端的自动语音交互;
S2:语义处理时,语音交互服务器判断出用户的问答语音信息与第一商家语音策略库无法匹配时,遍历其他商家语音策略库,获得与该不匹配的问答语音信息匹配的第二商家语音策略库,实现第二商家端和客户端的自动语音交互;
S3:第三商家推送来自通用语音广告系统的广告给所述用户端,实现第三商家向客户端的自动语音广告播放;
S4:自动语音广告播放时,语音交互服务器继续侦听用户的回答语音信息,如侦听到用户的回答语音信息,循环执行S1-S4步骤。
2.根据权利要求1所述的语音机器人的语音交互方法,其特征在于,步骤S2中的语音策略库由各商家端分别建立,且所述语音策略库中存储有商家所属的语音策略。
3.根据权利要求1所述的语音机器人的语音交互方法,其特征在于,步骤S2包括如下步骤:
S21:第一商家端与第二商家端向语音交互服务器发送授权申请,在接收到同一指令后,两所述商家端互相开通访问许可,此时,两家的语音策略库是相通的;
S22:语音交互服务器判断出用户的问答语音信息与第一商家语音策略库无法匹配时,判断是否与第二商家语音策略库是否匹配,若匹配,则进行步骤S23,否则,进行步骤S24;
S23:第一商家端向第二商家端发送启动指令,实现第二商家端和客户端的自动语音交互;
S24:语音交互服务器遍历其他商家语音策略库,获得与该不匹配的问答语音信息匹配的第三商家语音策略库,语音交互服务器向第三商家端发送启动指令,实现第三商家端和客户端的自动语音交互。
4.根据权利要求1所述的语音机器人的语音交互方法,其特征在于,步骤S1之前进行的步骤为:
S01:多个商家端基于相应的商家语音策略库将预设商务提问语音同时发送给同一用户端时,各商家端被列入群呼列队,且将队列的消息相关联;
S02:各商家端分别对用户信息进行识别,若该用户为签约用户,则呼叫保持,若该用户为普通用户,则强制呼出。
5.根据权利要求1所述的语音机器人的语音交互方法,其特征在于,步骤S3中语音交互服务器在预设阈值时间内识别不到用户的回答语音信息时,第一商家端与用户端的语音交互结束,此时,语音交互服务器推送来自通用语音广告系统的关于第三商家端的广告给所述用户端,或者第三商家端直接推送来自通用语音广告系统的广告给所述用户端。
6.根据权利要求1所述的语音机器人的语音交互方法,其特征在于,步骤S1中的语音转文字处理包括如下步骤:
S11:建立语音知识库,所述语音知识库中存储有常见问题以及各常见问题的关键词对应的声音特征;
S12:获取待识别的语音信号的声音特征;
S13:基于语音识别模型根据语音知识库对步骤S12中获取的声音特征进行识别,获取相应的关键词,并根据关键词定位常见问题。
7.根据权利要求6所述的语音机器人的语音交互方法,其特征在于,步骤S11包括如下步骤:
S111:建立子知识库,所述子知识库根据不同行业或地域分类存储常见问题并且对各常见问题进行标记处理;
S112:提取各常见问题的关键词以及对应的标记,获取各关键词的多种声音特征并与对应的关键词相关联存储,所述关键词为专业名词或使用次数大于等于阈值的高频词汇。
8.一种语音机器人的语音交互系统,其特征在于,包括语音交互服务器(1)以及与所述语音交互服务器(1)通讯的商家端(2)和用户端(3),所述语音交互服务器(1)包括:
语音转文字子系统(11),用于识别实时语音,并将语音转化为文字;语义处理子系统(12),用于对于语音转文字子系统(11)转化的文字,基于深度学习和卷积神经网络算法并结合上下文语义进行理解,并且可根据知识库实现多轮会话,同时,判断用户的问答语音信息与第一商家语音策略库是否匹配,在无法匹配时,遍历其他商家语音策略库,获得与该不匹配的问答语音信息匹配的第二商家语音策略库;语音合成子系统(13),用于将实时文字转化为具有多种音色的语音发送给用户,并可调节语速和音量;
数据分析子系统(14),用于根据语义处理子系统(12)对转化的文字进行理解,分析筛选出重点客户,并且通过分析数据完善会话场景话术。
9.根据权利要求8所述的语音机器人的语音交互系统,其特征在于,所述语音转文字子系统(11)包括:
语音知识库模块(111),用于建立语音知识库,所述语音知识库存储常见问题以及各常见问题的关键词对应的声音特征;
语音声音特征获取模块(112),用于获取待识别的语音信号的声音特征;
语音识别模块(113),用于基于语音识别模型根据语音知识库模块(111)对语音声音特征获取模块(112)获取的声音特征进行识别,获取相应的关键词,并根据关键词定位常见问题。
10.根据权利要求9所述的语音机器人的语音交互系统,其特征在于,所述语音知识库模块(111)包括:
子知识库单元(1111),用于建立子知识库,所述子知识库根据不同行业或地域分类存储常见问题并且对各常见问题进行标记处理;
词库单元(1112),用于提取各常见问题的关键词以及对应的标记,获取各关键词的多种声音特征并与对应的关键词相关联存储,所述关键词为专业名词或使用次数大于等于阈值的高频词汇。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811311809.0A CN109065052B (zh) | 2018-11-05 | 2018-11-05 | 一种语音机器人 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811311809.0A CN109065052B (zh) | 2018-11-05 | 2018-11-05 | 一种语音机器人 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109065052A true CN109065052A (zh) | 2018-12-21 |
CN109065052B CN109065052B (zh) | 2020-07-28 |
Family
ID=64789216
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811311809.0A Active CN109065052B (zh) | 2018-11-05 | 2018-11-05 | 一种语音机器人 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109065052B (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110413748A (zh) * | 2019-07-03 | 2019-11-05 | 北京智齿博创科技有限公司 | 基于大数据机器人客服知识库词条推荐系统 |
CN110619038A (zh) * | 2019-09-20 | 2019-12-27 | 上海氦豚机器人科技有限公司 | 一种垂直引导专业咨询的方法、系统及电子设备 |
CN110689891A (zh) * | 2019-11-20 | 2020-01-14 | 广东奥园奥买家电子商务有限公司 | 一种基于公众显示装置的语音交互方法以及设备 |
CN110718220A (zh) * | 2019-09-30 | 2020-01-21 | 北京澜墨文化传媒有限公司 | 一种家庭互联系统及控制方法 |
CN111508501A (zh) * | 2020-07-02 | 2020-08-07 | 成都晓多科技有限公司 | 一种电话机器人中带口音的语音识别方法及系统 |
CN111627433A (zh) * | 2020-06-16 | 2020-09-04 | 北京云迹科技有限公司 | 机器人语音订单处理的方法和装置 |
CN112116907A (zh) * | 2020-10-22 | 2020-12-22 | 浙江同花顺智能科技有限公司 | 语音识别模型建立、语音识别方法、装置、设备和介质 |
CN112307156A (zh) * | 2019-07-26 | 2021-02-02 | 北京宝捷拿科技发展有限公司 | 一种跨语种的智能辅助边检方法及系统 |
CN112365894A (zh) * | 2020-11-09 | 2021-02-12 | 平安普惠企业管理有限公司 | 基于ai的复合语音交互方法、装置及计算机设备 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101556669A (zh) * | 2008-04-11 | 2009-10-14 | 上海赢思软件技术有限公司 | 利用人机交互技术与用户进行个性化营销的方法和设备 |
US20110182283A1 (en) * | 2010-01-27 | 2011-07-28 | Terry Lynn Van Buren | Web-based, hosted, self-service outbound contact center utilizing speaker-independent interactive voice response and including enhanced IP telephony |
CN105404927A (zh) * | 2015-10-27 | 2016-03-16 | 努比亚技术有限公司 | 一种多客服接入方法及装置 |
CN105554119A (zh) * | 2015-12-17 | 2016-05-04 | 北京奇虎科技有限公司 | 一种备选商家信息推送方法、服务器和系统 |
CN108184031A (zh) * | 2017-12-26 | 2018-06-19 | 苏州帝博信息技术有限公司 | 基于ai模拟人声的人机对话的方法 |
CN108428148A (zh) * | 2018-01-29 | 2018-08-21 | 厦门快商通信息技术有限公司 | 主动智能电话营销方法和系统 |
CN108521525A (zh) * | 2018-04-03 | 2018-09-11 | 南京甄视智能科技有限公司 | 基于用户标签体系的智能机器人客服营销方法和系统 |
US20180293562A1 (en) * | 2013-07-16 | 2018-10-11 | Cardfree, Inc. | Systems and methods for transaction processing |
-
2018
- 2018-11-05 CN CN201811311809.0A patent/CN109065052B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101556669A (zh) * | 2008-04-11 | 2009-10-14 | 上海赢思软件技术有限公司 | 利用人机交互技术与用户进行个性化营销的方法和设备 |
US20110182283A1 (en) * | 2010-01-27 | 2011-07-28 | Terry Lynn Van Buren | Web-based, hosted, self-service outbound contact center utilizing speaker-independent interactive voice response and including enhanced IP telephony |
US20180293562A1 (en) * | 2013-07-16 | 2018-10-11 | Cardfree, Inc. | Systems and methods for transaction processing |
CN105404927A (zh) * | 2015-10-27 | 2016-03-16 | 努比亚技术有限公司 | 一种多客服接入方法及装置 |
CN105554119A (zh) * | 2015-12-17 | 2016-05-04 | 北京奇虎科技有限公司 | 一种备选商家信息推送方法、服务器和系统 |
CN108184031A (zh) * | 2017-12-26 | 2018-06-19 | 苏州帝博信息技术有限公司 | 基于ai模拟人声的人机对话的方法 |
CN108428148A (zh) * | 2018-01-29 | 2018-08-21 | 厦门快商通信息技术有限公司 | 主动智能电话营销方法和系统 |
CN108521525A (zh) * | 2018-04-03 | 2018-09-11 | 南京甄视智能科技有限公司 | 基于用户标签体系的智能机器人客服营销方法和系统 |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110413748A (zh) * | 2019-07-03 | 2019-11-05 | 北京智齿博创科技有限公司 | 基于大数据机器人客服知识库词条推荐系统 |
CN112307156A (zh) * | 2019-07-26 | 2021-02-02 | 北京宝捷拿科技发展有限公司 | 一种跨语种的智能辅助边检方法及系统 |
CN110619038A (zh) * | 2019-09-20 | 2019-12-27 | 上海氦豚机器人科技有限公司 | 一种垂直引导专业咨询的方法、系统及电子设备 |
CN110718220A (zh) * | 2019-09-30 | 2020-01-21 | 北京澜墨文化传媒有限公司 | 一种家庭互联系统及控制方法 |
CN110689891A (zh) * | 2019-11-20 | 2020-01-14 | 广东奥园奥买家电子商务有限公司 | 一种基于公众显示装置的语音交互方法以及设备 |
CN111627433A (zh) * | 2020-06-16 | 2020-09-04 | 北京云迹科技有限公司 | 机器人语音订单处理的方法和装置 |
CN111627433B (zh) * | 2020-06-16 | 2023-11-28 | 北京云迹科技股份有限公司 | 机器人语音订单处理的方法和装置 |
CN111508501A (zh) * | 2020-07-02 | 2020-08-07 | 成都晓多科技有限公司 | 一种电话机器人中带口音的语音识别方法及系统 |
CN111508501B (zh) * | 2020-07-02 | 2020-09-29 | 成都晓多科技有限公司 | 一种电话机器人中带口音的语音识别方法及系统 |
CN112116907A (zh) * | 2020-10-22 | 2020-12-22 | 浙江同花顺智能科技有限公司 | 语音识别模型建立、语音识别方法、装置、设备和介质 |
CN112365894A (zh) * | 2020-11-09 | 2021-02-12 | 平安普惠企业管理有限公司 | 基于ai的复合语音交互方法、装置及计算机设备 |
CN112365894B (zh) * | 2020-11-09 | 2024-05-17 | 青岛易蓓教育科技有限公司 | 基于ai的复合语音交互方法、装置及计算机设备 |
Also Published As
Publication number | Publication date |
---|---|
CN109065052B (zh) | 2020-07-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109065052A (zh) | 一种语音机器人 | |
US10522144B2 (en) | Method of and system for providing adaptive respondent training in a speech recognition application | |
CN110266899B (zh) | 客户意图的识别方法和客服系统 | |
CN109509471A (zh) | 一种基于vad算法打断智能语音机器人对话的方法 | |
CN109741754A (zh) | 一种会议语音识别方法及系统、存储介质及终端 | |
CN107818798A (zh) | 客服服务质量评价方法、装置、设备及存储介质 | |
WO2020015479A1 (zh) | 播报语音的确定方法、装置和设备 | |
CN104538043A (zh) | 一种通话中实时情感提示装置 | |
CN109285011A (zh) | 一种智能客户回访方法、装置及设备 | |
CN110198381A (zh) | 一种识别ai来电的方法及装置 | |
CN115643341A (zh) | 人工智能客服应答系统 | |
CN114818649A (zh) | 基于智能语音交互技术的业务咨询处理方法及装置 | |
WO2021135140A1 (zh) | 匹配情感极性的词语采集 | |
CN111858884A (zh) | 一种机器人学习真人深度对话内容的方法与系统 | |
CN110765242A (zh) | 一种客服信息的提供方法,装置及系统 | |
WO2022000141A1 (zh) | 基于机器人流程自动化rpa的疫情排查方法和装置 | |
CN114328867A (zh) | 一种人机对话中智能打断的方法及装置 | |
CN111161708A (zh) | 语音信息处理方法及装置 | |
EP4093005A1 (en) | System method and apparatus for combining words and behaviors | |
CN117648408B (zh) | 基于大模型的智能问答方法、装置、电子设备及存储介质 | |
CN113345419B (zh) | 基于方言口音的语音转译方法、系统和可读存储介质 | |
CN117411970A (zh) | 一种基于声音处理的人机耦合客服控制方法及系统 | |
CN110727772A (zh) | 一种机器人通过条件判断实现动态交互的方法 | |
CN116915894A (zh) | 来电身份识别方法、装置、电子设备和可读存储介质 | |
CN116129903A (zh) | 一种通话音频处理方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |