CN109616116B - 通话系统及其通话方法 - Google Patents

通话系统及其通话方法 Download PDF

Info

Publication number
CN109616116B
CN109616116B CN201910023119.3A CN201910023119A CN109616116B CN 109616116 B CN109616116 B CN 109616116B CN 201910023119 A CN201910023119 A CN 201910023119A CN 109616116 B CN109616116 B CN 109616116B
Authority
CN
China
Prior art keywords
voice
call
caller
obtaining
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910023119.3A
Other languages
English (en)
Other versions
CN109616116A (zh
Inventor
沈悦
袁晓茹
李闯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Yantong Network Technology Co ltd
Original Assignee
Shanghai Yantong Network Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Yantong Network Technology Co ltd filed Critical Shanghai Yantong Network Technology Co ltd
Priority to CN201910023119.3A priority Critical patent/CN109616116B/zh
Publication of CN109616116A publication Critical patent/CN109616116A/zh
Application granted granted Critical
Publication of CN109616116B publication Critical patent/CN109616116B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Child & Adolescent Psychology (AREA)
  • General Health & Medical Sciences (AREA)
  • Hospice & Palliative Care (AREA)
  • Psychiatry (AREA)
  • Signal Processing (AREA)
  • Telephonic Communication Services (AREA)

Abstract

一通话方法,其包括:获取一通话者的第一通话语音;获取所述通话者的通话记录相关数据;基于所述第一通话语音,获得一第一回复语音;基于所述通话者的通话记录相关数据、第一通话语音和第一回复语音,获得一第一时间间隔;以及经所述第一时间间隔后,控制一通话设备播放所述第一回复语音。

Description

通话系统及其通话方法
技术领域
本发明涉及人与机器通话领域,进一步涉及一通话系统及其通话方法。
背景技术
在机器通话领域中,具有代表性的有电话机器人,其中所述电话机器人能够与人进行语言交流及沟通,比如咨询业务、办理业务、前台服务或者智能导航等等。因此,所述电话机器人节省了大量的人力,几乎做到了零出错率,同时所述电话机器人能够全天24小时待机工作,满足人们的需求。
在目前的电话机器人的通话系统中,其一般通过识别通话者的语音中的关键字,然后通过该关键字在语音数据库中查找匹配的语音并播放。然而,由于所述电话机器人与人之间的通话无法模拟人与人之间的语音通话,在用户体验中表现为,不论通话者的语气、说话方式、停顿或者情绪是怎样的,所述电话机器人只会按照同样的机械节奏答复该通话者,或者说,所述电话机器人的发音与所述通话者的发音之间的时间间隔是固定不变的,给通话者造成极差的通话体验,进而使通话者可能产生反感情绪,从而降低本次通话质量,甚至损失客户流量。
正常情况下,个人的说话习惯如语速、停顿、情绪等会导致通话中的间断或者停顿的不同。因此,如何能够使电话机器人的发音匹配通话者的说话习惯,以给予通话者良好的通话体验,是目前急需解决的问题。
发明内容
本发明的一个目的在于提供一通话系统及其通话方法,其能够匹配通话者的说话习惯,模拟人与人之间的通话交流,给予通话者良好的通话体验。
本发明的另一个目的在于提供一通话系统及其通话方法,其中所述通话者的发音与所述通话系统的发音之间的时间间隔能够根据当前通话者的说话习惯进行调节。
本发明的另一个目的在于提供一通话系统及其通话方法,其能够动态调整所述通话者与所述通话系统的发音之间的时间间隔,即在一次语音通话中,所述时间间隔能够随当前的通话情况动态变化,而不是固定不变的。
本发明的另一个目的在于提供一通话系统及其通话方法,其根据之前采集的通话者的通话记录相关数据,识别通话者的说话习惯。
本发明的另一个目的在于提供一通话系统及其通话方法,其能够基于所述通话者的情感数据,修正回复语音。
本发明的另一个目的在于提供一通话系统及其通话方法,其能够修正谐音。
本发明的另一个目的在于提供一通话系统及其通话方法,其能够在一通话记录相关数据库或者一些电话运营商的云端数据库中获取之前储存的所述通话者的通话记录相关数据。
本发明的另一个目的在于提供一通话系统及其通话方法,其更加人性化,通话质量高,体验良好,有利于提高客户流量。
依本发明的一个方面,本发明进一步提供一通话方法,其包括:
获取一通话者的第一通话语音;
获取所述通话者的通话记录相关数据;
基于所述第一通话语音,获得一第一回复语音;
基于所述通话者的通话记录相关数据、第一通话语音和第一回复语音,获得一第一时间间隔;以及
经所述第一时间间隔后,控制一通话设备播放所述第一回复语音。
在一些实施例中,还包括步骤:
基于所述通话者的第一通话语音,获得所述通话者的情感数据;
将所述通话者的第一通话语音转化为文字;
基于所述情感数据和行业关键字库,根据所述文字获得通话关键字;以及
基于所述通话关键字和语音数据库,获得所述第一回复语音。
在一些实施例中,其中在所述获取所述通话者的通话记录相关数据的步骤中,包括:
识别所述通话者的身份相关信息;和
基于所述通话者的身份相关信息,获取所述通话者的通话记录相关数据。
在一些实施例中,其中在所述获取所述通话者的通话记录相关数据的步骤中,包括:
在一通话记录相关数据库或者一电话运营商的云端数据库中获取储存所述通话者的通话记录相关数据。
在一些实施例中,还包括步骤:
基于所述通话记录相关数据和所述第一回复语音,获得与所述第一回复语音相匹配的至少一第一发音时间间隔;和
在所述经所述第一时间间隔后,控制一通话设备播放第一回复语音的步骤中,还包括:
控制所述通话设备按照各所述第一发音时间间隔依次播放所述第一回复语音的字音或词音。
在一些实施例中,还包括步骤:
获取所述通话者的第二通话语音;
基于所述第二通话语音,获得一第二回复语音;
基于所述通话者的通话记录相关数据、第二通话语音和第二回复语音,获得一第二时间间隔;以及
经所述第二时间间隔后,控制所述通话设备播放所述第二回复语音。
在一些实施例中,还包括步骤:
基于所述通话记录相关数据和所述第二回复语音,获得所述第二回复语音相匹配的至少一第二发音时间间隔;和
在所述经所述第二时间间隔后,控制所述通话设备播放所述第二通话语音的步骤中,包括:
控制所述通话设备按照各所述第二发音时间间隔依次播放所述第二回复语音的字音或词音。
在一些实施例中,还包括步骤:
基于所述通话者的第二通话语音,获得所述通话者的第二情感数据;
将所述通话者的第二通话语音转化为第二文字;
基于所述第二情感数据和行业关键字库,根据所述第二文字获得第二通话关键字;以及
根据所述第二通话关键字,获得预先储存的所述第二回复语音。
在一些实施例中,其中在所述基于所述情感数据和行业关键字库,根据所述文字获得通话关键字的步骤中,包括:
基于所述文字和所述行业关键字库,获得匹配关键字;
基于所述情感数据和所述匹配关键字,获得所述通话关键字;和
在一些实施例中,其中在所述获得匹配关键字的步骤中,包括:
当所述文字中的某个目标字无法匹配所述行业关键字库时,生成所述目标字的谐音字;
基于所述谐音字和所述行业关键字库,获得所述匹配关键字。
在一些实施例中,还包括步骤:
获取所述通话者的第二通话语音;
基于所述第一通话语音和所述第二通话语音,生成一服务挽留指令;
基于所述服务挽留指令和语音数据库,获得一服务挽留语音;以及
控制所述通话设备播放所述服务挽留语音。
依本发明的另一个方面,本发明进一步提供一通话系统,其包括:
一语音获取模块;
一时间间隔获得模块;
一回复语音获得模块;
一通话记录数据获取模块;以及
一控制模块,其中所述语音获取模块获取一通话者的第一通话语音,其中所述通话记录数据获取模块获取所述通话者的通话记录相关数据,基于所述第一通话语音,所述回复语音获得模块获得一第一回复语音,基于所述通话者的通话记录相关数据、第一通话语音和第一回复语音,其中所述时间间隔获得模块获得一第一时间间隔,其中所述控制模块经所述第一时间间隔后控制一通话设备播放所述第一回复语音。
在一些实施例中,还包括:
一情感数据获得模块;
一转化文字模块;以及
一关键字获得模块,基于所述第一通话语音,其中所述情感数据获得模块获得所述通话者的情感数据,其中所述转化文字模块将所述第一通话语音转化为文字,基于所述情感数据和行业关键字库,其中所述关键字获得模块根据所述文字获得通话关键字,基于所述通话关键字和语音数据库,其中所述回复语音获得模块获得所述第一回复语音。
在一些实施例中,其中所述通话记录数据获取模块包括:
一身份识别模块;和
一通话数据获得模块,其中所述身份识别模块识别所述通话者的身份相关信息,基于所述通话者的身份相关信息,其中所述通话数据获得模块获取所述通话者的通话记录相关数据。
在一些实施例中,其中所述通话记录数据获取模块还包括一云端数据获取模块,其中所述云端数据获取模块基于所述通话记录相关数据,获取一电话运营商的云端数据库中储存的所述通话记录相关数据。
在一些实施例中,其中所述时间间隔获得模块还包括基于所述通话记录相关数据和所述第一回复语音,获得与所述第一回复语音相匹配的至少一第一发音时间间隔,其中所述控制模块控制所述通话设备按照各所述第一发音时间间隔依次播放所述第一回复语音的字音或词音。
在一些实施例中,其中所述语音获取模块还包括获取所述通话者的第二通话语音,基于所述第二通话语音,其中所述回复语音获得模块获得一第二回复语音,基于所述通话者的通话记录相关数据、第二通话语音和第二回复语音,其中所述时间间隔获得模块还包括获得一第二时间间隔,其中所述控制模块还包括经所述第二时间间隔后控制所述通话设备播放所述第二回复语音。
在一些实施例中,其中所述关键字获得模块包括:
一行业匹配模块;和
一情感修正模块,基于所述文字和所述行业关键字库,其中所述行业匹配模块获得匹配关键字,基于所述情感数据和所述匹配关键字,其中所述情感修正模块获得所述通话关键字。
在一些实施例中,其中所述关键字获得模块还包括一谐音纠正模块,当所述文字中的某个目标字无法匹配所述行业关键字库时,其中所述谐音纠正模块生成所述目标字的谐音字,基于所述谐音字和所述行业关键字库,其中所述行业匹配模块获得所述匹配关键字。
附图说明
图1是根据本发明的一个优选实施例的通话系统的模块示意图。
图2是根据本发明的一个优选实施例的通话系统的部分模块示意图。
图3是根据本发明的一个优选实施例的通话系统的部分模块示意图。
图4是根据本发明的一个优选实施例的通话系统的通话记录数据模块的模块示意图。
图5是根据本发明的一个优选实施例的通话系统的通话方法的流程示意图。
具体实施方式
以下描述用于揭露本发明以使本领域技术人员能够实现本发明。以下描述中的优选实施例只作为举例,本领域技术人员可以想到其他显而易见的变型。在以下描述中界定的本发明的基本原理可以应用于其他实施方案、变形方案、改进方案、等同方案以及没有背离本发明的精神和范围的其他技术方案。
本领域技术人员应理解的是,在本发明的揭露中,术语“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系是基于附图所示的方位或位置关系,其仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此上述术语不能理解为对本发明的限制。
可以理解的是,术语“一”应理解为“至少一”或“一个或多个”,即在一个实施例中,一个元件的数量可以为一个,而在另外的实施例中,该元件的数量可以为多个,术语“一”不能理解为对数量的限制。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
如图1至图5所示为本发明的一个优选实施例的一通话系统100,其中所述通话系统100用于一通话设备200,如电话机器人等。所述通话设备200一般能够与人进行通话交流,其中所述通话设备200用于接收通话者的通话语音,其中所述通话系统100识别所述通话者的通话语音并找出预先录制的回复语音,并根据所述通话者的说话习惯,选择在合适的时间间隔后,由所述通话设备200播放相应的回复语音,以此完成机器与人的通话交流。
通常情况下,所述通话设备200适用于一些指向性行业,如前台业务咨询、产品推销、银行贷款、语音考试或者语音式无人取货机或售货机等等,在此不受限制。所述通话设备200一般仅会与通话者进行当前行业内的通话交流,而无法超出所述通话设备200的服务范围。可以理解的是,所述通话设备200可以处于全天24小时待机状态,在任何时候均可以接收通话者的通话语音,并完成通话交流。
如图1所示,优选地,所述通话系统100包括一语音获取模块10、一时间间隔获得模块20、一通话记录数据获取模块30、一语音打断模块40、一情感数据获得模块50、一转化文字模块60、一关键字获得模块70、一回复语音获得模块80以及一控制模块90。为保证所述通话系统100在与通话者的语言通话中有相应的数据支持,所述通话系统100进一步包括一通话记录数据库101、一情感分析数据库102、一行业关键字库103以及一语音数据库104。
本优选实施例还提供了所述通话系统100的通话方法,包括以下步骤:
获取一通话者的第一通话语音;
获取所述通话者的通话记录相关数据;
基于所述第一通话语音,获得一第一回复语音;
基于所述通话者的通话记录相关数据、第一通话语音和第一回复语音,获得一第一时间间隔;以及
经所述第一时间间隔后,控制一通话设备播放所述第一回复语音。
其中所述通话方法,还包括步骤:
基于所述通话者的第一通话语音,获得所述通话者的情感数据;
将所述通话者的第一通话语音转化为文字;
基于所述情感数据和行业关键字库,根据所述文字获得通话关键字;以及
基于所述通话关键字和语音数据库,获得所述第一回复语音。
其中,在所述获取所述通话者的通话记录相关数据的步骤中,包括:
识别所述通话者的身份相关信息;和
基于所述通话者的身份相关信息,获取所述通话者的通话记录相关数据。
其中,在所述获取所述通话者的通话记录相关数据的步骤中,包括:
在一通话记录相关数据库或者或者一电话运营商的云端数据库中获取储存所述通话者的通话记录相关数据。
所述通话方法,还包括步骤:
基于所述通话记录相关数据和所述第一回复语音,获得与所述第一回复语音相匹配的至少一第一发音时间间隔;和
在所述经所述第一时间间隔后,控制一通话设备播放第一回复语音的步骤中,还包括:
控制所述通话设备按照各所述第一发音时间间隔依次播放所述第一回复语音的字音或词音。
所述通话方法,还包括步骤:
获取所述通话者的第二通话语音;
基于所述第二通话语音,获得一第二回复语音;
基于所述通话者的通话记录相关数据、第二通话语音和第二回复语音,获得一第二时间间隔;以及
经所述第二时间间隔后,控制所述通话设备播放所述第二回复语音。
所述通话方法,还包括步骤:
基于所述通话记录相关数据和所述第二回复语音,获得所述第二回复语音相匹配的至少一第二发音时间间隔;和
在所述经所述第二时间间隔后,控制所述通话设备播放所述第二通话语音的步骤中,包括:
控制所述通话设备按照各所述第二发音时间间隔依次播放所述第二回复语音的字音或词音。
所述通话方法,还包括步骤:
基于所述通话者的第二通话语音,获得所述通话者的第二情感数据;
将所述通话者的第二通话语音转化为第二文字;
基于所述第二情感数据和行业关键字库,根据所述第二文字获得第二通话关键字;以及
根据所述第二通话关键字,获得预先储存的所述第二回复语音。
其中,在所述基于所述情感数据和行业关键字库,根据所述文字获得通话关键字的步骤中,包括:
基于所述文字和所述行业关键字库,获得匹配关键字;
基于所述情感数据和所述匹配关键字,获得所述通话关键字;和
其中,在所述获得匹配关键字的步骤中,包括:
当所述文字中的某个目标字无法匹配所述行业关键字库时,生成所述目标字的谐音字;
基于所述谐音字和所述行业关键字库,获得所述匹配关键字。
所述通话方法,还包括步骤:
获取所述通话者的第二通话语音;
基于所述第一通话语音和所述第二通话语音,生成一服务挽留指令;
基于所述服务挽留指令和语音数据库,获得一服务挽留语音;以及
控制所述通话设备播放所述服务挽留语音。
一般情况下,所述通话设备200具有至少一语音接收器和至少一语音播放器,其中所述语音接收器用于接收通话者的通话语音,其中所述语音播放器用于播放回复所述通话者的回复语音。在一次通话中,所述语音接收器能够接收所述通话者间断或者连续地发出多次所述通话语音,其中所述语音播放器也能够相应地间断或者连续地发出多次所述回复语音,以完成机器与人的语音交流。
所述通话系统100被连接于所述通话设备200。具体地,所述通话系统100的所述语音获取模块10能够实时地获取所述通话设备200的所述语音接收器接收的通话者的通话语音。一般情况下,正常人在表达想要说的话时,均会具有连贯性或者节奏性停顿,而在表达完毕后就会停止说话,以等待回复语音。因此,在所述通话设备200的所述语音接收器在默认的一定长度的时间内没有接收到通话者发出的声音后,所述语音获取模块10获取的所述通话语音可以表示为一个字、一句或者一段完整的话,等等,或者说,所述通话语音由至少一个字组成,其中所述通话语音包括至少一个字的发音、声调、元音、辅音、语气音等。也就是说,所述通话语音包括了所述通话者本次说话所要表达的内容,一般具有目标性,如肯定、否定、问题、答复等等。
需要指出的是,所述情感分析数据库102一般具有大量的情感分析数据和情感分析算法,其能够藉由大量的情感分析数据分析得出通话者的所述通话语音的发音、语调、语速、音量、停顿节奏等但不限于此,然后由算法计算得出所述通话语音所表达的情感数据,如生气、愤怒、高兴、推迟、急躁等等,从而反应出所述通话者的情绪。
所述情感数据获得模块40被连接于所述情感分析数据库102。藉由所述情感分析数据库102的大量情感分析数据和情感分析算法的支持,所述情感数据获得模块40根据所述通话语音,获得所述通话者的所述情感数据。可以理解的是,所述情感分析数据库102可以被实施为储存于云端,也就是说,所述情感数据获得模块40通过云端中的存储的大量的情感分析数据和情感分析算法,获得所述情感数据,在此不受限制。
所述语音获取模块10被连接于所述转化文字模块60,其中所述转化文字模块60将所述通话语音转化为文字。优选地,所述转化文字模块60将所述通话语音转化为汉字,即所述通话者发出的所述通话语音为汉语,或者说,所述通话系统100优选为与所述通话者进行汉语交流。熟知本领域的人员应当理解的是,所述转化文字模块60也可以将所述通话语音转化为英语、俄语、法语、日语、汉语、韩语等等但不限于此,以适应与不同国家的通话者进行语音交流。
如图2所示,进一步地,所述转化文字模块60包括一语音识别模块61和一生成模块62,其中所述语音识别模块61能够识别至少一种语言格式,如汉语识别、英语识别、俄语识别、法语识别等等但不限于。所述语音识别模块61根据所述通话语音的发音、声调、元音、辅音、语气音等,识别所述通话语音的语言格式,基于所述通话语音的语言格式,所述生成模块62按照所述通话语音的每个字的发音、声调等,生成相应语言格式的所述文字。比如,所述语音识别模块61识别所述通话语音是汉语,则所述生成模块62按照所述通话语音的发音、声调、元音、辅音、语气音等,生成汉语格式的所述文字。
可以理解的是,所述语音识别模块61能够根据所述通话语音中的字或者词的发音、音调、元音、辅音、语气音等,识别出所述通话语音的方言格式,如汉语中的粤语、普通话、豫语等不同地区的方言格式,然后,所述生成模块62生成相应的方言格式的所述文字。
值得一提的是,所述语音识别模块61能够兼容识别多种语言格式,其中所述语音识别模块61能够识别出所述通话语音中的每个字或者词各自对应的语言格式,基于每个字或词所对应的语言格式、发音、声调、元音、辅音、语气音等,所述生成模块62生成由至少一语言格式的字或词组成的所述文字。比如说,所述通话者发出的所述通话语音同时包括汉语和英语,即所述通话语音包括至少一第一语言字音和至少一第二语言字音,其中所述语音识别模块61能够分别识别出所述第一语言字音为汉语格式和识别出所述第二语言字音为英语格式,然后,所述生成模块62将所述第一语言字音生成为汉字,将所述第二语言字音生成为英语,并按照各字音的顺序,生成同样顺序且分别包括汉字和英语的所述文字。
优选地,所述行业关键字库103一般储存着指定行业内常用或者日常使用的关键字、关键词或者关键句等,比如,常用关键字如是、不、否、确定、你、我、他等但不限于此,行业关键字如贷款行业关键字,如借贷、还贷、余额、限度、多少、信用等但不限于此。当然,对于不同国家的语言格式,所述行业关键字库103可以储存汉语、英语、韩语、日语、俄语、法语等等不同国家的语言的行业关键字的一种或者多种,在此不受限制。进一步地,所述行业关键字库103还可以储存不同方言的行业关键字,如汉语中的普通话、粤语、豫语等不同地区方言的行业关键字。
如图2所示,基于所述情感数据和所述行业关键字库,所述关键字获得模块70根据所述文字获得通话关键字。进一步地,所述关键字获得模块70包括一行业匹配模块71和一情感修正模块72,其中所述行业匹配模块71匹配所述文字与所述行业关键字库中的关键字,获得匹配关键字,其中所述情感修正模块72根据所述情感数据,修正所述匹配关键字得到所述通话关键字。也就是说,基于所述行业关键字库的关键字匹配,所述行业匹配模块71获得的所述匹配关键字能够准确地体现所述通话者的所述通话语音的书面语义,然后基于所述情感数据的修正作用,所述通话关键字能够准确地匹配所述通话者的所述通话语音所表达的语意,从而使所述通话关键字能够准确地表达所述通话者的目的。
举例地,所述通话者用带有疑惑的情感如疑问的语气说出所述通话语音,如“确定”两个字,其中所述通话者的真正所表达的是“确定吗”,而不是明确的“确定”。换句话说,藉由所述转化文字模块60将所述通话语音转化为文字,即“确定”后,所述行业匹配模块71获得所述匹配关键字为“确定”,其中所述情感数据获得模块50获得的所述情感数据为疑问或者疑惑,其中所述情感修正模块72修正所述匹配关键字获得所述通话关键字为“确定吗”,从而使所述通话关键字能够准确地表达所述通话者的意图,等等,在此不受限制。
进一步地,所述关键字获得模块70还包括一谐音纠正模块73,当所述行业匹配模块71无法匹配所述文字中的某个目标字与所述行业关键字库中的所有字时,所述谐音纠正模块73生成所述目标字的谐音字,由所述行业匹配模块71按照所述谐音字继续匹配所述行业关键字库中的字,以获得所述匹配关键字,从而降低一些谐音字的对通话交流的干扰。
值得一提的是,所述语音数据库104储存着大量预先录制完毕的语音,比如一些常用语的语音或者一些行业内的语音等,为适应不同国家、地区的语言或者方言,所述语音数据库104能够储存不同语言格式的语音,如汉语、日语、英语等等,或者汉语中的普通话、粤语等等格式的语音,在此不受限制。熟知本领域的人员应当理解的是,所述语音数据库104可以被实施为一固态内存,其中储存着不同行业的语音的所述语音数据库104可以被制作成相应的固体内存,使得所述通话设备200能够适应不同行业的语音通话。或者,所述语音数据库104也可以被实施为储存于云端。
也就是说,由相关行业的人员,基于正常情况下通话者可能会交流的指向性语音,将预先编制或者录制完毕的大量的相应的回复语音储存于所述语音数据库104,以确保所述通话设备200与所述通话者能够完成本行业服务范围内的通话交流。比如银行贷款服务,所述语音数据库104储存的所述回复语音比如“您好,先生或者女士,请问需要贷款吗?”、“您的贷款额度是...”以及贷款注意事项或者贷款所需手续等等不限于此。
进一步地,所述回复语音获得模块80被连接于所述语音数据库104,其中所述回复语音获得模块80根据所述通话关键字,获得所述语音数据库104内储存的回复语音。优选地,所述回复语音获得模块80包括一语音匹配模块81和一语音获取模块82,其中所述语音匹配模块81根据所述通话关键字匹配所述语音数据库104中储存的语音以找出相应的所述回复语音,其中所述语音获取模块82获取被匹配于所述通话关键字的所述回复语音,以供所述控制模块90控制所述通话设备200的所述语音播放器播放所述回复语音,从而答复所述通话者的所述通话语音,完成与所述通话者的语音交流。
可以理解的是,所述语音获取模块10每获取所述通话者的所述通话语音,所述回复语音获取模块80均会基于当前的所述通话语音,获得所述语音数据库104中储存的相应的所述回复语音,从而由所述通话设备200播放所述回复语音,以此一问一答的方式完成与所述通话者持续性的语言交流。
换句话说,当所述语音获取模块10获取所述通话者的第一通话语音时,所述情感数据获得模块40获得第一情感数据,其中所述转化文字模块60将所述第一通话语音转化为第一文字,其中所述关键字获得模块70基于所述第一情感数据和所述行业关键字库,根据所述第一文字获得第一通话关键字,其中所述回复语音获得模块80根据所述第一通话关键字,获得所述语音数据库104中已储存的第一回复语音,以由所述控制模块90控制所述通话设备200播放所述第一回复语音,进而完成一次答复。然后,当所述语音获取模块10继续获取所述通话者的第二通话语音时,所述情感数据获得模块40获得第二情感数据,其中所述转化文字模块60将所述第二通话语音转化为第二文字,其中所述关键字获得模块70基于所述第二情感数据和所述行业关键库,根据所述第二文字获得第二通话关键字,其中所述回复语音获得模块80根据所述第二通话关键字,获得所述语音数据库104中已储存的第二回复语音,以由所述控制模块90控制所述通话设备200播放所述第二回复语音。以此类推,所述通话者与所述通话设备200能够完成持续性地通话交流。
进一步地,所述语音打断模块40被连接于所述控制模块90,其中所述语音打断模块40包括一中途打断模块41,其中所述中途打断模块41用于在所述通话设备200播放所述回复语音的过程中检测所述通话者的所述通话语音是否存在,若是,则所述中途打断模块41发送一中止指令至所述控制模块90,由所述控制模块90中止所述通话设备200的所述语音播放器播放所述回复语音,防止干扰所述通话者讲话。也就是说,当所述通话语音和所述回复语音同时存在时,所述中途打断模块41控制所述控制模块90中止所述通话设备200继续播放所述回复语音。换句话说,当所述通话者说完所述第一通话语音,且所述通话设备200正在播放所述第一回复语音时,所述中途打断模块41如果检测到所述通话者说出第二通话语音,则所述控制模块90中止所述通话设备200继续播放所述第一回复语音。
如图2所示,在本实施例中,所述语音打断模块40还包括一预设流程模块42、一流程划分模块43、一流程打断模块44和一挽留模块45,其中所述预设流程模块42按照本行业服务范围预设至少一主流程和至少一支流程,其中所述主流程被设置为本行业的一项主要服务内容,其中所述支流程被设置为所述主流程的主要服务内容的一项次要服务内容。以银行贷款行业为例,其中所述预设流程模块42预设一第一主流程、一第二主流程和多个支流程,其中所述第一主流程包含引导用户完成借贷的相关服务内容,其中所述第二主流程包含引导用户完成还贷的相关服务内容,其中所述支流程相应地分别包含引导用户完成借贷或者还贷的主服务项目的一些次要服务项目,在此不做限制。所述流程划分模块43基于所述通话语音的内容如所述通话关键字的内容,将所述通话语音划分为相应的流程,其中所述流程打断模块44判断当前的所述通话语音的内容如所述通话关键字的内容是否属于之前的通话语音所在的流程的内容,若不属于,则所述挽留模块45发送一服务挽留指令至所述回复语音获得模块80,基于所述挽留指令,所述回复语音获得模块80获得所述语音数据库104中储存的服务挽留语音,并由所述控制模块90控制所述通话设备200播放所述服务挽留语音。
可以理解的是,所述服务挽留语音包含挽留用户重新回归之前的通话语音所在的主流程的相关内容。比如说,所述第一通话语音和所述第二通话语音均属于所述第一主流程的内容,其中所述流程打断模块44判断所述第三通话语音的内容不属于所述第一主流程的内容如岔开话题或者否定所述第一主流程的内容等,其中所述挽留模块45即发送挽留所述通话者继续办理或者进行所述第一主流程的服务内容的第一服务挽留指令,其中所述回复语音获得模块80基于所述第一服务挽留指令和所述语音数据库104,获得相应的第一服务挽留语音,从而由所述通话设备200播放所述第一服务挽留语音,以挽留所述通话者继续办理或者进行所述第一主流程的服务内容。
优选地,所述通话记录数据库101用于储存所述通话者的身份相关信息与所述通话者之前的通话记录相关数据。也就是说,每次所述通话者通话完毕后,所述通话记录数据库101均记录所述通话者的身份相关信息和所述通话者的通话记录相关数据。或者说,所述通话记录数据库101分别将每个通话者的身份相关信息与所述通话者的通话记录相关数据绑定在一起并记录储存。所述通话记录相关数据至少包括所述通话者的所述通话语音与相邻的所述回复语音之间的时间间隔和所述通话语音中的字或词之间的节奏、停顿、音贝或者流利度等但不限于此,更进一步地说,其中所述通话记录相关数据至少包括所述通话者的通话习惯或者说话习惯的相关数据。所述身份相关信息,如通话号码、身份语音数据、数字密码、面部信息、指纹信息或者瞳孔等等,但不限于此。
如图4所示,进一步地,所述通话记录数据获取模块30被连接于所述通话记录数据库101,其中所述通话记录数据获取模块30包括一身份识别模块31和一通话数据获得模块32,其中所述身份识别模块31用于识别所述通话者的身份相关信息,其中所述通话数据获得模块32基于所述通话者的身份相关信息,获得所述通话记录数据库101中储存的与所述身份相关信息相绑定的所述通话记录相关数据。
在本实施例中,所述身份识别模块31被优选地实施为通话号码识别,其中所述身份相关信息被实施为通话号码,其中所述通话者的通话号码与所述通话者的通话记录相关数据被绑定地储存于所述通话记录数据库101。当所述通话者拨通所述通话设备200进行通话交流时,所述身份识别模块31识别所述通话者的拨号号码,基于所述拨号号码,所述通话数据获得模块32获得所述通话记录数据库101中储存的相应的所述通话记录相关数据。
或者,所述身份识别模块31被实施为身份语音数据,其中所述身份语音数据如所述通话者的说话时的声贝、声调、习惯或者节奏等等相关数据。当所述通话者与所述通话设备200进行通话交流时,所述身份识别模块31通过所述通话语音识别所述通话者的身份相关信息,进而由所述通话数据获得模块32获得相应的所述通话记录相关数据。
或者,所述身份识别模块31被实施为面部识别设备,如图像识别设备,其中所述通话设备200具有一摄像头或者图像获取装置。当所述通话者拨通所述通话设备200进行通话交流时,所述摄像头拍摄获得所述通话者的面部图像信息,其中所述身份识别模块31基于所述面部图像信息,识别所述通话者的身份相关信息,进而由所述通话数据获得模块32获得相应的所述通话记录相关数据。
或者,所述身份识别模块31被实施为指纹识别设备,其中所述通话设备200具有一指纹采集器,用于采集所述通话者的指纹信息。当所述通话者拨通所述通话设备200进行通话交流时,所述指纹采集器采集所述通话者的指纹信息,其中所述身份识别模块31基于所述指纹信息,识别所述通话者的身份相关信息,进而由所述通话数据获得模块32获得相应的所述通话记录相关数据。
熟知本领域的人员应当理解的是,所述身份识别模块31还可以被实施为其他类型身份识别模式,以识别当前的通话者的身份相关信息,进而由所述通话数据获得模块32获得当前通话者的之前记录的通话记录相关数据,在此不受限制。
进一步地,所述通话记录数据获取模块30还包括一云端数据获取模块33,其中所述云端数据获取模块33基于所述身份相关信息,获取云端中储存的与所述身份相关信息相绑定的所述通话记录相关数据。比如一些电话运营商如移动、联通、电信等第三方的云端数据库,一般情况下,其中所述云端数据库储存着大量的不同通话者的身份相关信息与所述通话者的通话记录相关数据。另外,所述云端数据库中储存的所述通话记录相关数据还包括所述通话者与其他人之间的通话交流相关数据,如所述通话者的所述通话语音与他人的通话语音之间的时间间隔、语速等。
换句话说,所述通话记录数据库101可以被实施为固态数据存储器,也可以被实施为云端的数据库,基于所述通话者的身份相关信息,其中所述通话数据获得模块32能够获得所述通话记录数据库101中储存的所述通话者的所述通话记录相关数据。当所述通话记录数据库101中并没有储存所述通话者的所述通话记录相关数据时,基于所述通话者的身份相关信息,所述云端数据获取模块33能够通过网络获取储存于第三方的云端数据库的所述通话者的所述通话记录相关数据,以确保所述通话系统100的所述通话记录数据获取模块30的获取范围更加广泛。
如图3所示,进一步地,所述时间间隔获得模块20被连接于所述控制模块90,其中所述时间间隔获得模块20包括一回复间隔获得模块21和一发音间隔获得模块22,其中所述回复间隔获得模块21基于所述通话记录相关数据、所述通话语音和所述回复语音,获得一回复时间间隔,在所述语音获取模块10获取一次所述通话语音完毕,即所述通话者通过所述通话设备200说完一次话时,经所述回复时间间隔后,所述控制模块90控制所述通话设备200播放所述回复语音,使得在所述通话者说完一次话时,所述通话设备200经过适应所述通话者的说话习惯的时间间隔播放所述回复语音,进而模拟所述通话者在与人之间的交流方式。基于所述通话记录相关数据和所述回复语音,所述发音间隔获得模块22获得与所述回复语音的相邻字音或词音相匹配的至少一发音时间间隔,其中所述控制模块90控制所述通话设备200按照所述发音时间间隔播放所述回复语音中的字音或者词音,进而使所述通话设备200的播放语速适配于所述通话者的说话习惯,且每相邻的字词的发音间隔也分别匹配于所述通话者的说话习惯。
具体地,所述回复间隔获得模块21根据所述通话记录相关数据中匹配与所述通话语音和所述回复语音的字音数量、字音间的停顿或者通话内容一致或者类似的通话记录,获得所述通话记录的上下句的停顿时间间隔,其中所述通话记录的上下句的所述停顿时间间隔被作为所述第一回复时间间隔。所述发音间隔获得模块22根据所述通话记录相关数据中匹配与所述回复语音的字音数量、字音间的停顿或者语音内容一致或者类似的通话记录,获得所述通话记录的各相邻字音间的停顿时间间隔,其中各相邻字音间的所述停顿时间间隔被作为各所述发音时间间隔。
如图5所示,值得一提的是,所述通话系统100能够动态调整每相邻的所述通话者的所述通话语音与所述通话设备的播放所述回复语音之间的时间间隔,以及动态调整每句所述回复语音中的字音或词音的发音间隔。当所述语音获得模块10获取所述第一通话语音时,基于所述通话记录相关数据、所述第一通话语音和所述第一回复语音,所述回复间隔获得模块21获得第一回复时间间隔,其中所述发音间隔获得模块22获得与所述第一回复语音的相邻字音或者词音相匹配的至少一第一发音时间间隔,由所述控制模块90控制所述通话设备200经所述第一回复时间间隔后,按照各匹配的所述第一发音时间间隔依次播放所述第一回复语音的相应的字音或者词音。当所述语音获得模块10获取所述第二通话语音时,基于所述通话记录相关数据、所述第二通话语音和所述第二回复语音,所述回复间隔获得模块21获得第二回复时间间隔,其中所述发音间隔获得模块22获得与所述第二回复语音的相邻字音或者词音相匹配的至少一第二发音时间间隔,由所述控制模块90控制所述通话设备200经所述第二回复时间间隔后,按照各匹配的所述第二发音时间间隔依次播放所述第二回复语音的相应的字音或者词音。等等。依此类推,直至完成本次语音通话。
当然,所述时间间隔获得模块20还包括一回复时间间隔设定模块23和一发音时间间隔设定模块24,其中所述回复时间间隔设定模块23被用于人为地设置所述回复时间间隔,其中所述发音时间间隔设定模块24被用于人为地设置所述发音时间间隔,使得所述通话者能够按照自己想要地通话习惯设置所述通话设备200的所述回复语音的播放方式,在此不做限制。
本领域的技术人员应理解,上述描述及附图中所示的本发明的实施例只作为举例而并不限制本发明。本发明的目的已经完整并有效地实现。本发明的功能及结构原理已在实施例中展示和说明,在没有背离所述原理下,本发明的实施方式可以有任何变形或修改。

Claims (17)

1.一通话方法,其特征在于,包括:
获取一通话者的第一通话语音;
获取所述通话者的通话记录相关数据;
基于所述第一通话语音,获得一第一回复语音;
基于所述通话者的通话记录相关数据、第一通话语音和第一回复语音,获得一第一时间间隔;以及
经所述第一时间间隔后,控制一通话设备播放所述第一回复语音,
其中在播放所述第一回复语音的过程中,动态调整所述第一回复语音的发音间隔,其中,获得所述第一回复语音需要通过如下步骤:
分析所述第一通话语音的发音、语调、语速、音量、停顿节奏,以获得所述第一通话语音所表达的情感数据;
转化所述第一通话语音为第一通话语音文字;
基于所述情感数据和一行业关键字库,确定所述第一通话语音文字的匹配关键字,其中若无法得到匹配关键字,则生成所述第一通话语音文字的谐音字,继续匹配所述行业关键字库,以获得匹配关键字;以及
基于所述匹配关键字和语音数据库,生成所述第一回复语音。
2.根据权利要求1所述通话方法,其中在所述获取所述通话者的通话记录相关数据的步骤中,包括:
识别所述通话者的身份相关信息;和
基于所述通话者的身份相关信息,获取所述通话者的通话记录相关数据。
3.根据权利要求2所述通话方法,其中在所述获取所述通话者的通话记录相关数据的步骤中,包括:
在一通话记录相关数据库或者一电话运营商的云端数据库中获取储存所述通话者的通话记录相关数据。
4.根据权利要求1所述通话方法,还包括步骤:
基于所述通话记录相关数据和所述第一回复语音,获得与所述第一回复语音相匹配的至少一第一发音时间间隔;和
在所述经所述第一时间间隔后,控制一通话设备播放第一回复语音的步骤中,还包括:
控制所述通话设备按照各所述第一发音时间间隔依次播放所述第一回复语音的字音或词音。
5.根据权利要求1所述通话方法,还包括步骤:
获取所述通话者的第二通话语音;
基于所述第二通话语音,获得一第二回复语音;
基于所述通话者的通话记录相关数据、第二通话语音和第二回复语音,获得一第二时间间隔;以及
经所述第二时间间隔后,控制所述通话设备播放所述第二回复语音。
6.根据权利要求5所述通话方法,还包括步骤:
基于所述通话记录相关数据和所述第二回复语音,获得所述第二回复语音相匹配的至少一第二发音时间间隔;和
在所述经所述第二时间间隔后,控制所述通话设备播放所述第二回复语音的步骤中,包括:
控制所述通话设备按照各所述第二发音时间间隔依次播放所述第二回复语音的字音或词音。
7.根据权利要求6所述通话方法,其中在所述获得一第二回复语音的步骤中,包括:
基于所述通话者的第二通话语音,获得所述通话者的第二情感数据;
将所述通话者的第二通话语音转化为第二文字;
基于所述第二情感数据和行业关键字库,根据所述第二文字获得第二通话关键字;以及
根据所述第二通话关键字,获得预先储存的所述第二回复语音。
8.根据权利要求1所述通话方法,其中在所述基于所述情感数据和行业关键字库,根据所述文字获得通话关键字的步骤中,包括:
基于所述文字和所述行业关键字库,获得匹配关键字;和
基于所述情感数据和所述匹配关键字,获得所述通话关键字。
9.根据权利要求8所述通话方法,其中在所述获得匹配关键字的步骤中,包括:
当所述文字中的某个目标字无法匹配所述行业关键字库时,生成所述目标字的谐音字;
基于所述谐音字和所述行业关键字库,获得所述匹配关键字。
10.根据权利要求1所述通话方法,还包括步骤:
获取所述通话者的第二通话语音;
基于所述第一通话语音和所述第二通话语音,生成一服务挽留指令;
基于所述服务挽留指令和语音数据库,获得一服务挽留语音;以及
控制所述通话设备播放所述服务挽留语音。
11.一通话系统,其特征在于,包括:
一语音获取模块;
一时间间隔获得模块;
一回复语音获得模块;
一通话记录数据获取模块;
一控制模块,其中所述语音获取模块获取一通话者的第一通话语音,其中所述通话记录数据获取模块获取所述通话者的通话记录相关数据,基于所述第一通话语音,所述回复语音获得模块获得一第一回复语音,基于所述通话者的通话记录相关数据、第一通话语音和第一回复语音,其中所述时间间隔获得模块获得一第一时间间隔,其中所述控制模块经所述第一时间间隔后控制一通话设备播放所述第一回复语音,其中在播放所述第一回复语音的过程中,动态调整所述第一回复 语音的发音间隔;
一情感数据获得模块;
一转化文字模块;以及
一关键字获得模块,其中基于所述第一通话语音,所述情感数据通过分析所述第一通话语音的发音、语调、语速、音量、停顿节奏,以获得所述第一通话语音所表达的情感数据,其中所述转化文字模块将所述第一通话语音转化为第一通话语音文字,其中所述关键字获得模块基于所述情感数据和行业关键字库确定所述第一通话语音文字的匹配关键字,其中所述关键字获得模块包括一行业匹配模块和一谐音纠正模块,其中若无法得到匹配关键字,则所述谐音纠正模块生成所述匹配关键字的谐音字,由所述行业匹配模块继续匹配行业关键字库以获得匹配关键字,其中基于所述通话关键字和语音数据库,所述回复语音获得模块获得所述第一回复语音。
12.根据权利要求11所述通话系统,其中所述通话记录数据获取模块包括:
一身份识别模块;和
一通话数据获得模块,其中所述身份识别模块识别所述通话者的身份相关信息,基于所述通话者的身份相关信息,其中所述通话数据获得模块获取所述通话者的通话记录相关数据。
13.根据权利要求12所述通话系统,其中所述通话记录数据获取模块还包括一云端数据获取模块,其中所述云端数据获取模块基于所述通话记录相关数据,获取一电话运营商的云端数据库中储存的所述通话记录相关数据。
14.根据权利要求11所述通话系统,其中所述时间间隔获得模块还包括基于所述通话记录相关数据和所述第一回复语音,获得与所述第一回复语音相匹配的至少一第一发音时间间隔,其中所述控制模块控制所述通话设备按照各所述第一发音时间间隔依次播放所述第一回复语音的字音或词音。
15.根据权利要求11所述通话系统,其中所述语音获取模块还包括获取所述通话者的第二通话语音,基于所述第二通话语音,其中所述回复语音获得模块获得一第二回复语音,基于所述通话者的通话记录相关数据、第二通话语音和第二回复语音,其中所述时间间隔获得模块还包括获得一第二时间间隔,其中所述控制模块还包括经所述第二时间间隔后控制所述通话设备播放所述第二回复语音。
16.根据权利要求11所述通话系统,其中所述关键字获得模块包括:
一情感修正模块,基于所述文字和所述行业关键字库,其中所述行业匹配模块获得匹配关键字,基于所述情感数据和所述匹配关键字,其中所述情感修正模块获得所述通话关键字。
17.根据权利要求11所述通话系统,还包括:
获取所述通话者的第二通话语音;
基于所述第一通话语音和所述第二通话语音,生成一服务挽留指令;
基于所述服务挽留指令和语音数据库,获得一服务挽留语音;以及
控制所述通话设备播放所述服务挽留语音。
CN201910023119.3A 2019-01-10 2019-01-10 通话系统及其通话方法 Active CN109616116B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910023119.3A CN109616116B (zh) 2019-01-10 2019-01-10 通话系统及其通话方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910023119.3A CN109616116B (zh) 2019-01-10 2019-01-10 通话系统及其通话方法

Publications (2)

Publication Number Publication Date
CN109616116A CN109616116A (zh) 2019-04-12
CN109616116B true CN109616116B (zh) 2023-02-03

Family

ID=66018605

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910023119.3A Active CN109616116B (zh) 2019-01-10 2019-01-10 通话系统及其通话方法

Country Status (1)

Country Link
CN (1) CN109616116B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110827821B (zh) * 2019-12-04 2022-04-12 三星电子(中国)研发中心 一种语音交互装置、方法和计算机可读存储介质
US11594224B2 (en) 2019-12-04 2023-02-28 Samsung Electronics Co., Ltd. Voice user interface for intervening in conversation of at least one user by adjusting two different thresholds

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1533788A1 (en) * 2003-11-20 2005-05-25 Aruze Corp. Conversation control apparatus, and conversation control method
CN105446491A (zh) * 2015-12-16 2016-03-30 北京光年无限科技有限公司 一种基于智能机器人的交互方法和装置
CN105991847A (zh) * 2015-02-16 2016-10-05 北京三星通信技术研究有限公司 通话方法和电子设备
CN107767869A (zh) * 2017-09-26 2018-03-06 百度在线网络技术(北京)有限公司 用于提供语音服务的方法和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1533788A1 (en) * 2003-11-20 2005-05-25 Aruze Corp. Conversation control apparatus, and conversation control method
CN105991847A (zh) * 2015-02-16 2016-10-05 北京三星通信技术研究有限公司 通话方法和电子设备
CN105446491A (zh) * 2015-12-16 2016-03-30 北京光年无限科技有限公司 一种基于智能机器人的交互方法和装置
CN107767869A (zh) * 2017-09-26 2018-03-06 百度在线网络技术(北京)有限公司 用于提供语音服务的方法和装置

Also Published As

Publication number Publication date
CN109616116A (zh) 2019-04-12

Similar Documents

Publication Publication Date Title
CN111246027B (zh) 一种实现人机协同的语音通讯系统及方法
CN111128126B (zh) 多语种智能语音对话的方法及系统
JP7244665B2 (ja) エンドツーエンドの音声変換
Cox et al. Speech and language processing for next-millennium communications services
US8914294B2 (en) System and method of providing an automated data-collection in spoken dialog systems
Juang et al. Automatic recognition and understanding of spoken language-a first step toward natural human-machine communication
Rabiner Applications of voice processing to telecommunications
CN110298252A (zh) 会议纪要生成方法、装置、计算机设备及存储介质
US8301447B2 (en) Associating source information with phonetic indices
US20100217591A1 (en) Vowel recognition system and method in speech to text applictions
US10325599B1 (en) Message response routing
JPH10507536A (ja) 言語認識
US8488750B2 (en) Method and system of providing interactive speech recognition based on call routing
US20080243504A1 (en) System and method of speech recognition training based on confirmed speaker utterances
TW201214413A (en) Modification of speech quality in conversations over voice channels
US20230298564A1 (en) Speech synthesis method and apparatus, device, and storage medium
CN109616116B (zh) 通话系统及其通话方法
CN112102807A (zh) 语音合成方法、装置、计算机设备和存储介质
US10143027B1 (en) Device selection for routing of communications
TW200304638A (en) Network-accessible speaker-dependent voice models of multiple persons
US20010056345A1 (en) Method and system for speech recognition of the alphabet
US20080243499A1 (en) System and method of speech recognition training based on confirmed speaker utterances
US10854196B1 (en) Functional prerequisites and acknowledgments
Woollacott et al. Benchmarking speech technologies
JPH10173769A (ja) 音声メッセージ検索装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant