CN111816172A - 一种语音应答方法及装置 - Google Patents

一种语音应答方法及装置 Download PDF

Info

Publication number
CN111816172A
CN111816172A CN201910285606.7A CN201910285606A CN111816172A CN 111816172 A CN111816172 A CN 111816172A CN 201910285606 A CN201910285606 A CN 201910285606A CN 111816172 A CN111816172 A CN 111816172A
Authority
CN
China
Prior art keywords
voice
text
semantic
input
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910285606.7A
Other languages
English (en)
Inventor
游志泉
宗飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201910285606.7A priority Critical patent/CN111816172A/zh
Publication of CN111816172A publication Critical patent/CN111816172A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L15/222Barge in, i.e. overridable guidance for interrupting prompts
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/487Arrangements for providing information services, e.g. recorded voice services or time announcements
    • H04M3/493Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals
    • H04M3/4936Speech interaction details
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种语音应答方法及装置,涉及计算机技术领域,主要目的在于提高智能机器人在语音交互过程中应答的智能化程度,提升客户的交互体验。本发明主要的技术方案为:在语音输出过程中检测是否存在输入语音;若存在,则识别所述输入语音对应的语义倾向;若所述语义倾向为中断语音输出,则停止当前的语音输出。

Description

一种语音应答方法及装置
技术领域
本发明涉及计算机技术领域,尤其涉及一种语音应答方法及装置。
背景技术
随着互联网的普及,在线消费已经成为人们日常的主流消费模式,而在线消费与线下消费一样,用户对所消费的产品同样具有售前产品咨询,售后产品服务的需求。因此,在线消费的售前和售后需求不断增大,大规模的企业需要解决大量的前期咨询和售后问题。在这个过程中,既需要满足客户对产品服务的满意程度,也需要考虑企业在产品服务的资金预算。目前企业都是招聘大量的人工客服24小时在线拨打和接听来电来解决,虽然人工客服能极大的满足产品的服务满意度,但对于企业来说,大量的人力成本和员工招聘都已成为企业高效率工作的阻力。
目前,使用智能机器人在线拨打和接听客户来电可以有效降低人力成本,但是,现有的智能机器人在与客户进行语音交互的过程中,在语言表述与情感传达上依然与人工客服存在较大差距,特备是在受理客户问题时,智能机器人只能为客户提供模板化的解决方案,无法与客户实现有效沟通。
发明内容
鉴于上述问题,本发明提出了一种语音应答方法及装置,主要目的在于提高智能机器人在语音交互过程中应答的智能化程度,提升客户的交互体验。
为达到上述目的,本发明主要提供如下技术方案:
一方面,本发明提供一种语音应答方法,具体包括:
在语音输出过程中检测是否存在输入语音;
若存在,则识别所述输入语音对应的语义倾向;
若所述语义倾向为中断语音输出,则停止当前的语音输出。
另一方面,本发明提供一种语音应答装置,具体包括:
检测单元,用于在语音输出过程中检测是否存在输入语音;
语义识别单元,用于在所述检测单元确定存在输入语音时,识别所述输入语音对应的语义倾向;
语音输出单元,用于在所述语义识别单元确定所述语义倾向为中断语音输出时,停止当前的语音输出。
另一方面,本发明提供一种存储介质,所述存储介质用于存储计算机程序,其中,所述计算机程序运行时控制所述存储介质所在设备执行上述的语音应答方法。
另一方面,本发明提供一种电子设备,所述电子设备中包括处理器和存储器,所述处理器用于调用所述存储器中的程序指令,以执行上述的语音应答方法。
借由上述技术方案,本发明提供的一种语音应答方法及装置,主要用于为客户提供智能化的语音交互服务,在于客户的语音交互过程中,在向客户播放语音的同时检测客户是否有反馈,若客户有输入语音,那么对该输入语音进行采集、识别,并对该语音所表达的语义进行分析,若该语音含有语义时,停止当前所播放的语音,以模仿人工客服在接听客户来电时倾听客户诉求的场景,实现智能机器人的智能语音应答,提升用户的通话体验。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了本发明实施例提出的一种语音应答方法的流程图;
图2示出了本发明实施例提出的另一种语音应答方法的流程图;
图3示出了本发明实施例提出的一种语音应答装置的组成框图;
图4示出了本发明实施例提出的另一种语音应答装置的组成框图。
具体实施方式
下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例,然而应当理解,可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本发明,并且能够将本发明的范围完整的传达给本领域的技术人员。
本发明实施例提供的一种语音应答方法,主要应用于智能客户系统,即通过智能机器人为客户提供语音交互服务,如售后问题咨询、操作指导服务等,也可以应用于其他可以使用智能机器人代替人工语音服务等领域,比如教育、医疗等领域的语音服务等。现有的智能机器人在为客户提供语音服务时,多是为用户提供模式化的话述语音,或者是检测客户的输输入语音进行双工打断,即在语音交互过程中,语音流一般为双向连续的,机器人在“说话”的同时客户也在说话,此时,如果是在人工语音服务的场景中,人工客服就需要耐心地倾听客户的诉求,进而答复客户的问题。而现有的智能机器人所执行的双工打断是在机器人“说话”时,如果检测到客户在说话,则直接打断机器人当前的话述,而这种方式虽然也模拟了人工服务的方式,但效果并不理想,比如,客户在说“嗯”“好”等语音时,实际是想继续听当前的话述,而不是要中断机器人,甚至是当客户所在地的通话环境比较嘈杂时,其通话的背景音也有可能被误认为客户在说话,导致中断机器人的语音输出。因此,现有的智能机器人在语音应答的方式上还存在明显问题,导致客户应用体验不佳,响应智能机器人的广泛推广应用。
本发明实施例所提供的一种语音应答方法,是基于现有智能机器人的语音应答方式进行的改进,其具体步骤内容如图1所示,包括:
步骤101、在语音输出过程中检测是否存在输入语音。
其中,语音输出过程是指智能机器人向客户播放语音的过程,包括播放话述或者是回答客户问题等。输入语音则是指接收到客户的语音。
该步骤的检测可以通过语音活动检测(Voice Activity Detection,VAD)技术对客户端输入的语音信息进行检测,当检测到客户的输入语音时,执行步骤102,而若未检测到客户有输入语音时,则持续执行该检测,即在语音输出过程中检测客户的输入语音,一旦发现则执行步骤102。
步骤102、识别所述输入语音对应的语义倾向。
该步骤是对输入语音所表达的语义进行识别,即在智能机器人向客户播放语音的过程中识别客户所说话语的含义。
在实际应用中,要识别语音所对应的语义倾向,其过程一般需要先将输入语音转换为语音文本,之后,对语音文本进行语义分析,确定语音文本的语义倾向。
具体的,本步骤中的识别输入语音是指对所检测到的语音进行分析,排除客户端的背景噪声,确定该输入语音是由客户所发出的,进而对该输入语音进行识别转换,以生成对应的语音文本信息。因此,本步骤中在将语音转换为文本的过程中,需要对输入语音先进行过滤识别,该操作可以通过现有的噪音识别与处理技术实现,当然,对于噪音的识别与处理也可由客户端的语音输入设备执行,以降低输入噪音概率;之后,再将输入语音进行文本转换,该转换操作也可以通过现有的语音识别模型实现,常用的语音识别技术包括动态时间规整(DTW)、隐马尔可夫(HMM)理论、矢量量化(VQ)技术,以及人工神经网络(ANN)等。
此外,语义倾向一般是指该语音文本所表达语义的情感倾向性,比如反映客户的情绪是满意、愤怒、不耐烦等。而在本发明实施例中,该语义倾向则主要是指客户对当前智能机器人播放输出的语音的情感倾向,基于该语义倾向可以确定客户是否要继续收听其播放的语音,比如,“好的”,“继续”等都属于正向的情感倾向,此时智能机器人将继续播放当前语音,而如果是“等一下”、“你等等”这些就属于负向的情感倾向,此时智能机器人将停止播放当前语音,即执行步骤104。
需要说明的是,本步骤中的语义分析是针对语音文本进行的,一般地,现有文本语义分析分为词汇级、句子级、篇章级多个层级进行分析,而在本发明实施例中,主要是使用智能机器人替代并模仿人工客服与客户进行语音对话,在该场景下,得到的语音文本主要以词汇、短语为主,因此,本发明实施例中对语音文本的语义分析也是以词汇级的语义分析为主,在词汇层面上的语义分析主要体现在如何理解某个词汇的含义,主要包含两个方面:第一,在自然语言中,一个词具有两种或更多含义的现象非常普遍。如何自动获悉某个词存在着多种含义,以及假设已知某个词具有多种含义,如何根据上下文确认其含义,这些都是词汇级语义分析的内容。在自然语言处理领域,这又称为词义消歧。第二,如何表示并学习一个词的语义,以便计算机能够有效地计算两个词之间的相似度。本发明实例中的语义分析的具体实现可以但不限定是基于NLP(Natural Language Processing,自然语言处理)技术分析语音文本,得到其对应的语义倾向。
在本发明中,语义倾向的标准为中断语音输出的语义,基于该倾向标准可以分别设置正向语义的情感词库与负向语义的情感词库,可以通过计算语音文本中命中正向与负向情感词的比例来确定该语音文本的语义倾向,也可以是通过情感词库中的情感词训练机器学习模型,得到用于识别语音文本语义倾向的识别模型,进而用该识别模型识别语音文本,确定其语义倾向。识别语义倾向的本质是对语音文本进行分类,分类标准则为所定义的语义倾向标准。
步骤103、若语义倾向为中断语音输出,则停止当前的语音输出。
根据上一步步骤的语义分析结果,若语义倾向为中断语音输出,智能机器人将停止当前的语音输出,反之,将继续播放当前的语音。
通过上述是实施例可见,本发明实施例所提供的一种语音应答方法,是在使用智能机器人模拟人工客服来与客户进行语音交互的场景中,为了使智能机器人与人工客服更为近似,在语音应答方面做出的优化改进,即在通话过程中,对客户的输入语音进行检测,当智能机器人在“说话”的同时检测到客户也在说话,则对客户的输入语音进行识别、分析,根据分析得到的语义倾向确定客户不想继续收听智能机器人播放的语音时,停止播放当前的语音,为客户提供更为人性化的语音交互服务,提升客户的应用体验。
进一步的,上述图1所述的实施例主要是应用在电话沟通的场景中,而该在场景下,语音交互对实时性的要求较高,能够快速响应客户的需求也会极大提升客户的满意度。因此,在上述实施例中,要实现对客户的输入语音进行快速响应,就需要对该输入语音进行快速的识别与分析,为此,本发明的另一实施例针对图1所述的步骤102提出了更优化的实现方式,即将客户的输入语音以流式的方式输出语音文本,并进行语义分析,其具体为:
首先,将输入语音按照预置时间间隔截断为多个语音段。其中,该预置时间间隔可以人工设置。
其次,逐一识别所述语音段,生成对应的语音文本。
比如,客户说的一句话为“你等一下”,这句话是以语音流的方式接受的,而在接收时,将根据预置时间间隔截断为多个语音段,假设该时间间隔为说一个字的时间,那么将会得到以下4段语音,顺序截断后分别为:
“你”
“你等”
“你等一”
“你等一下”
之后,再逐条地将语音转换为对应的语音文本,并进行语义分析。
进一步的,为了提高对语音文本转换的准确性,本发明实施例在逐条识别时,还可以对前一段转换的内容进行纠错,其具体过程包括:
首先,获取第n段语音段,该第n段语音段为输入语音的起点至第n段语音段截断点之间的语音。
其次,识别该第n段语音段中的新增语音对应的文本。
最后,根据该新增语音对应的文本纠正已识别的文本内容,得到所述第n段语音段对应的语音文本。
基于上述实施例中的例子再次举例说明,其经过转换后得到的语音文本分别为:
“你”
“你等”
“你等于”
“你等一下”
可见,在对第三段转换时,将该语音转换为文本时,出现了错误(将“等一”转换为“等于”),而在对第四段转换时,由于新增了一个“下”,基于上下文的关系,自动纠正得到对应的语音文本“你等一下”。
进一步的,在上述实施例的基础上,当存在多个语音文本时,为了能够更快速地确定客户的输入语音的语义倾向,在执行图1所述的步骤102,确定语音文本的语义倾向时,其具体方式可以为:
对顺序生成的多个语音文本,按其截断顺序逐条分析语义文本的语义倾向。其中,该语义倾向的分析结果分为中断语音输出与继续语音输出,分析方式在图1所示实施例中已做说明,此处不再赘述。
若确定当前的语音文本的语义倾向为中断语音输出,则停止分析后续的语音文本;反之,若确定当前的语音文本的语义倾向为继续语音输出,或所述语音文本不含有语义,则按顺序分析下一个语音文本的语义。
也就是说,基于上述例子,如果在第二段“你等”时,分析确定该输入语音的语义倾向为中断语音输出,则无需在对后续的语音进行语义分析,同时,还可以停止对所采集的输入语音进行转换的操作。之后,根据该语义倾向停止智能机器人当前播放的语音。
以上的实施例主要说明了,在客户说话时,根据其所表达的语义停止当前播放给客户的语音,以及如何减少在语音转换以及语义识别过程所导致的延时,为客户提供更好的应用体验。
而在停止播放当前语音之后,为了向客户提供更佳的体验,在本发明的另一实施例中,还包括:
判断输入语音的长度是否大于预设时长,若大于,则定期输出应答语音。
其中,应答语音用于表示智能机器人当前在听客户所说的内容,该应答语音如:“是的”、“好”、“嗯”等。从而让智能机器人能更真实地模仿出人工客服的沟通方式,提高智能机器人智能化,人性化。
进一步,在停止播放当前语音之后,在计算能力够用的情况下还可以对客户的输入语音的语义或播放状态进行监控、分析,并根据分析结果确定是否恢复所播放的语音。具体的:
监控与分析输入语音的语义,是指对输入语音进行语义分析,当其中含有继续语音输出的语义倾向时,恢复语音输出。比如:“你继续”等输入语音。
监控与分析播放状态,是指对客户的说话状态进行监控与分析,当播放状态为输入语音停止或中断时长大于阈值时,恢复语音输出。在实际应用中,可以通过检测输入语音的静音时长,即通过VAD技术来判断静音时长,从而确定是否恢复语音输出。
综合上述实施例的内容,本发明提出了语音应答方法的一个优选实施例,具体如图2所示,包括:
步骤201、在语音输出过程中检测是否存在输入语音。
步骤202、将所述输入语音按照预置时间间隔截断为多个语音段。
步骤203、逐一识别所述语音段,生成对应的语音文本。
步骤204、对顺序生成的多个语音文本按截断顺序分析所述语义文本的语义倾向。
其中,若确定当前的语音文本的语义倾向为中断语音输出,则停止分析后续的语音文本;反之,若确定当前的语音文本的语义倾向为继续语音输出,或所述语音文本不含有语义,则按截断顺序分析下一个语音文本的语义倾向。
步骤205、若语义倾向为中断语音输出,则停止当前的语音输出。
步骤206、判断输入语音的长度是否大于预设时长,若大于,则定期输出应答语音。
步骤207、根据输入语音的语义或播放状态恢复语音输出。
以下,针对电话客服系统中应用本发明后实现的效果举例说明:
智能机器人:您先消消气,@1对卖家的这种不文明的行为和不佳的服务品质,给您带来的不便,我们深感抱歉~如您还没有在该卖家处购@2买商品,建议您可@3以选择其他店铺评分较高和信誉度比较好的店铺进行购买。
上述为智能机器人在于客户的电话服务中的一段话述,其中,客户在@1处的时间点说:“嗯,你继续”,此时,将针对客户所说的语音进行识别与分析,将其转化为三段语音文本,分别为:
“嗯”
“嗯,你”
“嗯,你继续”
经过对着三段语音文本的语义分析,都识别为继续播放当前语音,此时,智能机器人会继续播放该语音话述。
之后,客户又在@2处的时间点说:“你等一下,我补充一点……”,此时,依然对客户所说的语音进行识别与分析,将其转化为多段的语音文本,分别为:
“你”
“你等”
“你等于”
“你等一下”……
经过对着多段语音文本的逐段进行语义分析,当分析到第四段时,确定客户的输入语音所表达的语义倾向为中断当前语音,此时,由于语音分析的过程,当前智能机器人已经播放到了@3处,即智能机器人在@3处停止播放当前语音。
之后,会根据客户所说语音的时间长度,定期地发出应答语音,以模仿人工客户的倾听状态,并分析客户语音中的语义,若语义存在继续播放的倾向时,则恢复播放语音,或者是在客户语音中断一定时长后自动恢复智能机器人的语音输出。
进一步的,作为对上述图1所示方法的实现,本发明实施例提供了一种语音应答装置,该装置主要用于智能化的语音应答系统中,让语音交互设备为用户提供更为人性化的语音交互体验。为便于阅读,本装置实施例不再对前述方法实施例中的细节内容进行逐一赘述,但应当明确,本实施例中的装置能够对应实现前述方法实施例中的全部内容。该装置如图3所示,具体包括:
检测单元31,用于在语音输出过程中检测是否存在输入语音;
语义识别单元32,用于在所述检测单元31确定存在输入语音时,识别所述输入语音对应的语义倾向;
语音输出单元33,用于在所述语义识别单元32确定所述语义倾向为中断语音输出时,停止当前的语音输出。
进一步的,如图4所示,所述语义识别单元32包括:
文本转换模块321,用于将所述输入语音转换为语音文本;
语义分析模块322,用于对所述文本转换模块得到的语音文本进行语义分析,确定所述语音文本的语义倾向。
进一步的,如图4所示,所述文本转换模块321包括:
语音分段子模块3211,用于将所述输入语音按照预置时间间隔截断为多个语音段;
语音识别子模块3212,用于逐一识别所述语音分段模块3211输出的语音段,生成对应的语音文本。
进一步的,所述语义分析模块322还用于:
对顺序生成的多个语音文本按截断顺序分析所述语义文本的语义倾向;
若确定所述语音文本的语义倾向为中断语音输出,则停止分析后续的语音文本;
若确定所述语音文本的语义倾向为继续语音输出,或所述语音文本不含有语义,则按顺序分析下一个语音文本的语义。
进一步的,所述语音识别子模块3212还用于:
获取第n段语音段,所述第n段语音段为输入语音的起点至第n段语音段截断点之间的语音;
识别所述第n段语音段中的新增语音对应的文本;
根据所述新增语音对应的文本纠正已识别的文本内容,得到所述第n段语音段对应的语音文本。
进一步的,如图4所示,所述装置还包括:
判断单元34,用于在语音输出单元33停止当前的语音输出后,判断所述输入语音的长度是否大于预设时长;
所述语音输出单元33还用于,若所述判断单元34确定长度大于预设时长时,则定期输出应答语音。
进一步的,所述语音输出单元33还用于,在停止当前的语音输出后,根据所述输入语音的语义或播放状态恢复所述语音输出,所述播放状态包括输入语音停止或中断时长大于阈值。
进一步的,本发明实施例还提供了处理器,该处理器用于运行程序,其中,所述程序运行时执行如图1或图2所述的语音应答方法。
另外,本发明实施例还提供了一种电子设备,该电子设备中包括处理器和存储器,存储器用于存储程序,处理器耦合至所述存储器,用于运行所述程序,以执行如图1或图2所述的语音应答方法。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
可以理解的是,上述方法及装置中的相关特征可以相互参考。另外,上述实施例中的“第一”、“第二”等是用于区分各实施例,而并不代表各实施例的优劣。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
此外,存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (16)

1.一种语音应答方法,其特征在于,所述方法包括:
在语音输出过程中检测是否存在输入语音;
若存在,则识别所述输入语音对应的语义倾向;
若所述语义倾向为中断语音输出,则停止当前的语音输出。
2.根据权利要求1所述的方法,其特征在于,识别所述输入语音对应的语义倾向,包括:
将所述输入语音转换为语音文本;
对所述语音文本进行语义分析,确定所述语音文本的语义倾向。
3.根据权利要求2所述的方法,其特征在于,将所述输入语音转换为语音文本,具体包括:
将所述输入语音按照预置时间间隔截断为多个语音段;
逐一识别所述语音段,生成对应的语音文本。
4.根据所述权利要求3所述方法,其特征在于,对所述语音文本进行语义分析,确定所述语音文本的语义倾向,具体包括:
对顺序生成的多个语音文本按截断顺序分析所述语义文本的语义倾向;
若确定所述语音文本的语义倾向为中断语音输出,则停止分析后续的语音文本;
若确定所述语音文本的语义倾向为继续语音输出,或所述语音文本不含有语义,则按截断顺序分析下一个语音文本的语义倾向。
5.根据权利要求3所述的方法,其特征在于,所述逐一识别所述语音段,生成对应的语音文本,具体包括:
获取第n段语音段,所述第n段语音段为输入语音的起点至第n段语音段截断点之间的语音;
识别所述第n段语音段中的新增语音对应的文本;
根据所述新增语音对应的文本纠正已识别的文本内容,得到所述第n段语音段对应的语音文本。
6.根据权利要求1-5中任一项所述的方法,其特征在于,所述方法还包括:
在停止当前的语音输出后,判断所述输入语音的长度是否大于预设时长;
若大于,则定期输出应答语音。
7.根据权利要求1-5中任一项所述的方法,其特征在于,所述方法还包括:
在停止当前的语音输出后,根据所述输入语音的语义或播放状态恢复所述语音输出,所述播放状态包括输入语音停止或中断时长大于阈值。
8.一种语音应答装置,其特征在于,所述装置包括:
检测单元,用于在语音输出过程中检测是否存在输入语音;
语义识别单元,用于在所述检测单元确定存在输入语音时,识别所述输入语音对应的语义倾向;
语音输出单元,用于在所述语义识别单元确定所述语义倾向为中断语音输出时,停止当前的语音输出。
9.根据权利要求8所述的装置,其特征在于,所述语义识别单元包括:
文本转换模块,用于将所述输入语音转换为语音文本;
语义分析模块,用于对所述文本转换模块得到的语音文本进行语义分析,确定所述语音文本的语义倾向。
10.根据权利要求9所述的装置,其特征在于,所述文本转换模块包括:
语音分段子模块,用于将所述输入语音按照预置时间间隔截断为多个语音段;
语音识别子模块,用于逐一识别所述语音分段模块输出的语音段,生成对应的语音文本。
11.根据所述权利要求10所述装置,其特征在于,所述语义分析模块还用于:
对顺序生成的多个语音文本按截断顺序分析所述语义文本的语义倾向;
若确定所述语音文本的语义倾向为中断语音输出,则停止分析后续的语音文本;
若确定所述语音文本的语义倾向为继续语音输出,或所述语音文本不含有语义,则按截断顺序分析下一个语音文本的语义倾向。
12.根据权利要求10所述的装置,其特征在于,所述语音识别子模块还用于:
获取第n段语音段,所述第n段语音段为输入语音的起点至第n段语音段截断点之间的语音;
识别所述第n段语音段中的新增语音对应的文本;
根据所述新增语音对应的文本纠正已识别的文本内容,得到所述第n段语音段对应的语音文本。
13.根据权利要求8-12中任一项所述的装置,其特征在于,所述装置还包括:
判断单元,用于在语音输出单元停止当前的语音输出后,判断所述输入语音的长度是否大于预设时长;
所述语音输出单元还用于,若所述判断单元确定长度大于预设时长时,则定期输出应答语音。
14.根据权利要求8-12中任一项所述的装置,其特征在于,所述语音输出单元还用于,在停止当前的语音输出后,根据所述输入语音的语义或播放状态恢复所述语音输出,所述播放状态包括输入语音停止或中断时长大于阈值。
15.一种存储介质,其特征在于,所述存储介质用于存储计算机程序,其中,所述计算机程序运行时控制所述存储介质所在设备执行权利要求1-7中任意一项所述的语音应答方法。
16.一种电子设备,其特征在于,所述电子设备中包括处理器和存储器,所述处理器用于调用所述存储器中的程序指令,以执行权利要求1-7中任意一项所述的语音应答方法。
CN201910285606.7A 2019-04-10 2019-04-10 一种语音应答方法及装置 Pending CN111816172A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910285606.7A CN111816172A (zh) 2019-04-10 2019-04-10 一种语音应答方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910285606.7A CN111816172A (zh) 2019-04-10 2019-04-10 一种语音应答方法及装置

Publications (1)

Publication Number Publication Date
CN111816172A true CN111816172A (zh) 2020-10-23

Family

ID=72844375

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910285606.7A Pending CN111816172A (zh) 2019-04-10 2019-04-10 一种语音应答方法及装置

Country Status (1)

Country Link
CN (1) CN111816172A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112037799A (zh) * 2020-11-04 2020-12-04 深圳追一科技有限公司 语音中断处理方法、装置、计算机设备和存储介质
CN113345437A (zh) * 2021-08-06 2021-09-03 百融云创科技股份有限公司 语音打断方法及装置
CN113488024A (zh) * 2021-05-31 2021-10-08 杭州摸象大数据科技有限公司 一种基于语义识别的电话打断识别方法和系统
WO2022267405A1 (zh) * 2021-06-24 2022-12-29 达闼机器人股份有限公司 语音交互方法、系统、电子设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB9928011D0 (en) * 1999-11-27 2000-01-26 Ibm Voice processing system
CN103544955A (zh) * 2012-07-13 2014-01-29 三星电子株式会社 识别语音的方法及其电子装置
CN103559880A (zh) * 2013-11-08 2014-02-05 百度在线网络技术(北京)有限公司 语音输入系统和方法
CN105070290A (zh) * 2015-07-08 2015-11-18 苏州思必驰信息科技有限公司 人机语音交互方法及系统
CN106487531A (zh) * 2015-08-26 2017-03-08 重庆西线科技有限公司 一种具有自动纠错功能的语音自动记录方法
CN108257616A (zh) * 2017-12-05 2018-07-06 苏州车萝卜汽车电子科技有限公司 人机对话的检测方法以及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB9928011D0 (en) * 1999-11-27 2000-01-26 Ibm Voice processing system
CN103544955A (zh) * 2012-07-13 2014-01-29 三星电子株式会社 识别语音的方法及其电子装置
CN103559880A (zh) * 2013-11-08 2014-02-05 百度在线网络技术(北京)有限公司 语音输入系统和方法
CN105070290A (zh) * 2015-07-08 2015-11-18 苏州思必驰信息科技有限公司 人机语音交互方法及系统
CN106487531A (zh) * 2015-08-26 2017-03-08 重庆西线科技有限公司 一种具有自动纠错功能的语音自动记录方法
CN108257616A (zh) * 2017-12-05 2018-07-06 苏州车萝卜汽车电子科技有限公司 人机对话的检测方法以及装置

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112037799A (zh) * 2020-11-04 2020-12-04 深圳追一科技有限公司 语音中断处理方法、装置、计算机设备和存储介质
CN112037799B (zh) * 2020-11-04 2021-04-06 深圳追一科技有限公司 语音中断处理方法、装置、计算机设备和存储介质
CN113488024A (zh) * 2021-05-31 2021-10-08 杭州摸象大数据科技有限公司 一种基于语义识别的电话打断识别方法和系统
WO2022267405A1 (zh) * 2021-06-24 2022-12-29 达闼机器人股份有限公司 语音交互方法、系统、电子设备及存储介质
CN113345437A (zh) * 2021-08-06 2021-09-03 百融云创科技股份有限公司 语音打断方法及装置
CN113345437B (zh) * 2021-08-06 2021-10-29 百融云创科技股份有限公司 语音打断方法及装置

Similar Documents

Publication Publication Date Title
US10692500B2 (en) Diarization using linguistic labeling to create and apply a linguistic model
US11496582B2 (en) Generation of automated message responses
CN111816172A (zh) 一种语音应答方法及装置
US7912720B1 (en) System and method for building emotional machines
US20240153489A1 (en) Data driven dialog management
US11676625B2 (en) Unified endpointer using multitask and multidomain learning
US11276403B2 (en) Natural language speech processing application selection
CN110995943B (zh) 多用户流式语音识别方法、系统、设备及介质
KR20230073297A (ko) 트랜스포머-트랜스듀서: 스트리밍 및 비스트리밍 음성 인식을 통합하는 하나의 모델
CN111370030A (zh) 语音情感检测方法与装置、存储介质、电子设备
CN112825248A (zh) 语音处理方法、模型训练方法、界面显示方法及设备
CN114708856A (zh) 一种语音处理方法及其相关设备
CN112071310A (zh) 语音识别方法和装置、电子设备和存储介质
US11238855B1 (en) Voice user interface entity resolution
CN114385800A (zh) 语音对话方法和装置
CN111862943A (zh) 语音识别方法和装置、电子设备和存储介质
WO2021169825A1 (zh) 语音合成方法、装置、设备和存储介质
CN113611316A (zh) 人机交互方法、装置、设备以及存储介质
US11741945B1 (en) Adaptive virtual assistant attributes
CN115346517A (zh) 一种流式语音识别方法、装置、设备及存储介质
US11437026B1 (en) Personalized alternate utterance generation
CN111949778A (zh) 一种基于用户情绪的智能语音对话方法、装置及电子设备
US11544303B1 (en) Responding with unresponsive content
CN112397053B (zh) 语音识别方法、装置、电子设备及可读存储介质
CN114328867A (zh) 一种人机对话中智能打断的方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination