CN109003600A - 消息处理方法及装置 - Google Patents

消息处理方法及装置 Download PDF

Info

Publication number
CN109003600A
CN109003600A CN201810872873.XA CN201810872873A CN109003600A CN 109003600 A CN109003600 A CN 109003600A CN 201810872873 A CN201810872873 A CN 201810872873A CN 109003600 A CN109003600 A CN 109003600A
Authority
CN
China
Prior art keywords
password
specified speech
language
verbal instructions
message
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810872873.XA
Other languages
English (en)
Other versions
CN109003600B (zh
Inventor
许丽
潘嘉
王智国
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
iFlytek Co Ltd
Original Assignee
iFlytek Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by iFlytek Co Ltd filed Critical iFlytek Co Ltd
Priority to CN201810872873.XA priority Critical patent/CN109003600B/zh
Publication of CN109003600A publication Critical patent/CN109003600A/zh
Application granted granted Critical
Publication of CN109003600B publication Critical patent/CN109003600B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • G10L17/14Use of phonemic categorisation or speech recognition prior to speaker recognition or verification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0207Discounts or incentives, e.g. coupons or rebates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/005Language recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • G10L17/24Interactive procedures; Man-machine interfaces the user being prompted to utter a password or a predefined phrase

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Development Economics (AREA)
  • General Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • Game Theory and Decision Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Machine Translation (AREA)

Abstract

本发明实施例提供一种消息处理方法及装置,属于计算机应用技术领域。该方法包括:获取源消息及目标消息,源消息中包含指定语音口令,目标消息包含有领取语音口令;若指定语音口令与领取语音口令之间的匹配概率大于预设阈值,则将源消息的关联账户中的电子资源转移至目标消息的关联账户,指定语音口令对应的语言类型可任意设置。由于指定语音口令对应的语言类型可任意设置,消息处理过程中使用的语言除了普通话之外,还可以使用不同国家地区的语言,从而消息处理过程可适用于不同的语言场景,消息的传播力度较强且传播范围较广。

Description

消息处理方法及装置
技术领域
本发明实施例涉及计算机应用技术领域,更具体地,涉及一种消息处理方法及装置。
背景技术
随着互联网技术的发展,互联网应用的各种功能日益丰富,红包功能是目前大多数互联网应用所提供的一种特色服务,尤其是在节日、假日来临时,互联网应用的红包功能得到广泛使用。红包功能主要是使用互联网应用的用户之间进行红包消息的传递,其中,红包消息指的是一种具备祝福功能、带有转账数额且能够通过互联网进行传播的消息。在相关技术中,主要是由用户发送包含普通话口令的红包,当识别出其他用户输入普通话口令时,则其他用户可领取上述用户发送的红包。由于用户之间在交互时,只能发送及领取包含普通话语音口令的红包,从而消息处理过程的适用场景较为单一,红包消息的传播力度较弱且传播范围较为限制。
发明内容
为了解决上述问题,本发明实施例提供一种克服上述问题或者至少部分地解决上述问题的消息处理方法及装置。
根据本发明实施例的第一方面,提供了一种消息处理方法,该方法包括:
获取源消息及目标消息,源消息中包含指定语音口令,目标消息包含有领取语音口令;
若指定语音口令与领取语音口令之间的匹配概率大于预设阈值,则将源消息的关联账户中的电子资源转移至目标消息的关联账户,指定语音口令对应的语言类型可任意设置。
本发明实施例提供的方法,通过获取源消息及目标消息,若指定语音口令与领取语音口令之间的匹配概率大于预设阈值,则将源消息的关联账户中的电子资源转移至目标消息的关联账户,指定语音口令对应的语言类型可任意设置。由于指定语音口令对应的语言类型可任意设置,消息处理过程中使用的语言除了普通话之外,还可以使用不同国家地区的语言,从而消息处理过程可适用于不同的语言场景,消息的传播力度较强且传播范围较广。
根据本发明实施例的第二方面,提供了一种消息处理装置,该装置包括:
第一获取模块,用于获取源消息及目标消息,源消息中包含指定语音口令,目标消息包含有领取语音口令;
若指定语音口令与领取语音口令之间的匹配概率大于预设阈值,则将源消息的关联账户中的电子资源转移至目标消息的关联账户,指定语音口令对应的语言类型可任意设置。
根据本发明实施例的第三方面,提供了一种电子设备,包括:
至少一个处理器;以及
与处理器通信连接的至少一个存储器,其中:
存储器存储有可被处理器执行的程序指令,处理器调用程序指令能够执行第一方面的各种可能的实现方式中任一种可能的实现方式所提供的消息处理方法。
根据本发明的第四方面,提供了一种非暂态计算机可读存储介质,非暂态计算机可读存储介质存储计算机指令,计算机指令使计算机执行第一方面的各种可能的实现方式中任一种可能的实现方式所提供的消息处理方法。
应当理解的是,以上的一般描述和后文的细节描述是示例性和解释性的,并不能限制本发明实施例。
附图说明
图1为本发明实施例的一种消息处理方法的场景示意图;
图2为本发明实施例的一种消息处理方法的流程示意图;
图3为本发明实施例的一种消息处理方法的流程示意图;
图4为本发明实施例的一种消息处理方法的流程示意图;
图5为本发明实施例的一种消息处理方法的流程示意图;
图6为本发明实施例的一种消息处理方法的流程示意图;
图7为本发明实施例的一种消息处理装置的框图;
图8为本发明实施例的一种电子设备的框图。
具体实施方式
下面结合附图和实施例,对本发明实施例的具体实施方式作进一步详细描述。以下实施例用于说明本发明实施例,但不用来限制本发明实施例的范围。
随着互联网技术的发展,互联网应用的各种功能日益丰富,红包功能是目前大多数互联网应用所提供的一种特色服务,尤其是在节日、假日来临时,互联网应用的红包功能得到广泛使用。红包功能主要是使用互联网应用的用户之间进行红包消息的传递,其中,红包消息指的是一种具备祝福功能、带有转账数额且能够通过互联网进行传播的消息。在相关技术中,主要是由用户发送包含普通话口令的红包,当识别出其他用户输入普通话口令时,则其他用户可领取上述用户发送的红包。
为了便于理解,现结合红包领取场景下的消息处理流程,对终端与服务器之间的交互流程进行说明。参见图1,第一用户可通过第一终端101向服务器102发送红包消息。其中,红包消息中包含第一用户使用普通话讲的第一语音口令。当然,红包消息还可以包括用户设置的文字口令,本发明实施例对此不作具体限定。服务器102在接到红包消息后,可将红包消息转发至第二终端103。第二终端103在接收到第一用户发送的红包消息后,可将红包消息中的第一语音口令语音播报给使用第二终端103的第二用户。第二用户可按照听到的内容,使用普通话讲出用于领红包的第二语音口令,并通过第二终端103向服务器102发送包含第二语音口令的红包领取消息。服务器102通过检测第一语音口令与第二语音口令是否相匹配,如果匹配的话,可以由第二用户领红包,也即按照第二用户领取到的电子货币额度,将等量的电子货币从第一用户的关联账户转移至第二用户的关联账户。
由于用户之间在交互时,只能发送及领取包含普通话语音口令的红包,从而红包消息的处理过程及适用场景较为单一,红包消息的传播力度较弱且传播范围较为限制。
针对上述情形,本发明实施例提供了一种消息处理方法。该方法可应用于上述红包领取场景,也可以用于其它电子资源的领取场景,本发明实施例对此不作具体限定。另外,该方法对应的执行主体可以为服务器,也可以为终端,或者由服务器或终端交互实现,本发明实施例对此也不作具体限定。为了便于说明,本发明实施例以执行主体为服务器为例,对本发明实施例提供的消息处理方法进行阐述。参见图2,该方法包括:
201、获取源消息及目标消息。
由上述实施场景实施例可知,源消息可以由第一用户通过第一终端101发送。需要说明的是,源消息可设置有电子资源属性,并可用于实现电子资源的转让或分享。电子资源可以为虚拟货币(如游戏币)或者电子货币等,本发明实施例对此不作具体限定。电子资源属性包括电子资源的总额度及领取次数,源消息中包含指定语音口令。目标消息可以由第二用户通过第二终端103发送,目标消息包含有领取语音口令,目标消息可用于实现获取源消息转让或分享的电子资源。
202、若指定语音口令与领取语音口令之间的匹配概率大于预设阈值,则将源消息的关联账户中的电子资源转移至目标消息的关联账户,指定语音口令对应的语言类型可任意设置。
为了便于理解,现以红包领取场景为例,对获取源消息及目标消息的过程进行说明。相应地,源消息即为红包消息,目标消息即为红包领取消息,电子资源即为电子货币。第一用户在通过第一终端101发送红包消息时,可为红包消息设置电子货币属性。例如,若发红包用户希望一个人领红包,则可设置领取次数为1。以发红包用户设置电子货币的总额度为100元为例,当一个人领取该红包后,则发红包用户的关联账户中会减少100元,而领取红包用户的关联账户中会增加100元。若发红包用户希望多人领取红包,如2人,则可设置领取次数为2。以2人领取红包时额度随机,且发红包用户设置电子货币的总额度为100元为例,若第1个用户领取红包分到的额度为48元,则发红包用户的关联账户中会减少48元,而领取红包用户的关联账户中会增加48元。相应地,第1个用户领取红包分到的额度为52元,则发红包用户的关联账户中会减少52元,而领取红包用户的关联账户中会增加52元。其中,红包消息中包含指定语音口令,如“用四川话说出恭喜发财”。
服务器102将指定语音口令与领取语音口令进行匹配,若两者之间的匹配概率大于预设阈值,则可将里面的指定语音口令播报给第二用户,从而第二用户可基于指定语音口令讲出领取语音口令,并由第二终端103将包含有领取语音口令的领取红包消息发送至服务器102,从而服务器102可将第一用户的账户中电子货币属性所指定额度的电子货币转移至第二用户的账户,也即完成整个红包发送到红包领取的过程。其中,第一用户的账户即为红包消息的关联账户,第二用户的账户即为红包领取消息的关联账户。
本发明实施例提供的方法,通过获取源消息及目标消息,若指定语音口令与领取语音口令之间的匹配概率大于预设阈值,则将源消息的关联账户中的电子资源转移至目标消息的关联账户,指定语音口令对应的语言类型可任意设置。由于指定语音口令对应的语言类型可任意设置,消息处理过程中使用的语言除了普通话之外,还可以使用不同国家地区的语言,从而消息处理过程可适用于不同的语言场景,消息的传播力度较强且传播范围较广。
基于上述实施例的内容,作为一种可选实施例,在将源消息的关联账户中的电子资源转移至目标消息的关联账户之前,还可获取指定语音口令与领取语音口令之间的匹配概率。本发明实施例不对获取指定语音口令与领取语音口令之间的匹配概率的方式作具体限定,包括但不限于:根据评测特征,获取指定语音口令与领取语音口令之间的匹配概率。
其中,评测特征是基于指定语音口令及领取语音口令获取到的,评测特征指的是用于评价指定语音口令与领取语音口令之间相近程度的特征(如两者各自对应的口令文本之间的语义相似度等),和/或影响两者之间相近程度的客观因素(如语音口令本身的发音难度等)。
基于上述实施例的内容,作为一种可选实施例,本发明实施例不对根据评测特征,获取指定语音口令与领取语音口令之间的匹配概率的方式作具体限定,包括但不限于:将评测特征输入至评测模型,输出指定语音口令与领取语音口令之间的匹配概率;其中,评测模型是基于样本指定语音口令、样本评测特征及样本评测特征的标注结果训练得到的,样本评测特征是基于样本领取语音口令及样本指定语音口令获取到的,标注结果用于表示样本指定语音口令与样本领取语音口令之间是否匹配。
在执行上述过程之前,可训练得到评测模型。具体地,可将样本指定语音口令及样本评测特征作为初始模型的输入,将样本评测特征的标注结果作为初始模型的输出,从而对初始模型中的参数进行训练,以得到评测模型。其中,样本评测特征是基于样本领取语音口令及样本指定语音口令获取到的,标注结果用于表示样本指定语音口令与样本领取语音口令之间是否匹配。初始模型可采用神经网络模型等,本发明实施例对此不作具体限定。
需要说明的是,在对初始模型进行训练时,可通过正例及反例进行训练。其中,对于任一样本指定语音口令,正例指的是该样本指定语音口令以及与该样本指定语音口令相匹配的样本领取语音口令,反例指的是该样本指定语音口令以及与该样本指定语音口令不匹配的样本领取语音口令。
在训练得到评测模型后,通过将评测特征输入至评测模型,可输出指定语音口令与领取语音口令之间的匹配概率。或者,实际实施中还可输出指定语音口令与领取语音口令之间的不匹配概率,本发明实施例对此不作具体限定。若输出的是两者之间的匹配概率,则可判定指定语音口令与领取语音口令之间的匹配概率是否大于预设阈值。若输出的是两者之间的不匹配概率,则可判定指定语音口令与领取语音口令之间的匹配概率是否小于预设阈值。需要说明的是,上述实施例中涉及到的预设阈值,其取值均可根据需求进行设置,且不同过程中涉及到的预设阈值可以相同也可以不同,本发明实施例对此不作具体限定。
本发明实施例提供的方法,通过将评测特征输入至评测模型,输出指定语音口令与领取语音口令之间的匹配概率。后续可判断匹配概率是否大于预设阈值,以确定指定语音口令与领取语音口令之间是否匹配。由于可从不同角度对指定语音口令与领取语音口令之间的相近程度进行判定,从而提高判定时的准确率。
基于上述实施例的内容,作为一种可选实施例,评测特征至少包括以下六种数据中的任意一种,以下六种数据分别为语言类型置信度、语言类型、指定语音口令对应的口令文本中的文字数量、指定语音口令对应的口令文本与领取语音口令对应的口令文本之间的相似度、领取语音口令对应的置信度及指定语音口令对应的发音难度。
其中,语言类型置信度表示领取语音口令使用的语言类型与指定语音口令对应的语言类型之间相同的可能性。语言类型指的是指定语音口令对应的语言类型,对于一种语言类型而言,发音难度指的是人们在讲出该语言类型对应话语时的客观难度。语言类型可通过one hot特征进行表示,也可以用标号进行表示,还可以用embedding向量进行表示,本发明实施例对此不作具体限定。另外,在计算领取语音口令对应的置信度时,可先将领取语音口令与指定语音口令对应的口令文本进行对齐。基于对齐结果,计算指定语音口令对应的口令文本的帧平均后验概率,并将该帧平均后验概率作为置信度。
另外,在根据评测特征,获取指定语音口令与领取语音口令之间的匹配概率之前,还可获取领取口音指令对应的口令文本。本发明实施例不对获取领取口音指令对应的口令文本的方式作具体限定,包括但不限于:根据领取语音口令中的声学特征,获取领取语音口令对应的口令文本;或者,根据指定语音口令对应的语言类型及根据领取语音口令中的声学特征,获取领取语音口令对应的口令文本。
其中,声学特征可以为领取语音口令的频谱特征,如FB(Filter Bank,滤波组件)特征或MFCC(Mel Frequency Cepstrum Coefficient,梅尔频率倒谱系数)特征等,本发明实施例对此不作具体限定。现对不同的获取方式进行解释说明。
(1)第一种获取方式
本发明实施例不对根据领取语音口令中的声学特征,获取领取语音口令对应的口令文本的方式作具体限定,包括但不限于:将领取语音口令中的声学特征输入至第一语音内容识别模型,输出领取语音口令对应的口令文本。其中,第一语音内容识别模型与指定语音口令对应的语言类型相匹配,第一语音内容识别模型是基于样本声学特征及样本声学特征对应的样本口令文本训练得到的。
在执行上述过程之前,可预先为每一预设语言类型训练对应的第一语音内容识别模型。具体地,对于任一预设语言类型,可从使用该预设语言类型的样本语音口令中提取样本声学特征,并获取样本语音口令对应的样本口令文本。将样本声学特征作为初始模型的输入,将样本口令文本作为输出,以对初始模型进行训练,从而得到第一语音内容识别模型。其中,初始模型可以为HMM-GMM(Hidden Markov Model-Gaussian Mixed Model,隐藏马尔可夫高斯混合)模型、HMM-NN(Hidden Markov Model-Neural Network,隐藏马尔可夫神经网络)模型、DNN(Deep Neural Network,深度神经网络)模型或RNN(Recurrent NeuralNetwork,循环神经网络)模型等,本发明实施例对此不作具体限定。
需要说明的是,由于上述实施例可知,领取语音口令使用的语言类型与指定语音口令对应的语言类型相同,从而本发明实施例的第一种方式中使用的第一语音内容识别模型即为指定语音口令对应的语言类型,其相匹配的第一语音内容识别模型。而同样由上述实施例可知,指定语音口令对应的语言类型是被预设语言类型包含在内的,也即指定语音口令对应的语言类型,其相匹配的第一语音内容识别模型已被训练好。因此,在第一种方式中,可直接使用预先训练好的第一语音内容识别模型。
(2)第二种获取方式
本发明实施例不对根据指定语音口令对应的语言类型及根据领取语音口令中的声学特征,获取领取语音口令对应的口令文本的方式作具体限定,包括但不限于:将指定语音口令对应的语言类型及领取语音口令中的声学特征输入至第二语音内容识别模型,输出领取语音口令对应的口令文本,第二语音内容识别模型与所有预设语言类型相匹配,第二语音内容识别模型是基于样本声学特征、样本声学特征对应的预设语言类型及样本声学特征对应的样本口令文本训练得到的。
具体地,由上述第一种方式的实现过程可知,第一种方式中是每一预设语言类型各自有一个与其相匹配的第一语音内容识别模型。而在第二种方式中,则是第二语音内容识别模型与所有预设语言类型相匹配,也即所有预设语言类型共用同一个模型。其中,指定语音口令对应的语言类型可通过不同的形式表示,如采样数字标识的方式,本发明实施例对此不作具体限定。以不同的预设语言类型通过one hot特征进行表示,且预设语言类型分别为四川话、武汉话、合肥话及上海话为例,则上述四个预设语言类型对应的one hot特征分别为(1,0,0,0)、(0,1,0,0)、(0,0,1,0)及(0,0,0,1)。
若领取语音口令中的声学特征用特征向量v进行表示,则将声学特征与上述四种预设语言类型对应的one hot特征分别进行组合,可得到(v,1,0,0,0)、(v,0,1,0,0)、(v,0,0,1,0)及(v,0,0,0,1)。由上述实施例的内容可知,指定语音口令对应的语言类型已经确定。以指定语音口令对应的语言类型为四川话,则将(v,1,0,0,0)输入至第二语音内容识别模型,可输出领取语音口令对应的口令文本。
在执行上述过程之前,可预先训练第二语音内容识别模型。具体地,对于任一预设语言类型,可从不同预设语言类型的样本语音口令中提取样本声学特征,并获取样本语音口令对应的第二样本口令文本。将样本声学特征及样本声学特征对应的预设语言类型作为初始模型的输入,将样本口令文本作为输出,以对初始模型进行训练,从而得到第二语音内容识别模型。初始模型可以为RNN-CTC(Recurrent Neural Network-ConnectionistTemporal Classification,递归神经网络联结时态分类)模型、Encoder-Decoder模型等,本发明实施例对此不作具体限定。
需要说明的是,由在第一种方式中,每一预设语言类型均需要预先训练一个第一语音内容识别模型,从而通过采用第二种方式,可避免因模型太多而占用太多资源。而在第一种方式中,由于输入的参数较少,从而相比于第二种方式,第一种方式的处理效率较高。另外,由上述实施例的内容可知,指定语音口令对应的口令文本可通过关键词提取的方法获取,也可以基于本发明实施例提供的语音内容识别模型获取,本发明实施例对此不作具体限定。
另外,还需要说明的是,实际实施过程中,对于通过语音内容识别模型(包括第一语音内容识别模型及第二语音内容识别模型)已经识别出的领取语音口令,可将其进行标记,并作为语音内容识别模型的训练样本,从而实现对语音内容识别模型的自动化自适应训练,以不断提高语音内容识别模型的识别准确率。
本发明实施例提供的方法,由于评测特征可包含多项不同的数据,从而可从不同角度对指定语音口令与领取语音口令之间的匹配程度进行判定,从而提高判定时的准确率。
基于上述实施例的内容,作为一种可选实施例,评测特征包括指定语音口令对应的口令文本与领取语音口令对应的口令文本之间的相似度;相应地,在根据评测特征,获取指定语音口令与领取语音口令之间的匹配概率之前,还可计算指定语音口令对应的口令文本与领取语音口令对应的口令文本之间的相似度,本发明实施例不对计算两者之间相似度的方式作具体限定。参见图3,包括但不限于:
301、计算指定语音口令对应的口令文本与领取语音口令对应的口令文本之间的编辑距离,并获取指定语音口令对应的口令文本中的文字数量。
其中,指定语音口令对应的口令文本与领取语音口令对应的口令文本均可用字符串进行表示。两者之间的编辑距离指的是,由一个字符串转成另一个字符串所需的最少编辑操作次数。一般情况下,编辑距离越小,则表示两个字符串的相似度越大。如果编辑距离等于零,则表示两个字符串完全相同。
302、根据编辑距离与文字数量之间的比值,计算指定语音口令对应的口令文本与领取语音口令对应的口令文本之间的相似度。
具体地,该计算过程可通过如下公式表示:
在上述公式中,S表示指定语音口令对应的口令文本与领取语音口令对应的口令文本之间的相似度,D表示编辑距离,C表示文字数量。以指定语音口令为“用粤语说出恭喜发财”,且领取语音口令为“恭喜你发财”为例,则指定语音口令对应的语言类型为粤语,而指定语音口令对应的口令文本为“恭喜发财”。按照上述公式中各个参数的定义,可确定D为1且C为4,从而可计算得到的S为0.75。
需要说明的是,第一预设阈值的取值可以为0.8。若相似度大于等于0.8,则可确定指定语音口令与领取语音口令之间满足预设条件。
本发明实施例提供的方法,由于可根据指定语音口令对应的口令文本与领取语音口令对应的口令文本之间的相似度,并作为评测特征以评测两者之间的匹配程度,从而可提高识别领取语音口令使用的语言类型时的准确率。
基于上述实施例的内容,作为一种可选实施例,评测特征可包括语言类型置信度;相应地,在根据评测特征,获取指定语音口令与领取语音口令之间的匹配概率之前,还可确定语言类型置信度。本发明实施例不对根据评测特征,获取指定语音口令与领取语音口令之间的匹配概率的方式作具体限定,包括但不限于:根据领取语音口令中的声学特征以及每一预设语言类型,确定语言类型置信度;其中,所有预设语言类型中包含指定语音口令对应的语言类型。
其中,声学特征可以为PLP(Perceptual Linear Predictive,感知线性预测)特征,也可以线性预测分析特征,本发明实施例对此不作具体限定。语言类型置信度用于表示领取语音口令使用的语言类型与指定语音口令对应的语言类型之间相同的可能性。
基于上述实施例的内容,作为一种可选实施例,本发明实施例不对根据领取语音口令中的声学特征以及每一预设语言类型,确定语言类型置信度的方式作具体限定。参见图4,包括但不限于:
401、根据领取语音口令中的声学特征,获取每一预设语言类型对应的得分。
其中,预设语言类型对应的得分表示领取语音口令使用的语言类型为预设语言类型时的可能性。得分越大,则表示可能性越高。预设语言类型可以为预先设定多种语言类型,其种类总数可根据需求进行设置,本发明实施例对此不作具体限定。以方言为例,预设语言类型可分别为四川话、武汉话、合肥话、上海话、北京话及粤语等等。需要说明的是,指定语音口令对应的语言类型是被预设语言类型包含在内的。
本发明实施例不对根据领取语音口令中的声学特征,获取每一预设语言类型对应的得分的方式作具体限定,包括但不限于:将领取语音口令中的声学特征输入至语言类型识别模型,输出每一预设语言类型对应的得分,语言类型识别模型是基于样本声学特征及样本声学特征对应的预设语言类型训练得到的。
在执行上述过程之前,可训练得到语言类型识别模型。以声学特征为PLP特征为例,则样本声学特征即为样本PLP特征。相应地,语言类型识别模型的训练过程可具体为:从样本语音口令中获取样本PLP特征。其中,样本语音口令使用的语言类型均为预设语言类型。将样本PLP特征作为初始模型的输入,将样本PLP特征对应的预设语言类型作为已知条件,对初始模型中的参数进行训练,从而训练得到语言类型识别模型。其中,初始模型可以为(Total Variability,总变量)模型,本发明实施例对此不作具体限定。
在训练得到语言类型识别模型后,可将领取语音口令中的声学特征输入至语言类型识别模型,从而输出领取语音口令使用的语言类型为每一预设语言类型时的可能性分值,也即输出每一预设语言类型对应的得分。其中,分值越大则表明可能性越高。以预设语言类型分别为四川话、武汉话、合肥话、上海话及北京话为例,在将领取语音口令中的第一声学特征输入至语言类型识别模型后,可输出四川话对应的得分、武汉话对应的得分、合肥话对应的得分、上海话对应的得分及北京话对应的得分。
402、对每一预设语言类型对应的得分按照从大到小进行排序,确定前预设数量的预设语言类型,并计算前预设数量的预设语言类型所对应的总得分。
其中,预设数量不大于预设语言类型的总数,预设数量的数值可根据需求进行设置,如取值为2,本发明实施例对此不作具体限定。结合上述示例,以预设语言类型分别为四川话、武汉话、合肥话、上海话及北京话,预设数量取值为2为例,若四川话对应的得分为0.93、武汉话对应的得分为0.78、合肥话对应的得分为0.56、上海话对应的得分为-0.13且北京话对应的得分为-0.31,在对每一预设语言类型对应的得分按照从大到小进行排序后,选取前2个预设语言类型,即为四川话及武汉话。相应地,前预设数量的预设语言类型所对应的总得分即为(0.93+0.78)=1.71。
403、若前预设数量的预设语言类型中包含指定语音口令对应的语言类型,则根据总得分以及指定语音口令对应的得分,计算语言类型置信度。
以上述示例为基础,若指定语音口令对应的语言类型为武汉话,则可确定前预设数量的预设语言类型中包含指定语音口令对应的语言类型。在计算语言类型置信度时,可参考如下公式:
在上述公式中,L表示语言类型置信度。对于指定语音口令对应的语言类型,Sp表示该语言类型对应的得分。而N表示预设数量,S1至SN即分别表示前预设数量个预设语言类型对应的得分。结合上述示例,Sp为0.78,而N取值为2,且(S1+S2)为1.71。此时,L的取值为0.45。
本发明实施例提供的方法,通过根据领取语音口令中的声学特征,获取每一预设语言类型对应的得分。对每一预设语言类型对应的得分按照从大到小进行排序,确定前预设数量的预设语言类型,并计算前预设数量的预设语言类型所对应的总得分。若前预设数量的预设语言类型中包含指定语音口令对应的语言类型,则根据总得分以及指定语音口令对应的得分,计算语言类型置信度。由于可将语言类型置信度作为评测特征,以评测两者之间的匹配程度,从而可提高识别领取语音口令使用的语言类型时的准确率。
基于上述实施例的内容,作为一种可选实施例,评测特征包括指定语音口令对应的发音难度;相应地,根据评测特征,获取指定语音口令与领取语音口令之间的匹配概率之前,还可确定指定语音口令对应的发音难度。参见图5,本发明实施例不对确定指定语音口令对应的发音难度的方式作具体限定,包括但不限于:
501、将指定语音口令对应的语言类型作为目标语言类型,确定目标语言类型对应的标准语言类型。
其中,对于一种语言,标准语言类型指的是可以为该种语言适用较广的语言版本类型。例如,对于英语而言,美式英语与英式英语其适用范围较广,从而可将美式或者英式英语作为标准语言类型。或者,标准语言类型还可以为该种语言官方指定的语言版本类型。例如,对于汉语而言,汉语下有很多种方言,但是普通话是官方指定的语言版本类型。从而可将普通话作为标准语言类型。
502、根据指定语音口令对应的口令文本,目标语言类型以及标准语言类型,确定指定语音口令对应的发音难度。
以指定语言口令对应的语言类型为某一方言为例,在本步骤中可根据指定语音口令对应的口令文本,确定该口令文本的普通话版本语音数据。将普通话版本语音数据与该指定语音口令进行比较,从而确定该指定语音口令对应的发音难度。
本发明实施例提供的方法,通过将指定语音口令对应的语言类型作为目标语言类型,确定目标语言类型对应的标准语言类型。根据指定语音口令对应的口令文本,目标语言类型以及标准语言类型,确定指定语音口令对应的发音难度。由于可将发音难度作为评测特征,以评测两者之间的匹配程度,从而可提高识别领取语音口令使用的语言类型时的准确率。
基于上述实施例的内容,作为一种可选实施例,本发明实施例不对根据指定语音口令对应的口令文本,目标语言类型以及标准语言类型,确定指定语音口令对应的发音难度的方式作具体限定。参见图6,包括但不限于:
5021、根据指定语音口令对应的口令文本,确定目标语言类型对应的音素序列,并确定标准语言类型对应的音素序列。
以指定语言口令对应的语言类型为某一方言为例,则标准语言类型为普通话。例如,若该口令文本为“恭喜发财”,而目标语言类型为东北话,则东北话对应的音素序列为“gong xi fa cai”,而普通话对应的音素序列也为“gong xi fa cai”。
5022、根据目标语言类型对应的音素序列与标准语言类型对应的音素序列之间最小编辑距离,确定指定语音口令对应的发音难度。
其中,该指定语音口令对应的发音难度指的是该目标语言类型对应的音素序列与该标准语言类型对应的音素序列之间的差异,具体差异可使用两者之间的最小编辑距离来表示。差异越大,则表明该指定语音口令对应的发音难度越大。例如,东北话与普通话比较接近,而粤语与普通话差异较大。若该口令文本为“恭喜发财”,则用粤语说“恭喜发财”会比用东北话说“恭喜发财”难得多。其中,东北话“恭喜发财”的音素序列为“gong xi fa cai”,东北话“恭喜发财”的音素序列为“gong xi fa cai”,粤语“恭喜发财”的音素序列为“gunghei faat coi”。相应地,东北话的发音难度为0,而粤语的发音难度为4。
本发明实施例提供的方法,通过根据指定语音口令对应的口令文本,确定目标语言类型对应的音素序列,并确定标准语言类型对应的音素序列。根据目标语言类型对应的音素序列与标准语言类型对应的音素序列之间最小编辑距离,确定指定语音口令对应的发音难度。由于可将目标语言类型对应的音素序列与标准语言类型对应的音素序列之间最小编辑距离,作为指定语音口令对应的发音难度,并以此作为评测特征,以评测两者之间的匹配程度,从而可提高识别领取语音口令使用的语言类型时的准确率。
需要说明的是,上述所有可选实施例,可以采用任意结合形成本发明的可选实施例,在此不再一一赘述。
基于上述实施例的内容,本发明实施例提供了一种消息处理装置,该装置用于执行上述方法实施例中的消息处理方法。参见图7,该装置包括:
第一获取模块701,用于获取源消息及目标消息,源消息中包含指定语音口令,目标消息包含有领取语音口令;
转移模块702,用于当指定语音口令与领取语音口令之间的匹配概率大于预设阈值时,则将源消息的关联账户中的电子资源转移至目标消息的关联账户,指定语音口令对应的语言类型可任意设置。
作为一种可选实施例,该装置还包括:
第二获取模块,用于根据评测特征,获取指定语音口令与领取语音口令之间的匹配概率,评测特征是基于指定语音口令及领取语音口令获取到的。
作为一种可选实施例,第一获取模块701,用于将评测特征输入至评测模型,输出指定语音口令与领取语音口令之间的匹配概率;其中,评测模型是基于样本指定语音口令、样本评测特征及样本评测特征的标注结果训练得到的,样本评测特征是基于样本领取语音口令及样本指定语音口令获取到的,标注结果用于表示样本指定语音口令与样本领取语音口令之间是否匹配。
作为一种可选实施例,评测特征至少包括以下六种数据中的任意一种,以下六种数据分别为语言类型置信度、语言类型、指定语音口令对应的口令文本中的文字数量、指定语音口令对应的口令文本与领取语音口令对应的口令文本之间的相似度、领取语音口令对应的置信度及指定语音口令对应的发音难度。
作为一种可选实施例,评测特征包括指定语音口令对应的口令文本与领取语音口令对应的口令文本之间的相似度;相应地,该装置还包括:
第一计算模块,用于计算指定语音口令对应的口令文本与领取语音口令对应的口令文本之间的编辑距离,并获取指定语音口令对应的口令文本中的文字数量;
第二计算模块,用于根据编辑距离与文字数量之间的比值,计算指定语音口令对应的口令文本与领取语音口令对应的口令文本之间的相似度。
作为一种可选实施例,评测特征包括语言类型置信度;相应地,该装置还包括:
第一确定模块,用于根据领取语音口令中的声学特征以及每一预设语言类型,确定语言类型置信度;其中,所有预设语言类型中包含指定语音口令对应的语言类型。
作为一种可选实施例,第一确定模块,用于根据领取语音口令中的声学特征,获取每一预设语言类型对应的得分;其中,预设语言类型对应的得分表示领取语音口令使用的语言类型为预设语言类型时的可能性;对每一预设语言类型对应的得分按照从大到小进行排序,确定前预设数量的预设语言类型,并计算前预设数量的预设语言类型所对应的总得分;若前预设数量的预设语言类型中包含指定语音口令对应的语言类型,则根据总得分以及指定语音口令对应的得分,计算语言类型置信度。
作为一种可选实施例,评测特征包括指定语音口令对应的发音难度;相应地,该装置还包括:
第二确定模块,将指定语音口令对应的语言类型作为目标语言类型,确定目标语言类型对应的标准语言类型;
第三确定模块,根据指定语音口令对应的口令文本,目标语言类型以及标准语言类型,确定指定语音口令对应的发音难度。
作为一种可选实施例,第三确定模块,用于根据指定语音口令对应的口令文本,确定目标语言类型对应的音素序列,并确定标准语言类型对应的音素序列;根据目标语言类型对应的音素序列与标准语言类型对应的音素序列之间最小编辑距离,确定指定语音口令对应的发音难度。
本发明实施例提供的装置,通过获取源消息及目标消息,若指定语音口令与领取语音口令之间的匹配概率大于预设阈值,则将源消息的关联账户中的电子资源转移至目标消息的关联账户,指定语音口令对应的语言类型可任意设置。由于指定语音口令对应的语言类型可任意设置,消息处理过程中使用的语言除了普通话之外,还可以使用不同国家地区的语言,从而消息处理过程可适用于不同的语言场景,消息的传播力度较强且传播范围较广。
其次,通过将评测特征输入至评测模型,输出指定语音口令与领取语音口令之间的匹配概率。后续可判断匹配概率是否大于预设阈值,以确定指定语音口令与领取语音口令之间是否匹配。由于可从不同角度对指定语音口令与领取语音口令之间的相近程度进行判定,从而提高判定时的准确率。
再次,由于评测特征可包含多项不同的数据,从而可从不同角度对指定语音口令与领取语音口令之间的匹配程度进行判定,从而提高判定时的准确率。
从次,由于可根据指定语音口令对应的口令文本与领取语音口令对应的口令文本之间的相似度,并作为评测特征以评测两者之间的匹配程度,从而可提高识别领取语音口令使用的语言类型时的准确率。
另外,通过根据领取语音口令中的声学特征,获取每一预设语言类型对应的得分。对每一预设语言类型对应的得分按照从大到小进行排序,确定前预设数量的预设语言类型,并计算前预设数量的预设语言类型所对应的总得分。若前预设数量的预设语言类型中包含指定语音口令对应的语言类型,则根据总得分以及指定语音口令对应的得分,计算语言类型置信度。由于可将语言类型置信度作为评测特征,以评测两者之间的匹配程度,从而可提高识别领取语音口令使用的语言类型时的准确率。
最后,通过将指定语音口令对应的语言类型作为目标语言类型,确定目标语言类型对应的标准语言类型。根据指定语音口令对应的口令文本,目标语言类型以及标准语言类型,确定指定语音口令对应的发音难度。由于可将发音难度作为评测特征,以评测两者之间的匹配程度,从而可提高识别领取语音口令使用的语言类型时的准确率。
还需要说明的是,通过根据指定语音口令对应的口令文本,确定目标语言类型对应的音素序列,并确定标准语言类型对应的音素序列。根据目标语言类型对应的音素序列与标准语言类型对应的音素序列之间最小编辑距离,确定指定语音口令对应的发音难度。由于可将目标语言类型对应的音素序列与标准语言类型对应的音素序列之间最小编辑距离,作为指定语音口令对应的发音难度,并以此作为评测特征,以评测两者之间的匹配程度,从而可提高识别领取语音口令使用的语言类型时的准确率。
本发明实施例提供了一种电子设备。参见图8,该设备包括:处理器(processor)801、存储器(memory)802和总线803;
其中,处理器801及存储器802分别通过总线803完成相互间的通信;
处理器801用于调用存储器802中的程序指令,以执行上述实施例所提供的消息处理方法,例如包括:获取源消息及目标消息,源消息中包含指定语音口令,目标消息包含有领取语音口令;若指定语音口令与领取语音口令之间的匹配概率大于预设阈值,则将源消息的关联账户中的电子资源转移至目标消息的关联账户,指定语音口令对应的语言类型可任意设置。
本发明实施例提供一种非暂态计算机可读存储介质,该非暂态计算机可读存储介质存储计算机指令,该计算机指令使计算机执行上述实施例所提供的消息处理方法,例如包括:获取源消息及目标消息,源消息中包含指定语音口令,目标消息包含有领取语音口令;若指定语音口令与领取语音口令之间的匹配概率大于预设阈值,则将源消息的关联账户中的电子资源转移至目标消息的关联账户,指定语音口令对应的语言类型可任意设置。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所描述的电子设备等实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分方法。最后,本申请的方法仅为较佳的实施方案,并非用于限定本发明实施例的保护范围。凡在本发明实施例的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明实施例的保护范围之内。

Claims (12)

1.一种消息处理方法,其特征在于,包括:
获取源消息及目标消息,所述源消息中包含指定语音口令,所述目标消息包含有领取语音口令;
若指定语音口令与所述领取语音口令之间的匹配概率大于预设阈值,则将所述源消息的关联账户中的电子资源转移至所述目标消息的关联账户,所述指定语音口令对应的语言类型可任意设置。
2.根据权利要求1所述的方法,其特征在于,所述将所述源消息的关联账户中的电子资源转移至所述目标消息的关联账户之前,还包括:
根据评测特征,获取所述指定语音口令与所述领取语音口令之间的匹配概率,所述评测特征是基于所述指定语音口令及所述领取语音口令获取到的。
3.根据权利要求2所述的方法,其特征在于,所述根据评测特征,获取所述指定语音口令与所述领取语音口令之间的匹配概率,包括:
将所述评测特征输入至评测模型,输出所述指定语音口令与所述领取语音口令之间的匹配概率;其中,所述评测模型是基于样本指定语音口令、样本评测特征及所述样本评测特征的标注结果训练得到的,所述样本评测特征是基于样本领取语音口令及所述样本指定语音口令获取到的,所述标注结果用于表示所述样本指定语音口令与所述样本领取语音口令之间是否匹配。
4.根据权利要求2或3所述的方法,其特征在于,所述评测特征至少包括以下六种数据中的任意一种,所述以下六种数据分别为语言类型置信度、语言类型、所述指定语音口令对应的口令文本中的文字数量、所述指定语音口令对应的口令文本与所述领取语音口令对应的口令文本之间的相似度、所述领取语音口令对应的置信度及所述指定语音口令对应的发音难度。
5.根据权利要求4所述的方法,其特征在于,所述评测特征包括所述指定语音口令对应的口令文本与所述领取语音口令对应的口令文本之间的相似度;相应地,所述根据评测特征,获取所述指定语音口令与所述领取语音口令之间的匹配概率之前,还包括:
计算所述指定语音口令对应的口令文本与所述领取语音口令对应的口令文本之间的编辑距离,并获取所述指定语音口令对应的口令文本中的文字数量;
根据所述编辑距离与所述文字数量之间的比值,计算所述指定语音口令对应的口令文本与所述领取语音口令对应的口令文本之间的相似度。
6.根据权利要求4所述的方法,其特征在于,所述评测特征包括所述语言类型置信度;相应地,所述根据评测特征,获取所述指定语音口令与所述领取语音口令之间的匹配概率之前,还包括:
根据所述领取语音口令中的声学特征以及每一预设语言类型,确定所述语言类型置信度;其中,所有预设语言类型中包含所述指定语音口令对应的语言类型。
7.根据权利要求6所述的方法,其特征在于,所述根据所述领取语音口令中的声学特征以及每一预设语言类型,确定所述语言类型置信度,包括:
根据所述领取语音口令中的声学特征,获取每一预设语言类型对应的得分;其中,所述预设语言类型对应的得分表示所述领取语音口令使用的语言类型为所述预设语言类型时的可能性;
对每一预设语言类型对应的得分按照从大到小进行排序,确定前预设数量的预设语言类型,并计算所述前预设数量的预设语言类型所对应的总得分;
若前预设数量的预设语言类型中包含所述指定语音口令对应的语言类型,则根据所述总得分以及所述指定语音口令对应的得分,计算所述语言类型置信度。
8.根据权利要求4所述的方法,其特征在于,所述评测特征包括所述指定语音口令对应的发音难度;相应地,所述根据评测特征,获取所述指定语音口令与所述领取语音口令之间的匹配概率之前,还包括:
将所述指定语音口令对应的语言类型作为目标语言类型,确定所述目标语言类型对应的标准语言类型;
根据所述指定语音口令对应的口令文本,所述目标语言类型以及所述标准语言类型,确定所述指定语音口令对应的发音难度。
9.根据权利要求8所述的方法,其特征在于,所述根据所述指定语音口令对应的口令文本,所述目标语言类型以及所述标准语言类型,确定所述指定语音口令对应的发音难度,包括:
根据所述指定语音口令对应的口令文本,确定所述目标语言类型对应的音素序列,并确定所述标准语言类型对应的音素序列;
根据所述目标语言类型对应的音素序列与所述标准语言类型对应的音素序列之间最小编辑距离,确定所述指定语音口令对应的发音难度。
10.一种消息处理装置,其特征在于,包括:
第一获取模块,用于获取源消息及目标消息,所述源消息中包含指定语音口令,所述目标消息包含有领取语音口令;
转移模块,用于当指定语音口令与所述领取语音口令之间的匹配概率大于预设阈值时,则将所述源消息的关联账户中的电子资源转移至所述目标消息的关联账户,所述指定语音口令对应的语言类型可任意设置。
11.一种电子设备,其特征在于,包括:
至少一个处理器;以及
与所述处理器通信连接的至少一个存储器,其中:
所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行如权利要求1至9任一所述的方法。
12.一种非暂态计算机可读存储介质,其特征在于,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行如权利要求1至9任一所述的方法。
CN201810872873.XA 2018-08-02 2018-08-02 消息处理方法及装置 Active CN109003600B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810872873.XA CN109003600B (zh) 2018-08-02 2018-08-02 消息处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810872873.XA CN109003600B (zh) 2018-08-02 2018-08-02 消息处理方法及装置

Publications (2)

Publication Number Publication Date
CN109003600A true CN109003600A (zh) 2018-12-14
CN109003600B CN109003600B (zh) 2021-06-08

Family

ID=64595498

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810872873.XA Active CN109003600B (zh) 2018-08-02 2018-08-02 消息处理方法及装置

Country Status (1)

Country Link
CN (1) CN109003600B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109818737A (zh) * 2018-12-24 2019-05-28 科大讯飞股份有限公司 个性化口令生成方法及系统
CN110858819A (zh) * 2019-08-16 2020-03-03 杭州智芯科微电子科技有限公司 基于微信小程序的语料收集方法、装置和计算机设备
CN111399728A (zh) * 2020-03-04 2020-07-10 维沃移动通信有限公司 设置方法、电子设备及存储介质
CN111786860A (zh) * 2020-06-29 2020-10-16 广东美的制冷设备有限公司 家电及其控制方法和计算机可读存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1889170A (zh) * 2005-06-28 2007-01-03 国际商业机器公司 基于录制的语音模板生成合成语音的方法和系统
US20140244248A1 (en) * 2013-02-22 2014-08-28 International Business Machines Corporation Conversion of non-back-off language models for efficient speech decoding
CN105244024A (zh) * 2015-09-02 2016-01-13 百度在线网络技术(北京)有限公司 一种语音识别方法及装置
CN105530175A (zh) * 2016-01-29 2016-04-27 腾讯科技(深圳)有限公司 一种消息处理方法、装置及系统
CN105869634A (zh) * 2016-03-31 2016-08-17 重庆大学 一种基于领域的带反馈语音识别后文本纠错方法及系统
CN108172212A (zh) * 2017-12-25 2018-06-15 横琴国际知识产权交易中心有限公司 一种基于置信度的语音语种识别方法及系统
CN108305057A (zh) * 2018-01-22 2018-07-20 平安科技(深圳)有限公司 电子红包的发放装置、方法及计算机可读存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1889170A (zh) * 2005-06-28 2007-01-03 国际商业机器公司 基于录制的语音模板生成合成语音的方法和系统
US20140244248A1 (en) * 2013-02-22 2014-08-28 International Business Machines Corporation Conversion of non-back-off language models for efficient speech decoding
CN105244024A (zh) * 2015-09-02 2016-01-13 百度在线网络技术(北京)有限公司 一种语音识别方法及装置
CN105530175A (zh) * 2016-01-29 2016-04-27 腾讯科技(深圳)有限公司 一种消息处理方法、装置及系统
CN105869634A (zh) * 2016-03-31 2016-08-17 重庆大学 一种基于领域的带反馈语音识别后文本纠错方法及系统
CN108172212A (zh) * 2017-12-25 2018-06-15 横琴国际知识产权交易中心有限公司 一种基于置信度的语音语种识别方法及系统
CN108305057A (zh) * 2018-01-22 2018-07-20 平安科技(深圳)有限公司 电子红包的发放装置、方法及计算机可读存储介质

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109818737A (zh) * 2018-12-24 2019-05-28 科大讯飞股份有限公司 个性化口令生成方法及系统
CN109818737B (zh) * 2018-12-24 2021-10-08 科大讯飞股份有限公司 个性化口令生成方法及系统
CN110858819A (zh) * 2019-08-16 2020-03-03 杭州智芯科微电子科技有限公司 基于微信小程序的语料收集方法、装置和计算机设备
CN111399728A (zh) * 2020-03-04 2020-07-10 维沃移动通信有限公司 设置方法、电子设备及存储介质
CN111786860A (zh) * 2020-06-29 2020-10-16 广东美的制冷设备有限公司 家电及其控制方法和计算机可读存储介质

Also Published As

Publication number Publication date
CN109003600B (zh) 2021-06-08

Similar Documents

Publication Publication Date Title
Macary et al. On the use of self-supervised pre-trained acoustic and linguistic features for continuous speech emotion recognition
US10074363B2 (en) Method and apparatus for keyword speech recognition
CN109003600A (zh) 消息处理方法及装置
CN103853703B (zh) 一种信息处理方法及电子设备
CN110473566A (zh) 音频分离方法、装置、电子设备及计算机可读存储介质
CN112885332A (zh) 一种语音质检方法、系统及存储介质
CN107657017A (zh) 用于提供语音服务的方法和装置
Gupta et al. Two-stream emotion recognition for call center monitoring.
CN110853649A (zh) 基于智能语音技术的标签提取方法、系统、设备及介质
CN105938716A (zh) 一种基于多精度拟合的样本复制语音自动检测方法
CN107707745A (zh) 用于提取信息的方法和装置
CN112233680B (zh) 说话人角色识别方法、装置、电子设备及存储介质
CN110148400A (zh) 发音类型的识别方法、模型的训练方法、装置及设备
CN107077843A (zh) 对话控制装置和对话控制方法
CN109801634A (zh) 一种声纹特征的融合方法及装置
CN106649253B (zh) 基于后验证的辅助控制方法及系统
CN112581938B (zh) 基于人工智能的语音断点检测方法、装置和设备
Kopparapu Non-linguistic analysis of call center conversations
CN106782603A (zh) 智能语音评测方法及系统
CN114708857A (zh) 语音识别模型训练方法、语音识别方法及相应装置
CN111833907B (zh) 一种人机交互方法与终端、计算机可读存储介质
Santoso et al. Speech emotion recognition based on self-attention weight correction for acoustic and text features
Chauhan et al. Emotion recognition using LP residual
CN108899035B (zh) 消息处理方法及装置
Chang et al. STAA-Net: A Sparse and Transferable Adversarial Attack for Speech Emotion Recognition

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant