CN107451131A - 一种语音识别方法及装置 - Google Patents

一种语音识别方法及装置 Download PDF

Info

Publication number
CN107451131A
CN107451131A CN201610363013.4A CN201610363013A CN107451131A CN 107451131 A CN107451131 A CN 107451131A CN 201610363013 A CN201610363013 A CN 201610363013A CN 107451131 A CN107451131 A CN 107451131A
Authority
CN
China
Prior art keywords
voice messaging
database
keyword
sound
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610363013.4A
Other languages
English (en)
Inventor
龙春艳
朱丽佳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guiyang Longmaster Information and Technology Co ltd
Original Assignee
Guiyang Longmaster Information and Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guiyang Longmaster Information and Technology Co ltd filed Critical Guiyang Longmaster Information and Technology Co ltd
Priority to CN201610363013.4A priority Critical patent/CN107451131A/zh
Publication of CN107451131A publication Critical patent/CN107451131A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/54Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for retrieval

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明属于信息处理技术领域,具体涉及一种语音识别方法及装置。该语音识别方法可以包括以下步骤:接收客户端发送的语音信息;根据第一数据库中的语音片段Ⅰ识别所述语音信息,如果无法识别出所述语音信息中的关键词,则根据第二数据库中的语音片段Ⅱ匹配所述语音信息,如果能够将第二数据库中的语音片段Ⅱ与所述语音信息进行匹配,则调取与所述语音片段Ⅱ含义相对应的文本片段Ⅱ,再将所述文本片段Ⅱ组合成文本信息,并根据第一数据库中的文本片段Ⅰ识别出所述文本信息中的关键词,再根据所述关键词搜索出相关内容。本发明实施例的方法可应用与服务器端,以降低对客户端用户的要求,提高用户的搜索成功率。

Description

一种语音识别方法及装置
技术领域
本发明属于信息处理技术领域,具体涉及一种语音识别方法及装置。
背景技术
近几年来,传统的文字搜索已经越来越不能满足人们日益多元化的需要。随着语音识别技术的发展,语音搜索已逐步应用于各种终端设备(如:移动手机、固定电话等)中,基于语音识别技术的语音搜索越来越受到人们的关注。
目前的语音搜索产品通过对用户输入的语音信息进行识别,以将语音信息转换成文本信息,并分析出其中的关键字,然后根据关键字搜索相匹配的结果或者根据关键字在问答系统的数据库中查询对应的问答结果,并将搜索结果以语音、网页或文字等形式展现给用户。
但是,不同地方的用户在进行语音搜索时,由于其发音或者语言描述可能与检索系统中预定的标准发音存在差异,往往导致用户不能够进行语音搜索,或者语音识别的错误率较高,导致搜索结果的命中率较低。因此,现有技术的语音搜索对客户端的用户要求较高,用户搜索的成功率较低。
发明内容
本发明提供一种语音识别方法及装置,其可应用与服务器端,以降低对客户端用户的要求,提高用户的搜索成功率。
本发明采用如下技术方案:
一种语音识别方法,其包括以下步骤:
接收客户端发送的语音信息;
根据第一数据库中的语音片段Ⅰ识别所述语音信息;如果识别出所述语音信息中的关键词,则根据所述关键词搜索出相关内容,并将所述相关内容推送给所述客户端;如果无法识别出所述语音信息中的关键词,则进行步骤A;
步骤A:根据第二数据库中的语音片段Ⅱ匹配所述语音信息,如果能够将第二数据库中的语音片段Ⅱ与所述语音信息进行匹配,则调取与所述语音片段Ⅱ含义相对应的文本片段Ⅱ,再将所述文本片段Ⅱ组合成文本信息,并进行步骤B;如果不能够将第二数据库中的语音片段Ⅱ与所述语音信息进行匹配,则不做处理或者标记所述语音信息为无效内容;
步骤B:根据第一数据库中的文本片段Ⅰ识别出所述文本信息中的关键词,再根据所述关键词搜索出相关内容,并将所述相关内容推送给所述客户端;
其中,所述第一数据库中包含一种或多种语音类型的多个语音片段Ⅰ和多个文本片段Ⅰ,所述第二数据库包含除第一数据库中的语音类型之外的其他一种或多种语音类型的多个语音片段Ⅱ和与每个语音片段Ⅱ含义相对应的且存在于所述第一数据库中的语音类型的文本片段Ⅱ。
优选的是,标记所述语音信息为无效内容后,还包括以下步骤:
将标记为无效内容的语音信息发送到人机交互界面;
响应后台人员的操作,播放所述标记为无效内容的语音信息,并生成与所述标记为无效内容的语音信息对应的审核文本,之后,将所述标记为无效内容的语音信息的无效内容标记符号去除,并将所述语音信息和所述审核文本存储到第二数据库,将所述审核文本存储到第一数据库;或者响应后台人员的操作,播放所述标记为无效内容的语音信息后,将该标记为无效内容的语音信息删除。
优选的是,所述识别出所述语音信息中的关键词之后,还包括:根据第一数据库的文本片段Ⅰ校正所述关键词;所述根据所述关键词搜索出相关内容,是根据校正后的关键词搜索出相关内容。
进一步优选的是,所述根据第一数据库的文本片段Ⅰ校正所述关键词,是根据第一数据库记载的客户端发送的历史信息校正所述关键词。
较佳地,所述语音识别方法还包括:所述标记所述语音信息为无效内容后生成拒绝信息,并将所述拒绝信息推送给客户端。
本发明还提供一种语音识别装置,其包括:
接收模块,用于接收客户端发送的语音信息;
识别模块,用于根据第一数据库中的语音片段Ⅰ识别所述语音信息;如果识别出所述语音信息中的关键词,则根据所述关键词搜索出相关内容,并将所述相关内容推送给所述客户端;
匹配模块,用于如果无法识别出所述语音信息中的关键词,则根据第二数据库中的语音片段Ⅱ匹配所述语音信息,如果能够将第二数据库中的语音片段Ⅱ与所述语音信息进行匹配,则调取与所述语音片段Ⅱ含义相对应的文本片段Ⅱ,再将所述文本片段Ⅱ组合成文本信息;如果不能够将第二数据库中的语音片段Ⅱ与所述语音信息进行匹配,则不做处理或者标记所述语音信息为无效内容;
所述识别模块,还用于根据第一数据库中的文本片段Ⅰ识别出所述文本信息中的关键词,再根据所述关键词搜索出相关内容,并将所述相关内容推送给所述客户端;
其中,所述第一数据库中包含一种或多种语音类型的多个语音片段Ⅰ和多个文本片段Ⅰ,所述第二数据库包含除第一数据库中的语音类型之外的其他一种或多种语音类型的多个语音片段Ⅱ和与每个语音片段Ⅱ含义相对应的且存在于所述第一数据库中的语音类型的文本片段Ⅱ。
优选的是,所述语音识别装置还包括:
传送模块,用于将标记为无效内容的语音信息发送到人机交互界面;
响应模块,用于响应后台人员的操作,播放所述标记为无效内容的语音信息,并生成与所述标记为无效内容的语音信息对应的审核文本,之后,将所述标记为无效内容的语音信息的无效内容标记符号去除,并将所述语音信息和所述审核文本存储到第二数据库,将所述审核文本存储到第一数据库;或者响应后台人员的操作,播放所述标记为无效内容的语音信息后,将该标记为无效内容的语音信息删除。
优选的是,所述语音识别装置还包括:校正模块,用于根据第一数据库的文本片段Ⅰ校正所述关键词;所述根据所述关键词搜索出相关内容,是根据校正后的关键词搜索出相关内容。
进一步优选的是,所述校正模块包括历史信息校正单元,用于根据第一数据库记载的客户端发送的历史信息校正所述关键词。
较佳的是,所述语音识别装置还包括:生成单元,用于所述标记所述语音信息为无效内容后生成拒绝信息,并将所述拒绝信息推送给客户端。
本发明的语音识别方法利用第一数据库进行识别语音信息,利用第二数据库进行匹配第一数据库不能够识别的语音信息,这样可以将根据第一数据库中的语音片段Ⅰ识别所述语音信息的对比规则设置的更严格,提高了第一次提取关键词的精准度,降低了语音识别的错误率;由于设置了第一数据库与第二数据库,只在第一数据库提取关键词时,加快了提取关键词的速度,也因此加快了搜索速度;由于可以根据第二数据库中的语音片段Ⅱ匹配所述语音信息,则可以针对不同的用户配置不同的第二数据库,这就降低了对用户的要求,也增加了搜索成功率。
附图说明
图1为本发明一优选实施例中的语音识别方法的流程图。
图2为本发明另一优选实施例中的语音识别方法的部分流程图。
图3为本发明一优选实施例中的语音识别装置的结构框图。
图4为本发明另一优选实施例中的语音识别装置的结构框图。
具体实施方式
为了更加清楚地了解本发明的技术方案,下面结合附图对本发明进行详细介绍。本发明的实施例具有示例性的作用,本领域技术人员在本发明实施例基础上做出的无实质性的改进,都应属于本发明的保护范围。
本发明提供的一实施例中,如图1所示的语音识别方法,其包括以下步骤:
S101:接收客户端发送的语音信息。
该语音识别方法可适用于服务器端。所述客户端可以是移动手机、固定电话或者其它可以进行语音搜索的设备。客户端发送的语音信息,是客户端录制的用户语音搜索指令,通常,客户端还将该语音信息进行压缩处理,然后再上传给服务器。
S102:根据第一数据库中的语音片段Ⅰ识别所述语音信息;如果识别出所述语音信息中的关键词,则根据所述关键词搜索出相关内容,并将所述相关内容推送给所述客户端;如果无法识别出所述语音信息中的关键词,则进行步骤S103。
需要说明的是,所述第一数据库中包含一种或多种语音类型的多个语音片段Ⅰ和多个文本片段Ⅰ。所述语音片段Ⅰ是预先录入的模板语音片段,所述文本片段Ⅰ是预先录入的文本片段。通常为了提高速度,第一数据库中只存储一种语音类型的多个语音片段Ⅰ和多个文本片段Ⅰ,如:第一数据库的语音类型为汉语标准普通话,语音片段Ⅰ即为汉语标准普通话语音片段,文本片段Ⅰ即为汉字标准语序片段。第一数据库的语音类型也可以为英式标准英文,语音片段Ⅰ即为英式标准英文片段,文本片段Ⅰ即为英式标准语序英文片段。
所述语音片段Ⅰ识别所述语音信息,通常是所述语音信息的特征参数与每个模板语音片段的特征参数逐一进行对比,根据预先设定的对比规则,获得与所述语音信息相匹配的一个或多个最佳模板语音片段。所述特征参数一般包括短时平均能量或幅度、短时平均过零率、短时自相关函数、线性预测系数、倒谱、共振峰等。
可以根据实际需要设定对比规则,根据具体规则可以设定最大相似度值和最小相似度值。如:相似度最大值为10,相似度最小值为0,各个参数进行对比后,分别得出各自的相似度值,可以设定某个或某些特征参数的相似度不能低于8(或其他值),也可以设定总的相似度不能低于某个值,如果满足设定的条件就能获得与所述语音信息相匹配的一个或多个最佳模板语音片段。以此确定所述语音片段Ⅰ是否能够识别所述语音信息。
所述语音片段Ⅰ若能够识别所述语音信息,即是得出了与之相匹配的一个或多个模板语音片段,根据模板语音片段将所述语音信息转化成相应的文本内容,根据文本内容就可以识别出关键词。
所述如果无法识别出所述语音信息中的关键词,是指根据预先设定的对比规则,无法获取模板语音片段,因此无法将所述语音信息转化成相对应的文本内容,也不能以此识别出关键词。如:第一数据库的语音类型为汉语标准普通话,而客户端发送的语音信息为某方言(如四川方言),则根据第一数据库中的语音片段Ⅰ无法得出与所述语音信息相匹配的模板语音片段,也无法提取出关键词。
步骤S103:根据第二数据库中的语音片段Ⅱ匹配所述语音信息,如果能够将第二数据库中的语音片段Ⅱ与所述语音信息进行匹配,则调取与所述语音片段Ⅱ含义相对应的文本片段Ⅱ,再将所述文本片段Ⅱ组合成文本信息,并进行步骤B;如果不能够将第二数据库中的语音片段Ⅱ与所述语音信息进行匹配,则不做处理或者标记所述语音信息为无效内容。
所述第二数据库包含除第一数据库中的语音类型之外的其他一种或多种语音类型的多个语音片段Ⅱ和与每个语音片段Ⅱ含义相对应的且存在于所述第一数据库中的语音类型的文本片段Ⅱ。
所述语音片段Ⅱ是预先录入的模板语音片段,其语音类型不同于语音片段Ⅰ,所述文本片段Ⅱ是预先录入的与语音片段Ⅱ含义相对应文本片段,且所述文本片段Ⅱ的语音类型存在于所述第一数据库中。例如:第一数据库的语音类型为汉语标准普通话,第二数据库中的语音片段Ⅱ的语音类型可以是某地的方言(如四川方言)或某个外语(如英文),第二数据库中的文本片段Ⅱ则为汉字标准语序片段,且每个文本片段Ⅱ的含义与相应的语音片段Ⅱ的含义相对应,可以是相同或相似。
所述语音片段Ⅱ匹配所述语音信息,同上述语音片段Ⅰ识别所述语音信息的过程类似。也是将所述语音信息的特征参数与每个模板语音片段的特征参数逐一进行对比,根据预先设定的对比规则,获得与所述语音信息相匹配的一个或多个最佳语音片段。获取最佳语音片段后,调取与所述最佳语音片段含义相对应的文本片段Ⅱ,再将所述文本片段Ⅱ组合成文本信息,这就将所述语音信息转化成了对应的文本信息,该文本信息与所述语音信息的含义通常是相似或者相同。
例如:第一数据库的语音类型为汉语标准普通话,第二数据库中的语音片段Ⅱ的语音类型是四川方言,第二数据库中的文本片段Ⅱ为汉字标准语序片段,且每个文本片段Ⅱ的含义与相应的语音片段Ⅱ的含义相对应;客户端发送的语音信息为四川方言,根据第一数据库中的语音片段Ⅰ无法得出与所述语音信息相匹配的模板语音片段,也无法提取出关键词;而根据第二数据库中的语音片段Ⅱ匹配所述语音信息,即能够获取一个或多个模板语音片段,并根据获取的模板语音片段可以调取与其含义相对应的一个或多个文本片段Ⅱ;如果调取一个文本片段Ⅱ,则该文本片段Ⅱ即为相应的文本信息(也可以理解为该文本片段独自组合成文本信息),如果调取的是多个文本片段Ⅱ,则这些文本片段Ⅱ可以组合成相应的文本信息。
所述调取与所述语音片段Ⅱ含义相对应的文本片段Ⅱ,是根据预先设定的规则进行调取的。例如:某语音片段Ⅱ为四川方言,其对应的文本片段Ⅱ是汉字标准语序片段,则预先设定的规则就是,该语音片段Ⅱ为与语音信息相对应的最佳语音片段时,自动调取文本片段Ⅱ。
所述将所述文本片段Ⅱ组合成文本信息,可以是随机的组合,以降低系统运行的成本。也可以为了提高搜索的准确率设定某种规则,将所述文本片段Ⅱ结合所述语音信息的含义,生成与所述语音信息含义相同或者相似的文本信息,以便于下一步识别出精准的关键词。
所述如果不能够将第二数据库中的语音片段Ⅱ与所述语音信息进行匹配,即是不能根据第二数据库中的语音片段Ⅱ获取最佳模板语音片段。如:客户端发送的语音信息是另一种方言或者外语或者某种无法识别成语言的声音。通常,如果不能够将第二数据库中的语音片段Ⅱ与所述语音信息进行匹配,则会标记所述语音信息为无效内容,以方便提醒后台人员进行操作。
步骤S104:根据第一数据库中的文本片段Ⅰ识别出所述文本信息中的关键词,再根据所述关键词搜索出相关内容,并将所述相关内容推送给所述客户端。
由于文本片段Ⅰ和文本片段Ⅱ都是预先录入的文本片段,那么可以将它们按照相同的语序进行编辑,因此,将由文本片段Ⅱ组合成的文本信息,就很容易被文本片段Ⅰ识别,并提取出比较精准的关键词。由于第二数据库中的语音片段Ⅱ和文本片段Ⅱ的类型不同,而文本片段Ⅱ的类型又存在于第一数据库,这就建立了第一数据库与第二数据库之间的联系,所以,不同用户客户端,其第一数据库可以相同,第二数据库可以有针对性的设置。
本实施例的语音识别方法,利用第一数据库进行识别语音信息,利用第二数据库进行匹配第一数据库不能够识别的语音信息,这样可以将根据第一数据库中的语音片段Ⅰ识别所述语音信息的对比规则设置的更严格,提高了第一次提取关键词的精准度,降低了语音识别的错误率;由于设置了第一数据库与第二数据库,只在第一数据库提取关键词时,加快了提取关键词的速度,也因此加快了搜索速度;由于可以根据第二数据库中的语音片段Ⅱ匹配所述语音信息,则可以针对不同的用户配置不同的第二数据库,这就降低了对用户的要求,也增加了搜索成功率。
在图1所示的语音识别方法的基础上,标记所述语音信息为无效内容后,如图2所示的语音识别方法,还包括以下步骤,
S105:将标记为无效内容的语音信息发送到人机交互界面。
该方法通常是应用于后台服务器。如果根据第一数据库中的语音片段Ⅰ无法识别出所述语音信息中的关键词,且不能够将第二数据库中的语音片段Ⅱ与所述语音信息进行匹配,则说明第一数据库和第二数据库均不存在与所述语音信息相对应的语音片段,可能是不存在相应的语音类型,或者是存在该语音类型,但是数据库中缺乏与之对应的语音片段。为了能够分析出具体的原因,服务器可以将该标记为无效内容的语音信息发送到人机交互界面,将其展示给后台人员,由后台人员进行审核。
S106:响应后台人员的操作,播放所述标记为无效内容的语音信息,并生成与所述标记为无效内容的语音信息对应的审核文本,之后,将所述标记为无效内容的语音信息的无效内容标记符号去除,并将所述语音信息和所述审核文本存储到第二数据库,将所述审核文本存储到第一数据库;或者响应后台人员的操作,播放所述标记为无效内容的语音信息后,将该标记为无效内容的语音信息删除。
服务器响应后台人员的操作,播放所述标记为无效内容的语音信息后,后台人员进行判断该语音信息是否为有效的语音信息。若为有效语音信息,则后台人员可以输入与该语音信息对应的审核文本,所述审核文本即是与该语音信息含义对应的文本内容,其语音类型为存在于所述第一数据库中的语音类型。如:第一数据库的语音类型为汉语标准普通话,第二数据库中的语音片段Ⅱ的语音类型是英式标准英文,第二数据库中的文本片段Ⅱ为汉字标准语序片段,且每个文本片段Ⅱ的含义与相应的语音片段Ⅱ的含义相对应;当客户端发送的语音信息为英式标准英文,且该语音信息并未记载在第二数据库时,则可能会被服务器标记为无效内容,经后台人员的审核后,可以生成与该语音信息对应的审核文本,即是该语音信息对应的汉字标准语序片段。
服务器根据后台人员的操作,生成与该语音信息对应的审核文本后,可以自动(响应预先设定的程序)将所述标记为无效内容的语音信息的无效内容标记符号去除,也可以响应后台人员的进一步的操作,将所述标记为无效内容的语音信息的无效内容标记符号去除。然后,服务器可以自动(响应预先设定的程序)将所述标记为无效内容的语音信息的无效内容标记符号去除,并将所述语音信息和所述审核文本存储到第二数据库,将所述审核文本存储到第一数据库;也可以响应后台人员的进一步操作,将所述标记为无效内容的语音信息的无效内容标记符号去除,并将所述语音信息和所述审核文本存储到第二数据库,将所述审核文本存储到第一数据库。存储该语音信息和审核文本之后,下一次若有客户端发送相同的语音信息,服务器就可以识别出其关键词,再根据该关键词搜索出相关内容,并将所述相关内容推送给该客户端。
若经后台人员的审核,所述标记为无效内容的语音信息为无效内容(如:是一段噪音或者是其他无法识别的声音),服务器可以响应后台人员的操作,将该标记为无效内容的语音信息删除。
另外,若经后台人员的审核,所述标记为无效内容的语音信息为有效内容(后台人员可以根据该语音信息判断出相应的关键词),但是该语音信息的语言类型在第一数据库和第二数据库均不存在,则服务器可以响应后台人员的操作,建立第三数据库,并将该语音信息和其相对应的审核文本存存储到第三数据库,将所述审核文本存储到第一数据库;或者不用建立第三数据库,直接将该语音信息和其相对应的审核文本存储到第二数据库,将所述审核文本存储到第一数据库。下一次若有客户端发送相应的语音信息,服务器就可以识别出其关键词。
本实施例中增加了响应后台人员的操作,这样可以增加有效内容, 进一步降低对用户的要求,也增加了搜索成功率。
在图1所示的语音识别方法上,优选的实施例中,所述识别出所述语音信息中的关键词之后,还包括:
S1021:根据第一数据库的文本片段Ⅰ校正所述关键词;所述根据所述关键词搜索出相关内容,是根据校正后的关键词搜索出相关内容。
如果根据第一数据库中的语音片段Ⅰ识别出所述语音信息中的关键词,该关键词可能与实际要搜索的关键词有一定的差别。如:语音信息为“公民的权利和义务”,其关键词可以是“公民、权利、义务”,但是也可能识别出的关键词为“公民、权力、义务”,这就与实际需要不相符。可以根据预先设定的程序,让服务器能够根据上下文的总体含义或者其它关键词自动校正“权力”为“权利”。因此,增加了关键词的精准度。
进一步地,所述根据第一数据库的文本片段Ⅰ校正所述关键词,是根据第一数据库记载的客户端发送的历史信息校正所述关键词。
为了实现对客户端的服务具有针对性,每个客户端根据用户的喜好,会发送不同类型的语音信息,如:某一客户端习惯搜索“异议”,而另一客户端习惯搜索“意义”,那么服务器在识别这两个词时,针对第一个客户端,服务器根据其之前发送的历史信息,判断出该客户端经常搜索的是“异议”,如果识别的是“意义”,则会将其校正为“异议”。针对第二个客户端,如果识别的是“异议”,则会将其校正为“意义”。 因此,提供了有针对性的服务,增加了关键词的精准度。
在图1所示的语音识别方法上,较佳的实施例中,还包括:所述标记所述语音信息为无效内容后生成拒绝信息,并将所述拒绝信息推送给客户端。
所述生成拒绝信息,可以是“该语音为无效内容”、“无法提供服务”或“请说普通话”等等。将所述拒绝信息推送给客户端,即是告知用户其传达的语音信息为无效内容,服务器无法识别,也可以提醒用户使用数据库存储的语音类型。
如图3所示的语音识别装置,可应用于服务器端,其包括:
接收模块,用于接收客户端发送的语音信息;
识别模块,用于根据第一数据库中的语音片段Ⅰ识别所述语音信息;如果识别出所述语音信息中的关键词,则根据所述关键词搜索出相关内容,并将所述相关内容推送给所述客户端;
匹配模块,用于如果无法识别出所述语音信息中的关键词,则根据第二数据库中的语音片段Ⅱ匹配所述语音信息,如果能够将第二数据库中的语音片段Ⅱ与所述语音信息进行匹配,则调取与所述语音片段Ⅱ含义相对应的文本片段Ⅱ,再将所述文本片段Ⅱ组合成文本信息;如果不能够将第二数据库中的语音片段Ⅱ与所述语音信息进行匹配,则不做处理或者标记所述语音信息为无效内容;
所述识别模块,还用于根据第一数据库中的文本片段Ⅰ识别出所述文本信息中的关键词,再根据所述关键词搜索出相关内容,并将所述相关内容推送给所述客户端;
其中,所述第一数据库中包含一种或多种语音类型的多个语音片段Ⅰ和多个文本片段Ⅰ,所述第二数据库包含除第一数据库中的语音类型之外的其他一种或多种语音类型的多个语音片段Ⅱ和与每个语音片段Ⅱ含义相对应的且存在于所述第一数据库中的语音类型的文本片段Ⅱ。
如图4所示的语音识别装置,其在图3所示的语音识别装置的基础上还包括:
传送模块,用于将标记为无效内容的语音信息发送到人机交互界面;
响应模块,用于响应后台人员的操作,播放所述标记为无效内容的语音信息,并生成与所述标记为无效内容的语音信息对应的审核文本,之后,将所述标记为无效内容的语音信息的无效内容标记符号去除,并将所述语音信息和所述审核文本存储到第二数据库,将所述审核文本存储到第一数据库;或者响应后台人员的操作,播放所述标记为无效内容的语音信息后,将该标记为无效内容的语音信息删除。
在图3所示的语音识别装置的基础上,优选的实施例中,还包括:校正模块,用于根据第一数据库的文本片段Ⅰ校正所述关键词;所述根据所述关键词搜索出相关内容,是根据校正后的关键词搜索出相关内容。
进一步优选的是,所述校正模块包括历史信息校正单元,用于根据第一数据库记载的客户端发送的历史信息校正所述关键词。
在图3所示的语音识别装置的基础上,较佳的实施例中,还包括:生成单元,用于所述标记所述语音信息为无效内容后生成拒绝信息,并将所述拒绝信息推送给客户端。
以上所述,仅为本发明的实施例,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (10)

1.一种语音识别方法,其特征在于,包括以下步骤:
接收客户端发送的语音信息;
根据第一数据库中的语音片段Ⅰ识别所述语音信息;如果识别出所述语音信息中的关键词,则根据所述关键词搜索出相关内容,并将所述相关内容推送给所述客户端;如果无法识别出所述语音信息中的关键词,则进行步骤A;
步骤A:根据第二数据库中的语音片段Ⅱ匹配所述语音信息,如果能够将第二数据库中的语音片段Ⅱ与所述语音信息进行匹配,则调取与所述语音片段Ⅱ含义相对应的文本片段Ⅱ,再将所述文本片段Ⅱ组合成文本信息,并进行步骤B;如果不能够将第二数据库中的语音片段Ⅱ与所述语音信息进行匹配,则不做处理或者标记所述语音信息为无效内容;
步骤B:根据第一数据库中的文本片段Ⅰ识别出所述文本信息中的关键词,再根据所述关键词搜索出相关内容,并将所述相关内容推送给所述客户端;
其中,所述第一数据库中包含一种或多种语音类型的多个语音片段Ⅰ和多个文本片段Ⅰ,所述第二数据库包含除第一数据库中的语音类型之外的其他一种或多种语音类型的多个语音片段Ⅱ和与每个语音片段Ⅱ含义相对应的且存在于所述第一数据库中的语音类型的文本片段Ⅱ。
2.根据权利要求1所述的语音识别方法,其特征在于,标记所述语音信息为无效内容后,还包括以下步骤:
将标记为无效内容的语音信息发送到人机交互界面;
响应后台人员的操作,播放所述标记为无效内容的语音信息,并生成与所述标记为无效内容的语音信息对应的审核文本,之后,将所述标记为无效内容的语音信息的无效内容标记符号去除,并将所述语音信息和所述审核文本存储到第二数据库,将所述审核文本存储到第一数据库;或者响应后台人员的操作,播放所述标记为无效内容的语音信息后,将该标记为无效内容的语音信息删除。
3.根据权利要求1所述的语音识别方法,其特征在于,所述识别出所述语音信息中的关键词之后,还包括:根据第一数据库的文本片段Ⅰ校正所述关键词;所述根据所述关键词搜索出相关内容,是根据校正后的关键词搜索出相关内容。
4.根据权利要求3所述的语音识别方法,其特征在于,所述根据第一数据库的文本片段Ⅰ校正所述关键词,是根据第一数据库记载的客户端发送的历史信息校正所述关键词。
5.根据权利要求1所述的语音识别方法,其特征在于,还包括:所述标记所述语音信息为无效内容后生成拒绝信息,并将所述拒绝信息推送给客户端。
6.一种语音识别装置,其特征在于,包括:
接收模块,用于接收客户端发送的语音信息;
识别模块,用于根据第一数据库中的语音片段Ⅰ识别所述语音信息;如果识别出所述语音信息中的关键词,则根据所述关键词搜索出相关内容,并将所述相关内容推送给所述客户端;
匹配模块,用于如果无法识别出所述语音信息中的关键词,则根据第二数据库中的语音片段Ⅱ匹配所述语音信息,如果能够将第二数据库中的语音片段Ⅱ与所述语音信息进行匹配,则调取与所述语音片段Ⅱ含义相对应的文本片段Ⅱ,再将所述文本片段Ⅱ组合成文本信息;如果不能够将第二数据库中的语音片段Ⅱ与所述语音信息进行匹配,则不做处理或者标记所述语音信息为无效内容;
所述识别模块,还用于根据第一数据库中的文本片段Ⅰ识别出所述文本信息中的关键词,再根据所述关键词搜索出相关内容,并将所述相关内容推送给所述客户端;
其中,所述第一数据库中包含一种或多种语音类型的多个语音片段Ⅰ和多个文本片段Ⅰ,所述第二数据库包含除第一数据库中的语音类型之外的其他一种或多种语音类型的多个语音片段Ⅱ和与每个语音片段Ⅱ含义相对应的且存在于所述第一数据库中的语音类型的文本片段Ⅱ。
7.根据权利要求6所述的语音识别装置,其特征在于,还包括:
传送模块,用于将标记为无效内容的语音信息发送到人机交互界面;
响应模块,用于响应后台人员的操作,播放所述标记为无效内容的语音信息,并生成与所述标记为无效内容的语音信息对应的审核文本,之后,将所述标记为无效内容的语音信息的无效内容标记符号去除,并将所述语音信息和所述审核文本存储到第二数据库,将所述审核文本存储到第一数据库;或者响应后台人员的操作,播放所述标记为无效内容的语音信息后,将该标记为无效内容的语音信息删除。
8.根据权利要求6所述的语音识别装置,其特征在于,还包括:校正模块,用于根据第一数据库的文本片段Ⅰ校正所述关键词;所述根据所述关键词搜索出相关内容,是根据校正后的关键词搜索出相关内容。
9.根据权利要求8所述的语音识别装置,其特征在于,所述校正模块包括历史信息校正单元,用于根据第一数据库记载的客户端发送的历史信息校正所述关键词。
10.根据权利要求6所述的语音识别装置,其特征在于,还包括:生成单元,用于所述标记所述语音信息为无效内容后生成拒绝信息,并将所述拒绝信息推送给客户端。
CN201610363013.4A 2016-05-30 2016-05-30 一种语音识别方法及装置 Pending CN107451131A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610363013.4A CN107451131A (zh) 2016-05-30 2016-05-30 一种语音识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610363013.4A CN107451131A (zh) 2016-05-30 2016-05-30 一种语音识别方法及装置

Publications (1)

Publication Number Publication Date
CN107451131A true CN107451131A (zh) 2017-12-08

Family

ID=60485624

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610363013.4A Pending CN107451131A (zh) 2016-05-30 2016-05-30 一种语音识别方法及装置

Country Status (1)

Country Link
CN (1) CN107451131A (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109471953A (zh) * 2018-10-11 2019-03-15 平安科技(深圳)有限公司 一种语音数据检索方法及终端设备
CN109829117A (zh) * 2019-02-27 2019-05-31 北京字节跳动网络技术有限公司 用于推送信息的方法和装置
CN109979440A (zh) * 2019-03-13 2019-07-05 广州市网星信息技术有限公司 关键词样本确定方法、语音识别方法、装置、设备和介质
CN110287364A (zh) * 2019-06-28 2019-09-27 合肥讯飞读写科技有限公司 语音搜索方法、系统、设备及计算机可读存储介质
CN110968730A (zh) * 2019-12-16 2020-04-07 Oppo(重庆)智能科技有限公司 音频标记处理方法、装置、计算机设备及存储介质
CN111125408A (zh) * 2019-10-11 2020-05-08 平安科技(深圳)有限公司 基于特征提取的搜索方法、装置、计算机设备和存储介质
CN111161706A (zh) * 2018-10-22 2020-05-15 阿里巴巴集团控股有限公司 交互方法、装置、设备和系统
CN112650916A (zh) * 2019-10-12 2021-04-13 青岛海信移动通信技术股份有限公司 一种通信终端和信息查询方法
CN112863495A (zh) * 2020-12-31 2021-05-28 维沃移动通信有限公司 信息处理方法、装置及电子设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1815551A (zh) * 2006-02-28 2006-08-09 安徽中科大讯飞信息科技有限公司 在方言语音合成系统中进行文本方言化处理的方法
CN102543071A (zh) * 2011-12-16 2012-07-04 安徽科大讯飞信息科技股份有限公司 用于移动设备的语音识别系统和方法
CN103699530A (zh) * 2012-09-27 2014-04-02 百度在线网络技术(北京)有限公司 根据语音输入信息在目标应用中输入文本的方法与设备
CN104715752A (zh) * 2015-04-09 2015-06-17 刘文军 语音识别方法、装置及系统
CN105227656A (zh) * 2015-09-28 2016-01-06 百度在线网络技术(北京)有限公司 基于语音识别的信息推送方法和装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1815551A (zh) * 2006-02-28 2006-08-09 安徽中科大讯飞信息科技有限公司 在方言语音合成系统中进行文本方言化处理的方法
CN102543071A (zh) * 2011-12-16 2012-07-04 安徽科大讯飞信息科技股份有限公司 用于移动设备的语音识别系统和方法
CN103699530A (zh) * 2012-09-27 2014-04-02 百度在线网络技术(北京)有限公司 根据语音输入信息在目标应用中输入文本的方法与设备
CN104715752A (zh) * 2015-04-09 2015-06-17 刘文军 语音识别方法、装置及系统
CN105227656A (zh) * 2015-09-28 2016-01-06 百度在线网络技术(北京)有限公司 基于语音识别的信息推送方法和装置

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109471953A (zh) * 2018-10-11 2019-03-15 平安科技(深圳)有限公司 一种语音数据检索方法及终端设备
CN111161706A (zh) * 2018-10-22 2020-05-15 阿里巴巴集团控股有限公司 交互方法、装置、设备和系统
CN109829117A (zh) * 2019-02-27 2019-05-31 北京字节跳动网络技术有限公司 用于推送信息的方法和装置
CN109979440A (zh) * 2019-03-13 2019-07-05 广州市网星信息技术有限公司 关键词样本确定方法、语音识别方法、装置、设备和介质
CN110287364A (zh) * 2019-06-28 2019-09-27 合肥讯飞读写科技有限公司 语音搜索方法、系统、设备及计算机可读存储介质
CN111125408A (zh) * 2019-10-11 2020-05-08 平安科技(深圳)有限公司 基于特征提取的搜索方法、装置、计算机设备和存储介质
CN111125408B (zh) * 2019-10-11 2023-08-29 平安科技(深圳)有限公司 基于特征提取的搜索方法、装置、计算机设备和存储介质
CN112650916A (zh) * 2019-10-12 2021-04-13 青岛海信移动通信技术股份有限公司 一种通信终端和信息查询方法
CN110968730A (zh) * 2019-12-16 2020-04-07 Oppo(重庆)智能科技有限公司 音频标记处理方法、装置、计算机设备及存储介质
CN110968730B (zh) * 2019-12-16 2023-06-09 Oppo(重庆)智能科技有限公司 音频标记处理方法、装置、计算机设备及存储介质
CN112863495A (zh) * 2020-12-31 2021-05-28 维沃移动通信有限公司 信息处理方法、装置及电子设备

Similar Documents

Publication Publication Date Title
CN107451131A (zh) 一种语音识别方法及装置
JP6394709B2 (ja) 話者識別装置および話者識別用の登録音声の特徴量登録方法
CN106373575B (zh) 一种用户声纹模型构建方法、装置及系统
JP2017534905A (ja) 声紋情報管理方法および声紋情報管理装置、ならびに本人認証方法および本人認証システム
CN109902957B (zh) 一种数据处理方法和装置
CN110266900B (zh) 客户意图的识别方法、装置及客服系统
CN104538034A (zh) 一种语音识别方法及系统
CN109241330A (zh) 用于识别音频中的关键短语的方法、装置、设备和介质
CN106713111B (zh) 一种添加好友的处理方法、终端及服务器
CN111178081B (zh) 语义识别的方法、服务器、电子设备及计算机存储介质
CN109977204A (zh) 一种基于知识库的智能问答系统和方法
CN112669842A (zh) 人机对话控制方法、装置、计算机设备及存储介质
CN105227557A (zh) 一种帐号处理方法及装置
CN110196897B (zh) 一种基于问答模板的案例识别方法
CN113782026A (zh) 一种信息处理方法、装置、介质和设备
CN114786035A (zh) 直播场景的合规质检和互动问答系统及方法
EP2913822A1 (en) Speaker recognition method
TWI751504B (zh) 人機協作對話系統與方法
CN109104258A (zh) 一种基于关键词识别的无线电识别方法
CN113051384A (zh) 基于对话的用户画像抽取方法及相关装置
CN109905359B (zh) 通信消息处理方法、装置、计算机设备及可读存取介质
CN109388695B (zh) 用户意图识别方法、设备及计算机可读存储介质
CN113314103B (zh) 基于实时语音情感分析的非法信息识别方法及装置
CN113555011B (zh) 电力行业客服中心语音转译建模方法、系统及介质
JP2019139280A (ja) テキスト分析装置、テキスト分析方法及びテキスト分析プログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20171208

RJ01 Rejection of invention patent application after publication