CN109087639B - 用于语音识别的方法、装置、电子设备及计算机可读介质 - Google Patents

用于语音识别的方法、装置、电子设备及计算机可读介质 Download PDF

Info

Publication number
CN109087639B
CN109087639B CN201810872111.XA CN201810872111A CN109087639B CN 109087639 B CN109087639 B CN 109087639B CN 201810872111 A CN201810872111 A CN 201810872111A CN 109087639 B CN109087639 B CN 109087639B
Authority
CN
China
Prior art keywords
voice
service request
code
scene
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810872111.XA
Other languages
English (en)
Other versions
CN109087639A (zh
Inventor
李红岩
刘岩
党莹
贺雄彪
邓文忠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Taikang Insurance Group Co Ltd
Original Assignee
Taikang Insurance Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Taikang Insurance Group Co Ltd filed Critical Taikang Insurance Group Co Ltd
Priority to CN201810872111.XA priority Critical patent/CN109087639B/zh
Publication of CN109087639A publication Critical patent/CN109087639A/zh
Application granted granted Critical
Publication of CN109087639B publication Critical patent/CN109087639B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本公开涉及一种用于语音识别的方法、装置、电子设备及计算机可读介质。该方法包括:获取用户的语音服务请求,所述请求中包括渠道码,场景码,授权码,以及语音信息;通过所述授权码对所述语音服务请求进行校验;在校验通过后,根据所述渠道码、所述场景码确定语音识别模型;以及通过所述语音识别模型对所述语音信息进行识别。本公开涉及的用于语音识别的方法、装置、电子设备及计算机可读介质,能够提高语音识别系统的利用率。

Description

用于语音识别的方法、装置、电子设备及计算机可读介质
技术领域
本公开涉及计算机信息处理领域,具体而言,涉及一种用于语音识别的方法、装置、电子设备及计算机可读介质。
背景技术
近年来,随着语音识别领域的不断发展,语音技术逐渐开始改变我们的生活和工作方式,语音交互也成为了目前最流行、最普遍、极具竞争力的交互方式,在智能家居、智能车载、智能客服、语音搜索等领域等到了广泛的应用。
但是,目前大部分的语音识别系统均为垂直专用系统,仅适用于某单一场景,如智能导航、智能客服等,语音识别系统存在利用率低、资源浪费、管理混乱等问题。
因此,需要一种新的用于语音识别的方法、装置、电子设备及计算机可读介质。
在所述背景技术部分公开的上述信息仅用于加强对本公开的背景的理解,因此它可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
有鉴于此,本公开提供一种用于语音识别的方法、装置、电子设备及计算机可读介质,能够提高语音识别系统的利用率。
本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。
根据本公开的一方面,提出一种用于语音识别的方法,该方法包括:获取用户的语音服务请求,所述请求中包括渠道码,场景码,授权码,以及语音信息;通过所述授权码对所述语音服务请求进行校验;在校验通过后,根据所述渠道码、所述场景码确定语音识别模型;以及通过所述语音识别模型对所述语音信息进行识别。
在本公开的一种示例性实施例中,还包括:根据语音识别结果,确定所述语音服务请求的引导栏目。
在本公开的一种示例性实施例中,获取用户的语音服务请求包括:通过软件开发工具包获取用户的语音服务请求。
在本公开的一种示例性实施例中,通过所述授权码对所述语音服务请求进行校验包括:通过所述授权码对所述语音服务请求进行第一次校验;在第一次校验通过后,生成鉴权标识;以及通过所述鉴权标识对所述语音服务请求进行第二次校验。
在本公开的一种示例性实施例中,根据所述渠道码、所述场景码确定语音识别模型包括:根据所述渠道码确定渠道编号;根据所述场景码确定场景编号;以及根据所述渠道编号与所述场景编号在多个待选语音模型中确定所述语音服务请求的语音识别模型。
在本公开的一种示例性实施例中,通过所述语音识别模型对所述语音信息进行识别包括:路由层调用识别引擎以通过所述语音识别模型对所述语音信息进行识别。
在本公开的一种示例性实施例中,所述识别结果包括关键词;根据语音识别结果,确定所述语音服务请求的引导栏目包括:获取语音识别结果中的关键词;以及根据所述关键词确定所述语音服务请求的引导栏目。
在本公开的一种示例性实施例中,根据语音识别结果,确定所述语音服务请求的引导栏目还包括:将所述引导栏目接口返回至所述用户。
根据本公开的一方面,提出一种用于语音识别的装置,该装置包括:接收模块,用于获取用户的语音服务请求,所述请求中包括渠道码,场景码,授权码,以及语音信息;校验模块,用于通过所述授权码对所述语音服务请求进行校验;模型模块,用于在校验通过后,根据所述渠道码、所述场景码确定语音识别模型;以及识别模块,用于通过所述语音识别模型对所述语音信息进行识别。
在本公开的一种示例性实施例中,还包括:导航模块,用于根据语音识别结果,确定所述语音服务请求的引导栏目。
根据本公开的一方面,提出一种电子设备,该电子设备包括:一个或多个处理器;存储装置,用于存储一个或多个程序;当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现如上文的方法。
根据本公开的一方面,提出一种计算机可读介质,其上存储有计算机程序,该程序被处理器执行时实现如上文中的方法。
根据本公开的用于语音识别的方法、装置、电子设备及计算机可读介质,能够提高语音识别系统的利用率。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能限制本公开。
附图说明
通过参照附图详细描述其示例实施例,本公开的上述和其它目标、特征及优点将变得更加显而易见。下面描述的附图仅仅是本公开的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据一示例性实施例示出的一种用于语音识别的方法及装置的系统框图。
图2是根据一示例性实施例示出的一种用于语音识别的方法及装置的应用场景图。
图3是根据一示例性实施例示出的一种用于语音识别的方法及装置的应用场景图。
图4是根据一示例性实施例示出的一种用于语音识别的方法的流程图。
图5是根据另一示例性实施例示出的一种用于语音识别的方法的流程图。
图6是根据另一示例性实施例示出的一种用于语音识别的方法的流程图。
图7是根据另一示例性实施例示出的一种用于语音识别的方法的示意图。
图8是根据一示例性实施例示出的一种用于语音识别的装置的框图。
图9是根据另一示例性实施例示出的一种用于语音识别的装置的框图。
图10是根据一示例性实施例示出的一种电子设备的框图。
图11是根据一示例性实施例示出一种计算机可读存储介质示意图。
具体实施方式
现在将参考附图更全面地描述示例实施例。然而,示例实施例能够以多种形式实施,且不应被理解为限于在此阐述的实施例;相反,提供这些实施例使得本公开将全面和完整,并将示例实施例的构思全面地传达给本领域的技术人员。在图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。
此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本公开的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本公开的技术方案而没有特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知方法、装置、实现或者操作以避免模糊本公开的各方面。
附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
应理解,虽然本文中可能使用术语第一、第二、第三等来描述各种组件,但这些组件不应受这些术语限制。这些术语乃用以区分一组件与另一组件。因此,下文论述的第一组件可称为第二组件而不偏离本公开概念的教示。如本文中所使用,术语“及/或”包括相关联的列出项目中的任一个及一或多者的所有组合。
本领域技术人员可以理解,附图只是示例实施例的示意图,附图中的模块或流程并不一定是实施本公开所必须的,因此不能用于限制本公开的保护范围。
本申请的发明人发现,在私有化的语音识别系统方面,目前还没有比较通用的语音识别系统能够对所有的应用场景提供统一的语音识别服务。因此,设计一个通用的语音识别系统对语音交互领域的发展具有十分重要的意义。目前的语音识别系统存在利用率低、资源浪费、管理复杂等缺点,因此,本申请的用于语音识别的方法提出了一种能够支撑多种应用场景的语音识别方法,本申请的用于语音识别的方法在一定程度上解决了目前垂直领域的语音识别系统存在的一些问题。
下面将对本申请内容进行详细介绍:
图1是根据一示例性实施例示出的一种用于语音识别的方法及装置的系统框图。
如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。
终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、智能音箱、智能机器人、平板电脑、膝上型便携计算机和台式计算机等等。
服务器105可以是提供各种服务的服务器,例如对用户利用终端设备101、102、103所浏览信息服务类网站提供支持的后台服务器。后台服务器可以对接收到的来自用户的语音服务请求等数据进行分析处理,并将处理结果(例如对用户服务请求的返回信息、对用户所要求服务的辅助导航接口)反馈给终端设备。
服务器105可例如获取用户的语音服务请求,所述请求中包括渠道码,场景码,授权码,以及语音信息;服务器105可例如通过所述授权码对所述语音服务请求进行校验;服务器105可例如在校验通过后,根据所述渠道码、所述场景码确定语音识别模型;服务器105可例如通过所述语音识别模型对所述语音信息进行识别。
服务器105可以是一个实体的服务器,还可例如为多个服务器组成,服务器105中的一部分可例如作为本公开中校验系统,用于通过所述授权码对所述语音服务请求进行校验;以及服务器105中的一部分还可例如作为本公开中语音识别系统,用于通过所述语音识别模型对所述语音信息进行识别。
需要说明的是,本公开实施例所提供的用于语音识别的方法可以由服务器105执行,相应地,用于语音识别的装置可以设置于服务器105中。而提供给用户提交语音服务请求的请求端一般位于终端设备101、102、103中。
图2是根据一示例性实施例示出的一种用于语音识别的方法及装置的应用场景图。如图2所示,用户可例如通过电话语音服务提出语音服务请求,服务器中的语音识别系统自动识别说话人的内容以对用户的语音服务请求进行识别,根据语音识别结果,导航系统可直接将客户导航到对应的热线菜单节点上。而在现有技术中的同样场景中,用户通过电话拨号,进入语音服务系统,根据电话中的语音提示,用户再一步一步的通过选择按键进入对应的热线菜单节点上。
比如,用户语音输入“口腔科挂号服务”,在现有技术中,用户首先要进入医疗平台,然后再按键进入对应的“口腔科”,然后再进入“挂号服务”菜单节点。而根据本申请中的用于语音识别的方法及装置,自助电话语音导航系统利用电信渠道的电话导航识别模型,实现了客户只需说出所需服务即可开始业务办理的功能。语音识别系统自动识别说话人的内容:“口腔科挂号服务”,导航系统利用识别结果可直接将客户导航到“挂号服务”对应的热线菜单节点上。减少了传统按键式(Interactive Voice Response,IVR)流程中繁杂的按键操作,客户拨通热线开始业务办理的时间缩短了一半以上,极大地提升了用户体验。
其中,IVR是互动式语音应答服务,用户只须用电话即可进入服务中心,可以根据操作提示收听手机娱乐产品,也可以根据用户输入的内容播放有关的信息。
图3是根据一示例性实施例示出的一种用于语音识别的方法及装置的应用场景图。如图3所示,用户可例如通过服务机器人提出语音服务请求,服务器中的语音识别系统自动识别说话人的内容以对用户的语音服务请求进行识别,根据语音识别结果,服务机器人系统可直接将客户引导到对应的服务中。而在现有技术中的同样场景中,用户通过服务机器人提供的触屏中的展示栏,进入语音服务系统,根据展示栏中的菜单点击选择,用户再一步一步的通过选择按键进入对应的服务中。
比如,用户想了解“养老社区咨询”相关服务,在现有技术中,用于可在服务机器人提供的展示栏中,先选择“养老服务”页面,进而在“养老服务”页面中选择“养老社区咨询”服务。而根据本申请中的用于语音识别的方法及装置,利用多媒体渠道的智能客服识别模型,设计实现了全程语音交互的保险服务机器人,通过简单的语音交互,即可将用户所需要的“养老社区咨询”服务调入前台,进而服务机器人可通过语音或视频的方式对相关服务进行讲解。根据本申请中的用于语音识别的方法及装置,通过简单的语音交互可完成日常问候、养老社区咨询与介绍、业务查询办理、客户指引等功能,极大的缓解了现场工作人员的压力,大大节约了人力成本。
本公开实施例所提供的用于语音识别的方法,能够支撑多应用场景的语音识别方法利用鉴权模块实现语音识别系统的安全控制,禁止未经授权的场景接入系统,实现了系统的安全可控;利用渠道检测模块检测请求的渠道类型;利用场景检测模块检测服务所需的资源类型,实现多场景分渠道、分资源提供服务。
图4是根据一示例性实施例示出的一种用于语音识别的方法的流程图。用于语音识别的方法40至少包括步骤S402至S408。
如图4所示,在S402中,获取用户的语音服务请求,所述请求中包括渠道码,场景码,授权码,以及语音信息。
其中,渠道码是为统一对各个渠道来源进行管理,而建立统一的渠道编码体系,渠道编码体系支持渠道编码的增加、删除、修改、查询的操作,设置渠道统一编码标准和规则,渠道码是渠道在本申请语音系统里的唯一标识。具体可例如通过用户使用场景确定渠道码,比如用户拨打955XX的热线输入语音服务请求,即可确定用户渠道为电信渠道,进而确定渠道码。还可例如用户通过即时聊天工具输入语音服务请求,进而可以确定用户渠道为多媒体渠道进而确定渠道码。
其中,场景码是为了对不同的语音场景进行区分而设定的编码,场景码是语音场景在本申请语音系统里某一个对应渠道下的唯一标识。可例如,通过用户来源的网页平台确定用户的场景码,比如,用户通过安装在养老社区中的机器人输入语音服务请求,即可确定用户的场景是养老相关场景,进而确定场景码。
其中,授权码来源于授权码模式,是功能最完整、流程最严密的授权模式。它的特点就是通过授权码实现客户端的后台服务器,与"服务提供商"的认证服务器进行互动。
在一个实施例中,获取用户的语音服务请求包括:通过软件开发工具包(SoftwareDevelopment Kit,SDK)获取用户的语音服务请求。软件开发工具包一般都是一些软件工程师为特定的软件包、软件框架、硬件平台、操作系统等建立应用软件时的开发工具的集合。SDK可以简单的为某个程序设计语言提供应用程序接口API的文件,但也可能包括能与某种嵌入式系统通讯的复杂的硬件。SDK还包括示例代码、支持性的技术注解或者其他的为基本参考资料澄清疑点的支持文档。
在S404中,通过所述授权码对所述语音服务请求进行校验。可例如通过二次校验对所述语音服务请求进行校验,具体包括:通过所述授权码对所述语音服务请求进行第一次校验;在第一次校验通过后,生成鉴权标识;以及通过所述鉴权标识对所述语音服务请求进行第二次校验。
还可例如,根据授权模式认证对所述语音服务请求进行校验。具体可例如:用户访问客户端,后者将前者导向认证服务器。用户选择是否给予客户端授权。假设用户给予授权,认证服务器首先生成一个授权码,并返回给用户,认证服务器将用户导向客户端事先指定的“重定向URI”(redirection URI),同时附上一个授权码。客户端收到授权码,附上早先的“重定向URI”,向认证服务器申请令牌。认证服务器核对了授权码和重定向URI,确认无误后,向客户端发送访问令牌(access token)和更新令牌(refresh token)。
还可例如通过其他的方式进行认证授权,本申请不以此为限。
在S406中,在校验通过后,根据所述渠道码、所述场景码确定语音识别模型。可例如包括:根据所述渠道码确定渠道编号;根据所述场景码确定场景编号;以及根据所述渠道编号与所述场景编号在多个待选语音模型中确定所述语音服务请求的语音识别模型。
在S408中,通过所述语音识别模型对所述语音信息进行识别。在一个实施例中,通过所述语音识别模型对所述语音信息进行识别包括:路由层调用识别引擎以通过所述语音识别模型对所述语音信息进行识别。具体可例如,能力路由向识别引擎发起调度请求,请求中携带渠道及该场景所需的相关识别资源信息。
其中,语音识别技术,也被称为自动语音识别Automatic Speech Recognition,(ASR),其目标是将人类的语音中的词汇内容转换为计算机可读的输入,例如按键、二进制编码或者字符序列。与说话人识别及说话人确认不同,后者尝试识别或确认发出语音的说话人而非其中所包含的词汇内容。
语音识别系统本质上是一种模式识别系统,包括特征提取、模式匹配、参考模式库等三个基本单元。未知语音经过话筒变换成电信号后加在识别系统的输入端,首先经过预处理,再根据人的语音特点建立语音模型,对输入的语音信号进行分析,并抽取所需的特征,在此基础上建立语音识别所需的模板。而计算机在识别过程中要根据语音识别的模型,将计算机中存放的语音模板与输入的语音信号的特征进行比较,根据一定的搜索和匹配策略,找出一系列最优的与输入语音匹配的模板。然后根据此模板的定义,通过查表可以给出计算机的识别结果。
在本申请中,可例如通过不同场景中获得的语音数据对语音识别系统进行训练,以获取不同的语音识别模型,在用户提出语音请求时,根据用户渠道码与场景码将用户语音输入不同的语音识别模型中,以获取准确的语音识别结果。
在一个实施例中,还包括:根据语音识别结果,确定所述语音服务请求的引导栏目。所述识别结果包括关键词;根据语音识别结果,确定所述语音服务请求的引导栏目包括:获取语音识别结果中的关键词;以及根据所述关键词确定所述语音服务请求的引导栏目。
在一个实施例中,还包括:识别引擎进行处理后,将识别结果通过能力路由返回给SDK,同时将请求信息及对应的处理结果记录到日志中进行存储;
根据本公开的用于语音识别的方法,通过用户不同的渠道来源,不同的应用场景,而为用户提供不同的语音识别模型辅助处理用户请求的方式,能够提高语音识别系统的利用率。
应清楚地理解,本公开描述了如何形成和使用特定示例,但本公开的原理不限于这些示例的任何细节。相反,基于本公开公开的内容的教导,这些原理能够应用于许多其它实施例。
图5是根据另一示例性实施例示出的一种用于语音识别的方法的流程图。图5所示的用于语音识别的方法50是对图4所示的流程中S404“通过所述授权码对所述语音服务请求进行校验”的详细描述。
如图5所示,在S502中,通过所述授权码对所述语音服务请求进行第一次校验。
在S504中,在第一次校验通过后,生成鉴权标识。
在S506中,通过所述鉴权标识对所述语音服务请求进行第二次校验。
可例如对服务请求中携带的授权码进行鉴权,若鉴权通过,则返回随机生成的初次鉴权成功标识,继续后续的渠道及场景检测,否则返回错误标识,拒绝提供服务;SDK携带初次鉴权成功标识及渠道码、场景码信息重定向到平台能力层,能力层向鉴权模块发起二次鉴权请求,验证标识的合法性,若鉴权成功,则向渠道检测模块发起渠道检测请求,请求中携带场景码信息;否则返回错误标识,拒绝提供服务。
根据本公开的用于语音识别的方法,利用预先分配的授权码进行初次授权校验,初次校验成功标识进行二次授权校验,保障了语音识别系统的安全性,禁止未经授权的应用接入语音识别系统。
图6是根据另一示例性实施例示出的一种用于语音识别的方法的流程图。图6所示的用于语音识别的方法60是对“根据语音识别结果,确定所述语音服务请求的引导栏目”的详细描述。
如图6所示,在S602中,通过所述语音识别模型对所述语音信息进行识别。
在S604中,获取语音识别结果中的关键词;以及
在S606中,根据所述关键词确定所述语音服务请求的引导栏目。
语音识别系统构建过程整体上包括两大部分:训练和识别。训练通常是离线完成的,对预先收集好的海量语音、语言数据库进行信号处理和知识挖掘,获取语音识别系统所需要的“声学模型”和“语言模型”;而识别过程通常是在线完成的,对用户实时的语音进行自动识别。识别过程通常又可以分为“前端”和“后端”两大模块:“前端”模块主要的作用是进行端点检测、降噪、特征提取等;“后端”模块的作用是利用训练好的“声学模型”和“语言模型”对用户说话的特征向量进行统计模式识别,得到其包含的文字信息,此外,后端模块还存在一个“自适应”的反馈模块,可以对用户的语音进行自学习,从而对“声学模型”和“语音模型”进行必要的“校正”,进一步提高识别的准确率。
在本申请中,可例如通过不同场景中获得的语音数据对语音识别系统进行训练,以获取不同的语音识别模型,在用户提出语音请求时,根据用户渠道码与场景码将用户语音输入不同的语音识别模型中,以获取准确的语音识别结果。进而将语音识别结果作为关键词确定所述语音服务请求的引导栏目。
图7是根据另一示例性实施例示出的一种用于语音识别的方法的示意图。
如图7所示,本申请中的用于语音识别的方法可例如包括鉴权模块、渠道检测模块、场景检测模块、语音识别引擎、日志存储五个部分。对于来自不同场景的业务应用,处理步骤可例如如下:
1、用户通过SDK向多场景语音识别系统接口层发送服务请求,请求中携带由系统预先分配的授权码、场景码、渠道码等信息;
2、鉴权模块对服务请求中携带的授权码进行鉴权,若鉴权通过,则返回随机生成的初次鉴权成功标识,继续后续的渠道及场景检测,否则返回错误标识,拒绝提供服务;
3、SDK携带初次鉴权成功标识及渠道码、场景码信息重定向到平台能力层,能力层向鉴权模块发起二次鉴权请求,验证标识的合法性,若鉴权成功,则向渠道检测模块发起渠道检测请求,请求中携带场景码信息;否则返回错误标识,拒绝提供服务;
4、渠道检测完成后,场景检测模块根据场景码进行场景检测;
5、场景检测完成后,由能力路由向识别引擎发起调度请求,请求中携带渠道及该场景所需的识别资源信息;
6、识别引擎进行处理后,将识别结果通过能力路由返回给SDK,同时将请求信息及对应的处理结果记录到日志中进行存储;
7、用户获取识别结果后,继续进行后续操作。
根据本公开的用于语音识别的方法,能够通过一个系统支撑多应用场景的语音识别,可实现不同应用场景分渠道、分资源提供服务;
根据本公开的用于语音识别的方法,利用预先分配的授权码进行初次授权校验,初次校验成功标识进行二次授权校验,保障了语音识别系统的安全性,禁止未经授权的应用接入语音识别系统。
本领域技术人员可以理解实现上述实施例的全部或部分步骤被实现为由CPU执行的计算机程序。在该计算机程序被CPU执行时,执行本公开提供的上述方法所限定的上述功能。所述的程序可以存储于一种计算机可读存储介质中,该存储介质可以是只读存储器,磁盘或光盘等。
此外,需要注意的是,上述附图仅是根据本公开示例性实施例的方法所包括的处理的示意性说明,而不是限制目的。易于理解,上述附图所示的处理并不表明或限制这些处理的时间顺序。另外,也易于理解,这些处理可以是例如在多个模块中同步或异步执行的。
下述为本公开装置实施例,可以用于执行本公开方法实施例。对于本公开装置实施例中未披露的细节,请参照本公开方法实施例。
图8是根据一示例性实施例示出的一种用于语音识别的装置的框图。如图8所示用于语音识别的装置80包括:接收模块802,校验模块804,模型模块806,以及识别模块808。
接收模块802用于获取用户的语音服务请求,所述请求中包括渠道码,场景码,授权码,以及语音信息;在一个实施例中,获取用户的语音服务请求包括:通过软件开发工具包(Software Development Kit,SDK)获取用户的语音服务请求。
校验模块804用于通过所述授权码对所述语音服务请求进行校验。可例如通过二次校验对所述语音服务请求进行校验,具体包括:通过所述授权码对所述语音服务请求进行第一次校验;在第一次校验通过后,生成鉴权标识;以及通过所述鉴权标识对所述语音服务请求进行第二次校验。
模型模块806用于在校验通过后,根据所述渠道码、所述场景码确定语音识别模型。可例如包括:根据所述渠道码确定渠道编号;根据所述场景码确定场景编号;以及根据所述渠道编号与所述场景编号确定语音识别模型。
识别模块808用于通过所述语音识别模型对所述语音信息进行识别。在一个实施例中,通过所述语音识别模型对所述语音信息进行识别包括:路由层调用识别引擎以通过所述语音识别模型对所述语音信息进行识别。具体可例如,能力路由向识别引擎发起调度请求,请求中携带渠道及该场景所需的相关识别资源信息。
根据本公开的用于语音识别的装置,通过用户不同的渠道来源,不同的应用场景,而为用户提供不同的语音识别模型辅助处理用户请求的方式,能够提高语音识别系统的利用率。
图9是根据另一示例性实施例示出的一种用于语音识别的装置的框图。用于语音识别的装置90在用于语音识别的装置80基础上还包括:导航模块902。
导航模块902用于根据语音识别结果,确定所述语音服务请求的引导栏目。包括:根据语音识别结果,确定所述语音服务请求的引导栏目。所述识别结果包括关键词;根据语音识别结果,确定所述语音服务请求的引导栏目包括:获取语音识别结果中的关键词;以及根据所述关键词确定所述语音服务请求的引导栏目。
图10是根据一示例性实施例示出的一种电子设备的框图。
下面参照图10来描述根据本公开的这种实施方式的电子设备200。图10显示的电子设备200仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图10所示,电子设备200以通用计算设备的形式表现。电子设备200的组件可以包括但不限于:至少一个处理单元210、至少一个存储单元220、连接不同系统组件(包括存储单元220和处理单元210)的总线230、显示单元240等。
其中,所述存储单元存储有程序代码,所述程序代码可以被所述处理单元210执行,使得所述处理单元210执行本说明书上述电子处方流转处理方法部分中描述的根据本公开各种示例性实施方式的步骤。例如,所述处理单元210可以执行如图4,图5,图6中所示的步骤。
所述存储单元220可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(RAM)2201和/或高速缓存存储单元2202,还可以进一步包括只读存储单元(ROM)2203。
所述存储单元220还可以包括具有一组(至少一个)程序模块2205的程序/实用工具2204,这样的程序模块2205包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
总线230可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
电子设备200也可以与一个或多个外部设备300(例如键盘、指向设备、蓝牙设备等)通信,还可与一个或者多个使得用户能与该电子设备200交互的设备通信,和/或与使得该电子设备200能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口250进行。并且,电子设备200还可以通过网络适配器260与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。网络适配器260可以通过总线230与电子设备200的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备200使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本公开实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、或者网络设备等)执行根据本公开实施方式的上述方法。
图11示意性示出本公开示例性实施例中一种计算机可读存储介质示意图。
参考图11所示,描述了根据本公开的实施方式的用于实现上述方法的程序产品400,其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在终端设备,例如个人电脑上运行。然而,本公开的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
所述计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本公开操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该设备执行时,使得该计算机可读介质实现如下功能:获取用户的语音服务请求,所述请求中包括渠道码,场景码,授权码,以及语音信息;通过所述授权码对所述语音服务请求进行校验;在校验通过后,根据所述渠道码、所述场景码确定语音识别模型;以及通过所述语音识别模型对所述语音信息进行识别。
本领域技术人员可以理解上述各模块可以按照实施例的描述分布于装置中,也可以进行相应变化唯一不同于本实施例的一个或多个装置中。上述实施例的模块可以合并为一个模块,也可以进一步拆分成多个子模块。
通过以上的实施例的描述,本领域的技术人员易于理解,这里描述的示例实施例可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本公开实施例的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、移动终端、或者网络设备等)执行根据本公开实施例的方法。
以上具体地示出和描述了本公开的示例性实施例。应可理解的是,本公开不限于这里描述的详细结构、设置方式或实现方法;相反,本公开意图涵盖包含在所附权利要求的精神和范围内的各种修改和等效设置。
此外,本说明书说明书附图所示出的结构、比例、大小等,均仅用以配合说明书所公开的内容,以供本领域技术人员了解与阅读,并非用以限定本公开可实施的限定条件,故不具技术上的实质意义,任何结构的修饰、比例关系的改变或大小的调整,在不影响本公开所能产生的技术效果及所能实现的目的下,均应仍落在本公开所公开的技术内容得能涵盖的范围内。同时,本说明书中所引用的如“上”、“第一”、“第二”及“一”等的用语,也仅为便于叙述的明了,而非用以限定本公开可实施的范围,其相对关系的改变或调整,在无实质变更技术内容下,当也视为本公开可实施的范畴。

Claims (9)

1.一种用于语音识别的方法,其特征在于,包括:
通过不同场景中获得的语音数据对语音识别系统进行训练,获取不同的待选语音模型;
获取用户的语音服务请求,所述请求中包括渠道码,场景码,授权码,以及语音信息;
通过所述授权码对所述语音服务请求进行校验;
在校验通过后,根据所述渠道码确定渠道编号;
根据所述场景码确定场景编号;
根据所述渠道编号与所述场景编号在多个待选语音模型中确定所述语音服务请求的语音识别模型;以及
通过所述语音识别模型对所述语音信息进行识别。
2.如权利要求1所述的方法,其特征在于,还包括:
根据语音识别结果,确定所述语音服务请求的引导栏目。
3.如权利要求1所述的方法,其特征在于,通过所述授权码对所述语音服务请求进行校验包括:
通过所述授权码对所述语音服务请求进行第一次校验;
在第一次校验通过后,生成鉴权标识;以及
通过所述鉴权标识对所述语音服务请求进行第二次校验。
4.如权利要求1所述的方法,其特征在于,通过所述语音识别模型对所述语音信息进行识别包括:
路由层调用识别引擎以通过所述语音识别模型对所述语音信息进行识别。
5.如权利要求2所述的方法,其特征在于,所述识别结果包括关键词;
根据语音识别结果,确定所述语音服务请求的引导栏目包括:
获取语音识别结果中的关键词;以及
根据所述关键词确定所述语音服务请求的引导栏目。
6.如权利要求5所述的方法,其特征在于,根据语音识别结果,确定所述语音服务请求的引导栏目还包括:
将所述引导栏目接口返回至所述用户。
7.一种用于语音识别的装置,其特征在于,包括:
接收模块,用于通过不同场景中获得的语音数据对语音识别系统进行训练,获取不同的待选语音模型;获取用户的语音服务请求,所述请求中包括渠道码,场景码,授权码,以及语音信息;
校验模块,用于通过所述授权码对所述语音服务请求进行校验;
模型模块,用于在校验通过后,根据所述渠道码确定渠道编号;根据所述场景码确定场景编号;根据所述渠道编号与所述场景编号在多个待选语音模型中确定所述语音服务请求的语音识别模型;以及
识别模块,用于通过所述语音识别模型对所述语音信息进行识别。
8.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-6中任一所述的方法。
9.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1-6中任一所述的方法。
CN201810872111.XA 2018-08-02 2018-08-02 用于语音识别的方法、装置、电子设备及计算机可读介质 Active CN109087639B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810872111.XA CN109087639B (zh) 2018-08-02 2018-08-02 用于语音识别的方法、装置、电子设备及计算机可读介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810872111.XA CN109087639B (zh) 2018-08-02 2018-08-02 用于语音识别的方法、装置、电子设备及计算机可读介质

Publications (2)

Publication Number Publication Date
CN109087639A CN109087639A (zh) 2018-12-25
CN109087639B true CN109087639B (zh) 2021-01-15

Family

ID=64833605

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810872111.XA Active CN109087639B (zh) 2018-08-02 2018-08-02 用于语音识别的方法、装置、电子设备及计算机可读介质

Country Status (1)

Country Link
CN (1) CN109087639B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110085228A (zh) * 2019-04-28 2019-08-02 广西盖德科技有限公司 语音码应用方法、应用客户端及系统
CN110211564A (zh) * 2019-05-29 2019-09-06 泰康保险集团股份有限公司 语音合成方法及装置、电子设备和计算机可读介质
CN110580897B (zh) * 2019-08-23 2022-07-12 Oppo广东移动通信有限公司 音频校验方法、装置、存储介质及电子设备
CN110718219B (zh) * 2019-09-12 2022-07-22 百度在线网络技术(北京)有限公司 一种语音处理方法、装置、设备和计算机存储介质
CN110853643A (zh) * 2019-11-18 2020-02-28 北京小米移动软件有限公司 快应用中进行语音识别的方法、装置、设备及存储介质
CN112995098B (zh) * 2019-12-14 2022-09-23 深圳市优必选科技股份有限公司 鉴权的方法、电子设备及存储介质
CN110877340B (zh) * 2019-12-26 2021-05-28 达闼机器人有限公司 机器人控制方法及机器人控制系统
CN113311936B (zh) * 2020-02-27 2022-12-02 中移(成都)信息通信科技有限公司 基于ar的语音点评方法、装置、设备及存储介质
CN111724791A (zh) * 2020-05-22 2020-09-29 华帝股份有限公司 基于智能语音设备的识别控制方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105208014B (zh) * 2015-08-31 2018-09-25 腾讯科技(深圳)有限公司 一种语音通信处理方法、电子设备及系统
CN106572272A (zh) * 2015-10-12 2017-04-19 阿里巴巴集团控股有限公司 一种ivr语音菜单确定方法及装置
CN105719649B (zh) * 2016-01-19 2019-07-05 百度在线网络技术(北京)有限公司 语音识别方法及装置
CN107450879A (zh) * 2016-05-30 2017-12-08 中兴通讯股份有限公司 终端操作方法及装置
US10127926B2 (en) * 2016-06-10 2018-11-13 Google Llc Securely executing voice actions with speaker identification and authentication input types
CN112802459B (zh) * 2017-05-23 2024-06-18 创新先进技术有限公司 一种基于语音识别的咨询业务处理方法及装置

Also Published As

Publication number Publication date
CN109087639A (zh) 2018-12-25

Similar Documents

Publication Publication Date Title
CN109087639B (zh) 用于语音识别的方法、装置、电子设备及计算机可读介质
CN107863108B (zh) 信息输出方法和装置
EP3271917B1 (en) Communicating metadata that identifies a current speaker
CN111160845B (zh) 一种业务处理方法和装置
US9361878B2 (en) Computer-readable medium, system and method of providing domain-specific information
US10154144B2 (en) Adjustable interactive voice response system and methods of using same
WO2016054110A1 (en) Pattern-controlled automated messaging system
CN108924218B (zh) 用于推送信息的方法和装置
CN111933134A (zh) 人机交互的方法及装置、电子设备、存储介质
CN106486120B (zh) 交互式语音应答方法及应答系统
CN110324314B (zh) 用户注册方法及装置、存储介质、电子设备
KR102170088B1 (ko) 인공지능 기반 자동 응답 방법 및 시스템
US20190095596A1 (en) Authentication using cognitive analysis
US10255914B2 (en) Digital concierge and method
CN113935337A (zh) 一种对话管理方法、系统、终端及存储介质
CN111191200A (zh) 一种页面展示方法、装置和电子设备
CN111554296B (zh) 一种客户信息修改方法、装置、服务器及存储介质
EP3843090B1 (en) Method and apparatus for outputting analysis abnormality information in spoken language understanding
CN111626684B (zh) 智能税务处理方法、装置、终端和介质
US10964321B2 (en) Voice-enabled human tasks in process modeling
CN112100491A (zh) 基于用户数据的信息推荐方法、装置、设备及存储介质
US20230129467A1 (en) Systems and methods to analyze audio data to identify different speakers
CN111194026B (zh) 一种信息发送方法、装置和电子设备
CN111552779A (zh) 人机对话方法、装置、介质及电子设备
CN111858864A (zh) 实现填槽的方法、装置、电子设备及可读介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant