CN110246494A - 基于语音识别的服务请求方法、装置及计算机设备 - Google Patents

基于语音识别的服务请求方法、装置及计算机设备 Download PDF

Info

Publication number
CN110246494A
CN110246494A CN201910419072.2A CN201910419072A CN110246494A CN 110246494 A CN110246494 A CN 110246494A CN 201910419072 A CN201910419072 A CN 201910419072A CN 110246494 A CN110246494 A CN 110246494A
Authority
CN
China
Prior art keywords
service
address
keyword
target
target text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910419072.2A
Other languages
English (en)
Inventor
王树军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
OneConnect Smart Technology Co Ltd
Original Assignee
OneConnect Smart Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by OneConnect Smart Technology Co Ltd filed Critical OneConnect Smart Technology Co Ltd
Priority to CN201910419072.2A priority Critical patent/CN110246494A/zh
Publication of CN110246494A publication Critical patent/CN110246494A/zh
Priority to PCT/CN2020/087981 priority patent/WO2020233381A1/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0481Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
    • G06F3/0482Interaction with lists of selectable items, e.g. menus
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/51Discovery or management thereof, e.g. service location protocol [SLP] or web services
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • General Physics & Mathematics (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明公开一种基于语音识别的服务请求方法、装置及计算机设备。该方法包括获取指定时长的语音,并将所述指定时长的语音转换为目标文本;向服务器发送请求,所述请求包括所述目标文本,以便所述服务器根据所述目标文本包含的服务关键字在服务关键字及对应的服务地址表中匹配;接收服务器发送的响应;当所述响应仅包含目标服务地址时,获取所述目标服务地址对应的服务页面,并进行显示,其中,所述服务器在服务关键字及对应的服务地址表中匹配到与所述目标文本包含的相同服务关键字为目标服务关键字,所述目标服务关键字对应服务地址为目标服务地址。以此可以帮助用户快速定位目标服务,并显示该目标服务的页面,提升了用户体验。

Description

基于语音识别的服务请求方法、装置及计算机设备
技术领域
本发明涉及计算机技术领域,具体涉及一种基于语音识别的服务请求方法、装置及计算机设备。
背景技术
随着科技的不断发展以及人们生活需求的日益提升,应用程序的规模越来越庞大,提供的服务的数量也越来越多,服务的分类也越来越精细化。但是,安装应用程序的终端的有效显示区域通常是有限的,并且为了用户通过肉眼能够准确的识别服务接口上的服务标识以及用户在操作上不会出现过多的失误(例如,现有的终端通常是提供触摸屏来显示应用的操作界面,由于一般需要用用户的手指来进行操作,且触点具有一定的面积),所以每个服务接口在应用操作界面的站的面积不宜过小,这就使得在一个应用操作界面上,可显示的服务接口的数量非常有限。
为了应对这个问题,通常的做法的对服务进行分类,分为大类别、大类别下划分一级子类别,一级子类别下划分二级子类别,等等,用户通过大类别,一级子类别,二级子类别等的多次选择,才能找到最终想要的服务的接口,用户为此耗费大量的精力,非常的不友好。所以,如何提高应用程序操作界面上的定位服务成为了本领域迫切需要解决的技术问题。
发明内容
本发明的目的在于提供一种基于语音识别的服务请求方法、装置及计算机设备,可以帮助用户快速定位目标服务,并显示该目标服务的页面,提升了用户体验。
本发明是通过下述技术方案来解决上述技术问题:
第一方面,提供了一种基于语音识别的服务请求方法,包括:
获取指定时长的语音,并将所述指定时长的语音转换为目标文本;
向服务器发送请求,所述请求包括所述目标文本,以便所述服务器根据所述目标文本包含的服务关键字在服务关键字及对应的服务地址表中匹配;
接收服务器发送的响应;
当所述响应仅包含目标服务地址时,获取所述目标服务地址对应的服务页面,并进行显示,其中,所述服务器在服务关键字及对应的服务地址表中匹配到与所述目标文本包含的相同服务关键字为目标服务关键字,所述目标服务关键字对应服务地址为目标服务地址。
可选地,还包括:
当所述响应包含推荐服务地址列表时,显示所述推荐服务地址列表对应的推荐服务标识,所述推荐服务地址列表由所述服务器基于所述目标文本包含的服务关键字生成;
接收第一用户操作,所述第一用户操作用于在所述推荐服务标识中进行选择;
确定选定的推荐服务标识对应的服务地址,并获取所述选定的推荐服务标识对应的服务地址对应的服务页面,并进行显示。
可选地,在获取指定时长的语音之前,所述方法还包括:
显示应用操作界面,并接收用户第二操作,以便根据所述用户第二操作获取指定时长的语音,所述第二操作为针对所述应用操作界面的指定区域的操作,所述指定区域用于显示智能语音助手接口按钮,所述接口按钮悬于应用的操作界面的顶层。
可选地,还包括:
接收用户第三操作,所述第三操作为针对所述智能语音助手接口按钮的操作;
根据所述第三用户操作,移动所述语音助手接口按钮在应用的操作界面的位置。
第一方面,提供了另一种基于语音识别的服务请求方法。包括:
接收终端发送的请求,所述请求包括目标文本,所述目标文本为所述终端根据指定时长的语言转换得到;
根据所述目标文本包含的服务关键字在服务关键字及对应的服务地址表中进行匹配;
当服务关键字及对应的服务地址表中与所述目标文本包含相同的目标服务关键字时,确定所述目标服务关键字对应的目标服务地址;
向所述终端发送响应,所述响应包括所述目标服务地址,以便所述终端获取所述目标服务地址对应的服务页面,并进行显示。
可选地,还包括:
当服务关键字及对应的服务地址表中与所述目标文本不包含相同的目标服务关键字,但存在相近的服务关键字时,根据所述相近的服务关键字确定推荐服务地址列表;
向所述终端发送响应,所述响应包括所述推荐服务地址列表,以便所述终端显示所述推荐服务地址列表对应的推荐服务标识列表。
第三方面,提供了一种基于语音识别的服务请求装置。该装置可包括:
获取单元,用于获取指定时长的语音,并将指定时长的语音转换为目标文本;
发送单元,用于向服务器发送请求,请求包括目标文本,以便服务器根据目标文本包含的服务关键字在服务关键字及对应的服务地址表中匹配;
接收单元,用于接收服务器发送的响应;
显示单元,用于当响应仅包含目标服务地址时,获取目标服务地址对应的服务页面,并进行显示,其中,服务器在服务关键字及对应的服务地址表中匹配到与目标文本包含的相同服务关键字为目标服务关键字,目标服务关键字对应服务地址为目标服务地址。
进一步地,该显示单元还用于,当响应包含推荐服务地址列表时,显示推荐服务地址列表对应的推荐服务标识;
该装置可以包括输入单元,用于接收第一用户操作,第一用户操作用于在推荐服务标识中进行选择;
显示单元还用于,确定选定的推荐服务标识对应的服务地址,并获取选定的推荐服务标识对应的服务地址对应的服务页面,并进行显示。
进一步地,显示单元还用于,显示应用操作界面;输入单元还用于接收用户第二操作,以便根据用户第二操作获取指定时长的语音,第二操作为针对应用操作界面的指定区域的操作,指定区域用于显示智能语音助手接口按钮,接口按钮悬于应用的操作界面的顶层。
进一步地,输入单元还用于接收用户第三操作,第三操作为针对智能语音助手接口按钮的操作;
该装置可以包括移动单元,用于根据第三用户操作,移动语音助手接口按钮在应用的操作界面的位置。
第四方面,提供了另一种基于语音识别的服务请求装置。该装置可包括:
接收单元,用于接收终端发送的请求,请求包括目标文本,目标文本为终端根据指定时长的语言转换得到;
匹配单元,用于根据目标文本包含的服务关键字在服务关键字及对应的服务地址表中进行匹配;
确定单元,用于当服务关键字及对应的服务地址表中与目标文本包含相同的目标服务关键字时,确定目标服务关键字对应的目标服务地址;
发送单元,用于向终端发送响应,响应包括目标服务地址,以便终端获取目标服务地址对应的服务页面,并进行显示。
进一步地,确定单元还用于,当服务关键字及对应的服务地址表中与目标文本不包含相同的目标服务关键字,但存在相近的服务关键字时,根据相近的服务关键字确定推荐服务地址列表;
发送单元还用于,向终端发送响应,响应包括推荐服务地址列表,以便终端显示推荐服务地址列表对应的推荐服务标识列表。
为了实现上述目的,本发明还提供一种计算机设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述方法的步骤。
为了实现上述目的,本发明还提供一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现上述方法的步骤。
本发明提供的基于语音识别的服务请求方法、装置、计算机设备及可读存储介质,可以基于语音识别技术,辅助用户快速的定位到用户需要的服务对应的页面。避免用户在大量的服务界面中翻找自己需要的服务,使得服务的请求更简单便捷,提升了用户体验。另外,根据识别后的文字匹配对应服务的处理,可以由服务器来执行,以便可以更好的,更方便的维护服务关键字及对应的服务地址表,及时的对该表进行更新,降低匹配失误的可能。另外,终端还可以提供智能语音助手接口按钮,该按钮可以悬于所有界面的顶层,以便用户可以随时便捷的使用该服务。
附图说明
图1是本发明实施例提供的一种应用场景示意图;
图2是根据本发明实施例的基于语音识别的服务请求方法的一种可选的流程示意图;
图3是根据本发明实施例的基于语音识别的服务请求方法的另一种可选的流程示意图;
图4是根据本发明实施例的基于语音识别的服务请求装置的一种可选的程序模块示意图;
图5是根据本发明实施例的基于语音识别的服务请求装置的另一种可选的程序模块示意图;
图6是根据本发明实施例的计算机设备的一种可选的硬件架构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例可以应用于图1所示的场景中,该场景包括终端110和服务器120。其中,终端110可以与服务器120通过互联网进行通信。在本发明实施例中,终端110确定指定时长的语音,并将该指定时长的转化为文本,文本通过互联网上传至服务器120,由服务器120在本地维护的表中查找到文本对应的目标服务地址,并该目标服务地址返回给终端110;终端110根据接收到的目标服务地址直接跳转到服务页面,以此帮助用户快速定位目标服务,并显示该目标服务的页面,提升了用户体验。下面结合具体实施例对本发明实施例进行进一步地介绍。
实施例一
下面结合附图对本发明提供终端侧的基于语音识别的服务请求方法进行说明。
图2为本发明基于语音识别的服务请求方法的一种可选的流程示意图,如图2所示,该方法可以包括以下步骤:
S210,获取指定时长的语音,并将该指定时长的语音转换为目标文本。
在该终端中可以安装包含多种服务的应用,用户在进行服务请求之前可以唤醒该服务请求对应的应用。例如,该终端可以为手机,该手机可以安装金融服务的应用的客户端,该金融服务的应用的客户端可以提供保单查询、贷款以及我的资产查询管理等的服务,用户可以通过手机打开该金融服务的应用的客户端,使用该客户端提供的服务。
在应用的客户端被打开后,可以显示用户操作界面,该用户界面可以显示智能语音助手功能的接口,终端可以根据用户针对该智能语音助手功能的接口的操作,打开该智能语音助手,并通过该智能语音助手对用户进行录音。基于此,本发明实施例在S210之前,还可以包括如下步骤:显示应用操作界面,并接收用户第二操作,以便根据用户第二操作获取指定时长的语音;其中,该第二操作为针对应用操作界面的指定区域的操作,该指定区域用于显示智能语音助手接口按钮,该接口按钮可以悬于应用的操作界面的顶层,这样,无论该应用显示了哪一个服务的页面,用户都可以通过该接口按钮,打开智能语音助手服务,从而通过该语音助手服务请求其他的服务。
在一些实施例中,该智能语音助手接口在用户操作界面的位置还可以通过用户操作进行设置。基于此,本申请实施例还可以包括如下步骤:接收用户第三操作,该第三操作为针对智能语音助手接口按钮的操作;根据所该第三用户操作,移动语音助手接口按钮在应用的操作界面的位置。例如,终端可以为提供触摸屏的手机,该第三操作可以为用户在触摸屏上拖动智能语音助手接口按钮的操作。
接下来,在指定获取到指定时长的语音后,可以对该语言进行语音识别。其中,该语音可以是指终端通过麦克风采样的一段音频文件,终端可以根据预先训练的语音识别模型对该段音频进行语音识别,得到目标文本,例如,终端可以根据该音频文件确定该语音的波形图,通过语音识别模型,提取该波形图中的特征,并将提取得到的特征作为该语音识别模型的输入,输出为目标文本。
例如,在开始语音识别之前,有时需要把首尾端的静音切除,降低对后续步骤造成的干扰。要对声音进行分析,需要对声音分帧,也就是把声音切开成一小段一小段,每小段称为一帧。分帧操作一般不是简单的切开,而是使用移动窗函数来实现,分帧后,语音就变成了很多小段。但波形在时域上几乎没有描述能力,因此必须将波形作变换。常见的一种变换方法是根据人耳的生理特性,把每一帧波形变成一个多维向量,可以简单地理解为这个向量包含了这帧语音的内容信息。这个过程叫做声学特征提取。至此,声音就成了一个12行(假设声学特征是12维)、N列的一个矩阵,称之为观察序列,这里N为总帧数。接下来就要介绍怎样把这个矩阵变成文本了。首先要介绍两个概念:
音素:单词的发音由音素构成。对英语,一种常用的音素集是卡内基梅隆大学的一套由39个音素构成的音素集。汉语一般直接用全部声母和韵母作为音素集,另外汉语识别还分有调无调。
状态(特征):这里理解成比音素更细致的语音单位。通常把一个音素划分成3个状态。
特征提取即为,把帧识别成状态(特征);
将提取得到的特征作为该语音识别模型的输入,输出为目标文本即为,把状态组合成音素;把音素组合成单词。若干帧语音对应一个状态,每三个状态组合成一个音素,若干个音素组合成一个单词。
也就是说,要知道每帧语音对应哪个状态了,语音识别的结果也就出来了。有个叫“声学模型”的东西,里面存了参数,通过参数,就可以知道帧和状态对应的概率。
进一步地,还需要构建一个状态网络。从状态网络中寻找与声音最匹配的路径。
这样就把结果限制在预先设定的网络中,搭建状态网络,是由单词级网络展开成音素网络,再展开成状态网络。语音识别过程其实就是在状态网络中搜索一条最佳路径,语音对应这条路径的概率最大,这称之为“解码”。路径搜索的算法是一种动态规划剪枝的算法,称之为Viterbi算法,用于寻找全局最优路径。这里所说的累积概率,由三部分构成,分别是:观察概率:每帧和每个状态对应的概率,转移概率:每个状态转移到自身或转移到下个状态的概率,语言概率:根据语言统计规律得到的概率。其中,前两种概率从声学模型中获取,最后一种概率从语音识别模型中获取。语音识别模型是使用大量的文本训练出来的,可以利用某门语言本身的统计规律来帮助提升识别正确率。其中,预先训练的语音识别模型可以包括多种实现方式,例如,该预先训练的语音识别模型可以为机器学习模型,该机器学习模型可以为基于神经网络的深度学习模型。
进一步地,该语音识别功能可以由第三方服务提供,可以是本客户端提供。例如,终端在确定指定时长的语音后,可以将该语音发送至第三方服务在终端上的客户端,该第三方服务在终端上的客户端根据该语音进行识别,并将识别到的目标文本返回本客户端。
另外,该指定时长可以指不大于阈值的语音。由于服务一般名称一般都是固定的,且不会很长,故在设置语音识时长时做时间限制,切除多余时长的语音,得到指定时长的语音。
S220,向服务器发送请求。其中,该请求包括目标文本,以便服务器根据目标文本包含的服务关键字在服务关键字及对应的服务地址表中匹配。其中,服务关键字及对应的服务地址表为服务器预先建立,具体可以参见图3所示的实施例中,步骤S320中的相关描述。
客户端在确定目标文本后,可以将该目标文本发送至服务器。服务器在接收到客户端发送的请求后,可以进行语句解析,并根据解析后的结果确定需要返回客户端的内容,例如,服务器可以根据目标文本包含的服务关键字在服务关键字及对应的服务地址表中进行匹配。具体可以参见图3所示的实施例中,步骤S320中的相关描述。
当服务关键字及对应的服务地址表中与目标文本包含相同的目标服务关键字时,确定目标服务关键字对应的目标服务地址;向终端发送响应,该响应包括目标服务地址。
当服务关键字及对应的服务地址表中与目标文本不包含相同的目标服务关键字,但存在相近的服务关键字时,根据该相近的服务关键字确定推荐服务地址列表;向终端发送响应,该响应包括推荐服务地址列表。例如,服务器可以确定目标服务关键字与服务关键字及对应的服务地址表中中的服务关键字的相似度,该相似度可以结合语义或相同的字数占比确定。可以选择相似度最高的指定数量的服务关键字作为相近的服务关键字,确定该相近的服务关键字对应的服务地址列,作为推荐服务地址。
其中,服务器执行的步骤在图3所示的实施例中会进行进一步的介绍,此处不再赘述。
S230,接收服务器发送的响应。
客户端在接收到服务发送的响应后,可以获取该响应中的内容。
S240,当响应仅包含目标服务地址时,获取目标服务地址对应的服务页面,并进行显示。其中,服务器在服务关键字及对应的服务地址表中匹配到与目标文本包含的相同服务关键字为目标服务关键字,目标服务关键字对应服务地址为目标服务地址。例如,服务地址可以为服务的统一资源定位符(Uniform Resource Locator,URL)。
其中,当响应仅包含目标服务地址时,可以直接显示该目标服务地址对应的页面。
另外,当响应包含推荐服务地址列表时,客户端需要提示用户,并根据用户的选择,获取服务页面。基于此,本发明实施例可以包括如下步骤:
当响应包含推荐服务地址列表时,显示推荐服务地址列表对应的推荐服务标识;接收第一用户操作,该第一用户操作用于在推荐服务标识中进行选择;确定选定的推荐服务标识对应的服务地址,并获取选定的推荐服务标识对应的服务地址对应的服务页面,并进行显示。
其中,服务器发送的推荐服务地址列表可以仅包括推荐服务地址,也可以包括推荐服务标识和推荐服务地址的映射关系。当仅包括推荐服务地址可时,客户端可以根据该推荐服务地址建立推荐服务标识和推荐服务地址的映射关系。该推荐服务标识可以指推荐服务的名称等能够标识服务的信息;该推荐服务的标识也可以为推荐服务在客户端的接口的标识,此时,建立推荐服务标识和推荐服务地址的映射关系可以指,客户端根据推荐服务地址确定推荐服务的接口,并在智能语音助手对应的界面显示各个推荐服务的接口。
用户第一操作可以以为在显示的推荐服务标识中选择的一个服务标识的操作。例如,针对触摸屏的点击操作。在客户端确定用户第一操作后,可以跳转到用户选择的服务标识对应的页面。
通过本发明实施例,基于语音识别技术,终端可以辅助用户快速的定位到用户需要的服务对应的页面。避免用户在大量的服务界面中翻找自己需要的服务,使得服务的请求更简单便捷,提升了用户体验。另外,根据识别后的文字匹配对应服务的处理,可以由服务器来执行,以便可以更好的,更方便的维护服务关键字及对应的服务地址表,及时的对该表进行更新,降低匹配失误的可能。另外,终端还可以提供智能语音助手接口按钮,该按钮可以悬于所有界面的顶层,以便用户可以随时便捷的使用该服务。
实施例二
下面结合附图对本发明提供服务器侧的基于语音识别的服务请求方法进行说明。该方法与前述终端侧的基于语音识别的服务请求方法对应,可以相互参照理解。
图3为本发明基于语音识别的服务请求方法的一种可选的流程示意图,如图3所示,该方法可以包括以下步骤:
S310,接收终端发送的请求。该请求包括目标文本,该目标文本为终端根据指定时长的语言转换得到。
其中,该S310可以参见前述图2所示的实施例中S210和S220的相关描述,此处不再赘述。
S320,根据目标文本包含的服务关键字在服务关键字及对应的服务地址表中进行匹配。
服务器可以维护服务关键字及对应的服务地址表。例如,服务器可以维护如表1所示的表。
表1
编号 服务关键字 服务地址
0001 查保单 patoa://pingan.com/query-insurance
0002 贷款 patoa://pingan.com/shop/loan
0003 我的资产 patoa://pingan.com/asset
…… …… ……
根据具体使用场景中可以实时或周期性的更新服务关键字及对应的服务地址表。在更新时,可以根据服务具体使用时称呼的变化,增加或修改上述表中的服务关键字;还可以根据实际服务的变化,增加或删除表项。
其中,每一种服务的服务关键字可以包括一种或多种,例如,保单查询服务的服务关键字可以包括查保单,还可以包括保单、查看保单等等。同一服务的服务关键字可以对应同一服务的地址。
另外,在进行匹配时,可以提取目标文本中的目标服务关键字。在目标关键字提取过程中,主要是为了剔除无效字段。例如,目标文本为“我想查看我的保单信息”对应的目标服务关键字为“查保单”或“保单”;再例如,目标文本为“我想查看我的资产信息”对应的目标服务关键字可以为“我的资产”或“资产”;再例如,目标文本为“我想贷款”对应的目标关键字可以为“贷款”。
可以根据提取的目标服务关键字在服务关键字及对应的服务地址表中进行匹配,如果匹配到完全一致的服务关键字时,执行S330-S340。如果匹配到不完全一致的服务关键字时,执行S350-S360。
S330,当服务关键字及对应的服务地址表中与目标文本包含相同的目标服务关键字时,确定目标服务关键字对应的目标服务地址。
S340,向终端发送第一响应。该第一响应包括目标服务地址,以便终端获取目标服务地址对应的服务页面,并进行显示。
其中,若服务关键字及对应的服务地址表中与目标文本包含相同的目标服务关键字,则可以仅向终端发送目标服务地址,以便终端直接跳转。
S350,当服务关键字及对应的服务地址表中与目标文本不包含相同的目标服务关键字,但存在相近的服务关键字时,根据相近的服务关键字确定推荐服务地址列表。
例如,可以确定目标服务关键字与服务关键字及对应的服务地址表中中的服务关键字的相似度,该相似度可以结合语义或相同的字数占比确定。可以选择相似度最高的指定数量的服务关键字作为相近的服务关键字,确定该相近的服务关键字对应的服务地址列,作为推荐服务地址。
S360,向终端发送第二响应。该第二响应包括所述推荐服务地址列表,以便所述终端显示所述推荐服务地址列表对应的推荐服务标识列表。
另外,当服务关键字及对应的服务地址表中与所述目标文本不包含相同的目标服务关键字,也不存在相近的服务关键字时,则表明匹配失败。服务器也可以向终端发送推荐服务地址列表,该推荐服务地址列表可以为用户常用的服务对应的地址列表,该推荐服务地址列表可以根据所有的用户的历请求统计确定,也可以仅根据本用户的历史请求确定。
通过本发明实施例,基于语音识别技术,终端可以辅助用户快速的定位到用户需要的服务对应的页面。避免用户在大量的服务界面中翻找自己需要的服务,使得服务的请求更简单便捷,提升了用户体验。另外,根据识别后的文字匹配对应服务的处理,可以由服务器来执行,以便可以更好的,更方便的维护服务关键字及对应的服务地址表,及时的对该表进行更新,降低匹配失误的可能。另外,终端还可以提供智能语音助手接口按钮,该按钮可以悬于所有界面的顶层,以便用户可以随时便捷的使用该服务。
实施例三
基于上述实施例一中提供的基于语音识别的服务请求方法,本实施例中提供一种基于语音识别的服务请求装置,具体地,图4示出了该基于语音识别的服务请求装置的可选的结构框图,该基于语音识别的服务请求装置被分割成一个或多个程序模块,一个或者多个程序模块被存储于存储介质中,并由一个或多个处理器所执行,以完成本发明。本发明所称的程序模块是指能够完成特定功能的一系列计算机程序指令段,比程序本身更适合描述基于语音识别的服务请求装置在存储介质中的执行过程,以下描述将具体介绍本实施例各程序模块的功能。
如图4所示,该基于语音识别的服务请求装置400可包括:
获取单元401,用于获取指定时长的语音,并将指定时长的语音转换为目标文本;
发送单元402,用于向服务器发送请求,请求包括目标文本,以便服务器根据目标文本包含的服务关键字在服务关键字及对应的服务地址表中匹配;
接收单元403,用于接收服务器发送的响应;
显示单元404,用于当响应仅包含目标服务地址时,获取目标服务地址对应的服务页面,并进行显示,其中,服务器在服务关键字及对应的服务地址表中匹配到与目标文本包含的相同服务关键字为目标服务关键字,目标服务关键字对应服务地址为目标服务地址。
进一步地,该显示单元404还用于,当响应包含推荐服务地址列表时,显示推荐服务地址列表对应的推荐服务标识;
该装置400可以包括输入单元,用于接收第一用户操作,第一用户操作用于在推荐服务标识中进行选择;
显示单元404还用于,确定选定的推荐服务标识对应的服务地址,并获取选定的推荐服务标识对应的服务地址对应的服务页面,并进行显示。
进一步地,显示单元404还用于,显示应用操作界面;输入单元还用于接收用户第二操作,以便根据用户第二操作获取指定时长的语音,第二操作为针对应用操作界面的指定区域的操作,指定区域用于显示智能语音助手接口按钮,接口按钮悬于应用的操作界面的顶层。
进一步地,输入单元还用于接收用户第三操作,第三操作为针对智能语音助手接口按钮的操作;
该装置400可以包括移动单元,用于根据第三用户操作,移动语音助手接口按钮在应用的操作界面的位置。
通过本发明实施例,基于语音识别技术,终端可以辅助用户快速的定位到用户需要的服务对应的页面。避免用户在大量的服务界面中翻找自己需要的服务,使得服务的请求更简单便捷,提升了用户体验。另外,根据识别后的文字匹配对应服务的处理,可以由服务器来执行,以便可以更好的,更方便的维护服务关键字及对应的服务地址表,及时的对该表进行更新,降低匹配失误的可能。另外,终端还可以提供智能语音助手接口按钮,该按钮可以悬于所有界面的顶层,以便用户可以随时便捷的使用该服务。
实施例四
基于上述实施例二中提供的基于语音识别的服务请求方法,本实施例中提供一种基于语音识别的服务请求装置,具体地,图5示出了该基于语音识别的服务请求装置的可选的结构框图,该基于语音识别的服务请求装置被分割成一个或多个程序模块,一个或者多个程序模块被存储于存储介质中,并由一个或多个处理器所执行,以完成本发明。本发明所称的程序模块是指能够完成特定功能的一系列计算机程序指令段,比程序本身更适合描述基于语音识别的服务请求装置在存储介质中的执行过程,以下描述将具体介绍本实施例各程序模块的功能。
如图5所示,该基于语音识别的服务请求装置500可包括:
接收单元501,用于接收终端发送的请求,请求包括目标文本,目标文本为终端根据指定时长的语言转换得到;
匹配单元502,用于根据目标文本包含的服务关键字在服务关键字及对应的服务地址表中进行匹配;
确定单元503,用于当服务关键字及对应的服务地址表中与目标文本包含相同的目标服务关键字时,确定目标服务关键字对应的目标服务地址;
发送单元504,用于向终端发送响应,响应包括目标服务地址,以便终端获取目标服务地址对应的服务页面,并进行显示。
进一步地,确定单元503还用于,当服务关键字及对应的服务地址表中与目标文本不包含相同的目标服务关键字,但存在相近的服务关键字时,根据相近的服务关键字确定推荐服务地址列表;
发送单元504还用于,向终端发送响应,响应包括推荐服务地址列表,以便终端显示推荐服务地址列表对应的推荐服务标识列表。
通过本发明实施例,基于语音识别技术,终端可以辅助用户快速的定位到用户需要的服务对应的页面。避免用户在大量的服务界面中翻找自己需要的服务,使得服务的请求更简单便捷,提升了用户体验。另外,根据识别后的文字匹配对应服务的处理,可以由服务器来执行,以便可以更好的,更方便的维护服务关键字及对应的服务地址表,及时的对该表进行更新,降低匹配失误的可能。另外,终端还可以提供智能语音助手接口按钮,该按钮可以悬于所有界面的顶层,以便用户可以随时便捷的使用该服务。
实施例五
本实施例还提供一种计算机设备,如可以执行程序的智能手机、平板电脑、笔记本电脑、台式计算机、机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括独立的服务器,或者多个服务器所组成的服务器集群)等。如图6所示,本实施例的计算机设备60至少包括但不限于:可通过系统总线相互通信连接的存储器61、处理器62以及收发器63,收发器63用于计算机设备与计算机设备之间的通信,如图6所示。需要指出的是,图6仅示出了具有组件61-63的计算机设备60,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。
本实施例中,存储器61(即可读存储介质)包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,存储器61可以是计算机设备60的内部存储单元,例如该计算机设备60的硬盘或内存。在另一些实施例中,存储器61也可以是计算机设备60的外部存储设备,例如该计算机设备60上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。当然,存储器61还可以既包括计算机设备60的内部存储单元也包括其外部存储设备。本实施例中,存储器61通常用于存储安装于计算机设备60的操作系统和各类应用软件,例如实施例二的基于语音识别的服务请求装置的程序代码等。此外,存储器61还可以用于暂时地存储已经输出或者将要输出的各类数据。
处理器62在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器62通常用于控制计算机设备60的总体操作。本实施例中,处理器62用于运行存储器61中存储的程序代码或者处理数据,以实现前述图2所示的实施例中终端所执行步骤或图3所示的实施例中服务器所执行的步骤。
实施例六
本实施例还提供一种计算机可读存储介质,如闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘、服务器、App应用商城等等,其上存储有计算机程序,程序被处理器执行时实现相应功能。本实施例的计算机可读存储介质用于基于语音识别的服务请求装置,被处理器执行时实现实施例一或实施例二的基于语音识别的服务请求方法。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种基于语音识别的服务请求方法,其特征在于,包括:
获取指定时长的语音,并将所述指定时长的语音转换为目标文本;
向服务器发送请求,所述请求包括所述目标文本,以便所述服务器根据所述目标文本包含的服务关键字在服务关键字及对应的服务地址表中匹配;
接收服务器发送的响应;
当所述响应仅包含目标服务地址时,获取所述目标服务地址对应的服务页面,并进行显示,其中,所述服务器在服务关键字及对应的服务地址表中匹配到与所述目标文本包含的相同服务关键字为目标服务关键字,所述目标服务关键字对应服务地址为目标服务地址。
2.根据权利要求1所述的方法,其特征在于,还包括:
当所述响应包含推荐服务地址列表时,显示所述推荐服务地址列表对应的推荐服务标识,所述推荐服务地址列表由所述服务器基于所述目标文本包含的服务关键字生成;
接收第一用户操作,所述第一用户操作用于在所述推荐服务标识中进行选择;
确定选定的推荐服务标识对应的服务地址,并获取所述选定的推荐服务标识对应的服务地址对应的服务页面,并进行显示。
3.根据权利要求1-2任意一项所述的方法,其特征在于,在获取指定时长的语音之前,所述方法还包括:
显示应用操作界面,并接收用户第二操作,以便根据所述用户第二操作获取指定时长的语音,所述第二操作为针对所述应用操作界面的指定区域的操作,所述指定区域用于显示智能语音助手接口按钮,所述接口按钮悬于应用的操作界面的顶层。
4.根据权利要求3所述的方法,其特征在于,还包括:
接收用户第三操作,所述第三操作为针对所述智能语音助手接口按钮的操作;
根据所述第三用户操作,移动所述语音助手接口按钮在应用的操作界面的位置。
5.一种基于语音识别的服务请求方法,其特征在于,包括:
接收终端发送的请求,所述请求包括目标文本,所述目标文本为所述终端根据指定时长的语言转换得到;
根据所述目标文本包含的服务关键字在服务关键字及对应的服务地址表中进行匹配;
当服务关键字及对应的服务地址表中与所述目标文本包含相同的目标服务关键字时,确定所述目标服务关键字对应的目标服务地址;
向所述终端发送响应,所述响应包括所述目标服务地址,以便所述终端获取所述目标服务地址对应的服务页面,并进行显示。
6.根据权利要求5所述的方法,其特征在于,所述方法还包括:
当服务关键字及对应的服务地址表中与所述目标文本不包含相同的目标服务关键字,但存在相近的服务关键字时,根据所述相近的服务关键字确定推荐服务地址列表;
向所述终端发送响应,所述响应包括所述推荐服务地址列表,以便所述终端显示所述推荐服务地址列表对应的推荐服务标识列表。
7.一种基于语音识别的服务请求装置,其特征在于,包括:
获取单元,用于获取指定时长的语音,并将所述指定时长的语音转换为目标文本;
发送单元,用于向服务器发送请求,所述请求包括所述目标文本,以便所述服务器根据所述目标文本包含的服务关键字在服务关键字及对应的服务地址表中匹配;
接收单元,用于接收服务器发送的响应;
显示单元,用于当所述响应仅包含目标服务地址时,获取所述目标服务地址对应的服务页面,并进行显示,其中,所述服务器在服务关键字及对应的服务地址表中匹配到与所述目标文本包含的相同服务关键字为目标服务关键字,所述目标服务关键字对应服务地址为目标服务地址。
8.一种基于语音识别的服务请求装置,其特征在于,包括:
接收单元,用于接收终端发送的请求,所述请求包括目标文本,所述目标文本为所述终端根据指定时长的语言转换得到;
匹配单元,用于根据所述目标文本包含的服务关键字在服务关键字及对应的服务地址表中进行匹配;
确定单元,用于当服务关键字及对应的服务地址表中与所述目标文本包含相同的目标服务关键字时,确定所述目标服务关键字对应的目标服务地址;
发送单元,用于向所述终端发送响应,所述响应包括所述目标服务地址,以便所述终端获取所述目标服务地址对应的服务页面,并进行显示。
9.一种计算机设备,所述计算机设备包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1至6任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于:所述程序被处理器执行时实现权利要求1至6任一项所述方法的步骤。
CN201910419072.2A 2019-05-20 2019-05-20 基于语音识别的服务请求方法、装置及计算机设备 Pending CN110246494A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201910419072.2A CN110246494A (zh) 2019-05-20 2019-05-20 基于语音识别的服务请求方法、装置及计算机设备
PCT/CN2020/087981 WO2020233381A1 (zh) 2019-05-20 2020-04-30 基于语音识别的服务请求方法、装置及计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910419072.2A CN110246494A (zh) 2019-05-20 2019-05-20 基于语音识别的服务请求方法、装置及计算机设备

Publications (1)

Publication Number Publication Date
CN110246494A true CN110246494A (zh) 2019-09-17

Family

ID=67884369

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910419072.2A Pending CN110246494A (zh) 2019-05-20 2019-05-20 基于语音识别的服务请求方法、装置及计算机设备

Country Status (2)

Country Link
CN (1) CN110246494A (zh)
WO (1) WO2020233381A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111583929A (zh) * 2020-05-13 2020-08-25 军事科学院系统工程研究院后勤科学与技术研究所 使用离线语音的控制方法、装置及可识读设备
WO2020233381A1 (zh) * 2019-05-20 2020-11-26 深圳壹账通智能科技有限公司 基于语音识别的服务请求方法、装置及计算机设备
CN113571065A (zh) * 2021-07-27 2021-10-29 德邦物流股份有限公司 地址确定方法、装置、电子设备及可读存储介质

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004295837A (ja) * 2003-03-28 2004-10-21 Nippon Telegr & Teleph Corp <Ntt> 音声制御方法、音声制御装置、音声制御プログラム
CN101621862A (zh) * 2009-08-11 2010-01-06 中兴通讯股份有限公司 手机浏览器快速定位有效信息的方法与装置
CN102435202A (zh) * 2011-12-01 2012-05-02 广西卫通汽车信息技术有限公司 云端语音导航的方法和装置
CN104462262A (zh) * 2014-11-21 2015-03-25 北京奇虎科技有限公司 一种实现语音搜索的方法、装置和浏览器客户端
CN104704495A (zh) * 2014-04-10 2015-06-10 华为终端有限公司 一种信息搜索的方法以及装置
CN105740263A (zh) * 2014-12-10 2016-07-06 深圳市腾讯计算机系统有限公司 页面显示方法和装置
CN107590174A (zh) * 2017-07-31 2018-01-16 北京五八信息技术有限公司 页面访问方法及装置
CN108459880A (zh) * 2018-01-29 2018-08-28 出门问问信息科技有限公司 语音助手唤醒方法、装置、设备及存储介质
CN109036417A (zh) * 2018-07-03 2018-12-18 百度在线网络技术(北京)有限公司 用于处理语音请求的方法和装置
CN109491562A (zh) * 2018-10-09 2019-03-19 珠海格力电器股份有限公司 一种语音助手应用程序的界面显示方法及终端设备
US10275522B1 (en) * 2015-06-11 2019-04-30 State Farm Mutual Automobile Insurance Company Speech recognition for providing assistance during customer interaction
CN109727092A (zh) * 2018-12-15 2019-05-07 深圳壹账通智能科技有限公司 基于ai的产品推荐方法、装置、计算机设备及存储介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7386783B2 (en) * 2003-04-28 2008-06-10 International Business Machines Corporation Method, system and program product for controlling web content usage
CN105025051A (zh) * 2014-04-24 2015-11-04 深圳市赛格导航科技股份有限公司 一种云端语音服务提供方法和系统
CN107180635A (zh) * 2016-03-09 2017-09-19 张立秀 一种云端语音服务提供方法及系统
CN110246494A (zh) * 2019-05-20 2019-09-17 深圳壹账通智能科技有限公司 基于语音识别的服务请求方法、装置及计算机设备

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004295837A (ja) * 2003-03-28 2004-10-21 Nippon Telegr & Teleph Corp <Ntt> 音声制御方法、音声制御装置、音声制御プログラム
CN101621862A (zh) * 2009-08-11 2010-01-06 中兴通讯股份有限公司 手机浏览器快速定位有效信息的方法与装置
CN102435202A (zh) * 2011-12-01 2012-05-02 广西卫通汽车信息技术有限公司 云端语音导航的方法和装置
CN104704495A (zh) * 2014-04-10 2015-06-10 华为终端有限公司 一种信息搜索的方法以及装置
CN104462262A (zh) * 2014-11-21 2015-03-25 北京奇虎科技有限公司 一种实现语音搜索的方法、装置和浏览器客户端
CN105740263A (zh) * 2014-12-10 2016-07-06 深圳市腾讯计算机系统有限公司 页面显示方法和装置
US10275522B1 (en) * 2015-06-11 2019-04-30 State Farm Mutual Automobile Insurance Company Speech recognition for providing assistance during customer interaction
CN107590174A (zh) * 2017-07-31 2018-01-16 北京五八信息技术有限公司 页面访问方法及装置
CN108459880A (zh) * 2018-01-29 2018-08-28 出门问问信息科技有限公司 语音助手唤醒方法、装置、设备及存储介质
CN109036417A (zh) * 2018-07-03 2018-12-18 百度在线网络技术(北京)有限公司 用于处理语音请求的方法和装置
CN109491562A (zh) * 2018-10-09 2019-03-19 珠海格力电器股份有限公司 一种语音助手应用程序的界面显示方法及终端设备
CN109727092A (zh) * 2018-12-15 2019-05-07 深圳壹账通智能科技有限公司 基于ai的产品推荐方法、装置、计算机设备及存储介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020233381A1 (zh) * 2019-05-20 2020-11-26 深圳壹账通智能科技有限公司 基于语音识别的服务请求方法、装置及计算机设备
CN111583929A (zh) * 2020-05-13 2020-08-25 军事科学院系统工程研究院后勤科学与技术研究所 使用离线语音的控制方法、装置及可识读设备
CN113571065A (zh) * 2021-07-27 2021-10-29 德邦物流股份有限公司 地址确定方法、装置、电子设备及可读存储介质

Also Published As

Publication number Publication date
WO2020233381A1 (zh) 2020-11-26

Similar Documents

Publication Publication Date Title
US20200301954A1 (en) Reply information obtaining method and apparatus
JP7346609B2 (ja) 自然言語理解(nlu)フレームワークを使用して意味探索を実行するシステムおよび方法
US11216510B2 (en) Processing an incomplete message with a neural network to generate suggested messages
KR101858206B1 (ko) 지능형 챗봇 기반 대화형 현장 지원 서비스 제공 방법
US20190311036A1 (en) System and method for chatbot conversation construction and management
US20170337261A1 (en) Decision Making and Planning/Prediction System for Human Intention Resolution
US8170866B2 (en) System and method for increasing accuracy of searches based on communication network
CN103262156B (zh) 语音识别语言模型
US11861315B2 (en) Continuous learning for natural-language understanding models for assistant systems
US10853579B2 (en) Mixed-initiative dialog automation with goal orientation
US20150286943A1 (en) Decision Making and Planning/Prediction System for Human Intention Resolution
CN112182252B (zh) 基于药品知识图谱的智能用药问答方法及其设备
CN112948534A (zh) 一种智能人机对话的交互方法、系统和电子设备
CN108268450B (zh) 用于生成信息的方法和装置
CN110246494A (zh) 基于语音识别的服务请求方法、装置及计算机设备
US20220284171A1 (en) Hierarchical structure learning with context attention from multi-turn natural language conversations
CN113051362A (zh) 数据的查询方法、装置和服务器
CN114840671A (zh) 对话生成方法、模型的训练方法、装置、设备及介质
CN112579733B (zh) 规则匹配方法、规则匹配装置、存储介质及电子设备
CN110457454A (zh) 一种对话方法、服务器、对话系统及存储介质
CN110727764A (zh) 一种话术生成方法、装置及话术生成设备
CN113051389A (zh) 知识推送方法及装置
US20210319481A1 (en) System and method for summerization of customer interaction
CN103474063B (zh) 语音辨识系统以及方法
CN109408679A (zh) 智能管理应用程序的方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination