CN108682421A - 一种语音识别方法、终端设备及计算机可读存储介质 - Google Patents

一种语音识别方法、终端设备及计算机可读存储介质 Download PDF

Info

Publication number
CN108682421A
CN108682421A CN201810309686.0A CN201810309686A CN108682421A CN 108682421 A CN108682421 A CN 108682421A CN 201810309686 A CN201810309686 A CN 201810309686A CN 108682421 A CN108682421 A CN 108682421A
Authority
CN
China
Prior art keywords
text
voice
adjusted
character types
content
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810309686.0A
Other languages
English (en)
Other versions
CN108682421B (zh
Inventor
周俊琨
曾永贵
陈浩
董攀
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN201810309686.0A priority Critical patent/CN108682421B/zh
Priority to PCT/CN2018/096263 priority patent/WO2019196238A1/zh
Publication of CN108682421A publication Critical patent/CN108682421A/zh
Application granted granted Critical
Publication of CN108682421B publication Critical patent/CN108682421B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明适用于信息处理技术领域,提供了一种语音识别方法、终端设备及计算机可读存储介质,其中,一种语音识别方法,通过在检测到向来电终端发送语音询问信息的预设操作时,接收来电终端根据语音询问信息返回的语音响应信息,从语音响应信息对应的语音内容文本中划分出待调整文本,基于来电终端的电话号码与待调整文本的内容类型,从预设数据库中确定参考文本,最后根据参考文本对待调整文本进行调整,得到目标信息,提高了语音识别的准确程度。

Description

一种语音识别方法、终端设备及计算机可读存储介质
技术领域
本发明属于信息处理技术领域,尤其涉及一种语音识别方法、终端设备及计算机可读存储介质。
背景技术
随着人工成本越来越高,为了降低客服业务部门的人力成本,许多电话客服业务都采用智能语音机器人为用户来电进行服务。
虽然现有的智能语音机器人能够根据用户的语音进行业务办理或者信息发送,但是在对用户的语音进行识别的过程中,如果语音内容中存在容易被混淆的音节,例如,数字的“1”和字母的“E”,则容易造成识别结果不准确的现象。
发明内容
有鉴于此,本发明实施例提供了一种语音识别方法、终端设备及计算机可读存储介质,以解决现有的语音识别技术中存在识别结果不准确的现象。
本发明实施例的第一方面提供了一种语音识别方法,包括:
若检测到向来电终端发送语音询问信息的预设操作,则接收所述来电终端根据所述语音询问信息返回的语音响应信息;
从所述语音响应信息对应的语音内容文本中划分出待调整文本;
基于所述来电终端的电话号码与所述待调整文本的内容类型,从预设数据库中确定参考文本,所述预设数据库中的数据用于描述所述电话号码、所述内容类型以及所述参考文本之间的对应关系;
根据所述参考文本对所述待调整文本进行调整,得到目标信息。
本发明实施例的第二方面提供了一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
若检测到向来电终端发送语音询问信息的预设操作,则接收所述来电终端根据所述语音询问信息返回的语音响应信息;
从所述语音响应信息对应的语音内容文本中划分出待调整文本;
基于所述来电终端的电话号码与所述待调整文本的内容类型,从预设数据库中确定参考文本,所述预设数据库中的数据用于描述所述电话号码、所述内容类型以及所述参考文本之间的对应关系;
根据所述参考文本对所述待调整文本进行调整,得到目标信息。
本发明实施例的第三方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
若检测到向来电终端发送语音询问信息的预设操作,则接收所述来电终端根据所述语音询问信息返回的语音响应信息;
从所述语音响应信息对应的语音内容文本中划分出待调整文本;
基于所述来电终端的电话号码与所述待调整文本的内容类型,从预设数据库中确定参考文本,所述预设数据库中的数据用于描述所述电话号码、所述内容类型以及所述参考文本之间的对应关系;
根据所述参考文本对所述待调整文本进行调整,得到目标信息。
实施本发明实施例提供的一种语音识别方法、终端设备及计算机可读存储介质具有以下有益效果:
本发明实施例通过在检测到向来电终端发送语音询问信息的预设操作时,接收来电终端根据语音询问信息返回的语音响应信息,从语音响应信息对应的语音内容文本中划分出待调整文本,基于来电终端的电话号码与待调整文本的内容类型,从预设数据库中确定参考文本,最后根据参考文本对待调整文本进行调整,得到目标信息,提高了语音识别的准确程度。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种语音识别方法的实现流程图;
图2是本发明另一实施例提供的一种语音识别方法的实现流程图;
图3是本发明另一实施例提供的一种语音识别方法S12具体实现流程图;
图4是本发明另一实施例提供的一种语音识别方法S13具体实现流程图;
图5是本发明另一实施例提供的一种语音识别方法S14具体实现流程图;
图6是本发明实施例提供的一种终端设备的结构框图;
图7是本发明另一实施例提供的一种终端设备的示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明实施例通过在检测到向来电终端发送语音询问信息的预设操作时,接收来电终端根据语音询问信息返回的语音响应信息,从语音响应信息对应的语音内容文本中划分出待调整文本,基于来电终端的电话号码与待调整文本的内容类型,从预设数据库中确定参考文本,最后根据参考文本对待调整文本进行调整,得到目标信息,解决了现有的语音识别技术中存在的识别结果不准确的问题。
在本发明的所有实施例中,语音识别方法的执行主体为服务器设备。该服务器设备包括但不限于:计算机,或者可以是具有数据处理能力的其他网络设备或通信设备等。图1示出了本发明实施例提供的语音识别方法的实现流程图,详述如下:
S11:若检测到向来电终端发送语音询问信息的预设操作,则接收所述来电终端根据所述语音询问信息返回的语音响应信息。
在步骤S11中,语音询问信息为预先录制到服务器中的语音内容,用于向来电终端对应的用户进行语音询问,其中语音询问的内容可以由运营商根据需求进行定制。语音响应信息为用户在接听到语音询问信息后,通过来电终端向服务器返回的语音信息。
在本实施例中,来电终端可以为移动终端或者非移动终端,如手机、平板电脑或者固定电话等。当来电终端与服务器之间建立了通话链路后,服务器向来电终端发送语音询问信息,再接收用户通过来电终端返回的语音响应信息。或者,当来电终端与服务器之间建立了通话链路后,用户向来电终端发送请求接收语音询问信息的指令,再由服务器根据该指令向来电终端发送语音询问信息,接收用户通过来电终端返回的语音响应信息。
至于何时会检测到向来电终端发送语音询问信息的预设操作,可以包括但不仅限于以下场景。
场景1:当检测到服务器与来电终端之间建立通话链路时,则触发服务器向来电终端发送语音询问信息的操作。
例如,用户通过终端向服务器发送通话请求,服务器根据该通话请求与终端建立通话链路,并触发向来电终端发送语音询问信息的操作,实现向终端发送语音询问信息。
场景2:在来电终端与服务器之间建立了通话链路后,用户向来电终端发送请求接收语音询问信息的指令,则根据该指令,触发服务器向来电终端发送语音询问信息的操作。
例如,终端与服务器之间建立通话链路后,用户在终端上触发请求发送指令,使终端向服务器发送请求接收语音询问信息的指令,进而触发服务器根据该请求接收语音询问信息的指令,向来电终端发送语音询问信息的操作,实现向终端发送语音询问信息。
可以理解的是,在实际应用中,可以通过语音录制的方式,将接收到的来电终端根据语音询问信息返回的语音响应信息,制作成语音响应文件,便于对其进行优化和识别。
S12:从所述语音响应信息对应的语音内容文本中划分出待调整文本。
在步骤S12中,语音响应信息对应的语音内容文本,是通过对语音响应信息进行文字转换得到。待调整文本为语音响应信息对应的语音内容文本中的部分或全部文本。
在本实施例中,可以通过调用预先配置好的待调整文本划分策略,对语音响应信息对应的语音内容文本进行划分,进而从中划分出待调整文本。其中,待调整文本划分策略可以包括多种策略,在实际应用中,可以根据语音响应信息对应的语音内容文本中包含的字符类型,制定对应的待调整文本划分策略。
S13:基于所述来电终端的电话号码与所述待调整文本的内容类型,从预设数据库中确定参考文本。
在步骤S13中,预设数据库中的数据用于描述电话号码、内容类型以及参考文本之间的对应关系。内容类型为待调整文本的内容类型,包括:单一字符类型或者混合字符类型,其中,单一字符类型指的是待调整文本的内容由同一种字符组成,混合字符类型指的是待调整文本的内容由至少两种字符组成。
例如,待调整文本的内容用于描述用户姓名,即该待调整文本的内容类型为文字,属于单一字符类型。
再例如,待调整文本的内容用于描述车牌号码,即该待调整文本的内容类型包括字母和数字,或者包括文字、字母以及数字,属于混合字符类型。
在本实施例中,预设数据库为用于存储用户信息的数据库,可以根据不同的电话号码,从预设数据库中确定出不同的用户信息,再根据内容类型从用户信息中确定出参考文本,其中,参考文本的内容类型与待调整文本的内容类型相同。
需要说明的是,存储在预设数据库中的用户信息,均可以通过电话号码搜索得到,其中,用户信息包括与用户相关的所有信息,例如,身份证号码、地址、车牌号码等。
S14:根据所述参考文本对所述待调整文本进行调整,得到目标信息。
在步骤S14中,参考文本是以电话号码与待调整文本的内容类型,作为索引,从预设数据库中查找得到的文本。
在本实施例中,参考文本的内容类型与待调整文本的内容类型相同,即组成参考文本的字符类型与组成待调整文本的字符类型相同。
以待调整文本为车牌号码为例,待调整文本的内容为“京A12345”,待调整文本的内容类型为混合字符类型,也即组成该待调整文本的字符类型包括文字、字母以及数字。基于来电终端的电话号码从预设数据库中确定出用户信息,再根据待调整文本的内容类型,从用户信息中确定出参考文本,由于待调整文本为车牌号码,则该待调整文本的内容类型为混合字符类型,因此,从用户信息中确定出的参考文本也应当为用户信息中的车牌号码,且该车牌号码中也应当包括文字、字母以及数字。
需要说明的是,根据参考文本对所述待调整文本进行调整,可以是基于参考文本中所包含的字符类型,不同字符类型进行分别进行比对和调整,进而得到目标信息。
以待调整文本的内容为“京AE2345”,参考文本的内容为“津A12345”,根据参考文本对待调整文本进行调整,得到的目标信息应当为“津A12345”。
以上可以看出,本发明实施例提供的一种语音识别方法,通过在检测到向来电终端发送语音询问信息的预设操作时,接收来电终端根据语音询问信息返回的语音响应信息,从语音响应信息对应的语音内容文本中划分出待调整文本,基于来电终端的电话号码与待调整文本的内容类型,从预设数据库中确定参考文本,最后根据参考文本对待调整文本进行调整,得到目标信息,提高了语音识别的准确程度。
图2示出了本发明另一实施例提供的一种语音识别方法的实现流程图。参见图2所示,相对于图1所述实施例,本实施例提供的一种语音识别方法中还包括S21、S201以及S22,具体详述如下:
进一步地,作为本发明另一实施例,从所述语音响应信息对应的语音内容文本中划分出待调整文本之前,还包括:
S21:获取所述语音询问信息的标识,所述标识用于区分所述语音响应信息对应的文本中所包含的字符类型。
S22:基于所述字符类型,从预设表单中确定出目标状态网络,所述预设表单中的数据用于描述所述字符类型与所述目标状态网络之间的对应关系;所述目标状态网络用于对所述语音响应信息进行文本转换,以得到所述语音信息对应的语音内容文本。
在本实施例中,由于语音询问信息为预先录制到服务器中的语音内容,因此,该语音内容可以确定,进而可以预测电终端根据该语音询问信息返回的语音响应信息对应的文本中所包含的字符类型。
例如,语音询问信息的内容为用于请求用户通过来电终端输入身份证号码,进而可以确定用户通过来电终端发送的语音响应信息,其对应的语音内容文本中必然是由数字组成的身份证号码,因此可以确定语音响应信息对应的语音内容文本中所包含的字符类型为数字。
再例如,语音询问信息的内容为用于请求用户通过来电终端输入车牌号码,进而可以确定用户通过来电终端发送的语音响应信息,其对应的语音内容文本中必然是由文字、字母以及数字组成的车牌号码,因此可以确定语音响应信息对应的语音内容文本中所包含的字符类型为文字、字母以及数字。
在本实施例中,通过预测来电终端根据语音询问信息返回的语音响应信息对应的文本中,包含的字符类型,可以对不同的语音询问信息配置不同的标识,进而区分语音响应信息对应的文本中所包含的字符类型。
在实际中,将语音信息转换为文本信息的过程中,可以通过调用音频分帧函数,例如,调用移动窗函数对语音文件进行分帧,得到多帧语音,再对每帧语音进行声学特征提取处理,将语音信息中的每一帧波形转化为一个多维向量,进而得到由多个多维向量组成的矩阵,其中,每个多维向量包含了对应语音帧的内容信息,在矩阵中,若干帧语音对应一个状态,每三个状态组合成一个音素,若干个音素组合成一个单词。当确定了语音中每帧语音对应的状态后,就能够根据状态、音素以及单词之间的关系,实现对语音内容的识别。
作为本实施例一种可能实现的方式,字符类型包括:文字类型、字母类型以及数字类型中的至少一种字符类型,不同字符类型对应不同的目标状态网络。如图2所示,在步骤S22之前,还可以包括与步骤S21并列的步骤S201,在本实施例中,步骤S21与步骤S201执行部分先后。
S201:创建与每种所述字符类型对应的状态网络,所述状态网络用于反映所述字符类型对应的语音响应信息被转换为所述语音内容文本的最佳路径。
在步骤S201中,状态网络是由单词级网络展开成音素网络,再将音素网络展开成状态网络。
在本实施例中,创建状态网络时,需要考虑不同字符类型对应的累积转换概率,其中,累积转换概率包括:观察概率、转移概率以及语言概率。
需要说明的是,观察概率指的是每帧语音和每个状态对应的概率,转移概率指的是每个状态转移到自身或转移到下个状态的概率,语言概率是通过语言统计规律得出的概率。观察概率和转移概率都可以通过输入预设的声学模型中得到,语言概率则可以通过输入预设的语言模型中得到,语言模型是使用大量的文本训练出来的,可以利用某门语言本身的统计规律来帮助提升识别正确率。
根据不同的字符类型创建不同的状态网络,使得在对语音信息进行文本转换时,可以根据预先配置好的标识区分字符类型,基于字符类型从预设表单中确定出目标状态网络,也即选择与语音信息对应的文本中所包含的字符类型相对应的目标状态网络,对语音信息进行文本转换,得到语音信息对应的语音内容文本。
本实施例通过获取语音询问信息的标识,以区分语音响应信息对应的文本中所包含的字符类型,通过创建与每种字符类型对应的状态网络,基于字符类型从预设表单中确定出目标状态网络,也即确定字符类型对应的语音响应信息被转换为语音内容文本的最佳路径,从而提高了语音信息转换成文本信息的转换效率。
图3示出了本发明另一实施例提供的一种语音识别方法S12的具体实现流程图。参见图3所示,基于上述各个实施例,本实施例提供的一种语音识别方法中S12包括S121、S122以及S123,具体详述如下:
S121:识别所述文本信息中包含的字符类型个数,所述字符类型个数大于或等于1。
S122:若所述字符类型个数等于1,则根据预设的关键字符划分所述文本信息,以得到所述待调整文本。
S123:若所述字符类型个数大于1,则将所述文本信息中字符类型不同的内容进行分别划分,以得到所述待调整文本。
在本实施例中,文本信息中包含的字符类型个数,用于反映文本信息的字符类型属于单一字符类型,或者混合字符类型。当文本信息中包含的字符类型个数等于1时,表示文本信息的字符类型属于单一字符类型;当文本信息中包含的字符类型个数大于1时,表示文本信息的字符类型属于混合字符类型。
当文本信息中包含的字符类型个数等于1时,通过识别语音内容文本中是否存在预设关键字,根据预设关键字在语音内容文本中的位置,对语音内容文本进行划分,进而得到待调整文本。
例如,语音内容文本为“广东省深圳市福田区”,预设关键字为“省”、“市”以及“区”,则根据预设关键字在语音内容文本中的位置,对语音内容文本进行划分,进而得到待调整文本为“广东省”、“深圳市”以及“福田区”。
需要说明的是,针对不同的预设关键字可以配置对应的文本组成字数。
例如,我国省份中,名字最长的省份名称的为“黑龙江省”,预设关键字为“省”,对应的文本组成字数为3。
再例如,我国城市中,名字最长的城市名称的为“呼和浩特市”,预设关键字为“市”,对应的文本组成字数为4。
当文本信息中包含的字符类型个数大于1时,将文本信息中字符类型不同的内容进行分别划分,以得到待调整文本。
例如,文本信息为“我的地址是广东省深圳市福田区”,根据预设的关键字符划分文本信息,以得到待调整文本为“广东省”、“深圳市”以及“福田区”。
再例如,文本信息为“我的车牌号码是京AE2345”,将文本信息中字符类型不同的内容进行分别划分,则得到的待调整文本包括“我的车牌号码是京”、“AE”以及“2345”。
通过确定语音信息对应的文本信息中包含的字符类型个数,进而根据字符类型个数的不同,确定不同的待调整文本的划分策略,避免在文本信息的构成元素较为单一时,采用较为复杂的方式进行待调整文本的划分,使得数据处理过程变得更加合理。
图4示出了本发明另一实施例提供的一种语音识别方法S13的具体实现流程图。
在本实施例中,待调整文本的内容类型包括文字类型、字母类型以及数字类型中的任一种字符类型。
参见图4所示,基于上述各个实施例,本实施例提供的一种语音识别方法中S13包括S131以及S132,具体详述如下:
S131:根据所述电话号码从预设数据库中获取目标用户信息。
S132:从所述目标用户信息中,确定出与所述待调整文本的内容类型相匹配的信息作为所述参考文本。
在本实施例中,目标用户信息与电话号码之间存在对应关系,以电话号码为索引可以从预设数据库中查找到对应的目标用户信息,其中,目标用户信息可以包括目标用户的多类信息,例如,身份证号码、车牌号码或者地址等。
需要说明的是,由于目标用户信息包含了用户的多类信息,因此当确定了目标用户信息后,并不能直接从中确定出参考文本。为了能够从目标用户信息中确定参考文本,通过识别测待调整文本的内容类型,再根据测待调整文本的内容类型,从目标用户信息中确定出与其相匹配的信息,并将该信息作为参考文本。
在本实施例中,根据电话号码从预设数据库中获取目标用户信息后,再根据测待调整文本的内容类型,从目标用户信息中确定出与其相匹配的信息,可以避免对目标用户信息中的所有信息进行一一筛选,提高了确定参考文本的速度。
图5示出了本发明另一实施例提供的一种语音识别方法S14的具体实现流程图。参见图5所示,基于上述各个实施例,本实施例提供的一种语音识别方法中S14包括S141以及S142,具体详述如下:
S141:从所述待调整文本中识别出与所述参考文本不同的目标内容。
S142:若所述目标内容为所述待调整文本的部分内容,则根据所述参考文本将所述部分内容进行替换,以得到目标信息。
在本实施例中,目标内容为待调整文本中,与参考文本内容不同的信息。通过比对待调整文本与参考文本,进而从待调整文本中确定出与参考文本不同的目标内容。
在实际中,虽然参考文本作为与待调整文本进行比对的文本,但是当语音响应信息对应的语音内容文本不包含目标用户信息时,则无需使用参考文本对待调整文本进行调整。
通过确定待调整文本中的目标内容是否为待调整文本的部分内容,能够在语音响应信息对应的语音内容文本中不包含目标用户信息时,避免对该语音内容文本对进行调整,进而防止语音转化过程中出现调整错乱或者文本转换错乱的现象。
以上可以看出,本发明实施例提供的一种语音识别方法,通过在检测到向来电终端发送语音询问信息的预设操作时,接收来电终端根据语音询问信息返回的语音响应信息,从语音响应信息对应的语音内容文本中划分出待调整文本,基于来电终端的电话号码与待调整文本的内容类型,从预设数据库中确定参考文本,最后根据参考文本对待调整文本进行调整,得到目标信息,提高了语音识别的准确程度。
通过创建与每种字符类型对应的状态网络,基于字符类型从预设表单中确定出目标状态网络,也即确定字符类型对应的语音响应信息被转换为语音内容文本的最佳路径,从而提高了语音信息转换成文本信息的转换效率。
图6示出了本发明实施例提供的一种终端设备的结构框图,该终端设备包括的各单元用于执行图2对应的实施例中的各步骤。具体请参阅图2与图2所对应的实施例中的相关描述。为了便于说明,仅示出了与本实施例相关的部分。
参见图6,所述终端设备包括:接收单元31、划分单元32、第一确定单元33以及调整单元34。具体地:
接收单元31用于,若检测到向来电终端发送语音询问信息的预设操作,则接收所述来电终端根据所述语音询问信息返回的语音响应信息。
划分单元32用于,从所述语音响应信息对应的语音内容文本中划分出待调整文本。
第一确定单元33用于,基于所述来电终端的电话号码与所述待调整文本的内容类型,从预设数据库中确定参考文本,所述预设数据库中的数据用于描述所述电话号码、所述内容类型以及所述参考文本之间的对应关系。
调整单元34用于,根据所述参考文本对所述待调整文本进行调整,得到目标信息。
进一步地,作为本实施例一种可能实现的方式,字符类型包括:文字类型、字母类型以及数字类型中的至少一种字符类型。终端设备还包括:获取单元301、创建单元302以及第二确定单元303。具体地:
获取单元301用于,获取所述语音询问信息的标识,所述标识用于区分所述语音响应信息对应的文本中所包含的字符类型。
创建单元302用于,创建与每种所述字符类型对应的状态网络,所述状态网络用于反映所述字符类型对应的语音响应信息被转换为所述语音内容文本的最佳路径。
第二确定单元303用于,基于所述字符类型,从预设表单中确定出目标状态网络,所述预设表单中的数据用于描述所述字符类型与所述目标状态网络之间的对应关系;所述目标状态网络用于对所述语音响应信息进行文本转换,以得到所述语音信息对应的语音内容文本。
进一步地,作为本实施例一种可能实现的方式,划分单元32具体用于,识别所述文本信息中包含的字符类型个数,所述字符类型个数大于或等于1;若所述字符类型个数等于1,则根据预设的关键字符划分所述文本信息,以得到所述待调整文本;若所述字符类型个数大于1,则将所述文本信息中字符类型不同的内容进行分别划分,以得到所述待调整文本。
作为本实施例一种可能实现的方式,待调整文本的内容类型包括文字类型、字母类型以及数字类型中的任一种字符类型。
进一步地,第一确定单元33具体用于,根据所述电话号码从预设数据库中获取目标用户信息;从所述目标用户信息中,确定出与所述待调整文本的内容类型相匹配的信息作为所述参考文本。
作为本实施例一种可能实现的方式,调整单元34具体用于,从所述待调整文本中识别出与所述参考文本不同的目标内容;若所述目标内容为所述待调整文本的部分内容,则根据所述参考文本将所述部分内容进行替换,以得到目标信息。
以上可以看出,本发明实施例的方案通过在检测到向来电终端发送语音询问信息的预设操作时,接收来电终端根据语音询问信息返回的语音响应信息,从语音响应信息对应的语音内容文本中划分出待调整文本,基于来电终端的电话号码与待调整文本的内容类型,从预设数据库中确定参考文本,最后根据参考文本对待调整文本进行调整,得到目标信息,提高了语音识别的准确程度。
通过创建与每种字符类型对应的状态网络,基于字符类型从预设表单中确定出目标状态网络,也即确定字符类型对应的语音响应信息被转换为语音内容文本的最佳路径,从而提高了语音信息转换成文本信息的转换效率。
图7是本发明另一实施例提供的一种终端设备的示意图。如图7所示,该实施例的终端设备7包括:处理器70、存储器71以及存储在所述存储器71中并可在所述处理器70上运行的计算机程序72,例如语音识别程序。所述处理器70执行所述计算机程序72时实现上述各个语音识别方法实施例中的步骤,例如图2所示的所有步骤。或者,所述处理器70执行所述计算机程序72时实现上述各装置实施例中各单元的功能,例如图6所示模块61至67功能。
示例性的,所述计算机程序72可以被分割成一个或多个单元,所述一个或者多个单元被存储在所述存储器71中,并由所述处理器70执行,以完成本发明。所述一个或多个单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序72在所述终端设备7中的执行过程。例如,所述计算机程序72可以被分割成接收单元、划分单元、第一确定单元以及调整单元各单元具体功能如上所述。
所述终端设备7可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述终端设备可包括,但不仅限于,处理器70、存储器71。本领域技术人员可以理解,图7仅仅是终端设备7的示例,并不构成对终端设备7的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述终端设备还可以包括输入输出设备、网络接入设备、总线等。
所称处理器70可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器71可以是所述终端设备7的内部存储单元,例如终端设备7的硬盘或内存。所述存储器71也可以是所述终端设备7的外部存储设备,例如所述终端设备7上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器71还可以既包括所述终端设备7的内部存储单元也包括外部存储设备。所述存储器71用于存储所述计算机程序以及所述终端设备所需的其他程序和数据。所述存储器71还可以用于暂时地存储已经输出或者将要输出的数据。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。

Claims (10)

1.一种语音识别方法,其特征在于,包括:
若检测到向来电终端发送语音询问信息的预设操作,则接收所述来电终端根据所述语音询问信息返回的语音响应信息;
从所述语音响应信息对应的语音内容文本中划分出待调整文本;
基于所述来电终端的电话号码与所述待调整文本的内容类型,从预设数据库中确定参考文本,所述预设数据库中的数据用于描述所述电话号码、所述内容类型以及所述参考文本之间的对应关系;
根据所述参考文本对所述待调整文本进行调整,得到目标信息。
2.根据权利要求1所述的语音识别方法,其特征在于,所述从所述语音响应信息对应的语音内容文本中划分出待调整文本之前,还包括:
获取所述语音询问信息的标识,所述标识用于区分所述语音响应信息对应的文本中所包含的字符类型;
基于所述字符类型,从预设表单中确定出目标状态网络,所述预设表单中的数据用于描述所述字符类型与所述目标状态网络之间的对应关系;所述目标状态网络用于对所述语音响应信息进行文本转换,以得到所述语音信息对应的语音内容文本。
3.根据权利要求2所述的语音识别方法,其特征在于,所述字符类型包括:文字类型、字母类型以及数字类型中的至少一种字符类型;
基于所述字符类型,从预设表单中确定出目标状态网络之前,还包括:
创建与每种所述字符类型对应的状态网络,所述状态网络用于反映所述字符类型对应的语音响应信息被转换为所述语音内容文本的最佳路径。
4.根据权利要求1所述的语音识别方法,其特征在于,所述从所述语音信息对应的文本信息中划分出待调整文本,包括:
识别所述文本信息中包含的字符类型个数,所述字符类型个数大于或等于1;
若所述字符类型个数等于1,则根据预设的关键字符划分所述文本信息,以得到所述待调整文本;
若所述字符类型个数大于1,则将所述文本信息中字符类型不同的内容进行分别划分,以得到所述待调整文本。
5.根据权利要求1所述的语音识别方法,其特征在于,所述待调整文本的内容类型包括文字类型、字母类型以及数字类型中的任一种字符类型;
所述基于所述来电终端的电话号码与所述待调整文本的内容类型,从预设数据库中确定参考文本,包括:
根据所述电话号码从预设数据库中获取目标用户信息;
从所述目标用户信息中,确定出与所述待调整文本的内容类型相匹配的信息作为所述参考文本。
6.根据权利要求1至5任一项所述的语音识别方法,其特征在于,所述根据所述参考文本对所述待调整文本进行调整,得到目标信息,包括:
从所述待调整文本中识别出与所述参考文本不同的目标内容;
若所述目标内容为所述待调整文本的部分内容,则根据所述参考文本将所述部分内容进行替换,以得到目标信息。
7.一种终端设备,其特征在于,所述终端设备包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如下步骤:
若检测到向来电终端发送语音询问信息的预设操作,则接收所述来电终端根据所述语音询问信息返回的语音响应信息;
从所述语音响应信息对应的语音内容文本中划分出待调整文本;
基于所述来电终端的电话号码与所述待调整文本的内容类型,从预设数据库中确定参考文本,所述预设数据库中的数据用于描述所述电话号码、所述内容类型以及所述参考文本之间的对应关系;
根据所述参考文本对所述待调整文本进行调整,得到目标信息。
8.根据权利要求7项所述的终端设备,其特征在于,所述从所述语音响应信息对应的语音内容文本中划分出待调整文本之前,还包括:
获取所述语音询问信息的标识,所述标识用于区分所述语音响应信息对应的文本中所包含的字符类型;
基于所述字符类型,从预设表单中确定出目标状态网络,所述预设表单中的数据用于描述所述字符类型与所述目标状态网络之间的对应关系;所述目标状态网络用于对所述语音响应信息进行文本转换,以得到所述语音信息对应的语音内容文本。
9.根据权利要求8项所述的终端设备,其特征在于,所述字符类型包括:文字类型、字母类型以及数字类型中的至少一种字符类型;
基于所述字符类型,从预设表单中确定出目标状态网络之前,还包括:
创建与每种所述字符类型对应的状态网络,所述状态网络用于反映所述字符类型对应的语音响应信息被转换为所述语音内容文本的最佳路径。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至5任一项所述方法的步骤。
CN201810309686.0A 2018-04-09 2018-04-09 一种语音识别方法、终端设备及计算机可读存储介质 Active CN108682421B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201810309686.0A CN108682421B (zh) 2018-04-09 2018-04-09 一种语音识别方法、终端设备及计算机可读存储介质
PCT/CN2018/096263 WO2019196238A1 (zh) 2018-04-09 2018-07-19 一种语音识别方法、终端设备及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810309686.0A CN108682421B (zh) 2018-04-09 2018-04-09 一种语音识别方法、终端设备及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN108682421A true CN108682421A (zh) 2018-10-19
CN108682421B CN108682421B (zh) 2023-04-14

Family

ID=63800836

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810309686.0A Active CN108682421B (zh) 2018-04-09 2018-04-09 一种语音识别方法、终端设备及计算机可读存储介质

Country Status (2)

Country Link
CN (1) CN108682421B (zh)
WO (1) WO2019196238A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110010131A (zh) * 2019-04-04 2019-07-12 深圳市语芯维电子有限公司 一种语音信息处理的方法和装置
CN111143525A (zh) * 2019-12-17 2020-05-12 广东广信通信服务有限公司 车辆信息获取方法、装置和智能移车系统
CN111667835A (zh) * 2020-06-01 2020-09-15 马上消费金融股份有限公司 语音识别方法、活体检测方法、模型训练方法及装置

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111782172B (zh) * 2020-06-24 2024-03-12 大众问问(北京)信息科技有限公司 一种信息展示方法和装置
CN112541774A (zh) * 2020-12-08 2021-03-23 四川众信佳科技发展有限公司 Ai质检方法,装置,系统,电子设备及存储介质
CN115171695A (zh) * 2022-06-29 2022-10-11 东莞爱源创科技有限公司 语音识别方法、装置、电子设备和计算机可读介质

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6366882B1 (en) * 1997-03-27 2002-04-02 Speech Machines, Plc Apparatus for converting speech to text
CN105810197A (zh) * 2014-12-30 2016-07-27 联想(北京)有限公司 语音处理方法、语音处理装置和电子设备
CN105869642A (zh) * 2016-03-25 2016-08-17 海信集团有限公司 一种语音文本的纠错方法及装置
CN105895103A (zh) * 2015-12-03 2016-08-24 乐视致新电子科技(天津)有限公司 一种语音识别方法及装置
CN106328145A (zh) * 2016-08-19 2017-01-11 北京云知声信息技术有限公司 语音修正方法及装置
CN106331392A (zh) * 2016-08-19 2017-01-11 美的集团股份有限公司 控制方法及控制装置
CN106340293A (zh) * 2015-07-06 2017-01-18 无锡天脉聚源传媒科技有限公司 一种音频数据识别结果的调整方法及装置
CN107045496A (zh) * 2017-04-19 2017-08-15 畅捷通信息技术股份有限公司 语音识别后文本的纠错方法及纠错装置
CN107293296A (zh) * 2017-06-28 2017-10-24 百度在线网络技术(北京)有限公司 语音识别结果纠正方法、装置、设备及存储介质
CN107731229A (zh) * 2017-09-29 2018-02-23 百度在线网络技术(北京)有限公司 用于识别语音的方法和装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8321277B2 (en) * 2008-06-18 2012-11-27 Nuance Communications, Inc. Method and system for voice ordering utilizing product information
US8756065B2 (en) * 2008-12-24 2014-06-17 At&T Intellectual Property I, L.P. Correlated call analysis for identified patterns in call transcriptions
CN112802459B (zh) * 2017-05-23 2024-06-18 创新先进技术有限公司 一种基于语音识别的咨询业务处理方法及装置

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6366882B1 (en) * 1997-03-27 2002-04-02 Speech Machines, Plc Apparatus for converting speech to text
CN105810197A (zh) * 2014-12-30 2016-07-27 联想(北京)有限公司 语音处理方法、语音处理装置和电子设备
CN106340293A (zh) * 2015-07-06 2017-01-18 无锡天脉聚源传媒科技有限公司 一种音频数据识别结果的调整方法及装置
CN105895103A (zh) * 2015-12-03 2016-08-24 乐视致新电子科技(天津)有限公司 一种语音识别方法及装置
CN105869642A (zh) * 2016-03-25 2016-08-17 海信集团有限公司 一种语音文本的纠错方法及装置
CN106328145A (zh) * 2016-08-19 2017-01-11 北京云知声信息技术有限公司 语音修正方法及装置
CN106331392A (zh) * 2016-08-19 2017-01-11 美的集团股份有限公司 控制方法及控制装置
CN107045496A (zh) * 2017-04-19 2017-08-15 畅捷通信息技术股份有限公司 语音识别后文本的纠错方法及纠错装置
CN107293296A (zh) * 2017-06-28 2017-10-24 百度在线网络技术(北京)有限公司 语音识别结果纠正方法、装置、设备及存储介质
CN107731229A (zh) * 2017-09-29 2018-02-23 百度在线网络技术(北京)有限公司 用于识别语音的方法和装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110010131A (zh) * 2019-04-04 2019-07-12 深圳市语芯维电子有限公司 一种语音信息处理的方法和装置
CN111143525A (zh) * 2019-12-17 2020-05-12 广东广信通信服务有限公司 车辆信息获取方法、装置和智能移车系统
CN111667835A (zh) * 2020-06-01 2020-09-15 马上消费金融股份有限公司 语音识别方法、活体检测方法、模型训练方法及装置

Also Published As

Publication number Publication date
WO2019196238A1 (zh) 2019-10-17
CN108682421B (zh) 2023-04-14

Similar Documents

Publication Publication Date Title
CN108682421A (zh) 一种语音识别方法、终端设备及计算机可读存储介质
US10397402B1 (en) Cross-linking call metadata
US8320886B2 (en) Integrating mobile device based communication session recordings
US9542074B2 (en) Method and apparatus for enhancing an interactive voice response (IVR) system
US8938388B2 (en) Maintaining and supplying speech models
WO2018045915A1 (zh) 调整业务语音播放顺序的方法及设备
CN103078995A (zh) 一种在移动终端使用的可定制的个性化应答方法和系统
CN110381221B (zh) 呼叫处理方法、装置、系统、设备和计算机存储介质
CN108388674A (zh) 用于推送信息的方法和装置
CN101682673A (zh) 自动话务员语法调整
CN109327627A (zh) 基于区块链的电话号码识别方法、装置及存储介质
CN110809095A (zh) 语音外呼的方法和装置
CN105162977A (zh) 说辞推荐方法和装置
CN110708430A (zh) 一种通话管理方法、通信终端及存储介质
US11930051B2 (en) Network service system, computer storage medium for communication, and network service method
WO2019207379A1 (en) System and method for providing a response to a user query using a visual assistant
CN109145050B (zh) 一种计算设备
CN110113501A (zh) 任务下发方法、装置、计算机设备及存储介质
US9264870B2 (en) Mobile terminal, server and calling method based on cloud contact list
JP2023076430A (ja) プログラム、情報処理システム及び情報処理方法
CN112954103B (zh) 一种呼叫通话方法、装置、存储介质及固定电话
KR20050034680A (ko) 문자메시지를 이용한 전화번호안내시스템
CN114222028A (zh) 语音识别方法、装置、计算机设备和存储介质
CN111179921A (zh) 数字信息的处理方法、移动终端以及计算机存储介质
US11212381B2 (en) Methods and systems for short code voice dialing

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant