CN107180634A - 一种语音交互文本的业务定位方法、装置和终端设备 - Google Patents

一种语音交互文本的业务定位方法、装置和终端设备 Download PDF

Info

Publication number
CN107180634A
CN107180634A CN201710478050.4A CN201710478050A CN107180634A CN 107180634 A CN107180634 A CN 107180634A CN 201710478050 A CN201710478050 A CN 201710478050A CN 107180634 A CN107180634 A CN 107180634A
Authority
CN
China
Prior art keywords
text
pronunciation
interactive voice
business
coded strings
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710478050.4A
Other languages
English (en)
Inventor
胡伟凤
高雪松
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hisense Group Co Ltd
Original Assignee
Hisense Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hisense Group Co Ltd filed Critical Hisense Group Co Ltd
Priority to CN201710478050.4A priority Critical patent/CN107180634A/zh
Publication of CN107180634A publication Critical patent/CN107180634A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0638Interactive procedures

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明公开了一种语音交互文本的业务定位方法、装置和终端设备,属于语音交互处理领域。该方法包括:识别用户输入的语音数据,得到用户以语音方式输入的语音交互文本;若终端设备根据语音交互文本无法进行业务定位,则获取预设文本库中与语音交互文本之间的文本相似度大于第一预设阈值的至少一个预设文本;计算预设文本的发音元素串与语音交互文本的发音元素串之间的发音相似度;将发音相似度为最大值的预设文本对应的业务定位,确定为所述语音交互文本的业务定位;解决了实际应用中,由于受到用户所处环境的噪音、用户的方言口语等因素的影响,导致终端设备无法根据用户输入的语音交互文本进行控制业务定位。

Description

一种语音交互文本的业务定位方法、装置和终端设备
技术领域
本发明涉及语音交互处理领域,特别涉及一种语音交互文本的业务定位方法、装置和终端设备。
背景技术
近几年随着科技的飞速发展,语音识别控制技术已逐渐应用在各种终端设备上。用户可通过终端设备上配置的语音识别装置对终端设备进行声控,这为终端设备的控制技术带来了新的变革。目前,语音控制已经成为终端设备的一种主流控制方式。
以电视机为例,通常,电视机配置有语音应用程序,比如语音助手等,用户通过语音助手进行语音输入,电视机对用户的语音输入进行识别得到文本之后,在显示界面上显示该文本,进而电视机根据该文本生成其对应的控制指令,执行该控制指令以实现电视机的语音控制。
已有技术中,终端设备根据用户输入的语音数据,识别得到用户输入的语音交互文本,进而终端根据该语音交互文本进行控制业务的定位。但是,在实际的使用过程中,由于受到用户所处环境的噪音、用户的方言口语等因素的影响,导致终端设备根据用户输入的语音数据,识别得到用户输入的语音交互文本并不是用户的真实意图,或者由于用户不知道如何进行正确表达导致其输入的语音交互文本为错误文本,进而导致终端设备无法根据该语音交互文本进行控制业务定位,终端设备只能够返回错误页面或者引导用户进行多轮交互,降低了语音交互在终端设备上的用户体验。
发明内容
为了解决在实际应用中,由于受到用户所处环境的噪音、用户的方言口语等因素的影响,导致终端设备无法根据用户输入的语音交互文本进行控制业务定位,本发明实施例提供一种语音交互文本的业务定位方法和装置,旨在提高语音交互在终端设备上的用户体验。所述技术方案如下:
第一方面,提供了一种语音交互文本的业务定位方法,所述方法包括:
识别用户输入的语音数据,得到用户以语音方式输入的语音交互文本;
若终端设备根据所述语音交互文本无法进行业务定位,则获取预设文本库中与所述语音交互文本之间的文本相似度大于第一预设阈值的至少一个预设文本;
计算所述预设文本的发音元素串与所述语音交互文本的发音元素串之间的发音相似度;
将所述发音相似度为最大值的所述预设文本对应的业务定位,确定为所述语音交互文本的业务定位。
第二方面,提供了一种语音交互文本的业务定位装置,所述装置包括:
识别模块,用于识别用户输入的语音数据,得到用户以语音方式输入的语音交互文本;
获取模块,用于若终端设备根据所述语音交互文本无法进行业务定位,则获取预设文本库中与所述语音交互文本之间的文本相似度大于第一预设阈值的至少一个预设文本;
计算模块,用于计算所述预设文本的发音元素串与所述语音交互文本的发音元素串之间的发音相似度;
确定模块,用于将所述发音相似度为最大值的所述预设文本对应的业务定位,确定为所述语音交互文本的业务定位。
第三方面,本发明实施例提供一种终端设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
识别用户输入的语音数据,得到用户以语音方式输入的语音交互文本;
若终端设备根据所述语音交互文本无法进行业务定位,则获取预设文本库中与所述语音交互文本之间的文本相似度大于第一预设阈值的至少一个预设文本;
计算所述预设文本的发音元素串与所述语音交互文本的发音元素串之间的发音相似度;
将所述发音相似度为最大值的所述预设文本对应的业务定位,确定为所述语音交互文本的业务定位。
本发明实施例提供的技术方案带来的有益效果是:
若终端设备根据用户输入的语音交互文本无法进行业务定位时,分别计算对该语音交互文本进行相似性检索后得到的每个预设文本的发音元素串,与该语音交互文本的发音元素串之间的发音相似度,将发音相似度为最大值的预设文本对应的业务定位,确定为该语音交互文本的业务定位,由于文本中的字符是由发音元素或者发音元素串构成,计算预设文本的发音元素串与语音交互文本的发音元素串之间的相似度,相当于计算预设文本与语音交互文本之间的相似度;因此解决了在实际应用中,由于受到用户所处环境的噪音、用户的方言口语等因素的影响,导致终端设备无法根据用户输入的语音交互文本进行控制业务定位的问题;避免了终端设备无法根据用户输入的语音交互文本进行控制业务定位,只能够返回错误页面或者引导用户进行多轮交互,提高了语音交互在终端设备上的用户体验;而且预设文本的发音元素串与语音交互文本的发音元素串之间的相似度越大,预设文本对应的业务定位与语音交互文本对应的业务定位就越接近,终端返回的业务定位结果越接近用户的真实意图,可以一定程度上避免终端在无法根据用户输入的语音交互文本进行控制业务定位时,返回错误结果,有助于改善终端设备的产品体验。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一个实施例提供的语音交互文本的业务定位方法的方法流程图;
图2是本发明另一个实施例提供的语音交互文本的业务定位方法的方法流程图;
图3是本发明再一个实施例提供的语音交互文本的业务定位方法的方法流程图;
图4A是本发明又一个实施例提供的语音交互文本的业务定位方法的方法流程图;
图4B是本发明一个实施例提供的基于发音编码的相似性检索的方式检索交互文本对应的预设文本方法的方法流程图;
图4C是本发明一个实施例提供的计算预设文本对应的发音编码串与交互文本的发音编码串之间的相似度方法的方法流程图;
图5是本发明一个实施例中提供的语音交互文本的业务定位装置的结构方框图;
图6是本发明部分实施例中提供的终端设备的结构方框图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
实施例一
相对于传统的文本输入方式,语音识别所实现的语音输入方式更符合人们的日常习惯,使得用户的输入过程更为高效。但是,在实际的使用过程中,由于受到用户所处环境的噪音、用户的方言口语等因素的影响,导致终端设备根据用户输入的语音数据,识别得到用户输入的语音交互文本并不是用户的真实意图,或者由于用户不知道如何进行正确表达导致其输入的语音交互文本为错误文本,进而导致终端设备无法根据该语音交互文本进行控制业务定位。
请参考图1,其示出了本发明一个实施例提供的语音交互文本的业务定位方法的流程图。该语音交互文本的业务定位方法可以包括如下步骤:
步骤101,识别用户输入的语音数据,得到用户以语音方式输入的语音交互文本。
可选的,利用大量的语音数据和语音数据对应的语音文本来训练声学模型(比如GMM-HMM模型、DNN-HMM模型和RNN+CTC模型),当声学模型训练成熟后,接收用户输入的语音数据,利用训练好的声学模型对语音数据进行识别,得到用户以语音方式输入的语音交互文本。
步骤102,若终端设备根据语音交互文本无法进行业务定位,则获取预设文本库中与语音交互文本之间的文本相似度大于第一预设阈值的至少一个预设文本。
可选的,若根据语音交互文本在终端设备的资源库中的检索结果为空,则获取预设文本库中与语音交互文本之间的文本相似度大于第一预设阈值的至少一个预设文本。
终端得到用户以语音方式输入的语音交互文本后,以该语音交互文本作为检索条件,在终端设备的资源库中进行检索,若得到的检索结果为空,则说明终端设备根据语音交互文本无法进行业务定位。
当然,终端设备也可以根据其他方式,判断是否可以根据语音交互文本进行业务定位,示例的,可以采用基于知识图谱的业务定位方法或者基于正则表达式的业务模板的业务定位方法等,判断是否可以根据语音交互文本进行业务定位,本发明实施例在此做具体限定。并且,本发明实施例对终端设备判断是否可以根据语音交互文本进行业务定位的方法不做累述,本领域技术人员可参考现有技术。
若终端设备根据语音交互文本无法进行业务定位,则对语音交互文本进行相似性检索,获取文本库中与语音交互文本之间的文本相似度大于第一预设阈值的至少一个预设文本。
本实施例中,该相似性检索的检索方式分为基于文本的相似性检索、基于发音元素的相似性检索和基于发音编码的相似性检索。其中,基于文本的相似性检索,是指对语音交互文本进行分词后,对语音交互文本包括的每个分词分别进行相似性检索;基于发音元素的相似性检索,是指在对语音交互文本进行分词的基础上,获取每个分词分别对应的分词发音元素串,对每个分词发音元素分别进行相似性检索;基于发音编码的相似性检索,是指获取语音交互文本的发音元素串后,将发音元素串转换为发音编码串,对发音编码串进行切分后,对发音编码串包括的每位发音编码分别进行相似性检索。
可选的,为了避免预设的文本库中存储的文本的数量较大,导致终端设备获取语音交互文本所需花费的时长较长,降低相似性检索的效率,该文本库可以仅包括高热度文本、高使用频率文本、高搜索频率文本。其中,文本库中存储的文本可由技术人员设置。
需要说明的是,该语音交互文本和预设文本的文本语言可以为汉字、英文或者其他国家的语言,本实施例不对语音交互文本和预设文本的文本语言作具体限定。
步骤103,计算预设文本的发音元素串与语音交互文本的发音元素串之间的发音相似度。
文本由字符组成,字符由发音元素构成。发音元素即为音素,是语音中的最小的单位,也就是说,计算两个文本的发音元素串的相似度,实则是计算两个文本之间的相似度。
当字符为汉字时,发音元素为汉语拼音。比如,当文本为“好声音”时,组成该文本的字符为“好”、“声”、“音”三个字符,构成字符“好”的发音元素串为“hao”,构成字符“声”的发音元素串为“sheng”,构成字符“音”的发音元素串为“yin”,也就是说,文本为“好声音”的发音元素串为“hao sheng yin”。
相似度的计算可以通过最长公共子串、最长公共子序列、最少编辑距离法、汉明距离、余弦值、编辑距离等手段实现,在本实施例中以编辑距离为例计算预设文本的发音元素串与语音交互文本的发音元素串之间的发音相似度,这并不对本实施例中所可能采用的相似度的计算方式做任何限制。
编辑距离是指两个字符串之间,由一个字符串转成另一个字符串所需的最少编辑操作次数,其中,编辑操作包括字符的替换,字符的插入和字符的删除。一般来说,两个字符串之间的编辑距离越小,说明这两个字符串的相似度越大,两个字符串的相似度越大,说明这两个字符串越相似。
步骤104,将发音相似度为最大值的预设文本对应的业务定位,确定为语音交互文本的业务定位。
若某一预设文本的发音元素串与语音交互文本的发音元素串之间的相似度越大,说明该预设文本与该语音交互文本的相似度越高,则该预设文本代表的业务定位为用户真实意图的可能性越高,因此,终端设备可以将发音相似度为最大值的预设文本对应的业务定位,确定为语音交互文本的业务定位。
综上所述,本发明实施例提供的语音交互文本的业务定位方法,在终端设备根据用户输入的语音交互文本无法进行业务定位时,分别计算对该语音交互文本进行相似性检索后得到的每个预设文本的发音元素串,与该语音交互文本的发音元素串之间的发音相似度,将发音相似度为最大值的预设文本对应的业务定位,确定为该语音交互文本的业务定位,由于文本中的字符是由发音元素或者发音元素串构成,计算预设文本的发音元素串与语音交互文本的发音元素串之间的相似度,相当于计算预设文本与语音交互文本之间的相似度;因此解决了在实际应用中,由于受到用户所处环境的噪音、用户的方言口语等因素的影响,导致终端设备无法根据用户输入的语音交互文本进行控制业务定位的问题;避免了终端设备无法根据用户输入的语音交互文本进行控制业务定位,只能够返回错误页面或者引导用户进行多轮交互,提高了语音交互在终端设备上的用户体验;而且预设文本的发音元素串与语音交互文本的发音元素串之间的相似度越大,预设文本对应的业务定位与语音交互文本对应的业务定位就越接近,终端返回的业务定位结果越接近用户的真实意图,可以一定程度上避免终端在无法根据用户输入的语音交互文本进行控制业务定位时,返回错误结果,有助于改善终端设备的产品体验。
实施例二
当用户以语音方式输入的语音交互文本自身存在错误(比如:文本中部分字词错误、文本中缺字少词、文本中多字添词、文本中字词顺序颠倒)时,终端可采用基于文本的相似性检索的方式检索语音交互文本对应的预设文本,以使检索出的预设文本中尽可能包含用户本意想输入的正确文本,进而基于该预设文本对应的业务定位,确定用户输入的语音交互文本的业务定位,保证终端返回的业务定位结果接近用户的真实意图,可以一定程度上避免终端在无法根据用户输入的语音交互文本进行控制业务定位时,返回错误结果,有助于改善终端设备的产品体验。
请参考图2,其示出了本发明另一个实施例提供的语音交互文本的业务定位方法的流程图。该语音交互文本的业务定位方法可以包括如下步骤:
步骤201,识别用户输入的语音数据,得到用户以语音方式输入的语音交互文本。
步骤202,若根据语音交互文本在终端设备的资源库中的检索结果为空,则则根据交互文本所包括的交互文本分词,获取文本库中包含至少一个交互文本分词的文本。
示例的,以语音交互文本为“中国新声音”为例,语音交互文本的分词结果分别为“中国”、“新”、“声音”,终端获取的预设文本可以仅包括“中国”或“新”或“声音”,可以同时包括“中国”和“新”,或者同时包括“中国”和“声音”,或者同时包括“新”和“声音”,也可以同时包括“中国”、“新”、“声音”。
对于语音交互文本中部分字词错误的情况,由于终端对语音交互文本进行分词后所得到的各个分词中,一般包括至少一个语音交互文本中部分正确字词的分词,因此终端所获取包含至少一个语音交互文本中正确字词的分词的文本中,通常包括用户本意想输入的仅包括正确字词的文本。
对于语音交互文本中缺字少词的情况,由于终端所获取包含至少一个语音交互文本分词的文本中,通常存在包括语音交互文本中全部语音交互文本分词的文本,该文本的文本长度可能比语音交互文本的文本长度长,也可能比语音交互文本的文本长度短,在文本长度可能比语音交互文本的文本长度长的文本中,通常包括用户本意想输入的未缺字少词的文本。
对于语音交互文本中多字添词的情况,由于终端所获取包含至少一个语音交互文本分词的文本中,通常存在包括语音交互文本中全部语音交互文本分词的文本,该文本的文本长度可能比语音交互文本的文本长度长,也可能比语音交互文本的文本长度短,在文本长度可能比语音交互文本的文本长度短的文本中,通常包括用户本意想输入的未多字添词的文本。
对于语音交互文本中字符顺序颠倒的情况,终端所获取包含至少一个语音交互文本分词的文本中,通常存在包括语音交互文本中全部语音交互文本分词的文本,由于语音交互文本分词不同的组合顺序所组成的文本不同,因此包括语音交互文本中全部语音交互文本分词的文本的数量可能为多个,在这类文本中通常包括用户本意想输入的未顺序颠倒的文本。
步骤203,在获取的文本中,选取文本长度与语音交互文本的文本长度的差值不超过第三预设阈值的文本,作为与语音交互文本对应的至少一个预设文本。
由于预设文本的文本长度与语音交互文本的文本长度相差越大,亦可以说明预设文本与语音交互文本之间的文本相似度越低,因此当终端采用基于文本的相似性检索的方式检索语音交互文本对应的预设文本时,“获取文本库中与语音交互文本之间的文本相似度大于第一预设阈值的至少一个预设文本”可被替换为“在获取的文本中,选取文本长度与语音交互文本的文本长度的差值不超过第三预设阈值的文本,作为与语音交互文本对应的至少一个预设文本”。
另外,为了避免终端将文本长度与语音交互文本的文本长度偏差较大的文本作为语音交互文本对应的预设文本之一,增加终端不必要的计算量,降低语音识别的效率,设置第三预设阈值的另一个目的在于,在终端计算发音相似度之前,剔除与语音交互文本的文本相似度较低的预设文本,减少终端不必要的计算量,提高语音识别纠错的效率。
比如,语音交互文本为5个字符,第三预设阈值为1个字符,那么,终端在获取的文本中,选取文本长度在4个字符至6个字符之间的文本,作为与语音交互文本对应的至少一个预设文本。
需要说明的是,该第三预设阈值可以人为设置也可以系统预设,本实施例并不限定第三预设阈值的具体设置方式。
步骤204,计算预设文本的发音元素串与语音交互文本的发音元素串之间的发音相似度。
步骤205,将发音相似度为最大值的预设文本对应的业务定位,确定为语音交互文本的业务定位。
需要说明的是,本实施例中步骤201与步骤101类似、步骤204至步骤205与步骤103至步骤104类似,因此本实施例不再对步骤201、步骤204以及步骤205赘述说明。
综上所述,本发明实施例提供的语音交互文本的业务定位方法,采用基于文本的相似性检索的方式检索语音交互文本对应的预设文本,以使检索出的预设文本中尽可能包含用户本意想输入的正确文本,提高基于预设文本对应的业务定位确定语音交互文本对应的业务定位的准确度,保证终端返回的业务定位结果接近用户的真实意图,可以一定程度上避免终端在无法根据用户输入的语音交互文本进行控制业务定位时,返回错误结果,有助于改善终端设备的产品体验。
实施例三
当由于用户以语音方式输入的语音交互文本与用户真实想输入的文本发音相同但字符不同,导致终端识别出的文本产生偏差,进而导致终端设备无法根据该语音交互文本进行控制业务定位,终端可采用基于发音元素的相似性检索的方式检索语音交互文本对应的预设文本,以使检索出的预设文本中尽可能包含用户本意想输入的正确文本,进而基于该预设文本对应的业务定位,确定用户输入的语音交互文本的业务定位,保证终端返回的业务定位结果接近用户的真实意图,可以一定程度上避免终端在无法根据用户输入的语音交互文本进行控制业务定位时,返回错误结果,有助于改善终端设备的产品体验。
请参考图3,其示出了本发明再一个实施例提供的语音交互文本的业务定位方法的方法流程图。该语音交互文本的业务定位方法可以包括如下步骤:
步骤301,识别用户输入的语音数据,得到用户以语音方式输入的语音交互文本。
步骤302,若终端设备根据所述语音交互文本无法进行业务定位,则获取语音交互文本所包括的语音交互文本分词分别对应的分词发音元素串。
比如:语音交互文本“中国新声音”所包括的语音交互文本分词分别为“中国”、“新”、“声音”,则该语音交互文本分词对应的分词发音元素串分别为“zhong guo”、“xin”、“sheng yin”。
步骤303,根据语音交互文本的发音元素串所包括的分词发音元素串,获取文本库中对应的发音元素串包含至少一个分词发音元素串的文本。
可选的,预设的文本库存储的文本与发音元素串的对应关系以列表的方式存储在该预设的文本库中。
比如,分词发音元素串分别为“zhong guo”、“xin”、“sheng yin”,终端所获取的预设文本的发音元素串可以仅包括“zhong guo”或“xin”或“sheng yin”,可以同时包括“zhong guo”和“xin”,或者同时包括“zhong guo”和“sheng yin”,或者同时包括“xin”和“sheng yin”,也可以同时包括“zhong guo”、“xin”、“sheng yin”。
对于终端进行语音识别后得到的预设文本与用户本意想输入的文本发音相同文字符不同的情况,由于一个发音元素可能对应多个不同的字符,也就是说,终端获取的是包含至少一个分词发音元素串的发音元素串对应的预设文本可能有多个,因此,在终端所获取的对应的发音元素串包含至少一个分词发音元素串的预设文本中,极大可能包括用户本意想输入的与语音交互文本发音相同字符不同的文本。
步骤304,在获取的文本中,选取对应的发音元素串的元素串长度与语音交互文本的发音元素串的元素串长度的差值不超过第四预设阈值的文本,作为与语音交互文本对应的至少一个预设文本。
由于预设文本的发音元素串的元素串长度与语音交互文本的发音元素串的元素串长度相差越大,亦可以说明预设文本与语音交互文本之间的文本相似度越低,因此当终端采用基于发音元素的相似性检索的方式检索语音交互文本对应的预设文本时,“获取文本库中与语音交互文本之间的文本相似度大于第一预设阈值的至少一个预设文本”可被替换为“在获取的文本中,选取对应的发音元素串的元素串长度与语音交互文本的发音元素串的元素串长度的差值不超过第四预设阈值的文本,作为与语音交互文本对应的至少一个预设文本”。
另外,为了避免终端将对应的发音元素串的元素串长度与语音交互文本的发音元素串的元素串长度的文本作为语音交互文本对应的预设文本之一,增加终端不必要的计算量,降低语音识别的效率,设置第四预设阈值的另一个目的在于,在终端计算发音相似度之前,剔除与语音交互文本的文本相似度较低的预设文本,减少终端不必要的计算量,提高语音识别纠错的效率。
比如,语音交互文本的的发音元素串的元素串长度为15,第四预设阈值为5,那么,终端在获取的文本中,选取对应的发音元素串的元素串长度在10至20之间的文本,作为与语音交互文本对应的至少一个预设文本。
需要说明的是,该第四预设阈值可以人为设置也可以系统预设,本实施例并不限定第四预设阈值的具体设置方式。
步骤305,计算预设文本的发音元素串与语音交互文本的发音元素串之间的发音相似度。
步骤306,将发音相似度为最大值的预设文本对应的业务定位,确定为语音交互文本的业务定位。
需要说明的是,本实施例中步骤301与步骤101类似、步骤304至步骤305与步骤103至步骤104类似,因此本实施例不再对步骤301、步骤304至步骤305赘述说明。
综上所述,本实施例中,终端可采用基于发音元素的相似性检索的方式检索语音交互文本对应的预设文本,以使检索出的预设文本中尽可能包含用户本意想输入的正确文本,提高基于预设文本对应的业务定位确定语音交互文本对应的业务定位的准确度,保证终端返回的业务定位结果接近用户的真实意图,可以一定程度上避免终端在无法根据用户输入的语音交互文本进行控制业务定位时,返回错误结果,有助于改善终端设备的产品体验。
实施例四
当用户输入的语音数据存在偏差(比如用户前后鼻音不分,或者用户用方言进行语音输入,或者用户平舌音翘舌音不分,造成用户语音数据输入的词语中部分词语的读音出现错误),导致终端识别出的语音交互文本产生偏差时,终端可采用基于发音编码的相似性检索的方式检索语音交互文本对应的预设文本,以使检索出的预设文本中尽可能包含用户本意想输入的正确文本,进而基于该预设文本对应的业务定位,确定用户输入的语音交互文本的业务定位,保证终端返回的业务定位结果接近用户的真实意图,可以一定程度上避免终端在无法根据用户输入的语音交互文本进行控制业务定位时,返回错误结果,有助于改善终端设备的产品体验。
请参考图4A,其示出了本发明又一个实施例提供的语音交互文本的业务定位方法的方法流程图。该语音交互文本的业务定位方法可以包括如下步骤:
步骤401,识别用户输入的语音数据,得到用户以语音方式输入的语音交互文本。
步骤402,若终端设备根据所述语音交互文本无法进行业务定位,则根据语音交互文本的发音元素串对应的发音编码串所包括的发音子编码串,获取文本库中对应的发音编码串包含至少一个发音子编码串的预设文本。
在一种可能实现的方式中,步骤402可被步骤402a至步骤402c替代,请参考图4B,其示出了本发明一个实施例提供的基于发音编码的相似性检索的方式检索语音交互文本对应的预设文本方法的方法流程图。
步骤402a,若终端设备根据所述语音交互文本无法进行业务定位,则根据预存的声母、韵母以及元辅音分别与编码的对应关系,确定语音交互文本的发音元素串所对应的发音编码串。
该语音交互文本的语言类型为汉字,该语音交互文本的发音元素串为汉语拼音。
由于不同的字符对应的发音元素的长度可能不同,因此不同的字符组成的文本的发音元素串的元素串长度也可能不同。以编辑距离为例,计算每个预设文本的发音元素串与语音交互文本的发音元素串之间的相似度,由于编辑距离是指两个字符串之间,由一个字符串转成另一个字符串所需的最少编辑操作次数,因此,在计算每个预设文本的发音元素串与语音交互文本的发音元素串之间的相似度时,相比计算两个元素串长度较短的发音元素串之间的相似度,终端计算两个元素串长度较长的发音元素串之间的相似度所需要的计算量更大。
由于汉语拼音的发音音节均由声母、韵母和元辅音构成,若将声母、韵母和元辅音分别用一位发音编码代替,那么每个字符可用至少两位编码来表示(部分字符的发音元素不包括元辅音,比如“好”),显然,相较于汉语拼音,采用发音编码表示字符的方式可以大大降低终端的计算量,因此根据预存的声母、韵母以及元辅音分别与编码的对应关系,可将语音交互文本的发音元素串转换为发音编码,提高终端语音识别的效率。
优选的,由于部分字符的发音元素不包括元辅音,即存在两位发音编码,为了避免因发音编码的位数不同,而影响后续将发音编码串转换成文本时,终端无法判定编码串中每个字符所对应的发音编码串是三位还是两位,导致终端将发音编码串转换成文本产生错误。本实施例中,将不包括元辅音(即元辅音为空)的字符的元辅音用预定发音编码表示(比如0,v,#)。
本实施例中,每个三位发音编码串中第一位发音编码为声母,第二位发音编码为元辅音,第三位发音编码为韵母进行举例说明。虽然本实施例并不限定三位发音编码串中各个发音编码的排列顺序,但各个字符对应的三位发音编码串之间的排列顺序需一致。
表1是一种可能声母、韵母以及元辅音分别与编码的对应关系表。
b:1 q:D a:O ie:a
p:2 x:E o:P ve:b
m:3 zh:F e:Q er:c
f:4 z:G i:R an:d
d:5 c:H u:S en:e
t:6 ch:I v:T in:f
n:7 sh:J ai:U un:g
l:8 s:K ei:V uen:h
g:9 r:L ui:W ang:i
k:A y:M ao:X eng:j
h:B w:N ou:Y ing:k
j:C 元辅音为空:0 iu:Z ong:l
表1
比如,根据表1所示的对应关系,字符“中”对应的三位发音编码串为“F0l”,字符“国”对应的三位发音编码串为“9SP”,字符串“中国新歌声”对应的十五位发音编码串为“F0l 9SP E0f 90Q J0j”。
可选的,对于因用户对部分词语的读音错误导致终端识别出的文本产生偏差的情况,本实施例可将口语发音相似的声母、韵母对应于同一发音编码(比如:对于前后鼻音不分的情况,可将“in”和“ing”对应于同一发音编码,对于平舌音翘舌音不分的情况,可将“zh”和“z”对应于同一发音编码),来扩大终端进行相似性检索的范围,进而基于该预设文本对应的业务定位,确定用户输入的语音交互文本的业务定位,保证终端返回的业务定位结果接近用户的真实意图,可以一定程度上避免终端在无法根据用户输入的语音交互文本进行控制业务定位时,返回错误结果,有助于改善终端设备的产品体验。
表2是另一种可能声母、韵母以及元辅音分别与编码的对应关系表。
b:1 q:D a:O ie:a
p:2 x:E o:P ve:b
m:3 zh:F e:Q er:c
f:4 z:F i:R an:d
d:5 c:H u:S en:e
t:6 ch:H v:T in:f
n:7 sh:J ai:O un:g
l:7 s:J ei:V uen:h
g:9 r:L ui:W ang:d
k:A y:M ao:O eng:e
h:4 w:N ou:Y ing:e
j:C iu:Z ong:P
表2
比如,根据表2所示的对应关系,字符“中”对应的三位发音编码串为“F0P”,字符“宗”对应的三位发音编码串为“F0P”,字符串“中国新歌声”对应的十五位发音编码串为“F0l 9SP E0f j0e M0f”,字符串“宗苟好森一”对应的十五位发音编码串为“F0l 90Y E0fj0e M0R”。
步骤402b,对语音交互文本的发音编码串进行切分,得到发音编码串包括的发音子编码。
需要说明的是,终端可对发音编码串每隔一位进行切分,可以每隔两位进行切分,可以每隔五位进行切分,本实施例并不限定终端对发音编码串进行切分的具体位数。
比如,发音编码串为“F0l 9SP E0f j0e M0f”,每隔一位对发音编码串进行切分得到的发音子编码分别为“F”、“0”、“l”、“9”、“S”、“P”、“E”、“0”“f”、“j”、“0”、“e”、“M”、“0”、“f”。
步骤402c,根据得到的发音子编码串,获取文本库中对应的发音编码串包含至少一个发音子编码串的文本。
可选的,预设的文本库存储的文本与发音编码串的对应关系以列表的方式存储在该预设的文本库中。
比如,发音子编码串分别为“F”、“0”、“1”,终端所获取的文本可以仅包括“F”或“0”或“1”,可以同时包括“F”和“0”,或者同时包括“F”和“1”,或者同时包括“0”和“1”,也可以同时包括“F”、“0”、“1”。
步骤403,在获取的文本中,选取对应的发音编码串的编码串长度与语音交互文本的发音编码串的编码串长度的差值不超过第二预设阈值的文本,作为与语音交互文本对应的至少一个预设文本。
由于预设文本的编码串长度与语音交互文本的编码串长度相差越大,亦可以说明预设文本与语音交互文本之间的文本相似度越低,因此当终端采用基于发音编码的相似性检索的方式检索语音交互文本对应的预设文本时,“获取文本库中与语音交互文本之间的文本相似度大于第一预设阈值的至少一个预设文本”可被替换为“在获取的文本中,选取对应的发音编码串的编码串长度与语音交互文本的发音编码串的编码串长度的差值不超过第二预设阈值的文本,作为与语音交互文本对应的至少一个预设文本”。
另外,为了避免终端将编码串长度与语音交互文本的编码串长度偏差较大的文本作为语音交互文本对应的预设文本之一,增加终端不必要的计算量,降低语音识别的效率,设置第二预设阈值的另一个目的在于,在终端计算发音相似度之前,剔除与语音交互文本的文本相似度较低的预设文本,减少终端不必要的计算量,提高语音识别纠错的效率。
比如,语音交互文本的的发音编码串的编码串长度为15,第二预设阈值为5,那么,终端在获取的文本中,选取对应的发音编码串的编码串长度在10至20之间的文本,作为与语音交互文本对应的至少一个预设文本。
需要说明的是,该第二预设阈值可以人为设置也可以系统预设,本实施例并不限定第二预设阈值的具体设置方式。
步骤404,计算预设文本对应的发音编码串与语音交互文本的发音编码串之间的相似度。
在一种可能实现的方式中,步骤404可被步骤404a至步骤404b替代,请参考图4C,其示出了本发明一个实施例提供的计算预设文本对应的发音编码串与语音交互文本的发音编码串之间的相似度方法的方法流程图。
步骤404a,至少任意剔除语音交互文本的发音编码串中的至少一位编码,得到语音交互文本的发音编码串对应的至少一个发音部分编码串。
设语音交互文本为s1,该s1对应的编码串为“a1a2a3 b1b2b3 c1c2c3”,终端对s1对应的编码串从第一位编码开始进行编码剔除,一次剔除两位,一共剔除三次,那么,可分别得到发音编码串“a1a2a3 b1b2b3 c1c2c3”对应的发音部分编码串“a3 b1b2b3 c1c2c3”、“b2b3c1c2c3”和“c1c2c3”。
需要说明的是,终端对发音编码串中编码的剔除顺序可以为从第一位开始剔除,可以为从最后一位开始剔除,也可以在第n位至第m位的范围内进行任一剔除(0<n<m),本实施例不对终端对发音编码串中编码的剔除顺序进行限定。
可选的,本实施例可根据发音部分编码串对应的编码串长度,或者根据发音部分编码串对应的文本的文本长度,来确定发音编码串被剔除的编码位数。
以根据发音部分编码串对应的文本的文本长度,来确定发音编码串一次被剔除的编码位数进行举例。设当文本长度小于且等于5个字符时,发音编码串一次被剔除的编码位数为1位,当文本长度大于5个字符时,发音编码串被剔除的编码位数为2位。若文本s1的文本长度为3,则该语音交互文本s1对应的发音编码串被剔除的编码位数为1位,若文本s1的文本长度为7,则该语音交互文本s1对应的发音编码串被剔除的编码位数为2位。
步骤404b,对于每个预设文本的发音编码串,计算预设文本的发音编码串分别与语音交互文本的发音编码串和至少一个发音部分编码串之间的相似度,对计算出的预设文本的发音编码串对应的多个相似度求平均,得到预设文本的发音编码串对应的平均相似度。
继续以步骤404a中的举例为例,当终端获取到语音交互文本为s1对应的发音编码串所对应的发音部分编码串后,可利用下述公式1对每个预设文本的发音编码串对应的多个相似度求平均,得到每个预设文本的发音编码串对应的平均相似度:
total(mindistance)=minj∈y((SUMj∈x1(editdistance(yj,xi))/len1(yj))/num(x1)),(公式1)
其中,i>0,j>0
其中,x1为文本为s1对应的发音编码串,xi为文本为s1对应的发音编码串和发音部分编码串,yj为发音编码串x1对应的相似编码串,len1(yj)为相似编码串yj的长度,num(x1)为文本为s1对应的发音编码串的编码位数。
可选的,终端对语音交互文本s1进行m次剔除,其中,在n次中发音编码串一次被剔除的编码位数为p位,在m-n次中发音编码串一次被剔除的编码位数为q位后,那么,当终端获取到语音交互文本为s1对应的发音编码串所对应的发音部分编码串后,可利用下述公式2对每个预设文本的发音编码串对应的多个相似度求平均,得到每个预设文本的发音编码串对应的平均相似度:
其中,i>0,j>0,θ+σ=1
其中,x1和z1均为文本为s1对应的发音编码串,xi为文本为s1对应的发音编码串和一次被剔除的编码位数为p位的发音部分编码串,yj为发音编码串x1对应的相似编码串,zi为文本为s1对应的发音编码串和一次被剔除的编码位数为q位的发音部分编码串,len2(yj)为相似编码串yj的长度,num(z1)为文本为s1对应的发音编码串的编码位数,θ为xi在公式2中的占比参数和σ为zi在公式2中的占比参数,可选的,θ和σ的取值均为0.5。
步骤405,将平均相似度为最大值的预设文本对应的业务定位,确定为语音交互文本的业务定位。
比如,根据表2所示的对应关系,语音交互文本“中国新歌声”对应的发音编码串为“F0l 9SP E0f j0e M0f”,语音交互文本对应的预设文本分别为中国好声音(发音编码串为F01 9SP B0X J0j M0f)、我的中国星(发音编码串为N0P 50Q F01 9SP E0k)和星的声音(发音编码串为E0k 50Q J0j M0f)。
终端先对语音交互文本“中国新歌声”对应的编码串“F0l 9SP E0f j0e M0f”从第一位编码开始进行编码剔除,一次剔除一位,一共剔除五次,得到发音部分编码串“0l 9SPE0k J0j M0f”、“l 9SP E0k J0j M0f”、“9SP E0k J0j M0f”、“SP E0k J0j M0f”、“P E0kJ0j M0f”;再对语音交互文本“中国新歌声”对应的编码串“F0l 9SP E0f j0e M0f”从最后位编码开始进行编码剔除,一次剔除一位,一共剔除五次,得到发音部分编码串“F0l 9SPE0k J0j M0”、“F0l 9SP E0k J0j M”、“F0l 9SP E0k J0j”、“F0l 9SP E0k J0”和“F0l 9SPE0k J”,再对语音交互文本“中国新歌声”对应的编码串“F0l 9SP E0f j0e M0f”从第一位编码开始进行编码剔除,一次剔除三位,一共剔除两次,得到发音部分编码串9SP E0k J0jM0f”和“E0k J0j M0f”;最后再对语音交互文本“中国新歌声”对应的编码串“F0l 9SP E0fj0e M0f”从最后位编码开始进行编码剔除,一次剔除三位,一共剔除两次,得到发音部分编码串“F0l 9SP E0k J0j”和“F0l 9SP E0k”。
对于每个预设文本的发音编码串,计算预设文本的发音编码串分别与发音编码串和至少一个发音部分编码串之间的预设文本的发音编码串对应的多个相似度求平均,得到预设文本的发音编码串对应的平均相似度,根据公式2对每个预设文本的发音编码串对应的多个相似度求平均,得到每个预设文本的发音编码串对应的平均相似度,具体计算结果如表3所示:
表3
由表3可知,“中国好声音”的发音编码串“F01 9SP B0X J0j M0f”对应的平均相似度为0.58,“我的中国星”的发音编码串“N0P 50Q F01 9SP E0k”对应的平均相似度为0.824242424,“星的声音”的发音编码串“E0k 50Q J0j M0f”对应的平均相似度为0.688636364,由于“中国好声音”的发音编码串与“中国新歌声”的发音编码串之间的编辑距离最小,即“中国好声音”的发音编码串与“中国新歌声”的发音编码串之间的相似度最大,因此,终端将预设文本“中国好声音”确定为语音数据的识别结果。
需要说明的是,本实施例中步骤401与步骤101类似,因此本实施例不再对步骤401赘述说明。
综上所述,本实施例中,终端可采用基于发音编码的相似性检索的方式检索语音交互文本对应的预设文本,以使检索出的预设文本中尽可能包含用户本意想输入的正确文本,提高基于预设文本对应的业务定位确定语音交互文本对应的业务定位的准确度,保证终端返回的业务定位结果接近用户的真实意图,可以一定程度上避免终端在无法根据用户输入的语音交互文本进行控制业务定位时,返回错误结果,有助于改善终端设备的产品体验。
下述为本发明装置实施例,对于装置实施例中未详尽描述的细节,可以参考上述一一对应的方法实施例。
请参考图5,图5是本发明一个实施例中提供的语音交互文本的业务定位装置的结构方框图。该语音交互文本的业务定位装置包括:识别模块501、获取模块502、计算模块503和确定模块504。
识别模块501,用于识别用户输入的语音数据,得到用户以语音方式输入的语音交互文本;
获取模块502,用于若终端设备根据语音交互文本无法进行业务定位,则获取预设文本库中与语音交互文本之间的文本相似度大于第一预设阈值的至少一个预设文本;
计算模块503,用于计算预设文本的发音元素串与语音交互文本的发音元素串之间的发音相似度;
确定模块504,用于将发音相似度为最大值的预设文本对应的业务定位,确定为语音交互文本的业务定位。
在一种可能的实现方式中,该获取模块502,还用于:若根据语音交互文本在终端设备的资源库中的检索结果为空,则获取预设文本库中与语音交互文本之间的文本相似度大于第一预设阈值的至少一个预设文本。
在一种可能的实现方式中,该获取模块502,包括:获取单元502a和选取单元502b。
获取单元502a,用于根据语音交互文本的发音元素串对应的发音编码串所包括的发音子编码串,获取文本库中对应的发音编码串包含至少一个发音子编码串的文本;
选取单元502b,用于在获取的文本中,选取对应的发音编码串的编码串长度与语音交互文本的发音编码串的编码串长度的差值不超过第二预设阈值的文本,作为与语音交互文本对应的至少一个预设文本;
计算模块503,还用于:计算预设文本对应的发音编码串与语音交互文本的发音编码串之间的相似度。
在一种可能的实现方式中,该计算模块503,包括:剔除单元503a和计算单元503b。
剔除单元503a,用于至少任意剔除语音交互文本的发音编码串中的至少一位编码,得到语音交互文本的发音编码串对应的至少一个发音部分编码串;
计算单元503b,用于对于每个预设文本的发音编码串,计算预设文本的发音编码串分别与语音交互文本的发音编码串和至少一个发音部分编码串之间的相似度,对计算出的预设文本的发音编码串对应的多个相似度求平均,得到预设文本的发音编码串对应的平均相似度。
在一种可能的实现方式中,该确定模块504,还用于:将平均相似度为最大值的预设文本对应的业务定位,确定为语音交互文本的业务定位。
综上所述,本发明实施例提供的语音交互文本的业务定位装置,若终端设备根据用户输入的语音交互文本无法进行业务定位时,分别计算对该语音交互文本进行相似性检索后得到的每个预设文本的发音元素串,与该语音交互文本的发音元素串之间的发音相似度,将发音相似度为最大值的预设文本对应的业务定位,确定为该语音交互文本的业务定位,由于文本中的字符是由发音元素或者发音元素串构成,计算预设文本的发音元素串与语音交互文本的发音元素串之间的相似度,相当于计算预设文本与语音交互文本之间的相似度;因此解决了在实际应用中,由于受到用户所处环境的噪音、用户的方言口语等因素的影响,导致终端设备无法根据用户输入的语音交互文本进行控制业务定位的问题;避免了终端设备无法根据用户输入的语音交互文本进行控制业务定位,只能够返回错误页面或者引导用户进行多轮交互,提高了语音交互在终端设备上的用户体验;而且预设文本的发音元素串与语音交互文本的发音元素串之间的相似度越大,预设文本对应的业务定位与语音交互文本对应的业务定位就越接近,终端返回的业务定位结果越接近用户的真实意图,可以一定程度上避免终端在无法根据用户输入的语音交互文本进行控制业务定位时,返回错误结果,有助于改善终端设备的产品体验。
需要说明的是:上述实施例中提供的语音交互文本的业务定位装置在显示主页界面时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将终端的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的语音交互文本的业务定位装置与语音交互文本的业务定位方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
请参见图6所示,其示出了本发明部分实施例中提供的终端设备的结构方框图。该终端设备600用于实施上述实施例提供的语音交互文本的业务定位方法。本发明中的终端设备600可以包括一个或多个如下组成部分:用于执行计算机程序指令以完成各种流程和方法的处理器,用于数据和存储程序指令随机接入存储器(RAM)和只读存储器(ROM),用于存储数据和数据的存储器,I/O设备,界面,天线等。具体来讲:
终端设备600可以包括RF(Radio Frequency,射频)电路610、存储器620、输入单元630、显示单元640、传感器650、音频电路660、WiFi(wireless fidelity,无线保真)模块670、处理器680、电源682、摄像头690等部件。本领域技术人员可以理解,图6中示出的终端设备结构并不构成对终端设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
下面结合图6对终端设备600的各个构成部件进行具体的介绍:
RF电路610可用于收发数据或通话过程中,信号的接收和发送,特别地,将基站的下行数据接收后,给处理器680处理;另外,将设计上行的数据发送给基站。通常,RF电路包括但不限于天线、至少一个放大器、收发信机、耦合器、LNA(Low Noise Amplifier,低噪声放大器)、双工器等。此外,RF电路610还可以通过无线通信与网络和其他设备通信。所述无线通信可以使用任一通信标准或协议,包括但不限于GSM(Global System of Mobilecommunication,全球移动通讯系统)、GPRS(General Packet Radio Service,通用分组无线服务)、CDMA(Code Division Multiple Access,码分多址)、WCDMA(Wideband CodeDivision Multiple Access,宽带码分多址)、LTE(Long Term Evolution,长期演进)、电子邮件、SMS(Short Messaging Service,短消息服务)等。
存储器620可用于存储软件程序以及模块,处理器680通过运行存储在存储器620的软件程序以及模块,从而执行终端设备600的各种功能应用以及数据处理。存储器620可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据终端设备600的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器620可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
输入单元630可用于接收输入的数字或字符数据,以及产生与终端设备600的用户设置以及功能控制有关的键信号输入。具体地,输入单元630可包括触控面板631以及其他输入设备632。触控面板631,也称为触摸屏,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板631上或在触控面板631附近的操作),并根据预先设定的程序驱动相应的连接装置。可选的,触控面板631可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸数据,并将它转换成触点坐标,再送给处理器680,并能接收处理器680发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板631。除了触控面板631,输入单元630还可以包括其他输入设备632。具体地,其他输入设备632可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。
显示单元640可用于显示由用户输入的数据或提供给用户的数据以及终端设备600的各种菜单。显示单元640可包括显示面板641,可选的,可以采用LCD(Liquid CrystalDisplay,液晶显示器)、OLED(Organic Light-Emitting Diode,有机发光二极管)等形式来配置显示面板641。进一步的,触控面板631可覆盖显示面板641,当触控面板631检测到在其上或附近的触摸操作后,传送给处理器680以确定触摸事件的类型,随后处理器680根据触摸事件的类型在显示面板641上提供相应的视觉输出。虽然在图6中,触控面板631与显示面板641是作为两个独立的部件来实现终端设备600的输入和输入功能,但是在某些实施例中,可以将触控面板631与显示面板641集成而实现终端设备600的输入和输出功能。
终端设备600还可包括至少一种传感器650,比如陀螺仪传感器、磁感应传感器、光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示面板641的亮度,接近传感器可在终端设备600移动到耳边时,关闭显示面板641和/或背光。作为运动传感器的一种,加速度传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别终端设备姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;至于终端设备600还可配置的气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。
音频电路660、扬声器661,传声器662可提供用户与终端设备600之间的音频接口。音频电路660可将接收到的音频数据转换后的电信号,传输到扬声器661,由扬声器661转换为声音信号输出;另一方面,传声器662将收集的声音信号转换为电信号,由音频电路660接收后转换为音频数据,再将音频数据输出处理器680处理后,经RF电路610以发送给比如另一终端设备,或者将音频数据输出至存储器620以便进一步处理。
WiFi属于短距离无线传输技术,终端设备600通过WiFi模块670可以帮助用户收发电子邮件、浏览网页和访问流式媒体等,它为用户提供了无线的宽带互联网访问。虽然图6示出了WiFi模块670,但是可以理解的是,其并不属于终端设备600的必须构成,完全可以根据需要在不改变公开的本质的范围内而省略。
处理器680是终端设备600的控制中心,利用各种接口和线路连接整个终端设备的各个部分,通过运行或执行存储在存储器620内的软件程序和/或模块,以及调用存储在存储器620内的数据,执行终端设备600的各种功能和处理数据,从而对终端设备进行整体监控。可选的,处理器680可包括一个或多个处理单元;优选的,处理器680可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器680中。
终端设备600还包括给各个部件供电的电源682(比如电池),优选的,电源可以通过电源管理系统与处理器682逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。
摄像头690一般由镜头、图像传感器、接口、数字信号处理器、CPU、显示屏幕等组成。其中,镜头固定在图像传感器的上方,可以通过手动调节镜头来改变聚焦;图像传感器相当于传统相机的“胶卷”,是摄像头采集图像的心脏;接口用于把摄像头利用排线、板对板连接器、弹簧式连接方式与终端设备主板连接,将采集的图像发送给所述存储器620;数字信号处理器通过数学运算对采集的图像进行处理,将采集的模拟图像转换为数字图像并通过接口发送给存储器620。
尽管未示出,终端设备600还可以包括蓝牙模块等,在此不再赘述。
终端设备600除了包括一个或者多个处理器680,还包括有存储器,以及一个或者多个程序,其中一个或者多个程序存储于存储器中,并被配置成由一个或者多个处理器执行,执行上述语音交互文本的业务定位方法。
需要说明的是,上述实施例提供的终端设备与语音交互文本的业务定位装置实施例以及语音交互文本的业务定位方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种语音交互文本的业务定位方法,其特征在于,所述方法包括:
识别用户输入的语音数据,得到用户以语音方式输入的语音交互文本;
若终端设备根据所述语音交互文本无法进行业务定位,则获取预设文本库中与所述语音交互文本之间的文本相似度大于第一预设阈值的至少一个预设文本;
计算所述预设文本的发音元素串与所述语音交互文本的发音元素串之间的发音相似度;
将所述发音相似度为最大值的所述预设文本对应的业务定位,确定为所述语音交互文本的业务定位。
2.根据权利要求1所述的方法,其特征在于,所述若终端设备根据所述语音交互文本无法进行业务定位,则获取预设文本库中与所述语音交互文本之间的文本相似度大于第一预设阈值的至少一个预设文本,具体包括:
若根据所述语音交互文本在终端设备的资源库中的检索结果为空,则获取预设文本库中与所述语音交互文本之间的文本相似度大于第一预设阈值的至少一个预设文本。
3.根据权利要求1所述的方法,其特征在于,所述获取所述文本库中与所述语音交互文本之间的文本相似度大于第一预设阈值的至少一个预设文本,具体包括:
根据所述语音交互文本的发音元素串对应的发音编码串所包括的发音子编码串,获取所述文本库中对应的发音编码串包含至少一个发音子编码串的文本;
在获取的文本中,选取对应的发音编码串的编码串长度与所述语音交互文本的发音编码串的编码串长度的差值不超过第二预设阈值的文本,作为与所述语音交互文本对应的至少一个预设文本;
所述计算所述预设文本的发音元素串与所述语音交互文本的发音元素串之间的发音相似度,具体包括:
计算所述预设文本对应的发音编码串与所述语音交互文本的发音编码串之间的相似度。
4.根据权利要求3所述的方法,其特征在于,所述计算所述预设文本对应的发音编码串与所述语音交互文本的发音编码串之间的相似度,具体包括:
至少任意剔除所述语音交互文本的发音编码串中的至少一位编码,得到所述语音交互文本的发音编码串对应的至少一个发音部分编码串;
对于每个预设文本的发音编码串,计算所述预设文本的发音编码串分别与所述语音交互文本的发音编码串和所述至少一个发音部分编码串之间的相似度,对计算出的所述预设文本的发音编码串对应的多个相似度求平均,得到所述预设文本的发音编码串对应的平均相似度。
5.根据权利要求4所述的方法,其特征在于,所述将所述发音相似度为最大值的所述预设文本对应的业务定位,确定为所述语音交互文本的业务定位,具体包括:
将所述平均相似度为最大值的所述预设文本对应的业务定位,确定为所述语音交互文本的业务定位。
6.一种语音交互文本的业务定位装置,其特征在于,所述装置包括:
识别模块,用于识别用户输入的语音数据,得到用户以语音方式输入的语音交互文本;
获取模块,用于若终端设备根据所述语音交互文本无法进行业务定位,则获取预设文本库中与所述语音交互文本之间的文本相似度大于第一预设阈值的至少一个预设文本;
计算模块,用于计算所述预设文本的发音元素串与所述语音交互文本的发音元素串之间的发音相似度;
确定模块,用于将所述发音相似度为最大值的所述预设文本对应的业务定位,确定为所述语音交互文本的业务定位。
7.根据权利要求6所述的装置,其特征在于,所述获取模块,还用于:若根据所述语音交互文本在终端设备的资源库中的检索结果为空,则获取预设文本库中与所述语音交互文本之间的文本相似度大于第一预设阈值的至少一个预设文本。
8.根据权利要求6所述的装置,其特征在于,所述获取模块,包括:
获取单元,用于根据所述语音交互文本的发音元素串对应的发音编码串所包括的发音子编码串,获取所述文本库中对应的发音编码串包含至少一个发音子编码串的文本;
选取单元,用于在获取的文本中,选取对应的发音编码串的编码串长度与所述语音交互文本的发音编码串的编码串长度的差值不超过第二预设阈值的文本,作为与所述语音交互文本对应的至少一个预设文本;
所述计算模块,还用于:计算所述预设文本对应的发音编码串与所述语音交互文本的发音编码串之间的相似度。
9.根据权利要求8所述的装置,其特征在于,所述计算模块,包括:
剔除单元,用于至少任意剔除所述语音交互文本的发音编码串中的至少一位编码,得到所述语音交互文本的发音编码串对应的至少一个发音部分编码串;
计算单元,用于对于每个预设文本的发音编码串,计算所述预设文本的发音编码串分别与所述语音交互文本的发音编码串和所述至少一个发音部分编码串之间的相似度,对计算出的所述预设文本的发音编码串对应的多个相似度求平均,得到所述预设文本的发音编码串对应的平均相似度。
10.一种终端设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现以下步骤:
识别用户输入的语音数据,得到用户以语音方式输入的语音交互文本;
若终端设备根据所述语音交互文本无法进行业务定位,则获取预设文本库中与所述语音交互文本之间的文本相似度大于第一预设阈值的至少一个预设文本;
计算所述预设文本的发音元素串与所述语音交互文本的发音元素串之间的发音相似度;
将所述发音相似度为最大值的所述预设文本对应的业务定位,确定为所述语音交互文本的业务定位。
CN201710478050.4A 2017-06-22 2017-06-22 一种语音交互文本的业务定位方法、装置和终端设备 Pending CN107180634A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710478050.4A CN107180634A (zh) 2017-06-22 2017-06-22 一种语音交互文本的业务定位方法、装置和终端设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710478050.4A CN107180634A (zh) 2017-06-22 2017-06-22 一种语音交互文本的业务定位方法、装置和终端设备

Publications (1)

Publication Number Publication Date
CN107180634A true CN107180634A (zh) 2017-09-19

Family

ID=59844285

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710478050.4A Pending CN107180634A (zh) 2017-06-22 2017-06-22 一种语音交互文本的业务定位方法、装置和终端设备

Country Status (1)

Country Link
CN (1) CN107180634A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109377540A (zh) * 2018-09-30 2019-02-22 网易(杭州)网络有限公司 面部动画的合成方法、装置、存储介质、处理器及终端
CN109741749A (zh) * 2018-04-19 2019-05-10 北京字节跳动网络技术有限公司 一种语音识别的方法和终端设备
CN109949814A (zh) * 2017-12-20 2019-06-28 北京京东尚科信息技术有限公司 语音识别方法、系统、计算机系统及计算机可读存储介质
CN112000767A (zh) * 2020-07-31 2020-11-27 深思考人工智能科技(上海)有限公司 一种基于文本的信息抽取方法和电子设备
CN112583865A (zh) * 2019-09-27 2021-03-30 阿里巴巴集团控股有限公司 一种控制方法、设备及存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104021786A (zh) * 2014-05-15 2014-09-03 北京中科汇联信息技术有限公司 一种语音识别的方法和装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104021786A (zh) * 2014-05-15 2014-09-03 北京中科汇联信息技术有限公司 一种语音识别的方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
MENGLU LI,ZHIJUN ZHAO,PING SHI: "Query by Humming Based on the Hierarchical Matching Algorithm", 《2015 IEEE INTERNATIONAL CONFERENCE ON COMPUTER AND COMMUNICATIONS (ICCC)》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109949814A (zh) * 2017-12-20 2019-06-28 北京京东尚科信息技术有限公司 语音识别方法、系统、计算机系统及计算机可读存储介质
CN109741749A (zh) * 2018-04-19 2019-05-10 北京字节跳动网络技术有限公司 一种语音识别的方法和终端设备
CN109741749B (zh) * 2018-04-19 2020-03-27 北京字节跳动网络技术有限公司 一种语音识别的方法和终端设备
CN109377540A (zh) * 2018-09-30 2019-02-22 网易(杭州)网络有限公司 面部动画的合成方法、装置、存储介质、处理器及终端
CN109377540B (zh) * 2018-09-30 2023-12-19 网易(杭州)网络有限公司 面部动画的合成方法、装置、存储介质、处理器及终端
CN112583865A (zh) * 2019-09-27 2021-03-30 阿里巴巴集团控股有限公司 一种控制方法、设备及存储介质
CN112000767A (zh) * 2020-07-31 2020-11-27 深思考人工智能科技(上海)有限公司 一种基于文本的信息抽取方法和电子设备

Similar Documents

Publication Publication Date Title
CN107301865A (zh) 一种用于语音输入中确定交互文本的方法和装置
CN107180634A (zh) 一种语音交互文本的业务定位方法、装置和终端设备
US9396724B2 (en) Method and apparatus for building a language model
US9947317B2 (en) Pronunciation learning through correction logs
CN111261144B (zh) 一种语音识别的方法、装置、终端以及存储介质
WO2014190732A1 (en) Method and apparatus for building a language model
CN107039040A (zh) 语音识别系统
CN107291690A (zh) 标点添加方法和装置、用于标点添加的装置
CN107945789A (zh) 语音识别方法、装置及计算机可读存储介质
KR20230040951A (ko) 음성 인식 방법, 장치 및 디바이스, 및 저장 매체
CN105531758B (zh) 使用外国单词语法的语音识别
CN108052498A (zh) 语音输入的字词级纠正
CN108595431A (zh) 语音交互文本纠错方法、装置、终端及存储介质
CN107632980A (zh) 语音翻译方法和装置、用于语音翻译的装置
CN107221330A (zh) 标点添加方法和装置、用于标点添加的装置
CN110334344A (zh) 一种语义意图识别方法、装置、设备及存储介质
CN107608532A (zh) 一种联想输入方法、装置及电子设备
CN107093423A (zh) 一种语音输入修正方法、装置及计算机可读存储介质
CN108121736A (zh) 一种主题词确定模型的建立方法、装置及电子设备
CN104808794A (zh) 一种唇语输入方法和系统
CN107680585A (zh) 一种中文分词方法、中文分词装置和终端
CN108345581A (zh) 一种信息识别方法、装置和终端设备
CN112309365A (zh) 语音合成模型的训练方法、装置、存储介质以及电子设备
CN107291704A (zh) 处理方法和装置、用于处理的装置
CN107704447A (zh) 一种中文分词方法、中文分词装置和终端

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20170919

RJ01 Rejection of invention patent application after publication