CN105389400A - 语音交互方法及装置 - Google Patents

语音交互方法及装置 Download PDF

Info

Publication number
CN105389400A
CN105389400A CN201510995698.XA CN201510995698A CN105389400A CN 105389400 A CN105389400 A CN 105389400A CN 201510995698 A CN201510995698 A CN 201510995698A CN 105389400 A CN105389400 A CN 105389400A
Authority
CN
China
Prior art keywords
frequency
text
character
matched
rank
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510995698.XA
Other languages
English (en)
Other versions
CN105389400B (zh
Inventor
刘晓阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
TCL Corp
Original Assignee
TCL Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by TCL Corp filed Critical TCL Corp
Priority to CN201510995698.XA priority Critical patent/CN105389400B/zh
Publication of CN105389400A publication Critical patent/CN105389400A/zh
Application granted granted Critical
Publication of CN105389400B publication Critical patent/CN105389400B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue

Abstract

本发明适用于语音交互领域,提供了一种语音交互方法及装置。所述方法包括:接收语音数据;将所述语音数据识别为语义文本;将所述语义文本与生成的历史语音搜索记录进行相似度匹配;将相似度超过指定阈值的历史语音搜索记录作为基础数据库;对所述基础数据库进行筛选处理后,确定至少一待匹配文本;将所述语义文本与确定的所述至少一待匹配文本匹配;根据匹配结果执行对应的操作。本发明实施例能够提高语音交互的准确率及成功率。

Description

语音交互方法及装置
技术领域
本发明属于语音交互领域,尤其涉及一种语音交互方法及装置。
背景技术
随着语音识别技术的飞速发展,各大公司推出的语音识别产品的识别精度越来越高,并在许多领域实现应用。
现有的语音交互方法中,主要是通过识别用户的关键字进行语音交互,但如果用户的话语中少了关键词汇,则可能会导致语音识别引擎无法在“专家系统”里面找到合适的语义指令,语音交互的准确率较低,从而导致语音交互失败。
发明内容
本发明实施例提供了一种语音交互方法及装置,旨在解决现有方法在进行语音交互时,语音交互准确率低的问题。
本发明实施例是这样实现的,一种语音交互方法,所述方法包括:
接收语音数据;
将所述语音数据识别为语义文本;
将所述语义文本与生成的历史语音搜索记录进行相似度匹配;
将相似度超过指定阈值的历史语音搜索记录作为基础数据库;
对所述基础数据库进行筛选处理后,确定至少一待匹配文本;
将所述语义文本与确定的所述至少一待匹配文本匹配;
根据匹配结果执行对应的操作。
本发明实施例的另一目的在于提供一种语音交互装置,所述装置包括:
语音数据接收单元,用于接收语音数据;
语音数据识别单元,用于将所述语音数据识别为语义文本;
第一语义文本匹配单元,用于将所述语义文本与生成的历史语音搜索记录进行相似度匹配;
基础数据库确定单元,用于将相似度超过指定阈值的历史语音搜索记录作为基础数据库;
待匹配文本确定单元,用于对所述基础数据库进行筛选处理后,确定至少一待匹配文本;
第二语义文本匹配单元,用于将所述语义文本与确定的所述至少一待匹配文本匹配;
操作执行单元,用于根据匹配结果执行对应的操作。
在本发明实施例中,由于将接收的语音数据对应的语义文本与历史语音搜索记录进行相似度匹配,因此,在接收的语音数据没有包括关键字信息时,也能尽可能地根据相似度匹配结果判断出用户希望执行的操作,从而提高语音交互的准确率及成功率。
附图说明
图1是本发明第一实施例提供的一种语音交互方法的流程图;
图2是本发明第二实施例提供的一种语音交互装置的结构图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明实施例中,将接收的语音数据识别为语义文本,并将所述语义文本与生成的历史语音搜索记录进行相似度匹配,再将相似度超过指定阈值的历史语音搜索记录作为基础数据库,对所述基础数据库进行筛选处理后,确定至少一待匹配文本,最后将所述语义文本与确定的所述至少一待匹配文本匹配,并根据匹配结果执行对应的操作。
为了说明本发明所述的技术方案,下面通过具体实施例来进行说明。
实施例一:
图1示出了本发明第一实施例提供的一种语音交互方法的流程图,详述如下:
步骤S11,接收语音数据。
该步骤中,在用户启动智能设备的语音识别功能时,智能设备检测该智能设备是否连接耳机设备,若是,则检测耳机设备的麦克风是否接收到用户发出的语音数据,否则,检测该智能设备的扬声器是否接收到用户发出的语音数据。
步骤S12,将所述语音数据识别为语义文本。
在接收到语音数据后,通过语音识别算法将接收的语音数据识别为语义文本,进一步地,若数据库中不存在与识别的语义文本完全匹配的语义文本,则存储该识别的语义文本。该语义文本的形式例如“打开爸爸的照片”。
步骤S13,将所述语义文本与生成的历史语音搜索记录进行相似度匹配。
其中,历史语音搜索记录是根据数据库中存储的用户检索的历史数据生成,该历史语音搜索记录包括至少一个语义文本,每个语义文本以字符作为数据项。
该步骤中,将语义文本与历史语音搜索记录进行相似度匹配时,是将语义文本中的字符与历史语音搜索记录中的某个语义文本中的字符比较,当两个字符相同时,判定这两个字符匹配,否则,判定这两个字符不匹配。
步骤S14,将相似度超过指定阈值的历史语音搜索记录作为基础数据库。
该步骤中,当语义文本与历史语音搜索记录中的某个语义文本的相似度超过指定阈值,比如超过50%时,将该某个语义文本作为基础数据库中的一个语义文本。当然,历史语音搜索记录中与语义文本的相似度超过指定阈值的语义文本可能有多个,对应地,基础数据库中的语义文本也可能有多个,此处不作限定。
步骤S15,对所述基础数据库进行筛选处理后,确定至少一待匹配文本。
该步骤中,根据基础数据库中每个字符出现的频数对字符进行筛选处理,并根据筛选处理后的字符确定至少一待匹配文本。需要指出的是,该待匹配文本与基础数据库中原有的语义文本可能相同,也可能不同。通过对基础数据库进行筛选处理,减少了待匹配文本的个数,从而提高了匹配效率。
可选地,所述对所述基础数据库进行筛选处理后,确定至少一待匹配文本,具体包括:
A1、统计所述基础数据库中每个字符出现的频数;
A2、选择频数大于预设阈值的字符,并根据选择的字符确定至少一待匹配文本。
上述A1和A2中,当字符出现的频数大于预设阈值时,选择该字符,并根据选择的各个字符确定至少一待匹配文本。由于字符出现的频数越高,其确定的待匹配文本为语义文本的可能性也越大,因此,通过上述方式能够提高匹配的准确度。
进一步地,所述A2包括:
A21、根据所述基础数据库中的每个字符确定一阶频繁项。其中,一阶频繁项中的每一项由一个字符组成,例如,假设基础数据库中只有一个语义文本“打开爸爸的照片”,则一阶频繁项中各个项分别为“打”、“开”、“爸”、“的”、“照”、“片”。每个字符在基础数据库出现的次数为该字符对应的频数,例如,在该例子中,“爸”的频数为“2”。
A22、删除n阶频繁项中频数小于指定频数的字符,并根据删除所述n阶频繁项中频数小于指定频数的字符后的剩余字符确定(n+1)阶频繁项,所述(n+1)阶频繁项中的各个项分别由删除n阶频繁项中频数小于指定频数的字符后的剩余字符中任意(n+1)个字符组成。重复执行删除n阶频繁项中频数小于指定频数的字符,并根据删除所述n阶频繁项中频数小于指定频数的字符后的剩余字符确定(n+1)阶频繁项的步骤,直到所述(n+1)阶频繁项中存在一项的字符长度等于所述基础数据库中每个字符出现的频数的最大值,得到至少一待匹配文本,其中,n为整数,n大于等于1。需要指出的是,当删除n阶频繁项中频数小于指定频数的字符后的剩余字符中只剩下n个或少于n个字符没有重组时,该(n+1)阶频繁项中的存在一项由删除n阶频繁项中频数小于指定频数的字符后的剩余字符中n个或少于n个字符组成,如下表5中的三阶频繁项中的“照片”。
上述A21和A22中,采用Apriori算法,扫描一遍数据库,得到一阶频繁项,再用一阶频繁项构造二阶候选项,并删除二阶候选项中的非频繁项(即删除频数小于指定频数的二阶候选项),得到二阶频繁项,继续构造三阶候选项,以此类推,直到无法构造更高阶的候选项,或到达频繁项集的最大长度限制。
进一步地,所述A22具体包括:
A221、统计n阶频繁项中频数的个数,其中,多个相同的频数作为一个频数。例如,假设n阶频繁项中“打”的频数为5,“开”的频数为5,“照”的频数为3,则由于“打”和“开”的频数都为“5”,因此,在该例子中,n阶频繁项中频数的个数为2。
A222、判断频数的个数是否为奇数。
A223、在频数的个数为奇数时,选取频数的中间值作为指定频数,并删除n阶频繁项中频数小于指定频数的字符,以及根据删除所述n阶频繁项中频数小于指定频数的字符确定(n+1)阶频繁项。例如,假设频数分别为“5”、“2”、“1”,则选取频数的中间值“2”作为指定频数。
A224、在频数的个数为偶数时,选取大于或等于频数的两个中间值的均值作为指定频数,并删除n阶频繁项中频数小于指定频数的字符,以及根据删除所述n阶频繁项中频数小于指定频数的字符确定(n+1)阶频繁项。在该步骤中,若频数的两个中间值的均值是整数,则选取等于频数的两个中间值的均值作为指定频数;若频数的两个中间值的均值不是整数,则选取大于频数的两个中间值的均值的最小整数作为指定频数。例如,假设频数分别为“5”、“3”、“2”、“1”,由于“3”和“2”的均值为2.5,因此选取“3”作为指定频数。
步骤S16,将所述语义文本与确定的所述至少一待匹配文本匹配。
该步骤中,当待匹配文本有多个时,将语义文本逐个与待匹配文本匹配,若语义文本中的字符与待匹配文本中的字符完全匹配,则判定该语义文本与待匹配文本匹配,否则,判定该语义文本与待匹配文本不匹配。
步骤S17,根据匹配结果执行对应的操作。
可选地,所述根据匹配结果执行对应的操作,具体包括:
B1、在确定的所述至少一待匹配文本中只存在一个与所述语义文本完全匹配的待匹配文本时,提示用户发出的语音数据是否为与所述语义文本完全匹配的待匹配文本对应的历史语音搜索记录。
B2、接收用户发出的提示反馈信息,判断所述提示反馈信息是否包括确认信息,并在所述提示反馈信息包括确认信息时,执行与所述历史语音搜索记录对应的操作。
上述B1和B2中,可通过语音或文字提示用户发出的语音数据是否为与所述语义文本完全匹配的待匹配文本对应的历史语音搜索记录,当用户确认时,执行所述历史语音搜索记录对应的操作,否则,不执行所述历史语音搜索记录对应的操作,可选地,提示用户本次语音交互失败,希望用户重新发出语音数据。
可选地,所述根据匹配结果执行对应的操作,具体包括:
C1、在确定的所述至少一待匹配文本中存在多个与所述语义文本完全匹配的待匹配文本时,选择一个与所述语义文本完全匹配的待匹配文本,并提示用户发出的语音数据是否为选择的与所述语义文本完全匹配的待匹配文本对应的历史语音搜索记录。
C2、接收用户发出的提示反馈信息,判断所述提示反馈信息是否包括确认信息。
C3、在所述提示反馈信息包括确认信息时,执行与所述历史语音搜索记录对应的操作,并不再提示用户发出的语音数据是否为选择的与所述语义文本完全匹配的待匹配文本对应的历史语音搜索记录。
C4、在所述提示反馈信息包括否认信息时,选择另一个与所述语义文本完全匹配的待匹配文本,并提示用户发出的语音数据是否为选择的与所述语义文本完全匹配的待匹配文本对应的历史语音搜索记录,直到与所述语义文本完全匹配的待匹配文本都已选择过。
上述C1~C4中,从确定的所述至少一待匹配文本中选择一个与语义文本匹配的文本,并通过文字或语音等提示方式提示用户发出的语音数据是否为选择的文本对应的历史语音搜索记录,若用户确认,则直接执行选择的文本对应的历史语音搜索记录所对应的操作,并结束本次的语音交互,若用户否认,则重新选择一个与语义文本匹配的文本,再过文字或语音等提示方式提示用户发出的语音数据是否为选择的文本对应的历史语音搜索记录,重复上述步骤,直到接收到用户的确认信息,或者,直到与所述语义文本完全匹配的待匹配文本已全部选择过,则结束本次的语音交互。
本发明第一实施例中,将接收的语音数据识别为语义文本,并将所述语义文本与生成的历史语音搜索记录进行相似度匹配,再将相似度超过指定阈值的历史语音搜索记录作为基础数据库,对所述基础数据库进行筛选处理后,确定至少一待匹配文本,最后将所述语义文本与确定的所述至少一待匹配文本匹配,并根据匹配结果执行对应的操作。由于将接收的语音数据对应的语义文本与历史语音搜索记录进行相似度匹配,因此,在接收的语音数据没有包括关键字信息时,也能尽可能地根据相似度匹配结果判断出用户希望执行的操作,从而提高语音交互的准确率及成功率。
为了进一步说明本发明实施例语音交互方法,下面以一具体实施例进行描述:
假设接收的语音数据对应的语义文本为“打开照片”,系统根据用户检索的历史数据生成历史语音搜索记录,再将相似度超过指定阈值的历史语音搜索记录作为基础数据库,假设该基础数据库如表1所示:
表1:
ID 语义文本
001 打开爸爸的照片
002 打开妹妹的照片
003 打开爸爸妈妈的照片
004 打开妈妈的照片
005 打开我的照片
根据表1所示的基础数据库,生成一阶频繁项,其中,一阶频繁项的字符和频数如表2所示:
表2:
项集 频数
5
5
2
1
2
1
5
5
由于表2中频数的个数为3,因此,选取“2”作为指定频数的字符,并删除频数小于“2”的字符,剩余的字符如表3所示:
表3:
项集 频数
5
5
2
2
5
5
根据删除一阶频繁项中项数小于2的字符中任意2个字符组成如表4所示的二阶频繁项。
表4:
根据删除二阶频繁项中项数小于1的字符中任意3个字符(或2个字符)组成如表5所示的三阶频繁项。
表5:
项集 频数
打开爸 2
打开妈 2
打开照 5
打开片 5
开爸妈 1
开爸照 2
开爸片 2
开妈照 2
开妈片 2
开照片 5
爸照片 2
妈照片 2
照片 5
根据删除三阶频繁项中项数小于1的字符中任意4个字符组成如表6所示的四阶频繁项。
表6:
根据删除四阶频繁项中项数小于1的字符中任意5个字符组成如表7所示的五阶频繁项。
表7:
项集 频数
打开爸照片 2
打开妈照片 2
由于五阶频繁项中存在一项的字符长度等于基础数据库中每个字符出现的频数的最大值“5”,因此,将“打开爸照片”和“打开妈照片”作为待匹配文本。假设首先将“打开爸照片”与语义文本“打开照片”匹配,由于“打开照片”与“打开爸照片”完全匹配,因此,提示用户发出的“打开照片”是否为“打开爸爸照片”,若用户确认,则直接打开爸爸照片,若用户否,则提示用户发出的“打开照片”是否为“打开妈妈照片”。
应理解,在本发明实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
实施例二:
图2示出了本发明第二实施例提供的一种语音交互装置的结构图,该语音交互装置可应用于智能设备中,该智能设备可以包括经无线接入网RAN与一个或多个核心网进行通信的用户设备,该用户设备可以是移动电话(或称为“蜂窝”电话)、具有移动设备的计算机等,例如,用户设备还可以是便携式、袖珍式、手持式、计算机内置的或者车载的移动装置,它们与无线接入网交换语音和/或数据。又例如,该移动设备可以包括智能手机、平板电脑、个人数字助理PDA、销售终端POS或车载电脑等。为了便于说明,仅示出了与本发明实施例相关的部分。
该语音交互装置包括:语音数据接收单元21、语音数据识别单元22、第一语义文本匹配单元23、基础数据库确定单元24、待匹配文本确定单元25、第二语义文本匹配单元26、操作执行单元27。其中:
语音数据接收单元21,用于接收语音数据。
具体地,在用户启动智能设备的语音识别功能时,智能设备检测该智能设备是否连接耳机设备,若是,则检测耳机设备的麦克风是否接收到用户发出的语音数据,否则,检测该智能设备的扬声器是否接收到用户发出的语音数据。
语音数据识别单元22,用于将所述语音数据识别为语义文本。
可选地,若数据库中不存在与识别的语义文本完全匹配的语义文本,则存储该识别的语义文本。
第一语义文本匹配单元23,用于将所述语义文本与生成的历史语音搜索记录进行相似度匹配。
其中,历史语音搜索记录是根据数据库中存储的用户检索的历史数据生成,该历史语音搜索记录包括至少一个语义文本,每个语义文本以字符作为数据项。
基础数据库确定单元24,用于将相似度超过指定阈值的历史语音搜索记录作为基础数据库。
当语义文本与历史语音搜索记录中的某个语义文本的相似度超过指定阈值,比如超过50%时,将该某个语义文本作为基础数据库中的一个语义文本。当然,历史语音搜索记录中与语义文本的相似度超过指定阈值的语义文本可能有多个,对应地,基础数据库中的语义文本也可能有多个,此处不作限定。
待匹配文本确定单元25,用于对所述基础数据库进行筛选处理后,确定至少一待匹配文本。
需要指出的是,该待匹配文本与基础数据库中原有的语义文本可能相同,也可能不同。
可选地,所述待匹配文本确定单元25包括:
字符频数统计模块,用于统计所述基础数据库中每个字符出现的频数;
字符选择模块,用于选择频数大于预设阈值的字符,并根据选择的字符确定至少一待匹配文本。
由于字符出现的频数越高,其确定的待匹配文本为语义文本的可能性也越大,因此,通过上述字符频数统计模块和字符选择模块的执行方式能够提高匹配的准确度。
进一步地,所述字符选择模块包括:
一阶频繁项确定模块,用于统计所述基础数据库中每个字符出现的频数,并根据所述基础数据库中的每个字符确定一阶频繁项。其中,一阶频繁项中的每一项由一个字符组成。
任意阶频繁项确定模块,用于删除n阶频繁项中频数小于指定频数的字符,并根据删除所述n阶频繁项中频数小于指定频数的字符后的剩余字符确定(n+1)阶频繁项,所述(n+1)阶频繁项中的各个项分别由删除n阶频繁项中频数小于指定频数的字符后的剩余字符中任意(n+1)个字符组成。重复执行删除n阶频繁项中频数小于指定频数的字符,并根据删除所述n阶频繁项中频数小于指定频数的字符后的剩余字符确定(n+1)阶频繁项的步骤,直到所述(n+1)阶频繁项中存在一项的字符长度等于所述基础数据库中每个字符出现的频数的最大值,得到至少一待匹配文本。其中,n为整数,n大于等于1。需要指出的是,当删除n阶频繁项中频数小于指定频数的字符中只剩下n个或少于n个字符没有重组时,该(n+1)阶频繁项中存在一项由删除n阶频繁项中频数小于指定频数的字符中n个或少于n个字符组成。
可选地,上述任意阶频繁项确定模块包括:
频数个数统计模块,用于统计n阶频繁项中频数的个数,其中,多个相同的频数作为一个频数。
频数个数判断模块,用于判断频数的个数是否为奇数。
第一指定频数确定模块,用于在频数的个数为奇数时,选取频数的中间值作为指定频数,并删除n阶频繁项中频数小于指定频数的字符。
第二指定频数确定模块,用于在频数的个数为偶数时,选取大于或等于频数的两个中间值的均值作为指定频数,并删除n阶频繁项中频数小于指定频数的字符。其中,若频数的两个中间值的均值是整数,则选取等于频数的两个中间值的均值作为指定频数;若频数的两个中间值的均值不是整数,则选取大于频数的两个中间值的均值的最小整数作为指定频数。
第二语义文本匹配单元26,用于将所述语义文本与确定的所述至少一待匹配文本匹配。
操作执行单元27,用于根据匹配结果执行对应的操作。
可选地,所述操作执行单元27包括:
第一提示模块,用于在确定的所述至少一待匹配文本中只存在一个与所述语义文本完全匹配的待匹配文本时,提示用户发出的语音数据是否为与所述语义文本完全匹配的待匹配文本对应的历史语音搜索记录。
第一提示反馈信息接收模块,用于接收用户发出的提示反馈信息,判断所述提示反馈信息是否包括确认信息,并在所述提示反馈信息包括确认信息时,执行与所述历史语音搜索记录对应的操作。
上述第一提示模块和第一提示反馈信息接收模块中,可通过语音或文字提示用户发出的语音数据是否为与所述语义文本完全匹配的待匹配文本对应的历史语音搜索记录,当用户确认时,执行所述历史语音搜索记录对应的操作,否则,不执行所述历史语音搜索记录对应的操作,可选地,提示用户本次语音交互失败,希望用户重新发出语音数据。
可选地,所述操作执行单元27包括:
第二提示模块,用于在确定的所述至少一待匹配文本中存在多个与所述语义文本完全匹配的待匹配文本时,选择一个与所述语义文本完全匹配的待匹配文本,并提示用户发出的语音数据是否为选择的与所述语义文本完全匹配的待匹配文本对应的历史语音搜索记录。
第二提示反馈信息接收模块,用于接收用户发出的提示反馈信息,判断所述提示反馈信息是否包括确认信息。
待匹配文本对应的操作执行模块,用于在所述提示反馈信息包括确认信息时,执行与所述历史语音搜索记录对应的操作,并不再提示用户发出的语音数据是否为选择的与所述语义文本完全匹配的待匹配文本对应的数据。
待匹配文本重选择模块,用于在所述提示反馈信息包括否认信息时,选择另一个与所述语义文本完全匹配的待匹配文本,并提示用户发出的语音数据是否为选择的与所述语义文本完全匹配的待匹配文本对应的历史语音搜索记录,直到与所述语义文本完全匹配的待匹配文本都已选择过。
上述第二提示模块、第二提示反馈信息接收模块、待匹配文本对应的操作执行模块、待匹配文本重选择模块中,从确定的所述至少一待匹配文本中选择一个与语义文本匹配的文本,并通过文字或语音等提示方式提示用户发出的语音数据是否为选择的文本对应的历史语音搜索记录,若用户确认,则直接执行选择的文本对应的历史语音搜索记录所对应的操作,并结束本次的语音交互,若用户否认,则重新选择一个与语义文本匹配的文本,再过文字或语音等提示方式提示用户发出的语音数据是否为选择的文本对应的历史语音搜索记录,重复上述步骤,直到接收到用户的确认信息,或者,直到与所述语义文本完全匹配的待匹配文本已全部选择过,则结束本次的语音交互。
本发明第二实施例中,由于将接收的语音数据对应的语义文本与历史语音搜索记录进行相似度匹配,因此,在接收的语音数据没有包括关键字信息时,也能尽可能地根据相似度匹配结果判断出用户希望执行的操作,从而提高语音交互的成功率。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,RandomAccessMemory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

Claims (12)

1.一种语音交互方法,其特征在于,所述方法包括:
接收语音数据;
将所述语音数据识别为语义文本;
将所述语义文本与生成的历史语音搜索记录进行相似度匹配;
将相似度超过指定阈值的历史语音搜索记录作为基础数据库;
对所述基础数据库进行筛选处理后,确定至少一待匹配文本;
将所述语义文本与确定的所述至少一待匹配文本匹配;
根据匹配结果执行对应的操作。
2.根据权利要求1所述的方法,其特征在于,所述对所述基础数据库进行筛选处理后,确定至少一待匹配文本,具体包括:
统计所述基础数据库中每个字符出现的频数;
选择频数大于预设阈值的字符,并根据选择的字符确定至少一待匹配文本。
3.根据权利要求2所述的方法,其特征在于,所述选择频数大于预设阈值的字符,并根据选择的字符确定至少一待匹配文本,具体包括:
根据所述基础数据库中的每个字符确定一阶频繁项;
删除n阶频繁项中频数小于指定频数的字符,并根据删除所述n阶频繁项中频数小于指定频数的字符后的剩余字符确定(n+1)阶频繁项,所述(n+1)阶频繁项中的各个项分别由删除n阶频繁项中频数小于指定频数的字符后的剩余字符中任意(n+1)个字符组成;重复执行删除n阶频繁项中频数小于指定频数的字符,并根据删除所述n阶频繁项中频数小于指定频数的字符确定(n+1)阶频繁项的步骤,直到所述(n+1)阶频繁项中存在一项的字符长度等于所述基础数据库中每个字符出现的频数的最大值,得到至少一待匹配文本;其中,n为整数,n大于等于1。
4.根据权利要求3所述的方法,其特征在于,所述删除n阶频繁项中频数小于指定频数的字符,具体包括:
统计n阶频繁项中频数的个数,其中,多个相同的频数作为一个频数;
判断频数的个数是否为奇数;
在频数的个数为奇数时,选取频数的中间值作为指定频数,并删除n阶频繁项中频数小于指定频数的字符;
在频数的个数为偶数时,选取大于或等于频数的两个中间值的均值作为指定频数,并删除n阶频繁项中频数小于指定频数的字符。
5.根据权利要求1所述的方法,其特征在于,所述根据匹配结果执行对应的操作,具体包括:
在确定的所述至少一待匹配文本中只存在一个与所述语义文本完全匹配的待匹配文本时,提示用户发出的语音数据是否为与所述语义文本完全匹配的待匹配文本对应的历史语音搜索记录;
接收用户发出的提示反馈信息,判断所述提示反馈信息是否包括确认信息,并在所述提示反馈信息包括确认信息时,执行与所述历史语音搜索记录对应的操作。
6.根据权利要求1所述的方法,其特征在于,所述根据匹配结果执行对应的操作,具体包括:
在确定的所述至少一待匹配文本中存在多个与所述语义文本完全匹配的待匹配文本时,选择一个与所述语义文本完全匹配的待匹配文本,并提示用户发出的语音数据是否为选择的与所述语义文本完全匹配的待匹配文本对应的历史语音搜索记录;
接收用户发出的提示反馈信息,判断所述提示反馈信息是否包括确认信息;
在所述提示反馈信息包括确认信息时,执行与所述历史语音搜索记录对应的操作;
在所述提示反馈信息包括否认信息时,选择另一个与所述语义文本完全匹配的待匹配文本,并提示用户发出的语音数据是否为选择的与所述语义文本完全匹配的待匹配文本对应的历史语音搜索记录,直到与所述语义文本完全匹配的待匹配文本都已选择过。
7.一种语音交互装置,其特征在于,所述装置包括:
语音数据接收单元,用于接收语音数据;
语音数据识别单元,用于将所述语音数据识别为语义文本;
第一语义文本匹配单元,用于将所述语义文本与生成的历史语音搜索记录进行相似度匹配;
基础数据库确定单元,用于将相似度超过指定阈值的历史语音搜索记录作为基础数据库;
待匹配文本确定单元,用于对所述基础数据库进行筛选处理后,确定至少一待匹配文本;
第二语义文本匹配单元,用于将所述语义文本与确定的所述至少一待匹配文本匹配;
操作执行单元,用于根据匹配结果执行对应的操作。
8.根据权利要求6所述的装置,其特征在于,所述待匹配文本确定单元包括:
字符频数统计模块,用于统计所述基础数据库中每个字符出现的频数;
字符选择模块,用于选择频数大于预设阈值的字符,并根据选择的字符确定至少一待匹配文本。
9.根据权利要求8所述的装置,其特征在于,所述字符选择模块包括:
一阶频繁项确定模块,用于统计所述基础数据库中每个字符出现的频数,并根据所述基础数据库中的每个字符确定一阶频繁项;
任意阶频繁项确定模块,用于删除n阶频繁项中频数小于指定频数的字符,并根据删除所述n阶频繁项中频数小于指定频数的字符后的剩余字符确定(n+1)阶频繁项,所述(n+1)阶频繁项中的各个项分别由删除n阶频繁项中频数小于指定频数的字符后的剩余字符中任意(n+1)个字符组成;重复执行删除n阶频繁项中频数小于指定频数的字符,并根据删除所述n阶频繁项中频数小于指定频数的字符确定(n+1)阶频繁项的步骤,直到所述(n+1)阶频繁项中存在一项的字符长度等于所述基础数据库中每个字符出现的频数的最大值,得到至少一待匹配文本;其中,n为整数,n大于等于1。
10.根据权利要求9所述的装置,其特征在于,所述任意阶频繁项确定模块包括:
频数个数统计模块,用于统计n阶频繁项中频数的个数,其中,多个相同的频数作为一个频数;
频数个数判断模块,用于判断频数的个数是否为奇数;
第一指定频数确定模块,用于在频数的个数为奇数时,选取频数的中间值作为指定频数,并删除n阶频繁项中频数小于指定频数的字符;
第二指定频数确定模块,用于在频数的个数为偶数时,选取大于或等于频数的两个中间值的均值作为指定频数,并删除n阶频繁项中频数小于指定频数的字符。
11.根据权利要求7所述的装置,其特征在于,所述操作执行单元包括:
第一提示模块,用于在确定的所述至少一待匹配文本中只存在一个与所述语义文本完全匹配的待匹配文本时,提示用户发出的语音数据是否为与所述语义文本完全匹配的待匹配文本对应的历史语音搜索记录;
第一提示反馈信息接收模块,用于接收用户发出的提示反馈信息,判断所述提示反馈信息是否包括确认信息,并在所述提示反馈信息包括确认信息时,执行与所述历史语音搜索记录对应的操作。
12.根据权利要求7所述的装置,其特征在于,所述操作执行单元包括:
第二提示模块,用于在确定的所述至少一待匹配文本中存在多个与所述语义文本完全匹配的待匹配文本时,选择一个与所述语义文本完全匹配的待匹配文本,并提示用户发出的语音数据是否为选择的与所述语义文本完全匹配的待匹配文本对应的历史语音搜索记录;
第二提示反馈信息接收模块,用于接收用户发出的提示反馈信息,判断所述提示反馈信息是否包括确认信息;
待匹配文本对应的操作执行模块,用于在所述提示反馈信息包括确认信息时,执行与所述历史语音搜索记录对应的操作;
待匹配文本重选择模块,用于在所述提示反馈信息包括否认信息时,选择另一个与所述语义文本完全匹配的待匹配文本,并提示用户发出的语音数据是否为选择的与所述语义文本完全匹配的待匹配文本对应的历史语音搜索记录,直到与所述语义文本完全匹配的待匹配文本都已选择过。
CN201510995698.XA 2015-12-24 2015-12-24 语音交互方法及装置 Active CN105389400B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510995698.XA CN105389400B (zh) 2015-12-24 2015-12-24 语音交互方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510995698.XA CN105389400B (zh) 2015-12-24 2015-12-24 语音交互方法及装置

Publications (2)

Publication Number Publication Date
CN105389400A true CN105389400A (zh) 2016-03-09
CN105389400B CN105389400B (zh) 2020-02-14

Family

ID=55421690

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510995698.XA Active CN105389400B (zh) 2015-12-24 2015-12-24 语音交互方法及装置

Country Status (1)

Country Link
CN (1) CN105389400B (zh)

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106205613A (zh) * 2016-07-22 2016-12-07 深圳智眸科技有限公司 一种导航语音识别方法及系统
CN106503175A (zh) * 2016-11-01 2017-03-15 上海智臻智能网络科技股份有限公司 相似文本的查询、问题扩展方法、装置及机器人
CN106610810A (zh) * 2016-12-06 2017-05-03 深圳市全智达科技有限公司 一种语音输入方法及装置
CN107045873A (zh) * 2016-12-06 2017-08-15 深圳市全智达科技有限公司 一种语音操作方法及装置
CN107578771A (zh) * 2017-07-25 2018-01-12 科大讯飞股份有限公司 语音识别方法及装置、存储介质、电子设备
CN107665710A (zh) * 2016-07-27 2018-02-06 上海博泰悦臻网络技术服务有限公司 移动终端语音数据处理方法及装置
CN107993134A (zh) * 2018-01-23 2018-05-04 北京知行信科技有限公司 一种基于用户兴趣的智能购物交互方法及系统
CN108182229A (zh) * 2017-12-27 2018-06-19 上海科大讯飞信息科技有限公司 信息交互方法及装置
CN108766428A (zh) * 2018-06-01 2018-11-06 安徽江淮汽车集团股份有限公司 一种语音播报控制方法及系统
CN109697244A (zh) * 2018-11-01 2019-04-30 百度在线网络技术(北京)有限公司 信息处理方法、装置及存储介质
CN109741749A (zh) * 2018-04-19 2019-05-10 北京字节跳动网络技术有限公司 一种语音识别的方法和终端设备
CN109903754A (zh) * 2017-12-08 2019-06-18 北京京东尚科信息技术有限公司 用于语音识别的方法、设备和存储器设备
CN109920432A (zh) * 2019-03-05 2019-06-21 百度在线网络技术(北京)有限公司 一种语音识别方法、装置、设备及存储介质
CN111261149A (zh) * 2018-11-30 2020-06-09 海马新能源汽车有限公司 语音信息识别方法和装置
CN111782896A (zh) * 2020-07-03 2020-10-16 深圳市壹鸽科技有限公司 语音识别后文本处理方法、装置和终端
CN113335205A (zh) * 2021-06-09 2021-09-03 东风柳州汽车有限公司 语音唤醒方法、装置、设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1573924A (zh) * 2003-06-20 2005-02-02 PtoPA株式会社 语音识别设备、语音识别方法、会话控制设备以及会话控制方法
CN101609673A (zh) * 2009-07-09 2009-12-23 交通银行股份有限公司 一种基于电话银行的用户语音处理方法及服务器
CN103000173A (zh) * 2012-12-11 2013-03-27 优视科技有限公司 一种语音交互方法及装置
CN103744904A (zh) * 2013-12-25 2014-04-23 北京京东尚科信息技术有限公司 一种提供信息的方法及装置
CN104332159A (zh) * 2014-10-30 2015-02-04 上海修源网络科技有限公司 一种车载语音操作系统人机互动方法及装置
CN105183422A (zh) * 2015-08-31 2015-12-23 百度在线网络技术(北京)有限公司 语音控制应用程序的方法和装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1573924A (zh) * 2003-06-20 2005-02-02 PtoPA株式会社 语音识别设备、语音识别方法、会话控制设备以及会话控制方法
CN101609673A (zh) * 2009-07-09 2009-12-23 交通银行股份有限公司 一种基于电话银行的用户语音处理方法及服务器
CN103000173A (zh) * 2012-12-11 2013-03-27 优视科技有限公司 一种语音交互方法及装置
CN103744904A (zh) * 2013-12-25 2014-04-23 北京京东尚科信息技术有限公司 一种提供信息的方法及装置
CN104332159A (zh) * 2014-10-30 2015-02-04 上海修源网络科技有限公司 一种车载语音操作系统人机互动方法及装置
CN105183422A (zh) * 2015-08-31 2015-12-23 百度在线网络技术(北京)有限公司 语音控制应用程序的方法和装置

Cited By (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106205613A (zh) * 2016-07-22 2016-12-07 深圳智眸科技有限公司 一种导航语音识别方法及系统
CN106205613B (zh) * 2016-07-22 2019-09-06 广州市迈图信息科技有限公司 一种导航语音识别方法及系统
CN107665710A (zh) * 2016-07-27 2018-02-06 上海博泰悦臻网络技术服务有限公司 移动终端语音数据处理方法及装置
CN107665710B (zh) * 2016-07-27 2021-02-09 上海博泰悦臻网络技术服务有限公司 移动终端语音数据处理方法及装置
CN106503175A (zh) * 2016-11-01 2017-03-15 上海智臻智能网络科技股份有限公司 相似文本的查询、问题扩展方法、装置及机器人
CN106503175B (zh) * 2016-11-01 2019-03-29 上海智臻智能网络科技股份有限公司 相似文本的查询、问题扩展方法、装置及机器人
CN106610810A (zh) * 2016-12-06 2017-05-03 深圳市全智达科技有限公司 一种语音输入方法及装置
CN107045873A (zh) * 2016-12-06 2017-08-15 深圳市全智达科技有限公司 一种语音操作方法及装置
CN107578771A (zh) * 2017-07-25 2018-01-12 科大讯飞股份有限公司 语音识别方法及装置、存储介质、电子设备
CN107578771B (zh) * 2017-07-25 2021-02-02 科大讯飞股份有限公司 语音识别方法及装置、存储介质、电子设备
CN109903754A (zh) * 2017-12-08 2019-06-18 北京京东尚科信息技术有限公司 用于语音识别的方法、设备和存储器设备
CN109903754B (zh) * 2017-12-08 2022-04-26 北京京东尚科信息技术有限公司 用于语音识别的方法、设备和存储器设备
CN108182229A (zh) * 2017-12-27 2018-06-19 上海科大讯飞信息科技有限公司 信息交互方法及装置
CN107993134A (zh) * 2018-01-23 2018-05-04 北京知行信科技有限公司 一种基于用户兴趣的智能购物交互方法及系统
CN109741749A (zh) * 2018-04-19 2019-05-10 北京字节跳动网络技术有限公司 一种语音识别的方法和终端设备
CN108766428A (zh) * 2018-06-01 2018-11-06 安徽江淮汽车集团股份有限公司 一种语音播报控制方法及系统
CN109697244A (zh) * 2018-11-01 2019-04-30 百度在线网络技术(北京)有限公司 信息处理方法、装置及存储介质
CN111261149A (zh) * 2018-11-30 2020-06-09 海马新能源汽车有限公司 语音信息识别方法和装置
CN111261149B (zh) * 2018-11-30 2023-01-20 海马新能源汽车有限公司 语音信息识别方法和装置
CN109920432A (zh) * 2019-03-05 2019-06-21 百度在线网络技术(北京)有限公司 一种语音识别方法、装置、设备及存储介质
US11264034B2 (en) 2019-03-05 2022-03-01 Baidu Online Network Technology (Beijing) Co., Ltd Voice identification method, device, apparatus, and storage medium
CN111782896A (zh) * 2020-07-03 2020-10-16 深圳市壹鸽科技有限公司 语音识别后文本处理方法、装置和终端
CN111782896B (zh) * 2020-07-03 2023-12-12 深圳市壹鸽科技有限公司 语音识别后文本处理方法、装置和终端
CN113335205A (zh) * 2021-06-09 2021-09-03 东风柳州汽车有限公司 语音唤醒方法、装置、设备及存储介质
CN113335205B (zh) * 2021-06-09 2022-06-03 东风柳州汽车有限公司 语音唤醒方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN105389400B (zh) 2020-02-14

Similar Documents

Publication Publication Date Title
CN105389400A (zh) 语音交互方法及装置
CN109670163B (zh) 信息识别方法、信息推荐方法、模板构建方法及计算设备
CN103634473B (zh) 基于朴素贝叶斯分类的手机垃圾短信过滤方法与系统
US7756535B1 (en) Lightweight content filtering system for mobile phones
Peng et al. PU text classification enhanced by term frequency–inverse document frequency‐improved weighting
CN108182523A (zh) 故障数据的处理方法和装置、计算机可读存储介质
CN101021838A (zh) 文本处理方法和系统
CN104536647B (zh) 应用图标的位置调整方法及装置
CN103577989A (zh) 一种基于产品识别的信息分类方法及信息分类系统
CN105808583B (zh) 文件类型识别方法及装置
CN103313248A (zh) 一种识别垃圾信息的方法和装置
CN108268438B (zh) 一种页面内容提取方法、装置以及客户端
CN102543078A (zh) 电子名片系统及电子名片的语音录入方法、语音检索方法
CN102193948A (zh) 特征匹配方法和装置
US9075866B2 (en) System and method for providing search keyword list
CN109299235A (zh) 知识库搜索方法、装置及计算机可读存储介质
CN103002103A (zh) 一种短信群发方法和装置
CN106021615A (zh) 题目搜索优化方法及装置
CN104615923A (zh) 终端设备的解锁方法及装置
CN105045882A (zh) 一种热词处理方法及装置
US9607614B2 (en) Terminal, server and information pushing method
CN105933494A (zh) 通讯录联系人排序方法、装置及移动终端
CN112148837A (zh) 维修方案的获取方法、装置、设备及存储介质
Govindarajan A novel framework for evaluating the software project management efficiency–an artificial intelligence approach
CN104850609B (zh) 一种针对跳字类关键词的过滤方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant