CN105721651B - 一种语音拨号方法和设备 - Google Patents

一种语音拨号方法和设备 Download PDF

Info

Publication number
CN105721651B
CN105721651B CN201610034405.6A CN201610034405A CN105721651B CN 105721651 B CN105721651 B CN 105721651B CN 201610034405 A CN201610034405 A CN 201610034405A CN 105721651 B CN105721651 B CN 105721651B
Authority
CN
China
Prior art keywords
user
value
characteristic parameter
voice
parameter value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610034405.6A
Other languages
English (en)
Other versions
CN105721651A (zh
Inventor
匡涛
任晓楠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hisense Group Co Ltd
Original Assignee
Hisense Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hisense Group Co Ltd filed Critical Hisense Group Co Ltd
Priority to CN201610034405.6A priority Critical patent/CN105721651B/zh
Publication of CN105721651A publication Critical patent/CN105721651A/zh
Application granted granted Critical
Publication of CN105721651B publication Critical patent/CN105721651B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/26Devices for calling a subscriber
    • H04M1/27Devices whereby a plurality of signals may be stored simultaneously
    • H04M1/271Devices whereby a plurality of signals may be stored simultaneously controlled by voice recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明公开了一种语音拨号方法和设备,涉及无线通信技术领域,用以解决语音拨号需要用户确认,效率比较低问题。本发明实施例根据采集的第一用户的语音,确定需要呼叫的第二用户;确定采集语音过程中获得的至少一种语音特征参数值,以及第一用户和第二用户的至少一种关系特征参数值;根据确定的至少一种语音特征参数值和确定的至少一种关系特征参数值,确定呼叫概率值;若呼叫概率值大于设定的第一阈值,则直接呼叫第二用户。由于通过语音识别用户要拨打的联系人后,可以根据用户语音拨号时语音的质量和用户与要拨打用户之间的关系等特征值确定用户要给被识别的联系人打电话的概率,在概率足够大时,可以直接拨打电话,无需通知用户确认。

Description

一种语音拨号方法和设备
技术领域
本发明涉及无线通信技术领域,特别涉及一种语音拨号方法和设备。
背景技术
语音识别技术,也被称为ASR(Automatic Speech Recognition,自动语音识别),作用是将人类的语音中的词汇内容转换为计算机可读的输入,例如按键、二进制编码或者字符序列。
语音识别技术发展非常迅速,语音的识别率逐步提高。语音识别技术的应用非常广泛,包括语音拨号、语音导航、室内设备控制、语音文档检索、简单的听写数据录入等。语音拨号为语音识别技术的一种重要应用,手机应用该技术可以识别用户的语音拨号命令,并从语音拨号命令中识别出用户要拨打的联系人的姓名。例如,当用户说“给张楠打电话”,语音拨号系统可以从中识别出联系人“张楠”的文本(也可以是其他与“张楠”拼音相同的文本),并将该文本的拼音与通讯录中的联系人的拼音进行比对,确定联系人中的“张楠”为要拨打电话的联系人,拨通“张楠”的电话。
然而,在实际生活中语音拨号功能被用户使用的频率并不高。由于语音拨号系统识别用户的拨号语音时会收到多种因素影响(如环境噪声、用户的音量等),导致识别用户的语音的识别率降低,语音拨号系统需要用户确认识别的联系人是否正确,降低了语音拨号的效率。
发明内容
本发明提供一种语音拨号方法和设备,用以解决现有技术中存在每次语音拨号都需要用户确认,效率比较低问题。
本发明实施例提供一种语音拨号方法,包括:
根据采集的第一用户的语音,确定需要呼叫的第二用户;
确定采集语音过程中获得的至少一种语音特征参数值,以及所述第一用户和所述第二用户的至少一种关系特征参数值;
根据确定的至少一种语音特征参数值和确定的至少一种关系特征参数值,确定呼叫概率值;
若所述呼叫概率值大于设定的第一阈值,则直接呼叫所述第二用户。
本发明实施例通过语音识别用户要拨打的联系人后,可以根据用户语音拨号时语音的质量和用户与要拨打用户之间的关系等特征值确定用户要给被识别的联系人打电话的概率,在概率足够大时,可以直接拨打电话,无需通知用户确认。
本发明实施例提供一种语音拨号设备,包括:
用户确定模块,用于根据采集的第一用户的语音,确定需要呼叫的第二用户;
参数确定模块,用于确定采集语音过程中获得的至少一种语音特征参数值,以及所述第一用户和所述第二用户的至少一种关系特征参数值;
概率确定模块,用于根据确定的至少一种语音特征参数值和确定的至少一种关系特征参数值,确定呼叫概率值;
呼叫模块,用于在所述呼叫概率值不大于设定的第一阈值时,直接呼叫所述第二用户。
附图说明
图1为本发明实施例提供的一种语音拨号方法;
图2为本发明实施例联系人群组与亲密度关系示意图;
图3为本发明实施例提供一种语音拨号方法的整体流程;
图4为本发明实施例提供的一种语音拨号设备。
具体实施方式
本发明实施例提供一种语音拨号方法,该方法根据采集的第一用户的语音,确定需要呼叫的第二用户;确定采集语音过程中获得的至少一种语音特征参数值,以及所述第一用户和所述第二用户的至少一种关系特征参数值;根据确定的至少一种语音特征参数值和确定的至少一种关系特征参数值,确定呼叫概率值;若所述呼叫概率值大于设定的第一阈值,则直接呼叫所述第二用户。本发明实施例可以根据用户的语音的质量和用户与要拨打用户之间的关系确定用户语音被正确识别的概率,在正确识别的概率足够大时,可以直接拨打电话,无需通知用户确认。
如图1所示,本发明实施例提供一种语音拨号方法,包括:
步骤101,根据采集的第一用户的语音,确定需要呼叫的第二用户;
步骤102,确定采集语音过程中获得的至少一种语音特征参数值,以及所述第一用户和所述第二用户的至少一种关系特征参数值;
步骤103,根据确定的至少一种语音特征参数值和确定的至少一种关系特征参数值,确定呼叫概率值;
若所述呼叫概率值大于设定的第一阈值,则直接呼叫所述第二用户。
本发明实施例的执行主体可以是终端或者网络侧设备,如手机,具有通话功能的平板电脑,通话软件的服务器。
本发明实施例确定需要呼叫的第二用户的方法是从语音拨号标准模板中提取出姓名的文本信息。例如,用户对手机说“给李丽打电话”,语音拨号的模板为“给…打电话”,手机从用户的语音中提取出“李丽”这个姓名的文本信息。
本发明实施例在从用户的语音中提取除姓名的文本信息后,将文本信息中的姓名转化成拼音,利用编辑距离计算公式计算转化得到的拼音与通讯录中每一个联系人的姓名的文本相似度,将文本相似度最高的联系人作为第二用户。
其中,基于编辑距离计算文本相似度的公式为:
其中,ld表示两个字符串之间的编辑距离;
m和n分别为两个字符串的长度。
要获得一个姓名与另外一个姓名的编辑距离ld,需要将两个姓名中包含的字按照顺序比较。例如,要获得“李磊”与“王丽”的编辑距离,需要获得“李”和“王”的编辑距离,再获得“磊”和“丽”的编辑距离,再将两个编辑距离求和。
判断两个字的编辑距离是通过对两个字的声母、韵母和声调进行比较。若两个字的声母、韵母或声调中的一个不同,则两个字的发音的编辑距离为1;若两个不同,则编辑距离为2;若三个不同,则编辑距离为3。
确定编辑距离还需要考虑以下特殊情况:
1、两个字发音区别的声母或韵母发音相似
两个字的声母或韵母有区别,但发音相似,采用小于1的值作为编辑距离。
例如,通过语音识别的张楠(zhang1&nan2),用户通讯录中并无此联系人,但有联系人张兰(zhang1&lan2),张妍(zhang1&yan2)从音节上/nan2/与/lan2/、/yan2/的编辑距离均为1,但是从发音机理角度分析,/nan2/和/lan2/更加近似。
类似的声母和韵母可以包括但不限于以下情况:
/z/与/zh/,/c/与/ch/等,韵母有/in/与/ing/,/en/与/eng/等。
2、声母或韵母发音差异较大
若两个字的声母或韵母不同,但发音差异较大,则编辑距离可以采用大于1的数值。例如:“李磊”和“王强”中,“李”和“王”声母和韵母均不一致,且发音完全不同,按照上位中编辑距离ld的判断规则,“李”和“王”的编辑距离应该为1+1+1=3,但由于“李”和“王”声母和韵母发音差异较大,因此“李”和“王”的编辑距离可以采用大于3的数值。
3、音调差异
音调不同,编辑距离可以采用小于1的数值。
本发明实施例分别获得两个姓名中每一个字的文本相似度后,将所有的文本相似度求和,即可得到两个姓名总的编辑距离,即公式中的ld。
公式中的m和n为姓名的字符串长度,即姓名中包含所有字的字符串长度之和。一个字字符串长度为这个字的拼音包含的字母数量。例如,张的拼音为zhang,包含5个字母,则zhang的字符串长度为5。又例如,张燕的拼音为zhang yan,张燕的字符串长度为5+3=8。
本发明实施例可以在确定第二用户后,确定第一用户与第二用户之间的关系特征参数值和语音的语音特征参数值。其中,确定语音特征参数的步骤可以在确定第二用户之前,同时或者之后。
本发明实施例可以获得多种相互独立的关系特征参数值和语音特征参数值。两种参数相互独立的含义是两种参数的数值互相无影响。
其中,语音特征参数是语音本身的参数,代表用户语音的质量。关系特征参数是第二用户与第一用户之间的关系。
本发明实施例的语音特征参数包括但不仅限于下面几种:
(1)语音的短时平均过零率
语音的短时平均过零率用于评价语音的语速。系统以一定的采样率(例如50Hz)对含有用户声音的部分进行采样,获得多个采样点的数值;并通过端点检测方法将采样的语音中含有有效语音信号提取出来。对有效语音信号进行分帧后(每帧包括时间相邻的128或256个采样点),通过加窗处理获得每帧语音信号的短时过零率。语音信号的短时平均过零率即为多个短时过零率数值的均值。
获得有效语音信号中的一帧短时过零率的方法是根据公式:
其中,sgn[·]中x(k)或x(k-1)语音值等于或大于零,则取为+1(即为正号),若x(k)或x(k-1)小于零则取为-1(负号)。
w(n-k)为窗函数,用于提取其他函数在设定的范围内的值,w(n-k)的非零值范围为n-k≥0,即k≤n;n-k≤N-1,故k≥n-N+1。N为一帧语音包含的采样点数,可以为128也可以为256。因此式可写为:
本发明实施例获得有效语音信号中每帧采样点的短时过零率后,用每帧采样点对应的短时过零率求平均获得求得整段语音的短时平均过零率。
例如,语音的有效语音信号中包括两帧语音信号,通过计算,两帧语音信号的短时过零率分别为a和b,则语音的短时平均过零率为(a+b)/2。
语音的短时平均过零率公式表示如下:
其中,M代表有效语音信号包含语音的帧数,Zt代表有效语音信号第t帧的短时过零率。
(2)语音的倒谱特征均值
语音的倒谱特征均值用于评估一段语音中的环境噪声强度。通常,纯净语音在倒谱域的均值接近于0,那么带噪语音倒谱特征均值主要表现为语音在信号传输过程中信道卷积噪声和加性噪声在倒谱域的均值。获得一段语音的倒谱均值可以通过需要对整段语音信号进行分帧(分帧方法如上文中语音的短时平均过零率处所述),通过加窗处理获得每一帧的倒谱值,然后再取平均,获得语音的倒谱特征均值。
其中,对于语音x(n),倒谱定义为时间序列的z变换的模的对数的逆z变换,即
c(n)=z-1[ln|z(x(n))|] (5)
写成傅里叶变换的形式为:
本发明实施例用于计算倒谱均值的语音为经过系统采样的语音,语音的一帧的倒谱均值对应的离散形式的计算公式为
假设Ct(i)表示第t帧语音的第i个采样点的倒谱特征值。N代表语音中包含的所有帧的数量。mi表示语音的倒谱特征均值,根据迭代计算法来求取语音其他帧的倒谱均值mt
对其他帧的倒谱均值mt,向前滑动窗宽N,根据式(7)更新mt
mt(i)=γ·mi-1(i)+(1-γ)·Ct(i) (8)
其中γ是更新步长,γ与N的关系如式(5)所示:
最终可以获得所有帧的倒谱均值,对语音的所有帧的倒谱均值再求平均值,得到语音的倒谱均值。
(3)语音的能量均值
语音的能量均值用于评估语音的音量。
根据上文中语音的短时平均过零率处所述的方法对整段语音进行分帧。
语音的一帧的短时能量定义为:
获得语音每一帧的短时能量,对所有帧的短时能量求和再取平均值可以获得语音的能量均值。
(4)语音的幅度均值
语音的幅度均值也用于评估语音的音量。
根据上文中语音的短时平均过零率处所述的方法对整段语音进行分帧。
语音的的一帧的短时幅度定义为:
获得语音每一帧的短时幅度,对所有帧的短时幅度求和再取平均值可以获得语音的幅度均值。
(5)语音与第二用户名称的文本相似度
确定方式如上文公式(1)中所述,不再赘述。
本发明实施例的关系特征参数包括但不仅限于下面几种:
(1)距本次拨号在设置时长内第一用户与第二用户之间通话次数占总拨号次数的比例
(2)距本次拨号在设置时长内第一用户与第二用户之间通话时长占总通话时长的比例
(3)距本次拨号在设置时长内第一用户与第二用户之间短信数目占总短信数目的比例
(1)(2)(3)三种参数表示用户与第二用户的联系频率。设置时长可由用户设定。通话频率越高、通话时间越久,发送短信数量越多,则用户拨号给该联系人的可能性越高。
实例应用中,用户近一月内(设置时长)的总通话(来电+去电)数200次,通话时长为100分钟,发送和接收的短信数目为100条,本发明实施例在确定第二用户后,确定第一用户在最近一个月与第二用户通话次数为20次,通话时间10分钟,发送短信20条。则第一用户与第二用户之间通话时长占总通话时长的比例为20/200=0.1,第一用户与第二用户之间通话时长占总通话时长的比例为10/100=0.1,第一用户与第二用户之间短信数目占总短信数目的比例为20/100=0.2。
(4)亲密度
该特征值用于表示第一用户与第二用户之间的关系紧密程度。第一用户与第二用户之间的关系可以包括但不限于下列关系:
家人、同事、亲戚、同学、朋友和其他。
与用户关系越近可以分配越高的亲密度,例如家人的亲密度为1,亲戚的亲密度为0.7。
本发明实施例可以通过两种方式确定第一用户与第二用户的关系:
方式一、根据所述第二用户在通讯录中所属的群组类型
通常的终端均有群组设置,如朋友、家人、同事、同学等,用户可以根据个人习惯进行群组的添加和命名(如图2所示)。其中,σ1~n为群组的亲密度数值,n为所设立的群组个数,用户可以设置不同群组的亲密度数值。
因而第一用户可以根据第二用户所属的群组类型可以确定第二用户与第一用户的关系,进而确定亲密度。
可选的,第一用户和第二用户之间的亲密度按照第一用户与第二用户之间的关系的取值可参照下表1。
群组 亲密值
家人 1
同事 0.9
亲戚 0.7
同学 0.8
朋友 0.8
其他 0.5
表1
方式二、根据所述第二用户在通讯录中的名称
若用户没有将第二用户在群组分类,终端可以根据用户名称中包含的头衔确定第一用户与第二用户之间的关系,不同种类的关系对应一定的亲密度。例如,“张经理”同事或合作伙伴关系;“王丽老师”师长或家长与老师的关系,“快递张师傅”社会服务关系,可以根据上述关系分别确定与关系对应亲密度。
若通过第二用户所在群组和用户的名称都无法确定第二用户与第一用户之间的关系,则把第二用户分到“其他”类别。
综上所述。本发明实施例确定呼叫概率需要考虑的参数,包括下列但不限于下列语音特征参数和关系特征参数部分或者全部:
所述语音的平均过零率、所述语音的倒谱特征均值、所述语音的能量均值,所述语音的幅度均值,所述语音与第二用户名称的文本相似度,设置时长内第一用户与第二用户之间通话次数占比,设置时长内第一用户与第二用户之间通过时长占比,设置时长内第一用户与第二用户之间短信数目占比,第一用户与第二用户之间的亲密值。
本发明实施例可以通过逻辑回归模型根据上述参数确定呼叫概率。逻辑回归模型为:
其中,g(x)=β01x12x2+…+βmxm(m为用户语音拨号的语音特征参数和关系特征参数的个数之和)。其中,β0=0,x1~xm中的任一个代表语音特征参数或关系特征参数中的一种。β1~βm代表与x1~xm分别对应的权值。其中,β1~βm是根据用户的多次语音拨号的样本确定的。
例如,语音拨号系统识别到语音的短时过零率均值为0.1,语音过零率的权值为1, 语音信号的倒谱均值为0.05,权值为4,另外还是别到第二用户所述群组与第一用户之间的 亲密度为1,权值为0.5,则呼叫概率为
本发明实施例可以根据语音和逻辑回归模型获得本次拨打对应的呼叫概率。确定呼叫概率后,语音拨号系统可以根据呼叫概率、第一阈值和第二阈值确定具体的拨号动作。语音拨号系统可以执行下列三种动作中的一种:
(1)直接拨号,
若所述呼叫概率值大于设定的第一阈值,则直接呼叫所述第二用户。
(2)请求用户确认拨号
若所述呼叫概率值在所述第一阈值和第二阈值之间,则提示用户是否呼叫所述第二用户;其中,所述第二阈值小于第一阈值;
(3)取消拨号
若所述呼叫概率值不大于第二阈值,则取消呼叫所述第二用户。
第一阈值和第二阈值可以是用户设定的,也可以是提供系统的服务商设定的。
可选的,第一阈值的推荐值为0.8,第二阈值的推荐值为0.5。若呼叫概率>0.8,则直接拨号,若呼叫概率在0.5~0.8之间则通知用户确定是否拨号,若呼叫概率<0.5,则取消拨号。
本发明实施例逻辑回归模型中的权值β1~βm可以通过用户多次语音拨号的样本确定。获得样本的方法是:用户使用语音拨号系统进行一定数量的语音拨号,语音拨号系统记录每次拨号时语音,并根据语音确定语音对应的“x1,x2...xm”、用户是否拨打的结果y。当用户确认拨打则y=1,否则y=0。
根据样本可以得到逻辑回归模型中的权值β1~βm似然估计:
其中,g(x)=β01x12x2+…+βmxm
pi=P(yi=1|xi)为给定条件下得到yi=1(即pi=1)的概率;在同样条件下得到yi =0(即pi=0)的条件概率为P(yi=0|xi)=1-pi,可得到观测值的概率为:
xi为x1,x2...xm(即语音的语音特征参数和关系特征参数)中的一个。
根据m个观测的似然函数,使得这一似然函数的值最大的参数估计,最大似然估计就是求出参数β123,…,βm使得上式取得最大值。得到的β123,…,βm即为x1~xm分别对应的权值。
如图3所示,本发明实施例提供一种语音拨号方法的整体流程,包括:
步骤301,终端根据采集的第一用户的语音,确定第二用户;
步骤302,终端根据采集的所述语音确定语音的语音特征参数,并确定表示第一用户与第二用户之间关系的关系特征参数;
步骤303,终端将所有语音特征参数值与对应的权值相乘,以及将所有关系特征参数值与对应的权值相乘,得到的数值相加得到参数和值;利用逻辑回归模型,根据所述参数和值确定所述呼叫概率值;
步骤304,终端根据呼叫概率、第一阈值和第二阈值确定执行的动作:若所述呼叫概率值大于设定的第一阈值,则执行步骤305;若所述呼叫概率值在第一阈值和第二阈值之间,则执行步骤306;若所述呼叫概率值不大于第二阈值,则执行步骤307;
步骤305,终端直接呼叫所述第二用户;
步骤306,终端请求用户确认拨号,若确认拨号,则呼叫第二用户;反之,取消拨号;
步骤307,终端取消拨号。
基于同一发明构思,本发明实施例中还提供了一种语音拨号方法,由于该设备对应的方法是本发明实施例系统中的方法,并且设备解决问题的原理与本发明实施例的系统相似,因此设备的实施可以参见系统的实施,重复之处不再赘述。
如图4所示,本发明实施例提供一种语音拨号设备,包括:
用户确定模块401,用于根据采集的第一用户的语音,确定需要呼叫的第二用户;
参数确定模块402,用于确定采集语音过程中获得的至少一种语音特征参数值,以及所述第一用户和所述第二用户的至少一种关系特征参数值;
概率确定模块403,用于根据确定的至少一种语音特征参数值和确定的至少一种关系特征参数值,确定呼叫概率值;
呼叫模块404,用于在所述呼叫概率值不大于设定的第一阈值时,直接呼叫所述第二用户。
可选的,所述呼叫模块404,还用于:
若所述呼叫概率值在所述第一阈值和第二阈值之间,则提示用户是否呼叫所述第二用户;其中,所述第二阈值小于第一阈值。
可选的,所述呼叫模块404,还用于:
若所述呼叫概率值不大于第二阈值,则取消呼叫所述第二用户。
可选的,所述概率确定模块403,具体用于:
针对一种语音特征参数值,将所述语音特征参数值与对应的权值相乘,以及针对一种关系特征参数值,将所述关系特征参数值与对应的权值相乘,得到的数值相加作为呼叫概率值。
可选的,所述概率确定模块403具体用于:
获取用户的至少一次语音拨号的样本;其中,语音拨号的样本包括:至少一种语音特征参数值和至少一种关系特征参数值;
利用所述样本中语音特征参数值和所述语音特征参数值,通过所述逻辑回归模型进行似然估计,确定所述语音特征参数值对应的权值以及所述关系特征参数值对应的权值;
其中,所述逻辑回归模型包含所述语音特征参数和所述关系特征参数。
可选的,所述语音特征参数值的种类包括下列的部分或全部:
所述语音的短时平均过零率、所述语音的倒谱特征均值、所述语音的能量均值,所述语音的幅度均值,所述语音与第二用户名称的文本相似度;
所述关系特征参数值包括下列参数值中的部分或全部:
距本次拨号在设置时长内第一用户与第二用户之间通话次数占总拨号次数的比例;
距本次拨号在设置时长内第一用户与第二用户之间通话时长占总通话时长的比例;
距本次拨号在设置时长内第一用户与第二用户之间短信数目占总短信数目的比例;
第一用户与第二用户之间的亲密值。
可选的,所述关系特征参数值的种类包括第一用户与第二用户之间的亲密值;
所述参数确定模块402,具体用于:
确定所述第一用户和所述第二用户之间的关系类型;
根据预先设定的关系类型和亲密值的对应关系,确定所述第一用户和所述第二用户之间的关系类型对应的亲密值。
可选的,所述参数确定模块402,具体用于:
根据所述第二用户在通讯录中所属的群组类型,确定所述第一用户和所述第二用户之间的关系类型;或
根据所述第二用户在通讯录中的名称,确定所述第一用户和所述第二用户之间的关系类型。
从上述内容可以看出:本发明实施例提供一种语音拨号方法,本方法根据采集的第一用户的语音,确定需要呼叫的第二用户;确定采集语音过程中获得的至少一种语音特征参数值,以及所述第一用户和所述第二用户的至少一种关系特征参数值;根据确定的至少一种语音特征参数值和确定的至少一种关系特征参数值,确定呼叫概率值;若所述呼叫概率值大于设定的第一阈值,则直接呼叫所述第二用户。由于本发明实施例通过语音识别用户要拨打的联系人后,可以根据用户语音拨号时语音的质量和用户与要拨打用户之间的关系等特征值确定用户要给被识别的联系人打电话的概率,在概率足够大时,可以直接拨打电话,无需通知用户确认。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (8)

1.一种语音拨号方法,其特征在于,包括:
根据采集的第一用户的语音,确定需要呼叫的第二用户;
确定采集语音过程中获得的至少一种语音特征参数值,以及所述第一用户和所述第二用户的至少一种关系特征参数值;
根据确定的至少一种语音特征参数值和确定的至少一种关系特征参数值,确定呼叫概率值;
若所述呼叫概率值大于设定的第一阈值,则直接呼叫所述第二用户;
其中,根据确定的至少一种语音特征参数值和确定的至少一种关系特征参数值,确定呼叫概率值,包括:
针对一种语音特征参数值,将所述语音特征参数值与对应的权值相乘,以及将针对一种关系特征参数值,将所述关系特征参数值与对应的权值相乘,得到的数值相加得到参数和值;
利用逻辑回归模型,根据所述参数和值确定所述呼叫概率值。
2.如权利要求1所述的方法,其特征在于,确定呼叫概率值之后,还包括:
若所述呼叫概率值在所述第一阈值和第二阈值之间,则提示用户是否呼叫所述第二用户;其中,所述第二阈值小于第一阈值。
3.如权利要求1所述的方法,其特征在于,根据下列方式确定语音特征参数值对应的权值,以及关系特征参数值对应的权值:
多次获取用户的语音拨号的样本;其中,语音拨号的样本包括:语音拨号是否呼叫成功、至少一种语音特征参数值和至少一种关系特征参数值;
分别根据每个样本中的所述语音拨号是否呼叫成功,确定样本呼叫概率值;
利用逻辑回归模型,根据确定的样本呼叫概率值、所述样本中的语音特征参数值和所述语音特征参数值进行最大似然估计,确定所述语音特征参数值对应的权值以及所述关系特征参数值对应的权值。
4.如权利要求1~3任一所述的方法,其特征在于,所述语音特征参数值的种类包括下列的部分或全部:
所述语音的平均过零率、所述语音的倒谱特征均值、所述语音的能量均值,所述语音的幅度均值,所述语音与第二用户名称的文本相似度;
所述关系特征参数值包括下列参数值中的部分或全部:
设置时长内第一用户与第二用户之间通话次数占比;
设置时长内第一用户与第二用户之间通过时长占比;
设置时长内第一用户与第二用户之间短信数目占比;
第一用户与第二用户之间的亲密值。
5.一种语音拨号设备,其特征在于,包括:
用户确定模块,用于根据采集的第一用户的语音,确定需要呼叫的第二用户;
参数确定模块,用于确定采集语音过程中获得的至少一种语音特征参数值,以及所述第一用户和所述第二用户的至少一种关系特征参数值;
概率确定模块,用于针对一种语音特征参数值,将所述语音特征参数值与对应的权值相乘,以及针对一种关系特征参数值,将所述关系特征参数值与对应的权值相乘,得到的数值相加得到参数和值;利用逻辑回归模型,根据所述参数和值确定所述呼叫概率值;
呼叫模块,用于在所述呼叫概率值不大于设定的第一阈值时,直接呼叫所述第二用户。
6.如权利要求5所述的设备,其特征在于,所述呼叫模块,还用于:
若所述呼叫概率值在所述第一阈值和第二阈值之间,则提示用户是否呼叫所述第二用户;其中,所述第二阈值小于第一阈值。
7.如权利要求5所述的设备,其特征在于,所述概率确定模块具体用于:
多次获取用户的语音拨号的样本;其中,语音拨号的样本用于:语音拨号是否呼叫成功、至少一种语音特征参数值和至少一种关系特征参数值;
分别根据每个样本中的所述语音拨号是否呼叫成功,确定样本呼叫概率值;
利用逻辑回归模型,根据确定的样本呼叫概率值、所述样本中的语音特征参数值和所述语音特征参数值进行最大似然估计,确定所述语音特征参数值对应的权值以及所述关系特征参数值对应的权值。
8.如权利要求5-7任一所述的设备,其特征在于,所述语音特征参数值的种类包括下列的部分或全部:
所述语音的平均过零率、所述语音的倒谱特征均值、所述语音的能量均值,所述语音的幅度均值,所述语音与第二用户名称的文本相似度;
所述关系特征参数值用于下列参数值中的部分或全部:
设置时长内第一用户与第二用户之间通话次数占比;
设置时长内第一用户与第二用户之间通过时长占比;
设置时长内第一用户与第二用户之间短信数目占比;
第一用户与第二用户之间的亲密值。
CN201610034405.6A 2016-01-19 2016-01-19 一种语音拨号方法和设备 Active CN105721651B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610034405.6A CN105721651B (zh) 2016-01-19 2016-01-19 一种语音拨号方法和设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610034405.6A CN105721651B (zh) 2016-01-19 2016-01-19 一种语音拨号方法和设备

Publications (2)

Publication Number Publication Date
CN105721651A CN105721651A (zh) 2016-06-29
CN105721651B true CN105721651B (zh) 2018-10-26

Family

ID=56147784

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610034405.6A Active CN105721651B (zh) 2016-01-19 2016-01-19 一种语音拨号方法和设备

Country Status (1)

Country Link
CN (1) CN105721651B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106911829B (zh) * 2017-03-09 2018-07-27 维沃移动通信有限公司 一种根据语音输入进行对象查找的方法及移动终端
CN106953959A (zh) * 2017-04-18 2017-07-14 深圳和家园网络科技有限公司 一种基于拼音匹配的电话拨号方法
CN108711437A (zh) * 2018-03-06 2018-10-26 深圳市沃特沃德股份有限公司 语音处理方法和装置
CN109671436A (zh) * 2018-12-07 2019-04-23 陈包容 智能语音识别通讯录联系人人名的方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102739869A (zh) * 2012-06-26 2012-10-17 华为终端有限公司 语音查找目标联系人的信息的方法及终端
CN103594085A (zh) * 2012-08-16 2014-02-19 百度在线网络技术(北京)有限公司 一种提供语音识别结果的方法及系统
CN103794211A (zh) * 2012-11-02 2014-05-14 北京百度网讯科技有限公司 一种语音识别方法及系统
CN103903612A (zh) * 2014-03-26 2014-07-02 浙江工业大学 一种实时语音识别数字的方法
CN104010059A (zh) * 2014-06-09 2014-08-27 深圳市中兴移动通信有限公司 一种移动终端及其实现拨打电话的方法和装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013126541A1 (en) * 2012-02-21 2013-08-29 Starscriber Corporation Methods and systems for providing efficient telecommunications services

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102739869A (zh) * 2012-06-26 2012-10-17 华为终端有限公司 语音查找目标联系人的信息的方法及终端
CN103594085A (zh) * 2012-08-16 2014-02-19 百度在线网络技术(北京)有限公司 一种提供语音识别结果的方法及系统
CN103794211A (zh) * 2012-11-02 2014-05-14 北京百度网讯科技有限公司 一种语音识别方法及系统
CN103903612A (zh) * 2014-03-26 2014-07-02 浙江工业大学 一种实时语音识别数字的方法
CN104010059A (zh) * 2014-06-09 2014-08-27 深圳市中兴移动通信有限公司 一种移动终端及其实现拨打电话的方法和装置

Also Published As

Publication number Publication date
CN105721651A (zh) 2016-06-29

Similar Documents

Publication Publication Date Title
CN108737667B (zh) 语音质检方法、装置、计算机设备及存储介质
US11935540B2 (en) Switching between speech recognition systems
US10672383B1 (en) Training speech recognition systems using word sequences
US20210233530A1 (en) Transcription generation from multiple speech recognition systems
US20220122587A1 (en) Training of speech recognition systems
US10771627B2 (en) Personalized support routing based on paralinguistic information
CN108682420B (zh) 一种音视频通话方言识别方法及终端设备
CN105721651B (zh) 一种语音拨号方法和设备
CN107818798A (zh) 客服服务质量评价方法、装置、设备及存储介质
US20170323643A1 (en) Method for Speaker Diarization
CN106847305B (zh) 一种处理客服电话的录音数据的方法及装置
US20100070276A1 (en) Method and apparatus for interaction or discourse analytics
US9711167B2 (en) System and method for real-time speaker segmentation of audio interactions
CN109767787A (zh) 情绪识别方法、设备及可读存储介质
US20090228268A1 (en) System, method, and program product for processing voice data in a conversation between two persons
CN111489765A (zh) 一种基于智能语音技术的话务服务质检方法
CN116665676B (zh) 一种用于智能语音外呼系统的语义识别方法
CN106796803A (zh) 用于在音频通信中将语音数据与背景数据分离的方法和装置
Gupta et al. Speech feature extraction and recognition using genetic algorithm
CN113744742A (zh) 对话场景下的角色识别方法、装置和系统
CN112614510B (zh) 一种音频质量评估方法及装置
CN111640423B (zh) 一种词边界估计方法、装置及电子设备
CN110933236B (zh) 一种基于机器学习的空号识别方法
Huber et al. Single-ended speech quality prediction based on automatic speech recognition
CN113593580A (zh) 一种声纹识别方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant