CN103179122B

CN103179122B - 一种基于语音语义内容分析的防电信电话诈骗方法和系统

Info

Publication number: CN103179122B
Application number: CN201310094237.6A
Authority: CN
Inventors: 马博
Original assignee: Individual
Current assignee: Individual
Priority date: 2013-03-22
Filing date: 2013-03-22
Publication date: 2015-11-18
Anticipated expiration: 2033-03-22
Also published as: CN103179122A

Abstract

本发明涉及一种基于语音语义内容分析的防电信电话诈骗方法和系统，通过提高通话中语音和语义识别的效率和准确率，并且使用中文语义判定技术判定并对陌生电话发送者是否为诈骗电话。具体而言，通过对双方通话过程中使用本发明提出的大词汇量、非特定人的连续语音识别？(LVCSR)算法对语音进行解析，并且针对解析出来的关键字或者关键数字进行判定,利用算法构造策略引擎，使用算法在云服务端对通话方的语句意思进行解析并且归类，同时针对语音中的关键信息进行解析，同步匹配通话者所在银行的信息，判定是否为可疑电话诈骗。总体来讲，本方法，特别是能够有效地阻止电话诈骗的发生，特别是通过语音语义识别和判定的方式，加上云平台信息挖掘匹配方式保护用户安全，并且在语音识别速率，可疑电话检出率上也能满足正常的使用。

Description

一种基于语音语义内容分析的防电信电话诈骗方法和系统

技术领域

本发明涉及一种基于语音语义内容分析的防电信电话诈骗方法和系统，具体涉及基于电话语音语义内容识别判定诈骗或不良内容的方法和系统。

背景技术

美国的卡耐基梅隆大学在二十世纪八十年代制作的SPHINX系统率先实现了语音识别中非特定人、连续语音、大词汇量的识别技术。随后美国的IBM公司的Tangora5000，能够在其识别系统的词选识别率达到了97％，同时其公司的ViaVoice和Microsoft微软公司的SpeechSDK等产品都实现了中文语音识别，并且同时提供中文语音识别的开发包。同时在德国、法国等欧洲国家，也建造了许多很有特色的连续语音识别系统。

而在国内，中文的语音识别取得很大的进展。国家“863”计划把大词汇量语音识别的研究列入其计划之内。有突出代表的安徽科大讯飞公司在语音识别方面拥有40多项发明专利。

具体来讲，在语义解析上，中国各大高校研究所在研究发明上都有所建树，现有的语音和语义解析结合的公司如虫洞、科大讯飞、搜狗搜索、小i机器人、神州图骥等公司的产品。现在主要的语义识别产品使用的方法大致有三类，有基于倾向向量空间模型表示算法，有利用文本的语法，有语义、语用相结合的SOVR算法进行语句解析的，有通过SVM支持向量机和决策树算法的中文语法解析的算法。但现在并没有把语音语义，云计算和通信技术相结合的防电信欺骗产品问世。

在防电信诈骗领域中，只有几家公司拥有类似专利,这些专利只是单纯利用交换机信令消息或者追溯电话短信来源的方式对电信诈骗进行防范，并没有使用语音语义对通话内容解析，只是单纯的对通话源是否大量呼叫进行判断，也不能自动在通话中进行防范检测，并且无法对没有加入黑名单的诈骗电话准确检测，容易产生误判。

本专利的防电信电话诈骗系统则是把网络通信，中文语音解析和语义解析等技术综合，从内容上切实分析和防范电信电话诈骗，其检测的速度，时效性和准确度都较其他方法高。

发明内容

本专利提出的方法拟解决的问题，主要是对识别到的语音进行分析识别，同时对解析到的语句进行语句意思的识别，最后通过云计算平台和数据挖掘技术进行查找匹配并判定是否为诈骗行为从而实现对电话诈骗进行识别。

(1)电话输入的语音输入到通话语音输入模块，这个模块负责处理收到的通话语音并通过TCP/IP方式连接语音处理模块并把语音输入到后者。

(2)语音处理模块，主要是进行语音片段分割和对应字符匹配的预处理，该模块包括形式转换子模块，声学子模块，语音语法子模块和预处理引擎子模块。其中形式转换子模块负责对语音进行编码转换。声学子模块和语音语法子模块负责通过声学检索算法对声音进行特征匹配，预处理引擎子模块负责对匹配到的候选词通过本地数据导入方式输入到搜索轨迹中以便进行下一步的语义匹配处理。

(3)在搜索轨迹模块中，把语音处理模块输出的匹配结果备词进行语义解析并且对词义进行搜索匹配，之后通过本地数据导入方式输入到语义处理搜索模块。

(4)语义处理搜索模块包括声音段组合子模块，关键字解析子模块，和搜索引擎子模块。其中搜索引擎子模块把搜索轨迹模块输出的数据经过组合形成正确的词或者句子，然后通过关键字解析子模块识别并找出的语句中的敏感词区域方便随后的云处理模块处理，随后声音段组合子模块负责处理检查找到的敏感词对应的声音片段是否和库中的声音样本组合的片段类似，最后通过TCP/IP网络输出到云处理模块进行外部处理。

(5)云处理模块包括语义匹配处理子模块，业务处理引擎子模块，声学数据库子模块，外部数据库匹配子模块，告警预处理子模块和事件备份子模块。语义匹配处理子模块把语义处理搜索模块输出的信息进行语义查找，随后业务处理引擎子模块对找到的敏感关键字或者关键句进一步识别出意思，并且识别到关键字符或数字输入到外部匹配子模块进行查找，告警预处理子模块和事件备份子模块负责对用户，外部系统产生报警并且记录事件日志。

附图说明

图1：防电信电话诈骗处理模块概要图

图2：语音语义识别及告警处理流程图

具体实施方式

本发明提供了一种基于电话语音语义内容分析的防电信电话诈骗方法和系统，具体来讲，通过包括以下步骤实现上述方法和系统：

步骤1：在语音处理阶段，设语音序列W＝w₁,w₂...w_N输入到库中，通过形式转换器转换成参数化的语音波形S＝s₁,s₂...s_N，则语音波形建立概率P(W|S),可以根据语音样本库模型计算出P(S)，然后可以通过P(W|S)建立模型M，有隐形马尔科夫过程(HMM)得出的联合概率P(W,S|M),随后通过声学模型和语音语法匹配器进行参数匹配。

在预处理引擎中，建立合适的声音样本库，包括对声音特征的提取，使用梅尔域频率倒谱系数(Mel-FrequencyCepstralCoefficients,MFFCC)做倒谱分析来提取特征，为了实现敏感字的语音和语义相结合，使用HMM方式：

a)初始化：

S_i(i)＝δ_iq_i(λ₁)；2≤i≤N

b)迭代计算:

S_{i} (i) = [Σ_{i = 1}^{N} S_{j - 1} (t) S_{i j}] q_{i} (λ_{j}); 2 \leq i \leq N

在中，S_j-1(t)为马尔科夫矩阵中j-1点在时间t过程的值域，S_ij为S在i和j的区间，q_i(λ_j)为其向量在i点的调整参数函数，参数为λ_j。

c)得出匹配结果:

其中是马尔科夫过程中预处理音阶段λ的n次方在迭代在λ音阶段的特定点概率，为其中过程概率值的期望，概率P(s|q,λ)分别为第q个相似音符在检测的语音样本变量s的概率和预处理音阶段λ下发生的联合概率，其中期望是基于S|O,λ^N的概率情况产生的，其中S|O是O个相似音符在语音样本模板S的概率，λ^N为预处理音阶段λ的N次迭代下发生的概率。

步骤2：在声学处理中，通过最小化语音差错(MPE)步骤设计其分类器，在分类器中，使用区分函数对语音差错中的分类差错进行解决或者减少，其中有直接差分函数和间接差分函数两种，直接差分函数对语音中分类检索区段进行直接检索分类，既：

其中是输入语音区域值，m_tj是m_t下j维的空间，并且y_tj是向量y_t的j维空间。并且有正部分和负部分，来设置分类检索率：

其中是在最小化语音差错分类器在i维语音搜索空间下的时间向量t的转换特征。

MPE的直接差分处理中可以用基于高斯m的对数临近域状态s在时间向量t下的卷积：

得到MPE下的概率范围κ使得其中是在第q个相似音弧的对数概度，而γ_stm(t)是高斯覆盖率，其中是定点概率在y_tj是t时间j段空间的差分，而是通过引入的高斯覆盖参数l_smt产生的差分,那么在高斯参数中需要更新参数，针对直接差分处理函数，能够使用：

其中是通过马尔可夫过程得到的语音区域值，其通过差分过程得到，其中M_num和M_decent分别是马尔可夫过程的量化和降序排列过程，而是求期望过程，O是差分极限值。

在处理高斯差分函数对参数更新的变迁中，需要对其中的概率模型进行差分处理，使用对进入预处理引擎的音阶段进行线性排序并且重组，然后使用线性参数对出现的的线性部分进行处理，其中函数中，是线性排序函数，而λ为未处理的音阶段，λ′则是通过线形排序中的降序排列处理过的音阶段，具体处理使用公式：

上述的公式主要是对语音片段预处理，先对声音片段排序并且匹配，在匹配阶段，对于语语音语法搜索，需要对声音边界做边界切分，可以使用如下公式：

其中ω_i＝(ω_i1，ω_i2，...ω_iK)′是高斯边界混合权值的调整参数，是基于高斯分布的交叉熵(相对熵)。如果需要得出语法边界计算的高斯核，或者关键语音字符特征区域，就要分别计算切分边界域和则有：

其中为高斯语音特征核区域，t是时间变量，r()是计算覆盖率函数。

然后可以通过计算得出特征区域边界范围，可以对语音片段切割和检索并且进行语句连接。

判定语音特征核区界后，就要减小音节匹配差错，从而使语音和字符相匹配，虽然在最小化语音差错(MPE)分类器中已经对原来的语音样本进行了分类，通过参数化调整检查匹配选中的字符：

在上式中，权值参数ω和匹配修正函数之间的关系可以定义为而其中有概率而音节匹配平均正确率等价于

c_{a v e r a g e}^{r} = ω \frac{\underset{s : q &Element; s ρ λ}{Σ} {(O | s)}^{ω} P {(s)}^{ω} A (s, s_{r})}{\underset{u ρ λ}{Σ} {(O | t)}^{ω} P {(t)}^{ω}},

而对于边界参数ρ有等价

ρ = \frac{\underset{s : q &Element; s ρ λ}{Σ} {(O | s)}^{k} P {(s)}^{k}}{\underset{u ρ λ}{Σ} {(O | s)}^{k} P {(s)}^{k}} .

步骤3：通过语音段匹配和参数调整，得到了基本的对应关系，可以组合成语音段词，接下来在搜索轨迹中，就要把可能类似的词进行列举，并且通过搜索引擎匹配查找出能和上下文匹配的正确词组，并且组成句子，而对组成的句子，则通过关键字解析器找出敏感词，通过声学数据库对敏感词对应的句子做匹配检查，确保正确率。

设(p,q)为两个已经识别出的邻接的词组。通过线性检索，找到敏感词的最大匹配域的数对，而最大相似域距离为通过数对有关系(p,q)∈P_τ×Q(θ)并且有：

D(p||q)的最小化值只有当下式成立时，p和q能够达到：

q (x | y) = \arg \underset{g_{θ} &Element; Q (θ)}{m a x} L (T, g_{θ})

r(x|y)＝q(x|y)

其中q(x|y)为x|y期望的函数q,为参数化过程函数L(T,g_θ)得出的最大公倍值，其中T为拟定时间,g_θ为音阶度量域值。p的参数和q建立如下等价关系，来得出最大匹配域数对的关系：

其中为最大相似域距离中t时间下最小约值，即时间t和q的最大公倍数，其中t∈P_t，P_t为t时间内识别出的词组，其中t可以展开为词对函数f(y)和词对函数r(x|y)的逐个匹配时间乘积，其中x|y为词x和y的距离。

这样可以通过线性搜索找到两个相邻词对或者数对，并且找到他们最可能的匹配组合，比如：线性规划这两个词，我们可以有几个匹配词段，如线性，现行，显性，线形等几个识别到的候选词，而后面那个词，有几个匹配词段如规划，桂花，鬼话，归化，规化。通过(p,q)关系，找到先验关系，可以搜索到最大相似域中的组合为线性规化和线性规化还有线性规划，而线形规化组合有的匹配数值明显高于其他组合，则决定线性规划是最终识别到的词组。而句子之间的关联也用如下关系得出。

步骤4：在云处理阶段，当上述步骤找到了词关系结构和句子结构，既得出了语义匹配结果，则把上述的结果输出到业务处理引擎中，通过业务处理引擎和外部的银行信息系统匹配，而这个信息输入到银行内部的信息系统，通过银行系统对比，如果查出账户信息或者某些信息有异，则银行系统反馈信息到因业务处理引擎中，通过业务处理引擎的处理，输入到公安的信息系统等，以便公安处理或者产生联动，同时对接收通话的用户在接受通话时产生告警音，结束通话后产生告警信息。

本算法可以在原来语音以及语义识别的基础上提高语音通话内容的判定速度，阻止并且直接使用特征模板匹配等方式提高电话诈骗的检出速度，同时能够配合金融公安等部门系统进行联动，达到更加精准的电话诈骗判定。

本专利提出的方法和系统有益效果主要有：其一使用形成算法，在识别引擎中进行判定，从而对用户通话内容中涉及到的关于诈骗相关的敏感关键字和关键句进行解析；其二，对历史数据中一些可疑诈骗用户的电话号码来源，电话中提及的银行账号和户主来源或者其他假冒公司的来源进行检查，能够检出并且在通话或阅读短信中阻止用户受骗上当；其三，针对语音和语义识别的方法，本方法专门针对此类特殊事件，识别针对性强，语音检测速度和检测准确度高，能够满足用户防电信电话诈骗的需求。

Claims

1.一种基于语音语义内容分析的防电信电话诈骗方法，其特征在于包括以下步骤：

a)利用声学与语法匹配方式匹配声波特征，把语音序列输入到语音样本库中；

b)通过形式转换器转换成参数化的语音波形，对语音波形建立概率模型,根据语音样本库模型计算出模型期望；

c)通过建立的概率模型建立样本模型；

d)通过计算样本模型的隐马尔科夫过程得出的联合概率,随后通过声学模型和语音语法匹配器进行参数匹配；

e)建立声音样本库，对非特定人群和电信电话中的通话发出者声音特征进行提取，使用梅尔域频率倒谱系数做倒谱分析；

f)使用隐马尔科夫过程模型检测语音输入，通过大词汇量、非特定人的连续语音识别(LVCSR)算法计算得出匹配结果；

g)通过最小化语音差错值M_ij计算在区间i和j间对语音片段形成的分类；

h)使用区分函数对语音差错中的分类差错进行距离递减，对语音中分类检索区段进行直接检索分类，对马尔科夫过程中的输入语音区域值设置分类检索率；

i)最小化语音差错的直接差分处理，使用高斯m的对数临近域状态s在时间向量t下计算卷积；

j)通过对调整参数迭代递减，对进入预处理引擎的音阶段进行线性排序并且重组，然后使用线性参数对出现的的线性部分进行处理，函数中是基于马尔可夫过程(MMI)的线性排序函数，而λ为未处理的音阶段，λ'则是通过线形排序中的降序排列处理过的音阶段；

k)对语音片段预处理，先对声音片段排序并且匹配，在对语语音语法处理的搜索结果做划分，找到语音核心域后对声音边界做边界切分；

l)通过计算得出特征区域边界范围，可以对语音片段切割和检索并且进行语句连接；

m)完成判定语音特征核区界后，通过直接差分函数进行参数化调整检查匹配选中的字符的方式,其中是定点概率在y_tj空间的差分，通过直接差分减小音节匹配差错；

n)通过语音段匹配和m步骤中的参数化调整，得到匹配前字符和匹配后选中字符两者的对应关系，并且使其组合成语音段词；

o)把相似的词进行列举，并且通过搜索引擎匹配查找出能和上下文匹配的正确词组，并且组成句子；

p)对形成的子句，通过关键字解析器找出敏感词；

q)通过声学数据库对敏感词对应的句子做匹配检查；

r)设(p,q)为两个已经识别出的邻接的词组，通过线性检索，找到敏感词的最大匹配域的数对，而最大相似域距离为

s)通过数对建立关系，通过计算得到的最小值；

t)使用线性搜索找到两个相邻词对或者数对，并且找到最大值匹配值词组；

u)在云处理阶段，通过词关系结构和句子结构，得出语义匹配结果；

v)把匹配结果输出并和外部的信息系统匹配，通过对比，如果查出黑名单中有该通话发出者的账户信息或者违法记录信息，则反馈信息到其他外部系统，以便后期立案处理；

w)对正在接收通话的用户在通话中产生告警音，结束通话后发送告警短信或信息。

2.根据权利要求1的基于语音语义内容分析的防电信电话诈骗方法，其特征在于，按以下方法构建大词汇量、非特定人的连续语音识别(LVCSR)算法：

a)初始化：

S_i(i)＝δ_iq_i(λ₁)；2≤i≤N

其中S_i(i)为检测的第i次语音样本模板，δ_i为第i个语音段对应权值参数，q_i(λ₁)为搜索中在第i个语音段的概率阀值；

b)通过迭代计算出样本具体对应的解码相对路径:

S_{i} (i) = [Σ_{i = 1}^{N} S_{j - 1} (t) S_{i j}] q_{i} (λ_{j}); 2 \leq i \leq N

在中，S_j-1(t)为马尔科夫矩阵中j-1点在时间t过程的值域，S_ij为S在i和j的区间，q_i(λ_j)为其向量在i点的调整参数函数，参数为λ_j；

c)得出匹配结果:

3.根据权利要求1的基于语音语义内容分析的防电信电话诈骗方法，其特征在于，按以下方法计算最小化语音差错的直接差分的卷积：

得到最小化语音差错MPE下的概率范围k使得其中是在第q个相似音弧的对数概度，而γ_stm(t)是高斯覆盖率，其中是定点概率在y_tj是t时间j段空间的差分，而是通过引入的高斯覆盖参数l_smt产生的差分。

4.根据权利要求1的基于语音语义内容分析的防电信电话诈骗方法，其特征在于，按以下方法计算参数化调整检查匹配遴选字符的方式减小音节匹配差错：

在上式中，权值参数w和匹配修正函数有等价关系而其中是对梅尔频谱匹配结果在logp(q)的偏导，即的参数化调整，

ω \frac{\underset{s : q &Element; s ρ λ}{Σ} {(O | s)}^{ω} P {(s)}^{ω} A (s, s_{r})}{\underset{u ρ λ}{Σ} {(O | t)}^{ω} P {(t)}^{ω}}

中

\underset{s : q &Element; s ρ λ}{Σ} {(O | s)}^{ω} P {(s)}^{ω} A (s, s_{r})

分别为语音样本变量s在O个相似音符的ω次概率还有s样本本身出现ω次概率还有s到s_r的组合的三个概率分布，是t时间下的ω次概率分布，p(q)是以词组p为模板抽出词组q的概率，logp(q)中log对数以2为基底，S:q∈sρλ中语音样本模板S中一个词组q属于语音样本变量s和边界参数ρ和预处理音阶段λ的积，uρλ是加权参数u和边界参数ρ和预处理音阶段λ的积。

5.根据权利要求1的基于语音语义内容分析的防电信电话诈骗方法，其特征在于，按以下方法计算得到的最小约值：

q (x | y) = \arg \underset{g_{θ} &Element; Q (θ)}{m a x} L (T, g_{θ})

r(x|y)＝q(x|y)

其中q(x|y)为x|y期望的函数为参数化过程函数L(T,g_θ)得出的最大公倍值，其中T为拟定时间,g_θ为音阶度量域值，p的参数和q建立如下等价关系，来得出最大匹配域数对的关系：

6.一种实现权利要求1所述一种基于语音内容的防电信电话诈骗方法的系统，其特征在于包括以下模块：

a)通话语音输入模块：该模块负责处理收到的通话语音并且输入到语音处理模块；

b)语音处理模块，包含声学子模块，语音语法子模块，形式转换子模块和预处理引擎子模块；

c)搜索轨迹模块负责对语音处理模块输出的匹配结果备份并输入到语义处理及搜索模块；

d)语义处理搜索模块包括声音段组合子模块，关键字解析子模块，和搜索引擎子模块；

e)云处理模块包括语义匹配处理子模块，业务处理引擎子模块，声学数据库子模块，外部数据库匹配子模块，告警预处理子模块和事件备份子模块；

所述通话语音输入模块和语音处理模块之间，语义处理搜索模块和云处理模块之间通过TCP/IP方式相互连接；语音处理模块，搜索轨迹模块和语义处理搜索模块之间通过本地数据导入方式实现连接。

7.根据权利要求6所述的系统，其特征在于，所述语音处理模块主要是进行语音片段分割和对应字符匹配的预处理；形式转换子模块负责对语音进行编码转换；声学子模块和语音语法子模块负责通过声学检索算法对声音进行特征匹配，预处理引擎子模块负责对匹配到的候选词输入到搜索轨迹中以便进行下一步的语义匹配处理。

8.根据权利要求6所述的系统，其特征在于，所述的搜索引擎子模块负责组合出正确的词或者句子，关键字解析子模块负责处理找到识别到的语句中的敏感词，声音段组合子模块负责处理检查找到的敏感词对应的声音片段是否和库中的声音样本组合的片段类似。

9.根据权利要求6所述的系统，其特征在于，所述的语义匹配处理子模块和业务处理引擎子模块主要负责对敏感关键字或者关键句识别意思，并且识别到关键字符或数字输入到外部匹配子模块进行查找，告警预处理子模块和事件备份子模块负责对用户，外部系统产生报警并且记录事件日志。