CN101086843A

CN101086843A - 一种应用于语音问答系统中的句子相似度识别方法

Info

Publication number: CN101086843A
Application number: CNA2006100121317A
Authority: CN
Inventors: 李成荣; 高倩倩
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2006-06-07
Filing date: 2006-06-07
Publication date: 2007-12-12

Abstract

本发明公开一种应用于语音问答系统中的句子相似度识别方法，尤其是一种考虑了口语特点和语音识别结果准确性的句子相似度识别方法，它包括首先用关键词组合表示常问问题知识库中的问题，然后在语音识别结果中提取出关键词，与常问问题知识库中的问题匹配得到候选问题集，最后用句子相似度计算公式确定与该识别结果匹配的问题的步骤。本发明解决了背景技术语音问答系统中用户语音输入具有口语特点和语音识别结果并非完全正确的问题，通过使用本发明关键词组合的方式表示问题，以及应用恰当的句子相似度计算公式，使得在语音识别结果不是完全正确的情况下仍然能够得到比较准确的句子相似度值，能够较为准确地得到用户意图。

Description

一种应用于语音问答系统中的句子相似度识别方法

技术领域

本发明属于属于计算机技术领域，涉及语音问答系统，尤其涉及一种应用于语音问答系统中的句子相似度识别方法，特别是一种考虑了口语特点和语音识别结果准确性的句子相似度识别方法。

背景技术

句子相似度的计算是自动问答系统中一个重要的理论基础。在基于常问问题集(Frequently-Asked Question，简称FAQ)的问答系统中，FAQ知识库作为自动问答系统的一个组成部分，它把用户经常提问的问题和相关答案保存起来。对于用户输入的问题，首先在FAQ知识库中查找答案，如果能够找到相应的问题，就直接将问题所对应的答案返回给用户。其中关键在于计算用户查询和FAQ知识库中问题的相似度，从而找到FAQ知识库中与用户查询最为相似的问题，这是一个句子相似度计算的过程。

随着语音识别技术的成熟，用语音作为人机交互的手段成为可能，于是出现了语音问答系统。它和一般的问答系统相比有两个突出的特点：(1)语音输入的句子具有口语特点；(2)用户的输入经过语音识别后结果不是百分之百准确，并且语音识别率与周围环境有关，当噪声较大时识别率会显著下降。由于传统的句子相似度计算方法是针对准确的文字输入，没有考虑到以上两个特点，所以有必要设计一种专门针对语音问答系统的句子相似度计算方法。

发明内容

为了解决上述背景技术的问题，本发明的目的在于：考虑了语音问答系统中用户语音输入口语化这一特征，使得对于口语化的句子仍然能够得到比较准确的句子相似度值，为此，本发明提供一种应用于语音问答系统中句子相似度的识别方法。

本发明的又一目的在于提供一种应用于语音问答系统中的句子相似度识别方法，它考虑了语音问答系统中语音识别结果不是百分之百准确这一事实，使得在语音识别结果不是完全正确的情况下仍然能够得到比较准确的句子相似度值。

本发明的目的是这样实现的：

一种应用于语音问答系统中的句子相似度识别方法，它包括首先用关键词组合表示FAQ知识库中的问题，然后在语音识别结果中提取出关键词，与FAQ知识库中的问题匹配得到候选问题集，最后用句子相似度计算公式确定句子相似度与该语音识别结果匹配的问题。

所述的用关键词组合表示FAQ知识库中的问题是指：从FAQ知识库的问题中提取出最能表达该句意义的一个或者几个词作为关键词，用这些词的组合表示常问问题集知识库中的这一问题。本发明的方法考虑到：

(1)口语表达比较随意，经常会在句子中添加一些没有意义的口语词，这些词对于句子意义的理解没有太大的作用；

(2)人类在用语音交流的过程中，并不需要将每一个字都听得很清楚，而只需要听懂句子中最关键的词，就可以理解整句话的意思，所以在很多情况下只要分析语音识别结果中的关键词就可以确定用户的意图，除关键词以外的其它部分识别错误并不会严重影响对于用户意图的判断。

所述的从语音识别结果中提取出关键词，与FAQ知识库中的问题匹配得到候选问题集是指：设置语音识别结果中共有n个关键词为W₁，W₂，…，W_n，FAQ知识库中共有m个问题，第i(1≤i≤m)个问题含有n_i个关键词为Q₁，Q₂，…，Q_ni；从语音识别结果的关键词组合中任选k(1≤k≤n)个词组成序列为W_m1，W_m2，…，W_mj，W_mj+1，…，W_mk，其中1≤j≤k-1，m_j＜_m+1，1≤mj≤n，如果该词序列与第i(1≤i≤m)个问题中的关键词组合序列相同，则把第i个问题认为是与用户当前输入语句相匹配的句子之一，将其加入候选问题集。

所述的用句子相似度计算公式确定与该识别结果匹配的问句是指：计算语音识别结果与候选问题集中各个问题的相似度，取出最大相似度值所对应的问题，认为是与该语音识别结果匹配的问题；计算句子相似度的公式如下：

设置语音识别结果W中共有n个关键词(W₁、W₂、…、W_n)，候选问题集中某个问题Q含有k关键词，从识别结果W中取出k(1≤k≤n)个词组成的序列(W_m1，W_m2，…，W_mj，W_mj+1，…，W_mk)，其中(1≤j≤k-1，m_j＜m_j+1，1≤m_j≤n)，与问题Q匹配，则语音识别结果W与问题Q的相似度如下：

Similarity (W, Q) = 0.7 (k - 0.75 Σ_{j = 1}^{k - 1} (m_{j + 1} - m_{j} - 1)) / n + 0.3 Σ_{j = 1}^{k} m_{j} / Σ_{m = n - k + 1}^{n} m

这一相似度计算公式遵循以下三条原则：

(1)“向后”原则：

“向后”原则是指：如果语音识别结果同时与多个问题匹配，此时优先选择与语音识别结果中比较靠后的关键词组合匹配的问题。

主要考虑到以下两种情形：

人们在用口语表达的过程中，因为是边想边说，所以难免会有表达错误或者突然改变意图的时候，此时就可能会出现用语句后面的部分来纠正或替代前面部分的情形。

例如：你多大，哦不，你叫什么？

有一些问句较长，多数情况下，句子的重点是在语句中比较靠后的部分。

例如：你好，你叫什么名字？

(2)“偏多”原则

“偏多”原则是指：包含关键词较多的问题要优先于包含关键词较少的问题。因为包含关键词较多的问题能够更准确的确定用户的意图。

(3)“紧凑”原则

“紧凑”原则是指：在语音识别结果的关键词序列中，词间距离较近的关键词组合所匹配的问题要优先于距离较远的关键词组合所匹配的问题。这里的词间距离是指关键词在语音识别结果中所处的位置。

例如“你好叫什么名字”中，“你好”和“叫什么”之间的距离比“你好”和“名字”之间的距离要近。

设计这一原则是因为，当关键词之间相距过远时，由于它们之间还有别的关键词，所以有时虽然它们的组合能够与某一问题匹配，但是实际上并不是表达该问题所指的意图。另外考虑到语音识别的正确率不是百分之百，可能某一语音识别错误的关键词与距离较远的其它一个或几个关键词组合之后，与系统中某一问题匹配，此时应该对这些候选的问题赋予较低的置信度。

公式中前半部分

0.7 (k - 0.75 Σ_{j = 1}^{k - 1} (m_{j + 1} - m_{j} - 1)) / n

体现了“偏多”原则“紧凑”原则，词间距离越小，

Σ_{j = 1}^{k - 1} (m_{j + 1} - m_{j} - 1)

就越小，该公式取值越大，问题中包括的关键词数目越多，k值就越大，该公式取值越大。当语音识别结果W中n个关键词正好与问题Q相匹配时，k＝n，

Σ_{j = 1}^{k - 1} (m_{j + 1} - m_{j} - 1) = 0,

0.7 (k - 0.75 Σ_{j = 1}^{k - 1} (m_{j + 1} - m_{j} - 1)) / n

取得最大值0.7；公式中后半部分

0.3 Σ_{j = 1}^{k} m_{j} / Σ_{m = n - k + 1}^{n} m

主要体现了“向后”原则，语音识别结果W中与问题Q相匹配的关键词越靠后，

Σ_{j = 1}^{k} m_{j}

的值就越大，公式取值越大，当语音识别结果中最后k个连续的关键词组成的序列与问题Q相匹配时，

Σ_{j = 1}^{k} m_{j} = Σ_{m = n - k + 1}^{n} m,

0.3 Σ_{j = 1}^{k} m_{j} / Σ_{m = n - k + 1}^{n} m

取得最大值0.3。

从本发明的上述技术方案分析可知，这种应用于语音问答系统中的句子相似度计算方法，解决了背景技术语音问答系统中用户语音输入具有口语特点和语音识别结果并非完全正确这一事实，通过使用本发明关键词组合的方式表示问题，以及应用恰当的句子相似度计算公式，使得在语音识别结果不是完全正确的情况下仍然能够得到比较准确的句子相似度值，能够较为准确地得到用户意图。

附图说明

通过以下结合附图的详细描述，本发明的上述和其它方面、特征和优点将变得更加显而易见。

图1是本发明一种应用于语音问答系统中的句子相似度识别方法示意图

具体实施方式

下面对本发明作具体说明。应该指出，所描述的实施例仅仅是为说明的目的，而不是对本发明的限制。

本发明可在普通计算机上实现。在应用本发明前，需要先将输入的语音经过语音识别算法得到语音识别结果。

本发明的实现可以分为以下几个步骤：

步骤S1：利用计算机从FAQ知识库的问题中提取出最能表达该句意义的一个或者几个词作为关键词，用这些词的组合表示这一问题：

例如：对于问题“请问你叫什么名字”，可以选取“叫什么”和“名字”作为关键词，用关键词组合“叫什么名字”来表示问题“请问你叫什么名字”。

步骤S2：利用计算机从语音识别结果中提取出关键词，与FAQ知识库中的问题匹配得到候选问题集。具体方法如下：

设语音识别结果中共有n个关键词(W₁，W₂，…，W_n)，FAQ知识库中共有m个问题，第i(1≤i≤m)个问题含有n_i个关键词(Q₁，Q₂，…，Q_ni)。从语音识别结果的关键词组合中任选k(1≤k≤n)个词组成序列(W_m1，W_m2，…，W_mj，W_mj+1，…，W_mk)，其中(1≤j≤k-1，m_j＜m_j+1，1≤m_j≤n)，如果该词序列与第i(1≤i≤m)个问题中的关键词组合序列相同，则把第i个问题认为是与用户当前输入语句相匹配的句子之一，将其加入候选问题集。

步骤S3：利用计算机计算语音识别结果与候选问题集中各个句子的相似度，取出最大的相似度值所对应的问题，认为是与该语音识别结果匹配的问题。

计算句子相似度的公式如下：

设语音识别结果W中共有n个关键词(W₁、W₂、…、W_n)，候选问题集中某个问题Q含有k个关键词，从语音识别结果W中取出k(1≤k≤n)个词组成的序列(W_m1，W_m2，…，W_mj，W_mj+1，…，W_mk)，其中(1≤j≤k-1，m_j＜m_j+1，1≤m_j≤n)，与问句Q匹配，则语音识别结果W与问句Q的相似度计算公式如下：

Similarity (W, Q) = 0.7 (k - 0.75 Σ_{j = 1}^{k - 1} (m_{j + 1} - m_{j} - 1)) / n + 0.3 Σ_{j = 1}^{k} m_{j} / Σ_{m = n - k + 1}^{n} m

具体实施例为：

例1：

用户输入：你好，那个请问你叫什么名字呀？

语音识别结果：你好是吗请问你叫什么名字

步骤S1：涉及到三个FAQ知识库中的问题：“你好”、“你叫什么”、“请问你叫什么名字”，它们分别用关键词组合“你好”、“叫什么”、“叫什么名字”来表示；

步骤S2：从语音识别结果中提取关键词，得到关键词组合：“你好叫什么名字”，此时，n＝3，W₁＝你好，W₂＝叫什么，W₃＝名字，

当k＝1时，序列一：你好 m₁＝1

序列二：叫什么 m₁＝2

序列三：名字 m₁＝3

当k＝2时，

序列四：你好叫什么 m₁＝1，m₂＝2

序列五：你好名字 m₁＝1，m₂＝3

序列六：叫什么名字 m₁＝2，m₂＝3

当k＝3时，

序列七：你好叫什么名字 m₁＝1，m₂＝2，m₃＝3

按照上述方法可以找到三个问题作为候选。其中序列一与问题一相匹配，序列二与问句二相匹配，序列六与问题三相匹配。

问题一：“你好”

问题二：“叫什么”

问题三：“叫什么名字”

步骤S3：计算句子相似度。

问题一： n＝3，k＝1，m₂＝1；Similarity(W，Q)＝0.333

问题二： n＝3，k＝1，m₁＝2；Similarity(W，Q)＝0.433

问题三： n＝3，k＝2，m₁＝2，m₂＝3；Similarity(W，Q)＝0.767

因为问题三对应的相似度值最大，所以就认为问题三与用户意图相匹配。从例1可以看出，通过使用该种相似度计算方法，忽略了口语中的“那个”这一没有意义的词，语音识别结果中错误的部分“是吗”没有对用户意图的判断造成影响，根据“向后”原则准确的理解了用户的意图。

例2：

用户输入：什么时候你出生的

语音识别结果：什么时候本事出生的

步骤S1：涉及到两个FAQ知识库中的问题：“你有什么本事”、“你是什么时候出生的”，它们分别用关键词组合“本事”、“时候出生”来表示；

步骤S2：从语音识别结果中提取关键词，得到关键词组合：“时候本事出生”，此时，n＝3，W₁＝时候，W₂＝本事，W₂＝出生

当k＝1时，

序列一：时候 m₁＝1

序列二：本事 m₁＝2

序列三：出生 m₁＝3

当k＝2时，

序列四：时候本事 m₁＝1，m₂＝2

序列五：时候出生 m₁＝1，m₂＝3

序列六：本事出生 m₁＝2，m₂＝3

当k＝3时，

序列七：时候本事出生 m₁＝1，m₂＝2，m₃＝3

按照上述方法可以找到两个问句作为候选。其中序列二与问题一相匹配，序列五与问题二相匹配。

问题一：“本事”

问题二：“时候出生”

步骤S3：计算句子相似度。

问题一： n＝3，k＝1，m₁＝2；Similarity(W，Q)＝0.433

问题二： n＝3，k＝2，m₁＝1，m₂＝3；Similarity(W，Q)＝0.532

因为问题二对应的相似度值最大，所以就认为问题二与用户意图相匹配。从例2可以看出，通过使用该种相似度计算方法，语音识别结果中错误的部分“本事”没有对用户意图的判断造成影响，根据“偏多”原则准确的理解了用户的意图。

上面描述是用于实现本发明及其实施例，本领域普通技术人员可以根据实际情况确定多种实现方法，因此，本发明的范围不应由该描述来限定。本领域的技术人员应该理解，在不脱离本发明的范围的任何修改或局部替换，均属于本发明权利要求来限定的范围。

Claims

1、一种应用于语音问答系统中的句子相似度识别方法，其特征在于：所述方法包括如下步骤：

步骤a：用关键词组合表示常问问题集知识库中的问题；

步骤b：在语音识别结果中提取出关键词，与常问问题集知识库中的问题匹配得到候选问题集；

步骤c：用句子相似度计算公式确定句子相似度与语音识别结果匹配的问题。

2、根据权利要求1所述的应用于语音问答系统中的句子相似度识别方法，其特征在于，所述步骤a的具体步骤如下：从常问问题集知识库的问题中提取出最能表达该句意义的一个或者几个词作为关键词，用这些词的组合表示常问问题集知识库中的问题。

3、根据权利要求1所述的应用于语音问答系统中的句子相似度识别方法，其特征在于，所述步骤b确定候选问题集的具体步骤如下：

设置语音识别结果中有n个关键词为W₁，W₂，...，W_n；

常问问题集知识库中有m个问题，第i个问题含有n_i个关键词为Q₁，Q₂，...，Q_ni，其中1≤i≤m；

从语音识别结果的关键词组合中任选k个词组成序列为W_m1，W_m2，...，W_mj，W_mj+1，...，W_mk，其中1≤k≤n，1≤j≤k-1，m_j＜m_j+1，1≤m_j≤n；

如果该词序列与第i个问题中的关键词组合序列相同，则把第i个问题认为是与用户当前输入语句相匹配的句子之一，将其加入候选问题集。

4、根据权利要求1所述的应用于语音问答系统中的句子相似度识别方法，其特征在于：所述步骤c的具体步骤如下：根据句子相似度计算公式计算语音识别结果与候选问题集中各个句子的相似度，取出最大相似度值所对应的问题，认为是与该语音识别结果匹配的问题。

5、根据权利要求1和4所述的应用于语音问答系统中的句子相似度识别方法，其特征在于：所述句子相似度计算步骤如下：

设置语音识别结果W中有n个关键词为W₁、W₂、...、w_n，候选问题集中某个问题Q含有k个关键词，从语音识别结果W中取出k个词组成的序列为W_m1，W_m2，...，W_mj，W_mj+1，...，W_mk，与问题Q的问句匹配，其中1≤k≤n，1≤j≤k-1，m_j＜m_j+1，1≤m_j≤n，则语音识别结果W与问题Q的问句相似度计算公式如下：

Similarity (W, Q) = 0.7 (k - 0.75 Σ_{j = 1}^{k - 1} (m_{j + 1} - m_{j} - 1)) / n + 0.3 Σ_{j = 1}^{k} m_{j} / Σ_{m = n - k + 1}^{n} m .