CN116306592A

CN116306592A - 一种基于阅读理解的老年痴呆量表纠错方法、系统及介质

Info

Publication number: CN116306592A
Application number: CN202211492719.2A
Authority: CN
Inventors: 张美伟; 崔秋实; 余娟; 吕洋; 余维华; 李文沅; 王香霖; 祝陈哲
Original assignee: Chongqing University; Chongqing Medical University
Current assignee: Chongqing University; Chongqing Medical University
Priority date: 2022-11-25
Filing date: 2022-11-25
Publication date: 2023-06-23

Abstract

本发明公开一种基于阅读理解的老年痴呆量表纠错方法、系统及介质，方法步骤包括：1)获取测试者关于老年痴呆量表的音频，并将测试者音频转录为待纠错文本；2)检索出与待纠错文本相匹配的神经心理量表文本，记为候选字符；3)将与待纠错文本和匹配的候选字符组合成文本对，并输入到BERT预训练模型中，得到待纠错文本Text中每个字符被替换为神经心理量表中第j个字符的条件概率；4)选择从候选字符列表中选择概率最大的字符作为字符的最终输出。系统包括：音频获取及转换模块、候选字符匹配模块、BERT处理模块、纠错模块；本发明结合神经心理量表的语言特点，提出了专有的纠错数据生成方法，弥补了训练数据欠缺的问题。

Description

一种基于阅读理解的老年痴呆量表纠错方法、系统及介质

技术领域

本发明涉及老年痴呆量表测试领域，具体是一种基于阅读理解的老年痴呆量表纠错方法、系统及介质。

背景技术

由于神经心理测试具有一定的主观性，因此痴呆从筛查到诊断难度大，多数综合医院、社区卫生中心、养老机构尚不具备测试能力，从而限制了老年痴呆的正确诊断率，亟待技术突破解决神经心理测试耗时长、主观臆断影响等难题。人工智能技术中的自动语音识别恰好可以从测试效率、准确性等方面解决上述问题，有望将神经心理量表测试在更多社区推广。

因此能精准识别重庆方言的自动语音识别技术，将有助推广痴呆病症的早筛，特别是阿尔兹海默症的早筛。临床研究表明，与老年痴呆和轻度认知障碍相关的可量化的认知下降迹象在患者语言中是可检测到的。机器学习模型已被证明可以成功地使用语音和语言变量检测痴呆，例如从语音识别到的文本中分析句子内容可以推测患者健康状况。由于转录本应该足够准确以正确表示句法和语言特征，因此当前的方法通常依赖于由受过训练的转录员做转录。但这将耗费大量的时间和精力，同时目前任何单一的语音识别算法也无法保证将患者在回答神经心理量表过程中的关键信息识别正确。中文是一个以音节为基本单位的语言，我们也发现了普通话和重庆方言在音节方面的差异，主要对比了声母和韵母的差异，同时，部分老年人的发音存在口齿不清等情况，这对服务于该类用户的语音识别模型提出了更高要求，单模型结构的语音识别模型将很难捕捉到字符的不同发音，在重庆方言的语音识别应用上，其准确率很有限。

输入数据的准确性是自然语言处理常见任务的基本前提，也是将人工智能技术应用在神经心理量表测试中的关键。在业界主流方案中，基于LSTM+CRF的检错技术因受限于依赖大量标注样本而难以普遍落地，而基于N-gram的检错技术也因“硬性”的判别规则造成算法性能低下。中文纠错技术是实现中文语句自动检查、自动纠错的一项重要技术，其目的是提高语言正确性的同时减少人工校验成本。纠错模块作为自然语言处理最基础的模块其重要程度不言而喻。

在通用领域中，中文文本纠错问题是从互联网起始时就一直在寻求解决的问题。在搜索引擎中，一个好的纠错系统能够用户输入的查询词进行纠错提示，或直接展示正确答案。当前由于用户输入随意及手写输入法易出错等原因，错误串在输入文本中占比高达10％-15％，这也使得中文文本纠错模块必要性凸显。而在垂直领域中，比如神经心理量表领域，由于患者的教育程度、说话习惯等原因，导致用户提问与回答存在大量的近隐或同音错误。

业界纠错主流方案一般包括错误检测→候选召回→候选排序三部分或者利用基于机器翻译模型的纠错方法的思想，将纠错任务类比于机器翻译任务，预想利用模型将错误语句翻译为正确语句，利用Seq2seq模型完成端到端的纠正过程。但这些技术都是基于开放领域的纠错。

综上看，针对神经心理量表的语音识别技术，语言模型上有待优化，总结如下：

基于统计的语言模型和语音识别中的语言模型受语料大小影响，效果有限，且统计信息在语义层面表达能力有限。

开放领域的纠错很难收集特定的语料，神经量表的文本领域比较特殊，构建专有的纠错训练数据相对容易。

3)在神经心理量表中，先验问题非常重要，现有发明在纠错中尚未将该信息利用起来。

发明内容

本发明的目的是提供一种基于阅读理解的老年痴呆量表纠错方法，包括以下步骤：

1)获取测试者关于老年痴呆量表的音频，并将测试者音频转录为待纠错文本；

2)在神经心理量表中，检索出与待纠错文本相匹配的神经心理量表文本，记为候选字符；

3)建立BERT预训练模型；

4)将与待纠错文本和匹配的候选字符组合成文本对，并输入到BERT预训练模型中，得到待纠错文本Text中每个字符被替换为神经心理量表中第j个字符的条件概率；

5)选择从候选字符列表中选择概率最大的字符作为字符的最终输出，重复步骤2)至步骤4)，直到解码遇到end字符为止。

进一步，待纠错文本Text中的字符x_i被替换为候选字符表中第j个字符的条件概率Pc(yi＝j|text)如下所示：

P_c(y_i＝j|Text)＝softmax(W*h_i+b)[j] (1)

式中，W和b为权重和偏置参数，

是输入xi的embedding结果；softmat为激活函数；/>

为BERT预训练模型中最后一层隐状态。

进一步，所述BERT预训练模型包括多头注意力层、前向传播层、encoder输出层。

进一步，多头注意力层的输出MultiHead(Q，K，V)如下所示：

MultiHead(Q,K,V)＝Concat(head₁,...,head_h)W^O (2)

式中，W⁰为权重；

其中，参数head_i如下所示：

head_i＝Attention(QW_i ^Q,KW_i ^K,VW_i ^V),i＝1,2,...,h (3)

式中，W_i ^Q、W_i ^K、W_i ^V表示权重；Q＝XW_i ^Q、K＝XW_i ^K、V＝XW_i ^V表示查询向量、键向量和值向量；h为字符数量；

其中，注意力Attention(Q，K，V)如下所示：

式中，d_k表示向量维度。

进一步，前向传播层的输出FFN(x)如下所示：

FFN(x)＝max(0,xW₁+b₁)W₂+b₂ (5)

式中，W₁、W₂表示权重；b₁、b₂表示偏置；

其中，参数x如下所示：

x＝norm(X+MultiHead(Q,K,V)) (6)

式中，X为输入。

进一步，encoder输出层的输出Y如下所示：

Y＝FFN(x) (7)

式中，FFN(x)为前向传播层的输出。

进一步，BERT预训练模型的输入为：

X＝CLS+Question+SEP+Text+End；其中，End表示结束字符；Text为待纠错文本；SEP、CLS为间隔符、句向量；

文本Question如下所示：

Question＝{w₁，w₂，...，w_m}＝encoder(E(w₁),E(w₂),...,E(w_m)) (8)

式中，m表示question包含的字数，encoder表示BERT中的编码器，E表示encoder中对每个字符的处理函数。w_m为字符。

应用基于阅读理解的老年痴呆量表纠错方法的系统，包括音频获取及转换模块、候选字符匹配模块、BERT处理模块、纠错模块；

所述音频获取及转换模块获取测试者关于老年痴呆量表的音频，将测试者音频转录为待纠错文本，并传输至候选字符匹配模块和BERT处理模块；

所述候选字符匹配模块存储有神经心理量表；

所述候选字符匹配模块在神经心理量表中，检索出与待纠错文本相匹配的神经心理量表文本，记为候选字符，并传输至BERT处理模块；

所述BERT处理模块存储有BERT预训练模型；

所述BERT处理模块将与待纠错文本和匹配的候选字符组合成文本对，并输入到BERT预训练模型中，得到待纠错文本Text中每个字符被替换为神经心理量表中第j个字符的条件概率，并传输至纠错模块；

所述纠错模块选择从候选字符列表中选择概率最大的字符作为字符的最终输出，直到解码遇到end字符为止。

一种计算机可读存储介质，其上存储有计算机程序；

当该计算机程序被调用时，执行上述方法的步骤。

本发明的技术效果是毋庸置疑的，本发明针对神经心理量表中的语音识别问题提出了分段式的处理方式，即单独提出一个纠错模型充当语言模型，进而提高准确率

本发明首次提出将神经心理量表中的问题文本作为先验条件，并结合阅读理解模型完成文本纠错。

本发明结合神经心理量表的语言特点，提出了专有的纠错数据生成方法，弥补了训练数据欠缺的问题。

附图说明

图1为纠错流程图；

图2为语音数据处理流程；

图3为模型结构。

具体实施方式

下面结合实施例对本发明作进一步说明，但不应该理解为本发明上述主题范围仅限于下述实施例。在不脱离本发明上述技术思想的情况下，根据本领域普通技术知识和惯用手段，做出各种替换和变更，均应包括在本发明的保护范围内。

实施例1：

参见图1至图3，一种基于阅读理解的老年痴呆量表纠错方法，包括以下步骤：

3)建立BERT预训练模型；

待纠错文本Text中的字符x_i被替换为候选字符表中第j个字符的条件概率Pc(yi＝j|text)如下所示：

P_c(y_i＝j|Text)＝softmax(W*h_i+b)[j] (1)

式中，W和b为权重和偏置参数，

是输入xi的embedding结果；softmat为激活函数；/>

为BERT预训练模型中最后一层隐状态。

所述BERT预训练模型包括多头注意力层、前向传播层、encoder输出层。

多头注意力层的输出MultiHead(Q，K，V)如下所示：

MultiHead(Q,K,V)＝Concat(head₁,...,head_h)W^O (2)

式中，W⁰为权重；

其中，参数head_i如下所示：

head_i＝Attention(QW_i ^Q,KW_i ^K,VW_i ^V),i＝1,2,...,h (3)

其中，注意力Attention(Q，K，V)如下所示：

式中，d_k表示向量维度。

前向传播层的输出FFN(x)如下所示：

FFN(x)＝max(0,xW₁+b₁)W₂+b₂ (5)

式中，W₁、W₂表示权重；b₁、b₂表示偏置；

其中，参数x如下所示：

x＝norm(X+MultiHead(Q,K,V)) (6)

式中，X为输入。

encoder输出层的输出Y如下所示：

Y＝FFN(x) (7)

式中，FFN(x)为前向传播层的输出。

BERT预训练模型的输入为：

文本Question如下所示：

Question＝{w₁，w₂，...，w_m}＝encoder(E(w₁),E(w₂),...,E(w_m)) (8)

术语解释：

MRC:Machine Reading Comprehension阅读理解；

ASR:Automatic Speech Recognition语音识别技术；

NLP：Natural Language Processing自然语言处理；

BERT:预训练语言模型；

AI：Artificial Intelligence人工智能；

LSTM+CRF：长短记忆网络+条件随机场；

Seq2seq：序列到序列；

NLG：Natural Language Generation自然语言生成。

实施例2：

所述候选字符匹配模块存储有神经心理量表；

所述BERT处理模块存储有BERT预训练模型；

实施例3：

一种计算机可读存储介质，其上存储有计算机程序；

当该计算机程序被调用时，执行实施例1所述方法的步骤。

实施例4：

一种基于阅读理解的老年痴呆量表纠错方法，包括以下步骤：

1)根据音频，利用语音识别模型，输出待纠错文本：

2)根据语音识别的文本，检索神经心理量表中与之匹配的文本，将两者组合成文本对，放入BERT预训练模型中。

其中问题处理为：

Question＝{w₁，w₂，...，w_m}＝encoder(E(w₁),E(w₂),...,E(w_m))

其中m表示question包含的字数，encoder表示BERT中的编码器，E表示encoder中对每个字符的处理函数。

待纠错文本处理方式与Question一致，最终输入到BERT的X＝CLS+Question+SEP+Text+End。通过引入三个矩阵完成embedding，具体过程如下，将输入转化为Q,K,V：

Q＝XW^Q,K＝XW^K,V＝XW^V

注意力计算公式：

多头注意力层：

MultiHead(Q,K,V)＝Concat(head₁,...,head_h)W^O

其中:

head_i＝Attention(QW_i ^Q,KW_i ^K,VW_i ^V),i＝1,2,...,h

前向传播层：

FFN(x)＝max(0,xW₁+b₁)W₂+b₂

其中：

x＝norm(X+MultiHead(Q,K,V))

encoder的输出：

Y＝FFN(x)

通过BERT预训练模型之后，对于待纠错文本Text中的字符x_i被替换为候选字符表中第j个字符的条件概率为:

P_c(y_i＝j|Text)＝softmax(W*h_i+b)[j]

其中，W和b为参数，h_i是输入X的embedding结果和BERT中最后一层隐状态

通过残差链接后得到的，即：/>

整个网络的最后一层采用softmax函数，从候选字符列表中选择概率最大的字符作为字符的最终输出，直到解码遇到end字符为止。yi表示待纠错文本Text中的字符x_i被替换为候选字符表中第j个字符。

实施例5：

1)获取所述测试者关于老年痴呆量表的音频，并将测试者音频转录为待纠错文本。

3)建立BERT预训练模型；

实施例6：

一种基于阅读理解的老年痴呆量表纠错方法，主要内容见实施例5，其中，待纠错文本Text中的字符x_i被替换为候选字符表中第j个字符的条件概率P_c(yi＝j|text)如下所示：

P_c(y_i＝j|Text)＝softmax(W*h_i+b)[j] (1)

式中，W和b为权重和偏置参数，

是输入xi的embedding结果；softmat为激活函数；/>

为BERT预训练模型中最后一层隐状态。

实施例7：

一种基于阅读理解的老年痴呆量表纠错方法，主要内容见实施例5，其中，所述BERT预训练模型包括多头注意力层、前向传播层、encoder输出层。

实施例8：

一种基于阅读理解的老年痴呆量表纠错方法，主要内容见实施例5，其中，多头注意力层的输出MultiHead(Q，K，V)如下所示：

MultiHead(Q,K,V)＝Concat(head₁,...,head_h)W^O (2)

式中，W⁰为权重；

其中，参数head_i如下所示：

head_i＝Attention(QW_i ^Q,KW_i ^K,VW_i ^V),i＝1,2,...,h (3)

其中，注意力Attention(Q，K，V)如下所示：

式中，d_k表示向量维度。

实施例9：

一种基于阅读理解的老年痴呆量表纠错方法，主要内容见实施例5，其中，前向传播层的输出FFN(x)如下所示：

FFN(x)＝max(0,xW₁+b₁)W₂+b₂ (5)

式中，W₁、W₂表示权重；b₁、b₂表示偏置；

其中，参数x如下所示：

x＝norm(X+MultiHead(Q,K,V)) (6)

式中，X为输入。

实施例10：

一种基于阅读理解的老年痴呆量表纠错方法，主要内容见实施例5，其中，encoder输出层的输出Y如下所示：

Y＝FFN(x)(7)

式中，FFN(x)为前向传播层的输出。

实施例11：

一种基于阅读理解的老年痴呆量表纠错方法，主要内容见实施例5，其中，BERT预训练模型的输入X＝CLS+Question+SEP+Text+End；其中，End表示结束字符；Text为待纠错文本；SEP、CLS为间隔符、句向量；

文本Question如下所示：

Question＝{w₁，w₂，...，w_m}＝encoder(E(w₁),E(w₂),...,E(w_m)) (8)

式中，m表示question包含的字数，encoder表示BERT中的编码器，E表示encoder中对每个字符的处理函数；w_m为字符。

Claims

1.一种基于阅读理解的老年痴呆量表纠错方法，其特征在于，包括以下步骤：

3)建立BERT预训练模型；

2.根据权利要求1所述的一种基于阅读理解的老年痴呆量表纠错方法，其特征在于，待纠错文本Text中的字符x_i被替换为候选字符表中第j个字符的条件概率P_c(yi＝j|text)如下所示：

P_c(y_i＝j|Text)＝softmax(W*h_i+b)[j] (1)

式中，W和b为权重和偏置参数，

是输入xi的embedding结果；softmat为激活函数；/>

为BERT预训练模型中最后一层隐状态。

3.根据权利要求1所述的一种基于阅读理解的老年痴呆量表纠错方法，其特征在于，所述BERT预训练模型包括多头注意力层、前向传播层、encoder输出层。

4.根据权利要求3所述的一种基于阅读理解的老年痴呆量表纠错方法，其特征在于，多头注意力层的输出MultiHead(Q，K，V)如下所示：

MultiHead(Q,K,V)＝Concat(head₁,...,head_h)W^O (2)

式中，W⁰为权重；

其中，参数head_i如下所示：

head_i＝Attention(QW_i ^Q,KW_i ^K,VW_i ^V),i＝1,2,...,h (3)

其中，注意力Attention(Q，K，V)如下所示：

式中，d_k表示向量维度。

5.根据权利要求3所述的一种基于阅读理解的老年痴呆量表纠错方法，其特征在于，前向传播层的输出FFN(x)如下所示：

FFN(x)＝max(0,xW₁+b₁)W₂+b₂ (5)

式中，W₁、W₂表示权重；b₁、b₂表示偏置；

其中，参数x如下所示：

x＝norm(X+MultiHead(Q,K,V)) (6)

式中，X为输入。

6.根据权利要求3所述的一种基于阅读理解的老年痴呆量表纠错方法，其特征在于，encoder输出层的输出Y如下所示：

Y＝FFN(x) (7)

式中，FFN(x)为前向传播层的输出。

7.根据权利要求1所述的一种基于阅读理解的老年痴呆量表纠错方法，其特征在于，BERT预训练模型的输入X＝CLS+Question+SEP+Text+End；其中，End表示结束字符；Text为待纠错文本；SEP、CLS为间隔符、句向量；

文本Question如下所示：

Question＝{w₁，w₂，...，w_m}＝encoder(E(w₁),E(w₂),...,E(w_m)) (8)

8.应用权利要求1至7任一项所述基于阅读理解的老年痴呆量表纠错方法的系统，其特征在于，包括音频获取及转换模块、候选字符匹配模块、BERT处理模块、纠错模块；

所述候选字符匹配模块存储有神经心理量表；

所述BERT处理模块存储有BERT预训练模型；

9.一种计算机可读存储介质，其特征在于，其上存储有计算机程序；

当该计算机程序被调用时，执行权利要求1至7所述方法的步骤。