CN112214586B

CN112214586B - 一种用于辅助调查访谈的语料库积累方法

Info

Publication number: CN112214586B
Application number: CN202011089200.0A
Authority: CN
Inventors: 姚占雷; 周谦豪; 许鑫
Original assignee: East China Normal University
Current assignee: East China Normal University
Priority date: 2020-10-13
Filing date: 2020-10-13
Publication date: 2022-06-28
Anticipated expiration: 2040-10-13
Also published as: CN112214586A

Abstract

本发明公开了一种用于辅助调查访谈的语料库积累方法，其特点是采用领域语料向通用语料有条件转化的积累机制的方法，将频繁出现新的相似语料的领域语料转化为通用语料，其情景化的语料库积累具体包括：接收用户输入、通用语料的追加积累、领域情景语料的追加积累和领域语料向通用语料有条件转化的积累等步骤。本发明与现有技术相比具领域语料库和通用语料库分离并存，进一步明确领域专有语料的边界，降低建立基于专家知识的规则的信息抽取系统的成本，有助于提供包含领域针对性的训练数据，提高基于机器学习的信息抽取系统的准确率，为实现情景化的调查访谈辅助系统提供数据基础。

Description

一种用于辅助调查访谈的语料库积累方法

技术领域

本发明涉及自然语言处理技术领域，尤其是一种基于领域情景访谈语料的用于辅助调查访谈的语料库积累方法。

背景技术

调查访谈资料的后续处理一般依赖于调查人员手工完成。随着科技发展，访谈资料的记录和初步整理工作可以交由具备音频录制功能的软硬件和语音识别转写程序完成。

目前，相关的调查访谈辅助系统大多采用通用语料库，基于常见通用语料进行规则定义或机器学习实现，通用语料库为用于存储适用于大多数访谈场景的不同问句和对应的答句列表的数据库或数据表，该访谈辅助技术对一般通用场景下的访谈语音转换、处理和分析效果较佳。但对特定专有领域的访谈语音处理，由于领域情景语料的匮乏，情景化的访谈资料的转写处理难以实现，访谈语音转换、处理及分析效果一般。领域情景语料库为用于存储适用于特定类型的访谈场景的不同问句、其相似次数和对应的答句列表的数据库或数据表。由于领域情景语料的匮乏，尤其专门的领域访谈语料库更为匮乏。

现有技术的自然语言处理缺少可以针对性地采集处理领域情景访谈语料，专门的领域访谈语料库目前较为匮乏。因此，现有的访谈辅助技术对一般通用场景下的访谈语音转换、处理和分析效果较佳，但对特定专有领域的访谈语音处理效果很差。

发明内容

发明的目的是针对现有技术的不足而设计的一种用于辅助调查访谈的语料库积累方法，采用领域语料向通用语料有条件转化的积累机制的方法，实现针对特定访谈场景的领域情景语料的积累，以及结合相似语料的出现频率和用户设定阈值将频繁出现新的相似语料的领域语料转化为通用语料，使得领域语料库和通用语料库分离并存，进一步明确领域专有语料的边界，降低建立基于专家知识的规则的信息抽取系统的成本，也有助于提供包含领域针对性的训练数据，提高基于机器学习的信息抽取系统的准确率，为实现情景化的调查访谈辅助系统提供数据基础。

本发明的目的是这样实现的：一种用于辅助调查访谈的语料库积累方法，其特点是采用领域语料向通用语料有条件转化的积累机制的方法，将频繁出现新的相似语料的领域语料转化为通用语料，其情景化的语料库积累具体包括以下步骤：

步骤1：初始化通用语料库、领域语料库。

步骤2：接收用户输入的文本相似度阈值和语料库更新触发阈值，如果用户为访谈预先设计了问卷，则接收问卷中的领域专有问句内容，将其写入领域语料库，上述问句的相似次数以初始值0写入，答句列表为空。

步骤3：接收一个由访谈录音转换而成的文本片段，所述文本片段是指一特定问句和对应的一答句的组合；该步骤得到的问句，简称为“新问句”，其答句，简称为“新答句”。

步骤4：将新问句与通用语料库中已存储的问句逐一进行文本相似度计算，所述文本相似度可以使用距离函数或相似系数进行计算和表达。

步骤5：比较步骤4的每一个计算结果与步骤2得到的文本相似度阈值大小，

如果步骤4的计算结果均小于文本相似度阈值或通用语料库为空，那么转至步骤6；如果步骤4的计算结果至少有一个大于或等于文本相似度阈值，那么则按下述步骤进行：

步骤5-1：查找出通用语料库中对应最大计算结果的问句，即语料库中与新问句最相似的问句；

步骤5-2：向步骤5-1得到的问句对应的答句列表追加写入新答句内容，对这个文本片段的处理结束。

步骤6：将新问句与领域语料库中已存储的问句逐一进行文本相似度计算。文本相似度可以使用距离函数或相似系数进行计算和表达。

步骤7：比较步骤6的每一个计算结果与步骤2得到的文本相似度阈值大小，

如果步骤6的计算结果均小于文本相似度阈值或领域语料库为空，那么将以下信息写入领域语料库：新问句内容、相似次数（以初始值0写入）和包含新答句内容的答句列表，对这个文本片段的处理结束；如果步骤6的计算结果至少有一个大于或等于文本相似度阈值，那么则按下述步骤进行：

步骤7-1：查找出领域语料库中对应最大计算结果的问句，即语料库中与新问句最相似的问句；

步骤7-2：将步骤7-1得到的问句的相似次数加1，并向其对应的答句列表追加写入新答句内容。

步骤8：如果步骤7-1找出的问句的相似次数大于或等于步骤2得到的语料库更新触发阈值，那么将该问句及其对应的答句列表从领域语料库移动至通用语料库。即向通用语料库写入该问句及其答句列表，随后从领域语料库删除。

所述步骤8可以不是随每次处理文本片段而执行，而可以成为独立存在的步骤，在预定时刻执行、随机时刻执行、由用户手动触发执行或在满足用户预设的条件时执行。

步骤9：重复步骤3至8，直到所有的访谈对话文本片段都被处理完毕。

所述通用语料库用于存储适用于大多数访谈场景的不同问句和对应的答句列表的数据库或数据表。

所述领域语料库用于存储适用于特定类型的访谈场景的不同问句、其相似次数和对应的答句列表的数据库或数据表。

所述文本相似度使用相似系数进行计算，所述相似系数为用于表示数据对象之间相似性的向量内积、Dice系数、Jaccard系数或余弦系数，相似系数值越接近于1的两个数据对象性质越相似，反之则反。

本发明与现有技术相比具有以下有益的技术效果和显著的进步：

1）首先实现了针对特定访谈场景的领域情景语料的积累机制，其次实现了结合相似语料的出现频率和用户设定阈值将频繁出现新的相似语料的领域语料转化为通用语料的机制。

2）领域语料库和通用语料库分离并存，一方面有助于明确领域专有语料的边界，降低建立基于专家知识的规则的信息抽取系统的成本；一方面有助于提供包含领域针对性的训练数据，提高基于机器学习的信息抽取系统的准确率。

3）为实现情景化的调查访谈辅助系统提供数据基础。

附图说明

图1为本发明流程图。

具体实施方式

参阅附图1，本发明按下述步骤进行情景化的语料库积累的：

（一）接收用户输入

步骤1：初始化通用语料库、领域语料库，所述通用语料库用于存储适用于大多数访谈场景的不同问句和对应的答句列表的数据库或数据表；所述领域语料库用于存储适用于特定类型的访谈场景的不同问句、其相似次数和对应的答句列表的数据库或数据表。

（二）通用语料的追加积累机制

步骤4：将新问句与通用语料库中已存储的问句逐一进行文本相似度计算，所述文本相似度可以使用距离函数或相似系数进行计算和表达；所述文本相似度使用距离函数或相似系数进行计算，所述距离函数为用于表示数据对象之间相似性的闵可夫斯基距离、欧几里得距离或切比雪夫距离，距离较近的数据对象性质较相似，反之则较不相似；所述相似系数为用于表示数据对象之间相似性的向量内积、Dice系数、Jaccard系数或余弦系数，相似系数值越接近于1的两个数据对象性质越相似，反之则反。

（三）领域情景语料的追加积累机制

（四）领域语料向通用语料有条件转化的积累机制

以上只是对本发明作进一步的说明，并非用以限制本专利，在不背离本发明构思的精神和范围下的等效实施，均应包含于本专利的权利要求范围之内。

Claims

1.一种用于辅助调查访谈的语料库积累方法，其特征在于采用领域语料向通用语料有条件转化的积累机制的方法，将频繁出现新的相似语料的领域语料转化为通用语料，具体包括以下步骤：

步骤1：将通用语料库、领域语料库初始化；

步骤2：接收用户输入的文本相似度阈值和语料库更新触发阈值，如用户为访谈预先设计了问卷，则接收问卷中的领域专有问句内容，并将其写入领域语料库，问句的相似次数以初始值0写入，答句列表为空；

步骤3：接收一个由访谈录音转换而成的文本片段；

步骤4：将新问句与通用语料库中已存储的问句逐一进行文本相似度计算；

步骤5：将上述计算的文本相似度与步骤2得到的文本相似度阈值进行比较，如计算结果均小于文本相似度阈值或通用语料库为空，则转至下一步骤6；如计算结果至少有一个大于或等于文本相似度阈值，则按下述步骤进行操作：

步骤5-1：查找出通用语料库中对应最大计算结果的问句，即通用语料库中与新问句最相似的问句；

步骤5-2：将通用语料库中与新问句最相似的问句对应的答句列表追加写入新答句内容，结束该文本片段的处理，然后执行步骤9；

步骤6：将新问句与领域语料库中已存储的问句逐一进行文本相似度计算；

步骤7：将步骤6的每一个计算结果与步骤2得到的文本相似度阈值进行比较，如计算结果均小于文本相似度阈值或领域语料库为空，则将新问句内容、相似次数和包含新答句内容的答句列表写入领域语料库，其中相似次数的初始值为0，结束该文本片段的处理，然后执行步骤9；如计算结果至少有一个大于或等于文本相似度阈值，则按下述步骤进行操作：

步骤7-1：查找出领域语料库中对应最大计算结果的问句，即领域语料库中与新问句最相似的问句；

步骤7-2：将领域语料库中与新问句最相似的问句的相似次数加1，并向其对应的答句列表追加写入新答句内容；

步骤8：将领域语料库中与新问句最相似的问句的相似次数与步骤2得到的语料库更新触发阈值进行比较，如问句的相似次数大于或等于语料库更新触发阈值，则将该问句及其对应的答句列表从领域语料库移动至通用语料库，具体为向通用语料库写入该问句及其答句列表，随后从领域语料库删除；

步骤9：重复步骤3至8，直到所有的访谈对话文本片段都被处理完毕；

所述新问句和新答句为步骤3得到的问句和答句；

所述文本片段是指一特定问句和对应的一答句的组合。

2.根据权利要求1所述用于辅助调查访谈的语料库积累方法，其特征在于所述文本相似度使用相似系数进行计算。

3.根据权利要求1所述用于辅助调查访谈的语料库积累方法，其特征在于所述步骤8不是随每次处理文本片段而执行，而成为独立存在的步骤，在预定时刻执行、随机时刻执行、由用户手动触发执行或在满足用户预设的条件时执行。

4.根据权利要求2所述用于辅助调查访谈的语料库积累方法，其特征在于所述相似系数为用于表示数据对象之间相似性的向量内积、Dice系数、Jaccard系数或余弦系数。