CN112214586B - 一种用于辅助调查访谈的语料库积累方法 - Google Patents

一种用于辅助调查访谈的语料库积累方法 Download PDF

Info

Publication number
CN112214586B
CN112214586B CN202011089200.0A CN202011089200A CN112214586B CN 112214586 B CN112214586 B CN 112214586B CN 202011089200 A CN202011089200 A CN 202011089200A CN 112214586 B CN112214586 B CN 112214586B
Authority
CN
China
Prior art keywords
corpus
question
domain
general
new
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011089200.0A
Other languages
English (en)
Other versions
CN112214586A (zh
Inventor
姚占雷
周谦豪
许鑫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
East China Normal University
Original Assignee
East China Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by East China Normal University filed Critical East China Normal University
Priority to CN202011089200.0A priority Critical patent/CN112214586B/zh
Publication of CN112214586A publication Critical patent/CN112214586A/zh
Application granted granted Critical
Publication of CN112214586B publication Critical patent/CN112214586B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种用于辅助调查访谈的语料库积累方法,其特点是采用领域语料向通用语料有条件转化的积累机制的方法,将频繁出现新的相似语料的领域语料转化为通用语料,其情景化的语料库积累具体包括:接收用户输入、通用语料的追加积累、领域情景语料的追加积累和领域语料向通用语料有条件转化的积累等步骤。本发明与现有技术相比具领域语料库和通用语料库分离并存,进一步明确领域专有语料的边界,降低建立基于专家知识的规则的信息抽取系统的成本,有助于提供包含领域针对性的训练数据,提高基于机器学习的信息抽取系统的准确率,为实现情景化的调查访谈辅助系统提供数据基础。

Description

一种用于辅助调查访谈的语料库积累方法
技术领域
本发明涉及自然语言处理技术领域,尤其是一种基于领域情景访谈语料的用于辅助调查访谈的语料库积累方法。
背景技术
调查访谈资料的后续处理一般依赖于调查人员手工完成。随着科技发展,访谈资料的记录和初步整理工作可以交由具备音频录制功能的软硬件和语音识别转写程序完成。
目前,相关的调查访谈辅助系统大多采用通用语料库,基于常见通用语料进行规则定义或机器学习实现,通用语料库为用于存储适用于大多数访谈场景的不同问句和对应的答句列表的数据库或数据表,该访谈辅助技术对一般通用场景下的访谈语音转换、处理和分析效果较佳。但对特定专有领域的访谈语音处理,由于领域情景语料的匮乏,情景化的访谈资料的转写处理难以实现,访谈语音转换、处理及分析效果一般。领域情景语料库为用于存储适用于特定类型的访谈场景的不同问句、其相似次数和对应的答句列表的数据库或数据表。由于领域情景语料的匮乏,尤其专门的领域访谈语料库更为匮乏。
现有技术的自然语言处理缺少可以针对性地采集处理领域情景访谈语料,专门的领域访谈语料库目前较为匮乏。因此,现有的访谈辅助技术对一般通用场景下的访谈语音转换、处理和分析效果较佳,但对特定专有领域的访谈语音处理效果很差。
发明内容
发明的目的是针对现有技术的不足而设计的一种用于辅助调查访谈的语料库积累方法,采用领域语料向通用语料有条件转化的积累机制的方法,实现针对特定访谈场景的领域情景语料的积累,以及结合相似语料的出现频率和用户设定阈值将频繁出现新的相似语料的领域语料转化为通用语料,使得领域语料库和通用语料库分离并存,进一步明确领域专有语料的边界,降低建立基于专家知识的规则的信息抽取系统的成本,也有助于提供包含领域针对性的训练数据,提高基于机器学习的信息抽取系统的准确率,为实现情景化的调查访谈辅助系统提供数据基础。
本发明的目的是这样实现的:一种用于辅助调查访谈的语料库积累方法,其特点是采用领域语料向通用语料有条件转化的积累机制的方法,将频繁出现新的相似语料的领域语料转化为通用语料,其情景化的语料库积累具体包括以下步骤:
步骤1:初始化通用语料库、领域语料库。
步骤2:接收用户输入的文本相似度阈值和语料库更新触发阈值,如果用户为访谈预先设计了问卷,则接收问卷中的领域专有问句内容,将其写入领域语料库,上述问句的相似次数以初始值0写入,答句列表为空。
步骤3:接收一个由访谈录音转换而成的文本片段,所述文本片段是指一特定问句和对应的一答句的组合;该步骤得到的问句,简称为“新问句”,其答句,简称为“新答句”。
步骤4:将新问句与通用语料库中已存储的问句逐一进行文本相似度计算,所述文本相似度可以使用距离函数或相似系数进行计算和表达。
步骤5:比较步骤4的每一个计算结果与步骤2得到的文本相似度阈值大小,
如果步骤4的计算结果均小于文本相似度阈值或通用语料库为空,那么转至步骤6;如果步骤4的计算结果至少有一个大于或等于文本相似度阈值,那么则按下述步骤进行:
步骤5-1:查找出通用语料库中对应最大计算结果的问句,即语料库中与新问句最相似的问句;
步骤5-2:向步骤5-1得到的问句对应的答句列表追加写入新答句内容,对这个文本片段的处理结束。
步骤6:将新问句与领域语料库中已存储的问句逐一进行文本相似度计算。文本相似度可以使用距离函数或相似系数进行计算和表达。
步骤7:比较步骤6的每一个计算结果与步骤2得到的文本相似度阈值大小,
如果步骤6的计算结果均小于文本相似度阈值或领域语料库为空,那么将以下信息写入领域语料库:新问句内容、相似次数(以初始值0写入)和包含新答句内容的答句列表,对这个文本片段的处理结束;如果步骤6的计算结果至少有一个大于或等于文本相似度阈值,那么则按下述步骤进行:
步骤7-1:查找出领域语料库中对应最大计算结果的问句,即语料库中与新问句最相似的问句;
步骤7-2:将步骤7-1得到的问句的相似次数加1,并向其对应的答句列表追加写入新答句内容。
步骤8:如果步骤7-1找出的问句的相似次数大于或等于步骤2得到的语料库更新触发阈值,那么将该问句及其对应的答句列表从领域语料库移动至通用语料库。即向通用语料库写入该问句及其答句列表,随后从领域语料库删除。
所述步骤8可以不是随每次处理文本片段而执行,而可以成为独立存在的步骤,在预定时刻执行、随机时刻执行、由用户手动触发执行或在满足用户预设的条件时执行。
步骤9:重复步骤3至8,直到所有的访谈对话文本片段都被处理完毕。
所述通用语料库用于存储适用于大多数访谈场景的不同问句和对应的答句列表的数据库或数据表。
所述领域语料库用于存储适用于特定类型的访谈场景的不同问句、其相似次数和对应的答句列表的数据库或数据表。
所述文本相似度使用相似系数进行计算,所述相似系数为用于表示数据对象之间相似性的向量内积、Dice系数、Jaccard系数或余弦系数,相似系数值越接近于1的两个数据对象性质越相似,反之则反。
本发明与现有技术相比具有以下有益的技术效果和显著的进步:
1)首先实现了针对特定访谈场景的领域情景语料的积累机制,其次实现了结合相似语料的出现频率和用户设定阈值将频繁出现新的相似语料的领域语料转化为通用语料的机制。
2)领域语料库和通用语料库分离并存,一方面有助于明确领域专有语料的边界,降低建立基于专家知识的规则的信息抽取系统的成本;一方面有助于提供包含领域针对性的训练数据,提高基于机器学习的信息抽取系统的准确率。
3)为实现情景化的调查访谈辅助系统提供数据基础。
附图说明
图1为本发明流程图。
具体实施方式
参阅附图1,本发明按下述步骤进行情景化的语料库积累的:
(一)接收用户输入
步骤1:初始化通用语料库、领域语料库,所述通用语料库用于存储适用于大多数访谈场景的不同问句和对应的答句列表的数据库或数据表;所述领域语料库用于存储适用于特定类型的访谈场景的不同问句、其相似次数和对应的答句列表的数据库或数据表。
步骤2:接收用户输入的文本相似度阈值和语料库更新触发阈值,如果用户为访谈预先设计了问卷,则接收问卷中的领域专有问句内容,将其写入领域语料库,上述问句的相似次数以初始值0写入,答句列表为空。
步骤3:接收一个由访谈录音转换而成的文本片段,所述文本片段是指一特定问句和对应的一答句的组合;该步骤得到的问句,简称为“新问句”,其答句,简称为“新答句”。
(二)通用语料的追加积累机制
步骤4:将新问句与通用语料库中已存储的问句逐一进行文本相似度计算,所述文本相似度可以使用距离函数或相似系数进行计算和表达;所述文本相似度使用距离函数或相似系数进行计算,所述距离函数为用于表示数据对象之间相似性的闵可夫斯基距离、欧几里得距离或切比雪夫距离,距离较近的数据对象性质较相似,反之则较不相似;所述相似系数为用于表示数据对象之间相似性的向量内积、Dice系数、Jaccard系数或余弦系数,相似系数值越接近于1的两个数据对象性质越相似,反之则反。
步骤5:比较步骤4的每一个计算结果与步骤2得到的文本相似度阈值大小,
如果步骤4的计算结果均小于文本相似度阈值或通用语料库为空,那么转至步骤6;如果步骤4的计算结果至少有一个大于或等于文本相似度阈值,那么则按下述步骤进行:
步骤5-1:查找出通用语料库中对应最大计算结果的问句,即语料库中与新问句最相似的问句;
步骤5-2:向步骤5-1得到的问句对应的答句列表追加写入新答句内容,对这个文本片段的处理结束。
(三)领域情景语料的追加积累机制
步骤6:将新问句与领域语料库中已存储的问句逐一进行文本相似度计算。文本相似度可以使用距离函数或相似系数进行计算和表达。
步骤7:比较步骤6的每一个计算结果与步骤2得到的文本相似度阈值大小,
如果步骤6的计算结果均小于文本相似度阈值或领域语料库为空,那么将以下信息写入领域语料库:新问句内容、相似次数(以初始值0写入)和包含新答句内容的答句列表,对这个文本片段的处理结束;如果步骤6的计算结果至少有一个大于或等于文本相似度阈值,那么则按下述步骤进行:
步骤7-1:查找出领域语料库中对应最大计算结果的问句,即语料库中与新问句最相似的问句;
步骤7-2:将步骤7-1得到的问句的相似次数加1,并向其对应的答句列表追加写入新答句内容。
(四)领域语料向通用语料有条件转化的积累机制
步骤8:如果步骤7-1找出的问句的相似次数大于或等于步骤2得到的语料库更新触发阈值,那么将该问句及其对应的答句列表从领域语料库移动至通用语料库。即向通用语料库写入该问句及其答句列表,随后从领域语料库删除。
所述步骤8可以不是随每次处理文本片段而执行,而可以成为独立存在的步骤,在预定时刻执行、随机时刻执行、由用户手动触发执行或在满足用户预设的条件时执行。
步骤9:重复步骤3至8,直到所有的访谈对话文本片段都被处理完毕。
以上只是对本发明作进一步的说明,并非用以限制本专利,在不背离本发明构思的精神和范围下的等效实施,均应包含于本专利的权利要求范围之内。

Claims (4)

1.一种用于辅助调查访谈的语料库积累方法,其特征在于采用领域语料向通用语料有条件转化的积累机制的方法,将频繁出现新的相似语料的领域语料转化为通用语料,具体包括以下步骤:
步骤1:将通用语料库、领域语料库初始化;
步骤2: 接收用户输入的文本相似度阈值和语料库更新触发阈值,如用户为访谈预先设计了问卷,则接收问卷中的领域专有问句内容,并将其写入领域语料库,问句的相似次数以初始值0写入,答句列表为空;
步骤3:接收一个由访谈录音转换而成的文本片段;
步骤4:将新问句与通用语料库中已存储的问句逐一进行文本相似度计算;
步骤5:将上述计算的文本相似度与步骤2得到的文本相似度阈值进行比较,如计算结果均小于文本相似度阈值或通用语料库为空,则转至下一步骤6;如计算结果至少有一个大于或等于文本相似度阈值,则按下述步骤进行操作:
步骤5-1:查找出通用语料库中对应最大计算结果的问句,即通用语料库中与新问句最相似的问句;
步骤5-2:将通用语料库中与新问句最相似的问句对应的答句列表追加写入新答句内容,结束该文本片段的处理,然后执行步骤9;
步骤6:将新问句与领域语料库中已存储的问句逐一进行文本相似度计算;
步骤7: 将步骤6的每一个计算结果与步骤2得到的文本相似度阈值进行比较,如计算结果均小于文本相似度阈值或领域语料库为空,则将新问句内容、相似次数和包含新答句内容的答句列表写入领域语料库,其中相似次数的初始值为0,结束该文本片段的处理,然后执行步骤9;如计算结果至少有一个大于或等于文本相似度阈值,则按下述步骤进行操作:
步骤7-1:查找出领域语料库中对应最大计算结果的问句,即领域语料库中与新问句最相似的问句;
步骤7-2:将领域语料库中与新问句最相似的问句的相似次数加1,并向其对应的答句列表追加写入新答句内容;
步骤8:将领域语料库中与新问句最相似的问句的相似次数与步骤2得到的语料库更新触发阈值进行比较,如问句的相似次数大于或等于语料库更新触发阈值,则将该问句及其对应的答句列表从领域语料库移动至通用语料库,具体为向通用语料库写入该问句及其答句列表,随后从领域语料库删除;
步骤9:重复步骤3至8,直到所有的访谈对话文本片段都被处理完毕;
所述新问句和新答句为步骤3得到的问句和答句;
所述文本片段是指一特定问句和对应的一答句的组合。
2.根据权利要求1所述用于辅助调查访谈的语料库积累方法,其特征在于所述文本相似度使用相似系数进行计算。
3.根据权利要求1所述用于辅助调查访谈的语料库积累方法,其特征在于所述步骤8不是随每次处理文本片段而执行,而成为独立存在的步骤,在预定时刻执行、随机时刻执行、由用户手动触发执行或在满足用户预设的条件时执行。
4.根据权利要求2所述用于辅助调查访谈的语料库积累方法,其特征在于所述相似系数为用于表示数据对象之间相似性的向量内积、Dice系数、Jaccard系数或余弦系数。
CN202011089200.0A 2020-10-13 2020-10-13 一种用于辅助调查访谈的语料库积累方法 Active CN112214586B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011089200.0A CN112214586B (zh) 2020-10-13 2020-10-13 一种用于辅助调查访谈的语料库积累方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011089200.0A CN112214586B (zh) 2020-10-13 2020-10-13 一种用于辅助调查访谈的语料库积累方法

Publications (2)

Publication Number Publication Date
CN112214586A CN112214586A (zh) 2021-01-12
CN112214586B true CN112214586B (zh) 2022-06-28

Family

ID=74053300

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011089200.0A Active CN112214586B (zh) 2020-10-13 2020-10-13 一种用于辅助调查访谈的语料库积累方法

Country Status (1)

Country Link
CN (1) CN112214586B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105975460A (zh) * 2016-05-30 2016-09-28 上海智臻智能网络科技股份有限公司 问句信息处理方法及装置
CN110222192A (zh) * 2019-05-20 2019-09-10 国网电子商务有限公司 语料库建立方法及装置
CN110990546A (zh) * 2019-11-29 2020-04-10 中国银行股份有限公司 智能问答语料库更新方法和装置
CN111611374A (zh) * 2019-02-25 2020-09-01 北京嘀嘀无限科技发展有限公司 语料扩充方法、装置、电子设备及存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105975460A (zh) * 2016-05-30 2016-09-28 上海智臻智能网络科技股份有限公司 问句信息处理方法及装置
CN111611374A (zh) * 2019-02-25 2020-09-01 北京嘀嘀无限科技发展有限公司 语料扩充方法、装置、电子设备及存储介质
CN110222192A (zh) * 2019-05-20 2019-09-10 国网电子商务有限公司 语料库建立方法及装置
CN110990546A (zh) * 2019-11-29 2020-04-10 中国银行股份有限公司 智能问答语料库更新方法和装置

Also Published As

Publication number Publication date
CN112214586A (zh) 2021-01-12

Similar Documents

Publication Publication Date Title
US8447589B2 (en) Text paraphrasing method and program, conversion rule computing method and program, and text paraphrasing system
CN111046133A (zh) 基于图谱化知识库的问答方法、设备、存储介质及装置
CN110705294A (zh) 命名实体识别模型训练方法、命名实体识别方法及装置
CN111177359A (zh) 多轮对话方法和装置
CN111477216A (zh) 一种用于对话机器人的音意理解模型的训练方法及系统
CN111881297A (zh) 语音识别文本的校正方法及装置
CN112487824B (zh) 客服语音情感识别方法、装置、设备及存储介质
CN111276149B (zh) 语音识别方法、装置、设备及可读存储介质
CN110473543B (zh) 一种语音识别方法、装置
CN106294505B (zh) 一种反馈答案的方法和装置
CN112382295B (zh) 语音识别方法、装置、设备及可读存储介质
CN113742471A (zh) 一种普法问答系统的向量检索式对话方法
US20190317993A1 (en) Effective classification of text data based on a word appearance frequency
CN113299277A (zh) 一种语音语义识别方法及系统
CN112989008A (zh) 一种多轮对话改写方法、装置和电子设备
US11990131B2 (en) Method for processing a video file comprising audio content and visual content comprising text content
CN111858875A (zh) 智能交互方法、装置、设备及存储介质
CN111062211A (zh) 信息提取方法、装置、电子设备及存储介质
CN112214586B (zh) 一种用于辅助调查访谈的语料库积累方法
CN107992479A (zh) 基于转移方法的字级别中文组块分析方法
CN116644228A (zh) 多模态全文信息检索方法、系统及存储介质
CN116051151A (zh) 基于机器阅读理解的客户画像确定方法、系统和电子设备
Murray et al. Detecting action items in meetings
CN114610863A (zh) 对话文本的推送方法及装置、存储介质、终端
US20210271990A1 (en) Answer sentence selection device, method, and program

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant