CN115658956B

CN115658956B - 基于会议音频数据的热点话题挖掘方法及系统

Info

Publication number: CN115658956B
Application number: CN202211361386.XA
Authority: CN
Inventors: 张正荣; 汪军宝
Original assignee: Wuxi Oriental Health Technology Co ltd
Current assignee: Wuxi Oriental Health Technology Co ltd
Priority date: 2022-11-02
Filing date: 2022-11-02
Publication date: 2024-05-03
Anticipated expiration: 2042-11-02
Also published as: CN115658956A

Abstract

本发明提出一种基于会议音频数据的热点话题挖掘方法及系统，属于数据挖掘与分析的技术领域，方法包括：步骤1、构建音频数据库，存储相关会议的音频数据；步骤2、构建音频转换模型，并读取音频数据库中的音频数据；步骤3、利用音频转换模型将音频数据转换为对应的文字数据；步骤4、构建话题挖掘模型并接收文字数据；步骤5、利用话题挖掘模型对文字数据中的内容进行分析，获得关键主题；步骤6、将关键主题作为当前会议的热点话题，并输出。本发明通过对语音文本数据的有效分析，高效提取会议中的话题数据，同时通过对数据之间的潜在联系进行挖掘分析，获得潜在的热门话题，进而提升对会议内容的话题把控，精准掌握会议核心思想要素。

Description

基于会议音频数据的热点话题挖掘方法及系统

技术领域

本发明属于数据挖掘与分析的技术领域，特别是涉及一种基于会议音频数据的热点话题挖掘方法及系统。

背景技术

在智能化技术的推动下，电子化的数据存储方式，以及智能化的数据分析过程逐渐替代传统的人工处理方式。会议过程中产生的指导性发展观点，以及会议内容的记载也逐渐依赖智能化的分析方式。相比于传统人工对会议资料的整理，智能化的数据挖掘方式逐渐在生活中占据主导。

在进行会议的过程中，针对会议上提出的内容，往往采用人工整理会议纪要的方式，从而用于后续主题的提取，但是这样过于依赖记载人员的主观意识，因而忽略一些潜在的话题内容，或淡化某些潜在话题的重要性，进而导致热点内容不住不够完善的现象发生。

发明内容

发明目的：提出一种基于会议音频数据的热点话题挖掘方法及系统，以解决现有技术存在的上述问题，通过对语音文本数据的有效分析，高效提取会议中的话题数据，同时通过对数据之间的潜在联系进行挖掘分析，获得潜在的热门话题，进而提升对会议内容的话题把控，精准掌握会议核心思想要素。

技术方案：第一方面，提出了一种基于会议音频数据的热点话题挖掘方法，该方法具体包括以下步骤：

步骤1、构建音频数据库，存储相关会议的音频数据；

步骤2、构建音频转换模型，并读取音频数据库中的音频数据；

步骤3、利用音频转换模型将音频数据转换为对应的文字数据；转换过程中具体包括以下步骤：

步骤3.1、接收待处理的音频数据；

步骤3.2、利用音频转换模型将接收到的音频数据进行编码处理，获得数字信息；

步骤3.3、提取数字信息中的特征，得到对应的特征向量；

步骤3.4、利用音频转换模型对特征向量进行解码处理，获得解码后的文本数据；

步骤3.5、输出解码后的文本数据。

步骤4、构建话题挖掘模型并接收文字数据；

步骤5、利用话题挖掘模型对文字数据中的内容进行分析，获得关键主题；获得关键主题的过程具体包括以下步骤：

步骤5.1、将获取到的文本数据作为语料库；

步骤5.2、读取预料库中的文本数据并执行过滤停用词、去除重复文本数据和对缺失值进行正则匹配等降噪处理，得到降噪后的数据；

步骤5.3、利用话题挖掘模型对降噪后的数据进行特征提取；

步骤5.4、基于提取到的特征获得主题词，并进行文本表示；

步骤5.4.1、读取降噪后的文本数据；

步骤5.4.2、对读取到的文本数据进行分词，结合至少两种关键词提取方法，获得候选关键词集合；

步骤5.4.3、预设权重比例集合；

步骤5.4.4、集成预设权重比例集合和候选关键词集合，获得最终的关键词集合，完成文本表示。

步骤5.5、根据文本表示结果进行相似度计算；当计算的向量集合为a＝(a₁，a₂，…，a_i，…，a_n)和b＝(b₁，b₂，…，b_i，…，b_n)是，两者之间的相似度sim(a，b)计算表达式为：

式中，a_i表示a集合中的第i个向量；b_i表示b集合中的第i个向量。

步骤5.6、基于相似度计算结果，对文本数据进行聚类，获得话题类；其中，实现聚类的过程具体包括以下步骤：

步骤5.6.1、预设相似度阈值；

步骤5.6.2、将读取到的第一个文本数据作为首个类簇；

步骤5.6.3、读取待比对文本与每一个语料库中文本数据的相似度计算结果；

步骤5.6.3、比对相似度计算结果与相似度阈值的大小；

步骤5.6.4、当计算结果大于阈值时，增加新的话题类别；反之，归类到已有的话题类别中。

步骤5.7、将话题类作为关键主题输出。

步骤6、将关键主题作为当前会议的热点话题，并输出。为了更好的将关键词可视化，通过词云图的形式在用户可视化界面进行呈现。

在第一方面的一些可实现方式中，为了提高音频转换模型的输出文本数据的准确度，进一步提出纠错处理，通过构建纠错模型对输出的文字数据执行纠错处理，具体过程包括以下步骤：

步骤3.6.1、接收待进行纠错的文本数据，并提取query特征；

步骤3.6.2、根据提取到的query特征，将query特征中每个字符进行特征转换，并加入拼音向量和词性向量；

步骤3.6.3、计算query特征中每个字符出现的概率；

步骤3.6.4、根据计算出的概率，找出疑似错字，并加入构建的疑似错误集中；

步骤3.6.5、将疑似错误集中的数据引入纠正候选池中；

步骤3.6.6、利用句子流畅度对纠正候选池中的数据进行评价，并排序；

步骤3.6.7、选取困惑度最小的数据作为最终的纠错结果，并输出。

第二方面，提出一种基于会议音频数据的热点话题挖掘系统，用于实现会议音频数据的热点话题挖掘方法，该系统更具体包括以下模块：

用于根据数据存储需求构建音频数据库的数据库构建模块；

用于根据应用需求构建音频转换模型和话题挖掘模型的模型构建模块；

用于实现音频数据到文本数据转换的数据转换模块；

用于获得文字数据中关键主题的数据分析模块；

用于输出数据分析模块分析结果的数据输出模块。

在第二发明的一些可实现方式中，数据库构建模块根据数据存储需求构建音频数据库，模型构建模块根据数据分析需求，构建音频转换模型和话题挖掘模型。在实现基于音频会议数据的热点话题挖掘过程中，音频转换模型首先读取音频数据库中待分析的音频数据，随后将读取到的音频数据转换为文字数据，为了提高文字转换的准确率，进一步提出利用模型构建模块构建纠错模型，利用纠错模型实现误差纠正，提高转换准确率。基于转换后的数据，数据分析模块利用话题挖掘模型进行内容进行分析，获得关键主题；最后利用数据输出模块将数据分析模块的分析结果输出。

第三方面，提出一种基于会议音频数据的热点话题挖掘设备，该设备包括：处理器以及存储有计算机程序指令的存储器。

其中，处理器读取并执行计算机程序指令，以实现热点话题挖掘方法。

第四方面，提出一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序指令。计算机程序指令被处理器执行时，以实现热点话题挖掘方法。

有益效果：本发明提出了一种基于会议音频数据的热点话题挖掘方法及系统，通过对语音文本数据的有效分析，高效提取会议中的话题数据，同时通过对数据之间的潜在联系进行挖掘分析，获得潜在的热门话题，进而提升对会议内容的话题把控，精准掌握会议核心思想要素。

附图说明

图1为本发明的数据处理流程图。

图2为本发明关键主题的获取流程图。

具体实施方式

在下文的描述中，给出了大量具体的细节以便提供对本发明更为彻底的理解。然而，对于本领域技术人员而言显而易见的是，本发明可以无需一个或多个这些细节而得以实施。在其他的例子中，为了避免与本发明发生混淆，对于本领域公知的一些技术特征未进行描述。

实施例一

在一个实施例中，随着数据电子化趋势的蔓延，数据的记载方式逐从冗余的纸质记录转化为电子存储的形式，因此基于现有数据进行挖掘分析的智能分析方法，逐渐成了实时捕捉敏感信息的热点话题之一。话题捕捉作为会议内容的核心，有效的主题捕捉可以有效提高会议目的。本实施例针对记载会议的音频数据提出了一种基于会议音频数据的热点话题挖掘方法，通过构建的智能分析模型，有效捕捉语音会议过程中的热点话题，提升对会议内容的话题把控，精准掌握会议核心思想要素。如图1所示，基于会议音频数据的热点话题挖掘方法具体包括以下步骤：

步骤1、构建音频数据库，存储相关会议的音频数据；

步骤3、利用音频转换模型将音频数据转换为对应的文字数据；

具体的，在语音技术的发展过程中，基于深度学习语音识别技术，能够深度挖掘声音特征之间的关联，并通过合并的方式实现模型训练；同时，便于从原始数据中获得更有效的音频特征。利用音频转换模型对音频数据进行识别转换的过程中，首先接收待处理的音频数据；随后，对接收到的音频数据进行编码处理，将音频数据转换为数字信息，并对其中的特征进行处理，获得对应的特征向量；随后利用音频转换模型对特征向量进行解码处理，从而获得解码后的文本数据。

步骤4、构建话题挖掘模型并接收文字数据；

步骤5、利用话题挖掘模型对文字数据中的内容进行分析，获得关键主题；

具体的，如图2所示，从文本表示、聚类和相似度计算的层面，获得关键主题的过程为：首先，将获得的文字数据作为语料库；其次，对语料库中的数据执行过滤停用词、去除重复文本数据和对缺失值进行正则匹配等降噪处理；再次，对处理后的文本进行特征提取，基于提取到的特征获得主题词，并进行文本表示；从次，基于文本表示结果采用相似度计算获得文本相似度，并基于相似度计算结果进行文本聚类，获得不同的话题类；最后，将话题类作为关键主题输出。

在进一步的实施例中，基于提取到的特征进行文本表示，获得主题词的过程具体包括以下步骤：首先，读取降噪后的文本数据；然后，利用百度自然语言处理工具LAC对读取到的文本数据进行分词，并结合至少两种关键词提取方法，获得候选关键词集合Key_GAT；接着，预设权重比例集合W_GAT；最后，集成预设权重比例集合W_GAT和候选关键词集合Key_GAT，获得最终的关键词集合K_GAT，完成文本表示。其中集成表达式为：

式中，W_GAT＝{w₁，…，w_i，…，w_n}、Key_GAT＝{key₁，…，key_i，…，key_n}；n表示关键词的对应的数量；w_i表示第i个关键词对应的权重，且key_i表示第i个关键词。

优选实施例中，关键词提取方法包括：TextRank算法、LTP算法和TF-IDF算法；本实施例通过结合节点之间的相关性以及语句中词语的依存关系，有效避免仅考虑单一维度产生的准确度不高的问题。优选实施例，采用百度自然语言处理工具进行分词监督，可以更好的减少误差产生，提高精准度。

其中，TextRank算法将文档数据当做一个词的网络，该网络中的链接表示词与词之间的语义关系，计算表达式为：

式中，WS(V_i)表示文档中句子V_i的权重；W_ji表示句子V_j和句子V_i之间的相似度；WS(V_j)表示上一个迭代出的句子V_j的权重；d表示阻尼系数；ln V_i表示指向当前句子V_i的句子点集合；Out(V_j)表示指向句子V_i的句子点集合；表示每个相邻的句子对当前句子的贡献程度。

LTP算法接收到的是中文语料库，输出为相对丰富和快速的分析结果，包括词法分析(中文分词、词性标注和命名实体识别)，依存句法分析和语义分析(语义依存分析和语义角色标注)等。优选实施例中，采用N-LTP模型，主要包括：一个共享编码器和至少两个处理了不同任务的解码器，模型整体共享一个编码器，用于利用在所有任务中共享的知识。另外，每个人物分别使用各自对应的任务解码器。

TF-IDF算法作为信息检索与数据挖掘的常用加权技术，常用于挖掘文章中的关键词，具备简单高效的属性特征，因此常被工业用于最开始的文本数据清洗。获取TF-IDF的过程包括以下步骤：

步骤1、计算文档中的词频TF；

式中，count_i表示单词i在文档中出现的次数；count表示文档中的总词数。

步骤2、计算逆文档频率IDF；

式中，N表示语料库中的文档总数；N(w)表示单词w出现在多少个文档中。在进一步的实施例中，当出现生僻词时，可能会出先当前单词在现语料库中为0的情况，进而导致分母为0是的IDF不具备实际意义，因此，本实施例对其进行平滑处理，对应的平滑处理表达式为：

步骤3、计算TF-IDF；

在进一步的实施例中，文本相似度作为衡量不同文本之间相关程度的因素之一，是文本聚类过程中参照的指标之一，当相似度值越高时，则比对的文本内容更相近。优选实施例中，通过计算两个文本向量在向量空间方向上的余弦值，实现文本内容之间的相似度度量。当计算的向量集合为a＝(a₁，a₂，…，a_i，…，a_n)和b＝(b₁，b₂，…，b_i，…，b_n)是，两者之间的相似度sim(a，b)计算表达式为：

在进一步的实施例中，实现聚类的过程包括以下步骤：将第一个读取到的文本数据作为首个类簇；随后，设定一个相似度阈值，读取后续的文本数据，并计算后续文本数据与第一个文本数据的相似度值，当计算得到的相似度值大于阈值条件，则将当前文本数据中的关键词主题归类到已有的关键词话题中；反之，生成一个新的关键词主题簇，并继续比对下一个待分析的文本数据。

本实施例提出的话题挖掘模型通过文本聚类的方式，将通过话题下的音频对应的文字数据聚合到同一类簇下获得不同的聚类类别，从而更好的获得会议音频数据想要表达的主题，掌握会议核心思想要素。

步骤6、将关键主题作为当前会议的热点话题，并输出。

在进一步的实施例中，在计算文本相似度的过程中，由于语料库中的数据存在时间上的差距，因此，为了提高聚类的质量，本实施例进一步引入时间差的概念，通过设定时间差阈值的方式，比对两个待比对文档之间的时间差值，当时间差值越大时，则表明当前话题属于旧话题的概率就越低。

具体的，基于引入的时间差值概念，将文本数据表示为(t_i，w_i(t_l，t_b))，其中t_i表示提取到的主题特征词、w_i表示主题特征词对应的权重、t_l表示当前主题特征词在对应话题出现的最新一次时间、t_b表示当前主题特征词在对应话题出现的第一次时间，随着时间差值越大，文本相似度越低，则本实施例提出的相似度sim计算表达式为：

本实施例针对时间差值的引入，可以有效降低对重复话题的重复运算，提高文本相似度的计算准确率，使得分析结果更贴和实际应用。

本实施例中采用的音频转换模型通过卷积结构，有效保证了音频数据信号在时域和频域的平移特性，同时针对语音信号会存在的建模能力不足的情况，音频转换模型中进一步引入了残差块结构，并通过激活函数进行优化，有效提高了音频转换模型的准确率，以及识别精度。

实施例二

在实施例一基础上的进一步实施例中，为了提高音频转换模型得到文字数据的准确性，本实施例针对音频转换模型输出的文字数据进一步提出文字数据的纠错处理，通过构建纠错模型，有效提高音频数据转换成文字数据的准确性。

具体的，纠错完成纠错的过程包括以下步骤：

步骤1、构建纠错模型，接收待进行纠错的文本数据，并提取query特征；

步骤2、根据提取到的query特征，将query特征中每个字符进行特征转换，并加入拼音向量和词性向量；

步骤3、计算query特征中每个字符出现的概率；

步骤4、根据计算出的概率，找出疑似错字，并加入构建的疑似错误集中。

步骤5、将疑似错误集中的数据引入纠正候选池中；

步骤6、利用句子困惑度对纠正候选池中的数据进行评价，并排序；

步骤7、选取困惑度最小的数据作为最终的纠错结果，并输出。

其中，句子困惑度越低表示句子越流畅，所以取句子困惑度最小的那个，作为最后的答案。句子困惑度的获取方式为：将纠正候选池中的数据逐个替换到错误位置上，生成新的句子，并提取新句子的特征，计算每个字出现的概率，然后将每个字出现的概率取log累加起来，再求平均，最后取反，即可得到句子困惑度。

本实施例针对音频数据向文本数据转换过程中可能存在的错误信息，通过构建的纠错模型，可有效实现谐音字词纠错、混淆字词纠错、语法纠错以及形似字纠错等。

实施例三

在实施例一基础上的进一步实施例中，为了更好的将关键词可视化，通过词云图的形式在用户可视化界面进行呈现。

具体的，词云是将感兴趣的词语放在一幅图像中的技术，它可以控制词语的位置、大小、字体等等属性。其本质为通过使用字体的大小来反应词语出现的频率，出现的频率越高则在词云中的字体越大。

在进一步的实施例中，应用过程中会出现生成图中字体丢失、或者生成乱码的现象，针对该问题，本实施例在程序编码过程中，添加font_path属性，从而避免中文字词丢失或者乱码的现象。

实施例四

在一个实施例中，提出一种基于会议音频数据的热点话题挖掘系统，用于实现一种基于会议音频数据的热点话题挖掘方法，该系统具体包括以下模块：数据库构建模块、模型构建模型、数据转换模块、数据分析模块和数据输出模块。

数据库构建模块用于根据数据存储需求构建音频数据库；模型构建模块用于根据应用需求构建音频转换模型和话题挖掘模型；数据转换模块用于根据文字分析需求利用音频转换模型将音频数据转换为对应的文字数据；数据分析模块用于根据热点话题分析需求，利用话题挖掘模型接收文字数据并对文字数据中的内容进行分析，获得关键主题；数据输出模块用于数据数据分析模块的分析结果。

在进一步的实施例中，在实现基于会议音频数据的热点话题挖掘过程时，首先根据需求利用数据库构建模块构建用于存储会议音频数据的音频数据库；其次，利用模型构建模块构建音频转换模型，并读取音频数据库中的待分析的音频数据；再次，数据转换模块利用音频转换模型将读取到的音频数据转换为对应的文字数据；从次，利用模型构建模块构建话题挖掘模型，接收转换后的文字数据；最后，数据分析模块利用话题挖掘模型对文字数据中的内容进行分析，获得关键主题，并采用数据输出模块将分析获得的关键主题数据输出。

实施例五

在一个实施例中，提出一种基于会议音频数据的热点话题挖掘设备，该设备包括：处理器以及存储有计算机程序指令的存储器。

实施例六

在一个实施例中，提出一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序指令。

其中，计算机程序指令被处理器执行时，以实现热点话题挖掘方法。

如上所述，尽管参照特定的优选实施例已经表示和表述了本发明，但其不得解释为对本发明自身的限制。在不脱离所附权利要求定义的本发明的精神和范围前提下，可对其在形式上和细节上做出各种变化。

Claims

1.一种基于会议音频数据的热点话题挖掘方法，其特征在于，该方法具体包括以下步骤：

步骤1、构建音频数据库，存储相关会议的音频数据；

步骤4、构建话题挖掘模型并接收文字数据；

步骤6、将关键主题作为当前会议的热点话题，并输出；

其中，获得关键主题的过程具体包括以下步骤：

步骤5.1、将获取到的文本数据作为语料库；

步骤5.2、读取预料库中的文本数据并执行预处理，得到降噪后的数据；

步骤5.3、利用话题挖掘模型对降噪后的数据进行特征提取；

步骤5.4、基于提取到的特征获得主题词，并进行文本表示；文本表示的过程为：

步骤5.4.1、读取降噪后的文本数据；

步骤5.4.3、预设权重比例集合；

步骤5.4.4、集成预设权重比例集合和候选关键词集合，获得最终的关键词集合，完成文本表示，对应的集成表达式为：

式中，W_GAT＝{w₁,…,w_i,…,w_n}、Key_GAT＝{key₁,…,key_i,…,key_n}；n表示关键词的对应的数量；w_i表示第i个关键词对应的权重，且key_i表示第i个关键词；

步骤5.5、根据文本表示结果进行相似度计算；

步骤5.6、基于相似度计算结果，对文本数据进行聚类，获得话题类；

通过聚类获得关键主题的过程中，具体包括以下步骤：

步骤5.6.1、预设相似度阈值；

步骤5.6.2、将读取到的第一个文本数据作为首个类簇；

步骤5.6.3、比对相似度计算结果与相似度阈值的大小；

步骤5.6.4、当计算结果大于阈值时，增加新的话题类别；反之，归类到已有的话题类别中；

步骤5.7、将话题类作为关键主题输出；

其中，在计算本文相似度的过程中，将文本数据表示为(t_i,w_i,(t_l,t_b))，其中t_i表示提取到的主题特征词、w_i表示主题特征词对应的权重、t_l表示当前主题特征词在对应话题出现的最新一次时间、t_b表示当前主题特征词在对应话题出现的第一次时间，随着时间差值越大，文本相似度越低，相似度sim计算表达式为：

2.根据权利要求1所述的一种基于会议音频数据的热点话题挖掘方法，其特征在于，利用所述音频转换模型将音频数据转换为对应的文字数据的过程中，具体包括以下步骤：

步骤3.1、接收待处理的音频数据；

步骤3.3、提取数字信息中的特征，得到对应的特征向量；

步骤3.5、输出解码后的文本数据。

3.根据权利要求2所述的一种基于会议音频数据的热点话题挖掘方法，其特征在于，为了提高音频转换模型得到文字数据的准确性，在输出解码后的文本数据后，还包括：步骤3.6、构建纠错模型对输出的文字数据执行纠错处理，具体过程包括以下步骤：

步骤3.6.1、接收待进行纠错的文本数据，并提取query特征；

步骤3.6.3、计算query特征中每个字符出现的概率；

步骤3.6.5、将疑似错误集中的数据引入纠正候选池中；

4.根据权利要求1所述的一种基于会议音频数据的热点话题挖掘方法，其特征在于，为了更好的将关键词可视化，通过词云图的形式在用户可视化界面进行呈现。

5.一种基于会议音频数据的热点话题挖掘系统，用于实现如权利要求1-4任意一项所述的会议音频数据的热点话题挖掘方法，其特征在于，具体包括以下模块：

数据库构建模块，被设置为根据数据存储需求构建音频数据库；

模型构建模型，被设置为根据应用需求构建音频转换模型和话题挖掘模型；

数据转换模块，被设置为利用音频转化转换模型将音频数据转换为文字数据；

数据分析模块，被设置为利用话题挖掘模型获得文字数据中的关键主题；

数据输出模块，被设置为输出数据分析模型分析出的关键主题。

6.一种基于会议音频数据的热点话题挖掘设备，其特征在于，所述设备包括：

处理器以及存储有计算机程序指令的存储器；

所述处理器读取并执行所述计算机程序指令，以实现如权利要求1-4任意一项所述的会议音频数据的热点话题挖掘方法。

7.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序指令，所述计算机程序指令被处理器执行时实现如权利要求1-4任意一项所述的会议音频数据的热点话题挖掘方法。