CN110442855A

CN110442855A - 一种语音分析方法和系统

Info

Publication number: CN110442855A
Application number: CN201910286514.0A
Authority: CN
Inventors: 邢启洲; 李健; 张连毅; 武卫东
Original assignee: BEIJING INFOQUICK SINOVOICE SPEECH TECHNOLOGY CORP
Current assignee: BEIJING INFOQUICK SINOVOICE SPEECH TECHNOLOGY CORP
Priority date: 2019-04-10
Filing date: 2019-04-10
Publication date: 2019-11-12
Anticipated expiration: 2039-04-10
Also published as: CN110442855B

Abstract

本申请实施例公开了一种语音分析方法和系统，所述方法包括：通过接收和识别语音信息，将所述语音信息对应的文字通过第一映射算法确定第一关键词列表、通过第二映射算法确定第二关键词列表；根据所述第一关键词列表和所述第二关键词列表，确定包括至少一个关键词及每个关键词对应的第三权重的第三关键词列表；对所述第三关键词列表中的关键词进行语义特征提取和聚类，确定第四关键词列表；所述第四关键词列表包括至少一个语义类别、每个语义类别对应的关键词及每个关键词对应的第三权重；根据所述第四关键词列表，确定所述语音信息的分析结果并输出。从而可以快速又精准的确定关键词，并提升语音分析的效果。

Description

一种语音分析方法和系统

技术领域

本申请涉及数据分析技术领域，特别是涉及一种语音分析方法和系统。

背景技术

目前，现有技术在语音分析的应用中，通常需要基于用户提供的关键词来进行语音分析。显然，现有技术中是依赖于用户提供的关键词，由于该关键词通常都不够精准，因此，系统后续语音分析的效果无法保证。

发明内容

本申请实施例公开了一种语音分析方法和系统，可以快速又精准的确定关键词，并提升语音分析的效果。

第一方面，本申请实施例公开了一种语音分析方法，所述方法包括：

接收语音信息；

识别所述语音信息，得到所述语音信息对应的文字；

将所述文字通过第一映射算法确定第一关键词列表，将所述文字通过第二映射算法确定第二关键词列表；其中，所述第一关键词列表包括至少一个关键词及每个关键词对应的第一权重，所述第二关键词列表包括至少一个关键词及每个关键词对应的第二权重；

根据所述第一关键词列表和所述第二关键词列表，确定第三关键词列表；其中，所述第三关键词列表包括至少一个关键词及每个关键词对应的第三权重；

对所述第三关键词列表中的关键词进行语义特征提取和聚类，确定第四关键词列表；其中，所述第四关键词列表包括至少一个语义类别、每个语义类别对应的关键词及每个关键词对应的第三权重；

根据所述第四关键词列表，确定所述语音信息的分析结果；

输出所述语音信息的分析结果。

可选地，所述每个关键词对应的第三权重用是由所述第一关键词列表的权重乘以所述关键词的第一权重，加上所述第二关键词列表的权重乘以所述关键词的第二权重得到的。

可选地，所述对所述第三关键词列表中的关键词进行语义特征提取和聚类，确定第四关键词列表，包括：

根据词向量产生word2vect模型，确定所述第三关键词列表中的关键词的语义特征；

根据所述第三关键词列表中的关键词的语义特征进行聚类，确定至少一个语义类别；

根据所述至少一个语义类别和每个语义类别包括的关键词，确定所述第四关键词列表。

可选地，所述第一映射算法和所述第二映射算法为TF-IDF算法、Text Rank算法、Page Rank算法、LDA算法以及TPR算法中的两个。

可选地，所述语音信息是预设时间长度的语音信息或预设音频容量的语音信息。

第二方面，本申请实施例公开了一种语音分析系统，包括：

信息接收模块，用于接收语音信息；

文字识别模块，用于识别所述语音信息，得到所述语音信息对应的文字；

子关键词列表确定模块，用于将所述文字通过第一映射算法确定第一关键词列表，将所述文字通过第二映射算法确定第二关键词列表；其中，所述第一关键词列表包括至少一个关键词及每个关键词对应的第一权重，所述第二关键词列表包括至少一个关键词及每个关键词对应的第二权重；

主关键词列表确定模块，用于根据所述第一关键词列表和所述第二关键词列表，确定第三关键词列表；其中，所述第三关键词列表包括至少一个关键词及每个关键词对应的第三权重；

扩展关键词列表确定模块，用于对所述第三关键词列表中的关键词进行语义特征提取和聚类，确定第四关键词列表；其中，所述第四关键词列表包括至少一个语义类别、每个语义类别对应的关键词及每个关键词对应的第三权重；

分析结果确定模块，用于根据所述第四关键词列表，确定所述语音信息的分析结果；

输出模块，用于输出所述语音信息的分析结果。

可选地，所述扩展关键词列表确定模块具体用于：

第三方面，本申请实施例还公开了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述第一方面任一所述方法。

第四方面，本申请实施例还公开了一种计算机可读存储介质，所述计算机可读存储介质存储有执行上述第一方面任一所述方法的计算机程序。

本申请实施例提供的语音分析方法，通过接收并识别所述语音信息，将所述语音信息对应的文字通过第一映射算法确定第一关键词列表，将所述文字通过第二映射算法确定第二关键词列表；其中，所述第一关键词列表包括至少一个关键词及每个关键词对应的第一权重，所述第二关键词列表包括至少一个关键词及每个关键词对应的第二权重；根据所述第一关键词列表和所述第二关键词列表，确定第三关键词列表；其中，所述第三关键词列表包括至少一个关键词及每个关键词对应的第三权重；对所述第三关键词列表中的关键词进行语义特征提取和聚类，确定第四关键词列表；其中，所述第四关键词列表包括至少一个语义类别、每个语义类别对应的关键词及每个关键词对应的第三权重；根据所述第四关键词列表，确定所述语音信息的分析结果；输出所述语音信息的分析结果。从而可以快速又精准的确定关键词，并提升语音分析的效果。

附图说明

图1是本申请实施例提供的一种语音分析方法步骤流程示意图；

图2是本申请实施例提供的一种示例图之一；

图3是本申请实施例提供的一种示例图之一；

图4是本申请实施例提供的一种示例图之一；

图5是本申请实施例提供的一种语音分析系统结构示意图。

具体实施方式

语音识别技术，也被称为自动语音识别(Automatic Speech Recognition， ASR)技术，其目标是将人类发出语音中的词汇内容转换为计算机可读的输入，例如按键、二进制编码或者字符序列。与说话人识别及说话人确认不同，后者尝试识别或确认发出语音的说话人，而非其中所包含的词汇内容。

语音识别中分为声学模型和语言模型两部分，其中语言模型贴合使用场景的定制化工作一直是语音识别技术应用的重要环节，而应用在会议场景中的会议系统由于会议领域发散、无固定内容或主题，很难定制出贴合使用场景的语言模型，所以需要提升语言模型在会议场景的贴合度。

本申请实施例适用于所有需要语音识别的场景。目前行业内还没有产品做过类似于本申请实施例中的语音分析方法，现有技术中需要用户自主提供一些关键词，也就是“热词”，系统针对这些“热词”的出现概率提升优化系统对于这些“热词”的识别率。此类做法存在缺陷，首先，有些会议的主题或关键词是无法提前获知的，因此常常难以提前选出合适的词进行优化；另外，自然语言的多样性使得同种意思可以有很多类似词汇的表达，而单一的优化指定词难以涵盖所有说法，从而降低实际优化效果。

本申请实施例适用场景可以是用户开启用户设备(至少包括录音功能) 上的关键词提取软件或功能，用户设备对环境音进行录制，得到会议语音数据。所述用户设备如智能手机、平板电脑、智能穿戴设备等。客户端可以具有通信模块，可以与远程的服务器进行通信连接，实现与所述服务器的数据传输。所述的服务器可以包括单台计算机设备，也可以包括多个服务器组成的服务器集群，或者分布式系统的服务器结构。服务器根据该语音进行处理，最终得到的会议信息结果返回到客户端上显示给用户。进一步地，用户可以判断得到的会议信息结果是否准确或满意，并在客户端上给予反馈。

因此，本申请实施例提供的语音分析方法可以快速准确的分析语音中的关键词、通过词向量扩展又可以有效地扩充关键词涵盖面，从而使得相同意思但不同说法的关键词同时被优化。

为使本申请的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本申请作进一步详细的说明。

图1示出了本申请实施例提供的语音分析方法流程图，所述方法包括如下步骤：

步骤101：接收语音信息。

步骤102：识别所述语音信息，得到所述语音信息对应的文字。

步骤103：将所述文字通过第一映射算法确定第一关键词列表，将所述文字通过第二映射算法确定第二关键词列表；其中，所述第一关键词列表包括至少一个关键词及每个关键词对应的第一权重，所述第二关键词列表包括至少一个关键词及每个关键词对应的第二权重。

步骤104：根据所述第一关键词列表和所述第二关键词列表，确定第三关键词列表；其中，所述第三关键词列表包括至少一个关键词及每个关键词对应的第三权重。

步骤105：对所述第三关键词列表中的关键词进行语义特征提取和聚类，确定第四关键词列表；其中，所述第四关键词列表包括至少一个语义类别、每个语义类别对应的关键词及每个关键词对应的第三权重。

步骤106：根据所述第四关键词列表，确定所述语音信息的分析结果。

步骤107：输出所述语音信息的分析结果。

在步骤101中，首先接收语音信息，所述语音信息可以是预设时间长度的语音信息，也可以是预设音频容量的语音信息。

关于语音信息的获取方式本申请实施例不做限定，可如前文所述由用户实时开启获取语音，也可对已经存储的语音进行识别分析。

在步骤102之后，针对所述语音信息对应的文本，可选地，为了辅助后续步骤，也可以对所述文本中包括的中文语句和/或别的语言的语句(包括但不限于英语、韩语和日语)、根据各语言种类的特性，利用分词工具将其切分为由空格间隔的一个一个单独的词。本申请实施例中使用的分词工具可以是本领域技术人员已知的任何分词工具，包括分词算法、程序等等。

例如，所述文本中若包括类似“Huawei has launched the early researchrelated technologies，and to show the prototypes of the 5G base in lateryears”，利用分词工具进行分词之后，可以生成“Huawei”、“launched”、“the earlyresearch”、“related technologies”、“prototypes”、“5G”、“base”、“in later years”；又例如，所述文本中若包括类似“华为获得25个国家的5G商业合同，其中包括英国、意大利和葡萄牙等国家”，利用分词工具进行分词之后，可以生成“华为”、“获得”、“25个国家”、“5G”、“商业合同”、“英国”、“意大利”、“葡萄牙”、“国家”。

在步骤103中，所述第一映射算法和所述第二映射算法中为现有技术中的关键词提取算法中的两个，包括但不限于TF-IDF算法、Text Rank算法、 Page Rank算法、LDA算法以及TPR算法。

一个词语在一篇文章中出现次数越多,同时在所有文档中出现次数越少, 越能够代表该文章。本申请实施例提供的方法中可以先把之前的各种场景的内容文本进行收集整理，并整合形成映射算法可利用的比较历史文档，从而就可以更准确的找出独特的关键词。

无论通过上述哪种算法，目的是通过计算出的每个关键词的权重，得出权重值最大的词，也就是文本的关键词。因此实际上，本申请实施例中的映射算法也不限于两次，可以三次，四次或更多，目的在于通过不同算法可以使得关键词的“抓取”更为准确。

在步骤104中，所述每个关键词对应的第三权重用如下公式(1)计算：

其中，为所述第一关键词列表的列表权重，为所述第二关键词列表的列表权重，w₁为所述关键词的第一权重，w₂为所述关键词的第二权重，其中和的值可以根据具体情况进行设置，

在步骤105中，根据词向量产生word2vect模型，确定所述第三关键词列表中的关键词的语义特征；根据所述第三关键词列表中的关键词的语义特征进行聚类，确定至少一个语义类别；根据所述至少一个语义类别和每个语义类别包括的关键词，确定所述第四关键词列表。

本申请实施例中使用的语义特征提取方法可以是用来产生词向量的相关模型(word to vector，word2vec)，word2vec模型可用来映射每个词到一个向量，可用来表示词对词之间的关系。将词表征为实数值向量，通过训练把对文本内容的处理简化为K维向量空间中的向量运算，而向量空间上的相似度可以用来表示文本语义上的相似。也就是将每个词映射成K维实数向量(K一般为模型中的超参数)，通过词之间的距离(比如cosine相似度、欧氏距离等)来判断它们之间的语义相似度。使得所有词频相似的词隐藏层激活的内容基本一致，出现频率越高的词语，他们激活的隐藏层数目越少，如此有效的降低了计算的复杂度。使用word2vec模型对已经提取出来的关键词进行“扩充”，通过词向量可以找到任意一个词的语义相近的词汇，进行聚类。从而广泛地、准确地涵盖了会议的关键词。

为了使得本申请实施例中提供的语音分析方法更加清晰易懂，现结合具体应用场景进行举例说明。

例如会议中，对于目标语音5分钟长度的识别文字如下：

“首先，要在夯实基础、巩固秩序上着力。只有牢牢确立起秩序，才能保证实践不走样、不变形。其次，要在完善实施的制度和机制上用功。第三，要切实加强宣传，牢固意识，坚守原则。第四，要努力形成氛围和势能，全面准确理解和落实有关规定，获得更实在的利益。”

在识别出目标文字之后，利用TF-IDF算法提取目标文字的第一组关键词(如图2所示)，利用Text Rank算法提取目标文字的第二组关键词(如图 3所示)。图2中可以看出，通过TF-IDF算法提取出的关键词为：“秩序”等；图3中可以看出，通过Text Rank算法提取出的关键词为：“秩序”、“基础”、“氛围”等。可以看出两组关键词中有共同关键词，这部分关键词可以看做“更关键”的关键词。其次，通过不同算法也会分别提取出不相同的词语，这些词语可以理解为从不同角度获取的关键词，也予以保留。通过上述公式(1)，可以得到“融合”了两种算法的关键词列表和每个关键词的权重。

进一步地，对每一个关键词通过词向量word2vec模型进行扩展，例如为每一个关键词找出词向量欧氏距离最接近的前50个词汇，作为每一个关键词的同义词。这些同义词被归为一个类别。如图4所示，以“秩序”一词为例进行词向量展开，从前到后相似度依次降低。同类别的关键词为“秩序”、“社会秩序”、“经济秩序”、“生产秩序”、“市场秩序”、“交通秩序”、“新秩序”等等。

最终得到关键词列表，所述关键词列表包括关键词和每个关键词对应的权重，所述关键词包括“原始关键词”与“扩展词”。

进一步地，可以通过现有技术中的算法对关键词列表中的词汇进行热词优化等，达成多种业务的功能目的。

本申请实施例提供的语音分析方法，解决了语音识别中语言模型难以匹配使用场景的问题，形成了实时在线自学习闭环系统。可以快速又精准的确定关键词，并提升语音分析的效果。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请实施例并不受所描述的动作顺序的限制，因为依据本申请实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本申请实施例所必须的。

基于相同的技术构思，图5示出了本申请实施例提供的一种语音分析系统的结构框图，具体可以包括如下模块：

信息接收模块501，用于接收语音信息。

文字识别模块502，用于识别所述语音信息，得到所述语音信息对应的文字。

子关键词列表确定模块503，用于将所述文字通过第一映射算法确定第一关键词列表，将所述文字通过第二映射算法确定第二关键词列表；其中，所述第一关键词列表包括至少一个关键词及每个关键词对应的第一权重，所述第二关键词列表包括至少一个关键词及每个关键词对应的第二权重。

主关键词列表确定模块504，用于根据所述第一关键词列表和所述第二关键词列表，确定第三关键词列表；其中，所述第三关键词列表包括至少一个关键词及每个关键词对应的第三权重。

扩展关键词列表确定模块505，用于对所述第三关键词列表中的关键词进行语义特征提取和聚类，确定第四关键词列表；其中，所述第四关键词列表包括至少一个语义类别、每个语义类别对应的关键词及每个关键词对应的第三权重。

分析结果确定模块506，用于根据所述第四关键词列表，确定所述语音信息的分析结果；

输出模块507，用于输出所述语音信息的分析结果。

可选地，所述主关键词列表确定模块中的每个关键词对应的第三权重具体使用上述公式(1)计算。

可选地，所述扩展关键词列表确定模块505具体用于：

可选地，所述第一映射算法和所述第二映射算法为TF-IDF算法、Text Rank算法、Page Rank算法、LDA算法以及TPR算法中的任意两个。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本申请实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本申请实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请实施例可采用在至少一个其中包含有计算机可用程序代码的计算机可用存储介质 (包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请实施例是参照根据本申请实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本申请所提供的一种语音分析方法及系统进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种语音分析方法，其特征在于，所述方法包括：

接收语音信息；

识别所述语音信息，得到所述语音信息对应的文字；

根据所述第四关键词列表，确定所述语音信息的分析结果；

输出所述语音信息的分析结果。

2.如权利要求1所述的方法，其特征在于，所述每个关键词对应的第三权重用是由所述第一关键词列表的权重乘以所述关键词的第一权重，加上所述第二关键词列表的权重乘以所述关键词的第二权重得到的。

3.如权利要求1所述的方法，其特征在于，所述对所述第三关键词列表中的关键词进行语义特征提取和聚类，确定第四关键词列表，包括：

4.如权利要求1所述的方法，其特征在于，所述第一映射算法和所述第二映射算法为TF-IDF算法、Text Rank算法、Page Rank算法、LDA算法以及TPR算法中的两个；

所述语音信息是预设时间长度的语音信息或预设音频容量的语音信息。

5.一种语音分析系统，其特征在于，所述系统包括：

信息接收模块，用于接收语音信息；

输出模块，用于输出所述语音信息的分析结果。

6.如权利要求5所述的系统，其特征在于，所述每个关键词对应的第三权重用是由所述第一关键词列表的权重乘以所述关键词的第一权重，加上所述第二关键词列表的权重乘以所述关键词的第二权重得到的。

7.如权利要求5所述的系统，其特征在于，所述扩展关键词列表确定模块具体用于：

8.如权利要求5所述的系统，其特征在于，所述第一映射算法和所述第二映射算法为TF-IDF算法、Text Rank算法、Page Rank算法、LDA算法以及TPR算法中的两个；

9.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至4任一所述方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有执行权利要求1至4任一所述方法的计算机程序。