CN106910512A

CN106910512A - 语音文件的分析方法、装置及系统

Info

Publication number: CN106910512A
Application number: CN201510958335.9A
Authority: CN
Inventors: 张佳师; 姜珊珊; 张光磊; 郑继川; 董滨
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 2015-12-18
Filing date: 2015-12-18
Publication date: 2017-06-30

Abstract

本发明提供了一种语音文件的分析方法、装置及系统，属于自然语言处理领域。其中，语音文件的分析方法包括：将语音文件转换为文本信息，对所述文本信息进行分析至少得到评价对象以及评价对象的第一评价结果；获取所述语音文件中与所述第一评价结果对应的语音评价片段，对所述语音评价片段进行语音分析，得到情感极性；利用所述情感极性对所述第一评价结果进行校正，得到第二评价结果。本发明的技术方案通过对语音文件进行分析，能够得到用户对评价对象的真实评价。

Description

语音文件的分析方法、装置及系统

技术领域

本发明涉及自然语言处理领域，特别是指一种语音文件的分析方法、装置及系统。

背景技术

目前用户对产品的评价通常是通过文本来进行表达，但是在移动设备上输入文字很不方便，因此，一部分客户会因为输入文字的不方便而放弃对产品进行评价或者对产品的评价字数很少，导致产品的评价信息不完整；还有一部分用户因为不善于用文字来表达情绪而导致对产品的评价不精准，比如在用户采用反讽的语气对产品进行评价时，对文本的分析结果往往与用户的真实意图相反。综上所述，采用文本进行表达的方式不能真实地反映用户对产品的评价。

为了真实地反映用户对产品的评价，用户可以通过语音来发表对产品的评论，以及表达用户此时的情绪，但是现有的语音分析技术只能简单地分析出用户的情绪，即用户是高兴还是愤怒等，而不能将用户的情绪与产品的属性结合起来，也就不能得到用户对产品属性的真实评价。

发明内容

本发明要解决的技术问题是提供一种语音文件的分析方法、装置及系统，通过对语音文件进行分析，能够得到用户对产品属性的真实评价。

为解决上述技术问题，本发明的实施例提供技术方案如下：

一方面，提供一种语音文件的分析方法，包括：

将语音文件转换为文本信息，对所述文本信息进行分析至少得到评价对象以及评价对象的第一评价结果；

获取所述语音文件中与所述第一评价结果对应的语音评价片段，对所述语音评价片段进行语音分析，得到情感极性；

利用所述情感极性对所述第一评价结果进行校正，得到第二评价结果。

进一步地，所述对所述文本信息进行分析得到评价对象以及评价对象的第一评价结果包括：

对文本信息进行分词和句法分析，从分析结果中至少识别出评价对象、情感词及情感词的修饰词，将情感词及其修饰词组成的情感短语作为所述评价对象的第一评价结果。

进一步地，所述获取所述语音文件中与所述第一评价结果对应的语音评价片段包括：

将所述语音文件与所述文本信息进行对齐，确定出所述情感短语对应的语音片段所在位置；

根据所述语音片段的所在位置从所述语音文件中截取语音评价片段，所述语音评价片段至少包括所述语音片段。

进一步地，所述语音评价片段的长度大于所述语音片段的长度。

进一步地，所述对所述语音评价片段进行语音分析，得到情感极性包括：

提取出所述语音评价片段的语音特征；

将所述提取的语音特征输入预设的训练模型中，得到情感极性。

进一步地，所述分析方法还包括：

对多组数据进行训练生成所述训练模型，每组数据包括语音特征及其对应的情感极性。

进一步地，所述语音特征包括：语音能量变化率和语音基频变化率。

进一步地，所述提取出所述语音评价片段的语音特征包括：

通过滑动窗口对所述语音评价片段的语音能量E和语音基频F0进行平滑，得到平滑后的语音基频和语音能量

其中，滑动窗口的长度为w帧，F0(i)为所述语音评价片段中第i帧的语音基频，E(i)为所述语音评价片段中第i帧的语音能量，i不大于w；

利用平滑后的语音基频和语音能量得到语音能量变化率和语音基频变化率

进一步地，所述利用所述情感极性对所述第一评价结果进行校正，得到第二评价结果包括：

在所述情感极性为正时，得到与所述第一评价结果相同的第二评价结果；

在所述情感极性为负时，得到与所述第一评价结果相反的第二评价结果。

本发明实施例还提供了一种语音文件的分析装置，包括：

转换模块，用于将语音文件转换为文本信息；

分析模块，用于对所述文本信息进行分析至少得到评价对象以及评价对象的第一评价结果；

处理模块，用于获取所述语音文件中与所述第一评价结果对应的语音评价片段，对所述语音评价片段进行语音分析，得到情感极性；

校正模块，用于利用所述情感极性对所述第一评价结果进行校正，得到第二评价结果。

进一步地，所述分析模块包括：

分词和句法分析子模块，用于对文本信息进行分词和句法分析；

识别子模块，用于从分析结果中至少识别出评价对象、情感词及情感词的修饰词，将情感词及其修饰词组成的情感短语作为所述评价对象的第一评价结果。

进一步地，所述处理模块包括：

对齐子模块，用于将所述语音文件与所述文本信息进行对齐，确定出所述情感短语对应的语音片段所在位置；

截取子模块，用于根据所述语音片段的所在位置从所述语音文件中截取语音评价片段，所述语音评价片段至少包括所述语音片段。

进一步地，所述处理模块包括：

提取子模块，用于提取出所述语音评价片段的语音特征；

输入子模块，用于将所述提取的语音特征输入预设的训练模型中，得到情感极性。

进一步地，所述装置还包括：

模型训练模块，用于对多组数据进行训练生成所述训练模型，每组数据包括语音特征及其对应的情感极性。

进一步地，所述提取子模块包括：

第一计算单元，用于通过滑动窗口对所述语音评价片段的语音能量E和语音基频F0进行平滑，得到平滑后的语音基频和语音能量

第二计算单元，用于利用平滑后的语音基频和语音能量得到语音能量变化率和语音基频变化率

进一步地，所述校正模块具体用于在所述情感极性为正时，得到与所述第一评价结果相同的第二评价结果；在所述情感极性为负时，得到与所述第一评价结果相反的第二评价结果。

本发明实施例还提供了一种语音文件的分析系统，包括：

输入设备，用于接收输入的语音文件；

分析设备，用于将语音文件转换为文本信息，对所述文本信息进行分析至少得到评价对象以及评价对象的第一评价结果，获取所述语音文件中与所述第一评价结果对应的语音评价片段，对所述语音评价片段进行语音分析，得到情感极性，利用所述情感极性对所述第一评价结果进行校正，得到第二评价结果；

输出设备，用于输出所述第二评价结果。

本发明的实施例具有以下有益效果：

上述方案中，将语音文件转换为文本信息，对文本信息进行分析得到评价对象的第一评价结果，之后对与第一评价结果对应的语音评价片段进行语音分析，得到情感极性，再利用情感极性对第一评价结果进行校正，得到第二评价结果。本发明的技术方案不但能够对语音文件做细粒度的分析，得到评价对象及其对应的评价结果，还能够将语音分析与文本分析相结合，得到用户对评价对象的真实评价。

附图说明

图1为本发明实施例一语音文件的分析方法的流程示意图；

图2为本发明实施例二语音文件的分析装置的结构框图；

图3为本发明实施例三语音文件的分析系统的结构框图；

图4为本发明实施例四语音文件的分析方法的流程示意图；

图5为本发明实施例四截取语音评价片段的流程示意图；

图6为本发明实施例四截取语音评价片段的具体示例。

具体实施方式

为使本发明的实施例要解决的技术问题、技术方案和优点更加清楚，下面将结合附图及具体实施例进行详细描述。

本发明的实施例针对现有技术中语音分析技术只能简单地分析出用户的情绪，不能得到用户对产品属性的真实评价的问题，提供一种语音文件的分析方法、装置及系统，通过对语音文件进行分析，能够得到用户对产品属性的真实评价。

实施例一

本实施例提供一种语音文件的分析方法，如图1所示，包括：

步骤101：将语音文件转换为文本信息；

步骤102：对所述文本信息进行分析至少得到评价对象以及评价对象的第一评价结果；

步骤103：获取所述语音文件中与所述第一评价结果对应的语音评价片段，对所述语音评价片段进行语音分析，得到情感极性；

步骤104：利用所述情感极性对所述第一评价结果进行校正，得到第二评价结果。

本实施例将语音文件转换为文本信息，对文本信息进行分析得到评价对象的第一评价结果，之后对与第一评价结果对应的语音评价片段进行语音分析，得到情感极性，再利用情感极性对第一评价结果进行校正，得到第二评价结果。本实施例的技术方案不但能够对语音文件做细粒度的分析，得到评价对象及其对应的评价结果，还能够将语音分析与文本分析相结合，得到用户对评价对象的真实评价。

其中，评价对象可以是产品属性，比如手机的拍照、手机的录音、笔记本的音响等；可以是产品的品牌，比如三星手机、佳能相机等；还可以是服务机构，比如英孚教育，新东方课程等；还可以是客观现象，比如朝阳房价，回龙观房价等等，总而言之，具体的事物或者现象都可作为评价对象。

提取出所述语音评价片段的语音特征；

进一步地，所述分析方法还包括：

进一步地，所述提取出所述语音评价片段的语音特征包括：

实施例二

本实施例提供了一种语音文件的分析装置，如图2所示，包括：

转换模块20，用于将语音文件转换为文本信息；

分析模块21，用于对所述文本信息进行分析至少得到评价对象以及评价对象的第一评价结果；

处理模块22，用于获取所述语音文件中与所述第一评价结果对应的语音评价片段，对所述语音评价片段进行语音分析，得到情感极性；

校正模块23，用于利用所述情感极性对所述第一评价结果进行校正，得到第二评价结果。

进一步地，所述分析模块包括：

进一步地，所述处理模块包括：

提取子模块，用于提取出所述语音评价片段的语音特征；

进一步地，所述装置还包括：

进一步地，所述提取子模块包括：

实施例三

本实施例提供了一种语音文件的分析系统，如图3所示，本实施例包括：

输入设备14，用于接收输入的语音文件；

输出设备15，用于输出所述第二评价结果。

本实施例的语音文件的分析系统可以利用计算机系统来实现，如图3所示，在语音文件的分析系统利用计算机系统实现时，分析设备包括CPU10、随机存取存储器11、只读内存12和硬盘13。其中，CPU10将语音文件转换为文本信息，对文本信息进行分析至少得到评价对象以及评价对象的第一评价结果，获取语音文件中与第一评价结果对应的语音评价片段，对语音评价片段进行语音分析，得到情感极性，利用情感极性对第一评价结果进行校正，得到第二评价结果。计算过程中的中间结果可以存储在随机存取存储器11和只读内存12上，最终得到的第二评价结果可以存储在硬盘13上。

实施例四

下面以评价对象为产品属性为例，对本发明的语音文件的分析方法进行进一步地介绍，如图4所示，本实施例的语音文件的分析方法具体包括以下步骤：

步骤1：将语音文件转换为文本信息；

本实施例的输入是用户的语音文件，具体地，可以通过移动终端、固定设备的麦克风等进行语音数据的采集并上传到服务器上，再使用现有的成熟技术，比如语音识别引擎将用户输入的语音文件转换为文本信息。其中，在转换语音文件之前，可以对语音文件进行降噪和端点检测等预处理，这样可以提高转换的准确率。

步骤2：对文本信息进行分析得到产品属性以及产品属性的第一评价结果；

对转换后得到的文本信息进行细粒度的分析，提取出产品、属性、情感词及其修饰词等特征，具体地，可以首先对文本信息进行分词及句法分析，识别特征词、关键词、情感词等，之后对提取出的特征词、关键词、情感词等进行CRFs(组合参考频率系统)识别，获取识别结果。识别结果中包括有产品，属性情感词及情感词的修饰词等，将情感词及其修饰词组成情感短语。例如语音文件转换后的文本信息为：XXX手机拍照很不错的，那么文本信息的分析结果为，产品：XXX手机；属性：拍照；情感：不错；修饰词：很；情感短语为：“很不错”。

步骤3：截取语音评价片段；

如图5所示，截取语音评价片段具体包括以下步骤：

步骤31：将所述语音文件与所述文本信息进行对齐，确定出所述情感短语对应的语音片段所在位置；

具体地，可以利用现有的强对齐工具将语音文件与转换后的文本信息进行语音对齐，找出每个字或者词对应的语音时间信息，进而确定出情感短语对应的语音片段所在的窗口位置。如图6所示，定位出“很不错”的窗口位置。

步骤32：根据所述语音片段的所在位置从所述语音文件中截取语音评价片段

情感短语对应的窗口位置的语音片段就是即将截取的语音评价片段。为了获取更优的语音质量，可以对情感短语对应的窗口位置向左或者向右移动几帧，再进行截取得到语音评价片段，这样可以保证获得足够的语音数据。

步骤4：对语音评价片段进行语音分析，得到情感极性；

语音信号的特征及其种类很多，包括：能量，基频，共振峰，语调等等。从语音信号中可以提取与情绪相关的特征，用于判断文字之外的情绪信息——弦外之音。语音信号的基频和能量信息的变化被认为与人的情绪有较大的相关性，因此本实施例中抽取这两种语音特征进行情感倾向的判断，其中，语音能量即声音声量的大小，主要体现用户发音时声音的大小，以及情感短语的发音变化和主语，谓语等声音大小的变化；而语音基频，主要体现在语音语调的变化，汉语中的一二三四声，在本实施例中主要考虑在情感短语部分是否有语音语调的变化或者重音等。

假设语音评价片段长度为L帧，定义F0(i)为第i帧的基频，E(i)为第i帧的能量。先通过滑动窗口对基频和能量进行平滑处理，以滤除噪声对结果的影响。

假设滑动窗口长度为w，则经过平滑的基频和能量可表示为：

经过平滑处理后，将语音能量变化率和语音基频变化率作为语音评价片段的语音特征：

在情感极性识别之前，需要对多组数据进行训练生成训练模型，生成的训练模型应用于情感极性识别，将语音特征输入训练模型即可得到对应的情感极性。训练模型的好坏将直接影响最后的识别结果，因此，需要使用尽可能多的数据来进行训练，模型训练时的每一组输入数据包括：语音能量变化率特征，语音基频变化率特征和对应的人工标注的结果。

目前常用的训练模型比较突出的有:基于隐马尔科夫模型(HMM)的情感识别方法和基于支持向量机(SVM)的情感识别方法。HMM训练器和SVM训练器侧重点不同，HMM训练器处理连续信号更优，但类别区分能力较弱；SVM训练器更适合分类，但具有只适合少量样本和训练时间长等缺点。本实施例中，可以将两者结合得到训练模型，在训练时，可以先将包括语音能量变化率特征，语音基频变化率特征和对应的人工标注的结果的多组数据输入HMM训练器进行训练，得到多个n维向量，再将多个n维向量输入SVM训练器进行训练，得到训练模型。

本实施例中，将语音特征输入训练好的训练模型，得到的情感极性结果可以为0或1，其中0表示情感极性为负，则最终的第二评价结果将与对文本信息进行分析得到的第一评价结果相反；1表示情感极性为正，则最终的第二评价结果将与对文本信息进行分析得到的第一评价结果相同。

步骤5：利用所述情感极性对所述第一评价结果进行校正，得到第二评价结果。

通过对文本信息进行分析到产品属性及其对应的第一评价结果，第一评价结果可以为POS或NEG，其中POS表示对产品属性认可，NEG表示对产品属性不认可。通过对语音评价片段进行分析可以得到情感极性结果1或者0，两者结合会得到产品属性最后的第二评价结果。如果文本信息分析的第一评价结果为POS，情感极性结果为1，那么最终的第二评价结果为POS；如果文本信息分析的第一评价结果为POS，情感极性结果为0，那么最终的第二评价结果为NEG；如果文本信息分析的第一评价结果为NEG，情感极性结果为1，那么最终的第二评价结果为NEG；如果文本信息分析的第一评价结果为NEG，情感极性结果为0，那么最终的第二评价结果为POS。

比如上文中“XX手机的拍照’很’不错”,如果其中’很’特意的加强了音调及语气，那么得到的情感极性为0，最后的第二评价结果与文本信息分析得到的第一评价结果相反，就是用户对手机的拍照不满意。

本实施例在语音分析的基础上，更细化的分析语音所描述的内容，是与内容相关的语音分析，在获得用户情感的同时更能知道用户所描述的产品及属性等；另一方面，相对于传统的文本评论，可以解决文本分析不能识别反讽现象的问题，更能反映用户的真实情感，得到用户对产品属性的真实评价。

此说明书中所描述的许多功能部件都被称为模块，以便更加特别地强调其实现方式的独立性。

本发明实施例中，模块可以用软件实现，以便由各种类型的处理器执行。举例来说，一个标识的可执行代码模块可以包括计算机指令的一个或多个物理或者逻辑块，举例来说，其可以被构建为对象、过程或函数。尽管如此，所标识模块的可执行代码无需物理地位于一起，而是可以包括存储在不同物理上的不同的指令，当这些指令逻辑上结合在一起时，其构成模块并且实现该模块的规定目的。

实际上，可执行代码模块可以是单条指令或者是许多条指令，并且甚至可以分布在多个不同的代码段上，分布在不同程序当中，以及跨越多个存储器设备分布。同样地，操作数据可以在模块内被识别，并且可以依照任何适当的形式实现并且被组织在任何适当类型的数据结构内。所述操作数据可以作为单个数据集被收集，或者可以分布在不同位置上(包括在不同存储设备上)，并且至少部分地可以仅作为电子信号存在于系统或网络上。

在模块可以利用软件实现时，考虑到现有硬件工艺的水平，所以可以以软件实现的模块，在不考虑成本的情况下，本领域技术人员都可以搭建对应的硬件电路来实现对应的功能，所述硬件电路包括常规的超大规模集成(VLSI)电路或者门阵列以及诸如逻辑芯片、晶体管之类的现有半导体或者是其它分立的元件。模块还可以用可编程硬件设备，诸如现场可编程门阵列、可编程阵列逻辑、可编程逻辑设备等实现。

在本发明各方法实施例中，所述各步骤的序号并不能用于限定各步骤的先后顺序，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，对各步骤的先后变化也在本发明的保护范围之内。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明所述原理的前提下，还可以作出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种语音文件的分析方法，其特征在于，包括：

2.根据权利要求1所述的语音文件的分析方法，其特征在于，所述对所述文本信息进行分析得到评价对象以及评价对象的第一评价结果包括：

3.根据权利要求1所述的语音文件的分析方法，其特征在于，所述获取所述语音文件中与所述第一评价结果对应的语音评价片段包括：

4.根据权利要求3所述的语音文件的分析方法，其特征在于，所述语音评价片段的长度大于所述语音片段的长度。

5.根据权利要求1所述的语音文件的分析方法，其特征在于，所述对所述语音评价片段进行语音分析，得到情感极性包括：

提取出所述语音评价片段的语音特征；

6.根据权利要求5所述的语音文件的分析方法，其特征在于，所述分析方法还包括：

7.根据权利要求5所述的语音文件的分析方法，其特征在于，所述语音特征包括：语音能量变化率和语音基频变化率。

8.根据权利要求7所述的语音文件的分析方法，其特征在于，所述提取出所述语音评价片段的语音特征包括：

\overset{&OverBar;}{F} 0 (i) = \frac{1}{w} Σ_{i}^{i + w - 1} F 0 (i)

\overset{&OverBar;}{E} (i) = \frac{1}{w} Σ_{i}^{i + w - 1} E (i)

Δ \overset{&OverBar;}{F} 0 (i) = \overset{&OverBar;}{F} 0 (i + 1) - \overset{&OverBar;}{F} 0 (i)

Δ \overset{&OverBar;}{E} (i) = \overset{&OverBar;}{E} (i + 1) - \overset{&OverBar;}{E} (i) .

9.根据权利要求1所述的语音文件的分析方法，其特征在于，所述利用所述情感极性对所述第一评价结果进行校正，得到第二评价结果包括：

10.一种语音文件的分析装置，其特征在于，包括：

转换模块，用于将语音文件转换为文本信息；

11.根据权利要求10所述的语音文件的分析装置，其特征在于，所述分析模块包括：

12.根据权利要求10所述的语音文件的分析装置，其特征在于，所述处理模块包括：

13.根据权利要求10所述的语音文件的分析装置，其特征在于，所述处理模块包括：

提取子模块，用于提取出所述语音评价片段的语音特征；

14.根据权利要求13所述的语音文件的分析装置，其特征在于，所述装置还包括：

15.根据权利要求13所述的语音文件的分析装置，其特征在于，所述语音特征包括：语音能量变化率和语音基频变化率。

16.根据权利要求15所述的语音文件的分析装置，其特征在于，所述提取子模块包括：

\overset{&OverBar;}{F} 0 (i) = \frac{1}{w} Σ_{i}^{i + w - 1} F 0 (i)

\overset{&OverBar;}{E} (i) = \frac{1}{w} Σ_{i}^{i + w - 1} E (i)

Δ \overset{&OverBar;}{F} 0 (i) = \overset{&OverBar;}{F} 0 (i + 1) - \overset{&OverBar;}{F} 0 (i)

Δ \overset{&OverBar;}{E} (i) = \overset{&OverBar;}{E} (i + 1) - \overset{&OverBar;}{E} (i) .

17.根据权利要求10所述的语音文件的分析装置，其特征在于，所述校正模块具体用于在所述情感极性为正时，得到与所述第一评价结果相同的第二评价结果；在所述情感极性为负时，得到与所述第一评价结果相反的第二评价结果。

18.一种语音文件的分析系统，其特征在于，包括：

接收设备，用于接收输入的语音文件；

输出设备，用于输出所述第二评价结果。