CN106910512A - 语音文件的分析方法、装置及系统 - Google Patents

语音文件的分析方法、装置及系统 Download PDF

Info

Publication number
CN106910512A
CN106910512A CN201510958335.9A CN201510958335A CN106910512A CN 106910512 A CN106910512 A CN 106910512A CN 201510958335 A CN201510958335 A CN 201510958335A CN 106910512 A CN106910512 A CN 106910512A
Authority
CN
China
Prior art keywords
speech
evaluation result
voice
evaluation
analysis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510958335.9A
Other languages
English (en)
Inventor
张佳师
姜珊珊
张光磊
郑继川
董滨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to CN201510958335.9A priority Critical patent/CN106910512A/zh
Publication of CN106910512A publication Critical patent/CN106910512A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/01Assessment or evaluation of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates

Abstract

本发明提供了一种语音文件的分析方法、装置及系统,属于自然语言处理领域。其中,语音文件的分析方法包括:将语音文件转换为文本信息,对所述文本信息进行分析至少得到评价对象以及评价对象的第一评价结果;获取所述语音文件中与所述第一评价结果对应的语音评价片段,对所述语音评价片段进行语音分析,得到情感极性;利用所述情感极性对所述第一评价结果进行校正,得到第二评价结果。本发明的技术方案通过对语音文件进行分析,能够得到用户对评价对象的真实评价。

Description

语音文件的分析方法、装置及系统
技术领域
本发明涉及自然语言处理领域,特别是指一种语音文件的分析方法、装置及系统。
背景技术
目前用户对产品的评价通常是通过文本来进行表达,但是在移动设备上输入文字很不方便,因此,一部分客户会因为输入文字的不方便而放弃对产品进行评价或者对产品的评价字数很少,导致产品的评价信息不完整;还有一部分用户因为不善于用文字来表达情绪而导致对产品的评价不精准,比如在用户采用反讽的语气对产品进行评价时,对文本的分析结果往往与用户的真实意图相反。综上所述,采用文本进行表达的方式不能真实地反映用户对产品的评价。
为了真实地反映用户对产品的评价,用户可以通过语音来发表对产品的评论,以及表达用户此时的情绪,但是现有的语音分析技术只能简单地分析出用户的情绪,即用户是高兴还是愤怒等,而不能将用户的情绪与产品的属性结合起来,也就不能得到用户对产品属性的真实评价。
发明内容
本发明要解决的技术问题是提供一种语音文件的分析方法、装置及系统,通过对语音文件进行分析,能够得到用户对产品属性的真实评价。
为解决上述技术问题,本发明的实施例提供技术方案如下:
一方面,提供一种语音文件的分析方法,包括:
将语音文件转换为文本信息,对所述文本信息进行分析至少得到评价对象以及评价对象的第一评价结果;
获取所述语音文件中与所述第一评价结果对应的语音评价片段,对所述语音评价片段进行语音分析,得到情感极性;
利用所述情感极性对所述第一评价结果进行校正,得到第二评价结果。
进一步地,所述对所述文本信息进行分析得到评价对象以及评价对象的第一评价结果包括:
对文本信息进行分词和句法分析,从分析结果中至少识别出评价对象、情感词及情感词的修饰词,将情感词及其修饰词组成的情感短语作为所述评价对象的第一评价结果。
进一步地,所述获取所述语音文件中与所述第一评价结果对应的语音评价片段包括:
将所述语音文件与所述文本信息进行对齐,确定出所述情感短语对应的语音片段所在位置;
根据所述语音片段的所在位置从所述语音文件中截取语音评价片段,所述语音评价片段至少包括所述语音片段。
进一步地,所述语音评价片段的长度大于所述语音片段的长度。
进一步地,所述对所述语音评价片段进行语音分析,得到情感极性包括:
提取出所述语音评价片段的语音特征;
将所述提取的语音特征输入预设的训练模型中,得到情感极性。
进一步地,所述分析方法还包括:
对多组数据进行训练生成所述训练模型,每组数据包括语音特征及其对应的情感极性。
进一步地,所述语音特征包括:语音能量变化率和语音基频变化率。
进一步地,所述提取出所述语音评价片段的语音特征包括:
通过滑动窗口对所述语音评价片段的语音能量E和语音基频F0进行平滑,得到平滑后的语音基频和语音能量
其中,滑动窗口的长度为w帧,F0(i)为所述语音评价片段中第i帧的语音基频,E(i)为所述语音评价片段中第i帧的语音能量,i不大于w;
利用平滑后的语音基频和语音能量得到语音能量变化率和语音基频变化率
进一步地,所述利用所述情感极性对所述第一评价结果进行校正,得到第二评价结果包括:
在所述情感极性为正时,得到与所述第一评价结果相同的第二评价结果;
在所述情感极性为负时,得到与所述第一评价结果相反的第二评价结果。
本发明实施例还提供了一种语音文件的分析装置,包括:
转换模块,用于将语音文件转换为文本信息;
分析模块,用于对所述文本信息进行分析至少得到评价对象以及评价对象的第一评价结果;
处理模块,用于获取所述语音文件中与所述第一评价结果对应的语音评价片段,对所述语音评价片段进行语音分析,得到情感极性;
校正模块,用于利用所述情感极性对所述第一评价结果进行校正,得到第二评价结果。
进一步地,所述分析模块包括:
分词和句法分析子模块,用于对文本信息进行分词和句法分析;
识别子模块,用于从分析结果中至少识别出评价对象、情感词及情感词的修饰词,将情感词及其修饰词组成的情感短语作为所述评价对象的第一评价结果。
进一步地,所述处理模块包括:
对齐子模块,用于将所述语音文件与所述文本信息进行对齐,确定出所述情感短语对应的语音片段所在位置;
截取子模块,用于根据所述语音片段的所在位置从所述语音文件中截取语音评价片段,所述语音评价片段至少包括所述语音片段。
进一步地,所述处理模块包括:
提取子模块,用于提取出所述语音评价片段的语音特征;
输入子模块,用于将所述提取的语音特征输入预设的训练模型中,得到情感极性。
进一步地,所述装置还包括:
模型训练模块,用于对多组数据进行训练生成所述训练模型,每组数据包括语音特征及其对应的情感极性。
进一步地,所述语音特征包括:语音能量变化率和语音基频变化率。
进一步地,所述提取子模块包括:
第一计算单元,用于通过滑动窗口对所述语音评价片段的语音能量E和语音基频F0进行平滑,得到平滑后的语音基频和语音能量
其中,滑动窗口的长度为w帧,F0(i)为所述语音评价片段中第i帧的语音基频,E(i)为所述语音评价片段中第i帧的语音能量,i不大于w;
第二计算单元,用于利用平滑后的语音基频和语音能量得到语音能量变化率和语音基频变化率
进一步地,所述校正模块具体用于在所述情感极性为正时,得到与所述第一评价结果相同的第二评价结果;在所述情感极性为负时,得到与所述第一评价结果相反的第二评价结果。
本发明实施例还提供了一种语音文件的分析系统,包括:
输入设备,用于接收输入的语音文件;
分析设备,用于将语音文件转换为文本信息,对所述文本信息进行分析至少得到评价对象以及评价对象的第一评价结果,获取所述语音文件中与所述第一评价结果对应的语音评价片段,对所述语音评价片段进行语音分析,得到情感极性,利用所述情感极性对所述第一评价结果进行校正,得到第二评价结果;
输出设备,用于输出所述第二评价结果。
本发明的实施例具有以下有益效果:
上述方案中,将语音文件转换为文本信息,对文本信息进行分析得到评价对象的第一评价结果,之后对与第一评价结果对应的语音评价片段进行语音分析,得到情感极性,再利用情感极性对第一评价结果进行校正,得到第二评价结果。本发明的技术方案不但能够对语音文件做细粒度的分析,得到评价对象及其对应的评价结果,还能够将语音分析与文本分析相结合,得到用户对评价对象的真实评价。
附图说明
图1为本发明实施例一语音文件的分析方法的流程示意图;
图2为本发明实施例二语音文件的分析装置的结构框图;
图3为本发明实施例三语音文件的分析系统的结构框图;
图4为本发明实施例四语音文件的分析方法的流程示意图;
图5为本发明实施例四截取语音评价片段的流程示意图;
图6为本发明实施例四截取语音评价片段的具体示例。
具体实施方式
为使本发明的实施例要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述。
本发明的实施例针对现有技术中语音分析技术只能简单地分析出用户的情绪,不能得到用户对产品属性的真实评价的问题,提供一种语音文件的分析方法、装置及系统,通过对语音文件进行分析,能够得到用户对产品属性的真实评价。
实施例一
本实施例提供一种语音文件的分析方法,如图1所示,包括:
步骤101:将语音文件转换为文本信息;
步骤102:对所述文本信息进行分析至少得到评价对象以及评价对象的第一评价结果;
步骤103:获取所述语音文件中与所述第一评价结果对应的语音评价片段,对所述语音评价片段进行语音分析,得到情感极性;
步骤104:利用所述情感极性对所述第一评价结果进行校正,得到第二评价结果。
本实施例将语音文件转换为文本信息,对文本信息进行分析得到评价对象的第一评价结果,之后对与第一评价结果对应的语音评价片段进行语音分析,得到情感极性,再利用情感极性对第一评价结果进行校正,得到第二评价结果。本实施例的技术方案不但能够对语音文件做细粒度的分析,得到评价对象及其对应的评价结果,还能够将语音分析与文本分析相结合,得到用户对评价对象的真实评价。
其中,评价对象可以是产品属性,比如手机的拍照、手机的录音、笔记本的音响等;可以是产品的品牌,比如三星手机、佳能相机等;还可以是服务机构,比如英孚教育,新东方课程等;还可以是客观现象,比如朝阳房价,回龙观房价等等,总而言之,具体的事物或者现象都可作为评价对象。
进一步地,所述对所述文本信息进行分析得到评价对象以及评价对象的第一评价结果包括:
对文本信息进行分词和句法分析,从分析结果中至少识别出评价对象、情感词及情感词的修饰词,将情感词及其修饰词组成的情感短语作为所述评价对象的第一评价结果。
进一步地,所述获取所述语音文件中与所述第一评价结果对应的语音评价片段包括:
将所述语音文件与所述文本信息进行对齐,确定出所述情感短语对应的语音片段所在位置;
根据所述语音片段的所在位置从所述语音文件中截取语音评价片段,所述语音评价片段至少包括所述语音片段。
进一步地,所述语音评价片段的长度大于所述语音片段的长度。
进一步地,所述对所述语音评价片段进行语音分析,得到情感极性包括:
提取出所述语音评价片段的语音特征;
将所述提取的语音特征输入预设的训练模型中,得到情感极性。
进一步地,所述分析方法还包括:
对多组数据进行训练生成所述训练模型,每组数据包括语音特征及其对应的情感极性。
进一步地,所述语音特征包括:语音能量变化率和语音基频变化率。
进一步地,所述提取出所述语音评价片段的语音特征包括:
通过滑动窗口对所述语音评价片段的语音能量E和语音基频F0进行平滑,得到平滑后的语音基频和语音能量
其中,滑动窗口的长度为w帧,F0(i)为所述语音评价片段中第i帧的语音基频,E(i)为所述语音评价片段中第i帧的语音能量,i不大于w;
利用平滑后的语音基频和语音能量得到语音能量变化率和语音基频变化率
进一步地,所述利用所述情感极性对所述第一评价结果进行校正,得到第二评价结果包括:
在所述情感极性为正时,得到与所述第一评价结果相同的第二评价结果;
在所述情感极性为负时,得到与所述第一评价结果相反的第二评价结果。
实施例二
本实施例提供了一种语音文件的分析装置,如图2所示,包括:
转换模块20,用于将语音文件转换为文本信息;
分析模块21,用于对所述文本信息进行分析至少得到评价对象以及评价对象的第一评价结果;
处理模块22,用于获取所述语音文件中与所述第一评价结果对应的语音评价片段,对所述语音评价片段进行语音分析,得到情感极性;
校正模块23,用于利用所述情感极性对所述第一评价结果进行校正,得到第二评价结果。
本实施例将语音文件转换为文本信息,对文本信息进行分析得到评价对象的第一评价结果,之后对与第一评价结果对应的语音评价片段进行语音分析,得到情感极性,再利用情感极性对第一评价结果进行校正,得到第二评价结果。本实施例的技术方案不但能够对语音文件做细粒度的分析,得到评价对象及其对应的评价结果,还能够将语音分析与文本分析相结合,得到用户对评价对象的真实评价。
进一步地,所述分析模块包括:
分词和句法分析子模块,用于对文本信息进行分词和句法分析;
识别子模块,用于从分析结果中至少识别出评价对象、情感词及情感词的修饰词,将情感词及其修饰词组成的情感短语作为所述评价对象的第一评价结果。
进一步地,所述处理模块包括:
对齐子模块,用于将所述语音文件与所述文本信息进行对齐,确定出所述情感短语对应的语音片段所在位置;
截取子模块,用于根据所述语音片段的所在位置从所述语音文件中截取语音评价片段,所述语音评价片段至少包括所述语音片段。
进一步地,所述处理模块包括:
提取子模块,用于提取出所述语音评价片段的语音特征;
输入子模块,用于将所述提取的语音特征输入预设的训练模型中,得到情感极性。
进一步地,所述装置还包括:
模型训练模块,用于对多组数据进行训练生成所述训练模型,每组数据包括语音特征及其对应的情感极性。
进一步地,所述语音特征包括:语音能量变化率和语音基频变化率。
进一步地,所述提取子模块包括:
第一计算单元,用于通过滑动窗口对所述语音评价片段的语音能量E和语音基频F0进行平滑,得到平滑后的语音基频和语音能量
其中,滑动窗口的长度为w帧,F0(i)为所述语音评价片段中第i帧的语音基频,E(i)为所述语音评价片段中第i帧的语音能量,i不大于w;
第二计算单元,用于利用平滑后的语音基频和语音能量得到语音能量变化率和语音基频变化率
进一步地,所述校正模块具体用于在所述情感极性为正时,得到与所述第一评价结果相同的第二评价结果;在所述情感极性为负时,得到与所述第一评价结果相反的第二评价结果。
实施例三
本实施例提供了一种语音文件的分析系统,如图3所示,本实施例包括:
输入设备14,用于接收输入的语音文件;
分析设备,用于将语音文件转换为文本信息,对所述文本信息进行分析至少得到评价对象以及评价对象的第一评价结果,获取所述语音文件中与所述第一评价结果对应的语音评价片段,对所述语音评价片段进行语音分析,得到情感极性,利用所述情感极性对所述第一评价结果进行校正,得到第二评价结果;
输出设备15,用于输出所述第二评价结果。
本实施例的语音文件的分析系统可以利用计算机系统来实现,如图3所示,在语音文件的分析系统利用计算机系统实现时,分析设备包括CPU10、随机存取存储器11、只读内存12和硬盘13。其中,CPU10将语音文件转换为文本信息,对文本信息进行分析至少得到评价对象以及评价对象的第一评价结果,获取语音文件中与第一评价结果对应的语音评价片段,对语音评价片段进行语音分析,得到情感极性,利用情感极性对第一评价结果进行校正,得到第二评价结果。计算过程中的中间结果可以存储在随机存取存储器11和只读内存12上,最终得到的第二评价结果可以存储在硬盘13上。
本实施例将语音文件转换为文本信息,对文本信息进行分析得到评价对象的第一评价结果,之后对与第一评价结果对应的语音评价片段进行语音分析,得到情感极性,再利用情感极性对第一评价结果进行校正,得到第二评价结果。本实施例的技术方案不但能够对语音文件做细粒度的分析,得到评价对象及其对应的评价结果,还能够将语音分析与文本分析相结合,得到用户对评价对象的真实评价。
实施例四
下面以评价对象为产品属性为例,对本发明的语音文件的分析方法进行进一步地介绍,如图4所示,本实施例的语音文件的分析方法具体包括以下步骤:
步骤1:将语音文件转换为文本信息;
本实施例的输入是用户的语音文件,具体地,可以通过移动终端、固定设备的麦克风等进行语音数据的采集并上传到服务器上,再使用现有的成熟技术,比如语音识别引擎将用户输入的语音文件转换为文本信息。其中,在转换语音文件之前,可以对语音文件进行降噪和端点检测等预处理,这样可以提高转换的准确率。
步骤2:对文本信息进行分析得到产品属性以及产品属性的第一评价结果;
对转换后得到的文本信息进行细粒度的分析,提取出产品、属性、情感词及其修饰词等特征,具体地,可以首先对文本信息进行分词及句法分析,识别特征词、关键词、情感词等,之后对提取出的特征词、关键词、情感词等进行CRFs(组合参考频率系统)识别,获取识别结果。识别结果中包括有产品,属性情感词及情感词的修饰词等,将情感词及其修饰词组成情感短语。例如语音文件转换后的文本信息为:XXX手机拍照很不错的,那么文本信息的分析结果为,产品:XXX手机;属性:拍照;情感:不错;修饰词:很;情感短语为:“很不错”。
步骤3:截取语音评价片段;
如图5所示,截取语音评价片段具体包括以下步骤:
步骤31:将所述语音文件与所述文本信息进行对齐,确定出所述情感短语对应的语音片段所在位置;
具体地,可以利用现有的强对齐工具将语音文件与转换后的文本信息进行语音对齐,找出每个字或者词对应的语音时间信息,进而确定出情感短语对应的语音片段所在的窗口位置。如图6所示,定位出“很不错”的窗口位置。
步骤32:根据所述语音片段的所在位置从所述语音文件中截取语音评价片段
情感短语对应的窗口位置的语音片段就是即将截取的语音评价片段。为了获取更优的语音质量,可以对情感短语对应的窗口位置向左或者向右移动几帧,再进行截取得到语音评价片段,这样可以保证获得足够的语音数据。
步骤4:对语音评价片段进行语音分析,得到情感极性;
语音信号的特征及其种类很多,包括:能量,基频,共振峰,语调等等。从语音信号中可以提取与情绪相关的特征,用于判断文字之外的情绪信息——弦外之音。语音信号的基频和能量信息的变化被认为与人的情绪有较大的相关性,因此本实施例中抽取这两种语音特征进行情感倾向的判断,其中,语音能量即声音声量的大小,主要体现用户发音时声音的大小,以及情感短语的发音变化和主语,谓语等声音大小的变化;而语音基频,主要体现在语音语调的变化,汉语中的一二三四声,在本实施例中主要考虑在情感短语部分是否有语音语调的变化或者重音等。
假设语音评价片段长度为L帧,定义F0(i)为第i帧的基频,E(i)为第i帧的能量。先通过滑动窗口对基频和能量进行平滑处理,以滤除噪声对结果的影响。
假设滑动窗口长度为w,则经过平滑的基频和能量可表示为:
经过平滑处理后,将语音能量变化率和语音基频变化率作为语音评价片段的语音特征:
在情感极性识别之前,需要对多组数据进行训练生成训练模型,生成的训练模型应用于情感极性识别,将语音特征输入训练模型即可得到对应的情感极性。训练模型的好坏将直接影响最后的识别结果,因此,需要使用尽可能多的数据来进行训练,模型训练时的每一组输入数据包括:语音能量变化率特征,语音基频变化率特征和对应的人工标注的结果。
目前常用的训练模型比较突出的有:基于隐马尔科夫模型(HMM)的情感识别方法和基于支持向量机(SVM)的情感识别方法。HMM训练器和SVM训练器侧重点不同,HMM训练器处理连续信号更优,但类别区分能力较弱;SVM训练器更适合分类,但具有只适合少量样本和训练时间长等缺点。本实施例中,可以将两者结合得到训练模型,在训练时,可以先将包括语音能量变化率特征,语音基频变化率特征和对应的人工标注的结果的多组数据输入HMM训练器进行训练,得到多个n维向量,再将多个n维向量输入SVM训练器进行训练,得到训练模型。
本实施例中,将语音特征输入训练好的训练模型,得到的情感极性结果可以为0或1,其中0表示情感极性为负,则最终的第二评价结果将与对文本信息进行分析得到的第一评价结果相反;1表示情感极性为正,则最终的第二评价结果将与对文本信息进行分析得到的第一评价结果相同。
步骤5:利用所述情感极性对所述第一评价结果进行校正,得到第二评价结果。
通过对文本信息进行分析到产品属性及其对应的第一评价结果,第一评价结果可以为POS或NEG,其中POS表示对产品属性认可,NEG表示对产品属性不认可。通过对语音评价片段进行分析可以得到情感极性结果1或者0,两者结合会得到产品属性最后的第二评价结果。如果文本信息分析的第一评价结果为POS,情感极性结果为1,那么最终的第二评价结果为POS;如果文本信息分析的第一评价结果为POS,情感极性结果为0,那么最终的第二评价结果为NEG;如果文本信息分析的第一评价结果为NEG,情感极性结果为1,那么最终的第二评价结果为NEG;如果文本信息分析的第一评价结果为NEG,情感极性结果为0,那么最终的第二评价结果为POS。
比如上文中“XX手机的拍照’很’不错”,如果其中’很’特意的加强了音调及语气,那么得到的情感极性为0,最后的第二评价结果与文本信息分析得到的第一评价结果相反,就是用户对手机的拍照不满意。
本实施例在语音分析的基础上,更细化的分析语音所描述的内容,是与内容相关的语音分析,在获得用户情感的同时更能知道用户所描述的产品及属性等;另一方面,相对于传统的文本评论,可以解决文本分析不能识别反讽现象的问题,更能反映用户的真实情感,得到用户对产品属性的真实评价。
此说明书中所描述的许多功能部件都被称为模块,以便更加特别地强调其实现方式的独立性。
本发明实施例中,模块可以用软件实现,以便由各种类型的处理器执行。举例来说,一个标识的可执行代码模块可以包括计算机指令的一个或多个物理或者逻辑块,举例来说,其可以被构建为对象、过程或函数。尽管如此,所标识模块的可执行代码无需物理地位于一起,而是可以包括存储在不同物理上的不同的指令,当这些指令逻辑上结合在一起时,其构成模块并且实现该模块的规定目的。
实际上,可执行代码模块可以是单条指令或者是许多条指令,并且甚至可以分布在多个不同的代码段上,分布在不同程序当中,以及跨越多个存储器设备分布。同样地,操作数据可以在模块内被识别,并且可以依照任何适当的形式实现并且被组织在任何适当类型的数据结构内。所述操作数据可以作为单个数据集被收集,或者可以分布在不同位置上(包括在不同存储设备上),并且至少部分地可以仅作为电子信号存在于系统或网络上。
在模块可以利用软件实现时,考虑到现有硬件工艺的水平,所以可以以软件实现的模块,在不考虑成本的情况下,本领域技术人员都可以搭建对应的硬件电路来实现对应的功能,所述硬件电路包括常规的超大规模集成(VLSI)电路或者门阵列以及诸如逻辑芯片、晶体管之类的现有半导体或者是其它分立的元件。模块还可以用可编程硬件设备,诸如现场可编程门阵列、可编程阵列逻辑、可编程逻辑设备等实现。
在本发明各方法实施例中,所述各步骤的序号并不能用于限定各步骤的先后顺序,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,对各步骤的先后变化也在本发明的保护范围之内。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明所述原理的前提下,还可以作出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (18)

1.一种语音文件的分析方法,其特征在于,包括:
将语音文件转换为文本信息,对所述文本信息进行分析至少得到评价对象以及评价对象的第一评价结果;
获取所述语音文件中与所述第一评价结果对应的语音评价片段,对所述语音评价片段进行语音分析,得到情感极性;
利用所述情感极性对所述第一评价结果进行校正,得到第二评价结果。
2.根据权利要求1所述的语音文件的分析方法,其特征在于,所述对所述文本信息进行分析得到评价对象以及评价对象的第一评价结果包括:
对文本信息进行分词和句法分析,从分析结果中至少识别出评价对象、情感词及情感词的修饰词,将情感词及其修饰词组成的情感短语作为所述评价对象的第一评价结果。
3.根据权利要求1所述的语音文件的分析方法,其特征在于,所述获取所述语音文件中与所述第一评价结果对应的语音评价片段包括:
将所述语音文件与所述文本信息进行对齐,确定出所述情感短语对应的语音片段所在位置;
根据所述语音片段的所在位置从所述语音文件中截取语音评价片段,所述语音评价片段至少包括所述语音片段。
4.根据权利要求3所述的语音文件的分析方法,其特征在于,所述语音评价片段的长度大于所述语音片段的长度。
5.根据权利要求1所述的语音文件的分析方法,其特征在于,所述对所述语音评价片段进行语音分析,得到情感极性包括:
提取出所述语音评价片段的语音特征;
将所述提取的语音特征输入预设的训练模型中,得到情感极性。
6.根据权利要求5所述的语音文件的分析方法,其特征在于,所述分析方法还包括:
对多组数据进行训练生成所述训练模型,每组数据包括语音特征及其对应的情感极性。
7.根据权利要求5所述的语音文件的分析方法,其特征在于,所述语音特征包括:语音能量变化率和语音基频变化率。
8.根据权利要求7所述的语音文件的分析方法,其特征在于,所述提取出所述语音评价片段的语音特征包括:
通过滑动窗口对所述语音评价片段的语音能量E和语音基频F0进行平滑,得到平滑后的语音基频和语音能量
F ‾ 0 ( i ) = 1 w Σ i i + w - 1 F 0 ( i )
E ‾ ( i ) = 1 w Σ i i + w - 1 E ( i )
其中,滑动窗口的长度为w帧,F0(i)为所述语音评价片段中第i帧的语音基频,E(i)为所述语音评价片段中第i帧的语音能量,i不大于w;
利用平滑后的语音基频和语音能量得到语音能量变化率和语音基频变化率
Δ F ‾ 0 ( i ) = F ‾ 0 ( i + 1 ) - F ‾ 0 ( i )
Δ E ‾ ( i ) = E ‾ ( i + 1 ) - E ‾ ( i ) .
9.根据权利要求1所述的语音文件的分析方法,其特征在于,所述利用所述情感极性对所述第一评价结果进行校正,得到第二评价结果包括:
在所述情感极性为正时,得到与所述第一评价结果相同的第二评价结果;
在所述情感极性为负时,得到与所述第一评价结果相反的第二评价结果。
10.一种语音文件的分析装置,其特征在于,包括:
转换模块,用于将语音文件转换为文本信息;
分析模块,用于对所述文本信息进行分析至少得到评价对象以及评价对象的第一评价结果;
处理模块,用于获取所述语音文件中与所述第一评价结果对应的语音评价片段,对所述语音评价片段进行语音分析,得到情感极性;
校正模块,用于利用所述情感极性对所述第一评价结果进行校正,得到第二评价结果。
11.根据权利要求10所述的语音文件的分析装置,其特征在于,所述分析模块包括:
分词和句法分析子模块,用于对文本信息进行分词和句法分析;
识别子模块,用于从分析结果中至少识别出评价对象、情感词及情感词的修饰词,将情感词及其修饰词组成的情感短语作为所述评价对象的第一评价结果。
12.根据权利要求10所述的语音文件的分析装置,其特征在于,所述处理模块包括:
对齐子模块,用于将所述语音文件与所述文本信息进行对齐,确定出所述情感短语对应的语音片段所在位置;
截取子模块,用于根据所述语音片段的所在位置从所述语音文件中截取语音评价片段,所述语音评价片段至少包括所述语音片段。
13.根据权利要求10所述的语音文件的分析装置,其特征在于,所述处理模块包括:
提取子模块,用于提取出所述语音评价片段的语音特征;
输入子模块,用于将所述提取的语音特征输入预设的训练模型中,得到情感极性。
14.根据权利要求13所述的语音文件的分析装置,其特征在于,所述装置还包括:
模型训练模块,用于对多组数据进行训练生成所述训练模型,每组数据包括语音特征及其对应的情感极性。
15.根据权利要求13所述的语音文件的分析装置,其特征在于,所述语音特征包括:语音能量变化率和语音基频变化率。
16.根据权利要求15所述的语音文件的分析装置,其特征在于,所述提取子模块包括:
第一计算单元,用于通过滑动窗口对所述语音评价片段的语音能量E和语音基频F0进行平滑,得到平滑后的语音基频和语音能量
F ‾ 0 ( i ) = 1 w Σ i i + w - 1 F 0 ( i )
E ‾ ( i ) = 1 w Σ i i + w - 1 E ( i )
其中,滑动窗口的长度为w帧,F0(i)为所述语音评价片段中第i帧的语音基频,E(i)为所述语音评价片段中第i帧的语音能量,i不大于w;
第二计算单元,用于利用平滑后的语音基频和语音能量得到语音能量变化率和语音基频变化率
Δ F ‾ 0 ( i ) = F ‾ 0 ( i + 1 ) - F ‾ 0 ( i )
Δ E ‾ ( i ) = E ‾ ( i + 1 ) - E ‾ ( i ) .
17.根据权利要求10所述的语音文件的分析装置,其特征在于,所述校正模块具体用于在所述情感极性为正时,得到与所述第一评价结果相同的第二评价结果;在所述情感极性为负时,得到与所述第一评价结果相反的第二评价结果。
18.一种语音文件的分析系统,其特征在于,包括:
接收设备,用于接收输入的语音文件;
分析设备,用于将语音文件转换为文本信息,对所述文本信息进行分析至少得到评价对象以及评价对象的第一评价结果,获取所述语音文件中与所述第一评价结果对应的语音评价片段,对所述语音评价片段进行语音分析,得到情感极性,利用所述情感极性对所述第一评价结果进行校正,得到第二评价结果;
输出设备,用于输出所述第二评价结果。
CN201510958335.9A 2015-12-18 2015-12-18 语音文件的分析方法、装置及系统 Pending CN106910512A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510958335.9A CN106910512A (zh) 2015-12-18 2015-12-18 语音文件的分析方法、装置及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510958335.9A CN106910512A (zh) 2015-12-18 2015-12-18 语音文件的分析方法、装置及系统

Publications (1)

Publication Number Publication Date
CN106910512A true CN106910512A (zh) 2017-06-30

Family

ID=59200643

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510958335.9A Pending CN106910512A (zh) 2015-12-18 2015-12-18 语音文件的分析方法、装置及系统

Country Status (1)

Country Link
CN (1) CN106910512A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107818797A (zh) * 2017-12-07 2018-03-20 苏州科达科技股份有限公司 语音质量评价方法、装置及其系统
CN109325167A (zh) * 2017-07-31 2019-02-12 株式会社理光 特征分析方法、装置、设备、计算机可读存储介质
CN109618065A (zh) * 2018-12-28 2019-04-12 合肥凯捷技术有限公司 一种语音质检评级系统
CN110119443A (zh) * 2018-01-18 2019-08-13 中国科学院声学研究所 一种面向推荐服务的情感分析方法
CN110246519A (zh) * 2019-07-25 2019-09-17 深圳智慧林网络科技有限公司 情绪识别方法、设备及计算机可读存储介质
CN110263326A (zh) * 2019-05-21 2019-09-20 平安科技(深圳)有限公司 一种用户行为预测方法、预测装置、存储介质及终端设备
CN110085211B (zh) * 2018-01-26 2021-06-29 上海智臻智能网络科技股份有限公司 语音识别交互方法、装置、计算机设备和存储介质

Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101937678A (zh) * 2010-07-19 2011-01-05 东南大学 一种针对烦躁情绪的可据判的自动语音情感识别方法
CN102222500A (zh) * 2011-05-11 2011-10-19 北京航空航天大学 结合情感点的汉语语音情感提取及建模方法
CN102609424A (zh) * 2011-01-21 2012-07-25 日电(中国)有限公司 评价信息抽取方法和设备
CN103198827A (zh) * 2013-03-26 2013-07-10 合肥工业大学 基于韵律特征参数和情感参数关联性的语音情感修正方法
CN103366760A (zh) * 2012-03-26 2013-10-23 联想(北京)有限公司 一种数据处理方法、装置及系统
CN103369477A (zh) * 2013-07-02 2013-10-23 华为技术有限公司 显示媒体信息方法、装置、客户端,图形控件显示方法和装置
CN103455562A (zh) * 2013-08-13 2013-12-18 西安建筑科技大学 一种文本倾向性分析方法及基于该方法的商品评论倾向判别器
CN103456314A (zh) * 2013-09-03 2013-12-18 广州创维平面显示科技有限公司 一种情感识别方法以及装置
CN103544242A (zh) * 2013-09-29 2014-01-29 广东工业大学 面向微博的情感实体搜索系统
WO2014025135A1 (ko) * 2012-08-10 2014-02-13 에스케이텔레콤 주식회사 문법 오류 검출 방법, 이를 위한 오류검출장치 및 이 방법이 기록된 컴퓨터로 판독 가능한 기록매체
US20140046660A1 (en) * 2012-08-10 2014-02-13 Yahoo! Inc Method and system for voice based mood analysis
CN103647702A (zh) * 2013-12-09 2014-03-19 北京山海树科技有限公司 一种提高信息交互中用户体验的系统和方法
CN103811009A (zh) * 2014-03-13 2014-05-21 华东理工大学 一种基于语音分析的智能电话客服系统
CN104050587A (zh) * 2013-03-15 2014-09-17 福特全球技术公司 用于主观广告有效性分析的方法和设备
CN104462333A (zh) * 2014-12-03 2015-03-25 上海耀肖电子商务有限公司 购物搜索推荐与告警方法和系统

Patent Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101937678A (zh) * 2010-07-19 2011-01-05 东南大学 一种针对烦躁情绪的可据判的自动语音情感识别方法
CN102609424A (zh) * 2011-01-21 2012-07-25 日电(中国)有限公司 评价信息抽取方法和设备
CN102222500A (zh) * 2011-05-11 2011-10-19 北京航空航天大学 结合情感点的汉语语音情感提取及建模方法
CN103366760A (zh) * 2012-03-26 2013-10-23 联想(北京)有限公司 一种数据处理方法、装置及系统
WO2014025135A1 (ko) * 2012-08-10 2014-02-13 에스케이텔레콤 주식회사 문법 오류 검출 방법, 이를 위한 오류검출장치 및 이 방법이 기록된 컴퓨터로 판독 가능한 기록매체
US20140046660A1 (en) * 2012-08-10 2014-02-13 Yahoo! Inc Method and system for voice based mood analysis
CN104050587A (zh) * 2013-03-15 2014-09-17 福特全球技术公司 用于主观广告有效性分析的方法和设备
CN103198827A (zh) * 2013-03-26 2013-07-10 合肥工业大学 基于韵律特征参数和情感参数关联性的语音情感修正方法
CN103369477A (zh) * 2013-07-02 2013-10-23 华为技术有限公司 显示媒体信息方法、装置、客户端,图形控件显示方法和装置
CN103455562A (zh) * 2013-08-13 2013-12-18 西安建筑科技大学 一种文本倾向性分析方法及基于该方法的商品评论倾向判别器
CN103456314A (zh) * 2013-09-03 2013-12-18 广州创维平面显示科技有限公司 一种情感识别方法以及装置
CN103544242A (zh) * 2013-09-29 2014-01-29 广东工业大学 面向微博的情感实体搜索系统
CN103647702A (zh) * 2013-12-09 2014-03-19 北京山海树科技有限公司 一种提高信息交互中用户体验的系统和方法
CN103811009A (zh) * 2014-03-13 2014-05-21 华东理工大学 一种基于语音分析的智能电话客服系统
CN104462333A (zh) * 2014-12-03 2015-03-25 上海耀肖电子商务有限公司 购物搜索推荐与告警方法和系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
HAO HU ET AL.: "《GMM Supervector Based SVM with Spectral Features for Speech Emotion Recognition》", 《2007 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING - ICASSP "07》 *
徐露等: "《面向情感变化检测的汉语情感语音数据库》", 《清华大学报(自然科学版)》 *
郑彬彬等: "《基于多模态信息融合的语音意图理解方法》", 《中国科技论文在线》 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109325167A (zh) * 2017-07-31 2019-02-12 株式会社理光 特征分析方法、装置、设备、计算机可读存储介质
CN109325167B (zh) * 2017-07-31 2022-02-18 株式会社理光 特征分析方法、装置、设备、计算机可读存储介质
CN107818797A (zh) * 2017-12-07 2018-03-20 苏州科达科技股份有限公司 语音质量评价方法、装置及其系统
CN107818797B (zh) * 2017-12-07 2021-07-06 苏州科达科技股份有限公司 语音质量评价方法、装置及其系统
CN110119443A (zh) * 2018-01-18 2019-08-13 中国科学院声学研究所 一种面向推荐服务的情感分析方法
CN110085211B (zh) * 2018-01-26 2021-06-29 上海智臻智能网络科技股份有限公司 语音识别交互方法、装置、计算机设备和存储介质
CN109618065A (zh) * 2018-12-28 2019-04-12 合肥凯捷技术有限公司 一种语音质检评级系统
CN110263326A (zh) * 2019-05-21 2019-09-20 平安科技(深圳)有限公司 一种用户行为预测方法、预测装置、存储介质及终端设备
CN110246519A (zh) * 2019-07-25 2019-09-17 深圳智慧林网络科技有限公司 情绪识别方法、设备及计算机可读存储介质

Similar Documents

Publication Publication Date Title
CN106910512A (zh) 语音文件的分析方法、装置及系统
CN110096570B (zh) 一种应用于智能客服机器人的意图识别方法及装置
CN111179975B (zh) 用于情绪识别的语音端点检测方法、电子设备及存储介质
CN110457432B (zh) 面试评分方法、装置、设备及存储介质
CN110147726A (zh) 业务质检方法和装置、存储介质及电子装置
WO2021073116A1 (zh) 生成法律文书的方法、装置、设备和存储介质
CN107393554A (zh) 一种声场景分类中融合类间标准差的特征提取方法
CN110717324B (zh) 裁判文书答案信息提取方法、装置、提取器、介质和设备
WO2021000497A1 (zh) 检索方法、装置、计算机设备和存储介质
CN109472207A (zh) 情绪识别方法、装置、设备及存储介质
CN109992664A (zh) 争议焦点的标注分类方法、装置、计算机设备和存储介质
CN109086357A (zh) 基于变分自动编码器的情感分类方法、装置、设备及介质
CN110378228A (zh) 面审视频数据处理方法、装置、计算机设备和存储介质
CN111259940A (zh) 一种基于空间注意力地图的目标检测方法
CN109119070A (zh) 一种语音端点检测方法、装置、设备及存储介质
CN106570180A (zh) 基于人工智能的语音搜索方法及装置
CN110298030A (zh) 语义分析模型准确度的校验方法、装置、存储介质及设备
WO2022156065A1 (zh) 一种文本情感分析方法、装置、设备及存储介质
CN108549697A (zh) 基于语义关联的信息推送方法、装置、设备以及存储介质
CN110929520B (zh) 非命名实体对象抽取方法、装置、电子设备及存储介质
CN114329034A (zh) 基于细粒度语义特征差异的图像文本匹配判别方法及系统
Zhu et al. Catslu: The 1st chinese audio-textual spoken language understanding challenge
WO2021082695A1 (zh) 一种训练方法、特征提取方法、装置及电子设备
CN112765974A (zh) 一种业务辅助方法、电子设备及可读存储介质
CN112052675A (zh) 一种非结构化文本的敏感信息检测方法及检测装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20170630