CN104732981B - 一种结合电声门图的汉语语音情感数据库的语音标注方法 - Google Patents
一种结合电声门图的汉语语音情感数据库的语音标注方法 Download PDFInfo
- Publication number
- CN104732981B CN104732981B CN201510115476.4A CN201510115476A CN104732981B CN 104732981 B CN104732981 B CN 104732981B CN 201510115476 A CN201510115476 A CN 201510115476A CN 104732981 B CN104732981 B CN 104732981B
- Authority
- CN
- China
- Prior art keywords
- layer
- mark
- voice
- syllable
- sound
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种结合电声门图的汉语语音情感数据库的语音标注方法。该语音标注方法的主要标注内容包括对每条语音同时标注八层信息:第一层,文字转换层,明确说话人说话内容及相应的副语言信息;第二层,音节层,标注每个音节的正则拼音和声调;第三层,声韵母层,将音节层的声韵母分开标注,同时标明声调信息;第四层,清音浊音静音层,结合电声门图对语音的清浊静音的进行分割;第五层,副语言信息层,标注每条语音包含的副语言信息;第六层,情感层,根据说话人表达的情感状态,每条语音都标注包含有七种情感信息并标注每种情感的表达程度;第七层,重音指数层,标注每个音节发音的强度信息;第八层,语句功能层,标注每条语句的语句类型。
Description
技术领域
本发明涉及一种结合电声门图的汉语语音情感数据库的语音标注方法,其语音标注信息较全面和详细,使用电声门图直接反应声带振动信息,减少噪声干扰,提高语音标注的准确性。
背景技术
语音是人们在交流和表达情感的最直接的方式之一。随着人机交互和情感计算的不断发展,从语音中识别其所要表达的情感信息越来越受到国内外学者的关注。语料库是语音情感识别的基础,因此,选择合适的语料库作为语音情感分析和识别的基础,显得极为重要。对连续语音进行分割和标注,对语料库的充分利用有重要作用。
近年来,国内外研究学者以自身的科研任务为背景,分别建立多个语音情感数据库,但由于情感的复杂性,目前对情感语音数据库的建立和标注仍然没有建立统一的标准,故建立完善的数据库对语音情感的识别、语音合成等研究具有非常重要的意义。
发明内容
为了进行汉语语音情感识别的研究,本发明提出了一种结合电声门图的汉语语音情感数据库的语音标注方法,在采集语音信号的基础上,同时采集电声门图信号。电声门图直接反应声带的振动信息,避免声道调制和声音传播过程中的噪声干扰,从而提高语音标注的准确性。该语音标注方法的主要标注内容包括对每条语音同时标注八层信息,分别为:第一层,文字转换层,明确说话人说话内容及相应的副语言信息;第二层,音节层,标注每个音节的正则拼音和声调;第三层,声韵母层,将音节层的声韵母分开标注,同时标明声调信息,声调信息包含有说话人的情感信息;第四层,清音浊音静音层,结合电声门图对语音的清浊静音的进行分割,使分割更准确;第五层,副语言信息层,标注每条语音包含的副语言信息;第六层,情感层,根据说话人表达的情感状态,每条语音都标注包含有悲伤、高兴、害怕、惊讶、平静、生气、嫌恶七种情感信息并标注每种情感的表达程度;第七层,重音指数层,标注每个音节发音的强度信息;第八层,语句功能层,标注每条语句的语句类型。具体八层标注信息如下:
(1)HZ(文字转换层),将听到的语音信息转换为文字信息,转换时语音及副语言信息准确转写,文字标注必须标明基本文字信息以及副语言学现象,基本标注中的副语言学现象采用社科院语言研究所设计副语言学符号表示;
(2)PY(音节层),标注正则拼音和声调,且声调标注在拼音之后;
(3)SY(声母/韵母层),将音节的声母与韵母分开标注,声调标注在韵母部分;
(4)SUV:清音浊音静音层,根据电声门图和语音的波形特点以及语谱图特征,对语音进行清浊静音的分割和标注,并分别以S(Silence静音)、U(Unvoiced sound清音)、V(Voiced sound浊音)表示;
(5)PARAL:副语言信息层,标注所在语音段的副语言信息,包括语句停顿、拖长、语气词等,可采用社科院语言研究所设计的副语言学符号表示;
(6)EMO:情感表达层,标注包含有悲伤、高兴、害怕、惊讶、平静、生气、嫌恶其中情感表达类型及每种情感的表达程度;
(7)ST:重音指数层,将重音程度划分为4级(1-4),从1到4重音程度越来越强,将语音中不同的重音程度的音节用1-4进行标注;
(8)FU:语句功能层,标注语音中的句子类型,分别有陈述句(declarative)、疑问句(interrogative)、感叹句(exclamatory)、祈使句(imperative)。
其中,所述的第二层PY层的音节标注层中,声调直接标注在音节之后,普通话的四个声调分1,2,3,4表示,轻声用0表示,例如:音节“我”的标注为“wo3”。
其中,所述的第三层SY层的声韵母标注层中,将音节层的声韵母分开标注,标注实际发音。声韵母标注时,对应于音节层,将每个音节的声母,韵母以及声母和韵母中间的过渡发音进行标注,声调标注在韵母之后。普通话的四个声调分别用_1,_2,_3,_4表示,轻声用_0表示。
1、其中,所述的第六层EMO情感表达层的标注中,每条语句都必须标有7种情感类型和对应的情感表达程度,标注形式为:b1 g3 h1 j1 p1 s1 x1,每种情感后面标注对应的情感表达程度。情感表达程度用1-5表示,表示情感表达越来越强烈,1:毫无感情;2:仅有微弱的情感;3:情感表达较明显,但不强烈;4:情感表达较强烈;5:情感表达很强烈。当情感表达程度为1和2时,认为该条语音的情感表达不好。标注时,每两种不同的情感之间要以空格键分开。
其中,所述的PY层和SY层中的语音静音部分采用符号“sil”进行标注。
本发明与现有的汉语情感语音数据库相比的优势有:
1、采用双模情感语音数据库,同时包含有语音信号和电声门图信号,其中电声门图直接反应声带的振动信息,避免声带调制和声音传播过程中引起的噪声干扰,在进行语音分割时,使分割更加准确;
2、标注信息全面、详细。本发明对语音信号进行八层信息的标注,分别为:文字转换层、音节层、声韵母层、清音静音浊音层、副语言信息层、情感层、重音指数层和语句功能层。相比于中国社会科学院语言研究所标注的语音数据库CASS的三层标注:音节层、声韵母层、杂类曾(副语言学和非语言学现象)的标注,很显然,本发明的标注信息更加全面详细,同时标注信息中含有的情感相关的标注信息对语音的情感分析研究有重要意义。
附图说明
图1为本发明的语音标注流程图;
图2为本发明进行语音标注时的具体标注情况;
图3为本发明进行语音标注时用到的部分副语言信息及相应的标注符号。
具体实施方式
下面结合附图,对本发明的技术方案做进一步说明。
本发明提出了一种结合电声门图的汉语语音情感数据库的语音标注方法,在采集语音信号的基础上,同时采集电声门图信号,电声门图直接反应声带的振动信息,避免声道调制和声音传播过程中的噪声干扰,从而提高语音标注的准确性。该语音标注方法的主要标注内容包括对每条语音同时标注八层信息,分别为:第一层,文字转换层,明确说话人说话内容及相应的副语言信息;第二层,音节层,标注每个音节的正则拼音和声调;第三层,声韵母层,将音节层的声韵母分开标注,同时标明声调信息,声调信息包含有说话人的情感信息;第四层,清音浊音静音层,结合电声门图对语音的清浊静音的进行分割,使分割更准确;第五层,副语言信息层,标注每条语音包含的副语言信息;第六层,情感层,根据说话人表达的情感状态,每条语音都标注包含有悲伤、高兴、害怕、惊讶、平静、生气、嫌恶七种情感信息并标注每种情感的表达程度;第七层,重音指数层,标注每个音节发音的强度信息;第八层,语句功能层,标注每条语句的语句类型。本发明采用Praat软件进行标注。
标注流程参见附图1。首先,打开Praat并导入.Wav格式的语音文件,利用语音文件新建.TextGrid文件,同时设计标注为8个标注层级并确定每个层级的表示符号;同时打开.Wav文件和.TextGrid文件,从低层级到高层及逐层添加分割时间点,并添加标注内容;最后,进行标注检验和修改并保存文件。保存的文件名和源文件名相同,其扩展名为.TextGrid文件。
语音标注具体标注要求及流程如下:
(1)HZ-文字转换层,将听到的语音信息转换为文字信息,转换时语音及副语言信息准确转写,在HZ层没有分割点,标注时,副语言信息标注在对应的文字后面,中间有静音段时,标注在相对应的两个文字中间,并且副语言信息的标注符号放在中括号内;
(2)PY-音节层,标注正则拼音和声调,声调在拼音之后,将两个不同的音节之间及音节和静音之间添加分割点。在对应的分割点之间标注音节和声调,声调紧跟在音节之后,普通话的四个声调分别用1,2,3,4进行表示,轻声用0表示,具体标注情况参见附图2。
添加分割点原则参见附图2,其中channel1表示语音波形,channel2表示电声门图波形,下面黑色的图谱部分为语音的语谱图:
1)清音或静音和浊音之间的分割点:从清音或静音到浊音时,以电声门图波形开始规律振动的起始点为分割点,反之,以电声门图结束振动的点为分割点;
2)静音和清音之间的分割点:若语音波形有明显的变化,则以语音波形中无波形和有波形作为分静音和清音的分割点,若语音变化不明显,在标注时难以进行分割,则根据清音和静音雨谱分布的不同,在语谱图中有明显的分界(清音在语谱图上明显比静音颜色暗),以该分界点作为清音和静音的分割点。
3)浊音之间的分割点:不同的浊音其发音特点不同,因此其基频和声带振动的形式有差异,分割方式有两种情况:在语音波形和电声门图波形上有明显波形变化差异的,以波形开始出现差异的点为分割点;波形上无明显差异的根据语谱图进行判别,上述的不同语音的基频差异在语谱图上表现为基频和谐波的起伏,及语谱图上颜色较深的部分的变化,依据不同浊音的特点进行分割。
(3)SY-声韵母层,将音节层的声韵母进行分割并分开标注,标注音节的实际发音。分割时依据上述的分割原则进行分割。声韵母标注时,对应于音节层,并将每个音节的声母,韵母以及声母和韵母中间的过渡发音进行标注,声调标注在韵母之后。普通话的四个声调分别用_1,_2,_3,_4表示,轻声用_0表示。声母部分的标注须要标注声韵母之间的过渡部分,以“+韵母的第一个拼音”的形式表示。音节中仅含有韵母时,不用进行分割,只标注韵母和声调,详细的标注情况参见附图2;
(4)SUV-轻音浊音静音层,在PY层和SY层的标注中,结合电声门图、语音波形及语谱图特点,可以明显区分出清音浊音和静音,在其两两的交界处添加分割点,并对应地用S、U、V进行标注;
(5)PARAL-副语言信息层,附图3中为部分副语言副语言信息及标注符号。在HZ文字转换层中,标注了语音相应的副语言信息,该层将副语言标注到相对应的副语言信息的起始位置和结束位置。语音两侧的静音段不进行副语言信息的标注。在语气词较长且后面有一段轻音的语音段,须标注语音的拖长音信息。副语言信息标注格式为:例如标注一感叹词,感叹词开始时的分割点标注“MO<”,结束时标注“MO>”,详细标注参见附图2;
(6)EMO-情感表达层,标注情感表达类型和表达程度,该层不需要进行分割,只需要标注出该条语音对应的情感及情感表达程度即可。每条语句须要标注包含有悲伤、高兴、惊讶、害怕、平静、生气、嫌恶其中情感类型和对应的情感表达程度。情感表达程度用1-5表示,表示情感表达越来越强烈,1:毫无感情;2:仅有微弱的情感;3:情感表达较明显,但不强烈;4:情感表达较强烈;5:情感表达很强烈。当情感表达程度为1和2时,认为该条语音的情感表达不好。标注时,每两种不同的情感之间要以空格键分;
(7)ST-重音指数层,对应于韵律单位,将重音指数划分为4级(1-4),从1到4重音程度越来越强。在自然语音中,分层的重音结构用来表达各种态度和情感,考虑到听觉和感知结果可能与韵律结构不一致,所以应该标注出重音。主要根据说话者表达的情感和语气标注重音层。分割点与音节分割的分割点完全一致,且在每一个音节对应的分割段内标注重音。静音段内不进行标注;
(8)FU-语句功能层,根据我们所录制的语音,语句类型大概分为陈述句(declarative)、疑问句(interrogative)、感叹句(exclamatory)和祈使句(imperative)。该层不需要进行分割,只需根据语句判断句子类型,将对应句式的英文单词写到标注层内。
Claims (5)
1.一种结合电声门图的汉语语音情感数据库的语音标注方法,其特征在于:该标注方法包括八层标注信息,依次为:
(1)HZ(文字转换层),将听到的语音信息转换为文字信息,转换时语音及副语言信息准确转写;
(2)PY(音节层),标注正则拼音和声调,且声调标注在拼音之后;
(3)SY(声母/韵母层),将音节的声母与韵母分开标注,声调标注在韵母部分;
(4)SUV:轻音浊音静音层,根据电声门图和语音的波形特点以及语谱图特征,对语音进行轻浊静音的切分和标注,并分别以S(Silence静音)、U(Unvoiced sound轻音)、V(Voicedsound浊音)表示;
(5)PARAL:副语言信息层,标注所在语音段的副语言信息,包括语句停顿、拖长、语气词,可采用社科院语言研究所设计的副语言学符号表示;
(6)EMO:情感表达层,标注包含有悲伤、高兴、害怕、惊讶、平静、生气、嫌恶其中情感表达类型及每种情感的表达程度;
(7)ST:重音指数层,将重音程度划分为4级(1-4),从1到4重音程度越来越强,将语音中不同的重音程度的音节用1-4进行标注;
(8)FU:语句功能层,标注语音中的句子类型,分别有陈述句(declarative)、疑问句(interrogative)、感叹句(exclamatory)、祈使句(imperative),将对应句式的英文单词写到标注层内。
2.根据权利要求1所述的一种结合电声门图的汉语语音情感数据库的语音标注方法,其特征在于:所述的第二层PY层的音节标注层中,声调直接标注在音节之后,普通话的四个声调分别用1 2 3 4表示,轻声用0表示。
3.根据权利要求1所述的一种结合电声门图的汉语语音情感数据库的语音标注方法,其特征在于:所述的第三层SY层的声韵母标注层中,将音节层的声韵母分开标注,用SAMPA-C音段标注系统标注实际发音;声韵母标注时,对应于音节层,将每个音节的声母,韵母以及声母和韵母中间的过渡发音进行标注,声调标注在韵母之后;普通话的四个声调分别用_1_2_3_4表示,轻声用_0表示。
4.根据权利要求1所述的一种结合电声门图的汉语语音情感数据库的语音标注方法,其特征在于:所述的第六层EMO情感表达层的标注中,每条语句都必须标有7种情感类型和对应的情感表达程度,标注形式为:b1g3h1j1p1s1x1,每种情感后面标注对应的情感表达程度,且两种不同的情感标注之间要以空格键分开。
5.根据权利要求1所述的一种结合电声门图的汉语语音情感数据库的语音标注方法,其特征在于:所述的PY层和SY层中语音的静音部分采用符号“sil”标注。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510115476.4A CN104732981B (zh) | 2015-03-17 | 2015-03-17 | 一种结合电声门图的汉语语音情感数据库的语音标注方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510115476.4A CN104732981B (zh) | 2015-03-17 | 2015-03-17 | 一种结合电声门图的汉语语音情感数据库的语音标注方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104732981A CN104732981A (zh) | 2015-06-24 |
CN104732981B true CN104732981B (zh) | 2018-01-12 |
Family
ID=53456820
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510115476.4A Expired - Fee Related CN104732981B (zh) | 2015-03-17 | 2015-03-17 | 一种结合电声门图的汉语语音情感数据库的语音标注方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104732981B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106847294B (zh) * | 2017-01-17 | 2018-11-30 | 百度在线网络技术(北京)有限公司 | 基于人工智能的音频处理方法和装置 |
CN110119443B (zh) * | 2018-01-18 | 2021-06-08 | 中国科学院声学研究所 | 一种面向推荐服务的情感分析方法 |
CA3097328C (en) * | 2020-05-11 | 2021-12-21 | Neworiental Education & Technology Group Ltd. | Accent detection method and accent detection device, and non-transitory storage medium |
CN111292763B (zh) * | 2020-05-11 | 2020-08-18 | 新东方教育科技集团有限公司 | 重音检测方法及装置、非瞬时性存储介质 |
CN112562647B (zh) * | 2020-11-24 | 2022-09-06 | 中电海康集团有限公司 | 一种音频起始点的标注方法及装置 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1490711A (zh) * | 2002-01-26 | 2004-04-21 | 龚学胜 | 华文文字龚码统一方案及内码完整规范转换 |
CN101261832A (zh) * | 2008-04-21 | 2008-09-10 | 北京航空航天大学 | 汉语语音情感信息的提取及建模方法 |
CN101753941A (zh) * | 2008-12-19 | 2010-06-23 | 康佳集团股份有限公司 | 一种成像设备中实现标注信息的方法及成像设备 |
CN102222500A (zh) * | 2011-05-11 | 2011-10-19 | 北京航空航天大学 | 结合情感点的汉语语音情感提取及建模方法 |
CN102411932A (zh) * | 2011-09-30 | 2012-04-11 | 北京航空航天大学 | 结合声门激励和声道调制信息的汉语语音情感提取及建模方法 |
CN102750950A (zh) * | 2011-09-30 | 2012-10-24 | 北京航空航天大学 | 结合声门激励和声道调制信息的汉语语音情感提取及建模方法 |
CN103198828A (zh) * | 2013-04-03 | 2013-07-10 | 中金数据系统有限公司 | 语音语料库的构建方法和系统 |
CN104036776A (zh) * | 2014-05-22 | 2014-09-10 | 毛峡 | 一种应用于移动终端的语音情感识别方法 |
-
2015
- 2015-03-17 CN CN201510115476.4A patent/CN104732981B/zh not_active Expired - Fee Related
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1490711A (zh) * | 2002-01-26 | 2004-04-21 | 龚学胜 | 华文文字龚码统一方案及内码完整规范转换 |
CN101261832A (zh) * | 2008-04-21 | 2008-09-10 | 北京航空航天大学 | 汉语语音情感信息的提取及建模方法 |
CN101753941A (zh) * | 2008-12-19 | 2010-06-23 | 康佳集团股份有限公司 | 一种成像设备中实现标注信息的方法及成像设备 |
CN102222500A (zh) * | 2011-05-11 | 2011-10-19 | 北京航空航天大学 | 结合情感点的汉语语音情感提取及建模方法 |
CN102411932A (zh) * | 2011-09-30 | 2012-04-11 | 北京航空航天大学 | 结合声门激励和声道调制信息的汉语语音情感提取及建模方法 |
CN102750950A (zh) * | 2011-09-30 | 2012-10-24 | 北京航空航天大学 | 结合声门激励和声道调制信息的汉语语音情感提取及建模方法 |
CN103198828A (zh) * | 2013-04-03 | 2013-07-10 | 中金数据系统有限公司 | 语音语料库的构建方法和系统 |
CN104036776A (zh) * | 2014-05-22 | 2014-09-10 | 毛峡 | 一种应用于移动终端的语音情感识别方法 |
Non-Patent Citations (5)
Title |
---|
"Mandarin emotion recognition combining acoustic and emotional point information";毛峡 等;《APPLIED INTELLIGENCE》;20121231;第37卷(第4期);全文 * |
"speech emotion recognition:Features and classification models";陈立江 等;《DIGITAL SIGNAL PROCESSING》;20121231;第22卷(第6期);全文 * |
"Speech Emotional Features Extraction Based on Electroglottograph";陈立江 等;《NEURAL COMPUTATION》;20131231;第25卷(第12期);全文 * |
"基于改进的排序式选举算法的语音情感融合识别";付丽琴;《计算机应用》;20090227;第29卷(第2期);全文 * |
"结合电声门图的语音合成研究";陈立江 毛峡 等;《第十二届全国人机语音通讯学术会议》;20131231;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN104732981A (zh) | 2015-06-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Himmelmann et al. | Prosodic description: An introduction for fieldworkers | |
Cole et al. | New methods for prosodic transcription: Capturing variability as a source of information | |
US8219398B2 (en) | Computerized speech synthesizer for synthesizing speech from text | |
CN104732981B (zh) | 一种结合电声门图的汉语语音情感数据库的语音标注方法 | |
Gussenhoven | Analysis of intonation: The case of MAE_ToBI | |
Himmelmann | The challenges of segmenting spoken language | |
Harris et al. | Prosody and its application to forensic linguistics | |
Jones et al. | Evaluating cross-linguistic forced alignment of conversational data in north Australian Kriol, an under-resourced language | |
Demenko et al. | JURISDIC: Polish Speech Database for Taking Dictation of Legal Texts. | |
King et al. | The MAONZE Corpus: transcribing and analysing Maori speech | |
Melnik-Leroy et al. | An overview of Lithuanian intonation: a linguistic and modelling perspective | |
Gnevsheva | Acoustic analysis in the Accents of Non-Native English (ANNE) corpus | |
Labied et al. | Moroccan dialect “Darija” automatic speech recognition: a survey | |
Hasibuan et al. | An In-Depth Analysis Of Syllable Formation And Variations In Linguistic Phonology | |
Wagner et al. | Polish Rhythmic Database―New Resources for Speech Timing and Rhythm Analysis | |
Hutin et al. | Crowd-sourcing for less-resourced languages: Lingua libre for Polish | |
Ivanov et al. | Research on word stress in Iranian languages by Soviet and Russian scholars | |
Sasmal et al. | A zero-resourced indigenous language phones occurrence and durations analysis for an automatic speech recognition system | |
Ekpenyong et al. | Tone modelling in Ibibio speech synthesis | |
Moussa | Jeddah Arabic intonation: an autosegmental-metrical approach | |
Vaissiere | Speech recognition programs as models of speech perception | |
Potapova | Speech dialog as a part of interactive “human-machine” systems | |
Jia et al. | A linguistic annotation scheme of Chinese discourse structures and study of prosodic interactions | |
Kudera | Synchronised and non‐synchronised articulation of Polish nasals ą and ę in child and adult speech | |
Sasmal et al. | Acoustic and Spectral Analysis of Adi Triphthongs |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20180112 Termination date: 20200317 |