CN102237081B - 语音韵律评估方法与系统 - Google Patents

语音韵律评估方法与系统 Download PDF

Info

Publication number
CN102237081B
CN102237081B CN2010101632299A CN201010163229A CN102237081B CN 102237081 B CN102237081 B CN 102237081B CN 2010101632299 A CN2010101632299 A CN 2010101632299A CN 201010163229 A CN201010163229 A CN 201010163229A CN 102237081 B CN102237081 B CN 102237081B
Authority
CN
China
Prior art keywords
rhythm
speech data
described input
input speech
standard
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN2010101632299A
Other languages
English (en)
Other versions
CN102237081A (zh
Inventor
施琴
张世磊
双志伟
秦勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nuance Communications Inc
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Priority to CN2010101632299A priority Critical patent/CN102237081B/zh
Priority to EP11716276A priority patent/EP2564386A1/en
Priority to PCT/EP2011/056664 priority patent/WO2011135001A1/en
Priority to US13/097,191 priority patent/US9368126B2/en
Publication of CN102237081A publication Critical patent/CN102237081A/zh
Application granted granted Critical
Publication of CN102237081B publication Critical patent/CN102237081B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Abstract

本发明提出了一种对输入语音进行评估的有效方法和系统。所述方法包括:接收输入语音数据;获取韵律约束条件;按照所述韵律约束条件对所述输入语音数据的韵律进行评估;以及提供所述评估的结果。所述系统包括:输入语音数据接收装置、韵律约束条件获取装置、评估装置、以及结果提供装置。本发明对于输入语音数据没有任何限制,也就是说用户可以根据特定文字/语音进行朗读或者跟读,也可以自由发挥。

Description

语音韵律评估方法与系统
技术领域
本发明总体上涉及语音评估方法和系统,特别的本发明涉及对语音数据的韵律进行评估的方法和系统。 
背景技术
语音评估是语音应用技术中的一个重要领域,其主要目的是为了对所输入的语音数据的质量进行评估。然而现有技术中的语音评估技术主要侧重于对输入语音数据的发音(pronunciation)的评估,也就是对语音数据的发音变形(Pronunciation variance)进行判别和打分。比如对于today这个单词,正确的美式读音应当是 
Figure GSA00000090848300011
而朗读者可能误读成[tu’de]。现有的语音评估技术可以检测到错误的读音并且加以纠正。如果输入语音数据并非一个单词而是一个句子或者一长段语言,则需要首先对句子或段落进行切分,使得所述输入的语音数据与对应的文字数据进行强制对齐(Force Alignment),然后再根据每一个单词的发音变形进行评估。此外,现有的语音评估产品大多要求朗读者朗读特定的语音信息,包括依照某段文字进行朗读,或者依照一段标准语音进行跟读,使得输入的语音数据受限于特定的内容。 
发明内容
本发明的发明人注意到现有技术中并没有提供一种有效的对语音进行韵律(prosody)评估的方法和系统。并且现有技术中大多要求用户按照特定的文字或者语音进行跟读,因此限制了韵律评估的适用范围。本发明提出了一种对输入语音进行评估的有效方法和系统。并且本发明对于输入语音数据没有任何限制,也就是说用户可以根据特定文字/语音进行朗读或者跟读,也可以自由发挥。因此,本发明不仅能够对朗读者或者跟读者的韵律进行评估,也可以用于评估任意一段输入语音数据的韵律。本发明不仅可以帮助自学者对自己的口语进行评分和纠正,并且可以用在口语考试中帮助考官对考生的口语给予评估。本发明不仅可以实现为一种如复读机那样的专门的硬件设备,本发明也可以实现为计算机内的软件逻辑从而与声音采集设备配合工作。本发明不仅可以服务于一个终端用户,而且可以被网络服务提供商所采用,从而对多个终端用户的输入语音数据进行评估。 
具体而言,本发明提供了一种语音韵律评估方法,包括:接收输入语音数据;获取韵律约束条件;按照所述韵律约束条件对所述输入语音数据的韵律进行评估;以及提供所述评估的结果。 
本发明还提供了一种语音韵律评估系统,包括:输入语音数据接收装置,用于接收输入语音数据;韵律约束条件获取装置,用于获取韵律约束条件;评估装置,用于按照所述韵律约束条件对所述输入语音数据的韵律进行评估;以及结果提供装置,用于提供所述评估的结 果。 
附图说明
本说明中所参考的附图只用于示例本发明的典型实施例,不应该认为是对本发明范围的限制。 
图1示出了一种语音韵律评估方法流程图。 
图2示出了按照本发明的一个实施例的节奏评估方法流程图。 
图3示出了按照本发明的一个实施例的获取输入语音数据的节奏特征的流程图。 
图4示出了按照本发明的一个实施例的获取标准节奏特征的流程图。 
图5示出了按照本发明的一个实施例的部分决策树的示意图。 
图6A示出了按照本发明的一个实施例的测量输入语音数据的停顿的语音分析图。 
图6B示出了按照本发明的一个实施例的测量输入语音数据的音调重置的语音分析图。 
图7示出了按照本发明的一个实施例的流利度评估方法流程图。 
图8示出了按照本发明的一个实施例的获取输入语音数据的流利度特征的流程图。 
图9示出了按照本发明的一个实施例的节奏边界总数评估方法流程图。 
图10示出了按照本发明的一个实施例的停顿长度评估方法流程图。 
图11示出了按照本发明的一个实施例的字或词的重复次数评估方法流程图。 
图12示出了按照本发明的一个实施例的单音迟疑程度评估方法流程图。 
图13示出了一种语音韵律评估系统框图。 
图14示出了按照本发明的一个实施例的以网络服务方式进行语音韵律评估的示意图。 
具体实施方式
下列讨论中,提供大量具体的细节以帮助彻底了解本发明。然而,很显然对于本领域技术人员来说,即使没有这些具体细节,并不影响对本发明的理解。并且应该认识到,使用如下的任何具体术语仅仅是为了方便描述,因此,本发明不应当局限于只用在这样的术语所表示和/或暗示的任何特定应用中。 
本发明提出了一种对输入语音进行评估的有效方法和系统。并且本发明对于输入语音数据没有任何限制,也就是说用户可以根据特定文字/语音进行朗读或者跟读,也可以自由发挥。因此,本发明不仅能够对朗读者或者跟读者的韵律进行评估,也可以用于评估任意一段输入语音数据的韵律。本发明不仅可以帮助自学者对自己的口语进行评分和纠正,并且可以用在口语考试中帮助考官对考生的口语给予评估。本发明不仅可以实现为一种如复读机那样的专门的硬件设备,本发明也可以实现为计算机内的软件逻辑从而与声音采集设备配合工作。本发明不仅可以服务于一个终端用户,而且可以被网络服务提供商所采用,从而对多个的输入 语音数据进行评估。 
图1示出了一种语音韵律评估方法流程图。首先在步骤102中接收输入语音数据。比如用户说的一句话“Is it very easy for you to stayhealthy in England”。然后在步骤104获取韵律约束条件,所述韵律约束条件即可以是节奏(Rhythm)约束条件、也可以是流利度(Fluency)约束条件或者二者兼而有之,对此下文中将给予更加详细的描述。接下来在步骤106中按照所述韵律约束条件对所述输入语音数据的韵律(Prosody)进行评估(Assessment),并且在步骤108中提供所述评估的结果。 
图2示出了按照本发明的一个实施例的节奏评估方法流程图。首先在步骤202接收输入语音数据。然后在步骤204获取所述输入语音数据的节奏特征,所述节奏特征可以表现为节奏边界(phraseboundary)位置,所述节奏边界包括下列各项中的至少一项:停顿(silence)、音调重置(pitchreset)。停顿指语音数据中字(Word)与字之间的时间间隔。参考图6A,图6A示出了按照本发明的一个实施例的测量输入语音数据的停顿的语音分析图。图6A的上半部分602显示了说话者的语音能量(energy)以分贝为单位随着时间的能量变化曲线。在图6A中可以清楚的看出,在“easy”与“for”之间说话者停顿了0.463590秒。音调重置指语音数据中字与字之间的音调变化。通常,如果说话者在前字结束后需要换气或者需要对后字提高音调则可能发生音调重置。参考图6B,图6B示出了按照本发明的一个实施例的测量输入语音数据的音调重置的语音分析图。图6B的上半 部分606显示了说话者的语音能量随着时间的能量变化曲线。由能量变化曲线可以得出图6B下半部分608所示的音调变化曲线。从音调变化曲线可以识别音调重置。对语音数据进行分析得出能量变化曲线与音调变化曲线的技术属于现有技术,在此无需赘述。从608所示的音调变化曲线可知说话者虽然在单字“easy”和“for”之间没有停顿,但是在“easy”和“for”之间存在一个音调重置。 
对于说话者而言,如果没有在正确的位置停顿或者进行音调重置,则会导致其朗读或者口语听起来不标准或不地道。比如,如果说话者并非在“easy”后面停顿,而是在“very”后面停顿,如下例所示: 
Is it very(停顿)easy for you to stay healthy in England很显然,如果说话者按照上面方式进行说话,则不符合正常的说话节奏。下面的步骤将用以判断说话者是否在正确的位置进行了停顿或者音调重置。 
图3示出了按照本发明的一个实施例的获取输入语音数据的节奏特征的流程图。在步骤302,获取所述输入语音数据对应的输入文字数据(比如得到“Is it very easy for you to stay healthy inEngland”的文字内容)。将语音数据转换成对应的文字数据可以利用任何已知的或未知的转换技术进行,在此不再赘述。在步骤304,将所述输入文字数据与输入语音数据进行对齐(Alignment),也就是说使得语音数据中的每个字从时间上与文字数据中的每个字进行对应。对齐的目的是为了进一步分析输入语音数据的节奏特征。在步骤306, 测量所述输入语音数据的节奏边界位置,可就是测量说话者在哪个字后面出现了停顿/音调重置。进一步还可以在对齐后的文字数据上标注节奏边界位置,如下: 
Is it very easy(停顿)for you to stay healthy in England 
回到图2,在步骤206获取所述输入语音数据对应的标准节奏特征。所谓标准节奏特征是指,对于说话者所说的语音数据,标准的读法应当在哪里进行停顿或者音调重置,或者说,如果让受过专业训练的播音员来阅读同样一句话,他/她的节奏边界位置应当设置在哪里。当然,对于一句话而言,标准的节奏边界位置可能有多种,比如下面列举的这几种可能都可以被认为是正确的或标准的阅读方式: 
Is it very easy(停顿)for you to stay healthy in England 
Is it very easy for you to stay healthy(停顿)in England 
Is it very easy for you to stay healthy in England(整句中间没有停顿或音调重置) 
本发明并不仅限于按照一种标准的阅读方式对说话者的输入语音数据进行评估,而是可以综合考虑各种标准的阅读方式,从而进行评估。具体的获取标准节奏特征的步骤将在下文中进行更加详细的描述。 
图4示出了按照本发明的一个实施例的获取标准节奏特征的流程图。在步骤402处理所述输入文字数据以获得对应的输入语言结构。进一步,可以对输入文字数据中的每个字进行分析以获得其语言结构,从而生成整句话的语言结构表。表1给出语言结构表的一个示 例: 
  字   本字的词性   左边相邻字的   词性   右边相邻字的   词性
  Is   aux   -1   pro
  it   pro   aux   adv
  very   adv   pro   adj
  easy   adj   adv   prep
  for   prep   adj   pro
  you   pro   prep   prep
  to   prep   pro   vi
  stay   vi   prep   noun
  healthy   noun   vi   prep
  in   prep   noun   noun
  England   noun   prep   -1
表1 
由于语料库中所存储的标准语音数据是有限的(比如几万句话,或者几十万句话)。因此在语料库中很难找到与说话者的输入语音数据的语言结构完全一致的句子,比如我们很难找到一个语言结构同样也是“aux pro adv adj prep pro prep vi noun prep noun”的标准语音。本发明的发明人注意到虽然整句话的语法结构未必相同,但是如果在一定范围内的语法结构相同则很可能具有相似的节奏边界。比如如果语料库中所存储的一个标准语音数据是: 
Vitamin c is extremely good(停顿)for all types of skin 
上面这句话中也存在extremely(adv)good(adj)for(prep)的语法结构,因此可以通过具有相似语法结构的标准语音的节奏边界位置来推导输入语音数据应有的节奏边界位置。当然语料库中可能存在众多含有语言结构“adv adj prep”的标准语音数据,有些在adj的后面出现停顿/音调重置,有些在adj后面没有出现停顿/音调重置。本发明根据众多标准语音数据的相同语言结构的节奏边界的统计概率来判断是否应该在某一个字后面出现停顿/音调重置。 
具体而言,在步骤404,将所述输入语言结构与标准语料库中的标准语音的标准语言结构进行匹配以确定所述输入文字数据的节奏边界位置的发生概率。步骤404进一步包括按照所述输入文字数据的至少一个字的输入语言结构(比如字“easy”的语言结构为“adv adjprep”)遍历所述标准语言结构的决策树(decision tree)以确定该至少一个字的节奏边界位置的发生概率。所述决策树是指对语料库中的标准语音的语言结构进行分析所得到的树状结构。图5示出了按照本发明的一个实施例的部分决策树的示意图。按照图5中的实施例,在依据众多标准语音数据建立决策树时,首先判断本字的词性是否是Adj,如果判断结构为Yes,则进一步判断其左边相邻字的词性是否是Adv,如果判断结构为No,判断本字的词性是否为Aux。如果左边相邻字的词性是Adv,则进一步判断右边相邻字的词性是否是Prep,否则继续判断左边相邻字的词性是否为Ng。如果右边相邻字的词性是Prep则统计词性为Adj的字后是否出现停顿/音调重置,并 加以记录,否则继续对右边相邻字的词性进行其它判断。当对语料库中的所有标准语音进行分析之后,可以对叶子节点中的统计数据进行计算,从而得出节奏边界的发生概率。比如标准语音数据中有875个语言结构为“adv adj prep”的字出现了停顿/音调重置,有125个语言结构为“adv adj prep”的字没有出现停顿/音调重置,则节奏边界位置的发生概率为0.875000。决策树建立的过程可以进一步参见参考文献Shi,Qin/Jiang,DanNing/Meng,FanPing/Qin,Yong(2007):″Combining length distribution model with decisiontree in prosodic phrase prediction″,In INTERSPEECH-2007,454-457。可见,按照所述输入文字数据的某一个字的语言结构遍历所述决策树就可以确定该字的节奏边界位置的发生概率,从而可以进一步获得输入语音数据中的每个字的节奏边界位置的发生概率,如下: 
Is(0.000000)it(0.300000)very(0.028571)easy(0.875000)for(0.000000)you(0.470588)to(0.000000)stay(0.026316)healthy(0.633333)in(0.0513514)England(1.000000) 
在步骤406提取所述标准节奏特征的节奏边界位置,进一步提取所述发生概率在一定阈值以上的节奏边界位置。比如如果设置0.600000为阈值,则提取节奏边界位置的发生概率在0.600000以上的字。按照上面的例子,“easy”、“healthy”、“England”都将被提取出来,也就是说如果输入语音数据在“England”后面出现了停顿/音调重置,或者还在“easy”、“healthy”这两个词中任意一个或者两个后进行停顿/音调重置都可能被认为是节奏上合理的。 
值得说明的是,上面仅仅给出语言结构表的一种简单的示例,实际上所述语言结构表可以进行进一步扩展,进一步包括其它的项目:比如是否是句首、是否是句尾、是否是句中、左边数第二个字的词性、右边数第二个字的词性等等。 
回到图2,在步骤208将所述输入语音数据的节奏特征与对应的标准节奏特征进行比较,以查看所述输入语音数据的节奏边界位置与标准节奏特征的节奏边界位置是否匹配,包括说话者是否在不该停顿/音调重置的地方进行了停顿/音调重置、或者是否在该进行停顿/音调重置的地方没有进行停顿/音调重置。最后,在步骤210提供评估的结果。按照图6A中所示的实施例,说话者在“easy”和“England”后面进行了停顿,因此其符合标准节奏特征。说话者不必在每个节奏边界位置的发生概率在0.600000以上的字后都进行停顿,因为这样可能导致一句话中停顿次数过多反而影响整句话的连贯性。本发明中可以采用各种预定评估策略以根据输入语音数据的节奏特征与对应的标准节奏特征的比较进行评估。 
如上文所述,韵律即可以指语音数据的节奏也可以指语音数据的流利度或者二者兼而有之。上文详细描述了从节奏特征上对输入语音数据进行评估的方法。下文中将描述从流利度特征上对输入语音数据进行评估的方法。 
图7示出了按照本发明的一个实施例的流利度评估方法流程图。在步骤702接收输入语音数据,在步骤704获取所述输入语音数据的流利度特征。所述流利度特征包括下列各项中的一项或多项:一句话中的节奏边界总数、节奏边界的停顿长度(silence duration)、字或词的重复(repeat)次数、单音迟疑(hesitation)程度。在步骤706,获取流利度约束条件,在步骤708按照所述流利度约束条件对所述输入语音数据进行评估,并且在步骤710提供所述评估的结果。 
图8示出了按照本发明的一个实施例的获取输入语音数据的流利度特征的流程图。首先在步骤802,获取所述输入语音数据对应的输入文字数据。然后在步骤804将所述输入文字数据与输入语音数据进行对齐。步骤802与804与图3中的步骤302和304相似,在此不再赘述。在步骤806测量所述输入语音数据的流利度特征。 
图9示出了按照本发明的一个实施例的节奏边界总数评估方法流程图。首先在步骤902接收输入语音数据,然后在步骤904获取所述输入语音数据的节奏边界总数。如上文所述,通过分析决策树可以提取多个标准节奏特征的节奏边界位置。但是如果在所有的节奏边界位置都进行停顿/音调重置,则可能影响整句话的流利程度。因此需要对一句话的节奏边界总数进行评估。如果说话者说了一大段话,如何检测句子的末尾属于现有技术,在此不再赘述。在步骤906,根据所述输入语音数据对应的文字数据的句子长度确定节奏边界总数的预测值。在上文所举的例子中,整个句子包括11个字。比如,如果根据一定经验值确定该句的节奏边界总数的预测值为2,则说话者除应当在句子末尾停顿一次以外,在句子中间最多进行一次停顿/音调重置。在步骤908将所述输入语音数据的节奏边界总数与所述节奏边 界总数的预测值进行比较。在步骤910提供评估的结果。如果说话者的停顿情况如下: 
Is it very easy(停顿)for you to stay healthy(停顿)in England(停顿) 
则虽然他/她的节奏特征的评估结果可能不错,但是流利度特征的评估结果可能会有问题。 
图10示出了按照本发明的一个实施例的停顿长度评估方法流程图。在步骤1002接收输入语音数据,在步骤1004获取所述输入语音数据的节奏边界的停顿长度。比如图5A中“easy”后面的停顿长度为0.463590秒。在步骤1006获取所述输入语音数据对应的标准停顿长度。步骤1006进一步包括:处理所述输入文字数据以获得对应的输入语言结构;以及将所述输入语言结构与标准语料库中的标准语音的标准语言结构进行匹配以确定所述输入文字数据的节奏边界的标准停顿长度。获得输入语言结构的方法已经在上文中进行了详细的描述,因此在此不再赘述。确定标准停顿长度的步骤进一步包括:按照所述输入文字数据的至少一个字的输入语言结构,遍历所述标准语言结构的决策树以确定该至少一个字的节奏边界位置的标准停顿长度,其中所述标准停顿长度为经过统计的标准语言结构的节奏边界位置的停顿长度的平均值。以图5中的决策树的例子进行说明,在建立决策树时,不仅对语料库中的标准语音数据的每一个字的节奏边界的发生概率进行统计,还对停顿长度进行统计,从而记录停顿长度的平均值,比如语言结构“adv adj prep”中“adj”的节奏边界的平均停 顿长度为0.30秒,因此0.30秒就是语言结构“adv adj prep”的标准停顿长度。在步骤1008将所述输入语音数据的节奏边界的停顿长度与对应的标准停顿长度进行比较,并且根据预定评估策略在步骤1010提供评估的结果。比如,所述预定评估策略可以是:当实际的停顿长度显著超过标准停顿长度时,给评估结果减分。在步骤1010提供评估的结果。 
图11示出了按照本发明的一个实施例的字重复次数评估方法流程图。在步骤1102接收输入语音数据,在步骤1104获取所述输入语音数据的字或词的重复(repeat)次数。比如一个有口吃的人说话的流利度通常会存在问题。因此可以根据其在一句话或一段话中对某一个字或某一个词的重复次数来对其语言的流利度进行评估。本发明中的重复次数是指由于说话不够流利所造成的重复,而不包括说话者有意强调某个字或词时进行的重复。不流利导致的重复和强调性重复所表现的语音特征是不同的,前者往往在重复的同时不会出现音调重置,而后者往往伴随有音调重置。如在上文的例子中,如果输入语音数据为: 
Is it very very easy for you to stay healthy in England。即,在两个“very”之间没有出现音调重置,则对于“very”的重复可能是由于不流利所导致的。 
如果输入语音数据为: 
Is it very(音调重置)very easy for you to stay healthy in England。则于“very”的重复可能是由于说话者有意进行强调所导致的。 
在步骤1106中获取重复次数的允许值(比如一段话中最多允许对一个字或词重复一次),并且在步骤1108中将所述输入语音数据的重复次数与所述允许值进行比较,最后在步骤1110中提供比较后的评估结果。 
图12示出了按照本发明的一个实施例的单音迟疑程度评估方法流程图。在步骤1202接收输入语音数据。在步骤1204获取所述输入语音数据的单音迟疑(hesitation)程度,所述单音迟疑程度包括单音迟疑次数或者单音迟疑时间中的至少一个。比如说话者把“easy”中的短音[i]拖的很长,则可能对其口语/朗读的流利度造成影响。在步骤1206获取单音迟疑程度的允许值(比如一段话或一句话内所允许的最大的单音迟疑次数或者单音迟疑时间)。然后在步骤1208将所述输入语音数据的单音迟疑程度与所述单音迟疑程度的允许值进行比较。最后在步骤1210提供比较后的评估结果。 
图13示出了一种语音韵律评估系统框图。所述系统包括输入语音数据接收装置、韵律约束条件获取装置、评估装置以及结果提供装置。其中输入语音数据接收装置用于接收输入语音数据;韵律约束条件获取装置用于获取韵律约束条件;评估装置用于按照所述韵律约束条件对所述输入语音数据的韵律进行评估;结果提供装置,用于提供所述评估的结果。 
所述韵律约束条件包括节奏约束条件或者流利度约束条件中的一种或多种。所述系统可以进一步包括:节奏特征获取装置(图中未示出),用于获取所述输入语音数据的节奏特征,所述节奏特征表现 为节奏边界位置,所述节奏边界包括下列各项中的至少一项:停顿、音调重置,并且所述韵律约束条件获取装置进一步用于获取所述输入语音数据对应的标准节奏特征,所述评估装置进一步用于将所述输入语音数据的节奏特征与对应的标准节奏特征进行比较。 
按照本发明的另外一种实施例,所述系统进一步包括:流利度特征获取装置(图中未示出)用于获取所述输入语音数据的流利度特征,并且所述韵律特征获取装置进一步用于获取所述输入语音数据对应的输入文字数据,将所述输入文字数据与输入语音数据进行对齐,以及测量所述输入语音数据的流利度特征。 
图13中所示的语音韵律评估系统所执行的其它功能与上文中所描述的语音韵律评估方法的各个步骤对应在此不再赘述。 
值得说明的是,本发明中可以仅对输入语音数据的节奏特征的一种或多种进行评估,也可以仅对流利度特征的一种或多种进行评估,或者将某一种或多种节奏特征与某一种或多种流利度特征结合进行比较全面的韵律评估。如果评估的内容多于一项,可以为不同的评估项目设置不同或者相同的权重,也就是根据实际需要制定不同的评估策略。 
本发明虽然提供了一种语音韵律评估方法和系统,但是本发明也可以与其它语音评估方法和系统相结合。比如本发明的系统可以与发音评估系统和/或语法评估系统等其它语音评估系统相结合从而对输入语音数据进行综合的评估。本发明中的韵律评估结果可以作为综合语音评估的一项并且被赋予特定权重。 
按照本发明的一个实施例,可以根据所述评估的结果,比如将得分较高的输入语音数据加入语料库作为标准语音数据,从而进一步丰富标准语音数据的数量。 
图14示出了按照本发明的一个实施例的以网络服务方式进行语音韵律评估的示意图。服务器1402提供对语音韵律进行评估的服务,不同用户可以通过网络1404将各自的语音数据上传到服务器1402中,并且服务器1402可以将韵律评估的结果返回用户。 
按照本发明的另一个实施例,所述语音韵律评估系统还可以应用在本地计算机中供说话者对语音进行韵律评估。按照本发明的又一个实施例,所述语音韵律评估系统还可以被设计为专门的硬件装置供说话者对语音进行韵律评估。 
本发明中评估的结果包括下列各项中的至少一项:所述输入语音数据的韵律的得分;所述输入语音数据的韵律的详细分析;参考语音数据。所述得分可以是以百分制、五分制或任意其它分制进行评估,也可以使用描述性评分,如很好(excellent),好(good),一般(fine),差(bad)等。所述详细分析可以包括下列中的一项或多项:说话者在哪里的停顿/音调重置是不合适的,说话者的停顿/音调重置总数过多,说话者在某处的定顿长度过长,说话者的某个字/词的重复次数过多,以及说话者的某个字的单音迟疑程度太高。同时所述评估的结果还可以给出参考的语音数据,比如“Is it very easy for you tostay healthy in England”这句话的正确读法。所述参考的语音数据可以有多个,本发明中的系统可以提供一个参考的语音数据也可以 提供多个供参考的语音数据。 
虽然上文中以一个英文句子为例进行说明,但是本发明对评估的语言种类没有任何限制,本发明可以应用于评估中文、日文、韩文等各种语言的语音数据的韵律。 
虽然上文中以说话为例进行说明,但是本发明同样也可以对唱歌或说唱等其它语音形式的韵律进行评估。 
所属技术领域的技术人员知道,本发明可以体现为系统、方法或计算机程序产品。因此,本发明可以具体实现为以下形式,即,可以是完全的硬件、完全的软件(包括固件、驻留软件、微代码等)、或者本文一般称为“电路”、“模块”或“系统”的软件部分与硬件部分的组合。此外,本发明还可以采取体现在任何有形的表达介质(medium of expression)中的计算机程序产品的形式,该介质中包含计算机可用的程序码。 
可以使用一个或多个计算机可用的或计算机可读的介质的任何组合。计算机可用的或计算机可读的介质例如可以是——但不限于——电的、磁的、光的、电磁的、红外线的、或半导体的系统、装置、器件或传播介质。计算机可读介质的更具体的例子(非穷举的列表)包括以下:有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、诸如支持因特网或内部网的传输介质、或者磁存储器件。注意计算机可用的或计算机可读 的介质甚至可以是上面印有程序的纸张或者其它合适的介质,这是因为,例如可以通过电扫描这种纸张或其它介质,以电子方式获得程序,然后以适当的方式加以编译、解释或处理,并且必要的话在计算机存储器中存储。在本文件的语境中,计算机可用的或计算机可读的介质可以是任何含有、存储、传达、传播、或传输供指令执行系统、装置或器件使用的或与指令执行系统、装置或器件相联系的程序的介质。计算机可用的介质可包括在基带中或者作为载波一部分传播的、由其体现计算机可用的程序码的数据信号。计算机可用的程序码可以用任何适当的介质传输,包括—但不限于—无线、电线、光缆、RF等等。 
用于执行本发明的操作的计算机程序码,可以以一种或多种程序设计语言的任何组合来编写,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++之类,还包括常规的过程式程序设计语言—诸如”C”程序设计语言或类似的程序设计语言。程序码可以完全地在用户的计算上执行、部分地在用户的计算机上执行、作为一个独立的软件包执行、部分在用户的计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在后一种情形中,远程计算机可以通过任何种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户的计算机,或者,可以(例如利用因特网服务提供商来通过因特网)连接到外部计算机。 
以下参照按照本发明实施例的方法、装置(系统)和计算机程 序产品的流程图和/或框图描述本发明。要明白的是,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机程序指令实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,从而生产出一种机器,使得通过计算机或其它可编程数据处理装置执行的这些指令,产生实现流程图和/或框图中的方框中规定的功能/操作的装置。 
也可以把这些计算机程序指令存储在能指令计算机或其它可编程数据处理装置以特定方式工作的计算机可读介质中,这样,存储在计算机可读介质中的指令产生一个包括实现流程图和/或框图中的方框中规定的功能/操作的指令装置(instruction means)的制造品。 
也可以把计算机程序指令加载到计算机或其它可编程数据处理装置上,使得在计算机或其它可编程数据处理装置上执行一系列操作步骤,以产生计算机实现的过程,从而在计算机或其它可编程装置上执行的指令就提供实现流程图和/或框图中的方框中规定的功能/操作的过程。 
附图中的流程图和框图,图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,所述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意, 在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。 
本文中所用的术语,仅仅是为了描述特定的实施例,而不意图限定本发明。本文中所用的单数形式的“一”和“该”,旨在也包括复数形式,除非上下文中明确地另外指出。还要知道,“包含”一词在本说明书中使用时,说明存在所指出的特征、整体、步骤、操作、单元和/或组件,但是并不排除存在或增加一个或多个其它特征、整体、步骤、操作、单元和/或组件,以及/或者它们的组合。 
以下的权利要求中的对应结构、材料、操作以及所有功能性限定的装置(means)或步骤的等同替换,旨在包括任何用于与在权利要求中具体指出的其它单元相组合地执行该功能的结构、材料或操作。所给出的对本发明的描述其目的在于示意和描述,并非是穷尽性的,也并非是要把本发明限定到所表述的形式。对于所属技术领域的普通技术人员来说,在不偏离本发明范围和精神的情况下,显然可以作出许多修改和变型。对实施例的选择和说明,是为了最好地解释本发明的原理和实际应用,使所属技术领域的普通技术人员能够明了,本发明可以有适合所要的特定用途的具 有各种改变的各种实施方式。 

Claims (35)

1.一种语音韵律评估方法,包括:
接收输入语音数据;
获取韵律约束条件,其中所述韵律约束条件包括流利度特征约束条件,其中所述流利度特征包括一个句子内的节奏边界总数,所述节奏边界包括下列各项中的至少一项:停顿、音调重置,按照所述韵律约束条件对所述输入语音数据的韵律进行评估;以及
提供所述评估的结果,
所述方法进一步包括:
获取所述输入语音数据的流利度特征;所述获取韵律约束条件的步骤进一步包括:
根据所述输入语音数据对应的文字数据的句子长度确定节奏边界总数的预测值,
所述按照所述韵律约束条件对所述输入语音数据的韵律进行评估的步骤进一步包括:
将所述输入语音数据的节奏边界总数与所述节奏边界总数的预测值进行比较。
2.一种如权利要求1所述的方法,其中所述韵律约束条件包括节奏特征约束条件。
3.一种如权利要求2所述的方法,所述方法进一步包括:
获取所述输入语音数据的节奏特征,
所述获取韵律约束条件的步骤进一步包括:
获取所述输入语音数据对应的标准节奏特征,并且
所述按照所述韵律约束条件对所述输入语音数据的韵律进行评估的步骤进一步包括:
将所述输入语音数据的节奏特征与对应的标准节奏特征进行比较。
4.一种如权利要求3所述的方法,其中所述节奏特征表现为节奏边界位置,所述节奏边界包括下列各项中的至少一项:停顿、音调重置。
5.一种如权利要求4所述的方法,其中将所述输入语音数据的节奏特征与对应的标准节奏特征进行比较的步骤进一步包括:
查看所述输入语音数据的节奏边界位置与标准节奏特征的节奏边界位置是否匹配。
6.一种如权利要求4所述的方法,所述获取所述输入语音数据的节奏特征的步骤进一步包括:
获取所述输入语音数据对应的输入文字数据;
将所述输入文字数据与输入语音数据进行对齐;以及
测量所述输入语音数据的节奏边界位置。
7.一种如权利要求6所述的方法,所述获取所述输入语音数据对应的标准节奏特征的步骤进一步包括:
处理所述输入文字数据以获得对应的输入语言结构;
将所述输入语言结构与标准语料库中的标准语音的标准语言结构进行匹配以确定所述输入文字数据的节奏边界位置的发生概率;以及
提取所述标准节奏特征的节奏边界位置。
8.一种如权利要求7所述的方法,其中所述提取所述标准节奏特征的节奏边界位置的步骤进一步包括:
提取所述发生概率在一定阈值以上的节奏边界位置。
9.一种如权利要求7所述的方法,所述将所述输入语言结构与标准语料库中的标准语音的标准语言结构进行匹配以确定所述输入文字数据的节奏边界位置的发生概率的步骤包括:
按照所述输入文字数据的至少一个字的输入语言结构,遍历所述标准语言结构的决策树以确定该至少一个字的节奏边界位置的发生概率。
10.一种如权利要求1所述的方法,所述获取所述输入语音数据的流利度特征的步骤进一步包括:
获取所述输入语音数据对应的输入文字数据;
将所述输入文字数据与输入语音数据进行对齐;以及
测量所述输入语音数据的流利度特征。
11.一种如权利要求1所述的方法,其中所述流利度特征包括节奏边界的停顿长度,
所述获取韵律约束条件的步骤进一步包括:
获取所述输入语音数据对应的标准停顿长度,并且
所述按照所述韵律约束条件对所述输入语音数据的韵律进行评估的步骤进一步包括:
将所述输入语音数据的节奏边界的停顿长度与对应的标准停顿长度进行比较。
12.一种如权利要求11所述的方法,其中所述获取所述输入语音数据对应的标准停顿长度的步骤进一步包括:
处理所述输入文字数据以获得对应的输入语言结构;以及
将所述输入语言结构与标准语料库中的标准语音的标准语言结构进行匹配以确定所述输入文字数据的节奏边界的标准停顿长度。
13.一种如权利要求12所述的方法,其中所述将所述输入语言结构与标准语料库中的标准语音的标准语言结构进行匹配以确定所述输入文字数据的节奏边界的标准停顿长度的步骤包括:
按照所述输入文字数据的至少一个字的输入语言结构,遍历所述标准语言结构的决策树以确定该至少一个字的节奏边界的标准停顿长度,其中所述标准停顿长度为经过统计的标准语言结构的节奏边界的停顿长度的平均值。
14.一种如权利要求1所述的方法,其中所述流利度特征包括字或词的重复次数,
所述获取韵律约束条件的步骤进一步包括:
获取所述重复次数的允许值,并且
所述按照所述韵律约束条件对所述输入语音数据的韵律进行评估的步骤进一步包括:
将所述输入语音数据的重复次数与所述允许值进行比较。
15.一种如权利要求1所述的方法,其中所述流利度特征包括单音迟疑程度,所述单音迟疑程度包括单音迟疑次数或者单音迟疑时间中的至少一个,
所述获取韵律约束条件的步骤进一步包括:
获取单音迟疑程度的允许值,并且
所述按照所述韵律约束条件对所述输入语音数据的韵律进行评估的步骤进一步包括:
将所述输入语音数据的单音迟疑程度与所述单音迟疑程度的允许值进行比较。
16.一种如前述权利要求1-9中任意一个所述的方法,进一步包括:
根据所述评估的结果,将所述输入语音数据加入语料库作为标准语音数据。
17.一种如前述权利要求1-9中任意一个所述的方法,其中所述评估的结果包括下列各项中的至少一项:
所述输入语音数据的韵律的得分;
所述输入语音数据的韵律的详细分析;
参考语音数据。
18.一种语音韵律评估系统,包括:
输入语音数据接收装置,用于接收输入语音数据;
韵律约束条件获取装置,用于获取韵律约束条件其中所述韵律约束条件包括流利度特征约束条件,其中所述流利度特征包括一个句子内的节奏边界总数,所述节奏边界包括下列各项中的至少一项:停顿、音调重置;
评估装置,用于按照所述韵律约束条件对所述输入语音数据的韵律进行评估;以及
结果提供装置,用于提供所述评估的结果,
所述系统进一步包括:
流利度特征获取装置,用于获取所述输入语音数据的流利度特征,
其中所述韵律约束条件获取装置进一步被配置为根据所述输入语音数据对应的文字数据的句子长度确定节奏边界总数的预测值,
所述评估装置进一步被配置为将所述输入语音数据的节奏边界总数与所述节奏边界总数的预测值进行比较。
19.一种如权利要求18所述的系统,其中所述韵律约束条件包括节奏特征约束条件。
20.一种如权利要求19所述的系统,进一步包括:
节奏特征获取装置,用于获取所述输入语音数据的节奏特征,所述节奏特征表现为节奏边界位置,所述节奏边界包括下列各项中的至少一项:停顿、音调重置,并且
所述韵律约束条件获取装置进一步用于获取所述输入语音数据对应的标准节奏特征,
所述评估装置进一步用于将所述输入语音数据的节奏特征与对应的标准节奏特征进行比较。
21.一种如权利要求19所述的系统,其中
所述流利度特征获取装置进一步用于:
获取所述输入语音数据对应的输入文字数据;
将所述输入文字数据与输入语音数据进行对齐;以及
测量所述输入语音数据的流利度特征。
22.一种如权利要求21所述的系统,其中所述流利度特征包括下列各项中的至少一项:
节奏边界的停顿长度;
字或词的重复次数;和
单音迟疑程度,其中所述单音迟疑程度包括单音迟疑次数或者单音迟疑时间中的至少一个。
23.一种如权利要求20所述的系统,其中将所述输入语音数据的节奏特征与对应的标准节奏特征进行比较进一步包括:
查看所述输入语音数据的节奏边界位置与标准节奏特征的节奏边界位置是否匹配。
24.一种如权利要求23所述的系统,所述节奏特征获取装置进一步被配置为:
获取所述输入语音数据对应的输入文字数据;
将所述输入文字数据与输入语音数据进行对齐;以及
测量所述输入语音数据的节奏边界位置。
25.一种如权利要求20所述的系统,所述获取所述输入语音数据对应的标准节奏特征的步骤进一步包括:
处理所述输入文字数据以获得对应的输入语言结构;
将所述输入语言结构与标准语料库中的标准语音的标准语言结构进行匹配以确定所述输入文字数据的节奏边界位置的发生概率;以及
提取所述标准节奏特征的节奏边界位置。
26.一种如权利要求25所述的系统,其中所述提取所述标准节奏特征的节奏边界位置进一步包括:
提取所述发生概率在一定阈值以上的节奏边界位置。
27.一种如权利要求25所述的系统,所述将所述输入语言结构与标准语料库中的标准语音的标准语言结构进行匹配以确定所述输入文字数据的节奏边界位置的发生概率包括:
按照所述输入文字数据的至少一个字的输入语言结构,遍历所述标准语言结构的决策树以确定该至少一个字的节奏边界位置的发生概率。
28.一种如权利要求19-27中任意一个所述的系统,其中所述韵律约束条件包括流利度特征约束条件,
所述系统进一步包括:
获取所述输入语音数据的流利度特征的装置。
29.一种如权利要求28所述的系统,其中所述流利度特征包括节奏边界的停顿长度,
所述韵律约束条件获取装置进一步被配置为:
获取所述输入语音数据对应的标准停顿长度,并且
所述评估装置进一步被配置为:
将所述输入语音数据的节奏边界的停顿长度与对应的标准停顿长度进行比较。
30.一种如权利要求29所述的系统,其中所述获取所述输入语音数据对应的标准停顿长度进一步包括:
处理所述输入文字数据以获得对应的输入语言结构;以及
将所述输入语言结构与标准语料库中的标准语音的标准语言结构进行匹配以确定所述输入文字数据的节奏边界的标准停顿长度。
31.一种如权利要求30所述的系统,其中所述将所述输入语言结构与标准语料库中的标准语音的标准语言结构进行匹配以确定所述输入文字数据的节奏边界的标准停顿长度包括:
按照所述输入文字数据的至少一个字的输入语言结构,遍历所述标准语言结构的决策树以确定该至少一个字的节奏边界的标准停顿长度,其中所述标准停顿长度为经过统计的标准语言结构的节奏边界的停顿长度的平均值。
32.一种如权利要求28所述的系统,其中所述流利度特征包括字或词的重复次数,
所述韵律约束条件获取装置进一步被配置为:
获取所述重复次数的允许值,并且
所述评估装置进一步被配置为:
将所述输入语音数据的重复次数与所述允许值进行比较。
33.一种如权利要求28所述的系统,其中所述流利度特征包括单音迟疑程度,所述单音迟疑程度包括单音迟疑次数或者单音迟疑时间中的至少一个,
所述韵律约束条件获取装置进一步被配置为:
获取单音迟疑程度的允许值,并且
所述评估装置进一步被配置为:
将所述输入语音数据的单音迟疑程度与所述单音迟疑程度的允许值进行比较。
34.一种如前述权利要求19-27中任意一个所述的系统,进一步包括:
根据所述评估的结果,将所述输入语音数据加入语料库作为标准语音数据的装置。
35.一种如前述权利要求19-27中任意一个所述的系统,其中所述评估的结果包括下列各项中的至少一项:
所述输入语音数据的韵律的得分;
所述输入语音数据的韵律的详细分析;
参考语音数据。
CN2010101632299A 2010-04-30 2010-04-30 语音韵律评估方法与系统 Expired - Fee Related CN102237081B (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN2010101632299A CN102237081B (zh) 2010-04-30 2010-04-30 语音韵律评估方法与系统
EP11716276A EP2564386A1 (en) 2010-04-30 2011-04-27 Assessing speech prosody
PCT/EP2011/056664 WO2011135001A1 (en) 2010-04-30 2011-04-27 Assessing speech prosody
US13/097,191 US9368126B2 (en) 2010-04-30 2011-04-29 Assessing speech prosody

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2010101632299A CN102237081B (zh) 2010-04-30 2010-04-30 语音韵律评估方法与系统

Publications (2)

Publication Number Publication Date
CN102237081A CN102237081A (zh) 2011-11-09
CN102237081B true CN102237081B (zh) 2013-04-24

Family

ID=44146821

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2010101632299A Expired - Fee Related CN102237081B (zh) 2010-04-30 2010-04-30 语音韵律评估方法与系统

Country Status (4)

Country Link
US (1) US9368126B2 (zh)
EP (1) EP2564386A1 (zh)
CN (1) CN102237081B (zh)
WO (1) WO2011135001A1 (zh)

Families Citing this family (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101727904B (zh) * 2008-10-31 2013-04-24 国际商业机器公司 语音翻译方法和装置
US10019995B1 (en) 2011-03-01 2018-07-10 Alice J. Stiebel Methods and systems for language learning based on a series of pitch patterns
US11062615B1 (en) 2011-03-01 2021-07-13 Intelligibility Training LLC Methods and systems for remote language learning in a pandemic-aware world
US9514109B2 (en) * 2012-01-12 2016-12-06 Educational Testing Service Computer-implemented systems and methods for scoring of spoken responses based on part of speech patterns
US9576593B2 (en) * 2012-03-15 2017-02-21 Regents Of The University Of Minnesota Automated verbal fluency assessment
WO2014091766A1 (ja) * 2012-12-15 2014-06-19 国立大学法人東京工業大学 人間の心的状態の評価装置
US9595205B2 (en) 2012-12-18 2017-03-14 Neuron Fuel, Inc. Systems and methods for goal-based programming instruction
US10510264B2 (en) 2013-03-21 2019-12-17 Neuron Fuel, Inc. Systems and methods for customized lesson creation and application
US9928754B2 (en) * 2013-03-18 2018-03-27 Educational Testing Service Systems and methods for generating recitation items
EP2833340A1 (en) * 2013-08-01 2015-02-04 The Provost, Fellows, Foundation Scholars, and The Other Members of Board, of The College of The Holy and Undivided Trinity of Queen Elizabeth Method and system for measuring communication skills of team members
KR101459324B1 (ko) * 2013-08-28 2014-11-07 이성호 음원 평가방법 및 이를 이용한 음원의 평가장치
CN104575518B (zh) * 2013-10-17 2018-10-02 清华大学 韵律事件检测方法和装置
US9686509B2 (en) 2014-06-10 2017-06-20 Koninklijke Philips N.V. Supporting patient-centeredness in telehealth communications
CN104464751B (zh) * 2014-11-21 2018-01-16 科大讯飞股份有限公司 发音韵律问题的检测方法及装置
CN109872727B (zh) * 2014-12-04 2021-06-08 上海流利说信息技术有限公司 语音质量评价设备、方法和系统
CN104505103B (zh) * 2014-12-04 2018-07-03 上海流利说信息技术有限公司 语音质量评价设备、方法和系统
CN104361895B (zh) * 2014-12-04 2018-12-18 上海流利说信息技术有限公司 语音质量评价设备、方法和系统
CN104361896B (zh) * 2014-12-04 2018-04-13 上海流利说信息技术有限公司 语音质量评价设备、方法和系统
CN104485115B (zh) * 2014-12-04 2019-05-03 上海流利说信息技术有限公司 发音评价设备、方法和系统
US9947322B2 (en) 2015-02-26 2018-04-17 Arizona Board Of Regents Acting For And On Behalf Of Northern Arizona University Systems and methods for automated evaluation of human speech
CN106157974A (zh) * 2015-04-07 2016-11-23 富士通株式会社 文本背诵质量评估装置和方法
CN105118499A (zh) * 2015-07-06 2015-12-02 百度在线网络技术(北京)有限公司 韵律停顿预测方法和装置
US9792908B1 (en) 2016-10-28 2017-10-17 International Business Machines Corporation Analyzing speech delivery
CN109087667B (zh) * 2018-09-19 2023-09-26 平安科技(深圳)有限公司 语音流利度识别方法、装置、计算机设备及可读存储介质
CN109559733B (zh) * 2018-11-29 2023-06-27 创新先进技术有限公司 语音节奏处理方法和装置
CN110782918B (zh) * 2019-10-12 2024-02-20 腾讯科技(深圳)有限公司 一种基于人工智能的语音韵律评估方法及装置
CN110782875B (zh) * 2019-10-16 2021-12-10 腾讯科技(深圳)有限公司 一种基于人工智能的语音韵律处理方法及装置
CN110782880B (zh) * 2019-10-22 2024-04-09 腾讯科技(深圳)有限公司 一种韵律生成模型的训练方法及装置
CN110750980B (zh) * 2019-12-25 2020-05-05 北京海天瑞声科技股份有限公司 短语语料获取方法及短语语料获取装置
CN111312231B (zh) * 2020-05-14 2020-09-04 腾讯科技(深圳)有限公司 音频检测方法、装置、电子设备及可读存储介质
CN113327615B (zh) * 2021-08-02 2021-11-16 北京世纪好未来教育科技有限公司 语音评测方法、装置、设备及存储介质
CN115359782B (zh) * 2022-08-18 2024-05-14 天津大学 一种基于质量和韵律特征融合的古诗词朗读评估方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1726533A (zh) * 2002-12-12 2006-01-25 杨伯翰大学 动态分析言语短暂性的系统和方法
CN1971708A (zh) * 2005-10-20 2007-05-30 株式会社东芝 韵律控制规则产生方法和设备、及语音合成方法和设备

Family Cites Families (66)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4377158A (en) * 1979-05-02 1983-03-22 Ernest H. Friedman Method and monitor for voice fluency
US4695962A (en) * 1983-11-03 1987-09-22 Texas Instruments Incorporated Speaking apparatus having differing speech modes for word and phrase synthesis
US4799261A (en) * 1983-11-03 1989-01-17 Texas Instruments Incorporated Low data rate speech encoding employing syllable duration patterns
US4783807A (en) * 1984-08-27 1988-11-08 John Marley System and method for sound recognition with feature selection synchronized to voice pitch
US5305421A (en) * 1991-08-28 1994-04-19 Itt Corporation Low bit rate speech coding system and compression
JPH05181491A (ja) * 1991-12-30 1993-07-23 Sony Corp 音声合成装置
CA2119397C (en) * 1993-03-19 2007-10-02 Kim E.A. Silverman Improved automated voice synthesis employing enhanced prosodic treatment of text, spelling of text and rate of annunciation
WO1995010832A1 (en) * 1993-10-15 1995-04-20 At & T Corp. A method for training a system, the resulting apparatus, and method of use thereof
JP3350293B2 (ja) * 1994-08-09 2002-11-25 株式会社東芝 対話処理装置及び対話処理方法
US6006175A (en) * 1996-02-06 1999-12-21 The Regents Of The University Of California Methods and apparatus for non-acoustic speech characterization and recognition
US6029131A (en) * 1996-06-28 2000-02-22 Digital Equipment Corporation Post processing timing of rhythm in synthetic speech
US6182028B1 (en) * 1997-11-07 2001-01-30 Motorola, Inc. Method, device and system for part-of-speech disambiguation
US6601030B2 (en) * 1998-10-28 2003-07-29 At&T Corp. Method and system for recorded word concatenation
WO2000030069A2 (en) * 1998-11-13 2000-05-25 Lernout & Hauspie Speech Products N.V. Speech synthesis using concatenation of speech waveforms
US6434521B1 (en) 1999-06-24 2002-08-13 Speechworks International, Inc. Automatically determining words for updating in a pronunciation dictionary in a speech recognition system
US6725190B1 (en) * 1999-11-02 2004-04-20 International Business Machines Corporation Method and system for speech reconstruction from speech recognition features, pitch and voicing with resampled basis functions providing reconstruction of the spectral envelope
JP3515039B2 (ja) * 2000-03-03 2004-04-05 沖電気工業株式会社 テキスト音声変換装置におけるピッチパタン制御方法
US7120575B2 (en) * 2000-04-08 2006-10-10 International Business Machines Corporation Method and system for the automatic segmentation of an audio stream into semantic or syntactic units
US6505158B1 (en) * 2000-07-05 2003-01-07 At&T Corp. Synthesis-based pre-selection of suitable units for concatenative speech
US7069216B2 (en) * 2000-09-29 2006-06-27 Nuance Communications, Inc. Corpus-based prosody translation system
WO2002050798A2 (en) * 2000-12-18 2002-06-27 Digispeech Marketing Ltd. Spoken language teaching system based on language unit segmentation
US7668718B2 (en) * 2001-07-17 2010-02-23 Custom Speech Usa, Inc. Synchronized pattern recognition source data processed by manual or automatic means for creation of shared speaker-dependent speech user profile
FR2833103B1 (fr) * 2001-12-05 2004-07-09 France Telecom Systeme de detection de parole dans le bruit
US7136816B1 (en) * 2002-04-05 2006-11-14 At&T Corp. System and method for predicting prosodic parameters
US20030236663A1 (en) * 2002-06-19 2003-12-25 Koninklijke Philips Electronics N.V. Mega speaker identification (ID) system and corresponding methods therefor
US7219059B2 (en) * 2002-07-03 2007-05-15 Lucent Technologies Inc. Automatic pronunciation scoring for language learning
US7455522B2 (en) * 2002-10-04 2008-11-25 Fuji Xerox Co., Ltd. Systems and methods for dynamic reading fluency instruction and improvement
US7373294B2 (en) * 2003-05-15 2008-05-13 Lucent Technologies Inc. Intonation transformation for speech therapy and the like
JP4150645B2 (ja) * 2003-08-27 2008-09-17 株式会社ケンウッド 音声ラベリングエラー検出装置、音声ラベリングエラー検出方法及びプログラム
US8886538B2 (en) * 2003-09-26 2014-11-11 Nuance Communications, Inc. Systems and methods for text-to-speech synthesis using spoken example
US20050119894A1 (en) * 2003-10-20 2005-06-02 Cutler Ann R. System and process for feedback speech instruction
US20050177369A1 (en) * 2004-02-11 2005-08-11 Kirill Stoimenov Method and system for intuitive text-to-speech synthesis customization
US7542903B2 (en) * 2004-02-18 2009-06-02 Fuji Xerox Co., Ltd. Systems and methods for determining predictive models of discourse functions
US20050187772A1 (en) * 2004-02-25 2005-08-25 Fuji Xerox Co., Ltd. Systems and methods for synthesizing speech using discourse function level prosodic features
KR100590553B1 (ko) * 2004-05-21 2006-06-19 삼성전자주식회사 대화체 운율구조 생성방법 및 장치와 이를 적용한음성합성시스템
CN100524457C (zh) * 2004-05-31 2009-08-05 国际商业机器公司 文本至语音转换以及调整语料库的装置和方法
JP4652737B2 (ja) * 2004-07-14 2011-03-16 インターナショナル・ビジネス・マシーンズ・コーポレーション 単語境界確率推定装置及び方法、確率的言語モデル構築装置及び方法、仮名漢字変換装置及び方法、並びに、未知語モデルの構築方法、
US7433819B2 (en) 2004-09-10 2008-10-07 Scientific Learning Corporation Assessing fluency based on elapsed time
US20060057545A1 (en) 2004-09-14 2006-03-16 Sensory, Incorporated Pronunciation training method and apparatus
US7392187B2 (en) * 2004-09-20 2008-06-24 Educational Testing Service Method and system for the automatic generation of speech features for scoring high entropy speech
US7840404B2 (en) * 2004-09-20 2010-11-23 Educational Testing Service Method and system for using automatic generation of speech features to provide diagnostic feedback
US7962327B2 (en) 2004-12-17 2011-06-14 Industrial Technology Research Institute Pronunciation assessment method and system based on distinctive feature analysis
JP2008545995A (ja) * 2005-03-28 2008-12-18 レサック テクノロジーズ、インコーポレーテッド ハイブリッド音声合成装置、方法および用途
WO2006136061A1 (en) 2005-06-24 2006-12-28 Intel Corporation Measurement and presentation of spoken language fluency
US20080294433A1 (en) * 2005-05-27 2008-11-27 Minerva Yeung Automatic Text-Speech Mapping Tool
CN1889170B (zh) * 2005-06-28 2010-06-09 纽昂斯通讯公司 基于录制的语音模板生成合成语音的方法和系统
US20070055526A1 (en) * 2005-08-25 2007-03-08 International Business Machines Corporation Method, apparatus and computer program product providing prosodic-categorical enhancement to phrase-spliced text-to-speech synthesis
US20070083357A1 (en) * 2005-10-03 2007-04-12 Moore Robert C Weighted linear model
CN1945693B (zh) * 2005-10-09 2010-10-13 株式会社东芝 训练韵律统计模型、韵律切分和语音合成的方法及装置
US8694319B2 (en) * 2005-11-03 2014-04-08 International Business Machines Corporation Dynamic prosody adjustment for voice-rendering synthesized data
GB2433150B (en) * 2005-12-08 2009-10-07 Toshiba Res Europ Ltd Method and apparatus for labelling speech
US8725518B2 (en) 2006-04-25 2014-05-13 Nice Systems Ltd. Automatic speech analysis
US20080059190A1 (en) * 2006-08-22 2008-03-06 Microsoft Corporation Speech unit selection using HMM acoustic models
WO2008033095A1 (en) 2006-09-15 2008-03-20 Agency For Science, Technology And Research Apparatus and method for speech utterance verification
JP2008134475A (ja) * 2006-11-28 2008-06-12 Internatl Business Mach Corp <Ibm> 入力された音声のアクセントを認識する技術
US7844457B2 (en) * 2007-02-20 2010-11-30 Microsoft Corporation Unsupervised labeling of sentence level accent
US7979252B2 (en) * 2007-06-21 2011-07-12 Microsoft Corporation Selective sampling of user state based on expected utility
EP2188729A1 (en) * 2007-08-08 2010-05-26 Lessac Technologies, Inc. System-effected text annotation for expressive prosody in speech synthesis and recognition
JP5282737B2 (ja) * 2007-08-22 2013-09-04 日本電気株式会社 音声認識装置および音声認識方法
US8484035B2 (en) * 2007-09-06 2013-07-09 Massachusetts Institute Of Technology Modification of voice waveforms to change social signaling
US7996214B2 (en) * 2007-11-01 2011-08-09 At&T Intellectual Property I, L.P. System and method of exploiting prosodic features for dialog act tagging in a discriminative modeling framework
GB2458461A (en) * 2008-03-17 2009-09-23 Kai Yu Spoken language learning system
US8571849B2 (en) * 2008-09-30 2013-10-29 At&T Intellectual Property I, L.P. System and method for enriching spoken language translation with prosodic information
US8401849B2 (en) * 2008-12-18 2013-03-19 Lessac Technologies, Inc. Methods employing phase state analysis for use in speech synthesis and recognition
US8494857B2 (en) * 2009-01-06 2013-07-23 Regents Of The University Of Minnesota Automatic measurement of speech fluency
US8332225B2 (en) * 2009-06-04 2012-12-11 Microsoft Corporation Techniques to create a custom voice font

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1726533A (zh) * 2002-12-12 2006-01-25 杨伯翰大学 动态分析言语短暂性的系统和方法
CN1971708A (zh) * 2005-10-20 2007-05-30 株式会社东芝 韵律控制规则产生方法和设备、及语音合成方法和设备

Also Published As

Publication number Publication date
CN102237081A (zh) 2011-11-09
WO2011135001A1 (en) 2011-11-03
EP2564386A1 (en) 2013-03-06
US20110270605A1 (en) 2011-11-03
US9368126B2 (en) 2016-06-14

Similar Documents

Publication Publication Date Title
CN102237081B (zh) 语音韵律评估方法与系统
Neumeyer et al. Automatic scoring of pronunciation quality
CN108154735A (zh) 英语口语测评方法及装置
CN104464757B (zh) 语音评测方法和语音评测装置
CN101105939A (zh) 发音指导方法
CN106847260A (zh) 一种基于特征融合的英语口语自动评分方法
CN110164447A (zh) 一种口语评分方法及装置
Polkosky et al. Expanding the MOS: Development and psychometric evaluation of the MOS-R and MOS-X
Yin et al. Automatic cognitive load detection from speech features
CN102184654B (zh) 诵读监督方法及装置
JP2006267465A (ja) 発話状態評価装置、発話状態評価プログラム、プログラム格納媒体
Buchholz et al. Crowdsourced assessment of speech synthesis
CN108597538A (zh) 语音合成系统的评测方法和系统
Yoon et al. Spoken text difficulty estimation using linguistic features
Rubin et al. Speech adventure: using speech recognition for cleft speech therapy
CN113205729A (zh) 一种面向外国留学生的演讲评测方法、装置及系统
Kimball et al. Avoidance of stress clash in perception of conversational American English
US20140074478A1 (en) System and method for digitally replicating speech
Truong et al. Automatic recognition of spontaneous emotions in speech using acoustic and lexical features
Ryu Korean vowel identification by English and Mandarin listeners: Effects of L1-L2 vowel inventory size and acoustic relationship
da Silva et al. Applying base value of fundamental frequency via the multivariate kernel-density in forensic speaker comparison
Legát et al. Collection and analysis of data for evaluation of concatenation cost functions
Silva et al. Prosodic distinctions between the varieties of the Upper Xingu Carib language: Results of an acoustic analysis
Wang et al. Word-level F0 modeling in the automated assessment of non-native read speech.
White et al. Isn't that Fantabulous: Security, Linguistic and Usability Challenges of Pronounceable Tokens

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: NUANCE COMMUNICATIONS, INC.

Free format text: FORMER OWNER: INTERNATIONAL BUSINESS MACHINES CORPORATION

Effective date: 20131021

C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20131021

Address after: Massachusetts, USA

Patentee after: Nuance Communications Inc

Address before: American New York

Patentee before: International Business Machines Corp.

CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20130424

Termination date: 20210430

CF01 Termination of patent right due to non-payment of annual fee