CN111739556B - 一种语音分析的系统和方法 - Google Patents

一种语音分析的系统和方法 Download PDF

Info

Publication number
CN111739556B
CN111739556B CN202010106462.7A CN202010106462A CN111739556B CN 111739556 B CN111739556 B CN 111739556B CN 202010106462 A CN202010106462 A CN 202010106462A CN 111739556 B CN111739556 B CN 111739556B
Authority
CN
China
Prior art keywords
type
speech
script
block
structural block
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010106462.7A
Other languages
English (en)
Other versions
CN111739556A (zh
Inventor
屈华民
陈远哲
傅四维
袁林萍
伍翱宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Lan Xingqiupeixun
Original Assignee
Lan Xingqiupeixun
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Lan Xingqiupeixun filed Critical Lan Xingqiupeixun
Publication of CN111739556A publication Critical patent/CN111739556A/zh
Application granted granted Critical
Publication of CN111739556B publication Critical patent/CN111739556B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/69Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for evaluating synthetic or decoded voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1807Speech classification or search using natural language modelling using prosody or stress
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/61Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/64Browsing; Visualisation therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/685Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using automatically derived transcript of audio data, e.g. lyrics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7844Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using original textual content or text extracted from visual content or transcript of audio data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • G06F16/90344Query processing by using string matching techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/10Transforming into visible information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Library & Information Science (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Machine Translation (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

提供了一种用于处理音频信号的计算机实现的方法和系统。该方法包括从音频信号中提取韵律特征、利用源自音频信号或与音频信号相关联的脚本将提取的韵律特征校准、以及利用所述校准的提取的韵律特征将脚本分割成第一类型的结构块的步骤。该方法可以包括使用例如Damerau‑Levenshtein距离来确定源自脚本的第一类型的结构块与第一类型的另一结构块之间的距离测度。

Description

一种语音分析的系统和方法
技术领域
本发明涉及用于处理音频信号的系统和方法,更具体地,涉及用于分析和/或可视化音频语音剪辑的系统和方法。
背景技术
尽管发表公开讲话变得越来越重要,但对大多数人来说,这仍然是一项具有挑战性的任务,因为它需要各种技能。其中一个主要挑战是,特别是对于非母语人士而言,难以对讲话进行有效和引人入胜的叙述(这已被证明对听众参与度有重要影响)。
好的叙述要求说话者使用适当的韵律,即包括音调、强度、语速、停顿等在内的语音旋律来表达性地传达信息。近年来已经提出了许多系统来帮助说话者分析他们的叙述表现。一些工作旨在在排练期间向说话者提供即时反馈,而另一些工作总结说话者的表现,例如语音调制以支持自我反省。最近,某些系统被提议通过再合成技术来修改说话者的录音,该技术允许说话者听到他们如何能够更好地说话。尽管这些系统成功地促进了说话者对其在演示中的语音状态的认识,但是它们也具有局限性。首先,一些工作要求说话者重复地听他们的录音和改进的录音,这是低效的并且容易使用户感到沮丧。其次,因为一次好的演讲可以用不同的风格来表达,所以最好允许用户探索和定制他们想要模仿的叙述风格。
近年来出现了越来越多的数字化语音数据,例如TED演讲,它提供了丰富的优秀叙述策略的样本。虽然许多人认为这是对更好的语音叙述的参考,但很难识别想要的叙述策略的具体样本。首先,TED演讲包括目前超过2900个演讲的大规模数据集,这使得人们通过观看所有演讲来容易地搜索合适的样本变得极其困难(假设不是不切实际的话)。其次,即使他们只专注于一次演讲,也很难注意到有用的策略,因为它们可能会被快速说出的成千上万个单词所淹没。
因此,想要一种使用数据驱动方法的公开讲话探索系统。为了实现这一点,提供一种改进的音频信号处理系统和方法是有利的。
发明内容
本发明的目的是在某种程度上减轻或消除与已知的公开讲话探索系统和/或已知的音频信号处理系统相关联的一个或多个问题。
上述目的通过独立权利要求的特征的组合来实现;从属权利要求公开了本发明的进一步有利的实施例。
本发明的另一个目的是提供一种数据驱动的公开讲话探索系统。
本发明的另一目的是提供一种利用相关联的脚本来分析和/或处理音频信号的改进方法。
本发明的又一目的是提供一种利用相关联的脚本使音频信号可视化的改进方法。
本领域技术人员将从以下描述中得出本发明的其它目的。因此,上述目的陈述并非穷举性的,而仅用于说明本发明的许多目的中的一些目的。
本发明大体上涉及一种可视化分析系统,其允许用户理解高质量语音样本中的良好韵律模式,并因此发现良好的叙述策略。在一个实施例中,本发明首先提取每个语音的韵律特征并用脚本校准这些特征。然后,优选地构建并可视化地呈现三级层次结构,即语音级、句子级和单词级。该系统可以包括四个关联的视图和丰富的交互,以促进该三级细节分析。
在第一主要方面,本发明提供了一种处理音频信号的计算机实现的方法,包括以下步骤:从音频信号中提取韵律特征;利用源自所述音频信号或与所述音频信号相关联的脚本将提取的韵律特征校准;以及利用所述校准的提取的韵律特征将所述脚本分割成第一类型的结构块。优选地,音频信号包括人类语音的数字音频剪辑,但是可以包括合成语音,例如,由计算机合成器应用程序从文本生成的语音。
优选地,音频信号包括人类语音的数字音频剪辑或从文本生成的计算机合成语音的数字音频剪辑。
优选地,分割步骤将脚本和校准的提取的韵律特征同时分割成第一类型的结构块。分割的脚本的第一类型的结构块可以包括构成脚本的分句、短语或句子中的任何一个或任何组合。
优选地,从音频信号中提取韵律特征以形成具有预定义的、选择的或计算的采样率的时间序列。在利用源自音频信号或与音频信号相关联的脚本校准提取的韵律特征之后,可以用开始时间戳和结束时间戳中的一个或两个来标记构成脚本的每个第二类型的结构块。构成脚本的第二类型的结构块可以包括一元字母组、二元字母组和三元字母组中的任意一个或任意组合。
优选地,该方法还包括以下步骤:确定源自脚本的第一类型的结构块与第一类型的另一结构块之间的距离测度。第一类型的其它结构块可以源自除脚本之外的源。
优选地,距离测度包括源自脚本的第一类型的结构块与第一类型的另一结构块之间的相似性测度。
该方法还可以包括以下步骤:对于源自脚本的第一类型的结构块和第一类型的另一结构块中的每一个,提取包括第二类型的结构块的每个所述第一类型的结构块的词性(POS)标签以形成POS序列;以及计算源自脚本的第一类型的结构块的POS和第一类型的另一结构块的POS之间的编辑距离。可以使用Damerau-Levenshtein距离来计算源自脚本的第一类型的结构块的POS和第一类型的另一结构块的POS之间的编辑距离。
源自脚本的第一类型的结构块与第一类型的另一结构块之间的相似性测度可从以下式确定:
其中CSS1和CSS2分别包括源自脚本的第一类型的结构块和第一类型的另一结构块,并且其中CSS(S1,S2)是计算出的相似性测度。
在第二主要方面,本发明提供了一种系统,包括:信号分析模块,用于从音频信号中提取韵律特征;信号校准模块,用于利用源自所述音频信号或与所述音频信号相关联的脚本将提取的韵律特征校准;以及脚本分割模块,用于利用提取的韵律特征将脚本分割成第一类型的结构块。优选地,信号分析模块包括语音合成或语音分析模块,信号校准模块包括语音转文本校准模块,脚本分割模块包括人类语言分析模块。
在第三主要方面中,本发明提供一种非暂时性计算机可读介质,其存储可由处理器执行以配置信号处理系统以执行本发明的第一主要方面的方法的机器可读指令。
在第四主要方面,本发明提供了一种搜索语音数据集的计算机实现的方法,该方法包括以下步骤:从包括脚本的语音数据集的一部分接收包括第一类型的结构块的用户输入;提取包括第二类型的结构块的每个所述输入的第一类型的结构块的词性(POS)标签,以形成输入的第一类型的结构块的POS序列;以及将所述输入的第一类型的结构块的所述提取的POS序列与语音数据集中的第一类型的结构块的POS序列进行比较,从而识别语音数据集中具有与输入的第一类型的结构块相同或相似的POS的一个或多个第一类型的其他结构块。
优选地,识别语音数据集中具有与输入的第一类型的结构块相同或相似的POS的一个或多个第一类型的其它结构块的步骤识别它们相关联的脚本或语音。一个或多个识别的相关联的脚本或语音可用于语音重放或语音合成模块或系统,以将所述相关联的脚本或语音的所有部分音频播放给用户。
优选地,将所述输入的第一类型的结构块的所述提取的POS序列与第一类型的结构块的POS序列进行比较的步骤包括确定输入的第一类型的结构块与语音数据集中的一个或多个第一类型的其他结构块中的每一个之间的距离测度。距离测度可以包括输入的第一类型的结构块与语音数据集中的一个或多个第一类型的其他结构块中的每一个之间的相似性测度。
该方法还可以包括计算输入的第一类型的结构块的POS与语音数据集中的一个或多个第一类型的其他结构块中的每一个之间的编辑距离的步骤。可以使用Damerau-Levenshtein距离来计算输入的第一类型的结构块的POS与语音数据集中的一个或多个第一类型的其他结构块中的每一个之间的编辑距离。
输入的第一类型的结构块与语音数据集中的一个或多个第一类型的其他结构块中的每一个之间的相似性测度可以从以下式确定:
其中CSS1和CSS2分别包括输入的源自脚本的所述第一类型的结构块和语音数据集中的一个或多个第一类型的另一结构块中的每一个,并且其中CSS(S1,S2)是计算出的相似性测度。
在第五主要方面,本发明提供了一种用于搜索语音数据集的系统,该系统包括:处理器,其被配置为从包括脚本的语音数据集的一部分接收包括第一类型的结构块的用户输入;提取包括第二类型的结构块的每个输入的第一类型的结构块的词性(POS)标签,以形成输入的第一类型的结构块的POS序列;以及将所述输入的第一类型的结构块的所述提取的POS序列与语音数据集中的第一类型的结构块的POS序列进行比较,从而识别语音数据集中具有与输入的第一类型的结构块相同或相似的POS的一个或多个第一类型的其他结构块。
在第六主要方面,本发明提供一种存储机器可读指令的非暂时性计算机可读介质,所述机器可读指令可由处理器执行以配置信号处理系统来执行本发明的第三主要方面的方法。
附图说明
通过以下对优选实施例的描述,本发明的前述和其它特征将是显而易见的,这些优选实施例仅作为示例结合附图提供,其中:
图1是根据本发明的信号处理系统的示意框图;
图2描绘了图1的信号处理系统的增强架构;
图3示出了用于图1的信号处理系统的用户界面的屏幕截图;
图4A-D分别示出了图1的信号处理系统的用户界面的概览、列表视图、主视图和单词视图部分;
图5示出了用于图1的信号处理系统的用户界面的主视图的顶部的放大图;
图6示出了用于图1的信号处理系统的用户界面的时间轴的设计替代方案;
图7示出了用于表示图1的信号处理系统的用户接口的时间轴中的音调的设计替代方案;
图8示出了图1的信号处理系统的用户界面的单词视图中的单词云;
图9示出了图1的信号处理系统的用户界面的时间轴中的语音“指纹”;
图10示出了用户查询图1的信号处理系统的用户界面的时间轴中的句子;以及
图11示出了用户查询图1的信号处理系统的用户界面的时间轴中的单词。
具体实施方式
以下描述仅是作为示例的优选实施例,而不限于实施本发明所必需的特征的组合。
本说明书中提及的“一个实施例”或“实施例”是指结合该实施例描述的特定特征、结构或特性被包括在本发明的至少一个实施例中。说明书各处出现的短语“在一个实施例中”不一定都指相同的实施例,也不一定是与其它实施例互斥的单独的或替代的实施例。此外,描述了可以由一些实施例而不是由其它实施例呈现的各种特征。类似地,描述了可以是一些实施例的,而不是其他实施例的各种要求。
应当理解,图中所示的各元件可以以各种形式的硬件、软件或其组合来实现。这些元件可以在一个或多个适当编程的通用设备上以硬件和软件的组合来实现,该通用设备可以包括处理器、存储器和输入/输出接口。
本说明书说明了本发明的原理。因此,应当理解,本领域技术人员将能够设计尽管在本文没有明确描述或示出,但是体现了本发明的原理并且包括在本发明的精神和范围内的各种布置。
此外,本文列举的本发明的原理、方面和实施例以及其具体示例的所有陈述旨在涵盖其结构和功能等同物。另外,旨在这样的等同物包括当前已知的等同物以及将来开发的等同物,即,开发的执行相同功能的任何元件,而不管结构如何。
因此,作为示例,本领域技术人员将了解,本文所呈现的框图表示体现本发明的原理的系统和设备的概念图。
图中所示的各种元件的各功能可以通过使用专用硬件以及能够与适当软件相关联地执行软件的硬件来提供。当由处理器提供时,各功能可由单个专用处理器、单个共用处理器或其中一些可被共用的多个单独的处理器提供。此外,术语“处理器”或“控制器”的明确使用不应被解释为专门指能够执行软件的硬件,并且可以隐含地包括但不限于数字信号处理器(“DSP”)硬件、用于存储软件的只读存储器(“ROM”)、随机存取存储器(“RAM”)和非易失性存储器。
在本文的权利要求书中,表示为用于执行具体功能的装置的任何元件旨在包括执行该功能的任何方式,包括例如a)执行该功能的电路元件的组合或b)包括固件、微代码等的任何形式的软件,该软件与用于执行该软件以执行该功能的适当电路组合。由这些权利要求所限定的本发明在于以下事实:由各种所述装置提供的功能以权利要求所要求的方式被组合和集合在一起。因此,可以提供那些功能的任何装置被认为等同于本文所示的那些装置。
已经有大量不同的韵律特征可视化技术。最常见的方法是例如通过将不同的特征值编码为线形图的不同可视化提示(例如高度、背景颜色和图形颜色)来扩展传统的线形图,使用线形图来沿着水平时间轴编码不同的特征值。代替将特征映射到那些波段,一些其它系统适于通过优化自顶向下的可视化标准来生成表示声学特征的缩略图像。
在理解语音分析中的韵律模式的范围内,经常需要将韵律特征与脚本相关联。已经提出了几种将韵律特征嵌入到脚本可视化中的系统。嵌入韵律特征最直接的方法是沿着脚本绘制线形/条形图,或者在脚本上覆盖热图。例如,已经公开了用于多个韵律特征的两种可视化方案。一种是直接操作文本,另一种是用叠加的文本渲染技术来增强脚本。其它系统还添加了具有概括的音乐特征的垂直迷你图以显示歌曲的整体结构。
尽管这些方法可以揭示公开讲话中的韵律模式,但是用户对整个大规模数据集的探索是繁琐的。本发明的特征在于概览元件,该概览元件概括每个语音的韵律特征,允许用户有效地识别具有想要的叙述风格的语音。此外,当分析和比较语音级韵律特征时,本发明的“重点和语境”设计会更好地衡量。
最近已经开发了许多自动系统来分析说话者的叙述状态。一些工作通过自动分析用户记录的语音来生成关于各种因素的反馈,例如通过向用户提供关于语音音量和语音停顿的反馈;或者使用基本的f0轮廓来呈现音调并教说话者在话语中使用适当的语调。近来,提出不仅向用户提供关于他们的叙述的反馈,而且通过重新合成原始音频来生成改进版本,这通过向用户通知他们的弱点来迭代地改进用户的叙述。已经开发了使用户能够探索TED演讲中的演示技术的系统。一些工作在额外设备的帮助下提供实时反馈,例如,通过从用户记录的音频生成可视化概要,并且后面的系统还提供来自观众的评论。还已知使用GoogleGlass设备来通知说话者他们的速度和音量,或者使用可拆卸的腕带,该腕带可以用于提高说话者对他们的音调、每分钟的单词数和补充单词数的意识。
由于没有标准来衡量叙述的质量,所有上述方法或者基于试探法提供反馈,例如,不讲得太快或太低,或者基于用户的注释来定义高质量的叙述。
本发明提供了一种从数据驱动的角度来解决该问题的系统,即,提供了一种可视化分析系统来探索和模仿高质量的公开讲话。该系统允许用户根据自己所想要的叙述风格来确定语音样本,并理解这些好样本的特征,从而将策略应用到他们的叙述中。为了验证这种方法,进行了利用TED演讲数据和从领域专家收集反馈的案例研究。
然而,首先,有必要处理/分析音频语音剪辑,这将在下面更详细地描述。
本发明的系统旨在帮助说话者探索大规模语音数据集并识别具有有意义的叙述策略的良好语音样本。为了给分析和可视化系统的设计提供信息,需要回答两个问题:1)哪些韵律特征对用户很有帮助?2)如何引导用户使用有用的语音并演绎性地呈现这些韵律特征?为了回答这些问题,首先基于全面的文献综述收集潜在的韵律特征。然后,与三位领域专家合作,进行以用户为中心的设计流程,以了解用户需求。所有的专家都已在大学里从事英语教学,其中一位专家教授了10多年的演讲技巧课程。在文献综述和专家访谈的基础上,该系统的要求总结如下:
韵律特征。在语言学中,韵律是指不是单个音段(元音和辅音),而是音节和较大语音单位的特性的那些语音元素,包括语调、音调、重读和节奏等语言功能。这样的元素被称为超音段。
韵律可以反映说话者或话语的各种特征:说话者的情绪状态;话语的形式(陈述、疑问或命令);反讽或讽刺、强调、对比和重点的出现。它可以以其他方式反映语言的其他元素,这些元素可能没有通过语法或通过词汇的选择进行编码。
在各种韵律特征中,音调、音量和停顿可被选择性地识别,因为它们始终被认为是影响说话者叙述质量的重要因素:
音调。音调值的变化可以用来表示语调,这是最重要的韵律特征之一。不同的语调可以传递不同的信息。如果说话者使用小的语调变化,则所得到的语音可能听起来像机器人,并且听众可能会不专注。
音量。音量的变化有助于在叙述过程中产生各种效果。例如,音量值的峰值通常用于强调特定的单词。
停顿。适当的停顿可以帮助向听众暗示说话者将要提出要点,允许听众消化之前的语音,或者仅仅充当过渡的信号。相反,不必要和无意识的停顿可能会打断句子。
然而,本发明不仅限于音调、音量和停顿的韵律特征,还可以包括其它韵律特征,例如重读、拍子、节奏和断句。重读、或强调,在口头语言中很容易使用和识别,但更难描述。重读的单词或音节前通常会稍微停顿,并以略微增加的音量说话。断句是将经常说的、熟悉的单词组基本作为一个单词声音传递的位置。可以包括的其它韵律方面包括:超快、响声、振动、低语、断音和三秒停顿。超快可以被认为是以非常快的速度说一些单词或语音的一部分。响声或响度类似于音量,但不同之处在于口语声级的变化可能不那么细微。可以包括的另一种类型的韵律是押韵。因此,应当理解,本文公开的本发明的方法可以采用任一和所有已知类型的韵律特征和/或韵律技术,并且在这样的韵律特征和/或韵律技术之间存在重叠。
设计要求。
基于对领域专家的访谈,整合了一组设计要求/目标,以便有效地从大规模语音数据集中获得见解。
R1:支持快速识别具有相似叙述风格或独特语音的语音。对于给定的语音数据集,重要的是向用户提供概览,该概览示出共用类似叙述风格的语音组或作为离群点的几个语音。它使用户对数据集有一个粗略的了解,并作为分析的切入点。
R2:呈现韵律特征的语音级时间分布。对于每一个语音,都有必要显示韵律特征的演变。由于语音的长度和韵律模式可能不同,所提出的设计需要处理不同语音之间的规模变化。
R3:呈现韵律特征的句子级分布。在分析语音的韵律特征后,允许用户缩小到单个句子是有帮助的。句子级设计应保持一定的韵律信息,以使用户了解语音语境。
R4:比较具有相似的句子结构的句子的韵律特征。在识别出具有想要的韵律模式的句子之后,用户手动搜索相似的句子仍然是繁琐的。因此,系统应提供识别相似句子的自动方法。
R5:总结特定单词或短语的韵律模式。总结所选择的单词/短语的韵律模式,并且因此告诉用户可以为该单词/短语选择哪种类型的叙述策略也是有帮助的。
在上述设计要求的指导下,已经设计和开发了本发明的系统,其涉及一种用于交互式地探索大规模语音数据集中的叙述策略的可视化分析系统。
图1示出了根据本发明的概念的信号处理系统100的示例性实施例。在所示出的实施例中,信号处理系统100包括计算机处理装置,例如通信设备(例如,智能电话)、平板电脑、手提电脑、个人电脑(PC)等,尽管可以利用任何合适的数据处理设备或系统。信号处理系统100可以经由通信网络连接到服务器和/或数据库106等,尽管这对于本发明的实现不是必需的。通信网络可以包括无线网络,例如无线蜂窝网络、有线网络、因特网或前述的任何组合。
信号处理系统100可以包括用于执行其各种功能的多个功能块。例如,信号处理系统100可以包括接收器模块110,接收器模块110提供接收信号处理和/或被配置为向一个或多个功能块模块120提供接收信号和/或从接收信号提取的信息,功能块模块120诸如可以包括各种数据接收器、一个或多个控制元件、一个或多个用户接口等。虽然接收器模块110被描述为提供接收信号处理,但是应当理解,该功能块可以被实现为经由天线105和/或另一类型的系统输入提供发送和接收信号处理的收发器,尽管应当理解,可以通过本领域技术人员熟悉的适当方式将音频语音剪辑形式的音频信号接收或输入到信号处理系统100的接收器模块110。此外,应当理解的是,信号处理系统100能够接收和/或发射信号对于实现本发明的各方面不是必要的。信号处理系统100可以包括独立的设备或系统。不管接收器模块110的存在与否或具体配置如何,实施例可包括用于从接收或输入的音频信号提取韵律特征的信号分析模块130、用于利用源自音频信号或与音频信号相关联的脚本将提取的韵律特征校准的信号校准模块140、用于将具有提取的韵律特征的脚本分割成第一类型的结构块的脚本分割模块150、以及用于从脚本或者脚本的结构块提取标签的词性(POS)标签提取模块180。
尽管信号分析模块130、信号校准模块140、脚本分割模块150和POS标签提取模块180被示出为被部署为接收器模块110的一部分(例如构成接收器模块控制和逻辑电路的一部分),但是对根据本发明的概念的这种部署配置没有限制。举例来说,信号分析模块130、信号校准模块140、脚本分割模块150及POS标签提取模块180中的每一者可部署为信号处理系统100的与接收器模块110(如果存在)不同但连接到接收器模块110的相应功能块。信号分析模块130、信号校准模块140、脚本分割模块150和POS标签提取模块180中的每一个可以例如使用存储在信号处理系统100的存储器160中的逻辑电路和/或可执行代码/机器可读指令来分别地实现,以由处理器170执行,从而执行本文描述的功能。例如,可执行代码/机器可读指令可以存储在适于存储一个或多个指令集(例如应用软件、固件、操作系统、小应用程序等)、数据(例如配置参数、操作参数和/或阈值、收集的数据、处理的数据等)等的一个或多个存储器160中(例如随机存取存储器(RAM)、只读存储器(ROM)、闪存、磁存储器、光学存储器等)。一个或多个存储器160可包括针对一个或多个处理器170使用的处理器可读存储器,一个或多个处理器170可操作以执行信号分析模块130、信号校准模块140、脚本分割模块150和POS标签提取模块180中的任何一个的代码段和/或利用由此提供的数据来执行本文所述的信号处理系统100的功能。附加地或替换地,信号分析模块130、信号校准模块140、脚本分割模块150和POS标签提取模块180中的每一个可以包括一个或多个专用处理器(例如专用集成电路(ASIC)、现场可编程门阵列(FPGA)、图形处理单元(GPU)等),其经配置以执行本文所描述的信号处理系统100的功能。
更具体地,在本发明的音频信号处理方法中,第一步骤是从接收或输入的音频信号中提取韵律特征。优选地,待处理的音频信号包括人类语音的数字音频剪辑,优选地为数字格式,但是对于一些实施例,待处理的音频信号可以包括合成语音,例如由计算机合成器应用程序等从文本生成的语音。优选地,信号分析模块130包括语音合成或语音分析模块130,并且在一些实施例中,可以包括称为Praat(P.Boersma.Praat,一种使用计算机研究语音的系统,Glot International,5,2002)的已知语音分析工具用于特征提取,尽管可以使用任何合适的语音分析工具。想要的/要求的韵律特征(包括音调和强度)被提取为具有预定义的、选择的或计算的采样率的时间序列形式。可以选择0.01秒的采样率,因为这被认为是足够精细的,足以用于分析,但是也可以选择其它采样率。
下一步骤是利用源自正被处理的音频语音剪辑或与之相关联的脚本将提取的韵律特征进行校准。在一些实施例中,优选地包括语音转文本校准模块140的信号校准模块140可以包括名为Gentle(https://lowquality.com/tender/)的现有语音转文本校准工具,其是用于将语音与文本校准的强大而宽松的工具包,尽管可以利用任何合适的语音转文本校准工具。在校准之后,每个一元字母组即单词的开始时间戳和/或结束时间戳被标记,这允许沿着脚本容易地自动绘制或校准韵律特征。附加地或替换地,这优选地针对脚本中的二元字母组执行,并且还可以针对三元字母组等执行。
在下一步骤中,为了实现句子级和单词级的分析,优选地,包括人类语言分析模块150并且在一些实施例中可以包括CoreNLP(C.Manning、M.Surdeanu、J.Bauer、J.Finkel、S.Bethard以及D.McClosky;斯坦福的Corenlp自然语言处理工具;计算语言学协会2014年年会论文集:System Demonstration,第55-60页,2014)的脚本分割模块150用于将脚本分割成第一类型的结构块,例如包括脚本的分句、短语和/或句子,尽管可以使用任何合适的人类语言分析工具。更优选地,第一类型的结构块包括构成脚本的句子。由于已经利用音频剪辑的时间轴校准脚本,因此该步骤将自动地并且同时地用第一类型的结构块分割已经校准的韵律特征值。
脚本中的一元、二元和/或三元字母组等可以被认为构成第二类型的结构块。
图2描述了与服务器/数据库106直接连接或经由网络连接到服务器/数据库106的信号处理系统100的增强架构,尽管信号处理系统100可以包括独立的设备或系统。信号处理系统100不仅被配置为经由如本文中所描述的数据分析模块110A形式的接收器模块110处理音频语音剪辑以提取韵律特征等,而且还可被配置为经由原始数据模块110B提取数据,所述原始数据模块110B包括来自此类音频语音剪辑的脚本,以及经可视化模块110C建立处理的音频语音剪辑的可视化,如下文对处理的音频语音剪辑的描述。将理解,数据分析模块110A、原始数据模块110B和可视化模块110C中的每一个都可被部署为信号处理系统100的与接收器模块110不同但连接到接收器模块110的相应功能块。数据分析模块110A、原始数据模块110B和可视化模块110C中的每一个可以例如使用存储在信号处理系统100的存储器160中的逻辑电路和/或可执行代码/机器可读指令来分别实现,以由处理器170执行,从而执行如本文所述的功能。
当用户确定有用的语音或口头叙述风格时,信号处理系统100可通过提供第一类型的结构块(例如具有与选择的结构相似的结构的句子)来使用户受益。这样,用户可以验证和总结他们的假设,并更好地理解他们的叙述策略。然而,应当理解,现有的、即传统的句子转句子查询方法大多基于语义或主题。例如,给定一个输入句子“我有一个梦想,一个美丽的梦想”,大多数现有的方法将查询谈论单词“梦想”的句子。在本发明中,具有类似结构(例如“我们有问题,环境问题”)的句子对于用户学习叙述风格更有用。因此,优选地,本发明提供基于句子结构的相似性(CSS)以测量源自脚本的第一类型的结构块与第一类型的另一结构块之间的距离,例如来自脚本的句子等与也来自脚本或来自另一源(例如用户输入或用户选择)的句子等之间的距离(例如编辑距离)。优选地,距离测度包括源自脚本的第一类型的结构块与第一类型的另一结构块之间的相似性测度。这可以包括,对于源自脚本的第一类型的结构块和第一类型的另一结构块中的每一个,提取包括第二类型的结构块的所述第一类型的结构块的每一个的POS标签以形成POS序列,然后计算源自脚本的第一类型的结构块的POS和第一类型的另一结构块的POS之间的编辑距离。优选地,使用Damerau-Levenshtein距离来计算源自脚本的第一类型的结构块的POS和第一类型的另一结构块的POS之间的编辑距离。
更具体地,源自脚本的第一类型的结构块和第一类型的另一结构块之间的相似性测度可以从等式1确定:
CSS(S1,S2)=min∑||edits(CSS1,CSS2)|| (1)
其中CSS1和CSS2是两个句子的句子序列,CSS(S1,S2)是计算的相似性。更具体地,对于句子中的每个单词/短语,在一些实施例中,POS标签提取器模块180可以包括已知的标签提取器工具,诸如在K.Toutanova、D.Klein、C.D.Manning和Y.Singer,Feature-rich part-of-speech tagging with a cyclic dependency network,人类语言技术计算语言学协会北美分会会议2003年论文集,第一卷,第173-180页,计算语言学协会,2003中所公开的,以提取诸如具有过去时态的动词或代词的标签,尽管可以使用任何合适的标签提取器工具。以这种方式,句子可以被转换为POS标签的序列。然后,可以使用例如Damerau-Levenshtein距离(E.Brill和R.C.Moore,An improved error model for noisy channel spellingcorrection,计算语言学协会2000年年年会论文集,第286-293页,计算语言学协会,2000)将CSS转换为这两个序列之间的相似性,以最终计算CSS,其中Damerau-Levenshtein距离是用于测量各种事件序列数据的相似性的常用距离方法。
信号处理系统100被设计成满足上述设计要求,同时遵循多级详细分析的一般设计准则。图3示出了用户界面200的屏幕截图。用户界面200由四个相关联的视图200A、B、C、D组成:示出语音级中的韵律特征分布的概览200A、显示选择的具有其时间韵律特征演变的语音的列表视图200B、支持句子级分析的主视图200C、以及示出单词的语调概要的单词视图200D。将理解,图3中所示的相关联的用户界面视图200A、B、C、D的布局仅仅是一种这样的布局的示例,并且在一些实施例中可以不同地布置所述视图200A、B、C、D。
图4A提供概览200A的更详细视图,其被配置为说明语音的总体分布以实现上文的目标R1。概览200A由散点图构成,其中每个点表示语音。优选地,x轴和y轴分别表示音量和音调,但是用户能够改变轴中的一个或两个来编码其他属性,例如平均句子长度、句子计数等。
图4B提供列表视图200B的更详细视图,列表视图200B以列表形式呈现每个语音的属性。三列显示了韵律特征的语音主题、标签和时间分布以实现上述目标R2。语音可以按单词数、句子数等顺序排列。列表视图200B用空间填充表示410可视化每个语音的时间分布。在图4B中,每一表示410的上半部410A表示音调的分布,且每一表示410的下半部410B表示音量的分布。每一表示410的半部410A、410B的不透明度可随时间对所表示特征的值进行编码。可以在其他用户界面视图中一致地使用这种类型的特征表示。
如果用户识别一组语音,他/她希望进一步探索,他们可以在例如概览200A中的语音上点击或使用套索选择或类似操作,列表视图200B将自动更新以显示过滤的结果。这样,用户能够只关注相关或选择的数据集部分。为了进一步深入到更低级别的分析,用户可以点击列表视图200B中的语音,然后主视图200C(图4C)将被更新以显示所点击的语音。
图4C提供了由两部分组成的主视图200C的更详细的视图。顶部420A示出了具有重点的句子的语音的韵律特征以实现上述目标R3。底部420B可视化用户的查询结果。虚线示出了两个部分视图420a、420b的分隔。因为这是显示韵律特征和脚本的语义的用户界面视图,所以用户可以通过探索该视图直接学习潜在有用的叙述策略。因此,主视图200C被认为是本发明的可视化系统的核心视图。
图5示出了主视图200C的顶部420A的放大图。这包括新颖的重点+语境设计,以保留选择的句子的语境,同时保持该设计可扩展到所表示的语音的长度。更具体地,首先,将重点的句子与水平时间轴及其韵律特征的重叠直接放置在一起,如所示。覆盖显示的文本的音量图430编码音量值,且绘制在音量图430上方的线形图440呈现音调值。设计原理是音量图430的宽度或深度自然地传达所表示的属性是更强还是更弱,而线形图440可被认为更直观地呈现变得更高或更低的值。另外,单词之间的停顿的持续时间可以由文本中的空白区编码,即在文本中的单词之间编码,因此用户可以容易地观察到在脚本的显示的文本中的单词或其他结构块之间是否存在清楚的停顿。
此外,时间轴被扩展以在每一处绘制重点的句子之前和之后的语音的剩余部分(即语境)。以这种方式,重点的句子具有作为扩大的细节视图的可视化效果,这对于根据用户的反馈进行分析是直观的。用户可以点击音量图430以改变重点的句子。为了确保一致的可视化编码,优选地,使用相同的音量图430和线形图440来编码每个显示的句子的音量和音调,其中仅对时间比例进行可能的修改以适合屏幕视图中的语境。句子之间的每个停顿可以由时间轴上的竖条450编码。条450的高度显示停顿的持续时间。以这种方式,用户可以识别有趣的停顿模式(例如密集的停顿使用或异常长的停顿)并且快速地定位对应的句子。
仅显示单个句子的文本可能限制用户理解语音内容的认知能力。因此,语境句子在每一个处沿着重点的句子纵向地显示。对于每个/>优选地减小语境句子的字体大小和不透明度,以对这样的句子和重点的句子之间的距离进行编码,因此,如果语境句子离重点的句子更远,则语境句子更小且更浅。
主视图200C的设计需要考虑和实施若干设计方案。
由于想要提供重点的句子的可视化提示并且为了语境一致,所有脚本被压缩为直线并且利用这条线的线段来编码每个句子。然后,语境语句之间的停顿可以被编码为线段之间的空白,如显示设计替代方案的图6中更清楚地示出的:显示分割的水平时间轴;/>显示分割的音量图;并且/>显示如图4C和图5中所示的优选的时间轴。例如,如在/>中一样,可以将音量图430划分成段,并且使用音量图430中的空白区来指示停顿。然而,由于脚本可以具有变化的句子长度和数量,因此可以限制可用的空白区以清楚地显示停顿的持续时间。例如,很难区分1秒的停顿和10秒的停顿。因此,优选地,使用/>的时间轴条形图来表示每个停顿。以这种方式,指示异常长的停顿的高的条可以容易地吸引用户的注意。
在对音调值进行编码时,有一种可能是使用音乐音符的可视化隐喻,如图7中处所示。在该设计中,首先计算重点的句子中每个音节的平均音调值,并将其可视化地编码为音符。这种隐喻设计可以被选择,因为当说话者练习他们的语调时,他们倾向于逐个音节地训练他们的发音。但是,优选使用线形图设计/>因为:1)线形图/>较好地揭示了音调值的趋势,因此用户可以很容易地观察到多个单词或整句的语调;以及2)虽然说话者熟悉音节级语调,但可以观察到,通过阅读文本,用户的认知能力可以很容易地将线形图与每个音节相匹配。
为了在用户选择重点的句子时比较相似的句子,信号处理系统100将把该句子作为输入,并且使用先前描述的CSS查询来搜索相似的句子,即,相对于用户选择的句子的距离测度具有在预定义的、选择的或计算的范围或裕度内的相似性测度的语句。利用查询结果,信号处理系统100还将在主视图200C的底部420B显示这些句子的韵律特征。为了比较和总结这些句子之间的叙述策略,使用并排可视化比较,并且以与重点的句子相同的方式编码韵律特征,从而实现目标R4。
虽然主视图200C可以帮助用户找到具有想要的叙述风格的句子,但是用户通常需要更多的样本来理解和概括他们的发现。主视图200C中的并排比较可以提供更多的句子样本。然而,另一种选择是为重要的句子中的关键词(例如过渡词)提供更多的叙述样本。如图4D中所示的单词视图200D是为此目的而设计的并且实现了目的R5。图8示出单词视图200D中的单词云,其中用户选择的单词的出现根据韵律特征值从顶部到底部被分类为三组:贬低;常规使用;以及强调。
更具体地,为了提供给定单词的所有示例用法的概要,可以检索给定单词的所有出现情况。然后,为了给用户提示这个单词的叙述用法,这个词的语调可以分为三类,例如:强调、贬低和常规使用。为了说明这一点,图8中示出了每个类别的典型音调值。根据先前的研究,音量值和音调偏差都可以帮助检测被强调的单词。因此,在本发明的一个实施例中,可以以类似但更简单的方式对单词进行分类。优选地,分别基于音量值和音调偏差生成两个分类结果。对于音量值,给定一个单词,计算先行词和后续词的平均音量值。然后,如果选择的单词的音量值比平均值大或小预定的、选择的或计算的阈值λ1,则将其分别分类为强调或贬低。否则,它被认为是一种常规使用。类似地,给定单词的所有出现可以基于音调偏差利用另一预定的、选择的或计算的阈值λ2来分组。在一个实施例中,两个阈值分别被设置为25%和5dB。用户可以通过用户界面来调整阈值。
对于选择的单词,图4D和图8中的单词云用于可视化语境信息。对于三个类别中的每一个,分别收集选择的单词的先行词和后继词以生成词云。如图8所示,单词云通过曲线相连,曲线的颜色和形状表示语调类别。每个单词云的高度表示选择的单词的出现次数,允许用户观察最常用的语调策略。单词云中的单词分布帮助用户理解单词的语境。通过改变设置,信号处理系统100允许用户用他们的POS标签替换所有单词,并且基于标签分布生成单词云。
本文描述的时间轴提供的技术优点在于,当搜索语音数据集时,可以容易地找到在脚本或相关联的音频信号内向用户提供或显示的结果的位置,这可以通过使用与所述结果相关联的任何时间戳来实现。
基于POS标签的相似性测度的使用具有的技术优势在于,其使得用户能够识别具有相似叙述风格的语音或语音的部分,尽管用于相似性测度的结构块在语言或句法上不是相似或关联的,即用于相似性测度的结构块在结构上相似,但不需要在语言或句法上相似或关联。这使得用户能够搜索非常庞大的语音数据库,该数据库在主题上可能不相关并且可以使用非常不同的词汇,但是由于相似的一个或多个基础单词结构而具有相似的叙述风格。
案例研究
在本节中,使用案例研究来评估本发明的一个实施系统的有效性和有用性。用户包括两个领域专家(本文由E0和E1表示)和两个研究生(本文由S0和S1表示)。
从四个主题,即教育、政府、科技和文化收集了51个TED谈话音频和脚本。它们中的每个持续12到18分钟,约1536到3111个单词,76到263个句子。用于案例研究的信号处理系统100的实施例被实现为基于web的应用程序,并且与用户进行半结构式访谈。每次访谈持续了大约一个小时。在访谈期间,介绍了当前信号处理系统100中的特征,然后允许用户利用信号处理系统100自由地探索数据。最后,采访用户关于他们在探索期间获得的见解以及系统100的优点和缺点。用户的分析过程总结如下。
语音概览
首先,用户希望获得显示的语音的大画面(R1)。在将数据加载到系统100中之后,概览200A示出了以音量和音调为x和y轴的散点图。S0注意到,与其它语音相比,存在具有低音调值的语音(在图4A中由框205标记)。他表现出兴趣,“我想探索这个语音,因为演讲者的声音可能更接近我低沉的声音,也许我可以模仿他的叙述风格。”E1改变x轴并观察散点图。在改变x轴以表示平均句子长度之后,E1提到“我可以容易地定位使用复杂句子的演讲者和使用短句的演讲者。这两种风格之间的差异对进一步研究是有意义的。”
由韵律特征识别的叙述风格
接下来,用户想要分析语音级的叙述风格(R2)。S1对具有相对高音量的语音感兴趣,因此他使用概览200A中的套索工具来选择它们(如图4A中的虚线框215所示)。然后,他在自动更新的列表视图200B中检查每个语音的时间分布。他注意到顶排410A(图4B)沿时间轴保持一致的不透明性,而其中三个以高不透明性区域开始(在图4A中标记为A1-A3),指示对应语音开始时的低音调值。“这三个语音的叙述风格可能与其他语音不同”,他推断道。为了找到具体原因,S1点击列表视图200B中的每个语音,然后在主视图200C中浏览它们的脚本。经过仔细比较,他发现这三个语音都是以说明开始的,而其他人则讲述故事或提出问题。“当演讲者以通常不那么情绪化的说明开始他们的演讲时,他们倾向于使用低音调”,S1总结道,“这给了我关于从说明开始的见解。然而,我更喜欢在我的演讲中有一个强有力的开头,所以我不想用它作为开头。”
S1继续探索主视图200C中的韵律特征。他认为语境图可以看作是语音的指纹,可以用来区分不同的叙述风格,于是他注意到了语境图及其中的音调曲线、音量区域和竖条。他注意到两次演讲有完全不同的指纹。一个关于“经济增长”的演讲有平滑的音调曲线和稀疏的竖条(图9顶部时间轴),表示其小的音调变化和很少的停顿。相反,另一个关于保守派和自由派之间的合作的演讲的指纹(图9底部时间轴),包含更曲折的音调曲线和更密集的竖条。在调查了这两次演讲的原始音频和脚本之后,S1发现了两种不同的叙述风格:“谈论经济增长的演讲者并没有改变他的音调,因为他只是说明经济现象,主要使用说明和长句。相反,另一个使用更大的音调变化和更多的停顿,因为演讲者更情绪化,使用的是说明、开玩笑和讲故事的混合方式。”
不同的叙述策略
为了以句子级研究更详细的叙述策略(R3),E0使用重点+语境设计来探索关于数字农场的科技演讲。E0浏览了它的语境文本,发现短语“what if”在不同的句子中出现了几次。为了进一步调查,他点击了其中一个。然后重点句子切换到具有它的韵律特点的点击的句子(图10)。他注意到“what if”和后续词之间的空白区,表示有一个很长的停顿。记住这个模式,E0希望检查“what if”的其他出现的用法(R4),所以他查询了这个句子。查询结果的屏幕截图如图10/>所示。
参见图11,从查询结果中,E0注意到在短语“what if”之后有空白区,而在单个单词“if”出现之后没有出现这样的空白区。E0推断,“似乎演讲者每次说“whatif”时都会停顿。相反,当他说单个词语“if”时,他并没有停顿。这种模式可能表明使用了在短语whatif后沉默的独特策略。”在检查音频之后,E0验证了他的假设。“演讲者试图说明他关于数字农场的想法。他用短语“what if”和其后的沉默来强调这种科技的影响,并为观众的想象力提供空间。此外,停顿时长之间的细微差异防止了叙述听起来过于机械”,E0解释道,“这是这种叙述策略的一个很好的例子。然而,如果没有可视化的韵律特征帮助我,在听音频时,我可能会忽略这种模式。”
单词级语调策略
当探索重点的句子时,一些用户点击单词,特别是常用的单词,以检查其语调用法的概述(R5)。在这一过程中发现了几种模式。本文我们只报告两个例子。
第一个模式与单词“know”有关。大多数情况下,当贬低时,“don’t”和“didn’t”这两个单词出现在“know”单词之前(图11,左侧)。这意味着演讲者在表达负面概念时倾向于贬低单词“know”。第二种模式是关于“believe”这个单词。当强调“believe”时,通常后面跟“that”(图11,右侧)。它表明,单词“believe”通常在后面加上一个从句时被强调。
一般反馈
通常,本系统从我们的用户接收积极的反馈。他们提到该系统易于使用,并赞赏其在探索叙述策略方面的有效性。S1说:“韵律特征的可视化使得很容易在演讲中发现一些特别的东西,即使我没有听过该演讲。”E1还补充说:“在你们系统的帮助下,我忽略好样本的机会减少了。”但是他们也给了我们一些建议。E1说:“目前,我必须访问TED.com,找到原始的音频来验证我关于这个系统中识别的有趣韵律模式的假设。如果系统支持播放音频就更好了。”
在案例研究中,S0表示,该系统不仅可以用于公开演讲培训,还可以用于非母语人士的语言教学,甚至可以用于一般的语音分析。
本发明涉及一种用于分析叙述表现的系统,特别地但不排他地,涉及一种用于探索和理解大规模语音数据中的叙述策略的交互式可视化分析系统。该系统以多级细节显示从公开讲话中提取的韵律特征。它具有新颖的可扩展的重点+语境可视化设计,以同时呈现文本和韵律特征。通过对最终用户的深入案例研究,证明了该系统对实际数据集的有效性和实用性。
总体上,本发明提供以下中的一个或多个:
一个交互式的多级可视化分析系统,该系统帮助说话者探索和理解公开讲话中的各种韵律模式。
基于重点+语境技术的新颖且可扩展的可视化设计,以显示详细的句子级韵律特征。
基于实际数据集的案例分析,以评价提出的方法的有效性。
上述设备可以至少部分地在软件中实现。
本领域技术人员将理解,上述设备可以至少部分地使用通用计算机设备或使用定制设备来实现。
在此,本文描述的方法和设备的方面可以在包括通信系统的任何设备上执行。该技术的程序方面可以被认为是通常可执行代码和/或在一类机器可读介质上携带或体现的关联数据形式的“产品”或“制品”。“存储”型介质包括移动站、计算机、处理器等的任一或所有存储器或其相关模块,例如各种半导体存储器、磁带驱动器、磁盘驱动器等,其可以在任何时间为软件编程提供存储。软件的全部或部分有时可以通过因特网或各种其它电信网络进行通信。这样的通信例如可以使得能够将软件从一个计算机或处理器加载到另一个计算机或处理器中。因此,可以承载软件元件的另一类型的介质包括光波、电波和电磁波,诸如通过有线和光纤固定电话网络以及在各种空中链路上跨本地设备之间使用的物理接口。携带这种波的物理元件,诸如有线或无线链路、光学链路等,也可以被认为是承载软件的介质。如本文中所使用,除非受限于有形非暂时性“存储”介质,否则例如计算机或机器“可读介质”等术语指代参与向处理器提供指令以供执行的任何介质。
虽然已经在附图和前面的描述中详细地说明和描述了本发明,但是应当认为本发明是示例性的而不是限制性的,应当理解,仅示出和描述了示例性实施例,并且不以任何方式限制本发明的范围。可以理解,本文描述的任何特征可以与任何实施例一起使用。示例性实施例并不彼此排斥或不排除本文中未叙述的其它实施例。因此,本发明还提供包括一个或多个上述示例性实施例的组合的实施例。在不脱离本发明的精神和范围的情况下,可以对本文所述的本发明进行修改和变化,因此,仅应施加如所附权利要求所指示的限制。
在随后的权利要求和本发明的前述描述中,除非上下文由于表达语言或必要含义而另外要求,否则以包含意义使用的词语“包括(comprise)”或变形诸如“包括(comprises)”或“包括(comprising)”即指定所述特征的存在,但不排除在本发明的各种实施例中其它特征的存在或添加。
应当理解,如果本文提及任何现有技术出版物,则这样的引用不构成承认该出版物形成本领域公知常识的一部分。

Claims (11)

1.一种处理音频信号的计算机实现的方法,包括以下步骤:
从所述音频信号中提取韵律特征;
利用源自所述音频信号或与所述音频信号相关联的脚本将提取的韵律特征校准;以及
利用所述校准的提取的韵律特征将所述脚本分割成第一类型的结构块,所述脚本的分割的所述第一类型的每个结构块包括构成所述脚本的分句、短语或句子的任意一个或任意组合;
其中,确定所述第一类型的第一结构块和所述第一类型的第二结构块中的每一个的距离测度,其中所述距离测度包括所述第一类型的所述第一结构块和所述第二结构块之间的相似性测度:
为第二类型的每个结构块分别提取词性标签,其中第二类型的每个结构块构成所述第一类型的所述第一结构块和所述第二结构块,以为所述第一类型的所述第一结构块和所述第二结构块的每一个形成相应词性序列,所述第二类型的每个结构块包括一元字母组、二元字母组和三元字母组中的任意一个或任意组合;以及
将所述相似性测度计算为所述第一类型的所述第一结构块的所述词性序列与所述第一类型的所述第二结构块的所述词性序列之间的编辑距离;其中所述相似性测度是根据以下等式确定的:
其中CSS1和CSS2分别包括从所述脚本导出的所述第一类型的所述第一结构块和所述第一类型的所述第二结构块,并且其中CSS(S1,S2)是计算出的所述相似性测度。
2.根据权利要求1所述的方法,其中所述音频信号包括人类语音的数字音频剪辑或从文本生成的计算机合成语音的数字音频剪辑。
3.根据权利要求1所述的方法,其中所述分割步骤将所述脚本和所述校准的提取的韵律特征同时分割成所述第一类型的所述结构块。
4.根据权利要求1所述的方法,其中从所述音频信号中提取所述韵律特征以形成具有预定义的、选择的或计算的采样率的时间序列。
5.根据权利要求4所述的方法,其中,在利用源自所述音频信号或与所述音频信号相关联的脚本将提取的韵律特征校准后,所述第二类型的每个结构块被标记以开始时间戳和结束时间戳中的一个或两个。
6.根据权利要求1所述的方法,其中使用Damerau-Levenshtein距离来计算源自所述脚本的所述第一类型的所述第一结构块的所述词性序列与所述第一类型的所述第二结构块的所述词性序列之间的所述编辑距离。
7.一种用于处理音频信号的系统,所述系统包括:
信号分析模块,用于从所述音频信号中提取韵律特征;
信号校准模块,用于利用源自所述音频信号或与所述音频信号相关联的脚本将提取的韵律特征校准;
脚本分割模块,用于利用提取的韵律特征将所述脚本分割成第一类型的结构块,所述第一类型的每个结构块包括分句、短语或句子的任意一个或任意组合;
存储器,存储机器可读指令;以及
处理器,被配置为执行所述机器可读指令以实现权利要求1所述的方法。
8.一种搜索语音数据集的计算机实现的方法,所述方法包括以下步骤:
从构成所述语音数据集的一部分的脚本接收包括第一类型的结构块的用户输入,所述第一类型的所述结构块包括构成所述脚本的分句、短语或句子的任意一个或任意组合;
为构成所述输入的所述第一类型的结构块的第二类型的每个结构块提取词性标签,以形成所述输入的所述第一类型的结构块的词性序列,所述第二类型的每个所述结构块包括一元字母组、二元字母组和三元字母组中的任意一个或任意组合;以及
将用于所述输入的所述第一类型的结构块的所述提取的词性序列与用于所述语音数据集中的所述第一类型的其他结构块的词性序列进行比较,从而识别所述语音数据集中具有与所述输入的所述第一类型的结构块相同或相似的词性的一个或多个所述第一类型的其他结构块;其中所述比较步骤包括计算距离测度,所述距离测度包括作为所述输入的所述第一类型的结构块的所述词性序列与所述语音数据集中的所述第一类型的所述其它结构块的所述词性序列之间的编辑距离的相似性测度,以及使用所述计算的编辑距离来识别所述语音数据集中具有与所述输入的所述第一类型的结构块相同或相似的词性序列的一个或多个所述第一类型的所述其他结构块;
其中所述输入的所述第一类型的结构块与所述语音数据集中的一个或多个所述第一类型的所述其他结构块中的每一个之间的所述相似性度量是根据以下等式确定的:
其中CSS1和CSS2分别包括从所述脚本导出的所述输入的所述第一类型的结构块和所述语音数据集中的一个或多个所述第一类型的所述其他结构块中的每一个,并且其中CSS(S1,S2)是计算出的所述相似性测度。
9.根据权利要求8所述的方法,其中识别所述语音数据集中具有与输入的所述第一类型的结构块相同或相似的词性序列的一个或多个所述第一类型的其它结构块的步骤识别它们相关联的脚本或语音。
10.根据权利要求9所述的方法,其中一个或多个识别的相关联的脚本或语音可用于语音重放或语音合成模块或系统,以向用户音频播放所述相关联的脚本或语音的所有部分。
11.根据权利要求8所述的方法,其中使用Damerau-Levenshtein距离来计算输入的所述第一类型的结构块的词性序列与所述语音数据集中的一个或多个所述第一类型的其他结构块中的每一个之间的编辑距离。
CN202010106462.7A 2019-02-21 2020-02-21 一种语音分析的系统和方法 Active CN111739556B (zh)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US201962808372P 2019-02-21 2019-02-21
US62/808,372 2019-02-21
US16/707,073 US11282508B2 (en) 2019-02-21 2019-12-09 System and a method for speech analysis
US16/707,073 2019-12-09

Publications (2)

Publication Number Publication Date
CN111739556A CN111739556A (zh) 2020-10-02
CN111739556B true CN111739556B (zh) 2023-12-15

Family

ID=69468365

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010106462.7A Active CN111739556B (zh) 2019-02-21 2020-02-21 一种语音分析的系统和方法

Country Status (3)

Country Link
US (1) US11282508B2 (zh)
EP (2) EP4270215A3 (zh)
CN (1) CN111739556B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11335360B2 (en) * 2019-09-21 2022-05-17 Lenovo (Singapore) Pte. Ltd. Techniques to enhance transcript of speech with indications of speaker emotion
TWI807428B (zh) * 2020-09-23 2023-07-01 南韓商納寶股份有限公司 一同管理與語音檔有關的文本轉換記錄和備忘錄的方法、系統及電腦可讀記錄介質
CN114386406B (zh) * 2020-10-16 2024-04-09 腾讯科技(深圳)有限公司 一种文本处理方法、装置、计算机设备及存储介质
CN112634902A (zh) * 2020-12-11 2021-04-09 天津讯飞极智科技有限公司 语音转写方法、装置、录音笔和存储介质
CN113658599A (zh) * 2021-08-18 2021-11-16 平安普惠企业管理有限公司 基于语音识别的会议记录生成方法、装置、设备及介质
CN115482833A (zh) * 2022-09-13 2022-12-16 中国银行股份有限公司 语音可视化方法及装置
CN115602195B (zh) * 2022-12-12 2023-04-04 杭州兆华电子股份有限公司 一种汽车后视镜电机转动异响测试的方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6636238B1 (en) * 1999-04-20 2003-10-21 International Business Machines Corporation System and method for linking an audio stream with accompanying text material
EP2079234A2 (en) * 2008-01-09 2009-07-15 Sony Corporation Video searching apparatus, editing apparatus, video searching method, and program

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7490092B2 (en) * 2000-07-06 2009-02-10 Streamsage, Inc. Method and system for indexing and searching timed media information based upon relevance intervals
US7398274B2 (en) * 2004-04-27 2008-07-08 International Business Machines Corporation Mention-synchronous entity tracking system and method for chaining mentions
US8966389B2 (en) * 2006-09-22 2015-02-24 Limelight Networks, Inc. Visual interface for identifying positions of interest within a sequentially ordered information encoding
US8401849B2 (en) * 2008-12-18 2013-03-19 Lessac Technologies, Inc. Methods employing phase state analysis for use in speech synthesis and recognition
US9514109B2 (en) * 2012-01-12 2016-12-06 Educational Testing Service Computer-implemented systems and methods for scoring of spoken responses based on part of speech patterns
US9570065B2 (en) * 2014-09-29 2017-02-14 Nuance Communications, Inc. Systems and methods for multi-style speech synthesis
US10445822B2 (en) * 2016-03-24 2019-10-15 Autodata Solutions, Inc. System and method for generating and supplying viewer customized multimedia presentations
US10713432B2 (en) * 2017-03-31 2020-07-14 Adobe Inc. Classifying and ranking changes between document versions
US20180315428A1 (en) * 2017-04-27 2018-11-01 3Play Media, Inc. Efficient transcription systems and methods

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6636238B1 (en) * 1999-04-20 2003-10-21 International Business Machines Corporation System and method for linking an audio stream with accompanying text material
EP2079234A2 (en) * 2008-01-09 2009-07-15 Sony Corporation Video searching apparatus, editing apparatus, video searching method, and program

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Improving English-Russian sentence alignment through POS tagging and Damerau-Levenshtein distance;Andrey Kutuzov;《Proceedings of the 4th Biennial International Workshop on Balto-Slavic Natural Language Processing》;第63-68页 *

Also Published As

Publication number Publication date
EP4270215A2 (en) 2023-11-01
EP3699777A2 (en) 2020-08-26
CN111739556A (zh) 2020-10-02
EP4270215A3 (en) 2023-11-29
US20200273450A1 (en) 2020-08-27
US11282508B2 (en) 2022-03-22
EP3699777A3 (en) 2020-12-30

Similar Documents

Publication Publication Date Title
CN111739556B (zh) 一种语音分析的系统和方法
Cole et al. New methods for prosodic transcription: Capturing variability as a source of information
Feraru et al. Cross-language acoustic emotion recognition: An overview and some tendencies
US8027837B2 (en) Using non-speech sounds during text-to-speech synthesis
US8036894B2 (en) Multi-unit approach to text-to-speech synthesis
MX2014002537A (es) Sistemas y metodos para el aprendizaje de idiomas.
Ito et al. Using interactive tasks to elicit natural dialogue
Gibbon Prosody: The rhythms and melodies of speech
Riesberg et al. Using Rapid Prosody Transcription to probe little-known prosodic systems: The case of Papuan Malay
Szekrényes Annotation and interpretation of prosodic data in the hucomtech corpus for multimodal user interfaces
US20190088258A1 (en) Voice recognition device, voice recognition method, and computer program product
Kabashima et al. Dnn-based scoring of language learners’ proficiency using learners’ shadowings and native listeners’ responsive shadowings
KR20140078810A (ko) 언어 데이터 및 원어민의 발음 데이터를 이용한 리듬 패턴 학습장치 및 방법
KR20140087956A (ko) 단어 및 문장과 이미지 데이터 그리고 원어민의 발음 데이터를 이용한 파닉스 학습장치 및 방법
Seljan et al. Automatic word-level evaluation and error analysis of formant speech synthesis for Croatian
EP4033487A1 (en) Method and system for measuring the cognitive load of a user
JP2006284645A (ja) 音声再生装置およびその再生プログラムならびにその再生方法
KR20140087950A (ko) 언어 데이터 및 원어민의 발음 데이터를 이용한 리듬 패턴 학습장치 및 방법
KR20140079245A (ko) 언어 데이터 및 원어민의 발음 데이터를 이용한 리듬 패턴 학습장치 및 방법
Lahoz-Bengoechea et al. Subsidia: Tools and Resources for Speech Sciences
JP2009075526A (ja) 音声合成利用の総合的英語学習システム
JP2006302149A (ja) 日本語入力装置
KR20140087955A (ko) 이미지 데이터 및 원어민의 발음 데이터를 이용한 영어 전치사 학습장치 및 방법
Barnett A Markedly Different Approach: Investigating PIE Stops Using Modern Empirical Methods
Alsabaan Pronunciation support for Arabic learners

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant