CN117940993A

CN117940993A - 语音信号处理装置、语音信号再现系统以及用于输出去情感化语音信号的方法

Info

Publication number: CN117940993A
Application number: CN202280060159.5A
Authority: CN
Inventors: 詹斯·埃克哈特·阿佩尔; 扬·雷尼斯-霍赫穆特; 马蒂亚斯·布鲁克
Original assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Current assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date: 2021-08-02
Filing date: 2022-08-01
Publication date: 2024-04-26
Also published as: WO2023012116A1; DE102021208344A1; US20240169999A1; EP4381498A1

Abstract

本发明涉及一种用于实时或在经过一段时间之后输出去情感化语音信号(120)的语音信号处理装置(100)。语音信号处理装置(100)包括用于检测语音信号(110)的语音信号检测装置(10)，该语音信号(110)包括至少一条情感信息(12)或至少一条词语信息(14)。语音信号处理装置(100)附加地包括：分析装置(20)，用于针对至少一条情感信息(12)和至少一条词语信息(14)分析语音信号(110)；处理装置(30)，用于将语音信号(110)分离为至少一条词语信息(14)和至少一条情感信息(12)，并且用于处理语音信号(110)；以及耦合装置(40)和/或回放装置(50)，用于将语音信号(110)回放为包括至少一条情感信息(12)和/或至少一条词语信息(14)的去情感化语音信号(120)，该至少一条情感信息(12)已经被转换为附加一条词语信息(14′)。本发明还涉及一种语音信号回放系统(200)、一种用于实时或在经过一段时间之后输出去情感化语音信号(120)的方法(300)、以及一种计算机可读存储器介质。

Description

语音信号处理装置、语音信号再现系统以及用于输出去情感化语音信号的方法

技术领域

本发明涉及一种用于实时或在一段时间之后输出去情感化语音信号的语音信号处理装置、语音信号再现系统、用于实时或在一段时间之后输出去情感化语音信号的方法、以及计算机可读存储介质。

背景技术

迄今为止，还没有可以解决基于语音的通信的重大问题的已知技术系统。该问题在于口语总是富含所谓的超片段特征(SF)，例如语调、语速、语音中停顿的持续时间、强度或音量等。语言的不同方言也可以导致口语的发音不同，这可能给外人带来理解问题。一个示例是北德方言与南德方言的比较。语言的超片段特征是一种以音韵方式指示感受、障碍和个体特定特征的音韵特性(也参见维基百科关于“超片段特征”)。这些SF具体地向听者发送情感，但也发送改变内容的方面。然而，并不是所有人都能够以合适的方式处理这些SF或正确地解释它们。

例如，对于患有自闭症的人，了解其他人的情感要明显困难得多。这里，为了简单起见，以非常普遍的方式使用术语自闭症。事实上，自闭症存在不同的形式和程度(也被称为自闭症谱)。然而，为了理解本发明，不必对此进行区分。不仅情感而且经由SF嵌入语言中的内容的变化通常对于他们而言无法辨别和/或令他们感到困惑，直到他们拒绝经由语言进行沟通和使用备选方案，例如书面语言或图片卡。

文化差异或外语沟通也可能限制从SF获取信息或者可以导致误解。此外，扬声器所在的情况(例如，消防员直接在火源处)可能导致非常充满情感的通信(例如，带有操作命令)，这使得应对该情况变得更加困难。类似问题也存在于一种特别复杂的制订语言中，该制订语言仅对于具有认知障碍的人而言难以理解，其中SF可能使得理解变得更加困难。

该问题已经以不同的方式面对，或者根本没有得到解决。对于自闭症患者，使用不同的备选沟通方式(仅基于文本的交互，例如通过在平板计算机上写入信息、使用图片卡等)。对于认知障碍，部分地使用所谓的“简单语言”，例如在书面通知或特定新闻节目中。迄今为止，还没有如下已知解决方案：实时改变口语，使得上述目标组能够理解该口语。

发明内容

本发明的一个目的在于提供一种语音信号处理装置、语音信号再现系统、以及能够实时输出口语的去情感化语音信号的方法。

该目的通过独立权利要求的主题来解决。

本发明的核心思想在于提供将提供有SF并且可能以特别复杂方式制订的语音信号转换为完全或部分地从SF特征释放的并且可能以简化方式制订的语音信号，以用于支持针对某些听者组、个体听者或特定聆听情况的基于语音的通信。所提出的解决方案是一种语音信号处理装置、一种语音信号再现系统、以及一种离线或实时地从分别或若干个SF释放语音信号并将该释放的信号提供给收听者或者以合适的方式存储该释放的信号以用于稍后收听的方法。这里，情感的消除可能是显著特征。

提出了一种用于实时或在一段时间之后输出去情感化语音信号的语音信号处理装置。语音信号处理装置包括用于检测语音信号的语音信号处理装置。语音信号包括至少一条情感信息和至少一条词语信息。另外，语音信号处理装置包括：分析装置，用于针对至少一条情感信息和至少一条词语信息分析语音信号；处理装置，用于将语音信号划分为至少一条词语信息和至少一条情感信息；以及耦合装置和/或再现装置，用于将语音信号再现为去情感化语音信号，该去情感化语音信号包括至少一条情感信息和/或至少一条词语信息，该至少一条情感信息被转换为其他词语信息。该至少一条词语信息也可以被认为是至少一条第一词语信息。该其他词语信息可以被认为是第二词语信息。这里，只要将情感信息转录为词语信息，就可以将情感信息转录为第二词语信息。这里，术语信息与术语信号同义地使用。情感信息包括超分段特征。优选地，该至少一条情感信息包括一个或若干个超分段特征。如所提出的，所检测到的情感信息或者根本不被再现，或者情感信息与原始词语信息一起也被再现为第一词语信息和第二词语信息。由此，只要将情感信息再现为其他的词语信息，收听者就可以毫无问题地理解情感信息。然而，如果情感信息不提供任何显著信息贡献，则也可以从语音信号中减去情感信息并且仅再现原始(第一)条词语信息。这里，由于分析装置被配置为识别所检测到的语音信号的哪一部分描述了词语信息以及所检测到的语音信号的哪一部分描述了情感信息，因此分析装置也可以被称为识别系统。此外，分析装置可以被配置为标识不同的扬声器。这里，去情感化语音信号意指完全或部分地从情感释放的语音信号。因此，去情感化语音信号具体地仅包括第一词语信息和/或第二词语信息，其中，一条或若干条词语信息可以基于情感信息。例如，利用机器人话音的语音合成可以导致完全消除情感。例如，还可以生成愤怒的机器人话音。语音信号中的情感的部分减少可以通过直接操纵语音音频材料来执行，例如通过减少电平动态、减少或限制基频、改变语速、改变语言的频谱内容和/或改变语音信号的韵律等。

语音信号还可以源自音频流(音频数据流)，例如电视、收音机、播客、音频书。更接近意义上的语音信号检测装置可以被认为是“麦克风”。另外，语音信号检测装置可以被认为是允许使用例如来自上述源的一般语音信号的装置。

所提出的语音信号处理装置的技术实现基于分析装置对输入语音(语音信号)的分析，例如识别系统(例如，神经元网络、人工智能等)，该分析装置或者已经学习基于训练数据的到目标信号的转录(端到端转录)或基于所检测到的情感的基于规则的转录，这些情感本身也可以在个体间或个体内教导给识别系统。

两个或更多个语音信号处理装置形成语音信号再现系统。通过语音信号再现系统，例如，提供语音信号的扬声器可以向两个或若干个听者实时提供单独适配的去情感化语音信号。这种情况的一个示例是在学校上课或在导游的引导下参观博物馆等。

本发明的另一方面涉及一种用于实时或在一段时间之后输出去情感化语音信号的方法。该方法包括检测语音信号，该语音信号包括至少一条词语信息和至少一条情感信息。例如，演讲者可以在一组听者面前实时提供语音信号。该方法还包括针对至少一条词语信息和至少一条情感信息分析该语音信号。必须针对其词语信息和情感信息检测语音信号。该至少一条情感信息包括至少一个超分段特征，该超分段特征将被转录为其他(具体地，第二)词语信息。因此，该方法包括：将语音信号划分为至少一条词语信息和至少一条情感信息，并且将语音信号再现为去情感化语音信号，该去情感化语音信号包括被转录为其他词语信息的至少一条情感信息和/或包括至少一条词语信息。

出于冗余原因，不再重复关于语音信号处理装置的术语的解释。然而，显然这些术语的解释类似地适用于该方法，反之亦然。

本文描述的技术教导的核心是：识别SF中包括的信息(例如，还有情感)，并且该信息以口头或书面或图画的方式插入到输出信号中。例如：扬声器以非常兴奋的方式说“你拒绝接近我真是胆大妄为”可以被转录为“由于......胆大妄为，我很沮丧”。

本文公开的技术教导的一个优点在于：通过标识对于用户而言严重干扰的SF，将语音信号处理装置/方法单独地与用户匹配。由于个体对SF的严重程度和敏感性可能强烈地变化，这对于患有自闭症的人特别重要。例如，可以经由用户界面通过密切相关的人(例如，父母)的直接反馈或输入或者通过神经生理学测量(例如，心率变异性(HRV)或EEG)来确定个体敏感性。神经生理学测量已经在科学研究中被标识为用于由声学信号引起的压力、劳累或积极/消极情感的感知的标记，因此基本上可以用于确定SF和与上述检测器系统连接的个体障碍之间的连接。在确定这种连接之后，语音信号处理装置/方法可以减少或抑制各个特别干扰SF比例，而其他SF比例不被处理或以不同的方式被处理。

如果不直接操纵该语音，而是在没有SF的情况下“人工地”(即，以端到端方法)生成语音，则可以基于相同信息将所容忍的SF比例添加到该无SF信号中，和/或可以生成可以支持理解的特定SF比例。

本文公开的技术教导的另一优点是：除了SF部分的修改之外，去情感化信号的再现还可以适配收听者的听觉需要。例如，已知患有自闭症的人对于良好语音可理解性具有特定要求，并且例如由于录音中包括的干扰噪音，很容易从该语音信息分心。这可以例如通过干扰噪音减少来减少，其在程度方面可能是个性化的。此外，当处理语音信号时(例如，通过助听器中使用的非线性频率相关放大)可以补偿个体听力障碍，或者附加地将由SF部分减少的语音信号处理为通用的、非单独匹配的处理，这例如提高话音的清晰度或抑制干扰噪音。

本技术教导的一个具体潜力是在与患有自闭症的人和讲外语的人的沟通中的使用。将本文描述的语音信号自动转录为从FS比例释放的或在其FS比例方面进行修改和/或将SF比例中包括的信息映射到内容的新语音信号的方法是具有实时能力的，其缓解并改善与患有自闭症的人和/或讲外语的人或充满情感的沟通场景中的人(消防队、军队、警报激活)或具有认知障碍的人的沟通。

附图说明

本发明的有利实现是从属权利要求的主题。下面将参考附图讨论本发明的优选实施例。他们示出为：

图1是语音信号处理装置的示意性图示；

图2是语音信号再现系统的示意性图示；以及

图3是提出的方法的流程图。

具体实施方式

下面将在图1至图3中描述本文描述的本发明的各个方面。结合图1至图3来示出本发明的原理。在本申请中，相同的附图标记涉及相同或相等的元件，其中，并非所有附图标记都在所有附图中再次示出，只要附图标记本身重复即可。

本申请中提供的对所有术语的说明都可以应用于所提出的语音信号再现系统和所提出的方法两者。术语的说明不连续重复，以尽量防止冗余。

图1示出了用于实时或在一段时间之后输出去情感化语音信号120的语音信号处理装置100。语音信号处理装置100包括语音信号检测装置10，用于检测包括至少一条情感信息12和至少一条词语信息14的语音信号110。另外，语音信号处理装置100还包括分析装置20，用于针对至少一条情感信息12和至少一条词语信息14分析语音信号110。因为分析装置被配置为当语音信号110包括至少一条情感信息12和至少一条词语信息14时识别语音信号110的至少一条情感信息12和至少一条词语信息14，因此分析装置20也可以被称为识别系统。此外，语音信号处理装置100还包括处理装置30，用于将语音信号110划分为至少一条词语信息14和至少一条情感信息12，并且用于处理语音信号110。当处理语音信号110时，将情感信息12转录为其他(具体地，第二)词语信息14′。情感信息12例如是超分段特征。另外，语音信号处理装置100包括耦合装置40和/或再现装置50，用于将语音信号110再现为去情感化语音信号120，该去情感化语音信号120将至少一条情感信息12转换为其他词语信息14′，和/或包括至少一条词语信息14。可以实时将该条情感信息12作为其他词语信息14’再现给用户。由此，可以补偿(具体地，防止)用户的理解问题。

当学习外语时，为了理解方言或为了具有认知限制的人，所提出的语音信号处理装置100可以以有利的方式简化通信。

优选地，语音信号处理装置100包括存储装置60，该存储装置60存储去情感化语音信号120和/或所检测到的语音信号110，以在任何时间再现去情感化语音信号120，具体地，若干次而不是仅单次将所存储的语音信号110再现为去情感化语音信号120。存储装置60是可选的。在存储装置60中，可以存储已经被检测到的原始语音信号110以及已经被去情感化的语音信号120两者。由此，可以重复地再现(具体地，重放)去情感化语音信号120。因此，用户可以首先实时再现去情感化语音信号120，并且可以在稍后时间再次再现去情感化语音信号120。例如，用户可以是在具有原位再现的去情感化语音信号120的学校的学生。当在校外修改教材时(即，在稍后时间)，学生可以在需要时再次再现去情感化语音信号120。由此，语音信号处理装置100可以支持用户的学习成功。

存储语音信号110对应于存储所检测到的原始信号。然后可以稍后以去情感化的方式再现所存储的原始信号。去情感化过程可以稍后发生，然后可以实时再现去情感化过程。可以稍后发生语音信号110的分析和处理。

此外，可以对语音信号110进行去情感化，并且将其存储为去情感化信号120。然后，可以稍后再现(具体地，重复地再现)所存储的去情感化信号120。

取决于存储装置60的存储容量，还可以存储语音信号110和所分配的去情感化信号120，以稍后再现两个信号。例如，当在所检测到的语音信号和随后存储的去情感化信号120之后要修改个体用户设置时，这可能是有用的。用户可能对实时去情感化的语音信号120不满意，使得用户或另一人对去情感化信号120的后处理似乎是有用的，使得可以考虑去情感化信号120的后处理来对未来检测到的语音信号进行去情感化。从而，随后可以适配根据用户的个人需要对语音信号120进行去情感化。

优选地，处理装置30被配置为：识别情感信息12中包括的语音信息14并将其翻译为去情感化语音信号120，并且将去情感化语音信号120传递给再现装置50以用于再现装置50再现，或者将去情感化语音信号120传递给被配置为连接到外部再现装置(未示出)的耦合装置40(具体地，智能电话或平板计算机)以发送去情感化信号120以用于去情感化信号120的再现。因此，一个且相同的语音信号再现装置100能够通过语音信号再现装置100的集成再现装置50来再现去情感化信号120，或者语音信号再现装置100能够通过耦合装置40向外部再现装置50发送去情感化信号120以在外部再现装置50处再现去情感化信号120。当向外部再现设备50发送去情感化信号120时，可以向多个外部再现设备50发送去情感化信号120。

另外，可以通过耦合装置向多个外部语音信号处理装置100发送语音信号110，其中，每个语音信号处理装置100根据语音信号处理装置100的相应用户的个体需要对所接收到的语音信号100进行去情感化，并且针对相应用户将其再现为去情感化语音信号120。为此，例如在学校班级中，可以针对每个学生再现适配他或她的需要的去情感化信号120。由此，可以通过满足个人需求来提高学校班级学生的学习成功率。

优选地，分析装置20被配置为分析语音信号110中的干扰噪声和/或情感信息12，并且处理装置30被配置为从语音信号110中去除所分析的干扰噪声和/或情感信息12。如例如图1所示，分析装置20和处理装置30可以是两个不同的装置。然而，分析装置20和处理装置30也可以由单个装置来提供。使用语音信号处理装置100以再现去情感化语音信号120的用户可以根据他或她的个人需要将噪声标记为干扰噪声，然后语音信号处理装置100可以自动去除该干扰噪声。另外，处理装置可以从语音信号110中去除对词语信息14没有实质贡献的情感信息12。用户可以根据他或她的需要对对该条词语信息14没有显著贡献的情感信息12进行标记。

如图1所示，不同的装置10、20、30、40、50、60可以进行通信交换(参见虚线箭头)。不同装置10、20、30、40、50、60的彼此有用的通信交换也是可能的。

优选地，再现装置50被配置为在没有该条情感信息12或具有被转录为其他词语信息14′的该条情感信息12和/或具有新印象的情感信息12′的情况下再现去情感化语音信号120。当再现去情感化信号120时，用户可以根据他或她的个人需要决定或标记哪种类型的有印象的情感信息12′可以提高对去情感化信号120的理解。另外，用户可以决定或标记要从去情感化信号120中去除哪种类型的情感信息12。这还可以提高用户对去情感化信号120的理解。另外，用户可以决定或标记哪种类型的情感信息12要被转录为其他(具体地，第二)词语信息14′，以将其并入去情感化信号120中。因此，用户可以根据他或她的个人需要来影响去情感化信号120，使得去情感化信号120最大程度地为用户所理解。

优选地，再现装置50包括扬声器和/或显示器，用于再现去情感化语音信号120，具体地以简化语言，通过人工话音和/或通过显示计算机编写的文本和/或通过生成并显示图片卡符号和/或通过符号语言的动画来再现去情感化语音信号120。再现装置50可以具有由用户优选的任何配置。可以在再现装置50处再现去情感化语音信号120，使得用户以最佳可能的方式理解去情感化语音信号120。例如，还可以将去情感化语音信号120翻译为作为用户的母语的外语。另外，可以以简化语言再现去情感化语音信号，这可以提高用户对语音信号110的理解。

下面是如何基于情感语音材料来生成简化语言并且不仅使用情感而且还使用语调(或发音中的强调)来以简化语言再现去情感化语音信号的一个示例：当某人以非常愤怒的方式说话并发出语音信号110“你不能对我这么说”时，语音信号110将例如被以下去情感化语音信号120替代：“我很愤怒，因为你不能对我这么说”。在那种情况下，处理装置30会将扬声器“非常愤怒”所依据的情感信息12转录为其他的词语信息14′“我很愤怒”。

优选地，处理装置30包括神经元网络，该神经元网络被配置为基于训练数据或基于以规则为基础的转录将情感信息12转录为其他的词语信息14′。使用神经网络的一个选项是端到端转录。例如，在基于规则的转录中，可以使用字典的内容。当使用人工智能时，语音信号处理装置100可以基于由用户预定的训练数据来学习用户的需求。

优选地，语音信号处理装置100被配置为：使用第一上下文信息和/或第二上下文信息基于第一上下文信息来检测语音信号处理装置100的当前位置坐标，和/或基于第二上下文信息来设置用于在语音信号处理装置100处进行转录的关联预先设置。语音信号处理装置100可以包括GPS单元(附图中未示出)和/或扬声器识别系统，其被配置为：检测语音信号处理装置100的当前位置坐标，和/或识别表达语音信号110的扬声器，并且基于所检测到的当前位置坐标和/或扬声器信息来设置用于在语音信号处理装置100处进行转录的关联预先设置。第一上下文信息可以包括检测语音信号处理装置100的当前位置坐标。第二上下文信息可以包括标识扬声器。可以通过扬声器识别系统来检测第二上下文信息。在标识扬声器之后，处理语音信号110可以适于所标识的扬声器，具体地，可以调整与所标识的扬声器相关联的预先设置来处理语音信号110。预先设置可以包括例如在语音合成的情况下针对不同扬声器分配不同的话音，或者在学校处进行非常强的去情感化，但在家里对语音信号110进行不太强的去情感化。因此，当处理语音信号110时，语音信号处理装置100可以使用附加(具体地，第一和/或第二)上下文信息，例如指示当前位置的位置数据(如GPS)或标识扬声器并以扬声器相关方式适配该处理的扬声器识别系统。当标识不同的扬声器时，语音信号处理装置100能够将不同的话音关联到不同的扬声器。具体地由于其他学生普遍存在的背景声音，因此这在语音合成的情况下或者对于学校处的非常强的去情感化是有利的。然而，在家庭环境中，可能需要对语音信号110进行较少的去情感化。

具体地，语音信号处理装置100包括信号交换单元(仅在图2中由虚线箭头来表示)，该信号交换单元被配置为通过一个或若干个其他语音信号处理装置100-1至100-6(具体地，通过无线电或蓝牙或LiFi(光保真))执行所检测到的语音信号110的信号传输。可以发生从点到多点的信号传输(见图2)。然后，语音信号处理装置100-1至100-6中的每一个可以再现特别适于相应用户的需要的去情感化信号120-1、120-2、120-3、120-4、120-5、120-6。换言之，语音信号处理装置100-1至100-6中的每个语音信号处理装置可以将一个且相同的所检测到的语音信号110转录为不同的去情感信号120-1至120-6。在图2中，以单向方式示出了语音信号110的传输。例如，在学校处适合语音信号110的这种单向传输。也可以在若干个语音信号处理装置100-1至100-6之间以双向方式发送语音信号110。由此，例如，可以使语音信号处理装置100-1至100-6的用户之间的通信变得更容易。

优选地，语音信号处理装置100包括用户界面70，该用户界面70被配置为根据由用户设置的偏好将至少一条情感信息12划分为不期望的情感信息和/或中性情感信息和/或积极情感信息。优选地，该用户接口以通信方式连接到装置10、20、30、40、50、60中的每一个。由此，装置10、20、30、40、50、60中的每一个可以由用户经由用户接口70来控制，并且可能进行用户输入。

例如，语音信号处理装置100被配置为：将所检测到的至少一条情感信息12分类为不同干扰质量的类别，具体地，具有例如以下分配的类别：类别1“严重干扰”、类别2“干扰”、类别3“干扰较轻”、以及类别4“根本不干扰”；以及减少或抑制已经被分类为类别1“严重干扰”或类别2“干扰”之一的所检测到的至少一条情感信息(12)，和/或将已经被分类为类别3“干扰较轻”或类别4“根本不干扰”之一的所检测到的至少一条情感信息(12)添加到去情感化语音信号(120)，和/或将生成的情感信息(12′)添加到去情感化信号(120)，以便支持用户对去情感化语音信号(120)的理解。其他形式的检测也是可能的。这里，该示例仅是为了指示如何对情感信息12进行分类的可能性。此外，应当注意，这里生成的情感信息12′对应于有印象的情感信息12′。还可以将检测到的情感信息12分类为多于或少于四个类别。

优选地，语音信号处理装置100包括传感器80，该传感器80被配置为在与用户接触期间标识用户的不期望的和/或中性的和/或积极的情感信号。具体地，传感器80被配置为测量生物信号，例如以执行神经生理学测量或捕获并评估用户的图像。传感器可以通过相机或视频系统来实现，通过该相机或视频系统来捕获用户以便分析他或她相对于由用户感知的语音信号110的模仿。传感器可以被认为是神经接口。具体地，传感器80被配置为测量血压、皮肤电导值等。具体地，当例如传感器80在不期望的情感信息12期间检测到用户血压的增加时，用户可以主动标记不期望的情感信息。此外，传感器12还可以确定用户的积极情感信息12，即具体地，当由传感器80测量的血压在该条情感信息12期间未改变时。关于积极或中性情感信息12的信息可能提供用于处理语音信号112或用于训练分析装置20或用于去情感化语音信号120的合成等的重要输入量。

优选地，语音信号处理装置100包括补偿装置90，该补偿装置90被配置为具体地通过去情感化语音信号120的非线性和/或频率相关放大来补偿与用户相关联的个体听力障碍。由于去情感化语音信号120的放大(具体地，以非线性和/或频率相关方式的放大)，因此尽管个体听力障碍，但仍然可以为用户再现去情感化语音信号120。

图2示出了包括两个或更多个如本文所述的语音信号处理装置100-1至100-6的语音信号再现系统200。例如学校教学期间可以应用这种语音信号再现系统200。例如，教师可以对检测语音信号110的语音信号处理装置100-1讲话。然后，经由语音信号处理装置100-1的耦合装置40(参见图1)，可以建立连接，具体地，与语音信号处理装置100-2至100-6的相应耦合装置的连接，该相应耦合装置同时向语音信号处理装置100-2至100-6发送所检测到的语音信号110。然后，语音信号处理装置100-2至100-6中的每一个可以如上所述地分析所接收到的语音信号110，并且以用户个人的方式将其转录为去情感化信号120并针对用户再现该去情感化信号120。可以经由无线电、蓝牙、LiFi等发生从一个语音信号处理装置100-1到另一语音信号处理装置100-2至100-6的语音信号传输。

图3示出了用于实时或在一段时间之后输出去情感化语音信号120的方法300。方法300包括检测语音信号110的步骤310，该语音信号110包括至少一条词语信息14和至少一条情感信息12。情感信息12包括至少一个超分段特征，该超分段特征可以被转录为其他词语信息14′或者可以从语音信号110中减去。在任何情况下，都会产生去情感化信号120。要检测的语音信号可以是人在原位所说的语言，或者可以由媒体文件、无线电或被重放的视频来生成。

在后续步骤320中，针对至少一条词语信息14和至少一条情感信息12分析语音信号110。为此，分析装置30被配置为检测所检测到的语音110的哪个语音信号部分将被分配给词语信息14以及所检测到的语音信号110的哪个语音信号部分将被分配给情感信息12(即具体地，情感)。

在分析的步骤320之后，接着步骤330。步骤330包括：将语音信号110划分为至少一条词语信息14和至少一条情感信息14，并且处理语音信号110。为此，可以提供处理装置40。处理装置可以集成在分析装置30中，或者可以是独立于分析装置30的装置。在任何情况下，分析装置30和处理装置耦合，使得在对词语信息14和情感信息12进行分析之后，将这两条信息12、14划分为两个信号。处理装置还被配置为将情感信息12(即，情感信号)翻译或转录为其他词语信息14′。另外，处理装置40被配置为备选地从语音信号110中去除情感信息12。在任何情况下，处理装置都被配置为将语音信号110转变为去情感化语音信号120，该语音信号110是词语信息14和情感信息12之和或叠加。优选地，去情感化语音信号120具体地仅包括第一词语信息14和第二词语信息14′或者词语信息14、14’以及一条或若干条情感信息12，其已经被分类为可允许的(具体地，用户可接受的或不干扰的)。

最后，存在步骤340，根据该步骤，将语音信号110再现为去情感化语音信号120，该去情感化语音信号120包括至少一条情感信息12和/或包括至少一条词语信息14，该至少一条情感信息12被转换为其他词语信息14′。

通过所提出的方法300或通过所提出的语音信号再现设备100，可以实时或者在一段时间之后(即，在稍后时间处)，针对用户将原位检测到的语音信号110再现为去情感化语音信号120，其结果是，原本可能在理解语音信号110方面存在问题的用户可以基本上没有任何问题地理解去情感化语音信号120。

优选地，方法300包括：存储去情感化语音信号120和/或所检测到的语音信号110；以及在任何时间再现去情感化语音信号120和/或所检测到的语音信号120。当存储语音信号110时，例如，存储词语信息14和情感信息12，其中，存储去情感化语音信号120，例如存储词语信息14和被转录为另外词语信息14’的情感信号12。例如，用户或另一人可以再现语音信号110，并且具体地收听该语音信号110，并且可以将其与去情感化语音信号120进行比较。对于情感信息尚未以完全合适的方式转录为其他词语信息14′的情况，用户或另一人可以改变并且具体地纠正所转录的其他词语信息14′。当使用人工智能(AI)时，可以学习将用户的情感信息12正确地转录为其他词语信息14′。例如，AI还可以学习哪些情感信息12不干扰用户或者甚至以积极的方式触动他，或者对于用户似乎是中性的。

优选地，方法300包括识别语音信号110中的至少一条情感信息12；以及针对可能将至少一条情感信号12转录为n条不同的另外(具体地，第二)词语信息14′来分析至少一条情感信息12，其中，n是大于或等于1的自然数，并且n指示将至少一条情感信息12适当地转录为至少一条其他的词语信息14′的选项的数量；以及将至少一条情感信息12转录为n条不同的另外词语信息14′。例如，可以将语音信号110中的内容改变SF转录为n条不同改变的内容。例如：取决于强调，语句“你今天正在开车去奥尔登堡吗？可以被不同地理解。如果强调“你正在开车吗”，则将预期如“不，我要飞往奥尔登堡”的答案，然而，如果强调“你”，则将预期如“不，不是我而是同事正在开车去奥尔登堡”的答案。在第一种情况下，转录可能是“你今天将在奥尔登堡，你将开车去那里吗？”。取决于强调，不同的第二词语信息14′可以从单条情感信息12产生。

优选地，方法300包括通过用户界面70来标识用户不期望的和/或中性的和/或积极的情感信息。语音信号处理装置100的用户可以例如经由用户界面70来定义他或她发现哪些情感信息12是干扰的、中性的或积极的。例如，被认为是干扰的情感信息12可以被视为必须被转录的情感信息，而被认为是积极或中性的情感信息12可以以未修改的方式保留在去情感化语音信号120中。

优选地，方法300还包括或备选地包括通过被配置为执行神经生理学测量的传感器80来标识不期望的和/或中性的和/或积极的情感信息12。因此，传感器80可以是神经接口。神经接口仅作为示例来描述。此外，能够提供其他传感器。例如，可以提供被配置为检测不同的测量量(具体地，用户的血压、心率和/或皮肤电导值)的一个传感器80或若干个传感器80。

方法300可以包括将所检测到的至少一条情感信息12分类为具有不同干扰质量的类别，具体地，其中，这些类别可以具有例如以下分配：类别1“严重干扰”、类别2“干扰”、类别3“干扰较轻”、以及类别4“根本不干扰”，此外，该方法可以包括减少或抑制已经被分类为类别1“严重干扰”或类别2“干扰”之一的所检测到的至少一条情感信息12，和/或将已经被分类为类别3“干扰较轻”或类别4“根本不干扰”之一的所检测到的至少一条情感信息12添加到去情感化语音信号，和/或添加生成的情感信息12′以便支持用户对去情感化语音信号120的理解。因此，用户可以使方法300适配他或她的个人需要。

优选地，方法300包括再现去情感化语音信号120，具体地以简化语言，通过人工话音和/或通过指示计算机编写的文本和/或通过生成并显示图片卡符号和/或通过符号语言的动画来再现去情感化语音信号120。这里，可以以适配用户个人需要的方式向用户再现去情感化语音信号120。上述列表并不详尽。相反，许多不同类型的再现都是可能的。由此，可以以简化语言再现(具体地，实时再现)语音信号110。所检测到(具体地，所记录)的语音信号100可以在转录为去情感化语音信号120之后被替换为例如人工语音，其中，该语音不包括或仅包括减少的SF部分或者不再包括已经被单独地标识为特别干扰的SF部分。例如，如果语音对应于个人沟通需求，即使语音源自不同的对话伙伴(例如，不同的老师)，也可以始终为患有自闭症的人再现相同的语音。

例如，语句“在一场不断加剧的骚乱中，人们举着写有“禁止暴力”的标语，但警察却用警棍殴打他们”可以转录为简单语言如下：“骚乱加剧了。人们举着写有“禁止暴力”的标语。警察用警棍殴打他们”。

优选地，方法300包括具体地通过去情感化语音信号120的非线性和/或频率相关放大来补偿与用户相关联的个体听力障碍。因此，只要为用户在听觉上再现去情感化语音信号120，就可以向用户提供与没有听力障碍的用户的听力体验类似的听力体验。

优选地，方法300包括分析是否在所检测到的语音信号110中检测到干扰噪声(具体地，由用户单独定义的干扰噪声)，并且随后可能去除所检测到的干扰噪声。例如，干扰噪音可以是背景噪音，例如狗吠、其他人、交通噪音等。只要不直接操纵语音或干扰噪声，而是“人工”(即，例如以端到端方法)生成语音，在这种情况下就会自动去除干扰噪声。如清晰度、愉悦感或熟悉度的个人或主观提高的方面可以在训练期间考虑，或者可以随后留下印象。

优选地，方法300包括：通过GPS检测当前位置坐标，随后调整与所检测到的位置坐标相关联的预先设置以用于在当前位置坐标处检测到的语音信号110的转录。由于可以检测到当前位置(诸如学校或自己的家或超市)的事实，可以自动改变或适配与相应位置相关联的预先设置以及与相应位置相关的所检测到的语音信号110的转录。

优选地，方法300包括通过无线电或蓝牙或LiFi(光保真)将检测到的语音信号110从语音信号处理装置100、100-1发送给另一语音信号处理装置100或若干个语音信号处理装置100、100-2至100-6。当使用LiFi时，可以在直接或间接视野中发送信号。例如，语音信号处理装置100可以将语音信号110(具体地，以光学方式)发送给控制接口，其中，语音信号110被路由到不同的输出并且在不同的输出处被分发到语音信号处理装置100、100-2至100-6。不同输出中的每个输出可以通信地耦合到语音信号处理装置100。

本申请的另一方面涉及一种包括指令的计算机可读存储介质，该当指令当由计算机(具体地，语音信号处理装置100)执行时导致该计算机执行如本文所述的方法。具体地，计算机(具体地，语音信号处理装置100)可以通过智能电话、平板计算机、智能手表等来实现。

尽管已经在装置的上下文中描述了一些方面，但应当清楚的是，这些方面也表示对相应方法的描述，使得装置的块或器件也对应于相应的方法步骤或方法步骤的特征。类似地，在方法步骤的上下文中描述的方面也表示对应装置的对应块或细节或特征的描述。一些或全部方法步骤可以由硬件装置(或使用硬件装置)来执行，例如微处理器、可编程计算机或电子电路。在一些实施例中，最重要的方法步骤中的某一些或若干个可以由这种装置来执行。

在前面的详细描述中，各种特征已经在示例中组合在一起，以部分地简化本公开。该类型的公开不应被解释为旨在要求保护的示例具有比每一项权利要求中明确记载的特征多的特征。相反，如所附权利要求所反映的那样，主题可以在比单个公开示例的所有特征少的特征中找到。因此，所附权利要求由此并入详细描述中，并且每项权利要求可以作为其自己的单独示例。虽然每项权利要求可以作为其自己的单独示例，但应当注意，尽管权利要求中的从属权利要求引用与一个或多个其他权利要求的特定组合，但其他示例还包括从属权利要求与任何其他从属权利要求的主题的组合或任何特征与其他从属或独立权利要求的组合。除非声明不打算使用特定组合，否则涵盖这种组合。还旨在：即使该权利要求不直接从属于独立权利要求，也涵盖权利要求的特征与任何其他独立权利要求的组合。

取决于某些实现要求，可以在硬件中或在软件中实现本发明的实施例。可以使用其上存储有电子可读控制信号的数字存储介质(例如，软盘、DVD、蓝光光盘、CD、ROM、PROM、EPROM、EEPROM或闪存、硬盘驱动器或另一磁存储器或光存储器)来执行实现，该电子可读控制信号与可编程计算机系统协作或者能够与之协作从而执行相应方法。因此，数字存储介质可以是计算机可读的。

根据本发明的一些实施例包括具有电子可读控制信号的数据载体，该电子可读控制信号能够与可编程计算机系统协作从而执行本文所述的方法之一。

通常，本发明的实施例可以实现为具有程序代码的计算机程序产品，程序代码可操作以在计算机程序产品在计算机上运行时执行方法之一。

程序代码可以例如存储在机器可读载体上。

其他实施例包括用于执行本文所述的方法之一的计算机程序，其中，该计算机程序存储在机器可读载体上。换言之，本发明方法的实施例因此是包括程序代码的计算机程序，程序代码用于在计算机程序在计算机上运行时执行本文所述的方法之一。

因此，本发明方法的另一实施例是其上记录有计算机程序的数据载体(或者数字存储介质或计算机可读介质)，该计算机程序用于执行本文所述的方法之一。数据载体、数字存储介质或计算机可读介质通常是有形的或非易失性的。

因此，本发明方法的另一实施例是表示计算机程序的数据流或信号序列，该计算机程序用于执行本文所描述的方法之一。数据流或信号序列可以配置为例如经由数据通信连接，例如经由因特网传送。

另一实施例包括处理装置，例如计算机或可编程逻辑器件，该处理装置被配置为或适于执行本文所描述的方法之一。

另一实施例包括其上安装有计算机程序的计算机，该计算机程序用于执行本文所述的方法之一。

根据本发明的另一实施例包括被配置为向接收器发送用于执行本文描述的至少一个方法的计算机程序的装置或系统。例如，传输可以是电子的或光的。例如，接收机可以是计算机、移动设备、存储设备或类似设备。例如，该装置或系统可以包括用于向接收器发送计算机程序的文件服务器。

在一些实施例中，可编程逻辑器件(例如，现场可编程门阵列FPGA)可以用于执行本文所述的方法的功能中的一些或全部。在一些实施例中，现场可编程门阵列可以与微处理器协作以执行本文所述的方法之一。通常，这些方法优选地由任何硬件装置来执行。这可以是通用硬件，例如，计算机处理器(CPU)或专用于方法的硬件(例如，ASIC)。

上述实施例对于本发明的原理仅是说明性的。应当理解，本文描述的布置和细节的修改和变形对于本领域其他技术人员将是显而易见的。因此，旨在仅由所附权利要求的范围而不由通过描述和解释本文的实施例的方式给出的具体细节来限制本发明。

Claims

1.一种用于实时或在一段时间之后输出去情感化语音信号(120)的语音信号处理装置(100)，所述语音信号处理装置(100)包括：

-语音信号检测装置(10)，用于检测包括至少一条情感信息(12)和至少一条词语信息(14)的语音信号(110)；

-分析装置(20)，用于针对所述至少一条情感信息(12)和所述至少一条词语信息(14)分析所述语音信号(110)；

-处理装置(30)，用于将所述语音信号(110)划分为所述至少一条词语信息(14)和所述至少一条情感信息(12)，并且用于处理所述语音信号(110)；以及

-耦合装置(40)和/或再现装置(50)，用于将所述语音信号(110)再现为去情感化语音信号(120)，所述去情感化语音信号(120)包括被转换为其他词语信息(14′)的所述至少一条情感信息(12)和/或所述至少一条词语信息(14)。

2.根据权利要求1所述的语音信号处理装置(100)，包括存储所述去情感化语音信号(120)和/或检测到的所述语音信号(110)的存储装置(60)，用于在任何时间再现所述去情感化语音信号(120)，具体地，在多于单个任意时间将所存储的语音信号(110)再现为去情感化语音信号(120)。

3.根据前述权利要求中任一项所述的语音信号处理装置(100)，其中，所述处理装置(30)被配置为：识别所述情感信息(12)中包括的所述其他词语信息(14′)并将所述其他词语信息(14′)翻译为去情感化语音信号(120)，并且将所述去情感化语音信号(120)转发给所述再现装置(50)以用于由所述再现装置(50)再现，或者转发给被配置为连接到外部再现装置(50)的耦合装置(40)，以发送所述去情感化信号(120)以用于所述去情感化信号(120)的再现，所述外部再现装置(50)具体为智能电话或平板计算机。

4.根据前述权利要求中任一项所述的语音信号处理装置(100)，其中，所述分析装置(30)被配置为分析所述语音信号(110)中的干扰噪声和/或情感信息(12)，并且处理装置(40)被配置为从所述语音信号(110)中去除所分析的干扰噪声和/或所述情感信息(12)。

5.根据前述权利要求中任一项所述的语音信号处理装置(100)，其中，所述再现设备(50)被配置为再现没有所述情感信息(12)或具有已经被转录为所述其他词语信息(14′)的情感信息(12)和/或具有新印象的情感信息(12′)的所述去情感化语音信号(120)。

6.根据前述权利要求中任一项所述的语音信号处理装置(100)，其中，所述再现装置(50)包括扬声器和/或显示器，用于再现所述去情感化语音信号(120)，具体地以简化语言，通过人工话音和/或通过显示计算机编写的文本和/或通过生成并显示图片卡符号和/或通过符号语言的动画来再现所述去情感化语音信号(120)。

7.根据前述权利要求中任一项所述的语音信号处理装置(100)，其中，所述分析装置(50)包括神经元网络，所述神经元网络被配置为基于训练数据或基于以规则为基础的转录将所述情感信息(12)转录为所述其他词语信息(14’)。

8.根据前述权利要求中任一项所述的语音信号处理装置(100)，被配置为：使用第一接触信息和/或第二接触信息来基于所述第一接触信息检测所述语音信号处理装置(100)的当前位置坐标，和/或基于所述第二接触信息来调整用于所述语音信号处理装置(100)处的转录的相关联的预先设置。

9.根据前述权利要求中任一项所述的语音信号处理装置(100)，包括信号交换装置，所述信号交换装置被配置为执行与一个或若干个其他语音信号处理装置(100、100-1至100-6)的检测到的语音信号的信号传输，具体地经由无线电或蓝牙或LiFi(光保真)。

10.根据前述权利要求中任一项所述的语音信号处理装置(100)，包括操作界面(70)，所述操作界面(70)被配置为根据由用户设置的偏好将所述至少一条情感信息(12)划分为不期望的情感信息和/或中性的情感信息和/或积极的情感信息。

11.根据权利要求10所述的语音信号处理装置(100)，被配置为将检测到的所述至少一条情感信息(12)分类为不同干扰质量的类别，具体地，具有以下分配的类别：类别1“严重干扰”、类别2“干扰”、类别3“干扰较轻”、类别4“根本不干扰”，并且

减少或抑制已经被分类为类别1“严重干扰”或类别2“干扰”之一的检测到的所述至少一条情感信息(12)，和/或

将已经被分类为类别3“干扰较轻”或类别4“根本不干扰”之一的检测到的所述至少一条情感信息(12)添加到所述去情感化语音信号(120)，和/或

将生成的情感信息(12′)添加到所述去情感化信号(120)，以便支持用户对所述去情感化语音信号(120)的理解。

12.根据前述权利要求中任一项所述的语音信号处理装置(100)，包括传感器(80)，所述传感器(80)被配置为：当与用户接触时，标识所述用户的不期望的和/或相互的和/或积极的情感信息(12)，其中，具体地，所述传感器(80)被配置为测量生物信号，例如执行神经生理学测量或者捕获并评估用户的图像。

13.根据前述权利要求中任一项所述的语音信号处理装置(100)，包括补偿装置(90)，所述补偿装置被配置为具体地通过所述去情感化语音信号(120)的非线性和/或频率相关放大来补偿与用户相关联的个体听力障碍。

14.一种语音信号再现系统(200)，包括两个或更多个根据前述权利要求中任一项所述的语音信号处理装置(100、100-1至100-6)。

15.一种用于实时或在一段时间之后输出去情感化语音信号(120)的方法(300)，所述方法(300)包括：

检测(310)包括至少一条词语信息(14)和至少一条情感信息(12)的语音信号(110)；

针对所述至少一条词语信息(14)和所述至少一条情感信息(12)分析(320)所述语音信号(110)；

将所述语音信号划分(330)为所述至少一条词语信息(14)和所述至少一条情感信息(12)，并且处理所述语音信号(110)；

将所述语音信号(110)再现(340)为去情感化语音信号(120)，所述去情感化语音信号(120)包括被转换为其他词语信息(14′)的所述至少一条情感信息(12)和/或包括所述至少一条词语信息(14)。

16.根据权利要求15所述的方法(300)，包括：

存储所述去情感化语音信号(120)和/或检测到的所述语音信号(110)；

在任何时间再现所述去情感化语音信号(120)和/或检测到的所述语音信号(110)。

17.根据权利要求15至16中任一项所述的方法(300)，包括：

检测所述语音信号(110)中的所述至少一条情感信息(12)；

针对所述至少一条情感信号(12)到n条不同的其他词语信息(14′)的可能转录来分析所述至少一条情感信息(12)，其中，n是大于或等于1的自然数，并且n指示将所述至少一条其他情感信息(12)适当地转录为所述至少一条其他词语信息(14′)的选项的数量；

将所述至少一条情感信息(12)转录为n条不同的其他词语信息(14′)。

18.根据权利要求15至17中任一项所述的方法(300)，包括：

由用户通过操作界面(70)来标识不期望的和/或中性的和/或积极的情感信息(12)。

19.根据权利要求15至18中任一项所述的方法(300)，包括：

通过传感器(80)来标识不期望的和/或中性的和/或积极的情感信息(12)，所述传感器(80)具体地被配置为测量生物信号，例如执行神经生理学测量或者捕获并评估用户的图像。

20.根据权利要求18或19所述的方法(300)，包括：

将检测到的所述至少一条情感信息(12)分类为不同干扰质量的类别，具体地，具有以下分配中的至少一种的类别：类别1“严重干扰”、类别2“干扰”、类别3“干扰较轻”、类别4“根本不干扰”，

将已经被分类为类别3“干扰较轻”或类别4“根本不干扰”之一的检测到的所述至少一条情感信息(12)添加到所述去情感化语音信号，和/或

添加生成的情感信息(12′)以支持用户对所述去情感化语音信号(120)的理解。

21.根据前述权利要求15至20中任一项所述的方法(300)，包括：

具体地以简化语言通过以下方式来再现所述去情感化语音信号(120)：

-通过人工话音，和/或

-通过计算机编写的文本的显示，和/或

-通过生成并显示图片卡符号，和/或

-通过符号语言的动画。

22.根据前述权利要求15至21中任一项所述的方法(300)，包括：

具体地通过所述去情感化语音信号(120)的非线性和/或频率相关放大来补偿与用户相关联的个体听力障碍。

23.根据前述权利要求15至22中任一项所述的方法(300)，包括：

分析是否在检测到的语音信号(110)中检测到干扰噪声，具体地，由用户单独定义的干扰噪声，

去除检测到的干扰噪声。

24.根据前述权利要求15至23中任一项所述的方法(300)，包括：

通过GPS来检测当前位置坐标，

调整与检测到的位置坐标相关联的预先设置以用于在所述当前位置坐标处检测到的语音信号(110)的转录。

25.根据前述权利要求15至24中任一项所述的方法(300)，包括：

通过GPS或无线电或蓝牙或LiFi(光保真)将检测到的语音信号(110)从语音信号处理装置(100)发送给另一语音信号处理装置(100)或若干个语音信号处理装置(100、100-1至100-6)。

26.一种包括指令的计算机可读存储介质，所述指令当由计算机执行时，导致所述计算机执行根据权利要求15至25中任一项所述的方法(300)。