CN116319631A

CN116319631A - 自动聊天中的语音转发

Info

Publication number: CN116319631A
Application number: CN202310397186.8A
Authority: CN
Inventors: 吴先超; 伊藤和重
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2017-04-07
Filing date: 2017-04-07
Publication date: 2023-06-23
Also published as: EP3577860A1; CN109417504A; EP3577860B1; US11233756B2; US20200044999A1; WO2018184199A1; EP3577860A4

Abstract

本公开提供了用于自动聊天中的语音转发的方法和装置。可以从服务组中的第一实体接收用于发送语音段的第一请求。可以从第一实体接收语音段。可以基于语音段生成语音消息。可以基于第一请求发送语音消息。

Description

自动聊天中的语音转发

本申请是申请日为2017年4月17日、申请号为201780037806.X的发明专利申请“自动聊天中的语音转发”的分案申请。

背景技术

人工智能(AI)聊天机器人变得越来越流行，并且正在越来越多的场景中得到应用。聊天机器人被设计用于模拟人类对话，并且可以通过文本、语音、图像等向用户提供自动聊天服务。通常，聊天机器人可以扫描由用户输入的消息内的关键词或对消息应用自然语言处理，并且向用户提供具有最匹配的关键词或最相似的措辞模式的响应。

发明内容

提供本发明内容以便介绍一组概念，这组概念将在以下的具体实施方式中做进一步描述。本发明内容并非旨在标识所保护主题的关键特征或必要特征，也不旨在用于限制所保护主题的范围。

本公开的实施例提出了用于在自动聊天中的语音转发的方法和装置。可以从服务组中的第一实体接收用于发送语音段的第一请求。可以从第一实体接收语音段。可以基于语音段生成语音消息。可以基于第一请求发送语音消息。

应当注意，以上一个或多个方面包括以下详细描述以及权利要求中具体指出的特征。下面的说明书及附图详细提出了所述一个或多个方面的某些说明性特征。这些特征仅仅指示可以实施各个方面的原理的多种方式，并且本公开旨在包括所有这些方面和其等同变换。

附图说明

以下将结合附图描述所公开的多个方面，这些附图被提供用以说明而非限制所公开的多个方面。

图1示出了根据实施例的聊天机器人的示例性应用场景。

图2示出了根据实施例的示例性聊天机器人系统。

图3示出了根据实施例的聊天机器人和用户之间的示例性用户界面。

图4示出了根据实施例的群聊中的示例性聊天窗口。

图5示出了根据实施例的用于语音转发的示例性方法的流程图。

图6示出了根据实施例的用于语音转发的示例性方法的流程图。

图7示出了根据实施例的用于获得文本情感训练数据集的示例性过程。

图8示出了根据实施例的用于获得语音情感训练数据集的示例性过程。

图9示出了根据实施例的语音情感分类器的示例性结构。

图10示出了根据实施例的用于控制语音消息发送的示例性方法的流程图。

图11示出了根据实施例的用于执行语音转换的示例性过程。

图12A、图12B、图13A、图13B、图14A和图14B示出了根据实施例的用于语音转发的示例性聊天窗口。

图15示出了根据实施例的用于自动聊天中的语音转发的示例性方法的流程图。

图16示出了根据实施例的用于自动聊天中的语音转发的示例性装置。

图17示出了根据实施例的用于自动聊天中的语音转发的示例性装置。

具体实施方式

现在将参考多种示例性实施方式来讨论本公开。应当理解，这些实施方式的讨论仅仅用于使得本领域技术人员能够更好地理解并从而实施本公开的实施例，而并非教导对本公开的范围的任何限制。

许多网络服务提供方可以为用户提供彼此通信的平台。例如，许多人越来越习惯通过社交网络或应用程序与朋友和家人进行交流，所述应用程序例如为微信(Wechat)、Line、Facebook等。网络服务提供方可以提供分组服务。分组服务可以指针对具有共同需求、兴趣、特征等的一组用户提供的社交服务。该组用户也可以被称为服务组。存在各种类型的分组服务，如群聊、兴趣组、讨论组等。

根据本公开的实施例，聊天机器人可以有助于服务组中的大量用户之间的通信，并且在用户之间建立有效的基于语音的社交机制。这将增强用户之间的社交关系，并提高分组服务的趣味性。

在一些方面，聊天机器人可以在服务组中的、甚至彼此不是朋友的多个用户之间转发语音。聊天机器人还可以帮助用户向服务组中的其他用户发送语音消息，例如，指定了接收者的语音消息或随机语音瓶，其中，随机语音瓶是指没有明确接收者的语音消息。

聊天机器人可以在用户的要求下隐藏希望发送语音的用户的信息。因此，可以以匿名方式发送语音消息。

通过深度学习建立的语音情感分类器可以由聊天机器人用于确定从用户接收的语音段的情感。该情感可以用于决定是否发送基于该语音段生成的语音消息。

聊天机器人可以将用户输入的语音段转换为具有指定人物的声音的目标语音段。语音段的转换可以是文本级和/或音调级的。在转换语音段期间也可以考虑语音段的情感。

聊天机器人可以限制发送语音消息的次数，从而保护希望发送语音的用户的隐私。

图1示出了根据实施例的聊天机器人的示例性应用场景100。

在图1中，网络110被应用于在终端设备120、聊天机器人服务器130和网络服务提供方140之间进行互连。

网络110可以是能够对网络实体进行互连的任何类型的网络。网络110可以是单个网络或各种网络的组合。在覆盖范围方面，网络110可以是局域网(LAN)、广域网(WAN)等。在承载介质方面，网络110可以是有线网络、无线网络等。在数据交换技术方面，网络110可以是电路交换网络、分组交换网络等。

终端设备120可以是能够连接到网络110、访问网络110上的服务器或网站、处理数据或信号等的任何类型的电子计算设备。例如，终端设备120可以是台式计算机、笔记本电脑、平板电脑、智能电话等。尽管在图1中仅示出了一个终端设备120，但是应当理解，可以有不同数量的终端设备连接到网络110。

终端设备120可以包括可以为用户提供自动聊天服务的聊天机器人客户端122。在一些实施方式中，聊天机器人客户端122可以与聊天机器人服务器130进行交互。例如，聊天机器人客户端122可以将用户输入的消息发送到聊天机器人服务器130，并且从聊天机器人服务器130接收与消息相关联的响应。然而，应当理解，在其它实施方式中，聊天机器人客户端122也可以本地生成对用户输入的消息的响应，而不是与聊天机器人服务器130进行交互。

聊天机器人服务器130可以连接到或包含聊天机器人数据库132。聊天机器人数据库132可以包括可由聊天机器人服务器130用于生成响应的信息。

网络服务提供方140可以指可以提供分组服务的各种网络服务网站或应用程序。

在一些实施方式中，终端设备120的用户可以通过加入相应的服务组来访问网络服务提供方140的分组服务。聊天机器人客户端122可以在服务组中运行以在服务组中实施语音转发。

应当理解，图1中所示的所有网络实体都是示例性的，根据具体的应用需求，应用场景100可以涉及任何其它网络实体。

图2示出了根据实施例的示例性聊天机器人系统200。

聊天机器人系统200可以包括用于呈现聊天窗口的用户界面(UI)210。聊天窗口可以由聊天机器人用于与用户进行交互。

聊天机器人系统200可以包括核心处理模块220。核心处理模块220被配置用于通过与聊天机器人系统200的其它模块的协作，在聊天机器人的运行期间提供处理能力。

核心处理模块220可以获得由用户在聊天窗口中输入的消息，并将消息存储在消息队列232中。消息可以采用各种多媒体形式，例如文本、语音、图像、视频等。

核心处理模块220可以用先进先出的方式处理消息队列232中的消息。核心处理模块220可以调用应用程序接口(API)模块240中的处理单元来处理各种形式的消息。API模块240可以包括文本处理单元242、语音处理单元244、图像处理单元246等。

对于文本消息，文本处理单元242可以对文本消息执行文本理解，并且核心处理模块220可以进一步确定文本响应。

对于语音消息，语音处理单元244可以对语音消息执行语音到文本转换以获得文本语句，文本处理单元242可以对所获得的文本语句执行文本理解，并且核心处理模块220可以进一步确定文本响应。如果确定以语音提供响应，则语音处理单元244可以对文本响应执行文本到语音转换以生成相应的语音响应。

对于图像消息，图像处理单元246可以对图像消息执行图像识别以生成相应的文本，并且核心处理模块220可以进一步确定文本响应。在一些情况下，图像处理单元246也可以用于基于文本响应来获得图像响应。

此外，尽管在图2中未示出，API模块240还可以包括任何其它处理单元。例如，API模块240可以包括视频处理单元，该视频处理单元用于与核心处理模块220协作以处理视频消息并确定响应。

核心处理模块220可以通过索引数据库250来确定响应。索引数据库250可以包括可由核心处理模块220提取作为响应的多个索引项。索引数据库250中的索引项可以被包括在纯聊天索引集252中。纯聊天索引集252可以包括索引项，索引项被准备用于用户和聊天机器人之间的自由聊天，并且可以用来自社交网络的数据来建立。纯聊天索引集252中的索引项可以采用或不采用问题-答案对的形式。此外，索引数据库250还可以包括可以用于提供响应的任何其它索引集。

可以将由核心处理模块220确定的响应提供给响应队列或响应高速缓存234。例如，响应高速缓存234可以确保能够以预定义的时间流来显示响应序列。假设对于一个消息，由核心处理模块220确定了不少于两个响应，则对响应的时间延迟设置可能是必要的。例如，如果玩家输入的消息是“你吃早餐了吗？”，则可能确定出两个响应，例如，第一响应是“是的，我吃了面包”，第二响应是“你呢？还觉得饿吗？”。在这种情况下，通过响应高速缓存234，聊天机器人可以确保立即向玩家提供第一响应。此外，聊天机器人可以确保以例如1或2秒的时间延迟来提供第二响应，使得第二响应将在第一响应之后的1或2秒提供给玩家。由此，响应高速缓存234可以管理将要发送的响应以及针对每个响应的适当定时。

可以将响应队列或响应高速缓存234中的响应进一步发送到用户界面210，以便可以在聊天窗口中将响应显示给用户。

系统200可以包括语音情感分类器260。语音情感分类器260可以是基于语音情感训练数据集通过深度学习来建立的，并且可以用于将输入的语音段分类到多种情感之一。

系统200可以包括语音转换模块270。语音转换模块270可以用于将输入的语音段转换为具有指定人物的声音的目标语音段。语音段的转换可以是文本级和/或音调级的。

系统200可以包括语音数据库280。语音数据库280可以存储由用户输入的语音段和/或由聊天机器人基于语音段生成的语音消息。

应当理解，图2中的聊天机器人系统200中所示的所有单元都是示例性的，并且根据具体的应用需求，在聊天机器人系统200中可以省略任何所示的单元并且可以涉及任何其它单元。

图3示出了根据实施例的聊天机器人和用户之间的示例性用户界面300。用户界面300被包括在终端设备中，并且其可以包括呈现区域310、控制区域320和输入区域330。呈现区域310在聊天流中显示消息和响应。在本文中，聊天流可以指包括来自用户的消息和来自聊天机器人的响应的聊天过程。控制区域320包括多个虚拟按钮以用于用户执行消息输入设置。用户可以选择控制区域320中的虚拟按钮以进行语音输入、附加图像文件、选择表情符号、对当前屏幕进行截图等。例如，当用户触摸或点击扬声器按钮322时，可以通过终端设备的扬声器来播放聊天流中的语音段或语音消息。输入区域330用于用户输入消息。例如，用户可以通过输入区域330键入文本。聊天窗口300还可以包括虚拟按钮340以用于确认发送输入的消息。如果用户触摸虚拟按钮340，则可以将在输入区域330中输入的消息发送到呈现区域310。

应当注意，图3中所示的所有单元及其布局都是示例性的。根据具体的应用需求，图3中的聊天窗口可以省略或添加任何单元，并且图3中的聊天窗口中的单元的布局也可以以各种方式改变。例如，尽管将扬声器按钮322示出在控制区域320中，但也可以从控制区域320中省略扬声器按钮322。替代地，呈现在聊天流中的扬声器图标可以起到扬声器按钮322的作用。

图4示出了根据实施例的群聊中的示例性聊天窗口400。应当理解，图4中的群聊是各种类型的分组服务之一的示例。如上所述，分组服务的类型可以是多样的，并不限于群聊。

如图4所示，在“健身组”中正在进行群聊。在健身组中有多个用户，例如鲍勃、乔、迈克、埃拉、简等。当触摸或点击图标410时，可以呈现健身组中的用户。这些用户可以在聊天窗口400中聊天。

应当理解，尽管未示出，但聊天机器人也可以在健身组中运行或被包括在健身组中，由此，聊天机器人可以根据本公开的实施例来实施语音转发。

图5示出了根据实施例的用于语音转发的示例性方法500的流程图。根据方法500，服务组中的实体A可以请求聊天机器人将语音转发到服务组中的实体B，并且聊天机器人可以基于由实体A输入的语音段来生成语音消息，并将语音消息发送到实体B。在本文中，“实体”可以指服务组中的成员、服务组中的用户、服务组中的用户的终端设备等。

在502处，实体A可以向聊天机器人发送请求以指示实体A希望向实体B发送语音段。实体A可以在实体A和聊天机器人之间的聊天流中发送该请求。

在一种实施方式中，实体A可以在请求中要求匿名地向实体B发送语音段，使得聊天机器人不会向实体B表明或显示发送者信息，例如实体A的ID。例如，请求可以是“匿名向迈克发送语音”。

在一种实施方式中，实体A可以在请求中指定语音喜好，使得聊天机器人可以基于语音喜好来转换语音段。语音喜好可以是指定人物的声音。例如，请求可以是“用安吉丽娜·朱莉的声音向迈克发送语音”。

在504处，聊天机器人可以根据请求来确定接收者。例如，如果请求是“向迈克发送语音”，则聊天机器人可以确定接收者是“迈克”。

如果请求中的接收者无效，例如，未在服务组中找到，则聊天机器人可能需要实体A再次输入接收者。如果请求中的接收者有效，则聊天机器人可以在506处向实体A发送响应。该响应可以包括用于输入语音段的指导，例如“请在说话期间按住麦克风图标”。

在一种实施方式中，506处的响应还可以包括关于要输入的语音段的长度的注意信息，例如“注意，最长语音为60秒”。通过设置语音段的最大长度的时间阈值，可以避免由于语音消息的持续时间过长而导致接收者失去收听整个语音消息的耐心。可以将时间阈值预先确定为任何值，例如60秒。

在508处，实体A可以根据在506处接收到的响应来输入语音段。例如，实体A可以按住在506处接收到的响应中的麦克风图标，并说出一段语音。

在510处，聊天机器人可以基于在508处接收到的语音段来生成语音消息。

在一种实施方式中，聊天机器人可以直接将语音段包括在语音消息中。例如，可以将语音段直接用作语音消息。

在一种实施方式中，聊天机器人可以在510处对语音段执行情感检测。例如，聊天机器人可以通过语音情感分类器来检测语音段的情感。如果语音段的情感被检测为负面情感之一，则聊天机器人可以要求实体A输入另一个语音段。

在一种实施方式中，如果实体A在502处的请求中指定了语音喜好，则聊天机器人可以在510处执行语音转换，以便将语音段转换为基于实体A所请求的语音喜好的目标语音段。可以将目标语音段包括在语音消息中。

在512处，聊天机器人可以要求实体A确认是否发送语音消息。在一种实施方式中，聊天机器人可以在512处向实体A发送语音消息。聊天机器人可以在512处与语音消息一起进一步发送确认问题，例如“你确定发送它？”。

在514处，实体A可以向聊天机器人发送用于确认是否发送语音消息的响应。例如，实体A可以在514处发送响应“确定”、“请继续”等。

如果实体A在514处确认发送语音消息，则聊天机器人可以在516处生成消息通知。消息通知可以用于通知实体B接收在510处生成的语音消息。

在一种实施方式中，消息通知可以包括语音消息的长度和发送者信息，例如“您从鲍勃处收到36秒的语音消息”。应当理解，如果实体A要求匿名发送，则也可以从消息通知中省略发送者信息。因此，消息通知可以是例如“您收到36秒的匿名语音消息”。

在一种实施方式中，消息通知可以包括用于收听语音消息的指导，例如“在收听时请按住扬声器图标”。

在一种实施方式中，消息通知可以包括在510处检测到的语音段的情感，例如“您收到主要情感为高兴的语音消息”。

在518处，聊天机器人可以向实体B发送消息通知。

在520处，聊天机器人可以从实体B接收响应。响应可以是例如实体B触摸扬声器图标的操作，其指示实体B希望收听语音消息。

在522处，聊天机器人可以向实体B发送语音消息。因此，实体B可以收听基于从实体A输入的语音段所生成的语音消息。

如上所述，方法500可以使聊天机器人能够在服务组中将语音从一个实体转发到另一个所标识的实体。

应当理解，尽管在图5中仅示出了一个接收者实体B，但是该语音消息可以存在一个以上的接收者。换句话说，实体A可以在502处的请求中标识一个或多个接收者，由此，聊天机器人可以根据该请求分别向这些接收者发送语音消息。

应当理解，根据具体的应用需求，方法500中的操作的顺序可以以各种方式改变。此外，可以在方法500中添加或省略任何操作。

图6示出了根据实施例的用于语音转发的示例性方法600的流程图。根据方法600，服务组中的实体A可以向聊天机器人请求发送随机语音瓶，聊天机器人可以向服务组中请求接收随机语音瓶的实体B发送随机语音瓶。在本文中，“随机语音瓶”可以是随机发送的语音消息，例如没有明确接收者的语音消息。随机语音瓶也可以称为“随机语音消息”、“随机发送的语音消息”、“语音漂流瓶”等。

在602处，实体A可以向聊天机器人发送请求以指示实体A希望发送随机语音瓶。实体A可以在实体A和聊天机器人之间的聊天流中发送请求。例如，请求可以是“发送随机语音瓶”。

在一种实施方式中，实体A可以在请求中要求匿名地发送随机语音瓶，使得聊天机器人不会向接收者表明发送者信息，例如，实体A的ID。例如，请求可以是“匿名发送随机语音瓶”。

在一种实施方式中，实体A可以在请求中指定语音喜好，使得聊天机器人可以基于语音喜好来转换来自实体A的语音段。例如，请求可以是“用安吉丽娜·朱莉的声音发送随机语音瓶”。

在604处，聊天机器人可以向实体A发送响应。该响应可以包括用于输入语音段的指导。该响应还可以包括关于要输入的语音段的长度的注意信息。

在606处，实体A可以根据在604处接收到的响应来输入语音段。例如，实体A可以按住在604处接收到的响应中的麦克风图标，并且说出一段语音。

在608处，聊天机器人可以基于在606处接收到的语音段来生成随机语音瓶。

在一种实施方式中，聊天机器人可以直接将语音段包括到随机语音瓶中。

在一种实施方式中，聊天机器人可以在608处对语音段执行情感检测。如果将语音段的情感检测为负面情感之一，则聊天机器人可以要求实体A输入另一个语音段。

在一种实施方式中，如果实体A在602处的请求中指定了语音喜好，则聊天机器人可以在608处执行语音转换，以便将语音段转换为基于实体A所请求的语音喜好的目标语音段。可以将目标语音段包括在随机语音瓶中。

在610处，聊天机器人可以要求实体A确认是否发送随机语音瓶。在一种实施方式中，聊天机器人可以在610处向实体A发送随机语音瓶。聊天机器人可以在610处与随机语音瓶一起进一步发送确认问题，例如“你确定发送它？”。

在612处，实体A可以向聊天机器人发送用于确认是否发送随机语音瓶的响应。例如，实体A可以在612处发送响应“确定”、“请继续”等。

如果实体A在612处确认发送随机语音瓶，则聊天机器人可以在614处将随机语音瓶存储在语音数据库中。应该理解，语音数据库还可以存储来自服务组中其他实体的其它随机语音瓶。

在616处，聊天机器人可以从实体B接收指示实体B希望接收随机语音瓶的请求。例如，在616处的请求可以是“拾取瓶子”等。实体B可以是服务组中的任何实体。

当在616处接收到请求时，聊天机器人可以在618处从语音数据库中提取随机语音瓶。所提取的随机语音瓶可以来自实体A或者服务组中已请求发送随机语音瓶的任何其他实体。

在620处，聊天机器人可以生成针对所提取的随机语音瓶的消息通知。消息通知可以用于通知实体B接收随机语音瓶。

消息通知可以包括随机语音瓶的长度和发送者信息。如果随机语音瓶的发送者要求匿名发送，则也可以从消息通知中省略发送者信息。消息通知可以包括用于收听随机语音瓶的指导。消息通知可以包括随机语音瓶的情感。

在622处，聊天机器人可以向实体B发送消息通知。

在624处，聊天机器人可以从实体B接收响应。响应可以是例如实体B触摸扬声器图标的操作，其指示实体B希望收听随机语音瓶。

在626处，聊天机器人可以向实体B发送随机语音瓶。由此，实体B可以收听随机语音瓶。

如上所述，方法600可以使聊天机器人能够在服务组中的实体之间转发随机语音瓶。

应当理解，根据具体的应用需求，方法600中的操作的顺序可以以各种方式改变。此外，在方法600中可以添加或省略任何操作。

应当理解，在一些实施方式中，图5中的方法500和图6中的方法600都可以进一步包括访问控制过程。聊天机器人可以允许接收者实体仅访问，例如收听，语音消息一次。此外，聊天机器人可以控制诸如随机语音瓶的语音消息能够被访问有限的次数。

聊天机器人可以维护用于语音消息的控制数据结构。控制数据结构可以为，例如，{[实体ID，可访问标志＝真或假]，当前访问数量}。如果一个实体已经访问了语音消息，则该实体的可访问标志将从真更改为假，从而该实体将不能再次访问该语音消息。同时，当前访问数量将会更新，例如增加1。在当前访问数量达到阈值时，将不再允许任何实体访问该语音消息。这意味着如果已经将语音消息发送了预定次数，则聊天机器人将不会再向任何接收者转发该语音消息。考虑到不同实体的访问可能导致尝试同时更新当前访问数量，可以实施锁定功能以便控制当前访问数量的更新。例如，在一个时间点只有来自一个实体的一个线程可以更新当前访问数量。

如上所述，本公开的实施例可以采用语音情感分类器来检测语音段的情感。常规情感分析只能将输入的文本分类到有限数量的情感，如正面情感、负面情感和中性情感。而根据本公开的实施例的语音情感分类器可以执行细粒度的情感分析，其可以将输入的语音段分类到更多数量的情感。

在一种实施方式中，语音情感分类器可以区分8类情感，包括高兴的、愤怒的、恐惧的、轻蔑的、悲伤的、吃惊的、厌恶的和中性的。应当理解，虽然以下讨论涉及具有8类情感的语音情感分类器，但是本公开的实施例不限于8类情感。相反，可以在本公开的构思下获得和应用具有任何其它数量的情感类型的语音情感分类器。

可以基于语音情感训练数据集通过深度学习来训练语音情感分类器。可以根据文本情感训练数据集和语音识别训练数据集来获得语音情感训练数据集。

图7示出了根据实施例的用于获得文本情感训练数据集的示例性过程700。可以执行过程700以用于通过扩展种子情感词语来生成情感词典，并且通过使用情感词典来进一步确定文本情感训练数据集。

以8类情感为例，具有情感“高兴的”的示例性语句可以是“我很乐意听到这个！”。具有情感“愤怒的”的示例性语句可以是“你怎么敢不理会！”。具有情感“恐惧的”的示例性语句可以是“这是一个可怕的事故”。具有情感“轻蔑的”的示例性语句可以是“无非是一台电脑，有什么可吹嘘的”。具有情感“悲伤的”的示例性语句可以是“我不喜欢它，想哭”。具有情感“吃惊的”的示例性语句可以是“什么？真的吗？”。具有情感“厌恶的”的示例性语句可以是“他比我预计的更愚蠢”。具有情感“中性的”的示例性语句可以是“确定了明天的时间表”。

在710处，可以获得种子情感词语。在本文中，种子情感词语可以包括对应于每种类型情感的情感词语。例如，种子情感词语可以包括对应于情感“高兴的”的多个词语，例如“高兴的”、“喜悦的”、“乐意的”、“幸福的”等。可以从现有的人为构建的词典中获得种子情感词语，在所述人为构建的词典中包含具有人为标记的情感极性的词语。这些人为构建的词典只能提供有限数量的种子情感词语。

在720处，可以基于种子情感词语来执行Word2vec词语扩展，以便扩展种子情感词语。可以计算每个种子情感词语和来自语料库的词语的Word2vec余弦相似度分值。以这种方式，可以针对每个情感词语从语料库收集具有所计算分值的大量词语，然后可以将多个排序最高的词语确定为种子情感词语的扩展。例如，如图7所示，对于种子情感词语“sad(悲伤的)”，可以基于所计算的Word2vec余弦相似度分值来确定扩展词语“sorrow(哀伤的)”、“unhappy(不高兴的)”、“suffering(痛苦的)”、“happy(高兴的)”等。

应当理解，Word2vec余弦相似度分值是基于例如词语在语句中的位置来计算的。因此，Word2vec词语扩展不能确保所有扩展词语都与相应种子情感词语具有相似的语义含义。例如，在图7中，将“happy(高兴的)”确定为种子情感词语“sad(悲伤的)”的扩展词语，然而，这两个词语具有不同的语义含义。因此，过程700还包括基于双语词语对准的删减机制，以用于去除与相应种子情感词语具有不同语义含义或具有弱语义相关性的那些扩展词语。

在730处，可以执行双语词语对准。双语词语对准可以用于通过在两种不同语言之间的往返翻译来找到种子词语的语义相关词语。可以将第一语言的种子情感词语翻译成第二语言的词语。例如，可以将英文的种子情感词语“sad”翻译成中文的词语“伤心的”、“不高兴的”和“悲哀的”。然后，可以将第二语言的词语翻译回第一语言的词语。例如，可以将中文的词语“伤心的”、“不高兴的”和“悲哀的”翻译回英文的词语“sorrow”、“unhappy”和“pathetic”。由此，可以通过对种子情感词语“sad”的双语词语对准而获得词语列表“sorrow”、“unhappy”和“pathetic”。

在740处，可以对在720处通过Word2vec词语扩展获得的扩展词语以及在730处通过双语词语对准获得的词语列表执行交集操作。交集操作可以用于去除通过Word2vec词语扩展所获得的、与相应种子情感词语具有不同语义含义或弱语义相关性的那些扩展词语。例如，在图7中，通过交集操作，可以保留词语“sorrow”和“unhappy”，而去除与“sad”具有弱语义相关性的词语“suffering”以及与“sad”具有不同语义含义的词语“happy”。

可以将通过交集操作而保留的词语附加到情感词典750。在一种实施方式中，可以向情感词典750中的词语进一步添加相应的表情符号，例如绘文字(emoji)或颜文字(kaomoji)。在760处，可以针对每种类型的情感从网络收集绘文字或颜文字。例如，对于情感“sad(悲伤的)”，其相应的表情符号可以包括，例如，“><”、

等。因此，可以在情感词典750中将这些表情符号附加到与情感“sad”相对应的词语“sad”、“sorrow”和“unhappy”。

如上所述，通过对种子情感词语执行Word2vec词语扩展和双语词语对准来建立情感词典750，并且情感词典750可以包括比人为构建的词典更多的词语。情感词典750可以用于从web数据770中找到包含情感词典750中的至少一个词语的语句。每个语句可以被标记有情感，该情感是该语句所包含的情感词典750中的相应词语的情感。这些语句连同相应的情感标签可以被表示为<文本，情感>，并且可以形成文本情感训练数据集780。

图8示出了根据实施例的用于获得语音情感训练数据集的示例性过程800。

可以通过图7中的过程700来获得图8中的文本情感训练数据集802，其包括<文本，情感>形式的一组训练数据条目。

语音识别训练数据集804可以包括<语音，文本>形式的一组训练数据条目。可以从语音语料库获得训练数据条目中的语音，并且可以通过对语音执行语音识别来生成训练数据条目中的文本。

在806处，过程800可以计算文本情感训练数据集802中的文本与语音识别训练数据集804中的文本之间的相似度分值。在806处所计算的相似度分值可以是例如Word2vec相似度分值。

在808处，可以生成语音情感训练数据集。语音情感训练数据集可以包括<语音，情感>形式的一组训练数据条目。例如，如果通过806处的相似度计算而确定文本情感训练数据集802中的训练数据条目m<文本_m，情感_m>中的“文本_m”与语音识别训练数据集804中的训练数据条目k<语音_k，文本_k>中的“文本_k”具有排序最高的相似度分值，则可以为语音情感训练数据集生成一个训练数据条目<语音_k，情感_m>。

通过图8中的过程800，可以获得大规模语音情感训练数据集，其可以进一步用于通过深度学习来训练语音情感分类器。

图9示出了根据实施例的语音情感分类器的示例性结构900。语音情感分类器可以基于端到端语音情感分类模型，该端到端语音情感分类模型可以采用例如门控递归单元(GRU：Gated Recurrent Unit)神经网络。在本文中，“端到端”可以指在一端输入语音段，并在另一端输出情感预测。

可以将语音情感训练数据集用于训练语音情感分类器。语音情感训练数据集可以是，例如，{(x⁽¹⁾,y⁽¹⁾),(x⁽²⁾,y⁽²⁾),…}，其中x⁽ⁱ⁾对应于输入语音段并且可以是由声谱图表示的数字语音向量，并且y⁽ⁱ⁾表示输出情感类型。

GRU神经网络的目标是将输入语音段x投影到情感类型y，其中，y＝argmax_yP(c|x)，其中c从{高兴的、愤怒的、恐惧的、轻蔑的、悲伤的、吃惊的、厌恶的，中性的}中取一个值。

可以将语音段x⁽ⁱ⁾输入到输入层中。语音段x⁽ⁱ⁾可以是长度为T⁽ⁱ⁾的时间序列，每个片段是音频特征的向量，表示为x_t ⁽ⁱ⁾，其中t＝1,2,…,T⁽ⁱ⁾。可以将声谱图用作输入特征，例如，x_t,p ⁽ⁱ⁾可以表示在时间t处的语音段中p的频点的功率。

GRU神经网络可以包括5层隐藏单元，如图9中的层1至层5所示。对于输入序列x，层l中的隐藏单元被表示为h^(l)，一种特殊情况为h⁽⁰⁾可以代表输入序列。

层1、层2和层3不是递归层。对于层1，在每个时间t处，输出取决于声谱图帧x_t以及每一侧的S帧上下文。根据经验，S的值可以从使得评估集合的错误率最小的{3，5，7，9}中选择。层2和层3在每个时间步长中对独立数据进行操作。因此，对于每个时间t，前3层可以计算为：

在公式(1)中，使用截取的修正线性(ReLu)激活函数g(z)，并且W^(l)和b^(l)分别是层l的权重矩阵和偏置参数。函数g(z)可以被表示为g(z)＝min{max{α,z},β}，其中α和β是超参数，并且可以根据经验调整。

层4是双向递归层。该层包括两组隐藏单元，一组用于正向递归h^(f)，另一组用于反向递归h^(b)。GRU的内部机制可以由以下公式定义：

z_t＝σ(W^(z)x_t+U^(z)h_t-1+b^(z)) 公式(2)

r_t＝σ(W^(r)x_t+U^(r)h_t-1+b^(r)) 公式(3)

其中，

是元素积，W^(z)、W^(r)、W、U^(z)、U^(r)、U是训练的权重矩阵，/>

且/>

在此，n_H表示隐藏层的维度，n_I表示输入层的维度。上述公式也可以简写为：

h_t＝GRU(x_t,h_t-1) 公式(6)

因此，h^(f)和h^(b)可以被表示为：

注意，h^(f)是从t＝1到t＝T⁽ⁱ⁾顺序地计算的，而h^(b)是在从t＝T⁽ⁱ⁾返回到t＝1的相反方向上顺序地计算的。

层5是非递归层，其将层4中的正向单元和反向单元的级联作为输入，并且可以计算为：

其中，h_t ⁽⁴⁾是h_t ^(f)和h_t ^(b)的级联。

输出层是产生预测情感类型概率的标准Softmax函数。该层可以从层5映射到具有8个维度的情感向量，情感向量中的每个元素是相应情感的概率。

可以将根据图9建立的语音情感分类器用于检测语音段的情感。例如，如图9所示，当在输入层中输入语音段时，可以从输出层输出情感向量，并且可以选择8类情感中具有最高概率的情感作为该语音段的情感或主要情感。

图10示出了根据实施例的用于控制语音消息发送的示例性方法1000的流程图。可以在方法1000中采用根据图9建立的语音情感分类器。

在1002处，可以获得语音段。例如，聊天机器人可以在图5中的508或图6中的606处接收语音段。

在1004处，可以将语音情感分类器用于检测语音段的情感。在一种实施方式中，语音情感分类器可以区分8类情感，因此语音情感分类器可以将语音段分类到8类情感之一。

在1006处，确定检测到的情感是否为负面的。在一种实施方式中，可以将愤怒的、恐惧的、轻蔑的、悲伤的和厌恶的情感中的任何一个确定为负面情感，而将高兴的、吃惊的和中性的情感确定为非负面情感。在另一种实施方式中，也可以将吃惊的情感确定为负面情感。

如果确定语音段的情感是负面的，则在1008处，聊天机器人可以禁止发送基于该语音段生成的语音消息。否则，如果确定语音段的情感不是负面的，则在1010处，聊天机器人可以允许发送语音消息。

通过方法1000，聊天机器人可以避免向接收者转发噪杂的、不得体的或负面的语音消息。

图11示出了根据实施例的用于执行语音转换的示例性过程1100。过程1100可以用于将语音段转换为目标语音段。因此，聊天机器人可以允许实体通过指定语音喜好来定制语音。

在1102处，可以从各种媒体收集语音。收集的语音可能有各种语音风格并且可以是各种人物的声音，例如，男人、女人、电影明星、歌手、著名公众人物等。

在1104处，可以基于所收集的语音来建立语音模型。人物的语音模型可以包含能够表征该人物的各种语音参数，例如音调。可以将为各种人物建立的语音模型进一步用于语音转换。应当理解，在1104处建立的语音模型还可以包括聊天机器人自身的语音模型，使得也可以将聊天机器人的语音模型用于语音转换。

在1106处，可以从实体获得语音段。例如，聊天机器人可以在图5中的508或图6中的606处接收语音段。

在1108处，可以对语音段执行语音到文本变换，以便获得对应于该语音段的文本。

在一种实施方式中，可以将在1108处获得的文本提供给1112处的文本到语音变换。同时，可以基于实体的语音喜好而从在1104处建立的语音模型中选择一个语音模型，并提供给1112处的文本到语音变换。例如，实体可以在发送语音的请求中指定语音喜好，其中，语音喜好可以是例如人物的名字，聊天机器人可以选择并使用与语音喜好相对应的语音模型。文本到语音变换可以基于文本和所选择的语音模型来生成目标语音段1114。目标语音段1114的音调将基于语音喜好。由此，可以实现音调级语音转换。

在一种实施方式中，在将在1108处获得的文本提供给1112处的文本到语音变换之前，可以基于语音喜好来修改文本。在一些情况下，在年龄、性别、职业、说话习惯等方面，不同的人物可能具有特殊的表达词语。例如，在日语中，如果将男孩的语言转换成女孩的语言，则应将语句的主语从男孩用来表示“我”的“俺”修改为女孩用来表示“我”的“あたし”。因此，如果应该替换文本中的词语以符合指定的人物，则可以修改在1108处获得的文本。然后，文本到语音变换可以基于所修改的文本和所选择的语音模型来生成目标语音段1114。目标语音段1114的文本和音调将基于语音喜好。因此，可以在文本级和音调级两者中实现语音转换。

在一种实施方式中，在语音转换中还可以考虑语音段的情感。在1110处，可以使用语音情感分类器来检测语音段的情感。可以基于所检测的情感来确定对输入具有时间敏感性的情感模型，并且可以将其进一步应用于1112处的文本到语音变换，以合成可以具有语音段的情感的目标语音段1114。在这种情况下，目标语音段可以被计算为：

目标语音段＝情感模型*文本到语音变换＝∫情感(T)语音(t-T)dT 公式(10)其中，T是范围包括语音段长度的时间点，情感(T)表示情感模型，语音(t-T)表示文本到语音变换。在一种实施方式中，可以将具有在情感(T)和语音(t-T)之间的卷积计算的快速傅立叶变换(FFT)应用于公式(10)的计算。

图12A示出了根据实施例的用于语音转发的示例性聊天窗口1200A。聊天窗口1200A示出聊天机器人可以在聊天流中为实体“鲍勃”转发语音消息。

实体鲍勃输入请求“发送语音给@迈克”。聊天机器人可以从该请求中确定鲍勃希望向迈克发送语音消息，并因此可以通过“好的，在说话期间请保持按住麦克风图标。注意，最长语音为60秒”来做出响应。当鲍勃按住并说话时，聊天机器人可以获得来自鲍勃的语音段。聊天机器人检测语音段的情感，并发现情感是负面的，例如厌恶的。因此，聊天机器人可以通过通知“抱歉，你的声音被检测为太负面。你能录入更正面的声音吗？”而要求鲍勃输入另一个语音段。然后，鲍勃输入36秒的新语音段。聊天机器人可以接收新语音段并且确定新语音段的情感不是负面的。在基于新语音段生成语音消息之后，聊天机器人向鲍勃发送语音消息，并通过询问“你确定发送它？”来向鲍勃确认是否发送该语音消息。鲍勃通过“确定”来做出响应，以确认发送该语音消息。在发送语音消息之后，聊天机器人可以通知鲍勃“已将语音消息发送给迈克”。

图12B示出了根据实施例的用于语音转发的示例性聊天窗口1200B。聊天窗口1200B示出了聊天机器人可以在聊天流中将图12A中的语音消息转发给实体“迈克”。

聊天机器人可以向迈克发送消息通知“你从@鲍勃接收到36秒的具有高兴的主要情感的语音消息。在收听时请保持按住扬声器图标”。消息通知包括语音消息的长度、情感、发送者信息、收听指导等。然后，迈克可以通过按住扬声器图标来进行响应。因此，聊天机器人可以向迈克发送语音消息。

图13A示出了根据实施例的用于语音转发的示例性聊天窗口1300A。聊天窗口1300A示出了聊天机器人可以在聊天流中为实体“鲍勃”匿名地并以指定人物的声音来转发语音消息。

实体鲍勃输入请求“用安吉丽娜·朱莉的声音向@迈克和@埃拉匿名发送语音”。聊天机器人可以从该请求中确定鲍勃要向两个接收者发送语音消息，而且鲍勃希望匿名地并用安吉丽娜·朱莉的声音来发送语音消息。在从鲍勃接收到语音段之后，聊天机器人可以基于鲍勃的语音喜好，例如，用安吉丽娜·朱莉的声音，来生成语音消息。聊天机器人可以向鲍勃确认是否发送该语音消息。当从鲍勃获得确认时，聊天机器人可以向接收者迈克和埃拉发送该语音消息。

图13B示出了根据实施例的用于语音转发的示例性聊天窗口1300B。聊天窗口1300B示出聊天机器人可以在聊天流中向实体“迈克”转发图13A中的匿名语音消息。

聊天机器人可以向迈克发送消息通知“你接收到45秒的具有高兴的主要情感的匿名语音消息。在收听时请保持按住扬声器图标”。消息通知包括语音消息的长度、情感、收听指导等，但不包括发送者信息。然后，迈克可以通过按住扬声器图标来进行响应。因此，聊天机器人可以向迈克发送匿名语音消息。迈克可以听到采用了安吉丽娜·朱莉的声音而不是鲍勃的声音的匿名语音消息。

应当理解，聊天机器人可以以与图13B所示相同的方式向另一接收者“埃拉”转发匿名语音消息。

图14A示出了根据实施例的用于语音转发的示例性聊天窗口1400A。聊天窗口1400A示出了聊天机器人可以在聊天流中为实体“鲍勃”转发随机语音瓶。

实体鲍勃输入请求“发送随机语音瓶”。聊天机器人可以从该请求中确定鲍勃想要发送随机语音瓶。在从鲍勃接收到语音段之后，聊天机器人可以基于该语音段来生成随机语音瓶，并且存储随机语音瓶。

图14B示出了根据实施例的用于语音转发的示例性聊天窗口1400B。聊天窗口1400B示出了聊天机器人可以在聊天流中向实体“简”转发图14A中的随机语音瓶。

实体简输入请求“拾取瓶子”。聊天机器人可以从该请求中确定简想要接收随机语音瓶。聊天机器人可以提取在图14A中生成的随机语音瓶，并向简发送消息通知“好的。这是来自@鲍勃的20秒的具有中性的主要情感的语音。在收听时请保持按住扬声器图标”。简可以通过按住扬声器图标来进行响应，并且聊天机器人可以向简发送随机语音瓶。

应当理解，图12A至图14B所示的聊天窗口是示例性的，根据具体应用和场景，根据本公开的实施例的聊天窗口可以以各种方式改变。

图15示出了根据实施例的用于自动聊天中的语音转发的示例性方法1500的流程图。

在1510处，可以从服务组中的第一实体接收用于发送语音段的第一请求。服务组可以包括多个实体。

在1520处，可以从第一实体接收语音段。

在1530处，可以基于语音段生成语音消息。

在1540处，可以基于第一请求发送语音消息。

在一种实施方式中，方法1500还可以包括：基于第一请求确定服务组中的至少一个第二实体。所述发送语音消息可以包括：向至少一个第二实体发送语音消息。

在一种实施方式中，方法1500还可以包括：确定第一请求指示随机发送语音段，例如，发送随机语音瓶；以及从服务组中的第二实体接收用于获得随机发送的语音消息的第二请求。所述发送语音消息可以包括：向第二实体发送语音消息。

在一种实施方式中，方法1500还可以包括：确定第一请求指示以不表明第一实体的方式发送语音段。所述发送语音消息可以包括：以不表明第一实体的方式发送语音消息。例如，可以匿名地发送语音消息。

在一种实施方式中，所述生成语音消息可以包括：将语音段包括在语音消息中。

在一种实施方式中，所述生成语音消息可以包括：从第一请求中检测语音喜好的指示；基于语音喜好将语音段转换为目标语音段；以及将目标语音段包括在语音消息中。

在一种实施方式中，所述转换可以包括：将语音段变换为文本；以及将所述文本变换为目标语音段，目标语音段的音调基于语音喜好。

在一种实施方式中，所述转换可以包括：将语音段变换为文本；基于语音喜好修改所述文本；以及将所修改的文本变换为目标语音段，目标语音段的音调基于语音喜好。

在一种实施方式中，方法1500可以包括检测语音段的情感，并且所述转换可以进一步基于所述情感。

在一种实施方式中，方法1500还可以包括：向第一实体发送语音消息。所述发送语音消息可以包括：如果从第一实体接收到发送语音消息的确认，则发送语音消息。

在一种实施方式中，方法1500还可以包括：检测语音段的情感；至少基于所述情感生成消息通知；以及基于所述第一请求发送所述消息通知。

在一种实施方式中，方法1500还可以包括：检测语音段的情感；以及如果所述情感是负面的，则禁止发送语音消息。

在一种实施方式中，情感的检测可以基于通过深度学习建立的语音情感分类器。

在一种实施方式中，方法1500还可以包括：如果已将语音消息发送预定次数，则停止发送语音消息。

在一种实施方式中，语音段可以被限制在时间阈值以内的长度。

应当理解，方法1500还可以包括根据上述本公开实施例的用于自动聊天中的语音转发的任何步骤/过程。

图16示出了根据实施例的用于自动聊天中的语音转发的示例性装置1600。

装置1600可以包括：请求接收模块1610，用于从服务组中的第一实体接收用于发送语音段的第一请求；语音段接收模块1620，用于从第一实体接收语音段；语音消息生成模块1630，用于基于语音段生成语音消息；以及语音消息发送模块1640，用于基于第一请求发送语音消息。

在一种实施方式中，装置1600还可以包括：实体确定模块，用于基于第一请求确定服务组中的至少一个第二实体。语音消息发送模块1640还可以用于向至少一个第二实体发送语音消息。

在一种实施方式中，装置1600还可以包括：随机发送确定模块，用于确定第一请求指示随机发送语音段。请求接收模块1610还可以用于从服务组中的第二实体接收用于获得随机发送的语音消息的第二请求。语音消息发送模块1640还可以用于向第二实体发送语音消息。

在一种实施方式中，语音消息生成模块还可以用于：从第一请求中检测语音喜好的指示；基于语音喜好将语音段转换为目标语音段；并且将目标语音段包括在语音消息中。装置1600还可以包括：情感检测模块，用于检测语音段的情感。所述转换可以进一步基于所述情感。

此外，装置1600还可以包括被配置为执行根据上述本公开实施例的用于自动聊天中的语音转发的方法的任何操作的任何其它模块。

图17示出了根据实施例的用于自动聊天中的语音转发的示例性装置1700。

装置1700可以包括处理器1710。装置1700还可以包括与处理器1710连接的存储器1720。存储器1720可以存储计算机可执行指令，当所述计算机可执行指令被执行时，使得处理器1710执行根据上述本公开实施例的用于自动聊天中的语音转发的方法的任何操作。

本公开的实施例可以实施在非暂时性计算机可读介质中。该非暂时性计算机可读介质可以包括指令，当所述指令被执行时，使得一个或多个处理器执行根据上述本公开实施例的用于自动聊天中的语音转发的方法的任何操作。

应当理解，以上描述的方法中的所有操作都仅仅是示例性的，本公开并不限制于方法中的任何操作或这些操作的顺序，而是应当涵盖在相同或相似构思下的所有其它等同变换。

还应当理解，以上描述的装置中的所有模块都可以通过各种方式来实施。这些模块可以被实施为硬件、软件、或其组合。此外，这些模块中的任何模块可以在功能上被进一步划分成子模块或组合在一起。

已经结合各种装置和方法描述了处理器。这些处理器可以使用电子硬件、计算机软件或其任意组合来实施。这些处理器是实施为硬件还是软件将取决于具体的应用以及施加在系统上的总体设计约束。作为示例，本公开中给出的处理器、处理器的任意部分、或者处理器的任意组合可以实施为微处理器、微控制器、数字信号处理器(DSP)、现场可编程门阵列(FPGA)、可编程逻辑器件(PLD)、状态机、门逻辑、分立硬件电路、以及配置用于执行在本公开中描述的各种功能的其它适合的处理部件。本公开给出的处理器、处理器的任意部分、或者处理器的任意组合的功能可以实施为由微处理器、微控制器、DSP或其它适合的平台所执行的软件。

软件应当被广泛地视为表示指令、指令集、代码、代码段、程序代码、程序、子程序、软件模块、应用、软件应用、软件包、例程、子例程、对象、运行线程、过程、函数等。软件可以驻留在计算机可读介质中。计算机可读介质可以包括例如存储器，存储器可以例如为磁性存储设备(如，硬盘、软盘、磁条)、光盘、智能卡、闪存设备、随机存取存储器(RAM)、只读存储器(ROM)、可编程ROM(PROM)、可擦除PROM(EPROM)、电可擦除PROM(EEPROM)、寄存器或者可移动盘。尽管在本公开给出的多个方面中将存储器示出为是与处理器分离的，但是存储器也可以位于处理器内部(如，缓存或寄存器)。

以上描述被提供用于使得本领域任何技术人员可以实施本文所描述的各个方面。这些方面的各种修改对于本领域技术人员是显而易见的，本文限定的一般性原理可以应用于其它方面。因此，权利要求并非旨在被局限于本文示出的方面。关于本领域技术人员已知或即将获知的、对本公开所描述各个方面的元素的所有结构和功能上的等同变换，都将通过引用而明确地包含到本文中，并且旨在由权利要求所覆盖。

Claims

1.一种用于自动聊天中的语音转发的方法，包括：

由聊天机器人从一组用户中的第一实体接收用于发送语音段的第一请求；

由所述聊天机器人从所述第一实体接收所述语音段；

由所述聊天机器人从所述第一请求中检测语音喜好的指示；

由所述聊天机器人检测所述语音段的情感；

由所述聊天机器人基于所述语音喜好和所述情感将所述语音段转换为目标语音段；

由所述聊天机器人基于所述目标语音段生成语音消息；以及

由所述聊天机器人基于所述第一请求发送所述语音消息，或者如果所述情感是负面的，则禁止所述基于所述第一请求发送所述语音消息。

2.根据权利要求1所述的方法，

还包括：基于所述第一请求确定所述一组用户中的至少一个第二实体，其中，所述基于所述第一请求发送所述语音消息包括向所述至少一个第二实体发送所述语音消息，

或者还包括：确定所述第一请求指示随机发送所述语音段；以及从所述一组用户中的第二实体接收用于获得随机发送的语音消息的第二请求，其中，所述基于所述第一请求发送所述语音消息包括将所述语音消息作为随机发送的语音消息而随机地发送给所述第二实体。

3.根据权利要求1所述的方法，还包括：

确定所述第一请求指示以不表明所述第一实体的方式发送所述语音段，

其中，所述基于所述第一请求发送所述语音消息包括：以所述不表明所述第一实体的方式发送所述语音消息。

4.根据权利要求1所述的方法，其中，所述生成所述语音消息包括：

将所述目标语音段包括在所述语音消息中。

5.根据权利要求4所述的方法，其中，所述生成所述语音消息包括：从所述第一请求中检测语音喜好的指示；基于所述语音喜好将所述语音段转换为目标语音段；以及将所述目标语音段包括在所述语音消息中，

其中，所述转换包括：将所述语音段变换为文本；以及将所述文本变换为所述目标语音段，所述目标语音段的音调基于所述语音喜好，

或者，其中，所述转换包括：将所述语音段变换为文本；基于所述语音喜好修改所述文本；以及将所修改的文本变换为所述目标语音段，所述目标语音段的音调基于所述语音喜好。

6.根据权利要求4所述的方法，其中，所述生成所述语音消息包括：从所述第一请求中检测语音喜好的指示；基于所述语音喜好将所述语音段转换为目标语音段；以及将所述目标语音段包括在所述语音消息中，

其中，对所述情感的所述检测是基于通过深度学习而建立的语音情感分类器的。

7.根据权利要求1所述的方法，还包括：

向所述第一实体发送所述语音消息，

其中，所述基于所述第一请求发送所述语音消息包括：如果从所述第一实体接收到发送所述语音消息的确认，则发送所述语音消息。

8.根据权利要求1所述的方法，还包括：

至少基于所述情感生成消息通知；以及

基于所述第一请求发送所述消息通知，

9.根据权利要求1所述的方法，其中，

对所述情感的所述检测是基于通过深度学习而建立的语音情感分类器的。

10.根据权利要求1所述的方法，还包括：

如果已将所述语音消息发送预定次数，则停止基于所述第一请求发送所述语音消息。

11.根据权利要求1所述的方法，其中，

所述语音段被限制在时间阈值以内的长度。

12.一种用于自动聊天中的语音转发的装置，包括：

请求接收模块，用于从一组用户中的第一实体接收用于发送语音段的第一请求；

语音段接收模块，用于从所述第一实体接收所述语音段；

语音消息生成模块，用于：从所述第一请求中检测语音喜好的指示；检测所述语音段的情感；基于所述语音喜好和所述情感将所述语音段转换为目标语音段；以及基于所述目标语音段生成语音消息；以及

语音消息发送模块，用于基于所述第一请求发送所述语音消息，或者如果所述情感是负面的，则禁止所述基于所述第一请求发送所述语音消息。

13.根据权利要求12所述的装置，还包括：

实体确定模块，用于基于所述第一请求确定所述一组用户中的至少一个第二实体，

其中，所述语音消息发送模块还用于：基于所述第一请求向所述至少一个第二实体发送所述语音消息。

14.根据权利要求12所述的装置，还包括：

随机发送确定模块，用于确定所述第一请求指示随机发送所述语音段，

其中，所述请求接收模块还用于从所述一组用户中的第二实体接收用于获得随机发送的语音消息的第二请求，并且

其中，所述语音消息发送模块还用于：基于所述第一请求，将所述语音消息作为随机发送的语音消息而发送给所述第二实体。

15.根据权利要求12所述的装置，

其中，所述语音消息生成模块还用于：从所述第一请求中检测语音喜好的指示；基于所述语音喜好将所述语音段转换为目标语音段；以及将所述目标语音段包括在所述语音消息中，并且

其中，所述装置还包括：情感检测模块，用于检测所述语音段的情感，其中，所述转换进一步基于所述情感。