CN111540361B

CN111540361B - 一种语音处理方法、装置和介质

Info

Publication number: CN111540361B
Application number: CN202010225590.3A
Authority: CN
Inventors: 韩旭; 吴志强; 刘敏; 王珊; 朱建华; 刘家琛
Original assignee: Beijing Sogou Technology Development Co Ltd
Current assignee: Beijing Sogou Technology Development Co Ltd
Priority date: 2020-03-26
Filing date: 2020-03-26
Publication date: 2023-08-18
Anticipated expiration: 2040-03-26
Also published as: CN111540361A

Abstract

本发明实施例提供了一种语音处理方法、装置和介质，其中的方法具体包括：依据语义特征和/或音色特征，确定待评论语音内容与已评论语音内容之间的匹配信息；依据所述匹配信息，按顺序对所述已评论语音内容进行发布。本发明实施例可以增加待评论语音内容与发布的已评论语音内容之间的连贯性、以及增强已评论语音内容的质量。

Description

一种语音处理方法、装置和介质

技术领域

本发明涉及通信技术领域，尤其涉及一种语音处理方法、一种语音处理装置、一种用于语音处理的装置和一种机器可读介质。

背景技术

随着通信技术的发展，用户的社交行为和需求不断发生着变化。第一用户可以在发布的主贴中携带语音内容，第二用户或第一用户可以发表针对该主贴的评论语音内容，以提高用户之间的互动性。

目前，通常按照评论语音内容对应的点赞数量和/或评论时间，对评论语音内容进行排序。例如，可以将点赞数量多的评论语音内容排在靠前位置。或者，将评论时间新的评论语音内容排在靠前位置。

发明人在实施本发明实施例的过程中发现，按照目前的排序规则，排在靠前位置的评论语音内容并不一定与主贴相符。例如，主贴中携带的语音内容为“大家一起来报数，我先来，1”，而按照目前的排序规则，将评论时间最新的评论语音内容“来唱歌吧”与主贴并不相符，这导致用户体验较差。

发明内容

本发明实施例提供一种语音处理方法、语音处理装置、用于语音处理的装置、以及一种机器可读介质，可以增加待评论语音内容与发布的已评论语音内容之间的连贯性、以及增强已评论语音内容的质量。

为了解决上述问题，本发明实施例公开了一种语音处理方法，包括：

依据语义特征和/或音色特征，确定待评论语音内容与已评论语音内容之间的匹配信息；

依据所述匹配信息，按顺序对所述已评论语音内容进行发布。

另一方面，本发明实施例公开了一种语音处理装置，包括：

匹配信息确定模块，用于依据语义特征和/或音色特征，确定待评论语音内容与已评论语音内容之间的匹配信息；以及

发布模块，用于依据所述匹配信息，按顺序对所述已评论语音内容进行发布。

再一方面，本发明实施例公开了一种用于语音处理的装置，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

又一方面，本发明实施例公开了一个或多个机器可读介质，其上存储有指令，当由一个或多个处理器执行时，使得装置执行前述一个或多个所述的语音处理方法。

本发明实施例包括以下优点：

本发明实施例中，依据匹配信息按顺序对评论语音内容进行发布。由于上述匹配信息可以表征待评论语音内容与已评论语音内容在语义特征和/或音色特征方面的匹配信息；故本发明实施例能够将与待评论语音内容在语义特征和/或音色特征方面更匹配的评论语音内容进行发布，因此能够依据匹配信息将与待评论语音内容相关联的已评论语音内容聚合在一起以发布；这样，能够增加待评论语音内容与发布的已评论语音内容之间的连贯性、以及增强已评论语音内容的质量，进而能够提升待评论语音内容的关注度和流量，以及提升用户体验。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明的一种语音处理方法实施例一的步骤流程图；

图2是本发明的一种语音处理方法实施例二的步骤流程图；

图3是本发明的一种语音处理方法实施例三的步骤流程图；

图4是本发明的一种语音处理方法实施例四的步骤流程图；

图5是本发明的一种语音处理装置实施例的结构框图；

图6是本发明的另一种语音处理装置实施例的结构框图；

图7是本发明的一种用于语音处理的装置900的框图；及

图8是本发明的一些实施例中服务器的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例可以应用于语音评论场景。在语音评论场景下，第一用户发布待评论语音内容，例如，可以主贴区域发布待评论语音内容。第一用户或第二用户可以针对待评论语音内容进行评论，以得到已评论语音内容。已评论语音内容可以为多个，本发明实施例的一个目的在于从多个已评论语音内容中确定出与待评论语音内容相关联的已评论语音内容。

本发明实施例提供了一种语音处理方案，该方案具体包括：依据语义特征和/或音色特征，确定待评论语音内容与已评论语音内容之间的匹配信息；依据上述匹配信息，按顺序对上述已评论语音内容进行发布。

本发明实施例依据匹配信息对已评论语音内容进行发布。由于上述匹配信息可以表征待评论语音内容与已评论语音内容在语义特征和/或音色特征方面的匹配信息；故本发明实施例能够将与待评论语音内容在语义特征和/或音色特征方面更匹配的评论语音内容进行发布，因此能够依据匹配信息将与待评论语音内容相关联的已评论语音内容聚合在一起以发布；这样，能够增加待评论语音内容与目标已评论语音内容之间的连贯性、以及增强已评论语音内容的质量，进而能够提升待评论语音内容的关注度和流量，以及提升用户体验。

本发明实施例提供的语音处理方法可应用于客户端和服务端对应的应用环境中，客户端与服务端位于有线或无线网络中，经由该有线或无线网络，客户端与服务端进行数据交互。

可选地，客户端可以运行在终端上，上述终端具体包括但不限：智能手机、平板电脑、电子书阅读器、MP3(动态影像专家压缩标准音频层面3，Moving Picture ExpertsGroup Audio Layer III)播放器、MP4(动态影像专家压缩标准音频层面4，Moving PictureExperts Group Audio Layer IV)播放器、膝上型便携计算机、车载电脑、台式计算机、机顶盒、智能电视机、可穿戴设备、翻译终端等等。可选地，客户端可以对应任意的应用程序，如语音翻译程序等。

本发明实施例的终端可以具有语音采集装置，以采集用户输入的待评论语音内容、或者已评论语音内容。语音采集装置可以包括：麦克风等。

本发明实施例的终端可以具有语音播放装置，以对待评论语音内容、或者已评论语音内容进行播放。语音播放装置可以包括：耳机或音箱等。

方法实施例一

参照图1，示出了本发明的一种语音处理方法实施例一的步骤流程图，具体可以包括：

步骤101、依据语义特征和/或音色特征，确定待评论语音内容与已评论语音内容之间的匹配信息；

步骤102、依据上述匹配信息，按顺序对上述已评论语音内容进行发布。

图1所示方法实施例一可由客户端或服务端执行，当然本发明实施例对于方法实施例一对应的具体执行主体不加以限制。

步骤101中，语义特征可以表征语言所蕴含的意义。本发明实施例可以理解利用自然语言理解方法，确定待评论语音内容与已评论语音内容分别对应的语义特征。

自然语言理解方法可以包括：分词方法、句法分析方法、关键词提取方法、向量表示方法、机器学习方法等。相应地，语义特征可以包括：关键词特征、或者主题特征、或者字符特征、或者向量特征等。

在本发明的一种可选实施例中，可以采用TF-IDF(词频、逆向文件频率，TermFrequency/Inverse Document Frequency)、或者TextRank(文本排名)方法，从待评论语音内容、或者评论语音内容中提取关键词，以得到对应的关键词特征。

主题可以表征待评论语音内容、或者评论语音内容所表现的中心思想。

本发明实施例可以采用机器学习方法，确定待评论语音内容、或者评论语音内容对应的主题特征。例如，可以采用fasttext(快速文本)方法，对待评论语音内容、或者评论语音内容进行文本分类，并将得到的类别标签作为对应的主题特征。

本发明实施例可以采用句法分析方法，确定待评论语音内容、或者评论语音内容对应的主题特征。可以理解，本发明实施例对于主题特征的具体确定过程不加以限制。

字符特征可以表征待评论语音内容、或者评论语音内容包括的字符。字符特征可以包括：末尾字符、开头字符、或者中间字符等。字符对应的语言单元可以包括：字或词等。

本发明实施例的匹配信息可以包括：匹配、或者不匹配。或者，匹配信息可以为具体的匹配值，例如，匹配值的范围可以为0～1。

本发明实施例可以提供确定待评论语音内容与已评论语音内容之间的匹配信息的如下技术方案：

技术方案1

技术方案1中，上述确定待评论语音内容与已评论语音内容之间的匹配信息，具体包括：确定待评论语音内容对应的第一主题特征；确定上述已评论语音内容对应的第二主题特征；依据上述第一主题特征和上述第二主题特征之间的相似度，确定待评论语音内容与已评论语音内容之间的匹配信息。

技术方案1分别确定待评论语音内容与已评论语音内容对应的第一主题特征和第二主题特征，并依据第一主题特征与第二主题特征之间的匹配信息，确定待评论语音内容与已评论语音内容之间的匹配信息。

例如，待评论语音内容为“心情不好，谁能给我唱首歌”，可以确定第一主题特征包括“唱歌”。假设已评论语音内容A包括：歌词内容，则可以确定已评论语音内容A对应的第二主题特征包括“唱歌”，因此确定待评论语音内容与已评论语音内容A之间的匹配值为1。假设已评论语音内容B包括：“唱的真好听”，则可以确定已评论语音内容B对应的第二主题特征包括“歌曲评价”，因此确定待评论语音内容与已评论语音内容B之间的匹配值为0.6。假设已评论语音内容C包括：“加油”，则可以确定已评论语音内容C对应的第二主题特征包括“加油”，因此确定待评论语音内容与已评论语音内容C之间的匹配值为0.1。

技术方案2

技术方案2中，上述确定待评论语音内容与已评论语音内容之间的匹配信息，具体包括：确定待评论语音内容对应的第一主题特征；确定上述已评论语音内容对应的第二关键词特征；依据上述第一主题特征和上述第二关键词特征之间的相似度，确定待评论语音内容与已评论语音内容之间的匹配信息。

技术方案2依据第一主题特征与第二关键词特征之间的匹配信息，确定待评论语音内容与已评论语音内容之间的匹配信息。

例如，待评论语音内容对应第一用户唱的一首歌曲A，待评论语音内容中包括歌曲A的歌词，本发明实施例可以依据歌曲A的歌词定位到歌曲A的相关信息，作为第一主题特征，如“歌曲名称”、“歌手名称”、“歌词”等。本发明实施例可以从已评论语音内容中提取第二关键词特征，如“歌曲名称”、“歌手名称”、“歌词”、或者“歌手名称的其他歌曲”等。进而可以依据第一主题特征与第二关键词特征，确定待评论语音内容与已评论语音内容之间的匹配信息。

可以理解，在本发明的其他实施例中，还可以依据上述第一关键词特征和上述第二主题特征，确定待评论语音内容与已评论语音内容之间的匹配信息。

技术方案3

技术方案3中，上述确定待评论语音内容与已评论语音内容之间的匹配信息，具体包括：确定待评论语音内容对应的第一关键词特征；确定上述已评论语音内容对应的第二关键词特征；依据上述第一关键词特征和上述第二关键词特征之间的相似度，确定待评论语音内容与已评论语音内容之间的匹配信息。

例如，待评论语音内容包括“大家一起来报数，我先来，1”，待评论语音内容对应的第一关键词特征包括“报数”，假设评论语音内容对应的第二关键词特征包括“数字”，则可以认为待评论语音内容与已评论语音内容相匹配，或者，待评论语音内容与已评论语音内容之间的匹配值为较大的第一预设值。

技术方案4

技术方案4中，上述确定待评论语音内容与已评论语音内容之间的匹配信息，具体包括：确定待评论语音内容对应的第一音色特征；确定上述已评论语音内容对应的第二音色特征；依据上述第一音色特征和上述第二音色特征之间的相似度，确定待评论语音内容与已评论语音内容之间的匹配信息。

音色(Timbre)是指声音的频率表现在波形方面的特性，音频样本的音色特征包括音频信号的频谱特性，每种音乐风格的音频都具有独特的音色特征，通过音色特征能够对具有相近音调的不同音乐风格的音频进行区分。

可选地，可以采用短时傅里叶变换对待评论语音内容或评论语音内容进行音色特征的提取，提取到的音色特征包括但不限于梅尔频率倒谱系数(MFCC，Mel-frequencyCepstrum Coefficients)、频谱中心、谱平坦度、频谱通量、频率滚降以及过零率等。音色特征具体可以采用多维音色特征向量的方式表达。

本发明实施例可以依据第一音色特征和第二音色特征之间的相似度，确定待评论语音内容与已评论语音内容之间的匹配信息。

可选地，可以采用相似度度量方法，确定第一音色特征和第二音色特征之间的相似度。相似度度量方法可以包括：余弦距离、欧式距离等。

技术方案5

技术方案5中，上述确定待评论语音内容与已评论语音内容之间的匹配信息，具体包括：确定待评论语音内容对应的末尾字符特征；确定上述已评论语音内容对应的开头字符特征；依据上述末尾字符特征与上述开头字符特征，确定待评论语音内容与已评论语音内容之间的匹配信息。

本发明实施例依据末尾字符特征与开头字符特征，确定待评论语音内容与已评论语音内容之间的匹配信息，由此可以将末尾字符特征与开头字符特征相匹配的待评论语音内容与已评论语音内容联系起来。

末尾字符特征与开头字符特征相匹配可以包括：相同、相似或相关等。例如，在数字接龙场景中，末尾字符特征为“1”，“开头字符特征”为“2”，则末尾字符特征与开头字符特征相匹配。又如，在成语接龙场景中，待评论语音内容与已评论语音内容分别为“一心一意”和“意气风发”，则末尾字符特征与开头字符特征相匹配等。当然，本发明实施例还可以应用于诗词接龙、小说接龙等场景。

在本发明的一种可选实施例中，上述方法还可以包括：从已评论语音内容中确定出匹配信息符合第一预设条件的第一已评论语音内容；依据上述第一已评论语音内容的末尾字符特征、以及第一集合中评论语音内容的开头字符特征，从上述第一集合中确定出与所示第一已评论语音内容相匹配的第二已评论语音内容；上述第一集合包括：除上述第一已评论语音内容之外的评论语音内容；此种情况下，可以依次对上述第一已评论语音内容和上述第二已评论语音内容进行发布。

本发明实施例可以首先确定与已评论语音内容相匹配的第一已评论语音内容，然后确定与第一已评论语音内容相匹配的第二已评论语音内容，并依次对上述第一已评论语音内容和上述第二已评论语音内容进行发布，以呈现字符的接龙效果。

第一预设条件对应的匹配信息可以表征第一已评论语音内容与待评论语音内容相匹配。例如，第一预设条件为：匹配信息对应的匹配值大于第二预设值等。

在本发明的一种可选实施例中，上述方法还可以包括：依据上述第二已评论语音内容的末尾字符特征、以及第二集合中评论语音内容的开头字符特征，从上述第二集合中确定出与上述第二已评论语音内容相匹配的第三已评论语音内容；上述第二集合包括：除上述第一已评论语音内容和上述第二已评论语音内容之外的评论语音内容；此种情况下，可以依次对上述第一已评论语音内容、上述第二已评论语音内容和上述第三已评论语音内容进行发布。

为了实现接龙需求，本发明实施例可以继续确定与上述第二已评论语音内容相匹配的第三已评论语音内容，以将第三已评论语音内容发布在第二已评论语音内容的后面。

可以理解，本发明实施例还可以确定与上述第三已评论语音内容相匹配的第四已评论语音内容，以将第四已评论语音内容发布在第三已评论语音内容的后面。在第四已评论语音内容之后，还可以依次确定并发布第五已评论语音内容、第六已评论语音内容、第七已评论语音内容、第八已评论语音内容、…等。

以上通过技术方案1至技术方案5对确定待评论语音内容与已评论语音内容之间的匹配信息的过程进行了详细介绍，可以理解，本领域技术人员可以根据实际应用需求，采用技术方案1至技术方案5中的任一或组合。

步骤102中，可以按照匹配信息对应的匹配值从高到低的顺序，对上述已评论语音内容进行发布，以将与待评论语音内容在语义特征和/或音色特征方面更匹配的已评论语音内容集中发布，因此能够提高已评论语音内容的发布效果的合理度，进而提升用户体验。

可选地，本发明实施例在对上述已评论语音内容进行发布的过程中，可以采用多种排序特征。具体地，除了采用匹配信息这一种排序特征之外，还可以采用点赞数量、评论时间等其他排序特征。例如，在多个已评论语音内容的匹配信息相接近的情况下，可以依据点赞数量和/或评论时间，对相接近的已评论语音内容进行区分。

本发明实施例中，可以对步骤102得到的发布结果进行输出。例如，服务端可以向客户端输出发布结果。又如，客户端可以对发布结果进行展示等，例如，客户端可以将发布结果展示在待评论语音内容对应的主贴区域，或者，将发布结果展示在已评论语音内容所在的评论区域，以供用户收听。

可选地，客户端展示发布结果，具体包括：针对发布结果中的一条已评论语音内容，展示其对应的用户信息和时长信息，用户信息可以为用户头像等。其中，用户信息和时长信息可以分别对应有独立的展示区域，或者，用户信息和时长信息可以共用展示区域，例如，在展示区域内时长信息位于用户信息的上层等。

综上，本申请实施例的语音处理方法，依据匹配信息对评论语音内容进行发布。由于上述匹配信息可以表征待评论语音内容与已评论语音内容在语义特征和/或音色特征方面的匹配信息；故本发明实施例能够将与待评论语音内容在语义特征和/或音色特征方面更匹配的评论语音内容进行发布，因此能够依据匹配信息将与待评论语音内容相关联的已评论语音内容聚合在一起以发布；这样，能够增加待评论语音内容与目标已评论语音内容之间的连贯性、以及增强已评论语音内容的质量，进而能够提升待评论语音内容的关注度和流量，以及提升用户体验。

方法实施例二

参照图2，示出了本发明的一种语音处理方法实施例二的步骤流程图，具体可以包括：

步骤201、依据语义特征和/或音色特征，确定待评论语音内容与已评论语音内容之间的匹配信息；

步骤202、从已评论语音内容中确定出匹配信息符合第二预设条件的目标已评论语音内容；

步骤203、在上述待评论语音内容的展现区域，对上述目标已评论语音内容进行发布。

第二预设条件对应的匹配信息可以表征目标已评论语音内容与待评论语音内容相匹配。例如，第二预设条件可以为：目标已评论语音内容的匹配信息对应的匹配值大于第三预设值等。

本发明实施例从已评论语音内容中确定出目标已评论语音内容，并在上述待评论语音内容的展现区域对上述目标已评论语音内容进行发布，这样可以在待评论语音内容的展现区域内对与待评论语音内容相匹配的目标已评论语音内容进行嵌套展示，以提升待评论语音内容的趣味性，进而能够提升待评论语音内容的流量。

例如，主贴A中的待评论语音内容为“心情不好，谁能给我唱首歌”，则本发明实施例确定待评论语音内容对应的第一主题特征为“唱歌”，从已评论语音内容中确定出与“唱歌”相关的目标已评论语音内容，并在主贴A的展现区域内对这些目标已评论语音内容进行嵌套展示，以将与“唱歌”相关的目标已评论语音内容集中展示。

又如，主贴B中的待评论语音内容为“大家一起来报数，我先来，1”，则本发明实施例确定的目标已评论语音内容可以依次包含“2”、“3”、“4”等，并在主贴B的展现区域内对这些目标已评论语音内容进行嵌套展示，以呈现数字的接龙效果。

再如，主贴C中的待评论语音内容为“大家一起来成语接龙，我先来，一心一意”，则本发明实施例确定的当前已评论语音内容的开头字符可以与上一个已评论语音内容的末尾字符相匹配，并在主贴C的展现区域内对这些目标已评论语音内容进行嵌套展示，以呈现成语的接龙效果。

或者，主贴D中的待评论语音内容对应第一用户唱的一首歌曲A，待评论语音内容中包括歌曲A的歌词，则本发明实施例确定的目标已评论语音内容可以与歌曲A的“歌曲名称”、“歌手名称”、“歌词”等相关信息相关，以呈现针对“歌曲A”的讨论效果。

可选地，客户端在上述待评论语音内容的展现区域(简称主贴区域)对上述目标已评论语音内容进行展示，具体包括：在主贴区域内针对一条目标已评论语音内容，展示其对应的用户信息和时长信息，用户信息可以为用户头像等。其中，用户信息和时长信息可以分别对应有独立的展示区域，或者，用户信息和时长信息可以共用展示区域，例如，在展示区域内时长信息位于用户信息的上层等。

可选地，若接收到针对一个目标已评论语音内容的触发操作，则可以按照目标已评论语音内容的展示顺序，对至少一个目标已评论语音内容进行播放。具体地，首先播放触发操作对应的目标已评论语音内容，接着继续播放其他目标已评论语音内容，直至最后一个目标已评论语音内容被播放完毕。

综上，本发明实施例的语音处理方法，依据匹配信息将与待评论语音内容相关联的目标已评论语音内容聚合在一起以聚合展示，这样，能够增加待评论语音内容与目标已评论语音内容之间的连贯性、以及增强目标已评论语音内容的质量，进而能够提升待评论语音内容的关注度和流量。

方法实施例三

参照图3，示出了本发明的一种语音处理方法实施例三的步骤流程图，具体可以包括：

步骤301、接收目标已评论语音内容；上述目标评论语音对应的匹配信息符合第二预设条件，上述匹配信息可以为依据语义特征和/或音色特征确定的、待评论语音内容与已评论语音内容之间的匹配信息；

步骤302、在上述待评论语音内容的展现区域，对上述目标已评论语音内容进行展示。

本发明实施例在待评论语音内容的展现区域内对与待评论语音内容相匹配的目标已评论语音内容进行嵌套展示，以提升待评论语音内容的趣味性，进而能够提升待评论语音内容的流量。

方法实施例四

参照图4，示出了本发明的一种语音处理方法实施例四的步骤流程图，具体可以包括：

步骤401、客户端向服务端发送针对界面的刷新请求；

步骤402、服务端依据语义特征和/或音色特征，确定上述界面中待评论语音内容与已评论语音内容之间的匹配信息；

步骤403、服务端从已评论语音内容中确定出匹配信息符合第二预设条件的目标已评论语音内容；

步骤404、服务端向客户端发送上述目标已评论语音内容；

步骤405、客户端在待评论语音内容对应的主贴区域内对上述目标已评论语音内容进行展示。

例如，用户B在客户端刷新请求主贴D的帖子数据。服务端接收到客户端的刷新请求后，根据主贴D的待评论语音内容，获取主贴D对应的“音乐”特征与“歌词”特征，并依据上述“音乐”特征与“歌词”特征，在主贴D的评论区域中，获取与上述“音乐”特征与“歌词”特征相匹配的目标已评论语音内容；具体地，服务端根据匹配信息+点赞数量或评论时间，对评论语音内容进行发布，从发布结果中获取目标已评论语音内容，并向客户端发送目标已评论语音内容和发布结果。

客户端可以在主贴D的主贴区域内，对目标已评论语音内容进行嵌套展示。并且，可以在主贴D的评论区域内，按顺序对目标已评论语音内容进行展示。

本发明实施例依据匹配信息将与待评论语音内容相关联的目标已评论语音内容聚合在一起以聚合展示，这样，能够增加待评论语音内容与目标已评论语音内容之间的连贯性、以及增强目标已评论语音内容的质量，进而能够提升待评论语音内容的关注度和流量。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的运动动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的运动动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的运动动作并不一定是本发明实施例所必须的。

装置实施例

参照图5，示出了本发明的一种语音处理装置实施例的结构框图，具体可以包括：

匹配信息确定模块501，用于依据语义特征和/或音色特征，确定待评论语音内容与已评论语音内容之间的匹配信息；以及

发布模块502，用于依据所述匹配信息，按顺序对所述已评论语音内容进行发布。

可选地，匹配信息确定模块501可以包括：

第一特征确定模块，用于确定待评论语音内容对应的第一主题特征；

第二特征确定模块，用于确定所述已评论语音内容对应的第二主题特征和/或第二关键词特征；

第一匹配信息确定模块，用于依据所述第一主题特征和所述第二主题特征和/或第二关键词特征之间的相似度，确定待评论语音内容与已评论语音内容之间的匹配信息。

可选地，匹配信息确定模块501可以包括：

第三特征确定模块，用于确定待评论语音内容对应的第一关键词特征；

第四特征确定模块，用于确定所述已评论语音内容对应的第二关键词特征；

第二匹配信息确定模块，用于依据所述第一关键词特征和所述第二关键词特征之间的相似度，确定待评论语音内容与已评论语音内容之间的匹配信息。

可选地，匹配信息确定模块501可以包括：

第五特征确定模块，用于确定待评论语音内容对应的末尾字符特征；

第六特征确定模块，用于确定所述已评论语音内容对应的开头字符特征；

第三匹配信息确定模块，用于依据所述末尾字符特征与所述开头字符特征，确定待评论语音内容与已评论语音内容之间的匹配信息。

可选地，所述装置还可以包括：

第一内容确定模块，用于从已评论语音内容中确定出匹配信息符合第一预设条件的第一已评论语音内容；

第二内容确定模块，用于依据所述第一已评论语音内容的末尾字符特征、以及第一集合中已评论语音内容的开头字符特征，从所述第一集合中确定出与所示第一已评论语音内容相匹配的第二已评论语音内容；所述第一集合可以包括：除所述第一已评论语音内容之外的已评论语音内容；

所述发布模块502可以包括：

第一发布模块，用于依次对所述第一已评论语音内容和所述第二已评论语音内容进行发布。

可选地，所述装置还可以包括：

第三内容确定模块，用于依据所述第二已评论语音内容的末尾字符特征、以及第二集合中评论语音内容的开头字符特征，从所述第二集合中确定出与所述第二已评论语音内容相匹配的第三已评论语音内容；所述第二集合可以包括：除所述第一已评论语音内容和所述第二已评论语音内容之外的评论语音内容；

所述发布模块502可以包括：

第二发布模块，用于依次对所述第一已评论语音内容、所述第二已评论语音内容和所述第三已评论语音内容进行发布。

可选地，发布模块502可以包括：

第四内容确定模块，用于从已评论语音内容中确定出匹配信息符合第二预设条件的目标已评论语音内容；

第三发布模块，用于在所述待评论语音内容的展现区域对所述目标已评论语音内容进行发布。

参照图6，示出了本发明的一种语音处理装置实施例的结构框图，具体可以包括：

接收模块601，用于接收目标已评论语音内容；所述目标已评论语音内容对应的匹配信息符合第二预设条件，所述匹配信息为依据语义特征和/或音色特征确定的、待评论语音内容与已评论语音内容之间的匹配信息；

展示模块602，用于在所述待评论语音内容的展现区域，对所述目标已评论语音内容进行展示。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

本发明实施例还提供了一种用于语音处理的装置，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：依据语义特征和/或音色特征，确定待评论语音内容与已评论语音内容之间的匹配信息；依据所述匹配信息，按顺序对所述已评论语音内容进行发布。

图7是根据一示例性实施例示出的一种用于语音处理的装置900作为终端时的结构框图。例如，装置900可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图7，装置900可以包括以下一个或多个组件：处理组件902，存储器904，电源组件906，多媒体组件908，音频组件910，输入/输出(I/O)的接口912，传感器组件914，以及通信组件916。

处理组件902通常控制装置900的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件902可以包括一个或多个处理器920来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件902可以包括一个或多个模块，便于处理组件902和其他组件之间的交互。例如，处理组件902可以包括多媒体模块，以方便多媒体组件908和处理组件902之间的交互。

存储器904被配置为存储各种类型的数据以支持在装置900的操作。这些数据的示例包括用于在装置900上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器904可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件906为装置900的各种组件提供电力。电源组件906可以包括电源管理系统，一个或多个电源，及其他与为装置900生成、管理和分配电力相关联的组件。

多媒体组件908包括在所述装置900和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件908包括一个前置摄像头和/或后置摄像头。当装置900处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件910被配置为输出和/或输入音频信号。例如，音频组件910包括一个麦克风(MIC)，当装置900处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器904或经由通信组件916发送。在一些实施例中，音频组件910还包括一个扬声器，用于输出音频信号。

I/O接口912为处理组件902和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件914包括一个或多个传感器，用于为装置900提供各个方面的状态评估。例如，传感器组件914可以检测到装置900的打开/关闭状态，组件的相对定位，例如所述组件为装置900的显示器和小键盘，传感器组件914还可以检测装置900或装置900一个组件的位置改变，用户与装置900接触的存在或不存在，装置900方位或加速/减速和装置900的温度变化。传感器组件914可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件914还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件914还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件916被配置为便于装置900和其他设备之间有线或无线方式的通信。装置900可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信组件916经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件916还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，装置900可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器904，上述指令可由装置900的处理器920执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

图8是本发明的一些实施例中服务器的结构示意图。该服务器1900可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(central processingunits，CPU)1922(例如，一个或一个以上处理器)和存储器1932，一个或一个以上存储应用程序1942或数据1944的存储介质1930(例如一个或一个以上海量存储设备)。其中，存储器1932和存储介质1930可以是短暂存储或持久存储。存储在存储介质1930的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器1922可以设置为与存储介质1930通信，在服务器1900上执行存储介质1930中的一系列指令操作。

服务器1900还可以包括一个或一个以上电源1926，一个或一个以上有线或无线网络接口1950，一个或一个以上输入输出接口1958，一个或一个以上键盘1956，和/或，一个或一个以上操作系统1941，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

一种非临时性计算机可读存储介质，当所述存储介质中的指令由装置(终端或者服务器)的处理器执行时，使得装置能够执行一种语音处理方法，所述方法包括：依据语义特征和/或音色特征，确定待评论语音内容与已评论语音内容之间的匹配信息；依据所述匹配信息，按顺序对所述已评论语音内容进行发布。

本发明实施例公开了A1、一种语音处理方法，包括：

A2、根据A1所述的方法，所述确定待评论语音内容与已评论语音内容之间的匹配信息，包括：

确定待评论语音内容对应的第一主题特征；

确定所述已评论语音内容对应的第二主题特征和/或第二关键词特征；

依据所述第一主题特征和所述第二主题特征和/或第二关键词特征之间的相似度，确定待评论语音内容与已评论语音内容之间的匹配信息。

A3、根据A1所述的方法，所述确定待评论语音内容与已评论语音内容之间的匹配信息，包括：

确定待评论语音内容对应的第一关键词特征；

确定所述已评论语音内容对应的第二关键词特征；

依据所述第一关键词特征和所述第二关键词特征之间的相似度，确定待评论语音内容与已评论语音内容之间的匹配信息。

A4、根据A1所述的方法，所述确定待评论语音内容与已评论语音内容之间的匹配信息，包括：

确定待评论语音内容对应的末尾字符特征；

确定所述已评论语音内容对应的开头字符特征；

依据所述末尾字符特征与所述开头字符特征，确定待评论语音内容与已评论语音内容之间的匹配信息。

A5、根据A4所述的方法，所述方法还包括：

从已评论语音内容中确定出匹配信息符合第一预设条件的第一已评论语音内容；

依据所述第一已评论语音内容的末尾字符特征、以及第一集合中已评论语音内容的开头字符特征，从所述第一集合中确定出与所示第一已评论语音内容相匹配的第二已评论语音内容；所述第一集合包括：除所述第一已评论语音内容之外的已评论语音内容；

所述按顺序对所述已评论语音内容进行发布，包括：

依次对所述第一已评论语音内容和所述第二已评论语音内容进行发布。

A6、根据A5所述的方法，所述方法还包括：

依据所述第二已评论语音内容的末尾字符特征、以及第二集合中评论语音内容的开头字符特征，从所述第二集合中确定出与所述第二已评论语音内容相匹配的第三已评论语音内容；所述第二集合包括：除所述第一已评论语音内容和所述第二已评论语音内容之外的评论语音内容；

所述按顺序对所述已评论语音内容进行发布，包括：

依次对所述第一已评论语音内容、所述第二已评论语音内容和所述第三已评论语音内容进行发布。

A7、根据A1至A4中任一所述的方法，所述按顺序对所述已评论语音内容进行发布，包括：

从已评论语音内容中确定出匹配信息符合第二预设条件的目标已评论语音内容；

在所述待评论语音内容的展现区域对所述目标已评论语音内容进行发布。

本发明实施例公开了B8、一种语音处理方法，所述方法包括：

接收目标已评论语音内容；所述目标已评论语音内容对应的匹配信息符合第二预设条件，所述匹配信息为依据语义特征和/或音色特征确定的、待评论语音内容与已评论语音内容之间的匹配信息；

在所述待评论语音内容的展现区域，对所述目标已评论语音内容进行展示。

本发明实施例公开了C9、一种语音处理装置，所述装置包括：

C10、根据C9所述的装置，所述匹配信息确定模块包括：

C11、根据C9所述的装置，所述匹配信息确定模块包括：

C12、根据C9所述的装置，所述匹配信息确定模块包括：

C13、根据C12所述的装置，所述装置还包括：

第二内容确定模块，用于依据所述第一已评论语音内容的末尾字符特征、以及第一集合中已评论语音内容的开头字符特征，从所述第一集合中确定出与所示第一已评论语音内容相匹配的第二已评论语音内容；所述第一集合包括：除所述第一已评论语音内容之外的已评论语音内容；

所述发布模块包括：

C14、根据C13所述的装置，所述装置还包括：

第三内容确定模块，用于依据所述第二已评论语音内容的末尾字符特征、以及第二集合中评论语音内容的开头字符特征，从所述第二集合中确定出与所述第二已评论语音内容相匹配的第三已评论语音内容；所述第二集合包括：除所述第一已评论语音内容和所述第二已评论语音内容之外的评论语音内容；

所述发布模块包括：

C15、根据C9至C12中任一所述的装置，所述发布模块，包括：

本发明实施例公开了D16、一种语音处理装置，所述装置包括：

接收模块，用于接收目标已评论语音内容；所述目标已评论语音内容对应的匹配信息符合第二预设条件，所述匹配信息为依据语义特征和/或音色特征确定的、待评论语音内容与已评论语音内容之间的匹配信息；

展示模块，用于在所述待评论语音内容的展现区域，对所述目标已评论语音内容进行展示。

本发明实施例公开了E17、一种用于语音处理的装置，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

E18、根据E17所述的装置，所述确定待评论语音内容与已评论语音内容之间的匹配信息，包括：

确定待评论语音内容对应的第一主题特征；

E19、根据E17所述的装置，所述确定待评论语音内容与已评论语音内容之间的匹配信息，包括：

确定待评论语音内容对应的第一关键词特征；

确定所述已评论语音内容对应的第二关键词特征；

E20、根据E17所述的装置，所述确定待评论语音内容与已评论语音内容之间的匹配信息，包括：

确定待评论语音内容对应的末尾字符特征；

确定所述已评论语音内容对应的开头字符特征；

E21、根据E20所述的装置，所述装置还经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

所述按顺序对所述已评论语音内容进行发布，包括：

E22、根据E21所述的装置，所述装置还经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

所述按顺序对所述已评论语音内容进行发布，包括：

E23、根据E17至E20中任一所述的装置，所述按顺序对所述已评论语音内容进行发布，包括：

本发明实施例公开了F24、一种用于语音处理的装置，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

本发明实施例公开了G25、一个或多个机器可读介质，其上存储有指令，当由一个或多个处理器执行时，使得装置执行如A1至A7中一个或多个所述的语音处理方法。

本发明实施例公开了H26、一个或多个机器可读介质，其上存储有指令，当由一个或多个处理器执行时，使得装置执行如A1至A7中一个或多个所述的语音处理方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本发明旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求指出。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

以上对本发明所提供的一种语音处理方法、一种语音处理装置和一种用于语音处理的装置、以及一种机器可读介质，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种语音处理方法，其特征在于，所述方法包括：

依据语义特征和/或音色特征，确定待评论语音内容与已评论语音内容之间的匹配信息，所述语义特征是分别从所述待评论语音内容与所述已评论语音内容中通过自然语言理解方法确定的，所述音色特征用于对具有相近音调的不同音乐风格的音频进行区分；

2.根据权利要求1所述的方法，其特征在于，所述确定待评论语音内容与已评论语音内容之间的匹配信息，包括：

确定待评论语音内容对应的第一主题特征；

3.根据权利要求1所述的方法，其特征在于，所述确定待评论语音内容与已评论语音内容之间的匹配信息，包括：

确定待评论语音内容对应的第一关键词特征；

确定所述已评论语音内容对应的第二关键词特征；

4.根据权利要求1所述的方法，其特征在于，所述确定待评论语音内容与已评论语音内容之间的匹配信息，包括：

确定待评论语音内容对应的末尾字符特征；

确定所述已评论语音内容对应的开头字符特征；

5.根据权利要求4所述的方法，其特征在于，所述方法还包括：

所述按顺序对所述已评论语音内容进行发布，包括：

6.根据权利要求5所述的方法，其特征在于，所述方法还包括：

所述按顺序对所述已评论语音内容进行发布，包括：

7.根据权利要求1至4中任一所述的方法，其特征在于，所述按顺序对所述已评论语音内容进行发布，包括：

8.一种语音处理方法，其特征在于，所述方法包括：

接收目标已评论语音内容；所述目标已评论语音内容对应的匹配信息符合第二预设条件，所述匹配信息为依据语义特征和/或音色特征确定的、待评论语音内容与已评论语音内容之间的匹配信息，所述语义特征是分别从所述待评论语音内容与所述已评论语音内容中通过自然语言理解方法确定的，所述音色特征用于对具有相近音调的不同音乐风格的音频进行区分；

9.一种语音处理装置，其特征在于，所述装置包括：

匹配信息确定模块，用于依据语义特征和/或音色特征，确定待评论语音内容与已评论语音内容之间的匹配信息，所述语义特征是分别从所述待评论语音内容与所述已评论语音内容中通过自然语言理解方法确定的，所述音色特征用于对具有相近音调的不同音乐风格的音频进行区分；以及

10.根据权利要求9所述的装置，其特征在于，所述匹配信息确定模块包括：

11.根据权利要求9所述的装置，其特征在于，所述匹配信息确定模块包括：

12.根据权利要求9所述的装置，其特征在于，所述匹配信息确定模块包括：

13.根据权利要求12所述的装置，其特征在于，所述装置还包括：

所述发布模块包括：

14.根据权利要求13所述的装置，其特征在于，所述装置还包括：

所述发布模块包括：

15.根据权利要求9至12中任一所述的装置，其特征在于，所述发布模块，包括：

16.一种语音处理装置，其特征在于，所述装置包括：

接收模块，用于接收目标已评论语音内容；所述目标已评论语音内容对应的匹配信息符合第二预设条件，所述匹配信息为依据语义特征和/或音色特征确定的、待评论语音内容与已评论语音内容之间的匹配信息，所述语义特征是分别从所述待评论语音内容与所述已评论语音内容中通过自然语言理解方法确定的，所述音色特征用于对具有相近音调的不同音乐风格的音频进行区分；

17.一种用于语音处理的装置，其特征在于，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

18.根据权利要求17所述的装置，其特征在于，所述确定待评论语音内容与已评论语音内容之间的匹配信息，包括：

确定待评论语音内容对应的第一主题特征；

19.根据权利要求17所述的装置，其特征在于，所述确定待评论语音内容与已评论语音内容之间的匹配信息，包括：

确定待评论语音内容对应的第一关键词特征；

确定所述已评论语音内容对应的第二关键词特征；

20.根据权利要求17所述的装置，其特征在于，所述确定待评论语音内容与已评论语音内容之间的匹配信息，包括：

确定待评论语音内容对应的末尾字符特征；

确定所述已评论语音内容对应的开头字符特征；

21.根据权利要求20所述的装置，其特征在于，所述装置还经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

所述按顺序对所述已评论语音内容进行发布，包括：

22.根据权利要求21所述的装置，其特征在于，所述装置还经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

所述按顺序对所述已评论语音内容进行发布，包括：

23.根据权利要求17至20中任一所述的装置，其特征在于，所述按顺序对所述已评论语音内容进行发布，包括：

24.一种用于语音处理的装置，其特征在于，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

25.一个或多个机器可读介质，其上存储有指令，当由一个或多个处理器执行时，使得装置执行如权利要求1至7中一个或多个所述的语音处理方法。

26.一个或多个机器可读介质，其上存储有指令，当由一个或多个处理器执行时，使得装置执行如权利要求1至7中一个或多个所述的语音处理方法。