CN111914115B - 一种声音信息的处理方法、装置及电子设备 - Google Patents

一种声音信息的处理方法、装置及电子设备 Download PDF

Info

Publication number
CN111914115B
CN111914115B CN201910379509.4A CN201910379509A CN111914115B CN 111914115 B CN111914115 B CN 111914115B CN 201910379509 A CN201910379509 A CN 201910379509A CN 111914115 B CN111914115 B CN 111914115B
Authority
CN
China
Prior art keywords
emotion
sound
abstract
sound information
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910379509.4A
Other languages
English (en)
Other versions
CN111914115A (zh
Inventor
贾锦杰
曹凌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201910379509.4A priority Critical patent/CN111914115B/zh
Publication of CN111914115A publication Critical patent/CN111914115A/zh
Application granted granted Critical
Publication of CN111914115B publication Critical patent/CN111914115B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/63Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/64Browsing; Visualisation therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/686Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title or artist information, time, location or usage information, user ratings

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本发明公开了一种声音信息的处理方法、装置、电子设备及计算机可读存储介质,该处理方法包括:获取待处理的声音信息;根据声音信息,生成对应的文本摘要和图形摘要;在声音信息对应的展示位上展示文本摘要和图形摘要。

Description

一种声音信息的处理方法、装置及电子设备
技术领域
本发明涉及互联网技术领域,更具体地,涉及一种声音信息的处理方法、一种声音信息的处理装置、一种电子设备、及一种计算机可读存储介质。
背景技术
随着互联网技术的飞速发展,越来越多的应用程序可以提供声音信息的评论、新闻信息等功能。
由于声音是线性的,需要用户顺序收听之后,才能够确定对应的声音信息是否符合自身喜好。而现有的其他媒体信息,比如图文数据等,用户可以在一秒钟可以扫描文字、图片,来判断出对应的媒体信息是否符合自身喜好,但是声音信息则需要10秒以上。另外,图文信息通常有标题和封面图辅助用户快速筛选出感兴趣的内容。而声音信息难以有声音摘要,尤其是用户原创内容的声音信息。这就导致用户筛选喜好的声音信息的时间成本较高,影响用户体验。
发明内容
本发明的一个目的是提供一种处理声音信息的新技术方案。
根据本发明的第一方面,提供了一种声音信息的处理方法,包括:
获取待处理的声音信息;
根据所述声音信息,生成对应的文本摘要和图形摘要;
在所述声音信息对应的展示位上展示所述文本摘要和所述图形摘要。
可选的,所述根据所述声音信息,生成对应的文本摘要和图形摘要的步骤包括:
对所述声音信息的内容进行语音分析,获取所述声音信息的声音特征,并根据所述声音信息的声音特征生成所述图形摘要;其中,所述声音特征包括音量特征、韵律特征、及音色特征中的至少一种;
将所述声音信息转换为对应的文本信息,并对所述文本信息进行语义分析得到所述文本摘要。
可选的,所述根据所述声音信息,生成对应的文本摘要和图形摘要的步骤还包括:
获取所述声音信息的情感特征,其中,所述情感特征包括情感类型和/或情感程度;
根据所述情感特征设置所述文本摘要和/或所述图形摘要的显示颜色。
可选的,所述获取所述声音信息的情感特征的步骤包括:
根据预先构建的情感词库从所述文本信息中提取情感关键词,通过情感结构化模型,对所述情感关键词进行结构化分析,得到所述情感关键词的情感特征,作为所述声音信息的情感特征;
其中,所述情感结构化模型是通过对采集的与情感相关的情感词汇进行分类并结构化组织得到的词汇模型;所述情感结构化模型中包括的每个情感词汇都具有对应的情感特征。
可选的,所述声音特征包括音量特征和/或韵律特征,所述根据所述声音信息的声音特征生成所述图形摘要的步骤包括:
根据所述声音特征,生成对应的声音波形,作为所述图形摘要;
和/或,
所述声音特征包括音色特征,所述根据所述声音信息的声音特征生成所述图形摘要的步骤包括:
确定预设的声音标签中包含的与所述音色特征匹配的目标声音标签,作为所述图形摘要。
可选的,所述对所述文本信息进行语义分析得到所述文本摘要的步骤包括:
提取所述文本信息中的关键语句或关键词,作为所述文本摘要;
或者,通过预设的自然语言分析模型对所述文本信息进行处理,生成所述文本摘要。
可选的,所述在在所述声音信息对应的展示位上展示所述文本摘要和所述图形摘要之后还包括:
响应于播放所述声音信息的操作,播放所述声音信息。
可选的,所述播放所述声音信息的操作包括:针对所述声音信息的展示位的点击操作。
根据本发明的第二方面,提供了一种声音信息的处理装置,包括:
声音获取模块,用于获取待处理的声音信息;
摘要生成模块,用于根据所述声音信息,生成对应的文本摘要和图形摘要;
摘要展示模块,用于在所述声音信息对应的展示位上展示所述文本摘要和所述图形摘要。
根据本发明的第三方面,提供了一种电子设备,包括:
根据本发明第二方面所述的处理装置;或者,
处理器和存储器,所述存储器用于存储指令,所述指令用于控制所述处理器执行根据本发明第一方面所述的处理方法。
根据本发明的第四方面,提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序在被处理器执行时实现如本发明第一方面所述的处理方法。
在本发明的实施例中,通过根据声音信息生成对应的文本摘要和图形摘要,并在对应的展示位上展示该文本摘要和图形摘要,这样,在用户看到该声音信息的图形摘要和文本摘要时,无需播放该声音信息就能快速、直接地了解声音信息的内容、声音特征以及情感特征,可以使得用户能够更加快速地筛选出喜好的声音信息。
通过以下参照附图对本发明的示例性实施例的详细描述,本发明的其它特征及其优点将会变得清楚。
附图说明
被结合在说明书中并构成说明书的一部分的附图示出了本发明的实施例,并且连同其说明一起用于解释本发明的原理。
图1是显示可用于实现本发明的实施例的电子设备的硬件配置的例子的框图。
图2示出了本发明的实施例的声音信息的处理方法的流程图。
图3示出了展示界面中引导用户输入用户声音信息的例子的示意图。。
图4示出了展示声音信息的图形摘要和文本摘要的例子的示意图。
图5示出了本发明的实施例的声音信息的处理方法的步骤的示意图。
图6示出了本发明的实施例的声音信息的处理装置的框图。
图7示出了本发明的实施例的电子设备的一个例子的框图。
具体实施方式
现在将参照附图来详细描述本发明的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。
以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本发明及其应用或使用的任何限制。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。
在这里示出和讨论的所有例子中,任何具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它例子可以具有不同的值。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
<硬件配置>
图1是示出可以实现本发明的实施例的电子设备1000的硬件配置的框图。
电子设备1000可以是便携式电脑、台式计算机、手机、平板电脑等。如图1所示,电子设备1000可以包括处理器1100、存储器1200、接口装置1300、通信装置1400、显示装置1500、输入装置1600、扬声器1700、麦克风1800等等。其中,处理器1100可以是中央处理器CPU、微处理器MCU等。存储器1200例如包括ROM(只读存储器)、RAM(随机存取存储器)、诸如硬盘的非易失性存储器等。接口装置1300例如包括USB接口、耳机接口等。通信装置1400例如能够进行有线或无线通信,具体地可以包括Wifi通信、蓝牙通信、2G/3G/4G/5G通信等。显示装置1500例如是液晶显示屏、触摸显示屏等。输入装置1600例如可以包括触摸屏、键盘、体感输入等。用户可以通过扬声器1700和麦克风1800输入/输出语音信息。
图1所示的电子设备仅仅是说明性的并且决不意味着对本发明、其应用或使用的任何限制。应用于本发明的实施例中,电子设备1000的所述存储器1200用于存储指令,所述指令用于控制所述处理器1100进行操作以执行本发明实施例提供的任意一项声音信息的处理方法。本领域技术人员应当理解,尽管在图1中对电子设备1000示出了多个装置,但是,本发明可以仅涉及其中的部分装置,例如,电子设备1000只涉及处理器1100和存储装置1200。技术人员可以根据本发明所公开方案设计指令。指令如何控制处理器进行操作,这是本领域公知,故在此不再详细描述。
<方法实施例>
在本实施例的总体构思,提供一种声音信息的处理方案,通过根据声音信息生成对应的文本摘要和图形摘要,并在对应的展示位上展示该文本摘要和图形摘要,这样,在用户看到该声音信息的图形摘要和文本摘要时,无需播放该声音信息就能快速、直接地了解声音信息的内容、声音特征以及情感特征,可以使得用户能够更加快速地筛选出喜好的声音信息。
在本实施例中,提供一种声音信息的处理方法。该声音信息的处理方法可以是由电子设备实施。该电子设备可以是如图1所示的电子设备1000。
根据图2所示,本实施例的声音信息的处理方法可以包括如下步骤S1000~S3000:
步骤S1000,获取待处理的声音信息。
本实施例中的声音信息可以是用户发表的声音评论、发布的声音信息等等。
在一个实施例中,可以通过在客户端的界面上设置可以实施人机交互的窗口上的相关功能项,引导用户发送用户声音信息,以供其他用户查看,例如,如图3所示。
步骤S2000,根据该声音信息,生成对应的文本摘要和图形摘要。
与声音信息对应的图形摘要,是声音信息的图形化表达方式。与声音信息对应的文本摘要,是声音信息的文字化表达方式。通过图形摘要和文本摘要,实现图形摘要与文本摘要的混合展示,可以无需播放该声音信息,就能使得用户了解该声音信息的内容。
在一个实施例中,根据该声音信息,生成对应的文本摘要和图形摘要的步骤可以进一步包括如下所示的步骤S2100~S2200:
步骤S2100,对声音信息进行语音分析,获取声音信息的声音特征,并根据该声音特征生成图形摘要。
声音信息的声音特征是声音信息内容中体现的与声音属性相关的特征,该声音特征可以包括音量特征、韵律特征、音调特征、音色特征中的至少一种。
对声音信息的内容进行语音分析,可以使用常用的语音信号分析手段,确定声音信息的内容的音量大小、韵律快慢、音色特点等,对应得到声音信息的内容的音量特征、韵律特征、音色特征。
在一个实施例中,声音特征包括音量特征和/或韵律特征,那么,根据声音特征生成图形摘要的步骤可以包括:
根据声音特征,生成对应的声音波形,作为图形摘要。
在本例中,可以根据声音信息的声音特征,设置声音波形的显示形状,显示形状可以包括声音波形的幅度大小、波形周期间隔、波形持续长度等。例如,可以根据韵律特征体现的韵律快慢设置声音波形的波形周期间隔,如韵律越快,波形周期间隔越短等。再例如,还可以根据音量特征体现的音量大小设置声音波形的幅度,如音量越大,声音波形的幅度越大等。
在另一个实施例中,声音特征还包括音色特征,那么,根据声音特征生成图形摘要的步骤可以包括:
确定预设的声音标签中包含的与该音色特征匹配的目标声音标签,作为图形摘要。
在本例中,可以预先根据常见的音色类型设置多个声音标签。例如,声音标签可以包括女王、男神、萝莉等,每个声音标签可以是对应类型的人物头像。那么,在确定该声音信息的音色特征匹配的声音标签为女王的情况下,可以是将预设的女王的人物头像作为图形摘要,具体可以是如图3所示。
步骤S2200,将声音信息转换为对应的文本信息,并对文本信息进行语义分析得到文本摘要。
在本例中,可以通过语音识别工具或者语音识别引擎等,识别声音信息中的内容,转换为对应的文本,得到对应的文本信息。
将声音信息转化为对应的文本信息后,可以是通过自然语言分析模型等,从该文本信息中提取出关键字或者是关键语句,作为文本摘要。还可以是通过自然语言分析模型等,直接生成该文本信息的摘要,作为文本摘要。
在本实施例中,该声音信息的处理方法还可以包括如下所示的步骤S2300~S2400:
步骤S2300,获取声音信息的情感特征。
情感特征是声音信息的内容中体现的用户的情绪或感受相关的特征,该情感特征可以包括情感类型、和/或情感程度等。情感类型可以是根据人类的情感及情绪分类预先设置的类型,例如情感类型可以包括生气、快乐、哀伤、欢喜等,情感程度可以包括对应的情感类型的情感程度,例如生气这一情感类型可以包括狂怒、发火、微怒等不同程度的生气情绪。
在本例中,可以将声音信息的内容通过语音识别引擎或者语音转文本的工具、插件等,得到对应的文本信息。
情感词库中包括多个分别体现不同的人类情感或者人类情绪的情感词汇。在本例中,可以通过人工或者机器挖掘这些情感词汇,预先构建情感词库。
根据该情感词库,可以将声音弹幕文本进行分词得到的词汇与情感词库中包括的情感词汇通过余弦相似度等方法进行相似度分析,提取相似度高于预设的相似度阈值的情感词汇作为情感关键词。
情感结构化模型是通过对采集的与情感相关的情感词汇进行分类并结构化组织得到的词汇模型。情感结构化模型中包括的每个情感词汇都具有对应的情感类型以及情感程度。
在本例中,可以对预先通过人工或者机器挖掘得到的情感词汇,根据人类情感或者人类情绪进行不同层次的分类,例如,根据每种情感类型进分为大类,每个大类里包括属于相同情感类型的情感词汇,在每个大类里再按情感程度的不同,进一步细分为不同的小类,每个小类下可根据情感程度的高低对情感词汇进行排序,形成不同分类层次的结构,以此组织情感词汇对应的得到情感结构化模型。
通过情感结构化模型,对情感关键词进行结构化分析,可以在情感结构化模型查找到与情感关键词对应的情感词汇,根据该情感词汇的情感类型以及情感程度,确定情感关键词的情感类型以及情感程度,对应得到声音信息的情感特征。
在本例中,通过预设的情感词库从与声音信息的内容对应的文本信息中提取情感关键词,再通过对情感词汇进行层次结构组织得到的情感结构化模型,对情感关键词进行结构化分析,得到包括情感类型和情感程度情感特征,可以无需采集大量语音样本,通过较为简单的结构化分析手段,快速、有效地获取声音信息的内容体现的情感特征。
步骤S2400,根据该情感特征设置图形摘要和/或文本摘要的显示颜色。
在本例中,可以声音信息的情感特征,设置图形摘要和/或文本摘要的显示颜色。例如,声音信息的情感特征包括情感类型以及情感程度,可以根据不同的情感类型设置不同类型的显示颜色。对于同一情感类型的不同情感程度设置同类型的显示颜色深浅不同,例如,对于同一情感类型的显示颜色,可以是情感程度越深、对应的显示颜色也越深。如情感类型是“生气”,设置显示颜色是红色,情感类型是“高兴”,设置显示颜色是绿色。例如,对于情感类型是“高兴”,情感程度是“大喜”,设置显示颜色是深绿色,情感程度是“有点开心”,设置显示颜色是浅绿色,等等。
步骤S3000,在该声音信息对应的展示位上展示图形摘要和文本摘要。
在一个实施例中,该声音信息对应的展示位例如可以是卡片、列表、弹幕等。
具体的,可以是如图4所示,展示界面上包括多个与声音信息一一对应的声音信息卡片,声音信息卡片即为对应的声音信息的展示位。
声音信息的图形摘要根据声音信息的声音特征设置,图形摘要的显示颜色根据声音信息的情感特征设置,对应生成的图形摘要可以直观体现声音信息的声音特征以及情感特征,令用户在看到该声音信息的图形摘要时,无需播放该声音信息就能快速、直接地了解图形摘要的声音特征以及情感特征。
例如,如图4所示,在声音信息对应的展示位中显示的图形摘要的显示颜色是深灰色(假设该颜色对应情感类型“生气”),并且声音波形周期间隔较小、波形幅度较大,声音标签是女王的人物头像,用户看到该图形摘要可以快速直观地了解到,对应的声音信息的音色是女王类型,表达的情感类型是“生气”,并且音量较大、韵律较快。
声音信息的文本摘要为根据对该声音信息转换得到的文本信息进行语义分析得到,文本摘要可以直观体现声音信息的内容,令用户在看到该声音信息的文本摘要时,无需播放该声音信息就能快速、直接地了解声音信息的内容。
例如,如图4所示,在声音信息对应的展示位中显示的文本摘要是“化妆、眉毛”,用户看到该文本摘要就可以快速直观地了解到,对应的声音信息的内容是介绍如何画眉毛。
在本发明的实施例中,通过根据声音信息生成对应的文本摘要和图形摘要,并在对应的展示位上展示该文本摘要和图形摘要,这样,在用户看到该声音信息的图形摘要和文本摘要时,无需播放该声音信息就能快速、直接地了解声音信息的内容、声音特征以及情感特征,可以使得用户能够更加快速地筛选出喜好的声音信息。
在一个实施例中,在执行完步骤S3000之后,该处理方法还可以包括:
响应于播放该声音信息的操作,播放该声音信息。
其中,播放声音信息的操作可以是针对该声音信息的展示位的点击操作、针对该声音信息的图形摘要的点击操作、针对该声音信息的文本摘要的点击操作、或者是针对该声音信息所对应的播放按钮的点击操作。
这样,在用户通过查看声音信息的图形摘要和文本摘要后,对该声音信息感兴趣,可以执行播放该声音信息的操作,收听该声音信息的完整内容。
<例子>
以下将结合图5进一步说明本实施例中提供的声音信息的处理方法。
如图5所示,声音信息的处理方法包括:步骤S5001~S5005。
步骤S5001,用户A在对应客户端的展示界面中点击上传声音信息的功能按钮,录制用户A的声音信息;
步骤S5002,对用户A上传的声音信息进行语音分析,获取声音信息的声音特征,并根据该声音特征生成图形摘要;将声音信息转换为对应的文本信息,并对文本信息进行语义分析得到文本摘要。
在本例中,图形摘要的生成步骤可以参考上述步骤S2100,文本摘要的生成步骤可以参考上述步骤S2200,在此不再赘述。
步骤S5003,在用户A和用户B的展示界面中该声音信息对应的展示位上展示图形摘要和文本摘要。
用户A和用户B在打开该声音信息的展示界面时,也可以看到在查看到该图形摘要和文本摘要。用户A和用户B均可以根据该图形摘要和文本摘要来确定是否执行播放该声音信息的操作。
步骤S5004,响应于用户A或用户B播放该声音信息的操作,播放该声音信息。
<装置实施例>
在本实施例中,提供一种声音信息的处理装置6000,如图6所示,包括声音获取模块6100、摘要生成模块6200和摘要展示模块6300。该声音获取模块6100用于获取待处理的声音信息;该摘要生成模块6200用于根据声音信息,生成对应的文本摘要和图形摘要;该摘要展示模块6300用于在声音信息对应的展示位上展示文本摘要和图形摘要。
在一个实施例中,该摘要生成模块6200还可以用于:
对声音信息的内容进行语音分析,获取声音信息的声音特征,并根据声音信息的声音特征生成图形摘要;其中,声音特征包括音量特征、韵律特征、及音色特征中的至少一种;
将声音信息转换为对应的文本信息,并对文本信息进行语义分析得到文本摘要。
在一个实施例中,该摘要生成模块6200还可以用于:
获取声音信息的情感特征,其中,情感特征包括情感类型和/或情感程度;
根据情感特征设置图形摘要和/或文本摘要的显示颜色。
在本实施例中,获取声音信息的情感特征包括:
根据预先构建的情感词库从文本信息中提取情感关键词,通过情感结构化模型,对情感关键词进行结构化分析,得到情感关键词的情感特征,作为声音信息的情感特征;
其中,情感结构化模型是通过对采集的与情感相关的情感词汇进行分类并结构化组织得到的词汇模型;情感结构化模型中包括的每个情感词汇都具有对应的情感特征。
在一个实施例中,声音特征包括音量特征和/或韵律特征,根据声音信息的声音特征生成图形摘要的步骤包括:
根据声音特征,生成对应的声音波形,作为图形摘要;
和/或,声音特征包括音色特征,根据声音信息的声音特征生成图形摘要的步骤包括:
确定预设的声音标签中包含的与音色特征匹配的目标声音标签,作为图形摘要。
在一个实施例中,对文本信息进行语义分析得到文本摘要包括:
提取文本信息中的关键语句或关键词,作为文本摘要;
或者,通过预设的自然语言分析模型对文本信息进行处理,生成文本摘要。
在一个实施例中,该声音信息的处理装置6000还可以包括:
用于响应于播放声音信息的操作,播放声音信息的模块。
在本实施例中,播放声音信息的操作可以包括:针对声音信息的展示位的点击操作。
本领域技术人员应当明白,可以通过各种方式来实现声音信息的处理装置6000。例如,可以通过指令配置处理器来实现声音信息的处理装置6000。例如,可以将指令存储在ROM中,并且当启动设备时,将指令从ROM读取到可编程器件中来实现声音信息的处理装置6000。例如,可以将声音信息的处理装置6000固化到专用器件(例如ASIC)中。可以将声音信息的处理装置6000分成相互独立的单元,或者可以将它们合并在一起实现。声音信息的处理装置6000可以通过上述各种实现方式中的一种来实现,或者可以通过上述各种实现方式中的两种或更多种方式的组合来实现。
在本实施例中,声音信息的处理装置6000可以具有多种实现形式,例如,声音信息的处理装置6000可以是任何的提供网络访问服务的软件产品或者应用程序中运行的功能模块,或者是这些软件产品或者应用程序的外设嵌入件、插件、补丁件等,还可以是这些软件产品或者应用程序本身。
<电子设备>
在本实施例中,还提供一种电子设备7000。该电子设备7000可以是图1所示的电子设备1000。
在一方面,该电子设备7000可以包括前述的声音信息的处理装置6000,用于实施本发明任意实施例的声音信息的处理方法。
在另一方面,如图7所示,电子设备7000还可以包括处理器7100和存储器7200,该存储器7200用于存储可执行的指令;该处理器7100用于根据指令的控制运行电子设备7000执行根据本发明任意实施例的声音信息的处理方法。
在本实施例中,该电子设备7000可以是手机、平板电脑、掌上电脑、台式机、笔记本电脑、工作站、游戏机等设备。例如,电子设备7000可以是安装有提供显示服务的应用的智能手机。
<计算机可读存储介质>
在本实施例中,还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序在被处理器执行时实现如本发明任意实施例的声音信息的处理方法。
本发明可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质,其上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。
计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身,诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如,通过光纤电缆的光脉冲)、或者通过电线传输的电信号。
这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备,或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理设备中的计算机可读存储介质中。
用于执行本发明操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码,所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等,以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中,通过利用计算机可读程序指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA),该电子电路可以执行计算机可读程序指令,从而实现本发明的各个方面。
这里参照根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本发明的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令实现。
这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,从而生产出一种机器,使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作,从而,存储有指令的计算机可读介质则包括一个制造品,其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。
也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。
附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分,所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。对于本领域技术人员来说公知的是,通过硬件方式实现、通过软件方式实现以及通过软件和硬件结合的方式实现都是等价的。
以上已经描述了本发明的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。本发明的范围由所附权利要求来限定。

Claims (7)

1.一种声音信息的处理方法,其中,包括:
获取待处理的声音信息;
根据所述声音信息,生成对应的文本摘要和图形摘要;
在所述声音信息对应的展示位上展示所述文本摘要和所述图形摘要;
所述根据所述声音信息,生成对应的文本摘要和图形摘要的步骤包括:
对所述声音信息的内容进行语音分析,获取所述声音信息的声音特征,并根据所述声音信息的声音特征生成所述图形摘要;其中,所述声音特征包括音量特征、韵律特征、及音色特征中的至少一种;
将所述声音信息转换为对应的文本信息,并对所述文本信息进行语义分析得到所述文本摘要;
所述根据所述声音信息,生成对应的文本摘要和图形摘要的步骤还包括:
获取所述声音信息的情感特征,其中,所述情感特征包括情感类型和/或情感程度;
根据所述情感特征设置所述文本摘要和/或所述图形摘要的显示颜色;
所述获取所述声音信息的情感特征的步骤包括:
根据预先构建的情感词库从所述文本信息中提取情感关键词,通过情感结构化模型,对所述情感关键词进行结构化分析,得到所述情感关键词的情感特征,作为所述声音信息的情感特征;
其中,所述情感结构化模型是通过对采集的与情感相关的情感词汇进行分类并结构化组织得到的词汇模型;所述情感结构化模型中包括的每个情感词汇都具有对应的情感特征;
所述声音特征包括音量特征和/或韵律特征,所述根据所述声音信息的声音特征生成所述图形摘要的步骤包括:
根据所述声音特征,生成对应的声音波形,作为所述图形摘要;
和/或,
所述声音特征包括音色特征,所述根据所述声音信息的声音特征生成所述图形摘要的步骤包括:
确定预设的声音标签中包含的与所述音色特征匹配的目标声音标签,作为所述图形摘要。
2.根据权利要求1所述的处理方法,其中,所述对所述文本信息进行语义分析得到所述文本摘要的步骤包括:
提取所述文本信息中的关键语句或关键词,作为所述文本摘要;
或者,通过预设的自然语言分析模型对所述文本信息进行处理,生成所述文本摘要。
3.根据权利要求1所述的处理方法,其中,所述在所述声音信息对应的展示位上展示所述文本摘要和所述图形摘要之后还包括:
响应于播放所述声音信息的操作,播放所述声音信息。
4.根据权利要求3所述的处理方法,其中,所述播放所述声音信息的操作包括:针对所述声音信息的展示位的点击操作。
5.一种声音信息的处理装置,其中,包括:
声音获取模块,用于获取待处理的声音信息;
摘要生成模块,用于根据所述声音信息,生成对应的文本摘要和图形摘要;
摘要展示模块,用于在所述声音信息对应的展示位上展示所述文本摘要和所述图形摘要;
所述摘要生成模块还用于:
对所述声音信息的内容进行语音分析,获取所述声音信息的声音特征,并根据所述声音信息的声音特征生成所述图形摘要;其中,所述声音特征包括音量特征、韵律特征、及音色特征中的至少一种;
将所述声音信息转换为对应的文本信息,并对所述文本信息进行语义分析得到所述文本摘要;
所述摘要生成模块还用于:
获取所述声音信息的情感特征,其中,所述情感特征包括情感类型和/或情感程度;
根据所述情感特征设置所述文本摘要和/或所述图形摘要的显示颜色;
所述获取所述声音信息的情感特征的步骤包括:
根据预先构建的情感词库从所述文本信息中提取情感关键词,通过情感结构化模型,对所述情感关键词进行结构化分析,得到所述情感关键词的情感特征,作为所述声音信息的情感特征;
其中,所述情感结构化模型是通过对采集的与情感相关的情感词汇进行分类并结构化组织得到的词汇模型;所述情感结构化模型中包括的每个情感词汇都具有对应的情感特征;
所述声音特征包括音量特征和/或韵律特征,所述根据所述声音信息的声音特征生成所述图形摘要的步骤包括:
根据所述声音特征,生成对应的声音波形,作为所述图形摘要;
和/或,
所述声音特征包括音色特征,所述根据所述声音信息的声音特征生成所述图形摘要的步骤包括:
确定预设的声音标签中包含的与所述音色特征匹配的目标声音标签,作为所述图形摘要。
6.一种电子设备,其中,包括:
根据权利要求5所述的处理装置;或者,
处理器和存储器,所述存储器用于存储指令,所述指令用于控制所述处理器执行根据权利要求1至4中任一项所述的处理方法。
7.一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序在被处理器执行时实现如权利要求1至4中任一项所述的处理方法。
CN201910379509.4A 2019-05-08 2019-05-08 一种声音信息的处理方法、装置及电子设备 Active CN111914115B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910379509.4A CN111914115B (zh) 2019-05-08 2019-05-08 一种声音信息的处理方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910379509.4A CN111914115B (zh) 2019-05-08 2019-05-08 一种声音信息的处理方法、装置及电子设备

Publications (2)

Publication Number Publication Date
CN111914115A CN111914115A (zh) 2020-11-10
CN111914115B true CN111914115B (zh) 2024-05-28

Family

ID=73242790

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910379509.4A Active CN111914115B (zh) 2019-05-08 2019-05-08 一种声音信息的处理方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN111914115B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112634919B (zh) * 2020-12-18 2024-05-28 平安科技(深圳)有限公司 语音转换方法、装置、计算机设备及存储介质
CN113559504B (zh) * 2021-04-28 2024-04-16 网易(杭州)网络有限公司 信息处理方法、装置、存储介质及电子设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005208162A (ja) * 2004-01-20 2005-08-04 Canon Inc 音情報生成装置及びその音情報生成方法、音声合成装置及びその音声合成方法、並びに制御プログラム
CN106992012A (zh) * 2017-03-24 2017-07-28 联想(北京)有限公司 语音处理方法及电子设备
CN107516533A (zh) * 2017-07-10 2017-12-26 阿里巴巴集团控股有限公司 一种会话信息处理方法、装置、电子设备
CN108846098A (zh) * 2018-06-15 2018-11-20 上海掌门科技有限公司 一种信息流摘要生成及展示方法
CN109241272A (zh) * 2018-07-25 2019-01-18 华南师范大学 一种中文文本摘要生成方法、计算机可读储存介质及计算机设备
WO2019029073A1 (zh) * 2017-08-07 2019-02-14 广州视源电子科技股份有限公司 传屏方法、装置、电子设备及计算机可读存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005208162A (ja) * 2004-01-20 2005-08-04 Canon Inc 音情報生成装置及びその音情報生成方法、音声合成装置及びその音声合成方法、並びに制御プログラム
CN106992012A (zh) * 2017-03-24 2017-07-28 联想(北京)有限公司 语音处理方法及电子设备
CN107516533A (zh) * 2017-07-10 2017-12-26 阿里巴巴集团控股有限公司 一种会话信息处理方法、装置、电子设备
WO2019029073A1 (zh) * 2017-08-07 2019-02-14 广州视源电子科技股份有限公司 传屏方法、装置、电子设备及计算机可读存储介质
CN108846098A (zh) * 2018-06-15 2018-11-20 上海掌门科技有限公司 一种信息流摘要生成及展示方法
CN109241272A (zh) * 2018-07-25 2019-01-18 华南师范大学 一种中文文本摘要生成方法、计算机可读储存介质及计算机设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
The effects of explicit instruction of expository text structure incorporating graphic organizers on the comprehension of third-grade students;Newman, Lynn M等;《University of Maryland》;20071231;全文 *
基于多模态信息融合的语音意图理解方法;郑彬彬;贾珈;蔡莲红;;中国科技论文在线;20110715(07);全文 *

Also Published As

Publication number Publication date
CN111914115A (zh) 2020-11-10

Similar Documents

Publication Publication Date Title
US20220230374A1 (en) User interface for generating expressive content
JP6563465B2 (ja) エモティコンを識別および提案するためのシステムおよび方法
CN107832433B (zh) 基于对话交互的信息推荐方法、装置、服务器和存储介质
CN108847214B (zh) 语音处理方法、客户端、装置、终端、服务器和存储介质
CN107516533A (zh) 一种会话信息处理方法、装置、电子设备
CN115668371A (zh) 对听觉和视觉会议数据分类以推断用户话语的重要性
CN107040452B (zh) 一种信息处理方法、装置和计算机可读存储介质
CN1742273A (zh) 多模态语音-语音语言翻译和显示
KR102529262B1 (ko) 전자 장치 및 제어 방법
CN113010138B (zh) 文章的语音播放方法、装置、设备及计算机可读存储介质
US11881209B2 (en) Electronic device and control method
CN109801349B (zh) 一种声音驱动的三维动画角色实时表情生成方法和系统
US11176332B2 (en) Linking contextual information to text in time dependent media
CN114401431A (zh) 一种虚拟人讲解视频生成方法及相关装置
CN111914115B (zh) 一种声音信息的处理方法、装置及电子设备
US20130339849A1 (en) Digital content preparation and presentation
US20170316807A1 (en) Systems and methods for creating whiteboard animation videos
CN113573128A (zh) 一种音频处理方法、装置、终端以及存储介质
CN111724799B (zh) 声音表情的应用方法、装置、设备及可读存储介质
CN114047900A (zh) 业务处理方法、装置、电子设备及计算机可读存储介质
CN112037821A (zh) 语音情感的视觉化表示方法、装置及计算机存储介质
KR102185784B1 (ko) 음향 데이터 탐색 방법 및 장치
KR102251513B1 (ko) 기계학습을 이용한 셀럽의 소셜미디어 정보 기반 학습용 콘텐츠 생성 방법 및 장치
CN110309270B (zh) 聊天机器人的唱歌答复技术
Ramli et al. Emolah: a Malay language spontaneous speech emotion recognition on iOS platform

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant