CN111801673A - 应用程序的介绍方法、移动终端及服务器 - Google Patents

应用程序的介绍方法、移动终端及服务器 Download PDF

Info

Publication number
CN111801673A
CN111801673A CN201980010315.5A CN201980010315A CN111801673A CN 111801673 A CN111801673 A CN 111801673A CN 201980010315 A CN201980010315 A CN 201980010315A CN 111801673 A CN111801673 A CN 111801673A
Authority
CN
China
Prior art keywords
application program
keywords
image
introduction
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201980010315.5A
Other languages
English (en)
Inventor
艾静雅
柳彤
朱大卫
汤慧秀
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Haifu Yitong Technology Co ltd
Original Assignee
Shenzhen Haifu Yitong Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Haifu Yitong Technology Co ltd filed Critical Shenzhen Haifu Yitong Technology Co ltd
Publication of CN111801673A publication Critical patent/CN111801673A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/10Transforming into visible information
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/44Receiver circuitry for the reception of television signals according to analogue transmission standards
    • H04N5/60Receiver circuitry for the reception of television signals according to analogue transmission standards for the sound signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Human Computer Interaction (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Acoustics & Sound (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Library & Information Science (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Databases & Information Systems (AREA)
  • Telephonic Communication Services (AREA)

Abstract

一种应用程序的介绍方法、移动终端及服务器,该方法包括:获取关于应用程序的介绍需求信息;其中,介绍需求信息用于表示对于介绍应用程序的需求(11);提取介绍需求信息中的关键词(12);基于关键词获取相关联的图像和语音(13);对图像和语音进行处理,以形成用于对应用程序进行介绍的视频(14)。通过上述方式,一方面能够适应于不同的用户群体,使应用程序满足更多用户群体的需求,另一方面采用动画的形式进行应用程序的介绍能够增加应用程序介绍的个性化,增加趣味性,提高用户体验。

Description

应用程序的介绍方法、移动终端及服务器
技术领域
本申请涉及应用程序技术领域,具体涉及一种应用程序的介绍方法、移动终端及服务器。
背景技术
随着移动终端的普及,在移动终端上使用的应用程序也越来越多。用户在移动终端下载应用程序后,通常希望能在短时间内了解该应用程序的使用方法,使用场景,以及需要关注的部分,与自身更相关的部分等。如支付与金融理财等应用程序,主要的应用程序介绍,均是一些常规图片文字,这些比较固定,没有吸引性,会显得死板没有个性以及无趣。
发明内容
为了解决上述问题,本申请提供一种应用程序的介绍方法、移动终端及服务器,一方面能够适应于不同的用户群体,使应用程序满足更多用户群体的需求,另一方面采用动画的形式进行应用程序的介绍能够增加应用程序介绍的个性化,增加趣味性,提高用户体验。
本申请采用的第一种技术方案是提供一种应用程序的介绍方法,包括:获取关于应用程序的介绍需求信息;其中,介绍需求信息用于表示对于介绍应用程序的需求;提取介绍需求信息中的关键词;基于关键词获取相关联的图像和语音;对图像和语音进行处理,以形成用于对应用程序进行介绍的视频。
其中,介绍需求信息为音频信息;提取介绍需求信息中的关键词,包括:对音频信息进行语音识别,以得到文本信息;对文本信息进行关键词提取,以得到关键词。
其中,对文本信息进行关键词提取,以得到关键词,包括:对文本信息进行语义分割;基于语义分割的结果得到关键词。
其中,对文本信息进行语义分割,包括:将文本信息输入至卷积神经网络进行深度学习,以将文本信息进行语义分割,以得到关键词。
其中,介绍需求信息为文本信息;提取介绍需求信息中的关键词,包括:对文本信息进行语义分割;基于语义分割的结果得到关键词。
其中,基于关键词获取相关联的图像和语音,包括:将关键词发送给服务器,以使服务器基于关键词生成相关联的图像和语音;获取服务器发送的图像和语音。
其中,对图像和语音进行处理,以形成用于对应用程序进行介绍的视频,包括:对多个对应的图像进行图像分割,提取图像中特征信息;将特征信息进行组合,以生成多个图像帧;将多个图像帧形成动画;将动画与语音进行融合,以形成用于对应用程序进行介绍的视频。
其中,该方法还包括:获取服务器发送的背景音乐;其中,背景音乐是服务器基于关键词生成的音乐;将背景音乐添加至视频。
本申请采用的第二种技术方案是提供一种应用程序的介绍方法,包括:获取移动终端发送的关键词;其中,关键词是移动终端基于获取的关于应用程序的介绍需求信息提取得到的,介绍需求信息用于表示对于介绍应用程序的需求;基于关键词生成相关联的图像和语音;向移动终端发送图像和语音,以使移动终端对图像和语音进行处理,以形成用于对应用程序进行介绍的视频。
其中,基于关键词生成相关联的图像和语音,包括:将关键词通过深度学习,以从预设图像库得到相关联的图像。
其中,基于关键词生成相关联的图像和语音,包括:将关键词通过深度学习,以生成符合关键词场景的文字信息;将文字信息转换为语音。
本申请采用的另一种技术方案是提供一种移动终端,移动终端包括处理器以及与处理器连接的存储器;存储器用于存储程序数据,处理器用于执行程序数据,以实现上述第一种方案中提供的方法。
本申请采用的另一种技术方案是提供一种服务器,服务器包括处理器以及与处理器连接的存储器;存储器用于存储程序数据,处理器用于执行程序数据,以实现上述第二种方案中提供的方法。
本申请采用的另一种技术方案是提供一种计算机存储介质,计算机存储介质用于存储程序数据,程序数据在被处理器执行时,用于实现上述方案中提供的任一方法。
本申请采用的另一种技术方案是提供一种移动终端,移动终端包括:获取模块,用于获取关于应用程序的介绍需求信息;其中,介绍需求信息用于表示对于介绍应用程序的需求;提取模块,用于提取介绍需求信息中的关键词;获取模块还用于基于关键词获取相关联的图像和语音;处理模块,用于对图像和语音进行处理,以形成用于对应用程序进行介绍的视频。
本申请采用的另一种技术方案是提供一种服务器,服务器包括:获取模块,用于获取移动终端发送的关键词;其中,关键词是移动终端基于获取的关于应用程序的介绍需求信息提取得到的,介绍需求信息用于表示对于介绍应用程序的需求;处理模块,用于基于关键词生成相关联的图像和语音;发送模块,用于向移动终端发送图像和语音,以使移动终端对图像和语音进行处理,以形成用于对应用程序进行介绍的视频。
本申请的有益效果是:区别于现有技术的情况,本申请的一种应用程序的介绍方法,包括:获取关于应用程序的介绍需求信息;其中,介绍需求信息用于表示对于介绍应用程序的需求;提取介绍需求信息中的关键词;基于关键词获取相关联的图像和语音;对图像和语音进行处理,以形成用于对应用程序进行介绍的视频。通过上述方式,能够便捷的获取到用户的需求,并根据用户的不同需求进行不同的应用程序介绍,一方面能够适应于不同的用户群体,使应用程序满足更多用户群体的需求,另一方面采用动画的形式进行应用程序的介绍能够增加应用程序介绍的个性化,增加趣味性,提高用户体验。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。其中:
图1是本申请提供的应用程序的介绍方法第一实施例的流程示意图;
图2是本申请提供的应用程序的介绍方法第二实施例的流程示意图;
图3是本申请提供的应用程序的介绍方法第三实施例的流程示意图;
图4是本申请提供的应用程序的介绍方法第四实施例的流程示意图;
图5是本申请提供的应用程序的介绍方法第五实施例的流程示意图;
图6是本申请提供的应用程序的介绍方法第六实施例的流程示意图;
图7是本申请提供的应用程序的介绍方法第七实施例的流程示意图;
图8是本申请提供的移动终端第一实施例的结构示意图;
图9是本申请提供的服务器第一实施例的结构示意图;
图10是本申请提供的计算机存储介质一实施例的结构示意图;
图11是本申请提供的移动终端第二实施例的结构示意图;
图12是本申请提供的服务器第二实施例的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。可以理解的是,此处所描述的具体实施例仅用于解释本申请,而非对本申请的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本申请相关的部分而非全部结构。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
参阅图1,图1是本申请提供的应用程序的介绍方法第一实施例的流程示意图,该方法基于移动终端进行实施,该方法包括:
步骤11:获取关于应用程序的介绍需求信息;其中,介绍需求信息用于表示对于介绍应用程序的需求。
可选的,移动终端响应用户下载应用程序并安装完成后,获取到关于应用程序的介绍需求信息。
可选的,介绍需求信息可以是音频信息,也可以是文本信息。音频信息通过移动终端的麦克风采集,文本信息可以通过手动输入,或者选择应用程序提示的关键词作为文本信息。
可选的,介绍需求信息用于表示对于介绍应用程序的需求。例如:用户需要了解理财类应用程序的收益时,即可将“收益”作为介绍需求信息。
步骤12:提取介绍需求信息中的关键词。
可选的,当获取到介绍需求信息后,移动终端对介绍需求信息的内容进行关键词提取,如:获取到的介绍需求信息为音频信息,音频信息解析出的文本信息为“此应用如何安全支付”,则提取到的关键词为“安全支付”。
关键词提取方法可以基于统计特征的关键词提取算法。
基于统计特征的关键词提取算法是利用文档中词语的统计信息抽取文档的关键词。通常将文本经过预处理得到候选词语的集合,然后采用特征值量化的方式从候选集合中得到关键词。
其中,特征值量化的方式有基于词权重的特征量化、基于词的文档位置的特征量化、基于词的关联信息的特征量化。基于词权重的特征量化主要包括词性、词频、逆向文档频率、相对词频、词长等;基于词的文档位置的特征量化是根据文章不同位置的句子对文档的重要性不同的假设来进行的。通常,文章的前N个词、后N个词、段首、段尾、标题、引言等位置的词具有代表性,这些词作为关键词可以表达整个的主题;基于词的关联信息的特征量化:词的关联信息是指词与词、词与文档的关联程度信息,包括互信息、hits值、贡献度、依存度、TF-IDF值等。
关键词的提取方法还可以基于深度学习的方法进行提取。
可以理解,提取关键词的方法有多种,这里不一一列举。
步骤13:基于关键词获取相关联的图像和语音。
可选的,获取相关联的图像可以是移动终端将关键词发送至服务器,由服务器在预设图像库中进行图像检索,以得到多个图像。
可选的,获取相关联的语音可以是移动终端将关键词发送至服务器,由服务器在通过关键词及应用场景生成符合应用场景的多段文字,在将多段文字发送给移动终端,再由移动终端将文字信息转换成语音信息。
可选的,获取相关联的图像可以是移动终端在本地预设图像库中进行图像检索,以得到多个图像。
可选的,获取相关联的语音可以是移动终端通过关键词及应用场景生成符合应用场景的多段文字,然后将文字信息转换成语音信息。
步骤14:对图像和语音进行处理,以形成用于对应用程序进行介绍的视频。
可选的,对图像进行图像分割,提取符合关键词的特征信息,将特征信息组成新的图像。如:关键词是“鸟”、“树”;某图像存在一棵树的特征信息,另一张图像存在一只鸟的特征信息,将这两个信息提取出来,可以根据场景,组成鸟停在树上的图像。在组成一系列完整图像后,对图像进行平滑等增强处理,目的是使图像内容更自然。
可选的,将语音信息与图像信息进行融合,形成用于对应用程序进行介绍的视频。
举例说明:
用户下载了一个理财类应用程序,在启动应用程序时,应用程序提醒用户请说出想要了解的内容,此时移动终端采集的音频信息为“我第一次开户,如何投资才能收益高且风险小,还有就是如何支付”,移动终端提取的关键词是“第一次开户”、“投资”、“收益高”、“风险小”、“如何支付”。那么根据这些关键词,在预设图像库中搜索对应的图像,如“第一次开户”就搜索到开户画面及动画人物的图像,“收益高”、“风险小”就搜索警示和推荐相关产品的图像,然后组成一段有个动画人物介绍怎么在保证风险低的情况下最好投资方法,然后还要一个画面是支付安全也很重要的画面。同时根据这些关键词和场景,生成符合场景的文字信息,将文字信息转换为语音,将语音信息和图像信息融合,形成了对用户需求介绍的视频。
在一些实施例中,还可以给视频加入背景音乐。
在其他实施例中,移动终端可以根据一段语音,生成声音和图像对应的应用程序介绍,或者通过语音给小朋友讲故事,小朋友可以描述自己喜欢听的故事类型,通过机器学习,生成图文并茂的小故事,让小朋友更感兴趣,也可以使得一些不太识字的小朋友可以通过动画获取相应的知识。
在其他实施例中,根据不同的应用程序及不同的用户需求,移动终端生成对应需求的应用程序的图文并茂的视频,以供用户观看。
区别于现有技术的情况,本申请的一种应用程序的介绍方法,包括:获取关于应用程序的介绍需求信息;其中,介绍需求信息用于表示对于介绍应用程序的需求;提取介绍需求信息中的关键词;基于关键词获取相关联的图像和语音;对图像和语音进行处理,以形成用于对应用程序进行介绍的视频。通过上述方式,能够便捷的获取到用户的需求,并根据用户的不同需求进行不同的应用程序介绍,一方面能够适应于不同的用户群体,使应用程序满足更多用户群体的需求,另一方面采用动画的形式进行应用程序的介绍能够增加应用程序介绍的个性化,增加趣味性,提高用户体验。
参阅图2,图2是本申请提供的应用程序的介绍方法第二实施例的流程示意图,该方法基于移动终端进行实施,该方法包括:
步骤21:获取关于应用程序的音频信息;其中,音频信息用于表示对于介绍应用程序的需求。
在本实施例中,收集用户的音频信息来表示对于介绍应用程序的需求。
可选的,音频信息可以是用户想要了解应用程序是说出的与应用程序相关的音频信息。
可选的,音频信息可以是在应用程序启动后显示给用户的文字信息,以提示用户对应用程序进行哪方面的了解,方便用户快速的说出相应的关键词信息。
步骤22:对音频信息进行语音识别,以得到文本信息。
可选的,语音识别是将一段音频信息转换成相对应的文本信息,系统主要包含特征提取、声学模型,语言模型以及字典与解码四大部分,为了更有效地提取特征还需要对所采集到的音频信息进行滤波、分帧等音频数据预处理工作,将需要分析的音频信息从原始信号中合适地提取出来;特征提取工作将音频信息从时域转换到频域,为声学模型提供合适的特征向量;声学模型中再根据声学特性计算每一个特征向量在声学特征上的得分;而语言模型则根据语言学相关的理论,计算该声音信号对应可能词组序列的概率;最后根据已有的字典,对词组序列进行解码,得到最后可能的文本表示。
步骤23:将文本信息输入至卷积神经网络进行深度学习,以将文本信息进行语义分割,以得到关键词。
可选的,根据应用程序的特点,预先把大量的信息通过卷积神经网络进行深度学习进行训练,以生成对应的语义分割模型。当语义分割模型在得到文本信息时,即可得到关键词。
步骤24:基于关键词获取相关联的图像和语音。
步骤25:对图像和语音进行处理,以形成用于对应用程序进行介绍的视频。
步骤24-25与上述实施例具有相同或相似的技术方案,这里不做赘述。
参阅图3,图3是本申请提供的应用程序的介绍方法第三实施例的流程示意图,该方法基于移动终端进行实施,该方法包括:
步骤31:获取关于应用程序的文本信息;其中,文本信息用于表示对于介绍应用程序的需求。
可选的,文本信息可以是用户手动输入,也可以是应用程序提示多段文字,由用户进行选择而生成的。
步骤32:对文本信息进行语义分割。
步骤33:基于语义分割的结果得到关键词。
步骤32-33可以具体是:
采用TF-IDF(term frequency inverse document frequency,信息检索数据挖掘的常用加权技术)、TextRank(自然语言处理的通用基于图的排序算法)、Rake(RapidAutomatic Keyword Extraction,快速自动关键字提取)、Topic-Model(主题模型)等方法,可以得到关键词。
TF-IDF:TF衡量了一个词在文本信息中出现的频率,一个文本信息中多次出现的词总是有一定的特殊意义,但是并不是所有多次出现的词就都是有意义的,如果一个词在所有的文档中都多次出现,那么这个词就没有什么价值了。TF-IDF就很好地衡量了这些因素:TF=(词在文本信息中出现的次数)/(文章总词数),IDF=log(语料库中文本信息综述/(包含该词的文本信息数+1));
TF-IDF=TF*IDF;
TF-IDF值越大,则这个词成为一个关键词的概率就越大。
Rake算法的流程为分词,如以标点符号及停用词作为分词标准;然后构建共现矩阵;特征提取。包含词频freq、度deg以及度与频率之比deg/freq三个特征;定义score。score=deg/freq;降序输出。按score大小降序输出1/3文档词汇量的关键词。
其中,提取特征后有个特殊处理,对于相邻的关键词,如果满足同一文档和相同顺序中至少两次相邻,则进行合并,成为新的候选关键词后,score定义为合并前的候选关键词score之和。这样操作的原因是,这些相邻候选关键词相对较少,简单对score相加,增加了它们的重要性。
在其他实施例中,还可以通过神经网络的深度学习,预先建立语义分割模型,以实现快速提取关键词。
步骤34:基于关键词获取相关联的图像和语音。
步骤35:对图像和语音进行处理,以形成用于对应用程序进行介绍的视频。
步骤34-35与上述实施例具有相同或相似的技术方案,这里不做赘述。
参阅图4,图4是本申请提供的应用程序的介绍方法第四实施例的流程示意图,该方法基于移动终端进行实施,该方法包括:
步骤41:获取关于应用程序的介绍需求信息;其中,介绍需求信息用于表示对于介绍应用程序的需求。
步骤42:提取介绍需求信息中的关键词。
步骤41-42与上述实施例具有相同或相似的技术方案,这里不做赘述。
步骤43:将关键词发送给服务器,以使服务器基于关键词生成相关联的图像和语音。
可选的,当服务器接收到关键词后,基于卷积神经网络的深度学习,得到与关键词相关联的图像和语音。
在其他实施例中,图像可以由服务器得到,而语音可以由移动终端自行对关键词进行识别,以生成多段符合场景的多段文字,并转换为语音。
步骤44:获取服务器发送的图像和语音。
步骤45:对图像和语音进行处理,以形成用于对应用程序进行介绍的视频。
步骤44-45与上述实施例具有相同或相似的技术方案,这里不做赘述。
参阅图5,图5是本申请提供的应用程序的介绍方法第五实施例的流程示意图,该方法包括:
步骤51:获取关于应用程序的介绍需求信息;其中,介绍需求信息用于表示对于介绍应用程序的需求。
步骤52:提取介绍需求信息中的关键词。
步骤53:将关键词发送给服务器,以使服务器基于关键词生成相关联的图像和语音。
步骤54:获取服务器发送的图像和语音。
步骤51-54与上述实施例具有相同或相似的技术方案,这里不做赘述。
步骤55:对多个对应的图像进行图像分割,提取图像中特征信息。
图像分割就是把图像分成若干个特定的、具有独特性质的区域并提出感兴趣目标的技术和过程。它是由图像处理到图像分析的关键步骤。现有的图像分割方法主要分以下几类:基于阈值的分割方法、基于区域的分割方法、基于边缘的分割方法以及基于特定理论的分割方法等。从数学角度来看,图像分割是将数字图像划分成互不相交的区域的过程。图像分割的过程也是一个标记过程,即把属于同一区域的像素赋予相同的编号。
其中,基于阈值的分割方法是一种基于区域的图像分割技术,原理是把图像象素点分为若干类。图像阈值化分割是一种传统的最常用的图像分割方法,因其实现简单、计算量小、性能较稳定而成为图像分割中最基本和应用最广泛的分割技术。它特别适用于目标和背景占据不同灰度级范围的图像。它不仅可以极大的压缩数据量,而且也大大简化了分析和处理步骤,因此在很多情况下,是进行图像分析、特征提取与模式识别之前的必要的图像预处理过程。图像阈值化的目的是要按照灰度级,对像素集合进行一个划分,得到的每个子集形成一个与现实景物相对应的区域,各个区域内部具有一致的属性,而相邻区域不具有这种一致属性。这样的划分可以通过从灰度级出发选取一个或多个阈值来实现。
其中,基于区域的分割方法是以直接寻找区域为基础的分割技术,具体算法有区域生长和区域分离与合并算法。基于区域提取方法有两种基本形式:一种是区域生长,从单个像素出发,逐步合并以形成所需要的分割区域;另一种是从全局出发,逐步切割至所需的分割区域。
其中,基于边缘的分割则主要有基于点的检测、基于线的检测以及基于边缘检测等几种方法。
其中,基于特定理论的分割方法可以分为聚类分析、模糊集理论、基因编码、小波变换等方法。
可选的,在图像分割后,基于关键词及场景,进行特征提取,以执行步骤56。
步骤56:将特征信息进行组合,以生成多个图像帧。
步骤57:将多个图像帧形成动画。
可选的,步骤55-57具体是:
通过卷积神经网络预先进行深度学习,建立图像模型,以使对应的特征信息生成多个图像帧,然后将多个图像帧形成动画。
步骤58:将动画与语音进行融合,以形成用于对应用程序进行介绍的视频。
参阅图6,图6是本申请提供的应用程序的介绍方法第六实施例的流程示意图,该方法基于服务器进行实施,该方法包括:
步骤61:获取移动终端发送的关键词;其中,关键词是移动终端基于获取的关于应用程序的介绍需求信息提取得到的,介绍需求信息用于表示对于介绍应用程序的需求。
可选的,当移动终端获取到关于应用程序的介绍需求信息后,提取出关键词,将关键词发送给服务器。
步骤62:基于关键词生成相关联的图像和语音。
可选的,服务器预先通过应用程序的相关内容进行模型训练,以使在获得移动终端的关键词时,快速进行响应,得到与关键词相关联的图像和语音。
步骤63:向移动终端发送图像和语音,以使移动终端对图像和语音进行处理,以形成用于对应用程序进行介绍的视频。
可选的,向移动终端发送生成的图像和语音,以使移动终端对图像进行特征信息提取,再将特征信息进行组合,以生成多个图像帧进行组合,以生成多个图像帧。移动终端将多个图像帧形成动画与语音融合,以形成用于对应用程序进行介绍的视频。
区别于现有技术的情况,本申请的一种应用程序的介绍方法,包括:获取移动终端发送的关键词;其中,关键词是移动终端基于获取的关于应用程序的介绍需求信息提取得到的,介绍需求信息用于表示对于介绍应用程序的需求;基于关键词生成相关联的图像和语音;向移动终端发送图像和语音,以使移动终端对图像和语音进行处理,以形成用于对应用程序进行介绍的视频。通过上述方式,能够便捷的获取到用户的需求,并根据用户的不同需求进行不同的应用程序介绍,一方面能够适应于不同的用户群体,使应用程序满足更多用户群体的需求,另一方面采用动画的形式进行应用程序的介绍能够增加应用程序介绍的个性化,增加趣味性,提高用户体验
参阅图7,图7是本申请提供的应用程序的介绍方法第七实施例的流程示意图,该方法包括:
步骤71:获取移动终端发送的关键词;其中,关键词是移动终端基于获取的关于应用程序的介绍需求信息提取得到的,介绍需求信息用于表示对于介绍应用程序的需求。
步骤72:将关键词通过深度学习,以从预设图像库得到相关联的图像。
深度学习模型有卷积神经网络(convolutional neural network)、DBN(DeepBelief Network,深度信任网络模型)和堆栈自编码网络(stacked auto-encodernetwork)模型。
卷积神经网络受视觉系统的结构启发而产生。第一个卷积神经网络计算模型是在神经认知机中提出的,基于神经元之间的局部连接和分层组织图像转换,将有相同参数的神经元应用于前一层神经网络的不同位置,得到一种平移不变神经网络结构形式。后来,在该思想的基础上,用误差梯度设计并训练卷积神经网络,在一些模式识别任务上得到优越的性能。
DBN可以解释为贝叶斯概率生成模型,由多层随机隐变量组成,上面的两层具有无向对称连接,下面的层得到来自上一层的自顶向下的有向连接,最底层单元的状态为可见输入数据向量。DBN由若2F结构单元堆栈组成,结构单元通常为RBM(RestIlcted BoltzmannMachine,受限玻尔兹曼机)。堆栈中每个RBM单元的可视层神经元数量等于前一RBM单元的隐层神经元数量。根据深度学习机制,采用输入样例训练第一层RBM单元,并利用其输出训练第二层RBM模型,将RBM模型进行堆栈通过增加层来改善模型性能。在无监督预训练过程中,DBN编码输入到顶层RBM后,解码顶层的状态到最底层的单元,实现输入的重构。RBM作为DBN的结构单元,与每一层DBN共享参数。
堆栈自编码网络的结构与DBN类似,由若干结构单元堆栈组成,不同之处在于其结构单元为自编码模型(auto-en-coder)而不是RBM。自编码模型是一个两层的神经网络,第一层称为编码层,第二层称为解码层。
可选的,服务器需要根据应用程序的特点及关键词的特点,产生对应的场景预判,根据场景搜索对应的图像。
可选的,当预设图像库不满足搜索需求时,服务器将在互联中搜索图像。
步骤73:将关键词通过深度学习,以生成符合关键词场景的文字信息。
步骤74:将文字信息转换为语音。
步骤75:向移动终端发送图像和语音,以使移动终端对图像和语音进行处理,以形成用于对应用程序进行介绍的视频。
可选的,还可以是服务器先检索大量图像,将图像发送给移动终端,由移动终端根据关键词进行图像分割,再根据场景进行组合,形成动画。在于语音融合,以形成用于对应用程序进行介绍的视频。
参阅图8,图8是本申请提供的移动终端第一实施例的结构示意图,该移动终端80包括处理器81以及与处理器81连接的存储器82;存储器82用于存储程序数据,处理器81用于执行程序数据,以实现以下方法:
获取关于应用程序的介绍需求信息;其中,介绍需求信息用于表示对于介绍应用程序的需求;提取介绍需求信息中的关键词;基于关键词获取相关联的图像和语音;对图像和语音进行处理,以形成用于对应用程序进行介绍的视频。
可选地,处理器81用于执行该程序数据还用以实现以下的方法:对音频信息进行语音识别,以得到文本信息;对文本信息进行关键词提取,以得到关键词。
可选地,处理器81用于执行该程序数据还用以实现以下的方法:对文本信息进行语义分割;基于语义分割的结果得到关键词。
可选地,处理器81用于执行该程序数据还用以实现以下的方法:将文本信息输入至卷积神经网络进行深度学习,以将文本信息进行语义分割,以得到关键词。
可选地,处理器81用于执行该程序数据还用以实现以下的方法:对文本信息进行语义分割;基于语义分割的结果得到关键词。
可选地,处理器81用于执行该程序数据还用以实现以下的方法:将关键词发送给服务器,以使服务器基于关键词生成相关联的图像和语音;获取服务器发送的图像和语音。
可选地,处理器81用于执行该程序数据还用以实现以下的方法:对多个对应的图像进行图像分割,提取图像中特征信息;将特征信息进行组合,以生成多个图像帧;将多个图像帧形成动画;将动画与语音进行融合,以形成用于对应用程序进行介绍的视频。
可选地,处理器81用于执行该程序数据还用以实现以下的方法:获取服务器发送的背景音乐;其中,背景音乐是服务器基于关键词生成的音乐;将背景音乐添加至视频。
参阅图9,图9是本申请提供的服务器第一实施例的结构示意图,该服务器90包括处理器91以及与处理器91连接的存储器92;存储器92用于存储程序数据,处理器91用于执行程序数据,以实现以下方法:
获取移动终端发送的关键词;其中,关键词是移动终端基于获取的关于应用程序的介绍需求信息提取得到的,介绍需求信息用于表示对于介绍应用程序的需求;基于关键词生成相关联的图像和语音;向移动终端发送图像和语音,以使移动终端对图像和语音进行处理,以形成用于对应用程序进行介绍的视频。
可选地,处理器91用于执行该程序数据还用以实现以下的方法:将关键词通过深度学习,以从预设图像库得到相关联的图像。
可选地,处理器91用于执行该程序数据还用以实现以下的方法:将关键词通过深度学习,以生成符合关键词场景的文字信息;将文字信息转换为语音
参阅图10,图10是本申请提供的计算机存储介质一实施例的结构示意图,该计算机存储介质100用于存储程序数据101,程序数据101在被处理器执行时,用于实现以下方法:
获取关于应用程序的介绍需求信息;其中,介绍需求信息用于表示对于介绍应用程序的需求;提取介绍需求信息中的关键词;基于关键词获取相关联的图像和语音;对图像和语音进行处理,以形成用于对应用程序进行介绍的视频;
或者,获取移动终端发送的关键词;其中,关键词是移动终端基于获取的关于应用程序的介绍需求信息提取得到的,介绍需求信息用于表示对于介绍应用程序的需求;基于关键词生成相关联的图像和语音;向移动终端发送图像和语音,以使移动终端对图像和语音进行处理,以形成用于对应用程序进行介绍的视频。
可以理解,计算机存储介质既可以应用于上述的移动终端,也可以应用于上述的服务器,实现上述任一实施例的方法。
参阅图11,图11是本申请提供的移动终端第二实施例的结构示意图,移动终端110包括:获取模块111、提取模块112、处理模块113。
获取模块111用于获取关于应用程序的介绍需求信息;其中,介绍需求信息用于表示对于介绍应用程序的需求;
提取模块112用于提取介绍需求信息中的关键词;
获取模块111还用于基于关键词获取相关联的图像和语音;
处理模块113用于对图像和语音进行处理,以形成用于对应用程序进行介绍的视频。
参阅图12,图12是本申请提供的服务器第二实施例的结构示意图,服务器120包括:获取模块121、处理模块122、发送模块123。
获取模块121用于获取移动终端发送的关键词;其中,关键词是移动终端基于获取的关于应用程序的介绍需求信息提取得到的,介绍需求信息用于表示对于介绍应用程序的需求;
处理模块122用于基于关键词生成相关联的图像和语音;
发送模块123用于向移动终端发送图像和语音,以使移动终端对图像和语音进行处理,以形成用于对应用程序进行介绍的视频。
在本申请所提供的几个实施方式中,应该理解到,所揭露的方法以及设备,可以通过其它的方式实现。例如,以上所描述的设备实施方式仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。
另外,在本申请各个实施方式中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
上述其他实施方式中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本申请各个实施方式所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,RandomAccess Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上仅为本申请的实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。

Claims (16)

1.一种应用程序的介绍方法,其特征在于,包括:
获取关于应用程序的介绍需求信息;其中,所述介绍需求信息用于表示对于介绍所述应用程序的需求;
提取所述介绍需求信息中的关键词;
基于所述关键词获取相关联的图像和语音;
对所述图像和所述语音进行处理,以形成用于对所述应用程序进行介绍的视频。
2.根据权利要求1所述的方法,其特征在于,
所述介绍需求信息为音频信息;
所述提取所述介绍需求信息中的关键词,包括:
对所述音频信息进行语音识别,以得到文本信息;
对所述文本信息进行关键词提取,以得到关键词。
3.根据权利要求2所述的方法,其特征在于,
所述对所述文本信息进行关键词提取,以得到关键词,包括:
对所述文本信息进行语义分割;
基于所述语义分割的结果得到关键词。
4.根据权利要求3所述的方法,其特征在于,
所述对所述文本信息进行语义分割,包括:
将所述文本信息输入至卷积神经网络进行深度学习,以将所述文本信息进行语义分割,以得到关键词。
5.根据权利要求1所述的方法,其特征在于,
所述介绍需求信息为文本信息;
所述提取所述介绍需求信息中的关键词,包括:
对所述文本信息进行语义分割;
基于所述语义分割的结果得到关键词。
6.根据权利要求1所述的方法,其特征在于,
所述基于所述关键词获取相关联的图像和语音,包括:
将所述关键词发送给服务器,以使所述服务器基于所述关键词生成相关联的图像和语音;
获取所述服务器发送的所述图像和所述语音。
7.根据权利要求1所述的方法,其特征在于,
所述对所述图像和所述语音进行处理,以形成用于对所述应用程序进行介绍的视频,包括:
对多个所述对应的图像进行图像分割,提取所述图像中特征信息;
将所述特征信息进行组合,以生成多个图像帧;
将所述多个图像帧形成动画;
将所述动画与所述语音进行融合,以形成用于对所述应用程序进行介绍的视频。
8.根据权利要求7所述的方法,其特征在于,
所述方法还包括:
获取所述服务器发送的背景音乐;其中,所述背景音乐是所述服务器基于所述关键词生成的音乐;
将所述背景音乐添加至所述视频。
9.一种应用程序的介绍方法,其特征在于,包括:
获取移动终端发送的关键词;其中,所述关键词是所述移动终端基于获取的关于应用程序的介绍需求信息提取得到的,所述介绍需求信息用于表示对于介绍所述应用程序的需求;
基于所述关键词生成相关联的图像和语音;
向所述移动终端发送所述图像和所述语音,以使所述移动终端对所述图像和所述语音进行处理,以形成用于对所述应用程序进行介绍的视频。
10.根据权利要求9所述的方法,其特征在于,
所述基于所述关键词生成相关联的图像和语音,包括:
将所述关键词通过深度学习,以从预设图像库得到相关联的图像。
11.根据权利要求10所述的方法,其特征在于,
所述基于所述关键词生成相关联的图像和语音,包括:
将所述关键词通过深度学习,以生成符合所述关键词场景的文字信息;
将所述文字信息转换为所述语音。
12.一种移动终端,其特征在于,所述移动终端包括处理器以及与所述处理器连接的存储器;
所述存储器用于存储程序数据,所述处理器用于执行所述程序数据,以实现如权利要求1-8任一项所述的方法。
13.一种服务器,其特征在于,所述服务器包括处理器以及与所述处理器连接的存储器;
所述存储器用于存储程序数据,所述处理器用于执行所述程序数据,以实现如权利要求9-11任一项所述的方法。
14.一种计算机存储介质,其特征在于,所述计算机存储介质用于存储程序数据,所述程序数据在被处理器执行时,用于实现如权利要求1-11任一项所述的方法。
15.一种移动终端,其特征在于,所述移动终端包括:
获取模块,用于获取关于应用程序的介绍需求信息;其中,所述介绍需求信息用于表示对于介绍所述应用程序的需求;
提取模块,用于提取所述介绍需求信息中的关键词;
所述获取模块还用于基于所述关键词获取相关联的图像和语音;
处理模块,用于对所述图像和所述语音进行处理,以形成用于对所述应用程序进行介绍的视频。
16.一种服务器,其特征在于,所述服务器包括:
获取模块,用于获取移动终端发送的关键词;其中,所述关键词是所述移动终端基于获取的关于应用程序的介绍需求信息提取得到的,所述介绍需求信息用于表示对于介绍所述应用程序的需求;
处理模块,用于基于所述关键词生成相关联的图像和语音;
发送模块,用于向所述移动终端发送所述图像和所述语音,以使所述移动终端对所述图像和所述语音进行处理,以形成用于对所述应用程序进行介绍的视频。
CN201980010315.5A 2019-09-02 2019-09-02 应用程序的介绍方法、移动终端及服务器 Pending CN111801673A (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2019/104000 WO2021042234A1 (zh) 2019-09-02 2019-09-02 应用程序的介绍方法、移动终端及服务器

Publications (1)

Publication Number Publication Date
CN111801673A true CN111801673A (zh) 2020-10-20

Family

ID=72805590

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201980010315.5A Pending CN111801673A (zh) 2019-09-02 2019-09-02 应用程序的介绍方法、移动终端及服务器

Country Status (2)

Country Link
CN (1) CN111801673A (zh)
WO (1) WO2021042234A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117041627A (zh) * 2023-09-25 2023-11-10 宁波均联智行科技股份有限公司 Vlog视频生成方法及电子设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104731959A (zh) * 2015-04-03 2015-06-24 北京威扬科技有限公司 基于文本的网页内容生成视频摘要的方法、装置及系统
CN104820546A (zh) * 2014-12-30 2015-08-05 广州酷狗计算机科技有限公司 功能信息展示方法和装置
CN106648675A (zh) * 2016-12-28 2017-05-10 乐蜜科技有限公司 应用程序使用信息的展示方法、装置和电子设备
CN106919317A (zh) * 2017-02-27 2017-07-04 珠海市魅族科技有限公司 一种信息展示方法及系统
CN109145152A (zh) * 2018-06-28 2019-01-04 中山大学 一种基于查询词的自适应智能生成图文视频缩略图方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106547748A (zh) * 2015-09-16 2017-03-29 中国移动通信集团公司 一种app索引库的创建方法及装置、搜索app的方法及装置
CN108965737B (zh) * 2017-05-22 2022-03-29 腾讯科技(深圳)有限公司 媒体数据处理方法、装置及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104820546A (zh) * 2014-12-30 2015-08-05 广州酷狗计算机科技有限公司 功能信息展示方法和装置
CN104731959A (zh) * 2015-04-03 2015-06-24 北京威扬科技有限公司 基于文本的网页内容生成视频摘要的方法、装置及系统
CN106648675A (zh) * 2016-12-28 2017-05-10 乐蜜科技有限公司 应用程序使用信息的展示方法、装置和电子设备
CN106919317A (zh) * 2017-02-27 2017-07-04 珠海市魅族科技有限公司 一种信息展示方法及系统
CN109145152A (zh) * 2018-06-28 2019-01-04 中山大学 一种基于查询词的自适应智能生成图文视频缩略图方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117041627A (zh) * 2023-09-25 2023-11-10 宁波均联智行科技股份有限公司 Vlog视频生成方法及电子设备
CN117041627B (zh) * 2023-09-25 2024-03-19 宁波均联智行科技股份有限公司 Vlog视频生成方法及电子设备

Also Published As

Publication number Publication date
WO2021042234A1 (zh) 2021-03-11

Similar Documents

Publication Publication Date Title
CN106328147B (zh) 语音识别方法和装置
US20220351487A1 (en) Image Description Method and Apparatus, Computing Device, and Storage Medium
CN111160452A (zh) 一种基于预训练语言模型的多模态网络谣言检测方法
CN111966826A (zh) 一种构建文本分类系统的方法、系统、介质及电子设备
CN110287314B (zh) 基于无监督聚类的长文本可信度评估方法及系统
CN111061861A (zh) 一种基于XLNet的文本摘要自动生成方法
KR20200087977A (ko) 멀티모달 문서 요약 시스템 및 방법
EP4060548A1 (en) Method and device for presenting prompt information and storage medium
CN112069312A (zh) 一种基于实体识别的文本分类方法及电子装置
CN111859950A (zh) 一种自动化生成讲稿的方法
CN109635303B (zh) 特定领域意义改变词的识别方法
CN113255331B (zh) 文本纠错方法、装置及存储介质
CN112528989B (zh) 一种图像语义细粒度的描述生成方法
CN113486143A (zh) 一种基于多层级文本表示及模型融合的用户画像生成方法
CN111801673A (zh) 应用程序的介绍方法、移动终端及服务器
CN111639189A (zh) 一种基于文本内容特征的文本图构建方法
CN114970524B (zh) 可控文本生成方法及装置
CN115795026A (zh) 基于对比学习的中文文本摘要生成方法
CN109670047A (zh) 一种抽象笔记生成方法、计算机装置及可读存储介质
CN114428852A (zh) 基于bert预训练模型的中文文本摘要抽取方法及装置
CN112632229A (zh) 文本聚类方法及装置
CN112686059A (zh) 文本翻译方法、装置、电子设备和存储介质
CN112464664A (zh) 一种多模型融合中文词汇复述抽取方法
CN111340329A (zh) 演员评估方法、装置及电子设备
CN115546355B (zh) 一种文本配图方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20201020

RJ01 Rejection of invention patent application after publication