CN104866511A - 一种添加多媒体文件的方法及设备 - Google Patents

一种添加多媒体文件的方法及设备 Download PDF

Info

Publication number
CN104866511A
CN104866511A CN201410067024.9A CN201410067024A CN104866511A CN 104866511 A CN104866511 A CN 104866511A CN 201410067024 A CN201410067024 A CN 201410067024A CN 104866511 A CN104866511 A CN 104866511A
Authority
CN
China
Prior art keywords
multimedia file
confidence
multimedia
degree
search key
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410067024.9A
Other languages
English (en)
Other versions
CN104866511B (zh
Inventor
王睿
关国锋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
XFusion Digital Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to CN201410067024.9A priority Critical patent/CN104866511B/zh
Priority to PCT/CN2014/082691 priority patent/WO2015127747A1/zh
Publication of CN104866511A publication Critical patent/CN104866511A/zh
Application granted granted Critical
Publication of CN104866511B publication Critical patent/CN104866511B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/43Querying

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例公开了一种添加多媒体文件的方法及设备,用于从大量多媒体数据中,检索出多媒体并添加,节省查找时间,提高查找准确率。本发明实施例包括:获取字符文本;对所述字符文本进行解析,得到检索关键词组;根据所述检索关键词组,在预置的多媒体库中检索与所述检索关键词组相匹配的多媒体列表;计算所述多媒体列表中多媒体文件的置信度;若确定出所述多媒体列表中多媒体文件的置信度满足预设条件时,将置信度满足预设条件的多媒体文件添加至文本。

Description

一种添加多媒体文件的方法及设备
技术领域
本发明涉及通信技术领域,尤其是涉及一种添加多媒体文件的方法及设备。
背景技术
随着社交网络、即时通讯的不断发展,人与人之间沟通交流的信息载体包含了越来越多的多媒体(如图片、音频、视频等)数据。目前,当用户想要在文本编辑过程(如微博、短信、WORD文档、电子邮件等)中插入多媒体数据时,一般都需要通过“复制、粘贴”的方式,或者通过特定的“插入工具”来实现。
可是发明人在实现本发明的过程中发现目前这些插入多媒体数据的方式都不可避免的需要用户去庞大的多媒体库中寻找待插入的目标数据,这种方式操作繁琐,查找的准确率不高,并且耗时。
发明内容
本发明实施例提供了一种添加多媒体文件的方法及设备,用于从大量多媒体数据中,检索出多媒体并添加,节省查找时间,提高查找准确率。
有鉴于此,本发明第一方面提供一种添加多媒体文件的方法,可包括:
获取字符文本;
对所述字符文本进行解析,得到检索关键词组;
根据所述检索关键词组,在预置的多媒体库中检索与所述检索关键词组相匹配的多媒体列表;
计算所述多媒体列表中多媒体文件的置信度;
若确定出所述多媒体列表中多媒体文件的置信度满足预设条件时,将置信度满足预设条件的多媒体文件添加至文本。
在第一方面第一种可能的实施方式中,所述对所述字符文本进行解析,得到检索关键词组包括:
对所述字符文本进行词法解析;
对词法解析得到的结果进行句法解析;
对句法解析得到的结果进行语义解析,输出检索关键词组。
结合第一种可能的实施方式,在第二种可能的实施方式中,所述对所述字符文本进行词法解析,包括:
对所述字符文本进行分词;
对分词后得到的词语、词组、短语进行命名实体识别;
根据预置同义词组列表,将进行命名实体识别后得到的拥有多种同义表述的词语规范化为同义词组的标准词,所述标准词即为所述词法解析得到的结果。
结合第一种或第二种可能的实施方式,在第三种可能的实施方式中,所述对词法解析得到的结果进行句法解析,包括:
对所述词法解析得到的结果进行词性标注;
对词性标注后的输出结果进行分析,得到输出结果中的词语、词组之间的彼此主从、修饰关系,并生成对应的语法分析树。
结合第一种或第二种或第三种可能的实施方式,在第四种可能的实施方式中,所述对句法解析得到的结果进行语义解析,输出检索关键词组,包括:
结合预置知识库,对句法解析得到的词语、词组之间的彼此主从、修饰关系进行分析,识别字符文本的语义和意图,并生成检索关键词组,其中,所述检索关键词组包括主属性关键词组和从属性关键词组,所述从属性关键词组用于修饰所述主属性关键词组表征的对象的属性。
结合第四种可能的实施方式,在第五种可能的实施方式中,所述计算所述多媒体列表中多媒体文件的置信度,包括:
若所述检索关键词组中关键词全部命中多媒体文件,则将全部命中的多媒体文件标记为相关,且将所述全部命中的多媒体文件的置信度设置为1;
若所述检索关键词组中关键词部分命中多媒体文件,则将部分命中的多媒体文件标记为相关,且利用公式:
confidence=wprimary*hit_ratioprimary+wsecondary*hit_ratiosecondary
计算所述部分命中的多媒体文件的置信度,其中,所述confidence为所述置信度,所述wprimary为所述主属性关键词组的权重值,所述wsecondary为所述从属性关键词组的权重值,所述hit_ratioprimary为所述主属性关键词组的命中率,所述hit_ratiosecondary为所述从属性关键词组的命中率,所述命中率为命中的关键词个数占检索关键词组中全部关键词个数的比值。
结合第一方面或第一种至第五种任一种可能的实施方式,在第六种可能的实施方式中,所述若确定出所述多媒体列表中多媒体文件的置信度满足预设条件时,将置信度满足预设条件的多媒体文件添加至文本,包括:
将多媒体文件置信度最大确定为满足预设条件,在所述多媒体列表中获取到多媒体文件置信度最大的多媒体文件,并将所述多媒体文件置信度最大的多媒体文件添加至文本。
结合第一方面或第一种至第六种任一种可能的实施方式,在第七种可能的实施方式中,所述方法还包括:
若所述检索关键词组的任一关键词均未命中多媒体文件,则确定出所述预置的多媒体库中不存在与所述检索关键词组相匹配的多媒体文件。
结合第一方面或第一种至第六种任一种可能的实施方式,在第八种可能的实施方式中,所述计算所述多媒体列表中多媒体文件的置信度之后,包括:
判断所述多媒体文件的置信度与预设可置信阈值;
若多媒体文件的置信度大于或者等于所述预置可置信阈值,则保留所述多媒体文件;
若多媒体文件的置信度小于所述预置可置信阈值,则将所述多媒体文件从其所处的多媒体列表中删除。
结合第一方面或第一种至第六种任一种可能的实施方式,在第九种可能的实施方式中,所述计算所述多媒体列表中多媒体文件的置信度之后,包括:
按照多媒体文件的置信度由高到低,对多媒体列表中的多媒体文件进行排序。
本发明第二方面提供一种添加多媒体文件的设备,可包括:
获取模块,用于获取字符文本;
解析模块,用于对所述字符文本进行解析,得到检索关键词组;
检索模块,用于根据所述检索关键词组,在预置的多媒体库中检索与所述检索关键词组相匹配的多媒体列表;
计算模块,用于计算所述多媒体列表中多媒体文件的置信度;
添加模块,用于若确定出所述多媒体列表中多媒体文件的置信度满足预设条件时,将置信度满足预设条件的多媒体文件添加至文本。
在第二方面第一种可能的实施方式中,所述解析模块,包括:
第一解析单元,用于对所述字符文本进行词法解析;
第二解析单元,对词法解析得到的结果进行句法解析;
第三解析单元,对句法解析得到的结果进行语义解析,输出检索关键词组。
结合第一种可能的实施方式,在第二种可能的实施方式中,所述第一解析单元,具体用于:对所述字符文本进行分词;对分词后得到的词语、词组、短语进行命名实体识别;根据预置同义词组列表,将进行命名实体识别后得到的拥有多种同义表述的词语规范化为同义词组的标准词;所述标准词即为所述词法解析得到的结果。
结合第一种或第二种可能的实施方式,在第三种可能的实施方式中,所述第二解析单元,具体用于:对所述词法解析得到的结果进行词性标注;对词性标注后的输出结果进行分析,得到输出结果中的词语、词组之间的彼此主从、修饰关系,并生成对应的语法分析树。
结合第一种或第二种或第三种可能的实施方式,在第四种可能的实施方式中,所述第三解析单元,具体用于:结合预置知识库,对句法解析得到的词语、词组之间的彼此主从、修饰关系进行分析,识别字符文本的语义和意图,并生成检索关键词组,其中,所述检索关键词组包括主属性关键词组和从属性关键词组,所述从属性关键词组用于修饰所述主属性关键词组表征的对象的属性。
结合第四种可能的实施方式,在第五种可能的实施方式中,所述计算模块,具体用于:
若所述检索关键词组中一个或多个关键词全部命中一个或多个多媒体文件,则将全部命中的多媒体文件标记为相关,且将所述全部命中的多媒体文件的置信度设置为1;
若所述检索关键词组中一个或多个关键词部分命中一个或多个多媒体文件,则将部分命中的多媒体文件标记为相关,且利用公式:
confidence=wprimary*hit_ratioprimary+wsecondary*hit_ratiosecondary
计算所述部分命中的多媒体文件的置信度,其中,所述confidence为所述置信度,所述wprimary为所述主属性关键词组的权重值,所述wsecondary为所述从属性关键词组的权重值,所述hit_ratioprimary为所述主属性关键词组的命中率,所述hit_ratiosecondary为所述从属性关键词组的命中率,所述命中率为命中的关键词个数占检索关键词组中全部关键词个数的比值。
结合第二方面或第一种至第五种任一种可能的实施方式,在第六种可能的实施方式中,所述添加模块具体用于:将多媒体文件置信度最大确定为满足预设条件,在所述多媒体列表中获取到多媒体文件置信度最大的多媒体文件,并将所述多媒体文件置信度最大的多媒体文件添加至文本。
结合第二方面或第一种至第六种任一种可能的实施方式,在第七种可能的实施方式中,所述设备还包括确定模块,所述确定模块用于:若所述检索关键词组的任一关键词均未命中多媒体文件,则确定出所述预置的多媒体库中不存在与所述检索关键词组相匹配的多媒体文件。
结合第二方面或第一种至第六种任一种可能的实施方式,在第八种可能的实施方式中,所述设备还包括判断模块,所述判断模块用于:判断所述多媒体文件的置信度与预设可置信阈值;若多媒体文件的置信度大于或者等于所述预置可置信阈值,则保留所述多媒体文件;若多媒体文件的置信度小于所述预置可置信阈值,则将所述多媒体文件从其所处的多媒体列表中删除。
结合第二方面或第一种至第六种任一种可能的实施方式,在第九种可能的实施方式中,所述设备还包括排序模块,所述排序模块用于:按照多媒体文件的置信度由高到低,对多媒体列表中的多媒体文件进行排序。
从以上技术方案可以看出,本发明实施例提供的一种添加多媒体文件的方法及设备具有以下优点:通过对字符文本进行解析,得到检索关键词组,从而可以知道文本的语义以及潜在意图;根据检索关键词检索与检索关键词组相匹配的多媒体列表,并将多媒体列表中多媒体文件置信度最大的多媒体文件添加至需要添加多媒体文件的文本,从而使得添加的多媒体文件更符合上下文语境,更准确,简化了添加多媒体文件的操作,提高用户体验。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种添加多媒体文件的方法的流程示意图;
图2a为本发明实施例提供的一种音乐多媒体分类树示意图;
图2b为本发明实施例提供的一种多分类的多媒体库示意图;
图3a为本发明实施例提供的添加多媒体文件的方法的另一流程示意图;
图3b为本发明实施例提供的一种语法分析树示意图;
图4为本发明实施例提供的添加多媒体文件的方法的另一流程示意图;
图5为本发明实施例提供的语法分析树另一示意图;
图6为本发明实施例提供的一种添加多媒体文件的设备的结构示意图;
图7为本发明实施例提供的添加多媒体文件的设备的另一结构示意图。
具体实施方式
本发明实施例提供了一种添加多媒体文件的方法及设备,用于从大量多媒体数据中,检索出多媒体并添加,节省查找时间,提高查找准确率。
为使得本发明的发明目的、特征、优点能够更加的明显和易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,下面所描述的实施例仅仅是本发明一部分实施例,而非全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
下面通过具体实施例,分别进行详细的说明。
请参考图1,图1为本发明实施例提供的一种添加多媒体文件的方法的流程示意图;其中,所述方法包括:
S101、获取字符文本;
S102、对所述字符文本进行解析,得到检索关键词组;
S103、根据所述检索关键词组,在预置的多媒体库中检索与所述检索关键词组相匹配的多媒体列表;
S104、计算所述多媒体列表中多媒体文件的置信度;
S105、若确定出所述多媒体列表中多媒体文件的置信度满足预设条件时,将满足预设条件的多媒体文件添加至文本。
首先应该理解的是,所述添加多媒体文件的方法可基于语言解析系统中应用,该系统中可以包括知识库、分类器、推理规则库以及多媒体库,所述知识库,分类器以及多媒体库为预先预置。
所述知识库中包含了用于辅助解析和所述分类器对多媒体文件进行分类的先验知识;知识库的具体内容包括但不限于:多媒体分类树和推理规则库;其中,所述多媒体分类树表征多媒体数据的常用分类方法。该多媒体分类树是分类器对多媒体库中的多媒体文件进行分类的依据,多媒体分类树包含:通用多媒体分类树。该种类型的分类树规定了使用多媒体文件的通用分类规则,例如:“音乐”可按照流派分为“流行”、“摇滚”等,“图片”按照色彩可分为“黑白”、“彩色”。正因为此种分类规则对多媒体文件通用,所以任一多媒体文件均可在该分类树上找到一个或多个表征该多媒体文件的分类的节点。可参考图2a,图2a示出了音乐多媒体分类树的一个示例,可以理解的是,根据多媒体库中多媒体数据的实际情况,通用多媒体分类树也会不相同,此处不作具体限定。
所述推理规则库描述了对字符文本或词汇进行语义推理的规则,其构成包括:多媒体分类树的每个节点包含了可用于描述该节点的关键词集,当字符文本中包含了该关键词集合中的一个或者多个关键词时,则可认为该关键词的含义为其在多媒体分类树上对应的节点表征的含义。例如,在如图2a所示的多媒体分类树上,假设“音乐”节点的关键词集为{音乐,歌曲,单曲,曲子,旋律,music},以字符文本是“周杰伦的最新单曲”为例,在“周杰伦的最新单曲”例子中,对“单曲”关键词进行推理可确定整个字符文本的意思是“周杰伦的最新音乐”。另外,对多媒体分类树上的任一子节点,可沿该子节点到多媒体分类树根节点的路径向上推理。例如,在图2a描述的多媒体分类树上,假设节点“伤感”的关键词集合为{伤心,失落,糟糕},当字符文本为“今天的心情很失落”时,首先可通过“失落”关键词推理得到“伤感”节点,然后可沿“伤感 音乐心情 音乐”路径推理得到“音乐”节点。即,“今天的心情很失落”可以用“音乐”来描述。
所述分类器,其利用所述知识库中的多媒体分类树,对多媒体库中的多媒体文件进行分类,输出多分类的多媒体库。即依据多媒体文件的类别信息,将多媒体文件映射到多媒体分类树的节点上。当从不同的角度对多媒体文件进行分类时,一个多媒体文件可能映射到一个或者多个多媒体分类树上的节点。例如:{东风破,歌手:周杰伦,流派:流行}这首歌,按歌手分类时,被映射到图2a多媒体分类树的“周杰伦”节点;按流派分类时,被映射到“流行”节点。
所述多媒体库,其通过分类器按照知识库的多媒体分类树对多媒体进行分类得到,可参考图2b,图2b为多分类的多媒体库的一个示例。
其后,根据建立好的知识库和多媒体库,对用户输入的字符文本进行解析,以生成表征字符文本语义及意图的关键词集合,即检索关键词组。
可以理解的是,本发明实施例中,所述置信度也称为可靠度,或置信水平、置信系数,置信度的计算可以根据所述检索关键词组计算得出,此处不作具体限定。
另容易想到的是,本发明实施例中,所述预设条件可以设定为多媒体文件的置信度最高或者多媒体文件的置信度大于等于预设阈值等,在某些实施方式中,若将多媒体文件置信度最大确定为满足预设条件,则在所述多媒体列表中获取到多媒体文件置信度最大的多媒体文件,并将所述多媒体文件置信度最大的多媒体文件添加至文本,此处举例并不造成对本发明的限定。
由上述可知,本发明实施例提供的一种添加多媒体文件的方法具有以下优点:通过对字符文本进行解析,得到检索关键词组,从而可以知道文本的语义以及潜在意图;根据检索关键词检索与检索关键词组相匹配的多媒体列表,并将多媒体列表中多媒体文件置信度最大的多媒体文件添加至需要添加多媒体文件的文本,从而使得添加的多媒体文件更符合上下文语境,更准确,简化了添加多媒体文件的操作,提高用户体验。
进一步地,在本发明一些实施例中,可参考图3a,图3a为所述对所述字符文本进行解析,得到检索关键词组(S102)可以具体包括:
S1021、对所述字符文本进行词法解析;
在某些实施例方式中,所述对所述字符文本进行词法解析(S1021)可以具体包括:
步骤一、对所述字符文本进行分词;
可具体地,可以将连续的字符文本按照语言中词语、词组、短语的概念、注册、关系、属性等切分成词语、词组、或短语。例如:“周杰伦的歌曲”,分词结果输出“周杰伦//的//歌曲”(其中“//”表示词语间的分隔符)。
步骤二、对分词后得到的词语、词组、短语进行命名实体识别;
即识别词语、词组、或短语中的具有特定意义的实体,主要包括人名、地名等。例如:“周杰伦的东风破”,命名实体识别可输出“周杰伦-人名”,“东风破-歌曲名”。
步骤三、根据预置同义词组列表,将进行命名实体识别后得到的拥有多种同义表述的词语规范化为同义词组的标准词,所述标准词即为所述词法解析得到的结果。
可以理解的是,所述预置同义词组列表中包括了多个同义词组合,每个同义词组合由拥有多种同义表述的词语构成,并将这些拥有多种同义表述的词语规范化为该同义词组合的标准词。例如:“周杰伦、周董、Jay”为一组同义词组,其中“周杰伦”为该同义词组的标准词,如将字符文本“周董的歌曲”中的“周董”规范化为“周杰伦”。
S1022、对词法解析得到的结果进行句法解析;
其中,句法分析从自然语言的语法层面,对字符文本进行解析;
在某些实施例方式中,所述对词法解析得到的结果进行句法解析(S1022)可以具体包括:
步骤一、对所述词法解析得到的结果进行词性标注;
即给词法分析的输出结果中的每个词语、词组、短语指派一个合适的词性。例如,“周杰伦的歌曲”经过词性标注的输出可以为“周杰伦|人名//的|结构助词//歌曲|名词”,其中“|”后的内容表示前面单词的词性。
步骤二、对词性标注后的输出结果进行分析,得到输出结果中的词语、词组之间的彼此主从、修饰关系,并生成对应的语法分析树。
可一并参考图3b,图3b为字符文本为“周杰伦的歌曲”的例子中,对应输出的语法分析树示意图。
S1023、对句法解析得到的结果进行语义解析,输出检索关键词组。
可以理解的是,语义解析通过分析词组本身的意义、句法结构、结合预置知识库中的先验知识,解析字符文本中涉及的实体、关系、主题、意图等,并生成相关的检索关键词组。
所述检索关键词组可以包括主属性关键词组和从属性关键词组,所述从属性关键词组用于修饰所述主属性关键词组表征的对象的属性。例如:若检索关键词组形如“{东风破,歌手:周杰伦,流派:流行}”,其中,“东风破”为主属性关键词组,“歌手:周杰伦”和“流派:流行”为从属性关键词组,“周杰伦”表示了“东风破”的“歌手”属性。
其中,可具体地,进行语义解析提供的功能包括:
根据词法分析、句法分析结果,抽取字符文本中的关键词,确定多个关键词之间的主从、修饰关系。例如:“周杰伦的东风破”,依据词法分析中,分词和命名实体识别的结果,可提取出关键词“周杰伦”和“东风破”,然后依据句法分析的句法分析树可知“周杰伦”作为“东风破”的定语,用于修饰“东风破”,基于以上信息,便可以获取关键词间的修饰关系:{东风破←周杰伦};其中,“←”表示修饰关系,周杰伦作为东风破的一个属性值。
依据词法分析、句法分析结果,结合预置知识库,进行语义推理,识别字符文本的潜在语义。例如:“周杰伦的最新单曲”,经过词法分析生成“周杰伦//的//最新//单曲”;经过句法分析生成“周杰伦|名词//的|结构助词//最新|形容词//单曲|名词”;依据知识库中的推理规则,将“单曲”推理到“音乐”,将“最新”推理到音乐的“发售时间”属性,将周杰伦推理到音乐的“歌手”属性,则可以得到“周杰伦的最新单曲”全句的潜在语义为“歌手是周杰伦的发售时间距离当前时间最近的音乐”,对应的关键词组为{音乐,歌手:周杰伦,发售时间:最近}。假如,预置知识库中包含了两首音乐,其详细信息为:{东风破,发售时间:2012-10-21,歌手:周杰伦}和{青花瓷,发售时间:2013-11-30,歌手:周杰伦}。那么,通过对两首歌的时间属性的比较,“青花瓷”较“东风破”推出晚,是字符文本语义的目标多媒体文件。
依据词法分析、句法分析结果,结合预置知识库,识别字符文本的潜在意图。例如:“今天的心情很失落”,依据知识库中的推理规则,在图2a描述的多媒体分类树上,假设节点“伤感”的关键词集合为{伤心,失落,糟糕},当字符文本为“今天的心情很失落”时,首先可通过“失落”关键词推理得到“伤感”节点,然后可沿“伤感→音乐心情→音乐”路径推理得到“音乐”节点。即,“今天的心情很失落”可以用“音乐”来描述。
需要说明的是,所述语言解析系统中包括词库,该词库保存了特定词语、词组、短语和指示其概念、属性、关系的实体之间的关联。另外,词库还可以保存词语的同义词、近义词,实体名词等,以结合多媒体库和知识库实现对字符文本的解析。
更进一步地,在本发明一些实施例中,根据前述S1021至S1023得到检索关键词组后,根据所述检索关键词组,在预置的多媒体库中检索与所述检索关键词组相匹配的多媒体列表,其中与所述检索关键词组相匹配的多媒体列表的匹配关系可以包括全部命中和部分命中,检索关键词组的主属性关键词组和从属性关键词组命中时可有不同的权重值,分别为wprimary和wsecondary;本发明实施例中,预先设定所述wprimary和所述wsecondary的和为1。
如果多媒体文件的描述中包含了检索关键词组中的某一关键词,则表示该关键词命中,反之该关键词未命中。如:关键词为“周杰伦”,多媒体文件的描述为{东风破,演唱者:周杰伦},那么关键词“周杰伦”命中。所述检索关键词组的“命中率(hit_ratio)”为命中的关键词个数占检索关键词组中全部关键词个数的比值。
优选地,所述计算所述多媒体列表中多媒体文件的置信度(confidence)(S104),可以包括:
一方面,若所述检索关键词组中关键词全部命中多媒体文件,则将全部命中的多媒体文件标记为相关,且将所述全部命中的多媒体文件的置信度设置为1。例如:检索关键词组为{东风破},多媒体库中的歌名为东风破的节点唯一,则{东风破,歌手:周杰伦,流派:流行}节点被命中,且关键词“东风破”完全匹配,所以将置信度确定为1。再如:当检索关键词组为{音乐,歌手:周杰伦}时,在多媒体分类树上,检索到节点“周杰伦”,且其所属的分类为“音乐”大类下“歌手”子类,“周杰伦”节点下包含了“东风破”、“双截棍”2个节点,指示命中2个多媒体文件;该例子中,关键词“音乐”与媒体分类的大类“音乐”命中;关键词“歌手:周杰伦”与“东风破”和“双截棍”2个节点的“歌手:周杰伦”命中,所以,可以认为全部命中,所以将置信度确定为1。
另一方面,若所述检索关键词组中关键词部分命中多媒体文件,则将部分命中的多媒体文件标记为相关,且利用公式:
confidence=wprimary*hit_ratioprimary+wsecondary*hit_ratiosecondary
计算所述部分命中的多媒体文件的置信度。其中,所述confidence为所述置信度,所述wprimary为主属性关键词组的权重值,所述wsecondary为从属性关键词组的权重值,所述hit_ratioprimary为主属性关键词组的命中率,所述hit_ratiosecondary为从属性关键词组的命中率。例如:检索关键词组为{吻别,歌手:周杰伦},该检索关键词组种,主属性关键词为“吻别”,从属性关键词为“歌手:周杰伦”。其主属性关键词部分命中了节点{吻别,歌手:张学友,音乐心情:伤感、浪漫},命中率为1,从属关键词未命中,所以,该节点的相关性置信度为:wprimary*1+wsecondary*0;从属性关键词命中了{东风破,歌手:周杰伦,流派:流行}节点,该节点的相关性置信度为wprimary*0+wsecondary*1。
可以理解的是,所述方法还可以包括:
若所述检索关键词组的任一关键词均未命中多媒体文件,则确定出所述预置的多媒体库中不存在与所述检索关键词组相匹配的多媒体文件。即不需要计算多媒体文件置信度,该情况下,不进行对多媒体文件的添加操作。
更进一步地,请看参考图4,图4为所述添加多媒体文件的方法的另一流程示意图,其中,所述计算所述多媒体列表中多媒体文件的置信度(S104)之后,还可以包括:
S1041、判断所述多媒体文件的置信度与预设可置信阈值;
S1041a、若多媒体文件的置信度大于或者等于所述预置可置信阈值,则保留所述多媒体文件;
S1041b、若多媒体文件的置信度小于所述预置可置信阈值,则将所述多媒体文件从其所处的多媒体列表中删除。
可以理解的是,步骤S1041a或S1041b后,将更新后的多媒体列表中多媒体文件置信度最大的多媒体文件添加至文本。
优选地,为了多媒体列表中置信度越高的多媒体文件的位置越靠前,所述计算所述多媒体列表中多媒体文件的置信度之后,还可以包括:
按照多媒体文件的置信度由高到低,对多媒体列表中的多媒体文件进行排序。
可以理解的是,若对于两个置信度相同的多媒体文件,可使用多媒体文件的除检索关键词组中的主、从属性以外的属性辅助进行排序。例如,检索关键词组{吻别,歌手:刘德华}检索出的两个置信度相同的多媒体文件{吻别,歌手:张学友}(记为a)和{吻别,歌手:黎明}(记为b)。该情况下,可以按多媒体文件a和多媒体文件b的“播放次数”、“创建时间”等属性进行排序,此次不作具体限定。
由上述可知,本发明实施例提供的一种添加多媒体文件的方法具有以下优点:通过对字符文本进行词法、句法和语义解析,得到检索关键词组,从而可以知道文本的语义以及潜在意图;根据检索关键词检索与检索关键词组相匹配的多媒体列表,并将多媒体列表中多媒体文件置信度最大的多媒体文件添加至需要添加多媒体文件的文本,从而使得添加的多媒体文件更符合上下文语境,更准确,简化了添加多媒体文件的操作,提高用户体验。
为了更好地理解本发明技术方案,下面以字符文本内容是“周杰伦的最新单曲”为例,并结合图1、图3a以及图4所示的流程图,对所述添加多媒体文件的方法进行分析:
首先,根据词库中的词典、实体名词表、同义词表,对字符文本的内容进行分词,识别分词结果中的命名实体,并对具有同义说法的词语进行标准化,生成词法分析结果。例如:“周杰伦的最新单曲”的分词结果为“周杰伦//的//最新//单曲”(“//”表示分词结果词汇见的分隔符);命名实体识别的结果为“周杰伦-人名”;同义词标准化的结果为“单曲 歌曲”。“周杰伦的最新单曲”经过词法分析模块的最终结果转换成“周杰伦|人名//的//最新//歌曲”
其后,对词法分析结果进行词性标注,并依据词性标注结果,结合自然语言的语法,分析并生成对应的语法分析树。词性标注结果与语法分析一起构成了词法分析结果。例如:“周杰伦//的//最新//歌曲”的词性标注结果为“周杰伦|人名//的|结构助词//最新|形容词//歌曲|名词”(“|”标志词语的词性注释);可一并参考图5,图5为该实施例中对应的语法分析树示意图。
进一步地,分析词组本身的意义、句法结构、结合知识库中的推理规则,解析句法分析结果中包含的文本语义及意图,输出供检索模块使用的检索关键词组。以句法分析结果数据“周杰伦|人名//的|结构助词//最新|形容词//歌曲|名词”及图5对应的语法树为例,首先确定字符文本的关键词,得到关键词表{周杰伦|人名,最新|形容词,歌曲|名词}。同时结合语法分析树,得到关键词之间的主从、修饰关系,“周杰伦”和“最新”均作为歌曲的定语,用于修饰歌曲。于是,可得到修饰关系为{歌曲 周杰伦,歌曲 最新}。然后结合知识库中的推理规则库对关键词组及其修饰关系进行语义推理。通过关键词“歌曲”推理得知检索的大类为“音乐”,通过“最新”关键词,推理关键词描述的是时间属性。最后,结合语法分析树可得到“周杰伦|人名//的|结构助词//最新|形容词//歌曲|名词”的文本语义为“歌手是周杰伦的、发售时间离当前时间最近的音乐”,将其形式化描述为{音乐,歌手:周杰伦,发售时间:最近}。其中,“音乐”为文本语义的主属性,“歌手:周杰伦”和“发售时间:最近”为修饰主属性“音乐”的从属性。将这种形式化的描述(即检索关键词组)作为多媒体检索模块的输入。
从多媒体库中检索与检索关键词组({音乐,歌手:周杰伦,发售时间:最近})相匹配的多媒体文件,并计算多媒体文件的置信度。首先,多分类的多媒体库以图2b为例,由检索关键词组中的主属性“音乐”可将检索的目标对象定位到音乐多媒体库;其次,通过从属性“歌手:周杰伦”可见检索对象进一步缩小至关联到“周杰伦”节点音乐列表。然后,比较与“周杰伦”相关联的全部音乐的“发售时间”属性,选择“发售时间”离当前时间最近的音乐添加到相关多媒体列表。最后,通过置信度计算公式计算该多媒体列表中的每个多媒体文件的置信度。多媒体文件的置信度计算公式可以为:
confidence=wprimary*hit_ratioprimary+wsecondary*hit_ratiosecondary
比较计算得到的多媒体列表中的每个多媒体文件的置信度与预置可置信阈值的大小,如果计算出来的置信度小于预置可置信阈值,则将该多媒体文件从多媒体列表中移除。经过该步骤的过滤后,得到更新后的可置信的多媒体列表。
对可置信的相关多媒体列表中的多媒体文件进行排序,保证置信度越高的多媒体文件的位置越靠前,以得到排序后的可置信相关多媒体列表。其具体内容为:对于多媒体列表中的多媒体文件,按照其置信度由高到低对相关多媒体进行排序。对于置信度相同的多媒体文件,可使用多媒体文件的除检索关键词组中的主、从属性以外的属性辅助进行排序。例如,以多媒体文件的“播放次数”、“创建时间”等属性进行排序。
由上述可知,本发明实施例提供的一种添加多媒体文件的方法具有以下优点:通过对字符文本进行词法、句法和语义解析,得到检索关键词组,从而可以知道文本的语义以及潜在意图;根据检索关键词检索与检索关键词组相匹配的多媒体列表,并将多媒体列表中多媒体文件置信度最大的多媒体文件添加至需要添加多媒体文件的文本,从而使得添加的多媒体文件更符合上下文语境,更准确,简化了添加多媒体文件的操作,提高用户体验。
为便于更好的实施本发明实施例提供的添加多媒体文件的方法,本发明实施例还提供一种基于上述添加多媒体文件的方法的设备。其中名词的含义与上述添加多媒体文件的方法中相同,具体实现细节可以参考方法实施例中的说明。
请参考图6,图6为本发明实施例提供的一种添加多媒体文件的设备600的结构示意图,其中,所述添加多媒体文件的设备600可包括:
获取模块601,用于获取字符文本;
解析模块602,用于对所述字符文本进行解析,得到检索关键词组;
检索模块603,用于根据所述检索关键词组,在预置的多媒体库中检索与所述检索关键词组相匹配的多媒体列表;
计算模块604,用于计算所述多媒体列表中多媒体文件的置信度;
添加模块605,用于若确定出所述多媒体列表中多媒体文件的置信度满足预设条件时,将置信度满足预设条件的多媒体文件添加至文本。
首先应该理解的是,所述添加多媒体文件的装置可基于语言解析系统中应用,该系统中可以包括知识库,分类器以及多媒体库,所述知识库,分类器以及多媒体库为预先预置。其中,所述知识库、所述推理规则库、所述分类器、所述多媒体库可以参考对应方法实施例中的具体描述,此处不作具体限定。
可选的,本发明实施例中,所述预设条件可以设定为多媒体文件的置信度最高或者多媒体文件的置信度大于等于预设阈值等,在某些实施方式中,若将多媒体文件置信度最大确定为满足预设条件,则所述添加模块605具体用于:在所述多媒体列表中获取到多媒体文件置信度最大的多媒体文件,并将所述多媒体文件置信度最大的多媒体文件添加至文本,容易想到的是,此处举例并不造成对本发明的限定。
进一步地,在本发明一些实施例中,所述解析模块602,可以具体包括:
第一解析单元,用于对所述字符文本进行词法解析;
第二解析单元,对词法解析得到的结果进行句法解析;
第三解析单元,对句法解析得到的结果进行语义解析,输出检索关键词组。
在某些实施例方式中,所述第一解析单元,可具体用于:对所述字符文本进行分词;对分词后得到的词语、词组、短语进行命名实体识别;根据预置同义词组列表,将进行命名实体识别后得到的拥有多种同义表述的词语规范化为同义词组的标准词,所述标准词即为所述词法解析得到的结果。
可具体地,可以将连续的字符文本按照语言中词语、词组、短语的概念、注册、关系、属性等切分成词语、词组、或短语。例如:“周杰伦的歌曲”,分词结果输出“周杰伦//的//歌曲”(其中“//”表示词语间的分隔符);识别词语、词组、或短语中的具有特定意义的实体,主要包括人名、地名等。例如:“周杰伦的东风破”,命名实体识别可输出“周杰伦-人名”,“东风破-歌曲名”;可以理解的是,所述预置同义词组列表中包括了多个同义词组合,每个同义词组合由拥有多种同义表述的词语构成,并将这些拥有多种同义表述的词语规范化为该同义词组合的标准词。例如:“周杰伦、周董、Jay”为一组同义词组,其中“周杰伦”为该同义词组的标准词,如将字符文本“周董的歌曲”中的“周董”规范化为“周杰伦”。
所述第二解析单元从自然语言的语法层面,对字符文本进行解析,在某些实施方式中,可具体用于:对所述词法解析得到的结果进行词性标注;对词性标注后的输出结果进行分析,得到输出结果中的词语、词组之间的彼此主从、修饰关系,并生成对应的语法分析树。
可具体地,给词法分析的输出结果中的每个词语、词组、短语指派一个合适的词性。例如,“周杰伦的歌曲”经过词性标注的输出可以为“周杰伦|人名//的|结构助词//歌曲|名词”,其中“|”后的内容表示前面单词的词性;如图3b为字符文本为“周杰伦的歌曲”的例子中,对应输出的语法分析树示意图。
在某些实施方式中,所述第三解析单元,可具体用于:结合预置知识库,对句法解析得到的词语、词组之间的彼此主从、修饰关系进行分析,识别字符文本的语义和意图,并生成检索关键词组,其中,所述检索关键词组包括主属性关键词组和从属性关键词组,所述从属性关键词组用于修饰所述主属性关键词组表征的对象的属性。
可以理解的是,语义解析通过分析词组本身的意义、句法结构、结合预置知识库中的先验知识,解析字符文本中涉及的实体、关系、主题、意图等,并生成相关的检索关键词组。
所述检索关键词组可以包括主属性关键词组和从属性关键词组,所述从属性关键词组用于修饰所述主属性关键词组表征的对象的属性。例如:若检索关键词组形如“{东风破,歌手:周杰伦,流派:流行}”,其中,“东风破”为主属性关键词组,“歌手:周杰伦”和“流派:流行”为从属性关键词组,“周杰伦”表示了“东风破”的“歌手”属性。
其中,可具体地,进行语义解析提供的功能包括:
根据词法分析、句法分析结果,抽取字符文本中的关键词,确定多个关键词之间的主从、修饰关系。例如:“周杰伦的东风破”,依据词法分析中,分词和命名实体识别的结果,可提取出关键词“周杰伦”和“东风破”,然后依据句法分析的句法分析树可知“周杰伦”作为“东风破”的定语,用于修饰“东风破”,基于以上信息,便可以获取关键词间的修饰关系:{东风破←周杰伦};其中,“←”表示修饰关系,周杰伦作为东风破的一个属性值。
依据词法分析、句法分析结果,结合预置知识库,进行语义推理,识别字符文本的潜在语义。例如:“周杰伦的最新单曲”,经过词法分析生成“周杰伦//的//最新//单曲”;经过句法分析生成“周杰伦|名词//的|结构助词//最新|形容词//单曲|名词”;依据知识库中的推理规则,将“单曲”推理到“音乐”,将“最新”推理到音乐的“发售时间”属性,将周杰伦推理到音乐的“歌手”属性,则可以得到“周杰伦的最新单曲”全句的潜在语义为“歌手是周杰伦的发售时间距离当前时间最近的音乐”,对应的关键词组为{音乐,歌手:周杰伦,发售时间:最近}。假如,预置知识库中包含了两首音乐,其详细信息为:{东风破,发售时间:2012-10-21,歌手:周杰伦}和{青花瓷,发售时间:2013-11-30,歌手:周杰伦}。那么,通过对两首歌的时间属性的比较,“青花瓷”较“东风破”推出晚,是字符文本语义的目标多媒体文件。
依据词法分析、句法分析结果,结合预置知识库,识别字符文本的潜在意图。例如:“今天的心情很失落”,依据知识库中的推理规则,在图2a描述的多媒体分类树上,假设节点“伤感”的关键词集合为{伤心,失落,糟糕},当字符文本为“今天的心情很失落”时,首先可通过“失落”关键词推理得到“伤感”节点,然后可沿“伤感→音乐心情→音乐”路径推理得到“音乐”节点。即,“今天的心情很失落”可以用“音乐”来描述。
需要说明的是,所述语言解析系统中包括词库,该词库保存了特定词语、词组、短语和指示其概念、属性、关系的实体之间的关联。另外,词库还可以保存词语的同义词、近义词,实体名词等,以结合多媒体库和知识库实现对字符文本的解析。
更进一步地,在本发明一些实施例中,得到检索关键词组后,根据所述检索关键词组,在预置的多媒体库中检索与所述检索关键词组相匹配的多媒体列表,其中与所述检索关键词组相匹配的多媒体列表的匹配关系可以包括全部命中和部分命中,检索关键词组的主属性关键词组和从属性关键词组命中时可有不同的权重值,分别为wprimary和wsecondary;本发明实施例中,预先设定所述wprimary和所述wsecondary的和为1。
如果多媒体文件的描述中包含了检索关键词组中的某一关键词,则表示该关键词命中,反之该关键词未命中。如:关键词为“周杰伦”,多媒体文件的描述为{东风破,演唱者:周杰伦},那么关键词“周杰伦”命中。所述检索关键词组的“命中率(hit_ratio)”为命中的关键词个数占检索关键词组中全部关键词个数的比值。其具体计算分析过程如下:
一方面,所述计算模块604,用于:
若所述检索关键词组中一个或多个关键词全部命中一个或多个多媒体文件,则将全部命中的多媒体文件标记为相关,且将所述全部命中的多媒体文件的置信度设置为1。若所述检索关键词组中关键词全部命中多媒体文件,则将全部命中的多媒体文件标记为相关,且将所述全部命中的多媒体文件的置信度设置为1。例如:检索关键词组为{东风破},多媒体库中的歌名为东风破的节点唯一,则{东风破,歌手:周杰伦,流派:流行}节点被命中,且关键词“东风破”完全匹配,所以将置信度确定为1。再如:当检索关键词组为{音乐,歌手:周杰伦}时,在多媒体分类树上,检索到节点“周杰伦”,且其所属的分类为“音乐”大类下“歌手”子类,“周杰伦”节点下包含了“东风破”、“双截棍”2个节点,指示命中2个多媒体文件;该例子中,关键词“音乐”与媒体分类的大类“音乐”命中;关键词“歌手:周杰伦”与“东风破”和“双截棍”2个节点的“歌手:周杰伦”命中,所以,可以认为全部命中,所以将置信度确定为1。
另一方面,所述计算模块604,还可以用于:
若所述检索关键词组中一个或多个关键词部分命中一个或多个多媒体文件,则将部分命中的多媒体文件标记为相关,且利用公式:
confidence=wprimary*hit_ratioprimary+wsecondary*hit_ratiosecondary
计算所述部分命中的多媒体文件的置信度,其中,所述confidence为所述置信度,所述wprimary为所述主属性关键词组的权重值,所述wsecondary为所述从属性关键词组的权重值,所述hit_ratioprimary为所述主属性关键词组的命中率,所述hit_ratiosecondary为所述从属性关键词组的命中率,所述命中率为命中的关键词个数占检索关键词组中全部关键词个数的比值。例如:检索关键词组为{吻别,歌手:周杰伦},该检索关键词组种,主属性关键词为“吻别”,从属性关键词为“歌手:周杰伦”。其主属性关键词部分命中了节点{吻别,歌手:张学友,音乐心情:伤感、浪漫},命中率为1,从属关键词未命中,所以,该节点的相关性置信度为:wprimary*1+wsecondary*0;从属性关键词命中了{东风破,歌手:周杰伦,流派:流行}节点,该节点的相关性置信度为wprimary*0+wsecondary*1。
可以理解的是,所述设备还可以包括确定模块,所述确定模块用于:
若所述检索关键词组的任一关键词均未命中多媒体文件,则确定出所述预置的多媒体库中不存在与所述检索关键词组相匹配的多媒体文件。即不需要计算多媒体文件置信度,该情况下,不进行对多媒体文件的添加操作。
进一步地,所述设备还可以包括判断模块,所述判断模块用于:判断所述多媒体文件的置信度与预设可置信阈值;若多媒体文件的置信度大于或者等于所述预置可置信阈值,则保留所述多媒体文件;若多媒体文件的置信度小于所述预置可置信阈值,则将所述多媒体文件从其所处的多媒体列表中删除。将更新后的多媒体列表中多媒体文件置信度最大的多媒体文件添加至文本。
优选地,为了多媒体列表中置信度越高的多媒体文件的位置越靠前,所述设备还可以包括排序模块,所述排序模块用于:在计算所述多媒体列表中多媒体文件的置信度之后,按照多媒体文件的置信度由高到低,对多媒体列表中的多媒体文件进行排序。
可以理解的是,若对于两个置信度相同的多媒体文件,可使用多媒体文件的除检索关键词组中的主、从属性以外的属性辅助进行排序。例如,检索关键词组{吻别,歌手:刘德华}检索出的两个置信度相同的多媒体文件{吻别,歌手:张学友}(记为a)和{吻别,歌手:黎明}(记为b)。该情况下,可以按多媒体文件a和多媒体文件b的“播放次数”、“创建时间”等属性进行排序,此次不作具体限定。
由上述可知,本发明实施例提供的一种添加多媒体文件的装置具有以下优点:通过对字符文本进行词法、句法和语义解析,得到检索关键词组,从而可以知道文本的语义以及潜在意图;根据检索关键词检索与检索关键词组相匹配的多媒体列表,并将多媒体列表中多媒体文件置信度最大的多媒体文件添加至需要添加多媒体文件的文本,从而使得添加的多媒体文件更符合上下文语境,更准确,简化了添加多媒体文件的操作,提高用户体验。
请参考图7,图7为本发明实施例提供的添加多媒体文件的设备的另一结构示意图,本发明提供的添加多媒体文件的设备的系统架构包括但不限于一个或者多个处理器、内存、对外接口、输入设备、输出设备、存储设备和和至少一个通信总线,用于实现这些装置之间的连接通信等。
所述处理器可以是任意控制移动终端上的所有操作的设备,包括但不限于执行短消息解析和服务、广告推荐时产生的指令。处理器可以是不限于一个或者多个中央处理器(CPU,Central Processing Unit)、GPU(GraphicProcessing Unit)、现场可编程逻辑门阵列(FPGA,Field Programmable GateArray)、DSP(Digital Signal Processor)、专用集成电路(ASIC,ApplicationSpecific Integrated Circuit)、可编程逻辑器件(PLD,Programmable Logic Device)等等,或者是上述设备的混合。
所述内存可以是任意缓存处理器执行移动终端上的操作所需要的数据和指令序列的设备,包括但不限于在运行短消息解析和服务、广告推荐所需要用到的数据和指令序列。内存可以是但不限于RAM、ROM、闪存等等,或者是上述设备的混合。
所述对外接口可以是任意移动终端和外部设备或者网络进行交互的接口,包括但不限于获取外部服务和广告信息所需要的接口。外部接口可以是但不限于以太网接口、DSL接口、RF接口、蓝牙等,或者是上述接口的混合。外部接口上可以运行任意网络传输协议,包括但不限于USB、电缆、光纤、无线(包括但不限于WiFi、2G/3G/4G网络)等传输协议。
所述输入设备可以是任意移动终端获取用户输入和信息的设备。输入设备可以是但不限于键盘、鼠标、触摸屏、设备按键、麦克风、各种传感器(如GPS、水平传感器、重力传感器等等),或者上述设备的混合。
所述输出设备可以是任意展示移动终端的处理结果的设备,包括但不限于展示推荐的服务和广告。输出设备可以是但不限于屏幕、发声器、耳机、打印机、振动器等,或者上述设备的混合。
存储设备可以是任意存储移动终端程序和数据的设备。存储设备包括但不限于闪存、硬盘、CD-ROM等,或者上述硬件的混合。
如图7所示,在一些实施方式中,所述存储设备中存储了程序指令,程序指令可以被处理器执行,所述处理器具体执行以下步骤:
获取字符文本;对所述字符文本进行解析,得到检索关键词组;根据所述检索关键词组,在预置的多媒体库中检索与所述检索关键词组相匹配的多媒体列表;计算所述多媒体列表中多媒体文件的置信度;若确定出所述多媒体列表中多媒体文件的置信度满足预设条件时,将置信度满足预设条件的多媒体文件添加至文本。
可选地,所述处理器用于对所述字符文本进行解析,得到检索关键词组包括:对所述字符文本进行词法解析;对词法解析得到的结果进行句法解析;对句法解析得到的结果进行语义解析,输出检索关键词组。
可选地,所述处理器用于对所述字符文本进行词法解析,包括:
对所述字符文本进行分词;对分词后得到的词语、词组、短语进行命名实体识别;根据预置同义词组列表,将进行命名实体识别后得到的拥有多种同义表述的词语规范化为同义词组的标准词,所述标准词即为所述词法解析得到的结果。
可选地,所述处理器用于对词法解析得到的结果进行句法解析,包括:对所述词法解析得到的结果进行词性标注;对词性标注后的输出结果进行分析,得到输出结果中的词语、词组之间的彼此主从、修饰关系,并生成对应的语法分析树。
可选地,所述处理器用于对句法解析得到的结果进行语义解析,输出检索关键词组,包括:
结合预置知识库,对句法解析得到的词语、词组之间的彼此主从、修饰关系进行分析,识别字符文本的语义和意图,并生成检索关键词组,其中,所述检索关键词组包括主属性关键词组和从属性关键词组,所述从属性关键词组用于修饰所述主属性关键词组表征的对象的属性。
可选地,所述处理器用于计算所述多媒体列表中多媒体文件的置信度,包括:
若所述检索关键词组中关键词全部命中多媒体文件,则将全部命中的多媒体文件标记为相关,且将所述全部命中的多媒体文件的置信度设置为1;
若所述检索关键词组中关键词部分命中多媒体文件,则将部分命中的多媒体文件标记为相关,且利用公式:
confidence=wprimary*hit_ratioprimary+wsecondary*hit_ratiosecondary
计算所述部分命中的多媒体文件的置信度,其中,所述confidence为所述置信度,所述wprimary为所述主属性关键词组的权重值,所述wsecondary为所述从属性关键词组的权重值,所述hit_ratioprimary为所述主属性关键词组的命中率,所述hit_ratiosecondary为所述从属性关键词组的命中率,所述命中率为命中的关键词个数占检索关键词组中全部关键词个数的比值。
可选地,所述处理器用于若确定出所述多媒体列表中多媒体文件的置信度满足预设条件时,将置信度满足预设条件的多媒体文件添加至文本,包括:将多媒体文件置信度最大确定为满足预设条件,在所述多媒体列表中获取到多媒体文件置信度最大的多媒体文件,并将所述多媒体文件置信度最大的多媒体文件添加至文本。
进一步可选地,所述处理器还用于若所述检索关键词组的任一关键词均未命中多媒体文件,则确定出所述预置的多媒体库中不存在与所述检索关键词组相匹配的多媒体文件。
进一步可选地,所述处理器计算所述多媒体列表中多媒体文件的置信度之后,还可以用于:判断所述多媒体文件的置信度与预设可置信阈值;若多媒体文件的置信度大于或者等于所述预置可置信阈值,则保留所述多媒体文件;若多媒体文件的置信度小于所述预置可置信阈值,则将所述多媒体文件从其所处的多媒体列表中删除。
进一步可选地,所述处理器计算所述多媒体列表中多媒体文件的置信度之后,还可以用于:按照多媒体文件的置信度由高到低,对多媒体列表中的多媒体文件进行排序。
由上述可知,本发明实施例提供的一种添加多媒体文件的装置具有以下优点:通过对字符文本进行词法、句法和语义解析,得到检索关键词组,从而可以知道文本的语义以及潜在意图;根据检索关键词检索与检索关键词组相匹配的多媒体列表,并将多媒体列表中多媒体文件置信度最大的多媒体文件添加至需要添加多媒体文件的文本,从而使得添加的多媒体文件更符合上下文语境,更准确,简化了添加多媒体文件的操作,提高用户体验。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上对本发明所提供的一种添加多媒体文件的方法及设备进行了详细介绍,对于本领域的一般技术人员,依据本发明实施例的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (20)

1.一种添加多媒体文件的方法,其特征在于,包括:
获取字符文本;
对所述字符文本进行解析,得到检索关键词组;
根据所述检索关键词组,在预置的多媒体库中检索与所述检索关键词组相匹配的多媒体列表;
计算所述多媒体列表中多媒体文件的置信度;
若确定出所述多媒体列表中多媒体文件的置信度满足预设条件时,将置信度满足预设条件的多媒体文件添加至文本。
2.根据权利要求1所述的方法,其特征在于,所述对所述字符文本进行解析,得到检索关键词组包括:
对所述字符文本进行词法解析;
对词法解析得到的结果进行句法解析;
对句法解析得到的结果进行语义解析,输出检索关键词组。
3.根据权利要求2所述的方法,其特征在于,所述对所述字符文本进行词法解析,包括:
对所述字符文本进行分词;
对分词后得到的词语、词组、短语进行命名实体识别;
根据预置同义词组列表,将进行命名实体识别后得到的拥有多种同义表述的词语规范化为同义词组的标准词,所述标准词即为所述词法解析得到的结果。
4.根据权利要求2或3所述的方法,其特征在于,所述对词法解析得到的结果进行句法解析,包括:
对所述词法解析得到的结果进行词性标注;
对词性标注后的输出结果进行分析,得到输出结果中的词语、词组之间的彼此主从、修饰关系,并生成对应的语法分析树。
5.根据权利要求2至4任一项所述的方法,其特征在于,所述对句法解析得到的结果进行语义解析,输出检索关键词组,包括:
结合预置知识库,对句法解析得到的词语、词组之间的彼此主从、修饰关系进行分析,识别字符文本的语义和意图,并生成检索关键词组,其中,所述检索关键词组包括主属性关键词组和从属性关键词组,所述从属性关键词组用于修饰所述主属性关键词组表征的对象的属性。
6.根据权利要求5所述的方法,其特征在于,所述计算所述多媒体列表中多媒体文件的置信度,包括:
若所述检索关键词组中关键词全部命中多媒体文件,则将全部命中的多媒体文件标记为相关,且将所述全部命中的多媒体文件的置信度设置为1;
若所述检索关键词组中关键词部分命中多媒体文件,则将部分命中的多媒体文件标记为相关,且利用公式:
confidence=wprimary*hit_ratioprimary+wsecondary*hit_ratiosecondary
计算所述部分命中的多媒体文件的置信度,其中,所述confidence为所述置信度,所述wprimary为所述主属性关键词组的权重值,所述wsecondary为所述从属性关键词组的权重值,所述hit_ratioprimary为所述主属性关键词组的命中率,所述hit_ratiosecondary为所述从属性关键词组的命中率,所述命中率为命中的关键词个数占检索关键词组中全部关键词个数的比值。
7.根据权利要求1至6任一项所述的方法,其特征在于,所述若确定出所述多媒体列表中多媒体文件的置信度满足预设条件时,将置信度满足预设条件的多媒体文件添加至文本,包括:
将多媒体文件置信度最大确定为满足预设条件,在所述多媒体列表中获取到多媒体文件置信度最大的多媒体文件,并将所述多媒体文件置信度最大的多媒体文件添加至文本。
8.根据权利要求1至7任一项所述的方法,其特征在于,所述方法还包括:
若所述检索关键词组的任一关键词均未命中多媒体文件,则确定出所述预置的多媒体库中不存在与所述检索关键词组相匹配的多媒体文件。
9.根据权利要求1至7任一项所述的方法,其特征在于,所述计算所述多媒体列表中多媒体文件的置信度之后,包括:
判断所述多媒体文件的置信度与预设可置信阈值;
若多媒体文件的置信度大于或者等于所述预置可置信阈值,则保留所述多媒体文件;
若多媒体文件的置信度小于所述预置可置信阈值,则将所述多媒体文件从其所处的多媒体列表中删除。
10.根据权利要求1至7任一项所述的方法,其特征在于,所述计算所述多媒体列表中多媒体文件的置信度之后,包括:
按照多媒体文件的置信度由高到低,对多媒体列表中的多媒体文件进行排序。
11.一种添加多媒体文件的设备,其特征在于,包括:
获取模块,用于获取字符文本;
解析模块,用于对所述字符文本进行解析,得到检索关键词组;
检索模块,用于根据所述检索关键词组,在预置的多媒体库中检索与所述检索关键词组相匹配的多媒体列表;
计算模块,用于计算所述多媒体列表中多媒体文件的置信度;
添加模块,用于若确定出所述多媒体列表中多媒体文件的置信度满足预设条件时,将置信度满足预设条件的多媒体文件添加至文本。
12.根据权利要求11所述的设备,其特征在于,所述解析模块,包括:
第一解析单元,用于对所述字符文本进行词法解析;
第二解析单元,对词法解析得到的结果进行句法解析;
第三解析单元,对句法解析得到的结果进行语义解析,输出检索关键词组。
13.根据权利要求12所述的设备,其特征在于,所述第一解析单元,具体用于:对所述字符文本进行分词;对分词后得到的词语、词组、短语进行命名实体识别;根据预置同义词组列表,将进行命名实体识别后得到的拥有多种同义表述的词语规范化为同义词组的标准词;所述标准词即为所述词法解析得到的结果。
14.根据权利要求12或13所述的设备,其特征在于,所述第二解析单元,具体用于:对所述词法解析得到的结果进行词性标注;对词性标注后的输出结果进行分析,得到输出结果中的词语、词组之间的彼此主从、修饰关系,并生成对应的语法分析树。
15.根据权利要求12至14任一项所述的设备,其特征在于,所述第三解析单元,具体用于:结合预置知识库,对句法解析得到的词语、词组之间的彼此主从、修饰关系进行分析,识别字符文本的语义和意图,并生成检索关键词组,其中,所述检索关键词组包括主属性关键词组和从属性关键词组,所述从属性关键词组用于修饰所述主属性关键词组表征的对象的属性。
16.根据权利要求15所述的设备,其特征在于,所述计算模块,具体用于:
若所述检索关键词组中一个或多个关键词全部命中一个或多个多媒体文件,则将全部命中的多媒体文件标记为相关,且将所述全部命中的多媒体文件的置信度设置为1;
若所述检索关键词组中一个或多个关键词部分命中一个或多个多媒体文件,则将部分命中的多媒体文件标记为相关,且利用公式:
confidence=wprimary*hit_ratioprimary+wsecondary*hit_ratiosecondary
计算所述部分命中的多媒体文件的置信度,其中,所述confidence为所述置信度,所述wprimary为所述主属性关键词组的权重值,所述wsecondary为所述从属性关键词组的权重值,所述hit_ratioprimary为所述主属性关键词组的命中率,所述hit_ratiosecondary为所述从属性关键词组的命中率,所述命中率为命中的关键词个数占检索关键词组中全部关键词个数的比值。
17.根据权利要求11至16任一项所述的设备,其特征在于,所述添加模块具体用于:将多媒体文件置信度最大确定为满足预设条件,在所述多媒体列表中获取到多媒体文件置信度最大的多媒体文件,并将所述多媒体文件置信度最大的多媒体文件添加至文本。
18.根据权利要求11至17任一项所述的装置,其特征在于,所述设备还包括确定模块,所述确定模块用于:若所述检索关键词组的任一关键词均未命中多媒体文件,则确定出所述预置的多媒体库中不存在与所述检索关键词组相匹配的多媒体文件。
19.根据权利要求11至17任一项所述的设备,其特征在于,所述设备还包括判断模块,所述判断模块用于:判断所述多媒体文件的置信度与预设可置信阈值;若多媒体文件的置信度大于或者等于所述预置可置信阈值,则保留所述多媒体文件;若多媒体文件的置信度小于所述预置可置信阈值,则将所述多媒体文件从其所处的多媒体列表中删除。
20.根据权利要求11至17任一项所述的设备,其特征在于,所述设备还包括排序模块,所述排序模块用于:按照多媒体文件的置信度由高到低,对多媒体列表中的多媒体文件进行排序。
CN201410067024.9A 2014-02-26 2014-02-26 一种添加多媒体文件的方法及设备 Active CN104866511B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201410067024.9A CN104866511B (zh) 2014-02-26 2014-02-26 一种添加多媒体文件的方法及设备
PCT/CN2014/082691 WO2015127747A1 (zh) 2014-02-26 2014-07-22 一种添加多媒体文件的方法和设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410067024.9A CN104866511B (zh) 2014-02-26 2014-02-26 一种添加多媒体文件的方法及设备

Publications (2)

Publication Number Publication Date
CN104866511A true CN104866511A (zh) 2015-08-26
CN104866511B CN104866511B (zh) 2018-10-02

Family

ID=53912346

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410067024.9A Active CN104866511B (zh) 2014-02-26 2014-02-26 一种添加多媒体文件的方法及设备

Country Status (2)

Country Link
CN (1) CN104866511B (zh)
WO (1) WO2015127747A1 (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105893351A (zh) * 2016-03-31 2016-08-24 海信集团有限公司 语音识别方法及装置
CN106953913A (zh) * 2017-03-20 2017-07-14 维沃移动通信有限公司 一种信息推送方法及移动终端
CN107527619A (zh) * 2017-08-29 2017-12-29 海信集团有限公司 语音控制业务的定位方法及装置
CN107729439A (zh) * 2017-09-29 2018-02-23 北京小米移动软件有限公司 获取多媒体数据的方法、装置和系统
CN108109620A (zh) * 2017-11-24 2018-06-01 北京物灵智能科技有限公司 一种机器人智能交互方法及系统
CN108241668A (zh) * 2016-12-26 2018-07-03 北京搜狗科技发展有限公司 一种信息处理方法、装置及电子设备
CN108345608A (zh) * 2017-01-24 2018-07-31 北京搜狗科技发展有限公司 一种搜索方法、装置及设备
CN110430476A (zh) * 2019-08-05 2019-11-08 广州华多网络科技有限公司 直播间搜索方法、系统、计算机设备和存储介质
CN110765759A (zh) * 2019-10-21 2020-02-07 普信恒业科技发展(北京)有限公司 意图识别方法及装置
CN111191459A (zh) * 2019-12-25 2020-05-22 医渡云(北京)技术有限公司 一种文本处理方法、装置、可读介质及电子设备
CN112099708A (zh) * 2020-09-04 2020-12-18 Oppo广东移动通信有限公司 多媒体数据的显示方法及装置、电子设备、存储介质
CN112257424A (zh) * 2020-09-29 2021-01-22 华为技术有限公司 一种关键词提取方法、装置、存储介质及设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030105589A1 (en) * 2001-11-30 2003-06-05 Wen-Yin Liu Media agent
CN102360358A (zh) * 2011-09-28 2012-02-22 百度在线网络技术(北京)有限公司 关键词推荐方法及系统
CN103443755A (zh) * 2012-03-19 2013-12-11 三菱电机株式会社 可编程显示器用画面数据生成装置
CN103500235A (zh) * 2013-10-25 2014-01-08 乐视网信息技术(北京)股份有限公司 一种多媒体文件推荐方法及装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7725318B2 (en) * 2004-07-30 2010-05-25 Nice Systems Inc. System and method for improving the accuracy of audio searching
US20080201361A1 (en) * 2007-02-16 2008-08-21 Alexander Castro Targeted insertion of an audio - video advertising into a multimedia object
US9098579B2 (en) * 2011-06-07 2015-08-04 Kodak Alaris Inc. Automatically selecting thematically representative music

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030105589A1 (en) * 2001-11-30 2003-06-05 Wen-Yin Liu Media agent
CN102360358A (zh) * 2011-09-28 2012-02-22 百度在线网络技术(北京)有限公司 关键词推荐方法及系统
CN103443755A (zh) * 2012-03-19 2013-12-11 三菱电机株式会社 可编程显示器用画面数据生成装置
CN103500235A (zh) * 2013-10-25 2014-01-08 乐视网信息技术(北京)股份有限公司 一种多媒体文件推荐方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
张俊: ""主题词与关键词相结合的词表在网络信息处理中的应用"", 《图书情报工作》 *
张琪玉: ""网络信息检索工具增强关键词检索功能的措施"", 《图书馆杂志》 *

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105893351A (zh) * 2016-03-31 2016-08-24 海信集团有限公司 语音识别方法及装置
CN105893351B (zh) * 2016-03-31 2019-08-20 海信集团有限公司 语音识别方法及装置
CN108241668A (zh) * 2016-12-26 2018-07-03 北京搜狗科技发展有限公司 一种信息处理方法、装置及电子设备
CN108345608A (zh) * 2017-01-24 2018-07-31 北京搜狗科技发展有限公司 一种搜索方法、装置及设备
CN106953913A (zh) * 2017-03-20 2017-07-14 维沃移动通信有限公司 一种信息推送方法及移动终端
CN107527619B (zh) * 2017-08-29 2021-01-05 海信集团有限公司 语音控制业务的定位方法及装置
CN107527619A (zh) * 2017-08-29 2017-12-29 海信集团有限公司 语音控制业务的定位方法及装置
CN107729439A (zh) * 2017-09-29 2018-02-23 北京小米移动软件有限公司 获取多媒体数据的方法、装置和系统
CN108109620A (zh) * 2017-11-24 2018-06-01 北京物灵智能科技有限公司 一种机器人智能交互方法及系统
CN110430476A (zh) * 2019-08-05 2019-11-08 广州华多网络科技有限公司 直播间搜索方法、系统、计算机设备和存储介质
CN110765759A (zh) * 2019-10-21 2020-02-07 普信恒业科技发展(北京)有限公司 意图识别方法及装置
CN110765759B (zh) * 2019-10-21 2023-05-19 普信恒业科技发展(北京)有限公司 意图识别方法及装置
CN111191459A (zh) * 2019-12-25 2020-05-22 医渡云(北京)技术有限公司 一种文本处理方法、装置、可读介质及电子设备
CN111191459B (zh) * 2019-12-25 2023-12-12 医渡云(北京)技术有限公司 一种文本处理方法、装置、可读介质及电子设备
CN112099708A (zh) * 2020-09-04 2020-12-18 Oppo广东移动通信有限公司 多媒体数据的显示方法及装置、电子设备、存储介质
CN112099708B (zh) * 2020-09-04 2023-01-24 Oppo广东移动通信有限公司 多媒体数据的显示方法及装置、电子设备、存储介质
CN112257424A (zh) * 2020-09-29 2021-01-22 华为技术有限公司 一种关键词提取方法、装置、存储介质及设备

Also Published As

Publication number Publication date
WO2015127747A1 (zh) 2015-09-03
CN104866511B (zh) 2018-10-02

Similar Documents

Publication Publication Date Title
CN104866511A (zh) 一种添加多媒体文件的方法及设备
CN104252533B (zh) 搜索方法和搜索装置
CN110543574B (zh) 一种知识图谱的构建方法、装置、设备及介质
CN108304375B (zh) 一种信息识别方法及其设备、存储介质、终端
US9542477B2 (en) Method of automated discovery of topics relatedness
JP4937201B2 (ja) クエリー要件展開器およびクエリー要件展開方法
CN101271459B (zh) 一种生成词库的方法、一种输入的方法和一种输入法系统
JP5916947B2 (ja) オンライン商品検索方法およびシステム
KR101723862B1 (ko) 텍스트를 포함하는 문서 분류 및 분석 방법 및 이를 수행하는 문서 분류 및 분석 장치
CN105930362B (zh) 搜索目标识别方法、装置及终端
TW202020691A (zh) 特徵詞的確定方法、裝置和伺服器
CN104516986A (zh) 一种语句识别方法及装置
CN103678684A (zh) 一种基于导航信息检索的中文分词方法
JP2008152774A (ja) 固有表現抽出装置、方法、及びプログラム
CN103914513A (zh) 一种实体输入方法和装置
US20110302167A1 (en) Systems, Methods and Computer Program Products for Processing Accessory Information
CN103577989A (zh) 一种基于产品识别的信息分类方法及信息分类系统
CN114495143B (zh) 一种文本对象识别方法、装置、电子设备及存储介质
CN103942328A (zh) 一种视频检索方法及视频装置
CN116151220A (zh) 分词模型训练方法、分词处理方法和装置
US20200387815A1 (en) Building training data and similarity relations for semantic space
JP2009098952A (ja) 情報検索システム
KR20180113444A (ko) 개체명 연결 방법, 장치, 시스템 및 컴퓨터 프로그램
KR20230115964A (ko) 지식 그래프 생성 방법 및 장치
CN114491232B (zh) 信息查询方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
EXSB Decision made by sipo to initiate substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20211224

Address after: 450046 Floor 9, building 1, Zhengshang Boya Plaza, Longzihu wisdom Island, Zhengdong New Area, Zhengzhou City, Henan Province

Patentee after: Super fusion Digital Technology Co.,Ltd.

Address before: 518129 Bantian HUAWEI headquarters office building, Longgang District, Guangdong, Shenzhen

Patentee before: HUAWEI TECHNOLOGIES Co.,Ltd.

TR01 Transfer of patent right