CN110555070A - 用于输出信息的方法和装置 - Google Patents

用于输出信息的方法和装置 Download PDF

Info

Publication number
CN110555070A
CN110555070A CN201810554548.9A CN201810554548A CN110555070A CN 110555070 A CN110555070 A CN 110555070A CN 201810554548 A CN201810554548 A CN 201810554548A CN 110555070 A CN110555070 A CN 110555070A
Authority
CN
China
Prior art keywords
feature
data
category
name
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810554548.9A
Other languages
English (en)
Other versions
CN110555070B (zh
Inventor
吴石磊
王斐
彭锋
杨维
孙敏琪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baidu Online Network Technology Beijing Co Ltd
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201810554548.9A priority Critical patent/CN110555070B/zh
Publication of CN110555070A publication Critical patent/CN110555070A/zh
Application granted granted Critical
Publication of CN110555070B publication Critical patent/CN110555070B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

本申请实施例公开了用于输出信息的方法和装置。该方法的一具体实施方式包括:响应于接收到来自不同类别的数据源的针对同一对象的特征数据集合,对特征数据集合进行处理得到键值对集合和特征内容表,其中,键值对中的键为特征名称,值为类别;对于键值对集合所涉及的至少一个特征名称中的特征名称,从包括该特征名称的至少一个键值对中提取出类别生成该特征名称对应的类别集合,从类别集合中按预定规则选取目标类别,以及从特征内容表中查询出该特征名称和目标类别对应的特征内容作为该特征名称对应的目标特征内容,输出该特征名称对应的目标特征内容。该实施方式提高了来自不同类别数据源的数据的融合效率。

Description

用于输出信息的方法和装置
技术领域
本申请实施例涉及计算机技术领域,具体涉及用于输出信息的方法和装置。
背景技术
数据融合是指在尽可能保持数据原貌的前提下,最大限度地精简数据量(完成该任务的必要前提是理解挖掘任务和熟悉数据本身内容)。数据融合主要有两个途径:属性选择和数据采样,分别针对原始数据集中的属性和记录。假定在公司的数据仓库选择了数据,用于分析。这样数据集将非常大。在海量数据上进行复杂的数据分析扣挖掘将需要很长时间,使得这种分析不现实或不可行。数据融合技术可以用来得到数据集的融合表示,它虽然小,但仍大致保持原数据的完整性。这样,在融合后的数据集上挖掘将更有效,并产生相同(或几乎相同)的分析结果。
地图详情数据一直以来所有详情数据由各个垂类独立建设和维护。各个垂类数据方独立建设,详情数据没有整合,存在各个垂类之间重复建设,各个垂类内部数据混乱等特点。上游详情数据使用方,比如地图检索端,需要针对各个垂类去开发大量的代码来实现数据融合。
发明内容
本申请实施例提出了用于输出信息的方法和装置。
第一方面,本申请实施例提供了一种用于输出信息的方法,包括:响应于接收到来自不同类别的数据源的针对同一对象的特征数据集合,对特征数据集合进行处理得到键值对集合和特征内容表,其中,特征数据包括类别、特征名称和特征内容,特征内容表用于表征类别、特征名称与特征内容的对应关系,键值对中的键为特征名称,值为类别;对于键值对集合所涉及的至少一个特征名称中的特征名称,从包括该特征名称的至少一个键值对中提取出类别生成该特征名称对应的类别集合,从类别集合中按预定规则选取目标类别,以及从特征内容表中查询出该特征名称和目标类别对应的特征内容作为该特征名称对应的目标特征内容,输出该特征名称对应的目标特征内容。
在一些实施例中,上述方法还包括:对于至少一个特征名称中的特征名称,使用该特征名称对应的目标特征内容替换特征数据集合中的特征数据中的该特征名称对应的特征内容。
在一些实施例中,在对特征数据集合进行处理得到键值对集合和特征内容表之前,上述方法还包括:对于特征数据集合中的特征数据,响应于确定出该特征数据不满足预定校验条件,从特征数据集合中删除该特征数据。
在一些实施例中,类别与优先级相对应;以及从类别集合中按预定规则选取目标类别,包括:响应于确定出该特征名称对应的特征内容被预先配置成数据源独占模式,从该特征名称对应的类别集合中选取优先级最高的类别作为目标类别。
在一些实施例中,类别与优先级相对应;以及从类别集合中按预定规则选取目标类别,包括:响应于确定出该特征名称对应的特征内容被预先配置成数据源共享模式,按照优先级由高到低的顺序从该特征名称对应的类别集合中选取预定数目个类别作为目标类别。
在一些实施例中,从特征内容表中查询出该特征名称和目标类别对应的特征内容作为该特征名称对应的目标特征内容,包括:响应于确定出该特征名称对应的目标类别的数量大于预定数量阈值,将从特征内容表中查询出的各目标类别对应的特征内容添加到候选特征内容集合,以及对候选特征内容集合进行裁剪处理,将裁剪处理后的候选特征内容集合中的候选特征内容作为该特征名称对应的目标特征内容。
第二方面,本申请实施例提供了一种用于输出信息的装置,包括:数据映射单元,被配置成响应于接收到来自不同类别的数据源的针对同一对象的特征数据集合,对特征数据集合进行处理得到键值对集合和特征内容表,其中,特征数据包括类别、特征名称和特征内容,特征内容表用于表征类别、特征名称与特征内容的对应关系,键值对中的键为特征名称,值为类别;数据归约单元,被配置成对于键值对集合所涉及的至少一个特征名称中的特征名称,从包括该特征名称的至少一个键值对中提取出类别生成该特征名称对应的类别集合,从类别集合中按预定规则选取目标类别,以及从特征内容表中查询出该特征名称和目标类别对应的特征内容作为该特征名称对应的目标特征内容,输出该特征名称对应的目标特征内容。
在一些实施例中,上述装置还包括替换单元,被配置成:对于至少一个特征名称中的特征名称,使用该特征名称对应的目标特征内容替换特征数据集合中的特征数据中的该特征名称对应的特征内容。
在一些实施例中,上述装置还包括校验单元,被配置成:在对特征数据集合进行处理得到键值对集合和特征内容表之前,对于特征数据集合中的特征数据,响应于确定出该特征数据不满足预定校验条件,从特征数据集合中删除该特征数据。
在一些实施例中,类别与优先级相对应;以及数据归约单元进一步被配置成:响应于确定出该特征名称对应的特征内容被预先配置成数据源独占模式,从该特征名称对应的类别集合中选取优先级最高的类别作为目标类别。
在一些实施例中,类别与优先级相对应;以及数据归约单元进一步被配置成:响应于确定出该特征名称对应的特征内容被预先配置成数据源共享模式,按照优先级由高到低的顺序从该特征名称对应的类别集合中选取预定数目个类别作为目标类别。
在一些实施例中,数据归约单元进一步被配置成:响应于确定出该特征名称对应的目标类别的数量大于预定数量阈值,将从特征内容表中查询出的各目标类别对应的特征内容添加到候选特征内容集合,以及对候选特征内容集合进行裁剪处理,将裁剪处理后的候选特征内容集合中的候选特征内容作为该特征名称对应的目标特征内容。
第三方面,本申请实施例提供了一种电子设备,包括:一个或多个处理器;存储装置,其上存储有一个或多个程序,当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现如第一方面中任一的方法。
第四方面,本申请实施例提供了一种计算机可读介质,其上存储有计算机程序,其中,程序被处理器执行时实现如第一方面中任一的方法。
本申请实施例提供的用于输出信息的方法和装置,通过对来自不同类别的数据源的针对同一对象的特征数据进行特征提取,得到类别、特征名称与特征内容的对应关系和键为特征名称,值为类别的键值对集合。再从相同特征名称的键值对集合中选取目标类别,通过目标类别、特征名称查找目标特征内容。从而提高了数据融合处理的效率。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1是本申请可以应用于其中的示例性系统架构图;
图2是根据本申请的用于输出信息的方法的一个实施例的流程图;
图3是根据本申请的用于输出信息的方法的一个应用场景的示意图;
图4是根据本申请的用于输出信息的方法的又一个实施例的流程图;
图5是根据本申请的用于输出信息的装置的一个实施例的结构示意图;
图6是适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
图1示出了可以应用本申请的用于输出信息的方法或用于输出信息的装置的实施例的示例性系统架构100。
如图1所示,系统架构100可以包括数据源101、102、103,网络104和服务器105。网络104用以在数据源101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
数据源101、102、103通过网络104与服务器105交互,以接收或发送消息等。数据源101、102、103上存储了针对同一对象的特征数据集合。
数据源101、102、103可以是硬件,也可以是软件。当数据源101、102、103为硬件时,可以是支持针对同一对象的特征数据采集、同步、收发功能的各种电子设备,包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器(Moving Picture Experts Group AudioLayer III,动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts GroupAudio Layer IV,动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。当数据源101、102、103为软件时,可以安装在上述所列举的电子设备中。其可以实现成多个软件或软件模块(例如用来提供分布式服务),也可以实现成单个软件或软件模块。在此不做具体限定。
服务器105可以是提供各种服务的服务器,例如对数据源101、102、103存储的特征数据提供支持的后台数据服务器。后台数据服务器可以对接收到的不同数据源的特征数据进行分析等处理,并将处理结果(例如多个数据源的数据进行数据合并后的结果)反馈给数据源,使得各数据源同步更新数据。
需要说明的是,服务器可以是硬件,也可以是软件。当服务器为硬件时,可以实现成多个服务器组成的分布式服务器集群,也可以实现成单个服务器。当服务器为软件时,可以实现成多个软件或软件模块(例如用来提供分布式服务),也可以实现成单个软件或软件模块。在此不做具体限定。
需要说明的是,本申请实施例所提供的用于输出信息的方法一般由服务器105执行,相应地,用于输出信息的装置一般设置于服务器105中。
应该理解,图1中的数据源、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的数据源、网络和服务器。
继续参考图2,示出了根据本申请的用于输出信息的方法的一个实施例的流程200。该用于输出信息的方法,包括以下步骤:
步骤201,响应于接收到来自不同类别的数据源的针对同一对象的特征数据集合,对特征数据集合进行处理得到键值对集合和特征内容表。
在本实施例中,用于输出信息的方法的执行主体(例如图1所示的服务器)可以通过有线连接方式或者无线连接方式从存储针对同一对象的特征数据的不同类别的数据源获取特征数据集合。对象可以是POI(Point Of Interest,信息点),例如,地图系统中的一栋房子、一个商铺、一个邮筒、一个公交站等。数据源可以是对象的特征数据的来源。例如,购物类应用、导航类应用等。其中,特征数据包括类别、特征名称和特征内容。特征内容表用于表征类别、特征名称与特征内容的对应关系。键值对中的键为特征名称,值为类别。类别指的是数据源的类别。例如地图数据中室内图、车生活、景区、权威数据等不同的垂类。垂类指的是某一个单一领域(或地域)如IT、娱乐、体育。每种类别下有该类别对应的特征名称。例如,短评、标签、副标题、图标等。图3中标记2的位置示出了类别与特征名称的对应关系。每个特征名称都有具体的特征内容相对应。可分别针对每个数据源的特征数据处理生成该类别对应的键值对集合和特征内容表。即,可生成多个键值对集合,每个键值对集合与一个类别对应。可生成多个特征内容表,每个特征内容表与一个类别对应。
作为示例,特征数据可以如下所示:
需要指出的是,上述无线连接方式可以包括但不限于3G/4G连接、WiFi连接、蓝牙连接、WiMAX连接、Zigbee连接、UWB(ultra wideband)连接、以及其他现在已知或将来开发的无线连接方式。
对特征数据集合进行处理包括从特征数据中提取出类别、特征名称与特征内容。然后将类别、特征名称组成键值对。保存类别、特征名称、特征内容的对应关系到特征内容表中。通过类别、特征名称可以查找到特征内容。可通过统一协议管理层,对多样化垂类属于详情数据进行规范化的管理。在数据接入时由各个垂类业务方进行遵守。特征名称和特征内容是各个类别规范化后的详情数据,包括短评,标签,状态信息,子点信息,黄签信息等等。
可选的,如果数据源中类别、特征名称是以类别为键、特征名称为值的键值对的方式存储的,则可直接将该键值对转置为键为特征名称,值为类别的键值对。例如,jason格式的数据,jason键值对是用来保存JavaScript对象的一种方式,和JavaScript对象的写法也大同小异。JavaScript对象是使用花括号包裹{}起来的内容。键/值对组合中的键名写在前面并用双引号“”包裹,使用冒号:分隔,然后冒号后紧接着值。对于每一条特征数据,类别与特征名称构成一组键值对,特征名称与特征内容构成另一组键值对。每个类别的详情数据都会独立地进行映射处理,映射处理主要是根据约定的协议去做数据的转置和提取。映射能够将“key是类别;value是特征名称”转置为“key是特征名称,value是类别”,并可以在映射单元内部添加规则相关的处理逻辑,进行数据的提取。
在本实施例的一些可选的实现方式中,在对特征数据集合进行处理得到键值对集合和特征内容表之前,该方法还包括:对于特征数据集合中的特征数据,响应于确定出该特征数据不满足预定校验条件,从特征数据集合中删除该特征数据。在数据处理之前还可进行数据校验。验证特征数据中是否包括类别、特征名称和特征内容。如果缺少任何一项,则可将该特征数据删除。
如不同的类别都有各自的短评数据,原有的特征数据是:
生成的键值对:
1、key是“短评”,value是“类别1”
2、key是“短评”,value是“类别2”
生成的特征内容表如下表所示:
类别 特征名称 特征内容
类别1 短评 abcdef
类别2 短评 uvwxyz
表1
步骤202,对于键值对集合所涉及的至少一个特征名称中的特征名称,从包括该特征名称的至少一个键值对中提取出类别生成该特征名称对应的类别集合,从类别集合中按预定规则选取目标类别,以及从特征内容表中查询出该特征名称和目标类别对应的特征内容作为该特征名称对应的目标特征内容,输出该特征名称对应的目标特征内容。
在本实施例中,步骤202包括以下子步骤:
S1、从包括该特征名称的至少一个键值对中提取出类别生成该特征名称对应的类别集合。即将键相同的键值对合并,合并后的键值对中的值为该特征名称相对应的各种类别。
如上例所示,合并后的键值对如下所示
S2、从类别集合中按预定规则选取目标类别。例如,预定规则可以是只选择一个目标类别,也可以是选择所有的类别,或者选择限制数量的目标类别。例如,类别与优先级相对应,从该特征名称对应的类别集合中选取优先级最高的类别作为目标类别。上例中,如果类别1的优先级高于类别2的优先级,则选择类别1作为目标类别。
可选的,响应于确定出该特征名称对应的特征内容被预先配置成数据源共享模式,按照优先级由高到低的顺序从该特征名称对应的类别集合中选取预定数目个类别作为目标类别。即最终合并后的特征数据可以使用类别1的数据源中的特征数据也可以使用类别2的数据源中的特征数据。
S3、从特征内容表中查询出该特征名称和目标类别对应的特征内容作为该特征名称对应的目标特征内容。例如,步骤S2确定出目标类别为类别1,则从特征内容表中查询出类别1、“短评”对应的特征内容“abcdef”。该特征内容即为目标特征内容,可用于替换其它类别的数据源中的特征数据中的特征内容。即,将目标类别对应的数据同步到其它类别的数据源。可选的,响应于确定出该特征名称对应的目标类别的数量大于预定数量阈值,将从特征内容表中查询出的各目标类别对应的特征内容添加到候选特征内容集合。对候选特征内容集合进行裁剪处理。将裁剪处理后的候选特征内容集合中的候选特征内容作为该特征名称对应的目标特征内容。裁剪处理即从候选特征内容集合看选取预定数目的目标特征内容。例如,选择优先级别高的类别对应的目标特征内容,或者按照字符数量由多到少的顺序选择预定数目个目标特征内容。可选的,特征数据中还可包括数据更新时间,可按照时间由近到远的顺序选取目标特征内容。
S4、输出该特征名称对应的目标特征内容。将每个特征名称对应的目标特征内容输出。这里的输出可以是显示地输出到显示器,也可以输出到内存、硬盘等介质中。在输出前可对特征内容更行校验,以避免输出违反法律、法规的内容。
在本实施例的一些可选的实现方式中,对于至少一个特征名称中的特征名称,使用该特征名称对应的目标特征内容替换特征数据集合中的特征数据中的该特征名称对应的特征内容。即,使用确定出的目标特征数据更新所有类别的数据源中的特征数据,实现数据同步功能。
继续参见图3,图3是根据本实施例的用于输出信息的方法的应用场景的一个示意图。在图3的应用场景中,服务器接收到不同类别的数据源的针对同一对象的特征数据集合。然后服务器执行如下步骤:
步骤1,标号1的位置是各个类别的统一协议管理层,用于对多样化类别的特征数据进行规范化的管理。在数据接入时由各个类别的数据源提供方进行遵守。服务器获取的特征数据首先要经过统一协议管理层进行处理,转换成统一的格式。标号2的位置是来自各个类别的数据源针对地图中某个酒店的规范化后的特征数据,包括短评,标签,状态信息,子点信息,黄签信息等等。
步骤2,标号3的位置是映射处理,每个类别的特征都会独立地进行映射处理,映射处理主要是根据约定的协议去做数据的处理,例如转置和提取。映射能够将“key是类别;value是特征名称”转置为“key是特征名称;value是类别”,并可以在映射单元内部添加规则相关的处理逻辑,进行数据的提取。标号4的位置是映射的输出,每个类别的特征数据都有各自的输出数据。
步骤3,标号5的位置是合并处理,用于将各个类别的特征数据转置之后的结果进行一个合并,对同一个特征名称的所有类别进行一个并集处理,此处不需要进行去重和排序处理。标号6的位置是合并处理的输出,输出是基于每一个特征数据的所有类别的信息。比如不同的类别都有各自的短评数据,原有的数据情况是:
经过一系列处理之后,标号6的位置的数据格式是:
步骤4,标号7的位置是选择目标类别进行数据融合处理,即归约处理,归约处理分为3类:
(1)优先级控制:该特征名称对应的特征为独占,则所有类别中只选出一个优先级最高的。
(2)数据合并:该特征名称对应的特征为共享,所有类别数据可以进行数据合并
(3)更复杂的操作:该特征名称对应的特征处理有更复杂的控制条件,通过函数来完成
归约所支持的3类处理,都可以通过配置来完成,从而降低人工成本。标号8的位置是归约的输出,这些数据就是将来特征数据的使用方直接可用的数据,数据使用方不再需要针对各个类别去开发大量的代码。整个与数据相关的项目的迭代效率大大提升。
本申请的上述实施例提供的方法通过将来自不同类别的数据源的针对同一对象的特征数据集合根据类别进行数据融合处理,提高了来自不同类别数据源的数据的融合效率。
例如,本申请可使得类别数据展现控制需求的开发周期从周级别降低到小时级。可支持了室内图,车生活,景区,权威数据等8个类别需求。另外有实际应用中,原有代码中为了处理多个类别的标签展现信息,在两个模块各开发了200多行。总共400多行代码。在这次重构之后,只需要一行配置就可以取代400多行的代码,效率大大提升。
进一步参考图4,其示出了用于输出信息的方法的又一个实施例的流程400。该用于输出信息的方法的流程400,包括以下步骤:
步骤401,响应于接收到来自不同类别的数据源的针对同一对象的特征数据集合,对特征数据集合进行删除处理以删除不满足预定校验条件的特征数据。
在本实施例中,用于输出信息的方法的执行主体(例如图1所示的服务器)可以通过有线连接方式或者无线连接方式从存储针对同一对象的特征数据的不同类别的数据源获取特征数据集合。其中,特征数据包括类别、特征名称和特征内容,特征内容表用于表征类别、特征名称与特征内容的对应关系,键值对中的键为特征名称,值为类别。类别指的是数据源的类别。例如地图数据中室内图、车生活、景区、权威数据等不同的垂类。每种类别下有各自对应的特征名称。例如,短评、标签、副标题、图标等。每个特征名称都有具体的特征内容相对应。在数据处理之前还可进行数据校验。验证特征数据中是否包括类别、特征名称和特征内容。如果缺少任何一项,则可将该特征数据删除。还可检验各条特征数据中的特征名称是否是预先约定的特征名称。还可验证特征内容的合法性,例如是否包括反动、色情内容。
步骤402,对经删除处理后的特征数据集合进行处理得到键值对集合和特征内容表。
在本实施例中,可分别针对每个数据源的特征数据处理生成该类别对应的键值对集合和特征内容表。即,可生成多个键值对集合,每个键值对集合与一个类别对应。可生成多个特征内容表,每个特征内容表与一个类别对应。
对特征数据集合进行处理包括从特征数据中提取出类别、特征名称与特征内容。然后将类别、特征名称组成键值对。保存类别、特征名称、特征内容的对应关系到特征内容表中。通过类别、特征名称可以查找到特征内容。可通过统一协议管理层,对多样化垂类属于详情数据进行规范化的管理。在数据接入时由各个垂类业务方进行遵守。特征名称和特征内容是各个类别规范化后的详情数据,包括短评,标签,状态信息,子点信息,黄签信息等等。
步骤403,对于键值对集合所涉及的至少一个特征名称中的特征名称,从包括该特征名称的至少一个键值对中提取出类别生成该特征名称对应的类别集合,从类别集合中按预定规则选取目标类别,以及从特征内容表中查询出该特征名称和目标类别对应的特征内容作为该特征名称对应的目标特征内容,输出该特征名称对应的目标特征内容。
步骤403与步骤202基本相同,因此不再赘述。
步骤404,对于至少一个特征名称中的特征名称,使用该特征名称对应的目标特征内容替换经删除处理后的特征数据集合中的特征数据中的该特征名称对应的特征内容。
在本实施例中,使用确定出的目标特征数据更新所有类别的数据源中的特征数据,实现数据源同步数据融合结果的功能。
从图4中可以看出,与图2对应的实施例相比,本实施例中的用于信息输出的方法的流程400突出了对特征数据进行校验和将数据融合结果同步到各数据源的步骤。由此,本实施例描述的方案可以简化数据融合过程,并提高数据融合结果的准确性。
进一步参考图5,作为对上述各图所示方法的实现,本申请提供了一种用于输出信息的装置的一个实施例,该装置实施例与图2所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。
如图5所示,本实施例的用于输出信息的装置500包括:数据映射单元501和数据归约单元502。其中,数据映射单元501被配置成响应于接收到来自不同类别的数据源的针对同一对象的特征数据集合,对特征数据集合进行处理得到键值对集合和特征内容表,其中,特征数据包括类别、特征名称和特征内容,特征内容表用于表征类别、特征名称与特征内容的对应关系,键值对中的键为特征名称,值为类别;数据归约单元502被配置成对于键值对集合所涉及的至少一个特征名称中的特征名称,从包括该特征名称的至少一个键值对中提取出类别生成该特征名称对应的类别集合,从类别集合中按预定规则选取目标类别,以及从特征内容表中查询出该特征名称和目标类别对应的特征内容作为该特征名称对应的目标特征内容,输出该特征名称对应的目标特征内容。
在本实施例中,用于输出信息的装置500的数据映射单元501和数据归约单元502的具体处理可以参考图2对应实施例中的步骤201、步骤202。
在本实施例中,装置500还包括替换单元(未示出),被配置成:对于至少一个特征名称中的特征名称,使用该特征名称对应的目标特征内容替换特征数据集合中的特征数据中的该特征名称对应的特征内容。
在本实施例中,装置500还包括校验单元(未示出),被配置成:在对特征数据集合进行处理得到键值对集合和特征内容表之前,对于特征数据集合中的特征数据,响应于确定出该特征数据不满足预定校验条件,从特征数据集合中删除该特征数据。
在本实施例中,类别与优先级相对应;以及数据归约单元进一步被配置成:响应于确定出该特征名称对应的特征内容被预先配置成数据源独占模式,从该特征名称对应的类别集合中选取优先级最高的类别作为目标类别。
在本实施例中,类别与优先级相对应;以及数据归约单元进一步被配置成:响应于确定出该特征名称对应的特征内容被预先配置成数据源共享模式,按照优先级由高到低的顺序从该特征名称对应的类别集合中选取预定数目个类别作为目标类别。
在本实施例中,数据归约单元进一步被配置成:响应于确定出该特征名称对应的目标类别的数量大于预定数量阈值,将从特征内容表中查询出的各目标类别对应的特征内容添加到候选特征内容集合,以及对候选特征内容集合进行裁剪处理,将裁剪处理后的候选特征内容集合中的候选特征内容作为该特征名称对应的目标特征内容。
下面参考图6,其示出了适于用来实现本申请实施例的电子设备(如图1所示的服务器)的计算机系统600的结构示意图。图6示出的电子设备仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图6所示,计算机系统600包括中央处理单元(CPU)601,其可以根据存储在只读存储器(ROM)602中的程序或者从存储部分608加载到随机访问存储器(RAM)603中的程序而执行各种适当的动作和处理。在RAM 603中,还存储有系统600操作所需的各种程序和数据。CPU 601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。
以下部件连接至I/O接口605:包括键盘、鼠标等的输入部分606;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分607;包括硬盘等的存储部分608;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至I/O接口605。可拆卸介质611,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器610上,以便于从其上读出的计算机程序根据需要被安装入存储部分608。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分609从网络上被下载和安装,和/或从可拆卸介质611被安装。在该计算机程序被中央处理单元(CPU)601执行时,执行本申请的方法中限定的上述功能。需要说明的是,本申请所述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本申请的操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中,例如,可以描述为:一种处理器包括数据映射单元、数据归约单元。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定,例如,数据映射单元还可以被描述为“响应于接收到来自不同类别的数据源的针对同一对象的特征数据集合,对所述特征数据集合进行处理得到键值对集合和特征内容表的单元”。
作为另一方面,本申请还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的装置中所包含的;也可以是单独存在,而未装配入该装置中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该装置执行时,使得该装置:响应于接收到来自不同类别的数据源的针对同一对象的特征数据集合,对特征数据集合进行处理得到键值对集合和特征内容表,其中,键值对中的键为特征名称,值为类别;对于键值对集合所涉及的至少一个特征名称中的特征名称,从包括该特征名称的至少一个键值对中提取出类别生成该特征名称对应的类别集合,从类别集合中按预定规则选取目标类别,以及从特征内容表中查询出该特征名称和目标类别对应的特征内容作为该特征名称对应的目标特征内容,输出该特征名称对应的目标特征内容。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离所述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims (14)

1.一种用于输出信息的方法,包括:
响应于接收到来自不同类别的数据源的针对同一对象的特征数据集合,对所述特征数据集合进行处理得到键值对集合和特征内容表,其中,特征数据包括类别、特征名称和特征内容,所述特征内容表用于表征类别、特征名称与特征内容的对应关系,键值对中的键为特征名称,值为类别;
对于所述键值对集合所涉及的至少一个特征名称中的特征名称,从包括该特征名称的至少一个键值对中提取出类别生成该特征名称对应的类别集合,从所述类别集合中按预定规则选取目标类别,以及从所述特征内容表中查询出该特征名称和所述目标类别对应的特征内容作为该特征名称对应的目标特征内容,输出该特征名称对应的目标特征内容。
2.根据权利要求1所述的方法,其中,所述方法还包括:
对于所述至少一个特征名称中的特征名称,使用该特征名称对应的目标特征内容替换所述特征数据集合中的特征数据中的该特征名称对应的特征内容。
3.根据权利要求1所述的方法,其中,在所述对所述特征数据集合进行处理得到键值对集合和特征内容表之前,所述方法还包括:
对于所述特征数据集合中的特征数据,响应于确定出该特征数据不满足预定校验条件,从所述特征数据集合中删除该特征数据。
4.根据权利要求1所述的方法,其中,类别与优先级相对应;以及
所述从所述类别集合中按预定规则选取目标类别,包括:
响应于确定出该特征名称对应的特征内容被预先配置成数据源独占模式,从该特征名称对应的类别集合中选取优先级最高的类别作为目标类别。
5.根据权利要求1所述的方法,其中,类别与优先级相对应;以及
所述从所述类别集合中按预定规则选取目标类别,包括:
响应于确定出该特征名称对应的特征内容被预先配置成数据源共享模式,按照优先级由高到低的顺序从该特征名称对应的类别集合中选取预定数目个类别作为目标类别。
6.根据权利要求1-5之一所述的方法,其中,所述从所述特征内容表中查询出该特征名称和所述目标类别对应的特征内容作为该特征名称对应的目标特征内容,包括:
响应于确定出该特征名称对应的目标类别的数量大于预定数量阈值,将从所述特征内容表中查询出的各目标类别对应的特征内容添加到候选特征内容集合,以及对所述候选特征内容集合进行裁剪处理,将裁剪处理后的候选特征内容集合中的候选特征内容作为该特征名称对应的目标特征内容。
7.一种用于输出信息的装置,包括:
数据映射单元,被配置成响应于接收到来自不同类别的数据源的针对同一对象的特征数据集合,对所述特征数据集合进行处理得到键值对集合和特征内容表,其中,特征数据包括类别、特征名称和特征内容,所述特征内容表用于表征类别、特征名称与特征内容的对应关系,键值对中的键为特征名称,值为类别;
数据归约单元,被配置成对于所述键值对集合所涉及的至少一个特征名称中的特征名称,从包括该特征名称的至少一个键值对中提取出类别生成该特征名称对应的类别集合,从所述类别集合中按预定规则选取目标类别,以及从所述特征内容表中查询出该特征名称和所述目标类别对应的特征内容作为该特征名称对应的目标特征内容,输出该特征名称对应的目标特征内容。
8.根据权利要求7所述的装置,其中,所述装置还包括替换单元,被配置成:
对于所述至少一个特征名称中的特征名称,使用该特征名称对应的目标特征内容替换所述特征数据集合中的特征数据中的该特征名称对应的特征内容。
9.根据权利要求7所述的装置,其中,所述装置还包括校验单元,被配置成:
在所述对所述特征数据集合进行处理得到键值对集合和特征内容表之前,对于所述特征数据集合中的特征数据,响应于确定出该特征数据不满足预定校验条件,从所述特征数据集合中删除该特征数据。
10.根据权利要求7所述的装置,其中,类别与优先级相对应;以及
所述数据归约单元进一步被配置成:
响应于确定出该特征名称对应的特征内容被预先配置成数据源独占模式,从该特征名称对应的类别集合中选取优先级最高的类别作为目标类别。
11.根据权利要求7所述的装置,其中,类别与优先级相对应;以及
所述数据归约单元进一步被配置成:
响应于确定出该特征名称对应的特征内容被预先配置成数据源共享模式,按照优先级由高到低的顺序从该特征名称对应的类别集合中选取预定数目个类别作为目标类别。
12.根据权利要求7-11之一所述的装置,其中,所述数据归约单元进一步被配置成:
响应于确定出该特征名称对应的目标类别的数量大于预定数量阈值,将从所述特征内容表中查询出的各目标类别对应的特征内容添加到候选特征内容集合,以及对所述候选特征内容集合进行裁剪处理,将裁剪处理后的候选特征内容集合中的候选特征内容作为该特征名称对应的目标特征内容。
13.一种电子设备,包括:
一个或多个处理器;
存储装置,其上存储有一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-6中任一所述的方法。
14.一种计算机可读介质,其上存储有计算机程序,其中,所述程序被处理器执行时实现如权利要求1-6中任一所述的方法。
CN201810554548.9A 2018-06-01 2018-06-01 用于输出信息的方法和装置 Active CN110555070B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810554548.9A CN110555070B (zh) 2018-06-01 2018-06-01 用于输出信息的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810554548.9A CN110555070B (zh) 2018-06-01 2018-06-01 用于输出信息的方法和装置

Publications (2)

Publication Number Publication Date
CN110555070A true CN110555070A (zh) 2019-12-10
CN110555070B CN110555070B (zh) 2021-10-22

Family

ID=68734799

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810554548.9A Active CN110555070B (zh) 2018-06-01 2018-06-01 用于输出信息的方法和装置

Country Status (1)

Country Link
CN (1) CN110555070B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113722071A (zh) * 2021-09-10 2021-11-30 拉卡拉支付股份有限公司 数据处理方法、装置、电子设备、存储介质及程序产品

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1573744A (zh) * 2003-05-30 2005-02-02 国际商业机器公司 进行非结构化信息管理和自动文本分析的系统和方法
WO2007133279A2 (en) * 2006-05-08 2007-11-22 Ihc Health Services, Inc. Device alert system and method
US8543582B1 (en) * 2011-08-26 2013-09-24 Google Inc. Updateable metadata for media content
US20150039344A1 (en) * 2013-08-02 2015-02-05 Atigeo Llc Automatic generation of evaluation and management medical codes
CN104408667A (zh) * 2014-11-20 2015-03-11 深圳供电局有限公司 一种电能质量综合评估的方法和系统
CN105357311A (zh) * 2015-11-23 2016-02-24 中国南方电网有限责任公司 一种云计算技术的二次设备大数据存储与处理方法
CN105488043A (zh) * 2014-09-15 2016-04-13 南京理工大学 基于Key-Value数据块的数据查询方法及系统
US20160188591A1 (en) * 2014-12-31 2016-06-30 Nexenta Systems, Inc. Methods and systems for key-value-tuple-encoded storage
CN106033473A (zh) * 2015-03-20 2016-10-19 阿里巴巴集团控股有限公司 数据的处理方法和装置
CN107229718A (zh) * 2017-05-31 2017-10-03 北京京东尚科信息技术有限公司 处理报表数据的方法和装置

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1573744A (zh) * 2003-05-30 2005-02-02 国际商业机器公司 进行非结构化信息管理和自动文本分析的系统和方法
WO2007133279A2 (en) * 2006-05-08 2007-11-22 Ihc Health Services, Inc. Device alert system and method
US8543582B1 (en) * 2011-08-26 2013-09-24 Google Inc. Updateable metadata for media content
US20150039344A1 (en) * 2013-08-02 2015-02-05 Atigeo Llc Automatic generation of evaluation and management medical codes
CN105488043A (zh) * 2014-09-15 2016-04-13 南京理工大学 基于Key-Value数据块的数据查询方法及系统
CN104408667A (zh) * 2014-11-20 2015-03-11 深圳供电局有限公司 一种电能质量综合评估的方法和系统
US20160188591A1 (en) * 2014-12-31 2016-06-30 Nexenta Systems, Inc. Methods and systems for key-value-tuple-encoded storage
CN106033473A (zh) * 2015-03-20 2016-10-19 阿里巴巴集团控股有限公司 数据的处理方法和装置
CN105357311A (zh) * 2015-11-23 2016-02-24 中国南方电网有限责任公司 一种云计算技术的二次设备大数据存储与处理方法
CN107229718A (zh) * 2017-05-31 2017-10-03 北京京东尚科信息技术有限公司 处理报表数据的方法和装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113722071A (zh) * 2021-09-10 2021-11-30 拉卡拉支付股份有限公司 数据处理方法、装置、电子设备、存储介质及程序产品

Also Published As

Publication number Publication date
CN110555070B (zh) 2021-10-22

Similar Documents

Publication Publication Date Title
US11550826B2 (en) Method and system for generating a geocode trie and facilitating reverse geocode lookups
CN110472207A (zh) 表单生成方法和装置
CN108846753B (zh) 用于处理数据的方法和装置
CN107943877B (zh) 待播放多媒体内容的生成方法和装置
US20200322570A1 (en) Method and apparatus for aligning paragraph and video
CN111522927A (zh) 基于知识图谱的实体查询方法和装置
CN109409419B (zh) 用于处理数据的方法和装置
CN112463991B (zh) 历史行为数据的处理方法、装置、计算机设备及存储介质
CN111104479A (zh) 一种数据标注的方法及装置
CN115757400B (zh) 数据表处理方法、装置、电子设备和计算机可读介质
CN112948486A (zh) 批量数据同步方法、系统及电子设备
CN109508361A (zh) 用于输出信息的方法和装置
WO2024099171A1 (zh) 视频生成方法和装置
CN109726295A (zh) 品牌知识图谱显示方法、装置、图服务器及存储介质
CN110895591A (zh) 一种定位自提点的方法和装置
CN115422066A (zh) 一种测试用例的管理方法和装置
CN111597107A (zh) 信息输出方法、装置和电子设备
CN111124541A (zh) 一种配置文件的生成方法、装置、设备及介质
CN110737820B (zh) 用于生成事件信息的方法和装置
CN110895548B (zh) 用于处理信息的方法和装置
CN110555070B (zh) 用于输出信息的方法和装置
CN106549860B (zh) 信息获取方法和装置
CN112988915A (zh) 数据展示方法和装置
CN109947526B (zh) 用于输出信息的方法和装置
CN111641690A (zh) 会话消息处理方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant