CN109190034B - 用于获取信息的方法及装置 - Google Patents

用于获取信息的方法及装置 Download PDF

Info

Publication number
CN109190034B
CN109190034B CN201810969119.8A CN201810969119A CN109190034B CN 109190034 B CN109190034 B CN 109190034B CN 201810969119 A CN201810969119 A CN 201810969119A CN 109190034 B CN109190034 B CN 109190034B
Authority
CN
China
Prior art keywords
information
sequence
tag
data
information sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810969119.8A
Other languages
English (en)
Other versions
CN109190034A (zh
Inventor
彭彬
张一麟
王志华
李习君
漆袁旻
邵英杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201810969119.8A priority Critical patent/CN109190034B/zh
Publication of CN109190034A publication Critical patent/CN109190034A/zh
Application granted granted Critical
Publication of CN109190034B publication Critical patent/CN109190034B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例公开了用于获取信息的方法及装置。该方法的一具体实施方式包括:对接收的待处理统计数据进行信息提取,得到至少一条信息序列;对于上述至少一条信息序列中的信息序列,查询对应该信息序列的格式语料,上述格式语料用于对该信息序列进行文字描述,包含与信息序列对应的语料槽;响应于接收到的输出条件,根据上述输出条件将上述至少一条信息序列填入格式语料,得到对应上述输出条件的文本信息。该实施方式提高了统计数据的可读性。

Description

用于获取信息的方法及装置
技术领域
本申请实施例涉及数据处理技术领域,具体涉及用于获取信息的方法及装置。
背景技术
随着信息化程度的加大,多个领域都积累了海量的数据。为了对数据进行分析,技术人员可以按照一定的条件对数据进行统计,得到统计数据。例如,统计数据可以是各种类型的统计图或统计表格等。统计数据可以直观地展示各种类型数据的分布情况,能够用户从整体上了解某一方面的数据,提高了用户获取信息的效率。
发明内容
本申请实施例提出了用于获取信息的方法及装置。
第一方面,本申请实施例提供了一种用于获取信息的方法,该方法包括:对接收的待处理统计数据进行信息提取,得到至少一条信息序列,上述待处理统计数据包括至少一条信息标签和对应上述至少一条信息标签中信息标签的至少一条标签数据,其中,上述信息标签用于表征数据类型,标签数据用于表征数据类型的分类数据;对于上述至少一条信息序列中的信息序列,查询对应该信息序列的格式语料,上述格式语料用于对该信息序列进行文字描述,包含与信息序列对应的语料槽;响应于接收到的输出条件,根据上述输出条件将上述至少一条信息序列填入格式语料,得到对应上述输出条件的文本信息。
在一些实施例中,上述对接收的待处理统计数据进行信息提取,得到至少一条信息序列,包括:对于上述至少一条信息标签中的信息标签,将该信息标签填入信息序列的第一信息位,并将该信息标签对应的至少一条标签数据填入该信息序列的其他信息位,得到信息序列。
在一些实施例中,上述将该信息标签对应的至少一条标签数据填入该信息序列的其他信息位,包括:确定上述至少一条标签数据中标签数据的权值;按照权值由大到小的顺序将至少一条标签数据中的标签数据填入该信息序列的其他信息位。
在一些实施例中,上述查询对应该信息序列的格式语料,包括:查询信息序列内信息标签的数据类型,并根据该数据类型查询对应该信息序列的格式语料,其中,上述数据类型为以下任意一项:工作地址、工作内容、工作时间。
在一些实施例中,上述输出条件用于对信息序列包含的序列元素进行限定,上述序列元素包括以下至少一项:信息标签,标签数据,以及,上述根据上述输出条件将上述至少一条信息序列填入格式语料,得到对应上述输出条件的文本信息,包括:确定上述输出条件所对应的序列元素;对于上述至少一条信息序列中的信息序列,将信息序列中对应上述序列元素的信息标签和/或标签数据填入对应该信息序列的格式语料,得到对应上述输出条件的文本信息。
第二方面,本申请实施例提供了一种用于获取信息的装置,该装置包括:信息序列获取单元,被配置成对接收的待处理统计数据进行信息提取,得到至少一条信息序列,上述待处理统计数据包括至少一条信息标签和对应上述至少一条信息标签中信息标签的至少一条标签数据,其中,上述信息标签用于表征数据类型,标签数据用于表征数据类型的分类数据;格式语料查询单元,对于上述至少一条信息序列中的信息序列,被配置成查询对应该信息序列的格式语料,上述格式语料用于对该信息序列进行文字描述,包含与信息序列对应的语料槽;信息输出单元,响应于接收到的输出条件,被配置成根据上述输出条件将上述至少一条信息序列填入格式语料,得到对应上述输出条件的文本信息。
在一些实施例中,上述信息序列获取单元包括:信息序列获取子单元,对于上述至少一条信息标签中的信息标签,被配置成将该信息标签填入信息序列的第一信息位,并将该信息标签对应的至少一条标签数据填入该信息序列的其他信息位,得到信息序列。
在一些实施例中,上述信息序列获取子单元包括:权值确定模块,被配置成确定上述至少一条标签数据中标签数据的权值;信息填充模块,被配置成按照权值由大到小的顺序将至少一条标签数据中的标签数据填入该信息序列的其他信息位。
在一些实施例中,所格式语料查询单元包括:格式语料查询子单元,被配置成查询信息序列内信息标签的数据类型,并根据该数据类型查询对应该信息序列的格式语料,其中,上述数据类型为以下任意一项:工作地址、工作内容、工作时间。
在一些实施例中,上述输出条件用于对信息序列包含的序列元素进行限定,上述序列元素包括以下至少一项:信息标签,标签数据,以及,上述信息输出单元包括:序列元素确定子单元,被配置成确定上述输出条件所对应的序列元素;信息输出子单元,对于上述至少一条信息序列中的信息序列,被配置成将信息序列中对应上述序列元素的信息标签和/或标签数据填入对应该信息序列的格式语料,得到对应上述输出条件的文本信息。
第三方面,本申请实施例提供了一种电子设备,包括:一个或多个处理器;存储器,其上存储有一个或多个程序,当上述一个或多个程序被上述一个或多个处理器执行时,使得上述一个或多个处理器执行上述第一方面的用于获取信息的方法。
第四方面,本申请实施例提供了一种计算机可读介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现上述第一方面的用于获取信息的方法。
本申请实施例提供的用于获取信息的方法及装置,本技术方案首先对接收的待处理统计数据进行信息提取,得到至少一条信息序列;然后,查询对应该信息序列的格式语料,最后,根据上述输出条件将上述至少一条信息序列填入格式语料,得到对应上述输出条件的文本信息,提高了统计数据的可读性。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1是本申请的一个实施例可以应用于其中的示例性系统架构图;
图2是根据本申请的用于获取信息的方法的一个实施例的流程图;
图3是根据本申请的用于获取信息的方法的另一个实施例的流程图;
图4是根据本申请的用于获取信息的方法的一个应用场景的示意图;
图5是根据本申请的用于获取信息的装置的一个实施例的结构示意图;
图6是适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
图1示出了可以应用本申请实施例的用于获取信息的方法或用于获取信息的装置的示例性系统架构100。
如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种信息应用,例如信息记录应用、信息分类应用、信息搜索应用、等。
终端设备101、102、103可以是硬件,也可以是软件。当终端设备101、102、103为硬件时,可以是具有显示屏并且支持信息处理的各种电子设备,包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器(Moving Picture Experts Group Audio Layer III,动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Audio Layer IV,动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。当终端设备101、102、103为软件时,可以安装在上述所列举的电子设备中。其可以实现成多个软件或软件模块(例如用来提供分布式服务),也可以实现成单个软件或软件模块,在此不做具体限定。
服务器105可以是提供各种服务的服务器,例如对终端设备101、102、103发来的数据进行统计并提供信息搜索的服务器。服务器可以对接收到的数据进行分析等处理得到统计数据,并按照接收到的输出条件对统计数据进行处理,输出对应输出条件的文本信息。
需要说明的是,本申请实施例所提供的用于获取信息的方法一般由服务器105执行,相应地,用于获取信息的装置一般设置于服务器105中。
需要说明的是,服务器可以是硬件,也可以是软件。当服务器为硬件时,可以实现成多个服务器组成的分布式服务器集群,也可以实现成单个服务器。当服务器为软件时,可以实现成多个软件或软件模块(例如用来提供分布式服务),也可以实现成单个软件或软件模块,在此不做具体限定。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
继续参考图2,示出了根据本申请的用于获取信息的方法的一个实施例的流程200。该用于获取信息的方法包括以下步骤:
步骤201,对接收的待处理统计数据进行信息提取,得到至少一条信息序列。
在本实施例中,用于获取信息的方法的执行主体(例如图1所示的服务器105)可以通过有线连接方式或者无线连接方式从用户利用其进行信息发送的终端设备101、102、103接收待处理统计数据。其中,待处理统计数据可以是终端设备101、102、103上的未进行统计的数据(例如可以是各类新闻、人物记录等),也可以是由终端设备101、102、103事先已经统计好的数据(例如可以是各种统计图、统计表等)。需要指出的是,上述无线连接方式可以包括但不限于3G/4G连接、WiFi连接、蓝牙连接、WiMAX连接、Zigbee连接、UWB(ultrawideband)连接、以及其他现在已知或将来开发的无线连接方式。
通常,统计数据不易直接阅读或转换为文字信息。对于某一具体的领域,统计数据可能具有在该领域相对固定的逻辑表达形式,或者需要与对应的专业词汇一起才能表达清楚。因此,统计数据不易直接转换为文字,统计数据的可读性不高。
为此,本申请执行主体可以首先接收待处理统计数据。然后,执行主体可以按照执行方式从待处理统计数据中提取信息。例如,当待处理统计数据为统计图等图像时,可以对图像进行图像处理,从图像中提取出文字,或按照一定条件对图像包含的信息点、曲线图等信息进行识别,得到对应的文字信息或统计表等信息。之后,再对文字信息进行提取,得到信息序列。当待处理统计数据为文字信息或统计表等信息时,执行主体可以按照特征词搜索等方式对文字信息或统计表进行信息提取。并将提取得到的信息按照一定的规则构成信息序列。例如,待处理统计数据包含了对“地址”等特征词的文字信息,执行主体可以按照“地址”等特征词对待处理统计数据进行信息提取,得到与“地址”相关的信息。之后,执行主体可以将这些与“地址”相关的信息组成信息序列。信息序列例如可以是{地址1、地址2、地址3、···}等。
步骤202,对于上述至少一条信息序列中的信息序列,查询对应该信息序列的格式语料。
信息序列是对待处理统计数据进行信息提取得到的,能够精确简练地对待处理统计数据进行描述,但可读性依然不高。为此,执行主体可以查询对应信息序列的格式语料。格式语料用于对该信息序列进行文字描述。通常,格式语料可以选取待处理统计数据所在领域的惯用描述文字。为了实现信息序列与格式语料的匹配,格式语料可以包含与信息序列对应的语料槽。即,信息序列内的信息可以填写到语料槽内。例如,待处理统计数据描述了某工作人员张XX的工作履历。对应得到的某一信息序列可以用于描述张XX的历史工作地址。该信息序列可以是{地址1、地址2、地址3}。则对应该信息序列的格式语料可以为:“XX从业以来,先后任职于{地址语料槽1}、{地址语料槽2}、{地址语料槽3}和{地址语料槽4}等主要业务区域,为{地址语料槽1}、{地址语料槽2}、{地址语料槽3}和{地址语料槽4}的业务骨干。现在主要负责{地址语料槽x}的管理工作”等。根据实际需要,对应信息序列的格式语料可以有多个。
步骤203,响应于接收到的输出条件,根据上述输出条件将上述至少一条信息序列填入格式语料,得到对应上述输出条件的文本信息。
当用户想要获取待处理统计数据相关的文字信息时,可以向执行主体发送输出条件。其中,输出条件可以用于获取待处理统计信息中指定类型的信息。通常,用户向执行主体发送的输出条件可以是一句话。执行主体可以对输出条件进行语义识别,确定输出条件对应的信息序列。之后,执行主体可以将信息序列填入对应的格式语料,进而得到与输出条件对应的文本信息。如此,实现了将待处理统计数据转换为文字信息,提高了待处理统计信息的可读性。
继续参考图3,示出了根据本申请的用于获取信息的方法的一个实施例的流程300。该用于获取信息的方法包括以下步骤:
步骤301,对接收的待处理统计数据进行信息提取,得到至少一条信息序列。
本步骤内容与上述的步骤201的内容相同,此处不再一一赘述。
在本实施例的一些可选的实现方式中,上述待处理统计数据包括至少一条信息标签和对应上述至少一条信息标签中信息标签的至少一条标签数据,其中,上述信息标签用于表征数据类型,标签数据用于表征数据类型的分类数据,以及,上述对接收的待处理统计数据进行信息提取,得到至少一条信息序列,可以包括:对于上述至少一条信息标签中的信息标签,将该信息标签填入信息序列的第一信息位,并将该信息标签对应的至少一条标签数据填入该信息序列的其他信息位,得到信息序列。
待处理统计数据可以是各种类型的数据。本实施例中,待处理统计数据可以包括至少一条信息标签和对应上述至少一条信息标签中信息标签的至少一条标签数据。例如,待处理统计数据描述了某人的历史信息,包括受教育经历、工作经历等信息。通常,受教育经历又可以具体包括幼儿班、小学、初中、高中、大学等经历;工作经历又可以包含首次入职的工作类型、二次入职的工作类型等。执行主体可以对待处理统计数据进行信息提取,将待处理统计数据包含的“受教育经历”、“工作经历”作为信息标签,并将“幼儿班、小学、初中、高中、大学”等信息作为信息标签“受教育经历”的标签数据,将“首次入职的工作类型、二次入职的工作类型”等信息作为信息标签“工作经历”的标签数据。即,本实施例的信息标签可以用于表征数据类型;标签数据可以用于表征数据类型的分类数据。
信息序列可以包含多个信息位。当执行主体对待处理统计数据进行信息提取时,可以将信息标签填入信息序列的第一信息位,并将该信息标签对应的至少一条标签数据填入该信息序列的其他信息位,得到信息序列。
在本实施例的一些可选的实现方式中,上述将该信息标签对应的至少一条标签数据填入该信息序列的其他信息位,可以包括以下步骤:
第一步,确定上述至少一条标签数据中标签数据的权值。
为了确定标签数据在信息序列中的位置,执行主体可以对待处理统计数据进行语义识别等操作,确定每个标签数据中权值。其中,权值根据信息标签,取值可以不同。例如,张XX做过多种工作,其中,工作1做了X1年,工作2做了X2年,工作3做了X3年。执行主体提取到的信息标签可以是“工作经历”,并按照工作时间的长短设置权值,工作时间越长,权值越大。
第二步,按照权值由大到小的顺序将至少一条标签数据中的标签数据填入该信息序列的其他信息位。
设置了权值后,执行主体可以按照权值由大到小的顺序,将标签数据填入该信息序列的其他信息位。对于一些图像如密度图等,密度数据随时间等发生变化,即密度与时间之间具有对应关系。此时,标签数据可以按照出现的先后顺序等方式填入信息位。此外,根据实际需要,标签数据还可以以随机等方式填入信息位中。
步骤302,对于上述至少一条信息序列中的信息序列,查询对应该信息序列的格式语料。
本步骤内容与上述的步骤202的内容相同,此处不再一一赘述。
在本实施例的一些可选的实现方式中,上述查询对应该信息序列的格式语料,可以包括:查询信息序列内信息标签的数据类型,并根据该数据类型查询对应该信息序列的格式语料。
其中,上述数据类型为以下任意一项:工作地址、工作内容、工作时间,根据实际需要,数据类型还可以是其他内容,此处不再一一赘述。通常,信息标签不同的数据类型具有各自相匹配的格式语料。例如,当信息序列是张XX的工作地址:{地址1、地址2、地址3}时,则执行主体可以认为数据类型为“地址”,对应的格式语料可以是“XX从业以来,先后任职于{地址语料槽1}、{地址语料槽2}、{地址语料槽3}和{地址语料槽4}等主要业务区域,为{地址语料槽1}、{地址语料槽2}、{地址语料槽3}和{地址语料槽4}的业务骨干。现在主要负责{地址语料槽x}的管理工作”。当信息序列是张XX的受教育经历:{小学、初中、高中、大学}时,则执行主体可以认为数据类型为“教育”,对应的格式语料可以是“XX于先后接受X1年{教育语料槽1}教育、X2年{教育语料槽2}教育、X3年{教育语料槽3}教育···。之后,顺利完成X年{教育语料槽x}课程,成为一名优秀的{教育语料槽x}毕业生”。信息标签的数据类型还可以是其他类型,此处不再一一赘述。
步骤303,响应于接收到的输出条件,根据上述输出条件将上述至少一条信息序列填入格式语料,得到对应上述输出条件的文本信息。
本步骤内容与上述的步骤203的内容相同,此处不再一一赘述。
在本实施例的一些可选的实现方式中,上述输出条件用于对信息序列包含的序列元素进行限定,上述序列元素包括以下至少一项:信息标签,标签数据,以及,上述根据上述输出条件将上述至少一条信息序列填入格式语料,得到对应上述输出条件的文本信息,可以包括以下步骤:
第一步,确定上述输出条件所对应的序列元素。
执行可以对输出条件进行语义识别,确定输出条件所对应的信息标签和/或标签数据。
第二步,对于上述至少一条信息序列中的信息序列,将信息序列中对应上述序列元素的信息标签和/或标签数据填入对应该信息序列的格式语料,得到对应上述输出条件的文本信息。
输出条件可以是“获取张XX在哪些地方工作过”。执行主体对该输出条件进行语义识别,确定该输出条件与“张XX”的序列元素“地址”相关。执行主体可以查找“张XX”的“地址”信息序列,该“地址”信息序列可以是:{地址1、地址2、地址3}。之后,执行主体可以查找到与该“地址”信息序列对应的格式语料:“XX从业以来,先后任职于{地址语料槽1}、{地址语料槽2}、{地址语料槽3}和{地址语料槽4}等主要业务区域,为{地址语料槽1}、{地址语料槽2}、{地址语料槽3}和{地址语料槽4}的业务骨干。现在主要负责{地址语料槽x}的管理工作”,并将“地址”信息序列内的信息填入该格式语料的语料槽,得到文本信息:“张XX从业以来,先后任职于地址1和地址2等主要业务区域,为地址1和地址2的业务骨干。现在主要负责地址3的管理工作”。如此,实现了将待处理统计数据转换为文字信息,提高了待处理统计信息的可读性。
此外,当输出条件涉及多个信息序列时,还可以分别查询对应信息序列中每个标签数据的相关性,以实现信息的准确输出。例如,输出条件为:“查询张XX在X0地所处理过的案件类型”。执行主体可以从待处理统计信息中分别提取到信息序列:{地址、X0、X1、X2}和{案件、合同纠纷、财产纠纷、劳动争议}。其中,张XX在X0地办理的合同纠纷有4件、财产纠纷有16件、劳动争议有29件。则执行主体可以对待处理统计信息进行分析,找到对应的格式语料可以是“XX工作经验丰富,在{地址语料槽1}、{地址语料槽2}、···工作多年,先后处理过{案件语料槽1}、{案件语料槽2}、{案件语料槽3}···等不同类型的案件。其中,{案件语料槽1}X1件、{案件语料槽2}X2件、{案件语料槽3}X3件、···”。执行主体将信息序列填入该格式语料后可以是:“张XX工作经验丰富,在X0工作多年,先后处理过合同纠纷、财产纠纷、劳动争议等不同类型的案件。其中,合同纠纷4件、财产纠纷16件、劳动争议29件。”。如此,进一步提高了对输出条件的适应性,提高了待处理统计信息的可读性。需要说明的是,该格式语料中的{地址语料槽1}、{地址语料槽2}、···和{案件语料槽1}、{案件语料槽2}、{案件语料槽3}···之间具有对应关系。当只需要某一地址的案件信息时,只填充{地址语料槽1}即可,其他的{地址语料槽2}、···可以删除;类似地对{案件语料槽1}、{案件语料槽2}、{案件语料槽3}···做相同的处理。
继续参见图4,图4是根据本实施例的用于获取信息的方法的应用场景的一个示意图。在图4的应用场景中,服务器105可以通过网络104接收终端设备103发来的待处理统计数据。服务器105可以首先对接收的待处理统计数据进行信息提取,得到至少一条信息序列。然后,服务器105可以查询对应信息序列的格式语料。并在接收到终端设备102发来的输出条件后,根据输出条件将信息序列填入格式语料,得到对应输出条件的文本信息。最后,将该文本信息发送给终端设备102。
本申请的上述实施例提供的方法对接收的待处理统计数据进行信息提取,得到至少一条信息序列;然后,查询对应该信息序列的格式语料,最后,根据上述输出条件将上述至少一条信息序列填入格式语料,得到对应上述输出条件的文本信息,提高了统计数据的可读性。
进一步参考图5,作为对上述各图所示方法的实现,本申请提供了一种用于获取信息的装置的一个实施例,该装置实施例与图2所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。
如图5所示,本实施例的用于获取信息的装置500可以包括:信息序列获取单元501、格式语料查询单元502和信息输出单元503。其中,信息序列获取单元501被配置成对接收的待处理统计数据进行信息提取,得到至少一条信息序列;格式语料查询单元502,对于上述至少一条信息序列中的信息序列,被配置成查询对应该信息序列的格式语料,上述格式语料用于对该信息序列进行文字描述,包含与信息序列对应的语料槽;信息输出单元503,响应于接收到的输出条件,被配置成根据上述输出条件将上述至少一条信息序列填入格式语料,得到对应上述输出条件的文本信息。
在本实施例的一些可选的实现方式中,上述待处理统计数据可以包括至少一条信息标签和对应上述至少一条信息标签中信息标签的至少一条标签数据,其中,上述信息标签可以用于表征数据类型,标签数据可以用于表征数据类型的分类数据,以及,上述信息序列获取单元501可以包括:信息序列获取子单元(图中未示出),对于上述至少一条信息标签中的信息标签,被配置成将该信息标签填入信息序列的第一信息位,并将该信息标签对应的至少一条标签数据填入该信息序列的其他信息位,得到信息序列。
在本实施例的一些可选的实现方式中,上述信息序列获取子单元可以包括:权值确定模块(图中未示出)和信息填充模块(图中未示出)。其中,权值确定模块被配置成确定上述至少一条标签数据中标签数据的权值;信息填充模块被配置成按照权值由大到小的顺序将至少一条标签数据中的标签数据填入该信息序列的其他信息位。
在本实施例的一些可选的实现方式中,所格式语料查询单元502可以包括:格式语料查询子单元(图中未示出),被配置成查询信息序列内信息标签的数据类型,并根据该数据类型查询对应该信息序列的格式语料,其中,上述数据类型为以下任意一项:工作地址、工作内容、工作时间。
在本实施例的一些可选的实现方式中,上述输出条件可以用于对信息序列包含的序列元素进行限定,上述序列元素可以包括以下至少一项:信息标签,标签数据,以及,上述信息输出单元503可以包括:序列元素确定子单元(图中未示出)和信息输出子单元(图中未示出)。其中,序列元素确定子单元被配置成确定上述输出条件所对应的序列元素;信息输出子单元,对于上述至少一条信息序列中的信息序列,被配置成将信息序列中对应上述序列元素的信息标签和/或标签数据填入对应该信息序列的格式语料,得到对应上述输出条件的文本信息。
本实施例还提供了一种电子设备,包括:一个或多个处理器;存储器,其上存储有一个或多个程序,当上述一个或多个程序被上述一个或多个处理器执行时,使得上述一个或多个处理器执行上述的用于获取信息的方法。
本实施例还提供了一种计算机可读介质,其上存储有计算机程序,该程序被处理器执行时实现上述的用于获取信息的方法。
下面参考图6,其示出了适于用来实现本申请实施例的电子设备(例如,图1中的服务器105)的计算机系统600的结构示意图。图6示出的电子设备仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图6所示,计算机系统600包括中央处理单元(CPU)601,其可以根据存储在只读存储器(ROM)602中的程序或者从存储部分608加载到随机访问存储器(RAM)603中的程序而执行各种适当的动作和处理。在RAM 603中,还存储有系统600操作所需的各种程序和数据。CPU 601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。
以下部件连接至I/O接口605:包括键盘、鼠标等的输入部分606;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分607;包括硬盘等的存储部分608;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至I/O接口605。可拆卸介质611,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器610上,以便于从其上读出的计算机程序根据需要被安装入存储部分608。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分609从网络上被下载和安装,和/或从可拆卸介质611被安装。在该计算机程序被中央处理单元(CPU)601执行时,执行本申请的方法中限定的上述功能。
需要说明的是,本申请上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中,例如,可以描述为:一种处理器包括信息序列获取单元、格式语料查询单元和信息输出单元。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定,例如,信息输出单元还可以被描述为“根据输出条件输出文本信息的单元”。
作为另一方面,本申请还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的装置中所包含的;也可以是单独存在,而未装配入该装置中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该装置执行时,使得该装置:对接收的待处理统计数据进行信息提取,得到至少一条信息序列;对于上述至少一条信息序列中的信息序列,查询对应该信息序列的格式语料,上述格式语料用于对该信息序列进行文字描述,包含与信息序列对应的语料槽;响应于接收到的输出条件,根据上述输出条件将上述至少一条信息序列填入格式语料,得到对应上述输出条件的文本信息。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims (12)

1.一种用于获取信息的方法,包括:
对接收的待处理统计数据进行信息提取,得到至少一条信息序列,所述待处理统计数据包括至少一条信息标签和对应所述至少一条信息标签中信息标签的至少一条标签数据,其中,所述信息标签用于表征数据类型,标签数据用于表征数据类型的分类数据;
对于所述至少一条信息序列中的信息序列,查询对应该信息序列的格式语料,所述格式语料用于对该信息序列进行文字描述,包含与信息序列对应的语料槽;
响应于接收到的输出条件,根据所述输出条件将所述至少一条信息序列填入格式语料,得到对应所述输出条件的文本信息。
2.根据权利要求1所述的方法,其中,所述对接收的待处理统计数据进行信息提取,得到至少一条信息序列,包括:
对于所述至少一条信息标签中的信息标签,将该信息标签填入信息序列的第一信息位,并将该信息标签对应的至少一条标签数据填入该信息序列的其他信息位,得到信息序列。
3.根据权利要求2所述的方法,其中,所述将该信息标签对应的至少一条标签数据填入该信息序列的其他信息位,包括:
确定所述至少一条标签数据中标签数据的权值;
按照权值由大到小的顺序将至少一条标签数据中的标签数据填入该信息序列的其他信息位。
4.根据权利要求2所述的方法,其中,所述查询对应该信息序列的格式语料,包括:
查询信息序列内信息标签的数据类型,并根据该数据类型查询对应该信息序列的格式语料,其中,所述数据类型为以下任意一项:工作地址、工作内容、工作时间。
5.根据权利要求1至4任意一项所述的方法,其中,所述输出条件用于对信息序列包含的序列元素进行限定,所述序列元素包括以下至少一项:信息标签,标签数据,以及
所述根据所述输出条件将所述至少一条信息序列填入格式语料,得到对应所述输出条件的文本信息,包括:
确定所述输出条件所对应的序列元素;
对于所述至少一条信息序列中的信息序列,将信息序列中对应所述序列元素的信息标签和/或标签数据填入对应该信息序列的格式语料,得到对应所述输出条件的文本信息。
6.一种用于获取信息的装置,包括:
信息序列获取单元,被配置成对接收的待处理统计数据进行信息提取,得到至少一条信息序列,所述待处理统计数据包括至少一条信息标签和对应所述至少一条信息标签中信息标签的至少一条标签数据,其中,所述信息标签用于表征数据类型,标签数据用于表征数据类型的分类数据;
格式语料查询单元,对于所述至少一条信息序列中的信息序列,被配置成查询对应该信息序列的格式语料,所述格式语料用于对该信息序列进行文字描述,包含与信息序列对应的语料槽;
信息输出单元,响应于接收到的输出条件,被配置成根据所述输出条件将所述至少一条信息序列填入格式语料,得到对应所述输出条件的文本信息。
7.根据权利要求6所述的装置,其中,所述信息序列获取单元包括:
信息序列获取子单元,对于所述至少一条信息标签中的信息标签,被配置成将该信息标签填入信息序列的第一信息位,并将该信息标签对应的至少一条标签数据填入该信息序列的其他信息位,得到信息序列。
8.根据权利要求7所述的装置,其中,所述信息序列获取子单元包括:
权值确定模块,被配置成确定所述至少一条标签数据中标签数据的权值;
信息填充模块,被配置成按照权值由大到小的顺序将至少一条标签数据中的标签数据填入该信息序列的其他信息位。
9.根据权利要求7所述的装置,其中,所格式语料查询单元包括:
格式语料查询子单元,被配置成查询信息序列内信息标签的数据类型,并根据该数据类型查询对应该信息序列的格式语料,其中,所述数据类型为以下任意一项:工作地址、工作内容、工作时间。
10.根据权利要求6至9任意一项所述的装置,其中,所述输出条件用于对信息序列包含的序列元素进行限定,所述序列元素包括以下至少一项:信息标签,标签数据,以及
所述信息输出单元包括:
序列元素确定子单元,被配置成确定所述输出条件所对应的序列元素;
信息输出子单元,对于所述至少一条信息序列中的信息序列,被配置成将信息序列中对应所述序列元素的信息标签和/或标签数据填入对应该信息序列的格式语料,得到对应所述输出条件的文本信息。
11.一种电子设备,包括:
一个或多个处理器;
存储器,其上存储有一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器执行权利要求1至5中任一所述的方法。
12.一种计算机可读介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1至5中任一所述的方法。
CN201810969119.8A 2018-08-23 2018-08-23 用于获取信息的方法及装置 Active CN109190034B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810969119.8A CN109190034B (zh) 2018-08-23 2018-08-23 用于获取信息的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810969119.8A CN109190034B (zh) 2018-08-23 2018-08-23 用于获取信息的方法及装置

Publications (2)

Publication Number Publication Date
CN109190034A CN109190034A (zh) 2019-01-11
CN109190034B true CN109190034B (zh) 2019-12-13

Family

ID=64919331

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810969119.8A Active CN109190034B (zh) 2018-08-23 2018-08-23 用于获取信息的方法及装置

Country Status (1)

Country Link
CN (1) CN109190034B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109947920A (zh) * 2019-03-14 2019-06-28 百度在线网络技术(北京)有限公司 用于获取信息的方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1661592A (zh) * 2003-09-15 2005-08-31 微软公司 中文字分割
CN103034693A (zh) * 2012-12-03 2013-04-10 哈尔滨工业大学 开放式实体及其类型识别方法
CN102541838B (zh) * 2010-12-24 2015-03-11 日电(中国)有限公司 用于优化情感分类器的方法和设备

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7526425B2 (en) * 2001-08-14 2009-04-28 Evri Inc. Method and system for extending keyword searching to syntactically and semantically annotated data
CN102236716A (zh) * 2011-07-12 2011-11-09 上海简胜企业管理咨询有限公司 一种求职者与招聘职位匹配的系统及匹配方法
US8756064B2 (en) * 2011-07-28 2014-06-17 Tata Consultancy Services Limited Method and system for creating frugal speech corpus using internet resources and conventional speech corpus
CN105160498A (zh) * 2015-10-21 2015-12-16 北京普猎创新网络科技有限公司 一种基于大数据的人员价值计算方法
CN107193936A (zh) * 2017-05-19 2017-09-22 前海梧桐(深圳)数据有限公司 一种用于设置企业特性标签的方法及其系统
CN107315798A (zh) * 2017-06-19 2017-11-03 北京神州泰岳软件股份有限公司 基于多主题语义标签信息映射的结构化处理方法及装置
CN107704869B (zh) * 2017-09-01 2020-09-18 厦门快商通科技股份有限公司 一种语料数据抽样方法及模型训练方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1661592A (zh) * 2003-09-15 2005-08-31 微软公司 中文字分割
CN102541838B (zh) * 2010-12-24 2015-03-11 日电(中国)有限公司 用于优化情感分类器的方法和设备
CN103034693A (zh) * 2012-12-03 2013-04-10 哈尔滨工业大学 开放式实体及其类型识别方法

Also Published As

Publication number Publication date
CN109190034A (zh) 2019-01-11

Similar Documents

Publication Publication Date Title
CN109460513B (zh) 用于生成点击率预测模型的方法和装置
CN109522483B (zh) 用于推送信息的方法和装置
CN107346336B (zh) 基于人工智能的信息处理方法和装置
US9411790B2 (en) Systems, methods, and media for generating structured documents
CN108229704B (zh) 用于推送信息的方法和装置
CN111898643B (zh) 一种语义匹配方法及装置
CN106919711B (zh) 基于人工智能的标注信息的方法和装置
US11055373B2 (en) Method and apparatus for generating information
CN110069698B (zh) 信息推送方法和装置
US11758088B2 (en) Method and apparatus for aligning paragraph and video
CN108280200B (zh) 用于推送信息的方法和装置
CN109359194B (zh) 用于预测信息类别的方法和装置
CN108121699B (zh) 用于输出信息的方法和装置
CN108491387B (zh) 用于输出信息的方法和装置
CN110059172B (zh) 基于自然语言理解的推荐答案的方法和装置
CN109933217B (zh) 用于推送语句的方法和装置
EP3961426A2 (en) Method and apparatus for recommending document, electronic device and medium
CN113139816B (zh) 信息处理方法、装置、电子设备和存储介质
CN110019906B (zh) 用于显示信息的方法和装置
CN109190034B (zh) 用于获取信息的方法及装置
CN111126649A (zh) 用于生成信息的方法和装置
CN110705308B (zh) 语音信息的领域识别方法、装置、存储介质及电子设备
CN109947526B (zh) 用于输出信息的方法和装置
CN115759029A (zh) 文档模板处理方法、装置、电子设备及存储介质
CN107483595B (zh) 信息推送方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant