CN110377725A - 数据生成方法、装置、计算机设备及存储介质 - Google Patents
数据生成方法、装置、计算机设备及存储介质 Download PDFInfo
- Publication number
- CN110377725A CN110377725A CN201910631800.6A CN201910631800A CN110377725A CN 110377725 A CN110377725 A CN 110377725A CN 201910631800 A CN201910631800 A CN 201910631800A CN 110377725 A CN110377725 A CN 110377725A
- Authority
- CN
- China
- Prior art keywords
- data
- candidate
- sentence
- key
- candidate key
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/338—Presentation of query results
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种数据生成方法、装置、计算机设备及存储介质,通过获取基本数据,对基本数据进行预处理,生成标准数据;对标准数据进行关键信息提取,生成候选关键信息,候选关键信息包括候选关键词、候选关键短语和候选关键语句中的至少一项;对候选关键信息进行整合,生成展示数据;通过采用至少一种关键信息提取方法对数据进行关键信息提取,生成包括候选关键词、候选关键短语和候选关键语句中的至少一项的候选关键信息,然后再对候选关键信息进行整合,得到展示数据,从而提高了展示数据的生成效率。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及一种数据生成方法、装置、计算机设备及存储介质。
背景技术
随着计算机网络技术的发展,各种互联网数据层出不穷,对所需数据的要求也越来越高,对生成的数据的准确性、多样性以及数据生成效率等方面都提出了较大的要求。特别是当需要在短时间内生成符合特定要求的展示数据时。例如:广告数据、图像数据或者用户消费数据等。用户往往会因为所需生成的展示数据的要求较高,而经常无法在短时间内生成符合需求的优质的展示数据。
发明内容
本发明实施例提供一种数据生成方法、装置、计算机设备及存储介质,以解决数据生成效率不高的问题。
一种数据生成方法,包括:
获取基本数据,对所述基本数据进行预处理,生成标准数据;
对所述标准数据进行关键信息提取,生成候选关键信息,所述候选关键信息包括候选关键词、候选关键短语和候选关键语句中的至少一项;
对所述候选关键信息进行整合,生成展示数据
一种数据生成装置,包括:
基本数据获取模块,用于获取基本数据,对所述基本数据进行预处理,生成标准数据;
关键信息提取模块,用于对所述标准数据进行关键信息提取,生成候选关键信息,所述候选关键信息包括候选关键词、候选关键短语和候选关键语句中的至少一项;
整合模块,用于对所述候选关键信息进行整合,生成展示数据。
一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述数据生成方法。
一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述数据生成方法。
上述数据生成方法、装置、计算机设备及存储介质,通过获取基本数据,对基本数据进行预处理,生成标准数据;对标准数据进行关键信息提取,生成候选关键信息,候选关键信息包括候选关键词、候选关键短语和候选关键语句中的至少一项;对候选关键信息进行整合,生成展示数据;通过采用至少一种关键信息提取方法对数据进行关键信息提取,生成包括候选关键词、候选关键短语和候选关键语句中的至少一项的候选关键信息,然后再对候选关键信息进行整合,得到展示数据,从而提高了展示数据的生成效率。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例中数据生成方法的一应用环境示意图;
图2是本发明一实施例中数据生成方法的一示例图;
图3是本发明一实施例中数据生成方法的另一示例图;
图4是本发明一实施例中数据生成方法的另一示例图;
图5是本发明一实施例中数据生成方法的另一示例图;
图6是本发明一实施例中数据生成方法的另一示例图;
图7是本发明一实施例中数据生成方法的另一示例图;
图8是本发明一实施例中数据生成方法的另一示例图;
图9是本发明一实施例中数据生成装置的一原理框图;
图10是本发明一实施例中计算机设备的一示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供的数据生成方法,该数据生成方法可应用如图1所示的应用环境中。具体地,该数据生成方法应用在数据生成系统中,该数据生成系统包括如图1所示的客户端和服务器,客户端与服务端通过网络进行通信,用于解决数据生成效率不高的问题。其中,客户端又称为用户端,是指与服务端相对应,为客户提供本地服务的程序。客户端可安装在但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备上。服务端可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一实施例中,如图2所示,提供一种数据生成方法,以该方法应用在图1中的服务器为例进行说明,包括如下步骤:
S10:获取基本数据,对基本数据进行预处理,生成标准数据。
其中,基本数据指待进行处理的原始数据。可选地,基本数据可以为广告数据、图像数据、用户消费数据或者其他数据等。对基本数据进行预处理主要指剔除夹杂在基本数据中无效信息的过程。具体地,对基本数据进行预处理包括但不限对基本数据进行解析,剔除基本数据中的空值、重复值、表情符号、无用标点、HTML标签、URL或停用词等一项或多项,用户可根据基本数据的实际情况自定义选择。可选地,可以采用基于粗糙集理论的约简方法,或者采用基于统计分析的属性选取方法对获取的基本数据进行预处理,生成标准数据。
在一具体实施例中,若获取的基本数据来源于网站,则还可以通过采用爬虫技术对基本数据进行预处理,爬取基本数据中所包含的标题、长描、概述、或高赞评论等实际所需的数据,生成标准数据。
S20:对标准数据进行关键信息提取,生成候选关键信息,候选关键信息包括候选关键词、候选关键短语和候选关键语句中的至少一项。
其中,候选关键信息指从标准数据中提取出的关键信息。候选关键信息包括候选关键词、候选关键短语和候选关键语句中的至少一项。
在一具体实施例中,若需从标准数据中提取候选关键词,则可直接采用关键词提取算法,对标准数据进行关键词提取,得到候选关键词;或者采用基于图模型的文本关键词提取方法,对标准数据进行关键词提取,得到在标准数据中权重占比较大的关键词,作为候选关键词等。本方案不对关键词提取方法做具体的限制,用户可根据实际情况自定义选取任意一种方法。
在一具体实施例中,若需从标准数据中提取候选关键短语,则可直接采用OCR技术的文本切割方法将获取的标准数据切割成若干短语,得到候选关键短语;或者采用文本分析方法先将获取的标准数据拆分成若干关键短句,然后根据预设的词性和语法规则从每一关键短句中提取出对应的关键性短语,组成候选关键短语。
在一具体实施例中,若需从标准数据中提取候选关键语句,则可直接根据标准数据中的句号、逗号等标点符号,将标准数据拆分为若干语句,得到候选关键语句;或者采用预设的信息数据库,从该信息数据库中获取与该标准数据匹配度最高的关键语句,作为候选关键语句。其中,信息数据库指存储有若干优质关键语句的数据库。
在一具体实施例中,若需同时从标准数据中提取候选关键词、候选关键短语或候选关键语句中的至少两项,则可同时采用上述对应的关键信息提取方法,从标准数据中提取对应的候选关键信息。可以理解地,在本实施例中,可以同时采用不同的关键信息提取方法,对标准数据进行关键信息提取,得到同时包括候选关键词、候选关键短语或候选关键语句中至少两项的候选关键信息;也可以只采用上述一种关键信息提取方法,对标准数据进行关键信息提取,得到只包括候选关键词、候选关键短语或候选关键语句中任意一项的候选关键信息。
S30:对候选关键信息进行整合,生成展示数据。
由于候选关键信息可以包括候选关键词、候选关键短语和候选关键语句中的至少一项,因此在得到候选关键信息之后,需对获取的候选关键信息进行整合,得到展示数据。具体地,对候选关键信息进行整合可以根据候选关键信息所包含的候选关键词、候选关键短语和候选关键语句的权重,对候选关键信息进行排序整合,生成展示数据。优选地,为了保证生成的展示数据的简洁和规范性,在对候选关键信息中的候选关键词重、候选关键短语和候选关键语句进行排序之前,还可以预先对获取的候选关键信息进行语义去重处理,去除候选关键信息中语义相似度大于预设阈值的信息。预设阈值指用于判断关键信息是否存在重合或相似的阈值。可选地,预设阈值可以设定为85%、90%或95%等。
进一步地,可以将展示数据发送至客户端,以在客户端的界面上显示该展示数据。在一具体实施例中,在客户端的界面上显示该展示数据的频率可以根据展示数据中候选关键词、候选关键短语和候选关键语句的排列顺序而设定。示例性地,若展示数据中候选关键语句的排列顺序为1,候选关键短语的排列顺序为2,候选关键词的排列顺序为3;则展示数据中候选关键语句的显示频率最高,候选关键短语的显示频率其次,候选关键词的显示频率最低。
在本实施例中,通过获取基本数据,对基本数据进行预处理,生成标准数据;对标准数据进行关键信息提取,生成候选关键信息,候选关键信息包括候选关键词、候选关键短语和候选关键语句中的至少一项;对候选关键信息进行整合,生成展示数据;通过采用至少一种关键信息提取方法对数据进行关键信息提取,生成包括候选关键词、候选关键短语和候选关键语句中的至少一项的候选关键信息,然后再对候选关键信息进行整合,得到展示数据,从而提高了展示数据的生成效率。
在一实施例中,如图3所示,对标准数据进行关键信息提取,生成候选关键信息,具体包括如下步骤:
S201:采用基于图模型的文本关键词提取方法,对标准数据进行关键信息提取,生成候选关键词。
其中,候选关键词指从标准数据中提取出的关键词语。具体地,先对获取的标准数据进行分词处理,得到该标准数据对应的关键词集。其中,关键词集指标准数据中所包含的特定词性的分词。词性(POS,Part of speech)是反映词的内容所属类型的数据。词性包括形容词、介词、谓词和名词等12种词性。在本实施例中,关键词集包括标准数据中的名词、动词、形容词和副词。然后,基于关键词集的所有关键词建立图模型;最后根据构建的图模型从该有效词序列中筛选出权重较大的关键词输出,生成候选关键词。可以理解地,候选关键词包括至少一个关键词。
S202:采用文本分析方法,对标准数据进行关键信息提取,生成候选关键短语。
其中,候选关键短语指从标准数据中提取出的关键短语。具体地,可以通过对获取的标准数据进行文本分析,从标准数据中提取出具有特定意义的语句作为关键语句。例如:若获取的标准数据包括标题、概述、长描和高赞评论,则可以对标准数据进行文本分析,然后将标题、概述、高赞评论以及长描的首句或尾句确定为关键语句;或者采用预设的LSTM神经网络模型从获取的标准数据中提取出权重较大的语句作为关键语句。其中LSTM为长短期记忆网络,是一种时间循环神经网络,适合于处理和预测时间序列或文本顺序序列中间隔相对较长的重要事件。在本实施例中,LSTM神经网络模型是预先建立的可直接对获取的标准数据进行关键语句提取的模型。然后,再将得到的关键语句拆分若干关键短句,并对每一关键短句进行词性判断和句法分析,从每一关键短句中提取出关键短语,组成候选关键短语。可以理解地,候选关键短语包括至少一个关键短语。
S203:根据标准数据查询信息数据库,从信息数据库中获取与标准数据对应的信息,生成候选关键语句。
其中,信息数据库是指预先创建的存储有若干优质语句记录的数据库。在信息数据库中存储至少一句优质语句记录,每一优质语句记录对应存储有优质语句和对应的数据类型。
具体地,先确定标准数据的数据类型,然后根据标准数据的数据类型查询信息数据库,从信息数据库获取与该数据类型相匹配的优质语句记录,并将该优质语句记录对应的优质语句作为样本语句;然后,再根据标准数据的特征信息,从样本语句中筛选出与该标准数据匹配度超过预设阈值的关键语句,作为候选关键语句。可以理解地,候选关键语句包括至少一个关键语句。
在本实施例中,通过采用基于图模型的文本关键词提取方法,对标准数据进行关键信息提取,生成候选关键词;采用文本分析方法,对标准数据进行关键信息提取,生成候选关键短语;根据标准数据查询信息数据库,从信息数据库中获取与标准数据对应的信息,生成候选关键语句;通过采用不同的关键信息提取方法,对标准数据进行关键信息提取,从而生成不同数据类型的关键信息,从而提高了生成的候选关键信息的多样性。
在一实施例中,如图4所示,对候选关键信息进行处理,生成展示数据,具体包括如下步骤:
S301:根据预设策略确定候选关键词、候选关键短语和候选关键语句中各自的权重值。
其中,预设策略指对候选关键词、候选关键短语和候选关键语句进行权重值设定的规则。具体地,预设策略可以为根据候选关键词、候选关键短语和候选关键语句的词频-逆向文本频率值,确定候选关键词、候选关键短语和候选关键语句的权重值。其中,词频-逆向文本频率值指给定的词语在一文件中出现的次数。在本实施例中,候选关键词、候选关键短语和候选关键语句的词频-逆向文本频率值指候选关键词、候选关键短语和候选关键语句在基本数据中的出现频率。可以理解地,词频-逆向文本频率值越高,就说明该词频-逆向文本频率值对应的关键信息的相关度越大。在本实施例中,候选关键词、候选关键短语和候选关键语句所对应的权重值与候选关键词、候选关键短语和候选关键语句对应的词频-逆向文本频率值呈正相关性,即词频-逆向文本频率值越大,其权重值越大。
另外地,预设策略还可以为预先根据候选关键词、候选关键短语和候选关键语句在不同场景中的适用性,设定候选关键词、候选关键短语和候选关键语句的权重值。在一具体实施例中,若展示数据为广告数据。由于通过信息数据库生成的候选关键语句最适合用于广告投放,通过文本分析技术生成的候选关键短语最具有代表性,通过图模型的文本关键词提取方法生成的候选关键词适用度最广;则为了吸引用户的注意力,提升广告投放的效果,可以将候选关键语句的权重值设定为最大,候选关键短语的权重值其次,候选关键词的权重值最小。
S302:基于候选关键词、候选关键短语和候选关键语句中各自的权重值,对候选关键信息进行排序,生成展示数据。
具体地,为了体现出候选关键词、候选关键短语和候选关键语句的不同重要程度,基于候选关键词、候选关键短语和候选关键语句的权重值的从大到小,对候选关键信息进行排序,生成展示数据。可以理解地,展示数据中排在前面的候选关键信息的重要程度最大,排在中间的候选关键信息的重要程度其次,排在最后的候选关键信息的重要程度最小。
在本实施例中,根据预设策略确定候选关键词、候选关键短语和候选关键语句的权重值;基于候选关键词、候选关键短语和候选关键语句的权重值,对候选关键信息进行排序,生成展示数据;通过根据候选关键词、候选关键短语和候选关键语句的权重值,对候选关键信息进行排序,使获取的展示数据更具有针对性,从而提高了生成的展示数据在不同应用场景中的适用性。
在一实施例中,如图5所示,对标准数据进行关键信息提取,生成候选关键信息,具体包括如下步骤:
S2011:对标准数据进行识别,从标准数据中提取出特定关键词,组成关键词集。
其中,关键词集是指由若干关键词组成的集合。具体地,预先设定好需要提取的特定关键词的词性,然后采用OCR文字识别技术对获取的标准数据进行识别,从标准数据中提取出对应词性的特定关键词,组成关键词集。其中,特定关键词指预先设定的具有某种特定词性的分词。在本实施例中,特定关键词包括标准数据中的名词、动词、形容词和副词。
S2012:基于关键词集构建图模型,图模型包括关键词集中每一特定关键词的权重。
具体地,基于关键词集中的每一关键词构建图模型G=(V,E)。其中,V={1,2,...,n}为节点集,代表关键词集中的每一关键词,边集合E={eij=(i,j):i,j∈V}为节点之间的边,代表关键词集中的相邻关键词之间的距离。图模型包括关键词集中每一特定关键词的权重。具体地,确定图模型中各节点(特定关键词)的权重S,可采用如下公式进行确定:
其中,Wij表示两节点间的权重;D为阻尼系数,取值范围为0到1的左开右闭区间,D优选取值为0.8。在一具体实施例中,在计算图模型中各节点(特定关键词)的权重S时,需要预先给图模型中的各节点指定任意的初值,然后再进行迭代计算直到收敛,从而得到关键词集中每一特定关键词的权重。图模型中任意一节点的误差小于预设极限值时达到收敛,预设极限值优选取值0.001。
S2013:根据每一特定关键词的权重,将权重大于预设阈值的特定关键词,确定为候选关键词。
其中,预设阈值指用于评估特定关键词的权重是否满足要求的阈值。可选地,预设阈值可以为0.05、0.06或0.08等。用户可根据实际情况自定义设置。具体地,在确定了每一特定关键词的权重之后,将每一特定关键词的权重与预设阈值进行一一比较,将权重大于预设阈值的特定关键词确定为候选关键词。优选地,若输出的候选关键词为标准数据中相邻的关键词,则可以将该相邻的候选关键词组合形成候选关键词组后再输出。
在本实施例中,通过对标准数据进行识别,从标准数据中提取出特定关键词,组成关键词集;基于关键词集构建图模型,图模型包括关键词集中每一特定关键词的权重;根据每一特定关键词的权重,获取权重大于预设阈值的特定关键词,生成候选关键词;不但提高了生成候选关键词的效率,还保证了生成的候选关键词的准确性。
在一实施例中,如图6所示,对标准数据进行关键信息提取,生成候选关键信息,具体包括如下步骤:
S2021:对标准数据进行识别,从标准数据中提取出特定关键语句,组成特定关键语句集。
其中,特定关键语句指预先设定的需进行提取的语句。具体地,可以预先设定好需要提取的特定关键语句的特定的字符串或者预设字段,然后采用OCR文字识别技术对获取的标准数据进行识别,只要标准数据出现上述特定的字符串或者预设字段,就认定为特定关键语句,并从标准数据中提取出该特定关键语句,组成特定关键语句集。
S2022:采用LSTM神经网络模型从特定关键语句集中获取目标关键语句,组成目标关键语句集。
其中,LSTM神经网络模型为预先建立的可以从特定关键语句集中筛选出目标关键语句的模型。具体地,LSTM神经网络模型主要由编码器和解码器构成。在一具体实施例中,编码器将特定关键语句集按句子为单位编码为向量,向量中每个元素的值与句子的词性和词义有关。解码器负责根据每个向量的编码以及与其他向量之间的关系筛提取出重要信息,生成目标关键语句。解码器得到特定关键语句集中每一特定关键语句的向量化表达后,会与之前隐藏层状态共同计算得到每一特定关键语句的隐藏层状态,并根据遗忘门选择保留最大概率的与前文有关的隐藏层,经激活函数计算后得到LSTM层的输出向量输出至全连接层。全连接层计算得到最终的输出向量,最后根据输出向量倒序排序,并将排名最靠前的向量对应的关键语句输出,得到目标关键语句TM神经网络模型从特定关键语句集中获取目标关键语句,组成目标关键语句集。
S2023:根据预设的词性和语法规则对目标关键语句集中的每一目标关键语句进行分析提取,生成候选关键短语。
其中,预设的词性和语法规则指预先设定的对目标关键语句集中的每一目标关键语句进行关键短语提取的规则。具体地,根据预设的词性和语法规则对目标关键语句集中的每一目标关键语句进行分析提取指从目标关键语句集中的每一目标关键语句中提取出特定词性或特定语法的短语,组成候选关键短语的过程。可选地,预设的词性和语法规则包括但不限于为:从每一目标关键语句中提取出名词性短语组成候选关键短语,其中,名词性短语为由多个名词构或形容词加名词构成的短语;或者从每一目标关键语句中提取出动词性短语组成候选关键短语,其中,动词性短语为动词加名词或副词加动词构成的短语或动宾短语;或者从每一目标关键语句中提取出并列式短语组成候选关键短语,其中,并列式短语为相同词性的词语由介词连接的短语;还可以为从每一目标关键语句中提取出主谓短语组成候选关键短语,其中,主谓短语为句子主语谓语符合规定词性的短语等。
在本实施例中,通过对标准数据进行识别,从标准数据中提取出特定关键语句,组成特定关键语句集;采用LSTM神经网络模型从特定关键语句集中获取目标关键语句,组成目标关键语句集;根据预设的词性和语法规则对目标关键语句集中的每一目标关键语句进行分析提取,生成候选关键短语;不但提高了生成候选关键短语的效率,还保证了生成的候选关键短语的准确性。
在一实施例中,如图7所示,对标准数据进行关键信息提取,生成候选关键信息,具体包括如下步骤:
S2031:确定标准数据的数据类型和特征信息。
其中,数据类型指能体现标准数据的所属类别的信息。示例性地,若标准数据为广告数据,则该标准数据的数据类型为可以为电商类广告数据、游戏类广告数据或者美食类广告数据。特征信息指能体现标准数据的主要特性的信息。例如:若标准数据为广告数据,则该标准数据的特征信息可以为广告位场景信息或者用户特征等。具体地,可预先定义好能体现标准数据的数据类型和特征信息的特定字段,在获取到标准数据之后,采用关键词提取算法定位出数据类型和特征信息的特定字段在标准数据中的具体位置,从而获取到标准数据的数据类型和特征信息。
S2032:根据标准数据的数据类型查询信息数据库,从信息数据库中获取对应的样本语句。
其中,信息数据库是指预先创建的存储有若干优质语句记录的数据库。可选地,信息数据库可以为优质文案库。在信息数据库中存储至少一句优质语句记录,每一优质语句记录对应存储有优质语句和对应的数据类型。具体地,在确定了标准数据的数据类型之后,根据标准数据的数据类型查询对应的信息数据库,从信息数据库获取与该数据类型相匹配的优质语句记录,并将该优质语句记录对应的优质语句作为样本语句,由于数据类型对应的优质语句记录可能有一个,也有可以有多个,因此,获取到的与数据类型对应的样本语句包括至少一个。示例性地,若标准数据的数据类型为电商类广告数据,则根据标准数据的数据类型查询信息数据库,从信息数据库中获取的样本语句为与电商相关的广告文案信息;若标准数据的数据类型为美食类广告数据,则根据标准数据的数据类型查询信息数据库,从信息数据库中获取的样本语句为与美食相关的广告文案信息。
S2033:根据标准数据的特征信息,从样本语句中获取候选关键语句。
具体地,由于只根据标准数据的数据类型获取到的样本语句的针对性和代表性不强。因此,还需再根据标准数据的特征信息,从样本语句中筛选出与该标准数据匹配度超过预设阈值的关键语句,作为候选关键语句。可以理解地,候选关键语句包括至少一个关键语句。具体地,可以将获取的每一样本语句的特征信息与标准数据的特征信息进行一一匹配,然后将匹配度超过预设阈值的关键语句,作为候选关键语句。其中,预设阈值指用于评估样本语句是否与标准数据相匹配的阈值。
另外地,在一具体实施例中,还可以基于标准数据,直接采用基于内容的推荐技术或者协同过滤算法查询信息数据库,从信息数据库中匹配与标准数据相同或者相似的候选关键语句。该信息数据库中存储有若干通用优质语句。其中,通用优质语句指适用于各种类型数据的优质语句。具体地,协同过滤算法可以利用标准数据所包含的特征信息(如:用户、场景或者主题),匹配到与标准数据相同或者相似的样本语句;然后,再利用相似度排序,得到与该标准数据最接近的样本语句作为候选关键语句。
在本实施例中,通过确定标准数据的数据类型和特征信息;根据标准数据的数据类型查询信息数据库,从信息数据库中获取对应的样本语句;根据标准数据的特征信息,从样本语句中获取候选关键语句;不但提高了生成候选关键语句的效率,还保证了生成的候选关键语句的准确性。
在一实施例中,如图8所示,对候选关键信息进行处理,生成展示数据之后,数据生成方法还包括如下步骤:
S40:获取展示数据的点击率。
其中,点击率指用户在客户端对展示数据进行点击的频率。由于展示数据可以包括候选关键词、候选关键短语、候选关键语句。因此,展示数据的点击率分别包括候选关键词的点击率、候选关键短语的点击率和候选关键语句的点击率。
具体地,在将展示数据发送到客户端进行展示后,可以通过设定一触发周期定时从客户端获取用户对展示数据中候选关键词、候选关键短语和候选关键语句对应的点击率。例如:触发周期可以设定为1天、3天或7天等,用户可根据实时情况自定义设置。
S50:根据点击率实时调整候选关键词、候选关键短语和候选关键语句的权重值,点击率和权重值呈正相关。
具体地,根据点击率,实时调整候选关键词、候选关键短语和候选关键语句的权重值,点击率和权重值呈正相关。可以理解地,候选关键词、候选关键短语和候选关键语句的权重值随着对应的点击率的而变化。示例性地,若原展示数据中候选关键语句的权重最大、候选关键短语的权重其次、候选关键词的权重最小;实时获取到展示数据的点击率为候选关键短语的点击率最大,候选关键词的点击率其次,候选关键语句的点击率最小;则将展示数据中候选关键短语的权重调整为最大、候选关键词的权重调整为其次,候选关键语句的权重调整为最小。
在本实施例中,通过获取展示数据的点击率,根据实时调整候选关键词、候选关键短语和候选关键语句的权重值,点击率和所述权重值呈正相关,从而更好地提高了展示数据在不同应用场景中的使用效率,保证了展示数据的展示效果。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
在一实施例中,提供一种数据生成装置,该数据生成装置与上述实施例中数据生成方法一一对应。如图9所示,该数据生成装置包括基本数据获取模块10、关键信息提取模块20和整合模块30。各功能模块详细说明如下:
基本数据获取模块10,用于获取基本数据,对基本数据进行预处理,生成标准数据;
关键信息提取模块20,用于对标准数据进行关键信息提取,生成候选关键信息,候选关键信息包括候选关键词、候选关键短语和候选关键语句中的至少一项;
整合模块30,用于对候选关键信息进行整合,生成展示数据。
优选地,关键信息提取模块20,包括:
第一关键信息提取单元,用于采用基于图模型的文本关键词提取方法,对标准数据进行关键信息提取,生成候选关键词;
第二关键信息提取单元,用于采用文本分析方法,对标准数据进行关键信息提取,生成候选关键短语;
第三关键信息提取单元,用于根据标准数据查询信息数据库,从信息数据库中获取与标准数据对应的信息,生成候选关键语句。
优选地,整合模块30,包括:
权重值确定单元,用于根据预设策略确定候选关键词、候选关键短语和候选关键语句中各自的权重值;
排序单元,用于基于候选关键词、候选关键短语和候选关键语句中各自的权重值,对候选关键信息进行排序,生成展示数据。
优选地,关键信息提取模块20,还包括:
第一识别单元,用于对标准数据进行识别,从标准数据中提取出特定关键词,组成关键词集;
图模型构建单元,用于基于关键词集构建图模型,图模型包括关键词集中每一特定关键词的权重;
候选关键词生成单元,用于根据每一特定关键词的权重,获取权重大于预设阈值的特定关键词,生成候选关键词。
优选地,关键信息提取模块20,还包括:
第二识别单元,用于对标准数据进行识别,从标准数据中提取出特定关键语句,组成特定关键语句集;
目标关键语句获取单元,用于采用LSTM神经网络模型从特定关键语句集中获取目标关键语句,组成目标关键语句集;
分析提取单元,用于根据预设的词性和语法规则对目标关键语句集中的每一目标关键语句进行分析提取,生成候选关键短语。
优选地,关键信息提取模块20,还包括:
确定单元,用于确定标准数据的数据类型和特征信息;
查询单元,用于根据标准数据的数据类型查询信息数据库,从信息数据库中获取对应的样本语句;
候选关键语句获取单元,用于根据标准数据的特征信息,从样本语句中获取候选关键语句。
优选地,数据生成装置,还包括:
点击率获取单元,用于获取展示数据的点击率;
权重值调整单元,用于根据点击率,实时调整候选关键词、候选关键短语和候选关键语句的权重值,点击率和权重值呈正相关。
关于数据生成装置的具体限定可以参见上文中对于数据生成方法的限定,在此不再赘述。上述数据生成装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图10所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储上述实施例中数据生成方法使用到的数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种数据生成方法。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述实施例中数据生成方法。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述实施例中数据生成方法。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。
Claims (10)
1.一种数据生成方法,其特征在于,包括:
获取基本数据,对所述基本数据进行预处理,生成标准数据;
对所述标准数据进行关键信息提取,生成候选关键信息,所述候选关键信息包括候选关键词、候选关键短语和候选关键语句中的至少一项;
对所述候选关键信息进行整合,生成展示数据。
2.如权利要求1所述的数据生成方法,其特征在于,所述对所述标准数据进行关键信息提取,生成候选关键信息,包括:
采用基于图模型的文本关键词提取方法,对所述标准数据进行关键信息提取,生成候选关键词;
采用文本分析方法,对所述标准数据进行关键信息提取,生成候选关键短语;
根据所述标准数据查询信息数据库,从所述信息数据库中获取与所述标准数据对应的信息,生成候选关键语句。
3.如权利要求1或2所述的数据生成方法,其特征在于,所述对所述候选关键信息进行整合,生成展示数据,包括:
根据预设策略确定所述候选关键词、所述候选关键短语和所述候选关键语句中各自的权重值;
基于所述候选关键词、所述候选关键短语和所述候选关键语句中各自的权重值,对所述候选关键信息进行排序,生成展示数据。
4.如权利要求1或2所述的数据生成方法,其特征在于,所述对所述标准数据进行关键信息提取,生成候选关键信息,包括:
对所述标准数据进行识别,从所述标准数据中提取出特定关键词,组成关键词集;
基于所述关键词集构建图模型,所述图模型包括所述关键词集中每一特定关键词的权重;
根据每一所述特定关键词的权重,获取所述权重大于预设阈值的特定关键词,生成候选关键词。
5.如权利要求1或2所述的数据生成方法,其特征在于,所述对所述标准数据进行关键信息提取,生成候选关键信息,包括:
对所述标准数据进行识别,从所述标准数据中提取出特定关键语句,组成特定关键语句集;
采用LSTM神经网络模型从所述特定关键语句集中获取目标关键语句,组成目标关键语句集;
根据预设的词性和语法规则对所述目标关键语句集中的每一目标关键语句进行分析提取,生成候选关键短语。
6.如权利要求1或2所述的数据生成方法,其特征在于,所述对所述标准数据进行关键信息提取,生成候选关键信息,包括:
确定所述标准数据的数据类型和特征信息;
根据所述标准数据的数据类型查询信息数据库,从所述信息数据库中获取对应的样本语句;
根据所述标准数据的所述特征信息,从所述样本语句中获取候选关键语句。
7.如权利要求1或2所述的数据生成方法,其特征在于,所述对所述候选关键信息进行处理,生成展示数据之后,所述数据生成方法还包括:
获取所述展示数据的点击率;
根据所述点击率,实时调整所述候选关键词、所述候选关键短语和所述候选关键语句的权重值,所述点击率和所述权重值呈正相关。
8.一种数据生成装置,其特征在于,包括:
基本数据获取模块,用于获取基本数据,对所述基本数据进行预处理,生成标准数据;
关键信息提取模块,用于对所述标准数据进行关键信息提取,生成候选关键信息,所述候选关键信息包括候选关键词、候选关键短语和候选关键语句中的至少一项;
整合模块,用于对所述候选关键信息进行整合,生成展示数据。
9.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述数据生成方法。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述数据生成方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910631800.6A CN110377725B (zh) | 2019-07-12 | 2019-07-12 | 数据生成方法、装置、计算机设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910631800.6A CN110377725B (zh) | 2019-07-12 | 2019-07-12 | 数据生成方法、装置、计算机设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110377725A true CN110377725A (zh) | 2019-10-25 |
CN110377725B CN110377725B (zh) | 2021-09-24 |
Family
ID=68252992
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910631800.6A Active CN110377725B (zh) | 2019-07-12 | 2019-07-12 | 数据生成方法、装置、计算机设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110377725B (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110795411A (zh) * | 2019-11-01 | 2020-02-14 | 北京理工大学 | 一种基于类别门机制的文本分类方法 |
CN110853615A (zh) * | 2019-11-13 | 2020-02-28 | 北京欧珀通信有限公司 | 一种数据处理方法、装置及存储介质 |
CN111061803A (zh) * | 2019-12-30 | 2020-04-24 | 北京三快在线科技有限公司 | 任务处理方法、装置、设备及存储介质 |
CN111259662A (zh) * | 2020-02-18 | 2020-06-09 | 支付宝(杭州)信息技术有限公司 | 处理文本的方法和装置 |
CN111353397A (zh) * | 2020-02-22 | 2020-06-30 | 郑州铁路职业技术学院 | 基于大数据和ocr的网络课堂中文板书结构化分享系统 |
CN111831804A (zh) * | 2020-06-29 | 2020-10-27 | 深圳价值在线信息科技股份有限公司 | 一种关键短语的提取方法、装置、终端设备及存储介质 |
CN113255363A (zh) * | 2021-05-25 | 2021-08-13 | 浪潮卓数大数据产业发展有限公司 | 一种从大段文字信息中获取关键信息的方法和系统 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120117092A1 (en) * | 2010-11-05 | 2012-05-10 | Zofia Stankiewicz | Systems And Methods Regarding Keyword Extraction |
CN105893410A (zh) * | 2015-11-18 | 2016-08-24 | 乐视网信息技术(北京)股份有限公司 | 一种关键词提取方法和装置 |
CN107122413A (zh) * | 2017-03-31 | 2017-09-01 | 北京奇艺世纪科技有限公司 | 一种基于图模型的关键词提取方法及装置 |
CN108664473A (zh) * | 2018-05-11 | 2018-10-16 | 平安科技(深圳)有限公司 | 文本关键信息的识别方法、电子装置及可读存储介质 |
CN109255118A (zh) * | 2017-07-11 | 2019-01-22 | 普天信息技术有限公司 | 一种关键词提取方法及装置 |
CN109408826A (zh) * | 2018-11-07 | 2019-03-01 | 北京锐安科技有限公司 | 一种文本信息提取方法、装置、服务器及存储介质 |
US20190155944A1 (en) * | 2017-11-23 | 2019-05-23 | Infosys Limited | Method and system for key phrase extraction and generation from text |
-
2019
- 2019-07-12 CN CN201910631800.6A patent/CN110377725B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120117092A1 (en) * | 2010-11-05 | 2012-05-10 | Zofia Stankiewicz | Systems And Methods Regarding Keyword Extraction |
CN105893410A (zh) * | 2015-11-18 | 2016-08-24 | 乐视网信息技术(北京)股份有限公司 | 一种关键词提取方法和装置 |
CN107122413A (zh) * | 2017-03-31 | 2017-09-01 | 北京奇艺世纪科技有限公司 | 一种基于图模型的关键词提取方法及装置 |
CN109255118A (zh) * | 2017-07-11 | 2019-01-22 | 普天信息技术有限公司 | 一种关键词提取方法及装置 |
US20190155944A1 (en) * | 2017-11-23 | 2019-05-23 | Infosys Limited | Method and system for key phrase extraction and generation from text |
CN108664473A (zh) * | 2018-05-11 | 2018-10-16 | 平安科技(深圳)有限公司 | 文本关键信息的识别方法、电子装置及可读存储介质 |
CN109408826A (zh) * | 2018-11-07 | 2019-03-01 | 北京锐安科技有限公司 | 一种文本信息提取方法、装置、服务器及存储介质 |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110795411A (zh) * | 2019-11-01 | 2020-02-14 | 北京理工大学 | 一种基于类别门机制的文本分类方法 |
CN110795411B (zh) * | 2019-11-01 | 2022-01-04 | 北京理工大学 | 一种基于类别门机制的文本分类方法 |
CN110853615A (zh) * | 2019-11-13 | 2020-02-28 | 北京欧珀通信有限公司 | 一种数据处理方法、装置及存储介质 |
CN110853615B (zh) * | 2019-11-13 | 2022-05-27 | 北京欧珀通信有限公司 | 一种数据处理方法、装置及存储介质 |
CN111061803A (zh) * | 2019-12-30 | 2020-04-24 | 北京三快在线科技有限公司 | 任务处理方法、装置、设备及存储介质 |
CN111259662A (zh) * | 2020-02-18 | 2020-06-09 | 支付宝(杭州)信息技术有限公司 | 处理文本的方法和装置 |
CN111259662B (zh) * | 2020-02-18 | 2023-03-21 | 支付宝(杭州)信息技术有限公司 | 处理文本的方法和装置 |
CN111353397A (zh) * | 2020-02-22 | 2020-06-30 | 郑州铁路职业技术学院 | 基于大数据和ocr的网络课堂中文板书结构化分享系统 |
CN111353397B (zh) * | 2020-02-22 | 2021-01-01 | 郑州铁路职业技术学院 | 基于大数据和ocr的网络课堂中文板书结构化分享系统 |
CN111831804A (zh) * | 2020-06-29 | 2020-10-27 | 深圳价值在线信息科技股份有限公司 | 一种关键短语的提取方法、装置、终端设备及存储介质 |
CN111831804B (zh) * | 2020-06-29 | 2024-04-26 | 深圳价值在线信息科技股份有限公司 | 一种关键短语的提取方法、装置、终端设备及存储介质 |
CN113255363A (zh) * | 2021-05-25 | 2021-08-13 | 浪潮卓数大数据产业发展有限公司 | 一种从大段文字信息中获取关键信息的方法和系统 |
Also Published As
Publication number | Publication date |
---|---|
CN110377725B (zh) | 2021-09-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110377725A (zh) | 数据生成方法、装置、计算机设备及存储介质 | |
Ni et al. | MVAN: Multi-view attention networks for fake news detection on social media | |
Babar et al. | Improving performance of text summarization | |
Leskovec et al. | Learning sub-structures of document semantic graphs for document summarization | |
US9009134B2 (en) | Named entity recognition in query | |
CN110717106B (zh) | 信息推送的方法及装置 | |
US9501467B2 (en) | Systems, methods, software and interfaces for entity extraction and resolution and tagging | |
CN110909164A (zh) | 一种基于卷积神经网络的文本增强语义分类方法及系统 | |
CN104573028A (zh) | 实现智能问答的方法和系统 | |
Martinez-Romo et al. | Web spam identification through language model analysis | |
CN110889786A (zh) | 一种基于lstm技术的法律诉讼被告人保全用审判服务方法 | |
CN111737560B (zh) | 内容搜索方法、领域预测模型训练方法、装置及存储介质 | |
CN104679825A (zh) | 基于网络文本的地震宏观异常信息获取与筛选方法 | |
CN110532480B (zh) | 一种用于人读威胁情报推荐的知识图谱构建方法及威胁情报推荐方法 | |
Nandi et al. | Bangla news recommendation using doc2vec | |
CN109033427B (zh) | 股票的筛选方法及装置、计算机设备及可读存储介质 | |
Denoyer et al. | Structured multimedia document classification | |
CN113254652A (zh) | 一种基于超图注意力网络的社交媒体贴文真实性检测方法 | |
Fu et al. | Improving distributed word representation and topic model by word-topic mixture model | |
CN112215629B (zh) | 基于构造对抗样本的多目标广告生成系统及其方法 | |
Tsapatsoulis | Image retrieval via topic modelling of Instagram hashtags | |
Cernea et al. | SOAF: Semantic indexing system based on collaborative tagging | |
Zhang et al. | Informing the curious negotiator: Automatic news extraction from the internet | |
Feng et al. | Recommending statutes: A portable method based on neural networks | |
Ding et al. | Towards building a word similarity dictionary for personality bias classification of phishing email contents |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |