CN113505192A - 数据标签库构建方法、装置、电子设备及计算机存储介质 - Google Patents
数据标签库构建方法、装置、电子设备及计算机存储介质 Download PDFInfo
- Publication number
- CN113505192A CN113505192A CN202110570801.1A CN202110570801A CN113505192A CN 113505192 A CN113505192 A CN 113505192A CN 202110570801 A CN202110570801 A CN 202110570801A CN 113505192 A CN113505192 A CN 113505192A
- Authority
- CN
- China
- Prior art keywords
- label
- data
- tag
- service line
- service
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3335—Syntactic pre-processing, e.g. stopword elimination, stemming
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及数据分析技术,揭露了一种数据标签库构建方法,包括:提取业务线数据的特征词作为第一标签;利用覆盖率反馈信息将第一标签进行扩增,得到第二标签;对第二标签进行语义分析,根据分析结果进行标注,得到第三标签;计算第三标签中各标签的相似度,根据相似度对第三标签进行合并,得到一级标签;对产品数据和业务数据进行与业务线数据相同的处理,得到与产品数据对应的二级标签,及与业务数据对应的三级标签;利用一级标签、二级标签及三级标签构建数据标签库。此外,本发明还涉及区块链技术,业务线数据可存储于区块链的节点。本发明还提出一种数据标签库构建装置、设备及介质。本发明可以解决对数据构建出的标签库的可用性不高的问题。
Description
技术领域
本发明涉及数据分析技术领域,尤其涉及一种数据标签库构建方法、装置、电子设备及计算机可读存储介质。
背景技术
随着业务的逐步扩展,各公司产生的业务数据也产生爆炸式的增长,人们逐渐发现:在数据的基建和应用层面,除了需要重视数据分析能力建设之外,更值得关注的是对数据的管理,而为了实现高效、精确的数据管理,离不开构建与数据对应的包含多种标签的标签库。
当前对于标签库的构建方法多为用户人工对数据进行打标,以将标注的标签汇集为标签库,该方法中,由于不同用户对数据的认知不同,因此,对于同一数据会产生多种不同标签,造成标签的冗余和歧义,且由于是人工打标,当数据量较多时,往往会出现遗漏,造成标签对数据的覆盖率不满足用户需求,最终导致构建出的标签库的可用性不高。
发明内容
本发明提供一种数据标签库构建方法、装置及计算机可读存储介质,其主要目的在于解决对数据构建出的标签库的可用性不高的问题。
为实现上述目的,本发明提供的一种数据标签库构建方法,包括:
获取业务线数据,对所述业务线数据进行特征词提取,得到第一标签;
获取多方用户对所述第一标签的覆盖率反馈信息,根据所述覆盖率反馈信息对所述第一标签进行标签扩增,得到第二标签;
对所述第二标签进行语义分析,并根据分析结果对所述第二标签进行歧义词标注,得到第三标签;
计算所述第三标签中各标签之间的相似度,将所述第三标签中所述相似度大于预设相似度阈值的标签进行标签合并,得到一级标签;
获取产品数据和业务数据,分别对所述产品数据和所述业务数据进行特征词提取、标签扩增、歧义词标注和标签合并,得到与产品数据对应的二级标签,及与所述业务数据对应的三级标签;
利用所述一级标签、所述二级标签及所述三级标签构建数据标签库。
可选地,所述对所述业务线数据进行特征词提取,得到第一标签,包括:
对所述业务线数据进行分词处理,得到业务线分词;
统计所述业务线分词中每个分词的出现频率;
选取所述业务线分词中所述出现频率大于预设频率阈值的分词为所述第一标签。
可选地,所述对所述业务线数据进行分词处理,得到业务线分词,包括:
获取预构建的标准词典,所述标准词典中包含多个标准分词;
按照不同的预设长度对所述业务线数据进行划分,得到多个检索词;
分别将所述多个检索词在所述标准词典中进行检索,确定检索到的与所述标准分词相同的检索词为该业务线数据的业务线分词。
可选地,所述根据所述覆盖率反馈信息对所述第一标签进行标签扩增,得到第二标签,包括:
根据所述覆盖率反馈信息确定所述业务线数据中未被覆盖的目标业务线;
对所述目标业务线进行特征词提取,得到目标特征词;
将所述目标特征词作为所述目标业务线的标签与所述第一标签进行汇集,得到第二标签。
可选地,所述对所述第二标签进行语义分析,并根据分析结果对所述第二标签进行歧义词标注,得到第三标签,包括:
将所述第二标签输入至预先训练的语义分析模型,获取所述语义分析模型输出的分析结果;
根据所述分析结果筛选出所述第二标签中存在多重语义的目标标签;
获取所述目标标签对应的目标业务线数据;
获取所述多方用户对所述目标业务线数据的人工标签;
利用所述人工标签对所述目标标签进行标注,并将标注后的标签与第二标签进行汇集,得到第三标签。
可选地,所述计算所述第三标签中各标签之间的相似度,将所述第三标签中所述相似度大于预设相似度阈值的标签进行标签合并,得到一级标签,包括:
对所述第三标签进行向量转换,得到所述第三标签中各标签对应的标签向量;
利用预设的相似算法计算所述标签向量之间的相似度;
确定所述相似度大于预设相似度阈值的标签向量对应的标签为相似标签;
随机从所述相似标签中选取任一标签作为所述相似标签的统一标签;
直至所述第三标签中各标签之间的相似度小于等于所述预设相似阈值,得到一级标签。
可选地,所述对所述第三标签进行向量转换,得到所述第三标签中各标签对应的标签向量,包括:
对所述第三标签进行字节拆分,得到标签字节;
根据预先获取的字节向量表查询所述标签字节对应的字节向量;
将所述字节向量进行向量拼接,得到标签向量。
为了解决上述问题,本发明还提供一种数据标签库构建装置,所述装置包括:
特征词提取模块,用于获取业务线数据,对所述业务线数据进行特征词提取,得到第一标签;
标签扩增模块,用于获取多方用户对所述第一标签的覆盖率反馈信息,根据所述覆盖率反馈信息对所述第一标签进行标签扩增,得到第二标签;
歧义标注模块,用于对所述第二标签进行语义分析,并根据分析结果对所述第二标签进行歧义词标注,得到第三标签;
标签合并模块,用于计算所述第三标签中各标签之间的相似度,将所述第三标签中所述相似度大于预设相似度阈值的标签进行标签合并,得到一级标签;
标签生成模块,用于获取产品数据和业务数据,分别对所述产品数据和所述业务数据进行特征词提取、标签扩增、歧义词标注和标签合并,得到与产品数据对应的二级标签,及与所述业务数据对应的三级标签;
标签库构建模块,用于利用所述一级标签、所述二级标签及所述三级标签构建数据标签库。
为了解决上述问题,本发明还提供一种电子设备,所述电子设备包括:
存储器,存储至少一个指令;及
处理器,执行所述存储器中存储的指令以实现上述所述的数据标签库构建方法。
为了解决上述问题,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一个指令,所述至少一个指令被电子设备中的处理器执行以实现上述所述的数据标签库构建方法。
本发明实施例提取业务线数据的特征词为第一标签,可使得获取的第一标签对业务线数据的代表性更强,提高最终构建的标签库中标签的精确性;根据多方用户对第一标签的覆盖率反馈信息将第一标签进行扩增为第二标签,有利于提高最终生成的标签库对业务线数据的覆盖率;对第二标签进行语义分析,并根据分析结果对第二标签进行歧义词标注,得到第三标签,可去除第二标签中含有歧义的标签,增加生产的第三标签的清晰度,进而有利于增加构建出的标签库中各标签含义的确定性;根据相似度将第三标签中各标签合并为一级标签,有利于减少第三标签中标签的冗余,进而提高标签库中标签的简洁性;再分别获取产品数据和业务数据以与业务线数据相同的处理方式生成二级标签与三级标签,可实现从业务角度与产品角度对标签库的丰富,提高标签库的可使用群体范围;进而提高利用一级标签、二级标签与三级标签构建的标签库的可用性。因此本发明提出的数据标签库构建方法、装置、电子设备及计算机可读存储介质,可以解决对数据构建出的标签库的可用性不高的问题。
附图说明
图1为本发明一实施例提供的数据标签库构建方法的流程示意图;
图2为本发明一实施例提供的标签扩增的流程示意图;
图3为本发明一实施例提供的歧义词标注的流程示意图;
图4为本发明一实施例提供的数据标签库构建装置的功能模块图;
图5为本发明一实施例提供的实现所述数据标签库构建方法的电子设备的结构示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本申请实施例提供一种数据标签库构建方法。所述数据标签库构建方法的执行主体包括但不限于服务端、终端等能够被配置为执行本申请实施例提供的该方法的电子设备中的至少一种。换言之,所述数据标签库构建方法可以由安装在终端设备或服务端设备的软件或硬件来执行,所述软件可以是区块链平台。所述服务端包括但不限于:单台服务器、服务器集群、云端服务器或云端服务器集群等。
参照图1所示,为本发明一实施例提供的数据标签库构建方法的流程示意图。在本实施例中,所述数据标签库构建方法包括:
S1、获取业务线数据,对所述业务线数据进行特征词提取,得到第一标签。
本发明实施例中,所述业务线数据用于描述不同的业务线的总体特征,例如,业务线名称、业务线类型、业务线内容等。
本发明实施例可通过具有数据抓取功能的计算机语句(java语句、python语句等)从用于存储所述业务线数据的数据库或区块链节点中抓取业务线数据;或者,由用户通过预先安装于用户端的页面上传所述业务线数据。
本发明其中一个实际应用场景中,由于业务线数据中包含大量数据,直接对该业务线数据进行标签生成,会占用大量计算资源,且会导致生成的标签内容过多,不利于构建出简易、实用的标签库。因此,可对所述业务线数据进行特征词提取,以将提取的特征词作为该业务线数据对应的第一标签。
本发明其中一个实施例中,可采用统计的方式对所述业务线数据进行特征词提取,例如,统计所述业务线数据中不同词语的出现频率,并依据该频率对业务线数据中的特征词进行选取,以获取第一标签。
详细地,所述对所述业务线数据进行特征词提取,得到第一标签,包括:
对所述业务线数据进行分词处理,得到业务线分词;
统计所述业务线分词中每个分词的出现频率;
选取所述业务线分词中所述出现频率大于预设频率阈值的分词为所述第一标签。
具体地,可利用预构建的标准词典对所述业务线数据进行分词处理,所述标准词典中含有多个标准分词。
本发明另一实施例中,所述对所述业务线数据进行分词处理,得到业务线分词,包括:
获取预构建的标准词典,所述标准词典中包含多个标准分词;
按照不同的预设长度对所述业务线数据进行划分,得到多个检索词;
分别将所述多个检索词在所述标准词典中进行检索,确定检索到的与所述标准分词相同的检索词为该业务线数据的业务线分词。
例如,存在业务线数据:“金融产品交易业务线”,则可按照不同长度将该业务线数据进行划分,得到如“金融”、“产品交易”、“业务线”等检索词,并分别将不同的检索词在所述标准词典中进行检索,得到所述标准分词中包含标准分词“金融”和“产品交易”,则确定检索词“金融”和“产品交易”为该业务线数据的业务分词。
本发明其中一个实际应用场景中,当分词的出现频率越高,则确认该分词对所述业务线数据的代表性越强,因此,选取所述出现频率大于预设频率阈值的分词作为第一标签,可使得获取的第一标签对业务线数据的代表性更强,提高获取的第一标签的精确度。
S2、获取多方用户对所述第一标签的覆盖率反馈信息,根据所述覆盖率反馈信息对所述第一标签进行标签扩增,得到第二标签。
本发明实施例中,所述多方用户包括但不限于供应商、业务方和用户方,所述覆盖率反馈信息是指用户对所述第一标签对各项业务线数据的覆盖程度的反馈信息。
本发明实施例中,所述覆盖率反馈信息可由用户上传,例如,用户在预先安装于用户端的页面中上传所述业务线数据;或者,利用具有数据抓取功能的计算机语句(java语句、python语句等)从预先构建的数据库中抓取所述多方用户存储的反馈信息。
本发明实施例获取多方用户的覆盖率反馈信息,提高了反馈信息的多样化,有利于提高利用该覆盖率反馈信息对第一标签进行标签扩展的精确度。
进一步地,本发明实施例根据所述覆盖率反馈信息确定该第一标签是否完全覆盖所述业务线数据,若所述第一标签未完全覆盖所述业务线数据,则对所述第一标签进行标签扩展,以实现对业务线数据的完全覆盖,提高生成的标签库中各标签的完整性。
例如,存在覆盖率反馈信息为:业务线数据中存在业务线A、业务线B、业务线C和业务线D,第一标签中存在业务线A对应的标签、业务线B对应的标签和业务线C对应的标签;因此,业务线D并未被所述第一标签覆盖,则需要对所述第一标签进行扩展,以生成业务线D对应的标签。
本发明其中一个实施例中,参图2所示,所述根据所述覆盖率反馈信息对所述第一标签进行标签扩增,得到第二标签,包括:
S21、根据所述覆盖率反馈信息确定所述业务线数据中未被覆盖的目标业务线;
S22、对所述目标业务线进行特征词提取,得到目标特征词;
S23、将所述目标特征词作为所述目标业务线的标签与所述第一标签进行汇集,得到第二标签。
例如,根据所述覆盖率反馈信息确定业务线数据中业务线D未被第一标签覆盖,则确定所述业务线D为目标业务线,按照如步骤S1中对所述业务线数据进行特征词提取的步骤,对所述业务线D进行特征词提取,得到业务线D对应的目标特征词,并将该目标特征词作为所述业务线D的标签与第一标签进行汇集,得到第二标签。
本发明实施例通过覆盖率反馈信息对所述第一标签进行标签扩增,可实现生成可覆盖全部业务线数据的第二标签,有利于提高最终生成的标签库对业务线数据的覆盖率。
S3、对所述第二标签进行语义分析,并根据分析结果对所述第二标签进行歧义词标注,得到第三标签。
本发明其中一个实际应用场景中,由于中化文化博大精深,经常会出现一词多意的现象。
例如,黄金,即可对业务线数据中与黄金买卖相关的数据进行标识,也可对业务线数据中与黄金时间相关的数据(黄金周、黄金假期等)进行标识,或者,还可对业务线数据中与用户相关的数据(黄金会员)等进行标识。当第二标签中存在特征词与业务线数据中多个不同含义的数据对应时,仅利用该特征词作为标签的范围是不合适的,会导致生成的标签库中的标签在不同用户使用时产生歧义。
因此,本实施例可对第二标签进行语义分析,以根据分析结果对第二标签中含有歧义的标签进行标注,得到第三标签,以提高第三标签的准确地。
本发明实施例中,可采用预先训练的具有语言分析功能的语义分析模型对所述第二标签进行语义分析,并根据分析结果对所述第二标签进行歧义词标注,得到第三标签。
具体地,所述预先训练的语义分析模型包括但不限于NLP(Natural LanguageProcessing,自然语言处理)模型、HMM(Hidden Markov Model,隐马尔科夫模型)。
例如,将所述第二标签输入至预先训练的语义分析模型中,并获取所述语义分析模型对所述第二标签进行语义分析输出的分析结果,进而根据分析结果对所述第二标签进行歧义词标注,得到第三标签。
详细地,所述语义分析模型的训练数据包含基础训练样本和增量训练样本,该基础训练样本包含预构建的多组信息对,每组信息对中包含业务线数据及该业务线数据对应的特征词;该增量训练样本为通过基础训练样本的训练过程时,获取语义分析模型对基础训练样本的输出结果,获取用户对这些输出结果的反馈信息,将这些反馈信息作为增量训练样本(例如,增量训练样本中某组信息对为基础训练样本中的特征词以及用户的反馈信息),继续对语义分析模型进行训练。
本实施例中,用户的反馈信息用于对训练结果进行纠正或确认,从而优化和丰富训练样本,进而得到更准确的语义分析模型。
本发明实施例中,参图3所示,所述对所述第二标签进行语义分析,并根据分析结果对所述第二标签进行歧义词标注,得到第三标签,包括:
S31、将所述第二标签输入至预先训练的语义分析模型,获取所述语义分析模型输出的分析结果;
S32、根据所述分析结果筛选出所述第二标签中存在多重语义的目标标签;
S33、获取所述目标标签对应的目标业务线数据;
S34、获取所述多方用户对所述目标业务线数据的人工标签;
S35、利用所述人工标签对所述目标标签进行标注,并将标注后的标签与第二标签进行汇集,得到第三标签。
详细地,所述分析结果包括所述第二标签中每个标签,和每个标签是否有多重语义的信息。
例如,第二标签中包含标签1、标签2和标签3,通过语义分析模型对该第二标签进行语义分析后,得出标签1:“黄金”含有多重语义,则确定标签1:“黄金”为目标标签;获取所述标签1对应的目标业务线数据:业务线数据X和业务线数据Y,其中,业务线数据X为黄金买卖相关的数据,业务线数据Y为用户会有相关的数据;获取多方用户对所述目标业务线数据中业务线数据X的人工标签:“黄金买卖”,和多方用户对所述目标业务线数据中业务线数据Y的人工标签:“用户等级”;则利用人工标签:“黄金买卖”对业务线数据X的第二标签进行标注,得到业务线数据X对应的第三标签:“黄金-黄金买卖”;利用人工标签:“用户等级”对业务线数据Y进行标注,得到业务线数据Y对应的第三标签:“黄金-用户等级”。
本发明实施例对第二标签进行语义分析,并根据分析结果对第二标签进行歧义词标注,可去除第二标签中含有歧义的标签,增加生产的第三标签的清晰度,进而有利于增加构建出的标签库中各标签含义的确定性。
S4、计算所述第三标签中各标签之间的相似度,将所述第三标签中所述相似度大于预设相似度阈值的标签进行标签合并,得到一级标签。
本发明实施例中,由于所述第三标签中还可能存在着含义相近的标签,例如,第三标签中存在“互联网医疗”、“移动医疗”、“智慧医疗”三个标签,但这三个标签的含义基本相同,导致第三标签中标签的冗余,不利于建立出的标签库的简洁性,因此,本发明实施例可通过预设的相似算法计算所述第三标签中各标签之间的相似度,并将第三标签中相似度大于预设相似度阈值的标签进行标签合并,以减少第三标签中标签的冗余。
详细的,所述相似算法包括余弦距离算法、欧氏距离算法。
本发明实施例中,所述计算所述第三标签中各标签之间的相似度,将所述第三标签中所述相似度大于预设相似度阈值的标签进行标签合并,得到一级标签,包括:
对所述第三标签进行向量转换,得到所述第三标签中各标签对应的标签向量;
利用预设的相似算法计算所述标签向量之间的相似度;
确定所述相似度大于预设相似度阈值的标签向量对应的标签为相似标签;
随机从所述相似标签中选取任一标签作为所述相似标签的统一标签;
直至所述第三标签中各标签之间的相似度小于等于所述预设相似阈值,得到一级标签。
例如,第三标签中存在“证券交易”、“互联网医疗”、“移动医疗”三个标签,其中,“证券交易”对应标签向量1,“互联网医疗”对应标签向量2,“移动医疗”对应标签向量3;通过相似算法计算后得出,标签向量1与标签向量2之间的相似度为20,标签向量1与标签向量3之间的相似度为15,标签向量2与标签向量3之间的相似度为90,当预设相似度阈值为80时2,则确定标签向量2与标签向量3对应的标签为相似标签,即“互联网医疗”、“移动医疗”为相似标签,随机选取其中一个标签(如“移动医疗”)作为“互联网医疗”和“移动医疗”的统一标签,即将第三标签中所有的“互联网医疗”更换为“移动医疗”,以实现标签合并,直至第三标签中各标签之间的相似度小于等于所述预设相似阈值,得到一级标签。
本发明其中一个实施例中,所述对所述第三标签进行向量转换,得到所述第三标签中各标签对应的标签向量,包括:
对所述第三标签进行字节拆分,得到标签字节;
根据预先获取的字节向量表查询所述标签字节对应的字节向量;
将所述字节向量进行向量拼接,得到标签向量。
详细地,所述字节向量表中包含多个字节,及每个字节对应的字节向量。
例如,第三标签中存在“移动医疗”标签,则可将该标签拆分为“移”、“动”、“医”、“疗”四个标签字节,并在所述字节向量表中进行查询,得到“移”对应的字节向量为aa,“动”对应的字节向量为cc,“医”对应的字节向量为bb,“疗”对应的字节向量为dd,则可将这四个字节向量按照标签“移动医疗”的中每个字节的顺序,拼接为标签“移动医疗”对应的标签向量:aaccbbdd。
S5、获取产品数据和业务数据,分别对所述产品数据和所述业务数据进行特征词提取、标签扩增、歧义词标注和标签合并,得到与产品数据对应的二级标签,及与所述业务数据对应的三级标签。
本发明实施例中,所述产品数据为对所述业务线数据中涉及的各项产品的描述数据,所述业务数据为对所述业务线数据中涉及的各项业务的描述数据。
本发明实施例通过对产品数据执行如S1至S4的步骤,实现对产品数据的特征词提取、标签扩增、歧义词标注和标签合并,生成所述产品数据对应的二级标签;通过对业务数据执行如S1至S4的步骤,实现对业务数据的特征词提取、标签扩增、歧义词标注和标签合并,生成所述业务数据对应的三级标签。
S6、利用所述一级标签、所述二级标签及所述三级标签构建数据标签库。
本发明实施例中,可通过将获取的一级标签、二级标签及三级标签汇集并存储于预先构建的存储区域(如mysql数据库、Oracle数据库、网络缓存等),以生成包含所述一级标签、所述二级标签及所述三级标签的标签库。
本发明实施例提取业务线数据的特征词为第一标签,可使得获取的第一标签对业务线数据的代表性更强,提高最终构建的标签库中标签的精确性;根据多方用户对第一标签的覆盖率反馈信息将第一标签进行扩增为第二标签,有利于提高最终生成的标签库对业务线数据的覆盖率;对第二标签进行语义分析,并根据分析结果对第二标签进行歧义词标注,得到第三标签,可去除第二标签中含有歧义的标签,增加生产的第三标签的清晰度,进而有利于增加构建出的标签库中各标签含义的确定性;根据相似度将第三标签中各标签合并为一级标签,有利于减少第三标签中标签的冗余,进而提高标签库中标签的简洁性;再分别获取产品数据和业务数据以与业务线数据相同的处理方式生成二级标签与三级标签,可实现从业务角度与产品角度对标签库的丰富,提高标签库的可使用群体范围;进而提高利用一级标签、二级标签与三级标签构建的标签库的可用性。因此本发明提出的数据标签库构建方法,可以解决对数据构建出的标签库的可用性不高的问题。
如图4所示,是本发明一实施例提供的数据标签库构建装置的功能模块图。
本发明所述数据标签库构建装置100可以安装于电子设备中。根据实现的功能,所述数据标签库构建装置100可以包括特征词提取模块101、标签扩增模块102、歧义标注模块103、标签合并模块104、标签生成模块105和标签库构建模块。本发明所述模块也可以称之为单元,是指一种能够被电子设备处理器所执行,并且能够完成固定功能的一系列计算机程序段,其存储在电子设备的存储器中。
在本实施例中,关于各模块/单元的功能如下:
所述特征词提取模块101,用于获取业务线数据,对所述业务线数据进行特征词提取,得到第一标签;
所述标签扩增模块102,用于获取多方用户对所述第一标签的覆盖率反馈信息,根据所述覆盖率反馈信息对所述第一标签进行标签扩增,得到第二标签;
所述歧义标注模块103,用于对所述第二标签进行语义分析,并根据分析结果对所述第二标签进行歧义词标注,得到第三标签;
所述标签合并模块104,用于计算所述第三标签中各标签之间的相似度,将所述第三标签中所述相似度大于预设相似度阈值的标签进行标签合并,得到一级标签;
所述标签生成模块105,用于获取产品数据和业务数据,分别对所述产品数据和所述业务数据进行特征词提取、标签扩增、歧义词标注和标签合并,得到与产品数据对应的二级标签,及与所述业务数据对应的三级标签;
所述标签库构建模块106,用于利用所述一级标签、所述二级标签及所述三级标签构建数据标签库。
详细地,本发明实施例中所述数据标签库构建装置100中所述的各模块在使用时采用与上述图1至图3中所述的数据标签库构建方法一样的技术手段,并能够产生相同的技术效果,这里不再赘述。
如图5所示,是本发明一实施例提供的实现数据标签库构建方法的电子设备的结构示意图。
所述电子设备1可以包括处理器10、存储器11和总线,还可以包括存储在所述存储器11中并可在所述处理器10上运行的计算机程序,如数据标签库构建程序。
其中,所述存储器11至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、移动硬盘、多媒体卡、卡型存储器(例如:SD或DX存储器等)、磁性存储器、磁盘、光盘等。所述存储器11在一些实施例中可以是电子设备1的内部存储单元,例如该电子设备1的移动硬盘。所述存储器11在另一些实施例中也可以是电子设备1的外部存储设备,例如电子设备1上配备的插接式移动硬盘、智能存储卡(Smart Media Card,SMC)、安全数字(SecureDigital,SD)卡、闪存卡(Flash Card)等。进一步地,所述存储器11还可以既包括电子设备1的内部存储单元也包括外部存储设备。所述存储器11不仅可以用于存储安装于电子设备1的应用软件及各类数据,例如数据标签库构建程序的代码等,还可以用于暂时地存储已经输出或者将要输出的数据。
所述处理器10在一些实施例中可以由集成电路组成,例如可以由单个封装的集成电路所组成,也可以是由多个相同功能或不同功能封装的集成电路所组成,包括一个或者多个中央处理器(Central Processing unit,CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。所述处理器10是所述电子设备的控制核心(Control Unit),利用各种接口和线路连接整个电子设备的各个部件,通过运行或执行存储在所述存储器11内的程序或者模块(例如数据标签库构建程序等),以及调用存储在所述存储器11内的数据,以执行电子设备1的各种功能和处理数据。
所述总线可以是外设部件互连标准(peripheral component interconnect,简称PCI)总线或扩展工业标准结构(extended industry standard architecture,简称EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。所述总线被设置为实现所述存储器11以及至少一个处理器10等之间的连接通信。
图5仅示出了具有部件的电子设备,本领域技术人员可以理解的是,图5示出的结构并不构成对所述电子设备1的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
例如,尽管未示出,所述电子设备1还可以包括给各个部件供电的电源(比如电池),优选地,电源可以通过电源管理装置与所述至少一个处理器10逻辑相连,从而通过电源管理装置实现充电管理、放电管理、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述电子设备1还可以包括多种传感器、蓝牙模块、Wi-Fi模块等,在此不再赘述。
进一步地,所述电子设备1还可以包括网络接口,可选地,所述网络接口可以包括有线接口和/或无线接口(如WI-FI接口、蓝牙接口等),通常用于在该电子设备1与其他电子设备之间建立通信连接。
可选地,该电子设备1还可以包括用户接口,用户接口可以是显示器(Display)、输入单元(比如键盘(Keyboard)),可选地,用户接口还可以是标准的有线接口、无线接口。可选地,在一些实施例中,显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。其中,显示器也可以适当的称为显示屏或显示单元,用于显示在电子设备1中处理的信息以及用于显示可视化的用户界面。
应该了解,所述实施例仅为说明之用,在专利申请范围上并不受此结构的限制。
所述电子设备1中的所述存储器11存储的数据标签库构建程序是多个指令的组合,在所述处理器10中运行时,可以实现:
获取业务线数据,对所述业务线数据进行特征词提取,得到第一标签;
获取多方用户对所述第一标签的覆盖率反馈信息,根据所述覆盖率反馈信息对所述第一标签进行标签扩增,得到第二标签;
对所述第二标签进行语义分析,并根据分析结果对所述第二标签进行歧义词标注,得到第三标签;
计算所述第三标签中各标签之间的相似度,将所述第三标签中所述相似度大于预设相似度阈值的标签进行标签合并,得到一级标签;
获取产品数据和业务数据,分别对所述产品数据和所述业务数据进行特征词提取、标签扩增、歧义词标注和标签合并,得到与产品数据对应的二级标签,及与所述业务数据对应的三级标签;
利用所述一级标签、所述二级标签及所述三级标签构建数据标签库。
具体地,所述处理器10对上述指令的具体实现方法可参考图1对应实施例中相关步骤的描述,在此不赘述。
进一步地,所述电子设备1集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。所述计算机可读存储介质可以是易失性的,也可以是非易失性的。例如,所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)。
本发明还提供一种计算机可读存储介质,所述可读存储介质存储有计算机程序,所述计算机程序在被电子设备的处理器所执行时,可以实现:
获取业务线数据,对所述业务线数据进行特征词提取,得到第一标签;
获取多方用户对所述第一标签的覆盖率反馈信息,根据所述覆盖率反馈信息对所述第一标签进行标签扩增,得到第二标签;
对所述第二标签进行语义分析,并根据分析结果对所述第二标签进行歧义词标注,得到第三标签;
计算所述第三标签中各标签之间的相似度,将所述第三标签中所述相似度大于预设相似度阈值的标签进行标签合并,得到一级标签;
获取产品数据和业务数据,分别对所述产品数据和所述业务数据进行特征词提取、标签扩增、歧义词标注和标签合并,得到与产品数据对应的二级标签,及与所述业务数据对应的三级标签;
利用所述一级标签、所述二级标签及所述三级标签构建数据标签库。
在本发明所提供的几个实施例中,应该理解到,所揭露的设备,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。
因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。
本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第二等词语用来表示名称,而并不表示任何特定的顺序。
最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。
Claims (10)
1.一种数据标签库构建方法,其特征在于,所述方法包括:
获取业务线数据,对所述业务线数据进行特征词提取,得到第一标签;
获取多方用户对所述第一标签的覆盖率反馈信息,根据所述覆盖率反馈信息对所述第一标签进行标签扩增,得到第二标签;
对所述第二标签进行语义分析,并根据分析结果对所述第二标签进行歧义词标注,得到第三标签;
计算所述第三标签中各标签之间的相似度,将所述第三标签中所述相似度大于预设相似度阈值的标签进行标签合并,得到一级标签;
获取产品数据和业务数据,分别对所述产品数据和所述业务数据进行特征词提取、标签扩增、歧义词标注和标签合并,得到与产品数据对应的二级标签,及与所述业务数据对应的三级标签;
利用所述一级标签、所述二级标签及所述三级标签构建数据标签库。
2.如权利要求1所述的数据标签库构建方法,其特征在于,所述对所述业务线数据进行特征词提取,得到第一标签,包括:
对所述业务线数据进行分词处理,得到业务线分词;
统计所述业务线分词中每个分词的出现频率;
选取所述业务线分词中所述出现频率大于预设频率阈值的分词为所述第一标签。
3.如权利要求2所述的数据标签库构建方法,其特征在于,所述对所述业务线数据进行分词处理,得到业务线分词,包括:
获取预构建的标准词典,所述标准词典中包含多个标准分词;
按照不同的预设长度对所述业务线数据进行划分,得到多个检索词;
分别将所述多个检索词在所述标准词典中进行检索,确定检索到的与所述标准分词相同的检索词为该业务线数据的业务线分词。
4.如权利要求1所述的数据标签库构建方法,其特征在于,所述根据所述覆盖率反馈信息对所述第一标签进行标签扩增,得到第二标签,包括:
根据所述覆盖率反馈信息确定所述业务线数据中未被覆盖的目标业务线;
对所述目标业务线进行特征词提取,得到目标特征词;
将所述目标特征词作为所述目标业务线的标签与所述第一标签进行汇集,得到第二标签。
5.如权利要求1至4中任一项所述的数据标签库构建方法,其特征在于,所述对所述第二标签进行语义分析,并根据分析结果对所述第二标签进行歧义词标注,得到第三标签,包括:
将所述第二标签输入至预先训练的语义分析模型,获取所述语义分析模型输出的分析结果;
根据所述分析结果筛选出所述第二标签中存在多重语义的目标标签;
获取所述目标标签对应的目标业务线数据;
获取所述多方用户对所述目标业务线数据的人工标签;
利用所述人工标签对所述目标标签进行标注,并将标注后的标签与第二标签进行汇集,得到第三标签。
6.如权利要求1至4中任一项所述的数据标签库构建方法,其特征在于,所述计算所述第三标签中各标签之间的相似度,将所述第三标签中所述相似度大于预设相似度阈值的标签进行标签合并,得到一级标签,包括:
对所述第三标签进行向量转换,得到所述第三标签中各标签对应的标签向量;
利用预设的相似算法计算所述标签向量之间的相似度;
确定所述相似度大于预设相似度阈值的标签向量对应的标签为相似标签;
随机从所述相似标签中选取任一标签作为所述相似标签的统一标签;
直至所述第三标签中各标签之间的相似度小于等于所述预设相似阈值,得到一级标签。
7.如权利要求6所述的数据标签库构建方法,其特征在于,所述对所述第三标签进行向量转换,得到所述第三标签中各标签对应的标签向量,包括:
对所述第三标签进行字节拆分,得到标签字节;
根据预先获取的字节向量表查询所述标签字节对应的字节向量;
将所述字节向量进行向量拼接,得到标签向量。
8.一种数据标签库构建装置,其特征在于,所述装置包括:
特征词提取模块,用于获取业务线数据,对所述业务线数据进行特征词提取,得到第一标签;
标签扩增模块,用于获取多方用户对所述第一标签的覆盖率反馈信息,根据所述覆盖率反馈信息对所述第一标签进行标签扩增,得到第二标签;
歧义标注模块,用于对所述第二标签进行语义分析,并根据分析结果对所述第二标签进行歧义词标注,得到第三标签;
标签合并模块,用于计算所述第三标签中各标签之间的相似度,将所述第三标签中所述相似度大于预设相似度阈值的标签进行标签合并,得到一级标签;
标签生成模块,用于获取产品数据和业务数据,分别对所述产品数据和所述业务数据进行特征词提取、标签扩增、歧义词标注和标签合并,得到与产品数据对应的二级标签,及与所述业务数据对应的三级标签;
标签库构建模块,用于利用所述一级标签、所述二级标签及所述三级标签构建数据标签库。
9.一种电子设备,其特征在于,所述电子设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1至7中任意一项所述的数据标签库构建方法。
10.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任意一项所述的数据标签库构建方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110570801.1A CN113505192A (zh) | 2021-05-25 | 2021-05-25 | 数据标签库构建方法、装置、电子设备及计算机存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110570801.1A CN113505192A (zh) | 2021-05-25 | 2021-05-25 | 数据标签库构建方法、装置、电子设备及计算机存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113505192A true CN113505192A (zh) | 2021-10-15 |
Family
ID=78009222
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110570801.1A Pending CN113505192A (zh) | 2021-05-25 | 2021-05-25 | 数据标签库构建方法、装置、电子设备及计算机存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113505192A (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105095288A (zh) * | 2014-05-14 | 2015-11-25 | 腾讯科技(深圳)有限公司 | 数据分析方法及数据分析装置 |
US20170083484A1 (en) * | 2015-09-21 | 2017-03-23 | Tata Consultancy Services Limited | Tagging text snippets |
CN109376309A (zh) * | 2018-12-28 | 2019-02-22 | 北京百度网讯科技有限公司 | 基于语义标签的文档推荐方法和装置 |
CN109543178A (zh) * | 2018-11-01 | 2019-03-29 | 银江股份有限公司 | 一种司法文本标签体系构建方法及系统 |
CN110928981A (zh) * | 2019-11-18 | 2020-03-27 | 佰聆数据股份有限公司 | 一种文本标签体系搭建及完善迭代的方法、系统及存储介质 |
-
2021
- 2021-05-25 CN CN202110570801.1A patent/CN113505192A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105095288A (zh) * | 2014-05-14 | 2015-11-25 | 腾讯科技(深圳)有限公司 | 数据分析方法及数据分析装置 |
US20170083484A1 (en) * | 2015-09-21 | 2017-03-23 | Tata Consultancy Services Limited | Tagging text snippets |
CN109543178A (zh) * | 2018-11-01 | 2019-03-29 | 银江股份有限公司 | 一种司法文本标签体系构建方法及系统 |
CN109376309A (zh) * | 2018-12-28 | 2019-02-22 | 北京百度网讯科技有限公司 | 基于语义标签的文档推荐方法和装置 |
CN110928981A (zh) * | 2019-11-18 | 2020-03-27 | 佰聆数据股份有限公司 | 一种文本标签体系搭建及完善迭代的方法、系统及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112597312A (zh) | 文本分类方法、装置、电子设备及可读存储介质 | |
CN111782772A (zh) | 基于ocr技术的文本自动生成方法、装置、设备及介质 | |
CN112541338A (zh) | 相似文本匹配方法、装置、电子设备及计算机存储介质 | |
CN113268615A (zh) | 资源标签生成方法、装置、电子设备及存储介质 | |
CN113157927A (zh) | 文本分类方法、装置、电子设备及可读存储介质 | |
CN112883730B (zh) | 相似文本匹配方法、装置、电子设备及存储介质 | |
CN113360768A (zh) | 基于用户画像的产品推荐方法、装置、设备及存储介质 | |
CN112906361A (zh) | 文本数据的标注方法和装置、电子设备和存储介质 | |
CN113591881B (zh) | 基于模型融合的意图识别方法、装置、电子设备及介质 | |
CN113344125A (zh) | 长文本匹配识别方法、装置、电子设备及存储介质 | |
CN113254814A (zh) | 网络课程视频打标签方法、装置、电子设备及介质 | |
CN112632264A (zh) | 智能问答方法、装置、电子设备及存储介质 | |
CN114708073B (zh) | 一种围标串标智能检测方法、装置、电子设备及存储介质 | |
CN114943306A (zh) | 意图分类方法、装置、设备及存储介质 | |
CN115146064A (zh) | 意图识别模型优化方法、装置、设备及存储介质 | |
CN114780688A (zh) | 基于规则匹配的文本质检方法、装置、设备及存储介质 | |
CN115203364A (zh) | 软件故障反馈处理方法、装置、设备及可读存储介质 | |
CN113505192A (zh) | 数据标签库构建方法、装置、电子设备及计算机存储介质 | |
CN114610854A (zh) | 智能问答方法、装置、设备及存储介质 | |
CN114518993A (zh) | 基于业务特征的系统性能监控方法、装置、设备及介质 | |
CN113434660A (zh) | 基于多领域分类的产品推荐方法、装置、设备及存储介质 | |
CN113902404A (zh) | 基于人工智能的员工晋升分析方法、装置、设备及介质 | |
CN113486145B (zh) | 基于网络节点的用户咨询回复方法、装置、设备及介质 | |
CN113704587B (zh) | 基于阶段划分的用户黏着度分析方法、装置、设备及介质 | |
CN111507366B (zh) | 推荐概率模型的训练方法、智能补全方法及相关装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |