CN115269842A - 一种智能标签生成方法、装置、计算机设备和存储介质 - Google Patents
一种智能标签生成方法、装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN115269842A CN115269842A CN202210904526.7A CN202210904526A CN115269842A CN 115269842 A CN115269842 A CN 115269842A CN 202210904526 A CN202210904526 A CN 202210904526A CN 115269842 A CN115269842 A CN 115269842A
- Authority
- CN
- China
- Prior art keywords
- label
- word
- text
- weight
- calculation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
Abstract
本申请涉及一种智能标签生成方法、装置、计算机设备和存储介质。所述方法包括:对过滤文本进行分词计算和文本长短判断,根据判断结果对过滤文本进行分词权重计算和关键词权重计算,根据得到的词权重从过滤文本中进行关键词提取,基于深度学习BERT模型对提取到的关键词进行歧义词判断,利用判断结果和预先设置的词库规则进行标签特征词关联匹配,采用权重加和算法对初始标签进行权重加和计算,根据预先设置的规则对候选标签进行标签筛选,并对筛选后的标签进行权重缩放计算,基于badcase和先验知识设置规则词库,根据规则词库对缩放后的标签进行互斥标签处理,得到最终标签。采用本方法能够提高标签生成系统鲁棒性。
Description
技术领域
本申请涉及数据处理技术领域,特别是涉及一种智能标签生成方法、装置、计算机设备和存储介质。
背景技术
标签用于对文章类型以及主体内容做一个归类,让用户能够能过标签即可了解一篇新闻主要的内容涉及哪些行业或个股以及将该个股或板块的涨跌情况展示给用户。根据文章,如新闻资讯,生成最能代表文章主题或者中心思想的词汇,并与标签特征词映射表关联,生成不同维度(个股、主题、行业等)的标签,并给出每个标签的可信度,即文章打上此标签概率。同时标签作用还包括文章分类、建立用户画像、个性化推荐等。
现有标签生成系统的文本打标签从实现方式分为抽取式、生成式、分类的方法。抽取式是通过计算原文中词的权重,提取出原文中的词汇;生成式则是通过生成模型,使用文本语义特征生成词汇,该词汇不一定是原文中的词;常见的做法还有基于分类,即设计多层分类树,类别即标签,对每篇文本标注类别作为训练数据,使用分类算法,使用文本的语义特征对文本进行分类,输出类别即标签。然而,现有标签生成系统的文本打标签有监督方法需要大量的标注数据,且标签体系更新后需要重新训练才能使用,标签扩展不灵活,鲁棒性低等问题。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高标签生成系统鲁棒性的一种智能标签生成方法、装置、计算机设备和存储介质。
一种智能标签生成方法,所述方法包括:
获取资讯文本;
将资讯文本进行文本清洗和正则筛选,得到过滤文本;
对过滤文本进行分词计算和文本长短判断,根据判断结果对过滤文本进行分词权重计算和关键词权重计算,得到词权重;
根据词权重从过滤文本中进行关键词提取,基于深度学习BERT模型对提取到的关键词进行歧义词判断,利用判断结果和预先设置的词库规则进行标签特征词关联匹配,得到初始标签;
采用权重加和算法对初始标签进行权重加和计算,得到候选标签;
根据预先设置的规则对候选标签进行标签筛选,并对筛选后的标签进行权重缩放计算,得到缩放后的标签;
基于badcase和先验知识设置规则词库,根据规则词库对缩放后的标签进行互斥标签处理,得到最终标签。
在其中一个实施例中,对过滤文本进行分词计算和文本长短判断,根据判断结果对过滤文本进行分词权重计算和关键词权重计算,得到词权重,包括:
根据分词工具将过滤文本进行分词,对分词后的过滤文本的长短进行判断,若分词后的过滤文本为短文本,则按照词汇顺序进行权重计算,得到词权重;
若分词后的过滤文本为长文本,则根据textrank算法对分词后的过滤文本中的词进行关键词权重计算,得到词权重。
在其中一个实施例中,基于深度学习BERT模型对提取到的关键词进行歧义词判断,利用判断结果和预先设置的词库规则进行标签特征词关联匹配,得到初始标签,包括:
基于深度学习BERT模型对提取到的关键词进行分类处理,将通用概念的关键词判定为歧义词,若关键词为歧义词,则并利用结合上下文语义对提取到的关键词进行消歧处理,得到消歧后的关键词;
根据预先设置的词库规则对消歧后的关键词进行标签特征词关联匹配,得到初始标签;
若关键词不为歧义词,则根据预先设置的词库规则对关键词进行标签特征词关联匹配,得到初始标签。
在其中一个实施例中,将资讯文本进行文本清洗和正则筛选,得到过滤文本,包括:
将资讯文本中的HTML格式进行清除,繁简统一,全角半角符号统一,得到清洗后的文本;
对清洗后的文本中具备命名规律的标题设计正则表,通过标题判断不同类型的资讯,进入不同的处理流程,得到过滤文本。
在其中一个实施例中,采用权重加和算法对初始标签进行权重加和计算,得到候选标签,包括:
采用权重加和算法对初始标签进行权重加和计算,得到初始标签的权重为weight+=weight*pow(a,b),其中a,b为初始标签对应的不相同的关键词的词权重,pow(a,b)表示衰减系数;
根据初始标签的权重和预先设置的阈值对初始标签进行选取,得到候选标签。
在其中一个实施例中,根据预先设置的规则对候选标签进行标签筛选,并对筛选后的标签进行权重缩放计算,得到缩放后的标签,包括:
对比喻常使用的词汇进行排除词和必备词的处理,若文本中候选标签和排除词同时出现时,则删除候选标签;若文本中候选标签和必备词不同时出现时,则删除候选标签;
对所有对筛选后的标签统一进行缩放函数处理,将每个标签最终的累加权重值缩放到(0,1]之间,得到缩放后的标签。
在其中一个实施例中,基于badcase和先验知识设置规则词库,根据规则词库对缩放后的标签进行互斥标签处理,得到最终标签,包括:
基于badcase和先验知识设置规则词库,规则词库中规定当在第一标签中设置了与第二标签互斥,则当一篇新闻同时包含第一标签与第二标签的特征词,仅保留第二标签,删除第一标签。
一种智能标签生成装置,所述装置包括:
预处理模块,用于获取资讯文本;将资讯文本进行文本清洗和正则筛选,得到过滤文本;
词权重计算模块,用于对过滤文本进行分词计算和文本长短判断,根据判断结果对过滤文本进行分词权重计算和关键词权重计算,得到词权重;
特征词关联匹配模块,用于根据词权重从过滤文本中进行关键词提取,基于深度学习BERT模型对提取到的关键词进行歧义词判断,利用判断结果和预先设置的词库规则进行标签特征词关联匹配,得到初始标签;
标签筛选模块,用于采用权重加和算法对初始标签进行权重加和计算,得到候选标签;根据预先设置的规则对候选标签进行标签筛选,并对筛选后的标签进行权重缩放计算,得到缩放后的标签;
最终标签生成模块,用于基于badcase和先验知识设置规则词库,根据规则词库对缩放后的标签进行互斥标签处理,得到最终标签。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取资讯文本;
将资讯文本进行文本清洗和正则筛选,得到过滤文本;
对过滤文本进行分词计算和文本长短判断,根据判断结果对过滤文本进行分词权重计算和关键词权重计算,得到词权重;
根据词权重从过滤文本中进行关键词提取,基于深度学习BERT模型对提取到的关键词进行歧义词判断,利用判断结果和预先设置的词库规则进行标签特征词关联匹配,得到初始标签;
采用权重加和算法对初始标签进行权重加和计算,得到候选标签;
根据预先设置的规则对候选标签进行标签筛选,并对筛选后的标签进行权重缩放计算,得到缩放后的标签;
基于badcase和先验知识设置规则词库,根据规则词库对缩放后的标签进行互斥标签处理,得到最终标签。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取资讯文本;
将资讯文本进行文本清洗和正则筛选,得到过滤文本;
对过滤文本进行分词计算和文本长短判断,根据判断结果对过滤文本进行分词权重计算和关键词权重计算,得到词权重;
根据词权重从过滤文本中进行关键词提取,基于深度学习BERT模型对提取到的关键词进行歧义词判断,利用判断结果和预先设置的词库规则进行标签特征词关联匹配,得到初始标签;
采用权重加和算法对初始标签进行权重加和计算,得到候选标签;
根据预先设置的规则对候选标签进行标签筛选,并对筛选后的标签进行权重缩放计算,得到缩放后的标签;
基于badcase和先验知识设置规则词库,根据规则词库对缩放后的标签进行互斥标签处理,得到最终标签。
上述一种智能标签生成方法、装置、计算机设备和存储介质,首先将资讯文本进行文本清洗和正则筛选,避免个股、机构标签的错误打出;对过滤文本进行分词计算和文本长短判断,根据判断结果对过滤文本进行分词权重计算和关键词权重计算,得到词权重;根据词权重从过滤文本中进行关键词提取,基于深度学习BERT模型对提取到的关键词进行歧义词判断,利用判断结果和预先设置的词库规则进行标签特征词关联匹配,得到初始标签,采用权重加和算法对初始标签进行权重加和计算,得到候选标签,标签是最终输出结果,代表资讯文本内容主旨的词汇,标签权重的计算由与标签相关的关键词的分数累加得来。由于关键词对标签的累计分数与其数量的多少呈正相关,需要衰减求和来减弱数量对求和的影响,得到更加准确的标签,根据预先设置的规则对候选标签进行标签筛选,并对筛选后的标签进行权重缩放计算,得到缩放后的标签;基于badcase和先验知识设置规则词库,根据规则词库对缩放后的标签进行互斥标签处理,将不应该同时出现的标签通过本申请设置的规则进行规避,得到准确的最终标签。本发明采用的是抽取式的方法,是一种无监督学习方法,解释性更强,计算速度更快,无需训练数据,相较于生成算法或者分类算法等有监督算法,标签的扩充也更加更灵活,无需数据重新训练。抽取式方法提取的是原文中的词汇,部分词汇不具备话题性,为了确保输出的标签具有领域话题性以及专业度,引入了关键词到标签的映射计算,关键词为原文中的词,标签为业务定义的专业词汇;针对数据的处理细节做了多重优化,不同特点文本能够分流处理,适应性更强,提升了系统的鲁棒性;系统开放多个运营入口,可以结合业务需要调整正则或者词库后,可以实现即时生效。
附图说明
图1为一个实施例中一种智能标签生成方法的流程示意图;
图2为一个实施例中一种智能标签生成方法的流程框架图;
图3为一个实施例中一种智能标签生成装置的结构框图;
图4为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
在一个实施例中,如图1所示,提供了一种智能标签生成方法包括以下步骤:
步骤102,获取资讯文本;将资讯文本进行文本清洗和正则筛选,得到过滤文本。
文本清洗包括清除文本中的HTML格式,并且使繁简统一,全角半角符号统一,正则筛选为对于具备命名规律的标题设计正则表,通过标题判断不同类型的资讯,进入不同的处理流程。正则筛选主要为了避免个股、机构标签的错误打出。例如:机构发表观点、机构免责声明等。
步骤104,对过滤文本进行分词计算和文本长短判断,根据判断结果对过滤文本进行分词权重计算和关键词权重计算,得到词权重。
对过滤文本进行分词计算和文本长短判断,根据文本的长短分别进行词权重计算,可以提高计算效率。
步骤106,根据词权重从过滤文本中进行关键词提取,基于深度学习BERT模型对提取到的关键词进行歧义词判断,利用判断结果和预先设置的词库规则进行标签特征词关联匹配,得到初始标签。
根据词权重从过滤文本中提取权重值大于一定阈值的词作为关键词,再利用深度学习BERT模型对提取到的关键词进行歧义词分类判断。因为标签最终展示是区分了维度的,比如个股标签、地域标签、人物标签等。名词消歧,可以确保打出的标签不出错,比如只有提到“老百姓”公司才会打出标签,若判断是通用概念则会被忽略。歧义词表示有歧义的特征词,比如“老百姓”“星期六”,可能是指上市公司也可能是通用概念。作为通用概念时:“咱们老百姓的生活越来越好”。作为公司名称时:“老百姓突破“万店”!上市连锁整合加速!院外品种格局大变!”,若将关键词判断为不是歧义词,则将关键词与预先设置的词库规则进行标签特征词关联匹配,为关键词打上标签,得到资讯文本的初始标签。
步骤108,采用权重加和算法对初始标签进行权重加和计算,得到候选标签;根据预先设置的规则对候选标签进行标签筛选,并对筛选后的标签进行权重缩放计算,得到缩放后的标签。
采用权重加和算法对初始标签进行权重加和计算,得到候选标签,标签是最终输出结果,代表资讯文本内容主旨的词汇,标签权重的计算由与标签相关的关键词的分数累加得来。由于关键词对标签的累计分数与其数量的多少呈正相关,需要衰减求和来减弱数量对求和的影响,得到更加准确的候选标签。对于比喻常使用的词汇进行排除词必备词的处理,判断是否应该作为有效关键词。如“农夫山泉好比水中茅台”。茅台只是比喻并非提及。则需要约束喻体“茅台”,将“好比”作为排除词。排除词:解决文本中一些特殊的词汇与标签同时出现,我们不需要打出该标签的问题。必备词:某些标签必须与特定词汇同时出现才能打出。由于使用的关键词抽取算法及关键词权重加和后,每篇文本的词权重范围跨度都不同,需要有统一的权重值域,用于系统上线后的阈值统一调整。对所有权重值统一进行缩放函数处理,将每个标签最终的累加权重值缩放到(0,1]之间,便于标签管理。
步骤110,基于badcase和先验知识设置规则词库,根据规则词库对缩放后的标签进行互斥标签处理,得到最终标签。
在文本中,为了避免出现歧义,需要进行互斥标签处理,如“美股动态”和“A股动态”就不应该同时出现,基于badcase和先验知识设置规则词库,互斥功能需要在不打出的标签下关联配置。当在标签A中设置了与标签B互斥,那么当一篇新闻同时包含标签A与标签B的特征词,系统会打出且仅打出标签B,不会打出标签A,最后得到最终标签。
上述一种智能标签生成方法中,首先将资讯文本进行文本清洗和正则筛选,避免个股、机构标签的错误打出;对过滤文本进行分词计算和文本长短判断,根据判断结果对过滤文本进行分词权重计算和关键词权重计算,得到词权重;根据词权重从过滤文本中进行关键词提取,基于深度学习BERT模型对提取到的关键词进行歧义词判断,利用判断结果和预先设置的词库规则进行标签特征词关联匹配,得到初始标签,采用权重加和算法对初始标签进行权重加和计算,得到候选标签,标签是最终输出结果,代表资讯文本内容主旨的词汇,标签权重的计算由与标签相关的关键词的分数累加得来。由于关键词对标签的累计分数与其数量的多少呈正相关,需要衰减求和来减弱数量对求和的影响,得到更加准确的标签,根据预先设置的规则对候选标签进行标签筛选,并对筛选后的标签进行权重缩放计算,得到缩放后的标签;基于badcase和先验知识设置规则词库,根据规则词库对缩放后的标签进行互斥标签处理,将不应该同时出现的标签通过本申请设置的规则进行规避,得到准确的最终标签。本发明采用的是抽取式的方法,是一种无监督学习方法,解释性更强,计算速度更快,无需训练数据,相较于生成算法或者分类算法等有监督算法,标签的扩充也更加更灵活,无需数据重新训练。抽取式方法提取的是原文中的词汇,部分词汇不具备话题性,为了确保输出的标签具有领域话题性以及专业度,引入了关键词到标签的映射计算,关键词为原文中的词,标签为业务定义的专业词汇;针对数据的处理细节做了多重优化,不同特点文本能够分流处理,适应性更强,提升了系统的鲁棒性;系统开放多个运营入口,可以结合业务需要调整正则或者词库后,可以实现即时生效。
在其中一个实施例中,对过滤文本进行分词计算和文本长短判断,根据判断结果对过滤文本进行分词权重计算和关键词权重计算,得到词权重,包括:
根据分词工具将过滤文本进行分词,对分词后的过滤文本的长短进行判断,若分词后的过滤文本为短文本,则按照词汇顺序进行权重计算,得到词权重;
若分词后的过滤文本为长文本,则根据textrank算法对分词后的过滤文本中的词进行关键词权重计算,得到词权重。
在其中一个实施例中,基于深度学习BERT模型对提取到的关键词进行歧义词判断,利用判断结果和预先设置的词库规则进行标签特征词关联匹配,得到初始标签,包括:
基于深度学习BERT模型对提取到的关键词进行分类处理,将通用概念的关键词判定为歧义词,若关键词为歧义词,则并利用结合上下文语义对提取到的关键词进行消歧处理,得到消歧后的关键词;
根据预先设置的词库规则对消歧后的关键词进行标签特征词关联匹配,得到初始标签;
若关键词不为歧义词,则根据预先设置的词库规则对关键词进行标签特征词关联匹配,得到初始标签。
在其中一个实施例中,将资讯文本进行文本清洗和正则筛选,得到过滤文本,包括:
将资讯文本中的HTML格式进行清除,繁简统一,全角半角符号统一,得到清洗后的文本;
对清洗后的文本中具备命名规律的标题设计正则表,通过标题判断不同类型的资讯,进入不同的处理流程,得到过滤文本。
在其中一个实施例中,采用权重加和算法对初始标签进行权重加和计算,得到候选标签,包括:
采用权重加和算法对初始标签进行权重加和计算,得到初始标签的权重为weight+=weight*pow(a,b),其中a,b为初始标签对应的不相同的关键词的词权重,pow(a,b)表示衰减系数;
根据初始标签的权重和预先设置的阈值对初始标签进行选取,得到候选标签。
在具体实施例中,预先设置的阈值是根据实际业务需求进行设置,比如要求对召回率,阈值设置低一点,在0.8以下,对精度要求高,就设置高一点,在0.8以上。
在其中一个实施例中,根据预先设置的规则对候选标签进行标签筛选,并对筛选后的标签进行权重缩放计算,得到缩放后的标签,包括:
对比喻常使用的词汇进行排除词和必备词的处理,若文本中候选标签和排除词同时出现时,则删除候选标签;若文本中候选标签和必备词不同时出现时,则删除候选标签;
对所有对筛选后的标签统一进行缩放函数处理,将每个标签最终的累加权重值缩放到(0,1]之间,得到缩放后的标签。
在具体实施例中,排除词用于解决文本中一些特殊的词汇与标签同时出现,我们不需要打出该标签的问题。排除词无法单独存在,需要与特征词搭配使用,与特征词原理相同作用不同,当一段句子中命中了特征词,但是同时也命中了排除词,那么系统将不会打出该标签。需要注意的是必须所出现特征词的句子中都包含排除词,只要其中一句没有排除词,系统依然会正常打出该标签。
必备词用于某些标签必须与特定词汇同时出现才能打出。必备词无法单独存在,需要有特征词搭配使用,与特征词原理相同作用不同,当一段句子中命中了特征词,但是未命中必备词,系统不会打出该标签,必须满足特征词+必备词同时存在的条件才会打出该标签。需要注意的是多个包含特征词的句子中只要有一句出现必备词,即可打出该标签。
在其中一个实施例中,基于badcase和先验知识设置规则词库,根据规则词库对缩放后的标签进行互斥标签处理,得到最终标签,包括:
基于badcase和先验知识设置规则词库,规则词库中规定当在第一标签中设置了与第二标签互斥,则当一篇新闻同时包含第一标签与第二标签的特征词,仅保留第二标签,删除第一标签。
应该理解的是,虽然图1的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图1中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图3所示,提供了一种智能标签生成装置,包括:预处理模块302、词权重计算模块304、特征词关联匹配模块306、标签筛选模块308和最终标签生成模块310,其中:
预处理模块302,用于获取资讯文本;将资讯文本进行文本清洗和正则筛选,得到过滤文本;
词权重计算模块304,用于对过滤文本进行分词计算和文本长短判断,根据判断结果对过滤文本进行分词权重计算和关键词权重计算,得到词权重;
特征词关联匹配模块306,用于根据词权重从过滤文本中进行关键词提取,基于深度学习BERT模型对提取到的关键词进行歧义词判断,利用判断结果和预先设置的词库规则进行标签特征词关联匹配,得到初始标签;
标签筛选模块308,用于采用权重加和算法对初始标签进行权重加和计算,得到候选标签;根据预先设置的规则对候选标签进行标签筛选,并对筛选后的标签进行权重缩放计算,得到缩放后的标签;
最终标签生成模块310,用于基于badcase和先验知识设置规则词库,根据规则词库对缩放后的标签进行互斥标签处理,得到最终标签。
在其中一个实施例中,词权重计算模块304还用于对过滤文本进行分词计算和文本长短判断,根据判断结果对过滤文本进行分词权重计算和关键词权重计算,得到词权重,包括:
根据分词工具将过滤文本进行分词,对分词后的过滤文本的长短进行判断,若分词后的过滤文本为短文本,则按照词汇顺序进行权重计算,得到词权重;
若分词后的过滤文本为长文本,则根据textrank算法对分词后的过滤文本中的词进行关键词权重计算,得到词权重。
在其中一个实施例中,特征词关联匹配模块306还用于基于深度学习BERT模型对提取到的关键词进行歧义词判断,利用判断结果和预先设置的词库规则进行标签特征词关联匹配,得到初始标签,包括:
基于深度学习BERT模型对提取到的关键词进行分类处理,将通用概念的关键词判定为歧义词,若关键词为歧义词,则并利用结合上下文语义对提取到的关键词进行消歧处理,得到消歧后的关键词;
根据预先设置的词库规则对消歧后的关键词进行标签特征词关联匹配,得到初始标签;
若关键词不为歧义词,则根据预先设置的词库规则对关键词进行标签特征词关联匹配,得到初始标签。
在其中一个实施例中,预处理模块302还用于将资讯文本进行文本清洗和正则筛选,得到过滤文本,包括:
将资讯文本中的HTML格式进行清除,繁简统一,全角半角符号统一,得到清洗后的文本;
对清洗后的文本中具备命名规律的标题设计正则表,通过标题判断不同类型的资讯,进入不同的处理流程,得到过滤文本。
在其中一个实施例中,标签筛选模块308还用于采用权重加和算法对初始标签进行权重加和计算,得到候选标签,包括:
采用权重加和算法对初始标签进行权重加和计算,得到初始标签的权重为weight+=weight*pow(a,b),其中a,b为初始标签对应的不相同的关键词的词权重,pow(a,b)表示衰减系数;
根据初始标签的权重和预先设置的阈值对初始标签进行选取,得到候选标签。
在其中一个实施例中,标签筛选模块308还用于根据预先设置的规则对候选标签进行标签筛选,并对筛选后的标签进行权重缩放计算,得到缩放后的标签,包括:
对比喻常使用的词汇进行排除词和必备词的处理,若文本中候选标签和排除词同时出现时,则删除候选标签;若文本中候选标签和必备词不同时出现时,则删除候选标签;
对所有对筛选后的标签统一进行缩放函数处理,将每个标签最终的累加权重值缩放到(0,1]之间,得到缩放后的标签。
在其中一个实施例中,最终标签生成模块310还用于基于badcase和先验知识设置规则词库,根据规则词库对缩放后的标签进行互斥标签处理,得到最终标签,包括:
基于badcase和先验知识设置规则词库,规则词库中规定当在第一标签中设置了与第二标签互斥,则当一篇新闻同时包含第一标签与第二标签的特征词,仅保留第二标签,删除第一标签。
关于一种智能标签生成装置的具体限定可以参见上文中对于一种智能标签生成方法的限定,在此不再赘述。上述一种智能标签生成装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图4所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种智能标签生成方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图4中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,该存储器存储有计算机程序,该处理器执行计算机程序时实现上述实施例中方法的步骤。
在一个实施例中,提供了一种计算机存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述实施例中方法的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种智能标签生成方法,其特征在于,所述方法包括:
获取资讯文本;
将所述资讯文本进行文本清洗和正则筛选,得到过滤文本;
对所述过滤文本进行分词计算和文本长短判断,根据判断结果对所述过滤文本进行分词权重计算和关键词权重计算,得到词权重;
根据所述词权重从所述过滤文本中进行关键词提取,基于深度学习BERT模型对提取到的关键词进行歧义词判断,利用判断结果和预先设置的词库规则进行标签特征词关联匹配,得到初始标签;
采用权重加和算法对初始标签进行权重加和计算,得到候选标签;
根据预先设置的规则对所述候选标签进行标签筛选,并对筛选后的标签进行权重缩放计算,得到缩放后的标签;
基于badcase和先验知识设置规则词库,根据所述规则词库对所述缩放后的标签进行互斥标签处理,得到最终标签。
2.根据权利要求1所述的方法,其特征在于,对所述过滤文本进行分词计算和文本长短判断,根据判断结果对所述过滤文本进行分词权重计算和关键词权重计算,得到词权重,包括:
根据分词工具将所述过滤文本进行分词,对所述分词后的过滤文本的长短进行判断,若分词后的过滤文本为短文本,则按照词汇顺序进行权重计算,得到词权重;
若分词后的过滤文本为长文本,则根据textrank算法对分词后的过滤文本中的词进行关键词权重计算,得到词权重。
3.根据权利要求1所述的方法,其特征在于,基于深度学习BERT模型对提取到的关键词进行歧义词判断,利用判断结果和预先设置的词库规则进行标签特征词关联匹配,得到初始标签,包括:
基于深度学习BERT模型对提取到的关键词进行分类处理,将通用概念的关键词判定为歧义词,若关键词为歧义词,则并利用结合上下文语义对提取到的关键词进行消歧处理,得到消歧后的关键词;
根据预先设置的词库规则对消歧后的关键词进行标签特征词关联匹配,得到初始标签;
若关键词不为歧义词,则根据预先设置的词库规则对关键词进行标签特征词关联匹配,得到初始标签。
4.根据权利要求1至3任意一项所述的方法,其特征在于,将所述资讯文本进行文本清洗和正则筛选,得到过滤文本,包括:
将所述资讯文本中的HTML格式进行清除,繁简统一,全角半角符号统一,得到清洗后的文本;
对所述清洗后的文本中具备命名规律的标题设计正则表,通过标题判断不同类型的资讯,进入不同的处理流程,得到过滤文本。
5.根据权利要求4所述的方法,其特征在于,采用权重加和算法对初始标签进行权重加和计算,得到候选标签,包括:
采用权重加和算法对初始标签进行权重加和计算,得到初始标签的权重为weight+=weight*pow(a,b),其中a,b为初始标签对应的不相同的关键词的词权重,pow(a,b)表示衰减系数;
根据初始标签的权重和预先设置的阈值对初始标签进行选取,得到候选标签。
6.根据权利要求5所述的方法,其特征在于,根据预先设置的规则对所述候选标签进行标签筛选,并对筛选后的标签进行权重缩放计算,得到缩放后的标签,包括:
对比喻常使用的词汇进行排除词和必备词的处理,若文本中所述候选标签和排除词同时出现时,则删除所述候选标签;若文本中所述候选标签和必备词不同时出现时,则删除所述候选标签;
对所有对筛选后的标签统一进行缩放函数处理,将每个标签最终的累加权重值缩放到(0,1]之间,得到缩放后的标签。
7.根据权利要求6所述的方法,其特征在于,基于badcase和先验知识设置规则词库,根据所述规则词库对所述缩放后的标签进行互斥标签处理,得到最终标签,包括:
基于badcase和先验知识设置规则词库,所述规则词库中规定当在第一标签中设置了与第二标签互斥,则当一篇新闻同时包含第一标签与第二标签的特征词,仅保留第二标签,删除第一标签。
8.一种智能标签生成装置,其特征在于,所述装置包括:
预处理模块,用于获取资讯文本;将所述资讯文本进行文本清洗和正则筛选,得到过滤文本;
词权重计算模块,用于对所述过滤文本进行分词计算和文本长短判断,根据判断结果对所述过滤文本进行分词权重计算和关键词权重计算,得到词权重;
特征词关联匹配模块,用于根据所述词权重从所述过滤文本中进行关键词提取,基于深度学习BERT模型对提取到的关键词进行歧义词判断,利用判断结果和预先设置的词库规则进行标签特征词关联匹配,得到初始标签;
标签筛选模块,用于采用权重加和算法对初始标签进行权重加和计算,得到候选标签;根据预先设置的规则对所述候选标签进行标签筛选,并对筛选后的标签进行权重缩放计算,得到缩放后的标签;
最终标签生成模块,用于基于badcase和先验知识设置规则词库,根据所述规则词库对所述缩放后的标签进行互斥标签处理,得到最终标签。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210904526.7A CN115269842A (zh) | 2022-07-29 | 2022-07-29 | 一种智能标签生成方法、装置、计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210904526.7A CN115269842A (zh) | 2022-07-29 | 2022-07-29 | 一种智能标签生成方法、装置、计算机设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115269842A true CN115269842A (zh) | 2022-11-01 |
Family
ID=83771942
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210904526.7A Pending CN115269842A (zh) | 2022-07-29 | 2022-07-29 | 一种智能标签生成方法、装置、计算机设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115269842A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116089614A (zh) * | 2023-01-12 | 2023-05-09 | 杭州瓴羊智能服务有限公司 | 文本打标方法及装置 |
CN116702775A (zh) * | 2023-08-07 | 2023-09-05 | 深圳市智慧城市科技发展集团有限公司 | 文本处理方法、文本处理装置及计算机可读存储介质 |
-
2022
- 2022-07-29 CN CN202210904526.7A patent/CN115269842A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116089614A (zh) * | 2023-01-12 | 2023-05-09 | 杭州瓴羊智能服务有限公司 | 文本打标方法及装置 |
CN116089614B (zh) * | 2023-01-12 | 2023-11-21 | 瓴羊智能科技有限公司 | 文本打标方法及装置 |
CN116702775A (zh) * | 2023-08-07 | 2023-09-05 | 深圳市智慧城市科技发展集团有限公司 | 文本处理方法、文本处理装置及计算机可读存储介质 |
CN116702775B (zh) * | 2023-08-07 | 2023-11-03 | 深圳市智慧城市科技发展集团有限公司 | 文本处理方法、文本处理装置及计算机可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101999152B1 (ko) | 컨벌루션 신경망 기반 영문 텍스트 정형화 방법 | |
CN110765265B (zh) | 信息分类抽取方法、装置、计算机设备和存储介质 | |
CN107808011B (zh) | 信息的分类抽取方法、装置、计算机设备和存储介质 | |
CN106951422B (zh) | 网页训练的方法和装置、搜索意图识别的方法和装置 | |
CN109815333B (zh) | 信息获取方法、装置、计算机设备和存储介质 | |
CN110263325B (zh) | 中文分词系统 | |
CN111966917A (zh) | 一种基于预训练语言模型的事件检测与摘要方法 | |
CN115269842A (zh) | 一种智能标签生成方法、装置、计算机设备和存储介质 | |
CN110502742B (zh) | 一种复杂实体抽取方法、装置、介质及系统 | |
CN111475603A (zh) | 企业标识识别方法、装置、计算机设备及存储介质 | |
CN112966068A (zh) | 基于网页信息的简历识别方法和装置 | |
CN107391565B (zh) | 一种基于主题模型的跨语言层次分类体系匹配方法 | |
CN110298041B (zh) | 垃圾文本过滤方法、装置、电子设备及存储介质 | |
CN111241824B (zh) | 一种用于中文隐喻信息识别的方法 | |
Tamboli et al. | Authorship analysis and identification techniques: A review | |
CN112069307B (zh) | 一种法律法条引用信息抽取系统 | |
CN109271624B (zh) | 一种目标词确定方法、装置及存储介质 | |
CN111651986A (zh) | 事件关键词提取方法、装置、设备及介质 | |
CN112464669A (zh) | 股票实体词消歧方法、计算机设备及存储介质 | |
CN113704436A (zh) | 基于会话场景的用户画像标签挖掘方法及装置 | |
CN110674301A (zh) | 一种情感倾向预测方法、装置、系统及存储介质 | |
CN110929518B (zh) | 一种使用重叠拆分规则的文本序列标注算法 | |
CN112257444A (zh) | 金融信息负面实体发现方法、装置、电子设备及存储介质 | |
CN114266252A (zh) | 命名实体识别方法、装置、设备及存储介质 | |
CN112925907A (zh) | 基于事件图卷积神经网络的微博评论观点对象分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |