CN112988953A - 自适应广播电视新闻关键词标准化方法 - Google Patents

自适应广播电视新闻关键词标准化方法 Download PDF

Info

Publication number
CN112988953A
CN112988953A CN202110451197.0A CN202110451197A CN112988953A CN 112988953 A CN112988953 A CN 112988953A CN 202110451197 A CN202110451197 A CN 202110451197A CN 112988953 A CN112988953 A CN 112988953A
Authority
CN
China
Prior art keywords
words
keyword
word
broadcast television
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110451197.0A
Other languages
English (en)
Other versions
CN112988953B (zh
Inventor
温序铭
朱婷婷
杨瀚
严照宇
陈智
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Sobey Digital Technology Co Ltd
Original Assignee
Chengdu Sobey Digital Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Sobey Digital Technology Co Ltd filed Critical Chengdu Sobey Digital Technology Co Ltd
Priority to CN202110451197.0A priority Critical patent/CN112988953B/zh
Publication of CN112988953A publication Critical patent/CN112988953A/zh
Application granted granted Critical
Publication of CN112988953B publication Critical patent/CN112988953B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了自适应广播电视新闻关键词标准化方法,包括步骤:步骤A,基于基础关键词库标准化候选关键词,对不能被标准化的词则加入白名单,当白名单词增加到设定量后,对白名单内的词进行分析提取代表词返回给用户,用于扩充基础关键词库等;本发明作为利用智能化技术为广播电视新闻进行自动化内容标签标引的方法,在考虑用户实际业务需求的前提下,自适应地进行关键词的标准化和特色词库的扩展,可以更准确地组织和管理媒体资源,提高管理效率等。

Description

自适应广播电视新闻关键词标准化方法
技术领域
本发明涉及广播电视新闻媒资自动标引领域,更为具体的,涉及自适应广播电视新闻关键词标准化方法。
背景技术
融合媒体时代,爆炸式增长的新闻视频数据给媒体资源的再利用带来了巨大的挑战,如何“快”、“省”、“易”地对相关新闻视频进行编目变得十分重要。另一方面,随着计算机运算能力的提升以及相关视觉、NLP算法手段的逐步成熟,通过大数据和人工智能技术来实现自动化的视频内容数据标引从而提高编目质量和标引的实时性已经成为一种趋势。在这种环境下,媒体数据资料的管理从传统人工编目逐步转换到依托智能化管理平台的自动编目。
通过实体识别、人脸识别、景别识别、关键词识别等AI技术,可以实现对媒体内容多个维度的自动分类、标识、标引,从而实现媒体资源本身的内容标签的自动提取。在媒体内容标签中,“关键词”是传统编目的一个重要著录项,与内容密切相关,然而目前AI技术提取的关键词还达不到用户实际业务需求。一方面,这是由于中文用词较为灵活和多样,不同的新闻可以用不同的词表达同一个语义,还有各种缩略词、指代词;另一方面,用户通过多年的人工编目积累了自己的特色词库(更适配于地方特色或习惯的词库)。比如AI技术提取的关键词是“澳港澳”或者“大湾区”,但对于深圳、中国台方用户来说可能更常提及的是“澳港澳大湾区”;再比如AI技术提取的关键词是“新冠病毒”,但实际上用户希望展现出的关键词是“新型冠状病毒”。因此,能够针对不同的用户自适应地进行关键词的标准化具有重要意义。此外,随着新闻视频数据的不断增多,用户原有的特色词库也需要同步进行扩展,才能更好地支撑关键词的标准化。
为了解决上述问题,本发明提出一种自适应广播电视新闻关键词标准化方法。
发明内容
本发明的目的在于克服现有技术的不足,提供自适应广播电视新闻关键词标准化方法,在考虑用户实际业务需求的前提下,自适应地进行关键词的标准化和特色词库的扩展,可以更准确地组织和管理媒体资源,提高管理效率等。
本发明的目的是通过以下方案实现的:
自适应广播电视新闻关键词标准化方法,包括:
步骤A,基于基础关键词库标准化候选关键词,对不能被标准化的词则加入白名单,当白名单词增加到设定量后,对白名单内的词进行分析提取代表词返回给用户,用于扩充基础关键词库。
在该实施方案中,基础关键词库可以是用户侧的特色词库。
进一步地,所述候选关键词按照如下步骤获取:通过基于训练好的关键词抽取模型对输入的广播电视新闻进行预测,获得关键词抽取结果,对抽取结果进行黑名单过滤形成候选关键词。
在该实施方案中,对广播电视新闻进行关键词预测时采用的关键词抽取模型可以为本发明提供的基于深度学习的关键词抽取模型或其他现有的关键词抽取模型。如果采用本发明提供的基于深度学习的关键词抽取模型,则该模型按串联顺序包括文本向量化层、第一关键词预测层,第二关键词序列标注层。文本向量化层主要基于预训练语言模型。这样可以获得传统的依赖分词的模型无法获得的词汇,如十二五计划、精准扶贫、新型冠状病毒、澳港澳大湾区等。如果采用发明提供的基于深度学习的关键词抽取模型,获取关键词结果进一步包括如下步骤:
(1)、标注待分析的广播电视新闻数据的关键词信息,构建关键词数据集;
(2)、利用预训练模型构建关键词抽取模型,并利用(1)所述广播电视新闻关键词数据集训练所构建的关键词抽取模型;
(3)、利用(2)中训练好的关键词抽取模型对输入的广播电视新闻进行预测,获得关键词抽取结果。
进一步地,在进行黑名单过滤前,对提取到的关键词进行如下处理:去除冗余、标点分割和通顺分析处理。黑名单一般是用户提供的词库,涉及敏感词等,这样处理后可以使得最终获得的候选关键词相对有意义。
进一步地,所述基于基础关键词库标准化候选关键词,包括:
步骤A1,获取多个新闻文本语料,构建用于训练FastText词向量模型的学习样本;在该实施方案中,可以利用爬虫等工具获取多个新闻文本语料;在该实施方案中,考虑到FastText词向量模型使用了字符级别的n-grams来表示词,这种处理技巧使得它对于低频词生成的词向量效果会更好;与此同时也使得它可以对任何词编码(包括未出现在词库中的词);另一方面,广播电视新闻中的关键词也存在这样的特点(部分关键词词频较低,此外关键词也不完全是词,可能是词、短语或多字),因此采用FastText词向量模型进行词向量化更适用于本发明的场景;
步骤A2,基于步骤A1所构建的学习样本进行FastText词向量模型的训练,获得词向量模型;在该实施方案中,评测时发现,在学习样本量为1200万时FastText词向量模型训练时长约为1.5小时,这样的训练时间成本是在可接受范围内的。这样的时间消耗也可以让本发明不断积累数据,定期进行重新训练,能够提升算法精度。
步骤A3,利用步骤A2中训练好的FastText词向量模型,以及结合近似最近邻方法Hnswlib构建候选关键词标准化模型,利用所述候选关键词模型标准化模型获取输入候选关键词在基础关键词库中的前K个相似词及相互之间的距离;在距离小于设定阈值的相似词中选择距离与候选关键词最近的作为其标准化结果返回给用户;在该实施方案中,能够针对不同的用户自适应地进行关键词的标准化。比如关键词抽取结果都是澳港澳,但依托不同台方的基础关键词库,标注化后的结果可能是澳港澳大湾区(针对深圳台),或者澳港澳(针对其他台),这样的结果更符合各方的用词习惯,同时也利于以后的内容检索;
步骤A4,将利用候选关键词标准化模型召回的相似词距离都大于阈值的候选关键词加入白名单,供后续基础关键词库扩充准备。在该实施方案中,考虑到虽然用户通过多年的编目积累了自己的基础关键词库(特色词库),但是随着新闻视频数据的不断增多,用户原有的基础关键词库覆盖面相对减小。所以需要积累一定的候选词,对用户基础关键词库进行同步扩展,才能更好地支撑关键词的标准化。
进一步地,所述对白名单内的词进行分析提取代表词返回给用户,用于扩充基础关键词库,包括:
步骤B1,利用步骤A1中训练好的FastText词向量模型获取白名单中所有词的词向 量,基于词向量对白名单内的词进行聚类分析,获得词簇
Figure 869913DEST_PATH_IMAGE001
,这 里
Figure 565337DEST_PATH_IMAGE002
,K为聚类数,
Figure 603700DEST_PATH_IMAGE003
表示词簇
Figure 144403DEST_PATH_IMAGE004
中的词总量;
步骤B2,对每个词簇
Figure 381349DEST_PATH_IMAGE004
进行分析,获得代表词
Figure 185357DEST_PATH_IMAGE005
,用于扩充基础关键 词库。
进一步地,在步骤B2中,对每个词簇
Figure 507754DEST_PATH_IMAGE004
进行分析包括如下步骤:先利用每个词簇 内的词
Figure 789830DEST_PATH_IMAGE006
构建Hnswlib索引,然后计算每个词簇的候选中心词词向量
Figure 881283DEST_PATH_IMAGE007
,最后在
Figure 121772DEST_PATH_IMAGE006
中检索与
Figure 665886DEST_PATH_IMAGE008
最近的词
Figure 17232DEST_PATH_IMAGE009
作为代表词返回给用户,由用户判定是否将其加入基础关键词库; 其中,
Figure 963192DEST_PATH_IMAGE010
表示对词向量的加和平均;这样通过自动化的处理提取代表词作为扩展用 户基础关键词库的候选词,然后依托用户的专业经验对候选词进行判定是否最终用于扩 展,在保证了扩展结果的正确性的同时在一定程度上减轻了人工工作量。
本发明的有益效果包括:
本发明基于对广播电视新闻内容进行关键词提取,同时结合用户侧的基础关键词库对提取结果进行标准化,获得的展示结果更加适配用户特定需求;此外,不定期对提取的关键词进行分析,还可提取代表词给用户进而进行基础关键词库的扩展。在融合媒体时代,本发明作为利用智能化技术为广播电视新闻进行自动化内容标签标引的方法,在考虑用户实际业务需求的前提下,自适应地进行关键词的标准化和特色词库的扩展,可以更准确地组织和管理媒体资源,提高管理效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例的自适应广播电视新闻关键词标准化方法的流程框架示意图。
具体实施方式
本说明书中所有实施例公开的所有特征,或隐含公开的所有方法或过程中的步骤,除了互相排斥的特征和/或步骤以外,均可以以任何方式组合和/或扩展、替换。
实施例1
如图1所示,自适应广播电视新闻关键词标准化方法,
自适应广播电视新闻关键词标准化方法,包括:
步骤A,基于基础关键词库标准化候选关键词,对不能被标准化的词则加入白名单,当白名单词增加到设定量后,对白名单内的词进行分析提取代表词返回给用户,用于扩充基础关键词库。
在该实施方案中,基础关键词库可以是用户侧的特色词库。
实施例2
在实施例1的基础上,候选关键词按照如下步骤获取:通过基于训练好的关键词抽取模型对输入的广播电视新闻进行预测,获得关键词抽取结果,对抽取结果进行黑名单过滤形成候选关键词。
在该实施方案中,对广播电视新闻进行关键词预测时采用的关键词抽取模型可以为本发明提供的基于深度学习的关键词抽取模型或其他现有的关键词抽取模型。如果采用本发明提供的基于深度学习的关键词抽取模型,则该模型按串联顺序包括文本向量化层、第一关键词预测层,第二关键词序列标注层。文本向量化层主要基于预训练语言模型,这样可以获得传统的依赖分词的模型无法获得的词汇,如十二五计划、精准扶贫、新型冠状病毒、澳港澳大湾区等。如果采用发明提供的基于深度学习的关键词抽取模型,获取关键词结果进一步包括如下步骤:
(1)、标注待分析的广播电视新闻数据的关键词信息,构建关键词数据集;
(2)、利用预训练模型构建关键词抽取模型,并利用(1)广播电视新闻关键词数据集训练所构建的关键词抽取模型;
(3)、利用(2)中训练好的关键词抽取模型对输入的广播电视新闻进行预测,获得关键词抽取结果。
在进行黑名单过滤前,对提取到的关键词进行如下处理:去除冗余、标点分割和通顺分析处理。黑名单一般是用户提供的词库,涉及敏感词等,这样处理后可以使得最终获得的候选关键词相对有意义。
实施例3
在实施例1的基础上,基于基础关键词库标准化候选关键词,包括:
步骤A1,获取多个新闻文本语料,构建用于训练FastText词向量模型的学习样本;在该实施方案中,可以利用爬虫等工具获取多个新闻文本语料;在该实施方案中,考虑到FastText词向量模型使用了字符级别的n-grams来表示词,这种处理技巧使得它对于低频词生成的词向量效果会更好;与此同时也使得它可以对任何词编码(包括未出现在词库中的词);另一方面,广播电视新闻中的关键词也存在这样的特点(部分关键词词频较低,此外关键词也不完全是词,可能是词、短语或多字),因此采用FastText词向量模型进行词向量化更适用于本发明的场景;
步骤A2,基于步骤A1所构建的学习样本进行FastText词向量模型的训练,获得词向量模型;在该实施方案中,评测时发现,在学习样本量为1200万时FastText词向量模型训练时长约为1.5小时,这样的训练时间成本是在可接受范围内的。这样的时间消耗也可以让本发明不断积累数据,定期进行重新训练,能够提升算法精度。
步骤A3,利用步骤A2中训练好的FastText词向量模型,以及结合近似最近邻方法Hnswlib构建候选关键词标准化模型,利用候选关键词模型标准化模型获取输入候选关键词在基础关键词库中的前K个相似词及相互之间的距离;在距离小于设定阈值的相似词中选择距离与候选关键词最近的作为其标准化结果返回给用户;在该实施方案中,能够针对不同的用户自适应地进行关键词的标准化。比如关键词抽取结果都是澳港澳,但依托不同台方的基础关键词库,标注化后的结果可能是澳港澳大湾区(针对深圳台),或者澳港澳(针对其他台),这样的结果更符合各方的用词习惯,同时也利于以后的内容检索;
步骤A4,将利用候选关键词标准化模型召回的相似词距离都大于阈值的候选关键词加入白名单,供后续基础关键词库扩充准备。在该实施方案中,考虑到虽然用户通过多年的编目积累了自己的基础关键词库(特色词库),但是随着新闻视频数据的不断增多,用户原有的基础关键词库覆盖面相对减小。所以需要积累一定的候选词,对用户基础关键词库进行同步扩展,才能更好地支撑关键词的标准化。
对白名单内的词进行分析提取代表词返回给用户,用于扩充基础关键词库,包括:
步骤B1,利用步骤A1中训练好的FastText词向量模型获取白名单中所有词的词向 量,基于词向量对白名单内的词进行聚类分析,获得词簇
Figure 374581DEST_PATH_IMAGE001
,这 里
Figure 78095DEST_PATH_IMAGE002
,K为聚类数,
Figure 92188DEST_PATH_IMAGE003
表示词簇
Figure 33599DEST_PATH_IMAGE004
中的词总量;
步骤B2,对每个词簇
Figure 474944DEST_PATH_IMAGE004
进行分析,获得代表词
Figure 869017DEST_PATH_IMAGE005
,用于扩充基础关键 词库。
在步骤B2中,对每个词簇
Figure 686800DEST_PATH_IMAGE004
进行分析包括如下步骤:先利用每个词簇内的词
Figure 217138DEST_PATH_IMAGE006
构建Hnswlib索引,然后计算每个词簇的候选中心词词向量
Figure 94965DEST_PATH_IMAGE007
,最后在
Figure 976333DEST_PATH_IMAGE006
中检索与
Figure 269911DEST_PATH_IMAGE008
最近的词
Figure 44969DEST_PATH_IMAGE009
作为代表词返回给用户,由用户判定是否将其加入基础关键词库; 其中,
Figure 703483DEST_PATH_IMAGE010
表示对词向量的加和平均;这样通过自动化的处理提取代表词作为扩展用 户基础关键词库的候选词,然后依托用户的专业经验对候选词进行判定是否最终用于扩 展,在保证了扩展结果的正确性的同时在一定程度上减轻了人工工作量。
除以上实例以外,本领域技术人员根据上述公开内容获得启示或利用相关领域的知识或技术进行改动获得其他实施例,各个实施例的特征可以互换或替换,本领域人员所进行的改动和变化不脱离本发明的精神和范围,则都应在本发明所附权利要求的保护范围内。
本发明功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,在一台计算机设备(可以是个人计算机,服务器,或者网络设备等)以及相应的软件中执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、或者光盘等各种可以存储程序代码的介质,进行测试或者实际的数据在程序实现中存在于只读存储器(Random Access Memory,RAM)、随机存取存储器(Random Access Memory,RAM)等。

Claims (6)

1.自适应广播电视新闻关键词标准化方法,其特征在于,包括:
步骤A,基于基础关键词库标准化候选关键词,对不能被标准化的词则加入白名单,当白名单词增加到设定量后,对白名单内的词进行分析提取代表词返回给用户,用于扩充基础关键词库。
2.根据权利要求1所述的自适应广播电视新闻关键词标准化方法,其特征在于,所述候选关键词按照如下步骤获取:通过基于训练好的关键词抽取模型对输入的广播电视新闻进行预测,获得关键词抽取结果,对抽取结果进行黑名单过滤形成候选关键词。
3.根据权利要求2所述的自适应广播电视新闻关键词标准化方法,其特征在于,在进行黑名单过滤前,对提取到的关键词进行如下处理:去除冗余、标点分割和通顺分析处理。
4.根据权利要求1所述的自适应广播电视新闻关键词标准化方法,其特征在于,所述基于基础关键词库标准化候选关键词,包括:
步骤A1,获取多个新闻文本语料,构建用于训练FastText词向量模型的学习样本;
步骤A2,基于步骤A1所构建的学习样本进行FastText词向量模型的训练,获得词向量模型;
步骤A3,利用步骤A2中训练好的FastText词向量模型,以及结合近似最近邻方法Hnswlib构建候选关键词标准化模型,利用所述候选关键词模型标准化模型获取输入候选关键词在基础关键词库中的前K个相似词及相互之间的距离;在距离小于设定阈值的相似词中选择距离与候选关键词最近的作为其标准化结果返回给用户;
步骤A4,将利用候选关键词标准化模型召回的相似词距离都大于阈值的候选关键词加入白名单,供后续基础关键词库扩充准备。
5.根据权利要求1所述的自适应广播电视新闻关键词标准化方法,其特征在于,所述对白名单内的词进行分析提取代表词返回给用户,用于扩充基础关键词库,包括:
步骤B1,利用步骤A1中训练好的FastText词向量模型获取白名单中所有词的词向量, 基于词向量对白名单内的词进行聚类分析,获得词簇
Figure 335766DEST_PATH_IMAGE001
,这里
Figure 813758DEST_PATH_IMAGE002
,K为聚类数,
Figure 921392DEST_PATH_IMAGE003
表示词簇
Figure 847759DEST_PATH_IMAGE004
中的词总量;
步骤B2,对每个词簇
Figure 458869DEST_PATH_IMAGE004
进行分析,获得代表词
Figure 110693DEST_PATH_IMAGE005
,用于扩充基础关键词库。
6.根据权利要求5所述的自适应广播电视新闻关键词标准化方法,其特征在于,在步骤 B2中,对每个词簇
Figure 908885DEST_PATH_IMAGE004
进行分析包括如下步骤:先利用每个词簇内的词构建Hnswlib索引,然 后计算每个词簇的候选中心词词向量
Figure 373364DEST_PATH_IMAGE006
,最后 在
Figure 104560DEST_PATH_IMAGE007
中检索与
Figure 425820DEST_PATH_IMAGE008
最近的词
Figure 445728DEST_PATH_IMAGE009
作为代表词返回给用户,由用户判 定是否将其加入基础关键词库;其中,
Figure 743592DEST_PATH_IMAGE010
表示取词向量的加和平均。
CN202110451197.0A 2021-04-26 2021-04-26 自适应广播电视新闻关键词标准化方法 Active CN112988953B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110451197.0A CN112988953B (zh) 2021-04-26 2021-04-26 自适应广播电视新闻关键词标准化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110451197.0A CN112988953B (zh) 2021-04-26 2021-04-26 自适应广播电视新闻关键词标准化方法

Publications (2)

Publication Number Publication Date
CN112988953A true CN112988953A (zh) 2021-06-18
CN112988953B CN112988953B (zh) 2021-09-03

Family

ID=76341659

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110451197.0A Active CN112988953B (zh) 2021-04-26 2021-04-26 自适应广播电视新闻关键词标准化方法

Country Status (1)

Country Link
CN (1) CN112988953B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114443850A (zh) * 2022-04-06 2022-05-06 杭州费尔斯通科技有限公司 基于语义相似模型的标签生成方法、系统、装置和介质

Citations (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104933183A (zh) * 2015-07-03 2015-09-23 重庆邮电大学 一种融合词向量模型和朴素贝叶斯的查询词改写方法
CN105760439A (zh) * 2016-02-02 2016-07-13 西安交通大学 一种基于特定行为共现网络的人物共现关系图谱构建方法
CN106354708A (zh) * 2015-07-13 2017-01-25 中国电力科学研究院 一种基于用电信息采集系统的客户互动信息搜索引擎系统
CN106874643A (zh) * 2016-12-27 2017-06-20 中国科学院自动化研究所 基于词向量自动构建知识库实现辅助诊疗的方法和系统
CN109949938A (zh) * 2017-12-20 2019-06-28 北京亚信数据有限公司 用于将医疗非标准名称标准化的方法及装置
CN110069631A (zh) * 2019-04-08 2019-07-30 腾讯科技(深圳)有限公司 一种文本处理方法、装置以及相关设备
CN110287329A (zh) * 2019-07-04 2019-09-27 刘凡 一种基于商品文本分类的电商类目属性挖掘方法
CN110442861A (zh) * 2019-07-08 2019-11-12 万达信息股份有限公司 一种基于真实世界统计的中文专业术语与新词发现的方法
CN110826328A (zh) * 2019-11-06 2020-02-21 腾讯科技(深圳)有限公司 关键词提取方法、装置、存储介质和计算机设备
CN110888973A (zh) * 2019-11-18 2020-03-17 云南电网有限责任公司普洱供电局 一种监控信息表自动结构化梳理的方法
CN110928981A (zh) * 2019-11-18 2020-03-27 佰聆数据股份有限公司 一种文本标签体系搭建及完善迭代的方法、系统及存储介质
CN111160017A (zh) * 2019-12-12 2020-05-15 北京文思海辉金信软件有限公司 关键词抽取方法、话术评分方法以及话术推荐方法
CN111191446A (zh) * 2019-12-10 2020-05-22 平安医疗健康管理股份有限公司 交互信息处理方法、装置、计算机设备和存储介质
CN111400493A (zh) * 2020-03-06 2020-07-10 中国平安人寿保险股份有限公司 基于槽位相似度的文本匹配方法、装置、设备及存储介质
CN111414748A (zh) * 2020-03-17 2020-07-14 集奥聚合(北京)人工智能科技有限公司 话务数据处理方法及装置
CN111475629A (zh) * 2020-03-31 2020-07-31 渤海大学 一种面向数学辅导问答系统的知识图谱构建方法及其系统
CN111680155A (zh) * 2020-05-13 2020-09-18 新华网股份有限公司 文本分类方法、装置、电子设备及计算机存储介质
CN111708869A (zh) * 2020-05-12 2020-09-25 北京明略软件系统有限公司 人机对话的处理方法及装置
CN112100343A (zh) * 2020-08-17 2020-12-18 深圳数联天下智能科技有限公司 一种扩充知识图谱的方法、电子设备及存储介质
CN112115331A (zh) * 2020-09-21 2020-12-22 朱彤 基于分布式网络爬虫与nlp的资本市场舆情监测方法
CN112131390A (zh) * 2020-11-24 2020-12-25 江苏电力信息技术有限公司 一种基于深度学习的电力预警信息自动分类方法
CN112256860A (zh) * 2020-11-25 2021-01-22 携程计算机技术(上海)有限公司 客服对话内容的语义检索方法、系统、设备及存储介质
CN112256765A (zh) * 2020-10-29 2021-01-22 浙江大华技术股份有限公司 一种数据挖掘方法、系统及计算机可读存储介质
CN112489769A (zh) * 2019-08-22 2021-03-12 浙江远图互联科技股份有限公司 基于深度神经网络的慢性病智慧中医诊断与药物推荐系统

Patent Citations (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104933183A (zh) * 2015-07-03 2015-09-23 重庆邮电大学 一种融合词向量模型和朴素贝叶斯的查询词改写方法
CN106354708A (zh) * 2015-07-13 2017-01-25 中国电力科学研究院 一种基于用电信息采集系统的客户互动信息搜索引擎系统
CN105760439A (zh) * 2016-02-02 2016-07-13 西安交通大学 一种基于特定行为共现网络的人物共现关系图谱构建方法
CN106874643A (zh) * 2016-12-27 2017-06-20 中国科学院自动化研究所 基于词向量自动构建知识库实现辅助诊疗的方法和系统
CN109949938A (zh) * 2017-12-20 2019-06-28 北京亚信数据有限公司 用于将医疗非标准名称标准化的方法及装置
CN110069631A (zh) * 2019-04-08 2019-07-30 腾讯科技(深圳)有限公司 一种文本处理方法、装置以及相关设备
CN110287329A (zh) * 2019-07-04 2019-09-27 刘凡 一种基于商品文本分类的电商类目属性挖掘方法
CN110442861A (zh) * 2019-07-08 2019-11-12 万达信息股份有限公司 一种基于真实世界统计的中文专业术语与新词发现的方法
CN112489769A (zh) * 2019-08-22 2021-03-12 浙江远图互联科技股份有限公司 基于深度神经网络的慢性病智慧中医诊断与药物推荐系统
CN110826328A (zh) * 2019-11-06 2020-02-21 腾讯科技(深圳)有限公司 关键词提取方法、装置、存储介质和计算机设备
CN110888973A (zh) * 2019-11-18 2020-03-17 云南电网有限责任公司普洱供电局 一种监控信息表自动结构化梳理的方法
CN110928981A (zh) * 2019-11-18 2020-03-27 佰聆数据股份有限公司 一种文本标签体系搭建及完善迭代的方法、系统及存储介质
CN111191446A (zh) * 2019-12-10 2020-05-22 平安医疗健康管理股份有限公司 交互信息处理方法、装置、计算机设备和存储介质
CN111160017A (zh) * 2019-12-12 2020-05-15 北京文思海辉金信软件有限公司 关键词抽取方法、话术评分方法以及话术推荐方法
CN111400493A (zh) * 2020-03-06 2020-07-10 中国平安人寿保险股份有限公司 基于槽位相似度的文本匹配方法、装置、设备及存储介质
CN111414748A (zh) * 2020-03-17 2020-07-14 集奥聚合(北京)人工智能科技有限公司 话务数据处理方法及装置
CN111475629A (zh) * 2020-03-31 2020-07-31 渤海大学 一种面向数学辅导问答系统的知识图谱构建方法及其系统
CN111708869A (zh) * 2020-05-12 2020-09-25 北京明略软件系统有限公司 人机对话的处理方法及装置
CN111680155A (zh) * 2020-05-13 2020-09-18 新华网股份有限公司 文本分类方法、装置、电子设备及计算机存储介质
CN112100343A (zh) * 2020-08-17 2020-12-18 深圳数联天下智能科技有限公司 一种扩充知识图谱的方法、电子设备及存储介质
CN112115331A (zh) * 2020-09-21 2020-12-22 朱彤 基于分布式网络爬虫与nlp的资本市场舆情监测方法
CN112256765A (zh) * 2020-10-29 2021-01-22 浙江大华技术股份有限公司 一种数据挖掘方法、系统及计算机可读存储介质
CN112131390A (zh) * 2020-11-24 2020-12-25 江苏电力信息技术有限公司 一种基于深度学习的电力预警信息自动分类方法
CN112256860A (zh) * 2020-11-25 2021-01-22 携程计算机技术(上海)有限公司 客服对话内容的语义检索方法、系统、设备及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
赵增等: "基于邻居聚类的近似最近邻搜索", 《智能计算机与应用》 *
马文等: "电网行业数据安全词库的构建研究", 《第三届智能电网会议论文集——智能用电》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114443850A (zh) * 2022-04-06 2022-05-06 杭州费尔斯通科技有限公司 基于语义相似模型的标签生成方法、系统、装置和介质

Also Published As

Publication number Publication date
CN112988953B (zh) 2021-09-03

Similar Documents

Publication Publication Date Title
KR102455616B1 (ko) 멀티 모달리티를 기반으로 하는 주제 분류 방법, 장치, 기기 및 저장 매체
CN106897428B (zh) 文本分类特征提取方法、文本分类方法及装置
WO2021121198A1 (zh) 基于语义相似度的实体关系抽取方法、装置、设备及介质
CN110619051B (zh) 问题语句分类方法、装置、电子设备及存储介质
CN110909165A (zh) 数据处理方法、装置、介质及电子设备
CN109086265B (zh) 一种语义训练方法、短文本中多语义词消歧方法
CN103299651B (zh) 节目推荐装置和节目推荐方法
CN113961685A (zh) 信息抽取方法及装置
CN112861540A (zh) 基于深度学习的广播电视新闻关键词自动抽取方法
CN110928981A (zh) 一种文本标签体系搭建及完善迭代的方法、系统及存储介质
CN112527977B (zh) 概念抽取方法、装置、电子设备及存储介质
CN113095080A (zh) 基于主题的语义识别方法、装置、电子设备和存储介质
CN112131876A (zh) 一种基于相似度确定标准问题的方法及系统
CN112015928A (zh) 多媒体资源的信息提取方法、装置、电子设备及存储介质
US11886515B2 (en) Hierarchical clustering on graphs for taxonomy extraction and applications thereof
CN112988953B (zh) 自适应广播电视新闻关键词标准化方法
CN111708942A (zh) 多媒体资源推送方法、装置、服务器及存储介质
CN110309355B (zh) 内容标签的生成方法、装置、设备及存储介质
CN110674243A (zh) 一种基于动态k-均值算法的语料库索引构建方法
CN112925912A (zh) 文本处理方法、同义文本召回方法及装置
CN116933782A (zh) 一种电商文本关键词提取处理方法及系统
CN115129902A (zh) 媒体数据处理方法、装置、设备及存储介质
CN114996442A (zh) 一种联合抽象程度判别和摘要优化的文本摘要生成系统
CN112784046A (zh) 文本聚簇的方法、装置、设备及存储介质
CN112308453A (zh) 风险识别模型训练方法、用户风险识别方法及相关装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant