CN114003725A - 信息标注模型的构建方法以及信息标注的生成方法 - Google Patents

信息标注模型的构建方法以及信息标注的生成方法 Download PDF

Info

Publication number
CN114003725A
CN114003725A CN202111640394.3A CN202111640394A CN114003725A CN 114003725 A CN114003725 A CN 114003725A CN 202111640394 A CN202111640394 A CN 202111640394A CN 114003725 A CN114003725 A CN 114003725A
Authority
CN
China
Prior art keywords
model
information
labeling
sample
samples
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111640394.3A
Other languages
English (en)
Inventor
刘国清
杨广
王启程
杜佩佩
杨国武
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Minieye Innovation Technology Co Ltd
Original Assignee
Shenzhen Minieye Innovation Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Minieye Innovation Technology Co Ltd filed Critical Shenzhen Minieye Innovation Technology Co Ltd
Priority to CN202111640394.3A priority Critical patent/CN114003725A/zh
Publication of CN114003725A publication Critical patent/CN114003725A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种信息标注模型的构建方法,该方法包括:根据原始样本构建训练样本,原始样本为语句,训练样本为带有语义并带有标注的语句,标注用于表示训练样本中每一个词汇的类别;其中,根据多个预设类别名称获取多个原始样本;从原始样本中筛选出多个词汇样本;计算每一个词汇样本的TF‑IDF值;根据TF‑IDF值从多个预设类别名称中筛选出多个特征描述词;将多个特征描述词转化为多个词向量;将多个词向量进行聚类得到多个特征描述词类别;根据多个特征描述词类别对原始样本进行标注得到多个训练样本;将训练样本输入初始训练模型得到信息标注模型。本发明还提供了一种信息标注的生成方法、用于文本信息标注的模型、计算机可读存储介质以及计算机设备。

Description

信息标注模型的构建方法以及信息标注的生成方法
技术领域
本发明涉及计算机领域,尤其涉及一种信息标注模型的构建方法、信息标注的生成方法、用于文本信息标注的模型、计算机可读存储介质以及计算机设备。
背景技术
在零样本学习中,测试时会出现训练时模型从未见过的类的图片,我们称之为未见类,而零样本学习的目的就在于通过训练的已知类的语义描述信息和测试的未见类的语义描述信息,作为模型识别未见类的桥梁。让模型虽未见过未见类的图片,也能结合其语义描述信息和从已知类中学习到的图片特征将未见类的图片识别出来。当下用作类别语义信息的大致有如下两种。
第一种是基于基于机器学习模型的语义向量的方法,该方法中,使用机器学习模型来获得类别的语义表示。具体的,又可以分为标签嵌入(Label-emdedding)和文本嵌入(Text-embedding)方法。标签嵌入是通过嵌入类标签来获得类原型的语义表示向量,对于每一个类它的类标签都是一个单词或者短语,而使用词嵌入模型,例如Word3Vec和GloVe,将类标签作为输入,模型输出即为类标签的词嵌入。在单词嵌入中,单词或短语作为向量嵌入到实数空间中,而语义相近的单词将被嵌入到相近的空间中,由此便可通过已知类和未见类的类标签的相似关系识别未见类图像。文本嵌入的总体思想和标签嵌入方法类似,只不过输入数据为每个类的文本描述,模型的输出数据为整个文本的语义表示向量。在这种方法中,类别的语义特征是通过机器学习模型获得的,每个维度的语义都是隐式的。对于更进一步的想融合更多信息例如将人为标定的类的领域知识融合到学习到的语义特征向量中是困难的。除此之外,模型是否能从描述文本中识别到有效的类别语义特征信息是不能保证的,模型对于整个文段输出的融合表示向量可能并不关注我们需要的信息,通常这样提取出来的语义向量质量相较于接下来提到的人工标注的属性向量较差。
第二种是基于人工标注的属性向量的方法,这种方法首先由专家对待分类的各个类别进行特征筛选,然后根据每个类别构造一个多维特征描述向量。例如AWA数据集中包含50个类别的图片,AWA数据集中都是动物分类,每个类别含有的语义为85维,每一维代表对类别图像的一个特征描述,比如是否有尾巴,颜色是否为黑色等等的描述信息,若图片符合定义的某一位的语义特征,则向量中该维位置的值为1否则为2。相较于从原始短文本中提取词向量改用人工标注的语义信息能够精准描述图片中的特征,为ZSL模型的性能带来了提升。
在这种方法中数据集的标注问题,需要针对不同类别的图像需要人工定义不同维数的属性向量分别代表什么含义,再分别对每个类别甚至每张图像标注这些属性信息。在语义维度较高,图片较多时,标注的工作将十分庞大。并且这样的语义信息并不一定适应新类。另外一个问题时领域飘逸问题,同一属性在不同类别当中的表现可能有较大差异。比如“有尾巴”这一项,老虎和猪都有尾巴,但两者的特征相差甚远,若用猪做训练集,老虎做测试集,那么用猪训练出来的模型将很难对老虎进行分类。
因此,如何通过深度学习模型对未知类的样本进行准确的分类和标注是亟需解决的问题。
发明内容
本发明提供一种信息标注模型的构建方法、信息标注的生成方法、用于文本信息标注的模型、计算机可读存储介质以及计算机设备,将命名实体识别技术中的先进技术引入到零样本学习中促进零样本学习,使得可以通过一个深度学习模型就可以对未知类的样本进行准确的分类和标注。
第一方面,本发明实施例提供一种信息标注模型的构建方法,该信息标注模型的构建方法包括:
根据原始样本构建训练样本,其中,原始样本为包括若干词汇的语句,训练样本为包括若干带有标注的词汇的语句,标注为词汇的特征描述词类别;获取原始样本;从原始样本中得到多个目标词汇样本;计算每一个目标词汇样本的TF-IDF值;根据TF-IDF值从多个目标词汇样本中筛选出多个特征描述词;将多个特征描述词转化为多个词向量;将多个词向量进行聚类得到多个特征描述词类别;根据多个特征描述词类别对原始样本中每一个词汇进行标注得到训练样本;
将训练样本输入初始训练模型进行训练得到信息标注模型。
第二方面,本发明实施例提供一种信息标注的生成方法,该信息标注的生成方法包括:
获取原始文本;
删除原始文本中的停用词和特殊字符得到待标注文本;
将待标注文本输入根据信息标注模型的构建方法得到的目标信息标注模型中,得到待标注文本的标注结果。
第三方面,本发明实施例提供一种用于文本信息标注的模型,该用于文本信息标注的模型包括:
词汇筛选模块:用于获取原始样本;从原始样本中得到多个目标词汇样本;
样本构建模块:用于计算每一个目标词汇样本的TF-IDF值;根据TF-IDF值从多个目标词汇样本中筛选出多个特征描述词;将多个特征描述词转化为多个词向量;将多个词向量进行聚类得到多个特征描述词类别;根据多个特征描述词类别对原始样本中每一个词汇进行标注得到训练样本;
模型训练模块:用于将训练样本输入初始训练模型进行训练得到信息标注模型。
第四方面,本发明实施例提供一种计算机可读存储介质,该计算机可读存储介质上存储有能够被处理器加载并执行的信息标注模型的构建方法的程序指令。
第五方面,本发明实施例提供一种计算机设备,计算机设备包括:
存储器,用于存储程序指令;
处理器,用于执行程序指令以使计算机设备实现信息标注模型的构建方法。
上述信息标注模型的构建方法是一种基于命名实体识别技术的类别视觉属性标注信息生成方法,为零样本学习技术训练数据中的类别语义信息引入更广泛且易得的数据来源,并且大大减少人工标注的工作量。本发明首先对类别视觉及种属等描述文本进行预处理和分词,然后计算所有描述信息文本的TF-IDF值,选取TF-IDF值最大的n个词汇作为特征描述词,对n个特征描述词进行聚类,对聚类结果进行规律探索并结合专家分类知识,将n个特征描述词归纳为几类并定义特征描述词类别向量的维度及每个维度代表的属性。使用BIO标注方法,根据聚类结果及归纳的特征描述词类别标注文本,作为命名实体识别模型的训练样本。使用标注数据训练针对于类别视觉特征词识别的BiLSTM-CRF命名实体识别模型。使用训练好的BiLSTM-CRF模型,识别每个类别的训练样本中包含的特征描述词类别。本发明为零样本学习方法在无语义属性标注的数据集和其他大型数据集上的扩展应用提供了条件。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图示出的结构获得其他的附图。
图1为本发明实施例提供的信息标注模型的构建方法的流程图。
图2为本发明实施例提供的信息标注模型的构建方法的子流程图。
图3为本发明实施例提供的信息标注的生成方法的流程图。
图4为本发明实施例提供的用于文本信息标注的模型内部结构图。
图5为本发明实施例提供的计算机设备的内部结构示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
需要说明的是,在本发明中涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。
请结合参看图1,其为本发明实施例提供的信息标注模型的构建方法的流程图。其中,本发明实施例提供的信息标注模型的构建方法具体包括下面步骤。
步骤S101,根据原始样本构建训练样本。原始样本为语句,训练样本为带有语义并带有标注的语句,标注用于表示训练样本中每一个词汇的类别;其中,根据多个预设类别名称获取多个原始样本;从原始样本中筛选出多个词汇样本;计算每一个词汇样本的TF-IDF值;根据TF-IDF值从多个预设类别名称中筛选出多个特征描述词;将多个特征描述词转化为多个词向量;将多个词向量进行聚类得到多个特征描述词类别;根据多个特征描述词类别对原始样本进行标注得到多个训练样本。
词频–文本频率指数(term frequency–inverse document frequency,TF-IDF)是一种用于信息检索与数据挖掘的常用加权技术。TF是词频(Term Frequency),IDF是逆文本频率指数(Inverse Document Frequency)。TF-IDF用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜索引擎应用,作为文件与用户查询之间相关程度的度量或评级。
在本实施例中,信息标注模型的构建方法根据word2vec模型将多个特征描述词转化为多个词向量。信息标注模型的构建方法利用k-means聚类方法将多个词向量进行聚类得到多个特征描述词类别。信息标注模型的构建方法,利用BIO标注方法依据多个特征描述词类别对原始样本进行标注得到多个训练样本。初始信息标注模型为BiLSTM-CRF命名实体识别模型。
BIO标注是解决联合标注问题的方法。BIO标注将每个元素标注为“B-X”、“I-X”或者“O”。其中,“B-X”表示此元素所在的片段属于X类型并且此元素在此片段的开头,“I-X”表示此元素所在的片段属于X类型并且此元素在此片段的结尾位置,“O”表示不属于任何类型。
具体地,根据APY,AWA,CUB等常用的零样本学习数据集的类别名称作为检索词,分别爬取每个类别的维基百科中的描述文本作为原始样本。从原始样本中筛选出多个词汇样本,具体请参照步骤步骤S201-步骤S202。计算所有类别描述文本分词后的每个词汇样本的TF-IDF值,选取TF-IDF值最大的n个词汇作为特征描述词。
具体地,利用爬取的各类别维基百科描述文本,得到词到词编号的映射表word2id与词编号到包含该词的文本数量的映射表id2df;利用所述映射表word2id与映射表id2df计算各类别维基百科描述文本中每个词汇的TF-IDF值;将TF-IDF值最大的n个词汇的对应编号保存在类别特征候选关键词中。
在本实施例中,直接使用word2vec模型将n个候选的特征描述词转换为词向量。
在另一些可行的实施例中,使用维基百科语料库中的样本训练word2vec模型,再使用word2vec模型将n个候选的特征描述词转换为词向量。
在本实施例中,从维基百科官方公开的数据源中下载约为11G的xml格式的英文文章语料库,采用python中gensim库提供的word2vec模型进行训练,将训练好的模型保存起来。加载word2vec模型将特征描述词转换为词向量,并且生成词向量与原词的对应关系数据。由于woed2vec特殊的训练模式,对每个词进行编码时都用到了该词的上下文信息,因此,使用word2vec生成的词向量,有相似意义的单词的词向量在嵌入空间中将有临近的位置,例如AWA2数据集中的“zebra”和“horse”两个类别,在zebra维基百科中多次出现了horse,那么zebra和horse将有临近的词向量。
使用k-means聚类方法将上述词向量的特征描述词进行聚类,对聚类结果进行探索并结合专家分类知识归纳出特征描述词类别,并定义类别特征描述向量的维度及每个位置代表的属性含义。
选取不同的k值使用k-means聚类模型对词向量进行聚类,选取划分最好的聚类结果。对聚类结果进行探索,例如某类中大多数为为“black”,”white”,”gray”等颜色词汇则将该类设置为颜色类别。根据聚类结果的归纳结合专业分类知识,定义特征描述词类别,例如颜色,部位,环境,地理位置等。根据聚类结果和归纳出的类别信息定义对所有类别统一的类别特征描述向量维度及每个维度代表的属性。例如将属性向量定义为256维,1-20维代表颜色属性,位置1代表黑色,位置2代表白色,位置3代表棕色…,21-40维代表器官,位置21代表角,位置22代表蹄,位置23代表翅膀,位置24代表尾巴……。
使用BIO标注方法,对数据集中的部分类别原始样本进行标注得到训练样本,训练样本作为训练命名实体识别模型的数据。具体地,选取部分类别描述文本,使用BIO标注方法,标注每个文本中的类别特征词。BIO标注方法,即将每个元素标注为“B-X”、“I-X”或者“O”。其中,“B-X”表示此元素所在的片段属于X类型并且此元素在此片段的开头,“I-X”表示此元素所在的片段属于X类型并且此元素在此片段的中间位置,“O”表示不属于任何类型。对于句子“Zebras are easily recognised by their bold black-and-white stripingpatterns.”Zebra将被识别为物种名,“black-and-white”将被识别为颜色,整个句子的标注为“B-Species O O O O O O B-Color I-Color I-Color O O”。
步骤S102,将训练样本输入初始训练模型进行训练得到信息标注模型。具体地,使用训练样本训练BiLSTM-CRF命名实体识别模型,得到具有信息标注功能的深度学习模型。具体地,首先将文本进行处理,文本中每个单词包含用word2vec生成的词嵌入(wordembedding)和随机生成的字母嵌入(character embedding)。所有的embeddings 将在训练过程中进行更新。上述生成的词向量作为BiLSTM层的输入,输出为每个单词的各个标签得分。将该预测得分作为CRF层的输入,再次输出每个单词的各个标签预测得分,最终具有最高得分的标签序列将作为模型的预测结果输出。zebra的识别结果为species-0.91,color-0.01, organs-0.005则zebra输出为B-Species。
上述信息标注模型的构建方法是一种基于命名实体识别技术的类别视觉属性标注信息生成方法,其中,自然语言处理(Natural language processing ,NLP)技术为零样本学习技术训练数据中的类别语义信息引入更广泛且易得的数据来源,并且大大减少人工标注的工作量。
本发明利用从维基百科中获取各类描述信息后,首先对类别视觉及种属等描述文本进行预处理和分词,然后计算所有描述信息文本的TF-IDF值,选取TF-IDF值最大的n个词汇作为特征描述词,对n个特征描述词进行聚类,对聚类结果进行规律探索并结合专家分类知识,将类别视觉属性特征词归纳为几类并定义类别特征描述向量的维度及每个维度代表的属性。使用BIO标注方法,根据聚类结果及归纳的特征描述词类别类别,标注部分类别描述文本,作为命名实体识别模型的训练数据。使用标注数据训练针对于类别视觉特征词识别的BiLSTM-CRF命名实体识别模型。对每个类别的描述文本,使用训练好的BiLSTM-CRF模型,识别其中包含的特征描述词类别。对某类别的描述文本识别出的特征描述词类别,每个特征描述词类别对应视觉特征描述向量属性的位置为1,其余为0。如此,便得到了一个基于维基百科描述文本和命名实体识别技术的类别视觉特征描述向量生成模型。本发明为零样本学习方法在无语义属性标注的数据集和其他大型数据集上的扩展应用提供了条件。
请结合参看图2,其为本发明实施例提供的步骤S101的子步骤流程图。步骤S101,根据原始样本构建训练样本。其中,从原始样本中筛选出多个词汇样本,具体包括下面步骤。
步骤S201,对原始样本进行分词得到多个原始词汇样本。具体地,对各类别的维基百科描述文段进行分词处理。
步骤S202,删除多个原始词汇样本中停用词和特殊字符得到多个目标词汇样本。具体地,将分词中的停用词和特殊字符进行过滤,得到纯文本数据。特殊字符例如“#”。
请结合参看图3,其为本发明实施例提供的信息标注的生成方法的流程图。其中,本发明实施例提供的信息标注的生成方法具体包括下面步骤。
步骤S301,获取原始文本。
步骤S302,删除原始文本中的停用词和特殊字符得到待标注文本。
步骤S303,将待标注文本输入根据信息标注模型的构建方法得到的目标信息标注模型中,得到待标注文本的标注结果。具体地,将任意类别描述文本输入到训练好的BiLSTM-CRF命名实体识别模型中识别出该类别中含有的特征描述词,根据含有的特征描述词构建出该类别的特征描述向量。
请结合参看图4,其为本发明实施例提供的用于文本信息标注的模型内部结构图。其中,用于文本信息标注的模型800包括:词汇筛选模块801、样本构建模块802以及模型训练模块803。
词汇筛选模块801:用于获取原始样本;从原始样本中得到多个目标词汇样本。样本构建模块802:用于计算每一个目标词汇样本的TF-IDF值;根据TF-IDF值从多个目标词汇样本中筛选出多个特征描述词;将多个特征描述词转化为多个词向量;将多个词向量进行聚类得到多个特征描述词类别;根据多个特征描述词类别对原始样本中每一个词汇进行标注得到训练样本。模型训练模块803:用于将训练样本输入初始训练模型进行训练得到信息标注模型。
本发明还提供了一种计算机可读存储介质。计算机可读存储介质上存储有能够被处理器加载并执行的上述的信息标注模型的构建方法的程序指令。由于计算机可读存储介质采用了上述所有实施例的全部技术方案,因此至少具有上述实施例的技术方案所带来的所有有益效果,在此不再赘述。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
该集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个计算机可读存储介质中,包括若干指令用以使得一台计算机 设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的计算机可读存储介质包括:U盘、流动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序指令的介质。
本发明还提供一种计算机设备900,计算机设备900至少包括,存储器901和处理器902。存储器901用于存储信息标注模型的构建方法的程序指令。处理器902,用于执行程序指令以使计算机设备实现上述的信息标注模型的构建方法。请结合参看图5,其为本发明第一实施例提供的计算机设备900的内部结构示意图。
其中,存储器901至少包括一种类型的计算机可读存储介质,该计算机可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、磁性存储器、磁盘、光盘等。存储器901在一些实施例中可以是计算机设备900的内部存储单元,例如计算机设备900的硬盘。存储器901在另一些实施例中也可以是计算机设备900的外部存储设备,例如计算机设备900上配备的插接式硬盘,智能存储卡(Smart Media Card, SMC),安全数字卡(Secure Digital, SD),闪存卡(Flash Card)等。进一步地,存储器901还可以既包括计算机设备900的内部存储单元也包括外部存储设备。存储器901不仅可以用于存储安装于计算机设备900的应用软件及各类数据,例如信息标注模型的构建方法的程序指令等,还可以用于暂时地存储已经输出或者将要输出的数据,例如信息标注模型的构建方法执行产生的数据等。
处理器902在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器或其他数据处理芯片,用于运行存储器901中存储的程序指令或处理数据。具体地,处理器902执行信息标注模型的构建方法的程序指令以控制计算机设备900实现信息标注模型的构建方法。
进一步地,计算机设备900还可以包括总线903可以是外设部件互连标准总线(peripheral component interconnect,简称PCI)或扩展工业标准结构总线(extendedindustry standard architecture,简称EISA)等。该总线可以分为地址总线、数据总线、控制总线等。为便于表示,图5中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
进一步地,计算机设备900还可以包括显示组件904。显示组件904可以是LED(Light Emitting Diode,发光二极管)显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。其中,显示组件904也可以适当的称为显示装置或显示单元,用于显示在计算机设备900中处理的信息以及用于显示可视化的用户界面。
进一步地,计算机设备900还可以包括通信组件905,通信组件905可选的可以包括有线通信组件和/或无线通信组件(如WI-FI通信组件、蓝牙通信组件等),通常用于在计算机设备900与其他计算机设备之间建立通信连接。
图5仅示出了具有组件901-905以及实现信息标注模型的构建方法的程序指令的计算机设备900,本领域技术人员可以理解的是,图5示出的结构并不构成对计算机设备900的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。由于计算机设备900采用了上述所有实施例的全部技术方案,因此至少具有上述实施例的技术方案所带来的所有有益效果,在此不再赘述。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。
该信息标注模型的构建方法包括一个或多个程序指令。在设备上加载和执行该程序指令时,全部或部分地产生按照本发明实施例的流程或功能。该设备可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。该程序指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一计算机可读存储介质传输,例如,该程序指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。该计算机可读存储介质可以是计算机能够存储的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。该可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘SolidState Disk(SSD))等。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考上述方法实施例中的对应过程,在此不再赘述。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘且本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
以上所列举的仅为本发明较佳实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属于本发明所涵盖的范围。

Claims (10)

1.一种信息标注模型的构建方法,其特征在于,所述信息标注模型的构建方法包括:
根据原始样本构建训练样本,其中,所述原始样本为包括若干词汇的语句,所述训练样本为包括若干带有标注的词汇的语句,所述标注为所述词汇的特征描述词类别;获取原始样本;从所述原始样本中得到多个目标词汇样本;计算每一个目标词汇样本的TF-IDF值;根据所述TF-IDF值从所述多个目标词汇样本中筛选出多个特征描述词;将所述多个特征描述词转化为多个词向量;将所述多个词向量进行聚类得到多个特征描述词类别;根据所述多个特征描述词类别对原始样本中每一个词汇进行标注得到训练样本;
将所述训练样本输入初始训练模型进行训练得到信息标注模型。
2.如权利要求1所述的信息标注模型的构建方法,其特征在于,从所述原始样本中得到多个目标词汇样本,具体包括:
对所述原始样本进行分词得到多个原始词汇样本;
删除所述多个原始词汇样本中停用词和特殊字符得到所述多个目标词汇样本。
3.如权利要求1所述的信息标注模型的构建方法,其特征在于,所述信息标注模型的构建方法根据word2vec模型将所述多个特征描述词转化为多个词向量。
4.如权利要求1所述的信息标注模型的构建方法,其特征在于,所述信息标注模型的构建方法利用k-means聚类方法将所述多个词向量进行聚类得到多个特征描述词类别。
5.如权利要求1所述的信息标注模型的构建方法,其特征在于,所述信息标注模型的构建方法利用BIO标注方法和所述多个特征描述词类别对原始样本中每一个词汇进行标注得到训练样本。
6.如权利要求1所述的信息标注模型的构建方法,其特征在于,所述初始训练模型为BiLSTM-CRF命名实体识别模型。
7.一种信息标注的生成方法,其特征在于,所述信息标注的生成方法包括:
获取原始文本;
删除所述原始文本中的停用词和特殊字符得到待标注文本;
将所述待标注文本输入根据如权利要求1~6任意一项所述的信息标注模型的构建方法得到的信息标注模型中,得到所述待标注文本的标注结果。
8.一种用于文本信息标注的模型,其特征在于,所述用于文本信息标注的模型包括:
词汇筛选模块:用于获取原始样本;从所述原始样本中得到多个目标词汇样本;
样本构建模块:用于计算每一个目标词汇样本的TF-IDF值;根据所述TF-IDF值从所述多个目标词汇样本中筛选出多个特征描述词;将所述多个特征描述词转化为多个词向量;将所述多个词向量进行聚类得到多个特征描述词类别;根据所述多个特征描述词类别对原始样本中每一个词汇进行标注得到训练样本;
模型训练模块:用于将所述训练样本输入初始训练模型进行训练得到信息标注模型。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有能够被处理器加载并执行的如权利要求1~6任意一项所述的信息标注模型的构建方法的程序指令。
10.一种计算机设备,其特征在于,所述计算机设备包括:
存储器,用于存储程序指令;以及
处理器,用于执行所述程序指令以使所述计算机设备实现如权利要求1~6任意一项所述的信息标注模型的构建方法。
CN202111640394.3A 2021-12-30 2021-12-30 信息标注模型的构建方法以及信息标注的生成方法 Pending CN114003725A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111640394.3A CN114003725A (zh) 2021-12-30 2021-12-30 信息标注模型的构建方法以及信息标注的生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111640394.3A CN114003725A (zh) 2021-12-30 2021-12-30 信息标注模型的构建方法以及信息标注的生成方法

Publications (1)

Publication Number Publication Date
CN114003725A true CN114003725A (zh) 2022-02-01

Family

ID=79932266

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111640394.3A Pending CN114003725A (zh) 2021-12-30 2021-12-30 信息标注模型的构建方法以及信息标注的生成方法

Country Status (1)

Country Link
CN (1) CN114003725A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115861847A (zh) * 2023-02-24 2023-03-28 耕宇牧星(北京)空间科技有限公司 可见光遥感图像目标智能辅助标注方法
CN117668237A (zh) * 2024-01-29 2024-03-08 深圳开源互联网安全技术有限公司 用于智能模型训练的样本数据处理方法、系统及智能模型

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103927309A (zh) * 2013-01-14 2014-07-16 阿里巴巴集团控股有限公司 一种对业务对象标注信息标签的方法及装置
CN109960800A (zh) * 2019-03-13 2019-07-02 安徽省泰岳祥升软件有限公司 基于主动学习的弱监督文本分类方法及装置
CN111177374A (zh) * 2019-12-13 2020-05-19 航天信息股份有限公司 一种基于主动学习的问答语料情感分类方法及系统
US20210034819A1 (en) * 2017-08-25 2021-02-04 Ping An Technology (Shenzhen) Co., Ltd. Method and device for identifying a user interest, and computer-readable storage medium
CN112632980A (zh) * 2020-12-30 2021-04-09 广州友圈科技有限公司 一种基于大数据深度学习的企业分类方法、系统及电子设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103927309A (zh) * 2013-01-14 2014-07-16 阿里巴巴集团控股有限公司 一种对业务对象标注信息标签的方法及装置
US20210034819A1 (en) * 2017-08-25 2021-02-04 Ping An Technology (Shenzhen) Co., Ltd. Method and device for identifying a user interest, and computer-readable storage medium
CN109960800A (zh) * 2019-03-13 2019-07-02 安徽省泰岳祥升软件有限公司 基于主动学习的弱监督文本分类方法及装置
CN111177374A (zh) * 2019-12-13 2020-05-19 航天信息股份有限公司 一种基于主动学习的问答语料情感分类方法及系统
CN112632980A (zh) * 2020-12-30 2021-04-09 广州友圈科技有限公司 一种基于大数据深度学习的企业分类方法、系统及电子设备

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115861847A (zh) * 2023-02-24 2023-03-28 耕宇牧星(北京)空间科技有限公司 可见光遥感图像目标智能辅助标注方法
CN117668237A (zh) * 2024-01-29 2024-03-08 深圳开源互联网安全技术有限公司 用于智能模型训练的样本数据处理方法、系统及智能模型
CN117668237B (zh) * 2024-01-29 2024-05-03 深圳开源互联网安全技术有限公司 用于智能模型训练的样本数据处理方法、系统及智能模型

Similar Documents

Publication Publication Date Title
CN109766438B (zh) 简历信息提取方法、装置、计算机设备和存储介质
CN108399228B (zh) 文章分类方法、装置、计算机设备及存储介质
CN108829893B (zh) 确定视频标签的方法、装置、存储介质和终端设备
WO2021203581A1 (zh) 基于精标注文本的关键信息抽取方法、装置及存储介质
US20180075368A1 (en) System and Method of Advising Human Verification of Often-Confused Class Predictions
US9483460B2 (en) Automated formation of specialized dictionaries
US20180068221A1 (en) System and Method of Advising Human Verification of Machine-Annotated Ground Truth - High Entropy Focus
CN113807098A (zh) 模型训练方法和装置、电子设备以及存储介质
CN111444320A (zh) 文本检索方法、装置、计算机设备和存储介质
CN111191275A (zh) 敏感数据识别方法、系统及其装置
CN110162771B (zh) 事件触发词的识别方法、装置、电子设备
CN112818093A (zh) 基于语义匹配的证据文档检索方法、系统及存储介质
CN109472022B (zh) 基于机器学习的新词识别方法及终端设备
US9678947B2 (en) Pattern identification and correction of document misinterpretations in a natural language processing system
WO2022174496A1 (zh) 基于生成模型的数据标注方法、装置、设备及存储介质
CN107861948B (zh) 一种标签提取方法、装置、设备和介质
CN114003725A (zh) 信息标注模型的构建方法以及信息标注的生成方法
CN111209753B (zh) 一种实体命名识别方法及装置
CN112148862B (zh) 一种问题意图识别方法、装置、存储介质及电子设备
CN112347758A (zh) 文本摘要的生成方法、装置、终端设备及存储介质
CN110795942B (zh) 基于语义识别的关键词确定方法、装置和存储介质
CN111783424A (zh) 一种文本分句方法和装置
CN115344668A (zh) 一种多领域与多学科科技政策资源检索方法及装置
CN113204956B (zh) 多模型训练方法、摘要分段方法、文本分段方法及装置
CN112307210B (zh) 一种文档标签预测方法、系统、介质及电子器件

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20220201