CN113688243A - 语句中实体的标注方法、装置、设备以及存储介质 - Google Patents

语句中实体的标注方法、装置、设备以及存储介质 Download PDF

Info

Publication number
CN113688243A
CN113688243A CN202111014547.3A CN202111014547A CN113688243A CN 113688243 A CN113688243 A CN 113688243A CN 202111014547 A CN202111014547 A CN 202111014547A CN 113688243 A CN113688243 A CN 113688243A
Authority
CN
China
Prior art keywords
word
sentence
category
entity
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111014547.3A
Other languages
English (en)
Other versions
CN113688243B (zh
Inventor
陆凯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Life Insurance Company of China Ltd
Original Assignee
Ping An Life Insurance Company of China Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Life Insurance Company of China Ltd filed Critical Ping An Life Insurance Company of China Ltd
Priority to CN202111014547.3A priority Critical patent/CN113688243B/zh
Publication of CN113688243A publication Critical patent/CN113688243A/zh
Application granted granted Critical
Publication of CN113688243B publication Critical patent/CN113688243B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及人工智能技术,提供了一种语句中实体的标注方法、装置、设备以及存储介质,其中,方法包括:通过获取指定类别的实体词典,以及待识别的语句,对待识别的语句中的第一词语进行词语向量表示,再检测各词语向量与所述指定类别的相似,根据相似度判定所述语句中属于所述指定类别的实体,并对所述语句中对应的所述第一词语进行标注的方式提高了对待识别语句中实体的准确率,另外,本申请可以适用不同的指定类别,也可以检测不同的语句,因此适用的场景相较而言更广。

Description

语句中实体的标注方法、装置、设备以及存储介质
技术领域
本发明涉及人工智能领域,特别涉及一种语句中实体的标注方法、装置、设备以及存储介质。
背景技术
实体识别是自然语言处理领域的一项重要任务,是指识别文本中具有特定意义的实体,例如人名、歌手名、地名等,目前对于实体识别的方式一般都是通过自定义实体词典进行识别,这种识别方式是将实体识别转化为字符串匹配问题,当文本中遇到实体词典中的词,便将其识别,但是这种方法准确率较低,适用的场景有限。
发明内容
本发明的主要目的为提供一种语句中实体的标注方法、装置、设备以及存储介质,旨在解决自定义实体词典识别准确率较低的问题。
本发明提供了一种语句中实体的标注方法,包括:
获取指定类别的实体词典,以及待识别的语句;
将所述语句中的各个词语与所述实体词典中各个实体进行比对,得到相同的第一词语;
将具有所述第一词语的语句输入至预训练语言模型中,对所述第一词语进行词语向量表示,得到所述语句中各个第一词语分别对应的词语向量;
将各个词语向量进行聚类处理,得到各个词语向量分别对应的类别;
检测同一个第一词语的词语向量是否具有多个类别;
若具有多个类别,则检测各词语向量与所述指定类别对应的类别向量的相似度;
根据相似度判定所述语句中属于所述指定类别的实体,并对所述语句中对应的所述第一词语进行标注。
进一步地,所述将具有所述第一词语的语句输入至预训练语言模型中,对所述第一词语进行词语向量表示,得到所述语句中各个第一词语分别对应的词语向量之前,还包括:
从第三方程序中获取所述第一词语的标注信息;
检测提取到的第一词语的标注信息是否具有与所述指定类别对应的信息相歧的信息;
从所述语句中提取具有所述相歧的信息的目标实体执行所述将具有所述第一词语的语句输入至预训练语言模型中,对所述第一词语进行词语向量表示,得到所述语句中各个第一词语分别对应的词语向量的步骤。
进一步地,所述根据相似度判定所述语句中属于所述指定类别的实体,并对所述语句中对应的所述第一词语进行标注,包括:
将判定为实体的所述第一词语添加标签,形成指定实体;
将所述指定实体替换对应所述语句中判定为所述指定类别的所述第一词语,得到目标语句;
对所述目标语句中的所述指定实体按照所述指定类别的标注方法进行标注。
进一步地,所述检测同一个第一词语的词语向量是否具有多个类别,包括:
获取具有所述指定类别中的实体的目标语句;
剔除所述目标语句中的实体,并对所述目标语句进行标准化处理,得到标准化语句;其中,所述标准化处理为剔除所述目标语句中的标点符号、统一语种和删除不相关词句,所述不相关词句包括问候语和形容词以及脏词;
对所述标准化语句进行分词处理,得到多个对应的多个标准词语;
统计各个所述标准词语的词频;
根据统计结果按照词频大小的顺序选取设定个数的标准词语,得到话题词集;
将所述标准词语进行向量化,得到对应的各个所述标准词语对应的标准向量;
根据所述话题词集的各所述标准向量计算所述话题词集与所述词语向量之间的相似度,作为所述词语向量与所述指定类别的相似度。
进一步地,所述获取指定类别的实体词典,包括:
分析所述指定类别所对应的类别平台;
通过sqoop脚本获取所述类别平台中相应的实体词典数据;
根据所述实体词典数据形成所述实体词典。
进一步地,所述检测各词语向量与所述指定类别对应的类别向量的相似度,包括:
将所述指定类别进行向量化处理,得到所述指定类别对应的类别向量;
根据公式
Figure BDA0003239980640000031
计算各个词语向量与类别向量之间的相似度;其中,所述Xi为第i个词语向量,所述Y为所述类别向量,Jaccard(Xi,Y)表示第i个词语向量与类别向量的相似度。
进一步地,所述将各个词语向量进行聚类处理,得到各个词语向量分别对应的类别包括:
获取所述指定类别中所述语句中不存在的其他实体;
将所述其他实体替换所述语句中对应的第一词语;
通过句子通顺度识别模型检测替换后的语句的通顺度;
将所述通顺度大于预设值所对应的语句中的实体归于所述指定类别,
以及将所述通顺度大于预设值所对应的语句中的实体归于其他类别。
本发明还提供了一种语句中实体的标注装置,包括:
获取模块,用于获取指定类别的实体词典,以及待识别的语句;
比对模块,用于将所述语句中的各个词语与所述实体词典中各个实体进行比对,得到相同的第一词语;
输入模块,用于将具有所述第一词语的语句输入至预训练语言模型中,对所述第一词语进行词语向量表示,得到所述语句中各个第一词语分别对应的词语向量;
聚类模块,用于将各个词语向量进行聚类处理,得到各个词语向量分别对应的类别;
类别检测模块,用于检测同一个第一词语的词语向量是否具有多个类别;
相似度检测模块,用于若具有多个类别,则检测各词语向量与所述指定类别对应的类别向量的相似度;
标注模块,用于根据相似度判定所述语句中属于所述指定类别的实体,并对所述语句中对应的所述第一词语进行标注。
本发明还提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。
本发明还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的方法的步骤。
本发明的有益效果:通过获取指定类别的实体词典,以及待识别的语句,对待识别的语句中的第一词语进行词语向量表示,再检测各词语向量与所述指定类别的相似,根据相似度判定所述语句中属于所述指定类别的实体,并对所述语句中对应的所述第一词语进行标注的方式提高了对待识别语句中实体的准确率,另外,本申请可以适用不同的指定类别,也可以检测不同的语句,因此适用的场景相较而言更广。
附图说明
图1是本发明一实施例的一种语句中实体的标注方法的流程示意图;
图2是本发明一实施例的一种语句中实体的标注装置的结构示意框图;
图3为本申请一实施例的计算机设备的结构示意框图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明,本发明实施例中所有方向性指示(诸如上、下、左、右、前、后等)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等,如果该特定姿态发生改变时,则该方向性指示也相应地随之改变,所述的连接可以是直接连接,也可以是间接连接。
本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。
另外,在本发明中如涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。
参照图1,本发明提出一种语句中实体的标注方法,包括:
S1:获取指定类别的实体词典,以及待识别的语句;
S2:将所述语句中的各个词语与所述实体词典中各个实体进行比对,得到相同的第一词语;
S3:将具有所述第一词语的语句输入至预训练语言模型中,对所述第一词语进行词语向量表示,得到所述语句中各个第一词语分别对应的词语向量;
S4:将各个词语向量进行聚类处理,得到各个词语向量分别对应的类别;
S5:检测同一个第一词语的词语向量是否具有多个类别;
S6:若具有多个类别,则检测各词语向量与所述指定类别对应的类别向量的相似度;
S7:根据相似度判定所述语句中属于所述指定类别的实体,并对所述语句中对应的所述第一词语进行标注。
如上述步骤S1所述,指定类别为所需识别的类别,例如人名、歌手名、地名等,以歌手名为例,其中的实体为陈奕迅、新裤子等,即其歌手名可以包括艺名,组合名等,实体词典为对应指定类别预设的实体词典,在一个实施例中,之前通过自定义实体词典对实体进行识别,已经构建了相对应的实体词典,此处可以直接使用。在另一个实施例中,也可以是从对应的平台中获取,例如歌手名可以从音乐平台获取。获取待识别的语句,其中该待识别语句为用户直接上传的语句,上传的方式不做限定,可以直接上传,也可以通过第三方程序上传,还可以通过互联网上传等方式,基于上传的方式获取到对应的待识别的语句。
如上述步骤S2所述,将所述语句中的各个词语与所述实体词典中各个实体进行比对,得到相同的第一词语。其中,提取的方式为,将语句进行分词处理,然后对分词后的每个词语与实体词典中进行比对即可,从而获取到对应的第一词语。
如上述步骤S3所述,将具有所述第一词语的语句输入至预训练语言模型中,对所述第一词语进行词语向量表示,得到所述语句中各个第一词语分别对应的词语向量。其中,预训练语言模型可以是elmo、bert等常见的语言模型,以bert模型为例,将包含实体词的句子输入bert模型,得到实体词每个位置的向量,对每个位置的向量取mean-pooling、max-pooling等方式得到实体词的词语向量。同一个实体词,在不同句子得到的词语向量不同。
如上述步骤S4所述,将各个词语向量进行聚类处理,得到各个词语向量分别对应的类别。其中聚类的方式可以是现有聚类方式的任意一种,例如K-Means(K均值)聚类、均值漂移聚类、基于密度的聚类方法、用高斯混合模型(GMM)的最大期望(EM)聚类、凝聚层次聚类、图团体检测中的任意一种,可以实现对词语向量的聚类即可,也可以通过其他的聚类方式进行聚类,后续还提供了一种具体地聚类方式,此处不再赘述。
如上述步骤S5所述,检测同一个第一词语的词语向量是否具有多个类别。其中,检测的方式是基于上述聚类处理的结果进行检测,即,若同一个第一词语具有多个类别,则说明其具有其他的含义,例如,举例而言,包含“新裤子”的句子有“我今天买了一条新裤子。”、“优衣库的新裤子款式不错。”、“新裤子乐队拥有众多粉丝。”“新裤子的新歌不错。”等,因此,在聚类后第一个句子和第二个句子的类别与第三个句子和第四个句子肯定不同,一般会得到两个聚类类别,因此,可以得知“新裤子”具有两个聚类类别。因此需要对其进行类别判定,而对于诸如“陈奕迅”这种,则一般不会具有其他意思,即一般只有具有一个聚类类别,因此,无需对只有一个类别的实体进行进一步地判断,根据实体词典就可以直接得到,对其直接进行标注即可。
如上述步骤S6所述,若具有多个类别,则检测各词语向量与所述指定类别对应的类别向量的相似度;所述话题词集为根据所述指定类别获取到的词集。其中,相似度的检测可以是为任意算法,例如为WMD算法(word mover’s distance)、simhash算法、基于余弦相似度的算法、基于SVM向量模型进行计算等。
如上述步骤S7所述,根据相似度判定所述语句中属于所述指定类别的实体,并对所述语句中对应的所述第一词语进行标注,即认定相似度最高的类别与指定类别为同一类别,根据指定类别的标注方式(例如标注为歌手)即可。
在一个实施例中,所述将具有所述第一词语的语句输入至预训练语言模型中,对所述第一词语进行词语向量表示,得到所述语句中各个第一词语分别对应的词语向量的步骤S3之前,还包括:
S201:从第三方程序中获取所述第一词语的标注信息;
S202:检测提取到的第一词语的标注信息是否具有,与所述指定类别对应的信息相歧的信息;
S203:从所述语句中提取具有所述相歧的信息的目标实体执行所述将具有所述第一词语的语句输入至预训练语言模型中,对所述第一词语进行词语向量表示,得到所述语句中各个第一词语分别对应的词语向量的步骤。
如上述步骤S201所述,获取第一词语的标注信息,其中获取的方式为获取第三方程序对第一词语的标注信息,可以基于该第一词语从第三方程序中进行搜索具有第一词语的标注信息,从而获取到第一词语的标注信息,另外,也可以根据词条获取标注信息,例如百度词条、预先存储的标注信息库等,从而得到对应的标注信息。
如上述步骤S202所述,检测提取到的第一词语的标注信息是否具有,与所述指定类别对应的信息相歧的信息。相歧的信息指的是与指定类别不同的标注信息,例如,“新裤子”可以是一种衣物,这与指定类别为歌手的标注信息完全不同,因此“衣物”这种标注则为相歧的信息。
如上述步骤S203所述,只对具有相歧的信息的第一词语才进行后续的识别,对应其他的第一词语,则无需进行进一步的识别,提高了识别的效率,进而在保证正确率的情况下,也提高了标注的效率。
在一个实施例中,所述根据相似度判定所述语句中属于所述指定类别的实体,并对所述语句中对应的所述第一词语进行标注的步骤S7,包括:
S701:将判定为实体的所述第一词语添加标签,形成指定实体;
S702:将所述指定实体替换对应所述语句中判定为所述指定类别的所述第一词语,得到目标语句;
S703:对所述目标语句中的所述指定实体按照所述指定类别的标注方法进行标注。
如上述步骤S701-S703所述,实现了在句子中对实体的标注。具体地,将提取的实体进行添加标签,例如对识别为实体的“新裤子”加上标签变为“新裤子$2”,从而得到对应的指定实体,也可以对剩余识别不是实体的“新裤子”加上其他标签例如“新裤子$1”,然后替换掉原语句中的“新裤子”,句子中的“新裤子”都用“新裤子$2”和“新裤子$1”表示,从而实现了在各个句子中对同一个词语进行了实体的区分,即“新裤子$2”是实体,而“新裤子$1”不是实体,以便于后续系统识别进行标注,后续指定类别的标注方法不做限定,例如可以标注为歌手等。
在一个实施例中,所述检测具有各词语向量与所述指定类别的相似度的步骤S6,包括:
S601:获取具有所述指定类别中的实体的目标语句;
S602:剔除所述目标语句中的实体,并对所述目标语句进行标准化处理,得到标准化语句;其中,所述标准化处理为剔除所述目标语句中的标点符号、统一语种和删除不相关词句,所述不相关词句包括问候语和形容词以及脏词;
S603:对所述标准化语句进行分词处理,得到多个对应的多个标准词语;
S604:统计各个所述标准词语的词频;
S605:根据统计结果按照词频大小的顺序选取设定个数的标准词语,得到话题词集;
S606:将所述标准词语进行向量化,得到对应的各个所述标准词语对应的标准向量;
S607:根据所述话题词集的各所述标准向量计算所述话题词集与所述词语向量之间的相似度,作为所述词语向量与所述指定类别的相似度。
如上述步骤S601-S607所述,实现了所述词语向量与所述指定类别的相似度的计算。具体地,由于包含有指定类别中的实体的目标语句,其出现频次最高的词,可以体现与该实体相关性,因此可以以此提取对应的话题词集。另外,有可能也会存在一些助词,标点符号,问候语,形容词等,对其造成影响,因此,在提取之前需要将这部分词语和标点符号剔除,从而增加提取的准确性,最后根据提取的词频大小选取设定个数的标准词语,假设为话题词集,在另一个实施例中,该话题词集也可以是人为收集然后上传的话题词集。根据所述话题词集计算与所述词语向量之间的相似度,作为所述词语向量与所述指定类别的相似度。其中,相似度的计算可以是任意的计算方式,例如为WMD算法(word mover’sdistance)、simhash算法、基于余弦相似度的算法,即计算词语向量与话题词集中每个标准词语之间的相似度的平均值作为与指定类别的相似度。
在一个实施例中,所述获取指定类别的实体词典,以及待识别的语句的步骤S1,包括:
S101:分析所述指定类别所对应的类别平台;
S102:通过sqoop脚本获取所述类别平台中相应的实体词典数据;
S103:根据所述实体词典数据形成所述实体词典。
如上述步骤S101-S103所述,实现了实体词典的获取。本申请以歌手名单作为实体词典进行说明,即指定类别为歌手,其对应的类别平台为音乐平台,分析的方式为根据类别本身所获取,即分析歌手名单可能所在的平台,可以事先建立平台与指定类别的对应关系,从而可以直接根据指定类别获取到对应的平台,即通过sqoop脚本获取平台数据库中对应的实体词典数据。具体地,Sqoop脚本是一个用来将Hadoop和关系型数据库中的数据相互转移的工具,可以将一个关系型数据库(例如:MySQL,Oracle,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。从而实现了第实体词典的获取。
在一个实施例中,所述若具有多个类别,则检测各词语向量与所述指定类别对应的类别向量的相似度的步骤S6,包括:
S611:将所述指定类别进行向量化处理,得到所述指定类别对应的类别向量;
S612:根据公式
Figure BDA0003239980640000111
计算各个词语向量与类别向量之间的相似度;其中,所述Xi为第i个词语向量,所述Y为所述类别向量,Jaccard(Xi,Y)表示第i个词语向量与类别向量的相似度。
如上述步骤S611-S612所述,实现了对各词语向量和指定类别相似度的计算,即现将对应的类别向量进行向量化处理,向量化的方式可以是通过Google word2vec工具将分词后的标准化问题向量化。根据公式
Figure BDA0003239980640000112
计算各个词语向量与类别向量之间的相似度,当相似度越接近1,则说明该词语向量与类别向量越接近,即可以认为该词语向量属于该指定类别,当相似度越接近0,则说明该词语向量与类别向量越不接近,即可以认为该词语向量不属于该指定类别。
在一个实施例中,所述将各个词语向量进行聚类处理,得到各个词语向量分别对应的类别的步骤S4,包括:
S401:获取所述指定类别中所述语句中不存在的其他实体;
S402:将所述其他实体替换所述语句中对应的第一词语;
S403:通过句子通顺度识别模型检测替换后的语句的通顺度;
S404:将所述通顺度大于预设值所对应的语句中的实体归于所述指定类别,
S405:以及将所述通顺度大于预设值所对应的语句中的实体归于其他类别。
如上述步骤S401-S405所述,实现了对第一词语的聚类,即通过替换的方式,例如“我今天买了一条新裤子”中的“新裤子”替换为“周杰伦”则变为“我今天买了一条周杰伦”这样的句子显然不通顺,而将“新裤子的新歌不错”换为“周杰伦的新歌不错”,这样的句子很明显是通顺的,因此可以采取替换的办法来对其进行归类,由于本申请中只需要识别是否属于指定类别,故而即使“新裤子”可能还具有不同的意思,也通通归于其他类别,即本实施例只设置了两类,其他类别和指定类别,因此,只需要将指定类别中的其他实体对第一词语进行替换,然后通过句子通顺度识别模型进行检测,即可得到每个第一词语的类别。句子通顺度识别模型可以由若干包含有指定类别中的实体的通顺句子训练而成,其模型可以是卷积神经网络模型。从而实现了对第一词语的聚类。
参照图2,本申请还提供了一种语句中实体的标注装置,包括:
获取模块10,用于获取指定类别的实体词典,以及待识别的语句;
比对模块20,用于将所述语句中的各个词语与所述实体词典中各个实体进行比对,得到相同的第一词语;
输入模块30,用于将具有所述第一词语的语句输入至预训练语言模型中,对所述第一词语进行词语向量表示,得到所述语句中各个第一词语分别对应的词语向量;
聚类模块40,用于将各个词语向量进行聚类处理,得到各个词语向量分别对应的类别;
类别检测模块50,用于检测同一个第一词语的词语向量是否具有多个类别;
相似度检测模块60,用于若具有多个类别,则检测各词语向量与所述指定类别对应的类别向量的相似度;
标注模块70,用于根据相似度判定所述语句中属于所述指定类别的实体,并对所述语句中对应的所述第一词语进行标注。
在一个实施例中,语句中实体的标注装置,还包括:
标注信息获取模块,用于从第三方程序中获取所述第一词语的标注信息;
相歧信息检测模块,用于检测提取到的第一词语的标注信息是否具有与所述指定类别对应的信息相歧的信息;
执行模块,用于从所述语句中提取具有所述相歧的信息的目标实体执行所述将具有所述第一词语的语句输入至预训练语言模型中,对所述第一词语进行词语向量表示,得到所述语句中各个第一词语分别对应的词语向量的步骤。
在一个实施例中,标注模块70,包括:
添加子模块,用于将判定为实体的所述第一词语添加标签,形成指定实体;
替换子模块,用于将所述指定实体替换对应所述语句中判定为所述指定类别的所述第一词语,得到目标语句;
标注子模块,用于对所述目标语句中的所述指定实体按照所述指定类别的标注方法进行标注。
在一个实施例中,类别检测模块50,包括:
目标语句获取子模块,用于获取具有所述指定类别中的实体的目标语句;
实体剔除子模块,用于剔除所述目标语句中的实体,并对所述目标语句进行标准化处理,得到标准化语句;其中,所述标准化处理为剔除所述目标语句中的标点符号、统一语种和删除不相关词句,所述不相关词句包括问候语和形容词以及脏词;
分词子模块,用于对所述标准化语句进行分词处理,得到多个对应的多个标准词语;
统计子模块,用于统计各个所述标准词语的词频;
标准词语选取子模块,用于根据统计结果按照词频大小的顺序选取设定个数的标准词语,得到话题词集;
向量化子模块,用于将所述标准词语进行向量化,得到对应的各个所述标准词语对应的标准向量;
相似度计算子模块,用于根据所述话题词集的各所述标准向量计算所述话题词集与所述词语向量之间的相似度,作为所述词语向量与所述指定类别的相似度。
在一个实施例中,获取模块10,包括:
类别平台分析子模块,用于分析所述指定类别所对应的类别平台;
实体词典数据获取子模块,用于通过sqoop脚本获取所述类别平台中相应的实体词典数据;
实体词典形成子模块,用于根据所述实体词典数据形成所述实体词典。
在一个实施例中,相似度检测模块60,包括:
向量化子模块,用于将所述指定类别进行向量化处理,得到所述指定类别对应的类别向量;
相似度计算子模块,用于根据公式
Figure BDA0003239980640000141
计算各个词语向量与类别向量之间的相似度;其中,所述Xi为第i个词语向量,所述Y为所述类别向量,Jaccard(Xi,Y)表示第i个词语向量与类别向量的相似度。
在一个实施例中,聚类模块40,包括:
其他实体获取子模块,用于获取所述指定类别中所述语句中不存在的其他实体;
第一词语获取子模块,用于将所述其他实体替换所述语句中对应的第一词语;
通顺度检测子模块,用于通过句子通顺度识别模型检测替换后的语句的通顺度;
类别划分子模块,用于将所述通顺度大于预设值所对应的语句中的实体归于所述指定类别,
以及将所述通顺度大于预设值所对应的语句中的实体归于其他类别。
本发明的有益效果:通过获取指定类别的实体词典,以及待识别的语句,对待识别的语句中的第一词语进行词语向量表示,再检测各词语向量与所述指定类别的相似,根据相似度判定所述语句中属于所述指定类别的实体,并对所述语句中对应的所述第一词语进行标注的方式提高了对待识别语句中实体的准确率,另外,本申请可以适用不同的指定类别,也可以检测不同的语句,因此适用的场景相较而言更广。
参照图3,本申请实施例中还提供一种计算机设备,该计算机设备可以是服务器,其内部结构可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储各种待识别语句等。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时可以实现上述任一实施例所述的语句中实体的标注方法。
本领域技术人员可以理解,图3中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定。
本申请实施例还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时可以实现上述任一实施例所述的语句中实体的标注方法。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储与一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM一多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的权利要求范围之内。

Claims (10)

1.一种语句中实体的标注方法,其特征在于,包括:
获取指定类别的实体词典,以及待识别的语句;
将所述语句中的各个词语与所述实体词典中各个实体进行比对,得到相同的第一词语;
将具有所述第一词语的语句输入至预训练语言模型中,对所述第一词语进行词语向量表示,得到所述语句中各个第一词语分别对应的词语向量;
将各个词语向量进行聚类处理,得到各个词语向量分别对应的类别;
检测同一个第一词语的词语向量是否具有多个类别;
若具有多个类别,则检测各词语向量与所述指定类别对应的类别向量的相似度;
根据相似度判定所述语句中属于所述指定类别的实体,并对所述语句中对应的所述第一词语进行标注。
2.如权利要求1所述的语句中实体的标注方法,其特征在于,所述将具有所述第一词语的语句输入至预训练语言模型中,对所述第一词语进行词语向量表示,得到所述语句中各个第一词语分别对应的词语向量之前,还包括:
从第三方程序中获取所述第一词语的标注信息;
检测提取到的第一词语的标注信息是否具有与所述指定类别对应的信息相歧的信息;
从所述语句中提取具有所述相歧的信息的目标实体执行所述将具有所述第一词语的语句输入至预训练语言模型中,对所述第一词语进行词语向量表示,得到所述语句中各个第一词语分别对应的词语向量。
3.如权利要求1所述的语句中实体的标注方法,其特征在于,所述根据相似度判定所述语句中属于所述指定类别的实体,并对所述语句中对应的所述第一词语进行标注,包括:
将判定为实体的所述第一词语添加标签,形成指定实体;
将所述指定实体替换对应所述语句中判定为所述指定类别的所述第一词语,得到目标语句;
对所述目标语句中的所述指定实体按照所述指定类别的标注方法进行标注。
4.如权利要求1所述的语句中实体的标注方法,其特征在于,所述检测同一个第一词语的词语向量是否具有多个类别,包括:
获取具有所述指定类别中的实体的目标语句;
剔除所述目标语句中的实体,并对所述目标语句进行标准化处理,得到标准化语句;其中,所述标准化处理为剔除所述目标语句中的标点符号、统一语种和删除不相关词句,所述不相关词句包括问候语和形容词以及脏词;
对所述标准化语句进行分词处理,得到多个对应的多个标准词语;
统计各个所述标准词语的词频;
根据统计结果按照词频大小的顺序选取设定个数的标准词语,得到话题词集;
将所述标准词语进行向量化,得到对应的各个所述标准词语对应的标准向量;
根据所述话题词集的各所述标准向量计算所述话题词集与所述词语向量之间的相似度,作为所述词语向量与所述指定类别的相似度。
5.如权利要求1所述的语句中实体的标注方法,其特征在于,所述获取指定类别的实体词典,包括:
分析所述指定类别所对应的类别平台;
通过sqoop脚本获取所述类别平台中相应的实体词典数据;
根据所述实体词典数据形成所述实体词典。
6.如权利要求1所述的语句中实体的标注方法,其特征在于,所述检测各词语向量与所述指定类别对应的类别向量的相似度的步骤,包括:
将所述指定类别进行向量化处理,得到所述指定类别对应的类别向量;
根据公式
Figure FDA0003239980630000031
计算各个词语向量与类别向量之间的相似度;其中,所述Xi为第i个词语向量,所述Y为所述类别向量,Jaccard(Xi,Y)表示第i个词语向量与类别向量的相似度。
7.如权利要求1所述的语句中实体的标注方法,其特征在于,所述将各个词语向量进行聚类处理,得到各个词语向量分别对应的类别包括:
获取所述指定类别中所述语句中不存在的其他实体;
将所述其他实体替换所述语句中对应的第一词语;
通过句子通顺度识别模型检测替换后的语句的通顺度;
将所述通顺度大于预设值所对应的语句中的实体归于所述指定类别,
以及将所述通顺度大于预设值所对应的语句中的实体归于其他类别。
8.一种语句中实体的标注装置,其特征在于,包括:
获取模块,用于获取指定类别的实体词典,以及待识别的语句;
比对模块,用于将所述语句中的各个词语与所述实体词典中各个实体进行比对,得到相同的第一词语;
输入模块,用于将具有所述第一词语的语句输入至预训练语言模型中,对所述第一词语进行词语向量表示,得到所述语句中各个第一词语分别对应的词语向量;
聚类模块,用于将各个词语向量进行聚类处理,得到各个词语向量分别对应的类别;
类别检测模块,用于检测同一个第一词语的词语向量是否具有多个类别;
相似度检测模块,用于若具有多个类别,则检测各词语向量与所述指定类别对应的类别向量的相似度;
标注模块,用于根据相似度判定所述语句中属于所述指定类别的实体,并对所述语句中对应的所述第一词语进行标注。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
CN202111014547.3A 2021-08-31 2021-08-31 语句中实体的标注方法、装置、设备以及存储介质 Active CN113688243B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111014547.3A CN113688243B (zh) 2021-08-31 2021-08-31 语句中实体的标注方法、装置、设备以及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111014547.3A CN113688243B (zh) 2021-08-31 2021-08-31 语句中实体的标注方法、装置、设备以及存储介质

Publications (2)

Publication Number Publication Date
CN113688243A true CN113688243A (zh) 2021-11-23
CN113688243B CN113688243B (zh) 2024-02-13

Family

ID=78584704

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111014547.3A Active CN113688243B (zh) 2021-08-31 2021-08-31 语句中实体的标注方法、装置、设备以及存储介质

Country Status (1)

Country Link
CN (1) CN113688243B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105389307A (zh) * 2015-12-02 2016-03-09 上海智臻智能网络科技股份有限公司 语句意图类别识别方法及装置
CN110188351A (zh) * 2019-05-23 2019-08-30 北京神州泰岳软件股份有限公司 语句通顺度及句法评分模型的训练方法及装置
CN111144102A (zh) * 2019-12-26 2020-05-12 联想(北京)有限公司 用于识别语句中实体的方法、装置和电子设备
CN111460118A (zh) * 2020-03-26 2020-07-28 聚好看科技股份有限公司 一种人工智能冲突语义识别方法及装置
CN112215008A (zh) * 2020-10-23 2021-01-12 中国平安人寿保险股份有限公司 基于语义理解的实体识别方法、装置、计算机设备和介质
WO2021109787A1 (zh) * 2019-12-05 2021-06-10 京东方科技集团股份有限公司 同义词挖掘方法、同义词词典的应用方法、医疗同义词挖掘方法、医疗同义词词典的应用方法、同义词挖掘装置及存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105389307A (zh) * 2015-12-02 2016-03-09 上海智臻智能网络科技股份有限公司 语句意图类别识别方法及装置
CN110188351A (zh) * 2019-05-23 2019-08-30 北京神州泰岳软件股份有限公司 语句通顺度及句法评分模型的训练方法及装置
WO2021109787A1 (zh) * 2019-12-05 2021-06-10 京东方科技集团股份有限公司 同义词挖掘方法、同义词词典的应用方法、医疗同义词挖掘方法、医疗同义词词典的应用方法、同义词挖掘装置及存储介质
CN111144102A (zh) * 2019-12-26 2020-05-12 联想(北京)有限公司 用于识别语句中实体的方法、装置和电子设备
CN111460118A (zh) * 2020-03-26 2020-07-28 聚好看科技股份有限公司 一种人工智能冲突语义识别方法及装置
CN112215008A (zh) * 2020-10-23 2021-01-12 中国平安人寿保险股份有限公司 基于语义理解的实体识别方法、装置、计算机设备和介质

Also Published As

Publication number Publication date
CN113688243B (zh) 2024-02-13

Similar Documents

Publication Publication Date Title
CN109933785B (zh) 用于实体关联的方法、装置、设备和介质
CN107085585B (zh) 用于图像搜索的准确的标签相关性预测
CN109871446B (zh) 意图识别中的拒识方法、电子装置及存储介质
US20210382937A1 (en) Image processing method and apparatus, and storage medium
WO2021169111A1 (zh) 简历筛选方法、装置、计算机设备和存储介质
US20230039496A1 (en) Question-and-answer processing method, electronic device and computer readable medium
CN111444344B (zh) 实体分类方法、装置、计算机设备和存储介质
CN112015878B (zh) 处理智慧客服未回答问题的方法、装置及计算机设备
CN111651992A (zh) 命名实体标注方法、装置、计算机设备和存储介质
CN110427612B (zh) 基于多语言的实体消歧方法、装置、设备和存储介质
CN109189892B (zh) 一种基于文章评论的推荐方法及装置
CN113657098B (zh) 文本纠错方法、装置、设备及存储介质
CN111860669A (zh) Ocr识别模型的训练方法、装置和计算机设备
CN111666766A (zh) 数据处理方法、装置和设备
CN113849648A (zh) 分类模型训练方法、装置、计算机设备和存储介质
CN112100377A (zh) 文本分类方法、装置、计算机设备和存储介质
Monisha et al. Classification of bengali questions towards a factoid question answering system
CN112182217A (zh) 多标签文本类别的识别方法、装置、设备和存储介质
US11966455B2 (en) Text partitioning method, text classifying method, apparatus, device and storage medium
CN111786999B (zh) 一种入侵行为的检测方法、装置、设备和存储介质
CN108229564B (zh) 一种数据的处理方法、装置及设备
CN109726386B (zh) 一种词向量模型生成方法、装置和计算机可读存储介质
CN114090792A (zh) 基于对比学习的文档关系抽取方法及其相关设备
CN111597336B (zh) 训练文本的处理方法、装置、电子设备及可读存储介质
CN116340512A (zh) 虚假评论的认定方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant