CN109657056A - 目标样本获取方法、装置、存储介质及电子设备 - Google Patents

目标样本获取方法、装置、存储介质及电子设备 Download PDF

Info

Publication number
CN109657056A
CN109657056A CN201811351559.3A CN201811351559A CN109657056A CN 109657056 A CN109657056 A CN 109657056A CN 201811351559 A CN201811351559 A CN 201811351559A CN 109657056 A CN109657056 A CN 109657056A
Authority
CN
China
Prior art keywords
sample
filtered
cluster
entity
dimension
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811351559.3A
Other languages
English (en)
Other versions
CN109657056B (zh
Inventor
焦增涛
腾召荣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Golden Panda Co Ltd
Original Assignee
Golden Panda Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Golden Panda Co Ltd filed Critical Golden Panda Co Ltd
Priority to CN201811351559.3A priority Critical patent/CN109657056B/zh
Publication of CN109657056A publication Critical patent/CN109657056A/zh
Application granted granted Critical
Publication of CN109657056B publication Critical patent/CN109657056B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提供一种目标样本获取方法、装置、存储介质及电子设备,该方法包括:对全量样本中的每个样本进行分词,并识别出每个样本中针对目标领域的实体;对每个样本的质量打分,基于每个样本的分词以及实体对所述全量样本进行过滤,以获取过滤后的样本;利用所述过滤后的每个样本构建过滤后的每个样本的向量模型;基于所述过滤后的每个样本的向量模型对所述过滤后的样本进行聚类,以获取聚类后的多簇样本;对所述多簇样本进行采样,从每簇样本中获取针对所述目标领域的目标样本,提升了针对目标领域的样本质量,提升后续进行样本标记的效率以及准确率。

Description

目标样本获取方法、装置、存储介质及电子设备
技术领域
本发明涉及计算机技术领域,具体而言,涉及一种目标样本获取方法、装置、存储介质及电子设备。
背景技术
人工智能在数据处理分析中作用越来越被重视,机器学习技术是开展人工智能的核心方法,真实有效的标注语料是机器学习开展的前提。而数据的人工标注是非常费时费力的,如何从大量的无标注文本中,选择合适的文本样本进行人工标注,是一项非常关键的技术。
现有的样本选择技术一般有一下几类:
1.第一类:从全量样本集中随机采样。
2.第二类:基于主动学习的方法,逐步完善模型。即:按一定策略采样少量样本进行标注,训练一个初始模型,然后针对模型的难易区分的样本,进行人工标注,加入训练语料,迭代上述过程,指导模型效果满足预期。
3.第三类:将全量样本集聚类,然后基于聚类结果采样目标数据。例如,以样本相似度为边构建成一个原始连通图,生成该原始连通图的最小生成树,将最小生成树分割成K个子连通图,从每个子连通图中选择一个样本作为初始样本。
在现实本发明的过程中,发明人发现现有技术中的上述几类方法至少存在以下技术问题:
1.第一类:从待标注样本集中随机采样,该方法在待标注样本集规模无限大的场景下,是有效的,但是真实场景下,随机采样通常很难获取有效的标注样本集合。
2.第二类:主动学习的方法理论上是比较完美的方法,不过实施过程中没有综合考虑特征迭代和训练样本迭代、当前模型难易区分的样本的标准不一定有效、标准任务词数多等缺点。
3.第三类:这类方法回避了更重要的问题如何设计和定义文本样本的相似度,即如何表示一个样本及定量刻画样本之间相似度。
因此需要一种新的目标样本获取方法、装置、存储介质及电子设备,以提升针对目标领域的样本质量,提升后续进行样本标记的效率以及准确率。
在所述背景技术部分公开的上述信息仅用于加强对本发明的背景的理解,因此它可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
有鉴于此,本发明提供一种新的目标样本获取方法、装置、存储介质及电子设备,以提升针对目标领域的样本质量,提升后续进行样本标记的效率以及准确率。
本发明的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本发明的实践而习得。
根据本发明的第一方面,提供一种目标样本获取方法,其中,所述方法包括:
对全量样本中的每个样本进行分词,并识别出每个样本中针对目标领域的实体;
对每个样本的质量打分,基于每个样本的分词以及实体对所述全量样本进行过滤,以获取过滤后的样本;
利用所述过滤后的每个样本构建过滤后的每个样本的向量模型;
基于所述过滤后的每个样本的向量模型对所述过滤后的样本进行聚类,以获取聚类后的多簇样本;
对所述多簇样本进行采样,从每簇样本中获取针对所述目标领域的目标样本。
根据一些实施例,对每个样本的质量打分,基于每个样本的分词以及实体对所述全量样本进行过滤,以获取过滤后的样本,包括:
获取每个样本的实体在多个维度中的每个维度上的得分;
基于每个样本在每个维度上的得分以及每个维度的权重获取到所述样本的总得分;
将总得分低于阈值的样本过滤,以获取过滤后的样本。
根据一些实施例,获取每个样本的实体在多个维度中的每个维度上的得分,包括:
通过以下公式计算出每个样本的实体在每个维度上的得分:
其中,Score表示一个样本在一个维度上的得分,x表示所述样本的实体在所述维度上的维度值,a表示所述全量样本的实体在所述维度上的平均维度值。
根据一些实施例,利用所述过滤后的每个样本构建过滤后的每个样本的向量模型,包括:
获取过滤后的每个样本在多个向量维度上的向量;
基于每个向量维度的权重以及每个样本在每个向量维度上的向量,对所述多个向量维度进行拼接,以得到每个样本的向量模型。
根据一些实施例,所述多个向量维度包括:文本向量、实体特征向量以及表达模型特征向量。
根据一些实施例,基于所述过滤后的每个样本的向量模型对所述过滤后的样本进行聚类,以获取聚类后的多簇样本,包括:
基于所述过滤后的每个样本的向量模型获取到所述过滤后的样本之间的相似度;
将相似度处于预设范围内的样本进行聚类,以获取聚类后的多簇样本。
根据一些实施例,从每簇样本中获取针对所述目标领域的目标样本,包括:
计算每簇内的样本距离所述簇的质心的距离;
获取每簇内距离所述簇的质心的距离在预设距离内的样本,所述样本为所述目标领域的目标样本。
根据一些实施例,所述多个维度包括:样本词数、样本去重词数、样本实体数以及样本实体类型数;
所述样本实体类型包括:医学实体、通用实体;
所述医学实体包括:诊断名、症状、治疗方法、手术名、检查、检验、生理、药品、解刨部位、病变以及耗材;
所述通用实体包括:相对时间、绝对时间、数字、亲属、方位词、否定词、程度以及趋势。
根据本发明的第二方面,提供一种目标样本获取装置,其中,所述装置包括:
识别模块,用于识别出全量样本中的每个样本中针对目标领域的实体;
第一获取模块,用于对每个样本的质量打分,基于每个样本的实体对所述全量样本进行过滤,以获取过滤后的样本;
构建模块,用于利用所述过滤后的每个样本构建过滤后的每个样本的向量模型;
第二获取模块,用于基于所述过滤后的每个样本的向量模型对所述过滤后的样本进行聚类,以获取聚类后的多簇样本;
第三获取模块,用于对所述多簇样本进行采样,从每簇样本中获取针对所述目标领域的目标样本。
根据本发明的第三方面,提供一种计算机可读存储介质,其上存储有计算机程序,其中,该程序被处理器执行时实现如第一方面所述的方法步骤。
根据本发明的第四方面,提供一种电子设备,其中,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如第一方面所述的方法步骤。
本发明实施例提供一种目标样本获取方法、装置、存储介质及电子设备,该方法包括:对全量样本中的每个样本进行分词,并识别出每个样本中针对目标领域的实体;对每个样本的质量打分,基于每个样本的分词以及实体对所述全量样本进行过滤,以获取过滤后的样本;利用所述过滤后的每个样本构建过滤后的每个样本的向量模型;基于所述过滤后的每个样本的向量模型对所述过滤后的样本进行聚类,以获取聚类后的多簇样本;对所述多簇样本进行采样,从每簇样本中获取针对所述目标领域的目标样本,提升了针对目标领域的样本质量,提升后续进行样本标记的效率以及准确率。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
通过参照附图来详细描述其示例性实施例,本公开的上述和其它特征及优点将变得更加明显。显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1是根据一示例性实施例示出的一种目标样本获取方法的流程图;
图2是根据一示例性实施例示出的一种在线资源管理装置的结构示意图;
图3是根据一示例性实施例中的电子设备的模块示意图;
图4是根据一示例性实施例中的程序产品示意图。
具体实施方式
现在将参考附图更全面地描述示例实施例。然而,示例实施例能够以多种形式实施,且不应被理解为限于在此阐述的实施例;相反,提供这些实施例使得本发明将全面和完整,并将示例实施例的构思全面地传达给本领域的技术人员。在图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。
此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本发明的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本发明的技术方案而没有特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知方法、装置、实现或者操作以避免模糊本发明的各方面。
附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
图1是根据一示例性实施例示出的一种目标样本获取方法的流程图。
如图1所示,在S110中,对全量样本中的每个样本进行分词,并识别出每个样本中针对目标领域的实体。
根据本发明实施例,可以对全量样本进行预处理,使用现有分词器将全量样本中的每个样本进行细粒度分词,并以分词结果为基础,进行目标领域内的实体识别。
例如,表1为本发明实施例提供的对一个样本进行医疗领域的实体识别后识别的结果。
表1
在S120中,对每个样本的质量打分,基于每个样本的分词以及实体对所述全量样本进行过滤,以获取过滤后的样本。
根据本发明实施例,可以获取每个样本的分词以及实体在多个维度中的每个维度上的得分,基于每个样本在每个维度上的得分以及每个维度的权重获取到所述样本的总得分,将总得分低于阈值的样本过滤,以获取过滤后的样本。
根据本发明实施例,可以通过以下公式计算出每个样本的实体在每个维度上的得分:
其中,Score表示一个样本在一个维度上的得分,x表示所述样本的实体在所述维度上的维度值,a表示所述全量样本的实体在所述维度上的平均维度值。
需要说明的是,本发明实施例中的多个维度可以包括但不限于:样本词数、样本去重词数、样本实体数以及样本实体类型数。最终每个样本的总得分可以通过以下公式获得:
Score=λ1×Score样本词数2×Score样本去重词数3×Score样本实体数4×Score样本实体类型数
其中,λ1为样本词数维度的权重,λ2为样本去重词数维度的权重,λ3为样本实体数维度的权重,λ4为样本实体类型数维度的权重。
其中,在获取到每个样本的总得分后,可以按照总得分大小对样本进行排序,根据经验值得到阈值,将总得分低于阈值的样本过滤掉,从而获取到过滤后的样本。
根据本发明实施例,多个维度可以包括但不限于:样本词数、样本去重词数、样本实体数以及样本实体类型数。
样本实体类型可以包括但不限于:医学实体、通用实体。
医学实体可以包括但不限于:诊断名、症状、治疗方法、手术名、检查、检验、生理、药品、解刨部位、病变以及耗材。
通用实体可以包括但不限于:相对时间、绝对时间、数字、亲属、方位词、否定词、程度以及趋势。
在S130中,利用所述过滤后的每个样本构建过滤后的每个样本的向量模型。
根据本发明实施例,在获取到过滤后的样本后,可以获取过滤后的每个样本在多个向量维度上的向量,并基于每个向量维度的权重以及每个样本在每个向量维度上的向量,对所述多个向量维度进行拼接,以得到每个样本的向量模型。
需要说明的是,所述多个向量维度可以包括但不限于:文本向量、实体特征向量以及表达模型特征向量。
下面对各个维度向量进行具体的说明:
1、文本(Doc2vec)向量。
Doc2vec向量可以通过批量语料无监督学习得到。需要指出的是,一般情况下,神经语言程序学NLP任务使用Dov2vec表示文本效果一般,主要是由于数据集太小学不出东西,而数据集大,doc本身增多,也会导致问题求解空间变大,但是,应用在本发明实施例中,对于目标领域(例如,医疗领域)的文本(例如,病例数据)相对能得到不错的效果,这是因为目标领域专业性强,大量高频重复表达模式存在。在获取到每个样本的文本向量后,对文本向量归一化,使各个向量特征值平方和等于1。
2、实体特征向量。
文本中识别出的实体是表达文本语义很重要的信息,可以将每一个实体定义为一向量特征,以样本中实体的频次作为该向量特征的权重,构建实体特征向量。在获取到每个样本的实体特征向量后,对实体特征向量归一化,使各个向量特征值平方和等于1。
3、表达模型特征向量。
本发明实施例中,可以预先通过频繁模式挖掘方法从全量样本集挖掘出大量频繁模式,人工筛选后保留语义信息丰富的多种模式,将每一种模式表示成一个向量特征,组成特征向量,若过滤后的每个样本中存在该模式,则该向量特征值为1,不存在为0。在获取到每个样本的表达模型特征向量后,对表达模型特征向量归一化,使各个向量特征值平方和等于1。
在获取到每个样本在上述每个向量维度的向量后,将每个向量分别乘以每个向量的预设权重,并对每个样本的所有向量进行拼接,组成一个新的特征向量,并归一后,得到每个样本的向量模型。
在S140中,基于所述过滤后的每个样本的向量模型对所述过滤后的样本进行聚类,以获取聚类后的多簇样本。
根据本发明实施例,可以基于所述过滤后的每个样本的向量模型获取到所述过滤后的样本之间的相似度,并将相似度处于预设范围内的样本进行聚类,以获取聚类后的多簇样本。
需要说明的是,根据每个样本的向量模型,可以度量样本之间的相似度,通过一些无监督的聚类算法,可以将相似度为预设范围内的样本聚成一簇,从而将过滤后的样本聚类成包括至少一簇的样本,得到过滤后的样本大体的分布。
在S150中,对所述多簇样本进行采样,从每簇样本中获取针对所述目标领域的目标样本。
本发明实施例中,根据聚类成的每簇样本,可以对每簇样本进行采样,计算每簇内的样本距离所述簇的质心的距离,并获取每簇内距离所述簇的质心的距离在预设距离内的样本,所述样本为所述目标领域的目标样本。
需要说明的是,可以采用欧式距离计算出每一个簇内样本距离自己簇质心的距离,该质心可以由目标领域确定,然后从每一个簇内选择距离质心在预设距离内的样本,这些样本为目标样本。
需要说明的是,本发明实施例中,在获取到目标样本后,还可以对目标样本进行标记,从而对目标样本进行标记。
本发明实施例中,对全量样本中的每个样本进行分词,并识别出每个样本中针对目标领域的实体;对每个样本的质量打分,基于每个样本的分词以及实体对所述全量样本进行过滤,以获取过滤后的样本;利用所述过滤后的每个样本构建过滤后的每个样本的向量模型;基于所述过滤后的每个样本的向量模型对所述过滤后的样本进行聚类,以获取聚类后的多簇样本;对所述多簇样本进行采样,从每簇样本中获取针对所述目标领域的目标样本,提升了针对目标领域的样本质量,提升后续进行样本标记的效率以及准确率。
应清楚地理解,本发明描述了如何形成和使用特定示例,但本发明的原理不限于这些示例的任何细节。相反,基于本发明公开的内容的教导,这些原理能够应用于许多其它实施例。
下述为本发明装置实施例,可以用于执行本发明方法实施例。在下文对装置的描述中,与前述方法相同的部分,将不再赘述。
图2是根据一示例性实施例示出的一种目标样本获取装置的结构示意图。如图2所示,所述装置200包括:
识别模块210,用于识别出全量样本中的每个样本中针对目标领域的实体;
第一获取模块220,用于对每个样本的质量打分,基于每个样本的实体对所述全量样本进行过滤,以获取过滤后的样本;
构建模块230,用于利用所述过滤后的每个样本构建过滤后的每个样本的向量模型;
第二获取模块240,用于基于所述过滤后的每个样本的向量模型对所述过滤后的样本进行聚类,以获取聚类后的多簇样本;
第三获取模块250,用于对所述多簇样本进行采样,从每簇样本中获取针对所述目标领域的目标样本。
本发明实施例提供一种目标样本获取方法、装置、存储介质及电子设备,该方法包括:对全量样本中的每个样本进行分词,并识别出每个样本中针对目标领域的实体;对每个样本的质量打分,基于每个样本的分词以及实体对所述全量样本进行过滤,以获取过滤后的样本;利用所述过滤后的每个样本构建过滤后的每个样本的向量模型;基于所述过滤后的每个样本的向量模型对所述过滤后的样本进行聚类,以获取聚类后的多簇样本;对所述多簇样本进行采样,从每簇样本中获取针对所述目标领域的目标样本,提升了针对目标领域的样本质量,提升后续进行样本标记的效率以及准确率。
应当注意,尽管在上文详细描述中提及了用于执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本公开的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
在本公开的示例性实施例中,还提供了一种能够实现上述方法的电子设备。
所属技术领域的技术人员能够理解,本发明的各个方面可以实现为系统、方法或程序产品。因此,本发明的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“系统”。
下面参照图3来描述根据本发明的这种实施方式的电子设备300。图3显示的电子设备300仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图3所示,电子设备300以通用计算设备的形式表现。电子设备300的组件可以包括但不限于:上述至少一个处理单元310、上述至少一个存储单元320、连接不同系统组件(包括存储单元320和处理单元310)的总线330、显示单元340。
其中,所述存储单元存储有程序代码,所述程序代码可以被所述处理单元310执行,使得所述处理单元310执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的步骤。例如,所述处理单元310可以执行如图1中所示的110、对全量样本中的每个样本进行分词,并识别出每个样本中针对目标领域的实体;S120、对每个样本的质量打分,基于每个样本的分词以及实体对所述全量样本进行过滤,以获取过滤后的样本;S130、利用所述过滤后的每个样本构建过滤后的每个样本的向量模型;S140、基于所述过滤后的每个样本的向量模型对所述过滤后的样本进行聚类,以获取聚类后的多簇样本;S150、对所述多簇样本进行采样,从每簇样本中获取针对所述目标领域的目标样本。
存储单元320可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(RAM)3201和/或高速缓存存储单元3202,还可以进一步包括只读存储单元(ROM)3203。
存储单元320还可以包括具有一组(至少一个)程序模块3205的程序/实用工具3204,这样的程序模块3205包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
总线330可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
电子设备300也可以与一个或多个外部设备370(例如键盘、指向设备、蓝牙设备等)通信,还可与一个或者多个使得用户能与该电子设备300交互的设备通信,和/或与使得该电子设备300能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口350进行。并且,电子设备300还可以通过网络适配器360与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器360通过总线330与电子设备300的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备300使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本公开实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本公开实施方式的方法。
在本公开的示例性实施例中,还提供了一种计算机可读存储介质,其上存储有能够实现本说明书上述方法的程序产品。在一些可能的实施方式中,本发明的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在终端设备上运行时,所述程序代码用于使所述终端设备执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的步骤。
参考图4所示,描述了根据本发明的实施方式的用于实现上述方法的程序产品400,其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在终端设备,例如个人电脑上运行。然而,本发明的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
此外,上述附图仅是根据本发明示例性实施例的方法所包括的处理的示意性说明,而不是限制目的。易于理解,上述附图所示的处理并不表明或限制这些处理的时间顺序。另外,也易于理解,这些处理可以是例如在多个模块中同步或异步执行的。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其他实施例。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限。

Claims (10)

1.一种目标样本获取方法,其特征在于,所述方法包括:
对全量样本中的每个样本进行分词,并识别出每个样本中针对目标领域的实体;
对每个样本的质量打分,基于每个样本的分词以及实体对所述全量样本进行过滤,以获取过滤后的样本;
利用所述过滤后的每个样本构建过滤后的每个样本的向量模型;
基于所述过滤后的每个样本的向量模型对所述过滤后的样本进行聚类,以获取聚类后的多簇样本;
对所述多簇样本进行采样,从每簇样本中获取针对所述目标领域的目标样本。
2.如权利要求1所述的方法,其特征在于,对每个样本的质量打分,基于每个样本的分词以及实体对所述全量样本进行过滤,以获取过滤后的样本,包括:
获取每个样本的实体在多个维度中的每个维度上的得分;
基于每个样本在每个维度上的得分以及每个维度的权重获取到所述样本的总得分;
将总得分低于阈值的样本过滤,以获取过滤后的样本。
3.如权利要求2所述的方法,其特征在于,获取每个样本的实体在多个维度中的每个维度上的得分,包括:
通过以下公式计算出每个样本的实体在每个维度上的得分:
其中,Score表示一个样本在一个维度上的得分,x表示所述样本的实体在所述维度上的维度值,a表示所述全量样本的实体在所述维度上的平均维度值。
4.如权利要求2所述的方法,其特征在于,利用所述过滤后的每个样本构建过滤后的每个样本的向量模型,包括:
获取过滤后的每个样本在多个向量维度上的向量;
基于每个向量维度的权重以及每个样本在每个向量维度上的向量,对所述多个向量维度进行拼接,以得到每个样本的向量模型。
5.如权利要求1所述的方法,其特征在于,基于所述过滤后的每个样本的向量模型对所述过滤后的样本进行聚类,以获取聚类后的多簇样本,包括:
基于所述过滤后的每个样本的向量模型获取到所述过滤后的样本之间的相似度;
将相似度处于预设范围内的样本进行聚类,以获取聚类后的多簇样本。
6.如权利要求1所述的方法,其特征在于,从每簇样本中获取针对所述目标领域的目标样本,包括:
计算每簇内的样本距离所述簇的质心的距离;
获取每簇内距离所述簇的质心的距离在预设距离内的样本,所述样本为所述目标领域的目标样本。
7.如权利权利要求2所述的方法,其特征在于,所述多个维度包括:样本词数、样本去重词数、样本实体数以及样本实体类型数;
所述样本实体类型包括:医学实体、通用实体;
所述医学实体包括:诊断名、症状、治疗方法、手术名、检查、检验、生理、药品、解刨部位、病变以及耗材;
所述通用实体包括:相对时间、绝对时间、数字、亲属、方位词、否定词、程度以及趋势。
8.一种目标样本获取装置,其特征在于,所述装置包括:
识别模块,用于识别出全量样本中的每个样本中针对目标领域的实体;
第一获取模块,用于对每个样本的质量打分,基于每个样本的实体对所述全量样本进行过滤,以获取过滤后的样本;
构建模块,用于利用所述过滤后的每个样本构建过滤后的每个样本的向量模型;
第二获取模块,用于基于所述过滤后的每个样本的向量模型对所述过滤后的样本进行聚类,以获取聚类后的多簇样本;
第三获取模块,用于对所述多簇样本进行采样,从每簇样本中获取针对所述目标领域的目标样本。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1-7任一项所述的方法步骤。
10.一种电子设备,其特征在于,包括:一个或多个处理器;
存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1-7中任一项所述的方法步骤。
CN201811351559.3A 2018-11-14 2018-11-14 目标样本获取方法、装置、存储介质及电子设备 Active CN109657056B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811351559.3A CN109657056B (zh) 2018-11-14 2018-11-14 目标样本获取方法、装置、存储介质及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811351559.3A CN109657056B (zh) 2018-11-14 2018-11-14 目标样本获取方法、装置、存储介质及电子设备

Publications (2)

Publication Number Publication Date
CN109657056A true CN109657056A (zh) 2019-04-19
CN109657056B CN109657056B (zh) 2021-04-06

Family

ID=66111386

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811351559.3A Active CN109657056B (zh) 2018-11-14 2018-11-14 目标样本获取方法、装置、存储介质及电子设备

Country Status (1)

Country Link
CN (1) CN109657056B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111339767A (zh) * 2020-02-21 2020-06-26 百度在线网络技术(北京)有限公司 对话源数据处理方法及装置、电子设备、计算机可读介质
CN111581975A (zh) * 2020-05-09 2020-08-25 北京明朝万达科技股份有限公司 案件的笔录文本的处理方法、装置、存储介质和处理器
WO2021135330A1 (zh) * 2020-07-28 2021-07-08 平安科技(深圳)有限公司 图像样本选择方法及相关设备
CN113127333A (zh) * 2019-12-31 2021-07-16 中移互联网有限公司 一种数据处理方法、装置、电子设备和存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103186527A (zh) * 2011-12-27 2013-07-03 北京百度网讯科技有限公司 建立音乐分类模型的系统、推荐音乐的系统及相应方法
CN105677779A (zh) * 2015-12-30 2016-06-15 山东大学 一种基于评分机制的反馈型问题类型分类器系统及其工作方法
WO2016162231A1 (en) * 2015-04-10 2016-10-13 Asml Netherlands B.V. Method and apparatus for inspection and metrology
CN107291697A (zh) * 2017-06-29 2017-10-24 浙江图讯科技股份有限公司 一种语义分析方法、电子设备、存储介质及其诊断系统
CN108446738A (zh) * 2018-03-23 2018-08-24 联想(北京)有限公司 一种聚类方法、装置及电子设备
CN108491377A (zh) * 2018-03-06 2018-09-04 中国计量大学 一种基于多维度信息融合的电商产品综合评分方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103186527A (zh) * 2011-12-27 2013-07-03 北京百度网讯科技有限公司 建立音乐分类模型的系统、推荐音乐的系统及相应方法
WO2016162231A1 (en) * 2015-04-10 2016-10-13 Asml Netherlands B.V. Method and apparatus for inspection and metrology
CN105677779A (zh) * 2015-12-30 2016-06-15 山东大学 一种基于评分机制的反馈型问题类型分类器系统及其工作方法
CN107291697A (zh) * 2017-06-29 2017-10-24 浙江图讯科技股份有限公司 一种语义分析方法、电子设备、存储介质及其诊断系统
CN108491377A (zh) * 2018-03-06 2018-09-04 中国计量大学 一种基于多维度信息融合的电商产品综合评分方法
CN108446738A (zh) * 2018-03-23 2018-08-24 联想(北京)有限公司 一种聚类方法、装置及电子设备

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113127333A (zh) * 2019-12-31 2021-07-16 中移互联网有限公司 一种数据处理方法、装置、电子设备和存储介质
CN111339767A (zh) * 2020-02-21 2020-06-26 百度在线网络技术(北京)有限公司 对话源数据处理方法及装置、电子设备、计算机可读介质
CN111581975A (zh) * 2020-05-09 2020-08-25 北京明朝万达科技股份有限公司 案件的笔录文本的处理方法、装置、存储介质和处理器
WO2021135330A1 (zh) * 2020-07-28 2021-07-08 平安科技(深圳)有限公司 图像样本选择方法及相关设备

Also Published As

Publication number Publication date
CN109657056B (zh) 2021-04-06

Similar Documents

Publication Publication Date Title
CN111066021B (zh) 使用随机文档嵌入的文本数据表示学习
CN109657056A (zh) 目标样本获取方法、装置、存储介质及电子设备
US9361587B2 (en) Authoring system for bayesian networks automatically extracted from text
US11081215B2 (en) Medical record problem list generation
US11048870B2 (en) Domain concept discovery and clustering using word embedding in dialogue design
KR102179890B1 (ko) 텍스트 데이터 수집 및 분석을 위한 시스템
US11636376B2 (en) Active learning for concept disambiguation
Kang et al. A regularized k-means and multiphase scale segmentation
CN109766437A (zh) 一种文本聚类方法、文本聚类装置及终端设备
US11030402B2 (en) Dictionary expansion using neural language models
CN109684476A (zh) 一种文本分类方法、文本分类装置及终端设备
CN111338897A (zh) 应用主机中异常节点的识别方法、监测设备和电子设备
Norris Machine Learning with the Raspberry Pi
US20200160191A1 (en) Semi-automated correction of policy rules
CN113656587B (zh) 文本分类方法、装置、电子设备及存储介质
CN109948140A (zh) 一种词向量嵌入方法及装置
CN109635184A (zh) 基于数据分析的金融产品推荐方法、装置和计算机设备
US20210149990A1 (en) Iteratively expanding concepts
CN108733702B (zh) 用户查询上下位关系提取的方法、装置、电子设备和介质
US11200376B2 (en) Expanded concept matching
US20210034676A1 (en) Semantic relationship search against corpus
US20210192133A1 (en) Auto-suggestion of expanded terms for concepts
WO2022194086A1 (en) A neuro-symbolic approach for entity linking
US20240028831A1 (en) Apparatus and a method for detecting associations among datasets of different types
US20220391631A1 (en) Post-hoc local explanations of black box similarity models

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant