CN106919545A - 用于处理文档的方法与设备 - Google Patents

用于处理文档的方法与设备 Download PDF

Info

Publication number
CN106919545A
CN106919545A CN201510997304.4A CN201510997304A CN106919545A CN 106919545 A CN106919545 A CN 106919545A CN 201510997304 A CN201510997304 A CN 201510997304A CN 106919545 A CN106919545 A CN 106919545A
Authority
CN
China
Prior art keywords
document
sets
center
mark
natural language
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510997304.4A
Other languages
English (en)
Inventor
李作峰
赖毅辉
林其忠
吴孟华
胡滨洋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips Electronics NV filed Critical Koninklijke Philips Electronics NV
Priority to CN201510997304.4A priority Critical patent/CN106919545A/zh
Publication of CN106919545A publication Critical patent/CN106919545A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/169Annotation, e.g. comment data or footnotes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Machine Translation (AREA)

Abstract

本公开的实施例涉及用于处理文档的方法和设备。根据各种实施例,可以基于文档集中的文档的相似性将文档集划分为多个类。得到的多个类包括各自的中心文档。而后,可以使多个类中每个类的中心文档被标注,其中标注至少包括对中心文档中的语句的切分。用于标注文档的自然语言处理模型可以基于标注而被相应地更新。

Description

用于处理文档的方法与设备
技术领域
本公开的实施例总体上涉及自然语言处理,并且更具体地,涉及处理文档的方法与设备。
背景技术
随着计算机技术的发展,利用计算机对各类电子文档进行处理已经成为了很多领域的重要应用。例如,很多医疗机构使用计算机系统来处理与医学诊疗相关的电子文档,诸如电子病历等等。自然语言处理技术被用来从这些文档提取数据。所提取的数据可被转换成适于处理和管理的形式,从而方便图形表示、搜索、总结和统计分析等。
目前,对电子文档的自然语言处理方法受限于数据大小、数据多样性和标注的质量。仍然以医疗文档为例,从医疗数据提取数据的常规做法是通过尽可能多的数据来训练自然语言处理模型,这难以有效地应对大数据量的医疗文档。即便采用机器辅助标注过程(MAPA)之类的技术,当文档数量巨大时仍然无法实现高效的文档自动化处理。
发明内容
为了解决本领域中存在的上述问题以及其他潜在问题,在此提供一种文档处理方法和文档处理设备。
本公开的第一方面提供了一种用于处理文档的方法。该方法包括:基于第一文档集中的文档的相似性将第一文档集划分为多个类,该多个类包括各自的中心文档;使该多个类的中心文档被标注,标注至少包括对中心文档中的语句的切分;以及基于标注更新用于标注文档的自然语言处理模型。基于相似性的划分可以用于确保同一类内的文档的相似性较高,不同类之间的文档的相似性较低,并且从中选择中心文档进行标注,可以减少专业人员标注的工作量,同时还可以确保具有足够的多样性(diversity),使得可以利用充分的信息来更新模型。
根据一些可选实施例,基于标注更新用于标注文档的自然语言处理模型包括:基于标注创建自然语言处理模型。
根据一些可选实施例,基于该标注更新用于标注文档的自然语言处理模型包括:从经标注的文档中选择基于相同模板而生成的文档;以及基于选择出的文档来更新该自然语言处理模型。这种异常文档处理方法既可以确保不遗漏重要信息,而且还不影响模型的性能。
根据一些可选实施例,将第一文档集划分为多个类包括对第一文档集执行聚类,以及其中中心文档包括与聚类的质心的相似性大于预定阈值的文档。根据一些可选实施例,以第一文档集中的文档为质心执行聚类,并且中心文档为该质心。这种方法获得的质心即为文档集中的真实文档,并且可以选择该质心进行标注,从而仅需标注一个最具代表性的文档。
根据一些可选实施例,第一文档集包括与医学诊疗有关的文档,并且其中将第一文档集划分为多个类包括:根据医疗词典对第一文档集中的文档进行分段;以及根据经分段的文档之间的相似性来划分第一文档集。医疗领域具有其特定的自语言(sublanguage),因此,基于医疗词典进行分段,从而划分第一文档集可以使得划分更加准确,提高方法的性能和可靠性。
根据一些可选实施例,将第一文档集划分为多个类包括:根据第一文档集中的文档的词频-反向文档频率(TF-IDF)和语句顺序中的至少一项,来确定文档的相似性;以及基于确定的相似性来划分第一文档集。
根据一些可选实施例,该方法还包括:响应于对自然语言处理模型的更新的量超过预定阈值,通过从第一文档集移除部分文档获得第二文档集;基于第二文档集中的文档的相似性,将第二文档集划分为多个类;使第二文档集的多个类的中心文档被标注;基于对第二文档集的多个类的中心文档的标注,更新自然语言处理模型。根据一些可选实施例,获得第二文档集包括:响应于第二文档集为空,将先前移除的除经标注的中心文档之外的文档添加到第二文档集。根据一些可选实施例,将先前移除的除经标注中心文档之外的文档添加到第二文档集包括:将先前移除的文档中除经标注中心文档之外的、基于相同模板的文档添加到第二文档集。
本公开的第二方面提供了一种用于处理文档的设备。该设备包括处理单元,其被配置成:基于第一文档集中的文档的相似性将第一文档集划分为多个类,该多个类包括各自的中心文档;使该多个类的中心文档被标注,该标注至少包括对中心文档中的语句的切分;以及基于标注更新用于标注文档的自然语言处理模型。
根据本公开的实施例,用于处理文档的方法可以显著减少人工标注的工作量,同时还可以确保具有足够的多样性,使得自然语言处理模型可以利用足够充分的信息来训练和更新。
附图说明
通过参考附图阅读下文的详细描述,本公开的上述以及其他目的、结构和特征将更加清楚。在附图中,以示例性而非限制性的方式示出了本公开的若干实施例,其中:
图1示出了根据本公开的示例性实施例的文档处理环境的示意图。
图2示出了根据本公开的示例性实施例的文档处理方法的流程图;
图3示出了根据本公开的示例性实施例的文档处理方法的流程图;
图4示出了根据本公开的示例性实施例的文档处理设备的框图;以及
图5示出了适于实现本公开的示例性实施例的设备的框图。
具体实施方式
下面将参考附图中示出的若干示例性实施方式来描述本公开的原理和精神。应当理解,描述这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本公开,而并非以任何方式限制本公开的范围。
如本文中所述,术语“包括”及其各种变体可以被理解为开放式术语,其意味着“包括但不限于”。术语“基于”可以被理解为“至少部分地基于”。术语“一个实施例”可以被理解为“至少一个实施例”。术语“另一实施例”可以被理解为“至少一个其它实施例”。
如上文简述,当待处理的文档数目巨大时,传统方案无法实现高效、准确的文档处理。例如,MAPA技术允许利用较低性能的自然语言处理模型对待处理的文档进行预标注。在人工校正之后,可以使用校正数据来训练新的模型。但是当文档数目众多时,医师无法高效地完成标注过程。例如,文档中很可能包含大量相似甚至相同的文档,对这样的文档进行重复的标准对模型的创建和更新没有实质性的贡献。此外,传统方案无法有效应对“异常文档”,即,那些与用于文档生成的模板差距较大的文档。如果对异常文档不加处理,则可能丢失有用的信息,比如临床个案的病例信息。另一方面,处理这些文档将会显著增大标注的成本和负担,并且可能对自然语言模型的训练造成负面的影响。
根据本公开的实施例,用来创建、更新和/训练文档处理模型的文档首先根据其相似性而被分类。而后,对于每个类,可以从中选择一个或者少量几个文档进行标注。“标注”是指借助于由用户以人工方式对文档进行语句成分切分、语义注解等操作,这还将在下文详述。然后,这些经标注的文档被用来建立或者更新自然语言处理模型,该自然语言模型随后可以用来自动地处理文档。由于文档按照相似性进行划分,所以用来建立和/或更新自然语言模型的文档是具有代表性的文档,这确保了模型的可用性和准确性。另一方面,由于每个类中仅需标注少量而非全部文档,显著地提高了“标注”这一瓶颈操作的效率,改进了系统性能。而且,在某些实施例中,上述过程可以被迭代地执行直到自然语言处理模型的更新量足够小。以此方式,可以获得尽可能完善的模型。
下面将讨论本公开的若干实施例。为讨论方便,在下文描述中可能参考医学文档来描述本公开的某些实施例。然而应当理解,本公开的实施例同样适用于其他应用领域的文档,例如那些与医疗诊疗处理具有类似特点的应用领域(例如,在该领域内具有特殊语言、文档不容易让外界获取等)。
图1示出了根据本发明的示例性实施例的文档处理环境100的示意图。如图1所示,文档处理环境100包括文档处理设备110,其可以是具备信息/文字处理能力的任何电子设备,例如服务器计算机、个人计算机(PC),等等。文档处理设备110的一个示例性结构将在下文参考图5来描述。文档处理设备110可以从文档库中获取文档集并且按照文档的相似性来划分文档集。通过对文档集的划分,可以得到文档的多个类120-1、120-2…120-n。
在每个类中,可以选择具有代表性的一个或多个文档,称为“中心文档”130-1、130-2…130-n,以供用户150进行标注。术语“标注”是指向文档中添加结构以及用于各种结构的语义标记。标注后的中心文档可以用来更新(例如,建立或修改)一个或多个自然语言处理模型140。该自然语言模型140随后将被用于文档的自动化处理。备选地,也可以训练和使用通用的自然语言处理模型140。
参考图2,其示出了根据本公开的示例性实施例的文档处理方法200的流程图。在步骤201,对于待处理的文档集,基于文档集中的文档的相似性,将文档集划分为多个类。为了讨论方便,下文将步骤201处理的文档集成为“第一文档集”。
根据一些实施例,可以通过聚类方法对第一文档集进行划分。如已知的,聚类方法是一种非监督机器学习方法,其用于将N个样本点分组成K个类,其中N和K是自然数并且N大于或者等于K。通常,聚类方法所使用的信息仅包括样本点之间的相似性。在聚类方法中,聚类的结果使得同一类中的样本点具有较高的相似性,并且不同类之间的样本点具有较低的相似性。任何目前已知或者将来开发的聚类算法均可与本公开的实施例结合使用。聚类算法的示例包括但不限于:k均值(k-means)方法,k中心点(k-medoids)方法,等等。
在某些实施例中,文档的相似性可以根据第一文档集中的文档的词频-反向文档频率(TF-IDF)和/或语句顺序来确定。TF-IDF值随着词在文档中出现的次数的增加而增加,并且随着词在语料库中的频率的增加而减小。因此,TF-IDF可被用来指示词在文档中的重要程度。换言之,某一特定文件内的高词频,以及该词在整个文件集中的低文件频率,可以产生出高的TF-IDF值,其中文件频率表示在文档集中,一个词所出现的文档数与文档集的总文档数的比例。因此,通过使用TF-IDF,能够有效地过滤掉常见的词,保留重要的词。备选地或附加地,语句顺序(例如,主动句、被动句,等等)也可在比较文档相似性时被纳入考虑。通过对第一文档集中的文档执行语句顺序的分析,可以更准确地提取语句内词语的关联关系等,从而更好地评价文档之间的相似性。
特别地,如上所述,在某些实施例中,第一文档集种的文档是与医学诊疗有关的医疗文档。在这样的实施例中,可以根据医疗词典之类的领域知识,对第一文档集中的文档进行分段,并且根据经分段的文档之间的相似性来划分第一文档集。
在此使用的术语“分段”是一种对文档中语言的预处理过程。例如,对于英文而言,分段可以包括标点分割和所有格这样的词缀的分离。对于诸如汉语之类的其他语言同样可以应用分段处理。具体而言,医疗领域具有特定的语言体系,通常也称为“子语言”。因此,如果使用常规词典和常规含义对文档进行分段,则容易导致一些错误和偏差,从而影响后续对文档的相似性的评估。根据医疗词典对文档进行分段可以更准确地评估文档的相似性,进而更好地实现整个方法。
通过对第一文档集进行聚类可以获得若干个类。每个类具有相应的质心(centroid)。根据本公开的实施例,在聚类得到的每个类中,与质心之间的相似性大于预定阈值的一个或多个文档称为“中心文档”。例如,在使用k均值方法划分第一文档集的实施例中,每个类的是该类的文档的均值点,未必是实际的文档。此时,中心文档不一定包括质心本身。在通过k中心点方法划分第一文档集的实施例中,每个类的质心是文档集中的文档之一。此时,中心文档可以包括充当质心的文档本身,并且可选第包括与该文档的相似性足够高的其他一个或多个文档(如果存在的话)。
方法200继而进行到在步骤203,在此使通过划分第一文档集而获得多个类的各自的中心文档被标注。在此使用的术语“标注”是由用户借助于计算机系统对文档进行人工处理,从而向文档中添加结构化信息和/或添加语义标记。这些标记可以用于对文档进行索引,促进文档搜索,并且可以用作数据库中的文档关键词,等等。例如,在步骤203处的标注至少包括切分中心文档中的语句。例如,可以向专业人员呈现中心文档,然后专业人员根据专业知识对这些中心文档的语句进行切分,从而获得的语句进行标注。
作为示例,在医疗领域中,医疗数据的标注通常涉及向医疗数据中添加解释性注释。这些标注或者解释性注释标识医疗程序,寻找向病人开具的药品、临床观察或者其他相关信息。标注可以用于治疗、账单、管理和法律用途。假设一个中心文档包括语句“左心房内径增大”,则专业人员(例如,医师)可以将该语句切分为“左心房”、“内径”、“增大”。在某些实施例中,标注还包括对切分得到的语句部分的语义进行注解。例如,在上面描述的示例中,用户可以将“左心房”标注为“解剖学部位”,将“内径”标注为“特征”,将“增大”标注为“特征的变化或值”。
接下来,在步骤205,基于在步骤203获得的对类的中心文档的标注,更新用于标注文档的自然语言处理模型。该自然语言处理模型将被用于对文档进行自动处理,例如自动切分文档中的语句和/或对切分获得的语句部分进行注解,等等。将会理解,当初次执行方法200时,可能尚不存在自然语言处理模型。此时,在步骤205处的“更新”动作包括创建一个新的自然语言处理模型。另一方面,如果已经存在了一个自然语言处理模型,则在步骤205,而已对该自然语言处理模型进行修改或调整。
在某些实施例中,可以利用在步骤203处被标注的所有中心文档来更新自然语言处理模型。备选地,在另一些实施例中,可以首先从经标注的中文档中选择基于相同的模板(template)而生成的文档。继而,可以基于选择出的这些文档来更新自然语言处理模型。
具体而言,通过对第一文档集的划分(步骤201),在每个类中,在步骤203处进行标注的文档通常来自于相同的模板,例如,都来自于“瓣膜病”这一模板。但是,在文档创建的过程中,可能有些医生不喜欢或者不习惯使用模板中的某些内容。或者,在某些情况下,医生正在处理的病例具有相对特殊的病情。在这些情况下,医生最终形成的文档与模板之间的偏差将会较大。这时,可以认为这些文档不是基于这个文档集的相同的模板生成的,也可以成为异常文档。
一种可行的做法是在步骤201之前就直接将这些文档从第一文档集中移除。但是,这样做可能不适当地是漏掉有用的医疗信息,例如特殊病例的信息。因此,在某些实施例中,在划分文档集时仍然将这些异常文档纳入考虑。相应地,在步骤203,仍然将这些文档让专业人员进行标注,以确保足够的多样性并且不丢失有用的信息。在这样的实施例中,在步骤205,可以仅使用基于相同模板生成的文档来更新自然语言处理模型。换言之,异常文档可以不用于更新自然语言处理模型。以此方式,即避免了可能的信息丢失,又防止了异常文档对自然语言处理模型的更新和性能产生任何负面影响。对于在自然语言处理模型的更新中未被使用的那些异常文档,可以根据具体情况进行处理。例如,如果这些异常文档基于另一模板生成,则可以自动地或者人工地将这些异常文档交由处理该另一模板的自然语言处理模型进行处理。如果一个异常文档不属于任何已有模板,而仅仅是某个医生的个性化描述,在一个实施例中,可以将这些文档用于训练针对该医生的自然语言处理模型。
通过执行方法200,能够有效地提高标注环节的效率,同时还可以确保具有足够的多样性,使得可以利用足够充分的信息用于训练模型。此外,对于异常文档的处理既可以确保不遗漏重要的信息,而且还不影响模型的性能。特别地,将会理解,可以通过多次重复执行方法200而迭代地更新自然语言处理模型。图3示出了一个这样的示例。在图3所示的方法300中,步骤301-305分别对应于图2所示的方法200中的步骤201-205,在此不再赘述。
在步骤307,判断自然语言处理模型的更新的量是否超过预定阈值。在一些实施例中,可以将原有自然语言处理模型应用于在步骤305中被标注的文档,然后比较自然语言模型处理的结果与在步骤305所进行的标注之间的区别来确定对模型的更新的量。作为示例,如果将原有模型应用于包括语句“左心房内径增大”的文档,对该语句所得到的切分结果为“左心”、“房内径”、“增大”,则可以认为对模型的更新的量大于预定阈值。
如果对自然语言处理模型的更新低于预定阈值,说明利用当前作为训练样本的文档集合已经无法对自然语言处理模型做出进一步的显著修改。换言之,在样本集足够完备的情况下,可以认为自然语言处理模型已经比较完善。此时,自然语言处理模型的更新可以在步骤311停止。反之,如果在步骤307确定对自然语言处理模型的更新大于预定阈值,表明自然语言处理模型尚待进一步完善。相应地,方法300进行到步骤309。在步骤309,从文档集移除部分文档。为了讨论方便,将移除部分文档之后所剩余的那些文档称为“第二文档集”。而后,方法300返回步骤301,以便对第二文档集中的文档继续执行处理。在步骤309,可以基于多种因素来确定移除哪些文档。例如,在一个实施例中,可以对每个类的文档按照一定规则进行排序,而后将排序高于预定阈值的文档从文档集移除。这些规则例如可以包括文档的相似性、文档与模板的相似性,等等。
例如,可以简单地将每个类中的相似性高于预定阈值的文档从文档集中移除,然后对所获得的文档集继续执行步骤301。在一些实施例中,针对方法的每轮迭代,用于移除部分文档的阈值可以不同,并且可以针对性地进行优化。例如,如果在一个迭代中,用于移除部分文档的阈值设置过低,则可能移除过多的文档,从而导致与中心文档相似性较低的文档也被移除,这不利于被标注的文档的多样性。在这种情况下,可以在下一个循环中,将用于移除部分文档的阈值设置得更高。相反,如果在一个循环中,用于移除部分文档的阈值设置过高,则可能移除了过少的文档,从而导致与中心文档相似性较高的文档仍然被保留,在下一次循环中还需要被标注,增加了专业人员的标注的工作量。经过多次循环,可以确定合适的用于移除部分文档的阈值。
根据一些实施例,如果从文档集移除部分文档后,文档集为空,则表明在之前循环中,步骤309所设置的用于移除部分文档的阈值可能不太合适,导致文档集已经为空,而模型的性能仍然不够好(即,在步骤307处判断的更新大于阈值)。此时,响应于该文档集为空,可以将先前移除的除经标注的中心文档之外的文档添加到空文档集中,从而形成第二文档集。由于先前删除的文档中包括经标注的中心文档,因此,在这一步骤中无需将经标注的中心文档添加到该文档集。在一些实施例中,可以将先前移除的文档中除经标注中心文档之外的、基于相同模板的文档添加到该文档集。由于在上述过程中,对异常文档仍然进行了标注,并且还将距离该中心文档的预定阈值内的文档移除,因此这些经移除的文档可以被认定为基于与文档集不同的模板生成的,因此,无需将这部分移除的文档再添加到文档集中,进行标注,从而可以提高标注的效率。
经过若干循环之后,方法300可以获得性能较高的自然语言处理模型,并且保证专业人员标注的工作量不会太大。
为了更清楚地解释本公开的原理,下面结合图3描述一个具体示例。应当注意,该具体示例仅用于使得本领域技术人员对本公开的原理具有更直观的认识,并不旨在限制本公开的范围。
假设以医疗文档处理为例,最初的文档集中具有800个医疗文档。在步骤301,对800个医疗文档进行聚类,例如聚类成三个类,其中第一个类包括200个文档,第二个类包括250个文档,第三个类包括250个文档。在步骤303,例如,从第一个类的200个文档中选择5个中心文档让专业人员进行标注。在标注完成之后,在步骤305,使用经标注的5个中心文档来更新自然语言处理模型。例如,在该情况下为创建自然语言处理模型。然后在步骤307,判断对自然语言处理模型的更新是否足够大,由于创建模型是从无到有的过程,可以认为更新足够大,因此继续到步骤309。在步骤309,从由800个文档构成的文档集移除部分文档。例如,根据相似性移除第一个类中的50个文档,这50个文档包括经标注的5个文档。然后,可以对文档集中的剩余的750个文档继续进行步骤301。
在第二个循环中,在步骤301,对750个医疗文档进行聚类,例如聚类成三个类,其中第一个类包括200个文档,第二个类包括200个文档,第三个类包括200个文档。在步骤303,例如,从第一个类的200个文档中选择5个中心文档让专业人员进行标注。在标注完成之后,在步骤305,使用经标注的5个中心文档来更新自然语言处理模型。例如,在该情况下为创建自然语言处理模型。然后在步骤307,判断对自然语言处理模型的更新是否足够大。例如,可以通过将更新前的自然语言处理模型(即,第一次循环中创建的自然语言处理模型)应用于这5个中心文档,并且比较模型的结果与人工标注的结果之间的区别,如果区别大于预定阈值,则继续步骤309。在步骤309,从由750个文档构成的文档集移除部分文档。这时,可以调整用于移除部分文档的阈值。例如,如果认为在上个循环中移除过多的文档,则在本次循环中可以增加用于移除部分文档的阈值。例如,根据相似性移除第一个类中的25个文档,这25个文档包括经标注的5个文档。然后,可以对文档集中的剩余的750个文档继续进行步骤301。
备选地,例如,对于每个循环,在步骤303处,还可以从第二个类和第三个类中也选择一个或者多个(例如,5个)中心文档进行标注,在对三个类都标注完成之后,再前进到步骤305,更新自然语言处理模型。
最终,经过若干次的循环,从800个文档中提取出足够多的信息,因此,在步骤307判断出对自然语言处理模型的更新低于阈值,从而跳转到步骤311,停止对自然语言处理模型的更新。
图4示出了根据本公开的示例性实施例的文档处理设备400的框图。如图4所示,文档处理设备400包括第一划分装置401、第一标注装置403和第一更新装置405。
第一划分装置401被配置成基于第一文档集中的文档的相似性将第一文档集划分为多个类,该多个类包括各自的中心文档。根据一些实施例,第一划分装置401被进一步配置成将第一文档集划分为多个类包括对第一文档集执行聚类,以及其中中心文档包括与聚类的质心的相似性大于预定阈值的文档。
根据一些实施例,第一划分装置401被进一步配置成以第一文档集中的文档为质心执行聚类,并且中心文档为该质心。
根据一些实施例,第一文档集包括与医学诊疗有关的文档,并且其中第一划分装置401被进一步配置成:根据医疗词典对第一文档集中的文档进行分段;以及根据经分段的文档之间的相似性来划分第一文档集。
根据一些实施例,第一划分装置401被进一步配置成:根据第一文档集中的文档的词频-反向文档频率和语句顺序中的至少一项,来确定文档的相似性;以及基于确定的相似性来划分第一文档集。
第一标注装置403被配置成使多个类的中心文档被标注,该标注至少包括对中心文档中的语句的切分。第一更新装置405被配置成基于该标注更新用于标注文档的自然语言处理模型。
根据一些实施例,第一更新装置405被进一步配置成基于该标注创建该自然语言处理模型。
根据一些实施例,第一更新装置405包括:选择单元,被配置成从经标注的文档中选择基于相同模板而生成的文档;以及更新单元,被配置成基于选择出的文档来更新该自然语言处理模型。
根据一些实施例,设备400还包括:移除装置,被配置成响应于对该自然语言处理模型的更新的量超过预定阈值,通过从第一文档集移除部分文档获得第二文档集;第二划分装置,被配置成基于第二文档集中的文档的相似性,将第二文档集划分为多个类;第二标注装置,被配置成使第二文档集的多个类的中心文档被标注;第二更新装置,被配置成基于对第二文档集的多个类的中心文档的标注,更新该自然语言处理模型。
根据一些实施例,移除装置被配置成响应于第二文档集为空,将先前移除的除经标注的中心文档之外的文档添加到第二文档集。
根据一些实施例,移除装置被进一步配置成将先前移除的文档中除经标注中心文档之外的、基于相同模板的文档添加到第二文档集。
图5示出了一个可以用来实施本公开的实施例的设备500的框图。如图所示,设备500包括中央处理单元(CPU)501,其可以根据存储在只读存储器(ROM)502中的程序或者从存储单元508加载到随机访问存储器(RAM)503中的程序而执行各种适当的动作和处理。在RAM 503中,还存储有设备500操作所需的各种程序和数据。CPU 501、ROM 502以及RAM 503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。
设备500中的多个部件连接至I/O接口605,包括:输入单元606,例如键盘、鼠标等;输出单元607,例如阴极射线管(CRT)、液晶显示器(LCD)、扬声器等;存储单元608,例如磁盘、光盘等;以及通信单元609,例如网卡、调制解调器等。通信单元609经由诸如因特网的网络执行通信处理。
上文所描述的过程和处理,例如方法200或300可以由处理单元501执行。例如,在实施例中,实现方法200或300的过程可以被实现为计算机软件程序,其可被有形地包含在机器可读介质上。在这样的实施例中,该计算机程序可以通过通信单元609从网络上被下载和安装,和/或借助于存储单元508而被输入设备500以供处理单元501执行。
虽然已经参考若干具体实施例描述了本公开,但是应当理解,本公开并不限于所公开的具体实施例。本公开旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同方案。所附权利要求的范围应当被给予最宽泛的解释,从而包含所有这样的修改及等效方案。

Claims (15)

1.一种用于处理文档的方法,包括:
基于第一文档集中的文档的相似性将所述第一文档集划分为多个类,所述多个类包括各自的中心文档;
使所述多个类的中心文档被标注,所述标注至少包括对所述中心文档中的语句的切分;以及
基于所述标注更新用于标注文档的自然语言处理模型。
2.根据权利要求1所述的方法,其中基于所述标注更新用于标注文档的自然语言处理模型包括:
基于所述标注创建所述自然语言处理模型。
3.根据权利要求1所述的方法,还包括:
响应于对所述自然语言处理模型的所述更新的量超过预定阈值,通过从所述第一文档集移除部分文档获得第二文档集;
基于所述第二文档集中的文档的相似性,将所述第二文档集划分为多个类;
使所述第二文档集的多个类的中心文档被标注;以及
基于对所述第二文档集的多个类的中心文档的标注,更新所述自然语言处理模型。
4.根据权利要求3所述的方法,其中获得所述第二文档集包括:
响应于所述第二文档集为空,将先前移除的除经标注的中心文档之外的文档添加到所述第二文档集。
5.根据权利要求4所述的方法,其中将先前移除的除经标注中心文档之外的文档添加到所述第二文档集包括:
将先前移除的文档中除经标注中心文档之外的、基于相同模板的文档添加到所述第二文档集。
6.根据权利要求1所述的方法,其中基于所述标注更新用于标注文档的自然语言处理模型包括:
从经标注的文档中选择基于相同模板而生成的文档;以及
基于选择出的所述文档来更新所述自然语言处理模型。
7.根据权利要求1所述的方法,其中将所述第一文档集划分为多个类包括对所述第一文档集执行聚类,以及
其中所述中心文档包括与聚类的质心的相似性大于预定阈值的文档。
8.根据权利要求7所述的方法,其中以所述第一文档集中的文档为质心执行聚类,并且所述中心文档为所述质心。
9.根据权利要求1所述的方法,其中所述第一文档集包括与医学诊疗有关的文档,并且其中将所述第一文档集划分为多个类包括:
根据医疗词典对所述第一文档集中的所述文档进行分段;以及
根据经分段的所述文档之间的相似性来划分所述第一文档集。
10.根据权利要求1所述的方法,其中将所述第一文档集划分为多个类包括:
根据第一文档集中的文档的词频-反向文档频率和语句顺序中的至少一项,来确定文档的相似性;以及
基于确定的所述相似性来划分所述第一文档集。
11.一种用于处理文档的设备,包括:
处理单元,被配置成:
基于第一文档集中的文档的相似性将所述第一文档集划分为多个类,所述多个类包括各自的中心文档;
使所述多个类的中心文档被标注,所述标注至少包括对所述中心文档中的语句的切分;以及
基于所述标注更新用于标注文档的自然语言处理模型。
12.根据权利要求11所述的设备,其中所述处理单元被配置成:
基于所述标注创建所述自然语言处理模型。
13.根据权利要求11所述的设备,其中所述处理单元被进一步配置成:
响应于对所述自然语言处理模型的所述更新的量超过预定阈值,通过从所述第一文档集移除部分文档获得第二文档集;
基于所述第二文档集中的文档的相似性,将所述第二文档集划分为多个类;
使所述第二文档集的多个类的中心文档被标注;以及
基于对所述第二文档集的多个类的中心文档的标注,更新所述自然语言处理模型。
14.根据权利要求13所述的设备,其中所述处理单元被配置成:
响应于所述第二文档集为空,将先前移除的除经标注的中心文档之外的文档添加到所述第二文档集。
15.根据权利要求14所述的设备,其中所述处理单元被进一步配置成:
将先前移除的文档中除经标注中心文档之外的、基于相同模板的文档添加到所述第二文档集。
CN201510997304.4A 2015-12-25 2015-12-25 用于处理文档的方法与设备 Pending CN106919545A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510997304.4A CN106919545A (zh) 2015-12-25 2015-12-25 用于处理文档的方法与设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510997304.4A CN106919545A (zh) 2015-12-25 2015-12-25 用于处理文档的方法与设备

Publications (1)

Publication Number Publication Date
CN106919545A true CN106919545A (zh) 2017-07-04

Family

ID=59455741

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510997304.4A Pending CN106919545A (zh) 2015-12-25 2015-12-25 用于处理文档的方法与设备

Country Status (1)

Country Link
CN (1) CN106919545A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113254583A (zh) * 2021-05-28 2021-08-13 北京明略软件系统有限公司 一种基于语义向量的文档标记方法、装置及介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101853250A (zh) * 2009-04-03 2010-10-06 华为技术有限公司 对文档进行分类的方法及装置
CN103559175A (zh) * 2013-10-12 2014-02-05 华南理工大学 一种基于聚类的垃圾邮件过滤系统及方法
KR20140049148A (ko) * 2012-10-16 2014-04-25 한국전자통신연구원 형태소 분할에 기반한 품사 태깅 방법 및 그 장치
CN104978587A (zh) * 2015-07-13 2015-10-14 北京工业大学 一种基于文档类型的实体识别合作学习算法
CN105095396A (zh) * 2015-07-03 2015-11-25 北京京东尚科信息技术有限公司 模型创建方法、质量评估方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101853250A (zh) * 2009-04-03 2010-10-06 华为技术有限公司 对文档进行分类的方法及装置
KR20140049148A (ko) * 2012-10-16 2014-04-25 한국전자통신연구원 형태소 분할에 기반한 품사 태깅 방법 및 그 장치
CN103559175A (zh) * 2013-10-12 2014-02-05 华南理工大学 一种基于聚类的垃圾邮件过滤系统及方法
CN105095396A (zh) * 2015-07-03 2015-11-25 北京京东尚科信息技术有限公司 模型创建方法、质量评估方法及装置
CN104978587A (zh) * 2015-07-13 2015-10-14 北京工业大学 一种基于文档类型的实体识别合作学习算法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张利军: "大规模机器学习理论研究与应用", 《中国博士学位论文全文数据库》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113254583A (zh) * 2021-05-28 2021-08-13 北京明略软件系统有限公司 一种基于语义向量的文档标记方法、装置及介质
CN113254583B (zh) * 2021-05-28 2021-11-02 北京明略软件系统有限公司 一种基于语义向量的文档标记方法、装置及介质

Similar Documents

Publication Publication Date Title
US10929420B2 (en) Structured report data from a medical text report
Alyas et al. Empirical method for thyroid disease classification using a machine learning approach
JP2022541199A (ja) データテーブルの画像表現に基づいて構造化されたデータベースにデータ挿入するためのシステムおよび方法。
US10628476B2 (en) Information processing apparatus, information processing method, information processing system, and storage medium
JP2012118583A (ja) レポート作成支援装置及びその作成支援方法、並びにプログラム
CN110032631B (zh) 一种信息反馈方法、装置和存储介质
WO2022262266A1 (zh) 文本摘要生成方法、装置、计算机设备及存储介质
JP6908977B2 (ja) 医療情報処理システム、医療情報処理装置及び医療情報処理方法
CN112885478A (zh) 医疗文献的检索方法、装置、电子设备及存储介质
CN115858886B (zh) 数据处理方法、装置、设备及可读存储介质
JP2020527804A (ja) コード化された医療語彙のマッピング
JP2017134694A (ja) 属性付与制御プログラム、情報処理装置および属性付与制御方法
CN115248890B (zh) 用户兴趣画像的生成方法、装置、电子设备以及存储介质
WO2022227171A1 (zh) 关键信息提取方法、装置、电子设备及介质
CN113658720A (zh) 匹配诊断名称和icd编码的方法、装置、电子设备和存储介质
CN112699230A (zh) 一种恶性肿瘤诊疗知识获取方法及装置
CN116775897A (zh) 知识图谱构建和查询方法、装置、电子设备及存储介质
CN106919545A (zh) 用于处理文档的方法与设备
CN113724878B (zh) 基于机器学习的医疗风险信息推送方法及装置
CN116206767A (zh) 疾病知识挖掘方法、装置、电子设备和存储介质
JP2017134693A (ja) 意味情報登録支援プログラム、情報処理装置および意味情報登録支援方法
CN108733733A (zh) 基于机器学习的生物医学文本分类方法、系统和存储介质
EP4226383A1 (en) A system and a way to automatically monitor clinical trials - virtual monitor (vm) and a way to record medical history
CN114400099A (zh) 疾病信息挖掘和检索方法、装置、电子设备和存储介质
CA3134488A1 (en) Database reduction based on geographically clustered data to provide record selection for clinical trials

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20170704