CN108647319A - 一种基于短文本聚类的标注系统及其方法 - Google Patents
一种基于短文本聚类的标注系统及其方法 Download PDFInfo
- Publication number
- CN108647319A CN108647319A CN201810444908.XA CN201810444908A CN108647319A CN 108647319 A CN108647319 A CN 108647319A CN 201810444908 A CN201810444908 A CN 201810444908A CN 108647319 A CN108647319 A CN 108647319A
- Authority
- CN
- China
- Prior art keywords
- text
- uniline
- module
- group
- ziwen
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/103—Formatting, i.e. changing of presentation of documents
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种基于短文本聚类的标注系统及其方法,属于临床医学标注技术领域,解决了现有技术标注效率低、训练困难、结果准确性差和沟通成本过高的问题。本发明公开的基于短文本聚类的标注系统包括输入模块、文本聚类算法模块、多文本对齐模块、结果展示模块、快速标注模块、输出模块。与现有技术相比,本发明采用了文本聚类算法和多文本对齐算法,极大减少了相似子文本的阅读量,提高了阅读速度,并且采用纵向多文本对比浏览,极大方便了用户进行人工比对。更有益的是,本发明不需要通过任何训练集进行算法训练,对不同的医学文本不需要IT人员更改算法,沟通成本极低。
Description
技术领域
本发明涉及临床医学标注技术领域,尤其涉及一种基于短文本聚类的标注系统及其方法。
背景技术
在临床科研或药物试验中,经常会面临文本处理的问题,例如,需要将医生的专业描述文本转换成多个预设结构化选项,或按试验条款规定,重要信息必须进行原文录入,或实际情况超出了预设选项而需要文本记录。以上情况都需要记录人员将待处理文本转化为标准结构化选项。
现有文本标注的方法主要有三种,分别是人工手动标注、基于自然语言技术(NLP)或脚本程序的全自动化标注,以及半自动化标注。目前,我国各个医院、研究所、公司几乎都采用纯人工逐条阅读并手动标注,这非常费力且耗时。
全自动化标注一般是基于机器学习或人工规则的方法,虽然看似节省了人工成本,但需要大量的数据训练集供模型训练。实际训练中,人工标注工作量几乎与现有人工手动标注工作量相当;而且结果准确性差,少数几条错误可能会反转试验结果;复用也困难,对不同的科研项目需要开发不同的自动化工具。因此,全自动化标注在临床科研或药物试验中并没有得到广泛应用。
现有的半自动化标注工具,一般是标注文本中特定句子成分的标准实体词义或语法成分,以一个文本为单位进行标注,标注效率较低。虽然可以通过算法推荐一些标签,但还是需要人工逐条地阅读所有文本内容。图1是一个典型的半自动化标注系统的显示界面,显然不适合快速标注工作。
发明内容
鉴于上述的分析,本发明实施例旨在提供一种基于短文本聚类的标注系统及其方法,用以解决现有技术标注效率低、训练困难、结果准确性差和沟通成本过高的问题。
一方面,本发明实施例提供了一种基于短文本聚类的标注系统,包括输入模块、文本聚类算法模块、结果展示模块、快速标注模块、输出模块;
所述输入模块,用于接收用户输入的待处理文本,将所述待处理文本转换成至少一个单行子文本,并对所有单行子文本进行去空和去重处理;
所述文本聚类算法模块,用于对所述去空去重后的所有单行子文本进行聚类分组,将字符上相似的单行子文本置于同一个组内;
所述结果展示模块,用于将所述分组后的单行子文本按组进行可视化显示,将有差异并且出现概率较少的字符进行高亮显示;
所述快速标注模块,用于对聚类结果中每组内所有单行子文本内容进行选定,并设置标签进行标注;
所述输出模块,用于将标注结果通过复制的方式导出。
上述技术方案的有益效果如下:本发明采用文本聚类算法可以减少相同文本的阅读量,实现多个子文本快速浏览,从而极大地提高了标注效率。本发明采用人机交互的半自动化标注系统来避免全自动化标注的缺点,不需要人工事先产生大量的标注数据以供机器学习、算法训练或产生规则。通过本发明的快速标注模块,可以一次性对同一组中多个单行子文本进行标注,极大地方便了人工核对,并保证所有结果的正确性。并且,因为本发明不依赖于任何医学专业知识,对不同的医学待处理文本,标注系统不需要进行任何改动,解决了自动化方法迁徙困难的问题,同时由于不需要IT人员的参与进行更改算法,也有利于节省跨团队的沟通成本。
基于上述方法的另一个实施例中,基于短文本聚类的标注系统还包括多文本对齐模块;
所述多文本对齐模块,用于将所述聚类结果中每组内所有单行子文本进行文字上的纵向对齐,通过插入空字符将不同单行子文本中相同的文字置于同一列上;并将所述每组纵向对齐后的单行子文本送至所述结果展示模块按组进行可视化显示。
上述方案的有益效果是:针对传统人工手动标注工具标注效率低的问题,本发明采用了文本聚类算法和多文本对齐算法,将传统标注过程中的文本横向逐条阅读变成了新的纵向多文本快速浏览阅读,以减少相同文本的阅读工作量,从而可以极大提高用户的标注效率,这一点是传统人工手动标注工具所不具备的,也是本发明的核心所在。
进一步,所述文本聚类算法模块采用层次聚类算法、K-MEANS算法、K-MEDOIDS算法、CLARANS算法、BIRCH算法、CURE算法、CHAMELEON算法、DBSCAN算法、OPTICS算法、DENCLUE算法、STING算法、CLIQUE算法、WAVE-CLUSTER算法中的至少一种。
上述进一步方案的有益效果是:通过上述文本聚类算法,将字符上相似的单行子文本聚合于通一个组中,有利于提高标注效率。具体地,即聚类后的每组文本因为相似,所以内容上属同一标签的概率很大,用户可能只需要通过鼠标点击选定这些相似文本的目标内容,可以实现一次性标注所有目标内容。
进一步,所述输入模块支持从Excel、Word、TXT中任一办公软件中输入数据,然后再导入到所述标注系统中,或者将待处理文本复制到所述标注系统剪贴板上直接导入到所述标注系统中。
上述进一步方案的有益效果是:待处理文本可以采用多种文本形式,间接导入本发明的标注系统,也可以将待处理文本从办公软件中拷贝至标注系统剪贴板上,直接将待处理文本导入本发明的标注系统。
进一步,所述文本聚类模块通过调整聚类数的数值,对分组结果和每组内所有单行子文本的文本相似性进行调整。
上述进一步方案的有益效果是:聚类数的值越大,则聚类结果中分组越多,每组内单行子文本越少;反之,则聚类结果中分组越少,每组内单行子文本越多。用户可以根据计算机显示的聚类结果,动态地调整聚类数,使得每组内单行子文本的文本相似性最佳。
进一步,所述多文本对齐模块采用基于编辑距离的对齐算法,通过动态规划策略找出最短的编辑距离,记录最佳路径和插入、删除或替换操作的位置,并插入空字符使每组内所有单行子文本对齐。
上述进一步方案的有益效果是:通过使用上述对齐算法,使得每组内不同单行子文本中相同的文字基本放置在同一列上,从而形成一个类似表格的字符阵列,阵列的纵向上很多文字相同,以便用户纵向快速浏览文本信息,从而提高阅读速度。
进一步,所述多文本对齐模块通过调整重叠度的数值,对所有分组和每组内所有单行子文本内容的对齐程度进行调整。
上述进一步方案的有益效果是:同聚类数的作用相似,重叠度的数值也可以根据实际情况灵活调整,重叠度的大小影响查看聚类结果时的对齐展示。重叠度越大,对齐的字段越精确,按字符(指文字、数字或符号)对齐越严格,同一列中不同的字符越少,但单行子文本横向的扩展就多。反之,则对齐的字段越粗略,同一列中不同的字符越多,但子文本横向的扩展越少。用户可以调整此参数,以达到最佳的视觉浏览效果。
进一步,在所述结果展示模块中,根据选定的浓聚特定内容的关键词,对所有单行子文本进行过滤,过滤结果中只对所有包含所述关键词的单行子文本进行显示,所述关键词进行高亮显示。
上述进一步方案的有益效果是:结果展示模块具有查找功能,如果用户有一些可以浓聚特定内容的关键字,可以在结果展示模块中通过关键字进行内容过滤,查找到需要的所有单行子文本。例如,用户知道粘液癌是一种恶性肿瘤,需要找出所有恶性肿瘤的单行子文本,那么可以输入“粘液癌”来查找出所有与粘液癌相关的单行子文本,然后再通过快速浏览,判断出是否真的恶性肿瘤。
进一步,所述输出模块将所述标注结果进行输出,分别生成“源文本+标签”和“标签”两种结果形式,导出标签选择复制“源文本+标签”,或者只复制“标签”。
上述进一步方案的有益效果是:将标注好的结果复制出来,粘回原待处理文本所在的软件中。例如,如果是粘入Excel中新的一列内,上述操作可以保证标注结果与原待处理文本在行上一一对应。
另一方面,本发明实施例提供了一种基于短文本聚类的标注方法,包括如下步骤,
对输入的待处理文本进行预处理,将所述待处理文本转换成至少一个单行子文本,对所有单行子文本进行去空与去重处理;
对所有单行子文本进行聚类算法分析,采用层次聚类算法将文字上相近的单行子文本置于同一个组,通过调整聚类数对分组结果和每组内单行子文本的文本相似性进行调整;
通过文本对齐算法,对聚类结果中每组内所有单行子文本进行文字上的纵向对齐,并找出最短的编辑距离;
预先设定标签以及其选项编号,在选定每组内单行子文本的相关内容后,直接键入所述选项编号,对所述相关内容进行一次性标注;所述标签中不含有实际需要的标注内容时,在选定所述单行子文本的相关内容后,增加标签逐条标注。
采用上述实施例的有益效果是:通过聚类和对齐,可以减少用户几倍到十几倍的阅读量,举例说,可将1000行的文本的阅读量压缩为几十到一两百的数量。而且,由于算法不依赖IT技术人员,可由医学背景用户单独使用,缩短了工作周期,也减少了沟通成本。由于每组内所有单行子文本都可以经用户快速阅读,原则上可以达到100%的准确率,因此能够满足试验监管的需求,但并不包括人类用户疏忽或专业知识欠缺造成的错误。本发明可以应用在多类文本,没有专业限制,没有文本字数限制,不需要根据不同类型的待处理文本及专业再次开发算法。此外,本发明可以快速概览文本的规律,为处理大量文本(上万的或处理困难的)的自动化脚本或规则的编写提供有益帮助,也可以为机器学习等快速提供一定数量的训练集。
本发明中,上述各技术方案之间还可以相互组合,以实现更多的优选组合方案。本发明的其他特征和优点将在随后的说明书中阐述,并且,部分优点可从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过说明书、权利要求书以及附图中所特别指出的内容中来实现和获得。
附图说明
附图仅用于示出具体实施例的目的,而并不认为是对本发明的限制,在整个附图中,相同的参考符号表示相同的部件。
图1为现有半自动化文本标注系统的显示界面;
图2为本发明实施例1标注系统组成以及对应的用户操作示意图;
图3为本发明实施例2标注系统组成以及对应的用户操作示意图;
图4为本发明实施例2从输出模块导出标注结果示意图;
图5为本发明实施例2标注系统结果展示模块可视化展示示意图;
图6为本发明实施例3基于短文本聚类的标注方法示意图。
具体实施方式
下面结合附图来具体描述本发明的优选实施例,其中,附图构成本申请一部分,并与本发明的实施例一起用于阐释本发明的原理,并非用于限定本发明的范围。
实施例1
如图2所示,本发明的一个具体实施例,公开了一种基于短文本聚类的标注系统,包括输入模块、文本聚类算法模块、结果展示模块、快速标注模块、输出模块。
可选地,本实施例中,输入模块、文本聚类算法模块、结果展示模块、快速标注模块、输出模块依次连接,也可以采用其他连接方式实现相同效果,本领域技术人员可以理解该技术方案,此处不再一一赘述。
基于短文本聚类的标注系统设置于计算机上。输入模块,接收用户导入的待处理文本(待处理文件),并将待处理文本转换成至少一个单行子文本,这样操作后,每一行都代表一个要处理的单行子文本,然后对所有单行子文本进行去空与去重处理。本实施例中,去空指去除掉没有文字的单行子文本,即一行中只有回车或空格或TAB字符的单行子文本;去重指去除掉与某一单行子文本内容重复的其他单行子文本,即剩下的单行子文本内容应不同,以减少不必要的标注及阅读工作量。
文本聚类算法模块,将输入模块输出的所有去空去重子文本进行聚类,即将字符(指文字、数字或符号)上类似的去空去重子文本置于同一个组中。优选地,在本实施例中,聚类算法以编辑距离算法为基础来计算每两个文本或文本组间的相似性,使得每组内单行子文本的相似性最佳。
结果展示模块,将文本聚类算法模块输出的聚类结果(即分组后的单行子文本)按组进行可视化显示,将有差异并且出现概率较少的字符进行高亮显示。聚类后,属同一聚类组的单行子文本放在一起,该组视觉上应与其他组有着明显的分隔。通过聚类,有利于用户容易发现单行子文本的个性,进而不遗漏差异。之后,由相关医学专业人员对所显示的结果进行快速纵向浏览,并结合医学专业知识做出判断。
快速标注模块,对聚类结果中每组内所有单行子文本的特定内容(由用户根据具体要求操作)进行选定,并设置标签进行标注。用户可以通过按住“SHIFT”键或“CTRL”键来连续选择或任意选择多行文本(即多个单行子文本),然后一次性或分批次对多个单行子文本进行标注,因为可以通过鼠标点选或快捷键来进行操作,大大提高了标注效率。优选地,快速标注模块提供给用户快速标注多个单行子文本的功能,同时还提供了标签的管理与维护工具,用户可以事先写好标签,或是随着标注不断地增加标签。
结果展示模块,用户对每组相似的单行子文本进行了专业判断后,利用本模块的功能进行快速标注,标签一般需要人工预先设定,点击窗口上的“加标签”按钮,可以预先设定标签内容,每个标签有对应的选项编号。在结果展示模块中,可以在选中相应的单行子文本相关内容后,直接键入对应的选项编号实现快速标注,也可以逐条标注,可根据实际情况具体选择,灵活方便。
输出模块,将标注结果通过复制的方式导出。
实施时,待处理文本通过输入模块输入标注系统,得到去空去重的单行子文本;之后,在文本聚类算法模块对所有单行子文本进行聚类分组;再在结果展示模块对聚类结果进行可视化显示;根据聚类判断结果,利用快速标注模块进行快速标注;标注完成后,通过输出模块导出标注结果。
与现有技术相比,本实施提供的基于短文本聚类的标注系统采用文本聚类算法可以极大减少相同文本的阅读量,可以实现多个子文本快速浏览,从而极大提高标注效率。由于采用人机交互的半自动化标注系统避免了全自动化标注的缺点,不需要人工事先产生大量的标注数据以供机器学习、算法训练或产生规则。通过快速标注模块,可以一次性对同一组中多个单行子文本进行标注,极大地方便了人工核对,进而保证所有结果的正确性。并且,因为本实施例不依赖于任何医学专业知识,对不同的医学待处理文本,标注系统不需要进行任何改动,解决了自动化方法迁徙困难的问题,同时由于不需要IT人员的参与修改算法,也有利于节省跨团队的沟通成本。
实施例2
如图3所示,在上述实施例的基础上进行优化,基于短文本聚类的标注系统还可以包括多文本对齐模块。可选地,本实施例中,多文本对齐模块置于文本聚类算法模块和结果展示模块中间,也可以置于其他位置实现相应功能,本领域技术人员可以理解,此处不再赘述。
多文本对齐模块,对文本聚类算法模块输出的每组内所有单行子文本进行文字上的纵向对齐,即将不同单行子文本中相同的文字尽量放置在同一列上,并将对齐结果(每组纵向对齐后的单行子文本)送至结果展示模块按组进行可视化显示,以便用户纵向快速浏览全部文本信息。
可选地,输入模块支持从各种常用的办公软件中输入数据,包括Excel、Word、TXT等,然后再导入到标注系统中,也可以将待处理文本复制到标注系统剪贴板上直接导入到标注系统中。待处理文本的字数不限,可以为大文本,通过输入模块转换成若干短文本(单行子文本)进行后续操作。
可选地,文本聚类算法模块可以采用层次聚类算法或与层次聚类算法类似功能的其他聚类算法实现聚类,例如K-MEANS算法、K-MEDOIDS算法、CLARANS算法、BIRCH算法、CURE算法、CHAMELEON算法、DBSCAN算法、OPTICS算法、DENCLUE算法、STING算法、CLIQUE算法、WAVE-CLUSTER算法或者其改进算法。这些算法都能实现本实施例相应的功能,本领域技术人员可以理解,此处不再一一赘述。
优选地,本实施例采用了层次聚类算法。在该算法中,单行子文本的相似性计算采用了经典的编辑距离算法(也称Levenshtein距离),即层次聚类算法以编辑距离算法为基础,来计算每两个单行子文本或文本组间的相似性。以两个单行子文本对齐为例,其原理是计算两个字串之间由一个转成另一个所需的最少编辑操作次数。例如,“Word”与“Wird”这两个词只需要一次替换操作,将第二个字符换掉就相同了,所以它们之间的编辑距离就是1,而“Word”与“Wirt”之间的编辑距离是2,因为要替换掉两个字符。如果它们的编辑距离越大,说明它们越是不同,需要的编辑次数越多。所述编辑距离算法总体上采用的是经典的动态规划策略(层次聚类算法),也可以采用其他类似功能的文本相似算法。本实施例中,层次聚类算法的具体过程为,根据相似性判断先将字符最相似的两个单行子文本聚合成一个文本组,但也可视为一种特殊文本(文本类)参与下一步的聚类过程,然后再查找下一组两个最相似的单行子文本或文本类,并将之聚合在一起,不断重复这个过程,就形成了多个文本组。当文本组的数量达到显示界面上用户设定的聚类数时,算法停止,输出文本组。
优选地,用户可以对文本聚类模块中聚类算法的参数进行调整,所述参数主要包括聚类数(范围为0到目标样本数,目标样本数是指用户输入的单行子文本条数)。本实施例中,聚类数设置为导入的非空不重单行子文本总数的10%。聚类数的数值越大,则聚类结果中分组越多,每组内单行子文本越少;反之,则聚类结果中分组越少,每组内单行子文本越多。用户可以根据计算机显示的聚类结果,手动调整聚类数,使计算机显示界面内每组内单行子文本的相似性最佳,视觉效果最好。
优选地,聚类完成后,同一组的所有单行子文本放在一起,该组视觉上与其他组有着明显的分隔。
优选地,多文本对齐模块的文本对齐算法采用基于编辑距离的对齐算法,即通过动态规划策略找出最短的编辑距离,同时记录最佳路径,记录插入、删除或替换操作的位置,并通过插入空字符以形成同组内所有单行子文本文字对齐的效果,即将单行子文本内相同的文字纵向对齐。对于多个分组,本实施例采用了两个单行子文本对齐算法的扩展,即将比较两个单行子文本相似性的算法扩展到了比较多组文本(一组内可以有一个或以上的单行子文本)的相似性,从而可以对多组文本进行对齐,本领域技术人员可以理解,也可以采用其他多(组)文本对齐算法实现相同功能。
优选地,用户可以对多文本对齐模块的参数进行调整,所述参数主要包括重叠度(范围为0-1)。重叠度代表在编辑距离计算时三种编辑方法(插入、删除、替换)中替换操作的成本。同聚类数相似,重叠度的数值也可以根据实际情况灵活调整,重叠度的大小直接影响查看聚类结果时的对齐展示。如果重叠度的数值越大,替换操作的成本就越低,对齐的字段越精确,按字符(指文字、数字或符号)对齐越严格,同一列中不同的字符越少,但子文本横向的扩展就多。如果重叠度的数值越小,替换操作的成本就越大,算法就会偏向多做插入和删除的编辑操作,而插入与删除操作对应的对齐效果是使不同的字符分散在不同的列中,使得对齐的字段越粗略,同一列中不同的字符越多,但子文本横向的扩展越少。用户可以调整此参数,以达到最佳的浏览效果。
优选地,结果展示模块还具有查找功能,如果用户有一些可以浓聚特定内容的关键词(也可以是关键字、关键句),可以在结果展示模块中通过关键词进行过滤,查找到所有需要的单行子文本并进行显示,关键词进行高亮显示。例如,用户知道粘液癌是一种恶性肿瘤,需要找出所有恶性肿瘤的单行子文本,用户可以输入“粘液癌”来找出许多与粘液癌相关的单行子文本,然后再通过快速浏览,判断出是否真的恶性肿瘤。
优选地,用户在结果展示模块对相似的单行子文本进行快速浏览并做出专业判断后,可利用快速标注模块的标签标注功能对每组所有单行子文本进行快速标注。由于每组内各单行子文本内容相似程度很高,有差异的内容进行了高亮显示,因此用户一般可以做出准确的判断。
优选地,在输出模块,将上述标注结果输出,分别生成“源文本+标签”和纯“标签”两种结果形式,如图4所示,导出标签可以选择“复制源文本+标签”,或者“只复制标签”,将标注好的结果复制出来,粘回原待处理文本所在的办公软件中。例如,如果是粘入Excel中新的一列里,整个标注操作可以保证标注结果与原待处理文本在行上一一对应。到此,就完成了文本标注的所有工作。
实施时,用户通过各种常用的办公软件中输入待处理文本,然后再将待处理文本导入到标注系统的输入模块中,或者用户也可以将待处理文本复制到标注系统剪贴板上直接导入到标注系统的输入模块中。输入模块将待处理文本转换成多个单行子文本,并对所有单行子文本进行去空和去重处理,得到去空去重的单行子文本。文本聚类算法模块和多文本对齐模块对所述去空去重的单行子文本进行了分组和文字上的对齐,使得同组内不同单行子文本中相同的文字尽量置于同一列上,达到最佳的浏览效果,以便用户纵向快速浏览文本信息。在结果展示模块,将上述经过计算机运算得到的聚类结果,在系统软件窗口内进行可视化显示,如图5所示。属同一聚类组的单行子文本放在一起,该组视觉上与其他组有着明显的分隔,对齐后各单行子文本纵向展示,有差异并且出现概率较少的字符会浅黄色(或者其他颜色)高亮显示,有利于用户容易发现单行子文本的个性,不遗漏差异,同时发现“共性”与“个性”。其中,“共性”是指多个单行子文本中相同文字代表相同的含义,可以通过本实施例中标注工具被用户快速地发现,同时,“个性”是指每组的单行子文本中有差异并且出现概率较少的文字,单行子文本中不同的“个性”位置也会被高亮显示,以便用户可以注意到,从而不会遗漏这些“个性”的意义。
之后,由相关专业人员对所显示的结果进行快速纵向浏览,并结合专业知识进行判断,判断出每个单行子文本的含义及设置对应的标注标签和其编号。用户手动选定需要标注的内容,输入预设标签的编号,对选定内容进行快速标注,标签中没有的标注内容,通过添加标签,逐条标注。标注完成后,通过输出模块将标注结果复制粘贴回原办公软件中。因为已经通过聚类算法对相似的子文本进行了聚类,用户可以更快速地对一组中的所有单行子文本进行判断,从而实现用户的快速标注,且可以保证标注结果与原待处理文本在行上一一对应。
与现有技术相比,本实施例提供的基于短文本聚类的标注系统大大减少了相同文本的阅读量,采用纵向多文本对比浏览极大提高了阅读速度,方便了人工比对以保证所有结果的绝对正确。而且,所述标注系统采用半自动化标注模式不需要训练集进行算法训练,对不同的医学文本内容不需要进行系统的调整改进,不需要IT人员更改算法,有利于节约跨团队的沟通成本。
实施例3
如图6所示,本实施例提供了一种应用实施例2所述基于短文本聚类的标注系统进行标注的方法,包括如下步骤:
S1.在输入模块,对输入的待处理文本进行预处理。将所述待处理文本转换成至少一个单行子文本,对所有单行子文本进行去空与去重处理,去除掉空文本和文字上完全相同的单行子文本,经过该步骤,各单行子文本内容一定是不同的。
S2.在文本聚类算法模块,对所有单行子文本进行聚类算法分析,采用层次聚类算法将文字上相近的单行子文本置于同一个组,并通过修改编辑距离对分组结果和每组内单行子文本的文本相似性进行调整,以压缩文本的阅读量。
S3.在多文本对齐模块,通过文本对齐算法,对聚类结果中每组内所有单行子文本进行文字上的纵向对齐,相同的文字部分尽量处于同一列,找出最短的编辑距离,最终组成文本图案,对待处理文本的阅读量进一步压缩。
S4.在快速标注模块,预先设定标签以及其选项编号(可以为人工设定或者及机器自动设定),选定每组内单行子文本的相关内容后,直接键入所述选项编号,对所述相关内容进行标注;所述标签中不含有实际标注内容时,选定所述单行子文本的相关内容后,增加标签逐条标注。
此外,通过关键字(也可以是关键词、关键句)的过滤,也可以汇聚相似含义的单行子文本置于同一组内,以便对近似含义的单行子文本一起处理。
与现有技术相比,本实施例提供的标注方法具有如下优点:
1.效率高。通过聚类及对齐,可以减少用户几倍到十几倍的阅读量,举例说,可将1000行的文本的阅读量压缩为几十到一两百的数量。
2.独立。不依赖IT技术人员,可由医学背景用户单独使用,缩短了工作周期,减少了沟通成本。
3.精准。由于每组内所有单行子文本都可以经用户快速阅读,原则上可以达到100%的准确率,因此能够满足试验监管的需求,但不包括由于用户疏忽或专业知识欠缺造成的错误。
4.通用。本实施例可以应用在多类文本,没有专业限制,不需要根据不同类型的待处理文本及专业再次开发。
5.基础性工具。本实施例可以快速概览文本的规律,为处理大量文本(上万的或处理困难的)的自动化脚本或规则的编写提供帮助,也可以为机器学习等快速提供一定数量的训练集。
本领域技术人员可以理解,实现上述实施例方法的全部或部分流程,可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于计算机可读存储介质中。其中,所述计算机可读存储介质为磁盘、光盘、只读存储记忆体或随机存储记忆体等。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。
Claims (10)
1.一种基于短文本聚类的标注系统,其特征在于,包括输入模块、文本聚类算法模块、结果展示模块、快速标注模块、输出模块;
所述输入模块,用于接收用户输入的待处理文本,将所述待处理文本转换成至少一个单行子文本,并对所有单行子文本进行去空和去重处理;
所述文本聚类算法模块,用于对所述去空去重后的所有单行子文本进行聚类分组,将字符上相似的单行子文本置于同一个组内;
所述结果展示模块,用于将所述分组后的单行子文本按组进行可视化显示,将有差异并且出现概率较少的字符进行高亮显示;
所述快速标注模块,用于对聚类结果中每组内所有单行子文本内容进行选定,并设置标签进行标注;
所述输出模块,用于将标注结果通过复制的方式导出。
2.根据权利要求1所述的基于短文本聚类的标注系统,其特征在于,还包括多文本对齐模块;
所述多文本对齐模块,用于将所述聚类结果中每组内所有单行子文本进行文字上的纵向对齐,通过插入空字符将不同单行子文本中相同的文字置于同一列上;并将所述每组纵向对齐后的单行子文本送至所述结果展示模块按组进行可视化显示。
3.根据权利要求1或2所述的基于短文本聚类的标注系统,其特征在于,所述文本聚类算法模块采用层次聚类算法、K-MEANS算法、K-MEDOIDS算法、CLARANS算法、BIRCH算法、CURE算法、CHAMELEON算法、DBSCAN算法、OPTICS算法、DENCLUE算法、STING算法、CLIQUE算法、WAVE-CLUSTER算法中的至少一种。
4.根据权利要求1或2所述的基于短文本聚类的标注系统,其特征在于,所述输入模块支持从Excel、Word、TXT中任一办公软件中输入数据,然后再导入到所述标注系统中,或者将待处理文本复制到所述标注系统剪贴板上直接导入到所述标注系统中。
5.根据权利要求3所述的基于短文本聚类的标注系统,其特征在于,所述文本聚类模块通过调整聚类数的数值,对分组结果和每组内所有单行子文本的文本相似性进行调整。
6.根据权利要求2所述的基于短文本聚类的标注系统,其特征在于,所述多文本对齐模块采用基于编辑距离的对齐算法,通过动态规划策略找出最短的编辑距离,记录最佳路径和插入、删除或替换操作的位置,并插入空字符使每组内所有单行子文本对齐。
7.根据权利要求2或6所述的基于短文本聚类的标注系统,其特征在于,所述多文本对齐模块通过调整重叠度的数值,对所有分组和每组内所有单行子文本内容的对齐程度进行调整。
8.根据权利要求1-2、5-6之一所述的基于短文本聚类的标注系统,其特征在于,在所述结果展示模块中,根据选定的浓聚特定内容的关键词,对所有单行子文本进行过滤,过滤结果中只对所有包含所述关键词的单行子文本进行显示,所述关键词进行高亮显示。
9.根据权利要求1-2、5-6之一所述的基于短文本聚类的标注系统,其特征在于,所述输出模块将所述标注结果进行输出,分别生成“源文本+标签”和“标签”两种结果形式,导出标签选择复制“源文本+标签”,或者只复制“标签”。
10.一种基于短文本聚类的标注方法,其特征在于,包括如下步骤,
对输入的待处理文本进行预处理,将所述待处理文本转换成至少一个单行子文本,对所有单行子文本进行去空与去重处理;
对所有单行子文本进行聚类算法分析,采用层次聚类算法将文字上相近的单行子文本置于同一个组,通过调整聚类数对分组结果和每组内单行子文本的文本相似性进行调整;
通过文本对齐算法,对聚类结果中每组内所有单行子文本进行文字上的纵向对齐,并找出最短的编辑距离;
预先设定标签以及其选项编号,在选定每组内单行子文本的相关内容后,直接键入所述选项编号,对所述相关内容进行一次性标注;所述标签中不含有实际需要的标注内容时,在选定所述单行子文本的相关内容后,增加标签逐条标注。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810444908.XA CN108647319B (zh) | 2018-05-10 | 2018-05-10 | 一种基于短文本聚类的标注系统及其方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810444908.XA CN108647319B (zh) | 2018-05-10 | 2018-05-10 | 一种基于短文本聚类的标注系统及其方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108647319A true CN108647319A (zh) | 2018-10-12 |
CN108647319B CN108647319B (zh) | 2021-07-06 |
Family
ID=63754307
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810444908.XA Active CN108647319B (zh) | 2018-05-10 | 2018-05-10 | 一种基于短文本聚类的标注系统及其方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108647319B (zh) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109508382A (zh) * | 2018-10-19 | 2019-03-22 | 北京明略软件系统有限公司 | 一种标签标注方法和装置、计算机可读存储介质 |
CN109978141A (zh) * | 2019-03-28 | 2019-07-05 | 腾讯科技(深圳)有限公司 | 神经网络模型训练方法和装置、自然语言处理方法和装置 |
CN110321924A (zh) * | 2019-05-24 | 2019-10-11 | 深圳壹账通智能科技有限公司 | 计费规则的智能录入方法、介质及计算机设备 |
CN110493221A (zh) * | 2019-08-19 | 2019-11-22 | 四川大学 | 一种基于聚簇轮廓的网络异常检测方法 |
CN110705249A (zh) * | 2019-09-03 | 2020-01-17 | 东南大学 | 一种基于重叠度计算的nlp库组合使用方法 |
CN111061880A (zh) * | 2019-12-24 | 2020-04-24 | 成都迪普曼林信息技术有限公司 | 海量文本数据快速聚类方法 |
CN111738024A (zh) * | 2020-07-29 | 2020-10-02 | 腾讯科技(深圳)有限公司 | 实体名词标注方法和装置、计算设备和可读存储介质 |
CN112836484A (zh) * | 2021-04-20 | 2021-05-25 | 北京妙医佳健康科技集团有限公司 | 一种文本对齐方法、装置、电子设备、计算机可读存储介质 |
CN113989823A (zh) * | 2021-09-14 | 2022-01-28 | 北京左医科技有限公司 | 基于ocr坐标的图片表格还原方法及系统 |
CN114324216A (zh) * | 2022-01-06 | 2022-04-12 | 中国科学院南京土壤研究所 | 一种基于土层组合特征的土壤数值分类方法 |
CN116302841A (zh) * | 2023-04-13 | 2023-06-23 | 银川兴诚电子科技有限公司 | 一种工业物联网安全监测方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101989289A (zh) * | 2009-08-06 | 2011-03-23 | 富士通株式会社 | 数据聚类方法和装置 |
CN103996021A (zh) * | 2014-05-08 | 2014-08-20 | 华东师范大学 | 一种多字符识别结果的融合方法 |
US20170083497A1 (en) * | 2015-09-23 | 2017-03-23 | International Business Machines Corporation | Enhanced annotation tool |
CN106897424A (zh) * | 2017-02-24 | 2017-06-27 | 北京时间股份有限公司 | 信息标注系统及方法 |
-
2018
- 2018-05-10 CN CN201810444908.XA patent/CN108647319B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101989289A (zh) * | 2009-08-06 | 2011-03-23 | 富士通株式会社 | 数据聚类方法和装置 |
CN103996021A (zh) * | 2014-05-08 | 2014-08-20 | 华东师范大学 | 一种多字符识别结果的融合方法 |
US20170083497A1 (en) * | 2015-09-23 | 2017-03-23 | International Business Machines Corporation | Enhanced annotation tool |
CN106897424A (zh) * | 2017-02-24 | 2017-06-27 | 北京时间股份有限公司 | 信息标注系统及方法 |
Non-Patent Citations (2)
Title |
---|
云聪: "从字符串编辑距离到字符串对齐", 《CSDN博客》 * |
史宪军: "文本信息人工标注辅助系统的设计与实现", 《中国优秀硕士学位论文全文数据库信息科技辑》 * |
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109508382A (zh) * | 2018-10-19 | 2019-03-22 | 北京明略软件系统有限公司 | 一种标签标注方法和装置、计算机可读存储介质 |
CN109978141A (zh) * | 2019-03-28 | 2019-07-05 | 腾讯科技(深圳)有限公司 | 神经网络模型训练方法和装置、自然语言处理方法和装置 |
CN109978141B (zh) * | 2019-03-28 | 2022-11-25 | 腾讯科技(深圳)有限公司 | 神经网络模型训练方法和装置、自然语言处理方法和装置 |
CN110321924A (zh) * | 2019-05-24 | 2019-10-11 | 深圳壹账通智能科技有限公司 | 计费规则的智能录入方法、介质及计算机设备 |
CN110493221B (zh) * | 2019-08-19 | 2020-04-28 | 四川大学 | 一种基于聚簇轮廓的网络异常检测方法 |
CN110493221A (zh) * | 2019-08-19 | 2019-11-22 | 四川大学 | 一种基于聚簇轮廓的网络异常检测方法 |
CN110705249A (zh) * | 2019-09-03 | 2020-01-17 | 东南大学 | 一种基于重叠度计算的nlp库组合使用方法 |
CN110705249B (zh) * | 2019-09-03 | 2023-04-11 | 东南大学 | 一种基于重叠度计算的nlp库组合使用方法 |
CN111061880A (zh) * | 2019-12-24 | 2020-04-24 | 成都迪普曼林信息技术有限公司 | 海量文本数据快速聚类方法 |
CN111738024A (zh) * | 2020-07-29 | 2020-10-02 | 腾讯科技(深圳)有限公司 | 实体名词标注方法和装置、计算设备和可读存储介质 |
CN111738024B (zh) * | 2020-07-29 | 2023-10-27 | 腾讯科技(深圳)有限公司 | 实体名词标注方法和装置、计算设备和可读存储介质 |
CN112836484A (zh) * | 2021-04-20 | 2021-05-25 | 北京妙医佳健康科技集团有限公司 | 一种文本对齐方法、装置、电子设备、计算机可读存储介质 |
CN113989823A (zh) * | 2021-09-14 | 2022-01-28 | 北京左医科技有限公司 | 基于ocr坐标的图片表格还原方法及系统 |
CN113989823B (zh) * | 2021-09-14 | 2022-10-18 | 北京左医科技有限公司 | 基于ocr坐标的图片表格还原方法及系统 |
CN114324216A (zh) * | 2022-01-06 | 2022-04-12 | 中国科学院南京土壤研究所 | 一种基于土层组合特征的土壤数值分类方法 |
CN116302841A (zh) * | 2023-04-13 | 2023-06-23 | 银川兴诚电子科技有限公司 | 一种工业物联网安全监测方法及系统 |
CN116302841B (zh) * | 2023-04-13 | 2023-12-08 | 北京浩太同益科技发展有限公司 | 一种工业物联网安全监测方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN108647319B (zh) | 2021-07-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108647319A (zh) | 一种基于短文本聚类的标注系统及其方法 | |
Wang | Tabular abstraction, editing, and formatting | |
CN100511215C (zh) | 多语种翻译存储器和翻译方法 | |
CN104239073B (zh) | 一种数据维护系统快速原型开发系统及方法 | |
CN101131690B (zh) | 简体汉字和繁体汉字相互转换方法及其系统 | |
CN108959566B (zh) | 一种基于Stacking集成学习的医疗文本去隐私方法和系统 | |
CN101996166A (zh) | 双语句对模式化记录方法以及翻译方法和翻译系统 | |
CN109192255A (zh) | 病历结构化方法 | |
CN106845139A (zh) | 将结构化报告生成自然语言报告的系统及其方法 | |
CN111859857B (zh) | 基于标注文本的训练数据集生成方法、系统、设备和介质 | |
CN101196963A (zh) | 族性化学结构标引系统和标引方法 | |
TWM543395U (zh) | 翻譯輔助系統 | |
CN104657340B (zh) | 可扩展基于脚本的Word报告生成系统及方法 | |
CN115602277A (zh) | 一种医疗电子病历的标注方法、装置、系统及存储介质 | |
CN114927191A (zh) | 血液系统疾病ngs报告解读方法 | |
CN114118098A (zh) | 基于要素抽取的合同评审方法、设备及存储介质 | |
CN108511034A (zh) | 一种基于条码数据的样本管理系统 | |
CN108733733A (zh) | 基于机器学习的生物医学文本分类方法、系统和存储介质 | |
CN108287861A (zh) | 智能管理系统生成系统Hxcel数据技术方法 | |
CN111180076A (zh) | 一种基于多层语义分析的医疗信息提取方法 | |
CN117332761B (zh) | 一种pdf文档智能识别标注系统 | |
WO1998040829A1 (en) | A computerised method for dynamically creating, modifying, removing and maintaining information in a database | |
CN113760953A (zh) | 影像腹主动脉及其属支的结构化报告分析系统及方法 | |
CN109885843A (zh) | 一种英语翻译辅助系统 | |
JP5763830B1 (ja) | 翻訳装置、翻訳方法、および翻訳プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |