CN111291554B - 标注方法、关系抽取方法、存储介质和运算装置 - Google Patents

标注方法、关系抽取方法、存储介质和运算装置 Download PDF

Info

Publication number
CN111291554B
CN111291554B CN202010124863.5A CN202010124863A CN111291554B CN 111291554 B CN111291554 B CN 111291554B CN 202010124863 A CN202010124863 A CN 202010124863A CN 111291554 B CN111291554 B CN 111291554B
Authority
CN
China
Prior art keywords
entity
seeds
template
correct
sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010124863.5A
Other languages
English (en)
Other versions
CN111291554A (zh
Inventor
代亚菲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BOE Technology Group Co Ltd
Original Assignee
BOE Technology Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BOE Technology Group Co Ltd filed Critical BOE Technology Group Co Ltd
Priority to CN202010124863.5A priority Critical patent/CN111291554B/zh
Publication of CN111291554A publication Critical patent/CN111291554A/zh
Priority to US17/435,197 priority patent/US12026453B2/en
Priority to EP21761699.4A priority patent/EP4113358A4/en
Priority to PCT/CN2021/078145 priority patent/WO2021170085A1/zh
Priority to US18/395,509 priority patent/US20240126984A1/en
Application granted granted Critical
Publication of CN111291554B publication Critical patent/CN111291554B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/169Annotation, e.g. comment data or footnotes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/186Templates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开提供一种标注方法、关系抽取方法、存储介质和运算装置。该标注方法中包括:确定待标注文本、多个正确种子和多个错误种子;根据所述正确种子遍历所述待标注文本中每一个句子以匹配出第一模板;根据所述第一模板遍历所述待标注文本中每一个句子以匹配出种子;根据已有第一模板、已有的正确种子和已有的错误种子评价匹配出的种子,其中评价合格的种子作为正确种子。重复执行上述遍历步骤设定次数后停止或至评价合格的正确种子的数量达到设定阈值后停止,输出匹配出的正确种子及该正确种子中第一实体和第二实体之间的分类关系。

Description

标注方法、关系抽取方法、存储介质和运算装置
技术领域
本公开涉及语言识别技术领域,更具体地,涉及一种标注方法、一种关系抽取方法、一种存储介质和一种运算装置。
背景技术
在自然语言识别技术领域通常会基于深度学习进行关系抽取。前提是提供大量的标注好数据以进行模型的训练。现有的做法是基于人工对每一个句子进行标注。人力和时间成本都很高。
发明内容
本公开提供一种标注方法、一种关系抽取方法、一种存储介质和一种运算装置,以至少部分解决现有技术中存在的技术问题。
本公开第一方面提供一种标注方法,包括:
步骤S1、确定待标注文本、多个正确种子和多个错误种子,所述待标注文本中的每个句子均已由标签标示出一个第一实体和一个第二实体,所述正确种子和所述错误种子均是由第一实体和第二实体构成的实体对;
步骤S2、根据所述正确种子遍历所述待标注文本中每一个句子以匹配出第一模板;
步骤S3、根据所述第一模板遍历所述待标注文本中每一个句子以匹配出种子;
步骤S4、根据已有第一模板、已有的正确种子和已有的错误种子评价匹配出的种子,其中评价合格的种子作为正确种子;
步骤S5、用步骤S4中得到的正确种子替换步骤S2中的正确种子重复执行步骤S2-S4设定次数后停止或至评价合格的正确种子的数量达到设定阈值后停止;
步骤S6、输出匹配出的正确种子及该正确种子中第一实体和第二实体之间的分类关系。
可选地,所述根据所述正确种子遍历所述待标注文本中每一个句子以匹配出第一模板包括:
将所述待标注文本中的句子中出现所述正确种子的句子进行聚类;
根据同一类句子和对应的正确种子得到第一模板,所述第一模板包括该同一类句子中出现在对应的正确种子之前的字段的字符向量化表达、出现在对应的正确种子中第一实体与第二实体之间的字段的字符向量化表达、出现在对应的正确种子之后的字段的字符向量化表达。
可选地,所述根据所述第一模板遍历所述待标注文本中每一个句子以匹配出种子包括:
根据所述待标注文本中的句子得到第二模板,所述第二模板包括该句子中出现在该句子中第一实体和第二实体二者之前的字段的字符向量化表达、出现在该句子中第一实体和第二实体二者之间的字段的字符向量化表达、出现在该句子中第一实体和第二实体二者之后的字段的字符向量化表达;
比较所述第一模板与所述第二模板的相似度;
在所述第一模板与所述第二模板的相似度大于设定阈值的情况下,该第二模板所在句子中的第一实体和第二实体作为匹配出的种子。
可选地,所述第一模板与所述第二模板的相似度由如下Match函数确定:
Match(P1,P2)=α*Cosine(p,q)+β*Euclidean(p,q)+γ*Tanimoto(p,q),其中,
第一模板记为P1,第二模板记为P2,p为第一模板P1中出现在对应的正确种子之前的字段的字符向量化表达、出现在对应的正确种子中第一实体与第二实体之间的字段的字符向量化表达、出现在对应的正确种子之后的字段的字符向量化表达组成的列表,q为第二模板P2中出现在对应句子中第一实体和第二实体二者之前的字段的字符向量化表达、出现在对应句子中第一实体和第二实体二者之间的字段的字符向量化表达、出现在对应句子中第一实体和第二实体二者之后的字段的字符向量化表达组成的列表,α、β与γ均为大于0的比例系数。
可选地,在步骤S5中,按照如下公式评价新的种子的正确性:
其中,待评价的种子记为T,P={Pi}是产生种子T的所有第一模板,Ci是由第一模板Pi匹配出种子T时种子T所在句子中第一实体和第二实体之前的字段的字符向量化表达、该句子中第一实体与第二实体之间的字段的字符向量化表达、该句子中第一实体与第二实体之后的字段的字符向量化表达组成的列表, Conf(Pi)记为:
Conf(Pi)=(Pip)/(Pip+Pin),
其中,Pip是第一模板Pi匹配出来的正例个数;Pin是模板P匹配出来的负例个数。
可选地,所述第一实体包括标示疾病名称的字段,所述第二实体包括标示检查方法、治疗方法、表现症状和预防措施的字段,所述分类关系包括疾病-检查、疾病-治疗、疾病-症状、疾病-预防。
可选地,还包括:提供人机交互界面以供用户输入原始文本、所述多个正确种子和所述多个错误种子,所述原始文本包括未打标签的句子;基于医学词典对所述未打标签的句子经实体识别并在实体所在位置打上对应的标签,所述标签分别标示疾病名称、检查方法、治疗方法、表现症状、预防措施中的一项。
可选地,还包括:提供人机交互界面以供用户对标注结果进行确认;和/或
提供人机交互界面以供用户输入所述待标注文本、所述多个正确种子和所述多个错误种子。
本公开第二方面提供一种关系抽取方法,包括:采用根据本公开第一方面的标注方法对待标注文本进行标注;利用深度学习对标注后的待标注文本中的至少部分句子进行训练以得到关系抽取模型。
可选地,还包括利用所述关系抽取模型对标注后的待标注文本中未参与模型训练的至少部分句子作为测试集进行测试。
本公开第三方面提供一种存储介质,所述存储介质存储指令,所述指令能够被处理器运行以执行第一方面的标注方法或者第二方面的关系抽取方法。
本公开第四方面提供一种运算装置,包括存储介质和处理器,所述存储介质存储指令,所述指令能够被所述处理器运行以执行第一方面的标注方法或者第二方面的关系抽取方法。
附图说明
图1是本公开实施例的标注方法的流程图。
图2a是本公开实施例提供的标注方法中输入待标注文本、正确种子和错误种子人机交互界面的示意图。
图2b是本公开实施例提供的标注方法中对标注结果进行校验的人机交互界面示意图。
图2c是本公开实施例中输入待进行关系抽取的文件的人机交互界面示意图。
图2d是本公开实施例中关系抽取模型测试结果示意图。
图2e是本公开实施例关系抽取结果保存界面示意图。
图3是本公开实施例的关系抽取方法的详细流程示意图。
图4是本公开实施例的运算装置的框图。
具体实施方式
为使本领域技术人员更好地理解本公开的技术方案,下面结合附图和具体实施方式对本公开作进一步详细描述。
在本公开中,应理解,诸如“包括”或“具有”等术语旨在指示本说明书中所公开的特征、数字、步骤、行为、部件、部分或其组合的存在,并且不旨在排除一个或多个其他特征、数字、步骤、行为、部件、部分或其组合存在的可能性。
另外还需要说明的是,在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本公开。
参考图1,本公开的实施例提供一种标注方法,包括以下步骤。
步骤S1、确定待标注文本、多个正确种子和多个错误种子,所述待标注文本中的每个句子均已由标签标示出一个第一实体和一个第二实体,所述正确种子和所述错误种子均是由第一实体和第二实体构成的实体对。
例如,所述待标注文本为非结构化的文本数据。
例如参考图2a,可以提供人机交互界面以供用户输入所述待标注文件、包含所述正确种子的文件、包含所述错误种子的文件。当然这些文件也可以通过其他方式获取。以下实施例中,均以待标注句子为医疗类的文本为例进行说明。
种子即实体对,或者说是一对实体。正确种子表示其中两个实体之间存在逻辑关联。例如为:骨折;X光片,即表明可通过X光片检测是否发生骨折。正确种子又例如是:纵隔肿瘤;食管钡餐造影,即表明可通过食管钡餐造影检测是否发生隔膜肿瘤。错误种子表示其中两个时间没有逻辑关联。例如为:糖尿病;体重、低蛋白血症;血氧饱和度。糖尿病;体重这个种子表明糖尿病的症状表现为与体重有关,显然是错误的。低蛋白血症;血氧饱和度这个种子表明低蛋白症表现症状与需氧饱和度度有关,显然是错误的逻辑关联。
只需要提供少量种子(例如提供十个正确的种子和十个错误的种子),即可通过程序自动运行得到更多正确种子。当然也就能确定出其余错误的种子。
待标注文本的原始文本可能仅是多个句子,句子中并未在关注的实体上打上对应的标签。此时可以基于词典打标签。
具体地,基于医学词典对未打标签的句子经实体识别并在实体所在位置打上对应的标签,所述标签分别标示疾病名称、检查方法、治疗方法、表现症状中的一项。本公开实施例中的部分句子来自于百度百科。
具体地,所述第一实体包括标示疾病名称的字段,所述第二实体包括标示检查方法、治疗方法、表现症状和预防措施的字段。
原始文本中的句子例如是:“本病临床表现有很大的变异,而且没有一种畸形是18-三体综合征特有的,因此,不能仅根据临床畸形做出诊断,必须做细胞染色体检查,确诊根据核型分析结果&”。&为一编程符号,标示一个句子的结尾。
医学词典中会有很多表示疾病名称的词、表示检查方法的词,这些词在医学词典中都会有对应的属性说明。原始文本中的句子中如出现一个表示疾病名称的词,就会在这个词的前后打上标签,表明这个词是疾病名称。以此类推。
利用医学词典识别出两个实体“18-三体综合征”和“细胞染色体检查”,并判断前一个实体为疾病名称,后一个实体为检查方法,故在待标注句子的对应位置打标签。结果为:“本病临床表现有很大的变异,而且没有一种畸形是<DES>18-三体综合征</DES>特有的,因此,不能仅根据临床畸形做出诊断,必须做<CHE>细胞染色体检查</CHE>,确诊根据核型分析结果&”。
<DES>和</DES>是标签的具体形式,其意义是标示出疾病名称的字段,<CHE>和</CHE>是标签的具体形式,其意义是标示出检查方法的字段。
需要说明的是,一个句子中出现了表示疾病名称和检查方法的两个词,并不表示这个句子的逻辑关系就是介绍该疾病的检查方法,即该句子所属分类关系并不是疾病-检查。故需后续步骤识别出这句话是不是真的在讲该疾病的检查方法。
这种情况下还可以提供人机交互界面以供用户输入原始文本、所述多个正确种子和所述多个错误种子。
本公开的实施例中,所述分类关系包括疾病-检查、疾病-治疗、疾病-症状、疾病-预防。当然,可能存在某些句子中标签标示的实体之间并无逻辑关系(或者逻辑关系是错的),那么分类关系还包括无效关系(NG)。
需要说明的是,本公开的实施例中,每个句子仅用标签标示出一个第一实体和一个第二实体。如遇到一个句子中有多个第一实体或多个第二实体,则将该句子复制多份,每份打的标签各有区别。
步骤S2,根据所述正确种子遍历所述待标注文本中每一个句子以匹配出第一模板。
具体地,将所述待标注文本中的句子中出现所述正确种子的句子进行聚类;根据同一类句子和对应的正确种子得到第一模板,所述第一模板包括该同一类句子中出现在对应的正确种子之前的字段的字符向量化表达、出现在对应的正确种子中第一实体与第二实体之间的字段的字符向量化表达、出现在对应的正确种子之后的字段的字符向量化表达。
例如由“纵隔肿瘤;食管钡餐造影”这个种子从“<DES>纵隔肿瘤</DES>可做<CHE>食管钡餐造影</CHE>有时即可诊断&”中生成第一模板“tag1可做 tag2有时即可诊断”。该第一模板中,tag1和tag2表示种子中的两个实体,不分先后,位于实体对之前的字段向量化表达为空,位于实体对之间的字段为“可做”(具体采用向量化表达),位于实体对之后的字段为“有时即可诊断”。
本公开中将由正确种子匹配出的模板称为第一模板。第一模板也可以理解为文本向量化后的一个列表。本公开对如何将文本向量化不做限定,例如可以选择经典的word2vector算法或者TF-IDF方法进行向量化表达,假如实体对左中右向量化表达为V1,V2,V3,则列表为[V1,V2,V3]。
模板的准确性越高、覆盖程度越大,后期根据该模板提取的新的种子越多,准确性越高。故需要根据经验,选择合适的正确种子作为最初的输入信息,以及在后续生成种子时对生成的种子进行评价挑选好的种子作为正确种子。
步骤S3,根据所述第一模板遍历所述待标注文本中每一个句子以匹配出种子。
具体地,根据所述待标注文本中的句子得到第二模板,所述第二模板包括该句子中出现在该句子中第一实体和第二实体二者之前的字段的字符向量化表达、出现在该句子中第一实体和第二实体二者之间的字段的字符向量化表达、出现在该句子中第一实体和第二实体二者之后的字段的字符向量化表达;比较所述第一模板与所述第二模板的相似度;在所述第一模板与所述第二模板的相似度大于设定阈值的情况下,该第二模板所在句子中的第一实体和第二实体作为匹配出的种子。。
例如模板为“tag1可做tag2有时即可诊断”,某个待标注的句子为“<DES>疾病A</DES>可做<CHE>检测A</CHE>有时即可诊断”。疾病A代表某一疾病的名称,检查A代表某种检查手段的名称。那么待标注句子得到的模板也是“tag1 可做tag2有时即可诊断”,两个模板的相似度为100%,从而得到新的种子“疾病A;检查A”。
当然,两个模板的相似度大于一定阈值即可。
以下公式中符号说明如下:第一模板记为P1,第二模板记为P2,p为第一模板P1中出现在对应的正确种子之前的字段的字符向量化表达、出现在对应的正确种子中第一实体与第二实体之间的字段的字符向量化表达、出现在对应的正确种子之后的字段的字符向量化表达组成的列表,q为第二模板P2中出现在对应句子中第一实体和第二实体二者之前的字段的字符向量化表达、出现在对应句子中第一实体和第二实体二者之间的字段的字符向量化表达、出现在对应句子中第一实体和第二实体二者之后的字段的字符向量化表达组成的列表,α、β与γ均为大于0的比例系数。
通常比较两个模板的相似度方法可以是采用两实体左中右三个部分向量化处理后分别相乘求其模板的相似程度。即采用Cosine(p,q)评价两个模板的相似度。
由于医学数据的特异性较强,例如句1:“<DES>平滑肌瘤</DES>患者在<CHE>病理组织学检查</CHE>可见平滑肌细胞呈长梭形或略显波纹状常平行排列&”、和句2:“<DES>直肠脱垂</DES>患者在<CHE>直肠指诊</CHE>时可触及直肠腔内黏膜折叠堆积,柔软光滑,上下移动,有壅阻感,内脱垂部分与肠壁之间有环形沟&”。本公开的实施例提出一种计算两个模板相似度的算法。具体地,所述相似度根据如下公式确定:
Match(P1,P2)=α*Cosine(p,q)+β*Euclidean(p,q)+γ*Tanimoto(p,q),
其中,Cosine为余弦函数,Euclidean为欧式距离,Tanimoto为两个向量的相似度函数。即采用三种评价指标综合判断两个模板之间的相似度。三个参数α、β和γ的取值可根据经验设置,也可以对步骤S3中的部分结果进行分析后调整,以让函数值更接近真实的情况。
步骤S4,根据已有第一模板、已有的正确种子和已有的错误种子评价匹配出的种子,其中评价合格的种子作为正确种子。
具体地,按照如下公式评价新的种子的正确性:
其中,待评价的种子记为T,P={Pi}是产生种子T的所有第一模板,Ci是由第一模板Pi匹配出种子T时种子T所在句子中第一实体和第二实体之前的字段的字符向量化表达、该句子中第一实体与第二实体之间的字段的字符向量化表达、该句子中第一实体与第二实体之后的字段的字符向量化表达组成的列表,Conf(Pi)记为:
Conf(Pi)=(Pip)/(Pip+Pin),
其中,Pip是第一模板Pi匹配出来的正例个数(即匹配出的正确种子的个数);Pin是模板P匹配出来的负例个数(即匹配出的错误种子的个数)。
Conf(Pi)表征模板Pi本身的优劣,显然各模板Pi本身越有效,产生新的种子T的模板Pi与对应的待标注句子越相似,则新的种子准确性越高。可以设定一定的阈值,Conf(T)函数评价分数高于一定阈值则认为该新种子是合格的种子(即正例),评价分数低于一定阈值则认为该新种子是不合格的种子(即负例),也即是由第一模板得到的错误的种子。
步骤S5、用步骤S4中得到的正确种子替换步骤S2中的正确种子重复执行步骤S2-S4设定次数后停止或至评价合格的正确种子的数量达到设定阈值后停止。
即用新得到的正确种子再去生成新的正确种子,则正确种子的数量如同滚雪球般增多。实验表明迭代5次左右之后正确种子的数量不会再增加。
步骤S6,输出匹配出的正确种子及该正确种子中第一实体和第二实体之间的分类关系。
这里的分类关系即正确种子中第二实体的类型决定,例如是第二实体属于检查方法类的,那么该正确种子的类型就是“疾病-检查方法”类,以此类推。
当然,进一步还可以输出得到该正确种子的句子。
参考图2b,还可以进一步提供人机交互界面以供用户对标注结果进行确认。
如是,标注过程基本由程序运行自动完成,大大降低了人力成本。人工仅需完成确认的工作。
参考表1,在一个实验例中,待标注文本中,句子内实体对为疾病-检查关系的句子有10720句。句子内实体对为疾病-治疗关系的句子有10009句。句子内实体对为疾病-症状关系的句子有13045句。句子中实体对为疾病-预防关系的句子有11852句。当然,实体对关系为疾病-治疗,其所在句子的逻辑关系并不一定是疾病-治疗。
表1
疾病-检查 疾病-治疗 疾病-症状 疾病-预防
文本数量 10720 10009 13045 11852
运用前述的标注方法进行试验,得到不同类型的句子标注的准确率见表2。
表2
疾病-检查 疾病-治疗 疾病-症状 疾病-预防
准确率 95% 92% 82% 78%
本公开的实施例还提供一种关系抽取方法,包括:采用前述的标注方法对待标注文本进行标注;利用深度学习(例如PCNN+ATT模型)对标注后的待标注文本中的至少部分句子进行训练以得到关系抽取模型。既可以将待标注文本中全部句子作为训练集,也可以人工挑选部分作为训练集部分作为测试集。
参考图2c,待进行关系抽取的文件即前述标注方法得到的文件。
可选地,还包括利用所述关系抽取模型对标注后的待标注文本中未参与模型训练的至少部分句子作为测试集进行测试。即前述标注方法得到的文本部分用于模型训练,部分用于测试。图3提供了一个关系抽取方法的完整流程。其中训练集和测试集分别是前述标注方法得到的文本中的不同部分的句子。
在一个实验例中,基于Tensorflow的分段卷积神经网络加注意力机制的方法,利用上述标注方法提取出的文本取排序靠前的句子(即匹配出的种子得分较高的句子)经查看无误后作为对应分类标签的文本,在python中整理数据格式。
模型训练的训练集中句子格式举例为:“m.11452m.12527垂体性巨人症儿童期过度生长,身材高大,四肢生长尤速/症状垂体性巨人症表现为儿童期过度生长,身材高大,四肢生长尤速&”。其中m.11452是池体性巨人症的字符向量化表达,m.12527是儿童期过度生长,身材高大,四肢生长尤速的字符向量化表达,垂体性巨人症是第一实体,儿童期过度生长,身材高大,四肢生长尤速是第二实体,/症状即为句子的分类关系(即该句子是描述疾病的症状的句子),&为结束符号,无意义。
对于原始句子(即未打标签的句子)经上述标注方法未提取出上述四类关系标签且具有一定干扰性的句子经查看归类为NA(即干扰类或错误类),因此共为五分类。为查看上述关系抽取方法的效果(例如分类的准确率),采用训练集 2000个句子,测试集500个句子(均由上述标注方法进行标注得到)进行实验,结果AUC值为0.9,准确率为0.94。
接受者操作特征曲线(receiver operating characteristic curve),简称ROC曲线,是指在特定刺激条件下,以被试在不同判断标准下所得的虚报概率P(y/N)为横坐标,以击中概率P(y/SN)为纵坐标,画得的各点的连线。 ROC曲线的面积就是AUC(Area Under theCurve,取值范围[0.5,1],越大表示模型预测的效果越好。
可见该方法可行性较高,准确率高,同时降低了人工标注的成本。
参考图2d,还可以显示测试的正确率。参考图2e,提供人机交互界面供用户确认是否保存关系抽取的结果。
将各python模块封装后在软件中进行调用,更便于使用者进行操作。结合附图2a-2e,首先,输入待标注的文本名称、包含正确种子的文件名称与包含错误种子的文件名称,调用python中编写的利用半监督方法标注数据的模块,返回值为数据标注的结果,在文本框中显示,需人工校验后单击确定,作为深度学习关系抽取模块的标注数据。然后,进行模型训练并返回测试集结果,弹出消息框可查看模型的评价指标。最后,输入待进行关系抽取的文件名称,传入参数文件名称并利用训练好的PCNN+ATT模型进行关系抽取,弹出消息框是否保存关系抽取结果,单击确定则将相应结果保存下来。
需要说明的是,本申请所描述的各个步骤之间没有执行上的先后顺序限制,对于各个步骤的描述顺序并不构成对本申请的方案的限制。
本公开的实施例还提供一种存储介质,所述存储介质存储指令,所述指令能够被处理器运行以执行上述的标注方法或者上述的关系抽取方法。
参考图4,本公开的实施例还提供一种运算装置,包括存储介质100和处理器200,存储介质100存储指令,所述指令能够被处理器200运行以执行上述的标注方法或者上述的关系抽取方法。
本申请中的各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置、设备和计算机可读存储介质实施例而言,由于其基本相似于方法实施例,所以其描述进行了简化,相关之处可参见方法实施例的部分说明即可。
本申请实施例提供的装置、设备和计算机可读存储介质与方法是一一对应的,因此,装置、设备和计算机可读存储介质也具有与其对应的方法类似的有益技术效果,由于上面已经对方法的有益技术效果进行了详细说明,因此,这里不再赘述装置、设备和计算机可读存储介质的有益技术效果。
本领域内的技术人员应明白,本公开的实施例可提供为方法、系统或计算机程序产品。因此,本公开可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、 CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本公开是参照根据本公开实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/ 或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU、MCU、单片机等)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM) 和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘 (DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。此外,尽管在附图中以特定顺序描述了本公开方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
可以理解的是,以上实施方式仅仅是为了说明本公开的原理而采用的示例性实施方式,然而本公开并不局限于此。对于本领域内的普通技术人员而言,在不脱离本公开的精神和实质的情况下,可以做出各种变型和改进,这些变型和改进也视为本公开的保护范围。

Claims (10)

1.一种标注方法,其特征在于,包括:
步骤S1、确定待标注文本、多个正确种子和多个错误种子,所述待标注文本中的每个句子均已由标签标示出一个第一实体和一个第二实体,所述正确种子和所述错误种子均是由第一实体和第二实体构成的实体对;所述正确种子表示两个实体之间存在逻辑关联,所述错误种子表示两个实体之间没有逻辑关联;
步骤S2、根据所述正确种子遍历所述待标注文本中每一个句子以匹配出第一模板;
步骤S3、根据所述第一模板遍历所述待标注文本中每一个句子以匹配出种子;
步骤S4、根据已有第一模板、已有的正确种子和已有的错误种子评价匹配出的种子,其中,评价合格的种子作为正确种子;
步骤S5、用步骤S4中得到的正确种子替换步骤S2中的正确种子重复执行步骤S2-S4设定次数后停止或至评价合格的正确种子的数量达到设定阈值后停止;
步骤S6、输出匹配出的正确种子及该正确种子中第一实体和第二实体之间的分类关系;
所述根据所述正确种子遍历所述待标注文本中每一个句子以匹配出第一模板包括:
将所述待标注文本中的句子中出现所述正确种子的句子进行聚类;
根据同一类句子和对应的正确种子得到第一模板,所述第一模板包括该同一类句子中出现在对应的正确种子之前的字段的字符向量化表达、出现在对应的正确种子中第一实体与第二实体之间的字段的字符向量化表达、出现在对应的正确种子之后的字段的字符向量化表达;
所述根据所述第一模板遍历所述待标注文本中每一个句子以匹配出种子包括:
根据所述待标注文本中的句子得到第二模板,所述第二模板包括该句子中出现在该句子中第一实体和第二实体二者之前的字段的字符向量化表达、出现在该句子中第一实体和第二实体二者之间的字段的字符向量化表达、出现在该句子中第一实体和第二实体二者之后的字段的字符向量化表达;
比较所述第一模板与所述第二模板的相似度;
在所述第一模板与所述第二模板的相似度大于设定阈值的情况下,该第二模板所在句子中的第一实体和第二实体作为匹配出的种子。
2.根据权利要求1所述的标注方法,其特征在于,所述第一模板与所述第二模板的相似度由如下Match函数确定:
Match(P1,P2)=α*Cosine(p,q)+β*Euclidean(p,q)+γ*Tanimoto(p,q),其中,
第一模板记为P1,第二模板记为P2,p为第一模板P1中出现在对应的正确种子之前的字段的字符向量化表达、出现在对应的正确种子中第一实体与第二实体之间的字段的字符向量化表达、出现在对应的正确种子之后的字段的字符向量化表达组成的列表,q为第二模板P2中出现在对应句子中第一实体和第二实体二者之前的字段的字符向量化表达、出现在对应句子中第一实体和第二实体二者之间的字段的字符向量化表达、出现在对应句子中第一实体和第二实体二者之后的字段的字符向量化表达组成的列表,α、β与γ均为大于0的比例系数。
3.根据权利要求2所述的标注方法,其特征在于,在步骤S5中,按照如下公式评价新的种子的正确性:
其中,待评价的种子记为T,P={Pi}是产生种子T的所有第一模板,Ci是由第一模板Pi匹配出种子T时种子T所在句子中第一实体和第二实体之前的字段的字符向量化表达、该句子中第一实体与第二实体之间的字段的字符向量化表达、该句子中第一实体与第二实体之后的字段的字符向量化表达组成的列表,Conf(Pi)记为:
Conf(Pi)=(Pip)/(Pip+Pin),
其中,Pip是第一模板Pi匹配出来的正例个数;Pin是模板P匹配出来的负例个数。
4.根据权利要求1所述的标注方法,其特征在于,所述第一实体包括标示疾病名称的字段,所述第二实体包括标示检查方法、治疗方法、表现症状和预防措施的字段,所述分类关系包括疾病-检查、疾病-治疗、疾病-症状、疾病-预防。
5.根据权利要求4所述的标注方法,其特征在于,还包括:提供人机交互界面以供用户输入原始文本、所述多个正确种子和所述多个错误种子,所述原始文本包括未打标签的句子;基于医学词典对所述未打标签的句子经实体识别并在实体所在位置打上对应的标签,所述标签分别标示疾病名称、检查方法、治疗方法、表现症状、预防措施中的一项。
6.根据权利要求1所述的标注方法,其特征在于,还包括:
提供人机交互界面以供用户对标注结果进行确认;和/或
提供人机交互界面以供用户输入所述待标注文本、所述多个正确种子和所述多个错误种子。
7.一种关系抽取方法,其特征在于,包括:
采用根据权利要求1-6中任一项所述的标注方法对待标注文本进行标注;
利用深度学习对标注后的待标注文本中的至少部分句子进行训练以得到关系抽取模型。
8.根据权利要求7所述的关系抽取方法,其特征在于,还包括
利用所述关系抽取模型对标注后的待标注文本中未参与模型训练的至少部分句子作为测试集进行测试。
9.一种存储介质,其特征在于,所述存储介质存储指令,所述指令能够被处理器运行以执行根据权利要求1-6任意一项所述的标注方法或者根据权利要求7或8所述的关系抽取方法。
10.一种运算装置,包括存储介质和处理器,其特征在于,所述存储介质存储指令,所述指令能够被所述处理器运行以执行根据权利要求1-6任意一项所述的标注方法或者根据权利要求7或8所述的关系抽取方法。
CN202010124863.5A 2020-02-27 2020-02-27 标注方法、关系抽取方法、存储介质和运算装置 Active CN111291554B (zh)

Priority Applications (5)

Application Number Priority Date Filing Date Title
CN202010124863.5A CN111291554B (zh) 2020-02-27 2020-02-27 标注方法、关系抽取方法、存储介质和运算装置
US17/435,197 US12026453B2 (en) 2020-02-27 2021-02-26 Annotation method, relation extraction method, storage medium and computing device
EP21761699.4A EP4113358A4 (en) 2020-02-27 2021-02-26 LABELING METHOD, RELATION EXTRACTION METHOD, STORAGE MEDIA AND OPERATING APPARATUS
PCT/CN2021/078145 WO2021170085A1 (zh) 2020-02-27 2021-02-26 标注方法、关系抽取方法、存储介质和运算装置
US18/395,509 US20240126984A1 (en) 2020-02-27 2023-12-23 Annotation method, relation extraction method, storage medium and computing device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010124863.5A CN111291554B (zh) 2020-02-27 2020-02-27 标注方法、关系抽取方法、存储介质和运算装置

Publications (2)

Publication Number Publication Date
CN111291554A CN111291554A (zh) 2020-06-16
CN111291554B true CN111291554B (zh) 2024-01-12

Family

ID=71028346

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010124863.5A Active CN111291554B (zh) 2020-02-27 2020-02-27 标注方法、关系抽取方法、存储介质和运算装置

Country Status (4)

Country Link
US (2) US12026453B2 (zh)
EP (1) EP4113358A4 (zh)
CN (1) CN111291554B (zh)
WO (1) WO2021170085A1 (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11392585B2 (en) * 2019-09-26 2022-07-19 Palantir Technologies Inc. Functions for path traversals from seed input to output
CN111291554B (zh) 2020-02-27 2024-01-12 京东方科技集团股份有限公司 标注方法、关系抽取方法、存储介质和运算装置
CN114238524B (zh) * 2021-12-21 2022-05-31 军事科学院系统工程研究院网络信息研究所 基于增强样本模型的卫星频轨数据信息抽取方法
CN116090449B (zh) * 2022-11-16 2024-05-14 北京京航计算通讯研究所 一种质量问题分析报告的实体关系抽取方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104933164A (zh) * 2015-06-26 2015-09-23 华南理工大学 互联网海量数据中命名实体间关系提取方法及其系统
CN108052501A (zh) * 2017-12-13 2018-05-18 北京数洋智慧科技有限公司 一种基于人工智能的实体关系对识别方法及系统
CN108427717A (zh) * 2018-02-06 2018-08-21 北京航空航天大学 一种基于逐步扩展的字母类语系医疗文本关系抽取方法
CN109472033A (zh) * 2018-11-19 2019-03-15 华南师范大学 文本中的实体关系抽取方法及系统、存储介质、电子设备
CN110289101A (zh) * 2019-07-02 2019-09-27 京东方科技集团股份有限公司 一种计算机设备、系统及可读存储介质
CN110444259A (zh) * 2019-06-06 2019-11-12 昆明理工大学 基于实体关系标注策略的中医电子病历实体关系提取方法

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9436759B2 (en) * 2007-12-27 2016-09-06 Nant Holdings Ip, Llc Robust information extraction from utterances
US20140082003A1 (en) * 2012-09-17 2014-03-20 Digital Trowel (Israel) Ltd. Document mining with relation extraction
US10223410B2 (en) * 2014-01-06 2019-03-05 Cisco Technology, Inc. Method and system for acquisition, normalization, matching, and enrichment of data
KR101536520B1 (ko) * 2014-04-28 2015-07-14 숭실대학교산학협력단 토픽을 추출하고, 추출된 토픽의 적합성을 평가하는 방법 및 서버
US10977573B1 (en) * 2015-05-07 2021-04-13 Google Llc Distantly supervised wrapper induction for semi-structured documents
US20180260860A1 (en) * 2015-09-23 2018-09-13 Giridhari Devanathan A computer-implemented method and system for analyzing and evaluating user reviews
US10755195B2 (en) * 2016-01-13 2020-08-25 International Business Machines Corporation Adaptive, personalized action-aware communication and conversation prioritization
US11210324B2 (en) 2016-06-03 2021-12-28 Microsoft Technology Licensing, Llc Relation extraction across sentence boundaries
US11069432B2 (en) * 2016-10-17 2021-07-20 International Business Machines Corporation Automatic disease detection from unstructured textual reports
CN110720099A (zh) 2017-06-05 2020-01-21 北京嘀嘀无限科技发展有限公司 基于种子监督学习提供推荐的系统和方法
CN109977391B (zh) 2017-12-28 2020-12-08 中国移动通信集团公司 一种文本数据的信息抽取方法及装置
US11221856B2 (en) * 2018-05-31 2022-01-11 Siemens Aktiengesellschaft Joint bootstrapping machine for text analysis
US20210365611A1 (en) * 2018-09-27 2021-11-25 Oracle International Corporation Path prescriber model simulation for nodes in a time-series network
US10871950B2 (en) * 2019-05-16 2020-12-22 Microsoft Technology Licensing, Llc Persistent annotation of syntax graphs for code optimization
US11526808B2 (en) * 2019-05-29 2022-12-13 The Board Of Trustees Of The Leland Stanford Junior University Machine learning based generation of ontology for structural and functional mapping
US12079714B2 (en) * 2019-07-03 2024-09-03 Kpn Innovations, Llc Methods and systems for an artificial intelligence advisory system for textual analysis
US11144728B2 (en) * 2019-07-19 2021-10-12 Siemens Aktiengesellschaft Neural relation extraction within and across sentence boundaries
US11636099B2 (en) * 2019-08-23 2023-04-25 International Business Machines Corporation Domain-specific labeled question generation for training syntactic parsers
US11709878B2 (en) * 2019-10-14 2023-07-25 Microsoft Technology Licensing, Llc Enterprise knowledge graph
US12093253B2 (en) * 2019-12-19 2024-09-17 Oracle International Corporation Summarized logical forms based on abstract meaning representation and discourse trees
US11321382B2 (en) * 2020-02-11 2022-05-03 International Business Machines Corporation Secure matching and identification of patterns
CN111291554B (zh) 2020-02-27 2024-01-12 京东方科技集团股份有限公司 标注方法、关系抽取方法、存储介质和运算装置
US11669740B2 (en) * 2021-02-25 2023-06-06 Robert Bosch Gmbh Graph-based labeling rule augmentation for weakly supervised training of machine-learning-based named entity recognition

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104933164A (zh) * 2015-06-26 2015-09-23 华南理工大学 互联网海量数据中命名实体间关系提取方法及其系统
CN108052501A (zh) * 2017-12-13 2018-05-18 北京数洋智慧科技有限公司 一种基于人工智能的实体关系对识别方法及系统
CN108427717A (zh) * 2018-02-06 2018-08-21 北京航空航天大学 一种基于逐步扩展的字母类语系医疗文本关系抽取方法
CN109472033A (zh) * 2018-11-19 2019-03-15 华南师范大学 文本中的实体关系抽取方法及系统、存储介质、电子设备
CN110444259A (zh) * 2019-06-06 2019-11-12 昆明理工大学 基于实体关系标注策略的中医电子病历实体关系提取方法
CN110289101A (zh) * 2019-07-02 2019-09-27 京东方科技集团股份有限公司 一种计算机设备、系统及可读存储介质

Also Published As

Publication number Publication date
EP4113358A1 (en) 2023-01-04
CN111291554A (zh) 2020-06-16
WO2021170085A1 (zh) 2021-09-02
US20240126984A1 (en) 2024-04-18
US12026453B2 (en) 2024-07-02
EP4113358A4 (en) 2023-07-12
US20220327280A1 (en) 2022-10-13

Similar Documents

Publication Publication Date Title
CN111291554B (zh) 标注方法、关系抽取方法、存储介质和运算装置
CN107562732B (zh) 电子病历的处理方法及系统
CN109472033B (zh) 文本中的实体关系抽取方法及系统、存储介质、电子设备
CN106919794B (zh) 面向多数据源的药品类实体识别方法及装置
CN111061841A (zh) 知识图谱的构建方法及装置
Li et al. Ffa-ir: Towards an explainable and reliable medical report generation benchmark
CN112541066B (zh) 基于文本结构化的医技报告检测方法及相关设备
CN113808758B (zh) 一种检验数据标准化的方法、装置、电子设备和存储介质
Martinez et al. Cross-hospital portability of information extraction of cancer staging information
CN116992839B (zh) 病案首页自动生成方法、装置及设备
CN110597760A (zh) 用于电子文档合规性判别的智能方法
McInerney et al. Chill: zero-shot custom interpretable feature extraction from clinical notes with large language models
CN112749277A (zh) 医学数据的处理方法、装置及存储介质
CN107122582B (zh) 面向多数据源的诊疗类实体识别方法及装置
US20170206317A1 (en) Systems and methods for targeted radiology resident training
Abaho et al. Assessment of contextualised representations in detecting outcome phrases in clinical trials
CN112735545A (zh) 自训练方法、模型、处理方法、装置及存储介质
CN111797626B (zh) 一种命名实体识别方法及装置
CN112366002A (zh) 一种基于知识库对院内真实世界不良用药的评估方法
CN116258136A (zh) 检错模型训练方法、医学影像报告检测方法、系统及设备
CN112749545B (zh) 医学数据的处理方法、装置及存储介质
CN115456069A (zh) 医嘱分类模型的训练方法、装置、电子设备及存储介质
CN112712868A (zh) 医学数据的分析方法、装置及存储介质
Hong et al. AI-and HPC-enabled Lead Generation for SARS-CoV-2: Models and Processes to Extract Druglike Molecules Contained in Natural Language Text
Zech Using BERT Models to Label Radiology Reports

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant