CN112347781A - 生成或修改表示输入数据内的关系的本体 - Google Patents
生成或修改表示输入数据内的关系的本体 Download PDFInfo
- Publication number
- CN112347781A CN112347781A CN202010783566.1A CN202010783566A CN112347781A CN 112347781 A CN112347781 A CN 112347781A CN 202010783566 A CN202010783566 A CN 202010783566A CN 112347781 A CN112347781 A CN 112347781A
- Authority
- CN
- China
- Prior art keywords
- input data
- processing
- data
- processing technique
- percentage
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 claims abstract description 342
- 238000012545 processing Methods 0.000 claims abstract description 303
- 230000008569 process Effects 0.000 claims abstract description 23
- 238000012549 training Methods 0.000 claims description 56
- 238000010801 machine learning Methods 0.000 claims description 32
- 238000012795 verification Methods 0.000 claims description 30
- 238000012937 correction Methods 0.000 claims description 24
- 238000010200 validation analysis Methods 0.000 claims description 24
- 238000013528 artificial neural network Methods 0.000 claims description 11
- 230000004044 response Effects 0.000 claims description 7
- 230000008859 change Effects 0.000 claims description 5
- 238000004590 computer program Methods 0.000 claims description 5
- 238000003058 natural language processing Methods 0.000 claims description 3
- 238000012706 support-vector machine Methods 0.000 claims description 3
- 238000004458 analytical method Methods 0.000 abstract description 6
- MLDQJTXFUGDVEO-UHFFFAOYSA-N BAY-43-9006 Chemical compound C1=NC(C(=O)NC)=CC(OC=2C=CC(NC(=O)NC=3C=C(C(Cl)=CC=3)C(F)(F)F)=CC=2)=C1 MLDQJTXFUGDVEO-UHFFFAOYSA-N 0.000 description 12
- 239000005511 L01XE05 - Sorafenib Substances 0.000 description 12
- 229960003787 sorafenib Drugs 0.000 description 12
- 238000013479 data entry Methods 0.000 description 10
- 230000006870 function Effects 0.000 description 9
- 238000011282 treatment Methods 0.000 description 8
- 238000001514 detection method Methods 0.000 description 5
- 201000010099 disease Diseases 0.000 description 5
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 5
- 210000002569 neuron Anatomy 0.000 description 5
- 230000008901 benefit Effects 0.000 description 3
- 230000010109 chemoembolization Effects 0.000 description 3
- 150000001875 compounds Chemical class 0.000 description 3
- 230000001419 dependent effect Effects 0.000 description 3
- 230000014509 gene expression Effects 0.000 description 3
- 206010073071 hepatocellular carcinoma Diseases 0.000 description 3
- 231100000844 hepatocellular carcinoma Toxicity 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 239000013598 vector Substances 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 230000003247 decreasing effect Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 229940079593 drug Drugs 0.000 description 2
- 239000003814 drug Substances 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000002638 palliative care Methods 0.000 description 2
- 238000012552 review Methods 0.000 description 2
- 230000035945 sensitivity Effects 0.000 description 2
- 238000002679 ablation Methods 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 239000000090 biomarker Substances 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000011284 combination treatment Methods 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 239000003607 modifier Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/23—Updating
- G06F16/2365—Ensuring data consistency and integrity
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/901—Indexing; Data structures therefor; Storage structures
- G06F16/9024—Graphs; Linked lists
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/10—Machine learning using kernel methods, e.g. support vector machines [SVM]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/022—Knowledge engineering; Knowledge acquisition
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Medical Informatics (AREA)
- Animal Behavior & Ethology (AREA)
- Biomedical Technology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Public Health (AREA)
- Computer Security & Cryptography (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Epidemiology (AREA)
- Primary Health Care (AREA)
- Pathology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Machine Translation (AREA)
Abstract
一种用于利用至少两种处理技术协调对包含数据项(例如,医学文本)的输入数据的分析的方法和系统。两种不同的处理技术处理所述输入数据的相应部分以识别所述输入数据的所述数据项之间的关系。然后确定每个处理技术的准确性,并且基于所确定的准确性来自动改变相应部分的大小,用于处理输入数据的后续迭代。
Description
技术领域
本发明涉及生成/修改表示输入数据内的关系的本体的领域。
背景技术
医学文献数据库(例如,PubMed)是用于临床知识挖掘的丰富数据源。这些数据库提供能够用于建立临床/处置指南的丰富信息,例如,由研究人员识别医学文献中指出的处置与成功水平之间的关系。
然而,对于人类研究人员来说,阅读文献以建立指南是极其劳动密集型的。因此,需要一种智能处理系统,其能够检测论文讨论的模态,自动概括研究结果并呈现给临床医生。
设计这种系统的第一步是创建表示医学文献的不同数据项(例如,单词或短语)之间关系的本体。该本体还可以用作模态检测器。例如,本体可以使用三元组存储或图形结构/数据库(例如,其采用属性图形模型)来编码关系。然而,构造本体是极具挑战性的,例如,由于自由文本中包含的复杂组合模态、复杂的依赖性等等。
创建本体或修改现有本体的现有解决方案采用机器学习算法来处理医学文献。然而,用于这种机器学习算法的训练数据的创建是困难且耗时的,需要大量参与者来提供足够的训练数据以用于医学文献的准确处理。
因此,期望提供一种能够在计算机上实现的生成(或修改)本体的改进方法。特别地,期望有助于计算机上的输入数据之间的关系的自动确定的准确实现。
发明内容
本发明由权利要求书限定。
根据依照本发明的一个方面的示例,提供了一种生成或修改表示输入数据内的关系的本体的计算机实现的方法。所述方法迭代地包括:获得用于处理的输入数据,输入数据包括多个数据项;使用第一处理技术来处理所述输入数据的第一部分,所述第一处理技术被配置为识别所述输入数据的不同数据项之间的关系,所述第一部分的大小是所述输入数据的第一百分比;使用不同的第二处理技术来处理所述输入数据的不同的第二部分,所述第二处理技术被配置为识别所述输入数据的不同数据项之间的关系,第二部分的大小是输入数据的第二百分比;基于由第一处理技术和第二处理技术识别的不同数据项之间的所述关系来生成或修改本体;确定第一处理技术和第二处理技术中的每个的准确性;并且,基于所确定的第一处理技术和第二处理技术中的每个的准确性来调整第一百分比和第二百分比的大小,用于对未来输入数据的处理。
所提出的发明提供了一种用于生成本体(诸如,知识图形或知识库)的自动或半自动方法,所述方法识别输入数据的不同数据项或实体之间的关系。本发明由此解决了如何使用计算机或处理器准确地实现(半)自动确定这种关系的问题。
(至少)两种不同处理技术的使用允许使用最准确的技术来生成本体。通过迭代地调整输入数据的每个比例的百分比,可以对最准确的技术进行加权,以提供对所生成/修改的本体更大的影响。这提高了本体的准确性,并且避免了任何单个处理技术的瓶颈。
所提出的方法控制如何利用处理技术,以便生成本体。特别地,所提出的发明有助于计算机使用(至少)两种处理技术来处理输入数据,从而有助于在计算机上输入数据内的关系的自动确定的准确实现。
此外,通过准确地识别关系,所生成的本体能够用于输入数据的更准确的处理,例如,用于后续搜索工具。作为示例,如果输入数据是文本医学数据,则医学问题和回答系统可以更准确地检索对问题的适当回答(因为问询与回答之间的关系可以由本体建立)。基于本体的搜索比其他搜索更简单和有效。
优选地,本体识别输入数据的至少两个数据项以及两个数据项之间的关系。本体的适当示例包括存储一个或多个(语义)三元组的三元组存储、知识图形/库、实体关系模型等。
在一些实施例中,第一处理技术和/或第二处理技术各自采用多个从属处理技术来识别输入数据的不同数据项之间的关系。因此,第一处理技术可以有效地是一种或多种处理技术的第一集合,并且第二处理技术可以是一种或多种处理技术的不同的第二集合。
在一些实施例中,可以基于用户输入(例如,校正所生成的本体)来确定准确性,即,有效地手动校正。在其它实施例中,可以使用地面实况数据库来确定准确性,以确定每个处理技术的准确性。这些方法的合适示例将在后面描述。
优选地,用于处理的输入数据包括文本数据,每个数据项表示文本数据的至少一个词。文本数据特别适合用于本发明,因为文本数据指示通常难以使用自动化方法识别的关系(例如,语义关系或父子关系,即,上位词或下位词关系)。所提出的发明提供了一种能够在计算机上以更高的准确性实现的处理潜在困难的文本数据的(半)自动方法。
在特定实施例中,文本数据可以包括医学文献,例如,关注目标疾病领域(诸如,HCC)的一篇或多篇文章,或者关于针对某种疾病的处置的效果的评论文章。本发明对于在医学文献中的使用是特别有利的,因为医学文献通常定义对于自动化方法来说难以直观识别的潜在复杂关系。
获得输入数据的步骤可以包括:获得包括文本数据的初始输入数据;使用自然语言处理技术处理初始输入数据以检测初始输入数据内的实体;以及将所检测的实体规范化为标准化编码,从而生成输入数据以供进一步处理。
第一处理技术可以包括基于规则的处理技术等。第二处理技术可以包括机器学习处理技术,诸如,神经网络处理技术。
机器学习处理技术通常需要大量的训练数据以便具有高度准确性。然而,一旦被训练,它们往往比仅仅基于规则的学习处理技术提供更准确的结果。
发明人已经认识到,当初始处理输入数据时,机器学习方法可能未被充分训练为具有高度准确性。随着越来越多的输入数据被处理(例如,并且由用户校正)或越来越多的训练数据变得可用,机器学习处理技术可被重新训练以随时间逐渐变得更加准确。例如,由所述方法生成的用户校正本体可以用作针对第一处理技术和/或第二处理技术的附加训练数据。因此,当用于将经由基于规则的技术处理的输入数据的百分比修改为经由机器学习处理技术处理的输入数据的百分比时,所提出的发明是特别有利的。
在特定实施例中,基于规则的技术可以是(语言)模式匹配技术,其适于识别文本数据内的语义或语法模式,从而导出不同数据项之间的关系。
机器学习处理技术可以是任何合适的基于学习的技术,其能够识别输入数据内的实体和/或关系。示例包括支持向量机和神经网络处理技术。
在第一处理技术/第二处理技术采用多个从属处理技术的情况下,每个从属处理技术可以分别是基于规则的处理技术或机器学习处理技术。
在至少一个实施例中,对于第一迭代,第一百分比的大小大于第二百分比的大小。该实施例考虑了以下理解:基于规则的处理技术最初可能比机器学习处理技术更准确。因此,至少最初,优选地,比机器学习处理技术更多地依赖于基于规则的处理技术。
在进一步的实施例中,对于第一迭代,第一百分比的大小在80%和95%之间,并且第二百分比的大小在5%和20%之间,其中第一百分比和第二百分比的总和不大于100%。
确定第一处理技术和第二处理技术中的每个的准确性的步骤可以包括:获得包括多个验证数据项的验证输入数据;获得指示验证输入数据的验证数据项之间的关系的验证答案数据;使用第一处理技术处理验证输入数据以生成预测验证输入数据的不同验证数据项之间的关系的第一验证输出数据;将第一验证输出数据与验证答案数据进行比较以确定第一处理技术的准确性;使用第二处理技术处理验证输入数据以生成预测验证输入数据的不同验证数据项之间的关系的第二验证输出数据;并且,将第二验证输出数据与验证答案数据进行比较以确定第二处理技术的准确性。
使用验证信息(即,验证输入和答案数据)确定准确性的方法对本领域技术人员来说是公知的,并且可以包括使用验证信息来确定处理技术的灵敏度、特异性和/或误差函数(其中任何一个可以用作对针对本发明目的的准确性的度量)。
确定第一处理技术和第二处理技术中的每个的准确性的步骤可以包括:接收一个或多个用户校正信号,每个用户校正信号指示对由第一处理技术和第二处理技术识别的不同数据项之间的关系的用户识别的校正或改变;并且,基于所述用户校正信号来确定第一处理技术和第二处理技术的准确性。因此,用户校正可以用于确定第一处理技术和第二处理技术的准确性。这使得所述方法是半自动化的。
该方法还可以包括,在迭代之间,使用训练输入数据和训练答案数据来再训练或进一步训练第一处理技术和第二处理技术中的至少一个。在一些实施例中,用户校正的本体(最初由方法生成,并且之后被校正)可以用于(再)训练第一处理技术和/或第二处理技术。这通过更有效地获得合适的训练数据,提高了训练第一处理技术/第二处理技术的效率。在这样的实施例中,用户校正的本体可以充当训练答案数据,并且相关联的输入数据可以充当训练输入数据。当然,可以在已经执行了预定次数的迭代之后或者在执行所述方法的迭代步骤的预定时间段(例如5小时)之后执行(再)训练。
本体优选地是包括节点和节点之间的连接的基于树的结构,每个节点表示不同的数据项,每个连接表示由节点表示的数据项之间的关系。例如,本体可以是可存储在图形数据库中的图形结构(例如,其采用属性图形建模方法)。
调整第一百分比和第二百分比的大小的步骤可以包括:确定手动覆盖信号是否提供关于第一百分比和/或第二百分比的用户期望的大小的信息;以及响应于手动覆盖信号提供关于用户期望的大小的信息,基于手动覆盖信号来调整第一百分比和/或第二百分比的大小。因此,第一百分比/第二百分比可以由用户经由手动覆盖信号来控制。
生成或修改本体的步骤还可以包括:确定用户输入信号是否提供关于输入数据的不同数据项之间的关系的信息;以及响应于用户输入信号提供关于关系的信息,进一步基于用户输入信号来生成或修改本体。
所述方法还可以包括使用不同的第三处理技术来处理输入数据的第三部分(不同于所述第一部分和第二部分),所述第三处理技术被配置为识别输入数据的不同数据项之间的关系,第三部分的大小是输入数据的第三百分比。生成或修改本体的步骤还可以基于由第三处理技术识别的关系。确定准确性的步骤还可以包括确定第三处理技术的准确性,并且调整大小的步骤还可以包括基于所确定的至少第三处理技术的准确性来调整第三百分比的大小。
因此,通过对该过程的适当调整,所述方法可以有效地扩展到使用三种或更多种处理技术来操作。第三处理技术可以集成基于规则的处理技术和基于学习的处理技术,即,为混合处理技术。
还提出了一种计算机程序,所述计算机程序包括用于当所述程序在处理系统上运行时实施任何前述方法的代码单元。
还提出了一种用于生成或修改表示输入数据内的关系的本体的处理系统。所述处理系统包括:输入模块,其适于获得用于处理的输入数据,输入数据包括多个数据项;第一处理模块,其适于使用第一处理技术来处理输入数据的第一部分,所述第一处理技术被配置为识别输入数据的不同数据项之间的关系,第一部分的大小是输入数据的第一百分比;第二处理模块,其适于使用不同的第二处理技术来处理输入数据的不同的第二部分,所述第二处理技术被配置为识别输入数据的不同数据项之间的关系,第二部分的大小是输入数据的第二百分比;本体生成模块,其适于基于由第一处理技术和第二处理技术识别的不同数据项之间的关系来生成或修改本体;准确性确定模块,其适于确定第一处理技术和第二处理技术中的每个的准确性;以及,大小调整模块,其适于基于所确定的第一处理技术和第二处理技术中的每个的准确性来调整第一百分比和第二百分比的大小,用于对未来输入数据的处理。
处理系统的元件可以适当地适用于执行任何先前描述的方法的步骤,或者可以添加附加元件以执行一个或多个这样的步骤。
本发明的这些和其它方面将从以下描述的实施例中显而易见,并将参考以下描述的实施例进行阐述。
附图说明
为了更好地理解本发明,并且为了更清楚地示出如何实现本发明,现在将仅通过示例的方式参考附图,其中:
图1示出了根据实施例的处理系统的架构;
图2概念性地示出了由实施例生成的本体;以及
图3是示出根据本发明的实施例的方法的流程图。
具体实施方式
将参照附图描述本发明。
应当理解,详细描述和具体示例尽管指示了设备、系统和方法的示例性实施例,但仅旨在用于说明的目的,而不旨在限制本发明的范围。从以下描述、所附权利要求书和附图中,将更好地理解本发明的设备、系统和方法的这些和其它特征、方面和优点。应当理解,附图仅仅是示意性的,并且不是按比例绘制的。还应当理解,在所有附图中使用相同的附图标记来表示相同或相似的部件。
根据本发明的概念,提出了一种用于利用至少两个处理技术来协调对包含数据项(例如,医学文本)的输入数据的分析的方法和系统。两个不同的处理技术处理输入数据的相应部分以标识输入数据的数据项之间的关系。然后确定每个处理技术的准确性,并且基于所确定的准确性来自动改变相应部分的大小以用于处理输入数据的后续迭代。
实施例至少部分地基于以下认识:不同的处理技术将随着时间的推移而在准确性上发生变化,例如,当获得进一步的训练数据时。因此,通过基于处理技术的准确性来调整由每个处理技术使用的输入数据的比例或部分,能够更准确地识别数据项之间的关系。还应认识到,不同的处理技术在识别不同的关系方面可能更好,使得连续使用多个不同的处理技术将是有利的。
例如,说明性实施例可以在医学文本的分析中被采用以识别医学文本的实体之间的关系,例如处置选项和结果之间的关系。这改进了医学文本的分析。
所提出的实施例提供了一种使用两个处理技术自动分析输入数据的手段。这有助于使用多种不同的分析方法来处理输入数据。
在此后描述的实施例中,“输入数据”包括(自由形式)文本数据,诸如,一条或多条医学文献。输入数据的每次迭代可以例如包括关于特定疾病领域(例如,肝细胞癌(HCC))的不同文章或文章的集合。
文本数据包括数据项,每个数据项表示文本数据的至少一个词。数据项例如可以包括在文本数据中描述的实体,每个实体表示单个对象或对象组。对象可以是例如名词,可选地包括其描述符。
检测到的关系可以是例如语义关系(例如,两个词/短语的相同含义)或对应关系(例如,由第一单词/短语体现的概念导致由第二单词/短语体现的概念)。其它关系对于本领域技术人员将是显而易见的,其中一些将在下面阐明。
在其它示例中,“输入数据”可以由其它数据结构形成,诸如,本体或知识图形、信息数据集等。在输入数据是本体并且本体是基于树的图形结构的情况下,数据项可以包括图形结构的节点。
图1示出了根据本发明实施例的用于生成或修改表示输入数据105内的关系的本体101的处理系统100的架构设计。
输入数据105可以由数据源109提供,诸如像PubMed的数据库。接口(未示出)可以实现处理系统100与数据源109之间的通信。
处理系统100包括(可选的)文本数据规范器110。规范器是处理文本的预处理的部件。规范器能够对实体(即,特定单词或短语)执行简单检测,将它们规范化为标准化编码,并且然后输出规范化文本以供更复杂的分析。在后续处理期间,每个所检测并标准化的实体可以充当数据项。
作为示例,在该级别上所检测并标准化的实体能够包括(其中输入数据105包括一项医学文献)疾病名称、化学名称、药物名称和基因表达,已经为此开发了成熟的检测工具。
因此,规范器可以获得包括文本数据的初始输入数据105;使用自然语言处理技术处理初始输入数据以检测初始输入数据内的实体;以及将所检测的实体规范化为标准化编码,从而生成输入数据以供进一步处理。
在一些示例中,规范器可以生成识别不同实体或数据项的本体,但是不识别实体或数据项之间的关系。在一些实施例中,可以省略规范器,而原始或初始输入数据105被替代地用于进一步处理,而非预处理的输入数据。
处理系统100包括关系检测器120,其至少包括第一处理模块121和第二处理模块122。
第一处理模块适于使用第一处理技术来处理输入数据的第一部分,所述第一处理技术被配置为识别输入数据的不同数据项之间的关系。第一处理技术可以例如包括基于规则的处理技术。
关系检测器可以包括适于将输入数据划分为第一部分和第二部分的输入数据划分器123。
第二处理模块122适于使用不同的第二处理技术来处理输入数据的不同的第二部分,所述第二处理技术被配置为识别输入数据的不同数据项之间的关系。第二处理技术可以包括机器学习处理技术。
如本领域技术人员将已知的,第一处理模块121和/或第二处理模块122可以采用云计算处理技术和/或与存储器125通信以执行第一处理技术/第二处理技术。例如,存储器125可以存储用于模式匹配技术的参考模式或用于机器学习技术的机器学习模型。
在一些实施例中,第一处理技术和/或第二处理技术可以采用多个从属处理技术来识别输入数据的不同数据项之间的关系。因此,对第一处理技术的引用可以由一种或多种处理技术的第一集合来替代,并且对第二处理技术的引用可以由一种或多种处理技术的第二集合来替代。
第一部分的大小是输入数据的第一百分比,并且第二部分的大小是输入数据的第二百分比。这样,第一处理模块和第二处理模块处理输入数据的部分,以各自识别输入数据的数据项(例如,所检测的实体或不同的词/短语)之间的关系。
作为示例,这些关系可以是语法关系(例如,项A导致项B,或项A由项B引起)、语义/词汇关系(例如,项A等同于项B,是并列关系;或项A是项B的示例,是上位词或下位词关系)、统计关系(例如,项A大于项B,或项A统计上对应于项B)或组合或复合关系(例如,项A与项B一起使用)。
每个处理技术都适于识别不同数据项之间的关系,如稍后将解释的。在识别某些关系方面,一些处理技术可能比其它处理技术更好。仅作为示例,关系检测器可以生成多个(语义)三元组,每个三元组包括输入数据的第一数据项、输入数据的第二数据项以及第一数据项与第二数据项之间的关系的指示。
在一些示例中,所述第一处理技术是(语言)模式匹配技术,其适于识别文本数据内的语义或语法模式(例如,识别文本数据内的主体和客体或者识别相似数据项的列表),以导出不同数据项之间的关系。
在所述第一处理技术是模式匹配技术的情况下,关系检测器120可以与存储器125通信,存储器125存储参考(语言)模式以及与所述参考模式相对应的关系。所述模式匹配技术可以将所述参考模式与输入数据进行比较,以识别语义上或语法上相似的模式,并且将相似的模式与参考模式的相关关系相关联。
在示例中,所述第二处理技术是例如使用神经网络的机器学习处理技术。机器学习技术可以适于识别由数据项表示的潜在概念之间的关系,如本领域技术人员所知的。合适的机器学习处理技术的示例将在后文的描述中阐述。
所述第一处理技术可以是浅层匹配技术,即,仅能够利用文本级别的模式匹配(例如,识别语义或语法模式),而所述第二处理技术可以是深层匹配技术,例如利用知识水平相似性。
处理系统100还包括本体生成模块130,本体生成模块130适于基于由第一处理技术和第二处理技术识别的不同数据项之间的关系来生成或修改本体。因此,本体生成模块130组合或合成由关系检测器120的第一处理模块121和第二处理模块122识别的关系,以生成或修改本体。
要指出的是,生成或构造本体的方法在现有技术中是众所周知的。合适的本体的示例包括知识图形、其他图形结构(能存储在“图形数据库”中,例如,其采用属性图形模型)或(语义)三元组的数据集。
举例来说,所述本体生成模块可以构造知识图形,所述知识图形识别不同数据项(或实体)以及其之间的关系。知识图形是一种基于树的结构,其中,每个节点表示不同数据项或实体,并且节点之间的分支表示所连接的数据项之间的关系。稍后将提供知识图形的完整示例。
在一个示例中,在处理系统100包括文本数据规范器110的情况下,本体生成模块130适于利用由所述文本数据规范器检测到的实体来填充知识图形。然后,所述本体生成模块可以基于检测到的关系来定义不同实体之间的关系。
因此,至少在最初,知识图形可以仅包含源数据信息(例如,文章、句子和标记),并且不包含提取的关系(其在以后被插入)。要将关系嵌入在该知识图形内,能够通过“增长”新分支来对其进行扩展,以在知识图形中包括所述信息。
在另一示例中,在所述关系生成器生成多个(语义)三元组的情况下,所述本体生成模块可以利用来自多个三元组的不同数据项来填充知识图形(例如,识别独有的数据项),并且随后定义所述知识图形的所填充的数据项之间的关系。
在又一示例中,在所述关系生成器生成多个(语义)三元组的情况下,所述本体生成模块可以根据所述多个语义三元组生成三元组数据集。生成所述三元组数据集可以包括进一步处理所述多个语义三元组,例如,通过舍弃重复的三元组或者组织所述三元组,使得包含相似数据项的那些三元组彼此接近。
在实施例中,处理系统100可以包括显示设备135,显示设备135适于向用户显示所生成或修改的本体。这使得用户能够直观地识别输入数据的数据项之间的关系,而无需用户通读或调查整个输入数据。
处理系统100还包括准确性确定模块140,其适于确定第一处理技术和第二处理技术中的每个处理技术的准确性。准确性确定模块140由此确定第一处理技术和第二处理技术在识别输入数据的数据项之间的关系方面的准确性如何。
本发明设想到了准确性确定模块140的各种实施例。
在第一示例中,所述准确性确定模块可以获得包括多个验证数据项的验证输入数据,以及指示所述验证输入数据的验证数据项之间的关系的验证答案数据。所述准确性确定模块可以使用第一处理技术来处理验证输入数据的第一实例(或部分),并且使用第二处理技术来处理验证数据的第二实例(或部分),以分别生成第一验证输出数据和第二验证输出数据。然后,能够通过将第一验证输出数据/第二验证输出数据与验证答案数据进行比较来确定每个处理技术的准确性。
使用验证信息(输入数据和答案数据)来确定准确性的方法对于本领域技术人员将是众所周知的,并且可以包括使用所述验证信息来确定处理技术的灵敏度、特异性和/或误差函数(其中的任一项都可以而充当针对本发明的目的准确性的量度)。
该验证答案数据可以由用户提供,例如与对输入数据的自动处理一起工作。在一些示例中,所述验证答案数据包括由所述本体生成模块产生的本体的用户校正的版本。
所述验证输入数据和所述验证答案数据有效地提供了基础真实信息或数据集,用于建立第一处理技术/第二处理技术的准确性。所述基础真实数据集可以是例如由目标领域(例如,疾病领域)的专家建立/发布的数据,能够将其引入所述处理系统(例如,内存125)中,并且用作准确性确定模块140的参考。
在第二示例中,用户可能能够经由一个或多个用户校正信号来校正由本体生成模块130生成的本体。每个用户校正信号指示用户识别的对所述本体的关系(或数据项)的改变或校正。准确性确定模块140可以接收这些用户校正信号以确定第一处理技术/第二处理技术的准确性。有效地,这使得能够基于用户的手动校正(即,手动地)确定第一处理技术/第二处理技术的准确性。
特别地,用户校正信号指示第一处理技术/第二处理技术(其识别出不正确的关系或数据项)是不准确的。用户校正技术的数量越多,对应的处理技术就越不准确。所述准确性可以被表示为与特定处理技术相关联的用户校正信号的数量的简单计数,或者被表示为由所述处理技术预测中被校正的关系的数量的百分比(例如,需要校正的30%的预测)。这指示了处理技术的准确性。
所述用户校正信号可以从用户接口190提供,有效地充当知识编辑器。因此,用户可以查看所生成的本体(例如,在显示器135上),并且生成一个或多个用户校正信号以校正所生成的本体。这些用户校正信号可以被用于定义第一处理技术/第二处理技术的准确性和/或再训练第一处理技术/第二处理技术(如下所述)。
处理系统100还包括大小调整模块150,其基于所确定的第一处理技术和第二处理技术中的每个的准确性来调整第一百分比和第二百分比的大小,用于对未来输入数据的处理。换言之,对第一处理技术和第二处理技术的加权可以取决于第一技术和第二技术的准确性。
大小调整模块150可以适于与输入数据划分器123通信,以控制针对未来输入数据的部分的大小。
在第一示例中,如果准确性确定模块140确定第一处理技术比第二处理技术更准确(例如,比预定准确性值大),则可以增加第一百分比的大小,并且第二百分比的大小下降(并且反之亦然)。可以基于两个百分比之间的差(例如,将差减少10%)或者基于准确性之间的差来预先确定对第一百分比/第二百分比的大小的更改的大小(例如,更改5%或10%)。预定大小/百分比可以由用户例如经由用户接口来定义。
在第二示例中,大小调整模块150可以适于响应于指示第一处理技术/第二处理技术不正确或不准确的用户校正信号来减小第一百分比/第二百分比的大小。所述准确性确定模块可以适于将该信息传递到所述大小调整模块。
优选地,所述大小调整模块适于不将第一百分比或第二百分比的大小减小到低于预定值(例如,低于5%)。
其他示例对于本领域技术人员将是显而易见的。
以这种方式,第一百分比和第二百分比的大小(分别表示由第一处理技术和第二处理技术处理的输入数据的比例)是自适应的,并且响应于第一处理技术和第二处理技术的(不)准确性。因此,处理技术中的误差越多,则对用于确定输入数据的不同数据项之间的关系的所述处理技术的依赖就越少。
随着时间,例如,随着对处理技术的适应或训练,(一种或多种)处理技术的准确性可以改善或改变。因此,可以自动使用更准确的处理技术来识别输入数据内的关系。因此,通过大小调整模块150基于对应处理技术的准确性来改变第一百分比和第二百分比的值,在两种处理技术之间自动地执行平衡或折衷。
可以预设第一百分比和第二百分比的初始值,即在第一迭代期间。
在优选实施例中,针对第一迭代,第一百分比的大小大于第二百分比的大小。当第一处理技术是基于规则的(例如,模式匹配)技术而第二处理技术是机器学习技术时,这是特别有利的,因为通常基于规则的技术被认为在较少培训的情况下比机器学习技术更可靠或更准确。
在特定示例中,针对第一迭代,第一百分比的大小在80%至95%(例如,95%)之间,并且第二百分比的大小在5%至20%(例如,5%)之间,其中,第一百分比和第二百分比的总和不大于100%。
在一些另外的实施例中,大小调整模块150可以适于确定手动覆盖信号是否提供关于第一百分比和/或第二百分比的用户期望的大小的信息。响应于手动覆盖信号提供关于用户期望的大小的信息,所述大小调整信号可以基于所述手动覆盖信号来调整第一百分比和/或第二百分比的大小。
因此,用户可能能够使用手动覆盖信号覆盖对第一百分比和第二百分比的自动调整。所述手动覆盖信号可以经由用户接口190来提供。
任选地,处理系统100还可以包括训练模块160,训练模块160适于使用训练输入数据和训练答案数据(即,基础真实信息)来对第一处理技术和第二处理技术中的至少一种处理技术进行再训练或进一步训练。这可以包括更新存储器125,存储器125存储由第一处理模块和/或第二处理模块所使用的信息以执行第一处理技术/第二处理技术。
训练模块160可以适于在由准确性确定模块140确定准确性之前(再)训练第一处理技术/第二处理技术。
所述训练输入数据可以对应于由所述处理系统初始处理的输入数据,并且所述训练答案数据可以对应于在已经被用户校正之后由所述本体生成模块生成的本体。因此,用户校正的本体可以被用于导出训练答案数据中的至少一些(因为用户校正的本体将提供对应的训练输入数据的数据项之间的关系的指示)。
如先前所述,用户可以查看所生成的本体(例如,在显示器135上),并且经由用户接口190来生成一个或多个用户校正信号,以校正所生成的本体。经校正的本体以及其相关联的输入数据然后能够被提供作为额外的训练数据(即,新的基础真实信息)并且用于再训练第一处理技术/第二处理技术。
在实施例中,所述训练输入数据和所述训练答案数据中的至少一些由外部训练数据集来提供,所述外部训练数据集可以被定期地更新(例如,当新的研究或信息可用时,或者当执行所要求保护的方法的其他实例时)。因此,在一些实施例中,所述训练输入数据和所述训练答案数据是根据现有训练数据和通过执行所述方法而生成的信息的组合来提供的。
在一些实施例中,所要求保护的方法的结果被存储在数据集上,以供所要求保护的方法的其他实例执行训练。
(再)训练可以在生成/修改本体的每次迭代之后执行,或者在已经执行一定数量的迭代之后执行(以节省处理能力并且改善可用的训练数据的量)。例如,仅在已经执行了对处理输入数据至少5次迭代或至少10次迭代或至少100次迭代或至少300次迭代以生成/修改本体之后,才对第一处理技术/第二处理技术进行再训练。迭代次数可以由用户例如经由用户接口190来定义。
在其他示例中,可以在执行所述迭代的特定时间段(累积的)之后,例如在执行迭代的5小时之后或者在执行迭代1小时之后,来执行(再)训练。所述特定时间段可以由用户例如经由用户接口190来定义。
在再训练之前执行超过一次迭代的情况下,可以使多个用户校正的本体可用于(再)训练第一处理技术/第二处理技术。
在一些实施例中,用户可能能够经由用户接口190来提交新知识,用户接口190由此能够充当知识编辑器,例如,识别不同数据项之间的新关系。这种新知识可以例如由本体生成模块130进行被集成到所生成的本体中。
因此,所述本体生成模块可以确定用户输入信号是否提供关于输入数据的不同数据项之间的关系的信息;并且响应于所述用户输入信号提供关于所述关系的信息,进一步基于所述用户输入信号来生成或修改所述本体。
在下文中,将参考图2描述要被本体生成模块130生成/修改的合适本体的示例。特别地,图2概念性地图示了基于树的本体200的结构。
在示例本体中,特殊符号被用于编码或定义两个数据项(或实体)之间的关系。等号(=)符号能够表示两个数据项之间的并列关系(即,语义上相同的关系)。大于号(>)符号和小于号(<)能够分别表示上位和下位的关系。最后,加号(+)符号能够表示复合关系。
举例来说,考虑以下输入文本的摘录:
“我们的研究的目的是测试以下假设:索拉非尼相关的皮肤病学不利事件(AEs)作为早期生物标志物能够预测经动脉化疗栓塞(TACE)和索拉非尼(TACE-S)的组合治疗后的长期结果”。
(第一或第二)处理技术能够识别出短语“经动脉化学栓塞(TACE)加索拉非尼的组合治疗”,例如通过辨识带有词“加”的语义模式,来指示TACE与索拉非尼之间的并列关系。因此,能够创建指示TACE和索拉非尼能够被组合的本体指示,例如使用符号+(TACE、索拉非尼)。
作为另外的示例,输入数据可以描述PRFA如何是属于姑息处置族的一种处置,其中,通过符号<(PRFA,姑息处置)捕获了上位词。类似地,能够利用以下公式来表示三种不同处置的并列关系:=(TACE、微波消融、RFA)。通过使用该组符号的组合,能够以公式形式来表示数据项或实体之间的更复杂的关系,例如,=(TACE、+(TACE、索拉非尼))。该公式表示TACE和TACE的组分与索拉非尼之间的并列关系。
所述本体可以以树形结构形成,其能够被编码为知识图形内的节点和关系。例如,谓语节点能够被用于表示两个数据项或实体之间的关系类型(例如,符号),其中,实体节点被用于存储实体。这些节点能够被适当地连接在一起以对所需的关系进行编码。
这些关系可以被称为语言模式,并且能够从医学文献或现有本体的叙事数据中提取出来,例如通过采用根据本发明的实施例的方法。
图2图示了其中已经插入了两个数据项之间的关系的本体200或知识图形。
所述本体是一种基于树的结构,其中,不同的实体节点201-206表示输入数据的不同数据项或实体。特别地,所述本体可以是“图形结构”,其是用于存储数据项(通常被标记为“节点”或“实体”)以及所述数据项之间的关系的已知数据结构。
通过这种设计,能够以单词标记、句子和段落的多个粒度级别捕获检测到的知识的上下文。从句子级别开始,我们能够跟随图形中的链接逐级地检索对应的段落和文章。这能够经由常见的图形问询语言来实现。
所述实体节点可以例如由所述本体生成模块基于规范化文本来创建。特别地,所述文本数据规范器可以识别输入文本内的不同数据项(或“实体”),例如药物或处置的标签,并且所述本体生成模块可以利用所识别的数据项来填充或创建实体节点201-206。
在一个示例中,在处理系统100包括文本数据规范器110的情况下,本体生成模块130适于利用由所述文本数据规范器检测到的实体来填充知识图形。然后,所述本体生成模块可以基于所检测到的关系来定义不同实体之间的关系。
然后,可以生成至少一个额外节点207(例如,谓语节点)以定义由实体节点201-206所表示的不同实体之间的相应至少一种关系。额外节点207的内容可以指示关系的类型,例如,并列关系、上位词/同义词关系或复合关系。
仅举例来说,可以使用JavaScript对象表示法(JSON)格式来定义所述关系。能够创建或定义标准化的JSON结构,以供用户指定知识,即文本上下文内部的实体和关系。能够将多个模态(即,谓语节点或额外节点)放置在数组结构内部。每个模态或额外节点都可以定义名称、别称、模式表达式、关系类型(+、<、>、())和子分量,所述子分量是递归定义的结构。类型符号()表示叶节点处的实体类型,所述实体类型不再包含子分量。
额外节点207的一个示例可以被表示为:
{
“id”:XXXX,
“名称”:“索拉非尼经导管动脉化疗栓塞”,
“类型”:“+”,
“表达”:“+[(TACE),(索拉非尼)]”,
“类别”:“模态”,
“分量”:[…]
}
因此,两个实体之间的加关系207能够以JSON格式来存储,识别两个子节点205、206(TACE和索拉非尼)。子节点可以被递归地定义。
为了改善清晰度,图2提供了图示该特定示例的文字。
先前已经描述了可以如何使用两种不同的处理技术来处理所述输入数据。第一处理技术可以是浅层匹配技术,并且第二处理技术可以是深层匹配技术。浅层匹配技术能够采用基于规则的处理技术来识别输入数据内的预定模式。深层匹配技术能够采用机器学习处理技术来识别输入数据中及以后的数据项之间的不太明确的关系。
浅层匹配技术可以使用参考语言模式,包括句法(例如,语法)模式和语义模式,来处理所述输入数据的对应部分。因此,所述浅层匹配技术可以有效地是语言模式匹配技术。每种参考语言模式能够与特定的关系类型(例如,=、<、>或+)相关联,并且可以包括样本句子(即,定义样本数据项以及其关系)。所述浅层匹配技术可以从所述输入数据中检索与参考语言模式具有相似的语言模式的句子,并且将所检索到的句子和与对应的参考语言模式相同的关系类型(<、>、+或=)相关联,由此有效地关联所检索到的句子内的实体之间的关系。这能够通过应用标准/现有的句法和语义解析器来实现。在所检索到的句子中所包括的实体(即,数据项)不必与参考语言模式中的相同。在此阶段中,所述浅层匹配技术仅是通过建议具有相似模式的所有句子来“猜测”各数据项之间的关系。
换言之,浅层匹配技术可以识别所述输入数据内的与已知或参考语言模式(与特定关系相关联)相似的语言模式,以识别数据项以及其关系。
相比之下,深层匹配技术旨在发现知识水平相似性(而不是单纯的表面模式相似性)。数据项之间的关系被连接到其输入数据中的上下文。深层匹配算法能够将特定数据项追溯回到其上下文,以在该上下文中找到其他概念或数据项,并且链接到所检测到的概念(即,在各数据项之间建立基于知识的关系)。
在另外的示例中,所述输入数据可以与其他数据源相连接或者链接到其他数据源(例如,经由医学文献中的参考文献或脚注)。所述深层匹配技术能够进一步爬动以识别其他数据源中的链接的概念。
结果是围绕所检测到的数据项的链接概念图形。能够经由图形嵌入技术将这样的网络关系编码为矢量化的表示。然后,能够利用矢量化的表示来计算所检测到的概念与语料库中的其他概念之间的相似度。具有高相似性概念的句子能够被识别并且与彼此相关联,即,能够识别关系。以这种方式,所述深层匹配技术可以采用概念或知识水平匹配来识别输入数据内的数据项的潜在概念之间的匹配或者其之间的关系。
在任何描述的实施例中,第一处理技术/第二处理技术的复杂度是可修改的。仅举例说明,如果第一处理技术是基于规则的技术,则所使用的规则的数量或复杂度是可修改的。特别地,如果第一处理技术利用模式匹配方法,则可以修改参考模式的数量或复杂度。
在至少一个实施例中,可以基于第一技术/第二技术的准确性来修改第一技术和第二技术的复杂度。因此,所述处理系统可以进一步包括复杂度修改器,所述复杂度修改器适于基于第一技术/第二技术的相应准确性来修改第一技术/第二技术的复杂度。特别地,如果第一技术/第二技术的准确性大于第一预定值,则可以增加该第一技术/第二技术的复杂度,并且如果低于第二预定值,则可以降低该复杂度。第一预定值和第二预定值可以是相同的或(优选)不同的。
在其他实施例中,可以基于例如由用户接口接收到的用户输入来修改第一技术/第二技术的复杂度。这允许该用户控制第一处理技术/第二处理技术的复杂度。
图3图示了根据本发明的实施例的方法300。方法300被迭代地重复。
方法300包括获得用于处理的输入数据的第一步骤301,所述输入数据包括多个数据项。
方法300还包括:使用第一处理技术来处理所述输入数据的第一部分的第二步骤302,所述第一处理技术被配置为识别所述输入数据的不同数据项之间的关系,所述第一部分的大小是所述输入数据的第一百分比;以及使用不同的第二处理技术来处理所述输入数据的不同的第二部分的第三步骤303,所述第二处理技术被配置为识别所述输入数据的不同数据项之间的关系,所述第二部分的大小是所述输入数据的第二百分比。第二步骤302和第三步骤303可以被同时执行。
方法300还包括基于由所述第一处理技术和所述第二处理技术识别的所述不同数据项之间的所述关系来生成或修改本体的第四步骤304。方法300包括确定所述第一处理技术和所述第二处理技术中的每个的准确性的第五步骤305。
方法300还包括基于所确定的所述第一处理技术和所述第二处理技术中的每个的准确性来调整所述第一百分比和所述第二百分比的大小以用于对未来输入数据的处理的第六步骤306。
实施例已经参考仅仅两种处理技术进行了描述,但是方法可以通过调整先前描述的流程被扩展到利用三种或更多种处理技术进行操作。例如,可以存在被迭代地修改的第一百分比、第二百分比和第三百分比。例如,可以包括整合基于规则的技术和基于学习的技术的第三处理技术。
机器学习算法是处理输入数据以便产生或预测输出数据的任何自包含算法。这里,输入数据包括数据项,并且输出数据包括输入数据的数据项之间的关系。
用于在本发明中被采用的合适的机器学习算法对技术人员而言将是显而易见的。合适的机器学习算法的范例包括决策树算法和人工神经网络。诸如逻辑回归、支持向量机或朴素贝叶斯模型的其他机器学习算法是合适的备选。
人工神经网络(或简单地,神经网络)的结构受人脑启发。神经网络由层构成,每层包括多个神经元。每个神经元包括数学运算。具体地,每个神经元可以包括单一类型的变换的不同加权组合(例如,相同类型的变换、sigmoid等等,但是具有不同权重)。在处理输入数据的过程中,每个神经元的数学运算在输入数据上被执行以产生数值输出,并且神经网络中的每层的输出被顺序地馈送到下一层中。最终层提供输出。
训练机器学习算法的方法是众所周知的。通常,这样的方法包括获得训练数据集,包括训练输入数据条目和对应的训练输出数据条目。初始化的机器学习算法被应用到每个输入数据条目以生成预测的输出数据条目。在预测的输出数据条目与对应的训练输出数据条目之间的误差被用于修改机器学习算法。该过程可以被重复直到误差收敛,并且预测的输出数据条目与训练输出数据条目足够相似(例如,±1%)。这通常被称为监督式学习技术。
例如,在机器学习算法根据神经网络被形成的情况下,每个神经元的数学运算(的权重)可以被修改直到误差收敛。修改神经网络的已知方法包括梯度下降、反向传播算法等。
训练输入数据条目对应于输入数据的范例数据项。训练输出数据条目对应于范例数据项之间的关系,其可以从用户校正的本体导出。
与对实体之间的关系进行建模的其他方法相比,对知识图形结构的使用改进实体和关系检测准确性。
知识图形结构将与其上下文相关的实体关联起来,所述实体在本文是指形成输入数据的句子、段落和/或文章。文章通常包含一些元信息(诸如标题、关键词、主题、类别、作者、机构等等),其可以用作可以被用来改进关系检测准确性的上下文信息。具体地,上下文信息可以用作用于改进关系检测算法(例如,机器学习过程)并加速迭代过程的富集特征。利用基于图形的结构,这应当被更容易地执行,因为这样的上下文信息可以被自动地包括在基于图形的结构内。
考虑其中至少初始存在用于训练用于识别关系的处理技术的有限训练数据的情形。用户可以提供一些训练数据,例如通过使用知识编辑器来注释一些输入数据。在该范例中,用户注释输入数据以识别第一实体(“TACE”)、第二实体(“索拉非尼”)以及关系(“PLUS”或“+”)。由于这种注释与特定文章的特定句子相关联,因此围绕关系的一些上下文信息可以被提取,并且用作检索并排序更多文章和句子的基础,其可以包括相同PLUS关系,使得能够被推荐给用户以进行核实。
例如,上下文信息可以是在用户注释的文章中解释这种关系的句子。这些句子能够然后被转变成向量表示(例如,使用doc2vec)。能够进一步将更多特征纳入表示中,诸如使用文章的标题和关键词,并将它们转变成向量表示。此外,还能够利用在图形内的路径信息(从句子节点直到文章节点),以将图形中的路径表示成向量。已经存在用于执行这种过程的成熟算法(例如,TransE、TransH)。
利用以上特征表示,能够完成若干事情,其范例在下面被列出:
1)对在语义级别上类似于当前(即,最近注释的)那些的其他句子、段落或文章的检索和排序。使用知识图形结构,该选择是相当简单直接的,通过选择一组句子或甚至路径。可以包括相同关系的候选能够被识别为被呈现给用户以进行检查(即,以提供另外的训练范例);
2)对最不相似的其他句子、段落或文章的检索和排序,以提供更多多样化样本供用户注释。这落入主动学习的类别,其旨在加速关于至少训练样本的注释过程;
3)在训练期间,上述扩展的特征可以直接贡献于训练过程,使得模型是更上下文感知的。随着与该结构下的模式相关联的增长的上下文,训练可以利用更叙事性和路径特征来改进自学习过程。
另外,在训练期间,在深度学习上下文中,能够使用整个图形结构作为特征(例如,可以影响输出数据的输入数据的元素,其在本文是所识别的实体和(一个或多个)关系)。按照机器学习算法的惯例,当算法被训练时,其将自主选择哪些是重要的特征和相关的特征。
也就是说,在一些情形中,可以优选允许用户添加针对某些特征的特定偏好(即,用户可以控制或影响输入数据的哪些元素对输出数据具有影响)。因此,一些实施例可以允许用户定义或控制输入数据的哪些方面对机器学习过程的输出数据具有影响。用户因此具有决定哪些特征或路径要使用的灵活性。这可以经由用户接口来控制。
例如,对于路径特征,用户可以提出复杂问询以选择在特定研究主题下由两个作者(其对关于TACE的研究是知名的)共同创作并且其指定关键词的频率超出阈值的那些文章,例如用于训练。图形结构尤其擅长处理这样的问询。以这种方式,所述系统变得更加关注于学习并检测TACE相关的实体和关系。
技术人员将容易能够开发用于执行任何本文中描述的方法的处理系统,并且反之亦然。因此,示意图的每个框可以表示由方法执行的不同步骤或由处理系统执行的不同动作,其可以由处理系统的相应模块执行。
实施例可以因此利用处理系统。处理系统可以以许多方式利用软件和/或硬件来实施以执行所需的各种功能。处理器是采用可以使用软件(例如,微代码)被编程以执行所需功能的一个或多个微处理器的处理系统的一个范例。然而,处理系统可以在采用或不采用处理器的情况下被实施,并且可以被实施为执行一些功能的专用硬件和执行其他功能的处理器(例如,一个或多个编程的微处理器和相关联的电路)的组合。
可以在本公开的各种实施例中被采用的处理系统部件的范例包括但不限于常规微处理器、专用集成电路(ASIC)、以及现场可编程门阵列(FPGA)。在各种实施方式中,处理器或处理系统可以与一个或多个存储介质(诸如易失性和非易失性计算机存储器,诸如RAM、PROM、EPROM以及EEPROM)相关联。存储介质可以被编码有一个或多个程序,所述一个或多个程序当在一个或多个处理器和/或处理系统上运行时执行所需功能。各种存储介质可以固定在处理器或处理系统内或者可以是可传输的,使得存储在其上的一个或多个程序可以被加载到处理器或处理系统中。
将理解,所公开的方法优选是计算机实现的方法。因此,也提出了计算机程序的概念,该计算机程序包括用于当所述程序在处理系统(诸如计算机)上运行时实施任何描述的方法的代码单元。因此,根据实施例的计算机程序的代码的不同部分、行或块可以由处理系统或计算机运行以执行任何本文中描述的方法。在一些备选实施方式中,框中提到的功能可以以附图中提到的顺序之外的顺序发生。例如,连续示出的两个框可以事实上基本上同时地被运行,或者框可以有时以反向顺序被运行,取决于所涉及的功能。
实施例已经参考由采用英语语言的文本形成的输入数据进行了描述,但是设想到,实施例可以扩展到具有采用任何已知自然语言的文本的输入数据以及非文本数据。
通过研究附图、说明书和随附权利要求书,本领域技术人员在实践所请求保护的本发明时能够理解并实现所公开的实施例的变型。在权利要求中,“包括”一词不排除其他元件或步骤,并且词语“一”或“一个”不排除多个。单个处理器或其他单元可以实现在权利要求中记载的若干项的功能。尽管某些措施被记载在互不相同的从属权利要求中,但是这并不指示不能有利地使用这些措施的组合。如果计算机程序在上文被讨论,那么其可以被存储/分布在合适的介质上,例如与其他硬件一起或作为其他硬件的部分供应的光学存储介质或固态介质,但是也可以以其他形式分布,例如经由互联网或其他有线或无线的电信系统。如果术语“适于”在权利要求书或说明书中被使用,那么应注意,术语“适于”旨在等同于术语“被配置为”。权利要求中的任何附图标记都不应被解释为对范围的限制。
Claims (15)
1.一种生成或修改表示输入数据内的关系的本体的计算机实现的方法,所述方法包括迭代地:
获得用于处理的输入数据,所述输入数据包括多个数据项;
使用第一处理技术来处理所述输入数据的第一部分,所述第一处理技术被配置为识别所述输入数据的不同数据项之间的关系,所述第一部分的大小是所述输入数据的第一百分比;
使用不同的第二处理技术来处理所述输入数据的不同的第二部分,所述第二处理技术被配置为识别所述输入数据的不同数据项之间的关系,所述第二部分的大小是所述输入数据的第二百分比;
基于由所述第一处理技术和所述第二处理技术识别的不同数据项之间的所述关系来生成或修改本体;
确定所述第一处理技术和所述第二处理技术中的每个的准确性;并且
基于所确定的所述第一处理技术和所述第二处理技术中的每个的准确性来调整所述第一百分比和所述第二百分比的大小,用于对未来输入数据的处理。
2.根据权利要求1所述的计算机实现的方法,其中,用于处理的所述输入数据包括文本数据,每个数据项表示所述文本数据的至少一个词。
3.根据权利要求2所述的计算机实现的方法,其中,获得输入数据的步骤包括:
获得包括文本数据的初始输入数据;
使用自然语言处理技术来处理所述初始输入数据以检测所述初始输入数据内的实体;以及
将检测到的实体规范化为标准化编码,以由此生成所述输入数据以供进一步处理。
4.根据权利要求1至3中的任一项所述的计算机实现的方法,其中,所述第一处理技术包括基于规则的处理技术,并且所述第二处理技术包括机器学习处理技术,诸如,支持向量机处理技术或神经网络处理技术。
5.根据权利要求4所述的计算机实现的方法,其中,对于第一次迭代,所述第一百分比的大小大于所述第二百分比的大小。
6.根据权利要求5所述的计算机实现的方法,其中,对于第一次迭代,所述第一百分比的所述大小在80%与95%之间,并且所述第二百分比的所述大小在5%与20%之间,其中,所述第一百分比和所述第二百分比的总和不大于100%。
7.根据权利要求1至6中的任一项所述的计算机实现的方法,其中,确定所述第一处理技术和所述第二处理技术中的每个的准确性的步骤包括:
获得包括多个验证数据项的验证输入数据;
获得指示所述验证输入数据的所述验证数据项之间的关系的验证答案数据;
使用所述第一处理技术来处理验证输入数据以生成预测所述验证输入数据的不同验证数据项之间的关系的第一验证输出数据;
将所述第一验证输出数据与所述验证答案数据进行比较以确定所述第一处理技术的准确性;
使用所述第二处理技术来处理所述验证输入数据以生成预测所述验证输入数据的不同验证数据项之间的关系的第二验证输出数据;并且
将所述第二验证输出数据与所述验证答案数据进行比较以确定所述第二处理技术的准确性。
8.根据权利要求1至6中的任一项所述的计算机实现的方法,其中,确定所述第一处理技术和所述第二处理技术中的每个的准确性的步骤包括:
接收一个或多个用户校正信号,每个用户校正信号指示对由所述第一处理技术和所述第二处理技术识别的不同数据项之间的关系的用户识别的校正或改变;并且
基于所述用户校正信号来确定所述第一处理技术和所述第二处理技术的准确性。
9.根据权利要求1至8中的任一项所述的计算机实现的方法,还包括:在迭代之间,使用训练输入数据和训练答案数据来再训练或进一步训练所述第一处理技术和所述第二处理技术中的至少一个。
10.根据权利要求1至9中的任一项所述的计算机实现的方法,其中,所述本体是包括节点和节点之间的连接的基于树的结构,每个节点表示不同数据项,每个连接表示由所述节点表示的数据项之间的关系,其中,所述本体任选地是图形结构。
11.根据权利要求10所述的计算机实现的方法,其中,调整所述第一百分比和所述第二百分比的大小包括:
确定手动覆盖信号是否提供关于所述第一百分比和/或所述第二百分比的用户期望的大小的信息;并且
响应于所述手动覆盖信号提供关于用户期望的大小的信息,基于所述手动覆盖信号来调整所述第一百分比和/或所述第二百分比的所述大小。
12.根据权利要求1至11中的任一项所述的计算机实现的方法,其中,生成或修改本体的步骤还包括:
确定用户输入信号是否提供关于所述输入数据的不同数据项之间的关系的信息;并且
响应于所述用户输入信号提供关于关系的信息,进一步基于所述输入用户信号来生成或修改所述本体。
13.根据权利要求1至12中的任一项所述的计算机实现的方法,还包括使用不同的第三处理技术来处理与所述输入数据的所述第一部分和所述第二部分不同的第三部分的步骤,所述第三处理技术被配置为识别所述输入数据的不同数据项之间的关系,所述第三部分的大小是所述输入数据的第三百分比,
其中:
生成或修改本体的步骤还基于由所述第三处理技术识别的所述关系;
确定准确性的步骤还包括确定所述第三处理技术的准确性;
并且,调整大小的步骤还包括基于所确定的至少所述第三处理技术的准确性来调整所述第三百分比的大小。
14.一种计算机程序,包括用于当所述程序在处理系统上运行时实施根据权利要求1至13中的任一项所述的方法的代码单元。
15.一种用于生成或修改表示输入数据内的关系的本体的处理系统,所述处理系统包括:
输入模块,其适于获得用于处理的输入数据,所述输入数据包括多个数据项;
关系检测器,其包括:
第一处理模块,其适于使用第一处理技术来处理所述输入数据的第一部分,所述第一处理技术被配置为识别所述输入数据的不同数据项之间的关系,所述第一部分的大小是所述输入数据的第一百分比;
第二处理模块,其适于使用不同的第二处理技术来处理所述输入数据的不同的第二部分,所述第二处理技术被配置为识别所述输入数据的不同数据项之间的关系,所述第二部分的大小是所述输入数据的第二百分比;
本体生成模块,其适于基于由所述第一处理技术和所述第二处理技术识别的所述不同数据项之间的所述关系来生成或修改本体;
准确性确定模块,其适于确定所述第一处理技术和所述第二处理技术中的每个的准确性;以及
大小调整模块,其适于基于所确定的所述第一处理技术和所述第二处理技术中的每个的准确性来调整所述第一百分比和所述第二百分比的大小,用于对未来输入数据的处理。
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2019099376 | 2019-08-06 | ||
CNPCT/CN2019/099376 | 2019-08-06 | ||
EP19212800.7A EP3832665A1 (en) | 2019-12-02 | 2019-12-02 | Generating or modifying an ontology representing relationships within input data |
EP19212800.7 | 2019-12-02 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112347781A true CN112347781A (zh) | 2021-02-09 |
Family
ID=74357417
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010783566.1A Pending CN112347781A (zh) | 2019-08-06 | 2020-08-06 | 生成或修改表示输入数据内的关系的本体 |
Country Status (2)
Country | Link |
---|---|
US (1) | US20210042344A1 (zh) |
CN (1) | CN112347781A (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2021124849A (ja) * | 2020-02-04 | 2021-08-30 | 富士通株式会社 | 演算処理装置、演算処理装置の制御方法及び演算処理プログラム |
US11762896B2 (en) * | 2020-11-16 | 2023-09-19 | International Business Machines Corporation | Relationship discovery and quantification |
US20220172211A1 (en) * | 2020-11-30 | 2022-06-02 | International Business Machines Corporation | Applying machine learning to learn relationship weightage in risk networks |
US11755839B2 (en) | 2021-05-19 | 2023-09-12 | International Business Machines Corporation | Low resource named entity recognition for sensitive personal information |
US20230134798A1 (en) * | 2021-11-02 | 2023-05-04 | International Business Machines Corporation | Reasonable language model learning for text generation from a knowledge graph |
CN114579765B (zh) * | 2022-03-07 | 2023-08-15 | 四川大学 | 一种基于开源情报分析的网络靶场武器库构建方法 |
-
2020
- 2020-08-05 US US16/985,462 patent/US20210042344A1/en not_active Abandoned
- 2020-08-06 CN CN202010783566.1A patent/CN112347781A/zh active Pending
Also Published As
Publication number | Publication date |
---|---|
US20210042344A1 (en) | 2021-02-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Song et al. | Deep learning methods for biomedical named entity recognition: a survey and qualitative comparison | |
US10769552B2 (en) | Justifying passage machine learning for question and answer systems | |
US20210042344A1 (en) | Generating or modifying an ontology representing relationships within input data | |
US9621601B2 (en) | User collaboration for answer generation in question and answer system | |
Kang et al. | Pretraining to recognize PICO elements from randomized controlled trial literature | |
US20200365239A1 (en) | System and method for generating clinical trial protocol design document with selection of patient and investigator | |
Ling et al. | Integrating extra knowledge into word embedding models for biomedical NLP tasks | |
Teng et al. | A review on deep neural networks for ICD coding | |
US11625935B2 (en) | Systems and methods for classification of scholastic works | |
Wang et al. | Document-level biomedical relation extraction using graph convolutional network and multihead attention: algorithm development and validation | |
Nourani et al. | Association extraction from biomedical literature based on representation and transfer learning | |
Steinkamp et al. | Basic artificial intelligence techniques: natural language processing of radiology reports | |
Xue et al. | Automatic generation and recommendation for API mashups | |
Paydar et al. | A semi-automated approach to adapt activity diagrams for new use cases | |
Ruas et al. | LasigeBioTM at CANTEMIST: Named Entity Recognition and Normalization of Tumour Morphology Entities and Clinical Coding of Spanish Health-related Documents. | |
US20230244869A1 (en) | Systems and methods for classification of textual works | |
Sangeetha et al. | Information retrieval system for laws | |
Zhang et al. | Chinese medical entity recognition model based on character and word vector fusion | |
Zerva | Automatic identification of textual uncertainty | |
US20220165430A1 (en) | Leveraging deep contextual representation, medical concept representation and term-occurrence statistics in precision medicine to rank clinical studies relevant to a patient | |
Wang et al. | Enabling scientific reproducibility through FAIR data management: An ontology-driven deep learning approach in the NeuroBridge Project | |
Zhang et al. | Constructing covid-19 knowledge graph from a large corpus of scientific articles | |
Park et al. | SCREENER: Streamlined collaborative learning of NER and RE model for discovering gene-disease relations | |
EP3832665A1 (en) | Generating or modifying an ontology representing relationships within input data | |
Jain et al. | ParaCap: paraphrase detection model using capsule network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |