CN114706939A - 文本实体关系分析方法、装置、电子设备和可读存储介质 - Google Patents

文本实体关系分析方法、装置、电子设备和可读存储介质 Download PDF

Info

Publication number
CN114706939A
CN114706939A CN202111545588.5A CN202111545588A CN114706939A CN 114706939 A CN114706939 A CN 114706939A CN 202111545588 A CN202111545588 A CN 202111545588A CN 114706939 A CN114706939 A CN 114706939A
Authority
CN
China
Prior art keywords
entity
vector
vectors
text
splicing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111545588.5A
Other languages
English (en)
Inventor
刘明录
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Cloud Computing Ltd
Original Assignee
Alibaba Cloud Computing Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Cloud Computing Ltd filed Critical Alibaba Cloud Computing Ltd
Priority to CN202111545588.5A priority Critical patent/CN114706939A/zh
Publication of CN114706939A publication Critical patent/CN114706939A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Epidemiology (AREA)
  • Medical Informatics (AREA)
  • Primary Health Care (AREA)
  • Public Health (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开实施例公开了一种文本实体关系分析方法、装置、电子设备和可读存储介质。其中,文本实体关系分析方法,包括:向量获取步骤,获取文本中的字符所对应的包括实体向量的向量组合,其中所述实体向量所表示的实体中包括至少一个字符;向量拼接步骤,针对文本中的字符拼接所述向量组合中的向量,得到字符拼接向量;池化步骤,对所述字符拼接向量进行池化计算,得到实体池化后向量;实体关系确定步骤,拼接任意两个实体池化后向量作为实体对向量,并对所述实体对向量进行分类以确定实体关系。

Description

文本实体关系分析方法、装置、电子设备和可读存储介质
技术领域
本公开涉及计算机技术领域,具体涉及一种文本实体关系分析方法、装置、电子设备和可读存储介质。
背景技术
在利用文本识别方法对文本进行分析的过程中,需要对文本中实体的逻辑关系进行分析。例如,电子病历是医生在对患者进行诊断治疗的重要文书依据。在典型AI(人工智能)+医疗任务中,电子病历是最重要的信息输入,为了有效利用电子病历信息,需要对电子病历进行结构化解析。电子病历的实体密度大,实体逻辑关系复杂,通常一个典型的电子病历中会包括如下内容:症状、诊断、治疗药物、手术、实验室检验项目、体格检查、医学影像检查,以及病灶大小、形态、发病时间、诱发因素、检查结果等。其中的逻辑关系分析极为复杂,需要大量的计算资源。
发明内容
为了解决相关技术中的问题,本公开实施例提供一种文本实体关系分析方法、装置、电子设备和可读存储介质。
第一方面,本公开实施例中提供了一种文本实体关系分析方法。
具体地,所述文本实体关系分析方法,包括:向量获取步骤,获取文本中的字符所对应的包括实体向量的向量组合,其中所述实体向量所表示的实体中包括至少一个字符;
向量拼接步骤,针对文本中的字符拼接所述向量组合中的向量,得到字符拼接向量;
池化步骤,对所述字符拼接向量进行池化计算,得到实体池化后向量;
实体关系确定步骤,拼接任意两个实体池化后向量作为实体对向量,并对所述实体对向量进行分类以确定实体关系。
结合第一方面,本公开在第一方面的第一种实现方式中,
所述向量组合包括实体向量、属性向量、字符向量和位置向量。
结合第一方面的第一种实现方式,本公开在第一方面的第二种实现方式中,
所述向量获取步骤包括:
获取所述文本中的字符所对应的字符向量;
获取所述文本中的字符在所述文本中的位置的位置向量;
基于命名实体识别模型,获取所述文本中的字符的实体向量和属性向量。
结合第一方面至第一方面的第二种实现方式中的任一项,本公开在第一方面的第三种实现方式中,
所述池化步骤包括:使用平均池化方法,对实体中的字符的字符拼接向量进行池化计算,得到实体池化后向量。
结合第一方面至第一方面的第二种实现方式中的任一项,本公开在第一方面的第四种实现方式中,
所述实体关系确定步骤包括:
拼接任意两个符合实体抽取规则的实体池化后向量作为实体对向量;
对所述实体对向量进行分类计算,获取分类概率;
基于所述分类概率确定所述实体对向量所表示的实体之间的实体关系。
结合第一方面的第四种实现方式,本公开在第一方面的第五种实现方式中,
所述拼接任意两个符合实体抽取规则的实体池化后向量作为实体对向量包括:
在所有的实体池化后向量中,选取具有预设逻辑关系的概率达到预设概率的任意两个实体池化后向量进行拼接,以构建实体对向量。
结合第一方面的第四种实现方式,本公开在第一方面的第六种实现方式中,所述基于所述分类概率确定所述实体对向量所表示的实体之间的实体关系,包括:
基于所述分类概率与特定分类概率阈值的比较结果,确定所述实体对向量中的所述两个实体池化后向量间的逻辑关系,进而确定两个实体池化后向量所表示的实体之间的实体关系。
结合第一方面的第一种实现方式,本公开在第一方面的第七种实现方式中,
所述文本包括病历文本;所述实体向量包括以下的至少一项:治疗手段和疾病;所述属性向量包括以下的至少一项:部位、类型、时间和地点。
第二方面,本公开实施例中提供了一种文本实体关系分析装置。
具体地,所述文本实体关系分析装置,包括:
向量获取模块,用于获取文本中的字符所对应的包括实体向量的向量组合,其中所述实体向量所表示的实体中包括至少一个字符;
向量拼接模块,用于针对文本中的字符拼接所述向量组合中的向量,得到字符拼接向量;
池化模块,用于对所述字符拼接向量进行池化计算,得到实体池化后向量;
实体关系确定模块,用于拼接任意两个实体池化后向量作为实体对向量,并对所述实体对向量进行分类以确定实体关系。
结合第二方面,本公开在第二方面的第一种实现方式中,
所述向量组合包括实体向量、属性向量、字符向量和位置向量。
结合第二方面的第一种实现方式,本公开在第二方面的第二种实现方式中,
所述向量获取模块用于:
获取所述文本中的字符所对应的字符向量;
获取所述文本中的字符在所述文本中的位置的位置向量;
基于命名实体识别模型,获取所述文本中的字符的实体向量和属性向量。
结合第二方面至第二方面的第二种实现方式中的任一项,本公开在第二方面的第三种实现方式中,
所述池化模块用于:使用平均池化方法,对实体中的字符的字符拼接向量进行池化计算,得到实体池化后向量。
结合第二方面至第二方面的第二种实现方式中的任一项,本公开在第二方面的第四种实现方式中,
所述实体关系确定模块用于:
拼接任意两个符合实体抽取规则的实体池化后向量作为实体对向量;
对所述实体对向量进行分类计算,获取分类概率;
基于所述分类概率确定所述实体对向量所表示的实体之间的实体关系。
结合第二方面的第四种实现方式,本公开在第二方面的第五种实现方式中,
所述拼接任意两个符合实体抽取规则的实体池化后向量作为实体对向量包括:
在所有的实体池化后向量中,选取具有预设逻辑关系的概率达到预设概率的任意两个实体池化后向量进行拼接,以构建实体对向量。
结合第二方面的第四种实现方式,本公开在第二方面的第六种实现方式中,所述基于所述分类概率确定所述实体对向量所表示的实体之间的实体关系,包括:
基于所述分类概率与特定分类概率阈值的比较结果,确定所述实体对向量中的所述两个实体池化后向量间的逻辑关系,进而确定两个实体池化后向量所表示的实体之间的实体关系。
结合第二方面的第一种实现方式,本公开在第二方面的第七种实现方式中,
所述文本包括病历文本;所述实体向量包括以下的至少一项:治疗手段和疾病;所述属性向量包括以下的至少一项:部位、类型、时间和地点。
第三方面,本公开实施例提供了一种电子设备,包括存储器和处理器,其中,所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器执行以实现如第一方面、第一方面的第一种实现方式至第七种实现方式任一项所述的方法。
第四方面,本公开实施例中提供了一种计算机可读存储介质,其上存储有计算机指令,该计算机指令被处理器执行时实现如第一方面、第一方面的第一种实现方式至第七种实现方式所述的方法。
第五方面,本公开实施例中提供了一种计算机程序产品,包括计算机程序/指令,该计算机程序/指令被处理器执行时实现如第一方面、第一方面的第一种实现方式至第一方面的第七种实现方式所述的方法步骤。
根据本公开实施例提供的技术方案,通过向量获取步骤,获取文本中的字符所对应的包括实体向量的向量组合,其中所述实体向量所表示的实体中包括至少一个字符;向量拼接步骤,针对文本中的字符拼接所述向量组合中的向量,得到字符拼接向量;池化步骤,对所述字符拼接向量进行池化计算,得到实体池化后向量;实体关系确定步骤,拼接任意两个实体池化后向量作为实体对向量,并对所述实体对向量进行分类以确定实体关系,从而在节约计算资源的条件下从文本中准确提取实体,并对实体间的逻辑关系进行准确分析。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
结合附图,通过以下非限制性实施方式的详细描述,本公开的其它特征、目的和优点将变得更加明显。在附图中:
图1示出根据本公开实施例的文本实体关系分析方法的实施场景的示例性示意图;
图2示出根据本公开实施例的文本实体关系分析方法的流程图;
图3示出根据图2所示的实施方式的步骤S201的具体流程图;
图4示出根据图2所示的实施方式的步骤S204的具体流程图;
图5示出根据本公开实施例的文本实体关系分析装置的结构框图;
图6示出根据本公开的实施例的电子设备的结构框图;
图7示出适于用来实现根据本公开实施例的方法的计算机系统的结构示意图。
具体实施方式
下文中,将参考附图详细描述本公开的示例性实施例,以使本领域技术人员可容易地实现它们。此外,为了清楚起见,在附图中省略了与描述示例性实施例无关的部分。
在本公开中,应理解,诸如“包括”或“具有”等的术语旨在指示本说明书中所公开的特征、数字、步骤、行为、部件、部分或其组合的存在,并且不欲排除一个或多个其他特征、数字、步骤、行为、部件、部分或其组合存在或被添加的可能性。
另外还需要说明的是,在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本公开。
在本公开中,对用户信息或用户数据的获取均为经用户授权、确认,或由用户主动选择的操作。用户可以是个人、营利性机构、非赢利性机构等各种人或组织。
如上所述,在对文本的分析中,需要对文本中实体的逻辑关系进行分析。例如,电子病历是医生在对患者进行诊断治疗的重要文书依据。在典型AI+医疗任务中,电子病历是最重要的信息输入,为了有效利用电子病历信息,需要对电子病历进行结构化解析。电子病历的实体密度大,实体逻辑关系复杂,通常一个典型的电子病历中会包括如下内容:症状、诊断、治疗药物、手术、实验室检验项目、体格检查、医学影像检查,以及病灶大小、形态、发病时间、诱发因素、检查结果等。其中的逻辑关系分析极为复杂,需要大量的计算资源。
为了解决上述问题,本公开提出了一种文本实体关系分析方法、装置、电子设备和可读存储介质。
根据本公开的实施方式,通过,从而。
图1示出根据本公开实施例的文本实体关系分析方法的实施场景的示例性示意图。
本领域普通技术人员可以理解,图1示例性示出文本实体关系分析方法的实施场景,而不构成对本公开的限定。
如图1所示,在句子“患者年月日于我院行“子宫切除术””中,获取每个字符的字符向量102,即“患”、“者”、......“术”“””,以及每个字符的位置向量103,即0、1、......、14、15。
使用命名实体识别(Named Entity Recognition,NER)模型,识别出实体“子宫切除术”,以及实体中每个字符的实体向量105和属性向量104。例如,字符“子”、“宫”、“切”、“除”、“术”的实体向量分别是“手术”、“手术”、“手术”、“手术”、“手术”,属性向量分别是“部位”、“部位”、“类型”、“类型”、“类型”。在本公开的实施例中,命名实体识别也称为实体识别、实体分块和实体提取,是信息提取的一个子任务,旨在将文本中的命名实体定位并分类为预先定义的类别,如人员、组织、位置、时间表达式、数量、货币值、百分比等,其具体细节可以从相关技术中得到,本公开对此不作赘述。
在本公开的实施例中,实体向量105可以取例如“手术”的“治疗手段”、“疾病”等,属性向量104可以取“部位”、“类型”、“时间”、“地点”等。
在本公开的实施例中,实体向量105、属性向量104、字符向量102、位置向量103构成包括实体向量的向量组合,其中的核心是通过NER模型得到的实体向量105。根据不同的应用场景,例如,病历之外的实验记录、工作日志等其它场景,包括实体向量的向量组合中也可以根据需要包括其它向量。
本领域普通技术人员可以理解,实体向量105、属性向量104还可以取其他值,本公开对此不作限定。
在步骤S101向量拼接中,对向量组合中的向量进行拼接,例如对每个字符的字符向量102、位置向量103、实体向量105、属性向量104进行拼接,得到字符拼接向量。例如,拼接字符“子”的字符向量“子”、位置向量“10”、实体向量“手术”、属性向量“部位”,得到拼接向量106;拼接字符“术”的字符向量“术”、位置向量“14”、实体向量“术”、属性向量“类型”,得到拼接向量107。
在步骤S102池化中,对实体中的多个字的拼接向量进行例如平均池化的池化操作。例如,对实体“子宫切除术”,对其中的5个字符拼接向量进行加和后除以5,得到实体池化后向量109。文本中的其它实体可以得到其它实体池化后向量,例如实体池化后向量108。在本公开的一个实施例中,池化(Pooling)指的是卷积神经网络中的一个重要的概念,可以被理解为一种形式的降采样,其具体细节可以从相关技术中得到,本公开对此不作赘述。
在步骤S103生成实体对向量中,在多个实体池化后向量中,可以选择任意两个实体池化后向量,构成实体对向量,从而覆盖所有可能的实体对向量,对后续逻辑关系分析进行充分覆盖。也可以在多个实体池化后向量中,选择符合实体抽取规则的任意两个实体池化后向量,例如预设逻辑关系的概率达到预设概率的两个实体池化后向量进行拼接,构成实体对向量,从而避免对逻辑关系概率低的两个实体池化后向量进行拼接和后续计算,节约计算量。例如,对实体池化后向量108、109进行拼接,得到实体对向量110。在本公开的实施例中,实体对向量也可以被称作实体对向量。在本公开的实施例中,相较于选择任意两个实体池化后向量进行拼接,选择符合实体抽取规则的任意两个实体池化后向量进行拼接可以进一步在节约计算资源的条件下从文本中准确提取实体。
在步骤S104分类中,对实体对向量进行分类。分类可以采用学习的方式,使用已经标注好的病历样本训练分类器111,分类器111的样本标签是“有逻辑关系”和“无逻辑关系”。分类器111对实体对向量进行计算后,得到分类概率,即实体对向量110中的两个实体池化后向量108和109具有逻辑关系的概率。当分类概率大于特定分类概率阈值,例如0.5时,确定实体对向量110中的两个实体池化后向量108和109有逻辑关系,否则没有逻辑关系。
在步骤S105整句预测损失计算中,可以将分类器111对多个实体对向量110的计算结果进行加和,例如pred1+pred2+pred3+pred4,得到整句的预测损失loss。在本公开的一个实施例中,损失loss用来评价模型的预测值和真实值不一样的程度,损失函数越好,通常模型的性能越好,其具体细节可以从相关技术中得到,本公开对此不作赘述。
本领域普通技术人员可以理解,以上基于病例文本讨论文本实体关系分析仅仅是示例,上述分析方式也可以用于除病历外的其它文本,用于提取其中的实体,并分析实体间的逻辑关系,本公开对此不作限定。
图2示出根据本公开实施例的文本实体关系分析方法的流程图。
如图2所示,文本实体关系分析方法包括:步骤S201、S202、S203、S204。
在步骤S201中,获取文本中的字符所对应的包括实体向量的向量组合,其中实体中包括至少一个字符。
在步骤S202中,针对文本中的字符拼接向量组合中的向量,得到字符拼接向量。
在步骤S203中,对字符拼接向量进行池化计算,得到实体池化后向量。
在步骤S204中,拼接任意两个实体池化后向量作为实体对向量,并对实体对向量进行分类以确定实体关系。
步骤S201是向量获取步骤,步骤S202是向量拼接步骤,步骤S203是池化步骤,步骤S204是实体关系确定步骤。
如图1所示,并如前所述,对应步骤S201,在句子“患者年月日于我院行“子宫切除术””中,获取每个字符的字符向量102,即“患”、“者”、......“术”“””,以及每个字符的位置向量103,即0、1、......、14、15。识别出实体“子宫切除术”,以及实体中每个字符的实体向量105和属性向量104。例如,字符“子”、“宫”、“切”、“除”、“术”的实体向量分别是“手术”、“手术”、“手术”、“手术”、“手术”,属性向量分别是“部位”、“部位”、“类型”、“类型”、“类型”。
对应步骤S202,对每个字符的字符向量102、位置向量103、实体向量105、属性向量104进行拼接,得到字符拼接向量。例如,拼接字符“子”的字符向量、位置向量、实体向量、属性向量,得到拼接向量106;拼接字符“术”的字符向量、位置向量、实体向量、属性向量,得到拼接向量107。
对应步骤S203,对实体中的多个字的拼接向量进行例如平均池化的池化操作。例如,对实体“子宫切除术”,对其中的5个字符拼接向量进行池化,得到实体池化后向量109。文本中的其它实体可以得到其它实体池化后向量,例如实体池化后向量108。
对应步骤S204,选择任意两个实体池化后向量构成实体对向量,例如实体池化后向量108、109构成实体对向量110,使用分类器对实体对向量进行分类。分类器对实体对向量进行计算后,得到分类概率,即实体对向量中的两个实体池化后向量具有逻辑关系的概率。当分类概率大于特定分类概率阈值,例如0.5时,确定实体对向量中的两个实体池化后向量有逻辑关系,否则没有逻辑关系。
根据本公开的实施方式,通过向量获取步骤,获取文本中的字符所对应的包括实体向量的向量组合,其中实体向量所表示的实体中包括至少一个字符;向量拼接步骤,针对文本中的字符拼接向量组合中的向量,得到字符拼接向量;池化步骤,对字符拼接向量进行池化计算,得到实体池化后向量;实体关系确定步骤,拼接两个实体池化后向量作为实体对向量,并对所述实体对向量进行分类以确定实体关系,从而在节约计算资源的条件下从文本中准确提取实体,并对实体间的逻辑关系进行准确分析。
在本公开的实施例中,向量组合包括实体向量、属性向量、字符向量和位置向量。
在本公开的实施例中,如图1所示,实体向量105、属性向量104、字符向量102、位置向量103构成包括实体向量的向量组合。
本领域普通技术人员可以理解,根据不同的应用场景,例如,病历之外的实验记录、工作日志等其它场景,包括实体向量的向量组合中也可以根据需要包括其它向量。
根据本公开的实施方式,通过向量组合包括实体向量、属性向量、字符向量和位置向量,从而适用于病历的应用场景,方便对病历中的实体进行准确的逻辑关系分析。
图3示出根据图2所示的实施方式的步骤S201的具体流程图。
如图3所示,图2中的步骤S201的具体流程包括:步骤S301、S302、S303。
在步骤S301中,获取文本中的字符所对应的字符向量。
在步骤S302中,获取文本中的字符在文本中的位置的位置向量。
在步骤S303中,基于命名实体识别模型,获取文本中的字符的实体向量和属性向量。
在本公开的实施例中,可以直接从文本中提取每个字符,从而得到字符对应的字符向量;而且,可以获取字符对应的位置向量。例如,在句子“患者年月日于我院行“子宫切除术””中,“子”字的字符向量是“子”,位置向量是10。使用命名实体识别(Named EntityRecognition,NER)模型获取获取文本中的字符的实体向量和属性向量。例如,“子”字的实体向量是“手术”,属性向量是“部位”。
根据本公开的实施方式,通过向量获取步骤包括:获取文本中的字符所对应的字符向量;获取文本中的字符在文本中的位置的位置向量;基于命名实体识别模型,获取文本中的字符的实体向量和属性向量,从而准确识别出实体向量和属性向量,以利于以较少的运算资源进行准确的实体间逻辑关系分析。
在本公开的实施例中,池化步骤包括:使用平均池化方法,对实体中的字符的字符拼接向量进行池化计算,得到实体池化后向量。
在本公开的实施例中,例如对实体“子宫切除术”,可以对“子”、“宫”、“切”、“除”、“术”所对应的5个字符拼接向量进行平均池化,具体方式是对5个字符拼接向量进行加和后除以5,得到实体池化后向量。
根据本公开的实施方式,通过池化步骤包括:使用平均池化方法,对实体中的字符的字符拼接向量进行池化计算,得到实体池化后向量,从而得到实体的平均信息表示,从而更准确的分析实体间的逻辑关系。
图4示出根据图2所示的实施方式的步骤S204的具体流程图。
如图4所示,图2中的步骤S204的具体流程包括:步骤S401、S402、S403。
在步骤S401中,拼接任意两个符合实体抽取规则的实体池化后向量作为实体对向量。
在步骤S402中,对实体对向量进行分类计算,获取分类概率。
在步骤S403中,基于分类概率确定实体对向量所表示的实体之间的实体关系。
在本公开的实施例中,对应图1,在多个实体池化后向量中,选择符合实体抽取规则的任意两个实体池化后向量,例如预设逻辑关系的概率达到预设概率的两个实体池化后向量进行拼接,构成实体对向量。例如,对实体池化后向量108、109进行拼接,得到实体对向量110。在本公开的一个实施例中,实体抽取规则可以是根据业务需要的需求,例如在进行病例分析时,需要对例如“治疗手段”和“疾病”之类的实体进行抽取。
在本公开的实施例中,对应图1,对实体对向量进行分类。分类可以采用学习的方式,使用已经标注好的病例样本训练分类器111,分类器111的样本标签是“有逻辑关系”和“无逻辑关系”。分类器111对实体向量110对进行计算后,得到分类概率,即实体对向量110中的两个实体池化后向量108、109具有逻辑关系的概率。当分类概率大于特定分类概率阈值,例如0.5时,确定实体对向量中的两个实体池化后向量108、109有逻辑关系,否则没有逻辑关系。
根据本公开的实施方式,通过实体关系确定步骤包括:拼接任意两个符合实体抽取规则的实体池化后向量作为实体对向量;对实体对向量进行分类计算,获取分类概率;基于分类概率确定实体对向量所表示的实体之间的实体关系,从而更准确的分析实体间的逻辑关系。
在本公开的实施例中,拼接任意两个符合实体抽取规则的实体池化后向量作为实体对向量包括:在所有的实体池化后向量中,选取具有预设逻辑关系的概率达到预设概率的任意两个实体池化后向量进行拼接,以构建实体对向量。
在本公开的实施例中,例如病理的文本中可以提取出多个实体。如果对所有任意两个实体均构建实体对向量,可能导致运算量过大。而在所有的实体池化后向量中,选取具有预设逻辑关系的概率达到预设概率的任意两个实体池化后向量进行拼接,可以避免构建无效向量对,在不牺牲逻辑分析准确性的条件下,节约计算资源。
根据本公开的实施方式,通过拼接任意两个符合实体抽取规则的实体池化后向量作为实体对向量包括:在所有的实体池化后向量中,选取具有预设逻辑关系的概率达到预设概率的任意两个实体池化后向量进行拼接,以构建实体对向量,从而避免构建无效向量对,在尽量不牺牲逻辑分析准确性的条件下,节约计算资源。
在本公开的实施例中,基于分类概率确定实体对向量所表示的实体之间的实体关系,包括:基于分类概率与特定分类概率阈值的比较结果,确定实体对向量中的两个实体池化后向量间的逻辑关系,进而确定两个实体池化后向量所表示的实体之间的实体关系。
在本公开的实施例中,当分类概率大于特定分类概率阈值,例如0.5时,确定实体对向量中的两个实体池化后向量有逻辑关系,否则没有逻辑关系。
根据本公开的实施方式,通过基于分类概率确定实体对向量所表示的实体之间的实体关系,包括:基于分类概率与特定分类概率阈值的比较结果,确定实体对向量中的两个实体池化后向量间的逻辑关系,进而确定两个实体池化后向量所表示的实体之间的实体关系,从而准确分析两个实体池化后向量间是否有逻辑关系。
在本公开的实施例中,文本包括病历文本;实体包括以下的至少一项:治疗手段和疾病;属性向量包括以下的至少一项:部位、类型、时间和地点。
在本公开的实施例中,如图所示,文本可以包括病历,实体向量包括以下的至少一项:例如手术的治疗手段和疾病。属性向量包括以下的至少一项:部位、类型、时间和地点。
本领域普通技术人员可以理解,实体向量也可以包括其它方式,属性向量也可以包括其它方式,本公开对此不作限定。文本也可以包括除病历外的其它文本方式,本公开对此不作限定。
根据本公开的实施方式,通过文本包括病历文本;实体包括以下的至少一项:治疗手段和疾病;属性向量包括以下的至少一项:部位、类型、时间和地点,从而对文本中的实体信息进行准确描述,利于准确分析实体间的逻辑关系。
图5示出根据本公开实施例的文本实体关系分析装置的结构框图。其中,该装置可以通过软件、硬件或者两者的结合实现成为电子设备的部分或者全部。
如图5所示,文本实体关系分析装置500包括:向量获取模块501、向量拼接模块502、池化模块503、实体关系确定模块504。
向量获取模块501,用于获取文本中的字符所对应的包括实体向量的向量组合,其中实体向量所表示的实体中包括至少一个字符。
向量拼接模块502,用于针对文本中的字符拼接向量组合中的向量,得到字符拼接向量。
池化模块503,用于对字符拼接向量进行池化计算,得到实体池化后向量。
实体关系确定模块504,用于拼接任意两个实体池化后向量作为实体对向量,并对实体对向量进行分类以确定实体关系。
根据本公开的实施方式,通过向量获取模块,用于获取文本中的字符所对应的包括实体向量的向量组合,其中实体中包括至少一个字符;向量拼接模块,用于针对文本中的字符拼接向量组合中的向量,得到字符拼接向量;池化模块,用于对字符拼接向量进行池化计算,得到实体池化后向量;实体关系确定模块,用于拼接任意两个实体池化后向量作为实体对向量,并对实体对向量进行分类以确定实体关系,从而在节约计算资源的条件下从文本中准确提取实体,并对实体间的逻辑关系进行准确分析。
在本公开的实施例中,向量组合包括实体向量、属性向量、字符向量和位置向量。
根据本公开的实施方式,通过向量组合包括实体向量、属性向量、字符向量和位置向量,从而适用于病历的应用场景,方便对病历中的实体进行准确的逻辑关系分析。
在本公开的实施例中,向量获取模块501用于:获取文本中的字符所对应的字符向量;获取文本中的字符在文本中的位置的位置向量;基于命名实体识别模型,获取文本中的字符的实体向量和属性向量,从而准确识别出实体向量和属性向量。
根据本公开的实施方式,通过向量获取模块用于:获取文本中的字符所对应的字符向量;获取文本中的字符在文本中的位置的位置向量;基于命名实体识别模型,获取文本中的字符的实体向量和属性向量,从而准确识别出实体向量和属性向量,以利于以较少的运算资源进行准确的实体间逻辑关系分析。
在本公开的实施例中,池化模块503用于:使用平均池化方法,对实体中的字符的字符拼接向量进行池化计算,得到实体池化后向量。
根据本公开的实施方式,通过池化模块用于:使用平均池化方法,对实体中的字符的字符拼接向量进行池化计算,得到实体池化后向量,从而得到实体的平均信息表示,从而更准确的分析实体间的逻辑关系。
在本公开的实施例中,实体关系确定模块504用于:拼接任意两个符合实体抽取规则的实体池化后向量作为实体对向量;对实体对向量进行分类计算,获取分类概率;基于分类概率确定实体对向量所表示的实体之间的实体关系
根据本公开的实施方式,通过实体关系确定模块用于:拼接任意两个符合实体抽取规则的实体池化后向量作为实体对向量;对实体对向量进行分类计算,获取分类概率;基于分类概率确定实体对向量所表示的实体之间的实体关系,从而更准确的分析实体间的逻辑关系。
在本公开的实施例中,拼接任意两个符合实体抽取规则的实体池化后向量作为实体对向量包括:在所有的实体池化后向量中,选取具有预设逻辑关系的概率达到预设概率的任意两个实体池化后向量进行拼接,以构建实体对向量。
根据本公开的实施方式,通过拼接任意两个符合实体抽取规则的实体池化后向量作为实体对向量包括:在所有的实体池化后向量中,选取具有预设逻辑关系的概率达到预设概率的任意两个实体池化后向量进行拼接,以构建实体对向量,从而避免构建无效向量对,在不牺牲逻辑分析准确性的条件下,节约计算资源。
在本公开的实施例中,基于分类概率确定实体对向量所表示的实体之间的实体关系,包括:基于分类概率与特定分类概率阈值的比较结果,确定实体对向量中的两个实体池化后向量间的逻辑关系,进而确定两个实体池化后向量所表示的实体之间的实体关系。
根据本公开的实施方式,通过基于分类概率确定实体对向量所表示的实体之间的实体关系,包括:基于分类概率与特定分类概率阈值的比较结果,确定实体对向量中的两个实体池化后向量间的逻辑关系,进而确定两个实体池化后向量所表示的实体之间的实体关系,从而准确分析两个实体池化后向量间是否有逻辑关系。
在本公开的实施例中,文本包括病历文本;实体向量包括以下的至少一项:治疗手段和疾病;属性向量包括以下的至少一项:部位、类型、时间和地点。
根据本公开的实施方式,通过文本包括病历文本;实体向量包括以下的至少一项:治疗手段和疾病;属性向量包括以下的至少一项:部位、类型、时间和地点,从而对文本中的实体信息进行准确描述,利于准确分析实体间的逻辑关系。
本公开还公开了一种电子设备,图6示出根据本公开的实施例的电子设备的结构框图。
如图6所示,所述电子设备600包括存储器601和处理器602,其中,存储器601用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器602执行以实现以下步骤:
向量获取步骤,获取文本中的字符所对应的包括实体向量的向量组合,其中所述实体向量所表示的实体中包括至少一个字符;
向量拼接步骤,针对文本中的字符拼接所述向量组合中的向量,得到字符拼接向量;
池化步骤,对所述字符拼接向量进行池化计算,得到实体池化后向量;
实体关系确定步骤,拼接任意两个实体池化后向量作为实体对向量,并对所述实体对向量进行分类以确定实体关系。
在本公开的实施例中,所述向量组合包括实体向量、属性向量、字符向量和位置向量。
在本公开的实施例中,所述向量获取步骤包括:
获取所述文本中的字符所对应的字符向量;
获取所述文本中的字符在所述文本中的位置的位置向量;
基于命名实体识别模型,获取所述文本中的字符的实体向量和属性向量。
在本公开的实施例中,所述池化步骤包括:使用平均池化方法,对实体中的字符的字符拼接向量进行池化计算,得到实体池化后向量。
在本公开的实施例中,所述实体关系确定步骤包括:
拼接任意两个符合实体抽取规则的实体池化后向量作为实体对向量;
对所述实体对向量进行分类计算,获取分类概率;
基于所述分类概率确定所述实体对向量所表示的实体之间的实体关系。
在本公开的实施例中,所述拼接任意两个符合实体抽取规则的实体池化后向量作为实体对向量包括:
在所有的实体池化后向量中,选取具有预设逻辑关系的概率达到预设概率的任意两个实体池化后向量进行拼接,以构建实体对向量。
在本公开的实施例中,所述基于所述分类概率确定所述实体对向量所表示的实体之间的实体关系,包括:
基于所述分类概率与特定分类概率阈值的比较结果,确定所述实体对向量中的所述两个实体池化后向量间的逻辑关系,进而确定两个实体池化后向量所表示的实体之间的实体关系。
在本公开的实施例中,所述文本包括病历文本;所述实体向量包括以下的至少一项:治疗手段和疾病;所述属性向量包括以下的至少一项:部位、类型、时间和地点。
图7示出适于用来实现根据本公开实施例的方法的计算机系统的结构示意图。
如图7所示,计算机系统700包括处理单元701,其可以根据存储在只读存储器(ROM)702中的程序或者从存储部分708加载到随机访问存储器(RAM)703中的程序而执行上述实施例中的各种处理。在RAM703中,还存储有系统700操作所需的各种程序和数据。处理单元701、ROM702以及RAM703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。
以下部件连接至I/O接口705:包括键盘、鼠标等的输入部分706;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分707;包括硬盘等的存储部分708;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分709。通信部分709经由诸如因特网的网络执行通信处理。驱动器710也根据需要连接至I/O接口705。可拆卸介质711,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器710上,以便于从其上读出的计算机程序根据需要被安装入存储部分708。其中,所述处理单元701可实现为CPU、GPU、TPU、FPGA、NPU等处理单元。
特别地,根据本公开的实施例,上文描述的方法可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括计算机指令,该计算机指令被处理器执行时实现上文所述的方法步骤。在这样的实施例中,该计算机程序产品可以通过通信部分709从网络上被下载和安装,和/或从可拆卸介质711被安装。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本公开实施例中所涉及到的单元或模块可以通过软件的方式实现,也可以通过可编程硬件的方式来实现。所描述的单元或模块也可以设置在处理器中,这些单元或模块的名称在某种情况下并不构成对该单元或模块本身的限定。
作为另一方面,本公开还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中电子设备或计算机系统中所包含的计算机可读存储介质;也可以是单独存在,未装配入设备中的计算机可读存储介质。计算机可读存储介质存储有一个或者一个以上程序,所述程序被一个或者一个以上的处理器用来执行描述于本公开的方法。
以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本公开中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离所述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims (12)

1.一种文本实体关系分析方法,包括:
向量获取步骤,获取文本中的字符所对应的包括实体向量的向量组合,其中所述实体向量所表示的实体中包括至少一个字符;
向量拼接步骤,针对文本中的字符拼接所述向量组合中的向量,得到字符拼接向量;
池化步骤,对所述字符拼接向量进行池化计算,得到实体池化后向量;
实体关系确定步骤,拼接任意两个实体池化后向量作为实体对向量,并对所述实体对向量进行分类以确定实体关系。
2.根据权利要求1所述的方法,其中,所述向量组合包括实体向量、属性向量、字符向量和位置向量。
3.根据权利要求2所述的方法,其中,
所述向量获取步骤包括:
获取所述文本中的字符所对应的字符向量;
获取所述文本中的字符在所述文本中的位置的位置向量;
基于命名实体识别模型,获取所述文本中的字符的实体向量和属性向量。
4.根据权利要求1至3任一项所述的方法,其中,
所述池化步骤包括:使用平均池化方法,对实体中的字符的字符拼接向量进行池化计算,得到实体池化后向量。
5.根据权利要求1至3任一项所述的方法,其中,
所述实体关系确定步骤包括:
拼接任意两个符合实体抽取规则的实体池化后向量作为实体对向量;
对所述实体对向量进行分类计算,获取分类概率;
基于所述分类概率确定所述实体对向量所表示的实体之间的实体关系。
6.根据权利要求5所述的方法,其中,
所述拼接任意两个符合实体抽取规则的实体池化后向量作为实体对向量包括:
在所有的实体池化后向量中,选取具有预设逻辑关系的概率达到预设概率的任意两个实体池化后向量进行拼接,以构建实体对向量。
7.根据权利要求5所述的方法,其中,
所述基于所述分类概率确定所述实体对向量所表示的实体之间的实体关系,包括:
基于所述分类概率与特定分类概率阈值的比较结果,确定所述实体对向量中的所述两个实体池化后向量间的逻辑关系,进而确定两个实体池化后向量所表示的实体之间的实体关系。
8.根据权利要求2所述的方法,其中,
所述文本包括病历文本;所述实体向量包括以下的至少一项:治疗手段和疾病;所述属性向量包括以下的至少一项:部位、类型、时间和地点。
9.一种文本实体关系分析装置,包括:
向量获取模块,用于获取文本中的字符所对应的包括实体向量的向量组合,其中所述实体向量所表示的实体中包括至少一个字符;
向量拼接模块,用于针对文本中的字符拼接所述向量组合中的向量,得到字符拼接向量;
池化模块,用于对所述字符拼接向量进行池化计算,得到实体池化后向量;
实体关系确定模块,用于拼接任意两个实体池化后向量作为实体对向量,并对所述实体对向量进行分类以确定实体关系。
10.一种电子设备,包括存储器和处理器;其中,所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器执行以实现权利要求1-8任一项所述的方法步骤。
11.一种可读存储介质,其上存储有计算机指令,该计算机指令被处理器执行时实现权利要求1-8任一项所述的方法步骤。
12.一种计算机程序产品,包括计算机程序/指令,其中,该计算机程序/指令被处理器执行时实现权利要求1-8任一项所述的方法步骤。
CN202111545588.5A 2021-12-16 2021-12-16 文本实体关系分析方法、装置、电子设备和可读存储介质 Pending CN114706939A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111545588.5A CN114706939A (zh) 2021-12-16 2021-12-16 文本实体关系分析方法、装置、电子设备和可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111545588.5A CN114706939A (zh) 2021-12-16 2021-12-16 文本实体关系分析方法、装置、电子设备和可读存储介质

Publications (1)

Publication Number Publication Date
CN114706939A true CN114706939A (zh) 2022-07-05

Family

ID=82167341

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111545588.5A Pending CN114706939A (zh) 2021-12-16 2021-12-16 文本实体关系分析方法、装置、电子设备和可读存储介质

Country Status (1)

Country Link
CN (1) CN114706939A (zh)

Similar Documents

Publication Publication Date Title
US10929420B2 (en) Structured report data from a medical text report
US11893510B2 (en) Systems and methods for processing images to classify the processed images for digital pathology
US11823378B2 (en) Systems and methods for processing electronic images to detect contamination in specimen preparations
KR102403397B1 (ko) 디지털 병리학을 위한 슬라이드들의 처리된 이미지들을 자동으로 우선순위화하기 위해 슬라이드들의 이미지들을 처리하기 위한 시스템들 및 방법들
CN111564223B (zh) 传染病生存概率的预测方法、预测模型的训练方法及装置
Carchiolo et al. Medical prescription classification: a NLP-based approach
JP2014505950A (ja) 撮像プロトコルの更新及び/又はリコメンダ
CN113345577B (zh) 诊疗辅助信息的生成方法、模型训练方法、装置、设备以及存储介质
US20230022030A1 (en) Systems and methods for processing images for image matching
CN113096756A (zh) 病情演变分类方法、装置、电子设备和存储介质
Wu et al. A preliminary study of sperm identification in microdissection testicular sperm extraction samples with deep convolutional neural networks
CN112071431B (zh) 基于深度学习和知识图谱的临床路径自动生成方法及系统
CN112561714B (zh) 基于nlp技术的核保风险预测方法、装置及相关设备
CN114706939A (zh) 文本实体关系分析方法、装置、电子设备和可读存储介质
CN113688854A (zh) 数据处理方法、装置及计算设备
US20240177838A1 (en) Systems and methods for processing electronic images using deep foundation models
EP4383267A1 (en) Computer-implemented method for mapping a scan protocol for scanning a patient to a standardized scan protocol
CN111079420B (zh) 文本识别方法、装置、计算机可读介质及电子设备
US20240203539A1 (en) Medical device linkage and diagnostic performance enhancement system using mec and method using the same
US20240331879A1 (en) Automated alerting system for relevant examinations
US20230245480A1 (en) Systems and methods for processing electronic images for ranking loss and grading
EP3920190A1 (en) Bias detection in sensor signals
WO2024086750A1 (en) Predicting tile-level class labels for histopathology images
WO2023165942A1 (en) Cross-modality data matching
CN115458109A (zh) 一种基于卷积神经网络的医疗辅助诊断方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination