CN112669928A - 结构化信息构建方法、装置、计算机设备及存储介质 - Google Patents

结构化信息构建方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN112669928A
CN112669928A CN202110010952.1A CN202110010952A CN112669928A CN 112669928 A CN112669928 A CN 112669928A CN 202110010952 A CN202110010952 A CN 202110010952A CN 112669928 A CN112669928 A CN 112669928A
Authority
CN
China
Prior art keywords
entity
text
named
vector
matching
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110010952.1A
Other languages
English (en)
Other versions
CN112669928B (zh
Inventor
高文龙
张子恒
文瑞
管冲
陈曦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202110010952.1A priority Critical patent/CN112669928B/zh
Publication of CN112669928A publication Critical patent/CN112669928A/zh
Application granted granted Critical
Publication of CN112669928B publication Critical patent/CN112669928B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本申请是关于一种结构化信息构建方法、装置、计算机设备及存储介质,属于人工智能技术领域。该方法包括:对自然语言文本进行命名实体识别,获得至少两个命名实体在自然语言文本中的位置信息;通过实体匹配模型对至少两个命名实体以及至少两个命名实体的位置信息进行处理,获得至少一个第一类型实体分别与至少一个第二类型实体之间的匹配关系;基于至少一个第一类型实体分别与至少一个第二类型实体之间的匹配关系,构建自然语言文本的结构化信息。通过上述方案,避免了自然语言文本中出现相同第二类型实体时无法确定对应的第一类型实体的情况,从而提高了对自然语言文本进行结构化的准确性。

Description

结构化信息构建方法、装置、计算机设备及存储介质
技术领域
本申请实施例涉及人工智能技术领域,特别涉及一种结构化信息构建方法、装置、计算机设备及存储介质。
背景技术
如今,随着人工智能的日益发展,人工智能技术在生活中的应用越来越广泛,其中包括将自然语言文本进行结构化处理。
在相关技术中,将自然语言文本进行结构化的传统方案是,针对特定的应用领域,预先设置若干关键词与所属结构化分类之间的匹配规则,在对自然语言文本进行结构化时,判断自然语言本文中的关键词与某一结构化分类的匹配规则相匹配,则将该关键词设置为该结构化分类的关键词。
然而,采用上述方案进行自然语言文本的结构化处理时,由于很难设置完整的匹配规则并保证及时更新,从而导致对自然语言文本的结构化的准确性较低。
发明内容
本申请实施例提供了一种结构化信息构建方法、装置、计算机设备及存储介质,可以提高对自然语言文本进行结构化的准确性。该技术方案如下:
一方面,提供了一种结构化信息构建方法,所述方法包括:
对自然语言文本进行命名实体识别,获得至少两个命名实体在所述自然语言文本中的位置信息;所述至少两个命名实体包含至少一个第一类型实体以及至少一个第二类型实体,所述第二类型实体用于指示所述第一类型实体的属性;
通过实体匹配模型对所述至少两个命名实体以及所述至少两个命名实体的位置信息进行处理,获得所述至少一个第一类型实体分别与所述至少一个第二类型实体之间的匹配关系;所述实体匹配模型是通过文本样本中的各个命名实体样本、各个命名实体样本在所述文本样本中的位置信息,以及所述各个命名实体样本之间的匹配关系训练得到的;
基于所述至少一个第一类型实体分别与所述至少一个第二类型实体之间的匹配关系,构建所述自然语言文本的结构化信息。
一方面,提供了一种结构化信息构建方法,所述方法包括:
展示目标页面;所述目标页面中包括医疗病历文本输入区域、查询控件以及结构化医疗病历展示区域;
接收在所述医疗病历文本输入区域中输入的医疗病历文本;
响应于接收到对所述查询控件的触发操作,在所述结构化医疗病历展示区域展示结构化医疗病历;所述结构化医疗病历用于指示所述医疗病历文本中的医疗症状以及所述医疗症状的属性的匹配关系。
又一方面,提供了一种结构化信息构建装置,所述装置包括:
位置获取模块,用于对自然语言文本进行命名实体识别,获得至少两个命名实体在所述自然语言文本中的位置信息;所述至少两个命名实体包含至少一个第一类型实体以及至少一个第二类型实体,所述第二类型实体用于指示所述第一类型实体的属性;
关系获取模块,用于通过实体匹配模型对所述至少两个命名实体以及所述至少两个命名实体的位置信息进行处理,获得所述至少一个第一类型实体分别与所述至少一个第二类型实体之间的匹配关系;所述实体匹配模型是通过文本样本中的各个命名实体样本、各个命名实体样本在所述文本样本中的位置信息,以及所述各个命名实体样本之间的匹配关系训练得到的;
信息构建模块,用于基于所述至少一个第一类型实体分别与所述至少一个第二类型实体之间的匹配关系,构建所述自然语言文本的结构化信息。
在一种可能的实现方式中,所述关系获取模块,包括:
向量构建子模块,用于基于所述至少两个命名实体的位置信息,构建所述至少两个命名实体各自的表征向量;
向量对构建子模块,用于基于所述至少两个命名实体各自的表征向量构建至少一个表征向量对,所述表征向量对包含一个第一类型实体的表征向量以及一个第二类型实体的表征向量;
结果获取子模块,用于通过所述实体匹配模型对所述至少一个表征向量对进行处理,获得所述至少一个表征向量对各自的匹配结果,所述匹配结果用于指示对应的第一类型实体和第二类型实体之间的匹配关系。
在一种可能的实现方式中,所述向量构建子模块,包括:
词向量获取单元,用于对目标命名实体进行词向量编码,获得所述目标命名实体的词向量;所述目标命名实体是所述至少两个命名实体中的任意一个;
位置向量获取单元,用于对所述目标命名实体的位置信息进行位置编码,获得所述目标命名实体的位置向量;
表征向量构建单元,用于基于所述目标命名实体的词向量,以及所述目标命名实体的位置向量,构建所述目标命名实体的表征向量。
在一种可能的实现方式中,所述表征向量构建单元,用于,
将所述目标命名实体的词向量,以及所述目标命名实体的位置向量相加,获得所述目标命名实体的表征向量;
或者,
将所述目标命名实体的词向量,以及所述目标命名实体的位置向量进行拼接,获得所述目标命名实体的表征向量。
在一种可能的实现方式中,所述结果获取子模块,包括:
输入向量获取单元,用于将目标表征向量对中的两个表征向量进行拼接,获得所述目标表征向量对的输入向量;所述目标表征向量对是所述至少一个表征向量对中的任意一个;
结果获取单元,用于将所述目标表征向量对的输入向量输入至所述实体匹配模型,获得所述目标表征向量对的匹配结果。
在一种可能的实现方式中,所述装置还包括:
样本向量构建子模块,用于通过实体匹配模型对所述至少两个命名实体以及所述至少两个命名实体的位置信息进行处理,获得所述至少一个第一类型实体分别与所述至少一个第二类型实体之间的匹配关系之前,基于所述各个命名实体样本在所述文本样本中的位置信息,构建所述各个命名实体样本各自的表征向量;
样本向量对构建子模块,用于基于所述各个命名实体样本各自的表征向量构建至少一个表征向量对样本,以及所述至少一个表征向量对样本的匹配标签,所述匹配标签用于指示对应的两个命名实体样本之间的匹配关系;
样本结果获取子模块,用于通过所述实体匹配模型对所述至少一个表征向量对样本进行处理,获得所述至少一个表征向量对样本各自的预测结果;
参数更新子模块,用于基于所述至少一个表征向量对样本各自的预测结果,以及所述至少一个表征向量对样本的匹配标签,对所述实体匹配模型的模型参数进行更新。
在一种可能的实现方式中,所述实体匹配模型是基于随机决策树的机器学习模型。
在一种可能的实现方式中,所述位置获取模块,包括:
文本对获取子模块,用于将至少两个问题文本分别与所述自然语言文本进行组合,获得至少两个输入文本对;所述问题文本是从所述自然语言文本中查询指定子类型的命名实体的问题所对应的文本;
位置获取子模块,用于通过命名识别模型分别对所述至少两个输入文本对进行处理,获得所述至少两个输入文本对各自对应的命名实体在所述自然语言文本中的位置信息。
在一种可能的实现方式中,所述装置还包括:
文本对样本获取模块,用于对自然语言文本进行命名实体识别,获得至少两个命名实体在所述自然语言文本中的位置信息之前,将所述至少两个问题文本分别与所述文本样本进行组合,获得至少两个输入文本对样本;
样本位置获取模块,用于获取所述至少两个输入文本对样本各自对应的命名实体在所述文本样本中的位置信息;
样本位置获取模块,用于通过所述命名识别模型分别对所述至少两个输入文本对样本进行处理,获得所述至少两个输入文本对样本各自对应的命名实体在所述文本样本中的预测位置;
模型参数更新模块,用于基于所述至少两个输入文本对样本各自对应的命名实体在所述文本样本中的位置信息,以及所述至少两个输入文本对样本各自对应的命名实体在所述文本样本中的预测位置,对所述命名识别模型的模型参数进行更新。
在一种可能的实现方式中,所述模型参数更新模块,包括:
损失函数获取子模块,用于基于所述至少两个输入文本对样本各自对应的命名实体在所述文本样本中的位置信息,以及所述至少两个输入文本对样本各自对应的命名实体在所述文本样本中的预测位置,输入二分类交叉熵损失函数,获得损失函数值;
模型参数更新子模块,用于基于所述损失函数值对所述命名识别模型的模型参数进行更新。
在一种可能的实现方式中,所述自然语言文本为医疗病历文本,所述第一类型实体为所述医疗病历文本中的医疗症状对应的关键词,所述第二类型实体为所述医疗症状的属性对应的关键词。
又一方面,提供了一种结构化信息构建装置,所述装置包括:
页面展示模块,用于展示目标页面;所述目标页面中包括医疗病历文本输入区域、查询控件以及结构化医疗病历展示区域;
文本接收模块,用于接收在所述医疗病历文本输入区域中输入的医疗病历文本;
病历展示模块,用于响应于接收到对所述查询控件的触发操作,在所述结构化医疗病历展示区域展示结构化医疗病历;所述结构化医疗病历用于指示所述医疗病历文本中的医疗症状以及所述医疗症状的属性的匹配关系。
另一方面,提供了一种计算机设备,所述计算机设备包含处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上所述的结构化信息构建方法。
另一方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如上所述的结构化信息构建方法。
根据本申请的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述方面的各种可选实现方式中提供的结构化信息构建方法。
本申请提供的技术方案可以包括以下有益效果:
在本申请实施例所示的方案中,通过对自然语言文本进行命名实体识别,可以获取其中的至少两个命名实体的位置信息,将命名实体以及对应的位置信息输入实体匹配模型中,获取识别得到的各个命名实体中的任一第一类型实体与各个第二类型实体的匹配关系,并且构建该匹配关系对应的自然语言文本的结构化信息。通过上述方案,可以准确的获取到自然语言文本中各个第一类型实体对应的各个第二类型实体,同时避免了自然语言文本中出现相同第二类型实体时无法确定对应的第一类型实体的情况,从而提高了对自然语言文本进行结构化的准确性。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
图1是根据一示例性实施例示出的一种结构化信息构建方法的流程图;
图2是根据一示例性实施例示出的一种结构化信息获取系统的示意图;
图3是根据一示例性实施例示出的一种结构化信息构建方法的流程图;
图4是图3所示实施例涉及的一种结构化医疗病历展示界面的示意图;
图5是根据一示例性实施例示出的一种结构化信息构建方法的流程图;
图6是图5所示实施例涉及的一种生成结构化病历的流程示意图;
图7是根据一示例性实施例示出的一种结构化信息构建系统的结构示意图;
图8是根据一示例性实施例示出的一种结构化信息构建装置的框图;
图9是根据一示例性实施例示出的一种结构化信息构建装置的框图;
图10是根据一示例性实施例示出的一种计算机设备的结构示意图;
图11是根据一示例性实施例示出的计算机设备的结构框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
应当理解的是,在本文中提及的“若干个”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
本申请后续各个实施例所示的方案,可以借助于人工智能(ArtificialIntelligence,AI)实现在医疗领域,通过命名实体识别技术从自然语言文本中获取至少两个命名实体所处的位置信息,将至少两个命名实体以及对应的位置信息输入到实体匹配模型中,通过实体匹配模型可以输出各个命名实体中的第一类型实体与第二类型实体之间的匹配关系,从而基于匹配关系生成结构化信息。进而提高了生成的结构化信息中匹配关系的准确性。为了方便理解,下面对本公开实施例中涉及的名词进行说明。
1)人工智能AI
AI是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服、智能视频服务等,随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
2)自然语言处理(Nature Language Processing,NLP)
自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
3)机器学习(Machine Learning,ML)
机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。
4)自然语言文本和结构化文本
在本申请各个实施例中,自然语言文本是指通过自然语言形式的语句构成的文本,在某些场景下,自然语言文本也被称为自由文本。
自然语言文本虽然通俗易懂,且表达方便,但是不利于机器的处理(比如大规模的数据统计、归纳和分析)。
结构化文本是按照一定格式生成的文本,如数据库中的文本信息等。由于对结构化文本的信息抽取非常容易实现,且准确率也非常高,因此,将自然语言文本进行结构化,对于自然语言处理技术来说具有很重要的意义。
本申请实施例提供的方案涉及人工智能的自然语言处理、机器学习等技术,具体通过如下实施例进行说明。
图1是根据一示例性实施例示出的一种结构化信息构建方法的流程图。该结构化信息构建方法可以由计算机设备执行。比如,该计算机设备可以包括终端或者服务器中的至少一种。如图1所示,该结构化信息构建方法包括的步骤如下:
步骤101,对自然语言文本进行命名实体识别,获得至少两个命名实体在自然语言文本中的位置信息;至少两个命名实体包含至少一个第一类型实体以及至少一个第二类型实体,第二类型实体用于指示第一类型实体的属性。
在本申请实施例中,计算机设备可以通过对自然语言文本进行命名实体识别,获得该自然语言文本中至少两个命名实体在该自然语言文本中的位置信息。
其中,至少两个命名实体包含至少一个第一类型实体以及至少一个第二类型实体,第二类型实体用于指示第一类型实体的属性。
比如,当计算机设备获取到的自然语言文本为“小明是我的邻居,小胡也是我的邻居”,第一类型实体可以是“小明是我的邻居”以及“小胡也是我的邻居”,第二类型实体可以是“小明”、“邻居”、“小胡”以及“邻居”。
步骤102,通过实体匹配模型对至少两个命名实体以及至少两个命名实体的位置信息进行处理,获得至少一个第一类型实体分别与至少一个第二类型实体之间的匹配关系;实体匹配模型是通过文本样本中的各个命名实体样本、各个命名实体样本在文本样本中的位置信息,以及各个命名实体样本之间的匹配关系训练得到的。
在本申请实施例中,计算机设备将经过命名实体识别获取的至少两个命名实体以及至少两个命名实体对应的位置信息输入到训练得到的实体匹配模型中,由实体匹配模型进行数据运算处理,在实体匹配模型的输出端可以得到至少一个第一类型实体与至少一个第二类型实体之间的匹配关系。
其中,实体匹配模型的输出端输出的至少一个第一类型实体与至少一个第二类型实体之间的匹配关系可以是匹配成功或者匹配失败。
比如,计算机设备分别将“小明是我的邻居”分别与“小明”、第一个“邻居”、“小胡”以及第二个“邻居”中的任意一个以及对应的位置信息一同输入到实体匹配模型中,并且将“小胡也是我的邻居”分别与“小明”、第一个“邻居”、“小胡”以及第二个“邻居”中的任意一个以及对应的位置信息一同输入到实体匹配模型中,由实体匹配模型进行数据运算处理,在实体匹配模型的输出端可以得到“小明是我的邻居”与“小明”以及第一个“邻居”之间的匹配关系为匹配成功,“小胡也是我的邻居”与“小胡”以及第二个“邻居”之间的匹配关系为匹配成功。
步骤103,基于至少一个第一类型实体分别与至少一个第二类型实体之间的匹配关系,构建自然语言文本的结构化信息。
在本申请实施例中,基于实体匹配模型的输出结果,将输出结果指示匹配成功对应的各个第一类型实体以及对应的第二类型实体组成自然语言文本的结构化信息。
比如,当“小明是我的邻居”与“小明”以及第一个“邻居”之间的匹配关系为匹配成功,且“小胡也是我的邻居”与“小胡”以及第二个“邻居”之间的匹配关系为匹配成功时,构建的该自然语言文本的结构化信息可以是,“小明是我的邻居”:姓名:“小明”、身份:“邻居”;“小胡也是我的邻居”:姓名:“小胡”、身份:“邻居”。
综上所述,在本申请实施例所示的方案中,通过对自然语言文本进行命名实体识别,可以获取其中的至少两个命名实体的位置信息,将命名实体以及对应的位置信息输入实体匹配模型中,获取识别得到的各个命名实体中的任一第一类型实体与各个第二类型实体的匹配关系,并且构建该匹配关系对应的自然语言文本的结构化信息。通过上述方案,可以准确的获取到自然语言文本中各个第一类型实体对应的各个第二类型实体,同时避免了自然语言文本中出现相同第二类型实体时无法确定对应的第一类型实体的情况,从而提高了对自然语言文本进行结构化的准确性。
本申请上述实施例所示的方案,可以应用在任意需要将自然语言文本转换为结构化文本的场景。
比如,对于医生通过自然语言撰写的病历文本,可以通过本申请上述实施例所示的方案转化为结构化的病历,有利于后续的AI诊断、大规模医疗数据分析统计等等。
再比如,对于社会调查人员通过自然语言撰写的调查文本,例如疫情防控中对个人行程信息的电话调查文本,可以通过本申请上述实施例所示的方案转化为结构化的个人信息,有利于后续的疫情防控、高危人群追溯等等。
再比如,对于人口普查人员通过自然语言撰写的人口普查文本,例如居民的常住地、工作地、联系方式、家庭关系等等人口普查文本,可以通过本申请上述实施例所示的方案转化为结构化的个人信息,有利于后续的人口普查统计。
在一种示例性的方案中,本申请上述实施例的方案涉及的系统包括命名实体提取部分和命名实体匹配部分。图2是根据一示例性实施例示出的一种结构化信息获取系统的示意图。如图2所示,对于命名实体提取部分,在模型训练时,第一模型训练设备210通过输入的各组输入文本对样本训练出命名识别模型,在应用时,终端240在屏幕上显示目标页面,通过目标页面输入自然语言文本,终端240同时可以获取存储服务器230的数据库231中预先构建的,针对各个第一类型实体以及各个第二类型实体的问题文本,终端240通过将各个问题文本分别与自然语言文本进行组合,生成各个输入文本对,将各个输入文本对输入命名识别模型中进行各个问题文本对应的自然语言文本中的第一类型实体以及第二类型实体的位置信息获取,可以提取到自然语言文本中第一类型实体以及第二类型实体对应的词向量。对于命名实体匹配部分,在模型训练时,第二模型训练设备220通过输入的各组文本样本中命名实体样本以及对应的位置信息训练出实体匹配模型,在应用时,终端240将获取到的自然语言文本中命名实体样本以及对应的位置信息进行组合后输入到实体匹配模型中,基于实体匹配模型的输出结果可以确定各组的匹配关系。当自然语言文本中的各组匹配关系确定完成时,终端240将匹配的第一类型实体与对应的第二类型实体展示在目标页面上。
在一种可能的实现方式中,获取到第一类型实体与第二类型实体之间的匹配关系后,可以将该匹配关系存储在数据库231中,或者上传到云端中。
其中,上述第一模型训练设备210和第二模型训练设备220可以是具有机器学习能力的计算机设备,比如,该计算机设备可以是个人电脑、服务器以及固定式科研设备等固定式计算机设备,或者,该计算机设备也可以是平板电脑、电子书阅读器等移动式计算机设备。
在一种可能的实现方式中,上述第一模型训练设备210和第二模型训练设备220是同一个设备,或者,第一模型训练设备210和第二模型训练设备220是不同的设备。并且,当第一模型训练设备210和第二模型训练设备220是不同的设备时,第一模型训练设备210和第二模型训练设备220可以是同一类型的设备,比如第一模型训练设备210和第二模型训练设备220可以都是个人电脑;或者,第一模型训练设备210和第二模型训练设备220也可以是不同类型的设备,比如第一模型训练设备210可以是服务器,而第二模型训练设备220可以是固定式科研实验设备等。本申请实施例对于第一模型训练设备210和第二模型训练设备220的具体类型不做限定。
其中,终端240可以是具有屏幕显示功能的计算机设备。服务器230可以是终端240的后台服务器,也可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network,内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。
在服务器230中包含有数据库231。数据库231中存储有构建的各个问题文本。
在一种可能的实现方式中,以该结构化信息获取系统应用于医学病历结构化场景下为例,当用户使用终端240输入描述病历的自然语言文本时,在计算机设备中通过从数据库231获取对应的问题文本,将问题文本与自然语言文本通过命名识别模型可以进行命名实体的位置信息获取,然后将各个命名实体以及对应的位置信息输入实体匹配模型,输出命名实体中的第一类型实体与第二类型实体的匹配关系。其中第一类型实体可以是医疗症状对应的关键词,第二类型实体可以是医疗症状的属性对应的关键词。从而生成包含医疗症状以及该医疗症状对应的属性的结构化病历。
终端240与服务器230之间可以通过通信网络相连。可选的,通信网络是有线网络或无线网络。
可选的,上述的无线网络或有线网络使用标准通信技术和/或协议。网络通常为因特网、但也可以是任何网络,包括但不限于局域网(Local Area Network,LAN)、城域网(Metropolitan Area Network,MAN)、广域网(Wide Area Network,WAN)、移动、有线或者无线网络、专用网络或者虚拟专用网络的任何组合。在一些实施例中,使用包括超文本标记语言(Hyper Text Mark-up Language,HTML)、可扩展标记语言(Extensible MarkupLanguage,XML)等的技术和/或格式来代表通过网络交换的数据。此外还可以使用诸如安全套接字层(Secure Socket Layer,SSL)、传输层安全(Transport Layer Security,TLS)、虚拟专用网络(Virtual Private Network,VPN)、网际协议安全(Internet ProtocolSecurity,IPsec)等常规加密技术来加密所有或者一些链路。在另一些实施例中,还可以使用定制和/或专用数据通信技术取代或者补充上述数据通信技术。本申请在此不做限制。
图3是根据一示例性实施例示出的一种结构化信息构建方法的流程图。该结构化信息构建方法可以由计算机设备执行。比如,该计算机设备可以包括终端(例如图2所示的终端240)或者服务器中的至少一种。以该方法应用于医疗病历的结构化场景为例,如图3所示,该结构化信息构建方法包括的步骤如下:
步骤301,展示目标页面;目标页面中包括医疗病历文本输入区域、查询控件以及结构化医疗病历展示区域。
步骤302,接收在医疗病历文本输入区域中输入的医疗病历文本。
步骤303,响应于接收到对查询控件的触发操作,在结构化医疗病历展示区域展示结构化医疗病历;结构化医疗病历用于指示医疗病历文本中的医疗症状以及医疗症状的属性的匹配关系。
比如,图4是本申请实施例涉及的一种结构化医疗病历展示界面的示意图。如图4所示,终端展示的目标页面是病历结构化页面,在该目标页面的上方区域存在医疗病历文本输入区域41,在该区域中包括用户输入医疗文本的文本输入框,由于文本输入框中的可显示文本的字符数有指定限制,所以可以在文本输入框的下方显示完整的医疗病历文本内容。在该医疗病历文本输入区域41中还包括查询控件42,当用户在文本输入框中开始医疗病例文本内容的输入后,查询控件42可以由不可触发状态转变为可触发状态。当用户在文本输入框中输入的医疗病历文本是“肚子有点痛,位于上腹部,阵发性疼痛,解大便后缓解,每天解大便一次,大便不成形,无恶心呕吐,无发热,无粘液脓血”时,终端接收到对查询控件42的触发操作,在目标页面的下方的结构化医疗病历展示区域43中展示结构化医疗病历,该结构化医疗病历是按照症状实体与各个属性实体的对应关系进行展示。
综上所述,在本申请实施例所示的方案中,通过对自然语言文本进行命名实体识别,可以获取其中的至少两个命名实体的位置信息,将命名实体以及对应的位置信息输入实体匹配模型中,获取识别得到的各个命名实体中的任一第一类型实体与各个第二类型实体的匹配关系,并且构建该匹配关系对应的自然语言文本的结构化信息。通过上述方案,可以准确的获取到自然语言文本中各个第一类型实体对应的各个第二类型实体,同时避免了自然语言文本中出现相同第二类型实体时无法确定对应的第一类型实体的情况,从而提高了对自然语言文本进行结构化的准确性。
图5是根据一示例性实施例示出的一种结构化信息构建方法的流程图。该结构化信息构建方法可以运用在结构化信息构建系统中。比如,上述结构化信息构建系统可以是图2所示,并且该结构化信息构建方法可以由其中的第一模型训练设备210、第二模型训练设备220以及终端240执行。如图5所示,该结构化信息构建方法包括的步骤如下:
在步骤501中,将至少两个问题文本分别与文本样本进行组合,获得至少两个输入文本对样本。
在本申请实施例中,第一模型训练设备获取至少两个文本问题,以及文本样本,将文本样本分别与至少两个问题文本进行组合,获得至少两个输入文本对样本。
比如,问题文本1为用于查询第一类型实体对应的症状实体的文本,问题文本2为用于查询第二类型实体对应的发生部位实体的文本。获取到的文本样本是文本样本1,则组合生成的输入文本对样本为(问题文本1,文本样本1)以及(问题文本2,文本样本1)。
在步骤502中,获取至少两个输入文本对样本各自对应的命名实体在文本样本中的位置信息。
在本申请实施例中,第一模型训练设备获取文本样本中与问题文本对应的至少两个命名实体在文本样本中的位置信息。
在一种可能的实现方式中,命名实体在文本样本中的位置信息通过获取该命名实体在文本样本中的开始位置向量确定,或者,命名实体在文本样本中的位置信息通过获取该命名实体在文本样本中的结束位置向量确定,或者,命名实体在文本样本中的位置信息通过获取该命名实体在文本样本中的开始位置向量以及结束位置向量共同确定。
其中,文本样本中各个命名实体对应的位置信息可以作为各个命名实体对应的标签信息,即各个命名实体在文本样本中的所在位置是预先确定的各个命名实体对应的位置信息。
在步骤503中,通过命名识别模型分别对至少两个输入文本对样本进行处理,获得至少两个输入文本对样本各自对应的命名实体在文本样本中的预测位置。
在本申请实施例中,第一模型训练设备通过将获取的至少两个输入文本对样本输入到命名识别模型中,通过命名识别模型分别输出至少两个输入文本对样本对应的预测位置。
在一种可能的实现方式中,命名识别模型是预训练语言网络模型。
在一种可能的实现方式中,预训练语言网络模型包括第一预训练语言网络以及第二预训练语言网络;将至少两个输入文本对样本输入第一预训练语言网络,获取至少两个输入文本对样本对应的命名实体的第一词样本向量以及第二词样本向量;将至少两个输入文本对样本中的第一词向量以及第二词向量输入第二预训练语言网络,获取第一词样本向量以及第二词样本向量对应的命名实体在文本样本中的预测位置。
在步骤504中,基于至少两个输入文本对样本各自对应的命名实体在文本样本中的位置信息,以及至少两个输入文本对样本各自对应的命名实体在文本样本中的预测位置,对命名识别模型的模型参数进行更新。
在本申请实施例中,第一模型训练设备基于至少两个输入文本对样本各自对应的命名实体在文本样本中的位置信息,以及至少两个输入文本对样本各自对应的命名实体在文本样本中的预测位置,对命名识别模型的模型参数进行更新,实现对命名识别模型的更新。
在一种可能的实现方式中,基于至少两个输入文本对样本各自对应的命名实体在文本样本中的位置信息,以及至少两个输入文本对样本各自对应的命名实体在文本样本中的预测位置,输入二分类交叉熵损失函数,获得损失函数值,然后基于损失函数值对命名识别模型的模型参数进行更新。
其中,至少两个输入文本对样本各自对应的命名实体在文本样本中的位置信息可以包括开始位置信息以及结束位置信息,至少两个输入文本对样本各自对应的命名实体在文本样本中的预测位置可以包括开始预测位置以及结束预测位置,基于开始位置信息以及开始预测位置可以确定开始损失函数值,基于结束位置信息以及结束预测位置可以确定结束损失函数值,基于开始损失函数值以及结束损失函数值可以确定二分类交叉熵损失函数对应的损失函数值。基于二分类交叉熵(Binary Cross Entropy,BCE)损失函数的计算公式如下所示,
Lstart=BCE(Pstart,Ysttart)
Lend=BCE(Pend,Yend)
Ltotal=Lstart+Lend
其中,Lstart对应的是开始损失函数值,Pstart对应的是开始位置信息,Ystart对应的是开始预测位置;Lend对应的是结束损失函数值,Pend对应的是结束位置信息,Yend对应的是结束预测位置,Ltotal对应的是损失函数值。
在一种可能的实现方式中,命名识别模型为基于长短期记忆网络(Long Short-Term Memory,LSTM)的机器阅读理解(Machine Reading Comprehension,MRC)模型。
示例性的,以命名识别模型是基于机器阅读理解的BERT(Bidirectional EncoderRepresentation from Transformers,即基于双向变压器的编码器)模型为例,在命名识别模型的模型训练阶段,需要将自然语言文本对应的文本样本(Passage)和各个问题文本(Question)一一进行组合,若问题文本共有七个,则将共7组输入文本对样本输入BERT模型,经过BERT编码后再针对文本样本中的每个字符位置与其对应的作为真实标签的位置信息利用上述损失函数进行模型参数的优化。在模型测试阶段,将用于测试的自然语言文本和上述任意一个问题文本输入BERT模型,BERT模型标注出自然语言文本中该问题文本对应的实体。通过上述方案可以实现对命名实体的提取以及对命名实体的指定类型进行预测。并且,由于运用MRC机制,可以对自然语言文本中的各个字符进行单独判断,确定各个字符是否为命名实体的开始位置信息或者结束位置信息,这样可以使得每个命名实体的位置识别相对独立,有利于进行长命名实体的识别和提取。
在步骤505中,将至少两个问题文本分别与自然语言文本进行组合,获得至少两个输入文本对。
在本申请实施例中,终端获取至少两个文本问题,以及自然语言文本,将自然语言文本分别与至少两个问题文本进行组合,获得至少两个输入文本对。
其中,问题文本是从自然语言文本中查询指定子类型的命名实体的问题所对应的文本。自然语言文本是用于描述病情的文本。命名实体包括第一类型实体以及第二类型实体,且第二类型实体用于指示第一类型实体的属性。
在一种可能的实现方式中,至少两个问题文本中包括至少一个用于查询第一类型实体的问题对应的文本,以及至少包括至少一个用于查询第二类型实体的问题对应的文本。
示例性的,自然语言文本为医疗病历文本。
在一种可能的实现方式中,当自然语言文本为医疗病历文本时,第一类型实体对应的指定子类型的命名实体包括症状实体;第二类型实体对应的指定子类型的命名实体包括原子症状实体、发生部位实体、性质实体、否定词实体、程度实体以及发生时间实体中的至少一种。
其中,原子症状实体是自然语言文本中不可分割的症状词;发生部位实体用于描述人体各部位及其结构;性质实体用于描述症状发生的性质或特征;否定词实体用于指示不存在或者没有描述相关症状;程度实体用于描述症状发生的严重程度;发生时间实体用于指示症状出现的时间节点或者已持续的时间长度。
示例性的,用于查询症状实体的问题文本是“疾病过程中机体内的一系列机能、代谢和形态结构异常变化所引起的病人主观上的异常感觉或某些客观病态改变是什么”,用于查询原子症状实体的问题文本是“不可再分的症状词是什么”,用于查询发生部位实体的问题文本是“人体各部位及其结构是什么”,用于查询性质实体的问题文本是“描述症状发生的性质或特征是什么”,用于查询否定词实体的问题文本是“用于描述不存在或没有描述相关症状的词语是什么”,用于查询程度实体的问题文本是“用于描述症状发生的严重程度的词语是什么”,用于查询发生时间实体的问题文本是“症状出现的时间节点或者已持续的时间长度是什么”。
比如,问题文本1为用于查询第一类型实体对应的症状实体,问题文本2为用于查询第二类型实体对应的发生部位实体。获取到的自然语言文本是自然语言文本1,则组合生成的输入文本对为(问题文本1,自然语言文本1)以及(问题文本2,自然语言文本1)。
另外,在获取自然语言文本之前可以获取由用户输入的原始文本,并且进行数据预处理,获取自然语言文本。
其中,终端可以获取原始文本的字符数量,响应于原始文本的字符数量小于等于指定阈值,将原始文本获取为自然语言文本;响应于原始文本的字符数量大于指定阈值,基于句间终止符,将原始文本进行分割,生成多段自然语言文本。若原始文本中存在无意义的特殊字符,将无意义的特殊字符替换成占位符。
在步骤506中,通过命名识别模型分别对至少两个输入文本对进行处理,获得至少两个输入文本对各自对应的命名实体在自然语言文本中的位置信息。
在本申请实施例中,终端获取训练完成的命名识别模型,将获取的至少两个输入文本对输入到命名识别模型中,输出侧获取得到至少两个输入文本对各自对应的命名实体在自然语言文本中的位置信息。
其中,至少两个输入文本对各自对应的命名实体在自然语言文本中的位置信息可以是开始位置信息或者结束位置信息。
在步骤507中,基于各个命名实体样本在文本样本中的位置信息,构建各个命名实体样本各自的表征向量。
在本申请实施例中,第二模型训练设备获取各个命名实体样本在文本样本中的位置信息,基于位置信息构建各个命名实体样本各自的表征向量。
在一种可能的实现方式中,通过对命名实体样本进行词向量编码,获得命名实体样本的词向量;然后对命名实体样本的位置信息进行位置编码,获得命名实体样本的位置向量,基于命名实体样本的词向量,以及命名实体样本的位置向量,构建命名实体样本对应的表征向量。
其中,对命名实体样本的位置信息进行位置编码可以是对开始位置编码或者对结束位置编码,或者对开始位置编码以及结束位置均进行编码。
其中,将命名实体样本的词向量,以及命名实体样本的位置向量相加,可以获得命名实体样本的表征向量,或者,将命名实体样本的词向量,以及命名实体样本的位置向量进行拼接,可以获得命名实体样本的表征向量。
比如,命名实体样本1对应的词向量为(x,y),对应的位置向量为(a,b),可以是将命名实体样本1的词向量,以及命名实体样本1的位置向量相加得到的(x+a,y+b)作为表征向量,或者,可以是将命名实体样本1的词向量,以及命名实体样本1的位置向量进行拼接得到的(x,y,a,b)作为表征向量。
在步骤508中,基于各个命名实体样本各自的表征向量构建至少一个表征向量对样本,以及至少一个表征向量对样本的匹配标签。
在本申请实施例中,第二模型训练设备将各个命名实体样本中的第一类型实体样本对应的表征向量与各个第二类型实体样本对应的表征向量构建为至少一个表征向量对样本,并且由于第一类型实体样本以及第二类型实体样本之间的匹配关系为已知的,所以可以获取至少一个表征向量对样本的匹配标签。
其中,表征向量对样本包含一个第一类型实体样本的表征向量以及一个第二类型实体样本的表征向量。匹配标签用于指示对应的两个命名实体样本之间的匹配关系。
在一种可能的实现方式中,第一类型实体为医疗病历文本中的医疗症状对应的关键词,第二类型实体为医疗症状的属性对应的关键词。
在步骤509中,通过实体匹配模型对至少一个表征向量对样本进行处理,获得至少一个表征向量对样本各自的预测结果。
在本申请实施例中,第二模型训练设备通过将至少一个表征向量对样本输入到实体匹配模型中,获取至少一个表征向量对样本各自输出的预测结果。
其中,匹配结果用于指示对应的第一类型实体和第二类型实体之间的匹配关系。
在一种可能的实现方式中,实体匹配模型是基于随机决策树的机器学习模型。
其中,实体匹配模型还可以是基于分类器实现结果预测的GDBT(GradientBoosting Decision Tree,梯度下降树)模型或者神经网络模型。
在一种可能的实现方式中,将表征向量对样本中的两个表征向量进行拼接,获得表征向量对样本的输入向量,将表征向量对样本的输入向量输入至实体匹配模型,获得表征向量对样本的预测结果。
其中,表征向量对样本是至少一个表征向量对中的任意一个。
在另一种可能的实现方式中,实体匹配模型中具有第一输入入口以及第二输入入口,将表征向量对样本中的两个表征向量分别从第一输入入口以及第二输入入口输入实体匹配模型,获得表征向量对样本的预测结果。
在步骤510中,基于至少一个表征向量对样本各自的预测结果,以及至少一个表征向量对样本的匹配标签,对实体匹配模型的模型参数进行更新。
在一种可能的实现方式中,基于至少一个表征向量对样本各自的预测结果以及至少一个表征向量对样本的匹配标签,计算对应的损失函数值,基于损失函数值对实体匹配模型中的模型参数进行更新。
在步骤511中,基于至少两个命名实体的位置信息,构建至少两个命名实体各自的表征向量。
在本申请实施例中,终端基于从实体识别模型输出的至少两个命名实体的位置信息,构建至少两个命名实体各自的表征向量。
在一种可能的实现方式中,终端对目标命名实体进行词向量编码,获得目标命名实体的词向量;对目标命名实体的位置信息进行位置编码,获得目标命名实体的位置向量;基于目标命名实体的词向量,以及目标命名实体的位置向量,构建目标命名实体的表征向量。
其中,目标命名实体是至少两个命名实体中的任意一个。终端可以通过BERT模型获取目标命名实体对应的词向量。
在一种可能的实现方式中,将目标命名实体的词向量,以及目标命名实体的位置向量相加,获得目标命名实体的表征向量;或者,将目标命名实体的词向量,以及目标命名实体的位置向量进行拼接,获得目标命名实体的表征向量。
比如,目标命名实体1对应的词向量为(x,y),对应的位置向量为(a,b),可以是将目标命名实体1的词向量,以及目标命名实体1的位置向量相加得到的(x+a,y+b)作为表征向量,或者,可以是将目标命名实体1的词向量,以及目标命名实体1的位置向量进行拼接得到的(x,y,a,b)作为表征向量。
在步骤512中,基于至少两个命名实体各自的表征向量构建至少一个表征向量对。
在本申请实施例中,终端将各个命名实体中的第一类型实体对应的表征向量与各个第二类型实体对应的表征向量构建为至少一个表征向量对。
其中,表征向量对包含一个第一类型实体的表征向量以及一个第二类型实体的表征向量。
在一种可能的实现方式中,第一类型实体为医疗病历文本中的医疗症状对应的关键词,第二类型实体为医疗症状的属性对应的关键词。
比如,命名实体包含症状A、症状B、属性1以及属性2,症状A对应的表征向量与属性1对应的表征向量可以组成一个表征向量对;症状A对应的表征向量与属性2对应的表征向量可以组成一个表征向量对;症状B对应的表征向量与属性1对应的表征向量可以组成一个表征向量对;症状B对应的表征向量与属性2对应的表征向量可以组成一个表征向量对。则可以构建如上四个表征向量对。
在步骤513中,通过实体匹配模型对至少一个表征向量对进行处理,获得至少一个表征向量对各自的匹配结果。
在本申请实施例中,终端将获取到的各个表征向量对输入到实体匹配模型中,通过实体匹配模型进行处理,获取各个表征向量对中对应的第一类型实体与第二类型实体之间的匹配结果。
其中,匹配结果用于指示对应的第一类型实体和第二类型实体之间的匹配关系。
在一种可能的实现方式中,将目标表征向量对中的两个表征向量进行拼接,获得目标表征向量对的输入向量,将目标表征向量对的输入向量输入至实体匹配模型,获得目标表征向量对的匹配结果。或者,实体匹配模型中具有第一输入入口以及第二输入入口,将目标表征向量对中的两个表征向量分别从第一输入入口以及第二输入入口输入实体匹配模型,获得目标表征向量对的匹配结果。
其中,目标表征向量对是至少一个表征向量对中的任意一个。
示例性的,实体匹配模型可以是基于随机森林算法的模型,随机森林算法是由多个决策树组成,并且每个决策树可以单独进行训练,通过随机森林算法可以避免单一决策树的过拟合问题,同时由于可以并行训练各个决策树也可以保证模型训练的效率。其中,决策树的特征选择可以采用信息增益作为评价指标。在随机森林算法中通过分类器的预测阶段,对于所有目标向量对进行一一判断,若目标向量对被判定正确时,则可以确定该目标向量对对应的症状实体以及属性实体在病历自然语言文本中存在对应关系,即该病例自然语言文本中指示患者的该症状中具有该属性。
步骤514,基于至少一个第一类型实体分别与至少一个第二类型实体之间的匹配关系,构建自然语言文本的结构化信息。
在本申请实施例中,终端基于获取到的各个第一类型实体分别与各个第二类型实体之间的匹配关系,构建包含各个匹配关系的结构化信息。
在一种可能的实现方式中,响应于在各个匹配关系中存在至少两个匹配关系中的第二类型实体是相同的,基于该第二类型实体对应的位置信息,获取该第二类型实体指定距离内是否存在间隔符号,若获取到该第二类型实体在自然语言文本中的左右两侧的指定距离内各存在一个间隔点,基于该至少两个第一类型实体的位置信息,确定左右两侧的间隔点内的第一类型实体为实际与该第二类型实体具有匹配关系的第一类型实体。
其中,间隔点可以是间隔符号、文本起始点以及文本结束点。
比如,当自然语言文本为“肚子疼痛,胃部胀气”,经过命名识别模型以及实体匹配模型,可以输出得到该自然语言文本对应的匹配关系。由于经过模型识别匹配输出的结果可能与实际情况具有一定的误差,若输出的匹配关系是症状实体“肚子疼痛”与“疼痛”以及“胃部胀气”与疼痛均存在匹配关系,则终端可知模型输出有误,所以根据属性实体“疼痛”在自然语言文本中的位置,可以得到“疼痛”的左右间隔点中包括了“肚子疼痛”这一症状实体,所以重新确定“肚子疼痛”与“疼痛”具有匹配关系。
在另一种可能的实现方式中,响应于在各个匹配关系中存在至少两个匹配关系中的第二类型实体是相同的,基于该第二类型实体对应的位置信息,分别获取该第二类型实体与至少两个第一类型实体之间的距离,将距离小于指定距离阈值的第一类型实体确定为与该第二类型实体具有匹配关系的第一类型实体。
比如,当自然语言文本为“肚子疼痛,胃部胀气”,由于经过模型识别匹配输出的结果可能与实际情况具有一定的误差,若输出的匹配关系是症状实体“肚子疼痛”与“疼痛”以及“胃部胀气”与疼痛均存在匹配关系,则终端可知模型输出有误,所以根据属性实体“疼痛”在自然语言文本中的位置,可以得到“疼痛”与“肚子疼痛”之间的距离相比较于距离“胃部胀气”更小,所以重新确定“肚子疼痛”与“疼痛”具有匹配关系。
图6是本申请实施例涉及的一种生成结构化病历的流程示意图。如图6所示,当医疗病历文本是“肚子有点痛,无恶心呕吐,无发热”时,将该医疗病历文本输入文本数据预处理模块61,在该文本数据预处理模块61中,将删除输入的医疗病历文本中的无意义特殊字符,比如「\n」、「\r」等,并且将这些无意义特殊字符统一替换成[UNK]这种占位符。然后将字符串长度上限设定为256个中文字符,对于字符串长度大于256的医疗病历文本,我们根据句号或其他句间终止符进行文本分割,生成多段医疗病历文本然后进行后续步骤。将数据预处理完成的医疗病历文本输入到医学实体提取模块62中,在该医学实体提取模块中包含一个基于BERT的MRC模型结构,该模型结构可以是上述实施例中的命名识别模型,MRC可以通过输入的问题(Question)和输入的文本(Passage),从Passage中选择对应的答案(Answer)并输出Answer在Passage中的具体位置。即将医疗病历文本以及各个症状以及属性对应的问题文本输入到该模型结构中,输出各个症状以及属性在医疗病历文本中的起始位置以及结束位置。将提取到的各个症状以及属性对应的词向量以及位置向量输入到医学实体属性匹配模块63中,比如,获取到的症状为症状A与症状B,获取到的属性为属性1以及属性2,则将症状A与属性1作为一组,将症状A与属性2作为一组,将症状B与属性1作为一组,将症状B与属性2作为一组,各组症状-属性组合分别输入分类器中,其中,该分类器可以是随机森林分类器,其中,随机森林算法属于集成学习的一种,它是由多个决策树组成且每个决策树单独进行训练,所以这使得随机森林可以避免单一决策树的过拟合问题又可以保证模型训练的效率。该决策树的特征选择中可以采用信息增益作为评价指标。在随机森林分类器预测阶段即可对于所有可能的症状-属性组合进行一一判断,若症状-属性组合被判定为正确,则该模块确定该组合中的症状与属性在医疗病历文本中存在对应关系。当确定症状“肚子有点痛”分别与“痛”、“肚子”、“有点”具有匹配关系,症状“无恶心”分别与“恶心”、“无”具有匹配关系,症状“无呕吐”分别与“呕吐”、“无”具有匹配关系,症状“无发热”分别与“发热”、“无”具有匹配关系时,将各个匹配关系进行输出,生成包含各个匹配关系的结构化病历64。
基于医疗病历文本输出的结构化病历可以帮助医生快速提取病历中的关键信息并做出合理决策,同时结构化病历也可以赋能于医院场景以及医保场景等医疗场景,并为疾病研究、以及疾病预测等医疗方面的数据挖掘工作提供基础能力。在实际业务智能辅助诊断系统中,将医疗病历结构化的能力可以大大提升后续模型引擎的性能,应用在疾病预测模型中可以帮助有效提升疾病预测的精准率。
在目前的医疗环境中,医院等机构中存储着大量的电子化病历作为历史数据,通过本申请实施例,可以将病历历史数据做结构化处理,将这些病历历史数据以症状和疾病的维度进行组织,可以通过症状和疾病的组织进行大规模的统计分析,对于某些非常见疾病可以挖掘出一些共有症状,提升疾病研究效率。同时医生也可以基于症状属性组合进行搜索,检索到历史病历,辅助医生进行临床决策。另外,我们也可以根据大量历史病历结构化后的数据进行数据挖掘,挖掘出常见病的共性症状、以及排他性症状等组合,可以将这些信息融合进疾病预测模型中,帮助提升疾病预测的准确率。
综上所述,在本申请实施例所示的方案中,通过对自然语言文本进行命名实体识别,可以获取其中的至少两个命名实体的位置信息,将命名实体以及对应的位置信息输入实体匹配模型中,获取识别得到的各个命名实体中的任一第一类型实体与各个第二类型实体的匹配关系,并且构建该匹配关系对应的自然语言文本的结构化信息。通过上述方案,可以准确的获取到自然语言文本中各个第一类型实体对应的各个第二类型实体,同时避免了自然语言文本中出现相同第二类型实体时无法确定对应的第一类型实体的情况,从而提高了对自然语言文本进行结构化的匹配准确性。
图7是根据一示例性实施例示出的一种结构化信息构建系统的结构示意图,如图7所示,终端70获取自然语言文本71,终端从数据库74中获取问题文本75,问题文本75中包括用于描述第二类型实体1、第二类型实体2、第二类型实体3、第二类型实体4、第二类型实体5以及第一类型实体的各个文本。将自然语言文本71与各个问题文本75分别输入到BERT模型中,基于MRC可以输出第一类型实体72以及自然语言文本71中各个第二类型实体73对应的词向量,以及分别对应的位置信息。将第一类型实体A对应的词向量、第一类型实体A对应的位置信息A、第二类型实体1对应的词向量以及第二类型实体1对应的位置信息1输入到分类器中,输出判断第一类型实体A与第二类型实体1匹配成功,将第一类型实体A对应的词向量、第一类型实体A对应的位置信息A、第二类型实体5对应的词向量以及第二类型实体5对应的位置信息5输入到分类器中,输出判断第一类型实体A与第二类型实体5匹配失败,将第一类型实体B对应的词向量、第一类型实体B对应的位置信息B、第二类型实体1对应的词向量以及第二类型实体1对应的位置信息1输入到分类器中,输出判断第一类型实体B与第二类型实体1匹配失败,将第一类型实体B对应的词向量、第一类型实体B对应的位置信息B、第二类型实体5对应的词向量以及第二类型实体5对应的位置信息5输入到分类器中,输出判断第一类型实体B与第二类型实体5匹配成功。获得的匹配结果78是第一类型实体A与第二类型实体1、第一类型实体B与第二类型实体5分别匹配成功。基于匹配结果78,构建生成结构化信息79。
综上所述,在本申请实施例所示的方案中,通过对自然语言文本进行命名实体识别,可以获取其中的至少两个命名实体的位置信息,将命名实体以及对应的位置信息输入实体匹配模型中,获取识别得到的各个命名实体中的任一第一类型实体与各个第二类型实体的匹配关系,并且构建该匹配关系对应的自然语言文本的结构化信息。通过上述方案,可以准确的获取到自然语言文本中各个第一类型实体对应的各个第二类型实体,同时避免了自然语言文本中出现相同第二类型实体时无法确定对应的第一类型实体的情况,从而提高了对自然语言文本进行结构化的准确性。
图8是根据一示例性实施例示出的一种结构化信息构建装置的框图,如图8所示,该结构化信息构建装置可以通过硬件或者软硬结合的方式实现为计算机设备中的全部或者部分,以执行图1或图5对应实施例所示的方法的全部或部分步骤。该结构化信息构建装置可以包括:
位置获取模块810,用于对自然语言文本进行命名实体识别,获得至少两个命名实体在所述自然语言文本中的位置信息;所述至少两个命名实体包含至少一个第一类型实体以及至少一个第二类型实体,所述第二类型实体用于指示所述第一类型实体的属性;
关系获取模块820,用于通过实体匹配模型对所述至少两个命名实体以及所述至少两个命名实体的位置信息进行处理,获得所述至少一个第一类型实体分别与所述至少一个第二类型实体之间的匹配关系;所述实体匹配模型是通过文本样本中的各个命名实体样本、各个命名实体样本在所述文本样本中的位置信息,以及所述各个命名实体样本之间的匹配关系训练得到的;
信息构建模块830,用于基于所述至少一个第一类型实体分别与所述至少一个第二类型实体之间的匹配关系,构建所述自然语言文本的结构化信息。
在一种可能的实现方式中,所述关系获取模块820,包括:
向量构建子模块,用于基于所述至少两个命名实体的位置信息,构建所述至少两个命名实体各自的表征向量;
向量对构建子模块,用于基于所述至少两个命名实体各自的表征向量构建至少一个表征向量对,所述表征向量对包含一个第一类型实体的表征向量以及一个第二类型实体的表征向量;
结果获取子模块,用于通过所述实体匹配模型对所述至少一个表征向量对进行处理,获得所述至少一个表征向量对各自的匹配结果,所述匹配结果用于指示对应的第一类型实体和第二类型实体之间的匹配关系。
在一种可能的实现方式中,所述向量构建子模块,包括:
词向量获取单元,用于对目标命名实体进行词向量编码,获得所述目标命名实体的词向量;所述目标命名实体是所述至少两个命名实体中的任意一个;
位置向量获取单元,用于对所述目标命名实体的位置信息进行位置编码,获得所述目标命名实体的位置向量;
表征向量构建单元,用于基于所述目标命名实体的词向量,以及所述目标命名实体的位置向量,构建所述目标命名实体的表征向量。
在一种可能的实现方式中,所述表征向量构建单元,用于,
将所述目标命名实体的词向量,以及所述目标命名实体的位置向量相加,获得所述目标命名实体的表征向量;
或者,
将所述目标命名实体的词向量,以及所述目标命名实体的位置向量进行拼接,获得所述目标命名实体的表征向量。
在一种可能的实现方式中,所述结果获取子模块,包括:
输入向量获取单元,用于将目标表征向量对中的两个表征向量进行拼接,获得所述目标表征向量对的输入向量;所述目标表征向量对是所述至少一个表征向量对中的任意一个;
结果获取单元,用于将所述目标表征向量对的输入向量输入至所述实体匹配模型,获得所述目标表征向量对的匹配结果。
在一种可能的实现方式中,所述装置还包括:
样本向量构建子模块,用于通过实体匹配模型对所述至少两个命名实体以及所述至少两个命名实体的位置信息进行处理,获得所述至少一个第一类型实体分别与所述至少一个第二类型实体之间的匹配关系之前,基于所述各个命名实体样本在所述文本样本中的位置信息,构建所述各个命名实体样本各自的表征向量;
样本向量对构建子模块,用于基于所述各个命名实体样本各自的表征向量构建至少一个表征向量对样本,以及所述至少一个表征向量对样本的匹配标签,所述匹配标签用于指示对应的两个命名实体样本之间的匹配关系;
样本结果获取子模块,用于通过所述实体匹配模型对所述至少一个表征向量对样本进行处理,获得所述至少一个表征向量对样本各自的预测结果;
参数更新子模块,用于基于所述至少一个表征向量对样本各自的预测结果,以及所述至少一个表征向量对样本的匹配标签,对所述实体匹配模型的模型参数进行更新。
在一种可能的实现方式中,所述实体匹配模型是基于随机决策树的机器学习模型。
在一种可能的实现方式中,所述位置获取模块810,包括:
文本对获取子模块,用于将至少两个问题文本分别与所述自然语言文本进行组合,获得至少两个输入文本对;所述问题文本是从所述自然语言文本中查询指定子类型的命名实体的问题所对应的文本;
位置获取子模块,用于通过命名识别模型分别对所述至少两个输入文本对进行处理,获得所述至少两个输入文本对各自对应的命名实体在所述自然语言文本中的位置信息。
在一种可能的实现方式中,所述装置还包括:
文本对样本获取模块,用于对自然语言文本进行命名实体识别,获得至少两个命名实体在所述自然语言文本中的位置信息之前,将所述至少两个问题文本分别与所述文本样本进行组合,获得至少两个输入文本对样本;
样本位置获取模块,用于获取所述至少两个输入文本对样本各自对应的命名实体在所述文本样本中的位置信息;
样本位置获取模块,用于通过所述命名识别模型分别对所述至少两个输入文本对样本进行处理,获得所述至少两个输入文本对样本各自对应的命名实体在所述文本样本中的预测位置;
模型参数更新模块,用于基于所述至少两个输入文本对样本各自对应的命名实体在所述文本样本中的位置信息,以及所述至少两个输入文本对样本各自对应的命名实体在所述文本样本中的预测位置,对所述命名识别模型的模型参数进行更新。
在一种可能的实现方式中,所述模型参数更新模块,包括:
损失函数获取子模块,用于基于所述至少两个输入文本对样本各自对应的命名实体在所述文本样本中的位置信息,以及所述至少两个输入文本对样本各自对应的命名实体在所述文本样本中的预测位置,输入二分类交叉熵损失函数,获得损失函数值;
模型参数更新子模块,用于基于所述损失函数值对所述命名识别模型的模型参数进行更新。
在一种可能的实现方式中,所述自然语言文本为医疗病历文本,所述第一类型实体为所述医疗病历文本中的医疗症状对应的关键词,所述第二类型实体为所述医疗症状的属性对应的关键词。
综上所述,在本申请实施例所示的方案中,通过对自然语言文本进行命名实体识别,可以获取其中的至少两个命名实体的位置信息,将命名实体以及对应的位置信息输入实体匹配模型中,获取识别得到的各个命名实体中的任一第一类型实体与各个第二类型实体的匹配关系,并且构建该匹配关系对应的自然语言文本的结构化信息。通过上述方案,可以准确的获取到自然语言文本中各个第一类型实体对应的各个第二类型实体,同时避免了自然语言文本中出现相同第二类型实体时无法确定对应的第一类型实体的情况,从而提高了对自然语言文本进行结构化的准确性。
图9是根据一示例性实施例示出的一种结构化信息构建装置的框图,如图9所示,该结构化信息构建装置可以通过硬件或者软硬结合的方式实现为计算机设备中的全部或者部分,以执行图3或图5对应实施例所示的方法的全部或部分步骤。该结构化信息构建装置可以包括:
页面展示模块910,用于展示目标页面;所述目标页面中包括医疗病历文本输入区域、查询控件以及结构化医疗病历展示区域;
文本接收模块920,用于接受在所述医疗病历文本输入区域中输入的医疗病历文本;
病历展示模块930,用于响应于接收到对所述查询控件的触发操作,在所述结构化医疗病历展示区域展示结构化医疗病历;所述结构化医疗病历用于指示所述医疗病历文本中的医疗症状以及所述医疗症状的属性的匹配关系。
综上所述,在本申请实施例所示的方案中,通过对自然语言文本进行命名实体识别,可以获取其中的至少两个命名实体的位置信息,将命名实体以及对应的位置信息输入实体匹配模型中,获取识别得到的各个命名实体中的任一第一类型实体与各个第二类型实体的匹配关系,并且构建该匹配关系对应的自然语言文本的结构化信息。通过上述方案,可以准确的获取到自然语言文本中各个第一类型实体对应的各个第二类型实体,同时避免了自然语言文本中出现相同第二类型实体时无法确定对应的第一类型实体的情况,从而提高了对自然语言文本进行结构化的准确性。
图10是根据一示例性实施例示出的一种计算机设备的结构示意图。所述计算机设备1000包括中央处理单元(Central Processing Unit,CPU)1001、包括随机存取存储器(Random Access Memory,RAM)1002和只读存储器(Read-Only Memory,ROM)1003的系统存储器1004,以及连接系统存储器1004和中央处理单元1001的系统总线1005。所述计算机设备1000还包括帮助计算机设备内的各个器件之间传输信息的基本输入/输出系统(Input/Output,I/O系统)1006,和用于存储操作系统1013、应用程序1014和其他程序模块1015的大容量存储设备1007。
所述基本输入/输出系统1006包括有用于显示信息的显示器1008和用于用户输入信息的诸如鼠标、键盘之类的输入设备1009。其中所述显示器1008和输入设备1009都通过连接到系统总线1005的输入输出控制器1010连接到中央处理单元1001。所述基本输入/输出系统1006还可以包括输入输出控制器1010以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地,输入输出控制器1010还提供输出到显示屏、打印机或其他类型的输出设备。
所述大容量存储设备1007通过连接到系统总线1005的大容量存储控制器(未示出)连接到中央处理单元1001。所述大容量存储设备1007及其相关联的计算机设备可读介质为计算机设备1000提供非易失性存储。也就是说,所述大容量存储设备1007可以包括诸如硬盘或者只读光盘(Compact Disc Read-Only Memory,CD-ROM)驱动器之类的计算机设备可读介质(未示出)。
不失一般性,所述计算机设备可读介质可以包括计算机设备存储介质和通信介质。计算机设备存储介质包括以用于存储诸如计算机设备可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机设备存储介质包括RAM、ROM、可擦除可编程只读存储器(Erasable Programmable ReadOnly Memory,EPROM)、带电可擦可编程只读存储器(Electrically ErasableProgrammable Read-Only Memory,EEPROM),CD-ROM、数字视频光盘(Digital Video Disc,DVD)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然,本领域技术人员可知所述计算机设备存储介质不局限于上述几种。上述的系统存储器1004和大容量存储设备1007可以统称为存储器。
根据本公开的各种实施例,所述计算机设备1000还可以通过诸如因特网等网络连接到网络上的远程计算机设备运行。也即计算机设备1000可以通过连接在所述系统总线1005上的网络接口单元1011连接到网络1012,或者说,也可以使用网络接口单元1011来连接到其他类型的网络或远程计算机设备系统(未示出)。
所述存储器还包括一个或者一个以上的程序,所述一个或者一个以上程序存储于存储器中,中央处理器1001通过执行该一个或一个以上程序来实现图1、图3或图5所示的方法的全部或者部分步骤。
图11是根据一示例性实施例示出的计算机设备1100的结构框图。该计算机设备1100可以是图1所示的结构化信息构建系统中的终端。
通常,计算机设备1100包括有:处理器1101和存储器1102。
处理器1101可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器1101可以采用DSP(Digital Signal Processing,数字信号处理)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)、PLA(Programmable Logic Array,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器1101也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称CPU(Central ProcessingUnit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器1101可以在集成有GPU(Graphics Processing Unit,图像处理器),GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器1101还可以包括AI(Artificial Intelligence,人工智能)处理器,该AI处理器用于处理有关机器学习的计算操作。
存储器1102可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器1102还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中,存储器1102中的非暂态的计算机可读存储介质用于存储至少一个指令,该至少一个指令用于被处理器1101所执行以实现本申请中方法实施例提供的方法。
在一些实施例中,计算机设备1100还可选包括有:外围设备接口1103和至少一个外围设备。处理器1101、存储器1102和外围设备接口1103之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口1103相连。具体地,外围设备包括:射频电路1104、显示屏1105、摄像头组件1106、音频电路1107、定位组件1108和电源1109中的至少一种。
外围设备接口1103可被用于将I/O(Input/Output,输入/输出)相关的至少一个外围设备连接到处理器1101和存储器1102。在一些实施例中,处理器1101、存储器1102和外围设备接口1103被集成在同一芯片或电路板上;在一些其他实施例中,处理器1101、存储器1102和外围设备接口1103中的任意一个或两个可以在单独的芯片或电路板上实现,本实施例对此不加以限定。
射频电路1104用于接收和发射RF(Radio Frequency,射频)信号,也称电磁信号。射频电路1104通过电磁信号与通信网络以及其他通信设备进行通信。射频电路1104将电信号转换为电磁信号进行发送,或者,将接收到的电磁信号转换为电信号。可选地,射频电路1104包括:天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路1104可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于:万维网、城域网、内联网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity,无线保真)网络。在一些实施例中,射频电路1104还可以包括NFC(Near Field Communication,近距离无线通信)有关的电路,本申请对此不加以限定。
显示屏1105用于显示UI(User Interface,用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏1105是触摸显示屏时,显示屏1105还具有采集在显示屏1105的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器1101进行处理。此时,显示屏1105还可以用于提供虚拟按钮和/或虚拟键盘,也称软按钮和/或软键盘。在一些实施例中,显示屏1105可以为一个,设置计算机设备1100的前面板;在另一些实施例中,显示屏1105可以为至少两个,分别设置在计算机设备1100的不同表面或呈折叠设计;在再一些实施例中,显示屏1105可以是柔性显示屏,设置在计算机设备1100的弯曲表面上或折叠面上。甚至,显示屏1105还可以设置成非矩形的不规则图形,也即异形屏。显示屏1105可以采用LCD(Liquid Crystal Display,液晶显示屏)、OLED(OrganicLight-Emitting Diode,有机发光二极管)等材质制备。
摄像头组件1106用于采集图像或视频。可选地,摄像头组件1106包括前置摄像头和后置摄像头。通常,前置摄像头设置在终端的前面板,后置摄像头设置在终端的背面。在一些实施例中,后置摄像头为至少两个,分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种,以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality,虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中,摄像头组件1106还可以包括闪光灯。闪光灯可以是单色温闪光灯,也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合,可以用于不同色温下的光线补偿。
音频电路1107可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波,并将声波转换为电信号输入至处理器1101进行处理,或者输入至射频电路1104以实现语音通信。出于立体声采集或降噪的目的,麦克风可以为多个,分别设置在计算机设备1100的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器1101或射频电路1104的电信号转换为声波。扬声器可以是传统的薄膜扬声器,也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时,不仅可以将电信号转换为人类可听见的声波,也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中,音频电路1107还可以包括耳机插孔。
定位组件1108用于定位计算机设备1100的当前地理位置,以实现导航或LBS(Location Based Service,基于位置的服务)。定位组件1108可以是基于美国的GPS(Global Positioning System,全球定位系统)、中国的北斗系统或俄罗斯的伽利略系统的定位组件。
电源1109用于为计算机设备1100中的各个组件进行供电。电源1109可以是交流电、直流电、一次性电池或可充电电池。当电源1109包括可充电电池时,该可充电电池可以是有线充电电池或无线充电电池。有线充电电池是通过有线线路充电的电池,无线充电电池是通过无线线圈充电的电池。该可充电电池还可以用于支持快充技术。
在一些实施例中,计算机设备1100还包括有一个或多个传感器1110。该一个或多个传感器1110包括但不限于:加速度传感器1111、陀螺仪传感器1112、压力传感器1113、指纹传感器1114、光学传感器1115以及接近传感器1116。
加速度传感器1111可以检测以计算机设备1100建立的坐标系的三个坐标轴上的加速度大小。比如,加速度传感器1111可以用于检测重力加速度在三个坐标轴上的分量。处理器1101可以根据加速度传感器1111采集的重力加速度信号,控制触摸显示屏1105以横向视图或纵向视图进行用户界面的显示。加速度传感器1111还可以用于游戏或者用户的运动数据的采集。
陀螺仪传感器1112可以检测计算机设备1100的机体方向及转动角度,陀螺仪传感器1112可以与加速度传感器1111协同采集用户对计算机设备1100的3D动作。处理器1101根据陀螺仪传感器1112采集的数据,可以实现如下功能:动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。
压力传感器1113可以设置在计算机设备1100的侧边框和/或触摸显示屏1105的下层。当压力传感器1113设置在计算机设备1100的侧边框时,可以检测用户对计算机设备1100的握持信号,由处理器1101根据压力传感器1113采集的握持信号进行左右手识别或快捷操作。当压力传感器1113设置在触摸显示屏1105的下层时,由处理器1101根据用户对触摸显示屏1105的压力操作,实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。
指纹传感器1114用于采集用户的指纹,由处理器1101根据指纹传感器1114采集到的指纹识别用户的身份,或者,由指纹传感器1114根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时,由处理器1101授权该用户执行相关的敏感操作,该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器1114可以被设置计算机设备1100的正面、背面或侧面。当计算机设备1100上设置有物理按键或厂商Logo时,指纹传感器1114可以与物理按键或厂商Logo集成在一起。
光学传感器1115用于采集环境光强度。在一个实施例中,处理器1101可以根据光学传感器1115采集的环境光强度,控制触摸显示屏1105的显示亮度。具体地,当环境光强度较高时,调高触摸显示屏1105的显示亮度;当环境光强度较低时,调低触摸显示屏1105的显示亮度。在另一个实施例中,处理器1101还可以根据光学传感器1115采集的环境光强度,动态调整摄像头组件1106的拍摄参数。
接近传感器1116,也称距离传感器,通常设置在计算机设备1100的前面板。接近传感器1116用于采集用户与计算机设备1100的正面之间的距离。在一个实施例中,当接近传感器1116检测到用户与计算机设备1100的正面之间的距离逐渐变小时,由处理器1101控制触摸显示屏1105从亮屏状态切换为息屏状态;当接近传感器1116检测到用户与计算机设备1100的正面之间的距离逐渐变大时,由处理器1101控制触摸显示屏1105从息屏状态切换为亮屏状态。
本领域技术人员可以理解,图11中示出的结构并不构成对计算机设备1100的限定,可以包括比图示更多或更少的组件,或者组合某些组件,或者采用不同的组件布置。
在一示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括至少一条指令、至少一段程序、代码集或指令集的存储器,上述至少一条指令、至少一段程序、代码集或指令集可由处理器执行以完成上述图1、图3或图5任一实施例所示的方法的全部或者部分步骤。例如,非临时性计算机可读存储介质可以是ROM、RAM、CD-ROM、磁带、软盘和光数据存储设备等。
本领域技术人员应该可以意识到,在上述一个或多个示例中,本公开实施例所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时,可以将这些功能存储在计算机设备可读介质中或者作为计算机设备可读介质上的一个或多个指令或代码进行传输。计算机设备可读介质包括计算机设备存储介质和通信介质,其中通信介质包括便于从一个地方向另一个地方传送计算机设备程序的任何介质。存储介质可以是通用或专用计算机设备能够存取的任何可用介质。
根据本申请的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述方面的各种可选实现方式中提供的结构化信息构建方法。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本申请的真正范围和精神由下面的权利要求指出。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

Claims (15)

1.一种结构化信息构建方法,其特征在于,所述方法包括:
对自然语言文本进行命名实体识别,获得至少两个命名实体在所述自然语言文本中的位置信息;所述至少两个命名实体包含至少一个第一类型实体以及至少一个第二类型实体,所述第二类型实体用于指示所述第一类型实体的属性;
通过实体匹配模型对所述至少两个命名实体以及所述至少两个命名实体的位置信息进行处理,获得所述至少一个第一类型实体分别与所述至少一个第二类型实体之间的匹配关系;所述实体匹配模型是通过文本样本中的各个命名实体样本、各个命名实体样本在所述文本样本中的位置信息,以及所述各个命名实体样本之间的匹配关系训练得到的;
基于所述至少一个第一类型实体分别与所述至少一个第二类型实体之间的匹配关系,构建所述自然语言文本的结构化信息。
2.根据权利要求1所述的方法,其特征在于,所述通过实体匹配模型对所述至少两个命名实体以及所述至少两个命名实体的位置信息进行处理,获得所述至少一个第一类型实体分别与所述至少一个第二类型实体之间的匹配关系,包括:
基于所述至少两个命名实体的位置信息,构建所述至少两个命名实体各自的表征向量;
基于所述至少两个命名实体各自的表征向量构建至少一个表征向量对,所述表征向量对包含一个第一类型实体的表征向量以及一个第二类型实体的表征向量;
通过所述实体匹配模型对所述至少一个表征向量对进行处理,获得所述至少一个表征向量对各自的匹配结果,所述匹配结果用于指示对应的第一类型实体和第二类型实体之间的匹配关系。
3.根据权利要求2所述的方法,其特征在于,所述基于所述至少两个命名实体的位置信息,构建所述至少两个命名实体各自的表征向量,包括:
对目标命名实体进行词向量编码,获得所述目标命名实体的词向量;所述目标命名实体是所述至少两个命名实体中的任意一个;
对所述目标命名实体的位置信息进行位置编码,获得所述目标命名实体的位置向量;
基于所述目标命名实体的词向量,以及所述目标命名实体的位置向量,构建所述目标命名实体的表征向量。
4.根据权利要求3所述的方法,其特征在于,所述基于所述目标命名实体的词向量,以及所述目标命名实体的位置向量,构建所述目标命名实体的表征向量,包括:
将所述目标命名实体的词向量,以及所述目标命名实体的位置向量相加,获得所述目标命名实体的表征向量;
或者,
将所述目标命名实体的词向量,以及所述目标命名实体的位置向量进行拼接,获得所述目标命名实体的表征向量。
5.根据权利要求2所述的方法,其特征在于,所述通过所述实体匹配模型对所述至少一个表征向量对进行处理,获得所述至少一个表征向量各自的匹配结果,包括:
将目标表征向量对中的两个表征向量进行拼接,获得所述目标表征向量对的输入向量;所述目标表征向量对是所述至少一个表征向量对中的任意一个;
将所述目标表征向量对的输入向量输入至所述实体匹配模型,获得所述目标表征向量对的匹配结果。
6.根据权利要求2所述的方法,其特征在于,通过实体匹配模型对所述至少两个命名实体以及所述至少两个命名实体的位置信息进行处理,获得所述至少一个第一类型实体分别与所述至少一个第二类型实体之间的匹配关系之前,所述方法还包括:
基于所述各个命名实体样本在所述文本样本中的位置信息,构建所述各个命名实体样本各自的表征向量;
基于所述各个命名实体样本各自的表征向量构建至少一个表征向量对样本,以及所述至少一个表征向量对样本的匹配标签,所述匹配标签用于指示对应的两个命名实体样本之间的匹配关系;
通过所述实体匹配模型对所述至少一个表征向量对样本进行处理,获得所述至少一个表征向量对样本各自的预测结果;
基于所述至少一个表征向量对样本各自的预测结果,以及所述至少一个表征向量对样本的匹配标签,对所述实体匹配模型的模型参数进行更新。
7.根据权利要求6所述的方法,其特征在于,所述实体匹配模型是基于随机决策树的机器学习模型。
8.根据权利要求1所述的方法,其特征在于,所述对自然语言文本进行命名实体识别,获得至少两个命名实体在所述自然语言文本中的位置信息,包括:
将至少两个问题文本分别与所述自然语言文本进行组合,获得至少两个输入文本对;所述问题文本是从所述自然语言文本中查询指定子类型的命名实体的问题所对应的文本;
通过命名识别模型分别对所述至少两个输入文本对进行处理,获得所述至少两个输入文本对各自对应的命名实体在所述自然语言文本中的位置信息。
9.根据权利要求8所述的方法,其特征在于,所述对自然语言文本进行命名实体识别,获得至少两个命名实体在所述自然语言文本中的位置信息之前,还包括:
将所述至少两个问题文本分别与所述文本样本进行组合,获得至少两个输入文本对样本;
获取所述至少两个输入文本对样本各自对应的命名实体在所述文本样本中的位置信息;
通过所述命名识别模型分别对所述至少两个输入文本对样本进行处理,获得所述至少两个输入文本对样本各自对应的命名实体在所述文本样本中的预测位置;
基于所述至少两个输入文本对样本各自对应的命名实体在所述文本样本中的位置信息,以及所述至少两个输入文本对样本各自对应的命名实体在所述文本样本中的预测位置,对所述命名识别模型的模型参数进行更新。
10.根据权利要求9所述的方法,其特征在于,所述基于所述至少两个输入文本对样本各自对应的命名实体在所述文本样本中的位置信息,以及所述至少两个输入文本对样本各自对应的命名实体在所述文本样本中的预测位置,对所述命名识别模型的模型参数进行更新,包括:
基于所述至少两个输入文本对样本各自对应的命名实体在所述文本样本中的位置信息,以及所述至少两个输入文本对样本各自对应的命名实体在所述文本样本中的预测位置,输入二分类交叉熵损失函数,获得损失函数值;
基于所述损失函数值对所述命名识别模型的模型参数进行更新。
11.根据权利要求1至10任一所述的方法,其特征在于,所述自然语言文本为医疗病历文本,所述第一类型实体为所述医疗病历文本中的医疗症状对应的关键词,所述第二类型实体为所述医疗症状的属性对应的关键词。
12.一种结构化信息构建方法,其特征在于,所述方法包括:
展示目标页面;所述目标页面中包括医疗病历文本输入区域、查询控件以及结构化医疗病历展示区域;
接收在所述医疗病历文本输入区域中输入的医疗病历文本;
响应于接收到对所述查询控件的触发操作,在所述结构化医疗病历展示区域展示结构化医疗病历;所述结构化医疗病历用于指示所述医疗病历文本中的医疗症状以及所述医疗症状的属性的匹配关系。
13.一种结构化信息构建装置,其特征在于,所述装置包括:
位置获取模块,用于对自然语言文本进行命名实体识别,获得至少两个命名实体在所述自然语言文本中的位置信息;所述至少两个命名实体包含至少一个第一类型实体以及至少一个第二类型实体,所述第二类型实体用于指示所述第一类型实体的属性;
关系获取模块,用于通过实体匹配模型对所述至少两个命名实体以及所述至少两个命名实体的位置信息进行处理,获得所述至少一个第一类型实体分别与所述至少一个第二类型实体之间的匹配关系;所述实体匹配模型是通过文本样本中的各个命名实体样本、各个命名实体样本在所述文本样本中的位置信息,以及所述各个命名实体样本之间的匹配关系训练得到的;
信息构建模块,用于基于所述至少一个第一类型实体分别与所述至少一个第二类型实体之间的匹配关系,构建所述自然语言文本的结构化信息。
14.一种计算机设备,其特征在于,所述计算机设备包含处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至12任一所述的结构化信息构建方法。
15.一种计算机可读存储介质,其特征在于,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1至12任一所述的结构化信息构建方法。
CN202110010952.1A 2021-01-06 2021-01-06 结构化信息构建方法、装置、计算机设备及存储介质 Active CN112669928B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110010952.1A CN112669928B (zh) 2021-01-06 2021-01-06 结构化信息构建方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110010952.1A CN112669928B (zh) 2021-01-06 2021-01-06 结构化信息构建方法、装置、计算机设备及存储介质

Publications (2)

Publication Number Publication Date
CN112669928A true CN112669928A (zh) 2021-04-16
CN112669928B CN112669928B (zh) 2023-01-10

Family

ID=75413158

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110010952.1A Active CN112669928B (zh) 2021-01-06 2021-01-06 结构化信息构建方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN112669928B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113094477A (zh) * 2021-06-09 2021-07-09 腾讯科技(深圳)有限公司 数据结构化方法、装置、计算机设备及存储介质
CN113269247A (zh) * 2021-05-24 2021-08-17 平安科技(深圳)有限公司 投诉预警模型的训练方法、装置、计算机设备及存储介质
CN113297394A (zh) * 2021-06-29 2021-08-24 中国人民解放军国防科技大学 基于知识图谱的数据链网络保障方案智能推荐方法及应用
CN113724840A (zh) * 2021-08-12 2021-11-30 浙江卡易智慧医疗科技有限公司 一种基于医学影像结构化报告的设计方法及系统
CN114255835A (zh) * 2021-11-15 2022-03-29 四川大学华西医院 一种基于人工智能的病例大数据管理方法和系统
CN116108000A (zh) * 2023-04-14 2023-05-12 成都安哲斯生物医药科技有限公司 医疗数据管理查询方法
CN116450766A (zh) * 2022-01-05 2023-07-18 腾讯科技(深圳)有限公司 数据结构化方法、装置、设备、存储介质及程序产品
CN117555644A (zh) * 2024-01-11 2024-02-13 之江实验室 一种基于自然语言交互的前端页面构建方法及装置
CN117610569A (zh) * 2023-11-24 2024-02-27 中国电信股份有限公司技术创新中心 运维工单质检方法、装置、设备及介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108984683A (zh) * 2018-06-29 2018-12-11 北京百度网讯科技有限公司 结构化数据的提取方法、系统、设备及存储介质
US20190197176A1 (en) * 2017-12-21 2019-06-27 Microsoft Technology Licensing, Llc Identifying relationships between entities using machine learning
CN110597991A (zh) * 2019-09-10 2019-12-20 腾讯科技(深圳)有限公司 文本分类方法、装置、计算机设备及存储介质
CN110705293A (zh) * 2019-08-23 2020-01-17 中国科学院苏州生物医学工程技术研究所 基于预训练语言模型的电子病历文本命名实体识别方法
CN111177393A (zh) * 2020-01-02 2020-05-19 广东博智林机器人有限公司 一种知识图谱的构建方法、装置、电子设备及存储介质
CN111552819A (zh) * 2020-04-28 2020-08-18 腾讯科技(深圳)有限公司 一种实体提取方法、装置及可读存储介质
CN111710383A (zh) * 2020-06-16 2020-09-25 平安科技(深圳)有限公司 病历质控方法、装置、计算机设备和存储介质
CN111930942A (zh) * 2020-08-07 2020-11-13 腾讯云计算(长沙)有限责任公司 文本分类方法、语言模型训练方法、装置及设备

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190197176A1 (en) * 2017-12-21 2019-06-27 Microsoft Technology Licensing, Llc Identifying relationships between entities using machine learning
CN108984683A (zh) * 2018-06-29 2018-12-11 北京百度网讯科技有限公司 结构化数据的提取方法、系统、设备及存储介质
CN110705293A (zh) * 2019-08-23 2020-01-17 中国科学院苏州生物医学工程技术研究所 基于预训练语言模型的电子病历文本命名实体识别方法
CN110597991A (zh) * 2019-09-10 2019-12-20 腾讯科技(深圳)有限公司 文本分类方法、装置、计算机设备及存储介质
CN111177393A (zh) * 2020-01-02 2020-05-19 广东博智林机器人有限公司 一种知识图谱的构建方法、装置、电子设备及存储介质
CN111552819A (zh) * 2020-04-28 2020-08-18 腾讯科技(深圳)有限公司 一种实体提取方法、装置及可读存储介质
CN111710383A (zh) * 2020-06-16 2020-09-25 平安科技(深圳)有限公司 病历质控方法、装置、计算机设备和存储介质
CN111930942A (zh) * 2020-08-07 2020-11-13 腾讯云计算(长沙)有限责任公司 文本分类方法、语言模型训练方法、装置及设备

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113269247B (zh) * 2021-05-24 2023-09-01 平安科技(深圳)有限公司 投诉预警模型的训练方法、装置、计算机设备及存储介质
CN113269247A (zh) * 2021-05-24 2021-08-17 平安科技(深圳)有限公司 投诉预警模型的训练方法、装置、计算机设备及存储介质
CN113094477B (zh) * 2021-06-09 2021-08-31 腾讯科技(深圳)有限公司 数据结构化方法、装置、计算机设备及存储介质
CN113094477A (zh) * 2021-06-09 2021-07-09 腾讯科技(深圳)有限公司 数据结构化方法、装置、计算机设备及存储介质
CN113297394A (zh) * 2021-06-29 2021-08-24 中国人民解放军国防科技大学 基于知识图谱的数据链网络保障方案智能推荐方法及应用
CN113724840A (zh) * 2021-08-12 2021-11-30 浙江卡易智慧医疗科技有限公司 一种基于医学影像结构化报告的设计方法及系统
CN114255835A (zh) * 2021-11-15 2022-03-29 四川大学华西医院 一种基于人工智能的病例大数据管理方法和系统
CN116450766A (zh) * 2022-01-05 2023-07-18 腾讯科技(深圳)有限公司 数据结构化方法、装置、设备、存储介质及程序产品
CN116108000A (zh) * 2023-04-14 2023-05-12 成都安哲斯生物医药科技有限公司 医疗数据管理查询方法
CN116108000B (zh) * 2023-04-14 2023-06-20 成都安哲斯生物医药科技有限公司 医疗数据管理查询方法
CN117610569A (zh) * 2023-11-24 2024-02-27 中国电信股份有限公司技术创新中心 运维工单质检方法、装置、设备及介质
CN117555644A (zh) * 2024-01-11 2024-02-13 之江实验室 一种基于自然语言交互的前端页面构建方法及装置
CN117555644B (zh) * 2024-01-11 2024-04-30 之江实验室 一种基于自然语言交互的前端页面构建方法及装置

Also Published As

Publication number Publication date
CN112669928B (zh) 2023-01-10

Similar Documents

Publication Publication Date Title
CN112669928B (zh) 结构化信息构建方法、装置、计算机设备及存储介质
CN111914812B (zh) 图像处理模型训练方法、装置、设备及存储介质
CN112749728A (zh) 学生模型训练方法、装置、计算机设备及存储介质
CN112036331B (zh) 活体检测模型的训练方法、装置、设备及存储介质
CN111091166A (zh) 图像处理模型训练方法、图像处理方法、设备及存储介质
CN111985240A (zh) 命名实体识别模型的训练方法、命名实体识别方法及装置
CN113516143B (zh) 文本图像匹配方法、装置、计算机设备及存储介质
CN112989767B (zh) 医学词语标注方法、医学词语映射方法、装置及设备
CN111930964B (zh) 内容处理方法、装置、设备及存储介质
CN112035671B (zh) 状态检测方法、装置、计算机设备及存储介质
WO2022193973A1 (zh) 图像处理方法、装置、电子设备、计算机可读存储介质及计算机程序产品
CN113674856B (zh) 基于人工智能的医学数据处理方法、装置、设备及介质
CN113569042A (zh) 文本信息分类方法、装置、计算机设备及存储介质
CN111598160A (zh) 图像分类模型的训练方法、装置、计算机设备及存储介质
CN114281956A (zh) 文本处理方法、装置、计算机设备及存储介质
CN110555102A (zh) 媒体标题识别方法、装置及存储介质
CN113821658A (zh) 对编码器进行训练的方法、装置、设备及存储介质
CN113570645A (zh) 图像配准方法、装置、计算机设备及介质
CN113569052A (zh) 知识图谱的表示学习方法及装置
CN113257412B (zh) 信息处理方法、装置、计算机设备及存储介质
CN112037305B (zh) 对图像中的树状组织进行重建的方法、设备及存储介质
CN113836946A (zh) 训练评分模型的方法、装置、终端及存储介质
CN113516723A (zh) 人脸图片加密方法、装置、计算机设备及存储介质
CN112528760A (zh) 图像处理方法、装置、计算机设备及介质
CN112988984B (zh) 特征获取方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40042440

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant