CN112861533A - 实体词识别方法及装置 - Google Patents
实体词识别方法及装置 Download PDFInfo
- Publication number
- CN112861533A CN112861533A CN201911177129.9A CN201911177129A CN112861533A CN 112861533 A CN112861533 A CN 112861533A CN 201911177129 A CN201911177129 A CN 201911177129A CN 112861533 A CN112861533 A CN 112861533A
- Authority
- CN
- China
- Prior art keywords
- word
- entity
- data
- text
- text data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 172
- 238000012795 verification Methods 0.000 claims description 70
- 238000012549 training Methods 0.000 claims description 51
- 230000002159 abnormal effect Effects 0.000 claims description 50
- 239000012634 fragment Substances 0.000 claims description 48
- 238000004590 computer program Methods 0.000 claims description 14
- 238000012986 modification Methods 0.000 claims description 13
- 230000004048 modification Effects 0.000 claims description 13
- 230000005856 abnormality Effects 0.000 claims description 6
- 239000003550 marker Substances 0.000 claims description 6
- 239000013598 vector Substances 0.000 description 113
- 230000008569 process Effects 0.000 description 47
- 238000013145 classification model Methods 0.000 description 38
- 238000010586 diagram Methods 0.000 description 23
- 238000012545 processing Methods 0.000 description 16
- 201000010099 disease Diseases 0.000 description 15
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 15
- 238000004422 calculation algorithm Methods 0.000 description 8
- 230000008520 organization Effects 0.000 description 8
- 238000012790 confirmation Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 230000009471 action Effects 0.000 description 5
- 238000013178 mathematical model Methods 0.000 description 5
- 239000002453 shampoo Substances 0.000 description 5
- 238000003745 diagnosis Methods 0.000 description 4
- 238000002372 labelling Methods 0.000 description 4
- 238000003058 natural language processing Methods 0.000 description 4
- 206010028980 Neoplasm Diseases 0.000 description 3
- 230000002457 bidirectional effect Effects 0.000 description 3
- 201000011510 cancer Diseases 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 210000004185 liver Anatomy 0.000 description 3
- 201000007270 liver cancer Diseases 0.000 description 3
- 208000014018 liver neoplasm Diseases 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 208000024891 symptom Diseases 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 238000010606 normalization Methods 0.000 description 2
- 238000012015 optical character recognition Methods 0.000 description 2
- 210000000056 organ Anatomy 0.000 description 2
- 210000002784 stomach Anatomy 0.000 description 2
- 238000001356 surgical procedure Methods 0.000 description 2
- 101100498818 Arabidopsis thaliana DDR4 gene Proteins 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000001364 causal effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
- G16H10/60—ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Public Health (AREA)
- Data Mining & Analysis (AREA)
- Epidemiology (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Biomedical Technology (AREA)
- Databases & Information Systems (AREA)
- Pathology (AREA)
- Machine Translation (AREA)
Abstract
本申请提供了一种实体词识别方法、装置、计算机设备及计算机可读存储介质,涉及信息技术领域。该方法包括:获取文本数据;确定文本数据中作为实体开头的第一边界词对应的第一词位置,以及文本数据中作为实体结尾的第二边界词对应的第二词位置;根据第一词位置和第二词位置,对候选文本片段进行实体词识别;候选文本片段包括第一边界词、文本数据中位于第一边界词与第二边界词之间的词,以及第二边界词。本申请实施例能够降低实体词识别的时间复杂度。
Description
技术领域
本申请涉及信息技术领域,特别是涉及一种实体词识别方法、装置、计算机设备及计算机可读存储介质。
背景技术
命名实体是一个实体词,命名实体是人名、机构名、地名以及其他所有以名称为标识的实体,更广泛的实体还包括数字、日期、货币、地址等等。命名实体可以包括嵌套命名实体和非嵌套命名实体。嵌套命名实体也是一个实体词,嵌套命名实体是该实体内部嵌套有多个命名实体。嵌套命名实体词识别是NLP(Natural Language Processing,自然语言处理)领域一个重要的分支。嵌套命名实体在多种文本场景下均有出现,例如在医疗文本中,“肝癌检查”表示一项检查,是一个嵌套命名实体,其中,“肝癌”表示一种癌症,是一个命名实体,“肝”表示一种人体器官,也是一个命名实体,“癌”表示一种疾病类型,也是一个命名实体,因此,“肝癌检查”是个包括多个命名实体的嵌套命名实体。准确识别文本中所有可能的命名实体,有助于下游的文本分析任务。
当前大多数的实体词识别方法,只能应用于非嵌套的命名实体词识别场景,极大地局限了信息抽取的结果,因此,对嵌套命名实体的识别非常重要。目前,嵌套命名实体的识别方法比如基于文本分类的嵌套命名实体词识别方法,该方法基于所有可能的嵌套命名实体进行文本分类训练,得到一个识别模型,然后利用该识别模型来识别嵌套命名实体。但是该种方式得到的模型,在对文本数据进行识别时,识别内容多,时间复杂度高,效率低。
发明内容
鉴于上述问题,提出了本申请以便提供一种实体词识别方法、装置、计算机设备及计算机可读存储介质,可以降低嵌套命名实体词的识别过程中的时间复杂度,提高识别效率。
依据本申请的一个方面,提供了一种实体词识别方法,包括:
获取文本数据;
确定所述文本数据中作为实体开头的第一边界词对应的第一词位置,以及所述文本数据中作为实体结尾的第二边界词对应的第二词位置;
根据所述第一词位置和所述第二词位置,对候选文本片段进行实体词识别;所述候选文本片段包括所述第一边界词、所述文本数据中位于所述第一边界词与所述第二边界词之间的词,以及所述第二边界词。
依据本申请的另一个方面,提供了一种实体词识别装置,包括:
第一获取模块,用于获取文本数据;
第一确定模块,用于确定所述文本数据中作为实体开头的第一边界词对应的第一词位置,以及所述文本数据中作为实体结尾的第二边界词对应的第二词位置;
第一实体词识别模块,用于根据所述第一词位置和所述第二词位置,对候选文本片段进行实体词识别;所述候选文本片段包括所述第一边界词、所述文本数据中位于所述第一边界词与所述第二边界词之间的词,以及所述第二边界词。
依据本申请的另一个方面,提供了一种医疗文本校验方法,包括:
在医疗文本输入界面中,接收目标医疗文本数据;
确定所述目标医疗文本数据中作为实体开头的第一边界词对应的第一词位置,以及所述目标医疗文本数据中作为实体结尾的第二边界词对应的第二词位置;
根据所述第一词位置和所述第二词位置,对候选文本片段进行实体词识别;所述候选文本片段包括所述第一边界词、所述目标医疗文本数据中位于所述第一边界词与所述第二边界词之间的词,以及所述第二边界词;
根据实体词识别得到的识别结果,对所述目标医疗文本数据进行校验;
显示校验结果。
依据本申请的另一个方面,提供了一种医疗文本校验方法,应用于客户端,包括:
在医疗文本输入界面中,接收目标医疗文本数据;
将所述目标医疗文本数据发送至服务端,以供所述服务端确定所述目标医疗文本数据中作为实体开头的第一边界词对应的第一词位置,以及所述目标医疗文本数据中作为实体结尾的第二边界词对应的第二词位置,以及根据所述第一词位置和所述第二词位置,对候选文本片段进行实体词识别,以及根据实体词识别得到的识别结果,对所述目标医疗文本数据进行校验;其中,所述候选文本片段包括所述第一边界词、所述目标医疗文本数据中位于所述第一边界词与所述第二边界词之间的词,以及所述第二边界词;
接收服务端返回的校验结果;
显示所述校验结果。
依据本申请的另一个方面,提供了一种医疗文本校验方法,应用于服务端,包括:
接收客户端发送的目标医疗文本数据;
确定所述目标医疗文本数据中作为实体开头的第一边界词对应的第一词位置,以及所述目标医疗文本数据中作为实体结尾的第二边界词对应的第二词位置;
根据所述第一词位置和所述第二词位置,对候选文本片段进行实体词识别;所述候选文本片段包括所述第一边界词、所述目标医疗文本数据中位于所述第一边界词与所述第二边界词之间的词,以及所述第二边界词;
根据实体词识别得到的识别结果,对所述目标医疗文本数据进行校验;
将校验结果发送至所述客户端。
依据本申请的另一个方面,提供了一种医疗文本校验装置,包括:
第一接收模块,用于在医疗文本输入界面中,接收目标医疗文本数据;
第二确定模块,用于确定所述目标医疗文本数据中作为实体开头的第一边界词对应的第一词位置,以及所述目标医疗文本数据中作为实体结尾的第二边界词对应的第二词位置;
第二实体词识别模块,用于根据所述第一词位置和所述第二词位置,对候选文本片段进行实体词识别;所述候选文本片段包括所述第一边界词、所述目标医疗文本数据中位于所述第一边界词与所述第二边界词之间的词,以及所述第二边界词;
第二校验模块,用于根据实体词识别得到的识别结果,对所述目标医疗文本数据进行校验;
第一显示模块,用于显示校验结果。
依据本申请的另一个方面,提供了一种医疗文本校验装置,应用于客户端,包括:
第二接收模块,用于在医疗文本输入界面中,接收目标医疗文本数据;
第二发送模块,用于将所述目标医疗文本数据发送至服务端,以供所述服务端确定所述目标医疗文本数据中作为实体开头的第一边界词对应的第一词位置,以及所述目标医疗文本数据中作为实体结尾的第二边界词对应的第二词位置,以及根据所述第一词位置和所述第二词位置,对候选文本片段进行实体词识别,以及根据实体词识别得到的识别结果,对所述目标医疗文本数据进行校验;其中,所述候选文本片段包括所述第一边界词、所述目标医疗文本数据中位于所述第一边界词与所述第二边界词之间的词,以及所述第二边界词;
第三接收模块,用于接收服务端返回的校验结果;
第二显示模块,用于显示所述校验结果。
依据本申请的另一个方面,提供了一种医疗文本校验装置,应用于服务端,包括:
第四接收模块,用于接收客户端发送的目标医疗文本数据;
第三确定模块,用于确定所述目标医疗文本数据中作为实体开头的第一边界词对应的第一词位置,以及所述目标医疗文本数据中作为实体结尾的第二边界词对应的第二词位置;
第三实体词识别模块,用于根据所述第一词位置和所述第二词位置,对候选文本片段进行实体词识别;所述候选文本片段包括所述第一边界词、所述目标医疗文本数据中位于所述第一边界词与所述第二边界词之间的词,以及所述第二边界词;
第三校验模块,用于根据实体词识别得到的识别结果,对所述目标医疗文本数据进行校验;
返回模块,用于将校验结果发送至所述客户端。
依据本申请的另一个方面,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述一个或多个的方法。
依据本申请的另一个方面,提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述一个或多个的方法。
本申请实施例首先获取文本数据,然后确定文本数据中作为实体开头的第一边界词对应的第一词位置,以及文本数据中作为实体结尾的第二边界词对应的第二词位置,之后,可以根据第一词位置和第二词位置,对候选文本片段进行实体词识别,其中,候选文本片段包括第一边界词、文本数据中位于第一边界词与第二边界词之间的词,以及第二边界词。本申请实施例可以通过词边界,确定出文本数据中可能的命名实体所在的文本片段,进而只对可能的文本片段进行实体词识别,因此,相比于对文本数据中的所有文本片段进行实体词识别,能够降低实体词识别的时间复杂度。相对于对文本数据中所有文本片段进行识别的时间复杂度为O(n^2),本申请实施例由于从所有文本片段中确定了部分片段进行识别,使识别过程中的时间复杂度降低为了O(n)。
上述说明仅是本申请技术方案的概述,为了能够更清楚了解本申请的技术手段,而可依照说明书的内容予以实施,并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂,以下特举本申请的具体实施方式。
附图说明
图1是本申请实施例的一种实体词识别方法的流程图;
图2是本申请实施例的另一种实体词识别方法的流程图;
图3是本申请实施例的另一种实体词识别方法的流程图;
图4是本申请实施例的另一种实体词识别方法的流程图;
图5是本申请实施例的一种对实体进行识别的医疗场景示意图;
图6是本申请实施例的另一种对实体进行识别的诈骗识别场景示意图;
图7是本申请实施例的另一种对实体进行识别的电子商务场景示意图;
图8是本申请实施例的另一种实体词识别方法的流程图;
图9是本申请实施例的一种实体词识别方法的具体流程图;
图10是本申请实施例的另一种实体词识别方法的流程图;
图11是本申请实施例的一种实体词识别方法的具体流程图;
图12是本申请实施例的一种医疗文本校验方法的流程图;
图13是本申请实施例的一种医疗文本校验的场景示意图;
图14是本申请实施例的另一种医疗文本校验方法的流程图;
图15是本申请实施例的另一种医疗文本校验的场景示意图;
图16是本申请实施例的一种实体词识别装置的结构图;
图17是本申请实施例的一种医疗文本校验装置的结构图;
图18是本申请实施例的另一种医疗文本校验装置的结构图;
图19是本申请实施例的另一种医疗文本校验装置的结构图;
图20是一种可被用于实现本申请中所述的各个实施例的示例性系统。
具体实施方式
为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请作进一步详细的说明。
为使本领域技术人员更好地理解本申请,以下对本申请涉及的概念进行说明:
命名实体是一种以名称为标识的实体,例如人名、地名、机构名、疾病检查项目名等,命名实体可以理解为一个实体词。命名实体可以包括嵌套命名实体和非嵌套命名实体,其中,嵌套命名实体包括多个命名实体,例如,“北京xx大学物理学院”表示一个学院,是一个嵌套命名实体,其中,“北京”表示城市,是一个命名实体,“xx”表示学校名,也是一个命名实体,“大学”表示机构,也是一个命名实体,“物理”表示学科类别,也是一个命名实体,“学院”表示机构,也是一个命名实体,因此,“北京xx大学物理学院”是个包括多个命名实体的嵌套命名实体。
第一数据集合、第二数据集合、第三数据集合、第四数据集合和第五数据集合可以分别包括一个或多个数学模型,数学模型是运用数理逻辑方法和数学语言建构的科学或工程模型,数学模型是针对参照某种事物系统的特征或数量依存关系,采用数学语言,概括地或近似地表述出的一种数学结构,这种数学结构是借助于数学符号刻画出来的某种系统的纯关系结构。数学模型可以是一个或一组代数方程、微分方程、差分方程、积分方程或统计学方程及其组合,通过这些方程定量地或定性地描述系统各变量之间的相互关系或因果关系。除了用方程描述的数学模型外,还有用其他数学工具,如代数、几何、拓扑、数理逻辑等描述的模型,数学模型描述的是系统的行为和特征而不是系统的实际结构。
需要说明的是,本申请中所涉及的词的概念,例如各词、第一边界词、第二边界词、开头词、结尾词等,可以是指通常理解的词,例如英文中的一个单词,或者中文中的一个多字词,当然,也可以是指单字,例如中文中的单字词,根据语言种类、数据集合具体处理方式等的不同,可以有不同的理解,本申请实施例不对其加以限制。
本申请实施例中各个步骤可以在客户端和/或服务器上执行,各个步骤可以都由客户端执行、也可以都由服务器执行、或者可以部分在客户端上执行,部分在服务器上执行。
本申请中的各个实施例不仅可以用于识别嵌套命名实体,也可以用于识别非嵌套命名实体。
在一种实现方式中,参照图1,示出了一种实体词识别方法的流程示意图,该方法主要通过编码层c1(后文表示为第三数据集合)、边界预测模型(后文表示为第一数据集合)和文本分类模型(后文表示为第二数据集合)实现。具体地,首先可以将文本数据a转换为各词的向量表示b1,作为编码层c1的输入,编码层c1可以根据各词的向量表示b1,输出各词的特征数据d1。各词的特征数据d1可以作为边界预测模型的输入,边界预测模型可以根据各词的特征数据d1,输出各词分别作为实体开头的第一边界词对应的第一词位置,以及各词分别作为实体结尾的第二边界词对应的第二词位置。进而可以根据第一词位置和第二词位置,从各词的特征数据d1中确定目标特征数据,目标特征数据对应的各词即为候选文本片段。目标特征数据可以作为文本分类模型的输入,文本分类模型可以根据目标特征数据,对候选文本片段进行实体词识别,输出候选文本片段对应的实体及实体类别。
需要说明的是,在实际应用中,第一词位置表示嵌套命名实体的开头词,第二词位置表示嵌套命名实体的结尾词,所以第一词位置和第二词位置可以以位置对的形式记录。以如果文本数据a中没有嵌套命名实体,边界预测模型识别不出上述的第一词位置和第二词位置的位置对,则该各词的特征数据d1可以全部输入文本分类模型,以确定非嵌套命名实体及其类别。
由于在文本分类模型本身是用于确定是否为实体以及该实体的类别,文本分类模型很难学习实体词的边界,因此在单独用文本分类模型识别嵌套命名实体的情况下,需要将所有词的特征数据进行组合输入文本分类模型进行识别,以确定其属于哪个实体类别,其时间复杂度为O(n^2)。本申请实施例中,在文本分类模型的基础上,额外添加了边界预测模型,因此在训练的时候可以很容易的学习实体词的边界位置,通过边界预测模型根据所有词的特征数据确定嵌套命名实体的边界,然后再从所有词的特征数据确定属于嵌套命名实体的目标特征数据输入文本分类模型,那么输入文本分类模型的特征数据变少,时间复杂度变为O(n)。并且,由于边界预测模型和文本分类模型公用了编码层,那么在训练的时候也共同训练编码层,该公用的编码层能同时体现边界因素和实体分类的因素,使识别的实体词更准确。
在另一种实现方式中,参照图2,示出了一种实体词识别方法的流程示意图,该方法主要通过编码层c2(后文表示为第四数据集合)、编码层c3(后文表示为第五数据集合)、边界预测模型(后文表示为第一数据集合)和文本分类模型(后文表示为第二数据集合)实现。其中,编码层c2和编码层c3处理机制相同,但其中的参数可能存在差异,该差异可以是在训练编码层c2和编码层c3时,因训练语料的不同而导致的。该差异会导致在相同输入下,编码层c2和编码层c3各自的输出会有所不同。
具体地,首先在编码层c2部分,可以将文本数据a转换为各词的向量表示b2,作为编码层c2的输入,编码层c2可以根据各词的向量表示b2,输出各词的特征数据d2。各词的特征数据d2可以作为边界预测模型的输入,边界预测模型可以根据各词的特征数据d2,输出各词分别作为实体开头的第一边界词对应的第一词位置,以及各词分别作为实体结尾的第二边界词对应的第二词位置。在编码层c3部分,可以将文本数据a转换为各词的向量表示b3,作为编码层c3的输入,编码层c3可以根据各词的向量表示b3,输出各词的特征数据d3。各词的特征数据d3可以作为边界预测模型的输入,边界预测模型可以根据各词的特征数据d3,输出各词分别作为实体开头的第一边界词对应的第一词位置,以及各词分别作为实体结尾的第二边界词对应的第二词位置。
进而可以根据第一词位置和第二词位置,从编码层c3输出的各词的特征数据d3中确定目标特征数据,而不是从编码层c2输出的各词的特征数据d2中确定目标特征数据,目标特征数据对应的各词即为候选文本片段。目标特征数据可以作为文本分类模型的输入,文本分类模型可以根据目标特征数据,对候选文本片段进行实体词识别,输出候选文本片段对应的实体及实体类别。
需要说明的是,如果文本数据a中没有嵌套命名实体,边界预测模型识别不出上述的第一词位置和第二词位置的位置对,则该各词的特征数据d3可以全部输入文本分类模型,以确定非嵌套命名实体及其类别。
由于在文本分类模型本身是用于确定是否为实体以及该实体的类别,文本分类模型很难学习实体词的边界,因此在单独用文本分类模型识别嵌套命名实体的情况下,需要将所有词的特征数据进行组合输入文本分类模型进行识别,以确定其属于哪个实体类别,其时间复杂度为O(n^2)。本申请实施例中,在文本分类模型的基础上,额外添加了边界预测模型,因此在训练的时候可以很容易的学习实体词的边界位置,通过边界预测模型根据所有词的特征数据确定嵌套命名实体的边界,然后再从所有词的特征数据确定属于嵌套命名实体的目标特征数据输入文本分类模型,那么输入文本分类模型的特征数据变少,时间复杂度变为O(n)。
本申请实施例可以应用在医疗、公安、电子商务等涉及嵌套命名实体的实体词识别过程中。
具体地,本申请实施例提供的实体词识别方法,可以应用于以下场景中:
在场景一中,可以对病历等医疗文本进行内容校验,例如识别疾病名称、诊疗手段名称等是否填写正确、病历上下文中所涉及的症状、诊疗手段等是否对应、同一病人在一次住院中的各个病历的内容是否相匹配等。
在场景二中,有识别诈骗需求的相关机构、组织及个人可以对疑似涉及诈骗的文本进行诈骗相关的实体词识别,例如识别该文本是否包含已被确定为诈骗机构的机构名等,从而确定其是否为诈骗信息,并可以将诈骗信息的识别结果提供给银行、保险公司、金融组织、电子商务平台等机构或组织,或者用户。
在场景三中,在电子商务领域,请求方输入的查询文本数据可以包括嵌套命名实体,例如“ab牌男士洗发水好用吗”的查询文本包括“ab牌男士洗发水”这一嵌套命名实体,在确定查询文本中的嵌套命名实体之后,可以将该嵌套命名实体作为一个整体,进行后续的查询、修改等操作。
以上三种场景仅为应用场景的示例,并不对本申请构成限定,本申请实施例提供的实体词识别方法,可以应用于各种需要识别命名实体的场景。
参照图3,示出了本申请实施例的一种实体词识别方法的流程图,该方法具体可以包括如下步骤:
步骤101,获取文本数据。
在本申请实施例中,该文本数据可以是直接以文本形式输入的,当然,也可以是先以音频、视频等形式输入,然后再进行格式转换,从而转换为文本形式的。比如,对于音频,可以对音频进行语音识别获得上述文本数据。对于视频,如果视频中包括音频,可以对视频中的音频数据进行语音识别获得上述文本数据;如果视频中存在字幕,可以对视频图像进行OCR(Optical Character Recognition,光学字符识别)以获取上述文本数据。对此,本申请实施例不对其加以限定。
该文本数据可以包括多个词,其中,各词中可以包括至少一个命名实体,各命名实体中可以包括嵌套命名实体,也可以包括非嵌套命名实体。当然,各词中也可以不包括命名实体。
需要说明的是,获取的文本数据,可以是用户在某个设备上输入的,也可以是从某个服务器中获取的,本申请实施例不对其加以限制。
步骤102,确定所述文本数据中作为实体开头的第一边界词对应的第一词位置,以及所述文本数据中作为实体结尾的第二边界词对应的第二词位置。
在本申请实施例中,对于一个命名实体,该命名实体开头的第一个词即为第一边界词,该命名实体结尾的最后一个词即为第二边界词。第一边界词对应的第一词位置,是指第一边界词在整个文本数据中所在的位置,第二边界词对应的第二词位置,是指第二边界词在整个文本数据中所在的位置。文本数据中可能存在一个或多个命名实体,则每个命名实体都对应有一组第一词位置和第二词位置。
通过确定文本数据中作为实体开头的第一边界词对应的第一词位置,以及文本数据中作为实体结尾的第二边界词对应的第二词位置,可以确定出文本数据中可能的命名实体的边界,进而可以将边界以内的各词作为一个整体进行实体词识别。
步骤103,根据所述第一词位置和所述第二词位置,对候选文本片段进行实体词识别;所述候选文本片段包括所述第一边界词、所述文本数据中位于所述第一边界词与所述第二边界词之间的词,以及所述第二边界词。
在本申请实施例中,可以根据第一词位置和第二词位置,确定文本数据中的候选文本片段,该候选文本片段包括第一词位置对应的第一边界词、第二词位置对应的第二边界词,以及文本数据中位于第一词位置与第二词位置之间的词位置对应的词。之后,可以对文本数据中的候选文本片段进行实体词识别,从而确定候选文本片段是否为一个命名实体。
本申请实施例可以通过词边界,确定出文本数据中可能的命名实体所在的文本片段,进而只对可能的文本片段进行实体词识别,因此,相比于对文本数据中的所有文本片段进行实体词识别,还能够降低实体词识别的时间复杂度。相对于对文本数据中所有文本片段进行识别的时间复杂度为O(n^2),本申请实施例由于从所有文本片段中确定了部分片段进行识别,使识别过程中的时间复杂度降低为了O(n)。
参照图4,示出了本申请实施例的一种实体词识别方法的流程图,该方法具体可以包括如下步骤:
步骤201,获取文本数据。
在本申请实施例中,本步骤的具体实现过程可以参照上述步骤101,在此不再详述。
步骤202,获取所述文本数据中的词的特征数据。
在本申请实施例中,词的特征数据可以用于指示该词在整个文本数据中的语义,词的特征数据具体可以是该词融合了文本数据全文的语义信息后的向量表示。
需要说明的是,在本申请实施例中,可以采用BERT(Bidirectional EncoderRepresentations from Transformer,语言理解)模型,其可以将文本数据输入该模型后,获得该文本数据中每个词的语义表示向量。该模型可以将输入的文本数据中的每个词,先进行初始化,获得输入编码,每个词的输入编码包括:1、位置编码,体现出现在文本不同位置的字/词所携带的语义信息的差异;2、身份编码,用于体现与该词相结合的全局语义信息;3、词编码,体现词本身的信息;需要说明的是上述3个编码可以为向量。然后将该每个词的上述输入编码输入编码器,编码器则输出上述与各个词对应的特征数据。
步骤203,根据第一数据集合以及所述特征数据,确定至少一组所述第一词位置以及所述第二词位置。
在本申请实施例中,本步骤具体可以通过下述方式实现,包括:将所述特征数据输入所述第一数据集合,确定所述文本数据中的各词作为实体开头的第一概率和作为实体结尾的第二概率;将第一概率超过第一阈值的特征数据所在位置,确定为第一词位置,以及将第二概率超过第二阈值的特征数据所在位置,确定为第二词位置。
其中,第二数据集合用于根据所述特征数据,确定至少一组所述第一词位置以及所述第二词位置,具体地,第一数据集合可以包括边界预测模型。将特征数据输入第一数据集合,第一数据集合可以确定文本数据中的每个词分别作为实体开头的第一概率和作为实体结尾的第二概率,若文本数据中有N个词,则可以确定出N个第一概率和N个第二概率。其中,某个词对应的第一概率越大,表示该词越有可能是一个命名实体的开头,某个词对应的第二概率越大,表示该词越有可能是一个命名实体的结尾。
之后,第一数据集合可以将第一概率超过第一阈值的特征数据所在位置,确定为第一词位置,以及将第二概率超过第二阈值的特征数据所在位置,确定为第二词位置。其中,第一概率超过第一阈值的特征数据,表示该特征数据对应的词作为一个命名实体的开头的可能性很大,第二概率超过第二阈值的特征数据,表示该特征数据对应的词作为一个命名实体的开头的可能性很大。
步骤204,根据所述至少一组所述第一词位置以及所述第二词位置,确定所述候选文本片段对应的目标特征数据。
在本申请实施例中,不同词位置对应的词可以构成不同的命名实体,因此,每个第一词位置可以分别和每个第二词位置进行组合,得到至少一组第一词位置以及第二词位置。对于同组的第一词位置以及第二词位置,一个候选文本片段包括第一词位置对应的第一边界词、文本数据中位于第一词位置与同组的第二词位置之间的位置对应的词,以及该第二词位置对应的词。相应的,对于任意一组第一词位置以及第二词位置,可以从文本数据中的各词的特征数据中,确定出第一词位置、同组的第二词位置,以及二者之间的词位置各自对应的特征数据,这三部分特征数据构成了一个候选文本片段的目标特征数据。
步骤205,根据第二数据集合以及所述目标特征数据,对所述候选文本片段进行实体词识别。
在本申请实施例中,本步骤具体可以通过下述方式实现,包括:将所述目标特征数据输入所述第二数据集合,确定所述候选文本片段分别属于每个预设实体类别的第三概率;根据所述候选文本片段对应的所述第一概率、所述第二概率和所述第三概率,确定所述候选文本片段的目标实体类别。
其中,第二数据集合用于根据所述目标特征数据,对所述候选文本片段进行实体词识别,具体地,第二数据集合可以包括文本分类模型。第二数据集合中可以事先设置至少一个预设实体类别,将目标特征数据输入第二数据集合,第二数据集合可以确定候选文本片段分别属于每个预设实体类别的第三概率。其中,某个第三概率越大,表示该候选文本片段越有可能属于该第三概率对应的预设实体类别。之后,第二数据集合可以确定出各第三概率中值最大的第三概率,进而可以确定该候选文本片段对应的第一概率、第二概率和值最大的第三概率的乘积,当该乘积大于第三阈值时,第二数据集合可以确定该值最大的第三概率对应的预设实体类别即为该候选文本片段的目标实体类别。该乘积越大,表示该候选文本片段不仅作为一个完整的命名实体,而且属于值最大的第三概率对应的预设实体类别的可能性越高。
由于第一概率表示候选文本片段的开头词作为实体开头的概率,第二概率表示候选文本片段的结尾词作为实体结尾的概率,因此,通过根据候选文本片段对应的第一概率、第二概率和第三概率,确定候选文本片段的目标实体类别,相对于普通文本分类算法只根据第三概率确定文本片段的实体类别的方法,能够加强对于命名实体边界的监督,进而提高了识别命名实体的准确性。此外,相对于非嵌套命名实体,嵌套命名实体的开头词和结尾词是不同的,因此,在文本分类的基础上,结合边界词的概率预测,尤其能够提高嵌套命名实体的识别准确性。
进一步地,在本申请实施例中,对所述候选文本片段进行实体词识别的步骤,具体可以包括:确定所述候选文本片段对应的实体以及实体类别。也即是第二数据集合可以输出候选文本片段是否为实体的识别结果,还可以输出该候选文本片段对应的实体类别的识别结果。需要说明的是,在具体应用时,候选文本片段存在不是命名实体的可能性,因此,可以设置一个空类别,用于表示候选文本片段不是命名实体。
步骤206,根据实体词识别得到的识别结果,对医疗文本数据进行校验。
在本申请实施例中,对于医疗场景,文本数据具体可以是病历文本数据,病历文本数据中可以包括对病人的诊疗结果及诊疗手段,相应的,候选文本片段可以是疾病名称、诊疗手段名称等等。病历文本数据中可能存在因缺字、多字等原因导致名称填写错误的问题,或者上下文不对应的问题,例如症状都是对于肝的描述,而诊疗手段中却出现了对于胃的描述,诸如此类。
参照图5,示出了一种对实体进行识别的医疗场景示意图。医院的医疗人员H可以执行步骤S11将病历文本数据输入终端A,医院可以配备服务器B,终端A接入服务器B,终端A可以执行步骤S12将病历文本数据发送至服务器B,本申请实施例提供的实体词识别方法可以通过服务器B实现。具体地,服务器B可以执行步骤S13获取终端A发送的病历文本数据,然后执行步骤S14确定病历文本数据中作为实体开头的第一边界词对应的第一词位置,以及病历文本数据中作为实体结尾的第二边界词对应的第二词位置,进而执行步骤S15根据第一词位置和第二词位置,对候选文本片段进行实体词识别。之后,服务器B可以执行步骤S16根据识别得到的各候选文本片段对应的疾病/诊疗手段名称和疾病/诊疗手段类别,确定病历文本数据中是否存在疾病与诊疗手段不对应的内容。
接着,服务器B还可以执行步骤S17将对病历文本数据的校验结果发送至终端A,终端A进而还可以执行步骤S18接收服务器B发送的校验结果并进行显示,从而医疗人员H可以执行步骤S19查看该校验结果。
步骤207,根据实体词识别得到的识别结果,进行诈骗信息识别。
在本申请实施例中,对于公安场景,文本数据具体可以是疑似涉及诈骗的文本数据,疑似涉及诈骗的文本数据中可能包括已被公布的诈骗机构、诈骗高频名称等,例如癌症特效药,相应的,候选文本片段可以是已被公布的诈骗机构名称、诈骗高频名称等等。
参照图6,示出了一种对实体进行识别的诈骗识别场景示意图。银行、保险公司、金融组织、电子商务平台等机构或组织的人员T可以执行步骤S21将疑似涉及诈骗的文本数据输入终端A,该机构或组织可以配备服务器B,终端A接入服务器B,终端A可以执行步骤S22将疑似涉及诈骗的文本数据发送至服务器B,本申请实施例提供的实体词识别方法可以通过服务器B实现。具体地,服务器B可以执行步骤S23获取终端A发送的疑似涉及诈骗的文本数据,然后执行步骤S24确定疑似涉及诈骗的文本数据中作为实体开头的第一边界词对应的第一词位置,以及疑似涉及诈骗的文本数据中作为实体结尾的第二边界词对应的第二词位置,进而执行步骤S25根据第一词位置和第二词位置,对候选文本片段进行实体词识别。之后,服务器B可以执行步骤S26根据识别得到的各候选文本片段对应的诈骗机构/诈骗高频名称和诈骗机构/诈骗类别,确定疑似涉及诈骗的文本数据是否为诈骗信息,以及诈骗类别,例如医疗诈骗、金融诈骗等。
接着,服务器B还可以执行步骤S27将对疑似涉及诈骗的文本数据的诈骗识别结果发送至终端A,终端A进而还可以执行步骤S28接收服务器B发送的诈骗识别结果并进行显示,从而人员T可以执行步骤S29查看该诈骗识别结果。
步骤208,根据实体词识别得到的识别结果,对查询文本数据进行预设处理。
在本申请实施例中,对于电子商务场景,文本数据具体可以是查询文本数据,也即数据请求方请求数据时的查询文本数据,例如“ab牌男士洗发水好用吗”,相应的,候选文本片段可以是“ab牌男士洗发水”。该预设处理可以为查询识别的实体对应的商品数据以返回给客户端展示给用户。比如从服务器中的预设类目中查询该“ab牌男士洗发水”对应的商品数据返回给客户端以展示给用户,当然,实际应用中可以基于嵌套实体词构建商品数据的索引,那么在查询时,可以更准确的查询到用户需求的商品数据。需要说明的是,预设处理可以根据实际的业务需求进行设定,本申请实施例对此不作具体限定。
参照图7,示出了一种对实体进行识别的电子商务场景示意图。电子商务软件的用户P可以执行步骤S31将查询文本数据输入终端A,电子商务软件可以配备服务器B,终端A接入服务器B,终端A可以执行步骤S32将查询文本数据发送至服务器B,本申请实施例提供的实体词识别方法可以通过服务器B实现。具体地,服务器B可以执行步骤S33获取终端A发送的查询文本数据,然后执行步骤S34确定查询文本数据中作为实体开头的第一边界词对应的第一词位置,以及查询文本数据中作为实体结尾的第二边界词对应的第二词位置,进而执行步骤S35根据第一词位置和第二词位置,对候选文本片段进行实体词识别。之后,服务器B可以执行步骤S36根据识别得到的各候选文本片段对应的物品名称和物品类别,获取用户P的喜好数据并进行产品推荐。
接着,服务器B还可以执行步骤S37将产品推荐结果发送至终端A,终端A进而还可以执行步骤S38接收服务器B发送的品推荐结果并进行显示,从而用户P可以执行步骤S39查看该品推荐结果。
其中,上述步骤206、207和208,可以根据需求,执行其中的一个或多个。
本申请实施例通过上述数据集合的处理过程,一方面,相对于序列标注的算法识别嵌套命名实体的方式,由于不用额外增加特殊的标签,不用在对整个语句中的各词进行更多的标签标注,因此模型训练简单。另一方面,相当于通过超图的算法识别嵌套命名实体的方式,由于不用构建超图,模型训练过程也相对简单。再一方面本申请实施例中,在文本分类模型的基础上,额外添加了边界预测模型,因此在训练的时候可以很容易的学习实体词的边界位置,通过边界预测模型根据所有词的特征数据确定嵌套命名实体的边界,然后再从所有词的特征数据确定属于嵌套命名实体的目标特征数据输入文本分类模型,那么输入文本分类模型的特征数据变少,时间复杂度变为O(n)。
参照图8,示出了本申请实施例的一种实体词识别方法的流程图,该方法具体可以包括如下步骤:
步骤601,获取样本文本数据、所述样本文本数据中作为实体开头的第三边界词对应的第三词位置,以及所述样本文本数据中作为实体结尾的第四边界词对应的第四词位置。
在本申请实施例中,首先可以对进行实体词识别所需的各个数据集合进行训练,之后便可以通过训练好的各个数据集合进行实体词识别。
首先,可以获取用于训练的样本文本数据、样本文本数据中作为实体开头的第三边界词对应的第三词位置,以及样本文本数据中作为实体结尾的第四边界词对应的第四词位置。其中,第三词位置和第四词位置可以是从样本文本数据中人工标注出的。为了保证数据集合处理结果的准确度,应当获取大量的样本文本数据。
步骤602,根据所述样本文本数据、所述第三词位置及所述第四词位置,对待训练的第三数据集合和待训练的第一数据集合进行训练,得到中间第三数据集合和所述第一数据集合。
在本申请实施例中,获取到大量的样本文本数据,以及样本文本数据中标注的第三词位置和第四词位置之后,可以依次将每组样本文本数据,以及标注的第三词位置和第四词位置输入待训练的第三数据集合,以对待训练的第三数据集合和待训练的第一数据集合进行调参,在每一次输入过程中,待训练的第三数据集合的输出可以作为待训练的第一数据集合的输入。全部的样本文本数据,以及标注的第三词位置和第四词位置输入完毕,训练完成,得到中间第三数据集合和第一数据集合。
步骤603,获取样本文本片段及所述样本文本片段对应的实体标签。
在本申请实施例中,还可以获取样本文本片段及所述样本文本片段对应的实体标签,其中,样本文本片段可以是嵌套命名实体、非嵌套命名实体或非实体,在具体应用时,为了保证数据集合处理结果的准确度,应当属于嵌套命名实体的样本文本片段应当占所有样本文本片段中的较大比例。其中,实体标签可以是对样本文本片段人工标注出的。
步骤604,根据所述样本文本片段及所述样本文本片段对应的实体标签,对所述中间第三数据集合和待训练的第二数据集合进行训练,得到所述第三数据集合和所述第二数据集合。
在本申请实施例中,获取到大量的样本文本片段及样本文本片段对应的实体标签之后,可以依次将每组样本文本片段,以及标注的实体标签输入待训练的第三数据集合,以对中间第三数据集合和待训练的第二数据集合进行调参,在每一次输入过程中,中间第三数据集合的输出可以作为待训练的第二数据集合的输入。全部的样本文本片段,以及标注的实体标签输入完毕,训练完成,得到第三数据集合和第二数据集合。
也即是在本实施例中,第三数据集合既参与了第一数据集合的训练过程,也参与了第二数据集合的训练过程,因此,第三数据集合中的参数兼顾了第一数据集合和第二数据集合的输出结果。由于后续第一数据集合和第二数据集合都可以基于第三数据集合的输出结果进行数据处理,因此,第三数据集合在第一数据集合的训练过程中,及第二数据集合的训练过程中均参与训练,使得第三数据集合与第一数据集合和第二数据集合的综合匹配度较高,进而使得第二数据集合最终输出的实体词识别结果更加准确。
步骤605,获取文本数据。
在本申请实施例中,本步骤的具体实现过程可以参照上述步骤101。
示例性地,参照图9,示出了一种实体词识别方法的具体流程图,文本数据具体可以为“it is New York”。
步骤606,根据第三数据集合以及所述文本数据,获取所述文本数据的特征数据。
在本申请实施例中,第三数据集合用于根据所述文本数据,获取所述文本数据的特征数据,具体地,第三数据集合可以包括BERT(Bidirectional EncoderRepresentations from Transformers,源于Transformers的双向编码器)模型。首先可以查询词向量表,将文本数据中的各词分别转换为词向量(token embeddings),用于区别不同的词,然后BERT模型可以确定各词的句向量(segment embeddings),用于区别不同的句子,以及确定各词的位置向量(position embeddings),用于区别不同的词位置,BERT模型的输入即为每个词的词向量、句向量和位置向量之和。BERT模型的输出即为各词融合了上下文的语义信息后的向量。
示例性地,参照图9,首先可以将文本数据“it is New York”中的每个单词分别转换为第三数据集合的输入向量w1、w2、w3和w4,其中,w1为单词it的词向量、句向量和位置向量之和,w2为单词is的词向量、句向量和位置向量之和,w3为单词New的词向量、句向量和位置向量之和,w4为单词York的词向量、句向量和位置向量之和。然后可以将向量w1、w2、w3和w4输入第三数据集合中,第三数据集合可以输出文本数据“it is New York”的特征数据,也即向量h1、h2、h3和h4,其中,h1为单词it融合了上下文的语义信息后的向量表示,h2为单词is融合了上下文的语义信息后的向量表示,h3为单词New融合了上下文的语义信息后的向量表示,h4为单词York融合了上下文的语义信息后的向量表示。
步骤607,根据第一数据集合以及所述特征数据,确定至少一组所述第一词位置以及所述第二词位置。
在本申请实施例中,第三数据集合的输出可以作为第一数据集合的输入,本步骤的具体实现过程可以参照上述步骤203。
示例性地,参照图9,可以将第三数据集合输出的向量h1、h2、h3和h4输入第一数据集合,从而第一数据集合可以确定出文本数据“it is New York”中的各词分别作为实体开头的第一概率P(Start)和作为实体结尾的第二概率P(End)。然后,可以将第一概率P(Start)超过第一阈值的特征数据所在位置3,确定为第一词位置3,以及将第二概率P(End)超过第二阈值的特征数据所在位置4,确定为第二词位置4。
其中,第一概率P(Start)可以通过公式P(Start)=softmax(MLP_start(h))得到,第二概率P(End)可以通过公式P(End)=softmax(MLP_end(h))得到。其中,MLP_start和MLP_end均为多层感知机(Multi-layer Perceptron,MLP,一种人工神经网络),MLP_start可以将向量h1、h2、h3和h4中的每个向量分别映射到二维向量,然后在对映射后的二维向量进行softmax归一化操作,从而可以得到每个向量对应的归一化后的二维向量,归一化后的二维向量中的两个维度分别表示作为实体开头的第一概率和作为实体结尾的第二概率。
步骤608,根据所述至少一组所述第一词位置以及所述第二词位置,确定所述候选文本片段对应的目标特征数据。
在本申请实施例中,本步骤的具体实现过程可以参照上述步骤204。
示例性地,参照图9,可以从文本数据“it is New York”中的各词的特征数据向量h1、h2、h3和h4中,确定出第一词位置3对应的特征数据h3、第二词位置4对应的特征数据h4,第一词位置3与第二词位置4相邻,二者之间没有其他词位置,第一词位置3对应的单词New即为作为实体开头的第一边界词,第二词位置4对应的单词York即为作为实体结尾的第二边界词。相应的,候选文本片段即为“New York”,候选文本片段的目标特征数据即为h3和h4。
步骤609,根据第二数据集合以及所述目标特征数据,对所述候选文本片段进行实体词识别。
在本申请实施例中,本步骤的具体实现过程可以参照上述步骤205。
示例性地,参照图9,可以将目标特征数据h3和h4输入第二数据集合,第二数据集合可以确定候选文本片段“New York”分别属于每个预设实体类别的第三概率。其中,预设实体类别可以参照NLTK(Natural Language Toolkit,自然语言处理工具包)和StanfordNLP(斯坦福NLP)中对命名实体的分类,本申请实施例对此不作限定。例如预设实体类别可以包括人物(Person)、日期(Date):年、月、日,以及地缘政治实体(Geopolitical Entity,GPE)等,GPE通常表示地理—政治条目,比如城市、州、国家、洲等。
之后,第二数据集合可以确定出各第三概率中值最大的第三概率P(Span),进而可以确定该候选文本片段“New York”对应的第一概率P(Start)、第二概率P(End)和值最大的第三概率P(Span)的乘积,当该乘积大于第三阈值时,第二数据集合可以确定该值最大的第三概率P(Span)对应的预设实体类别GPE即为该候选文本片段“New York”的目标实体类别。
更具体地,在第二数据集合内,可以采用注意力机制,首先将目标特征数据h3和h4聚合为一个定长的向量,该定长向量即为目标特征数据h3和h4按照注意力机制赋予的权重进行加权求和得到。第三概率P(Span-k)可以通过公式P(Span-k)=softmax(MLP_span(v))得到,MLP_span为多层感知机,MLP_span可以将该定长向量映射到一维向量,然后在对映射后的一维向量进行softmax归一化操作,从而可以得到该定长向量对应的归一化后的一维向量,该一维向量的维度可以表示该定长向量对应的候选文本片段属于某个预设实体类别的第三概率。
使用P(Start)*P(End)*P(Span)作为候选文本片段的得分,相较目前技术中基于文本分类的嵌套命名实体词识别方法只包含P(Span)的得分,能够加强实体词识别时对于实体边界的监督。此外,在识别实体前,可以先通过边界预测得到高质量的候选文本片段,也即作为命名实体可能性较高的候选文本片段,因此,无需遍历文本数据中所有的文本片段,降低了时间复杂度。
目前技术中基于文本分类的嵌套命名实体词识别方法,需要对所有文本片段进行实体词识别,时间复杂度为O(n2)。而本申请实施例可以只对P(Start)*P(End)*P(Span)大于第三阈值的候选文本片段进行实体词识别,时间复杂度为O(n),小于目前技术中基于文本分类的嵌套命名实体词识别方法的时间复杂度O(n2)。
通过本实施例中的方法,分别通过三个标注语料数据集ACE2004、ACE2005、GENIA进行数据集合的训练和校验,实验表明,引入用于确定实体边界词的第三数据集合,可以使得的F1值均取得提升。其中,将本实施例中的方法所涉及的各个数据集合看作一个整体数据集合,F1值即为该整体数据集合的精确率和召回率的调和均值,F1值越大,可以表示该整体数据集合进行实体词识别的准确度越高。具体地,相比于目前技术中基于文本分类的嵌套命名实体词识别方法,将本实施例中的方法应用于ACE2004标注语料数据集,F1值可以从81.3提升至84.2,将本实施例中的方法应用于ACE2005标注语料数据集,F1值可以从79.9提升至83.8,将本实施例中的方法应用于GENIA标注语料数据集,F1值可以从75.4提升至76.5。
另外,本申请实施例涉及的各个待训练的数据集合,可以通过开源的BERT模型和Pytorch工具包获得。
进一步地,在本步骤之后,还可以根据需求,执行上述步骤206、207和208中的一个或多个。
本申请实施例通过上述数据集合的处理过程,一方面,相对于序列标注的算法识别嵌套命名实体的方式,由于不用额外增加特殊的标签,不用在对整个语句中的各词进行更多的标签标注,因此模型训练简单。另一方面,相当于通过超图的算法识别嵌套命名实体的方式,由于不用构建超图,模型训练过程也相对简单。再一方面本申请实施例中,在文本分类模型的基础上,额外添加了边界预测模型,因此在训练的时候可以很容易的学习实体词的边界位置,通过边界预测模型根据所有词的特征数据确定嵌套命名实体的边界,然后再从所有词的特征数据确定属于嵌套命名实体的目标特征数据输入文本分类模型,那么输入文本分类模型的特征数据变少,时间复杂度变为O(n)。并且,在边界预测模型和文本分类模型公用了编码层的情况下,那么在训练的时候也共同训练编码层,该公用的编码层能同时体现边界因素和实体分类的因素,使识别的实体词更准确。
参照图10,示出了本申请实施例的一种实体词识别方法的流程图,该方法具体可以包括如下步骤:
步骤701,获取样本文本数据、所述样本文本数据中作为实体开头的第三边界词对应的第三词位置,以及所述样本文本数据中作为实体结尾的第四边界词对应的第四词位置。
在本申请实施例中,与上一实施例不同的是,本实施例需要训练4个数据集合。本步骤的具体实现过程可以参照上述步骤601。
步骤702,根据所述样本文本数据、所述第三词位置及所述第四词位置,对待训练的第四数据集合和待训练的第一数据集合进行训练,得到所述第四数据集合和所述第一数据集合。
在本申请实施例中,与上一实施例不同的是,本实施例根据样本文本数据、第三词位置及第四词位置,训练的是待训练的第四数据集合和待训练的第一数据集合。
获取到大量的样本文本数据,以及样本文本数据中标注的第三词位置和第四词位置之后,可以依次将每组样本文本数据,以及标注的第三词位置和第四词位置输入待训练的第四数据集合,以对待训练的第四数据集合和待训练的第一数据集合进行调参,在每一次输入过程中,待训练的第四数据集合的输出可以作为待训练的第一数据集合的输入。全部的样本文本数据,以及标注的第三词位置和第四词位置输入完毕,训练完成,得到第四数据集合和第一数据集合。
步骤703,获取样本文本片段及所述样本文本片段对应的实体标签。
在本申请实施例中,本步骤的具体实现过程可以参照上述步骤603。
步骤704,根据所述样本文本片段及所述样本文本片段对应的实体标签,对待训练的第五数据集合和待训练的第二数据集合进行训练,得到所述第五数据集合和所述第二数据集合。
在本申请实施例中,与上一实施例不同的是,本实施例根据样本文本片段及样本文本片段对应的实体标签,训练的是待训练的第五数据集合和待训练的第二数据集合。
获取到大量的样本文本片段及样本文本片段对应的实体标签之后,可以依次将每组样本文本片段,以及标注的实体标签输入待训练的第五数据集合,以对待训练的第五数据集合和待训练的第二数据集合进行调参,在每一次输入过程中,待训练的第五数据集合的输出可以作为待训练的第二数据集合的输入。全部的样本文本片段,以及标注的实体标签输入完毕,训练完成,得到第五数据集合和第二数据集合。
也即是在本实施例中,第四数据集合只参与了第一数据集合的训练过程,第五数据集合只参与了第二数据集合的训练过程。后续第一数据集合可以基于第四数据集合的输出结果进行数据处理,第二数据集合可以基于第五数据集合的输出结果进行数据处理。
步骤705,获取文本数据。
在本申请实施例中,本步骤的具体实现过程可以参照上述步骤101,在此不再详述。
示例性地,参照图11,示出了一种实体词识别方法的具体流程图,文本数据具体可以为“it is New York”。
步骤706,根据第四数据集合以及所述文本数据,获取所述文本数据的第四特征数据。
在本申请实施例中,第四数据集合用于根据所述文本数据,获取所述文本数据的第四特征数据,具体地,第四数据集合可以包括BERT(Bidirectional EncoderRepresentations from Transformers,源于Transformers的双向编码器)模型。首先可以查询词向量表,将文本数据中的各词分别转换为词向量(token embeddings),用于区别不同的词,然后BERT模型可以确定各词的句向量(segment embeddings),用于区别不同的句子,以及确定各词的位置向量(position embeddings),用于区别不同的词位置,BERT模型的输入即为每个词的词向量、句向量和位置向量之和。BERT模型的输出即为各词融合了上下文的语义信息后的向量。
示例性地,参照图11,首先可以将文本数据“it is New York”中的每个单词分别转换为第四数据集合的输入向量w1、w2、w3和w4,其中,w1为单词it的词向量、句向量和位置向量之和,w2为单词is的词向量、句向量和位置向量之和,w3为单词New的词向量、句向量和位置向量之和,w4为单词York的词向量、句向量和位置向量之和。然后可以将向量w1、w2、w3和w4输入第四数据集合中,第四数据集合可以输出文本数据“it is New York”的第四特征数据,也即向量h1、h2、h3和h4,其中,h1为单词it融合了上下文的语义信息后的向量表示,h2为单词is融合了上下文的语义信息后的向量表示,h3为单词New融合了上下文的语义信息后的向量表示,h4为单词York融合了上下文的语义信息后的向量表示。
步骤707,根据第五数据集合以及所述文本数据,获取所述文本数据的第五特征数据。
在本申请实施例中,第五数据集合用于根据所述文本数据,获取所述文本数据的第四特征数据,具体地,第五数据集合可以包括BERT(Bidirectional EncoderRepresentations from Transformers,源于Transformers的双向编码器)模型。首先可以查询词向量表,将文本数据中的各词分别转换为词向量(token embeddings),用于区别不同的词,然后BERT模型可以确定各词的句向量(segment embeddings),用于区别不同的句子,以及确定各词的位置向量(position embeddings),用于区别不同的词位置,BERT模型的输入即为每个词的词向量、句向量和位置向量之和。BERT模型的输出即为各词融合了上下文的语义信息后的向量。
示例性地,参照图11,首先可以将文本数据“it is New York”中的每个单词分别转换为第五数据集合的输入向量w5、w6、w7和w8,其中,w5为单词it的词向量、句向量和位置向量之和,w6为单词is的词向量、句向量和位置向量之和,w7为单词New的词向量、句向量和位置向量之和,w8为单词York的词向量、句向量和位置向量之和。然后可以将向量w5、w6、w7和w8输入第五数据集合中,第五数据集合可以输出文本数据“it is New York”的第五特征数据,也即向量h5、h6、h7和h8,其中,h5为单词it融合了上下文的语义信息后的向量表示,h6为单词is融合了上下文的语义信息后的向量表示,h7为单词New融合了上下文的语义信息后的向量表示,h8为单词York融合了上下文的语义信息后的向量表示。
其中,由于第四数据集合只参与了第一数据集合的训练过程,第五数据集合只参与了第二数据集合的训练过程,因此,第四数据集合的调参结果可能与第五数据集合的调参结果不同,相应的,第四数据集合的输入向量w5、w6、w7和w8与第五数据集合的输入向量w1、w2、w3和w4之间,可能会存在差别。同样地,第四数据集合的输出向量h5、h6、h7和h8与第五数据集合的输出向量h1、h2、h3和h4之间,也可能会存在差别。
步骤708,根据第一数据集合以及所述第四特征数据,确定至少一组所述第一词位置以及所述第二词位置。
在本申请实施例中,第四数据集合输出的第四特征数据可以作为第一数据集合的输入。
示例性地,参照图11,可以将第四数据集合输出的向量h1、h2、h3和h4输入第一数据集合,从而第一数据集合可以确定出文本数据“it is New York”中的各词分别作为实体开头的第一概率P(Start)和作为实体结尾的第二概率P(End)。然后,可以将第一概率P(Start)超过第一阈值的特征数据所在位置3,确定为第一词位置3,以及将第二概率P(End)超过第二阈值的特征数据所在位置4,确定为第二词位置4。
步骤709,根据所述至少一组所述第一词位置以及所述第二词位置,确定所述候选文本片段对应的目标第五特征数据。
在本申请实施例中,可以从第五数据集合输出的文本数据中的各词的第五特征数据中,确定出第一词位置、第二词位置,以及二者之间的词位置各自对应的特征数据,这三部分特征数据构成了候选文本片段的目标第五特征数据。
示例性地,参照图11,可以从第五数据集合输出的文本数据“it is New York”中的各词的特征数据向量h5、h6、h7和h8中,确定出第一词位置3对应的特征数据h7、第二词位置4对应的特征数据h8,第一词位置3与第二词位置4相邻,二者之间没有其他词位置,第一词位置3对应的单词New即为作为实体开头的第一边界词,第二词位置4对应的单词York即为作为实体结尾的第二边界词。相应的,候选文本片段即为“New York”,候选文本片段的目标第五特征数据即为h7和h8。
步骤710,根据第二数据集合以及所述目标第五特征数据,对所述候选文本片段进行实体词识别。
在本申请实施例中,将目标第五特征数据输入第二数据集合,确定候选文本片段分别属于每个预设实体类别的第三概率,然后根据候选文本片段对应的第一概率、第二概率和第三概率,确定候选文本片段的目标实体类别。
示例性地,参照图11,可以将目标第五特征数据h7和h8输入第二数据集合,第二数据集合可以确定候选文本片段“New York”分别属于每个预设实体类别的第三概率。
之后,第二数据集合可以确定出各第三概率中值最大的第三概率P(Span),进而可以确定该候选文本片段“New York”对应的第一概率P(Start)、第二概率P(End)和值最大的第三概率P(Span)的乘积,当该乘积大于第三阈值时,第二数据集合可以确定该值最大的第三概率P(Span)对应的预设实体类别GPE即为该候选文本片段“New York”的目标实体类别。
进一步地,在本步骤之后,还可以根据需求,执行上述步骤206、207和208中的一个或多个。
本申请实施例通过上述数据集合的处理过程,一方面,相对于序列标注的算法识别嵌套命名实体的方式,由于不用额外增加特殊的标签,不用在对整个语句中的各词进行更多的标签标注,因此模型训练简单。另一方面,相当于通过超图的算法识别嵌套命名实体的方式,由于不用构建超图,模型训练过程也相对简单。再一方面本申请实施例中,在文本分类模型的基础上,额外添加了边界预测模型,因此在训练的时候可以很容易的学习实体词的边界位置,通过边界预测模型根据所有词的特征数据确定嵌套命名实体的边界,然后再从所有词的特征数据确定属于嵌套命名实体的目标特征数据输入文本分类模型,那么输入文本分类模型的特征数据变少,时间复杂度变为O(n)。
参照图12,示出了本申请实施例的一种医疗文本校验方法的流程图。该实施例中,医疗文本的接收和医疗文本的校验过程都可以在客户端中执行,该方法具体可以包括如下步骤:
步骤801,在医疗文本输入界面中,接收目标医疗文本数据。
参照图13,示出了一种医疗文本校验的场景示意图。其中,用户X可以是医院的医疗人员、病历等文档的管理人员等,终端A上可以安装用于校验医疗文本的客户端。用户X可以打开该客户端,进而客户端可以显示的医疗文本输入界面,用户X可以在医疗文本输入界面中,输入目标医疗文本数据,从而客户端可以接收到目标医疗文本数据。其中,目标医疗文本数据的输入方式可以参照上述步骤101,本实施例在此不再赘述。
在具体应用中,目标医疗文本数据具体可以包括单份病历,或者同一病人在一次住院过程中的各份病历,本实施例对此不作具体限定。
步骤802,确定所述目标医疗文本数据中作为实体开头的第一边界词对应的第一词位置,以及所述目标医疗文本数据中作为实体结尾的第二边界词对应的第二词位置。
客户端可以确定目标医疗文本数据中作为实体开头的第一边界词对应的第一词位置,以及目标医疗文本数据中作为实体结尾的第二边界词对应的第二词位置,具体实现方式可以参考上述各实施例中的相关步骤,本实施例在此不再赘述。
步骤803,根据所述第一词位置和所述第二词位置,对候选文本片段进行实体词识别;所述候选文本片段包括所述第一边界词、所述目标医疗文本数据中位于所述第一边界词与所述第二边界词之间的词,以及所述第二边界词。
客户端可以根据第一词位置和第二词位置,对候选文本片段进行实体词识别。具体地,客户端可以确定候选文本片段对应的疾病/诊疗手段名称和疾病/诊疗手段类别,从而可以用于确定目标医疗文本数据中是否存在因缺字、多字等原因导致名称填写错误的问题,或者上下文不对应等问题。
步骤804,根据实体词识别得到的识别结果,对所述目标医疗文本数据进行校验。
其中,该校验过程可以是对单份病历进行内部校验,以确定该份病历中的各栏信息是否存在填写错误,以及不同栏的信息是否相匹配。当然,该校验过程还可以是对同一病人在一次住院过程中的各份病历进行前后校验,以确定各份病历中所填写的信息是否相匹配。
具体地,判断某实体词是否出现填写错误,可以通过将该实体词与标准实体词表中的标准实体词进行对比的方式实现,若标准实体词表中存在该实体词,则可以确定该实体词填写无误,若标准实体词表中不存在该实体词,则可以确定该实体词填写有误。
具体地,判断实体词之间是否相匹配,可以通过预先建立每个实体词的关联词表,进而查表的方式实现,对于两个实体词,例如一个是疾病名称,一个是治疗手段名称,若该疾病名称的关联词表中存在该治疗手段名称,则可以确定该疾病名称与该治疗手段名称相匹配,若该疾病名称的关联词表中不存在该治疗手段名称,则可以确定该疾病名称与该治疗手段名称不匹配,也即存在填写错误。
参照图13,客户端可以根据实体词识别得到的识别结果,对目标医疗文本数据中的异常位置添加异常标记。当客户端识别出目标医疗文本数据中存在填写不对应的错误时,以便标识出存在错误的地方,进而用户X可以对目标医疗文本数据中出现错误的地方进行查看,以使用户X确认是否确实填写错误。
其中,异常标记的方式可以是高亮显示、标注框显示、下划线等等,本申请实施例对此不作具体限定。此外,还可以是不同类型的填写错误用不同类型的异常标记方式,例如,缺字的实体词可以高亮显示,上下文不对应的“肝xx术”和“胃xx术”可以用同一颜色的标注框进行标注。
步骤805,显示校验结果。
客户端在对目标医疗文本数据中的异常位置添加异常标记之后,还可以在目标医疗文本数据中的异常位置显示异常标记,从而提供给用户X进行查看。
步骤806,在所述医疗文本输入界面中,接收对具有异常标记的所述目标医疗文本数据的修改操作。
在实际应用中,当用户X确认异常标记标出的异常位置确实是存在填写错误时,用户X可以在客户端显示的医疗文本输入界面中,对具有异常标记的目标医疗文本数据进行修改操作,从而修正错误的地方。
另外,医疗文本输入界面中还可以显示一个确认选项,当用户X修改完毕时,可以点击该确认选项,从而客户端可以接收到对具有异常标记的目标医疗文本数据的确认操作。
此外,客户端校验出的异常可能并非是真正的异常,例如可能由于病人在后续检查中查出了其他的症状和病因,或者是病情恶化导致其他器官出现异常,因此,病历中可能会出现上下文不对应等情况的,但基于上述原因,这种不对应的情况是合理的。因此,当用户X确认异常标记标出的异常位置不是填写错误时,可以直接点击医疗文本输入界面中显示的确认选项,从而客户端可以接收到对具有异常标记的目标医疗文本数据的确认操作。
在具体应用中,在用户进行修改之后,客户端还可以再次返回至步骤804,进行再一次的校验,若还存在问题,则用户可以继续修改,避免遗漏,直至客户端接收到用户的确认操作。
步骤807,在校验通过后,将所述目标医疗文本数据发送至服务端。
参照图13,服务器B上可以安装用于存储目标医疗文本数据的服务端,在客户端对目标医疗文本数据校验通过后,客户端可以将目标医疗文本数据发送至服务器B上的服务端。服务端接收到目标医疗文本数据之后,可以对目标医疗文本数据进行存储,从而实现备份、云管理等功能。若目标医疗文本数据被用户修改过,则客户端发送的是修改后的、没有填写错误的目标医疗文本数据。
本申请实施例可以通过词边界,确定出医疗文本数据中可能的命名实体所在的文本片段,进而只对可能的文本片段进行实体词识别,因此,相比于对文本数据中的所有文本片段进行实体词识别,还能够降低实体词识别的时间复杂度。相对于对文本数据中所有文本片段进行识别的时间复杂度为O(n^2),本申请实施例由于从所有文本片段中确定了部分片段进行识别,使识别过程中的时间复杂度降低为了O(n)。进而可以根据实体词识别得到的识别结果,对医疗文本数据进行校验,进一步能够降低校验医疗文本数据的时间复杂度。
参照图14,示出了本申请实施例的另一种医疗文本校验方法的流程图,本实施例与上一实施例主要不同的是:在上一实施例中,是客户端进行医疗文本的校验和校验结果的显示,而在本实施例中,是服务端进行医疗文本的校验,客户端进行校验结果的显示。该方法具体可以包括如下步骤:
步骤901,客户端在医疗文本输入界面中,接收目标医疗文本数据。
参照图15,示出了另一种医疗文本校验的场景示意图。其中,用户X可以是医院的医疗人员、病历等文档的管理人员等,终端A上可以安装用于校验医疗文本的客户端。用户X可以打开该客户端,进而客户端可以显示的医疗文本输入界面,用户X可以在医疗文本输入界面中,输入目标医疗文本数据,从而客户端可以接收到目标医疗文本数据。其中,目标医疗文本数据的输入方式可以参照上述步骤101,本实施例在此不再赘述。
步骤902,客户端将所述目标医疗文本数据发送至服务端。
服务器B上可以安装用于存储目标医疗文本数据的服务端,客户端接收到用户X输入的目标医疗文本数据之后,可以将其发送至服务器B上安装的服务端。
步骤903,服务端接收客户端发送的目标医疗文本数据。
步骤904,服务端确定所述目标医疗文本数据中作为实体开头的第一边界词对应的第一词位置,以及所述目标医疗文本数据中作为实体结尾的第二边界词对应的第二词位置。
服务端实现本步骤的方式可以参照上一实施例的步骤802,本实施例在此不再赘述。
步骤905,服务端根据所述第一词位置和所述第二词位置,对候选文本片段进行实体词识别;所述候选文本片段包括所述第一边界词、所述目标医疗文本数据中位于所述第一边界词与所述第二边界词之间的词,以及所述第二边界词。
服务端实现本步骤的方式可以参照上一实施例的步骤803,本实施例在此不再赘述。
步骤906,服务端根据实体词识别得到的识别结果,对所述目标医疗文本数据进行校验。
其中,本步骤可以包括:服务端根据实体词识别得到的识别结果,对目标医疗文本数据中的异常位置添加异常标记。服务端实现本步骤的方式可以参照上一实施例的步骤804,本实施例在此不再赘述。
步骤907,服务端将校验结果返回客户端。
其中,校验结果包括:在异常位置添加了异常标记的目标医疗文本数据。相应的,服务端可以将在异常位置添加了异常标记的目标医疗文本数据返回给终端A上的客户端。
步骤908,客户端接收服务端返回的校验结果。
步骤909,客户端显示所述校验结果。
客户端接收到服务端返回的校验结果之后,可以将校验结果进行显示。校验结果包括:在异常位置添加了异常标记的目标医疗文本数据,相应的,本步骤包括:显示在异常位置添加了异常标记的目标医疗文本数据。
进一步地,在本步骤之后,参照图15,还可以执行下述步骤,包括:客户端在医疗文本输入界面中,接收对具有异常标记的目标医疗文本数据的修改操作;客户端将修改后的目标医疗文本数据发送至服务端,服务端接收并存储修改后的目标医疗文本数据。
其中,客户端在医疗文本输入界面中,接收对具有异常标记的目标医疗文本数据的修改操作的步骤的具体实现方式可以参照上一实施例的步骤806,本实施例在此不再赘述。之后,客户端可以将修改后的、没有填写错误的目标医疗文本数据,也即正确的版本发送至服务端,进而服务端可以对目标医疗文本数据进行存储,从而实现备份、云管理等功能。
综上,在本实施例中,客户端可以执行下述步骤,包括:
在医疗文本输入界面中,接收目标医疗文本数据;
将所述目标医疗文本数据发送至服务端,以供所述服务端确定所述目标医疗文本数据中作为实体开头的第一边界词对应的第一词位置,以及所述目标医疗文本数据中作为实体结尾的第二边界词对应的第二词位置,以及根据所述第一词位置和所述第二词位置,对候选文本片段进行实体词识别,以及根据实体词识别得到的识别结果,对所述目标医疗文本数据进行校验;其中,所述候选文本片段包括所述第一边界词、所述目标医疗文本数据中位于所述第一边界词与所述第二边界词之间的词,以及所述第二边界词;
接收服务端返回的校验结果;
显示所述校验结果。
在本实施例中,服务端可以执行下述步骤,包括:
接收客户端发送的目标医疗文本数据;
确定所述目标医疗文本数据中作为实体开头的第一边界词对应的第一词位置,以及所述目标医疗文本数据中作为实体结尾的第二边界词对应的第二词位置;
根据所述第一词位置和所述第二词位置,对候选文本片段进行实体词识别;所述候选文本片段包括所述第一边界词、所述目标医疗文本数据中位于所述第一边界词与所述第二边界词之间的词,以及所述第二边界词;
根据实体词识别得到的识别结果,对所述目标医疗文本数据进行校验;
将校验结果发送至所述客户端。
上述过程参照图14以及图15的描述,在此不再详述。
本申请实施例可以通过词边界,确定出医疗文本数据中可能的命名实体所在的文本片段,进而只对可能的文本片段进行实体词识别,因此,相比于对文本数据中的所有文本片段进行实体词识别,还能够降低实体词识别的时间复杂度。相对于对文本数据中所有文本片段进行识别的时间复杂度为O(n^2),本申请实施例由于从所有文本片段中确定了部分片段进行识别,使识别过程中的时间复杂度降低为了O(n)。进而可以根据实体词识别得到的识别结果,对医疗文本数据进行校验,进一步能够降低校验医疗文本数据的时间复杂度。
需要说明的是,上述图12到图13,图14到图15描述了对医疗文本数据的处理过程,本申请实施例还可以将该医疗文本数据替换为其他数据进行相应的校验,比如对于诈骗文本数据按照实体诈骗识别规则进行校验,对于合同文本数据按照合同的实体校验规则进行交易等需要对文本数据进行实体识别并根据实体进行校验的场景下,其中,具体的规则可以根据需求设置,本申请实施例不对其加以限制。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请实施例并不受所描述的动作顺序的限制,因为依据本申请实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本申请实施例所必须的。
参照图16,示出了本申请实施例的一种实体词识别装置的结构图,该装置1000具体可以包括如下模块:
第一获取模块1001,用于获取文本数据;
第一确定模块1002,用于确定所述文本数据中作为实体开头的第一边界词对应的第一词位置,以及所述文本数据中作为实体结尾的第二边界词对应的第二词位置;
第一实体词识别模块1003,用于根据所述第一词位置和所述第二词位置,对候选文本片段进行实体词识别;所述候选文本片段包括所述第一边界词、所述文本数据中位于所述第一边界词与所述第二边界词之间的词,以及所述第二边界词。
可选地,所述第一确定模块包括:
获取子模块,用于获取所述文本数据中的词的特征数据;
第一确定子模块,用于根据第一数据集合以及所述特征数据,确定至少一组所述第一词位置以及所述第二词位置。
可选地,所述第一实体词识别模块包括:
第二确定子模块,用于根据所述至少一组所述第一词位置以及所述第二词位置,确定所述候选文本片段对应的目标特征数据;
识别子模块,用于根据第二数据集合以及所述目标特征数据,对所述候选文本片段进行实体词识别。
可选地,所述获取子模块包括:
第一获取单元,用于根据第三数据集合以及所述文本数据,获取所述文本数据的特征数据。
可选地,所述装置还包括:
第二获取模块,用于获取样本文本数据、所述样本文本数据中作为实体开头的第三边界词对应的第三词位置,以及所述样本文本数据中作为实体结尾的第四边界词对应的第四词位置;
第一训练模块,用于根据所述样本文本数据、所述第三词位置及所述第四词位置,对待训练的第三数据集合和待训练的第一数据集合进行训练,得到中间第三数据集合和所述第一数据集合;
第三获取模块,用于获取样本文本片段及所述样本文本片段对应的实体标签;
第二训练模块,用于根据所述样本文本片段及所述样本文本片段对应的实体标签,对所述中间第三数据集合和待训练的第二数据集合进行训练,得到所述第三数据集合和所述第二数据集合。
可选地,所述获取子模块包括:
第二获取单元,用于根据第四数据集合以及所述文本数据,获取所述文本数据的第四特征数据;
所述第一确定子模块包括:
第一确定单元,用于根据第一数据集合以及所述第四特征数据,确定至少一组所述第一词位置以及所述第二词位置。
可选地,所述获取子模块还包括:
第三获取单元,用于根据第五数据集合以及所述文本数据,获取所述文本数据的第五特征数据;
所述第二确定子模块包括:
第二确定单元,用于根据所述至少一组所述第一词位置以及所述第二词位置,确定所述候选文本片段对应的目标第五特征数据;
所述识别子模块包括:
识别单元,用于根据第二数据集合以及所述目标第五特征数据,对所述候选文本片段进行实体词识别。
可选地,所述装置还包括:
第四获取模块,用于获取样本文本数据、所述样本文本数据中作为实体开头的第三边界词对应的第三词位置,以及所述样本文本数据中作为实体结尾的第四边界词对应的第四词位置;
第三训练模块,用于根据所述样本文本数据、所述第三词位置及所述第四词位置,对待训练的第四数据集合和待训练的第一数据集合进行训练,得到所述第四数据集合和所述第一数据集合;
第五获取模块,用于获取样本文本片段及所述样本文本片段对应的实体标签;
第四训练模块,用于根据所述样本文本片段及所述样本文本片段对应的实体标签,对待训练的第五数据集合和待训练的第二数据集合进行训练,得到所述第五数据集合和所述第二数据集合。
可选地,所述第一确定子模块包括:
第三确定单元,用于将所述特征数据输入所述第一数据集合,确定所述文本数据中的各词作为实体开头的第一概率和作为实体结尾的第二概率;
第四确定单元,用于将第一概率超过第一阈值的特征数据所在位置,确定为第一词位置,以及将第二概率超过第二阈值的特征数据所在位置,确定为第二词位置。
可选地,所述识别子模块包括:
第五确定单元,用于将所述目标特征数据输入所述第二数据集合,确定所述候选文本片段分别属于每个预设实体类别的第三概率;
第六确定单元,用于根据所述候选文本片段对应的所述第一概率、所述第二概率和所述第三概率,确定所述候选文本片段的目标实体类别。
可选地,所述装置还包括:
第一校验模块,用于根据实体词识别得到的识别结果,对医疗文本数据进行校验。
可选地,所述装置还包括:
诈骗识别模块,用于根据实体词识别得到的识别结果,进行诈骗信息识别。
可选地,所述装置还包括:
处理模块,用于根据实体词识别得到的识别结果,对查询文本数据进行预设处理。
本申请实施例通过上述数据集合的处理过程,一方面,相对于序列标注的算法识别嵌套命名实体的方式,由于不用额外增加特殊的标签,不用在对整个语句中的各词进行更多的标签标注,因此模型训练简单。另一方面,相当于通过超图的算法识别嵌套命名实体的方式,由于不用构建超图,模型训练过程也相对简单。再一方面本申请实施例中,在文本分类模型的基础上,额外添加了边界预测模型,因此在训练的时候可以很容易的学习实体词的边界位置,通过边界预测模型根据所有词的特征数据确定嵌套命名实体的边界,然后再从所有词的特征数据确定属于嵌套命名实体的目标特征数据输入文本分类模型,那么输入文本分类模型的特征数据变少,时间复杂度变为O(n)。并且,在边界预测模型和文本分类模型公用了编码层的情况下,那么在训练的时候也共同训练编码层,该公用的编码层能同时体现边界因素和实体分类的因素,使识别的实体词更准确。
参照图17,示出了本申请实施例的一种医疗文本校验装置的结构图,该装置1100具体可以包括如下模块:
第一接收模块1101,用于在医疗文本输入界面中,接收目标医疗文本数据;
第二确定模块1102,用于确定所述目标医疗文本数据中作为实体开头的第一边界词对应的第一词位置,以及所述目标医疗文本数据中作为实体结尾的第二边界词对应的第二词位置;
第二实体词识别模块1103,用于根据所述第一词位置和所述第二词位置,对候选文本片段进行实体词识别;所述候选文本片段包括所述第一边界词、所述目标医疗文本数据中位于所述第一边界词与所述第二边界词之间的词,以及所述第二边界词;
第二校验模块1104,用于根据实体词识别得到的识别结果,对所述目标医疗文本数据进行校验;
第一显示模块1105,用于显示校验结果。
可选地,所述第二校验模块包括:
第一标记子模块,用于根据实体词识别得到的识别结果,对所述目标医疗文本数据中的异常位置添加异常标记;
所述第一显示模块包括:
第一显示子模块,用于在所述目标医疗文本数据中的所述异常位置显示所述异常标记。
可选地,所述装置还包括:
第一修改模块,用于在所述医疗文本输入界面中,接收对具有异常标记的所述目标医疗文本数据的修改操作。
可选地,所述装置还包括:
第一发送模块,用于在校验通过后,将所述目标医疗文本数据发送至服务端。
本申请实施例可以通过词边界,确定出医疗文本数据中可能的命名实体所在的文本片段,进而只对可能的文本片段进行实体词识别,因此,相比于对文本数据中的所有文本片段进行实体词识别,还能够降低实体词识别的时间复杂度。相对于对文本数据中所有文本片段进行识别的时间复杂度为O(n^2),本申请实施例由于从所有文本片段中确定了部分片段进行识别,使识别过程中的时间复杂度降低为了O(n)。进而可以根据实体词识别得到的识别结果,对医疗文本数据进行校验,进一步能够降低校验医疗文本数据的时间复杂度。
参照图18,示出了本申请实施例的一种医疗文本校验装置的结构图,应用于客户端,该装置1200具体可以包括如下模块:
第二接收模块1201,用于在医疗文本输入界面中,接收目标医疗文本数据;
第二发送模块1202,用于将所述目标医疗文本数据发送至服务端,以供所述服务端确定所述目标医疗文本数据中作为实体开头的第一边界词对应的第一词位置,以及所述目标医疗文本数据中作为实体结尾的第二边界词对应的第二词位置,以及根据所述第一词位置和所述第二词位置,对候选文本片段进行实体词识别,以及根据实体词识别得到的识别结果,对所述目标医疗文本数据进行校验;其中,所述候选文本片段包括所述第一边界词、所述目标医疗文本数据中位于所述第一边界词与所述第二边界词之间的词,以及所述第二边界词;
第三接收模块1203,用于接收服务端返回的校验结果;
第二显示模块1204,用于显示所述校验结果。
可选地,所述校验结果包括:在异常位置添加了异常标记的目标医疗文本数据;
所述第二显示模块包括:
第二显示子模块,用于显示在异常位置添加了异常标记的所述目标医疗文本数据。
可选地,所述装置还包括:
第二修改模块,用于在所述医疗文本输入界面中,接收对具有异常标记的所述目标医疗文本数据的修改操作。
本申请实施例可以通过词边界,确定出医疗文本数据中可能的命名实体所在的文本片段,进而只对可能的文本片段进行实体词识别,因此,相比于对文本数据中的所有文本片段进行实体词识别,还能够降低实体词识别的时间复杂度。相对于对文本数据中所有文本片段进行识别的时间复杂度为O(n^2),本申请实施例由于从所有文本片段中确定了部分片段进行识别,使识别过程中的时间复杂度降低为了O(n)。进而可以根据实体词识别得到的识别结果,对医疗文本数据进行校验,进一步能够降低校验医疗文本数据的时间复杂度。
与图18的应用于医疗文本校验装置的装置对应,参照图19,示出了本申请实施例的一种医疗文本校验装置的结构图,应用于服务端,该装置1300具体可以包括如下模块:
第四接收模块1301,用于接收客户端发送的目标医疗文本数据;
第三确定模块1302,用于确定所述目标医疗文本数据中作为实体开头的第一边界词对应的第一词位置,以及所述目标医疗文本数据中作为实体结尾的第二边界词对应的第二词位置;
第三实体词识别模块1303,用于根据所述第一词位置和所述第二词位置,对候选文本片段进行实体词识别;所述候选文本片段包括所述第一边界词、所述目标医疗文本数据中位于所述第一边界词与所述第二边界词之间的词,以及所述第二边界词;
第三校验模块1304,用于根据实体词识别得到的识别结果,对所述目标医疗文本数据进行校验;
返回模块1305,用于将校验结果发送至所述客户端。
可选地,所述第三校验模块包括:
第二标记子模块,用于根据实体词识别得到的识别结果,对所述目标医疗文本数据中的异常位置添加异常标记;
所述返回模块包括:
返回子模块,用于将在异常位置添加了异常标记的目标医疗文本数据返回给所述客户端。
本申请实施例可以通过词边界,确定出医疗文本数据中可能的命名实体所在的文本片段,进而只对可能的文本片段进行实体词识别,因此,相比于对文本数据中的所有文本片段进行实体词识别,还能够降低实体词识别的时间复杂度。相对于对文本数据中所有文本片段进行识别的时间复杂度为O(n^2),本申请实施例由于从所有文本片段中确定了部分片段进行识别,使识别过程中的时间复杂度降低为了O(n)。进而可以根据实体词识别得到的识别结果,对医疗文本数据进行校验,进一步能够降低校验医疗文本数据的时间复杂度。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本申请的实施例可被实现为使用任意适当的硬件,固件,软件,或及其任意组合进行想要的配置的系统。图20示意性地示出了可被用于实现本申请中所述的各个实施例的示例性系统(或装置)1400。
对于一个实施例,图20示出了示例性系统1400,该系统具有一个或多个处理器1402、被耦合到(一个或多个)处理器1402中的至少一个的系统控制模块(芯片组)1404、被耦合到系统控制模块1404的系统存储器1406、被耦合到系统控制模块1404的非易失性存储器(NVM)/存储设备1408、被耦合到系统控制模块1404的一个或多个输入/输出设备1410,以及被耦合到系统控制模块1406的网络接口1412。
处理器1402可包括一个或多个单核或多核处理器,处理器1402可包括通用处理器或专用处理器(例如图形处理器、应用处理器、基频处理器等)的任意组合。
在一些实施例中,系统1400可包括具有指令的一个或多个计算机可读介质(例如,系统存储器1406或NVM/存储设备1408)以及与该一个或多个计算机可读介质相合并被配置为执行指令以实现模块从而执行本申请中所述的动作的一个或多个处理器1402。
对于一个实施例,系统控制模块1404可包括任意适当的接口控制器,以向(一个或多个)处理器1402中的至少一个和/或与系统控制模块1404通信的任意适当的设备或组件提供任意适当的接口。
系统控制模块1404可包括存储器控制器模块,以向系统存储器1406提供接口。存储器控制器模块可以是硬件模块、软件模块和/或固件模块。
系统存储器1406可被用于例如为系统1400加载和存储数据和/或指令。对于一个实施例,系统存储器1406可包括任意适当的易失性存储器,例如,适当的DRAM。在一些实施例中,系统存储器1406可包括双倍数据速率类型四同步动态随机存取存储器(DDR4SDRAM)。
对于一个实施例,系统控制模块1404可包括一个或多个输入/输出控制器,以向NVM/存储设备1408及(一个或多个)输入/输出设备1410提供接口。
例如,NVM/存储设备1408可被用于存储数据和/或指令。NVM/存储设备1408可包括任意适当的非易失性存储器(例如,闪存)和/或可包括任意适当的(一个或多个)非易失性存储设备(例如,一个或多个硬盘驱动器(HDD)、一个或多个光盘(CD)驱动器和/或一个或多个数字通用光盘(DVD)驱动器)。
NVM/存储设备1408可包括在物理上作为系统1400被安装在其上的设备的一部分的存储资源,或者其可被该设备访问而不必作为该设备的一部分。例如,NVM/存储设备1408可通过网络经由(一个或多个)输入/输出设备1410进行访问。
(一个或多个)输入/输出设备1410可为系统1400提供接口以与任意其他适当的设备通信,输入/输出设备1410可以包括通信组件、音频组件、传感器组件等。网络接口1412可为系统1400提供接口以通过一个或多个网络通信,系统1400可根据一个或多个无线网络标准和/或协议中的任意标准和/或协议来与无线网络的一个或多个组件进行无线通信,例如接入基于通信标准的无线网络,如WiFi、2G、3G、4G、5G等,或它们的组合进行无线通信。
对于一个实施例,(一个或多个)处理器1402中的至少一个可与系统控制模块1404的一个或多个控制器(例如,存储器控制器模块)的逻辑封装在一起。对于一个实施例,(一个或多个)处理器1402中的至少一个可与系统控制模块1404的一个或多个控制器的逻辑封装在一起以形成系统级封装(SiP)。对于一个实施例,(一个或多个)处理器1402中的至少一个可与系统控制模块1404的一个或多个控制器的逻辑集成在同一模具上。对于一个实施例,(一个或多个)处理器1402中的至少一个可与系统控制模块1404的一个或多个控制器的逻辑集成在同一模具上以形成片上系统(SoC)。
在各个实施例中,系统1400可以但不限于是:浏览器、工作站、台式计算设备或移动计算设备(例如,膝上型计算设备、手持计算设备、平板电脑、上网本等)。在各个实施例中,系统1400可具有更多或更少的组件和/或不同的架构。例如,在一些实施例中,系统1400包括一个或多个摄像机、键盘、液晶显示器(LCD)屏幕(包括触屏显示器)、非易失性存储器端口、多个天线、图形芯片、专用集成电路(ASIC)和扬声器。
其中,如果显示器包括触摸面板,显示屏可以被实现为触屏显示器,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。
本申请实施例还提供了一种非易失性可读存储介质,该存储介质中存储有一个或多个模块(programs),该一个或多个模块被应用在终端设备时,可以使得该终端设备执行本申请实施例中各方法步骤的指令(instructions)。
在一个示例中提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如本申请实施例的一个或多个的方法。
在一个示例中还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本申请实施例的一个或多个的方法。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本申请实施例是参照根据本申请实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上对本申请所提供的一种业务对象发布方法和装置、一种实体发布方法和装置、一种电子设备和一种存储介质,进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。
Claims (28)
1.一种实体词识别方法,其特征在于,包括:
获取文本数据;
确定所述文本数据中作为实体开头的第一边界词对应的第一词位置,以及所述文本数据中作为实体结尾的第二边界词对应的第二词位置;
根据所述第一词位置和所述第二词位置,对候选文本片段进行实体词识别;所述候选文本片段包括所述第一边界词、所述文本数据中位于所述第一边界词与所述第二边界词之间的词,以及所述第二边界词。
2.根据权利要求1所述的方法,其特征在于,所述确定所述文本数据中作为实体开头的第一边界词对应的第一词位置,以及所述文本数据中作为实体结尾的第二边界词对应的第二词位置,包括:
获取所述文本数据中的词的特征数据;
根据第一数据集合以及所述特征数据,确定至少一组所述第一词位置以及所述第二词位置。
3.根据权利要求2所述的方法,其特征在于,所述根据所述第一词位置和所述第二词位置,对候选文本片段进行实体词识别,包括:
根据所述至少一组所述第一词位置以及所述第二词位置,确定所述候选文本片段对应的目标特征数据;
根据第二数据集合以及所述目标特征数据,对所述候选文本片段进行实体词识别。
4.根据权利要求3所述的方法,其特征在于,所述获取所述文本数据中的词的特征数据,包括:
根据第三数据集合以及所述文本数据,获取所述文本数据的特征数据。
5.根据权利要求4所述的方法,其特征在于,还包括:
获取样本文本数据、所述样本文本数据中作为实体开头的第三边界词对应的第三词位置,以及所述样本文本数据中作为实体结尾的第四边界词对应的第四词位置;
根据所述样本文本数据、所述第三词位置及所述第四词位置,对待训练的第三数据集合和待训练的第一数据集合进行训练,得到中间第三数据集合和所述第一数据集合;
获取样本文本片段及所述样本文本片段对应的实体标签;
根据所述样本文本片段及所述样本文本片段对应的实体标签,对所述中间第三数据集合和待训练的第二数据集合进行训练,得到所述第三数据集合和所述第二数据集合。
6.根据权利要求3所述的方法,其特征在于,所述获取所述文本数据中的词的特征数据,包括:
根据第四数据集合以及所述文本数据,获取所述文本数据的第四特征数据;
所述根据第一数据集合以及所述特征数据,确定至少一组所述第一词位置以及所述第二词位置,包括:
根据第一数据集合以及所述第四特征数据,确定至少一组所述第一词位置以及所述第二词位置。
7.根据权利要求6所述的方法,其特征在于,所述获取所述文本数据中的词的特征数据,还包括:
根据第五数据集合以及所述文本数据,获取所述文本数据的第五特征数据;
所述根据所述至少一组所述第一词位置以及所述第二词位置,确定所述候选文本片段对应的目标特征数据,包括:
根据所述至少一组所述第一词位置以及所述第二词位置,确定所述候选文本片段对应的目标第五特征数据;
所述根据第二数据集合以及所述目标特征数据,对所述候选文本片段进行实体词识别,包括:
根据第二数据集合以及所述目标第五特征数据,对所述候选文本片段进行实体词识别。
8.根据权利要求7所述的方法,其特征在于,还包括:
获取样本文本数据、所述样本文本数据中作为实体开头的第三边界词对应的第三词位置,以及所述样本文本数据中作为实体结尾的第四边界词对应的第四词位置;
根据所述样本文本数据、所述第三词位置及所述第四词位置,对待训练的第四数据集合和待训练的第一数据集合进行训练,得到所述第四数据集合和所述第一数据集合;
获取样本文本片段及所述样本文本片段对应的实体标签;
根据所述样本文本片段及所述样本文本片段对应的实体标签,对待训练的第五数据集合和待训练的第二数据集合进行训练,得到所述第五数据集合和所述第二数据集合。
9.根据权利要求3所述的方法,其特征在于,所述根据第一数据集合以及所述特征数据,确定至少一组所述第一词位置以及所述第二词位置,包括:
将所述特征数据输入所述第一数据集合,确定所述文本数据中的各词作为实体开头的第一概率和作为实体结尾的第二概率;
将第一概率超过第一阈值的特征数据所在位置,确定为第一词位置,以及将第二概率超过第二阈值的特征数据所在位置,确定为第二词位置。
10.根据权利要求9所述的方法,其特征在于,所述根据第二数据集合以及所述目标特征数据,对所述候选文本片段进行实体词识别,包括:
将所述目标特征数据输入所述第二数据集合,确定所述候选文本片段分别属于每个预设实体类别的第三概率;
根据所述候选文本片段对应的所述第一概率、所述第二概率和所述第三概率,确定所述候选文本片段的目标实体类别。
11.根据权利要求1所述的方法,其特征在于,所述根据所述第一词位置和所述第二词位置,对候选文本片段进行实体词识别之后,还包括:
根据实体词识别得到的识别结果,对医疗文本数据进行校验。
12.根据权利要求1所述的方法,其特征在于,所述根据所述第一词位置和所述第二词位置,对候选文本片段进行实体词识别之后,还包括:
根据实体词识别得到的识别结果,进行诈骗信息识别。
13.根据权利要求1所述的方法,其特征在于,所述根据所述第一词位置和所述第二词位置,对候选文本片段进行实体词识别之后,还包括:
根据实体词识别得到的识别结果,对查询文本数据进行预设处理。
14.一种医疗文本校验方法,其特征在于,包括:
在医疗文本输入界面中,接收目标医疗文本数据;
确定所述目标医疗文本数据中作为实体开头的第一边界词对应的第一词位置,以及所述目标医疗文本数据中作为实体结尾的第二边界词对应的第二词位置;
根据所述第一词位置和所述第二词位置,对候选文本片段进行实体词识别;所述候选文本片段包括所述第一边界词、所述目标医疗文本数据中位于所述第一边界词与所述第二边界词之间的词,以及所述第二边界词;
根据实体词识别得到的识别结果,对所述目标医疗文本数据进行校验;
显示校验结果。
15.根据权利要求14所述的方法,其特征在于,所述根据实体词识别得到的识别结果,对所述目标医疗文本数据进行校验,包括:
根据实体词识别得到的识别结果,对所述目标医疗文本数据中的异常位置添加异常标记;
所述显示校验结果,包括:
在所述目标医疗文本数据中的所述异常位置显示所述异常标记。
16.根据权利要求15所述的方法,其特征在于,还包括:
在所述医疗文本输入界面中,接收对具有异常标记的所述目标医疗文本数据的修改操作。
17.根据权利要求14所述的方法,其特征在于,还包括:
在校验通过后,将所述目标医疗文本数据发送至服务端。
18.一种医疗文本校验方法,应用于客户端,其特征在于,包括:
在医疗文本输入界面中,接收目标医疗文本数据;
将所述目标医疗文本数据发送至服务端,以供所述服务端确定所述目标医疗文本数据中作为实体开头的第一边界词对应的第一词位置,以及所述目标医疗文本数据中作为实体结尾的第二边界词对应的第二词位置,以及根据所述第一词位置和所述第二词位置,对候选文本片段进行实体词识别,以及根据实体词识别得到的识别结果,对所述目标医疗文本数据进行校验;其中,所述候选文本片段包括所述第一边界词、所述目标医疗文本数据中位于所述第一边界词与所述第二边界词之间的词,以及所述第二边界词;
接收服务端返回的校验结果;
显示所述校验结果。
19.根据权利要求18所述的方法,其特征在于,所述校验结果包括:在异常位置添加了异常标记的目标医疗文本数据;
所述显示所述校验结果包括:
显示在异常位置添加了异常标记的所述目标医疗文本数据。
20.根据权利要求19所述的方法,其特征在于,还包括:
在所述医疗文本输入界面中,接收对具有异常标记的所述目标医疗文本数据的修改操作。
21.一种医疗文本校验方法,应用于服务端,其特征在于,包括:
接收客户端发送的目标医疗文本数据;
确定所述目标医疗文本数据中作为实体开头的第一边界词对应的第一词位置,以及所述目标医疗文本数据中作为实体结尾的第二边界词对应的第二词位置;
根据所述第一词位置和所述第二词位置,对候选文本片段进行实体词识别;所述候选文本片段包括所述第一边界词、所述目标医疗文本数据中位于所述第一边界词与所述第二边界词之间的词,以及所述第二边界词;
根据实体词识别得到的识别结果,对所述目标医疗文本数据进行校验;
将校验结果发送至所述客户端。
22.根据权利要求21所述的方法,其特征在于,所述根据实体词识别得到的识别结果,对所述目标医疗文本数据进行校验,包括:
根据实体词识别得到的识别结果,对所述目标医疗文本数据中的异常位置添加异常标记;
所述将校验结果发送至所述客户端,包括:
将在异常位置添加了异常标记的目标医疗文本数据返回给所述客户端。
23.一种实体词识别装置,其特征在于,包括:
第一获取模块,用于获取文本数据;
第一确定模块,用于确定所述文本数据中作为实体开头的第一边界词对应的第一词位置,以及所述文本数据中作为实体结尾的第二边界词对应的第二词位置;
第一实体词识别模块,用于根据所述第一词位置和所述第二词位置,对候选文本片段进行实体词识别;所述候选文本片段包括所述第一边界词、所述文本数据中位于所述第一边界词与所述第二边界词之间的词,以及所述第二边界词。
24.一种医疗文本校验装置,其特征在于,包括:
第一接收模块,用于在医疗文本输入界面中,接收目标医疗文本数据;
第二确定模块,用于确定所述目标医疗文本数据中作为实体开头的第一边界词对应的第一词位置,以及所述目标医疗文本数据中作为实体结尾的第二边界词对应的第二词位置;
第二实体词识别模块,用于根据所述第一词位置和所述第二词位置,对候选文本片段进行实体词识别;所述候选文本片段包括所述第一边界词、所述目标医疗文本数据中位于所述第一边界词与所述第二边界词之间的词,以及所述第二边界词;
第二校验模块,用于根据实体词识别得到的识别结果,对所述目标医疗文本数据进行校验;
第一显示模块,用于显示校验结果。
25.一种医疗文本校验装置,应用于客户端,其特征在于,包括:
第二接收模块,用于在医疗文本输入界面中,接收目标医疗文本数据;
第二发送模块,用于将所述目标医疗文本数据发送至服务端,以供所述服务端确定所述目标医疗文本数据中作为实体开头的第一边界词对应的第一词位置,以及所述目标医疗文本数据中作为实体结尾的第二边界词对应的第二词位置,以及根据所述第一词位置和所述第二词位置,对候选文本片段进行实体词识别,以及根据实体词识别得到的识别结果,对所述目标医疗文本数据进行校验;其中,所述候选文本片段包括所述第一边界词、所述目标医疗文本数据中位于所述第一边界词与所述第二边界词之间的词,以及所述第二边界词;
第三接收模块,用于接收服务端返回的校验结果;
第二显示模块,用于显示所述校验结果。
26.一种医疗文本校验装置,应用于服务端,其特征在于,包括:
第四接收模块,用于接收客户端发送的目标医疗文本数据;
第三确定模块,用于确定所述目标医疗文本数据中作为实体开头的第一边界词对应的第一词位置,以及所述目标医疗文本数据中作为实体结尾的第二边界词对应的第二词位置;
第三实体词识别模块,用于根据所述第一词位置和所述第二词位置,对候选文本片段进行实体词识别;所述候选文本片段包括所述第一边界词、所述目标医疗文本数据中位于所述第一边界词与所述第二边界词之间的词,以及所述第二边界词;
第三校验模块,用于根据实体词识别得到的识别结果,对所述目标医疗文本数据进行校验;
返回模块,用于将校验结果发送至所述客户端。
27.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1-13,或权利要求14-17,或权利要求18-20,或权利要求21-22一个或多个的方法。
28.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-13,或权利要求14-17,或权利要求18-20,或权利要求21-22一个或多个的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911177129.9A CN112861533A (zh) | 2019-11-26 | 2019-11-26 | 实体词识别方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911177129.9A CN112861533A (zh) | 2019-11-26 | 2019-11-26 | 实体词识别方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112861533A true CN112861533A (zh) | 2021-05-28 |
Family
ID=75985060
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911177129.9A Pending CN112861533A (zh) | 2019-11-26 | 2019-11-26 | 实体词识别方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112861533A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113408279A (zh) * | 2021-06-23 | 2021-09-17 | 平安科技(深圳)有限公司 | 序列标注模型的训练方法、装置、设备及存储介质 |
CN113688631A (zh) * | 2021-07-05 | 2021-11-23 | 广州大学 | 一种嵌套命名实体识别方法、系统、计算机和存储介质 |
CN114282538A (zh) * | 2021-11-24 | 2022-04-05 | 重庆邮电大学 | 基于bie位置词列表的中文文本数据字向量表征方法 |
Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150066477A1 (en) * | 2013-09-05 | 2015-03-05 | Shangfeng Hu | System and method for processing natural language |
CN106682397A (zh) * | 2016-12-09 | 2017-05-17 | 江西中科九峰智慧医疗科技有限公司 | 一种基于知识的电子病历质控方法 |
CN106980609A (zh) * | 2017-03-21 | 2017-07-25 | 大连理工大学 | 一种基于词向量表示的条件随机场的命名实体识别方法 |
CN106980624A (zh) * | 2016-01-18 | 2017-07-25 | 阿里巴巴集团控股有限公司 | 一种文本数据的处理方法和装置 |
CN108536679A (zh) * | 2018-04-13 | 2018-09-14 | 腾讯科技(成都)有限公司 | 命名实体识别方法、装置、设备及计算机可读存储介质 |
CN109271631A (zh) * | 2018-09-12 | 2019-01-25 | 广州多益网络股份有限公司 | 分词方法、装置、设备及存储介质 |
CN109359291A (zh) * | 2018-08-28 | 2019-02-19 | 昆明理工大学 | 一种命名实体识别方法 |
CN109871538A (zh) * | 2019-02-18 | 2019-06-11 | 华南理工大学 | 一种中文电子病历命名实体识别方法 |
CN109902303A (zh) * | 2019-03-01 | 2019-06-18 | 腾讯科技(深圳)有限公司 | 一种实体识别方法及相关设备 |
CN110222201A (zh) * | 2019-06-26 | 2019-09-10 | 中国医学科学院医学信息研究所 | 一种专病知识图谱构建方法及装置 |
WO2019200806A1 (zh) * | 2018-04-20 | 2019-10-24 | 平安科技(深圳)有限公司 | 文本分类模型的生成装置、方法及计算机可读存储介质 |
CN110399616A (zh) * | 2019-07-31 | 2019-11-01 | 国信优易数据有限公司 | 命名实体检测方法、装置、电子设备及可读存储介质 |
CN110413981A (zh) * | 2018-04-27 | 2019-11-05 | 阿里巴巴集团控股有限公司 | 电子病历的质检方法、相似病历的提醒方法及装置 |
CN110472237A (zh) * | 2019-07-25 | 2019-11-19 | 中国科学院软件研究所 | 一种基于锚点区域网络的命名实体识别方法和装置 |
-
2019
- 2019-11-26 CN CN201911177129.9A patent/CN112861533A/zh active Pending
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150066477A1 (en) * | 2013-09-05 | 2015-03-05 | Shangfeng Hu | System and method for processing natural language |
CN106980624A (zh) * | 2016-01-18 | 2017-07-25 | 阿里巴巴集团控股有限公司 | 一种文本数据的处理方法和装置 |
CN106682397A (zh) * | 2016-12-09 | 2017-05-17 | 江西中科九峰智慧医疗科技有限公司 | 一种基于知识的电子病历质控方法 |
CN106980609A (zh) * | 2017-03-21 | 2017-07-25 | 大连理工大学 | 一种基于词向量表示的条件随机场的命名实体识别方法 |
CN108536679A (zh) * | 2018-04-13 | 2018-09-14 | 腾讯科技(成都)有限公司 | 命名实体识别方法、装置、设备及计算机可读存储介质 |
WO2019200806A1 (zh) * | 2018-04-20 | 2019-10-24 | 平安科技(深圳)有限公司 | 文本分类模型的生成装置、方法及计算机可读存储介质 |
CN110413981A (zh) * | 2018-04-27 | 2019-11-05 | 阿里巴巴集团控股有限公司 | 电子病历的质检方法、相似病历的提醒方法及装置 |
CN109359291A (zh) * | 2018-08-28 | 2019-02-19 | 昆明理工大学 | 一种命名实体识别方法 |
CN109271631A (zh) * | 2018-09-12 | 2019-01-25 | 广州多益网络股份有限公司 | 分词方法、装置、设备及存储介质 |
CN109871538A (zh) * | 2019-02-18 | 2019-06-11 | 华南理工大学 | 一种中文电子病历命名实体识别方法 |
CN109902303A (zh) * | 2019-03-01 | 2019-06-18 | 腾讯科技(深圳)有限公司 | 一种实体识别方法及相关设备 |
CN110222201A (zh) * | 2019-06-26 | 2019-09-10 | 中国医学科学院医学信息研究所 | 一种专病知识图谱构建方法及装置 |
CN110472237A (zh) * | 2019-07-25 | 2019-11-19 | 中国科学院软件研究所 | 一种基于锚点区域网络的命名实体识别方法和装置 |
CN110399616A (zh) * | 2019-07-31 | 2019-11-01 | 国信优易数据有限公司 | 命名实体检测方法、装置、电子设备及可读存储介质 |
Non-Patent Citations (5)
Title |
---|
XIAOYU CHEN 等: "Named Entity Recognition of Chinese Electronic Medical Records Based on Cascaded Conditional Random Field", IEEE XPLORE, 13 May 2019 (2019-05-13) * |
刘冰洋;伍大勇;刘欣然;程学旗;: "融合全局词语边界特征的中文命名实体识别方法", 中文信息学报, no. 02, 15 March 2017 (2017-03-15) * |
孟伟涛;张蕾;张晓孪;李海军;: "一种基于位置概率模型的中文人名识别方法", 计算机应用与软件, no. 04, 15 April 2008 (2008-04-15) * |
罗彦彦;黄德根;: "基于CRFs边缘概率的中文分词", 中文信息学报, no. 05, 15 September 2009 (2009-09-15) * |
高燕;张维维;张艳红;谢燕萍;苏凝;: "最大熵模型在最长地点实体识别中的应用", 广东石油化工学院学报, no. 04, 15 August 2012 (2012-08-15) * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113408279A (zh) * | 2021-06-23 | 2021-09-17 | 平安科技(深圳)有限公司 | 序列标注模型的训练方法、装置、设备及存储介质 |
CN113408279B (zh) * | 2021-06-23 | 2022-05-20 | 平安科技(深圳)有限公司 | 序列标注模型的训练方法、装置、设备及存储介质 |
CN113688631A (zh) * | 2021-07-05 | 2021-11-23 | 广州大学 | 一种嵌套命名实体识别方法、系统、计算机和存储介质 |
CN113688631B (zh) * | 2021-07-05 | 2023-06-09 | 广州大学 | 一种嵌套命名实体识别方法、系统、计算机和存储介质 |
CN114282538A (zh) * | 2021-11-24 | 2022-04-05 | 重庆邮电大学 | 基于bie位置词列表的中文文本数据字向量表征方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11790171B2 (en) | Computer-implemented natural language understanding of medical reports | |
US11972201B2 (en) | Facilitating auto-completion of electronic forms with hierarchical entity data models | |
US12020805B2 (en) | Systems and methods for integrating communications in a healthcare network | |
CA3137096A1 (en) | Computer-implemented natural language understanding of medical reports | |
CN112861533A (zh) | 实体词识别方法及装置 | |
US20180018311A1 (en) | Method and system for automatically extracting relevant tax terms from forms and instructions | |
US20060020444A1 (en) | Ontology based medical system for data capture and knowledge representation | |
US20220059200A1 (en) | Deep-learning systems and methods for medical report generation and anomaly detection | |
CN111753496B (zh) | 行业类别识别方法、装置、计算机设备及可读存储介质 | |
CN112509661B (zh) | 用于识别体检报告的方法、计算设备和介质 | |
US12032565B2 (en) | Systems and methods for advanced query generation | |
US20220375605A1 (en) | Methods of automatically generating formatted annotations of doctor-patient conversations | |
KR20230058227A (ko) | 선행 콘텐츠 추적 시스템 | |
CN113221762A (zh) | 代价平衡决策方法、保险理赔决策方法、装置和设备 | |
CN117350291A (zh) | 一种电子病历命名实体识别方法、装置、设备及存储介质 | |
CN111639903A (zh) | 一种针对架构变更的评审处理方法及相关设备 | |
Chalkiadakis et al. | Hybrid ARDL-MIDAS-Transformer time-series regressions for multi-topic crypto market sentiment driven by price and technology factors | |
CN113886538B (zh) | 医保报销信息查询方法、装置、电子设备和存储介质 | |
TWI825467B (zh) | 資料分析系統及資料分析方法 | |
US11842165B2 (en) | Context-based image tag translation | |
US11574365B2 (en) | Token-based pre-approval systems and methods for payment request submissions | |
CN113326698A (zh) | 检测实体关系的方法、模型训练方法及电子设备 | |
Francis et al. | SmarTxT: A Natural Language Processing Approach for Efficient Vehicle Defect Investigation | |
CN114912452A (zh) | 一种实体识别、信息抽取的方法和装置 | |
CN113688854A (zh) | 数据处理方法、装置及计算设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |