CN113704481A - 一种文本处理方法、装置、设备及存储介质 - Google Patents
一种文本处理方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN113704481A CN113704481A CN202110267571.1A CN202110267571A CN113704481A CN 113704481 A CN113704481 A CN 113704481A CN 202110267571 A CN202110267571 A CN 202110267571A CN 113704481 A CN113704481 A CN 113704481A
- Authority
- CN
- China
- Prior art keywords
- character
- target
- text
- entity word
- processed
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 29
- 238000012545 processing Methods 0.000 claims abstract description 101
- 238000000605 extraction Methods 0.000 claims abstract description 41
- 239000013598 vector Substances 0.000 claims description 363
- 238000000034 method Methods 0.000 claims description 60
- 230000011218 segmentation Effects 0.000 claims description 32
- 238000004590 computer program Methods 0.000 claims description 18
- 239000007787 solid Substances 0.000 claims description 10
- 230000010365 information processing Effects 0.000 claims 2
- 230000006870 function Effects 0.000 description 36
- 201000010099 disease Diseases 0.000 description 29
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 29
- 230000008569 process Effects 0.000 description 29
- 241000193990 Streptococcus sp. 'group B' Species 0.000 description 21
- 239000013604 expression vector Substances 0.000 description 20
- 206010035664 Pneumonia Diseases 0.000 description 16
- 239000011159 matrix material Substances 0.000 description 16
- 238000012549 training Methods 0.000 description 15
- 238000013473 artificial intelligence Methods 0.000 description 13
- 239000003814 drug Substances 0.000 description 13
- 238000005516 engineering process Methods 0.000 description 13
- 238000004458 analytical method Methods 0.000 description 10
- 229940079593 drug Drugs 0.000 description 10
- 238000010586 diagram Methods 0.000 description 9
- 238000013519 translation Methods 0.000 description 9
- 230000004913 activation Effects 0.000 description 8
- 238000003745 diagnosis Methods 0.000 description 8
- 238000004891 communication Methods 0.000 description 7
- 208000024891 symptom Diseases 0.000 description 7
- 206010037660 Pyrexia Diseases 0.000 description 6
- 238000010801 machine learning Methods 0.000 description 6
- 238000003058 natural language processing Methods 0.000 description 6
- 238000011160 research Methods 0.000 description 6
- 206010053584 Neonatal pneumonia Diseases 0.000 description 5
- 239000000284 extract Substances 0.000 description 5
- 230000001717 pathogenic effect Effects 0.000 description 5
- 241000894006 Bacteria Species 0.000 description 4
- 241000282414 Homo sapiens Species 0.000 description 3
- 206010061218 Inflammation Diseases 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 230000004054 inflammatory process Effects 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 201000009240 nasopharyngitis Diseases 0.000 description 3
- 244000052769 pathogen Species 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 241000194017 Streptococcus Species 0.000 description 2
- 210000003484 anatomy Anatomy 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 239000003795 chemical substances by application Substances 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000002651 drug therapy Methods 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 201000008482 osteoarthritis Diseases 0.000 description 2
- BALXUFOVQVENIU-KXNXZCPBSA-N pseudoephedrine hydrochloride Chemical compound [H+].[Cl-].CN[C@@H](C)[C@@H](O)C1=CC=CC=C1 BALXUFOVQVENIU-KXNXZCPBSA-N 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 241000393496 Electra Species 0.000 description 1
- 241000282412 Homo Species 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000009395 breeding Methods 0.000 description 1
- 230000001488 breeding effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 210000001072 colon Anatomy 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 231100000676 disease causative agent Toxicity 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 210000004072 lung Anatomy 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
- G16H10/60—ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Artificial Intelligence (AREA)
- Animal Behavior & Ethology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Epidemiology (AREA)
- Medical Informatics (AREA)
- Primary Health Care (AREA)
- Public Health (AREA)
- Machine Translation (AREA)
Abstract
本申请实施例公开了一种文本处理方法、装置、设备及存储介质,该文本处理方法包括:获取待处理文本对应的实体词集,并从实体词集包括的一个或多个实体词中,选取任一实体词作为目标实体词;获取与目标实体词相关的一个或多个预测关系;采用每个预测关系分别联合目标实体词,从待处理文本中确定出目标实体词在不同预测关系下的关联实体词;其中,目标实体词在一个预测关系下对应一个关联实体词。采用本申请实施例,可以采用预测关系和目标实体词联合确定出目标实体词在预测关系下的关联实体词,有效提升实体关系抽取的准确率。
Description
技术领域
本申请涉及计算机技术领域,尤其涉及人工智能技术领域,具体涉及一种文本处理方法、一种文本处理装置、一种文本处理设备以及一种计算机可读存储介质。
背景技术
实体关系抽取(Entity Relation Extraction,ERE)又可称为三元组抽取,是一种从非结构化的文本中抽取出结构化的三元组的技术;结构化的三元组一般包括两个实体词以及两个实体词之间的关系。其中,实体词为文本中具有特定意义的专有名词,例如疾病名称、手术名称、药物名称、解剖部位等;关系则是实体词之间的相互作用、相互影响的状态,例如实体词“新生儿肺炎”和实体词“B组链球菌”之间的关系是“病因”,即“新生儿肺炎”的病因是“B组链球菌”。
实体关系抽取的核心工作是对实体词以及实体词之间的关系进行抽取。目前存在的一种实体关系抽取方案为级联抽取方案,级联抽取方案对实体词和实体词之间的关系分别进行抽取,先抽取实体词,再对实体词之间的关系进行抽取。在采用级联抽取方案进行实体关系抽取的过程中,存在误差传递的问题,实体词抽取错误将导致实体词之间关系的抽取也出现错误。由此可见,现有的实体关系抽取方案不能较为准确地进行实体关系抽取,因此如何较为准确地进行实体关系抽取成为当前研究的热点话题。
发明内容
本申请实施例提供了一种文本处理方法、装置、设备及存储介质,可以采用预测关系和目标实体词联合确定出目标实体词在预测关系下的关联实体词,有效提升实体关系抽取的准确率。
一方面,本申请实施例提供一种文本处理方法,该文本处理方法包括:
获取待处理文本对应的实体词集,并从实体词集包括的一个或多个实体词中,选取任一实体词作为目标实体词;
获取与目标实体词相关的一个或多个预测关系;
采用每个预测关系分别联合目标实体词,从待处理文本中确定出目标实体词在不同预测关系下的关联实体词;其中,目标实体词在一个预测关系下对应一个关联实体词。
另一方面,本申请实施例提供一种文本处理装置,该文本处理装置包括:
获取单元,用于获取待处理文本对应的实体词集,并从实体词集包括的一个或多个实体词中,选取任一实体词作为目标实体词;
获取单元,还用于获取与目标实体词相关的一个或多个预测关系;
处理单元,用于采用每个预测关系分别联合目标实体词,从待处理文本中确定出目标实体词在不同预测关系下的关联实体词;其中,目标实体词在一个预测关系下对应一个关联实体词。
在一种实现方式中,待处理文本包括一个或多个字符;获取单元,用于获取待处理文本对应的实体词集时,具体用于执行如下步骤:
获取待处理文本包括的每个字符的特征向量;
根据每个字符的特征向量,确定为每个字符添加的位置标签,并根据位置标签确定相应字符所在位置是否为一个实体词的开始位置,以及确定相应字符所在位置是否为一个实体词的结束位置;
根据确定出的开始位置和结束位置,从待处理文本中确定出一个或多个开始字符,并从待处理文本中确定出一个或多个结束字符;
根据确定出的开始字符和结束字符,确定待处理文本对应的实体词集。
在一种实现方式中,获取单元,用于根据每个字符的特征向量,确定为每个字符添加的位置标签时,具体用于执行如下步骤:
根据每个字符的特征向量,确定对应字符所在位置为一个实体词的开始位置的第一概率,以及确定对应字符所在位置为一个实体词的结束位置的第二概率;
根据待处理文本中每个字符对应的第一概率和第二概率,确定为每个字符添加的位置标签。
在一种实现方式中,待处理文本包括目标字符,为目标字符添加的位置标签包括开始位置标签和结束位置标签;获取单元,用于根据目标字符对应的第一概率和第二概率,确定为目标添加的位置标签时,具体用于执行如下步骤:
若目标字符对应的第一概率大于第一阈值,则为目标字符添加开始位置标签;
或者,若目标字符对应的第二概率大于第二阈值,则为目标字符添加结束位置标签。
在一种实现方式中,确定出的开始字符的数量为至少一个,且确定出的结束字符的数量为至少一个;获取单元,用于根据确定出的开始字符和结束字符,确定待处理文本对应的实体词集中的一个实体词时,具体用于执行如下步骤:
选取任一开始字符,并根据任一开始字符在待处理文本中的位置向后遍历,得到显示在任一开始字符后的第一个结束字符;
将由任一开始字符和任一开始字符后的第一个结束字符所组成的词语,作为一个实体词。
在一种实现方式中,获取单元,用于获取待处理文本包括的每个字符的特征向量时,具体用于执行如下步骤:
采用特征提取模型对待处理文本中的每个字符进行特征提取,得到每个字符的第一特征向量;
根据待处理文本中每个字符的字符语义,以及不同字符的字符语义之间的关联关系,构建每个字符的第二特征向量;
将每个字符的第一特征向量和第二特征向量进行拼接后得到的向量,作为每个字符的特征向量。
在一种实现方式中,待处理文本包括目标字符,获取单元,用于确定目标字符的第二特征向量时,具体用于执行如下步骤:
获取与待处理文本的文本语义所描述的领域匹配的分词词典,并根据分词词典确定目标字符的一个或多个参考分词,其中,每个参考分词均包括目标字符,每个参考分词均被记录在分词词典中;
获取每个参考分词对应的词向量,并根据每个参考分词对应的词向量,确定每个参考分词的重要性分数;
根据每个参考分词的重要性分数,对相应参考分词对应的词向量进行加权求和,并将加权求和后的向量表示作为目标字符的第二特征向量。
在一种实现方式中,待处理文本包括一个或多个字符,每个字符对应一个特征向量;目标预测关系是与目标实体词相关的任一个预测关系;处理单元,用于采用每个预测关系,分别联合目标实体词从待处理文本中确定出目标实体词在不同预测关系下的关联实体词时,具体用于执行如下步骤:
获取目标预测关系对应的表示向量,并根据表示向量,目标实体词的开始字符的特征向量,以及目标实体词的结束字符的特征向量,构建预测向量;
采用预测向量对预测参数进行更新,并根据更新后的预测参数,调整待处理文本中每个字符的特征向量,得到每个字符的新的特征向量;
根据每个字符的新的特征向量,以及目标预测关系,确定目标实体词在目标预测关系下的关联实体词。
在一种实现方式中,获取单元,还用于执行如下步骤:
获取目标实体词的类别,以及实体词集中除目标实体词之外的其他实体词的类别;
从其他实体词中,获取与目标实体词的类别为关联类别的参考实体词,并将参考实体词作为目标实体词的关联实体词。
另一方面,本申请实施例提供一种文本处理设备,该文本处理设备包括:
处理器,适于实现计算机程序;
以及,计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序适于由处理器加载并执行上述的文本处理方法。
另一方面,本申请实施例提供一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序被计算机设备的处理器读取并执行时,使得计算机设备执行上述的文本处理方法。
另一方面,本申请实施例提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述的文本处理方法。
本申请实施例中,待处理文本对应的实体词集中包括一个或多个实体词,选取实体词集中的任一实体词作为目标实体词;目标实体词与一个或多个预测关系相关;可以采用每个预测关系分别联合目标实体词,从待处理文本中确定出目标实体词在不同预测关系下的关联实体词。由此可见,本申请实施中引入与目标实体词相关的预测关系,能够对目标头实体与关联实体词之间的关系进行合理表征;采用目标实体词与一个预测关系联合预测目标实体词在该预测关系下的关联实体词,能够有效提升实体关系抽取的准确率。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种文本处理方案的流程示意图;
图2是本申请实施例提供的一种文本处理方法的流程示意图;
图3是本申请实施例提供的一种文本处理模型的结构示意图;
图4是本申请实施例提供的一种词汇增强层的结构示意图;
图5是本申请实施例提供的另一种文本处理方法的流程示意图;
图6是本申请实施例提供的另一种文本处理方法的流程示意图;
图7是本申请实施例提供的另一种文本处理方法的流程示意图;
图8是本申请实施例提供的一种文本处理装置的结构示意图;
图9是本申请实施例提供的一种文本处理设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例涉及实体关系抽取。实体关系抽取又可称为三元组抽取,是一种从非结构化的文本中抽取出结构化的三元组的技术。其中,非结构化的文本是指完全没有结构信息的自由文本;结构化的三元组一般可以包括:两个实体词以及两个实体词之间的关系,结构化的三元组可以表示为[“实体词1”,“实体词1与实体词2之间的关系”,“实体词2”]。实体词为文本中具有特定意义的专有名词,例如疾病名称、手术名称、药物名称、解剖部位等;关系则是实体词之间的相互作用、相互影响的状态。举例来说,非结构化的文本为“B组链球菌(GBS)是新生儿肺炎的主要病原”,从非结构化的文本中抽取得到的结构化的三元组为[“新生儿肺炎”,“病因”,“B组链球菌”],抽取到的两个实体词分别为“新生儿肺炎”和“B组链球菌”,两个实体词之间的关系为“病因”,也就是说“新生儿肺炎”的病因是“B组链球菌”。
本申请实施例还涉及人工智能的自然语言处理、机器学习等技术,其中:
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。其中,自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术;机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
本申请实施例提供一种基于实体关系抽取的文本处理方案,该文本处理方案可以参见图1所示的流程示意图,图1是本申请实施例提供的一种文本处理方案的流程示意图;如图1所示,该文本处理方案可以将待处理文本输入至实体词集预测模块中,由实体词集预测模块对待处理文本包括的每个字符进行处理,从待处理文本中确定出包括一个或多个实体词的实体词集;并将实体词集输入至关联实体词预测模块中。然后,关联实体词预测模块从实体词集中选取任一个实体词作为目标实体词,针对实体词与实体词之间的关系相互影响的特点,关联实体词预测模块引入与目标实体词相关的一个或多个预测关系,将预测关系作为关联实体词预测的先验知识,一个预测关系可以用于表征目标实体词与待预测的一个关联实体词之间的关系;从而关联实体词预测模块可以采用每个预测关系分别联合目标实体词,从待处理文本中确定出目标实体词在不同预测关系下的关联实体词,目标实体词在一个预测关系下对应一个关联实体词,有效提升实体关系抽取的准确率。
本申请实施例提供的文本处理方案可以应用于医疗领域中,采用本申请实施例提供的文本处理方案,可以准确地从医疗领域的医疗文本中抽取出一个或多个三元组,实现医疗文本的结构化。随着人工智能技术的发展和公众医疗需求的不断增长,将人工智能技术应用到医疗领域已经是行业应用的热门话题。常见的医疗文本(例如电子病历、生物医疗文献等等)中存在大量的非结构化文本,对医疗文本进行结构化,将关键信息自动抽取出来,可以极大节约医务工作者阅读电子病历和生物医疗文献等的时间,提升诊疗和科研的效率。同时,可以利用结构化的信息构建医疗知识图谱,有利于人工智能更好地学到医疗领域内的专业知识,提升导诊、辅诊、疾病预测等下游医疗任务的性能。表1示出了有一个示例性的文本处理方案在医疗领域的应用:
表1
如上述表1所示,可以从第一个待处理的医疗文本中抽取得到两个三元组,可以从第二个待处理的医疗文本中抽取得到两个三元组,可以从第三个待处理文本中抽取得到三个三元组,从而实现医疗文本的结构化。
举例来说,待处理的医疗文本可以是某病人的电子病历,智能设备(例如医生看诊时使用的电脑、或者医院所使用的服务器)通过执行本申请实施例提供的文本处理方案,可以从某病人的电子病历中抽取出一个或多个三元组,从而将电子病历结构化,有效节省电子病历的存储空间;当医生再次调取某病人的电子病历时,医生查阅到的是从电子病历中抽取到的结构化的三元组,可以有效减少医生阅读电子病历的时间。
从电子病历中抽取到的三元组可存储于医院的数据库中,可以采用数据库中的三元组训练辅助诊疗模型;例如,对于目标实体词“感冒”在预测关系“药物治疗”下可能存在多个关联实体词“感冒药1”、“感冒药2”、“感冒药3”等等,对于“发烧”在预测关系“药物治疗”下可能存在多个关联实体词“发烧药1”、“发烧药2”等等;可以将[“疾病名称”,“药物治疗”,“治疗疾病的药物”]这一类型的三元组作为辅助诊疗模型的训练数据对辅助诊疗模型进行训练,使得训练好的辅助诊疗模型可以在输入一种疾病名称并选择“药物治疗”这一预测关系后,输出一种或多种治疗疾病的药物,实现辅助诊疗的功能。
还可以采用数据库中的三元组训练疾病预测模型;例如,对于目标实体词“感冒”在预测关系“症状”下可能存在多个关联实体词“感冒症状1”、“感冒症状2”、“感冒症状3”等等,对于“发烧”在预测关系“症状”下可能存在多个关联实体词“发烧症状1”、“发烧症状2”等等;可以将[“疾病名称”,“疾病症状”,“疾病实际症状”]这一类型的三元组作为疾病预测模型的训练数据对疾病预测模型进行训练,使得训练好的疾病预测模型可以在输入一种或多种疾病实际症状并选择“疾病症状”这一预测关系后,输出可能患有的疾病名称,从而实现疾病预测的功能。
基于上述描述,请参见图2,图2是本申请实施例提供的一种文本处理方法的流程示意图,该文本处理方法可以由智能设备执行,智能设备可以包括终端或服务器;终端可以包括智能手机、平板电脑、笔记本电脑、车载设备、台式计算机、智能音箱、智能手表、智能可穿戴设备等;服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云计算服务的云服务器;该文本处理方法可以包括以下步骤S201至步骤S203:
S201,获取待处理文本对应的实体词集。
待处理文本可以包括一个或多个字符,可以获取待处理文本包括的每个字符的特征向量,并根据每个字符的特征向量,确定为每个字符添加的位置标签;其中,位置标签可以包括开始位置标签和结束位置标签。然后,可以根据位置标签确定相应字符所在位置是否为一个实体词的开始位置,以及确定相应字符所在位置是否为一个实体词的结束位置;若一个字符的位置标签为开始位置标签,则该字符在待处理文本中的所在位置为一个实体词的开始位置;若一个字符的位置标签为结束位置标签,则该字符在待处理文本中的所在位置为一个实体词的结束位置。进一步地,可以根据确定出的开始位置和结束位置,从待处理文本中确定出一个或多个开始字符,并从待处理文本中确定出一个或多个结束字符;若一个字符在待处理文本中的所在位置为一个实体词的开始位置,则可以确定该字符为待处理文本中的一个实体词的开始字符;若一个字符在待处理文本中的所在位置为一个实体词的结束位置,则可以确定该字符为待处理文本中的一个实体词的结束字符。最后,可以根据确定出的开始字符和结束字符,确定待处理文本对应的实体词集;实体词集可以包括一个或多个实体词,目标实体词是实体词集中的任一个实体词。
S202,获取与目标实体词相关的一个或多个预测关系。
由于实体词之间的关系与实体词之间具有明显的关联规则,因此可以获取与目标实体词相关的一个或多个预测关系。在一种实现方式中,目标实体词与预测关系相关可以是指:目标实体词所属的领域与预测关系所属的领域相同;例如,目标实体词为“B组链球菌”,目标实体词所属的领域可以是医疗领域或生物领域,那么获取与目标实体词相关的一个或多个预测关系是指获取医学领域或生物领域的一个或多个预测关系,例如,获取的属于医疗领域的一个预测关系为“病原”,获取的属于生物领域的一个预测关系为“繁殖于”。在另一种实现方式中,可以对待处理文本进行语义分析,并根据待处理文本的语义分析结果确定与目标实体词相关的一个或多个预测关系,语义分析结果包括关系指示信息,即获取与关系指示信息所指示的关系相同或相近的预测关系;例如,关系指示信息指示待处理文本中存在的关系为“并发症”,则确定的与目标实体词相关的预测关系为“并发症”;关系指示信息指示待处理文本中存在的关系为“病原”,则确定的与目标实体词相关的预测关系为“病原”、“病因”或“导致”等等。获取与目标实体词相关的预测关系,无需对与目标实体词无关的预测关系进行处理,可以提升文本处理效率。
S203,采用每个预测关系分别联合目标实体词,从待处理文本中确定出目标实体词在不同预测关系下的关联实体词。
目标实体词与一个或多个预测关系相关,可以从一个或多个预测关系中选择任一个预测关系作为目标预测关系,从而可以采用目标预测关系联合目标实体词,从待处理文本中确定出目标实体词在目标预测关系下的关联实体词;对于一个或多个预测关系中除目标预测关系之外的其他预测关系,处理情况与目标预测关系类似。采用目标预测关系联合目标实体词,从待处理文本中确定出目标实体词在目标预测关系下的关联实体词可以包括:获取目标预测关系对应的表示向量,并根据表示向量,目标实体词的开始字符的特征向量,以及目标实体词的结束字符的特征向量,构建预测向量;进一步地,可以采用预测向量对预测参数进行更新,并根据更新后的预测参数,调整待处理文本中每个字符的特征向量,得到每个字符的新的特征向量;从而可以根据每个字符的新的特征向量,以及目标预测关系,确定目标实体词在目标预测关系下的关联实体词。
本申请实施例中步骤S201至步骤S203可以由智能设备中部署的文本处理模型执行,图3是本申请实施例提供的一种文本处理模型的结构示意图,该文本处理模型包括输入编码层301、词汇增强层302、实体词集解码层303以及关联实体词解码层304共四层;该文本处理模型可以部署于智能设备中,使得智能设备可以实现本申请实施例提供的文本处理方案。具体地,本申请实施例中步骤S201可以由文本处理模型中的输入编码层301、词汇增强层302以及实体词集解码层303协作执行,步骤S202和步骤S203可以由文本处理模型中的关联实体词解码层304执行,具体如下①至④:
①输入编码层301
待处理文本包括一个或多个字符,如图3所示,待处理文本为“B组链球菌(GBS)是新生儿肺炎的主要病原。”待处理文本中共包括22个字符。输入编码层用于采用特征提取模型对待处理文本中的每个字符进行特征提取,得到每个字符的第一特征向量,每个字符的第一特征向量是相应字符所蕴含的上下文信息的向量表示。例如,待处理文本包括目标字符,目标字符是待处理文本中的任一个字符,目标字符的第一特征向量是目标字符所蕴含的上下文信息的向量表示;目标字符的上下文信息可以包括但不限于以下至少一种:待处理文本中位于目标字符之前的字符的信息(例如位于目标字符之前的一个字符的字符语义、位于目标字符之前的两个字符中每个字符的字符语义等等)、待处理文本中位于目标字符之后的字符的信息(例如位于目标字符之后的一个字符的字符语义、位于目标字符之后的两个字符中每个字符的字符语义等等)、目标字符与位于目标字符之前的字符之间的关联信息(例如目标字符的字符语义与位于目标字符之前的字符的字符语义之间的关联关系)、目标字符与位于目标字符之后的字符之间的关联信息(例如目标字符的字符语义与位于目标字符之后的字符的字符语义之间的关联关系)等等。
特征提取模型可以但不限于以下任一种:BERT(Bidirectional EncoderRepresentations From Transformers,一种预训练语言模型)、RoBERTa(一种预训练语言模型)、ELECTRA(一种预训练语言模型)、XLNET(一种预训练语言模型)等等。在训练阶段,特征提取模型采用大量语料进行自编码预训练,学习得到的字符的上下文信息的向量表示可以有效提升文本处理模型的模型训练性能。
②词汇增强层302
由于中文分词通常采用字符级别的分词策略,即大多数中文预训练模型采用字符作为基本单位进行分词处理,忽略词汇整体的语义信息,这样往往会带来较为严重的误差传递,在预测的时候容易出现边界错误,导致预测得到的实体词出现边界错误;例如预测正确的实体词是“新生儿肺炎”,预测错误的实体词是“新生儿肺”或“生儿肺炎”。因此本申请实施例引入词汇增强层,词汇能够有效解决预测过程中的边界错误问题。
词汇增强层用于在分词词典中确定与待处理文本中的每个字符匹配的一个或多个参考分词,并根据与每个字符匹配的一个或多个参考分词中的每个参考分词的词向量,确定出相应字符的第二特征向量;相应字符的第二特征向量可以聚合该字符所匹配的所有参考分词的语义特征。例如,待处理文本包括目标字符,目标字符是待处理文本中的任一个字符,可以在分词词典中确定与目标字符匹配的一个或多个参考分词,并根据与目标字符匹配的一个或多个参考分词中的每个参考分词的词向量,确定出目标字符的第二特征向量;基于词汇增强层的注意力机制(即关注字符匹配的一个或多个参考分词),目标字符的第二特征向量可以聚合目标字符所匹配的所有参考分词的语义特征。
图4是本申请实施例提供的一种词汇增强层的结构示意图,如图4所示,与待处理文本中的字符“新”匹配的参考分词为两个,分别是“新生儿”和“新生儿肺炎”,则字符“新”的第二特征向量聚合“新生儿”和“新生儿肺炎”两个参考分词的语义特征;与待处理文本中的字符“链”匹配的参考分词为两个,分别是“链球菌”和“B组链球菌”,则字符“链”的第二特征向量聚合“链球菌”和“B组链球菌”两个参考分词的语义特征。
其中,分词词典是与待处理文本的文本语义所描述的领域匹配的;例如,待处理文本的文本语义所描述的领域是医疗领域,则分词词典可以是医疗领域的医疗词典;待处理文本的文本语义所描述的领域是通信领域,则分词词典可以是通信领域的通信词典。另外,在词汇增强层的训练阶段,采用skip-gram模型(一种产生词向量的相关模型)确定参考分词的词向量,skip-gram是以一种基于文本的局部窗口训练词向量的方法;在词汇增强层的训练阶段对skip-gram模型进行训练,训练得到的skip-gram模型可以对参考分词进行语义分析,用词向量的方式表征参考分词的语义信息。
③实体词集解码层303
实体词集解码层用于根据输入编码层处理得到的每个字符的第一特征向量,以及词汇增强层处理得到的每个字符的第二特征向量,确定每个字符的特征向量。在一种实现方式中,待处理文本包括目标字符,目标字符是待处理文本中的任一个字符,可以将目标字符的第一特征向量作为目标字符的特征向量。在另一种实现方式中,可以将目标字符的第一特征向量和目标字符的第二特征向量拼接后得到的向量,作为目标字符的特征向量。
进一步地,实体词集解码层用于根据每个字符的特征向量,确定为每个字符添加的位置标签,位置标签可以包括开始位置标签(例如图3中的开始位置标签“1”)和结束位置标签(例如图3中的“1”)。若一个字符的位置标签为开始位置标签,则该字符所在的位置为一个实体词的开始位置,该字符为可以作为一个实体词的开始字符;若一个字符的位置标签为结束位置标签,则该字符所在的位置为一个实体词的结束位置,该字符为可以作为一个实体词的结束字符。从待处理文本包括的一个或多个字符中,确定出的开始字符的数量为至少一个,且确定出的结束字符的数量为至少一个。如图3所示,确定出的开始字符为字符“B”和字符“新”,确定出的结束字符为字符“菌”和字符“炎”。
然后,实体词集解码层用于从确定出的至少一个开始字符中选取任一开始字符,并根据任一开始字符在待处理文本中的位置向后遍历,得到显示在任一开始字符后的第一个结束字符,并将由任一开始字符和任一开始字符后的第一个结束字符所组成的词语,作为一个实体词,从而可以确定出待处理文本对应的实体词集。如图3所示,选中开始字符“B”,根据开始字符“B”在待处理文本中的位置向后遍历,得到显示在开始字符“B”后的第一个结束字符“菌”,则确定得到一个实体词“B组链球菌”;选中开始字符“新”,根据开始字符“新”在待处理文本中的位置向后遍历,得到显示在开始字符“新”后的第一个结束字符“炎”,则确定得到一个实体词“新生儿肺炎”,即从图3所示的待处理文本中确定得到的实体词集包括两个实体词,一个是“B组链球菌”,另一个是“新生儿肺炎。”
④关联实体词解码层304
关联实体词解码层用于从实体词集中选取任一个实体词作为目标实体词;如图1所示,关联实体词解码层选取的目标实体词为“新生儿肺炎”。
进一步地,关联实体词解码层用于确定与目标实体词相关的一个或多个预测关系,并获取每个预测关系对应的表示向量。需要说明的是,在关联实体解码层的训练阶段,需要将每个预测关系的表示向量进行随机初始化,与关联实体解码层共同进行训练,训练得到的表示向量存储于一个表示向量词典中;例如表示向量词典中包括表示向量列表,表示向量列表包括一个或多个预测关系,以及每个预测关系对应的表示向量;因此,在关联实体词解码层的预测阶段,确定预测关系后,可直接从表示向量列表中获取预测关系对应的表示向量。
然后,关联实体词解码层用于从一个或多个预测关系中选取任一个预测关系作为目标预测关系,并根据目标预测关系的表示向量、参考向量构建预测向量;其中,参考向量包括目标实体词的开始字符的特征向量,以及目标实体词的结束字符的特征向量。关联实体词解码层还用于采用预测向量对预测参数进行更新,并根据更新后的预测参数,调整待处理文本中每个字符的特征向量,得到每个字符的新的特征向量。
进一步地,关联实体词解码层用于根据每个字符的新的特征向量,以及目标预测关系,确定目标实体词在目标预测关系下的关联实体词。如图3所示,在待处理文本中,目标实体词“新生儿肺炎”,在预测关系“病因”下的关联实体词为“B组链球菌”。需要说明的是,根据每个字符的新的特征向量,以及目标预测关系,确定目标实体词在目标预测关系下的关联实体词的执行过程,与根据每个字符的特征向量确定实体词集中的一个实体词的执行过程类似,可参见根据每个字符的特征向量确定实体词集合中的一个实体词的执行过程。
需要说明的是,实体词集中的每个实体词对应一个关联实体词解码层,以实体词集中的目标实体词为例,目标实体词对应一个关联实体词解码层,并在目标实体词对应的关联实体词解码层中采用每个预测关系分别联合目标实体词,从待处理文本中确定出目标实体词在不同预测关系下的关联实体词。另外,对于同一待处理文本,实体词集解码层和关联实体词解码层共用待处理文本中的每个字符的特征向量;实体词集解码层根据每个字符的特征向量在待处理文本中确定出包括一个或多个实体词的实体词集;关联实体词解码层对待处理文本中的每个字符的特征向量进行调整,得到每个字符的新的特征向量,并根据每个字符的新的特征向量,在待处理文本中确定出目标实体词在不同预测关系下的关联实体词。
文本处理模型中输入编码层301、词汇增强层302、实体词集解码层303共同组成上述图1所示实施例中的实体词集预测模块;图1所示实施例中的关联实体词预测模块包括文本处理模型的关联实体词解码层304。
由此可见,文本处理模型中的输入编码层301可以用于获取待处理文本中的每个字符的第一特征向量,待处理文本中的目标字符的第一特征向量是目标字符所蕴含的上下文信息的向量表示;文本处理模型中的词汇增强层302可以用于获取待处理文本中的每个字符所匹配的所有参考分词的语义特征;文本处理模型中的实体词集解码层303可以用于根据待处理文本中的每个字符的特征向量,在待处理文本中确定包括一个或多个实体词的实体词集。文本处理模型中的关联实体词解码层304可以用于采用目标预测关系,联合实体词集中的目标实体词,在待处理文本中确定出目标实体词在目标预测关系下的关联实体词。通过文本处理模型中四个层之间的相互配合,可以从非结构化的待处理文本中抽取出一个或多个结构化的三元组。
本申请实施例中,待处理文本对应的实体词集中包括一个或多个实体词,选取实体词集中的任一实体词作为目标实体词;可以采用与目标实体词相关的目标预测关系联合目标实体词,从待处理文本中确定出目标实体词在目标预测关系下的关联实体词。由此可见,本申请实施中引入与目标实体词相关的目标预测关系,能够对目标头实体与关联实体词之间的关系进行合理表征;采用目标实体词与目标预测关系联合预测目标实体词在目标预测关系下的关联实体词,能够有效提升实体关系抽取的准确率。另外,获取与目标实体词相关的预测关系,无需对与目标实体词无关的预测关系进行处理,可以提升文本处理效率。
基于上述描述,请参见图5,图5是本申请实施例提供的另一种文本处理方法的流程示意图,该文本处理方法可以由智能设备执行,智能设备可以包括终端或服务器;终端可以包括智能手机、平板电脑、笔记本电脑、车载设备、台式计算机、智能音箱、智能手表、智能可穿戴设备等;服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云计算服务的云服务器;该文本处理方法可以包括以下步骤S501至步骤S506:
S501,获取待处理文本包括的每个字符的特征向量。
待处理文本可以包括n个字符,可以采用X=[x1,x2,...,xi,...,xn]表示待处理文本,其中,xi表示待处理文本中的第i个字符,例如x1表示待处理文本中的第1个字符,xn表示待处理文本中的第n个字符,n为正整数,i为小于或等于n的正整数。
在一种实现方式中,xi的特征向量可以包括xi的第一特征向量。获取xi的特征向量的过程可以包括以下①至③:①将xi转化为xi的实数向量,xi的实数向量可以包括以下至少一种:xi的词向量、xi的位置向量以及xi的分割向量等等,xi的词向量可以用于表征xi的语义信息,xi的位置向量可以用于指示xi在待处理文本中的所在位置,xi的分割向量可以用于指示在待处理文本是否被分割,即待处理文本中是否存在分割符号(例如逗号、冒号、分号、引号等等)。②根据xi的实数向量计算xi的综合向量,xi的综合向量可以是根据xi的实数向量计算得到的,例如xi的综合向量等于xi的词向量、xi的位置向量以及xi的分割向量之和。③采用特征提取模型(例如BERT)对xi的实数向量进行特征提取,得到xi的第一特征向量,并将xi的第一特征向量作为xi的特征向量,可以用h′i表示xi的第一特征向量,用hi表示xi的特征向量,xi的第一特征向量h′i是xi所蕴含的上下文信息的向量表示。按照xi的第一特征向量h′i的获取方式,可以获取到待处理文本X=[x1,x2,...,xi,...,xn]中的每个字符的第一特征向量,从而可以得到待处理文本的第一特征矩阵H′=[h′1,h′2,...,h′i,...,h′n],第一特征矩阵H′中包括待处理文本中的每个字符的第一特征向量。在每个字符的特征向量包括相应字符的第一特征向量的情况下,可以将每个字符的第一特征向量作为相应字符的特征向量,即将xi的第一特征向量h′i作为xi的特征向量hi,从而可以得到待处理文本的特征矩阵H=[h1,h2,...,hi,...,hn]。特征矩阵H包括待处理文本中的每个字符的特征向量。
在另一种实现方式中,待处理文本中的每个字符的特征向量还可以包括相应字符的第一特征向量和相应字符的第二特征向量,每个字符的特征向量是将相应字符的第一特征向量和第二特征向量进行拼接后得到的向量;待处理文本中的每个字符的第二特征向量是根据待处理文本中的相应字符的语义,以及不同字符的字符语义之间的关联关系构建得到的。其中,xi的特征向量可以包括xi的第一特征向量和xi的第二特征向量。获取xi的特征向量的过程可以包括以下步骤s11至s15:
s11,获取xi的第一特征向量h′i。
s12,获取与待处理文本的文本语义所描述的领域匹配的分词词典,并根据分词词典确定xi的一个或多个参考分词。
在分词词典中确定得到的xi的一个或多个参考分词中,每个参考分词均包括xi,每个参考分词均记录在分词词典中。
s13,获取每个参考分词对应的词向量,并根据每个参考分词对应的词向量,确定每个参考分词的重要性分数。
设xi的参考分词为m个,m为正整数,xi的m个参考分词的词向量可以分别表示为[d1,d2,...,dt,...,dm]。以xi的第t个参考分词的词向量dt为例,可以对m个参考分词的词向量进行线性变换,计算参考分词的词向量dt的重要性分数αt,参考分词的词向量dt的重要性分数αt的计算过程如下述公式1所示:
如上述公式1所示,αt表示xi的第t个参考分词的词向量dt的重要性分数;dt表示xi的第t个参考分词的词向量;wα,t表示xi的第t个参考分词的线性变换矩阵;表示m个参考分词中的每个参考分词的词向量与相应参考分词的线性变换矩阵的加权之和;softmax表示归一化指数函数。
每个参考分词的重要性分数还可以是根据相应参考分词的词频计算得到的。以xi的m个参考分词中的目标参考分词为例,目标参考分词是xi的m个参考分词中的任一个参考分词,目标参考分词的词频可以是指目标参考分词在分词词典中出现的频率(或次数)。
s14,根据每个参考分词的重要性分数,对相应参考分词对应的词向量进行加权求和,并将加权求和后的向量表示作为xi的第二特征向量。
xi的第二特征向量h″i的计算过程如下述公式2所示:
如上述公式2所示,h″i表示xi的第二特征向量,αt表示xi的第t个参考分词的词向量dt的重要性分数,dt表示xi的第t个参考分词的词向量,m表示xi的参考分词的数量为m个。
s15,将xi的第一特征向量和xi的第二特征向量进行拼接后得到的向量,作为xi的特征向量。
xi的第一特征向量和xi的第二特征向量的拼接过程可参见下述公式3:
hi=[h′i,h″i] 公式3
如上述公式3所示,hi表示xi的特征向量,h′i表示xi的第一特征向量,h″i表示xi的第二特征向量。
由子步骤s11至子步骤s15可知,在待处理文本中的每个字符的特征向量包括相应字符的第一特征向量和相应字符的第二特征向量的情况下,可以将每个字符的第一特征向量和第二特征向量拼接后得到的向量作为相应字符的特征向量,即将xi的第一特征向量h′i和xi的第二特征向量h″i拼接后得到的向量,作为xi的特征向量hi,从而可以得到待处理文本的特征矩阵H=[h1,h2,...,hi,...,hn]。
S502,根据每个字符的特征向量,确定为每个字符添加的位置标签,并根据位置标签确定相应字符所在位置是否为一个实体词的开始位置,以及确定相应字符所在位置是否为一个实体词的结束位置。
位置标签可以包括开始位置标签和结束位置标签,开始位置标签用于指示一个实体词的开始位置,结束位置标签用于指示一个实体词的结束位置。实体词集解码层可以包括第一开始位置分类器和第一结束位置分类器,第一开始位置分类器用于对一个实体词的开始位置进行预测,第一结束位置分类器用于对一个实体词的结束位置进行预测。可以将待处理文本中的每个字符的特征向量输入至第一开始位置分类器中进行预测处理,确定是否为相应字符添加开始位置标签;例如,可以将xi的特征向量hi输入至第一开始位置分类器中进行预测处理,确定是否为xi添加开始位置标签;若为xi添加的位置标签为开始位置标签,则可以表明xi在待处理文本中的位置为一个实体词的开始位置。同样地,可以将待处理文本中的每个字符的特征向量输入至第一结束位置分类器中进行预测处理,确定是否为相应字符添加结束位置标签;例如,可以将xi的特征向量hi输入至第一结束位置分类器中进行预测处理,确定是否为xi添加结束位置标签;若为xi添加的位置标签为结束位置标签,则可以表明xi在待处理文本中的位置为一个实体词的结束位置。下面分别介绍第一开始位置分类器和第二结束位置分类器的预测过程:
(1)第一开始位置分类器的预测过程。将xi的特征向量hi输入至第一开始位置分类器中进行预测处理,确定是否为xi添加开始位置标签的过程可以包括:根据xi的特征向量hi,确定xi所在位置为一个实体词的开始位置的第一概率,若xi所在位置为一个实体词的开始位置的第一概率大于第一阈值,则为xi添加开始位置标签。如下述公式4所示:
如上述公式4所示,hi表示xi的特征向量;表示第一开始位置分类器;w1和b1表示第一开始位置分类器的分类参数;w1×hi+b1表示xi所在位置为一个实体词的开始位置的第一概率;sigmoid表示激活函数;表示第一开始位置分类器的预测结果。若第一概率大于第一阈值,则输出的预测结果为1,为xi添加开始位置标签(例如图3中的“1”);若第一概率小于或等于第一阈值,则输出的预测结果为0,为xi添加其他位置标签(例如图3中的“0”)。若为xi添加的位置标签为开始位置标签,则表明xi在待处理文本中的所在位置可以作为一个实体词的开始位置。
(2)第一结束位置分类器的预测过程。将xi的特征向量hi输入至第一结束位置分类器中进行预测处理,确定是否为xi添加结束位置标签的过程可以包括:根据xi的特征向量hi,确定xi所在位置为一个实体词的结束位置的第二概率,若xi所在位置为一个实体词的结束位置的第二概率大于第二阈值,则为xi添加结束位置标签。如下述公式5所示:
如上述公式5所示,hi表示xi的特征向量;表示第一结束位置分类器;w2和b2表示第一结束位置分类器的分类参数;w2×hi+b2表示xi所在位置为一个实体词的结束位置的第二概率;sigmoid表示激活函数;表示第一结束位置分类器的预测结果。若第二概率大于第二阈值,则输出的预测结果为1,为xi添加结束位置标签(例如图3中的“1”);若第二概率小于或等于第二阈值,则输出的预测结果为0,为xi添加其他位置标签(例如图3中的“0”)。若为xi添加的位置标签为结束位置标签,则表明xi在待处理文本中的所在位置可以作为一个实体词的结束位置。
此处,实体词集解码层在采用第一开始位置分类器和第一结束位置分类器分别对xi的特征向量hi进行预测处理时的损失函数可参见下述公式6:
如上述公式6所示,Ls表示实体词集解码层的损失函数,表示第一开始位置分类器的预测结果,表示第一结束位置分类器的预测结果;yi表示xi所在位置为一个实体词的开始位置的第一概率,或者表示xi所在位置为一个实体词的结束位置的第二概率。
需要说明的是,本申请实施例中实体词集解码层根据待处理文本中的每个字符的特征向量为相应字符添加位置标签,通过这样的方式在待处理文本中确定出实体词的开始字符,实体词的结束字符,从而确定出实体词集;此时采用的分类器为sigmoid分类器,sigmoid分类器是使用sigmoid函数作为激活函数的分类器。实体词集解码层还可以采用序列标注的方式,此时采用的分类器为softmax分类器,softmax分类器是使用softmax函数作为激活函数的分类器;此时还可以将CRF(Conditional Random Field,条件随机场)作为分类器,CRF是一种用于序列预测的判别模型。另外,若本申请实施例采用softmax分类器作为关联实体词解码层中的分类器,则实体词集解码层可以将交叉熵损失函数(Cross EntropyLoss)作为关联实体词解码层的损失函数。
S503,根据确定出的开始位置和结束位置,从待处理文本中确定出一个或多个开始字符,并从待处理文本中确定出一个或多个结束字符。
根据每个字符的特征向量确定出开始位置和结束位置之后,可以根据确定出的开始位置和结束位置,从待处理文本中确定出一个或多个开始字符,并从待处理文本中确定出一个或多个结束字符。具体地,若一个字符在待处理文本中的所在位置为一个实体词的开始位置,则可以确定该字符为一个实体词的开始字符;若一个字符在待处理文本中的所在位置为一个实体词的结束位置,则可以确定该字符为一个实体词的结束字符。
S504,根据确定出的开始字符和结束字符,确定待处理文本对应的实体词集。
确定出的开始字符可以包括一个或多个,确定出的结束字符可以包括一个或多个,可以根据确定出的一个或多个开始字符,以及确定出的一个或多个结束字符,确定待处理文本对应的实体词集。具体地,可以选取任一开始字符,并根据任一开始字符在待处理文本中的位置向后遍历,得到显示在任一开始字符后的第一个结束字符;将由任一开始字符和所述任一开始字符后的第一个结束字符所组成的词语,作为一个实体词。如图3所示,选中开始字符“B”,根据开始字符“B”在待处理文本中的位置向后遍历,得到显示在开始字符“B”后的第一个结束字符“菌”,则可以确定得到一个实体词“B组链球菌”;选中开始字符“新”,根据开始字符“新”在待处理文本中的位置向后遍历,得到显示在开始字符“新”后的第一个结束字符“炎”,则可以确定得到另一个实体词“新生儿肺炎”,即从图3所示的待处理文本中确定得到的实体词集包括两个实体词,一个是“B组链球菌”,另一个是“新生儿肺炎。”通过这种方式,能够有效解决嵌套实体(Nested Entity)的问题;所谓嵌套实体是指不同实体词的文本范围发生重叠;例如“骨性关节炎”是一种疾病名称,可以作为一个实体词,“关节”是一个部位名称,也可以作为一个实体词,实体词“骨性关节炎”中嵌套了实体词“关节”。
本申请实施例的步骤S501至步骤S504,对上述图2所示实施例的步骤S201中如何获取待处理文本中的每个字符的特征向量,如何为每个字符添加位置标签,如何确定一个实体词的开始字符和一个实体词的结束字符,以及如何根据确定的开始字符和结束字符确定实体词集的过程进行了更为丰富的描述。
S505,获取与目标实体词相关的一个或多个预测关系。
本申请实施例中步骤S505的执行过程可参见上述图2所示实施例中步骤S202的具体描述,在此不再赘述。
S506,采用每个预测关系分别联合目标实体词,从待处理文本中确定出目标实体词在不同预测关系下的关联实体词。
本申请实施例中,在确定得到的一个或多个开始字符,以及确定得到的一个或多个结束字符中,选取任一开始字符作为一个实体词的开始字符之后,将显示在任一开始字符后的第一个结束字符作为该实体词的结束字符,能够有效解决嵌套实体的问题,提升实体关系抽取过程的准确率。另外,采用待处理文本中的每个字符的第二特征向量与第一特征向量拼接后得到的向量作为相应字符的特征向量,每个字符的第二特征向量聚合了相应字符的一个或多个参考分词的语义特征,能够有效解决实体词边界预测错误的问题,进一步提升实体抽取过程的准确率。
基于上述描述,请参见图6,图6是本申请实施例提供的另一种文本处理方法的流程示意图,该文本处理方法可以由智能设备执行,智能设备可以包括终端或服务器;终端可以包括智能手机、平板电脑、笔记本电脑、车载设备、台式计算机、智能音箱、智能手表、智能可穿戴设备等;服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云计算服务的云服务器;该文本处理方法可以包括以下步骤S601至步骤S608:
S601,获取待处理文本包括的每个字符的特征向量。
S602,根据每个字符的特征向量,确定为每个字符添加的位置标签,并根据位置标签确定相应字符所在位置是否为一个实体词的开始位置,以及确定相应字符所在位置是否为一个实体词的结束位置。
S603,根据确定出的开始位置和结束位置,从待处理文本中确定出一个或多个开始字符,并从待处理文本中确定出一个或多个结束字符。
S604,根据确定出的开始字符和结束字符,确定待处理文本对应的实体词集。
本申请实施例中步骤S601至步骤S604的执行过程可参见上述图5所示实施例中步骤S501至步骤S504的具体描述,在此不再赘述。
S605,获取与目标实体词相关的一个或多个预测关系。
本申请实施例中步骤S605的执行过程可参见上述图2所示实施例中步骤S202的具体描述,在此不再赘述。
S606,获取目标预测关系对应的表示向量,并根据表示向量,目标实体词的开始字符的特征向量,以及目标实体词的结束字符的特征向量,构建预测向量。
目标实体词与一个或多个预测关系相关,目标预测关系是与目标实体词相关的任一个预测关系。可以根据目标预测关系的表示向量、目标实体词的开始字符的特征向量、以及目标实体词的结束字符的特征向量构建预测向量。具体地,可以将目标预测关系的表示向量、目标实体词的开始字符的特征向量、以及目标实体词的结束字符的特征向量拼接后得到的向量,作为预测向量。
设目标实体词与p个预测关系相关,p为正整数。p个预测关系的表示向量可以表示为[r1,r2,...,rj,...,rp],采用rj表示目标预测关系的表示向量。目标预测关系的表示向量、目标实体词的开始字符的特征向量、以及目标实体词的结束字符的特征向量的拼接过程可参见下述公式7:
如上述公式7所示,csj表示由目标预测关系的表示向量、目标实体词的开始字符的特征向量、以及目标实体词的结束字符的特征向量拼接得到的预测向量;表示目标实体词的开始字符的特征向量;表示目标实体词的结束字符的特征向量;rj表示目标预测关系的表示向量。
S507,采用预测向量对预测参数进行更新,并根据更新后的预测参数,调整待处理文本中每个字符的特征向量,得到每个字符的新的特征向量。
根据表示向量,目标实体词的开始字符的特征向量,以及目标实体词的结束字符的特征向量,构建得到预测向量之后,可以采用预测向量对预测参数进行更新,得到更新后的预测参数;得到更新后的预测参数之后,可以根据更新后的预测参数,调整待处理文本中每个字符的特征向量,得到每个字符的新的特征向量。具体执行过程可参见下述(1)和(2):
(1)采用预测向量对预测参数进行更新,得到更新后的预测参数。
预测参数可以包括缩放参数。采用预测向量对缩放参数进行更新的过程可参见下述公式8:
γnew=γ+Δγ=γ+MLP(csj)公式8
如上述公式8所示,γ表示更新前的缩放参数,Δγ表示缩放参数的变化量,γnew表示更新后的缩放参数;csj表示由目标预测关系的表示向量、目标实体词的开始字符的特征向量、以及目标实体词的结束字符的特征向量拼接得到的预测向量;MLP(csj)表示采用MLP(Multi-Layer Perceptron,多层神经网络)对csj进行处理后的输出。
预测参数还可以包括平移参数。采用预测向量对平移参数进行更新的过程可参见下述公式9:
βnew=β+Δβ=β+MLP(csj)公式9
如上述公式9所示,β表示更新前的平移参数,Δβ表示平移参数的变化量,βnew表示更新后的平移参数;csj表示由目标预测关系的表示向量、目标实体词的开始字符的特征向量、以及目标实体词的结束字符的特征向量拼接得到的预测向量;MLP(csj)表示采用MLP对csj进行处理后的输出。
通过对预测参数(包括缩放参数和平移参数)进行更新,可以将目标预测关系的表示向量、目标实体词的开始字符的特征向量以及目标实体词的结束字符的特征向量引入至预测参数中,以便于采用更新后的预测参数对待处理文本中的每个字符的特征向量进行更新后,根据每个字符的新的特征向量进行字符分类,以确定出目标实体词在目标预测关系下的关联实体词的开始字符和结束字符。
(2)根据更新后的预测参数,调整待处理文本中每个字符的特征向量,得到每个字符的新的特征向量。
根据更新后的预测参数,调整待处理文本中每个字符的特征向量,得到每个字符的新的特征向量的过程可参见下述公式10:
如上述公式10所示,hi表示xi的特征向量,H表示待处理文本的特征矩阵,Avg(H)表示待处理文本的特征矩阵的均值,Var[H]表示待处理文本的特征矩阵的方差;∈是一个常数,数值为1×10-12;γnew表示更新后的缩放参数,βnew表示更新后的平移参数;gij表示xi在目标预测关系rj下的新的特征向量。
通过这种方式,xi的新的特征向量gij中引入了xi的特征向量hi、目标预测关系的表示向量、目标实体词的开始字符的特征向量以及目标实体词的结束字符的特征向量,以便于根据每个字符的新的特征向量进行字符分类,确定出目标实体词在目标预测关系下的关联实体词的开始字符和结束字符。
S508,根据每个字符的新的特征向量,以及目标预测关系,确定目标实体词在目标预测关系下的关联实体词。
位置标签可以包括开始位置标签和结束位置标签,开始位置标签用于指示一个实体词的开始位置,结束位置标签用于指示一个实体词的结束位置。关联实体词解码层可以包括第二开始位置分类器和第二结束位置分类器,第二开始位置分类器可以用于对一个关联实体词的开始位置进行预测,第二结束位置分类器可以用于对一个关联实体词的结束位置进行预测。可以将待处理文本中的每个字符的新的特征向量输入至第二开始位置分类器中进行预测处理,确定是否为相应字符添加开始位置标签;例如,可以将xi的新的特征向量gij输入至第二开始位置分类器中进行预测处理,确定是否为xi添加开始位置标签;若为xi添加的位置标签为开始位置标签,则可以表明xi在待处理文本中的所在位置为一个关联实体词的开始位置。同样地,可以将待处理文本中的每个字符的特征向量输入至第二结束位置分类器中进行预测处理,确定是否为相应字符添加结束位置标签;例如,可以将xi的新的特征向量gij输入至第二结束位置分类器中进行预测处理,确定是否为xi添加结束位置标签;若为xi添加的位置标签为结束位置标签,则可以表明xi在待处理文本中的所在位置为一个关联实体词的结束位置。下面分别介绍第二开始位置分类器和第二结束位置分类器的预测过程:
(1)第二开始位置分类器的预测过程。将xi的新的特征向量gij输入至第二开始位置分类器中进行预测处理,确定是否为xi添加开始位置标签可以包括:根据xi的新的特征向量gij,确定xi在待处理文本中的所在位置为目标实体词在目标预测关系rj下的关联实体词的开始位置的第三概率,若xi在待处理文本中的所在位置为目标实体词在目标预测关系rj下的关联实体词的开始位置的第三概率大于第三阈值,则为xi添加开始位置标签,表明xi可作为目标实体词在目标预测关系rj下的关联实体词的开始字符。如下述公式11所示:
如上述公式11所示,gij表示xi在目标预测关系rj下的新的特征向量;表示第二开始位置分类器,w3和b3表示第二开始位置分类器的分类参数;w3×gij+b3表示xi在待处理文本中的所在位置为目标实体词在目标预测关系rj下的关联实体词的开始位置的第三概率;sigmoid表示激活函数;表示第二开始位置分类器的预测结果。若第三概率大于第三阈值,则输出的预测结果为1,为xi添加开始位置标签(例如图3中的“1”);若第三概率小于或等于第三阈值,则输出的预测结果为0,为xi添加其他位置标签(例如图3中的“0”)。若为xi添加的位置标签为开始位置标签,则表明xi在待处理文本中的所在位置可以作为目标实体词在目标预测关系下的关联实体词的开始位置。
(2)第二结束位置分类器的预测过程。将xi的新的特征向量gij输入至第二结束位置分类器中进行预测处理,确定是否为xi添加结束位置标签可以包括:根据xi的新的特征向量gij,确定xi在待处理文本中的所在位置为目标实体词在目标预测关系rj下的关联实体词的结束位置的第四概率,若xi在待处理文本中的所在位置为目标实体词在目标预测关系rj下的关联实体词的开始位置的第四概率大于第四阈值,则为xi添加结束位置标签,表明xi可作为目标实体词在目标预测关系rj下的关联实体词的结束字符。如下述公式12所示:
如上述公式12所示,gij表示xi在目标预测关系rj下的新的特征向量;表示第二结束位置分类器,w4和b4表示第二结束位置分类器的分类参数;w4×gij+b4表示xi所在位置为目标实体词在目标预测关系rj下的关联实体词的结束位置的第四概率;sigmoid表示激活函数;表示第二结束位置分类器的预测结果。若第四概率大于第四阈值,则输出的预测结果为1,为xi添加结束位置标签(例如图3中的“1”);若第四概率小于或等于第四阈值,则输出的预测结果为0,为xi添加其他位置标签(例如图3中的“0”)。若为xi添加的位置标签为结束位置标签,则表明xi在待处理文本中的所在位置可以作为目标实体词在目标预测关系下的关联实体词的结束位置。
此处,关联实体词解码层在采用第二开始位置分类器和第二结束位置分类器分别对xi的新的特征向量gij进行预测处理时的损失函数可参见下述公式13:
如上述公式13所示,Lo表示关联实体词解码层的损失函数,表示第二开始位置分类器的预测结果,表示第二结束位置分类器的预测结果;yij表示xi在待处理文本中的所在位置为目标实体词在目标预测关系rj下的关联实体词的开始位置的第三概率,或者表示xi在待处理文本中的所在位置为目标实体词在目标预测关系rj下的关联实体词的结束位置的第四概率。
文本处理模型的损失函数可以包括:关联实体词解码层在采用第二开始位置分类器和第二结束位置分类器分别对xi的新的特征向量gij进行预测处理时的损失函数,以及实体词集解码层在采用第一开始位置分类器和第一结束位置分类器分别对xi的特征向量hi进行预测处理时的损失函数;文本处理模型的损失函数计算过程可参见下述公式14:
L=LS+LO公式14
如上述公式14可知,L表示文本处理模型的损失函数;LS表示实体词集解码层在采用第一开始位置分类器和第一结束位置分类器分别对xi的特征向量hi进行预测处理时的损失函数;LO表示关联实体词解码层在采用第二开始位置分类器和第二结束位置分类器分别对xi的新的特征向量gij进行预测处理时的损失函数。
需要说明的是,本申请实施例中关联实体词解码层根据待处理文本中的每个字符的新的特征向量为相应字符添加位置标签,通过这样的方式在待处理文本中确定出关联实体词的开始字符,关联实体词的结束字符,从而确定出目标实体词在目标预测关系下的关联实体词;此时采用的分类器为sigmoid分类器,sigmoid分类器是使用sigmoid函数作为激活函数的分类器。关联实体词解码层还可以采用序列标注的方式,此时采用的分类器为softmax分类器,softmax分类器是使用softmax函数作为激活函数的分类器;此时还可以将CRF(Conditional Random Field,条件随机场)作为分类器,CRF是一种用于序列预测的判别模型。另外,若本申请实施例采用softmax分类器作为关联实体词解码层中的分类器,则关联实体词解码层可以将交叉熵损失函数(Cross Entropy Loss)作为关联实体词解码层的损失函数。
确定出目标实体词在目标预测关系下的关联实体词的开始位置和结束位置之后,可以从待处理文本中确定出目标实体词在目标预测关系下的关联实体词的开始字符和结束字符,从而可以根据关联实体词的开始字符和关联实体词的结束字符,从待处理文本中确定出目标实体词在目标预测关系下的关联实体词。如图3所示,确定得到的目标实体词在目标预测关系下的关联实体词的开始字符为“B”,确定得到的目标实体词在目标预测关系下的关联实体词的结束字符为“菌”,从而目标实体词“新生儿肺炎”在目标预测关系“病因”下的关联实体词为“B组链球菌”。
除可以根据与目标实体词相关的一个或多个预测关系确定目标实体词在不同预测关系下的关联实体词之外,还可以根据目标实体词的类别确定目标实体词的关联实体词。具体地,可以获取目标实体词的类别,以及实体词集中除目标实体词之外的其他实体词的类别;从其他实体词中,获取与目标实体词的类别为关联类别的参考实体词,并将参考实体词作为目标实体词的关联实体词。其中,目标实体词的类别与参考实体词的类别互为关联类别是指:目标实体词的类别与参考实体词的类别之间存在关联关系;例如类别“疾病”与类别“致病因子”之间存在关联关系:致病因子导致疾病;又如,类别“疾病”与类别“药物”之间存在关联关系:药物治疗疾病。以图3为例,待处理文本的实体词集包括两个实体词:“新生儿肺炎”和“B组链球菌”,实体词“新生儿肺炎”的类别为“疾病”,实体词“B组链球菌”的类别为“致病因子”,则实体词“新生儿肺炎”的类别与实体词“B组链球菌”的类别具备关联关系,选择其中一个为目标实体词,则另一个可以作为选中的目标实体词的关联实体词。
本申请实施例的步骤S606至步骤S608,对上述图5所示实施例的步骤S506中如何采用每个预测关系分别联合目标实体词,从待处理文本中确定出目标实体词在不同预测关系下的关联实体词的过程进行了更为丰富的描述。
本申请实施例中,可以采用向量的形式表示预测关系,以便于将预测关系以表示向量的形式引入至关联实体词的确定过程中。通过对预测参数(包括缩放参数和平移参数)进行更新,可以将目标预测关系的表示向量、目标实体词的开始字符的特征向量以及目标实体词的结束字符的特征向量引入至预测参数中,以便于采用更新后的预测参数对待处理文本中的每个字符的特征向量进行更新,得到每个字符的新的特征向量,从而可以根据每个字符的新的特征向量进行字符分类,直接确定出目标实体词在目标预测关系下的关联实体词的开始字符和结束字符,进而确定出目标实体词在目标预测关系下的关联实体词。每个字符的新的特征向量中携带目标预测关系的表示向量、目标实体词的开始字符的特征向量、以及目标实体词的结束字符的特征向量,可知每个字符的新的特征向量中联合了目标实体词以及目标预测关系,从而可以准确地从待处理文本中确定出目标实体词在目标预测关系下的关联实体词,有效提升实体关系抽取的准确率。
图1至图6所示实施例中描述的文本处理方案可以总结为图7所示的流程图,图7是本申请实施例提供的另一种文本处理方法的流程示意图,如图7所示,文本处理方案如下:
①待处理文本X=[x1,x2,...,xi,...,xn]输入至输入编码层,输入编码层对待处文本理中的每个字符进行特征提取,得到第一特征矩阵H′=[h′1,h′2,...,h′i,...,h′n],第一特征矩阵中包括每个字符的第一特征向量。例如,输入编码层对待处理文本中的第i个字符xi进行特征提取,得到xi的第一特征向量h′i。
②待处理文本X=[x1,x2,...,xi,...,xn]输入至词汇增强层,词汇增强层确定待处理文本中的每个字符的一个或多个参考分词,并根据每个字符的一个或多个参考分词确定相应字符聚合了相应字符的所有参考分词的语义特征的第二特征向量,得到第二特征矩阵H″=[h″1,h″2,...,h″i,...,h″n]。例如,词汇增强层确定待处理文本中的第i个字符xi的一个或多个参考分词,并根据xi的一个或多个参考分词确定聚合了xi的所有参考分词的语义特征的第二特征向量h″i。
③将待处理文本中的每个字符的第一特征向量与第二特征向量拼接后得到的向量,作为相应字符的特征向量,得到待处理文本的特征矩阵H=[h1,h2,...,hi,...,hn]。例如,将xi的第一特征向量h′i和xi的第二特征向量h″i拼接后得到的向量作为xi的特征向量hi。
④将待处理文本中的每个字符的特征向量输入至第一开始位置分类器中进行预测处理,确定是否为相应字符添加开始位置标签;若一个字符的位置标签为开始位置标签,则该字符可以作为实体词集中的一个实体词的开始字符。将待处理文本中的每个字符的特征向量输入至第一结束位置分类器中进行预测处理,确定是否为相应字符添加结束位置标签;若一个字符的位置标签为结束位置标签,则该字符可以作为实体词集中的一个实体词的结束字符。进一步地,可以根据确定得到的开始字符以及确定得到的结束字符,在待处理文本中确定包含一个或多个实体词的实体词集。
⑤从实体词集中选取任一个实体词作为目标实体词,引入与目标实体词相关的预测关系;关联实体词解码层根据目标实体词的开始字符的特征向量、目标实体词的结束字符的特征向量、以及目标预测关系的表示向量,对待处理文本中的每个字符的特征向量进行调整,得到每个字符的新的特征向量。进一步地,可以将待处理文本中的每个字符的新的特征向量输入至第二开始位置分类器中进行预测处理,确定是否为相应字符添加开始位置标签;若一个字符的位置标签为开始位置标签,则该字符可以作为目标实体词在目标预测关系下的关联实体词的开始字符。以及将待处理文本中的每个字符的新的特征向量输入至第二结束位置分类器中进行预测处理,确定是否为相应字符添加结束位置标签;若一个字符的位置标签为结束位置标签,则该字符可以作为目标实体词在目标预测关系下的关联实体词的结束字符。进一步地,可以根据确定得到的开始字符以及确定得到的结束字符,在待处理文本中确定目标实体词在目标预测关系下的关联实体词。
下面分别从评测指标和实例数据两个方面对本申请实施例提供的文本处理方案进行了实验分析,通过实验分析能够充分体现本申请实施例提供的文本处理方案的实体关系抽取能力:
在基于数据库的中文医学信息抽取的数据集CMeIE(Chinese Medical Information Extraction)上进行了实验。该数据集包含儿科训练语料和百种常见疾病训练语料,儿科训练语料来源于518种儿科疾病,百种常见疾病训练语料来源于109种常见疾病。近7.5万三元组数据,2.8万疾病语句和53种定义好的关系。按照6∶2∶2的比例将其分为训练集、验证集和测试集,在验证集上对不同模型进行参数选择和模型优化,最后对比在测试集上的结果。下述表2示出了参与实验分析的四个模型:
表2
如上述表2所示,参与实验分析的四个模型分别是:①pipeline模型(管道模型);pipeline模型采用BERT模型和CRF进行实体识别,然后采用BERT模型对关系对进行关系分类。②cascade联合抽取模型(级联联合抽取模型);采用向量和的方式建模实体和关系之间的关联规则。③本申请实施例提供的文本处理模型(不包含词汇增强层)。④本申请实施例提供的文本处理模型(包含词汇增强层)。下述表3示出了四个模型的实验分析结果:
表3
如上述表3所示,Precision表示精确率,Recall表示召回率;F1为表示精准率和召回率的综合评价指标;精确率越高,模型越优;召回率越高,模型越优;综合评价指标越高模型越优。从实验分析结果中可以发现,文本处理模型优于pipeline模型及cascade联合抽取模型,由此可见,联合实体词以及实体词之间的关系的方案能够有效提升实体关系抽取的准确率,达到较好地实体关系抽取效果。另外,包含词汇增强层的文本处理模型优于不包含词汇增强层的文本处理模型,由此可见,加入词汇增强层能够进一步提升模型效果,尤其是对精确率的提升,词汇增强层通过准确划分实体词便捷,进一步提升了实体关系抽取的准确率。
上述详细阐述了本申请实施例的方法,为了便于更好地实施本申请实施例的上述方案,相应地,下面提供了本申请实施例的装置。
请参见图8,图8是本申请提供的一种文本处理装置的结构示意图,文本处理装置80可以设置于文本处理设备中,文本处理设备可以是上述实施例中提及的智能设备;文本处理装置80可以用于执行图2、图5或图6所示的方法实施例中的相应步骤,该文本处理装置80可以包括如下单元:
获取单元801,用于获取待处理文本对应的实体词集,并从实体词集包括的一个或多个实体词中,选取任一实体词作为目标实体词;
获取单元801,还用于获取与目标实体词相关的一个或多个预测关系;
处理单元802,用于采用每个预测关系分别联合目标实体词,从待处理文本中确定出目标实体词在不同预测关系下的关联实体词;其中,目标实体词在一个预测关系下对应一个关联实体词。
在一种实现方式中,待处理文本包括一个或多个字符;获取单元801,用于获取待处理文本对应的实体词集时,具体用于执行如下步骤:
获取待处理文本包括的每个字符的特征向量;
根据每个字符的特征向量,确定为每个字符添加的位置标签,并根据位置标签确定相应字符所在位置是否为一个实体词的开始位置,以及确定相应字符所在位置是否为一个实体词的结束位置;
根据确定出的开始位置和结束位置,从待处理文本中确定出一个或多个开始字符,并从待处理文本中确定出一个或多个结束字符;
根据确定出的开始字符和结束字符,确定待处理文本对应的实体词集。
在一种实现方式中,获取单元801,用于根据每个字符的特征向量,确定为每个字符添加的位置标签时,具体用于执行如下步骤:
根据每个字符的特征向量,确定对应字符所在位置为一个实体词的开始位置的第一概率,以及确定对应字符所在位置为一个实体词的结束位置的第二概率;
根据待处理文本中每个字符对应的第一概率和第二概率,确定为每个字符添加的位置标签。
在一种实现方式中,待处理文本包括目标字符,为目标字符添加的位置标签包括开始位置标签和结束位置标签;获取单元801,用于根据目标字符对应的第一概率和第二概率,确定为目标添加的位置标签时,具体用于执行如下步骤:
若目标字符对应的第一概率大于第一阈值,则为目标字符添加开始位置标签;
或者,若目标字符对应的第二概率大于第二阈值,则为目标字符添加结束位置标签。
在一种实现方式中,确定出的开始字符的数量为至少一个,且确定出的结束字符的数量为至少一个;获取单元801,用于根据确定出的开始字符和结束字符,确定待处理文本对应的实体词集中的一个实体词时,具体用于执行如下步骤:
选取任一开始字符,并根据任一开始字符在待处理文本中的位置向后遍历,得到显示在任一开始字符后的第一个结束字符;
将由任一开始字符和任一开始字符后的第一个结束字符所组成的词语,作为一个实体词。
在一种实现方式中,获取单元801,用于获取待处理文本包括的每个字符的特征向量时,具体用于执行如下步骤:
采用特征提取模型对待处理文本中的每个字符进行特征提取,得到每个字符的第一特征向量;
根据待处理文本中每个字符的字符语义,以及不同字符的字符语义之间的关联关系,构建每个字符的第二特征向量;
将每个字符的第一特征向量和第二特征向量进行拼接后得到的向量,作为每个字符的特征向量。
在一种实现方式中,待处理文本包括目标字符,获取单元801,用于确定目标字符的第二特征向量时,具体用于执行如下步骤:
获取与待处理文本的文本语义所描述的领域匹配的分词词典,并根据分词词典确定目标字符的一个或多个参考分词,其中,每个参考分词均包括目标字符,每个参考分词均被记录在分词词典中;
获取每个参考分词对应的词向量,并根据每个参考分词对应的词向量,确定每个参考分词的重要性分数;
根据每个参考分词的重要性分数,对相应参考分词对应的词向量进行加权求和,并将加权求和后的向量表示作为目标字符的第二特征向量。
在一种实现方式中,待处理文本包括一个或多个字符,每个字符对应一个特征向量;目标预测关系是与目标实体词相关的任一个预测关系;处理单元802,用于采用每个预测关系,分别联合目标实体词从待处理文本中确定出目标实体词在不同预测关系下的关联实体词时,具体用于执行如下步骤:
获取目标预测关系对应的表示向量,并根据表示向量,目标实体词的开始字符的特征向量,以及目标实体词的结束字符的特征向量,构建预测向量;
采用预测向量对预测参数进行更新,并根据更新后的预测参数,调整待处理文本中每个字符的特征向量,得到每个字符的新的特征向量;
根据每个字符的新的特征向量,以及目标预测关系,确定目标实体词在目标预测关系下的关联实体词。
在一种实现方式中,获取单元801,还用于执行如下步骤:
获取目标实体词的类别,以及实体词集中除目标实体词之外的其他实体词的类别;
从其他实体词中,获取与目标实体词的类别为关联类别的参考实体词,并将参考实体词作为目标实体词的关联实体词。
根据本申请的一个实施例,图8所示的文本处理装置80中的各个单元可以分别或全部合并为一个或若干个另外的单元来构成,或者其中的某个(些)单元还可以再拆分为功能上更小的多个单元来构成,这可以实现同样的操作,而不影响本申请的实施例的技术效果的实现。上述单元是基于逻辑功能划分的,在实际应用中,一个单元的功能也可以由多个单元来实现,或者多个单元的功能由一个单元实现。在本申请的其它实施例中,该文本处理装置80也可以包括其它单元,在实际应用中,这些功能也可以由其它单元协助实现,并且可以由多个单元协作实现。根据本申请的另一个实施例,可以通过在包括例如中央处理单元(CPU)、随机存取存储介质(RAM)、只读存储介质(ROM)等处理元件和存储元件的通用计算机的通用计算设备上运行能够执行如图2、图5或图6中所示的相应方法所涉及的各步骤的计算机程序(包括程序代码),来构造如图8中所示的文本处理装置80,以及来实现本申请实施例的文本处理方法。计算机程序可以记载于例如计算机可读存储介质上,并通过计算机可读存储介质装载于上述计算设备中,并在其中运行。
本申请实施例中,待处理文本对应的实体词集中包括一个或多个实体词,选取实体词集中的任一实体词作为目标实体词;目标实体词与一个或多个预测关系相关;可以采用每个预测关系分别联合目标实体词,从待处理文本中确定出目标实体词在不同预测关系下的关联实体词。由此可见,本申请实施中引入与目标实体词相关的预测关系,能够对目标头实体与关联实体词之间的关系进行合理表征;采用目标实体词与一个预测关系联合预测目标实体词在该预测关系下的关联实体词,能够有效提升实体关系抽取的准确率。
请参见图9,图9是本申请实施例提供的一种文本处理设备的结构示意图,该文本处理设备90至少包括处理器901、计算机可读存储介质902以及通信接口903。其中,处理器901、计算机可读存储介质902以及通信接口903可通过总线或者其它方式连接。通信接口903可以用于接收或者发送数据。计算机可读存储介质902可以存储在存储器中,计算机可读存储介质902用于存储计算机程序,计算机程序包括计算机指令。处理器901用于执行计算机指令。处理器901(或称CPU(Central Processing Unit,中央处理器))是文本处理设备90的计算核心以及控制核心,其适于实现一条或多条计算机指令,具体适于加载并执行一条或多条计算机指令从而实现相应方法流程或相应功能。
本申请实施例还提供了一种计算机可读存储介质(Memory),计算机可读存储介质是文本处理设备90中的记忆设备,用于存放程序和数据。可以理解的是,此处的计算机可读存储介质902既可以包括文本处理设备90中的内置存储介质,当然也可以包括文本处理设备90所支持的扩展存储介质。计算机可读存储介质提供存储空间,该存储空间存储了文本处理设备90的操作系统。并且,在该存储空间中还存放了适于被处理器901加载并执行的一条或多条的计算机指令,这些计算机指令可以是一个或多个的计算机程序(包括程序代码)。需要说明的是,此处的计算机可读存储介质902可以是高速RAM存储器,也可以是非不稳定的存储器(Non-Volatile Memory),例如至少一个磁盘存储器;可选的还可以是至少一个位于远离前述处理器901的计算机可读存储介质。
该文本处理设备90可以是上述方法实施例中提及的智能设备,该计算机可读存储介质902中存储有计算机程序,计算机程序包括一条或多条计算机指令;由处理器901加载并执行一条或多条计算机指令,以实现图2、图5或图6所示方法实施例中的相应步骤;具体实现中,计算机可读存储介质902中的计算机指令由处理器901加载并执行如下步骤:
获取待处理文本对应的实体词集,并从实体词集包括的一个或多个实体词中,选取任一实体词作为目标实体词;
获取与目标实体词相关的一个或多个预测关系;
采用每个预测关系分别联合目标实体词,从待处理文本中确定出目标实体词在不同预测关系下的关联实体词;其中,目标实体词在一个预测关系下对应一个关联实体词。
在一种实现方式中,待处理文本包括一个或多个字符;计算机可读存储介质902中的计算机指令由处理器901加载并且执行在获取待处理文本对应的实体词集时,具体用于执行如下步骤:
获取待处理文本包括的每个字符的特征向量;
根据每个字符的特征向量,确定为每个字符添加的位置标签,并根据位置标签确定相应字符所在位置是否为一个实体词的开始位置,以及确定相应字符所在位置是否为一个实体词的结束位置;
根据确定出的开始位置和结束位置,从待处理文本中确定出一个或多个开始字符,并从待处理文本中确定出一个或多个结束字符;
根据确定出的开始字符和结束字符,确定待处理文本对应的实体词集。
在一种实现方式中,计算机可读存储介质902中的计算机指令由处理器901加载并且执行在根据每个字符的特征向量,确定为每个字符添加的位置标签时,具体用于执行如下步骤:
根据每个字符的特征向量,确定对应字符所在位置为一个实体词的开始位置的第一概率,以及确定对应字符所在位置为一个实体词的结束位置的第二概率;
根据待处理文本中每个字符对应的第一概率和第二概率,确定为每个字符添加的位置标签。
在一种实现方式中,待处理文本包括目标字符,为目标字符添加的位置标签包括开始位置标签和结束位置标签;计算机可读存储介质902中的计算机指令由处理器901加载并且执行在根据目标字符对应的第一概率和第二概率,确定为目标添加的位置标签时,具体用于执行如下步骤:
若目标字符对应的第一概率大于第一阈值,则为目标字符添加开始位置标签;
或者,若目标字符对应的第二概率大于第二阈值,则为目标字符添加结束位置标签。
在一种实现方式中,确定出的开始字符的数量为至少一个,且确定出的结束字符的数量为至少一个;计算机可读存储介质902中的计算机指令由处理器901加载并且执行在根据确定出的开始字符和结束字符,确定待处理文本对应的实体词集中的一个实体词时,具体用于执行如下步骤:
选取任一开始字符,并根据任一开始字符在待处理文本中的位置向后遍历,得到显示在任一开始字符后的第一个结束字符;
将由任一开始字符和任一开始字符后的第一个结束字符所组成的词语,作为一个实体词。
在一种实现方式中,计算机可读存储介质902中的计算机指令由处理器901加载并且执行在获取待处理文本包括的每个字符的特征向量时,具体用于执行如下步骤:
采用特征提取模型对待处理文本中的每个字符进行特征提取,得到每个字符的第一特征向量;
根据待处理文本中每个字符的字符语义,以及不同字符的字符语义之间的关联关系,构建每个字符的第二特征向量;
将每个字符的第一特征向量和第二特征向量进行拼接后得到的向量,作为每个字符的特征向量。
在一种实现方式中,待处理文本包括目标字符,计算机可读存储介质902中的计算机指令由处理器901加载并且执行在确定目标字符的第二特征向量时,具体用于执行如下步骤:
获取与待处理文本的文本语义所描述的领域匹配的分词词典,并根据分词词典确定目标字符的一个或多个参考分词,其中,每个参考分词均包括目标字符,每个参考分词均被记录在分词词典中;
获取每个参考分词对应的词向量,并根据每个参考分词对应的词向量,确定每个参考分词的重要性分数;
根据每个参考分词的重要性分数,对相应参考分词对应的词向量进行加权求和,并将加权求和后的向量表示作为目标字符的第二特征向量。
在一种实现方式中,待处理文本包括一个或多个字符,每个字符对应一个特征向量;目标预测关系是与目标实体词相关的任一个预测关系;计算机可读存储介质902中的计算机指令由处理器901加载并且执行在采用每个预测关系,分别联合目标实体词从待处理文本中确定出目标实体词在不同预测关系下的关联实体词时,具体用于执行如下步骤:
获取目标预测关系对应的表示向量,并根据表示向量,目标实体词的开始字符的特征向量,以及目标实体词的结束字符的特征向量,构建预测向量;
采用预测向量对预测参数进行更新,并根据更新后的预测参数,调整待处理文本中每个字符的特征向量,得到每个字符的新的特征向量;
根据每个字符的新的特征向量,以及目标预测关系,确定目标实体词在目标预测关系下的关联实体词。
在一种实现方式中,计算机可读存储介质902中的计算机指令由处理器901加载并且还用于执行如下步骤:
获取目标实体词的类别,以及实体词集中除目标实体词之外的其他实体词的类别;
从其他实体词中,获取与目标实体词的类别为关联类别的参考实体词,并将参考实体词作为目标实体词的关联实体词。
本申请实施例中,待处理文本对应的实体词集中包括一个或多个实体词,选取实体词集中的任一实体词作为目标实体词;目标实体词与一个或多个预测关系相关;可以采用每个预测关系分别联合目标实体词,从待处理文本中确定出目标实体词在不同预测关系下的关联实体词。由此可见,本申请实施中引入与目标实体词相关的预测关系,能够对目标头实体与关联实体词之间的关系进行合理表征;采用目标实体词与一个预测关系联合预测目标实体词在该预测关系下的关联实体词,能够有效提升实体关系抽取的准确率。
根据本申请的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各种可选方式中提供的文本处理方法。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。
Claims (12)
1.一种文本处理方法,其特征在于,所述方法包括:
获取待处理文本对应的实体词集,并从所述实体词集包括的一个或多个实体词中,选取任一实体词作为目标实体词;
获取与所述目标实体词相关的一个或多个预测关系;
采用每个预测关系分别联合所述目标实体词,从所述待处理文本中确定出所述目标实体词在不同预测关系下的关联实体词;其中,所述目标实体词在一个预测关系下对应一个关联实体词。
2.如权利要求1所述的方法,其特征在于,所述待处理文本包括一个或多个字符;所述获取待处理文本对应的实体词集,包括:
获取所述待处理文本包括的每个字符的特征向量;
根据每个字符的特征向量,确定为每个字符添加的位置标签,并根据所述位置标签确定相应字符所在位置是否为一个实体词的开始位置,以及确定相应字符所在位置是否为一个实体词的结束位置;
根据确定出的开始位置和结束位置,从所述待处理文本中确定出一个或多个开始字符,并从所述待处理文本中确定出一个或多个结束字符;
根据确定出的开始字符和结束字符,确定所述待处理文本对应的实体词集。
3.如权利要求2所述的方法,其特征在于,所述根据每个字符的特征向量,确定为每个字符添加的位置标签,包括:
根据每个字符的特征向量,确定对应字符所在位置为一个实体词的开始位置的第一概率,以及确定对应字符所在位置为一个实体词的结束位置的第二概率;
根据所述待处理文本中每个字符对应的第一概率和第二概率,确定为每个字符添加的位置标签。
4.如权利要求3所述的方法,其特征在于,所述待处理文本包括目标字符,为所述目标字符添加的位置标签包括开始位置标签和结束位置标签;根据所述目标字符对应的第一概率和第二概率,确定为所述目标添加的位置标签的方式包括:
若所述目标字符对应的第一概率大于第一阈值,则为所述目标字符添加所述开始位置标签;或者,
若所述目标字符对应的第二概率大于第二阈值,则为所述目标字符添加所述结束位置标签。
5.如权利要求3所述的方法,其特征在于,确定出的开始字符的数量为至少一个,且确定出的结束字符的数量为至少一个;根据确定出的开始字符和结束字符,确定所述待处理文本对应的实体词集中的一个实体词的方式包括:
选取任一开始字符,并根据所述任一开始字符在所述待处理文本中的位置向后遍历,得到显示在所述任一开始字符后的第一个结束字符;
将由所述任一开始字符和所述任一开始字符后的第一个结束字符所组成的词语,作为一个实体词。
6.如权利要求2所述的方法,其特征在于,所述获取所述待处理文本包括的每个字符的特征向量,包括:
采用特征提取模型对所述待处理文本中的每个字符进行特征提取,得到所述每个字符的第一特征向量;
根据所述待处理文本中每个字符的字符语义,以及不同字符的字符语义之间的关联关系,构建所述每个字符的第二特征向量;
将每个字符的第一特征向量和第二特征向量进行拼接后得到的向量,作为所述每个字符的特征向量。
7.如权利要求6所述的方法,其特征在于,所述待处理文本包括目标字符,确定所述目标字符的第二特征向量的方式包括:
获取与所述待处理文本的文本语义所描述的领域匹配的分词词典,并根据所述分词词典确定所述目标字符的一个或多个参考分词,其中,每个参考分词均包括所述目标字符,每个参考分词均被记录在所述分词词典中;
获取每个参考分词对应的词向量,并根据每个参考分词对应的词向量,确定每个参考分词的重要性分数;
根据每个参考分词的重要性分数,对相应参考分词对应的词向量进行加权求和,并将加权求和后的向量表示作为所述目标字符的第二特征向量。
8.如权利要求1所述的方法,其特征在于,所述待处理文本包括一个或多个字符,每个字符对应一个特征向量;目标预测关系是与所述目标实体词相关的任一个预测关系;所述采用每个预测关系,分别联合所述目标实体词从所述待处理文本中确定出所述目标实体词在不同预测关系下的关联实体词,包括:
获取所述目标预测关系对应的表示向量,并根据所述表示向量,所述目标实体词的开始字符的特征向量,以及所述目标实体词的结束字符的特征向量,构建预测向量;
采用所述预测向量对预测参数进行更新,并根据更新后的预测参数,调整所述待处理文本中每个字符的特征向量,得到每个字符的新的特征向量;
根据所述每个字符的新的特征向量,以及所述目标预测关系,确定所述目标实体词在所述目标预测关系下的关联实体词。
9.如权利要求1所述的方法,其特征在于,所述方法还包括:
获取所述目标实体词的类别,以及所述实体词集中除所述目标实体词之外的其他实体词的类别;
从所述其他实体词中,获取与所述目标实体词的类别为关联类别的参考实体词,并将所述参考实体词作为所述目标实体词的关联实体词。
10.一种信息处理装置,其特征在于,所述信息处理装置包括:
获取单元,用于获取待处理文本对应的实体词集,并从所述实体词集包括的一个或多个实体词中,选取任一实体词作为目标实体词;
所述获取单元,还用于获取与所述目标实体词相关的一个或多个预测关系;
处理单元,用于采用每个预测关系分别联合所述目标实体词,从所述待处理文本中确定出所述目标实体词在不同预测关系下的关联实体词;其中,所述目标实体词在一个预测关系下对应一个关联实体词。
11.一种信息处理设备,其特征在于,所述信息处理设备包括:
处理器,适于实现计算机程序;以及,
计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序适于由所述处理器加载并执行如权利要求1至9任一项所述的文本处理方法。
12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括计算机程序,所述计算机程序适于由处理器加载并执行如权利要求1至9任一项所述的文本处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110267571.1A CN113704481B (zh) | 2021-03-11 | 2021-03-11 | 一种文本处理方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110267571.1A CN113704481B (zh) | 2021-03-11 | 2021-03-11 | 一种文本处理方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113704481A true CN113704481A (zh) | 2021-11-26 |
CN113704481B CN113704481B (zh) | 2024-05-17 |
Family
ID=78647769
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110267571.1A Active CN113704481B (zh) | 2021-03-11 | 2021-03-11 | 一种文本处理方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113704481B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114385787A (zh) * | 2021-12-28 | 2022-04-22 | 北京惠及智医科技有限公司 | 医学文本检测方法、模型的训练方法及相关装置 |
CN114626373A (zh) * | 2022-03-04 | 2022-06-14 | 珠海格力电器股份有限公司 | 实体关系的抽取方法、装置、存储介质及计算机设备 |
Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2012073005A1 (en) * | 2010-12-03 | 2012-06-07 | Ugochukwu Akuwudike | Predictive text entry methods and systems |
US20120233132A1 (en) * | 2011-03-10 | 2012-09-13 | GM Global Technology Operations LLC | Methodology to establish term co-relationship using sentence boundary detection |
CN109446326A (zh) * | 2018-11-01 | 2019-03-08 | 大连理工大学 | 基于复制机制的生物医学事件联合抽取方法 |
US20200065374A1 (en) * | 2018-08-23 | 2020-02-27 | Shenzhen Keya Medical Technology Corporation | Method and system for joint named entity recognition and relation extraction using convolutional neural network |
CN111241832A (zh) * | 2020-01-15 | 2020-06-05 | 北京百度网讯科技有限公司 | 核心实体标注方法、装置及电子设备 |
CN111444715A (zh) * | 2020-03-24 | 2020-07-24 | 腾讯科技(深圳)有限公司 | 实体关系识别方法、装置、计算机设备和存储介质 |
CN111444349A (zh) * | 2020-03-06 | 2020-07-24 | 深圳追一科技有限公司 | 信息抽取方法、装置、计算机设备和存储介质 |
CN111611395A (zh) * | 2019-02-25 | 2020-09-01 | 北京嘀嘀无限科技发展有限公司 | 一种实体关系的识别方法及装置 |
CN111832293A (zh) * | 2020-06-24 | 2020-10-27 | 四川大学 | 基于头实体预测的实体和关系联合抽取方法 |
CN111931503A (zh) * | 2020-08-04 | 2020-11-13 | 腾讯科技(深圳)有限公司 | 信息抽取方法及装置、设备、计算机可读存储介质 |
CN112084789A (zh) * | 2020-09-14 | 2020-12-15 | 腾讯科技(深圳)有限公司 | 文本处理方法、装置、设备及存储介质 |
CN112131881A (zh) * | 2020-09-27 | 2020-12-25 | 腾讯科技(深圳)有限公司 | 信息抽取方法及装置、电子设备、存储介质 |
CN112149423A (zh) * | 2020-10-16 | 2020-12-29 | 中国农业科学院农业信息研究所 | 一种面向领域实体关系联合抽取的语料标注方法及系统 |
CN112163092A (zh) * | 2020-10-10 | 2021-01-01 | 成都数之联科技有限公司 | 实体及关系抽取方法及系统、装置、介质 |
CN112395407A (zh) * | 2020-11-03 | 2021-02-23 | 杭州未名信科科技有限公司 | 企业实体关系的抽取方法、装置及存储介质 |
JP2021033995A (ja) * | 2019-08-16 | 2021-03-01 | 株式会社Nttドコモ | テキスト処理装置、方法、デバイス及びコンピューター読み取り可能な記憶媒体 |
-
2021
- 2021-03-11 CN CN202110267571.1A patent/CN113704481B/zh active Active
Patent Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2012073005A1 (en) * | 2010-12-03 | 2012-06-07 | Ugochukwu Akuwudike | Predictive text entry methods and systems |
US20120233132A1 (en) * | 2011-03-10 | 2012-09-13 | GM Global Technology Operations LLC | Methodology to establish term co-relationship using sentence boundary detection |
US20200065374A1 (en) * | 2018-08-23 | 2020-02-27 | Shenzhen Keya Medical Technology Corporation | Method and system for joint named entity recognition and relation extraction using convolutional neural network |
CN109446326A (zh) * | 2018-11-01 | 2019-03-08 | 大连理工大学 | 基于复制机制的生物医学事件联合抽取方法 |
CN111611395A (zh) * | 2019-02-25 | 2020-09-01 | 北京嘀嘀无限科技发展有限公司 | 一种实体关系的识别方法及装置 |
JP2021033995A (ja) * | 2019-08-16 | 2021-03-01 | 株式会社Nttドコモ | テキスト処理装置、方法、デバイス及びコンピューター読み取り可能な記憶媒体 |
CN111241832A (zh) * | 2020-01-15 | 2020-06-05 | 北京百度网讯科技有限公司 | 核心实体标注方法、装置及电子设备 |
CN111444349A (zh) * | 2020-03-06 | 2020-07-24 | 深圳追一科技有限公司 | 信息抽取方法、装置、计算机设备和存储介质 |
CN111444715A (zh) * | 2020-03-24 | 2020-07-24 | 腾讯科技(深圳)有限公司 | 实体关系识别方法、装置、计算机设备和存储介质 |
CN111832293A (zh) * | 2020-06-24 | 2020-10-27 | 四川大学 | 基于头实体预测的实体和关系联合抽取方法 |
CN111931503A (zh) * | 2020-08-04 | 2020-11-13 | 腾讯科技(深圳)有限公司 | 信息抽取方法及装置、设备、计算机可读存储介质 |
CN112084789A (zh) * | 2020-09-14 | 2020-12-15 | 腾讯科技(深圳)有限公司 | 文本处理方法、装置、设备及存储介质 |
CN112131881A (zh) * | 2020-09-27 | 2020-12-25 | 腾讯科技(深圳)有限公司 | 信息抽取方法及装置、电子设备、存储介质 |
CN112163092A (zh) * | 2020-10-10 | 2021-01-01 | 成都数之联科技有限公司 | 实体及关系抽取方法及系统、装置、介质 |
CN112149423A (zh) * | 2020-10-16 | 2020-12-29 | 中国农业科学院农业信息研究所 | 一种面向领域实体关系联合抽取的语料标注方法及系统 |
CN112395407A (zh) * | 2020-11-03 | 2021-02-23 | 杭州未名信科科技有限公司 | 企业实体关系的抽取方法、装置及存储介质 |
Non-Patent Citations (2)
Title |
---|
YUNYAN ZHANG: "A Question Answering-Based Framework for One-Step Event Argument Extraction", IEEE ACCESS, 2 April 2020 (2020-04-02), pages 65420 - 65431, XP011783697, DOI: 10.1109/ACCESS.2020.2985126 * |
李颖;郝晓燕;王勇;: "中文开放式多元实体关系抽取", 计算机科学, no. 1, 15 June 2017 (2017-06-15), pages 90 - 93 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114385787A (zh) * | 2021-12-28 | 2022-04-22 | 北京惠及智医科技有限公司 | 医学文本检测方法、模型的训练方法及相关装置 |
CN114626373A (zh) * | 2022-03-04 | 2022-06-14 | 珠海格力电器股份有限公司 | 实体关系的抽取方法、装置、存储介质及计算机设备 |
CN114626373B (zh) * | 2022-03-04 | 2024-06-25 | 珠海格力电器股份有限公司 | 实体关系的抽取方法、装置、存储介质及计算机设备 |
Also Published As
Publication number | Publication date |
---|---|
CN113704481B (zh) | 2024-05-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112214995B (zh) | 用于同义词预测的分层多任务术语嵌入学习 | |
CN108733742B (zh) | 全局归一化阅读器系统和方法 | |
Li et al. | Intelligent diagnosis with Chinese electronic medical records based on convolutional neural networks | |
WO2023029506A1 (zh) | 病情分析方法、装置、电子设备及存储介质 | |
CN112818676A (zh) | 一种医学实体关系联合抽取方法 | |
Wu et al. | KAICD: A knowledge attention-based deep learning framework for automatic ICD coding | |
Wen et al. | Cross domains adversarial learning for Chinese named entity recognition for online medical consultation | |
CN113704481A (zh) | 一种文本处理方法、装置、设备及存储介质 | |
Shen et al. | A novel deep-learning-based model for medical text classification | |
Gao et al. | Constructing a Chinese electronic medical record corpus for named entity recognition on resident admit notes | |
Bai et al. | Bilinear Semi-Tensor Product Attention (BSTPA) model for visual question answering | |
Li et al. | Stacking-BERT model for Chinese medical procedure entity normalization | |
Liu et al. | Research on named entity recognition of Traditional Chinese Medicine chest discomfort cases incorporating domain vocabulary features | |
CN112668481A (zh) | 一种遥感图像语义抽取方法 | |
Wang et al. | MGCN: Medical Relation Extraction Based on GCN | |
Ren et al. | Clinical questionnaire filling based on question answering framework | |
Fu et al. | Atnet: Answering cloze-style questions via intra-attention and inter-attention | |
Khan | Comparing the Performance of NLP Toolkits and Evaluation measures in Legal Tech | |
Lin et al. | Long-distance disorder-disorder relation extraction with bootstrapped noisy data | |
Al-Ash et al. | Indonesian protected health information removal using named entity recognition | |
Wang et al. | End-to-end pre-trained dialogue system for automatic diagnosis | |
Chowdhury et al. | Improving medical nli using context-aware domain knowledge | |
Michalopoulos | Innovations in domain knowledge augmentation of contextual models | |
Baytas | Contributions to Machine Learning in Biomedical Informatics | |
Erd | Data augmentation for named entity recognition in the German legal domain |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |