CN111967270B - 一种基于字符与语义融合的方法和设备 - Google Patents
一种基于字符与语义融合的方法和设备 Download PDFInfo
- Publication number
- CN111967270B CN111967270B CN202010822251.3A CN202010822251A CN111967270B CN 111967270 B CN111967270 B CN 111967270B CN 202010822251 A CN202010822251 A CN 202010822251A CN 111967270 B CN111967270 B CN 111967270B
- Authority
- CN
- China
- Prior art keywords
- entity
- entities
- similarity
- mined
- candidate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 29
- 230000004927 fusion Effects 0.000 title claims abstract description 19
- 238000002372 labelling Methods 0.000 claims abstract description 8
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 206010019233 Headaches Diseases 0.000 description 1
- 208000002193 Pain Diseases 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 231100000869 headache Toxicity 0.000 description 1
- 230000001314 paroxysmal effect Effects 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 208000024891 symptom Diseases 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Medical Informatics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Artificial Intelligence (AREA)
- Public Health (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Pathology (AREA)
- Biomedical Technology (AREA)
- Epidemiology (AREA)
- Primary Health Care (AREA)
- Measuring And Recording Apparatus For Diagnosis (AREA)
- Medical Treatment And Welfare Office Work (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提出的一种基于字符与语义融合的方法和设备,方法包括:在预设数据库中获取与待挖掘医疗术语最相似的多个实体;基于多个字符相似度算法确定实体与待挖掘医疗术语的字符相似度;若字符相似度大于或等于预设阈值,则保留实体作为第一候选实体;若保留的实体的数量小于预设数量,则通过对待挖掘医疗术语与实体两者进行分解后,确定两者的语义相似度;基于语义相似度选择保留指定数量的实体作为第二候选实体,以使候选实体的总数为预设数量;对预设数量的候选实体进行人工标注,以确定预设数量的候选实体与待挖掘医疗术语的关系。本方案基于术语间精确地字符信息和语义拆分信息,解决了孤立术语融合知识图谱的问题。
Description
技术领域
本发明涉及语义识别技术领域,特别涉及一种基于字符与语义融合的方法和设备。
背景技术
在医学领域,在某些应用场景中存在孤立的医学术语,这使得孤立的医学术语难于理解,也对孤立的医学术语所在的文档的理解造成困难,特别当孤立的医学术语出现的数量达到一定程度时,非常容易使得所在的文档解读困难或者容易出现误解。
为此,需要将孤立的医学术语融合到已有的医学知识图谱中,但是目前没有这种方案,由此,目前需要有一种可以融合孤立的医学术语的方案。
发明内容
针对现有技术中的缺陷,本发明提出了一种基于字符与语义融合的方法和设备,基于字符与语义来计算相似度的方案,若相似度达到一定值,则进行融合的方式,实现了融合孤立的医学术语到已有的医学知识图谱中。
具体的,本发明提出了一下具体的实施例:
本发明实施例提出了一种基于字符与语义融合的方法,包括:
在预设数据库中获取与待挖掘医疗术语最相似的多个实体;所述预设数据库中存储有预设医疗知识图谱的术语;
针对各所述实体,基于多个字符相似度算法确定所述实体与所述待挖掘医疗术语的字符相似度;
若所述字符相似度大于或等于预设字符相似度阈值,则保留所述实体作为第一候选实体;
若保留的所述实体的数量小于预设数量,则通过对所述待挖掘医疗术语与所述实体两者进行分解后,确定两者的语义相似度;
基于所述语义相似度选择保留指定数量的所述实体作为第二候选实体,以使候选实体的总数为预设数量;所述候选实体由所述第一候选实体与所述第二候选实体组成;
对预设数量的所述候选实体进行人工标注,以确定预设数量的所述候选实体与所述待挖掘医疗术语的关系。
在一个具体的实施例中,所述“在预设数据库中获取与待挖掘医疗术语最相似的多个实体”,包括:
在预设的数据库中基于待挖掘医疗术语进行检索,得到最相似的多个术语;
将所述术语设置为实体。
在一个具体的实施例中,所述字符相似度算法包括:以下任意多个的组合:编辑距离相似度算法、Jaccard系数算法、LCS算法、TF-IDF算法,加权算法。
在一个具体的实施例中,所述基于多个字符相似度算法确定所述实体与所述待挖掘医疗术语的字符相似度,是通过下列公式来进行计算的:
其中,所述score(a,b)表示字符相似度;所述fi(a,b)表示字符相似度算法,wi表示字符相似度算法的权重;所述a表示所述待挖掘医疗术语;所述b表示所述实体;若score(a,b)大于等于预设字符相似度阈值,则实体b保留。
在一个具体的实施例中,所述“通过对所述待挖掘医疗术语与所述实体两者进行分解后,确定两者的语义相似度”,包括:
对所述待挖掘医疗术语与所述实体两者进行成分解析;
基于两者的成分确定所述待挖掘医疗术语与各所述实体的语义相似度。
在一个具体的实施例中,所述“通过对所述待挖掘医疗术语与所述实体两者进行分解后,确定两者的语义相似度”,是基于下列公式来计算的:
Si=I*W*P*R1*R2;
其中,所述Si表示语义相似度;所述I表示成分是否为同一类型,所述I的取值为1或0;所述W表示成分的类型权重;所述P表示成分字符匹配权重,成分字符匹配权重越高,匹配程度越高,完全相等情况下的成分字符匹配权重为1;R1和R2分别为两个成分数目的倒数。
在一个具体的实施例中,所述“基于所述语义相似度选择保留指定数量的所述实体作为第二候选实体,以使候选实体的总数为预设数量”,包括:
针对各所述实体,判断所述语义相似度是否大于或等于所述预设语义相似度阈值;
若判断结果为是,则保留所述语义相似度最高的指定数量的所述实体作为第二候选实体,以使候选实体的总数为预设数量。
在一个具体的实施例中,该方法还包括:
若保留的所述实体的数量小于预设数量,则从所述第一候选实体中选择预设数量的所述实体作为所述候选实体。
在一个具体的实施例中,所述候选实体与所述待挖掘医疗术语的关系包括:同义、上位或下位。
本发明实施例还提出一种基于字符与语义融合的设备,包括处理器,其中所述处理器用于执行上述的方法。
本发明实施例提出的一种基于字符与语义融合的方法和设备,其中,该方法包括:在预设数据库中获取与待挖掘医疗术语最相似的多个实体;所述预设数据库中存储有预设医疗知识图谱的术语;针对各所述实体,基于多个字符相似度算法确定所述实体与所述待挖掘医疗术语的字符相似度;若所述字符相似度大于或等于预设字符相似度阈值,则保留所述实体作为第一候选实体;若保留的所述实体的数量小于预设数量,则通过对所述待挖掘医疗术语与所述实体两者进行分解后,确定两者的语义相似度;基于所述语义相似度选择保留指定数量的所述实体作为第二候选实体,以使候选实体的总数为预设数量;所述候选实体由所述第一候选实体与所述第二候选实体组成;对预设数量的所述候选实体进行人工标注,以确定预设数量的所述候选实体与所述待挖掘医疗术语的关系。本方案基于术语间精确地字符信息和语义拆分信息,解决了孤立术语融合知识图谱的问题。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本发明实施例提出的一种基于字符与语义融合的方法的流程示意图;
图2为本发明实施例提出的一种基于字符与语义融合的方法的流程示意图;
图3为本发明实施例提出的一种基于字符与语义融合的方法中语义相似度相关流程的流程示意图;
图4为本发明实施例提出的一种基于字符与语义融合的设备的结构示意图。
具体实施方式
在下文中,将更全面地描述本公开的各种实施例。本公开可具有各种实施例,并且可在其中做出调整和改变。然而,应理解:不存在将本公开的各种实施例限于在此公开的特定实施例的意图,而是应将本公开理解为涵盖落入本公开的各种实施例的精神和范围内的所有调整、等同物和/或可选方案。
在本公开的各种实施例中使用的术语仅用于描述特定实施例的目的并且并非意在限制本公开的各种实施例。如在此所使用,单数形式意在也包括复数形式,除非上下文清楚地另有指示。除非另有限定,否则在这里使用的所有术语(包括技术术语和科学术语)具有与本公开的各种实施例所属领域普通技术人员通常理解的含义相同的含义。所述术语(诸如在一般使用的词典中限定的术语)将被解释为具有与在相关技术领域中的语境含义相同的含义并且将不被解释为具有理想化的含义或过于正式的含义,除非在本公开的各种实施例中被清楚地限定。
实施例1
本发明实施例1公开了一种基于字符与语义融合的方法,如图1和图2所示,包括以下步骤:
步骤101、在预设数据库中获取与待挖掘医疗术语最相似的多个实体;所述预设数据库中存储有预设医疗知识图谱的术语;
具体的,在步骤101中所述“在预设数据库中获取与待挖掘医疗术语最相似的多个实体”,包括:
在预设的数据库中基于待挖掘医疗术语进行检索,得到最相似的多个术语;
将所述术语设置为实体。
具体的,可以将医疗知识图谱中的术语存储在Elasticsearch数据库中,检索出术语a最相似的N个实体,组成实体集合B,作为术语a的待融合候选集,其中每个实体记为实体b,满足b∈B。
步骤102、针对各所述实体,基于多个字符相似度算法确定所述实体与所述待挖掘医疗术语的字符相似度;
具体的,所述字符相似度算法包括:以下任意多个的组合:编辑距离相似度算法、Jaccard系数算法、LCS算法、TF-IDF算法,加权算法。
具体的步骤102中的所述基于多个字符相似度算法确定所述实体与所述待挖掘医疗术语的字符相似度,是通过下列公式来进行计算的:
其中,所述score(a,b)表示字符相似度;所述fi(a,b)表示字符相似度算法(也即编辑距离相似度算法、Jaccard系数算法、LCS算法、TF-IDF算法,加权算法的任意一个或多个的组合),wi表示字符相似度算法的权重;所述a表示所述待挖掘医疗术语;所述b表示所述实体;
步骤103、若所述字符相似度大于或等于预设字符相似度阈值,则保留所述实体作为第一候选实体;
具体的,仍以上述为例来进项说明,若score(a,b)大于等于预设阈值,则实体b保留。具体保留的b的数量记为X。
此外,该方法还包括:
若保留的所述实体的数量小于预设数量,则从所述第一候选实体中选择预设数量的所述实体作为所述候选实体。
具体的,若X大于等于M,则直接返回M个相似实体作为候选实体,候选实体按照字符相似度从高到低排列。
若保留的所述实体的数量不小于预设数量,则执行步骤104。
步骤104、若保留的所述实体的数量小于预设数量,则通过对所述待挖掘医疗术语与所述实体两者进行分解后,确定两者的语义相似度;
具体的,步骤104中的所述“通过对所述待挖掘医疗术语与所述实体两者进行分解后,确定两者的语义相似度”,包括:
对所述待挖掘医疗术语与所述实体两者进行成分解析;
基于两者的成分确定所述待挖掘医疗术语与各所述实体的语义相似度。
此外,所述“通过对所述待挖掘医疗术语与所述实体两者进行分解后,确定两者的语义相似度”,是基于下列公式来计算的:
Si=I*W*P*R1*R2;
其中,所述Si表示语义相似度;所述I表示成分是否为同一类型,所述I的取值为1或0;所述W表示成分的类型权重;所述P表示成分字符匹配权重,成分字符匹配权重越高,匹配程度越高,完全相等情况下的成分字符匹配权重为1;R1和R2分别为两个成分数目的倒数。
具体的,若X小于M,需要从语义的角度对候选进行补充。对实体a和实体b进行成分解析,基于实体a和实体b的成分计算两个实体间的语义相似度,如果实体a和实体b分别是症状“头反复性刺痛”和“胸部阵发性疼痛”。具体的解析过程如图3所示:
步骤105、基于所述语义相似度选择保留指定数量的所述实体作为第二候选实体,以使候选实体的总数为预设数量;所述候选实体由所述第一候选实体与所述第二候选实体组成;
具体的步骤105中的所述“基于所述语义相似度选择保留指定数量的所述实体作为第二候选实体,以使候选实体的总数为预设数量”,包括:
针对各所述实体,判断所述语义相似度是否大于或等于所述预设语义相似度阈值;
若判断结果为是,则保留所述语义相似度最高的指定数量的所述实体作为第二候选实体,以使候选实体的总数为预设数量。
具体的,仍以上述为例,若分数S大于等于预设语义相似度阈值,则实体b保留,实体b的数量记为Y;从Y中选择(M-X)数量个最相似实体作为候选实体。
步骤106、对预设数量的所述候选实体进行人工标注,以确定预设数量的所述候选实体与所述待挖掘医疗术语的关系。
具体的,所述候选实体与所述待挖掘医疗术语的关系包括:同义、上位或下位。具体的步骤106中,是将通过字符相似和语义相似方法获得的候选实体交给标注人员进行人工标注,得到候选实体与医疗术语a之间的关系。
实施例2
本发明实施例2还公开了一种基于字符与语义融合的设备,如图4所示,包括处理器,其中所述处理器用于执行实施例1中所述的方法。
具体的,本发明实施例2还公开有其他相应的特征,具体相应的特征请参加实施例1中的记载,在此不再进行赘述。
本发明实施例提出的一种基于字符与语义融合的方法和设备,其中,该方法包括:在预设数据库中获取与待挖掘医疗术语最相似的多个实体;所述预设数据库中存储有预设医疗知识图谱的术语;针对各所述实体,基于多个字符相似度算法确定所述实体与所述待挖掘医疗术语的字符相似度;若所述字符相似度大于或等于预设字符相似度阈值,则保留所述实体作为第一候选实体;若保留的所述实体的数量小于预设数量,则通过对所述待挖掘医疗术语与所述实体两者进行分解后,确定两者的语义相似度;基于所述语义相似度选择保留指定数量的所述实体作为第二候选实体,以使候选实体的总数为预设数量;所述候选实体由所述第一候选实体与所述第二候选实体组成;对预设数量的所述候选实体进行人工标注,以确定预设数量的所述候选实体与所述待挖掘医疗术语的关系。本方案基于术语间精确地字符信息和语义拆分信息,解决了孤立术语融合知识图谱的问题。
本领域技术人员可以理解附图只是一个优选实施场景的示意图,附图中的模块或流程并不一定是实施本发明所必须的。
本领域技术人员可以理解实施场景中的装置中的模块可以按照实施场景描述进行分布于实施场景的装置中,也可以进行相应变化位于不同于本实施场景的一个或多个装置中。上述实施场景的模块可以合并为一个模块,也可以进一步拆分成多个子模块。
上述本发明序号仅仅为了描述,不代表实施场景的优劣。
以上公开的仅为本发明的几个具体实施场景,但是,本发明并非局限于此,任何本领域的技术人员能思之的变化都应落入本发明的保护范围。
Claims (8)
1.一种基于字符与语义融合的方法,其特征在于,包括:
在预设数据库中获取与待挖掘医疗术语最相似的多个实体;所述预设数据库中存储有预设医疗知识图谱的术语;
针对各所述实体,基于多个字符相似度算法确定所述实体与所述待挖掘医疗术语的字符相似度;
其中,所述基于多个字符相似度算法确定所述实体与所述待挖掘医疗术语的字符相似度,是通过下列公式来进行计算的:
其中,所述score(a,b)表示字符相似度;所述fi(a,b)表示字符相似度算法,wi表示字符相似度算法的权重;所述a表示所述待挖掘医疗术语;所述b表示所述实体;若score(a,b)大于等于预设字符相似度阈值,则实体b保留,i表示字符个数;
若所述字符相似度大于或等于预设字符相似度阈值,则保留所述实体作为第一候选实体;
若保留的所述实体的数量小于预设数量,则通过对所述待挖掘医疗术语与所述第一候选实体两者进行分解后,确定两者的语义相似度;
其中,所述通过对所述待挖掘医疗术语与所述实体两者进行分解后,确定两者的语义相似度,包括:对所述待挖掘医疗术语与所述实体两者进行成分解析;基于两者的成分确定所述待挖掘医疗术语与各所述实体的语义相似度;
基于所述语义相似度选择保留指定数量的所述实体作为第二候选实体,以使候选实体的总数为预设数量;所述候选实体由所述第一候选实体与所述第二候选实体组成;
对预设数量的所述候选实体进行人工标注,以确定预设数量的所述候选实体与所述待挖掘医疗术语的关系。
2.如权利要求1所述的方法,其特征在于,所述“在预设数据库中获取与待挖掘医疗术语最相似的多个实体”,包括:
在预设的数据库中基于待挖掘医疗术语进行检索,得到最相似的多个术语;
将所述术语设置为实体。
3.如权利要求1所述的方法,其特征在于,所述字符相似度算法包括:以下任意多个的组合:编辑距离相似度算法、Jaccard系数算法、LCS算法、TF-IDF算法、加权算法。
4.如权利要求1所述的方法,其特征在于,所述“通过对所述待挖掘医疗术语与所述第二候选实体两者进行分解后,确定两者的语义相似度”,是基于下列公式来计算的:
Si=I*W*P*R1*R2;
其中,所述Si表示语义相似度;所述I表示成分是否为同一类型,所述I的取值为1或0;所述W表示成分的类型权重;所述P表示成分字符匹配权重,成分字符匹配权重越高,匹配程度越高,完全相等情况下的成分字符匹配权重为1;R1和R2分别为两个成分数目的倒数。
5.如权利要求1所述的方法,其特征在于,所述“基于所述语义相似度选择保留指定数量的所述实体作为第二候选实体,以使候选实体的总数为预设数量”,包括:
针对各所述实体,判断所述语义相似度是否大于或等于所述预设语义相似度阈值;
若判断结果为是,则保留所述语义相似度最高的指定数量的所述实体作为第二候选实体,以使候选实体的总数为预设数量。
6.如权利要求1所述的方法,其特征在于,还包括:
若保留的所述实体的数量大于预设数量,则从所述第一候选实体中选择预设数量的所述实体作为所述候选实体。
7.如权利要求1所述的方法,其特征在于,所述候选实体与所述待挖掘医疗术语的关系包括:同义、上位或下位。
8.一种基于字符与语义融合的设备,其特征在于,包括处理器,其中所述处理器用于执行权利要求1-7中任意一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010822251.3A CN111967270B (zh) | 2020-08-16 | 2020-08-16 | 一种基于字符与语义融合的方法和设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010822251.3A CN111967270B (zh) | 2020-08-16 | 2020-08-16 | 一种基于字符与语义融合的方法和设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111967270A CN111967270A (zh) | 2020-11-20 |
CN111967270B true CN111967270B (zh) | 2023-11-21 |
Family
ID=73389014
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010822251.3A Active CN111967270B (zh) | 2020-08-16 | 2020-08-16 | 一种基于字符与语义融合的方法和设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111967270B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103870449A (zh) * | 2012-12-10 | 2014-06-18 | 百度国际科技(深圳)有限公司 | 在线自动挖掘新词的方法及电子装置 |
CN106650261A (zh) * | 2016-12-22 | 2017-05-10 | 上海智臻智能网络科技股份有限公司 | 智能问诊方法、装置和系统 |
CN108363693A (zh) * | 2018-02-13 | 2018-08-03 | 上海智臻智能网络科技股份有限公司 | 文本处理方法和装置 |
CN110569328A (zh) * | 2019-07-31 | 2019-12-13 | 平安科技(深圳)有限公司 | 实体链接方法、电子装置及计算机设备 |
CN111415748A (zh) * | 2020-02-18 | 2020-07-14 | 云知声智能科技股份有限公司 | 一种实体链接方法及装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105446957B (zh) * | 2015-12-03 | 2018-07-20 | 小米科技有限责任公司 | 相似性确定方法、装置及终端 |
-
2020
- 2020-08-16 CN CN202010822251.3A patent/CN111967270B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103870449A (zh) * | 2012-12-10 | 2014-06-18 | 百度国际科技(深圳)有限公司 | 在线自动挖掘新词的方法及电子装置 |
CN106650261A (zh) * | 2016-12-22 | 2017-05-10 | 上海智臻智能网络科技股份有限公司 | 智能问诊方法、装置和系统 |
CN108363693A (zh) * | 2018-02-13 | 2018-08-03 | 上海智臻智能网络科技股份有限公司 | 文本处理方法和装置 |
CN110569328A (zh) * | 2019-07-31 | 2019-12-13 | 平安科技(深圳)有限公司 | 实体链接方法、电子装置及计算机设备 |
CN111415748A (zh) * | 2020-02-18 | 2020-07-14 | 云知声智能科技股份有限公司 | 一种实体链接方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN111967270A (zh) | 2020-11-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110765257B (zh) | 一种知识图谱驱动型的法律智能咨询系统 | |
US10997256B2 (en) | Webpage classification method and apparatus, calculation device and machine readable storage medium | |
CN111444344B (zh) | 实体分类方法、装置、计算机设备和存储介质 | |
CN105843850B (zh) | 搜索优化方法和装置 | |
CN106033416A (zh) | 一种字符串处理方法及装置 | |
CN108074016B (zh) | 基于位置社交网络的用户关系强度预测方法、装置及设备 | |
US20220414131A1 (en) | Text search method, device, server, and storage medium | |
CN109241243B (zh) | 候选文档排序方法及装置 | |
CN110019955A (zh) | 一种视频标签标注方法及装置 | |
CN106844482B (zh) | 一种基于搜索引擎的检索信息匹配方法及装置 | |
CN109145083A (zh) | 一种基于深度学习的候选答案选取方法 | |
CN112347771A (zh) | 一种实体关系的抽取方法和设备 | |
CN112434533A (zh) | 实体消歧方法、装置、电子设备及计算机可读存储介质 | |
JP7092194B2 (ja) | 情報処理装置、判定方法、及びプログラム | |
CN111967270B (zh) | 一种基于字符与语义融合的方法和设备 | |
Qiu et al. | Snapntell: Enhancing entity-centric visual question answering with retrieval augmented multimodal llm | |
CN110262906B (zh) | 接口标签推荐方法、装置、存储介质和电子设备 | |
Cordeiro et al. | mwetoolkit+ sem: Integrating word embeddings in the mwetoolkit for semantic MWE processing | |
CN116108156A (zh) | 一种基于循环关联鲁棒学习的主题法条检索方法 | |
CN109492098A (zh) | 基于主动学习和语义密度的目标语料库构建方法 | |
JP2017068742A (ja) | 関連文書検索装置、モデル作成装置、これらの方法及びプログラム | |
CN109472289A (zh) | 关键点检测方法和设备 | |
JP2005107483A (ja) | 単語学習方法、単語学習装置、単語学習プログラム及びそのプログラムを記録した記録媒体、並びに文字列学習方法、文字列学習装置、文字列学習プログラム及びそのプログラムを記録した記録媒体 | |
CN111401055A (zh) | 从金融资讯提取脉络信息的方法和装置 | |
CN109002442B (zh) | 一种基于医生相关属性检索诊断病例的装置及方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |