CN106897270B - 一种文本中知识领域识别方法及系统 - Google Patents

一种文本中知识领域识别方法及系统 Download PDF

Info

Publication number
CN106897270B
CN106897270B CN201710141937.4A CN201710141937A CN106897270B CN 106897270 B CN106897270 B CN 106897270B CN 201710141937 A CN201710141937 A CN 201710141937A CN 106897270 B CN106897270 B CN 106897270B
Authority
CN
China
Prior art keywords
concept
distance
field
judging
domain
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710141937.4A
Other languages
English (en)
Other versions
CN106897270A (zh
Inventor
牟冬梅
黄丽丽
李茵
琚沅红
戴文浩
王萍
赵丹宁
郑晓月
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jilin University
Original Assignee
Jilin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jilin University filed Critical Jilin University
Priority to CN201710141937.4A priority Critical patent/CN106897270B/zh
Publication of CN106897270A publication Critical patent/CN106897270A/zh
Application granted granted Critical
Publication of CN106897270B publication Critical patent/CN106897270B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • G06N5/046Forward inferencing; Production systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明公开了一种文本中知识领域识别方法,通过判断相关概念领域和目标概念领域的位置,若相关概念领域的数量唯一,则找到概念/关系对,若相关概念领域的数量不唯一,则对同句或相邻句中的相关概念领域和目标概念领域的相对距离进行计算,若相对距离大于或等于阈值,则距离目标概念领域更近的相关概念领域为概念/关系对,若小于阈值,则需要根据语境进行分析判断,可以较快速地处理文本中知识领域之间的匹配关系,从而提高了文本中知识领域的识别效率。本发明还公开了一种文本中知识领域识别系统,具有与上述权利要求相同的技术效果,在此不再赘述。

Description

一种文本中知识领域识别方法及系统
技术领域
本发明涉及文本数据处理技术领域,特别涉及一种文本中知识领域识别方法及系统。
背景技术
文本中实体间的语义关系的揭示是实现文本中领域知识发现的重要前提和保障。当前,对于社交媒体文本数据知识发现的研究多为对现有知识发现方法的应用和改进,鲜少有对文本内容中实体间语义关系的讨论,现有技术中,对文本中知识领域的识别仅通过对关键词的识别判定,识别效率不高,且对文本数据中领域知识的可靠性难以保证。
综上所述,如何提高文本中知识领域的识别效率是本领域技术人员目前需要解决的技术问题。
发明内容
有鉴于此,本发明的目的在于提供一种文本中知识领域识别方法及系统,可以显著提高文本中知识领域的识别效率。其具体方案如下:
一种文本中知识领域识别方法,包括:
步骤S1:判断相关领域概念和目标领域概念是否出现在同一句子中,若是,则进行步骤S2,若否,则进行步骤S6;
步骤S2:判断所述相关领域概念的数量是否唯一,若是,则判定找到概念/关系对,若否,则进行步骤S3;
步骤S3:计算第一相关领域概念距离和第二相关概念领域距离之差的绝对值,得到第一相对距离,其中,所述第一相关领域概念距离为所述第一相关领域概念与所述目标领域概念之差的绝对值,所述第二相关领域概念距离为所述第二相关领域概念与所述目标领域概念之差的绝对值;
步骤S4:判断所述第一相对距离是否大于或等于第一阈值,若是,则进行步骤S5,若否,则根据语境进行分析,以得到概念/关系对;
步骤S5:判定所述第一相关领域概念距离和所述第二相关概念领域距离中的较小者相应的相关概念领域为概念/关系对;
步骤S6:判断步骤S1中所述相关领域概念在相邻句中是否唯一,若是,则判定找到概念/关系对,若否,则进行步骤S7;
步骤S7:计算第三相关领域概念距离和第四相关概念领域距离之差的绝对值,得到第二相对距离,其中,所述第三相关领域概念距离为所述第三相关领域概念与所述目标领域概念之差的绝对值,所述第四相关领域概念距离为所述第四相关领域概念与所述目标领域概念之差的绝对值;
步骤S8:判断所述第三相对距离是否大于或等于第二阈值,若是,则进行步骤S9,若否,则根据语境进行分析,以得到概念/关系对;
步骤S9:判定所述第三相关领域概念距离和所述第四相关概念领域距离中的较小者相应的相关概念领域为概念/关系对。
优选的,步骤S4中所述根据语境进行分析包括:
按照出现顺序获取所述第一相关领域概念、所述第二相关领域概念和所述目标领域的序列集合,根据所述序列集合进行分析。
优选的,所述文本中知识领域识别方法还包括:
若存在相关领域概念的数量大于2时,判断每一个相关领域概念是否曾被确认为所述目标领域概念的概念/关系对,若否,则判定为找到新概念/关系对,若是,则需要根据语境判断。
优选的,所述文本中知识领域识别方法还包括:
若存在相关领域概念的数量大于2时,判断每一个相关领域概念是否曾作为所述目标领域概念的结果出现,若否,则判定为找到新概念/关系对,若是,则需要根据语境判断。
本发明还公开了一种文本中知识领域识别系统,包括同句判断模块、第一数量判断模块、第一相对距离计算模块、第一阈值判断模块、第一距离确定模块、第二数量判断模块、第二相对距离计算模块、第二阈值判断模块和第二距离确定模块,其中:
所述同句判断模块,用于判断相关领域概念和目标领域概念是否出现在同一句子中,若是,则控制所述第一数量判断模块工作,若否,则控制第二数量判断模块工作;
所述第一数量判断模块,用于判断所述相关领域概念的数量是否唯一,若是,则判定找到概念/关系对,若否,则控制所述第一相对距离计算模块工作;
所述第一相对距离计算模块,用于计算第一相关领域概念距离和第二相关概念领域距离之差的绝对值,得到第一相对距离,其中,所述第一相关领域概念距离为所述第一相关领域概念与所述目标领域概念之差的绝对值,所述第二相关领域概念距离为所述第二相关领域概念与所述目标领域概念之差的绝对值;
所述第一阈值判断模块,用于判断所述第一相对距离是否大于或等于第一阈值,若是,则控制所述第一距离确定模块工作,若否,则根据语境进行分析,以得到概念/关系对;
所述第一距离确定模块,用于判定所述第一相关领域概念距离和所述第二相关概念领域距离中的较小者相应的相关概念领域为概念/关系对;
所述第二数量判断模块,用于判断所述同句判断模块中的所述相关领域概念在相邻句中是否唯一,若是,则判定找到概念/关系对,若否,则控制所述第二相对距离计算模块工作;
所述第二相对距离计算模块,用于计算第三相关领域概念距离和第四相关概念领域距离之差的绝对值,得到第二相对距离,其中,所述第三相关领域概念距离为所述第三相关领域概念与所述目标领域概念之差的绝对值,所述第四相关领域概念距离为所述第四相关领域概念与所述目标领域概念之差的绝对值;
所述第二阈值判断模块,用于判断所述第三相对距离是否大于或等于第二阈值,若是,则控制所述第二距离确定模块工作,若否,则根据语境进行分析,以得到概念/关系对;
所述第二距离确定模块,用于判定所述第三相关领域概念距离和所述第四相关概念领域距离中的较小者相应的相关概念领域为概念/关系对。
本发明公开了一种文本中知识领域识别方法,通过判断相关概念领域和目标概念领域的位置,若相关概念领域的数量唯一,则找到概念/关系对,若相关概念领域的数量不唯一,则对同句或相邻句中的相关概念领域和目标概念领域的相对距离进行计算,若相对距离大于或等于阈值,则距离目标概念领域更近的相关概念领域为概念/关系对,若小于阈值,则需要根据语境进行分析判断,可以较快速地处理文本中知识领域之间的匹配关系,从而提高了文本中知识领域的识别效率。
本发明还公开了一种文本中知识领域识别系统,具有与上述权利要求相同的技术效果,在此不再赘述。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明公开的一种文本中知识领域识别方法的流程示意图;
图2为本发明公开的一种文本中知识领域识别系统的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例公开了一种文本中知识领域识别方法,参见图1所示,包括步骤S1至S9,其中:
步骤S1:判断相关领域概念和目标领域概念是否出现在同一句子中,若是,则进行步骤S2,若否,则进行步骤S6。
本发明对相关领域概念和目标领域概念的位置进行差异化判断,具体分为出现在同一个句子和出现在不同句子,步骤S2至S5为出现在同一句子,步骤S6至S9为出现在相邻句中。
可以理解的是,相关领域概念和目标领域概念出现在不相邻的句子中涵盖范围过大,例如相关领域概念和目标领域概念分别出现在全文第一段和最后一段,对于出现在不相邻的句子的情况,本发明不予考虑。
步骤S2:判断所述相关领域概念的数量是否唯一,若是,则判定找到概念/关系对,若否,则进行步骤S3;
步骤S3:计算第一相关领域概念距离和第二相关概念领域距离之差的绝对值,得到第一相对距离,其中,所述第一相关领域概念距离为所述第一相关领域概念与所述目标领域概念之差的绝对值,所述第二相关领域概念距离为所述第二相关领域概念与所述目标领域概念之差的绝对值;
步骤S4:判断所述第一相对距离是否大于或等于第一阈值,若是,则进行步骤S5,若否,则根据语境进行分析,以得到概念/关系对;
步骤S5:判定所述第一相关领域概念距离和所述第二相关概念领域距离中的较小者相应的相关概念领域为概念/关系对。
对于步骤S3至S5,一种具体的实施例为:
计算过程中的字符说明如下:
χ表示目标领域概念;
φ表示与目标领域概念有关系的第一相关领域概念;
τ表示与目标领域概念有关的第二相关领域概念;
Pχ表示目标领域概念在文本中出现的位置;
Figure GDA0002241304810000051
表示第一相关领域概念在文本中出现的位置;,
Pτ表示第二相关领域概念在文中出现的位置;
S表示包含目标领域概念的句子及其相邻句子组成的句子集合;
Figure GDA0002241304810000052
表示相关领域概念组成的集合;
χ表示目标领域概念的集合;
Dist(Si):句子中相关领域概念φ或相关领域概念τ与目标领域概念χ的距离,即第一相对距离。
Figure GDA0002241304810000053
表示是否找到相关领域概念φ与目标领域概念χ概念对(φ,χ)。
以下推理规则的构建是建立在包含目标领域概念的当前句子及其相邻句子中只出现一个目标领域概念的假设下的。
对于相关领域概念与目标领域概念都出现在同一句子中的情况,抽取实体语义关系的推理规则公式如下:
Figure GDA0002241304810000061
Figure GDA00022413048100000612
为定义计算符号,表示取或逻辑,
Figure GDA00022413048100000610
左端表示存在的相关领域概念的数量唯一,
Figure GDA00022413048100000611
右端表示第一相对距离大于或等于第一阈值3,且第一相关领域概念在文本中出现的位置
Figure GDA0002241304810000065
比第二相关领域概念在文本中出现的位置Pτ更近;&表示与逻辑,在本式中表示同时满足第一相关领域概念在文本中出现的位置
Figure GDA0002241304810000066
比第二相关领域概念在文本中出现的位置Pτ更近的结果和第一相对距离小于第一阈值3;Sequence(Si)表示相关领域概念与目标领域概念的判定序列,其中判定序列包括第一相关领域概念构成概念/关系对和第二相关领域概念构成概念/关系对;R为相关领域概念与目标领域概念组成的序列集合;others表示运算的其他情况。
当然,第一阈值也可以其他值。
句子中相关领域概念φ或相关领域概念τ与目标领域概念χ的距离Dist(Si)的定义如下:
Figure GDA0002241304810000067
其中∞表示一定存在φ与χ构成的领域概念/关系对;
Figure GDA0002241304810000068
表示相关领域概念φ和相关领域概念τ与目标领域概念χ的相对距离的差的绝对值。
根据以上定义,推理规则公式对应的推理规则为:
①若当前句子中只有相关领域概念φ,而没有相关领域概念τ,则认为φ即是要找的与目标领域概念组成实体语义关系的那个领域相关概念,即找到概念/关系对。
②若当前句子中同时出现相关领域概念φ和相关领域概念τ,则需分别计算相关领域概念φ和相关领域概念τ与目标领域概念χ的相对距离。当相对距离的差的绝对值
Figure GDA0002241304810000069
大于等于某个预定的阀值,且相关领域概念φ与目标概念χ的距离更近(即
Figure GDA0002241304810000071
)时,找到概念/关系对。
③当相对距离的差的绝对值
Figure GDA0002241304810000072
小于某个预定的阀值时,由于相关领域概念φ和相关概念领域概念τ与目标领域概念χ的相对距离差别不大,因此需根据φ、χ、τ出现在文本中的顺序进行进一步分析。
对于步骤S4中所述根据语境进行分析包括:
按照出现顺序获取所述第一相关领域概念、所述第二相关领域概念和所述目标领域的序列集合,根据所述序列集合进行分析。
根据上述具体的实施例,定义φ、χ、τ出现在文本中的序列集合R,其中包含φ、χ、τ在文本中出现的所有可能的次序的组合排列。
Figure GDA0002241304810000073
前四种为第一相关领域概念构成概念/关系对,后两种为第二相关领域概念构成概念/关系对。
例如,判断同句子中的第一相关概念领域disease、第二相关概念领域drug和目标概念领域MedicalSign的序列集合,具体包括如下组合:
①在句子中出现的顺序依次为Drug name、MedicalSign、disease name;
②在句子中出现的顺序依次为Disease name、Drug name、MedicalSign;
③在句子中出现的顺序依次为MedicalSign、Drug name、disease name;
④在句子中出现的顺序依次为drug name、disease name、MedicalSign;
⑤在句子中出现的顺序依次为disease name、MedicalSign、drug name;
⑥在句子中出现的顺序依次为MedicalSign、disease name、drug name;
判断结果为:前四个是药物不良反应,后两个是疾病的症状。
对于根据φ、χ、τ出现在文本中的顺序不同组成的排列组合R,需要根据实际语境和语言习惯等进行综合判断。
步骤S6:判断步骤S1中所述相关领域概念在相邻句中是否唯一,若是,则判定找到概念/关系对,若否,则进行步骤S7;
步骤S7:计算第三相关领域概念距离和第四相关概念领域距离之差的绝对值,得到第二相对距离,其中,所述第三相关领域概念距离为所述第三相关领域概念与所述目标领域概念之差的绝对值,所述第四相关领域概念距离为所述第四相关领域概念与所述目标领域概念之差的绝对值;
步骤S8:判断所述第三相对距离是否大于或等于第二阈值,若是,则进行步骤S9,若否,则根据语境进行分析,以得到概念/关系对;
步骤S9:判定所述第三相关领域概念距离和所述第四相关概念领域距离中的较小者相应的相关概念领域为概念/关系对。
步骤S6至S9为相关领域概念和目标领域概念出现在不同句子中,即相邻句中。
需要说明的是,步骤S6至S9中出现的第三相关领域概念距离、第四相关概念领域距离和第二相对距离,与步骤S2至S5中出现的第一相关领域概念距离、第二相关概念领域距离和第一相对距离仅为防止本领域技术人员阅读时对判断语句内容产生误解而进行的区别,在实际判断中,对于目标语句,相关领域概念和目标领域概念出现的情况是确定的,所以步骤S2至S5和步骤S6至S9是排他的,因此,下述实施例中,仍用上述具体实施例一中的符号进行举例,即φ表示与目标领域概念有关系的第三相关领域概念;τ表示与目标领域概念有关的第四相关领域概念。由于判断文本相同因此第一阈值和第二阈值一般相同,即取3,当然也可以取其他值。
根据步骤S6至S9,具体的实施例二如下:
当相关领域概念φ和相关领域概念τ与目标领域概念χ不在同一句子当中时,抽取实体语义关系的推理规则公式如下所示。
Figure GDA0002241304810000081
其中表示包含目标领域概念的句子及其相邻句子组成的句子集合,Si代表当前句,Si-1和Si+1分别表示目标领域概念所在句子的前一句和后一句。
根据以上定义,推理规则公式对应的推理规则为:
①当相关领域概念φ出现在包含目标领域概念的句子的相邻句中,且相邻句中没有其他相关领域概念时,即认为找到概念/关系对。
②当相关领域概念φ和相关领域概念τ都在包含目标领域概念的句子的相邻句中时,分别计算相关领域概念φ和相关领域概念τ与目标领域概念χ的相对距离。当相关领域概念φ与目标概念χ的距离更近(即
Figure GDA0002241304810000091
)时,找到概念/关系对。
为了提高本发明对存在多个目标领域概念情况的识别效率,所述文本中知识领域识别方法还包括:
若存在相关领域概念的数量大于2时,判断每一个相关领域概念是否曾被确认为所述目标领域概念的概念/关系对,若否,则判定为找到新概念/关系对,若是,则需要根据语境判断。
考虑到文本中内容之间的关系,可以对上述存在多个目标领域情况采取另一种判别方法,具体的,所述文本中知识领域识别方法还包括:
若存在相关领域概念的数量大于2时,判断每一个相关领域概念是否曾作为所述目标领域概念的结果出现,若否,则判定为找到新概念/关系对,若是,则需要根据语境判断。
对于存在多个相关领域概念的情况和存在多个目标领域概念的集合,具体的实施例三如下:
当存在多个相关领域概念或多个目标领域概念时,抽取实体语义关系的推理规则公式如下所示:
Figure GDA0002241304810000092
其中,
Figure GDA0002241304810000093
表示取或,在本推理公式中左端表示多领域集合大于1且从没有被确认为所述目标领域概念的结果,右端表示多领域集合大于1且从没有被作为所述目标领域概念的结果出现,
Figure GDA0002241304810000094
表示多个相关领域概念的集合,X=(x1,x2,...,xm)表示多个目标领域概念的集合,
Figure GDA0002241304810000095
表示已被证明是所述目标领域概念的结果的概念/关系对集合,其中表示已被证明是所述目标领域概念的结果的概念/关系对,
Figure GDA0002241304810000097
表示已确认作为所述目标领域概念的结果的集合。
上述推理规则公式对应的推理规则为:
①若存在多个相关领域概念,判断目标领域概念x是否曾经作为述目标领域概念的结果出现过,若没有,则认为找到新的概念/关系对,只是此时获得的概念/关系对可看作是“一对多”的形式,如
Figure GDA0002241304810000101
②对相关领域概念集合中的每个相关领域概念,都需要判断目标领域概念χ是否曾经与相关领域概念集合中任意一个相关领域概念以概念/关系对的形式被确认为述目标领域概念的结果,若没有,则可认为找到新的概念/关系对。
本发明还公开了一种文本中知识领域识别系统,包括同句判断模块11、第一数量判断模块12、第一相对距离计算模块13、第一阈值判断模块14、第一距离确定模块15、第二数量判断模块16、第二相对距离计算模块17、第二阈值判断模块18和第二距离确定模块19,其中:
所述同句判断模块,用于判断相关领域概念和目标领域概念是否出现在同一句子中,若是,则控制所述第一数量判断模块工作,若否,则控制第二数量判断模块工作;
所述第一数量判断模块,用于判断所述相关领域概念的数量是否唯一,若是,则判定找到概念/关系对,若否,则控制所述第一相对距离计算模块工作;
所述第一相对距离计算模块,用于计算第一相关领域概念距离和第二相关概念领域距离之差的绝对值,得到第一相对距离,其中,所述第一相关领域概念距离为所述第一相关领域概念与所述目标领域概念之差的绝对值,所述第二相关领域概念距离为所述第二相关领域概念与所述目标领域概念之差的绝对值;
所述第一阈值判断模块,用于判断所述第一相对距离是否大于或等于第一阈值,若是,则控制所述第一距离确定模块工作,若否,则根据语境进行分析,以得到概念/关系对;
所述第一距离确定模块,用于判定所述第一相关领域概念距离和所述第二相关概念领域距离中的较小者相应的相关概念领域为概念/关系对;
所述第二数量判断模块,用于判断所述同句判断模块中的所述相关领域概念在相邻句中是否唯一,若是,则判定找到概念/关系对,若否,则控制所述第二相对距离计算模块工作;
所述第二相对距离计算模块,用于计算第三相关领域概念距离和第四相关概念领域距离之差的绝对值,得到第二相对距离,其中,所述第三相关领域概念距离为所述第三相关领域概念与所述目标领域概念之差的绝对值,所述第四相关领域概念距离为所述第四相关领域概念与所述目标领域概念之差的绝对值;
所述第二阈值判断模块,用于判断所述第三相对距离是否大于或等于第二阈值,若是,则控制所述第二距离确定模块工作,若否,则根据语境进行分析,以得到概念/关系对;
所述第二距离确定模块,用于判定所述第三相关领域概念距离和所述第四相关概念领域距离中的较小者相应的相关概念领域为概念/关系对。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上对本发明所提供的一种文本中知识领域识别方法及系统进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (5)

1.一种文本中知识领域识别方法,其特征在于,包括:
步骤S1:判断相关领域概念和目标领域概念是否出现在同一句子中,若是,则进行步骤S2,若否,则进行步骤S6;
步骤S2:判断所述相关领域概念的数量是否唯一,若是,则判定找到概念/关系对,若否,则进行步骤S3;
步骤S3:计算第一相关领域概念距离和第二相关领域概念距离之差的绝对值,得到第一相对距离,其中,所述第一相关领域概念距离为第一相关领域概念与所述目标领域概念之差的绝对值,所述第二相关领域概念距离为第二相关领域概念与所述目标领域概念之差的绝对值;
步骤S4:判断所述第一相对距离是否大于或等于第一阈值,若是,则进行步骤S5,若否,则根据语境进行分析,以得到概念/关系对;
步骤S5:判定所述第一相关领域概念距离和所述第二相关领域概念距离中的较小者相应的相关领域概念为概念/关系对;
步骤S6:判断步骤S1中所述相关领域概念在相邻句中是否唯一,若是,则判定找到概念/关系对,若否,则进行步骤S7;
步骤S7:计算第三相关领域概念距离和第四相关领域概念距离之差的绝对值,得到第二相对距离,其中,所述第三相关领域概念距离为第三相关领域概念与所述目标领域概念之差的绝对值,所述第四相关领域概念距离为第四相关领域概念与所述目标领域概念之差的绝对值;
步骤S8:判断所述第二相对距离是否大于或等于第二阈值,若是,则进行步骤S9,若否,则根据语境进行分析,以得到概念/关系对;
步骤S9:判定所述第三相关领域概念距离和所述第四相关领域概念距离中的较小者相应的相关领域概念为概念/关系对。
2.根据权利要求1所述的文本中知识领域识别方法,其特征在于,步骤S4中所述根据语境进行分析包括:
按照出现顺序获取所述第一相关领域概念、所述第二相关领域概念和所述目标领域的序列集合,根据所述序列集合进行分析。
3.根据权利要求1至2任一项所述的文本中知识领域识别方法,其特征在于,还包括:
若存在相关领域概念的数量大于2时,判断每一个相关领域概念是否曾被确认为所述目标领域概念的概念/关系对,若否,则判定为找到新概念/关系对,若是,则需要根据语境判断。
4.根据权利要求1至2任一项所述的文本中知识领域识别方法,其特征在于,还包括:
若存在相关领域概念的数量大于2时,判断每一个目标领域概念是否曾作为所述目标领域概念的结果出现,若否,则判定为找到新概念/关系对,若是,则需要根据语境判断。
5.一种文本中知识领域识别系统,其特征在于,包括同句判断模块、第一数量判断模块、第一相对距离计算模块、第一阈值判断模块、第一距离确定模块、第二数量判断模块、第二相对距离计算模块、第二阈值判断模块和第二距离确定模块,其中:
所述同句判断模块,用于判断相关领域概念和目标领域概念是否出现在同一句子中,若是,则控制所述第一数量判断模块工作,若否,则控制第二数量判断模块工作;
所述第一数量判断模块,用于判断所述相关领域概念的数量是否唯一,若是,则判定找到概念/关系对,若否,则控制所述第一相对距离计算模块工作;
所述第一相对距离计算模块,用于计算第一相关领域概念距离和第二相关领域概念距离之差的绝对值,得到第一相对距离,其中,所述第一相关领域概念距离为第一相关领域概念与所述目标领域概念之差的绝对值,所述第二相关领域概念距离为第二相关领域概念与所述目标领域概念之差的绝对值;
所述第一阈值判断模块,用于判断所述第一相对距离是否大于或等于第一阈值,若是,则控制所述第一距离确定模块工作,若否,则根据语境进行分析,以得到概念/关系对;
所述第一距离确定模块,用于判定所述第一相关领域概念距离和所述第二相关领域概念距离中的较小者相应的相关领域概念为概念/关系对;
所述第二数量判断模块,用于判断所述同句判断模块中的所述相关领域概念在相邻句中是否唯一,若是,则判定找到概念/关系对,若否,则控制所述第二相对距离计算模块工作;
所述第二相对距离计算模块,用于计算第三相关领域概念距离和第四相关领域概念距离之差的绝对值,得到第二相对距离,其中,所述第三相关领域概念距离为第三相关领域概念与所述目标领域概念之差的绝对值,所述第四相关领域概念距离为第四相关领域概念与所述目标领域概念之差的绝对值;
所述第二阈值判断模块,用于判断所述第二相对距离是否大于或等于第二阈值,若是,则控制所述第二距离确定模块工作,若否,则根据语境进行分析,以得到概念/关系对;
所述第二距离确定模块,用于判定所述第三相关领域概念距离和所述第四相关领域概念距离中的较小者相应的相关领域概念为概念/关系对。
CN201710141937.4A 2017-03-10 2017-03-10 一种文本中知识领域识别方法及系统 Active CN106897270B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710141937.4A CN106897270B (zh) 2017-03-10 2017-03-10 一种文本中知识领域识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710141937.4A CN106897270B (zh) 2017-03-10 2017-03-10 一种文本中知识领域识别方法及系统

Publications (2)

Publication Number Publication Date
CN106897270A CN106897270A (zh) 2017-06-27
CN106897270B true CN106897270B (zh) 2020-01-24

Family

ID=59192690

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710141937.4A Active CN106897270B (zh) 2017-03-10 2017-03-10 一种文本中知识领域识别方法及系统

Country Status (1)

Country Link
CN (1) CN106897270B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102410825B1 (ko) * 2017-08-14 2022-06-20 삼성전자주식회사 문장의 도메인 판단 방법 및 장치
CN112559550B (zh) * 2020-10-30 2021-09-07 北京智源人工智能研究院 基于语义规则和多维模型的多数据源nl2sql系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8402032B1 (en) * 2010-03-25 2013-03-19 Google Inc. Generating context-based spell corrections of entity names
CN105468583A (zh) * 2015-12-09 2016-04-06 百度在线网络技术(北京)有限公司 一种实体关系的获取方法及装置
CN106156083A (zh) * 2015-03-31 2016-11-23 联想(北京)有限公司 一种领域知识处理方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110035210A1 (en) * 2009-08-10 2011-02-10 Benjamin Rosenfeld Conditional random fields (crf)-based relation extraction system

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8402032B1 (en) * 2010-03-25 2013-03-19 Google Inc. Generating context-based spell corrections of entity names
CN106156083A (zh) * 2015-03-31 2016-11-23 联想(北京)有限公司 一种领域知识处理方法及装置
CN105468583A (zh) * 2015-12-09 2016-04-06 百度在线网络技术(北京)有限公司 一种实体关系的获取方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Entity Recognition and Relations Extraction Based on the Structure of Online Encyclopedia;Qing Song et al.;《2015 3rd International Conference on Applied Computing and Information Technology/2nd International Conference on Computational Science and Intelligence》;IEEE;20150716;第478页至482页 *
一种面向知识服务的领域知识发现流程及实例研究;王丽伟 等;《情报学报》;20150131;第34卷(第1期);第45页至52页 *

Also Published As

Publication number Publication date
CN106897270A (zh) 2017-06-27

Similar Documents

Publication Publication Date Title
Sahu et al. Drug-drug interaction extraction from biomedical texts using long short-term memory network
Boukabous et al. Crime prediction using a hybrid sentiment analysis approach based on the bidirectional encoder representations from transformers
WO2018016673A1 (ko) 대체어 자동 추출 장치 및 방법, 이를 수행하기 위한 기록 매체
WO2014132402A1 (ja) データ処理装置および物語モデル構築方法
CN105302882B (zh) 获取关键词的方法及装置
CN112948535A (zh) 一种文本的知识三元组抽取方法、装置及存储介质
Al Wazrah et al. Sentiment analysis using stacked gated recurrent unit for arabic tweets
CN106557463A (zh) 情感分析方法及装置
CN111881688B (zh) 基于屏蔽泛化机制的事件因果关系识别方法、系统、装置
CN113051356A (zh) 开放关系抽取方法、装置、电子设备及存储介质
CN106897270B (zh) 一种文本中知识领域识别方法及系统
CN113593661A (zh) 临床术语标准化方法、装置、电子设备及存储介质
CN111767714B (zh) 一种文本通顺度确定方法、装置、设备及介质
CN113486664A (zh) 文本数据可视化分析方法、装置、设备及存储介质
CN112100398A (zh) 一种专利空白预测方法及系统
CN113282754A (zh) 针对新闻事件的舆情检测方法、装置、设备和存储介质
CN106708807B (zh) 无监督分词模型训练方法及装置
Hicham et al. An efficient approach for improving customer Sentiment Analysis in the Arabic language using an Ensemble machine learning technique
CN110457691B (zh) 基于剧本角色的情感曲线分析方法和装置
Liang et al. Clustering help-seeking behaviors in LGBT online communities: A prospective trial
CN115204300A (zh) 文本和表格语义交互的数据处理方法、装置及存储介质
CN113495964A (zh) 三元组的筛选方法、装置、设备及可读存储介质
KR20170067558A (ko) Svm을 이용한 인터넷 악성댓글 탐지 기법
Dutta et al. Plagiarism Detection by Identifying the Keywords
CN106598936B (zh) 字母词的提取方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant