CN108009182B - 一种信息提取方法和装置 - Google Patents

一种信息提取方法和装置 Download PDF

Info

Publication number
CN108009182B
CN108009182B CN201610972874.2A CN201610972874A CN108009182B CN 108009182 B CN108009182 B CN 108009182B CN 201610972874 A CN201610972874 A CN 201610972874A CN 108009182 B CN108009182 B CN 108009182B
Authority
CN
China
Prior art keywords
instance
semantic
similarity
entity
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610972874.2A
Other languages
English (en)
Other versions
CN108009182A (zh
Inventor
张振中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BOE Technology Group Co Ltd
Original Assignee
BOE Technology Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BOE Technology Group Co Ltd filed Critical BOE Technology Group Co Ltd
Priority to CN201610972874.2A priority Critical patent/CN108009182B/zh
Priority to PCT/CN2017/091999 priority patent/WO2018076774A1/en
Priority to US15/744,301 priority patent/US10657330B2/en
Priority to EP17821457.3A priority patent/EP3535672A4/en
Publication of CN108009182A publication Critical patent/CN108009182A/zh
Application granted granted Critical
Publication of CN108009182B publication Critical patent/CN108009182B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3325Reformulation based on results of preceding query
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/03Data mining

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供一种信息提取方法和装置,涉及智能设备技术领域,可提高信息提取的准确率。所述信息提取方法包括:根据给定的语义关系,获取与所述语义关系对应的实体对,根据所述实体对获取第一实例;所述第一实例为含有所述实体对的语句;对所述第一实例中不具有给定语义关系的实例进行删减,得到第二实例。

Description

一种信息提取方法和装置
技术领域
本发明涉及智能设备技术领域,尤其涉及一种信息提取方法和装置。
背景技术
在各个技术领域,大部分的知识来源于非结构化的文本,随着各领域的快速发展,研究文献以指数级增长,丰富了各领域的相关知识。
但是,研究文献爆炸式的增长速度远远超过人们对文献分析的速度,使得研究者很难从文献库中找到所需信息。因此,帮助研究者从海量的文献中挖掘有用信息已经引起学术界和工业界的广泛关注。
目前,有技术人员通过语义关系抽取的方式帮助研究者从海量的文献中挖掘有用信息,但由于用来训练模型的样本数据准确度较低,使得训练出的模型准确度较低,导致最终获取的信息普遍存在着准确率较低等问题。
发明内容
本发明的实施例提供一种信息提取方法和装置,可提高信息提取的准确率。
为达到上述目的,本发明的实施例采用如下技术方案:
第一方面,提供一种信息提取方法,包括:根据给定的语义关系,获取与所述语义关系对应的实体对,根据所述实体对获取第一实例;所述第一实例为含有所述实体对的语句;对所述第一实例中不具有给定语义关系的实例进行删减,得到第二实例。
优选的,根据给定的语义关系,获取与所述语义关系对应的实体对,根据所述实体对获取第一实例,包括:根据给定的语义关系,从知识库中获取对应所述语义关系的实体对;使用命名实体识别工具,对数据库中包含命名实体的语句进行标记;从标记的语句中检索出包含所述实体对的第一实例。
优选的,对所述第一实例中不具有给定语义关系的实例进行删减,得到第二实例,包括:根据所述实体对,对每个所述第一实例进行第一特征抽取,构建第一实例-特征矩阵Mnf,n为所述第一实例的个数,f为所有所述第一特征的个数;其中,所述第一特征包括词汇特征和/或句法特征;构建语义关系-第一实例矩阵Mrn;r为所述语义关系的个数;构建语义关系-特征矩阵Mrf,Mrf=Mrn*Mnf;通过非负矩阵分解方法将语义关系-特征矩阵Mrf分解为Mrk*Mkf,k<f;Mrk为所述语义关系在潜在语义空间中的表示矩阵;将Mnf*Mkf T,得到Mnk;其中,Mnk为所述第一实例在潜在语义空间中的表示矩阵;根据Mnk与Mrk T,得到所述第一实例与所述语义关系的相似度;根据所述相似度,在所述第一实例中,筛选出所述第二实例。
进一步优选的,根据Mnk与Mrk T,得到所述第一实例与所述语义关系的相似度,包括:根据Mnk与Mrk T,通过余弦相似度,得到所述第一实例与所述语义关系的相似度。
优选的,根据所述相似度,在所述第一实例中,筛选出所述第二实例,包括:对所述相似度进行归一化处理,使每个所述第一实例与所有所述语义关系的相似度之和为1;根据每个所述第一实例对应的归一化处理后的相似度,计算每个所述第一实例的信息熵;选取信息熵小于预定阈值的所述第一实例作为所述第二实例。
优选的,所述方法还包括:根据所述实体对,对每个所述第二实例进行第二特征的抽取,训练出分类器,所述分类器的目标分类为给定的所述语义关系;其中,所述第二特征包括词汇特征和/或句法特征;根据所述分类器,从文本语句中识别给定的所述语义关系并分类。
进一步优选的,根据所述分类器,从文本语句中识别给定的所述语义关系并分类,包括:使用命名实体识别工具,对数据库中包含命名实体的语句进行标记;从标记的语句中检索出包含所述实体对的文本语句;根据所述分类器,识别所述文本语句中的所述实体对对应的所述语义关系并分类。
基于上述,优选的,所述词汇特征包括所述实体对在语句中的位置、所述实体对之间的词序列、所述实体对之间的词性序列、所述实体对的大小为X的左窗口、以及所述实体对的大小为X的右窗口中至少一种;其中,X≥0;所述句法特征包括所述实体对之间的最短依存路径、所述实体对的大小为Y的左窗口、以及所述实体对的大小为Y的右窗口中至少一种;其中,Y≥0。
第二方面,提供一种信息提取装置,包括:获取模块和筛选模块;获取模块,用于根据给定的语义关系,获取与所述语义关系对应的实体对,根据所述实体对获取第一实例;所述第一实例为含有所述实体对的语句;筛选模块,用于对所述第一实例中不具有给定语义关系的实例进行删减,得到第二实例。
优选的,所述获取模块具体用于:根据给定的语义关系,从知识库中获取对应所述语义关系的实体对;使用命名实体识别工具,对数据库中包含命名实体的语句进行标记;从标记的语句中检索出包含所述实体对的第一实例。
优选的,所述筛选模块具体用于:根据所述实体对,对每个所述第一实例进行第一特征抽取,构建第一实例-特征矩阵Mnf,n为所述第一实例的个数,f为所有所述第一特征的个数;其中,所述第一特征包括词汇特征和/或句法特征;构建语义关系-第一实例矩阵Mrn;r为所述语义关系的个数;构建语义关系-特征矩阵Mrf,Mrf=Mrn*Mnf;通过非负矩阵分解方法将语义关系-特征矩阵Mrf分解为Mrk*Mkf,k<f;Mrk为所述语义关系在潜在语义空间中的表示矩阵;将Mnf*Mkf T,得到Mnk;其中,Mnk为所述第一实例在潜在语义空间中的表示矩阵;根据Mnk与Mrk T,得到所述第一实例与所述语义关系的相似度;根据所述相似度,在所述第一实例中,筛选出所述第二实例。
进一步优选的,所述筛选模块,用于根据Mnk与Mrk T,得到所述第一实例与所述语义关系的相似度,具体包括:根据Mnk与Mrk T,通过余弦相似度,得到所述第一实例与所述语义关系的相似度。
优选的,所述筛选模块,用于根据所述相似度,在所述第一实例中,筛选出所述第二实例,具体包括:对所述相似度进行归一化处理,使每个所述第一实例与所有所述语义关系的相似度之和为1;根据每个所述第一实例对应的归一化处理后的相似度,计算每个所述第一实例的信息熵;选取信息熵小于预定阈值的所述第一实例作为所述第二实例。
优选的,所述装置还包括分类器训练模块和信息提取模块;所述分类器训练模块,用于根据所述实体对,对每个所述第二实例进行第一特征抽取,训练出分类器,所述分类器的目标分类为给定的所述语义关系;其中,所述第一特征包括词汇特征和/或句法特征;信息提取模块,用于根据所述分类器,从文本语句中识别给定的所述语义关系并分类。
进一步优选的,所述信息提取模块,具体用于:使用命名实体识别工具,对数据库中包含命名实体的语句进行标记;从标记的语句中检索出包含所述实体对的文本语句;根据所述分类器,识别所述文本语句中的所述实体对对应的所述语义关系并分类。
基于上述,优选的,所述词汇特征包括所述实体对在语句中的位置、所述实体对之间的词序列、所述实体对之间的词性序列、所述实体对的大小为X的左窗口、以及所述实体对的大小为X的右窗口中至少一种;其中,X≥0;所述句法特征包括所述实体对之间的最短依存路径、所述实体对的大小为Y的左窗口、以及所述实体对的大小为Y的右窗口中至少一种;其中,Y≥0。
本发明实施例提供一种信息提取方法和装置,通过给定的语义关系,获取对应所述语义关系的实体对,根据所述实体对获取第一实例,在此基础上,对第一实例进行筛选,将不具有给定语义关系的第一实例剔除,筛选出具有给定语义关系的第一实施例作为第二实例,从而剔除样本数据中的噪音数据,这样一来,当将样本数据用于训练模型时,可提高模型的准确度,从而提高获取的信息的准确度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种信息提取方法的流程图一;
图2为本发明实施例提供的一种从数据库中获取包含实体对的第一实例的方法的流程图;
图3为本发明实施例提供的一种从第一实例中筛选出第二实例的方法的流程图;
图4为本发明实施例提供的一种根据相似度从第一实例中筛选出第二实例的方法的流程图;
图5为本发明实施例提供的一种信息提取方法的流程图二;
图6为本发明实施例提供的一种根据分类器对语义关系进行识别分类的方法的流程图;
图7为本发明实施例提供的一种信息提取装置的结构示意图一;
图8为本发明实施例提供的一种信息提取装置的结构示意图二。
附图标记:
10-获取模块;20-筛选模块;30-分类器训练模块;40-信息提取模块。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供一种信息提取方法,如图1所示,所述方法包括:
S10、根据给定的语义关系,获取与语义关系对应的实体对,根据实体对获取第一实例;第一实例为含有实体对的语句。
其中,不对语义关系和实体对所属的技术领域进行限定,有语义关系数据库和与语义关系对应的实体对数据库即可。此处的数据库可以是选择现有的数据库,也可以是根据需要制作出的新的数据库。本发明实施例中以医学领域进行举例说明。
此外,不对第一实例的具体获取方式进行限定,获取的第一实例为含有所述实体对的语句即可。
S20、对第一实例中不具有给定语义关系的实例进行删减,得到第二实例。
即,将第一实例中不具有给定语义关系的语句剔除。通常将不具有给定语义关系的语句称为噪音数据,将剔除噪音数据后的实例作为第二实例。
其中,不对剔除噪音数据的具体方式进行限定。
本发明实施例提供一种信息提取方法,通过给定的语义关系,获取对应所述语义关系的实体对,根据所述实体对获取第一实例,在此基础上,对第一实例进行筛选,将不具有给定语义关系的第一实例剔除,筛选出具有给定语义关系的第一实施例作为第二实例,从而剔除样本数据中的噪音数据,这样一来,当将样本数据用于训练模型时,可提高模型的准确度,从而提高获取的信息的准确度。
优选的,如图2所示,上述S10,具体包括:
S11、根据给定的语义关系,从知识库中获取对应所述语义关系的实体对。
在医学领域中,一体化语言系统(Unified Medical Language System,简称UMLS)包括四个部分:超级叙词表(Metathesaurus)、语义网络(Semantic Network)、情报源图谱(Information Sources Map)和专家词典(SPECIALIST Lexicon),给定的语义关系为语义网络中分类的54种语义关系中的至少一种。
知识库为预先选定或制作的知识库,例如可以是UMLS等本领域技术人员惯用的知识库。实体对为知识库中总结出的具有一定语义关系的两个实体,实体例如可以是疾病、药物、基因等。其中,本发明实施例所指的实体对,可以是多个实体对,只要每个实体对与给定的语义关系对应即可。
数据库为含有文本的数据库,例如可以是知网、万方等现有的数据库。此处,不对文本的种类进行限定,例如可以是论文、期刊、书本等。
此外,本发明的实施例中,从数据库中获取的包含所述实体对的第一实例应为一个或多个,但并不是每个语句均是表达所给定的语义关系。例如,给定的语义关系为“治疗”,从知识库中寻找出的具有该语义关系的实体对有“二甲双胍”和“妊娠糖尿病”、“阿司匹林”和“感冒”,检索出的实例一为“阿司匹林可以用来治疗感冒”,检索出的实例二为“科学家称阿司匹林是1981年感冒流行的罪魁祸首之一”,检索出的实例三为“二甲双胍是治疗妊娠糖尿病的第一选择”,从实例一和实例三中可以读出实体对之间的语义关系为“治疗”,但从实例二中可以读出实体对之间的语义关系为“引起”而不是“治疗”。实例二即为噪音数据,将其剔除,只筛选出实例一和实例三作为第二实例
S12、使用命名实体识别工具,对数据库中包含命名实体的语句进行标记。
其中,命名实体识别(Named Entity Recognition,简称NER)是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词、药名、基因、疾病名称等。使用命名实体识别工具时,语句中包含的上述具有特定意义的实体会被标记出来。通过对语句中的实体进行标记,实现对包含命名实体的语句进行标记。
S13、从标记的语句中检索出包含所述实体对的第一实例。
即,只在S12步骤标记出的语句中检索出包含给定实体对(即S11中获取的实体对)的语句,其他语句均剔除掉。若语句中只包含给定实体对中的一个实体,该语句也会被剔除。
本发明实施例通过采用命名实体识别工具从数据库中获取包含实体对的第一实例,技术成熟,效率高,成本低。
优选的,如图3所示,上述S20,具体包括:
S21、根据所述实体对,对每个第一实例进行第一特征抽取,构建第一实例-特征矩阵Mnf,n为第一实例的个数,f为所有第一特征的个数;其中,第一特征包括词汇特征和/或句法特征。
其中,对每个第一实例进行第一特征抽取,抽取出的第一特征可以是:将第一实例中实体对在每个语句中具有的词汇特征和/或句法特征抽取出来后取交集或并集,当然还可以是其他抽取方式。
构建第一实例-特征矩阵Mnf,即判断每个第一实例是否具有抽取出的第一特征。在第一实例-特征矩阵Mnf中,每行数据可表示该行对应的第一实例是否具有抽取出的第一特征。例如可以用“1”表示该第一实例具有某一第一特征,用“0”表示该第一实例不具有某一第一特征。以下实施例中以第一实例具有某一第一特征则为“1”,第一实例不具有某一第一特征则为“0”来表示。
例如,有四个第一实例,即n=4,抽取出了六个第一特征,即f=6,实例一具有第一个和第三个第一特征,实例二具有第一个和第四个第一特征,实例三具有第五个和第六个第一特征,实例四具有第二个和第三个第一特征。则得到的第一实例-特征矩阵Mnf为:
Figure BDA0001146220520000081
S22、构建语义关系-第一实例矩阵Mrn;r为语义关系的个数。
其中,在语义关系-第一实例矩阵Mrn中,给定多个语义关系,矩阵中的每列数据可表示该列对应的第一实例是否属于每个语义关系。例如可以用“1”表示第一实例属于某一语义关系,用“0”表示第一实例不属于某一语义关系。
例如,给定了五个语义关系,即r=5,有四个第一实例,实例一和实例二属于第一个语义关系,实例一和实例三属于第二个语义关系,实例一和实例四属于第三个语义关系,实例二和实例三属于第四个语义关系,实例三和实例四属于第五个语义关系,则得到的语义关系-第一实例矩阵Mrn为:
Figure BDA0001146220520000082
S23、构建语义关系-特征矩阵Mrf,Mrf=Mrn*Mnf
即,根据矩阵的乘法,将语义关系-第一实例矩阵Mrn和第一实例-特征矩阵Mrf相乘,得到语义关系-特征矩阵Mrf
例如,基于上述例子,将M46和M54相乘,则得到语义关系-特征矩阵Mrf为:
Figure BDA0001146220520000091
S24、通过非负矩阵分解方法将语义关系-特征矩阵Mrf分解为Mrk*Mkf,k<f;Mrk为语义关系在潜在语义空间中的表示矩阵。
其中,非负矩阵分解(Nonnegtive Matrix Factorization,简称NMF),即找到两个低秩的非负矩阵Mrk和Mkf,使得Mrf=Mrk*Mkf。非负矩阵分解的过程可以采用现有技术中的MATLAB、C、C++等语言程序来实现。
此处,对语义关系-特征矩阵Mrf进行非负矩阵分解,可以是将步骤S21中抽取出的f个第一特征进行筛选,选择出重复率较高或较重要的k个第一特征。即将语义关系-特征矩阵Mrf映射到潜在语义空间中,得到语义关系在潜在语义空间中的表示矩阵Mrk,和第一特征在潜在语义空间中的表示矩阵Mkf T。Mrf经非负矩阵分解得到的矩阵Mrk和Mkf,对Mkf进行转置,即可得到Mkf T。其中,本领域技术人员应该明白,在实际操作中,为了提高样本的可取性,n、r、f均为较大的数值,因此,在实际操作中,k可能会远远小于f。
例如,k=3,则将M56分解为M56=M53*M36
S25、将Mnf*Mkf T,得到Mnk;其中,Mnk为第一实例在潜在语义空间中的表示矩阵。
即,将第一实例-特征矩阵Mnf和第一特征在潜在语义空间中的表示矩阵Mkf T相乘即可得到第一实例在潜在语义空间中的表示矩阵Mnk
例如,M43=M46*M36 T
S26、根据Mnk与Mrk T,得到第一实例与语义关系的相似度。
其中,可以将Mnk与Mrk T相乘,得到第一实例-语义关系在潜在语义空间中的表示矩阵,矩阵中每一行的数值,即表示该行代表的第一实例与每个语义关系的相似度。当然,也可以采用其他的计算方式得到第一实例与语义关系的相似度。
例如,将Mnk与Mrk T相乘,得到第一实例-语义关系在潜在语义空间中的表示矩阵
Figure BDA0001146220520000101
矩阵第一行的数值(2,3,7,4)则表示实例一与第一个语义关系的相似度为2、与第二个语义关系的相似度为3、与第三个语义关系的相似度为7、与第四个语义关系的相似度为4。以此类推,能够得到每个实例与每个语义关系的相似度。
S27、根据所述相似度,在第一实例中,筛选出第二实例。
即,根据步骤S26计算出的每个第一实例与每个语义关系的相似度,筛选出相似度区分性比较明显的第一实例作为第二实例。
例如,上述举出的代表三个第一实例分别与四个语义关系的相似度的矩阵
Figure BDA0001146220520000102
中,实例一与第三个语义关系的相似度较高,明显能够判断出其属于第三个语义关系、实例二则与四个语义关系的相似度相差不大,不能明显的判断出其属于哪一个语义关系、实例三则与第四个语义关系的相似度较高,明显能够判断出其属于第四个语义关系。因此,筛选出第一实例中的实例一和实例三作为第二实例。
本发明实施例通过先采用非负矩阵分解方法将语义关系、实例、特征均映射到潜在的语义空间中,然后在潜在语义空间中得到第一实例与语义关系的相似度,再根据所述相似度是否具有明显的区分性,即通过所述相似度是否能够明显的判断出某一实例属于某种语义关系,在第一实例中筛选出第二实例,这种基于矩阵分解的数据选取方法,在剔除噪音数据过程中,计算量小,效率高。
优选的,根据Mnk与Mrk T,得到第一实例与语义关系的相似度,具体包括:
根据Mnk与Mrk T,通过余弦相似度,得到第一实例与语义关系的相似度。
其中,余弦相似度是用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小,余弦值越接近1,就表明夹角越接近0度,也就是两个向量越相似。本发明中将Mnk中的每行数据和Mrk T中的每列数据分别作为一个向量,通过余弦相似度的算法,得到第一实例与语义关系的相似度。
本发明实施例通过采用余弦相似度的计算方法得到第一实例与语义关系的相似度,效果好,速度快,简单方便。
优选的,如图4所示,根据所述相似度,在第一实例中,筛选出第二实例,具体包括:
S271、对所述相似度进行归一化处理,使每个第一实例与所有语义关系的相似度之和为1。
其中,归一化即:把括号里的一组数据均映射到0~1范围之内处理,并使括号里面数据的总和变成1,然后写出每个数的比例。通过对所述相似度进行归一化处理,可以将第一实例与所有语义关系的相似度看作概率分布。
例如,通过步骤S26计算出的实例一与所有语义关系的相似度分别为(2,3,7,4),通过归一化处理得到实例一与所有语义关系的相似度为:
Figure BDA0001146220520000111
即(0.125,0.1875,0.4375,0.25)。
S272、根据每个第一实例对应的归一化处理后的相似度,计算每个第一实例的信息熵。
即,将第一实例与所有语义关系的相似度看作概率分布,根据信息熵的计算公式,计算每个第一实例的信息熵。
其中,信息是个抽象的概念,熵表示物质系统状态的一个物理量,它表示该状态可能出现的程度,信息熵
Figure BDA0001146220520000112
p(x)为第一实例属于某个语义关系的概率,即归一化后的第一实例与每个语义关系的相似度。
例如,实例一与所有语义关系的相似度分别为(0.125,0.1875,0.4375,0.25),则实例一的信息熵H=-(0.125log0.125+0.1875log0.1875+0.4375log0.4375+0.25log0.25)=0.5567856。
S273、选取信息熵小于预定阈值的第一实例作为第二实例。
其中,信息熵越低表示第一实例所包含的信息越确定,该信息熵对应的实例就越有利于训练模型。因此,信息熵大于预定阈值的第一实例即为噪音数据,从而根据每个第一实例的信息熵,从第一实例中挑选出实例二,达到去除噪音数据的效果。
此外,不对信息熵的预定阈值的取值进行限定,根据数据量合理确定即可。
例如,若信息熵的预定阈值为0.6,则上述信息熵为0.5567856的实例一则会被选取出来作为第二实例。若信息熵的预定阈值为0.5,则上述信息熵为0.5567856的实例一则不会被选取出来作为第二实例,而是作为噪音数据剔除。
本发明实施例通过对相似度进行归一化处理,使每个第一实例与所有语义关系的相似度之和为1,然后将相似度看作概率分布,计算出每个实例的信息熵,并通过选取满足预定阈值信息熵的方式,对噪音数据进行剔除,从第一实例中选取出第二实例,计算量小,获取方便。
优选的,如图5所示,所述方法还包括:
S30、根据所述实体对,对每个第二实例进行第二特征抽取,训练出分类器,所述分类器的目标分类为给定的语义关系;其中,第二特征包括词汇特征和/或句法特征。
其中,第二特征的抽取可以是:将第二实例中实体对在每个语句中具有的词汇特征和/或句法特征均抽取出来后取交集或并集,当然还可以是其他抽取方式。通过抽取出的第二特征,来训练出分类器。此处,不对词汇特征和句法特征的种类进行限定。
此外,训练分类器采用的是现有技术中惯用的手段,分类器所用的特征为上述抽取出的第二特征,分类器最终的输出结果是将文本语句分类到具体的语义关系中。
S40、根据分类器,从文本语句中识别语义关系并分类。
即,将训练好的分类器应用到数据库中,实现对文本语句中的实体对之间的语义关系的识别,并进行分类。
本发明实施例通过使用剔除噪音数据后的第二实例(样本数据)来训练出分类器,使得通过第二实例训练出的分类器的参数的可取性更高,从而提高了利用分类器对文本语句进行信息提取的准确率。
此外,通过利用训练好的分类器,对已有的数据库进行远距离监督学习,自动对文本语句中的实体对之间的语义关系进行识别并分类,代替人工标注数据,降低标注成本,提高语义关系抽取的覆盖度,解决数据稀疏问题。
优选的,如图6所示,上述S40,具体包括:
S41、使用命名实体识别工具,对数据库中包含命名实体的语句进行标记。
S42、从标记的语句中检索出包含所述实体对的文本语句。
S43、根据分类器,识别文本语句中的实体对对应的语义关系并分类。
即,对步骤S42抽取出的每个文本语句进行信息提取,最终的输出结果为文本语句中的实体对属于哪一种语义关系。
例如,属于某一种语义关系,则为“1”,不属于某一种语义关系,则为“0”。
本发明实施例通过使用命名实体识别工具对数据库中包含命名实体的语句进行标记,然后检索出包含实体对的文本语句,并使用分类器对文本语句中的实体对对应的语义关系进行识别并分类,技术成熟,成本低,效率高。
基于上述,优选的,词汇特征包括实体对在语句中的位置、实体对之间的词序列、实体对之间的词性序列、实体对的大小为X的左窗口、以及实体对的大小为X的右窗口中至少一种;其中,X≥0。
句法特征包括实体对之间的最短依存路径、实体对的大小为Y的左窗口、以及实体对的大小为Y的右窗口中至少一种;其中,Y≥0。
其中,实体对在语句中的位置是指实体对在一句话中是紧挨着还是中间间隔其他词;实体对之间的词序列是指实体分别是语句中的第几个词;实体对之间的词性序列是指实体前后的词分别是什么词性(例如名词、动词等);实体对的大小为X的左窗口是指位于前面的实体距离句首有几个词;实体对的大小为X的右窗口是指前面的实体距离后面的实体有几个词;实体对之间的最短依存路径是指实体对之间间隔几个词;实体对的大小为Y的左窗口是指在根据句法特征列出的树状图中,位于语句前面的实体距离句首有几个词;实体对的大小为Y的右窗口是指在根据句法特征列出的树状图中,前面的实体距离后面的实体有几个词。
此处,可以是一种特征即为一个特征,也可以是多种特征组合为一个特征。当一种特征即为一个特征时,文本语句中只要包含这种特征,即具有该特征;当两种特征组合为一个特征时,文本语句中两种特征都包含时,才认为包含该特征。
此外,实体对的大小为X的左窗口、以及实体对的大小为X的右窗口中,X的取值可以相同,可以不同;实体对的大小为Y的左窗口、以及实体对的大小为Y的右窗口中,Y的取值可以相同,可以不同;X和Y的取值可以相同,可以不同。
需要说明的是,一种特征,可以通过变换参数,来作为多个特征。例如对于实体对的大小为X的左窗口的特征,实体对的大小为3的左窗口、实体对的大小为5的左窗口、实体对的大小为6的左窗口均可以作为一个特征。
例如,检索出的文本语句为“科学家称阿司匹林是1981年感冒流行的罪魁祸首之一”,该文本语句中实体对在语句中的位置为不相邻,若抽取的特征是实体对在语句中的位置为相邻,则文本语句的该特征为“0”;该文本语句中实体对之间的词序列为第一个实体是第三个词,第二个实体是第六个词,若抽取的特征正好与上述特征相同,则文本语句的该特征为“1”;该文本语句中实体对之间的词性序列为动词、名词、名词,若抽取的特征与上述特征不同,则文本语句中的该特征为“0”;该文本语句中实体对的左窗口的大小为三,若抽取的特征与上述特征相同,则文本语句中的该特征为“1”;该文本语句中实体对的右窗口的大小为四,若抽取的特征与上述特征不同,则文本语句中的该特征为“0”;该文本语句中实体对之间的最短依存路径为实体对之间有三个词,若抽取的特征与上述特征不同,则文本语句中的该特征为“0”。
本发明实施例通过采用上述词汇特征和句法特征作为第一特征和第二特征,便于判别,应用简单。
本发明实施例还提供一种信息提取装置,如图7所示,包括获取模块10和筛选模块20。
获取模块10,用于根据给定的语义关系,获取与所述语义关系对应的实体对,根据所述实体对获取第一实例;所述第一实例为含有所述实体对的语句。
筛选模块20,用于对所述第一实例中不具有给定语义关系的实例进行删减,得到第二实例。
本发明实施例提供一种信息提取装置,获取模块10通过给定的语义关系,获取对应所述语义关系的实体对,根据所述实体对获取第一实例,在此基础上,筛选模块20对第一实例进行筛选,将不具有给定语义关系的第一实例剔除,筛选出具有给定语义关系的第一实施例作为第二实例,从而剔除样本数据中的噪音数据,这样一来,当将样本数据用于训练模型时,可提高模型的准确度,从而提高获取的信息的准确度。
优选的,获取模块10具体用于:根据给定的语义关系,从知识库中获取对应所述语义关系的实体对;使用命名实体识别工具,对知识库中包含命名实体的语句进行标记;从标记的语句中检索出包含实体对的第一实例。
本发明实施例中获取模块10通过采用命名实体识别工具从数据库中获取包含实体对的第一实例,技术成熟,效率高,成本低。
优选的,筛选模块20具体用于:根据上述实体对,对每个第一实例进行第一特征抽取,构建第一实例-特征矩阵Mnf,n为第一实例的个数,f为所有第一特征的个数;其中,第一特征包括词汇特征和/或句法特征;构建语义关系-第一实例矩阵Mrn;r为语义关系的个数;构建语义关系-特征矩阵Mrf,Mrf=Mrn*Mnf;通过非负矩阵分解方法将语义关系-特征矩阵Mrf分解为Mrk*Mkf,k<f;Mrk为语义关系在潜在语义空间中的表示矩阵;将Mnf*Mkf T,得到Mnk;其中,Mnk为第一实例在潜在语义空间中的表示矩阵;根据Mnk与Mrk T,得到第一实例与语义关系的相似度;根据相似度,在第一实例中,筛选出第二实例。
本发明实施例中筛选模块20通过先采用非负矩阵分解方法将语义关系、实例、特征均映射到潜在的语义空间中,然后在潜在语义空间中得到第一实例与语义关系的相似度,再根据所述相似度是否具有明显的区分性,即通过所述相似度是否能够明显的判断出某一实例属于某种语义关系,在第一实例中筛选出第二实例,这种基于矩阵分解的数据选取方法,在剔除噪音数据过程中,计算量小,效率高。
进一步优选的,筛选模块20,用于根据Mnk与Mrk T,得到第一实例与语义关系的相似度,具体包括:根据Mnk与Mrk T,通过余弦相似度,得到第一实例与语义关系的相似度。
本发明实施例通过采用余弦相似度的计算方法得到第一实例与语义关系的相似度,效果好,速度快,简单方便。
优选的,筛选模块20,用于根据所述相似度,在第一实例中,筛选出第二实例,具体包括:对所述相似度进行归一化处理,使每个第一实例与所有语义关系的相似度之和为1;根据每个第一实例对应的归一化处理后的相似度,计算每个第一实例的信息熵;选取信息熵小于预定阈值的第一实例作为第二实例。
本发明实施例通过对相似度进行归一化处理,使每个第一实例与所有语义关系的相似度之和为1,然后将相似度看作概率分布,计算出每个实例的信息熵,并通过选取满足预定阈值信息熵的方式,对噪音数据进行剔除,从第一实例中选取出第二实例,计算量小,获取方便。
优选的,如图7所示,所述装置还包括分类器训练模块30和信息提取模块40。
分类器训练模块30,用于根据所述实体对,对每个第二实例进行第一特征抽取,训练出分类器,所述分类器的目标分类为给定的语义关系;其中,第一特征包括词汇特征和/或句法特征。
信息提取模块40,用于根据上述分类器,从文本语句中识别给定的所述语义关系并分类。
本发明实施例通过使分类器训练模块30采用剔除噪音数据后的第二实例(样本数据)来训练出分类器,使得通过第二实例训练出的分类器的参数的可取性更高,当采用信息提取模块40对文本语句进行信息提取时,可提高信息提取的准确率。
此外,通过利用训练好的分类器,对已有的数据库进行远距离监督学习,自动对文本语句中的实体对之间的语义关系进行识别并分类,代替人工标注数据,降低标注成本,提高语义关系抽取的覆盖度,解决数据稀疏问题。
优选的,信息提取模块40,具体用于:使用命名实体识别工具,对数据库中包含命名实体的语句进行标记;从标记的语句中检索出包含实体对的文本语句;根据分类器,识别文本语句中的实体对对应的语义关系并分类。
本发明实施例中信息提取模块40通过使用命名实体识别工具对数据库中包含命名实体的语句进行标记,然后检索出包含实体对的文本语句,并使用分类器对文本语句中的实体对对应的语义关系进行识别并分类,技术成熟,成本低,效率高。
基于上述,优选的,词汇特征包括实体对在语句中的位置、实体对之间的词序列、实体对之间的词性序列、实体对的大小为X的左窗口、以及实体对的大小为X的右窗口中至少一种;其中,X≥0。
句法特征包括实体对之间的最短依存路径、实体对的大小为Y的左窗口、以及实体对的大小为Y的右窗口中至少一种;其中,Y≥0。
本发明实施例通过采用上述词汇特征和句法特征作为第一特征和第二特征,便于判别,应用简单。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (14)

1.一种信息提取方法,其特征在于,包括:
根据给定的语义关系,获取与所述语义关系对应的实体对,根据所述实体对获取第一实例;所述第一实例为含有所述实体对的语句;
对所述第一实例中不具有给定语义关系的实例进行删减,得到第二实例,包括:
根据所述实体对,对每个所述第一实例进行第一特征抽取,构建第一实例-特征矩阵Mnf,n为所述第一实例的个数,f为所有所述第一特征的个数;其中,所述第一特征包括词汇特征和/或句法特征;
构建语义关系-第一实例矩阵Mrn;r为所述语义关系的个数;
构建语义关系-特征矩阵Mrf,Mrf=Mrn*Mnf
通过非负矩阵分解方法将语义关系-特征矩阵Mrf分解为Mrk*Mkf,k<f;Mrk为所述语义关系在潜在语义空间中的表示矩阵;
将Mnf*Mkf T,得到Mnk;其中,Mnk为所述第一实例在潜在语义空间中的表示矩阵;
根据Mnk与Mrk T,得到所述第一实例与所述语义关系的相似度;
根据所述相似度,在所述第一实例中,筛选出所述第二实例。
2.根据权利要求1所述的信息提取方法,其特征在于,根据给定的语义关系,获取与所述语义关系对应的实体对,根据所述实体对获取第一实例,包括:
根据给定的语义关系,从知识库中获取对应所述语义关系的实体对;
使用命名实体识别工具,对数据库中包含命名实体的语句进行标记;
从标记的语句中检索出包含所述实体对的第一实例。
3.根据权利要求1所述的信息提取方法,其特征在于,根据Mnk与Mrk T,得到所述第一实例与所述语义关系的相似度,包括:
根据Mnk与Mrk T,通过余弦相似度,得到所述第一实例与所述语义关系的相似度。
4.根据权利要求1所述的信息提取方法,其特征在于,根据所述相似度,在所述第一实例中,筛选出所述第二实例,包括:
对所述相似度进行归一化处理,使每个所述第一实例与所有所述语义关系的相似度之和为1;
根据每个所述第一实例对应的归一化处理后的相似度,计算每个所述第一实例的信息熵;
选取信息熵小于预定阈值的所述第一实例作为所述第二实例。
5.根据权利要求1所述的信息提取方法,其特征在于,还包括:
根据所述实体对,对每个所述第二实例进行第二特征的抽取,训练出分类器,所述分类器的目标分类为给定的所述语义关系;其中,所述第二特征包括词汇特征和/或句法特征;
根据所述分类器,从文本语句中识别给定的所述语义关系并分类。
6.根据权利要求5所述的信息提取方法,其特征在于,根据所述分类器,从文本语句中识别给定的所述语义关系并分类,包括:
使用命名实体识别工具,对数据库中包含命名实体的语句进行标记;
从标记的语句中检索出包含所述实体对的文本语句;
根据所述分类器,识别所述文本语句中的所述实体对对应的所述语义关系并分类。
7.根据权利要求1-6任一项所述的信息提取方法,其特征在于,
所述词汇特征包括所述实体对在语句中的位置、所述实体对之间的词序列、所述实体对之间的词性序列、所述实体对的大小为X的左窗口、以及所述实体对的大小为X的右窗口中至少一种;其中,X≥0;
所述句法特征包括所述实体对之间的最短依存路径、所述实体对的大小为Y的左窗口、以及所述实体对的大小为Y的右窗口中至少一种;其中,Y≥0。
8.一种信息提取装置,其特征在于,包括:获取模块和筛选模块;
所述获取模块,用于根据给定的语义关系,获取与所述语义关系对应的实体对,根据所述实体对获取第一实例;所述第一实例为含有所述实体对的语句;
所述筛选模块,用于对所述第一实例中不具有给定语义关系的实例进行删减,得到第二实例;
所述筛选模块具体用于:
根据所述实体对,对每个所述第一实例进行第一特征抽取,构建第一实例-特征矩阵Mnf,n为所述第一实例的个数,f为所有所述第一特征的个数;其中,所述第一特征包括词汇特征和/或句法特征;
构建语义关系-第一实例矩阵Mrn;r为所述语义关系的个数;
构建语义关系-特征矩阵Mrf,Mrf=Mrn*Mnf
通过非负矩阵分解方法将语义关系-特征矩阵Mrf分解为Mrk*Mkf,k<f;Mrk为所述语义关系在潜在语义空间中的表示矩阵;
将Mnf*Mkf T,得到Mnk;其中,Mnk为所述第一实例在潜在语义空间中的表示矩阵;
根据Mnk与Mrk T,得到所述第一实例与所述语义关系的相似度;
根据所述相似度,在所述第一实例中,筛选出所述第二实例。
9.根据权利要求8所述的信息提取装置,其特征在于,所述获取模块具体用于:
根据给定的语义关系,从知识库中获取对应所述语义关系的实体对;
使用命名实体识别工具,对数据库中包含命名实体的语句进行标记;
从标记的语句中检索出包含所述实体对的第一实例。
10.根据权利要求8所述的信息提取装置,其特征在于,所述筛选模块,用于根据Mnk与Mrk T,得到所述第一实例与所述语义关系的相似度,具体包括:
根据Mnk与Mrk T,通过余弦相似度,得到所述第一实例与所述语义关系的相似度。
11.根据权利要求8所述的信息提取装置,其特征在于,所述筛选模块,用于根据所述相似度,在所述第一实例中,筛选出所述第二实例,具体包括:
对所述相似度进行归一化处理,使每个所述第一实例与所有所述语义关系的相似度之和为1;
根据每个所述第一实例对应的归一化处理后的相似度,计算每个所述第一实例的信息熵;
选取信息熵小于预定阈值的所述第一实例作为所述第二实例。
12.根据权利要求8所述的信息提取装置,其特征在于,还包括分类器训练模块和信息提取模块;
所述分类器训练模块,用于根据所述实体对,对每个所述第二实例进行第一特征抽取,训练出分类器,所述分类器的目标分类为给定的所述语义关系;其中,所述第一特征包括词汇特征和/或句法特征;
所述信息提取模块,用于根据所述分类器,从文本语句中识别给定的所述语义关系并分类。
13.根据权利要求12所述的信息提取装置,其特征在于,所述信息提取模块,具体用于:
使用命名实体识别工具,对数据库中包含命名实体的语句进行标记;
从标记的语句中检索出包含所述实体对的文本语句;
根据所述分类器,识别所述文本语句中的所述实体对对应的所述语义关系并分类。
14.根据权利要求8-13任一项所述的信息提取装置,其特征在于,所述词汇特征包括所述实体对在语句中的位置、所述实体对之间的词序列、所述实体对之间的词性序列、所述实体对的大小为X的左窗口、以及所述实体对的大小为X的右窗口中至少一种;其中,X≥0;
所述句法特征包括所述实体对之间的最短依存路径、所述实体对的大小为Y的左窗口、以及所述实体对的大小为Y的右窗口中至少一种;其中,Y≥0。
CN201610972874.2A 2016-10-28 2016-10-28 一种信息提取方法和装置 Active CN108009182B (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN201610972874.2A CN108009182B (zh) 2016-10-28 2016-10-28 一种信息提取方法和装置
PCT/CN2017/091999 WO2018076774A1 (en) 2016-10-28 2017-07-06 Information extraction method and apparatus
US15/744,301 US10657330B2 (en) 2016-10-28 2017-07-06 Information extraction method and apparatus
EP17821457.3A EP3535672A4 (en) 2016-10-28 2017-07-06 METHOD AND DEVICE FOR INFORMATION EXTRACTION

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610972874.2A CN108009182B (zh) 2016-10-28 2016-10-28 一种信息提取方法和装置

Publications (2)

Publication Number Publication Date
CN108009182A CN108009182A (zh) 2018-05-08
CN108009182B true CN108009182B (zh) 2020-03-10

Family

ID=62024297

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610972874.2A Active CN108009182B (zh) 2016-10-28 2016-10-28 一种信息提取方法和装置

Country Status (4)

Country Link
US (1) US10657330B2 (zh)
EP (1) EP3535672A4 (zh)
CN (1) CN108009182B (zh)
WO (1) WO2018076774A1 (zh)

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109598000B (zh) * 2018-12-28 2023-06-16 百度在线网络技术(北京)有限公司 语义关系识别方法、装置、计算机设备和存储介质
CN111949797A (zh) * 2019-04-30 2020-11-17 广东小天才科技有限公司 一种基于神经网络的实体关系补全方法及装置
CN110428369B (zh) * 2019-06-20 2021-10-08 中国地质大学(武汉) 基于信息熵的chnmf遥感图像解混方法
CN110275928B (zh) * 2019-06-24 2022-11-22 复旦大学 迭代式实体关系抽取方法
CN110674642B (zh) * 2019-08-29 2023-04-18 中国人民解放军国防科技大学 一种用于含噪稀疏文本的语义关系抽取方法
CN110633467B (zh) * 2019-08-29 2023-04-07 中国人民解放军国防科技大学 一种基于改进特征融合的语义关系抽取方法
CN110765774B (zh) * 2019-10-08 2021-09-17 北京三快在线科技有限公司 信息抽取模型的训练方法、装置及信息抽取方法、装置
CN110852107B (zh) * 2019-11-08 2023-05-05 北京明略软件系统有限公司 一种关系提取方法、装置、及存储介质
CN112992303A (zh) * 2019-12-15 2021-06-18 苏州市爱生生物技术有限公司 人类表型标准用语提取方法
CN111143536B (zh) * 2019-12-30 2023-06-20 腾讯科技(深圳)有限公司 基于人工智能的信息抽取方法及存储介质和相关装置
CN111383769B (zh) * 2020-01-08 2024-04-12 科大讯飞股份有限公司 主诉与诊断一致性检测方法、装置、设备及存储介质
CN111767706B (zh) * 2020-06-19 2022-02-22 北京工业大学 文本相似度的计算方法、装置、电子设备及介质
US11416682B2 (en) * 2020-07-01 2022-08-16 International Business Machines Corporation Evaluating chatbots for knowledge gaps
CN111814460B (zh) * 2020-07-06 2021-02-09 四川大学 基于外部知识的药物相互作用关系抽取方法及系统
CN111798987A (zh) * 2020-07-07 2020-10-20 云知声智能科技股份有限公司 一种实体关系抽取方法和设备
CN112464634B (zh) * 2020-12-23 2023-09-05 中译语通科技股份有限公司 基于互信息熵的跨语言实体自动对齐方法及系统
CN112883153B (zh) * 2021-01-28 2023-06-23 北京联合大学 基于信息增强bert的关系分类方法及装置
CN113807518B (zh) * 2021-08-16 2024-04-05 中央财经大学 基于远程监督的关系抽取系统
CN113935310A (zh) * 2021-09-22 2022-01-14 三一重机有限公司 客户需求信息提取方法及装置
CN114417838B (zh) * 2022-04-01 2022-06-21 北京语言大学 基于transformer模型提取同义语块对的方法
CN115658924B (zh) * 2022-11-14 2023-06-09 智慧眼科技股份有限公司 诊疗知识图谱构建方法及其应用方法、装置和存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104281645A (zh) * 2014-08-27 2015-01-14 北京理工大学 一种基于词汇语义和句法依存的情感关键句识别方法
CN105550190A (zh) * 2015-06-26 2016-05-04 许昌学院 面向知识图谱的跨媒体检索系统
CN105938495A (zh) * 2016-04-29 2016-09-14 乐视控股(北京)有限公司 实体关系识别方法及装置

Family Cites Families (44)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6341372B1 (en) * 1997-05-01 2002-01-22 William E. Datig Universal machine translator of arbitrary languages
US6356864B1 (en) * 1997-07-25 2002-03-12 University Technology Corporation Methods for analysis and evaluation of the semantic content of a writing based on vector length
US6510406B1 (en) * 1999-03-23 2003-01-21 Mathsoft, Inc. Inverse inference engine for high performance web search
US6862710B1 (en) * 1999-03-23 2005-03-01 Insightful Corporation Internet navigation using soft hyperlinks
US8554775B2 (en) * 1999-04-13 2013-10-08 Semmx, Inc. Orthogonal corpus index for ad buying and search engine optimization
US6862566B2 (en) 2000-03-10 2005-03-01 Matushita Electric Industrial Co., Ltd. Method and apparatus for converting an expression using key words
US6757646B2 (en) * 2000-03-22 2004-06-29 Insightful Corporation Extended functionality for an inverse inference engine based web search
US7865358B2 (en) * 2000-06-26 2011-01-04 Oracle International Corporation Multi-user functionality for converting data from a first form to a second form
WO2002017128A1 (en) * 2000-08-24 2002-02-28 Science Applications International Corporation Word sense disambiguation
US6697779B1 (en) * 2000-09-29 2004-02-24 Apple Computer, Inc. Combined dual spectral and temporal alignment method for user authentication by voice
US6654740B2 (en) * 2001-05-08 2003-11-25 Sunflare Co., Ltd. Probabilistic information retrieval based on differential latent semantic space
GB2376335B (en) * 2001-06-28 2003-07-23 Vox Generation Ltd Address recognition using an automatic speech recogniser
US7526425B2 (en) * 2001-08-14 2009-04-28 Evri Inc. Method and system for extending keyword searching to syntactically and semantically annotated data
JP2003167914A (ja) * 2001-11-30 2003-06-13 Fujitsu Ltd マルチメディア情報検索方法、プログラム、記録媒体及びシステム
US7403890B2 (en) * 2002-05-13 2008-07-22 Roushar Joseph C Multi-dimensional method and apparatus for automated language interpretation
US7720675B2 (en) * 2003-10-27 2010-05-18 Educational Testing Service Method and system for determining text coherence
ATE363120T1 (de) * 2003-11-10 2007-06-15 Koninkl Philips Electronics Nv Audio-dialogsystem und sprachgesteuertes browsing-verfahren
US7478033B2 (en) * 2004-03-16 2009-01-13 Google Inc. Systems and methods for translating Chinese pinyin to Chinese characters
US20060025995A1 (en) * 2004-07-29 2006-02-02 Erhart George W Method and apparatus for natural language call routing using confidence scores
US7672830B2 (en) * 2005-02-22 2010-03-02 Xerox Corporation Apparatus and methods for aligning words in bilingual sentences
US20060224566A1 (en) 2005-03-31 2006-10-05 Flowers John S Natural language based search engine and methods of use therefor
US7765098B2 (en) * 2005-04-26 2010-07-27 Content Analyst Company, Llc Machine translation using vector space representations
US7451124B2 (en) * 2005-05-12 2008-11-11 Xerox Corporation Method of analyzing documents
WO2008118884A1 (en) * 2007-03-23 2008-10-02 Ruttenberg Steven E Method of prediciting affinity between entities
EP2191421A4 (en) * 2007-09-17 2013-05-08 Capfinder Aktiebolag APPLICATION DRAWING ASSISTANCE SYSTEM
US20120131055A1 (en) * 2009-04-09 2012-05-24 Sigram Schindler Beteiligungsgesellschaft Mbh Fstp expert system
US8738354B2 (en) * 2009-06-19 2014-05-27 Microsoft Corporation Trans-lingual representation of text documents
JP2011227758A (ja) * 2010-04-21 2011-11-10 Sony Corp 情報処理装置、情報処理方法及びプログラム
US8874434B2 (en) * 2010-06-02 2014-10-28 Nec Laboratories America, Inc. Method and apparatus for full natural language parsing
US9323741B2 (en) * 2010-11-03 2016-04-26 Eqsquest System and method for searching functions having symbols
JP2012212422A (ja) * 2011-03-24 2012-11-01 Sony Corp 情報処理装置、および情報処理方法、並びにプログラム
US8700589B2 (en) * 2011-09-12 2014-04-15 Siemens Corporation System for linking medical terms for a medical knowledge base
US10453479B2 (en) * 2011-09-23 2019-10-22 Lessac Technologies, Inc. Methods for aligning expressive speech utterances with text and systems therefor
US9037452B2 (en) * 2012-03-16 2015-05-19 Afrl/Rij Relation topic construction and its application in semantic relation extraction
US9588964B2 (en) * 2012-09-18 2017-03-07 Adobe Systems Incorporated Natural language vocabulary generation and usage
EP2804176A1 (en) * 2013-05-13 2014-11-19 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio object separation from mixture signal using object-specific time/frequency resolutions
US10073840B2 (en) * 2013-12-20 2018-09-11 Microsoft Technology Licensing, Llc Unsupervised relation detection model training
US9734144B2 (en) * 2014-09-18 2017-08-15 Empire Technology Development Llc Three-dimensional latent semantic analysis
US9910847B2 (en) * 2014-09-30 2018-03-06 Accenture Global Services Limited Language identification
US10599700B2 (en) * 2015-08-24 2020-03-24 Arizona Board Of Regents On Behalf Of Arizona State University Systems and methods for narrative detection and frame detection using generalized concepts and relations
WO2017068414A2 (en) * 2015-10-23 2017-04-27 Siemens Medical Solutions Usa, Inc. Generating natural language representations of mental content from functional brain images
CN105160046A (zh) 2015-10-30 2015-12-16 成都博睿德科技有限公司 基于文本的数据检索方法
US9436760B1 (en) * 2016-02-05 2016-09-06 Quid, Inc. Measuring accuracy of semantic graphs with exogenous datasets
US9977717B2 (en) * 2016-03-30 2018-05-22 Wipro Limited System and method for coalescing and representing knowledge as structured data

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104281645A (zh) * 2014-08-27 2015-01-14 北京理工大学 一种基于词汇语义和句法依存的情感关键句识别方法
CN105550190A (zh) * 2015-06-26 2016-05-04 许昌学院 面向知识图谱的跨媒体检索系统
CN105938495A (zh) * 2016-04-29 2016-09-14 乐视控股(北京)有限公司 实体关系识别方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于语义依存关系的汉语语料库的构建;尤昉 等;《中文信息学报》;20030125;第17卷(第1期);46-53 *

Also Published As

Publication number Publication date
US20190005026A1 (en) 2019-01-03
US10657330B2 (en) 2020-05-19
WO2018076774A1 (en) 2018-05-03
EP3535672A1 (en) 2019-09-11
CN108009182A (zh) 2018-05-08
EP3535672A4 (en) 2020-07-01

Similar Documents

Publication Publication Date Title
CN108009182B (zh) 一种信息提取方法和装置
Zhang et al. Natural language processing applied to mental illness detection: a narrative review
Lu et al. Machine learning for synthetic data generation: a review
CN110147436B (zh) 一种基于教育知识图谱与文本的混合自动问答方法
CN109543034B (zh) 基于知识图谱的文本聚类方法、装置及可读存储介质
US20120158400A1 (en) Methods and systems for knowledge discovery
CN110612522B (zh) 实体模型的建立
CN1617134A (zh) 使用机器翻译技术处理释义的系统
WO2020010834A1 (zh) 一种faq问答库泛化方法、装置及设备
Verma et al. Suicide ideation detection: a comparative study of sequential and transformer hybrid algorithms
CN109657056B (zh) 目标样本获取方法、装置、存储介质及电子设备
CN116340544B (zh) 一种基于知识图谱的中医药古籍可视分析方法与系统
Ribeiro et al. Discovering IMRaD structure with different classifiers
CN114842982B (zh) 一种面向医疗信息系统的知识表达方法、装置及系统
US20220156611A1 (en) Method and apparatus for entering information, electronic device, computer readable storage medium
CN115270746A (zh) 问题样本生成方法和装置、电子设备及存储介质
Huang et al. Structure graph refined information propagate network for aspect-based sentiment analysis
CN113590768B (zh) 一种文本关联度模型的训练方法及装置、问答方法及装置
CN108694165A (zh) 面向产品评论的跨领域对偶情感分析方法
CN114582449A (zh) 基于XLNet-BiGRU-CRF模型的电子病历命名实体标准化方法和系统
CN112818122A (zh) 一种面向对话文本的事件抽取方法及系统
Barrett et al. Automated clinical coding using semantic atoms and topology
CN116453702B (zh) 孤独症行为特征集的数据处理方法、设备、系统及介质
Cyras et al. Visualization as a tertium comparationis within multilingual communities
EP4163815A1 (en) Textual content evaluation using machine learned models

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant