CN107169079B - 一种基于Deepdive的领域文本知识抽取方法 - Google Patents
一种基于Deepdive的领域文本知识抽取方法 Download PDFInfo
- Publication number
- CN107169079B CN107169079B CN201710326192.9A CN201710326192A CN107169079B CN 107169079 B CN107169079 B CN 107169079B CN 201710326192 A CN201710326192 A CN 201710326192A CN 107169079 B CN107169079 B CN 107169079B
- Authority
- CN
- China
- Prior art keywords
- entity
- deepdive
- relationship
- candidate relationship
- knowledge
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/253—Grammatical analysis; Style critique
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Abstract
本发明公开了一种基于Deepdive的领域文本知识抽取方法,包括:(1)获取知识库构建系统所需的原始文本,并且对其进行预处理;(2)对预处理后的文本进行实体连接,找到与预设特定关系对应的目标实体,并生成满足实体‑关系‑实体的三元组,组成候选关系实体对集;(3)采用弱监督的方法对多个候选关系实体对进行学习和标注,生成Deepdive工具的训练样本;(4)将训练样本输入至Deepdive工具中,对Deepdive进行训练,并输出概率值大于阈值的候选关系实体对,组成提取的知识库。本发明能够用于完成领域知识库的构建工作,具有很强的扩展性,对于非结构化数据的利用和提取工作具有很好的实用价值。
Description
技术领域
本发明涉及计算机自然语言处理技术,具体设计了一种基于Deepdive的领域文本知识抽取方法。
背景技术
知识库构建在现实中非常具有现实意义和应用前景。苹果的Siri、微软的Cortana的日常运行都建立在大型的知识库基础上,并针对用户的问题,快速的返回正确的答复。而在一些垂直领域,如客服、金融、聊天机器人等,缺乏一些针对特定关系的知识库,或是缺乏信息完备、内容更新及时的知识库。如果能够针对某个特定的领域和某些特定的关系,进行知识库的自动化构建,并达到较高的准确度,能够有效减少在知识库构建上的人力、时间成本,并且为下游应用提供更好的服务。
目前大多数知识库的构建方法很多还是基于半结构化的数据源或者基于众包的方式进行抽取。例如YAGO通过从维基百科的infobox中抽取事实,构建了大规模的多源知识库;google的freebase通过众包的方式构建了一个大规模高质量的知识库辅助其搜索引擎进行更好的搜索服务。对于非结构化文本的知识抽取方法相对工作较少,而且集中在英文的开放域文本,例如Reverb通过对整个Web的开放信息进行抽取自动化构建知识库,但是由于其只按照动词的划分方法来提取关系,所以提取的三元组实体和关系非常粗糙,致使最后的提取结果也不能应用到各个领域中。
目前随着垂直领域数据的不断积累和对智能化需求的不管提高,垂直领域的知识库已经扮演着非常重要的作用。对于结构化和半结构化的数据,已经有非常多的工具能够帮助我们转化为知识库中的知识,但是目前大多数数据来源都是非结构化的,包括资料数据、对话数据等等,针对这一类中文数据的自动化知识提取的方法非常缺乏,使得数据利用非常困难,迫切需要一种领域文本知识抽取方法来弥补这一块缺失。另一方面,Deepdive是一个最新的针对英文文本的知识库提取基础框架,提供了很大的灵活性用于自定义的特征构建以便更好的挖掘知识,目前已经展示出非常好的效果,如果能够针对中文文本的特点加以改造,对于中文文本抽取将会带来非常大的帮助。
发明内容
有鉴于此,本发明提供了一种基于Deepdive的领域文本知识抽取方法,可以自动的从非结构化的文本中提取特定关系的知识。
一种基于Deepdive的领域文本知识抽取方法,包括以下步骤:
(1)获取知识库构建系统所需的原始文本,并且采用jieba工具对原始文本分词,并采用斯坦福的core NLP工具对分词后的文本进行词性标注、命名实体标注以及语法依赖处理,得到预处理后的文本数据;
(2)对预处理后的文本数据进行实体连接,找到与预设特定关系对应的目标实体,并生成满足实体-关系-实体的三元组,组成候选关系实体对集;
(3)采用弱监督的方法对候选关系实体对集中的多个候选关系实体对进行学习和标注,生成大量的候选关系实体对作为Deepdive工具的训练样本,并将训练样本中候选关系实体对对应的关系组成的关系集作为真值标签;
(4)将训练样本和真值标签输入至Deepdive工具中,以目标函数y最大为目标,对Deepdive进行训练,并输出概率值大于阈值的候选关系实体对,组成提取的知识库。
步骤(2)中,知识库构建的原始数据是非结构化的文本数据对象,通过特定的本体和先验知识,从中提取出所需要的知识三元组。候选关系实体对的获取通过构建一个映射表和简单的判断规则来得到,例如对于公司类的实体,需要去除一些后缀词汇例如“股份”、“有限”等。
使用弱监督方法对候选关系实体对进行学习与标注的具体步骤包括:
(a)候选关系实体对集中的候选关系实体对标注为正例,采用负抽样方法获得反例;
(b)使用规则进行弱监督,对于大多数垂直领域,领域专家都有相应的规则来表达某些特定的关系,因此可以利用相似的语法结构来制定相应的规则从而检测某些语句是否表达某一特定关系,并且将这些数据标注为正例;
(c)不断迭代步骤(b),直到满足迭代次数或获得足够多的候选关系实体为止,输出最后得到的所有候选关系实体。
不同于传统的基于规则提取的方法,Deepdive提供了一套更健壮性的特征提取的方法来获取目标知识三元组。
步骤(4)中,所述Deepdive进行训练的过程为:
首先,Deepdive内建的特征库处理训练样本中候选关系实体对的上下文,从上下文的分词结果、语法依赖、词性标注结果中提取词语的nGram特性和词性标签;
然后,根据提取的nGram特性和词性标签以及训练样本,采用Factor Graph进行图概率的统计推理和知识学习,得到概率值大于阈值的候选关系实体对,组成提取的知识库。
步骤(4)中,所述的目标函数y为:
其中:
gj=wjf(σ(v1),σ(v2),…,σ(vaj))
σ(v1)表示因子图变量v1的概率值,σ(vaj)表示因子图变量vaj的概率值,aj表示为与第j个变量有相关性的随机变量的数目,f(·)表示因子图各随机变量之间的相关性表,wj表示f(·)的实数权重,Z[I]表示一个区分函数,I表示可能的一种结果假设;Ie表示多种可能的结果假设组成的可能世界;fi∈f表示一个随机变量以特定方式和其他变量的相关性。
在factor graph的概率分布上,权重学习计算得到每种factor对应的权值。在给定的“可能世界”集合Ie上,通过最大化这些“可能世界”的出现概率,能够得到集合Ie对应的权值。
相比于中文非结构化文本知识提取工具和方法的缺失,本发明提出的基于Deepdive的知识库构建方法,可以自动的从非结构化的文本中提取特定关系的知识,具体优势体现如下:
(1)本发明利用弱监督的方法进行样本标注,大大降低了人工标注的成本。
(2)本发明提供了灵活的特征提取方法使得其可以有效的应用到各个垂直领域的知识提取中去,具有很强的实用性和灵活性。
(3)本发明可用于中文非结构化内容的提取。
附图说明
图1是本发明基于Deepdive的领域文本知识抽取方法的基本流程图;
图2是本发明中原始文本预处理的示例图。
具体实施方式
为了更为具体地描述本发明,下面结合附图及具体实施方式对本发明的技术方案进行详细说明。
本实例要求分析金融公告数据,提取金融领域股权变化类知识,从而构建相应的公司股权知识库。总体的相应的公司股权知识库的构建方法如图1所示:
S01,获取相应的金融公告数据,通过一系列工具将其转化为txt文本内容,并且采用jieba工具对公告数据分词,并采用斯坦福的core NLP工具对分词后的公告数据进行词性标注、命名实体标注以及语法依赖处理,得到预处理后的公告数据,图2所示的是对一句话进行预处理的结果示意图。
S02,对预处理后的公告数据进行实体连接,找到与买卖关系对应的目标实体,并生成满足实体-买卖关系-实体的三元组,组成候选关系实体对集。
S03,采用弱监督的方法对候选关系实体对集中的多个候选关系实体对进行学习和标注,生成大量的候选关系实体对作为Deepdive工具的训练样本,并将训练样本中候选关系实体对对应的关系组成的关系集作为真值标签。
本步骤中,首先在已有知识库的基础上通过远程监督构建关系候选表,随后构建相应的关系特征表,之后利用弱监督的方法从已有的知识库中进行样本的标记,基于规则的标记方法也同样可以进行标记。
S04,将训练样本和真值标签输入至Deepdive工具中,以目标函数y最大为目标,对Deepdive进行训练,并输出概率值大于0.95的候选关系实体对,组成提取的知识库。
目标函数y为:
其中:
gj=wjf(σ(v1),σ(v2),…,σ(vaj))
σ(v1)表示因子图变量v1的概率值,σ(vaj)表示因子图变量vaj的概率值,aj表示为与第j个变量有相关性的随机变量的数目,f(·)表示因子图各随机变量之间的相关性表,wj表示f(·)的实数权重,Z[I]表示一个区分函数,I表示可能的一种结果假设;Ie表示多种可能的结果假设组成的可能世界;fi∈f表示一个随机变量以特定方式和其他变量的相关性。
此步骤中,Deepdive进行训练的过程为:
首先,Deepdive内建的特征库处理训练样本中候选关系实体对的上下文,进而从从上下文的分词结果、语法依赖、词性标注结果中提取词语的nGram特性和词性标签。
然后,根据提取的nGram特性和词性标签以及训练样本,采用Factor Graph进行图概率的统计推理和知识学习,进而得到概率值大于阈值的候选关系实体对,组成提取的知识库。
以上所述的具体实施方式对本发明的技术方案和有益效果进行了详细说明,应理解的是以上所述仅为本发明的最优选实施例,并不用于限制本发明,凡在本发明的原则范围内所做的任何修改、补充和等同替换等,均应包含在本发明的保护范围之内。
Claims (2)
1.一种基于Deepdive的领域文本知识抽取方法,包括以下步骤:
(1)获取知识库构建系统所需的原始文本,并且采用jieba工具对原始文本分词,并采用斯坦福的core NLP工具对分词后的文本进行词性标注、命名实体标注以及语法依赖处理,得到预处理后的文本数据;
(2)对预处理后的文本数据进行实体连接,找到与预设特定关系对应的目标实体,并生成满足实体-关系-实体的三元组,组成候选关系实体对集;
(3)采用弱监督的方法对候选关系实体对集中的多个候选关系实体对进行学习和标注,生成大量的候选关系实体对作为Deepdive工具的训练样本,并将训练样本中候选关系实体对对应的关系组成的关系集作为真值标签;
(4)将训练样本和真值标签输入至Deepdive工具中,以目标函数y最大为目标,对Deepdive进行训练,并输出概率值大于阈值的候选关系实体对,组成提取的知识库;
所述的采用弱监督方法对候选关系实体对进行学习与标注的具体步骤包括:
(a)候选关系实体对集中的候选关系实体对标注为正例,采用负抽样方法获得反例;
(b)利用相似的语法结构来制定相应的规则,检测某些语句是否表达某一特定关系,并且将这些数据标注为正例;
(c)不断迭代步骤(b),直到满足迭代次数或获得足够多的候选关系实体为止,输出最后得到的所有候选关系实体;
所述Deepdive训练的过程为:
首先,Deepdive内建的特征库处理训练样本中候选关系实体对的上下文,从上下文的分词结果、语法依赖、词性标注结果中提取词语的nGram特性和词性标签;
然后,根据提取的nGram特性和词性标签以及训练样本,采用Factor Graph进行图概率的统计推理和知识学习,得到概率值大于阈值的候选关系实体对,组成提取的知识库。
2.如权利要求1所述的Deepdive的领域文本知识抽取方法,其特征在于,所述的目标函数y为:
其中:
gj(t,I)=wjf(σ(v1),σ(v2),…,σ(vaj))
σ(v1)表示因子图变量v1的概率值,σ(vaj)表示因子图变量vaj的概率值,aj表示为与第j个变量有相关性的随机变量的数目,f(·)表示因子图各随机变量之间的相关性表,wj表示f(·)的实数权重,Z[I]表示一个区分函数,I表示可能的一种结果假设;Ie表示多种可能的结果假设组成的可能世界;fi∈f表示一个随机变量以特定方式和其他变量的相关性。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710326192.9A CN107169079B (zh) | 2017-05-10 | 2017-05-10 | 一种基于Deepdive的领域文本知识抽取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710326192.9A CN107169079B (zh) | 2017-05-10 | 2017-05-10 | 一种基于Deepdive的领域文本知识抽取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107169079A CN107169079A (zh) | 2017-09-15 |
CN107169079B true CN107169079B (zh) | 2019-09-20 |
Family
ID=59813058
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710326192.9A Active CN107169079B (zh) | 2017-05-10 | 2017-05-10 | 一种基于Deepdive的领域文本知识抽取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107169079B (zh) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110209743B (zh) * | 2018-02-07 | 2021-10-01 | 大连理工大学 | 知识管理系统及方法 |
CN108763353B (zh) * | 2018-05-14 | 2022-03-15 | 中山大学 | 基于规则和远程监督的百度百科关系三元组抽取方法 |
CN109325201A (zh) | 2018-08-15 | 2019-02-12 | 北京百度网讯科技有限公司 | 实体关系数据的生成方法、装置、设备及存储介质 |
CN110110092B (zh) * | 2018-09-30 | 2021-03-09 | 北京国双科技有限公司 | 一种知识图谱构建方法及相关设备 |
CN109472033B (zh) * | 2018-11-19 | 2022-12-06 | 华南师范大学 | 文本中的实体关系抽取方法及系统、存储介质、电子设备 |
CN109933788B (zh) * | 2019-02-14 | 2023-05-23 | 北京百度网讯科技有限公司 | 类型确定方法、装置、设备和介质 |
CN110032649B (zh) * | 2019-04-12 | 2021-10-01 | 北京科技大学 | 一种中医文献的实体间关系抽取方法及装置 |
CN110442730A (zh) * | 2019-07-18 | 2019-11-12 | 北京市天元网络技术股份有限公司 | 一种基于deepdive的知识图谱构建方法 |
CN110569366B (zh) * | 2019-09-09 | 2023-05-23 | 腾讯科技(深圳)有限公司 | 文本的实体关系抽取方法、装置及存储介质 |
CN110968695A (zh) * | 2019-11-18 | 2020-04-07 | 罗彤 | 基于弱监督技术主动学习的智能标注方法、装置及平台 |
CN111950269A (zh) * | 2020-08-21 | 2020-11-17 | 清华大学 | 文本语句处理方法、装置、计算机设备和存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104133848A (zh) * | 2014-07-01 | 2014-11-05 | 中央民族大学 | 藏语实体知识信息抽取方法 |
CN105528437A (zh) * | 2015-12-17 | 2016-04-27 | 浙江大学 | 一种基于结构化文本知识提取的问答系统构建方法 |
CN106294593A (zh) * | 2016-07-28 | 2017-01-04 | 浙江大学 | 结合从句级远程监督和半监督集成学习的关系抽取方法 |
-
2017
- 2017-05-10 CN CN201710326192.9A patent/CN107169079B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104133848A (zh) * | 2014-07-01 | 2014-11-05 | 中央民族大学 | 藏语实体知识信息抽取方法 |
CN105528437A (zh) * | 2015-12-17 | 2016-04-27 | 浙江大学 | 一种基于结构化文本知识提取的问答系统构建方法 |
CN106294593A (zh) * | 2016-07-28 | 2017-01-04 | 浙江大学 | 结合从句级远程监督和半监督集成学习的关系抽取方法 |
Non-Patent Citations (2)
Title |
---|
Extracting Databases from Dark Data with DeepDive;Ce Zhang etc;《Proceedings of the 2016 International Conference on Management of Data》;20160630;847-859 * |
web语义查询与推理研究;陈华钧;《中国博士学位论文全文数据库(电子期刊)》;20050615(第2期);I139-18,1-139 * |
Also Published As
Publication number | Publication date |
---|---|
CN107169079A (zh) | 2017-09-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107169079B (zh) | 一种基于Deepdive的领域文本知识抽取方法 | |
CN110134757B (zh) | 一种基于多头注意力机制的事件论元角色抽取方法 | |
CN107330011B (zh) | 多策略融合的命名实体的识别方法及装置 | |
CN104572958B (zh) | 一种基于事件抽取的敏感信息监控方法 | |
CN105677873B (zh) | 基于领域知识模型的文本情报关联聚类汇集处理方法 | |
CN107609132B (zh) | 一种基于语义本体库中文文本情感分析方法 | |
CN109165294B (zh) | 一种基于贝叶斯分类的短文本分类方法 | |
CN104598535B (zh) | 一种基于最大熵的事件抽取方法 | |
CN106709754A (zh) | 一种用基于文本挖掘的电力用户分群方法 | |
CN112131872A (zh) | 一种文献作者重名消歧方法和构建系统 | |
CN109726745B (zh) | 一种融入描述知识的基于目标的情感分类方法 | |
CN106202543A (zh) | 基于机器学习的本体匹配方法和系统 | |
CN106777957B (zh) | 不平衡数据集上生物医学多参事件抽取的新方法 | |
CN108287911A (zh) | 一种基于约束化远程监督的关系抽取方法 | |
CN105183715B (zh) | 一种基于词分布和文档特征的垃圾评论自动分类方法 | |
CN108829661B (zh) | 一种基于模糊匹配的新闻主体名称提取方法 | |
CN108733647B (zh) | 一种基于高斯分布的词向量生成方法 | |
CN103646112A (zh) | 利用了网络搜索的依存句法的领域自适应方法 | |
CN112069312B (zh) | 一种基于实体识别的文本分类方法及电子装置 | |
CN113360582B (zh) | 基于bert模型融合多元实体信息的关系分类方法及系统 | |
CN107247739A (zh) | 一种基于因子图的金融公报文本知识提取方法 | |
CN115858758A (zh) | 一种多非结构化数据识别的智慧客服知识图谱系统 | |
CN111159356A (zh) | 基于教学内容的知识图谱构建方法 | |
CN111914550A (zh) | 一种面向限定领域的知识图谱更新方法及系统 | |
CN110399433A (zh) | 一种基于深度学习的数据实体关系抽取方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |