CN104166682A - 一种基于组合理论的类自然语言的语义信息抽取方法及系统 - Google Patents

一种基于组合理论的类自然语言的语义信息抽取方法及系统 Download PDF

Info

Publication number
CN104166682A
CN104166682A CN201410347424.5A CN201410347424A CN104166682A CN 104166682 A CN104166682 A CN 104166682A CN 201410347424 A CN201410347424 A CN 201410347424A CN 104166682 A CN104166682 A CN 104166682A
Authority
CN
China
Prior art keywords
semantic
rule
target text
semantic information
natural language
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410347424.5A
Other languages
English (en)
Other versions
CN104166682B (zh
Inventor
贾岩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ANHUI HUAZHEN INFORMATION SCIENCE & TECHNOLOGY Co Ltd
Original Assignee
ANHUI HUAZHEN INFORMATION SCIENCE & TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ANHUI HUAZHEN INFORMATION SCIENCE & TECHNOLOGY Co Ltd filed Critical ANHUI HUAZHEN INFORMATION SCIENCE & TECHNOLOGY Co Ltd
Priority to CN201410347424.5A priority Critical patent/CN104166682B/zh
Publication of CN104166682A publication Critical patent/CN104166682A/zh
Application granted granted Critical
Publication of CN104166682B publication Critical patent/CN104166682B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Abstract

本发明公开了一种基于组合理论的类自然语言的语义信息抽取方法及系统,该系统包括:规则建立模块,用于根据已有的本体、语义词典和分类体系建立规则体系,其语义规则以类似自然语言的书写格式定义;规则组合模块,连接规则建立模块,用于根据规则体系组合匹配训练集,生成可选语义规则的机制;数据匹配模块,连接规则组合模块,用于根据匹配训练集对目标文本进行数据匹配,并获得目标文本的语义信息。本发明提出的一种基于组合理论的类自然语言的语义信息抽取方法及系统,其语义信息丰富、准确率和召回率高,成本低,可产业化。

Description

一种基于组合理论的类自然语言的语义信息抽取方法及系统
技术领域
本发明涉及信息提取技术领域,尤其涉及一种基于组合理论的类自然语言的语义信息抽取方法及系统。
背景技术
信息抽取就是从文本中抽取特定的实时信息。在大多数的信息抽取中,都是通过识别文本中的实体,对实体进行语义分析来确定文本语义信息的,但是该类方法局限性大,在语义分析过程中,语义信息的描述过于机械化,容易遗漏,特征项的选取较片面,语义表达不完整甚至错误,总而言之,现有的语义抽取技术,准确率和召回率达不到要求,从而难以对文本进行有效利用。
因此,现有技术中,在进行文本语义处理的过程中,如何做到对文本信息进行有效利用,是亟待解决的问题。
发明内容
基于背景技术存在的技术问题,本发明提出了一种基于组合理论的类自然语言的语义信息抽取方法及系统,其语义信息丰富、准确率和召回率高,成本低,可产业化。
本发明提出的一种基于组合理论的类自然语言的语义信息抽取方法,包括:
S1、根据已有的本体、语义词典和分类体系建立规则体系,其语义规则以类似自然语言的书写格式定义;
S2、根据规则体系中的语义规则组合匹配训练集,生成可选语义规则的机制;
S3、根据匹配训练集对目标文本进行数据匹配,并获得目标文本的语义信息。
优选地,步骤S1具体包括:
S11、获取目标文本;
S12、根据目标文本在预制本体、语义词典和分类体系中获取对应的本体、语义词典和分类体系;
S13、根据对应的本体、语义词典和分类体系建立规则体系。
优选地,步骤S12中还包括:根据本体、语义词典和分类体系对目标文本进行标注。
优选地,步骤S3具体为:根据规则体系对目标文本进行段落级、句子级或词语级的数据匹配,再根据匹配结果进行语义归纳和筛选,获得目标文本的语义信息。
优选地,步骤S1中,语义规则的组成元素可细化到短句、词汇或字符层面。
优选地,步骤S2中,语义规则的组合逻辑为布尔表达逻辑、类正则表达逻辑、连接表达逻辑和位置表达逻辑。
一种基于组合理论的类自然语言的语义信息抽取系统,包括:
规则建立模块,用于根据已有的本体、语义词典和分类体系建立规则体系,其语义规则以类似自然语言的书写格式定义;
规则组合模块,连接规则建立模块,用于根据规则体系组合匹配训练集,生成可选语义规则的机制;
数据匹配模块,连接规则组合模块,用于根据匹配训练集对目标文本进行数据匹配,并获得目标文本的语义信息。
优选地,规则建立模块还用于获取目标文本,根据目标文本获取对应的本体、语义词典和分类体系。
优选地,规则建立模块还用于根据本体、语义词典和分类体系对目标文本进行标注。
优选地,数据匹配模块中根据规则体系对目标文本进行段落级、句子级或词语级的数据匹配,再根据匹配结果进行语义归纳和筛选以获得目标文本的语义信息。
本发明中通过已有的本体、语义词典和分类体系构建规则体系,极大降低了基础规则的编写成本;将语义规则以类似自然语言的书写格式定义,有效抑制机械的规则匹配导致的错误和歧义,提供丰富的、准确的语义信息提取机制,同时,其极易书写性、可重用性和天然的可组合性使其可以真正商业化和产业化实施。本发明提供的基于组合理论的类自然语言语义信息抽取系统是实用的、可产业化的、语义信息丰富的、准确率和召回率高的语义信息抽取系统
附图说明
图1为本发明提出的一种基于组合理论的类自然语言的语义信息抽取方法流程图;
图2为本发明提出的一种基于组合理论的类自然语言的语义信息抽取系统的结构图。
具体实施方式
参照图1,本发明提出的一种基于组合理论的类自然语言的语义信息抽取方法,包括以下步骤:
S1、根据已有的本体、语义词典和分类体系建立规则体系,其语义规则以类似自然语言的书写格式定义;
S2、根据规则体系中的语义规则组合匹配训练集,生成可选语义规则的机制;
S3、根据匹配训练集对目标文本进行数据匹配,并获得目标文本的语义信息。
步骤S1具体包括:
S11、获取目标文本;
S12、根据目标文本在预制本体、语义词典和分类体系中获取对应的本体、语义词典和分类体系;
S13、根据对应的本体、语义词典和分类体系建立规则体系。
步骤S12中还包括:根据本体、语义词典和分类体系对目标文本进行标注,便于文本语义信息的抽取。标注过程通过人工实现,针对性强。
步骤S3具体为:根据规则体系对目标文本进行段落级、句子级或词语级的数据匹配,再根据匹配结果进行语义归纳和筛选,获得目标文本的语义信息。语义筛选通过人工实现,使其更加符合自然语言习惯。
具体实施时,步骤S1中,语义规则的组成元素可细化到短句、词汇或字符层面,以便根据实际应用场景的需求,提取不同层面的语义信息。
具体实施时,步骤S2中,语义规则的组合逻辑为布尔表达逻辑、类正则表达逻辑、连接表达逻辑和/或位置表达逻辑的任意组合。本实施方式中,选择的是布尔表达逻辑、类正则表达逻辑、连接表达逻辑和位置表达逻辑的完整组合,进一步确保语义信息的完整与准确。
以上方法中,通过拣选符合自然语言表达习惯(又称“符合直觉”)的规则;对未被规则涵盖的语句进行新一轮迭代,从而形成一套可人工理解、可用于语义匹配和文本信息抽取的规则。
以上方法通过已有的本体、语义词典和分类体系构建规则体系,极大降低了基础规则的编写成本,而通过组合规则来匹配文本信息,使得文本信息的提取更加完整精确;将语义规则以类似自然语言的书写格式定义,有效抑制机械的规则匹配导致的错误和歧义,提供丰富的、准确的语义信息提取机制,同时,其极易书写性、可重用性和天然的可组合性使其可以真正商业化和产业化实施。
参照图2,本发明提供的一种基于组合理论的类自然语言的语义信息抽取系统,包括依次连接的规则建立模块,规则组合模块和数据匹配模块。
规则建立模块,用于根据已有的本体、语义词典和分类体系建立规则体系,其语义规则以类似自然语言的书写格式定义。规则建立模块还用于获取目标文本,根据目标文本从预制本体、语义词典和分类体系中获取对应的本体、语义词典和分类体系,并根据对应的本体、语义词典和分类体系对目标文本进行标注。
规则组合模块,用于根据规则体系组合匹配训练集,生成可选语义规则的机制。
数据匹配模块,用于根据匹配训练集对目标文本进行数据匹配,并获得目标文本的语义信息。具体的,数据匹配模块中根据规则体系对目标文本进行段落级、句子级或词语级的数据匹配,再根据匹配结果进行语义归纳和筛选以获得目标文本的语义信息。
以上实施方式提供的基于组合理论的类自然语言语义信息抽取系统是实用的、可产业化的、语义信息丰富的、准确率和召回率高的语义信息抽取系统。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。

Claims (10)

1.一种基于组合理论的类自然语言的语义信息抽取方法,其特征在于,包括:
S1、根据已有的本体、语义词典和分类体系建立规则体系,其语义规则以类似自然语言的书写格式定义;
S2、根据规则体系中的语义规则组合匹配训练集,生成可选语义规则的机制;
S3、根据匹配训练集对目标文本进行数据匹配,并获得目标文本的语义信息。
2.如权利要求1所述的基于组合理论的类自然语言的语义信息抽取方法,其特征在于,步骤S1具体包括:
S11、获取目标文本;
S12、根据目标文本在预制本体、语义词典和分类体系中获取对应的本体、语义词典和分类体系;
S13、根据对应的本体、语义词典和分类体系建立规则体系。
3.如权利要求2所述的基于组合理论的类自然语言的语义信息抽取方法,其特征在于,步骤S12中还包括:根据本体、语义词典和分类体系对目标文本进行标注。
4.如权利要求1或2或3所述的基于组合理论的类自然语言的语义信息抽取方法,其特征在于,步骤S3具体为:根据规则体系对目标文本进行段落级、句子级或词语级的数据匹配,再根据匹配结果进行语义归纳和筛选,获得目标文本的语义信息。
5.如权利要求1所述的基于组合理论的类自然语言的语义信息抽取方法,其特征在于,步骤S1中,语义规则的组成元素可细化到短句、词汇或字符层面。
6.如权利要求1所述的基于组合理论的类自然语言的语义信息抽取方法,其特征在于,步骤S2中,语义规则的组合逻辑为布尔表达逻辑、类正则表达逻辑、连接表达逻辑和位置表达逻辑。
7.一种基于组合理论的类自然语言的语义信息抽取系统,其特征在于,包括:
规则建立模块,用于根据已有的本体、语义词典和分类体系建立规则体系,其语义规则以类似自然语言的书写格式定义;
规则组合模块,连接规则建立模块,用于根据规则体系组合匹配训练集,生成可选语义规则的机制;
数据匹配模块,连接规则组合模块,用于根据匹配训练集对目标文本进行数据匹配,并获得目标文本的语义信息。
8.如权利要求7所述的基于组合理论的类自然语言的语义信息抽取系统,其特征在于,规则建立模块还用于获取目标文本,根据目标文本获取对应的本体、语义词典和分类体系。
9.如权利要求8所述的基于组合理论的类自然语言的语义信息抽取系统,其特征在于,规则建立模块还用于根据本体、语义词典和分类体系对目标文本进行标注。
10.如权利要求7所述的基于组合理论的类自然语言的语义信息抽取系统,其特征在于,数据匹配模块中根据规则体系对目标文本进行段落级、句子级或词语级的数据匹配,再根据匹配结果进行语义归纳和筛选以获得目标文本的语义信息。
CN201410347424.5A 2014-07-21 2014-07-21 一种基于组合理论的类自然语言的语义信息抽取方法及系统 Expired - Fee Related CN104166682B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410347424.5A CN104166682B (zh) 2014-07-21 2014-07-21 一种基于组合理论的类自然语言的语义信息抽取方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410347424.5A CN104166682B (zh) 2014-07-21 2014-07-21 一种基于组合理论的类自然语言的语义信息抽取方法及系统

Publications (2)

Publication Number Publication Date
CN104166682A true CN104166682A (zh) 2014-11-26
CN104166682B CN104166682B (zh) 2018-05-01

Family

ID=51910495

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410347424.5A Expired - Fee Related CN104166682B (zh) 2014-07-21 2014-07-21 一种基于组合理论的类自然语言的语义信息抽取方法及系统

Country Status (1)

Country Link
CN (1) CN104166682B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106250490A (zh) * 2016-08-01 2016-12-21 乐视控股(北京)有限公司 一种文本基因提取方法、装置及电子设备
WO2017177901A1 (zh) * 2016-04-12 2017-10-19 芋头科技(杭州)有限公司 一种语义匹配方法及智能设备
CN108984550A (zh) * 2017-05-31 2018-12-11 西门子公司 确定数据的信号规则以对数据标注的方法、装置和系统
CN110110969A (zh) * 2019-04-10 2019-08-09 中国科学院国家空间科学中心 一种空间环境预报产品基本质量自动检验评估方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080091405A1 (en) * 2006-10-10 2008-04-17 Konstantin Anisimovich Method and system for analyzing various languages and constructing language-independent semantic structures
CN101361063A (zh) * 2006-04-12 2009-02-04 龙搜(北京)科技有限公司 支持基于规则的文档内容挖掘的系统与方法
CN102779149A (zh) * 2011-05-10 2012-11-14 索尼公司 信息处理装置,信息处理方法,程序和信息处理系统
CN103246641A (zh) * 2013-05-16 2013-08-14 李营 一种文本语义信息分析系统和方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101361063A (zh) * 2006-04-12 2009-02-04 龙搜(北京)科技有限公司 支持基于规则的文档内容挖掘的系统与方法
US20080091405A1 (en) * 2006-10-10 2008-04-17 Konstantin Anisimovich Method and system for analyzing various languages and constructing language-independent semantic structures
CN102779149A (zh) * 2011-05-10 2012-11-14 索尼公司 信息处理装置,信息处理方法,程序和信息处理系统
CN103246641A (zh) * 2013-05-16 2013-08-14 李营 一种文本语义信息分析系统和方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
向阳等: "《面向证券投资的动态知识发现系统设计与实现》", 《系统工程学报》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017177901A1 (zh) * 2016-04-12 2017-10-19 芋头科技(杭州)有限公司 一种语义匹配方法及智能设备
CN106250490A (zh) * 2016-08-01 2016-12-21 乐视控股(北京)有限公司 一种文本基因提取方法、装置及电子设备
CN108984550A (zh) * 2017-05-31 2018-12-11 西门子公司 确定数据的信号规则以对数据标注的方法、装置和系统
CN110110969A (zh) * 2019-04-10 2019-08-09 中国科学院国家空间科学中心 一种空间环境预报产品基本质量自动检验评估方法及系统

Also Published As

Publication number Publication date
CN104166682B (zh) 2018-05-01

Similar Documents

Publication Publication Date Title
US10698932B2 (en) Method and apparatus for parsing query based on artificial intelligence, and storage medium
CN104572958B (zh) 一种基于事件抽取的敏感信息监控方法
JP7096919B2 (ja) エンティティワードの認識方法と装置
CN110738997B (zh) 一种信息修正方法、装置、电子设备及存储介质
CN104166682A (zh) 一种基于组合理论的类自然语言的语义信息抽取方法及系统
CN105373529A (zh) 一种基于隐马尔科夫模型的智能分词方法
CN111144102B (zh) 用于识别语句中实体的方法、装置和电子设备
CN112269862B (zh) 文本角色标注方法、装置、电子设备和存储介质
CN104866308A (zh) 一种场景图像的生成方法及装置
CN102567306B (zh) 一种不同语言间词汇相似度的获取方法及系统
CN111194401B (zh) 意图识别的抽象和可移植性
CN110942763A (zh) 语音识别方法及装置
CN109670148A (zh) 基于语音识别的催收辅助方法、装置、设备和存储介质
CN114841274B (zh) 语言模型的训练方法、装置、电子设备和存储介质
CN104252446A (zh) 计算装置、文件内容一致性验证系统及方法
CN112466277B (zh) 韵律模型训练方法、装置、电子设备及存储介质
CN103079180A (zh) 一种远程协助的方法及系统
CN111354354A (zh) 一种基于语义识别的训练方法、训练装置及终端设备
TWI659411B (zh) 一種多語言混合語音識別方法
CN104424942A (zh) 一种提高文字语音输入准确率的方法
CN113792558B (zh) 基于机器翻译和译后编辑的自学习翻译方法及装置
CN112560466B (zh) 链接实体关联方法、装置、电子设备和存储介质
US10102203B2 (en) Method for writing a foreign language in a pseudo language phonetically resembling native language of the speaker
CN109657207B (zh) 条款的格式化处理方法和处理装置
CN104199803A (zh) 一种基于组合理论的文本信息处理系统及方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
EXSB Decision made by sipo to initiate substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20180501

Termination date: 20210721

CF01 Termination of patent right due to non-payment of annual fee