CN110825839B - 一种对文本信息中目标的关联关系分析方法 - Google Patents
一种对文本信息中目标的关联关系分析方法 Download PDFInfo
- Publication number
- CN110825839B CN110825839B CN201911083196.4A CN201911083196A CN110825839B CN 110825839 B CN110825839 B CN 110825839B CN 201911083196 A CN201911083196 A CN 201911083196A CN 110825839 B CN110825839 B CN 110825839B
- Authority
- CN
- China
- Prior art keywords
- target
- association
- event
- analyzed
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/313—Selection or weighting of terms for indexing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种对文本信息中目标的关联关系分析方法,包括以下步骤:对待处理文本进行目标识别和分句处理,将文本分为多个候选事件;对候选事件进行语义分析,判断是否满足事件定义,若是则标注为动向事件;提取标注为动向事件中的目标对象、目标对象属性和关联目标,并进行保存;获取待分析目标,输出与待分析目标存在关联关系的关联目标、关联目标属性和动向事件。对接入的文本信息中人物目标的相关信息进行提取,在抽取结果上进行人物目标的信息聚合,便于后续目标关联信息的快速分析,为信息分析人员对目标信息的分析提供辅助决策信息。
Description
技术领域
本发明涉及数据分析领域,尤其涉及一种对文本信息中目标的关联关系分析方法。
背景技术
现有的文本信息对象分析往往仅限于简单的目标提取,而后续的目标目标的关联关系则由人工进行处理,例如现有的一些检索方式大多数基于关键词的检索,其结构是包含该目标的文本,返回的结果集较大,需要人工定位后通过上下文获取到该目标的信息。这大大降低了数据分析的效率,为人工带来了较大压力。
发明内容
为了解决上述问题,本发明提出一种对文本信息中目标的关联关系分析方法,包括以下步骤:
对待处理文本进行目标识别和分句处理,将文本分为多个候选事件;
对候选事件进行语义分析,判断是否满足事件定义,若是则标注为动向事件;
提取标注为动向事件中的目标对象、目标对象属性和关联目标,并进行保存;
获取待分析目标,输出与待分析目标存在关联关系的关联目标、关联目标属性和动向事件。
优选的,所述目标包括个人名称、群体名称、设施、设备名称、地点或时间中的一种或多种。
优选的,进行保存时,按照预设模型进行保存,所述预设模型包括概念模型和关联模型;所述概念模型用于描述目标对象与目标对象属性之间和目标对象与动向事件之间的关系;所述关联模型用于描述目标对象与关联目标的关系。
优选的,输出待分析目标的关联关系时,从概念模型和关联模型抽取关系信息,形成关联关系表。
优选的,还包括多目标潜在关联分析步骤:对多个待分析目标的关联关系进行分析,若多个待分析目标的存在相同的关联目标时,判定该多个待分析目标存在潜在关联。
优选的,所述相同的关联目标数量大于2。
本发明的有益效果在于:本发明为文本信息处理人员提供快速的关联关系分析,并辅助其完成关联关系发现。对接入的文本信息中人物目标的相关信息进行提取,在抽取结果上进行人物目标的信息聚合,便于后续目标关联信息的快速分析,为信息分析人员对目标信息的分析提供辅助决策信息。
附图说明
图1是本发明流程示意图;
图2是关联模型表;
图3是关联关系表示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。
一种对文本信息中目标的关联关系分析方法,包括以下步骤:
对待处理文本进行目标识别和分句处理,将文本分为多个候选事件;
对候选事件进行语义分析,判断是否满足事件定义,若是则标注为动向事件;
提取标注为动向事件中的目标对象、目标对象属性和关联目标,并进行保存;
获取待分析目标,输出与待分析目标存在关联关系的关联目标、关联目标属性和动向事件。
在本实施例中,所述目标可以理解为个人名称、群体名称、设施、设备名称、地点或时间。在文本信息中目标对象之间的关联关系通常是和目标的动向情况进行直接关联的,例如目标的参与活动、发表言论等都为动向事件。
分析过程中,首先对信息进行提取,对待处理文本进行目标实体识别,将目标实体识别的位置和分句结果相结合选取候选事件。为保证动向事件的可读性和完整性,对候选动向事件中进行语义分析,语义分析主要包括语法分析和句法分析,当候选动向事件包含的要素满足事件定义时,将其确定为动向事件。
提取标注为动向事件中的目标对象、目标对象属性和关联目标,并进行保存。进行保存时,按照预设模型进行保存,所述预设模型包括概念模型和关联模型。所述概念模型用于描述目标对象与目标对象属性之间和目标对象与动向事件之间的关系;定义了目标的种类,如:时间、地点、人物名称等;以及标记了目标对象处于哪一动向事件中。所述关联模型用于描述目标对象与关联目标的关系,如将位于同一事件中的涉及的时间、人物、地点或同一时间内的多个地点、人物等。在本实施例中,采用TopbraidComposer本体建模工具进行建模,定义关系的数据模型和逻辑描述模型时,所有定义规范遵循W3C的规范标准,同时引用了RDF/RDFs、OWL标准,一个示例如图2所示。
对具体目标进行分析时,获取待分析目标,输出与待分析目标存在关联关系的关联目标、关联目标属性和动向事件。从概念模型和关联模型抽取关系信息,形成关联关系表,如图3所述,左侧为事件描述,右侧为抽取形成的关联关系表。
本方法还包括多目标潜在关联分析步骤:对多个待分析目标的关联关系进行分析,若多个待分析目标的存在相同的关联目标时,判定该多个待分析目标存在潜在关联。如果两个目标对象A和B,分别抽取得到A和B的关联目标对象集合,关联目标对象中超过两个以上相同,则A和B具有潜在关联性。例如:当两个目标A和B在同一时间、同一地点出现,则目标对象A和B具有潜在关联。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、ROM、RAM等。
以上所揭露的仅为本发明较佳实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。
Claims (4)
1.一种对文本信息中目标的关联关系分析方法,其特征在于,包括以下步骤:
提取标注为动向事件中的目标对象、目标对象属性和关联目标,并进行保存;
获取待分析目标,输出与待分析目标存在关联关系的关联目标、关联目标属性和动向事件;
进行保存时,按照预设模型进行保存,所述预设模型包括概念模型和关联模型;所述概念模型用于描述目标对象与目标对象属性之间和目标对象与动向事件之间的关系;所述关联模型用于描述目标对象与关联目标的关系;
输出待分析目标的关联关系时,从概念模型和关联模型抽取关系信息,形成关联关系表;
分析过程中,首先对信息进行提取,对待处理文本进行目标实体识别,将目标实体识别的位置和分句结果相结合选取候选事件,为保证动向事件的可读性和完整性,对候选动向事件中进行语义分析,语义分析包括语法分析和句法分析,当候选动向事件包含的要素满足事件定义时,将其确定为动向事件;
取标注为动向事件中的目标对象、目标对象属性和关联目标,并进行保存,进行保存时,按照预设模型进行保存,采用TopbraidComposer本体建模工具进行建模,定义关系的数据模型和逻辑描述模型时,所有定义规范遵循W3C的规范标准,同时引用了RDF/RDFs、OWL标准。
2.根据权利要求1所述的一种对文本信息中目标的关联关系分析方法,其特征在于,所述目标包括个人名称、群体名称、设施、设备名称、地点或时间中的一种或多种。
3.根据权利要求1所述的一种对文本信息中目标的关联关系分析方法,其特征在于,还包括多目标潜在关联分析步骤:对多个待分析目标的关联关系进行分析,若多个待分析目标的存在相同的关联目标时,判定该多个待分析目标存在潜在关联。
4.根据权利要求3所述的一种对文本信息中目标的关联关系分析方法,其特征在于,所述相同的关联目标数量大于2。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911083196.4A CN110825839B (zh) | 2019-11-07 | 2019-11-07 | 一种对文本信息中目标的关联关系分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911083196.4A CN110825839B (zh) | 2019-11-07 | 2019-11-07 | 一种对文本信息中目标的关联关系分析方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110825839A CN110825839A (zh) | 2020-02-21 |
CN110825839B true CN110825839B (zh) | 2023-07-21 |
Family
ID=69553289
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911083196.4A Active CN110825839B (zh) | 2019-11-07 | 2019-11-07 | 一种对文本信息中目标的关联关系分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110825839B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111445500B (zh) * | 2020-04-02 | 2023-06-27 | 中国科学院深圳先进技术研究院 | 实验活体行为的分析方法、装置、设备和存储介质 |
CN112819622B (zh) * | 2021-01-26 | 2023-10-17 | 深圳价值在线信息科技股份有限公司 | 一种信息的实体关系联合抽取方法、装置及终端设备 |
CN113901763A (zh) * | 2021-09-30 | 2022-01-07 | 北京百度网讯科技有限公司 | 一种表格描述文本生成方法、装置、设备及存储介质 |
CN115048904B (zh) * | 2022-08-11 | 2022-11-29 | 北京金堤科技有限公司 | 一种实体展示方法、装置、存储介质及电子设备 |
CN115544215B (zh) * | 2022-12-02 | 2023-03-31 | 中科雨辰科技有限公司 | 一种关联对象的获取方法、介质及设备 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107977368A (zh) * | 2016-10-21 | 2018-05-01 | 京东方科技集团股份有限公司 | 信息提取方法及系统 |
US10146751B1 (en) * | 2014-12-31 | 2018-12-04 | Guangsheng Zhang | Methods for information extraction, search, and structured representation of text data |
CN109408804A (zh) * | 2018-09-03 | 2019-03-01 | 平安科技(深圳)有限公司 | 舆情分析方法、系统、设备和存储介质 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103455705A (zh) * | 2013-05-24 | 2013-12-18 | 中国科学院自动化研究所 | 网络社会事件的协同关联跟踪及全局态势分析与预测系统 |
CN103345528B (zh) * | 2013-07-24 | 2016-08-24 | 南京邮电大学 | 一种基于关联分析和knn的文本分类方法 |
CN105302796A (zh) * | 2015-11-23 | 2016-02-03 | 浪潮软件股份有限公司 | 一种基于依存树的语义分析方法 |
CN105677873B (zh) * | 2016-01-11 | 2019-03-26 | 中国电子科技集团公司第十研究所 | 基于领域知识模型的文本情报关联聚类汇集处理方法 |
RU2628431C1 (ru) * | 2016-04-12 | 2017-08-16 | Общество с ограниченной ответственностью "Аби Продакшн" | Подбор параметров текстового классификатора на основе семантических признаков |
CN106815293A (zh) * | 2016-12-08 | 2017-06-09 | 中国电子科技集团公司第三十二研究所 | 一种面向情报分析的构建知识图谱的系统及方法 |
CN107679035B (zh) * | 2017-10-11 | 2020-06-12 | 石河子大学 | 一种信息意图检测方法、装置、设备和存储介质 |
CN109508453A (zh) * | 2018-09-28 | 2019-03-22 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 跨媒体情报目标要素关联分析系统及其关联分析方法 |
CN110222250B (zh) * | 2019-05-16 | 2021-07-27 | 中国人民公安大学 | 一种面向微博的突发事件触发词识别方法 |
-
2019
- 2019-11-07 CN CN201911083196.4A patent/CN110825839B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10146751B1 (en) * | 2014-12-31 | 2018-12-04 | Guangsheng Zhang | Methods for information extraction, search, and structured representation of text data |
CN107977368A (zh) * | 2016-10-21 | 2018-05-01 | 京东方科技集团股份有限公司 | 信息提取方法及系统 |
CN109408804A (zh) * | 2018-09-03 | 2019-03-01 | 平安科技(深圳)有限公司 | 舆情分析方法、系统、设备和存储介质 |
Non-Patent Citations (1)
Title |
---|
基于本体的关联知识可视化检索模型;江潇俊;《计算机工程》;第第37卷卷(第第16期期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN110825839A (zh) | 2020-02-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110825839B (zh) | 一种对文本信息中目标的关联关系分析方法 | |
CN110795913B (zh) | 一种文本编码方法、装置、存储介质及终端 | |
CN107506389B (zh) | 一种提取职位技能需求的方法和装置 | |
WO2017198031A1 (zh) | 解析语义的方法和装置 | |
KR20200007969A (ko) | 정보 처리 방법, 단말기, 및 컴퓨터 저장 매체 | |
CN104298658B (zh) | 获取搜索结果的方法和装置 | |
CN112199512B (zh) | 面向科技服务的事理图谱构建方法、装置、设备及存储介质 | |
CN105488098B (zh) | 一种基于领域差异性的新词提取方法 | |
US20190130030A1 (en) | Generation method, generation device, and recording medium | |
CN109101551A (zh) | 一种问答知识库的构建方法及装置 | |
CN112287090A (zh) | 一种基于知识图谱的金融问题反问方法及系统 | |
CN110727803A (zh) | 文本事件抽取方法及装置 | |
CN108536673B (zh) | 新闻事件抽取方法及装置 | |
CN117112595A (zh) | 一种信息查询方法、装置、电子设备及存储介质 | |
CN109992651B (zh) | 一种问题目标特征自动识别和抽取方法 | |
CN114282513A (zh) | 文本语义相似度的匹配方法、系统、智能终端及存储介质 | |
CN113420558A (zh) | 一种模型训练的方法、实体抽取的方法、装置及存储介质 | |
CN110929509A (zh) | 一种基于louvain社区发现算法的领域事件触发词聚类方法 | |
CN116010545A (zh) | 一种数据处理方法、装置及设备 | |
CN112580348B (zh) | 政策文本关联性分析方法及系统 | |
CN105138513A (zh) | 确定汉语词汇相似度的方法和装置 | |
CN105786929A (zh) | 一种信息监测方法及装置 | |
CN113963804A (zh) | 医学数据关系挖掘方法及装置 | |
CN111143559A (zh) | 基于三元组的词云展示方法及装置 | |
CN116756324B (zh) | 基于庭审音频的关联度挖掘方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |