CN115204393A - 一种基于知识图谱的智慧城市知识本体库构建方法和装置 - Google Patents
一种基于知识图谱的智慧城市知识本体库构建方法和装置 Download PDFInfo
- Publication number
- CN115204393A CN115204393A CN202210771475.5A CN202210771475A CN115204393A CN 115204393 A CN115204393 A CN 115204393A CN 202210771475 A CN202210771475 A CN 202210771475A CN 115204393 A CN115204393 A CN 115204393A
- Authority
- CN
- China
- Prior art keywords
- knowledge
- smart city
- concepts
- city
- ontology
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/022—Knowledge engineering; Knowledge acquisition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/268—Morphological analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/027—Frames
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种基于知识图谱的智慧城市知识本体库构建方法和装置,包括:确定智慧城市的关键概念和关系规则;基于关键概念和关系规则,参考知识图谱本体层构建模式,构建智慧城市知识本体库框架;采用人工交互方式从智慧城市网络评论数据中挖掘目标关键概念;利用目标关键概念,对智慧城市知识本体库框架进行扩充,得到智慧城市知识本体库;其中,关键概念至少包括事件、实体、事件属性和实体属性四者的描述性概念;关系规则表征关键概念之间的依存关系。本发明所构建的智慧城市知识本体库实现了智慧城市领域本体知识条目的大幅扩充,为后续智慧城市网络民调情感知识图谱的构建提供了更具针对性、细粒度更高的知识支撑。
Description
技术领域
本发明涉及智慧城市评价领域,尤其涉及一种基于知识图谱的智慧城市知识本体库构建方法和装置。
背景技术
自知识图谱概念提出以来,知识图谱的构建研究在学术界和工业界一直备受关注。从现有知识图谱结构来看,知识图谱通常被分为模式(schema)层和数据(data)层。其中模式层又称本体层,处于知识图谱的上层位置,通常由少量而精准的关键实体概念及其关系构成,由于知识图谱通常对模式层内容质量要求较高,大多数知识图谱的模式层通过人工方法设计构建,具有较强的固定性。在模式层中,人们可以预设实体约束、知识公理、关系传递等知识关联、推理或补全规则,并以关键实体概念为模板,将上述规则等推广至整个知识图谱中,因此知识图谱中的模式层构建对知识图谱的推理应用具有重要意义。数据层又称实例层,处于知识图谱下层位置,通常由大量文本数据中提到的实例实体及其关系构成,相比于模式层,知识图谱对数据层的内容质量要求较低,因此大多数知识图谱的数据层内容通过知识抽取技术抽取,并经过简单的知识过滤和审核获得,具有较强的动态性。智慧城市知识本体库为智慧城市网络民调情感知识图谱的重要部分,对应常规知识图谱中的模式层,其构建结果对于智慧城市网络民调情感分析具有重要影响。
目前智慧城市知识本体库构建方面可以参考的构建方法有骨架法、IDEF-5(ICAMDefinition method-5)法、七步法、METH-ONTOLOGY法、企业建模法(TOVE)和循环获取法等。然而这些方法均为理论层面的构建方法,在实际本体库构建工作中只是提供了阶段性的目标指导,未能具体给出各个阶段步骤的具体实施方法,因此绝大多数本体库仍然通过手工整理(含众包方法)的方式进行构建。
但是手工构建方式需要大量人力物力,且存在构建的本体库存在主观性强、规模小和效率低下的问题。
发明内容
本发明的目的是提供一种基于知识图谱的智慧城市知识本体库构建方法和装置,以解决采用手工方式构建智慧城市知识本体库需要大量人力物力,且构建得到的智慧城市知识本体库存在主观性强、规模小和效率低下的问题,进而减少人工工作量,并提高智慧城市知识本体库的构建规模和构建性能。
第一方面,本发明提供一种基于知识图谱的智慧城市知识本体库构建方法,所述方法包括:
确定智慧城市的关键概念和关系规则;
基于所述关键概念和所述关系规则,参考知识图谱本体层构建模式,构建智慧城市知识本体库框架;
采用人工交互方式从预先收集的智慧城市网络评论数据中挖掘目标关键概念;
利用目标关键概念,对所述智慧城市知识本体库框架进行扩充,得到智慧城市知识本体库;
其中,所述关键概念至少包括事件、实体、事件属性和实体属性四者的描述性概念;
所述关系规则表征所述关键概念之间的依存关系。
根据本发明提供的基于知识图谱的智慧城市知识本体库构建方法,所述基于所述关键概念和所述关系规则,参考知识图谱本体层构建模式,构建智慧城市知识本体库框架,包括:
以所述关键概念为本体,以所述关系规则为本体之间的关系,建立所述智慧城市知识本体库框架;
所述利用目标关键概念,对所述智慧城市知识本体库框架进行扩充,得到智慧城市知识本体库,包括:
分析得到表征所述目标关键概念与所述智慧城市知识本体库框架中关键概念之间依存关系的关系规则;
基于所述目标关键概念和分析得到的关系规则,扩充所述智慧城市知识本体库框架,得到所述智慧城市知识本体库。
根据本发明提供的基于知识图谱的智慧城市知识本体库构建方法,所述智慧城市网络评论数据至少包括:智慧城市项目合作方收集的网络评论和从网站上爬取的网民来信;
其中,从所述网站上爬取网民来信的过程,包括:
定时利用网络爬虫向所述网站发送网民来信编号列表请求;
在收到所述网站反馈的网民来信编号列表的情况下,将所述网民来信编号列表与已缓存网民来信编号列表进行对比,得到未缓存网民来信编号;
向所述网站请求并缓存所述未缓存网民来信编号对应的来信内容,并更新已缓存网民来信编号列表。
根据本发明提供的基于知识图谱的智慧城市知识本体库构建方法,所述从预先收集的智慧城市网络评论数据中挖掘目标关键概念之前,还包括:滤除所述智慧城市网络评论数据中无效的文本数据;
所述无效的文本数据的识别过程,包括:
对于所述智慧城市网络评论数据中每一个文本数据,判断所述文本数据的词语量是否小于预设词语量;
若是,确定所述文本数据是否存在特殊词集合中的词语;
若否,对所述文本数据进行分句,按照辨别规则确定所述文本数据中每一个句子片段是否无效;
在所述文本数据存在特殊词集合中的词语或者所述文本数据中句子片段均无效的情况下,认定所述文本数据为无效的文本数据;
其中,所述辨别规则至少包括以下一种:
当句子片段包含无效词集合中的词语时,句子片段无效;
当句子片段同时出现无效词对集合内任一词语对中的两个词语时,句子片段无效。
根据本发明提供的基于知识图谱的智慧城市知识本体库构建方法,所述采用人工交互方式从预先收集的智慧城市网络评论数据中挖掘目标关键概念,包括:
利用智慧城市网络评论领域分类模型,对所述智慧城市网络评论数据中的文本数据进行领域分类;
将属于同一个领域的文本数据写入同一文件中;
对每一个文件进行依存句法关系分析和词性分析,得到每一个文件对应领域下的候选关键概念;
将所有领域下的候选关键概念及其对应的文本数据交由人工筛查,并将人工筛查后得到的关键概念作为目标关键概念。
根据本发明提供的基于知识图谱的智慧城市知识本体库构建方法,所述智慧城市网络评论领域分类模型包括BertTokenizer网络结构、BERT网络结构、二维卷积神经网络结构和全连接层,是以智慧城市网络评论文本数据及其对应的领域标记为样本训练的;
所述利用智慧城市网络评论领域分类模型,对所述智慧城市网络评论数据中的文本数据进行领域分类,包括:
利用BertTokenizer网络结构,将输入的文本数据的文本序列转化为token序列;
利用BERT网络结构,将所述token序列编码为词嵌入向量;
利用二维卷积神经网络结构,对所述词嵌入向量进行卷积操作,得到所述输入的文本数据的文本特征;
通过激活函数激活所述输入的文本数据的文本特征,得到所述输入的文本数据激活后的文本特征;
利用全连接层处理所述输入的文本数据激活后的文本特征,得到所述输入的文本数据对应的领域。
根据本发明提供的基于知识图谱的智慧城市知识本体库构建方法,所述对每一个文件进行依存句法关系分析和词性分析,得到每一个文件对应领域下的候选关键概念,包括:
针对每一个文件,对所述文件进行依存句法关系分析,确定所述文件中的定中关系和核心关系;
对所述定中关系中的评价对象和所述核心关系中的核心词进行词性分析,并筛选出名词类的评价对象和核心词;
以在文件中出现频次由高到低的顺序对筛选出的评价对象和核心词进行排序;
舍弃排序序列中频次低于预设频次的评价对象或核心词,得到所述文件对应领域下的候选关键概念。
根据本发明提供的基于知识图谱的智慧城市知识本体库构建方法,所述人工筛查的目标至少包括以下几项:
去除已包含在所述智慧城市知识本体库框架之内的候选关键概念;
合并含义相近的候选关键概念;
去除与智慧城市无关的候选关键概念。
根据本发明提供的基于知识图谱的智慧城市知识本体库构建方法,所述关键概念,包括:事件概念、实体概念和属性概念;
所述关系规则,包括:子类关系、组成关系、支持关系和属性关系。
其中,所述事件概念,包括但不限于:服务事件、管理事件、基础设施建设事件和体制变更事件;
所述实体概念,包括但不限于:有确定物理形态的物品、有使用价值的资源、有统计价值或共享价值的数据和各类软件系统;
所述属性概念,包括但不限于:事件概念的属性和实体概念的属性。
第二方面,本发明提供一种基于知识图谱的智慧城市知识本体库构建装置,所述装置包括:
确定模块,用于确定智慧城市的关键概念和关系规则;
智慧城市知识本体库框架构建模块,用于基于所述关键概念和所述关系规则,参考知识图谱本体层构建模式,构建智慧城市知识本体库框架;
挖掘模块,用于采用人工交互方式从预先收集的智慧城市网络评论数据中挖掘目标关键概念;
扩充模块,用于利用目标关键概念,对所述智慧城市知识本体库框架进行扩充,得到智慧城市知识本体库;
其中,所述关键概念,至少包括事件、实体、事件属性和实体属性四者的描述性概念;
所述关系规则表征所述关键概念之间的依存关系。
本发明提供的一种基于知识图谱的智慧城市知识本体库构建方法和装置,确定智慧城市的关键概念和关系规则;基于所述关键概念和所述关系规则,参考知识图谱本体层构建模式,构建智慧城市知识本体库框架;采用人工交互方式从智慧城市网络评论数据中挖掘目标关键概念;利用目标关键概念,对所述智慧城市知识本体库框架进行扩充,得到智慧城市知识本体库;其中,所述关键概念至少包括事件、实体、事件属性和实体属性四者的描述性概念;所述关系规则表征所述关键概念之间的依存关系。本发明所构建的智慧城市知识本体库实现了智慧城市领域本体知识条目的大幅扩充,为后续智慧城市网络民调情感知识图谱的构建提供了更具针对性、细粒度更高的知识支撑。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的一种基于知识图谱的智慧城市知识本体库构建方法流程图;
图2是本发明提供的智慧城市知识本体库框架的部分示例;
图3是本发明提供的爬取网民来信的过程示意图;
图4是本发明提供的智慧城市网络评论领域分类模型结构示意图;
图5是本发明提供的一种基于知识图谱的智慧城市知识本体库构建装置结构图;
图6是本发明提供的实现基于知识图谱的智慧城市知识本体库构建方法的电子设备结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合图1至图6描述本发明一种基于知识图谱的智慧城市知识本体库构建方法和装置。
第一方面,本发明提供一种基于知识图谱的智慧城市知识本体库构建方法,如图1所示,所述方法包括:
S11、确定智慧城市的关键概念和关系规则;
为了提高智慧城市领域知识本体库的通用性,本发明以智慧城市相关国标标准和规范为基础,明确了智慧城市领域包含城市资源环境、经济发展、社会治理、信息化建设、体制机制等内容。在此基础上,定义了关键概念和关系规则,收集整理智慧城市领域的重要术语和概念,并人工梳理智慧城市领域的重要术语和概念,得到智慧城市的关键概念和关系规则。
关键概念和关系规则定义具体如下:
在关键概念方面,本发明定义了事件概念、实体概念和属性概念三种智慧城市知识本体库概念类型。
其中,事件概念主要描述智慧城市为政府、事业单位、企业、个人所提供的各类服务事件,政府在智慧城市建设运维过程中的管理行为等。
实体概念主要描述智慧城市中有确定物理形态的物品、有使用价值的资源、有统计价值或共享价值的数据、智慧城市所依赖的软件系统等。
属性概念主要描述事件概念或实体概念的相关属性,如政务服务等待时间、公共基础设施破损程度等。
表1示例了一部分智慧城市领域的重要术语和概念,诸如表1,部分术语和概念在定义、功能上的表现相近,如“公共信息服务与支撑平台”和“信息资源共享交换平台”;部分术语仅适用于理论概念层的指导约束,如“智慧城市技术参考模型”、“智慧城市知识管理参考模型”。因此人工梳理关键概念时可能会将部分术语或概念统一为同一概念,理论概念层的指导概念具象化为智慧城市运营管理体制机制。为了保证领域知识本体库的准确性,本发明人工梳理关键概念,应以实际智慧城市的设计和建设情况为准,并在国家信息中心智慧城市建设管理专家的评估指导下进行。
表1
在关系规则方面,本发明主要关注子类、组成、支持和属性四种概念关系。
其中,子类关系表示一种概念是另一种概念的具象化。
例如“政务服务”是“惠民服务”概念的特殊情况的具象化。
组成关系表示一种概念是另一种概念的组成部分。
例如“政务服务办理点”是“政务服务”的组成部分,而“政务服务人员”又是“政务服务办理点”的组成部分。
支持关系表示一种概念通过另一种概念的支持而实现。
例如“公共信息与服务支撑平台”概念支持“数据管理”。
属性关系表示一种概念是另一种概念的属性。
例如“等待时间”是“政务服务”概念的属性,“破损程度”是“公共设施”概念的属性。
表2示例了智慧城市关键概念之间的依存关系的形式。表中-*、-均表示不存在。
借助表2,可以厘清智慧城市的关系规则。
表2
S12、基于所述关键概念和所述关系规则,参考知识图谱本体层构建模式,构建智慧城市知识本体库框架;
基于政府建设运营智慧城市的分析需求以及上述得到的关键概念和所述关系规则,本发明构建基本覆盖智慧城市建设部门评价指标体系的智慧城市知识本体库框架。图2是智慧城市知识本体库框架的部分示例。
S13、采用人工交互方式从预先收集的智慧城市网络评论数据中挖掘目标关键概念;
对智慧城市网络评论进行数据分析时发现,多数试点智慧城市居民更关注日常生活细节,对智慧城市的了解不够深入,网络评论主要集中在直接影响市民生活的惠民服务与基础设施部分,且评价对象多为细节性概念,无法与既有智慧城市领域本体框架完全匹配。为此,本发明以智慧城市网络评论数据为基础,设计实现一套智慧城市领域关键概念半自动获取方法,挖掘智慧城市网络评论文本中的关键概念,并以挖掘的关键概念补全已有的智慧城市知识本体库框架,获得更加完善的智慧城市知识本体库。
可以理解,本发明目标关键概念为从预先收集的智慧城市网络评论数据中挖掘并经过一定筛选得到的关键概念。
S14、利用目标关键概念,对所述智慧城市知识本体库框架进行扩充,得到智慧城市知识本体库;
其中,所述关键概念至少包括事件、实体、事件属性和实体属性四者的描述性概念;
所述关系规则表征所述关键概念之间的依存关系。
为了加强智慧城市网络民调情感知识图谱对于网络文本的知识识别和推理能力,本发明提出一种基于知识图谱的智慧城市知识本体库构建方法,该方法主要分为两个部分,第一部分参考一般知识图谱并结合人工分级和关联方法构建智慧城市知识本体库框架,第二部分为基于人工交互方式从智慧城市网络评论数据中挖掘目标关键概念,以扩充智慧城市知识本体库框架的本体,使得智慧城市知识本体库的本体知识条目大幅扩充,为后续智慧城市网络民调情感知识图谱的构建提供了更具针对性、细粒度更高的知识支撑。
在上述各实施例的基础上,作为一种可选的实施例,所述基于所述关键概念和所述关系规则,参考知识图谱本体层构建模式,构建智慧城市知识本体库框架,包括:
以所述关键概念为本体,以所述关系规则为本体之间的关系,建立所述智慧城市知识本体库框架;
本发明整理分析智慧城市领域相关术语和概念得到智慧城市关键概念和关系规则,进而参考一般知识图谱的本体层构建方式得到智慧城市知识本体库框架。这里智慧城市知识本体库中的本体,等同于知识图谱本体层中的节点,智慧城市知识本体库中的本体之间的关系,等同于知识图谱本体层中的节点之间的关系。
这里,本体是指概念模型的规范化描述,并普遍认为本体应当具有概念化、明确化、客观化、通用化和可扩展化几个特点。
所述利用目标关键概念,对所述智慧城市知识本体库框架进行扩充,得到智慧城市知识本体库,包括:
分析得到表征所述目标关键概念与所述智慧城市知识本体库框架中关键概念之间依存关系的关系规则;
基于所述目标关键概念和分析得到的关系规则,扩充所述智慧城市知识本体库框架,得到所述智慧城市知识本体库。
本发明将目标关键概念按照表2所示的概念关系约束与智慧城市知识本体库框架已有关键概念建立关系,实现基于智慧城市网络评论文本数据的智慧城市知识本体库框架的本体扩充,知识扩充后得到智慧城市知识本体库。通过实验本发明所构建的智慧城市知识本体库共包含1396个关键概念节点,与传统智慧城市领域知识核心概念模型相比,本体知识条目大幅增长。
在上述各实施例的基础上,作为一种可选的实施例,所述智慧城市网络评论数据至少包括:智慧城市项目合作方收集的网络评论和从网站上爬取的网民来信;
其中,从所述网站上爬取网民来信的过程,包括:
定时利用网络爬虫向所述网站发送网民来信编号列表请求;
在收到所述网站反馈的网民来信编号列表的情况下,将所述网民来信编号列表与已缓存网民来信编号列表进行对比,得到未缓存网民来信编号;
向所述网站请求并缓存所述未缓存网民来信编号对应的来信内容,并更新已缓存网民来信编号列表。
本申请所指网站,可以为智慧城市政府网站政民互动板块。可以想到,智慧城市项目合作方可以通过调查问卷、合作方平台征询等方式收集网络评论;爬虫爬取的网民来信,可以以表3所示的格式存储至内存。
表3
字段 | 字段含义 |
id | 网民来信标识 |
Letter_type | 网民来信内容分类 |
Letter_title | 网民来信标题 |
Key_words | 网民来信关键词 |
content | 网民来信内容 |
city | 网民来信内容所属城市 |
考虑到网站每天都会接收新的网民来信,且实时申请爬取数据有被解为恶意爬虫攻击的风险,因此本发明设计了一种本地缓存策略。图3示例了爬取网民来信的过程,如图3示,本发明设定时间间隔以定时启动网络爬虫。
网络爬虫启动后会向网站发送网民来信编号列表请求,将返回的网民来信编号列表与本地的已缓存网民来信编号列表(来信内容已经被爬虫爬取并存储在本地数据库中的网民来信所对应的编号列表)进行比较,找到未缓存网民来信编号(来信内容尚未被爬虫爬取的网民来信对应的编号),此后向网站请求该编号对应的来信内容,并将返回数据添加至本地数据库,完成对应网站网民来信数据的更新。
本发明设计了一种定时爬取网民信的方法,以定时补充智慧城市网络评论数据,进而为目标关键概念的挖掘提供数据来源。
在上述各实施例的基础上,作为一种可选的实施例,所述从预先收集的智慧城市网络评论数据中挖掘目标关键概念之前,还包括:滤除所述智慧城市网络评论数据中无效的文本数据;
所述无效的文本数据的识别过程,包括:
对于所述智慧城市网络评论数据中每一个文本数据,判断所述文本数据的词语量是否小于预设词语量;
若是,确定所述文本数据是否存在特殊词集合中的词语;
若否,对所述文本数据进行分句,按照辨别规则确定所述文本数据中每一个句子片段是否无效;
在所述文本数据存在特殊词集合中的词语或者所述文本数据中句子片段均无效的情况下,认定所述文本数据为无效的文本数据;
其中,所述辨别规则至少包括以下一种:
当句子片段包含无效词集合中的词语时,句子片段无效;
当句子片段同时出现无效词对集合内任一词语对中的两个词语时,句子片段无效。
收集到智慧城市网络评论数据后,本发明对智慧城市网络评论数据进行评估发现上述数据中存在大量的无效数据。这是因为网民在评价过程中,可能存在表达不清、态度随意或不愿发表个人意见的情况。为此,本发明设计了以下无效数据过滤规则:
判定网络评论数据无效的方式如下:
1)设置特殊词集合,对于较短网络评论数据,出现特殊词集合中含有的特殊词时,直接判定网络评论数据无效;
2)以句子片段为最小单位,判定网络评论数据中各个句子是否有效;在网络评论数据不存在有效的句子片段时,判定网络评论数据无效。
注意:网络评论数据对应的文本中一般包含多个句子片段,这些句子片段以标点、分隔符、列表符等划分。
其中,判定句子片段无效的方式包括:
设定无效词集合,对于去掉非主语言字符(主语言字符,例如中文文本的主语言字符为中文字符)后的句子片段,出现无效词集合中含有的无效词时,直接判定句子片段无效;
设定无效词对集合,同一句子片段中出现无效词对集合内任一词语对中的两个词语时,该句子片段无效。
特殊词、无效词、无效词对为表征网络评论数据或句子片段中不包含智慧城市实际评价意义的词汇。特殊词、无效词、无效词对的内容示例如表4所示。
表4
需要说明的是,上述过滤智慧城市网络评论数据的方法,只是通过模式匹配的方式对智慧城市网络评论数据进行字符或语言模式上的处理,在数据过滤的过程中并没有考虑到文本语义的问题。从过滤后的智慧城市网络评论数据检查结果来看,所得智慧城市网络评论数据仍然存在大量不含智慧城市实际评价意义的文本数据。如果追求较高无效过滤率而制定详尽的过滤规则,一方面需要大量的人力物力总结智慧城市网络评论领域的文本表达模式,另一方面可能会过滤掉部分包含实际评价意义的数据,导致数据的召回率较低。因此,本发明采用较为通用的数据过滤规则,而对智慧城市网络评论数据语义方面的分析,将在后续步骤中进行。
本发明滤除所述智慧城市网络评论数据中无效的文本数据,精简有效数据,进而减少后续智慧城市网络评论数据语义分析所需的计算资源。
在上述各实施例的基础上,作为一种可选的实施例,所述采用人工交互方式从预先收集的智慧城市网络评论数据中挖掘目标关键概念,包括:
利用智慧城市网络评论领域分类模型,对所述智慧城市网络评论数据中的文本数据进行领域分类;
在智慧城市知识本体库框架的基础上,本发明定义了政务、消费、环境、交通、医疗、教育、养老、社区、城市管理、城市服务、信息公开与安全、无效数据、其他等13个分类,并将领域分类建模为多分类问题,设计了基于BERT(Bidirectional EncoderRepresentation form Transformers)的领域分类模型,即智慧城市网络评论领域分类模型。利用智慧城市网络评论领域分类模型进行智慧城市网络评论数据的领域分类,是对智慧城市网络评论语义上的初步筛选。一方面,领域分类从文本语义角度又一次过滤了智慧城市网络评论中的无效数据,另一方面,领域分类将智慧城市本体的扩充工作划分为数个更小的领域,提高了人工扩充智慧城市领域本体的可行性。
将属于同一个领域的文本数据写入同一文件中;
对于特定细分领域的智慧城市网络评论,可以按照换行符分隔的方式将文本数据写入同一文件中。
对每一个文件进行依存句法关系分析和词性分析,得到每一个文件对应领域下的候选关键概念;
本发明使用LTP(语言技术平台)作为自然语言处理分析工具,其功能主要包括分词、词性标注、命名实体识别、依存句法关系分析等,pyltp是LTP的python语言实现工具包,本发明主要使用pyltp库函数进行词性标注和依存句法关系分析,自动抽取每一个领域内的候选关键概念。
将所有领域下的候选关键概念及其对应的文本数据交由人工筛查,并将人工筛查后得到的关键概念作为目标关键概念。
考虑到上述处理工作在智慧城市网络评论关键概念的提取上可能存在一定的精度问题,因此本发明采用人工方式进行后续的关键概念筛选和调整,以得到最终的目标关键概念。
本发明以智慧城市网络评论数据为基础,设计实现一套智慧城市领域知识本体(关键概念)的半自动获取方法。预先根据网络评论数据的领域类型设计智慧城市网络评论领域分类模型,在应用时,首先通过爬虫方法从网络中获取智慧城市网络评论数据并进行相应的预处理;其次基于智慧城市网络评论领域分类模型,对上述智慧城市网络评论数据进行训练,实现智慧城市网络评论数据的领域划分;然后在细分领域内借助中文自然语言处理工具,提取智慧城市网络评论文本关键概念;最后将网络评论文本中提取所得关键概念知识交由人工审核和调整得到目标关键概念。减少了本体库构建过程中的人工工作量,进而能够构建较大规模的智慧城市领域知识本体库。
在上述各实施例的基础上,作为一种可选的实施例,所述智慧城市网络评论领域分类模型包括BertTokenizer网络结构、BERT网络结构、二维卷积神经网络结构和全连接层,是以智慧城市网络评论文本数据及其对应的领域标记为样本训练的;
所述利用智慧城市网络评论领域分类模型,对所述智慧城市网络评论数据中的文本数据进行领域分类,包括:
利用BertTokenizer网络结构,将输入的文本数据的文本序列转化为token序列;
利用BERT网络结构,将所述token序列编码为词嵌入向量;
利用二维卷积神经网络结构,对所述词嵌入向量进行卷积操作,得到所述输入的文本数据的文本特征;
通过激活函数激活所述输入的文本数据的文本特征,得到所述输入的文本数据激活后的文本特征;
利用全连接层处理所述输入的文本数据激活后的文本特征,得到所述输入的文本数据对应的领域。
图4示例了智慧城市网络评论领域分类模型结构示意图,该智慧城市网络评论领域分类模型对输入的智慧城市网络评论数据进行编码,通过卷积神经网络提取局部特征,送入分类器获得处理结果。具体流程如下:
(1)调用BertTokenizer模型将输入的智慧城市网络评论数据文本序列转化为token序列:
{t1,t2,…,tN}=BerTokenizer({w1,w2,…,wN})
其中,wi表示智慧城市网络评论数据文本序列的第i个字,ti∈R表示智慧城市网络评论数据文本序列第i个字的token编码结果。
(2)调用BERT预训练模型,将token序列编码为词嵌入向量:
{h1,h2,…,hN}=BERT{t1,t2,…,tN})
(3)调用二维卷积神经网络模型(二维CNN模型),对词嵌入向量进行卷积操作,提取文本局部特征,并通过ReLU函数进行激活:
C=Conv2d({h1,h2,…,hN})
(4)将智慧城市文本数据激活后的特征提取结果重组维度,送入函数全连接层(即分类器)进行分类:
其中,resize函数将特征提取结果重组为一维向量,记录了智慧城市网络评论数据领域分类的最终结果,Linear函数将以为向量与Linear矩阵相乘,进一步的提取特征;Sigmoid函数为激活函数,便于反向误差的传递。
需要注意的是,智慧城市网络评论领域分类模型需要进行预先训练以及验证,本发明采用随机抽取方法从智慧城市网络评论数据中抽取3000条数据,将3000条数据进行领域类型标注,并将携带领域类型标注的3000条数据作为模型数据集进行训练。具体为,将模型数据集按照80%、10%、10%的比例划分为训练集、验证集和测试集。设置如表5所示的模型训练参数,得到的基于BERT的智慧城市网络评论领域分类模型,该模型在测试集上的宏平均F1值(macro-F1-Score)达到了87.47%。
表5
参数名 | 参数值 |
BERT初始学习率 | 2e-5 |
其他网络结构初始学习率 | 1e-3 |
批处理大小 | 32 |
最大训练轮数 | 50 |
热身轮数 | 2 |
模型性能不提升最大轮数 | 5 |
本发明设计了一种模型结构,并以该模型结构训练得到智慧城市网络评论领域分类模型,该模型具有良好的领域分类效果,便于智慧城市网络评论数据的领域精准细分。
在上述各实施例的基础上,作为一种可选的实施例,所述对每一个文件进行依存句法关系分析和词性分析,得到每一个文件对应领域下的候选关键概念,包括:
针对每一个文件,对所述文件进行依存句法关系分析,确定所述文件中的定中关系和核心关系;
对所述定中关系中的评价对象和所述核心关系中的核心词进行词性分析,并筛选出名词类的评价对象和核心词;
以在文件中出现频次由高到低的顺序对筛选出的评价对象和核心词进行排序;
舍弃排序序列中频次低于预设频次的评价对象或核心词,得到所述文件对应领域下的候选关键概念。
本发明利用LTP抽取每一个领域内的候选关键概念,具体处理过程包含两个部分。首先通过LTP工具对各领域智慧城市网络评论文本进行批量依存句法关系分析,将文本中的定中关系和核心关系筛选出来,进而对定中关系中的评价对象或核心关系中的核心词进行词性分析验证,以词性分类为名词类的评价对象或核心关系,并将其作为初始候选关键概念。其次,对初始候选关键概念进行频次统计,按照频次由高到低的方式进行排列,舍弃出现频次较低的初始候选关键概念,并将剩余初始候选关键概念作为该领域下的候选关键概念。
本发明根据通过句法依存关系分析工具提取智慧城市各领域下的网络评论文本关键概念,进而构建更具针对性、更细致的智慧城市知识本体库。
在上述各实施例的基础上,作为一种可选的实施例,所述人工筛查的目标至少包括以下几项:
去除已包含在所述智慧城市知识本体库框架之内的候选关键概念;
合并含义相近的候选关键概念;
去除与智慧城市无关的候选关键概念。
其中,与智慧城市无关的候选关键概念,指的是与智慧城市资源环境、经济发展、社会治理、信息化建设、体制机制等内容的候选关键概念。
本发明将候选关键概念及其对应的原文交由人工筛选,由人工过滤与智慧城市无关的关键概念、合并相近含义的关键概念、并去除已存在于智慧城市知识本体库框架的关键概念,达到去冗余以及精确化的目的。
在上述各实施例的基础上,作为一种可选的实施例,所述关键概念,包括:事件概念、实体概念和属性概念;
所述关系规则,包括:子类关系、组成关系、支持关系和属性关系。
其中,所述事件概念,包括但不限于:服务事件、管理事件、基础设施建设事件和体制变更事件;
所述实体概念,包括但不限于:有确定物理形态的物品、有使用价值的资源、有统计价值或共享价值的数据和各类软件系统;
所述属性概念,包括但不限于:事件概念的属性和实体概念的属性。
本发明在智慧城市知识本体库的实际构建工作中,参考知识图谱一般构建方法,并基于文献调研和知识整理的方式构建智慧城市领域知识本体库框架。这一过程中关键概念和关系规则得定义起到了至关重要的作用。
本发明给出的关键概念和关系规则并非不可变通的,应用时应根据实际情况设计。
第二方面,本发明提供基于知识图谱的智慧城市知识本体库构建装置进行描述,下文描述的基于知识图谱的智慧城市知识本体库构建装置与上文描述的基于知识图谱的智慧城市知识本体库构建方法可相互对应参照。图5示例了一种基于知识图谱的智慧城市知识本体库构建装置的结构示意图,图中所述装置包括:
确定模块21,用于确定智慧城市的关键概念和关系规则;
智慧城市知识本体库框架构建模块22,用于基于所述关键概念和所述关系规则,参考知识图谱本体层构建模式,构建智慧城市知识本体库框架;
挖掘模块23,用于采用人工交互方式从预先收集的智慧城市网络评论数据中挖掘目标关键概念;
扩充模块24,用于利用目标关键概念,对所述智慧城市知识本体库框架进行扩充,得到智慧城市知识本体库;
其中,所述关键概念,至少包括事件、实体、事件属性和实体属性四者的描述性概念;
所述关系规则表征所述关键概念之间的依存关系。
本发明提供的一种基于知识图谱的智慧城市知识本体库构建装置,构建的智慧城市知识本体库在智慧城市领域本体知识条目上大幅扩充,为后续智慧城市网络民调情感知识图谱的构建提供了更具针对性、细粒度更高的知识支撑。
本发明实施例提供的基于知识图谱的智慧城市知识本体库构建装置,具体执行上述各基于知识图谱的智慧城市知识本体库构建方法实施例流程,具体请详见上述各基于知识图谱的智慧城市知识本体库构建方法实施例的内容,在此不再赘述。
第三方面,图6示例了一种电子设备的实体结构示意图。如图6所示,该电子设备可以包括:处理器(processor)610、通信接口(Communications Interface)620、存储器(memory)630和通信总线640,其中,处理器610,通信接口620,存储器630通过通信总线640完成相互间的通信。处理器610可以调用存储器630中的逻辑指令,以执行一种基于知识图谱的智慧城市知识本体库构建方法,该方法包括:确定智慧城市的关键概念和关系规则;基于所述关键概念和所述关系规则,参考知识图谱本体层构建模式,构建智慧城市知识本体库框架;采用人工交互方式从预先收集的智慧城市网络评论数据中挖掘目标关键概念;利用目标关键概念,对所述智慧城市知识本体库框架进行扩充,得到智慧城市知识本体库;其中,所述关键概念至少包括事件、实体、事件属性和实体属性四者的描述性概念;所述关系规则表征所述关键概念之间的依存关系。
此外,上述的存储器630中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
第四方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,以执行一种基于知识图谱的智慧城市知识本体库构建方法,该方法包括:确定智慧城市的关键概念和关系规则;基于所述关键概念和所述关系规则,参考知识图谱本体层构建模式,构建智慧城市知识本体库框架;采用人工交互方式从预先收集的智慧城市网络评论数据中挖掘目标关键概念;利用目标关键概念,对所述智慧城市知识本体库框架进行扩充,得到智慧城市知识本体库;其中,所述关键概念至少包括事件、实体、事件属性和实体属性四者的描述性概念;所述关系规则表征所述关键概念之间的依存关系。
第五方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,以执行一种基于知识图谱的智慧城市知识本体库构建方法,该方法包括:确定智慧城市的关键概念和关系规则;基于所述关键概念和所述关系规则,参考知识图谱本体层构建模式,构建智慧城市知识本体库框架;采用人工交互方式从预先收集的智慧城市网络评论数据中挖掘目标关键概念;利用目标关键概念,对所述智慧城市知识本体库框架进行扩充,得到智慧城市知识本体库;其中,所述关键概念至少包括事件、实体、事件属性和实体属性四者的描述性概念;所述关系规则表征所述关键概念之间的依存关系。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种基于知识图谱的智慧城市知识本体库构建方法,其特征在于,所述方法包括:
确定智慧城市的关键概念和关系规则;
基于所述关键概念和所述关系规则,参考知识图谱本体层构建模式,构建智慧城市知识本体库框架;
采用人工交互方式从预先收集的智慧城市网络评论数据中挖掘目标关键概念;
利用目标关键概念,对所述智慧城市知识本体库框架进行扩充,得到智慧城市知识本体库;
其中,所述关键概念至少包括事件、实体、事件属性和实体属性四者的描述性概念;
所述关系规则表征所述关键概念之间的依存关系。
2.根据权利要求1所述的基于知识图谱的智慧城市知识本体库构建方法,其特征在于,所述基于所述关键概念和所述关系规则,参考知识图谱本体层构建模式,构建智慧城市知识本体库框架,包括:
以所述关键概念为本体,以所述关系规则为本体之间的关系,建立所述智慧城市知识本体库框架;
所述利用目标关键概念,对所述智慧城市知识本体库框架进行扩充,得到智慧城市知识本体库,包括:
分析得到表征所述目标关键概念与所述智慧城市知识本体库框架中关键概念之间依存关系的关系规则;
基于所述目标关键概念和分析得到的关系规则,扩充所述智慧城市知识本体库框架,得到所述智慧城市知识本体库。
3.根据权利要求1所述的基于知识图谱的智慧城市知识本体库构建方法,其特征在于,所述智慧城市网络评论数据至少包括:智慧城市项目合作方收集的网络评论和从网站上爬取的网民来信;
其中,从所述网站上爬取网民来信的过程,包括:
定时利用网络爬虫向所述网站发送网民来信编号列表请求;
在收到所述网站反馈的网民来信编号列表的情况下,将所述网民来信编号列表与已缓存网民来信编号列表进行对比,得到未缓存网民来信编号;
向所述网站请求并缓存所述未缓存网民来信编号对应的来信内容,并更新已缓存网民来信编号列表。
4.根据权利要求1所述的基于知识图谱的智慧城市知识本体库构建方法,其特征在于,所述从预先收集的智慧城市网络评论数据中挖掘目标关键概念之前,还包括:滤除所述智慧城市网络评论数据中无效的文本数据;
所述无效的文本数据的识别过程,包括:
对于所述智慧城市网络评论数据中每一个文本数据,判断所述文本数据的词语量是否小于预设词语量;
若是,确定所述文本数据是否存在特殊词集合中的词语;
若否,对所述文本数据进行分句,按照辨别规则确定所述文本数据中每一个句子片段是否无效;
在所述文本数据存在特殊词集合中的词语或者所述文本数据中句子片段均无效的情况下,认定所述文本数据为无效的文本数据;
其中,所述辨别规则至少包括以下一种:
当句子片段包含无效词集合中的词语时,句子片段无效;
当句子片段同时出现无效词对集合内任一词语对中的两个词语时,句子片段无效。
5.根据权利要求1或4所述的基于知识图谱的智慧城市知识本体库构建方法,其特征在于,所述采用人工交互方式从预先收集的智慧城市网络评论数据中挖掘目标关键概念,包括:
利用智慧城市网络评论领域分类模型,对所述智慧城市网络评论数据中的文本数据进行领域分类;
将属于同一个领域的文本数据写入同一文件中;
对每一个文件进行依存句法关系分析和词性分析,得到每一个文件对应领域下的候选关键概念;
将所有领域下的候选关键概念及其对应的文本数据交由人工筛查,并将人工筛查后得到的关键概念作为目标关键概念。
6.根据权利要求5所述的基于知识图谱的智慧城市知识本体库构建方法,其特征在于,所述智慧城市网络评论领域分类模型包括BertTokenizer网络结构、BERT网络结构、二维卷积神经网络结构和全连接层,是以智慧城市网络评论文本数据及其对应的领域标记为样本训练的;
所述利用智慧城市网络评论领域分类模型,对所述智慧城市网络评论数据中的文本数据进行领域分类,包括:
利用BertTokenizer网络结构,将输入的文本数据的文本序列转化为token序列;
利用BERT网络结构,将所述token序列编码为词嵌入向量;
利用二维卷积神经网络结构,对所述词嵌入向量进行卷积操作,得到所述输入的文本数据的文本特征;
通过激活函数激活所述输入的文本数据的文本特征,得到所述输入的文本数据激活后的文本特征;
利用全连接层处理所述输入的文本数据激活后的文本特征,得到所述输入的文本数据对应的领域。
7.根据权利要求5所述的基于知识图谱的智慧城市知识本体库构建方法,其特征在于,所述对每一个文件进行依存句法关系分析和词性分析,得到每一个文件对应领域下的候选关键概念,包括:
针对每一个文件,对所述文件进行依存句法关系分析,确定所述文件中的定中关系和核心关系;
对所述定中关系中的评价对象和所述核心关系中的核心词进行词性分析,并筛选出名词类的评价对象和核心词;
以在文件中出现频次由高到低的顺序对筛选出的评价对象和核心词进行排序;
舍弃排序序列中频次低于预设频次的评价对象或核心词,得到所述文件对应领域下的候选关键概念。
8.根据权利要求5所述的基于知识图谱的智慧城市知识本体库构建方法,其特征在于,所述人工筛查的目标至少包括以下几项:
去除已包含在所述智慧城市知识本体库框架之内的候选关键概念;
合并含义相近的候选关键概念;
去除与智慧城市无关的候选关键概念。
9.根据权利要求1所述的基于知识图谱的智慧城市知识本体库构建方法,其特征在于,所述关键概念,包括:事件概念、实体概念和属性概念;
所述关系规则,包括:子类关系、组成关系、支持关系和属性关系;
其中,所述事件概念,包括但不限于:服务事件、管理事件、基础设施建设事件和体制变更事件;
所述实体概念,包括但不限于:有确定物理形态的物品、有使用价值的资源、有统计价值或共享价值的数据和各类软件系统;
所述属性概念,包括但不限于:事件概念的属性和实体概念的属性。
10.一种基于知识图谱的智慧城市知识本体库构建装置,其特征在于,所述装置包括:
确定模块,用于确定智慧城市的关键概念和关系规则;
智慧城市知识本体库框架构建模块,用于基于所述关键概念和所述关系规则,参考知识图谱本体层构建模式,构建智慧城市知识本体库框架;
挖掘模块,用于采用人工交互方式从预先收集的智慧城市网络评论数据中挖掘目标关键概念;
扩充模块,用于利用目标关键概念,对所述智慧城市知识本体库框架进行扩充,得到智慧城市知识本体库;
其中,所述关键概念,至少包括事件、实体、事件属性和实体属性四者的描述性概念;
所述关系规则表征所述关键概念之间的依存关系。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210771475.5A CN115204393A (zh) | 2022-06-30 | 2022-06-30 | 一种基于知识图谱的智慧城市知识本体库构建方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210771475.5A CN115204393A (zh) | 2022-06-30 | 2022-06-30 | 一种基于知识图谱的智慧城市知识本体库构建方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115204393A true CN115204393A (zh) | 2022-10-18 |
Family
ID=83577766
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210771475.5A Pending CN115204393A (zh) | 2022-06-30 | 2022-06-30 | 一种基于知识图谱的智慧城市知识本体库构建方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115204393A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115860436A (zh) * | 2023-02-21 | 2023-03-28 | 齐鲁工业大学(山东省科学院) | 一种基于知识图谱的城市热线派单方法及系统 |
-
2022
- 2022-06-30 CN CN202210771475.5A patent/CN115204393A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115860436A (zh) * | 2023-02-21 | 2023-03-28 | 齐鲁工业大学(山东省科学院) | 一种基于知识图谱的城市热线派单方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111428053B (zh) | 一种面向税务领域知识图谱的构建方法 | |
Das et al. | Text mining and topic modeling of compendiums of papers from transportation research board annual meetings | |
CN112182246B (zh) | 通过大数据分析建立企业画像的方法、系统、介质及应用 | |
CN111967761B (zh) | 一种基于知识图谱的监控预警方法、装置及电子设备 | |
CN110929125B (zh) | 搜索召回方法、装置、设备及其存储介质 | |
CN111581376B (zh) | 一种知识图谱自动构建系统及方法 | |
RU2704531C1 (ru) | Способ и устройство для анализа семантической информации | |
Doyle et al. | Forecasting significant societal events using the embers streaming predictive analytics system | |
CN107918644B (zh) | 声誉管理框架内的新闻议题分析方法和实施系统 | |
Poisot et al. | Synthetic datasets and community tools for the rapid testing of ecological hypotheses | |
CN115794798B (zh) | 一种市场监管信息化标准管理与动态维护系统及方法 | |
CN115238688B (zh) | 电子信息数据关联关系分析方法、装置、设备和存储介质 | |
CN114915468B (zh) | 基于知识图谱的网络犯罪智能分析检测方法 | |
CN115545558A (zh) | 获取风险识别模型的方法、装置、机器可读介质及设备 | |
US20170235835A1 (en) | Information identification and extraction | |
CN115204393A (zh) | 一种基于知识图谱的智慧城市知识本体库构建方法和装置 | |
CN116151967A (zh) | 一种基于交易知识图谱的欺诈团伙识别系统 | |
CN114386408A (zh) | 政务敏感信息识别方法、装置、设备、介质和程序产品 | |
CN116562255A (zh) | 表单信息生成方法、装置、电子设备和计算机可读介质 | |
CN116521729A (zh) | 一种基于Elasticsearch的信息分类搜索方法及装置 | |
CN106055702B (zh) | 一种面向互联网的数据服务统一描述方法 | |
KR20230059364A (ko) | 언어 모델을 이용한 여론조사 시스템 및 운영 방법 | |
CN108572966A (zh) | 一种创建个人画像的方法及装置 | |
Liu et al. | Practical skills of business english correspondence writing based on data mining algorithm | |
Di Martino et al. | Anomalous witnesses and registrations detection in the Italian justice system based on big data and machine learning techniques |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |