CN114090787A - 一种基于互联网电力政策信息的知识图谱构建方法 - Google Patents
一种基于互联网电力政策信息的知识图谱构建方法 Download PDFInfo
- Publication number
- CN114090787A CN114090787A CN202111346515.3A CN202111346515A CN114090787A CN 114090787 A CN114090787 A CN 114090787A CN 202111346515 A CN202111346515 A CN 202111346515A CN 114090787 A CN114090787 A CN 114090787A
- Authority
- CN
- China
- Prior art keywords
- word
- sentences
- knowledge
- power
- internet
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000010276 construction Methods 0.000 title claims abstract description 15
- 230000011218 segmentation Effects 0.000 claims abstract description 32
- 238000000034 method Methods 0.000 claims abstract description 9
- 238000013507 mapping Methods 0.000 claims abstract description 6
- 238000000605 extraction Methods 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000013016 damping Methods 0.000 claims description 3
- 238000004458 analytical method Methods 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 230000003203 everyday effect Effects 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000004134 energy conservation Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Databases & Information Systems (AREA)
- Business, Economics & Management (AREA)
- Economics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Biology (AREA)
- Human Resources & Organizations (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Public Health (AREA)
- Water Supply & Treatment (AREA)
- Evolutionary Computation (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Animal Behavior & Ethology (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种基于互联网电力政策信息的知识图谱构建方法,包括如下步骤:S1、采集互联网上的电力领域知识,结构化存储电力数据,构建原始的电力领域知识数据库;S2、构建电力领域知识专用词典,对采集到的互联网上的电力领域知识用基于动态规划的维特比算法进行分词处理,并根据电力领域知识专用词典进行词性标注;S3、基于TextRank算法对文本词、句进行权重判别,提取文本关键词和关键句;S4、根据分词词性提取文中词句中的实体信息,将获取的实体信息、提取的关键词和关键句映射到一个语义空间,使用图数据库对实体信息及其关系进行存储,形成知识图谱。本发明可有效处理电力专业领域政策信息获取和分析的问题,提高电网决策智能化水平。
Description
技术领域
本发明属于电力领域决策辅助领域,具体涉及一种基于互联网电力政策信息的知识图谱构建方法。
背景技术
随着全世界对环境保护关注的日趋上升,以及各国对能源管理创新与改革的迫切需求,电力行业面临着节能环保和信息化的变革要求,对传统电力系统的改造和升级显得刻不容缓。对电力系统而言,构建电力知识图谱以及更新知识图谱的重要性表现在:一方面,电力系统每天都在产生新的知识,电力系统的调度和决策的高效执行必须建立在对这些新的知识进行不断的进行学习和获取的基础上。对于这种不断出现的新的知识,知识图谱可以不断的将其结构化,并扩充到知识库中,从而为电力系统各类业务提供参考。另一方面,电力系统旧有的知识每天都在变化,可能是实体的相关属性值发生了变化,或者是实体之间的链接关系发生改变。电力系统的知识不是一成不变的,而是处在不断变化的过程中,电力系统这种知识的不断产生和变化凸显了不断更新和完善知识图谱的重要性。
对于类似的信息处理问题,在通用领域知识图谱表现良好,而对于电力这一专业领域的信息分析而言,常用的词典无法较准确地分辨一些专有名词和概念,这就产生了分词已经确定实体关系的局限性。为此,将知识图谱引入互联网电力领域政策信息分析场景,提出一种基于互联网电力政策信息的知识图谱构建方法,对互联网上的电力领域知识做采集处理,使从结构化数据与非结构化文档中抽取各类知识成为可能。
发明内容
本发明要解决的技术问题是提供一种基于互联网电力政策信息的知识图谱构建方法,在较少牺牲实体抽取精度前提下节约了存储量和运算量,有效节约电力政策信息辅助决策所需的检索与分析时间,长时间的数据记录为后续的决策奠定了良好的基础。
为解决上述技术问题,本发明的实施例提供一种基于互联网电力政策信息的知识图谱构建方法,包括如下步骤:
S1、采集互联网上的电力领域知识,结构化存储电力数据,构建原始的电力领域知识数据库;
S2、构建电力领域知识专用词典,以步骤S1中采集到的互联网上的电力领域知识为文本用基于动态规划的维特比算法进行分词处理,并根据电力领域知识专用词典进行词性标注,得到文本词、文本句;
S3、基于TextRank算法对步骤S2得到的文本词和文本句进行权重判别,提取文本关键词和关键句;
S4、根据分词词性提取文中词和文本句中的实体信息,将获取的实体信息和步骤S3提取的关键词、关键句映射到一个语义空间,使用图数据库对实体信息及其关系进行存储,形成基于互联网电力政策信息的知识图谱。
其中,步骤S1的具体步骤包括:
S1.1、选取电力领域政策信息的可信网络数据源;
S1.2、对网络数据源上的文本信息通过聚焦网络爬虫进行抓取,并根据系统获取信息的需求设计上下层提取器对网络数据源进行判重和置信度分析,降低信息采集系统的运算量和存储量;
S1.3、根据采集到信息的不同数据作结构化存储,构建原始的电力领域知识数据库。
其中,步骤S2的具体步骤包括:
S2.1、收集多篇语料文档,通过人工手工分词,统计人工分词后的词频:①统计分词后的每个词出现的频率,得到一元核心词典;②统计两个词两两相邻出现的频率,得到二元核心词典;
根据贝叶斯公式计算词A和词B在语料库中共同出现的频率和词B在语料库中出现的频率,基于这两个频率计算出在给定词B的条件下,下一个词是A的概率;
贝叶斯公式如下:
P(A|B)=P(A,B)P(B)=count(A,B)count(B);
其中,count(A,B)表示词A和词B在语料库中共同出现的频率;count(B)表示词B在语料库中出现的频率;
S2.2、Verterbi模型通过比较不同分词结果出现的可能性并选择最大者进行分词处理;
S2.3、根据通用词典和电力领域专用词典组成的词库,生成所有字可能组成的词网,通过遍历上述词网获取从一个词到另一个词的可能性,选择可能性最大的作为分词的结果,并根据电力领域知识专用词典进行词性标注。
其中,步骤S3包括:
S3.1、关键词的提取
将文本看作图,单词看作结点Vi,选取半径为2的窗口,每个单词Vi与自身前后固定窗口内的单词Vj连接,初始化时每个结点的权重TR(Vi)都是1,以迭代的方式更新每个结点的权重,权重最高的单词即是关键词;
每次迭代权重的公式如下:
其中,Wji是单词Vj和Vi间的连接权重,一般设置为1;Wjk是单词Vj和Vk间的连接权重,一般设置为1;d是阻尼系数,一般设置为0.85;TR(Vj)是单词Vj的权重;
S3.2、关键句的提取
以句子作为结点si,考察句子间的相似度,相似度的计算公式如下:
其中,pk为句子中的单词节点;
式中,分子是同时出现在两个句子中的同一个词的个数,分母是对句子中词的个数求对数之和;
如果两个句子有相似性,认为这两个句子对应的节点之间存在一条无向有权边,以迭代的方式更新每个结点的权重,句子的迭代公式如下:
其中,TR(Si)为结点Si的权重。
其中,步骤S4的具体步骤包括:
基于Verterbi模型对文本词的词性标注并对特定实体信息如机构和人名作提取,并将其与文本源作为核心结点构建知识图谱。将实体和实体间的关系映射到语义空间,采用向量的方法来表示实体和关系,导入Neo4j图数据库中保存为基于互联网电力政策信息的知识图谱。
本发明的上述技术方案的有益效果如下:
1、本发明将知识图谱引入互联网电力领域政策信息分析场景,提出了一种基于互联网电力政策信息的知识图谱构建方法,对互联网上的电力领域知识做采集处理,使从结构化数据与非结构化文档中抽取各类知识成为可能。
2、本发明采用知识图谱技术提供的图式的数据存储方式,相比传统存储方式,数据调取速度更快,实时图计算引擎真正实现人机互动的实时响应,做到即时决策。
附图说明
图1为本发明的基于互联网电力政策信息的知识图谱构建流程图;
图2为Verterbi模型结合电力领域专用词典分词流程图;
图3为基于TextRank算法的互联网电力政策信息关键词句提取原理图;
图4为基于互联网电力政策信息知识图谱结点示意图。
具体实施方式
为使本发明要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述。
如图1所示,本发明提供一种基于互联网电力政策信息的知识图谱构建方法,包括如下步骤:
S1、采集互联网上的电力领域知识,结构化存储电力数据,构建原始的电力领域知识数据库;
步骤S1中考虑到互联网上电力领域政策信息的来自新闻发布平台、企业官网、政府机构公告和行业动态等不同的数据源,先采用对应的爬虫模块对知识作基础的采集,即分为源地址、可信度、事件标题、发布时间和具体内容,通过源地址作第一次数据去重,通过事件标题进一步过滤重复信息以节约运算量和存储规模。将采集到的数据结构化存储在关系型数据库MySQL中,构建出原始的电力领域知识数据库。
S2、构建电力领域知识专用词典,以步骤S1中采集到的互联网上的电力领域知识为文本用基于动态规划的维特比算法进行分词处理,并根据电力领域知识专用词典进行词性标注,得到文本词、文本句;
步骤S2中,传统的分词方式无法有效应对专有领域词汇划分的问题,本步骤采用基于多词典的Verterbi模型分词方式对步骤S1得到的文本信息进行分词处理。
收集了若干篇语料文档,通过人工手工分词,统计人工分词后的词频:①统计分词后的每个词出现的频率,得到一元核心词典;②统计两个词两两相邻出现的频率,得到二元核心词典。根据贝叶斯公式计算词A和词B在语料库中共同出现的频率和词B在语料库中出现的频率。基于这两个频率计算出在给定词B的条件下,下一个词是A的概率。
Verterbi模型通过比较不同分词结果出现的可能性并选择最大者来实现分词。根据词库,生成所有所有字可能组成的词(词网),通过遍历上述词(词网)获取从一个词到另一个词的可能性,选择可能性最大的作为分词的结果,并标注分词所属词性。
S3、基于TextRank算法对文本词和文本句进行权重判别,提取文本关键词和关键句;
常用的提取文本关键词、句的方法主要是TF-IDF、TextRank和Word2Vec词向量聚类。TF-IDF选取词频最高作为关键词,TextRank选取关联最强作为关键词,Word2Vec词向量聚类选取聚类中心作为关键词,考虑到专业领域政策信息中高频词和关键词的关联度不高,Word2Vec在单文档中直接应用表现较差。
本步骤选取TextRank来完成对文本关键词句的提取,将步骤S1中获取的文本信息分词后过滤掉停用词,只保留指定词性的单词,如名词、动词、形容词。构建候选关键词图G=(V,E),其中,V为保留词构成的节点集,选取半径为2的窗口,每个单词Vi与自身前后固定窗口内的单词Vj连接,初始化时每个结点的权重TR(Vi)都是1,以迭代的方式更新每个结点的权重,每次迭代权重的公式如下:
其中,Wji是单词Vj和Vi间的连接权重,一般设置为1;Wjk是单词Vj和Vk间的连接权重,一般设置为1;d是阻尼系数,一般设置为0.85;TR(Vj)是单词Vj的权重。最后权重最高的单词即是关键词。
关键句的提取原理与关键词的类似,以句子作为结点Si,但考察的是句子间的相似度,相似度的计算公式如下:
其中,pk为句子中的单词节点;
式中,分子是同时出现在两个句子中的同一个词的个数,分母是对句子中词的个数求对数之和。
如果两个句子有相似性,那么认为这两个句子对应的节点之间存在一条无向有权边,以迭代的方式更新每个结点的权重,句子的迭代公式如下:
其中,TR(Si)为结点Si的权重。
S4、根据分词词性提取文中词和文本句中的实体信息,将获取的实体信息和步骤S3提取的关键词、关键句映射到一个语义空间,使用图数据库对实体信息及其关系进行存储,形成基于互联网电力政策信息的知识图谱。
基于步骤S2中Verterbi模型对文本单词的词性标注对特定实体信息如机构和人名作提取,并将其与文本源作为核心结点构建知识图谱。所属关系包含机构-事件、人名-事件、事件-事件、人名-机构和机构-机构。将步骤S3中得到的关键词句作为事件的信息摘要,方便决策者快速阅读核心内容并进行关联检索。将实体和实体间的关系映射到语义空间,采用向量的方法来表示实体和关系,导入Neo4j图数据库中保存为基于互联网电力政策信息的知识图谱。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明所述原理的前提下,还可以作出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (5)
1.一种基于互联网电力政策信息的知识图谱构建方法,其特征在于,包括如下步骤:
S1、采集互联网上的电力领域知识,结构化存储电力数据,构建原始的电力领域知识数据库;
S2、构建电力领域知识专用词典,以步骤S1中采集到的互联网上的电力领域知识为文本用基于动态规划的维特比算法进行分词处理,并根据电力领域知识专用词典进行词性标注,得到文本词、文本句;
S3、基于TextRank算法对步骤S2得到的文本词和文本句进行权重判别,提取文本关键词和关键句;
S4、根据分词词性提取文中词和文本句中的实体信息,将获取的实体信息和步骤S3提取的关键词、关键句映射到一个语义空间,使用图数据库对实体信息及其关系进行存储,形成基于互联网电力政策信息的知识图谱。
2.根据权利要求1所述的基于互联网电力政策信息的知识图谱构建方法,其特征在于,步骤S1的具体步骤包括:
S1.1、选取电力领域政策信息的可信网络数据源;
S1.2、对网络数据源上的文本信息通过聚焦网络爬虫进行抓取,并根据系统获取信息的需求设计上下层提取器对网络数据源进行判重和置信度分析,降低信息采集系统的运算量和存储量;
S1.3、根据采集到信息的不同数据作结构化存储,构建原始的电力领域知识数据库。
3.根据权利要求1所述的基于互联网电力政策信息的知识图谱构建方法,其特征在于,步骤S2的具体步骤包括:
S2.1、收集多篇语料文档,通过人工手工分词,统计人工分词后的词频:①统计分词后的每个词出现的频率,得到一元核心词典;②统计两个词两两相邻出现的频率,得到二元核心词典;
根据贝叶斯公式计算词A和词B在语料库中共同出现的频率和词B在语料库中出现的频率,基于这两个频率计算出在给定词B的条件下,下一个词是A的概率;
贝叶斯公式如下:
P(A|B)=P(A,B)P(B)=count(A,B)count(B);
其中,count(A,B)表示词A和词B在语料库中共同出现的频率;count(B)表示词B在语料库中出现的频率;
S2.2、Verterbi模型通过比较不同分词结果出现的可能性并选择最大者进行分词处理;
S2.3、根据词库,生成所有字可能组成的词网,通过遍历上述词网获取从一个词到另一个词的可能性,选择可能性最大的作为分词的结果,并根据电力领域知识专用词典进行词性标注。
4.根据权利要求1所述的基于互联网电力政策信息的知识图谱构建方法,其特征在于,步骤S3包括:
S3.1、关键词的提取
将文本看作图,单词看作结点Vi,选取半径为2的窗口,每个单词Vi与自身前后固定窗口内的单词Vj连接,初始化时每个结点的权重TR(Vi)都是1,以迭代的方式更新每个结点的权重,权重最高的单词即是关键词;
每次迭代权重的公式如下:
其中,Wji是单词Vj和Vi间的连接权重,设置为1;Wjk是单词Vj和Vk间的连接权重,设置为1;d是阻尼系数,设置为0.85;TR(Vj)是单词Vj的权重;
S3.2、关键句的提取
以句子作为结点Si,考察句子间的相似度,相似度的计算公式如下:
其中,pk为句子中的单词节点;
式中,分子是同时出现在两个句子中的同一个词的个数,分母是对句子中词的个数求对数之和;
如果两个句子有相似性,认为这两个句子对应的节点之间存在一条无向有权边,以迭代的方式更新每个结点的权重,句子的迭代公式如下:
其中,TR(Si)为结点Si的权重。
5.根据权利要求1所述的基于互联网电力政策信息的知识图谱构建方法,其特征在于,步骤S4的具体步骤包括:
基于Verterbi模型对文本词的词性标注并对特定实体信息作提取,将实体和实体间的关系映射到语义空间,采用向量的方法来表示实体和关系,导入Neo4j图数据库中保存为基于互联网电力政策信息的知识图谱。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111346515.3A CN114090787A (zh) | 2021-11-15 | 2021-11-15 | 一种基于互联网电力政策信息的知识图谱构建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111346515.3A CN114090787A (zh) | 2021-11-15 | 2021-11-15 | 一种基于互联网电力政策信息的知识图谱构建方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114090787A true CN114090787A (zh) | 2022-02-25 |
Family
ID=80300597
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111346515.3A Pending CN114090787A (zh) | 2021-11-15 | 2021-11-15 | 一种基于互联网电力政策信息的知识图谱构建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114090787A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114611486A (zh) * | 2022-03-09 | 2022-06-10 | 上海弘玑信息技术有限公司 | 信息抽取引擎的生成方法及装置、电子设备 |
CN115033772A (zh) * | 2022-06-20 | 2022-09-09 | 浙江大学 | 一种基于语义网络的创意激发方法及装置 |
CN115203436A (zh) * | 2022-07-15 | 2022-10-18 | 国网江苏省电力有限公司信息通信分公司 | 一种基于有向图数据融合的电力知识图谱构建方法和装置 |
CN116091120A (zh) * | 2023-04-11 | 2023-05-09 | 北京智蚁杨帆科技有限公司 | 一种基于知识图谱技术的全栈式电价咨询与管理系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150095331A1 (en) * | 2012-12-21 | 2015-04-02 | Cloud Computing Center Chinese Academy Of Sciences | Establishing and querying methods of knowledge library engine based on emergency management |
CN109388803A (zh) * | 2018-10-12 | 2019-02-26 | 北京搜狐新动力信息技术有限公司 | 中文分词方法及系统 |
CN111897968A (zh) * | 2020-07-20 | 2020-11-06 | 国网浙江省电力有限公司嘉兴供电公司 | 一种工业信息安全知识图谱构建方法和系统 |
CN112434532A (zh) * | 2020-11-05 | 2021-03-02 | 西安交通大学 | 一种支持人机双向理解的电网环境模型及建模方法 |
-
2021
- 2021-11-15 CN CN202111346515.3A patent/CN114090787A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150095331A1 (en) * | 2012-12-21 | 2015-04-02 | Cloud Computing Center Chinese Academy Of Sciences | Establishing and querying methods of knowledge library engine based on emergency management |
CN109388803A (zh) * | 2018-10-12 | 2019-02-26 | 北京搜狐新动力信息技术有限公司 | 中文分词方法及系统 |
CN111897968A (zh) * | 2020-07-20 | 2020-11-06 | 国网浙江省电力有限公司嘉兴供电公司 | 一种工业信息安全知识图谱构建方法和系统 |
CN112434532A (zh) * | 2020-11-05 | 2021-03-02 | 西安交通大学 | 一种支持人机双向理解的电网环境模型及建模方法 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114611486A (zh) * | 2022-03-09 | 2022-06-10 | 上海弘玑信息技术有限公司 | 信息抽取引擎的生成方法及装置、电子设备 |
CN115033772A (zh) * | 2022-06-20 | 2022-09-09 | 浙江大学 | 一种基于语义网络的创意激发方法及装置 |
CN115203436A (zh) * | 2022-07-15 | 2022-10-18 | 国网江苏省电力有限公司信息通信分公司 | 一种基于有向图数据融合的电力知识图谱构建方法和装置 |
CN115203436B (zh) * | 2022-07-15 | 2023-12-15 | 国网江苏省电力有限公司信息通信分公司 | 一种基于有向图数据融合的电力知识图谱构建方法和装置 |
CN116091120A (zh) * | 2023-04-11 | 2023-05-09 | 北京智蚁杨帆科技有限公司 | 一种基于知识图谱技术的全栈式电价咨询与管理系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111104794B (zh) | 一种基于主题词的文本相似度匹配方法 | |
CN114090787A (zh) | 一种基于互联网电力政策信息的知识图谱构建方法 | |
Tan et al. | Unsupervised query segmentation using generative language models and wikipedia | |
CN111832289B (zh) | 一种基于聚类和高斯lda的服务发现方法 | |
CN116628173B (zh) | 一种基于关键字提取的智能客服信息生成系统及生成方法 | |
CN111460153A (zh) | 热点话题提取方法、装置、终端设备及存储介质 | |
CN113033183B (zh) | 一种基于统计量与相似性的网络新词发现方法及系统 | |
CN108509521B (zh) | 一种自动生成文本索引的图像检索方法 | |
Ismailov et al. | A comparative study of stemming algorithms for use with the Uzbek language | |
JP5057474B2 (ja) | オブジェクト間の競合指標計算方法およびシステム | |
CN115983233B (zh) | 一种基于数据流匹配的电子病历查重率估计方法 | |
CN112559747A (zh) | 事件分类处理方法、装置、电子设备和存储介质 | |
Atwan et al. | The use of stemming in the Arabic text and its impact on the accuracy of classification | |
CN110019763B (zh) | 文本过滤方法、系统、设备及计算机可读存储介质 | |
CN112000782A (zh) | 一种基于k-means聚类算法的智能客服问答系统 | |
CN115329173A (zh) | 一种基于舆情监控的企业信用确定方法及装置 | |
CN113111136B (zh) | 一种基于ucl知识空间的实体消歧方法及装置 | |
CN110930189A (zh) | 基于用户行为的个性化营销方法 | |
Wang et al. | Exploiting multi-document term extraction to improve named entity recognition for major concept detection | |
CN117556112B (zh) | 电子档案信息智能管理系统 | |
CN116126893B (zh) | 一种数据关联检索方法、装置及相关设备 | |
CN117828007B (zh) | 基于自然语言处理的建设征地移民档案管理方法及系统 | |
Gadri et al. | Developing a Multilingual Stemmer for the Requirement of Text Categorization and Information Retrieval | |
CN118332089A (zh) | 一种基于大数据关键词比对的人工智能交互系统 | |
Wang et al. | An Improved Clustering Algorithm based on Single-pass |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |