CN113378564A - 垂直领域细分场景结合知识图谱的分词方法 - Google Patents

垂直领域细分场景结合知识图谱的分词方法 Download PDF

Info

Publication number
CN113378564A
CN113378564A CN202110478457.3A CN202110478457A CN113378564A CN 113378564 A CN113378564 A CN 113378564A CN 202110478457 A CN202110478457 A CN 202110478457A CN 113378564 A CN113378564 A CN 113378564A
Authority
CN
China
Prior art keywords
words
data
knowledge graph
text
graph
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110478457.3A
Other languages
English (en)
Inventor
李抒雁
沙涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Shixiang Culture Communication Co ltd
Original Assignee
Shanghai Shixiang Culture Communication Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Shixiang Culture Communication Co ltd filed Critical Shanghai Shixiang Culture Communication Co ltd
Priority to CN202110478457.3A priority Critical patent/CN113378564A/zh
Publication of CN113378564A publication Critical patent/CN113378564A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了垂直领域细分场景结合知识图谱的分词方法,包括如下步骤:S1、人工构建专用领域的知识图谱;S2、知识图谱同步生成单词树;S3、利用单词树对输入文本快速分词,所述S1中对于领域的词语进行选取,通过大数据的服务器将领域进行分类,接着对于数据进行树状图分类,将数据进行服务器保存,本发明结构科学合理,使用安全方便,首先通过大数据的服务器将领域进行分类,接着对于数据进行树状图分类,对于树状图中数据进行连接定义,并通过大数据网络进行实时的更新与调整,将知识图谱中的数据与正在形成的单词树进行组织,并将领域专业词语进行树状图的形成,将后期单词树的雏形进行了建立,而对于后期中的分类,可以有多个关系网的建立。

Description

垂直领域细分场景结合知识图谱的分词方法
技术领域
本发明涉及基于知识图谱技术领域,具体为垂直领域细分场景结合知识图谱的分词方法。
背景技术
知识图谱是通过将应用数学、图形学、信息可视化技术、信息科学等学科的理论与方法与计量学引文分析、共现分析等方法结合,并利用可视化的图谱形象地展示学科的核心结构、发展历史、前沿领域以及整体知识架构达到多学科融合目的的现代理论,它能为学科研究提供切实的、有价值的参考,具体来说,知识图谱是通过将应用数学、图形学、信息可视化技术、信息科学等学科的理论与方法与计量学引文分析、共现分析等方法结合,并利用可视化的图谱形象地展示学科的核心结构、发展历史、前沿领域以及整体知识架构达到多学科融合目的的现代理论,它把复杂的知识领域通过数据挖掘、信息处理、知识计量和图形绘制而显示出来,揭示知识领域的动态发展规律,为学科研究提供切实的、有价值的参考,迄今为止,其实际应用在发达国家已经逐步拓展并取得了较好的效果,但它在我国仍属研究的起步阶段;
但是目前的知识图谱的分词输入方法搜索复杂,单词树含量少,造成数据文本检索不流畅,结果少,并且对于同义词和近义词的结果不能规范性的指出,造成了结果不全面的现象。
发明内容
本发明提供垂直领域细分场景结合知识图谱的分词方法,可以有效解决上述背景技术中提出目前的知识图谱的分词输入方法搜索复杂,单词树含量少,造成数据文本检索不流畅,结果少,并且对于同义词和近义词的结果不能规范性的指出,造成了结果不全面的现象的问题。
为实现上述目的,本发明提供如下技术方案:垂直领域细分场景结合知识图谱的分词方法,包括如下步骤:
S1、人工构建专用领域的知识图谱;
S2、知识图谱同步生成单词树;
S3、利用单词树对输入文本快速分词。
根据上述技术方案,所述S1中对于领域的词语进行选取,通过大数据的服务器将领域进行分类,接着对于数据进行树状图分类,将数据进行服务器保存,同时根据大数据的网络服务定期对于词语进行更新;
所述领域中的词语进行定义,接着将数据进行分析,将其用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系,形成知识图谱。
根据上述技术方案,所述知识图谱对于图谱参数根据大数据网络进行调整,同时对于领域中的词语进行规范,将领域进行正常的规范,同时对于领域中的特定词语进行选择性删除,对于知识图谱进行参数调整,同时对于图谱中的屏蔽词语进行标记。
根据上述技术方案,所述S2中将知识图谱的数据进行联系,将树状图进行构造,同时对于树状图中数据进行连接定义,并通过大数据网络进行实时的更新与调整;
对于树状图的数据进行备份保存,同时进行更新的时候,将领域中的重点词语、搜索频繁的词语进行标记,将其进行正常的分选与分类;
将分类的领域进行相互的连接与定义,也可自定义进行分类,同时对于数据进行备份记录。
根据上述技术方案,所述S3中对于文本进行快速定义与选取,同时对于文本的近义词、同义词进行排比输出,对于数据进行选择后,将数据进行正常的选择与表示,同时对于文本的特征进行比对。
根据上述技术方案,所述S3中文本进行读取后,计数加一,确定文本的活跃量,将每次的检索结果和文本的读取次数进行统计,便于统一文本的读取吞入速度。
根据上述技术方案,所述S3中把输入文本提交到单词树的时候,单词树会对这些关键词进行分析,也就是分词,单词树对这个关键词进行分析,这个分析涉及的关键词粒度的大小,其中粒度是指数据的精准程度,根据分词里面的词义分词法,词义分词法的意思是进行句法、语义分析,利用句法信息和语义信息来处理歧义现象来分词。
根据上述技术方案,所述S3中对分词简单解释,关键词分析分词完成后,开始进行文本匹配,文本匹配是搜索引擎用已经分好的词,在单词树的后台去匹配,根据文本匹配,并且去除干扰项。
与现有技术相比,本发明的有益效果:本发明结构科学合理,使用安全方便,首先通过大数据的服务器将领域进行分类,接着对于数据进行树状图分类,对于树状图中数据进行连接定义,并通过大数据网络进行实时的更新与调整,将知识图谱中的数据与正在形成的单词树进行组织,并将领域专业词语进行树状图的形成,将后期单词树的雏形进行了建立,而对于后期中的分类,可以有多个关系网的建立,所以,将分类的领域进行相互的连接与定义,也可自定义进行分类,同时对于数据进行备份记录,便于了后期的更新与维护,而对于文本进行快速定义与选取,同时对于文本的近义词、同义词进行排比输出,对于数据进行选择后,将数据进行正常的选择与表示,同时对于文本的特征进行比对,可以进一步提高准确率。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。
在附图中:
图1是本发明的方法步骤结构示意图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
实施例:如图1所示,本发明提供技术方案,垂直领域细分场景结合知识图谱的分词方法,包括如下步骤:
S1、人工构建专用领域的知识图谱;
S2、知识图谱同步生成单词树;
S3、利用单词树对输入文本快速分词。
根据上述技术方案,S1中对于领域的词语进行选取,通过大数据的服务器将领域进行分类,接着对于数据进行树状图分类,将数据进行服务器保存,同时根据大数据的网络服务定期对于词语进行更新;
领域中的词语进行定义,接着将数据进行分析,将其用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系,形成知识图谱。
根据上述技术方案,知识图谱对于图谱参数根据大数据网络进行调整,同时对于领域中的词语进行规范,将领域进行正常的规范,同时对于领域中的特定词语进行选择性删除,对于知识图谱进行参数调整,同时对于图谱中的屏蔽词语进行标记。
根据上述技术方案,S2中将知识图谱的数据进行联系,将树状图进行构造,同时对于树状图中数据进行连接定义,并通过大数据网络进行实时的更新与调整;
对于树状图的数据进行备份保存,同时进行更新的时候,将领域中的重点词语、搜索频繁的词语进行标记,将其进行正常的分选与分类;
将分类的领域进行相互的连接与定义,也可自定义进行分类,同时对于数据进行备份记录。
根据上述技术方案,S3中对于文本进行快速定义与选取,同时对于文本的近义词、同义词进行排比输出,对于数据进行选择后,将数据进行正常的选择与表示,同时对于文本的特征进行比对。
根据上述技术方案,S3中文本进行读取后,计数加一,确定文本的活跃量,将每次的检索结果和文本的读取次数进行统计,便于统一文本的读取吞入速度。
根据上述技术方案,S3中把输入文本提交到单词树的时候,单词树会对这些关键词进行分析,也就是分词,单词树对这个关键词进行分析,这个分析涉及的关键词粒度的大小,其中粒度是指数据的精准程度,根据分词里面的词义分词法,词义分词法的意思是进行句法、语义分析,利用句法信息和语义信息来处理歧义现象来分词。
根据上述技术方案,S3中对分词简单解释,关键词分析分词完成后,开始进行文本匹配,文本匹配是搜索引擎用已经分好的词,在单词树的后台去匹配,根据文本匹配,并且去除干扰项。
与现有技术相比,本发明的有益效果:本发明结构科学合理,使用安全方便,首先通过大数据的服务器将领域进行分类,接着对于数据进行树状图分类,对于树状图中数据进行连接定义,并通过大数据网络进行实时的更新与调整,将知识图谱中的数据与正在形成的单词树进行组织,并将领域专业词语进行树状图的形成,将后期单词树的雏形进行了建立,而对于后期中的分类,可以有多个关系网的建立,所以,将分类的领域进行相互的连接与定义,也可自定义进行分类,同时对于数据进行备份记录,便于了后期的更新与维护,而对于文本进行快速定义与选取,同时对于文本的近义词、同义词进行排比输出,对于数据进行选择后,将数据进行正常的选择与表示,同时对于文本的特征进行比对,可以进一步提高准确率。
最后应说明的是:以上所述仅为本发明的优选实例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.垂直领域细分场景结合知识图谱的分词方法,其特征在于:包括如下步骤:
S1、人工构建专用领域的知识图谱;
S2、知识图谱同步生成单词树;
S3、利用单词树对输入文本快速分词。
2.根据权利要求1所述的垂直领域细分场景结合知识图谱的分词方法,其特征在于,所述S1中对于领域的词语进行选取,通过大数据的服务器将领域进行分类,接着对于数据进行树状图分类,将数据进行服务器保存,同时根据大数据的网络服务定期对于词语进行更新;
所述领域中的词语进行定义,接着将数据进行分析,将其用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系,形成知识图谱。
3.根据权利要求2所述的垂直领域细分场景结合知识图谱的分词方法,其特征在于,所述知识图谱对于图谱参数根据大数据网络进行调整,同时对于领域中的词语进行规范,将领域进行正常的规范,同时对于领域中的特定词语进行选择性删除,对于知识图谱进行参数调整,同时对于图谱中的屏蔽词语进行标记。
4.根据权利要求1所述的垂直领域细分场景结合知识图谱的分词方法,其特征在于,所述S2中将知识图谱的数据进行联系,将树状图进行构造,同时对于树状图中数据进行连接定义,并通过大数据网络进行实时的更新与调整;
对于树状图的数据进行备份保存,同时进行更新的时候,将领域中的重点词语、搜索频繁的词语进行标记,将其进行正常的分选与分类;
将分类的领域进行相互的连接与定义,也可自定义进行分类,同时对于数据进行备份记录。
5.根据权利要求1所述的垂直领域细分场景结合知识图谱的分词方法,其特征在于,所述S3中对于文本进行快速定义与选取,同时对于文本的近义词、同义词进行排比输出,对于数据进行选择后,将数据进行正常的选择与表示,同时对于文本的特征进行比对。
6.根据权利要求1所述的垂直领域细分场景结合知识图谱的分词方法,其特征在于,所述S3中文本进行读取后,计数加一,确定文本的活跃量,将每次的检索结果和文本的读取次数进行统计,便于统一文本的读取吞入速度。
7.根据权利要求1所述的垂直领域细分场景结合知识图谱的分词方法,其特征在于,所述S3中把输入文本提交到单词树的时候,单词树会对这些关键词进行分析,也就是分词,单词树对这个关键词进行分析,这个分析涉及的关键词粒度的大小,其中粒度是指数据的精准程度,根据分词里面的词义分词法,词义分词法的意思是进行句法、语义分析,利用句法信息和语义信息来处理歧义现象来分词。
8.根据权利要求7所述的垂直领域细分场景结合知识图谱的分词方法,其特征在于,所述S3中对分词简单解释,关键词分析分词完成后,开始进行文本匹配,文本匹配是搜索引擎用已经分好的词,在单词树的后台去匹配,根据文本匹配,并且去除干扰项。
CN202110478457.3A 2021-04-30 2021-04-30 垂直领域细分场景结合知识图谱的分词方法 Pending CN113378564A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110478457.3A CN113378564A (zh) 2021-04-30 2021-04-30 垂直领域细分场景结合知识图谱的分词方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110478457.3A CN113378564A (zh) 2021-04-30 2021-04-30 垂直领域细分场景结合知识图谱的分词方法

Publications (1)

Publication Number Publication Date
CN113378564A true CN113378564A (zh) 2021-09-10

Family

ID=77570266

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110478457.3A Pending CN113378564A (zh) 2021-04-30 2021-04-30 垂直领域细分场景结合知识图谱的分词方法

Country Status (1)

Country Link
CN (1) CN113378564A (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104598609A (zh) * 2015-01-29 2015-05-06 百度在线网络技术(北京)有限公司 一种用于垂直领域的概念处理方法和装置
CN105956206A (zh) * 2016-07-04 2016-09-21 Tcl集团股份有限公司 一种基于关键词树的视频检索方法及系统
CN106446162A (zh) * 2016-09-26 2017-02-22 浙江大学 一种面向领域的本体知识库文本检索方法
CN110399497A (zh) * 2019-07-02 2019-11-01 厦门美域中央信息科技有限公司 一种基于深度学习技术的知识图谱自适应构建方法
CN111125300A (zh) * 2020-01-19 2020-05-08 湖南工业大学 一种基于知识图谱信息数据智能分析系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104598609A (zh) * 2015-01-29 2015-05-06 百度在线网络技术(北京)有限公司 一种用于垂直领域的概念处理方法和装置
CN105956206A (zh) * 2016-07-04 2016-09-21 Tcl集团股份有限公司 一种基于关键词树的视频检索方法及系统
CN106446162A (zh) * 2016-09-26 2017-02-22 浙江大学 一种面向领域的本体知识库文本检索方法
CN110399497A (zh) * 2019-07-02 2019-11-01 厦门美域中央信息科技有限公司 一种基于深度学习技术的知识图谱自适应构建方法
CN111125300A (zh) * 2020-01-19 2020-05-08 湖南工业大学 一种基于知识图谱信息数据智能分析系统

Similar Documents

Publication Publication Date Title
CN107180045B (zh) 一种互联网文本蕴含地理实体关系的抽取方法
CN108121829B (zh) 面向软件缺陷的领域知识图谱自动化构建方法
CN111680173A (zh) 统一检索跨媒体信息的cmr模型
CN105045875B (zh) 个性化信息检索方法及装置
CN109947921B (zh) 一种基于自然语言处理的智能问答系统
CN107918644B (zh) 声誉管理框架内的新闻议题分析方法和实施系统
WO2021175009A1 (zh) 预警事件图谱的构建方法、装置、设备及存储介质
US20180341686A1 (en) System and method for data search based on top-to-bottom similarity analysis
CN106951554B (zh) 一种层次化新闻热点及其演化的挖掘与可视化方法
CN104317834A (zh) 一种基于深度神经网络的跨媒体排序方法
CN109947952A (zh) 基于英语知识图谱的检索方法、装置、设备及存储介质
CN111061828B (zh) 一种数字图书馆知识检索方法及装置
CN103559191A (zh) 基于隐空间学习和双向排序学习的跨媒体排序方法
CN106227788A (zh) 一种以Lucene为基础的数据库查询方法
CN105608232A (zh) 一种基于图形数据库的bug知识建模方法
CN109522396B (zh) 一种面向国防科技领域的知识处理方法及系统
CN109977291A (zh) 基于物理知识图谱的检索方法、装置、设备及存储介质
CN109783484A (zh) 基于知识图谱的数据服务平台的构建方法及系统
CN113239111A (zh) 一种基于知识图谱的网络舆情可视化分析方法及系统
CN115422155A (zh) 一种数据湖元数据模型的建模方法
CN116049379A (zh) 知识推荐方法、装置、电子设备和存储介质
CN114911893A (zh) 基于知识图谱的自动化构建知识库的方法及系统
CN114090784A (zh) 一种材料领域知识图谱的实体标签聚类方法及装置
Diao et al. Efficient exploration of interesting aggregates in RDF graphs
CN105468780A (zh) 一种微博文本中产品名实体的规范化方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination