CN112328811A - 一种基于同类型词组的词谱聚类智能生成方法 - Google Patents

一种基于同类型词组的词谱聚类智能生成方法 Download PDF

Info

Publication number
CN112328811A
CN112328811A CN202011264765.8A CN202011264765A CN112328811A CN 112328811 A CN112328811 A CN 112328811A CN 202011264765 A CN202011264765 A CN 202011264765A CN 112328811 A CN112328811 A CN 112328811A
Authority
CN
China
Prior art keywords
same type
phrases
word
knowledge
phrase
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011264765.8A
Other languages
English (en)
Inventor
曾勇
杨琪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guoheng Smart City Technology Research Institute Beijing Co ltd
Original Assignee
Guoheng Smart City Technology Research Institute Beijing Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guoheng Smart City Technology Research Institute Beijing Co ltd filed Critical Guoheng Smart City Technology Research Institute Beijing Co ltd
Priority to CN202011264765.8A priority Critical patent/CN112328811A/zh
Publication of CN112328811A publication Critical patent/CN112328811A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及人机交互领域,特别是涉及一种基于同类型词组的词谱聚类智能生成方法,包括如下步骤:S1、建立同类型词组或知识汇集的词谱数据库、训练同类型词组知识;S2、提取文本分词序列;S3、同类型词汇提取;S4、同类型词组或知识汇集聚合;采用本发明,通过预先数据收集建立同类型词组库,比将词谱数据库建立为同类型的词组训练集,作为训练用目标数据,可以根据不同的领域和知识,预先形成好对应词库;通过对文本抓取,快速分析比对重点分句,进行多维度拆分,实现分词序列的规范化;再通过自已相似度对比,将词组与入库词组集对比,实现了快速的知识点索引,完成词谱聚类的生成,提高词组生成的准确性。

Description

一种基于同类型词组的词谱聚类智能生成方法
技术领域
本发明涉及人机交互领域,特别是涉及一种基于同类型词组的词谱聚类智能生成方法。
背景技术
随着互联网与自然语言处理技术的发展,对话系统作为一种全新的人机交互方式,正逐步走进人们的生活。各大企业瞄准对话系统的巨大商业价值,纷纷围绕其进行平台布局,其中便有阿里巴巴的“阿里小蜜”,苹果的“Siri”以及微软的“小冰”等等。
对话系统依据不同的目标可以大致分为两类——面向任务型对话系统和非面向任务型对话系统。面向任务型对话系统旨在帮助人们完成某项具体的任务(例如订购机票、订餐、购物等),而非面向任务型对话系统则更关注于与人们进行开放式的对话。
发明内容
针对现有的技术的不足,本发明提供一种基于同类型词组的词谱聚类智能生成方法,主要是对不同类型的问题进行数据准备、训练模型,汇集通过对同类型词组或知识汇集,实现知识点词谱的智能生成。
为实现上述目的,本发明提供如下技术方案:
一种基于同类型词组的词谱聚类智能生成方法,其特征在于包括如下步骤:
S1、建立同类型词组或知识汇集的词谱数据库、训练同类型词组知识;
S2、提取文本分词序列;
S3、同类型词汇提取;
S4、同类型词组或知识汇集聚合。
进一步的,所述S1中,通过收集数据,以建立同类型词组或知识汇集的词谱数据库,所述同类型词组或知识汇集的词谱数据库包括有大量的同类型知识词组,每个同类型词组中存储有相同语义的词语;将所述同类型词组或知识汇集的词谱数据库中的词语建立同类型词组训练集,作为训练目标数据;
进一步的,所述S2中,提取问题分词的方式是通过各种信息抽取技术提取词干预处理,得到文本知识训练集规范化的文本分词序列。
进一步的,所述S3中,同类型词汇提取通过S2中的得到的文本分词序列与S1中目标数据进行训练,提取步骤2文本分词序列的同类型词向量;
进一步的,所述S4中,通过对根据词义相似度计算比对,计算词义词向量与所有已入库的同类型词组中词的相似度距离,并比对上述相似度距离;根据相似度阈值确定词与词的关联关系,利用相似度距离排序规则以完成同类型词组或知识汇集聚合;
与现有技术相比,本发明提供了一种基于同类型词组的词谱聚类智能生成方法,具备以下有益效果:
采用本发明,通过预先数据收集建立同类型词组库,比将词谱数据库建立为同类型的词组训练集,作为训练用目标数据,可以根据不同的领域和知识,预先形成好对应词库;通过对文本抓取,快速分析比对重点分句,进行多维度拆分,实现分词序列的规范化;再通过自已相似度对比,将词组与入库词组集对比,实现了快速的知识点索引,完成词谱聚类的生成,提高词组生成的准确性。
附图说明
图1是本发明的系统流程图;
图2是本发明的S2中数据处理过程图意图;
图3是本发明的句法分析树状图。
具体实施方式
下面将结合本发明的实施例,对本发明实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。
本发明中,S1中同类型词组训练集为大量人工经过长期知识梳理和整合的同类型词组数据;该过程可以通过网络数据获取,通过大量学习与总结,得到对应词组数据;
S2中的2的抓取文本知识指通过爬虫技术抓取数据,数据处理过程如下;
通过对抓取的数据文本进行预分词,再对分句进行处理,进而实现句子的分词,去除正常语序中的停顿标号,对分词序列规范化,在进行分词序列的参数标注,让识别更加精准;
其中运用到了句法分析、词法分析和依存句法分析技术,进行文本分词、词性标注,去停用词,保留名词与动词等。
(1)句法分析提
供分词、词性标注、命名实体识别三大功能。该服务能够识别出文本串中的基本词汇(分词),对这些词汇进行重组、标注组合后词汇的词性,并进一步识别出命名实体。主要包括:
中文分词:中文分词是将连续的自然语言文本,切分成具有语义合理性和完整性的词汇序列的过程;
词性标注:词性标注(Part-of-Speech tagging或POS tagging)是指为自然语言文本中的每个词汇赋予一个词性的过程;
专有名词:命名实体识别(Named Entity Recognition简称NER),即"专名识别",是指识别自然语言文本中具有特定意义的实体,主要包括人名、地名、机构名、时间日期等
(2)词法分析
从句法分析的目的、句法的表示、句法分析器等进行技术说明。
①句法分析的目的
Figure BDA0002775723650000041
判断句子的合法性(句子识别)
Figure BDA0002775723650000042
确定句子的结构(句子中单词相互关联的方式)
②句法的表示
Figure BDA0002775723650000043
基于上下文无关语法(CFG)的表示
■CFG能描述大部分的自然语言结构
■可以构造高效的基于CFG的句法分析器
Figure BDA0002775723650000044
参考图3,通常采用树形结构来表示句法分析的结果:
Figure BDA0002775723650000051
通常采用树形结构来表示句法分析的结果
1.S->NP VP
2.VP->V NP
3.NP->NAME
4.NP->ART N
5.NAME->John
6.V->ate
7.ART->the
8.N->cat
9.......
产生式5~9属于词法规则,一般由词典与词性标注算法来描述语法分析要达到的特性目标
Figure BDA0002775723650000052
通用性:能正确分析句子的范围
Figure BDA0002775723650000053
选择性:能判断出错误句子的范围
Figure BDA0002775723650000054
可理解性:自身的简易程度
Figure BDA0002775723650000055
鲁棒性
Figure BDA0002775723650000056
对不合法句子的容忍度:He love her.
■通用性与选择性矛盾的处置,如:忽略主谓一致性检查将导致无法区分下面句子的不同含义(歧义)
③句法分析器
Figure BDA0002775723650000057
自顶向下
■利用产生式,从S开始,尝试将S改写成与输入句子相匹配的终结符号序列。
Figure BDA0002775723650000061
自底向上
■利用产生式,尝试将输入句子规约到S。
Figure BDA0002775723650000062
回溯
■从一个错误的尝试(改写或规约)返回,进行下一个尝试。
■保留改写或规约的历史
□回溯需要
□输出正确的分析结果也需要
④数据模型分析
Figure BDA0002775723650000063
语法
■1.S->NP VP 2.NP->ART N 3.NP->ART ADJ N
4.VP->V 5.VP->V NP
Figure BDA0002775723650000064
位置计数器
1The2dogs3cried
Figure BDA0002775723650000065
状态
■由符号表和当前位置构成,如:((NP VP)1)表示从位置1开始寻找NP,且NP后面是VP
Figure BDA0002775723650000066
状态转换
■如果符号表的第一个符号是词法符号(词性),并且句子中当前词属于该词法类,则删除符号表中第一个符号,并更新当前位置(加1),得到新的状态。
■否则,如果符号表的第一个符号是句法符号,则依据语法获得改写该符号的所有产生式,把它们的右部作为符号表与当前位置构成状态;选择其中一个作为新的状态,其它作为后备状态(在回溯时使用)。
Figure BDA0002775723650000071
回溯
■从后备状态中取一个作为当前状态,继续分析
Figure BDA0002775723650000072
算法
1.取((S)1)作为当前状态(初始状态),后备状态为空。
2.若当前状态为空,则失败,算法结束,
3.否则,若当前状态符号表为空,且当前位置处于句子末尾,则成功,算法结束,
4.否则,进行状态转换,若转换成功,则转2
5.否则,回溯,转2。
⑤分析过程见下表
1.S->NP VP 2.NP->ART N 3.NP->ART ADJ N 4.VP->V 5.VP->V NP
Figure BDA0002775723650000073
Figure BDA0002775723650000081
Figure BDA0002775723650000091
Figure BDA0002775723650000092
深度优先
■后备状态采用“栈”
■后备状态少,存储效率高
■面临“左递归”问题
Figure BDA0002775723650000093
广度优先
■后备状态采用“队列”
后备状态多,存储效率不高。
(3)依存句法分析
利用句子中词与词之间的依存关系来表示词语的句法结构信息(如主谓、动宾、定中等结构关系),并用树状结构来表示整句的的结构(如主谓宾、定状补等)。主要包括以下几个应用功能:
◆语言理解。通过分析用户Query的依存句法结构信息,抽取其中的语义主干及相关语义成分,帮助智能产品实现对用户意图的精准理解;
◆知识发掘。对大规模非结构化文本数据进行句法结构分析,从中抽取实体、概念、语义关系等信息,帮助构建领域知识或世界知识;
◆语言结构匹配。基于语言对(Query-WebTitle)之间的句法结构信息进行语言的匹配计算,帮助提升语义匹配计算的准确率。
步骤3中词向量表示:词向量计算是通过训练的方法,将语言词表中的词映射成一个长度固定的向量。词表中所有的词向量构成一个向量空间,每一个词都是这个词向量空间中的一个点,利用这种方法,实现文本的可计算。
步骤4中词义相似度计算指计算两个给定词语的语义相似度,基于自然语言中的分布假设,即越是经常共同出现的词之间的相似度越高。词义相似度是自然语言处理中的重要基础技术,是专名挖掘、query改写、词性标注等常用技术的基础之一。具备:
◆词表覆盖广。通过大规模数据进行模型训练,样本数据丰富且时效性高,收录词汇覆盖度广,召回率高;
◆深度学习训练。基于DNN深度学习大量样本训练模型,完成词语的向量化,建立高精度的词向量表示体系;
◆描述精度高。基于高精度的词向量表示系统及海量样本训练学习,准确描述词义相似度,能满足高精度要求的业务场景需求。
本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,但并不会偏离本发明的精神所定义的范围。

Claims (5)

1.一种基于同类型词组的词谱聚类智能生成方法,其特征在于,包括如下步骤:
S1、建立同类型词组或知识汇集的词谱数据库、训练同类型词组知识;
S2、提取文本分词序列;
S3、同类型词汇提取;
S4、同类型词组或知识汇集聚合。
2.根据权利要求1所述的一种基于同类型词组的词谱聚类智能生成方法,其特征在于,所述S1中,通过收集数据,以建立同类型词组或知识汇集的词谱数据库,所述同类型词组或知识汇集的词谱数据库包括有大量的同类型知识词组,每个同类型词组中存储有相同语义的词语;将所述同类型词组或知识汇集的词谱数据库中的词语建立同类型词组训练集,作为训练目标数据。
3.根据权利要求1所述的一种基于同类型词组的词谱聚类智能生成方法,其特征在于,所述S2中,提取问题分词的方式是通过各种信息抽取技术提取词干预处理,得到文本知识训练集规范化的文本分词序列。
4.根据权利要求1所述的一种基于同类型词组的词谱聚类智能生成方法,其特征在于,所述S3中,同类型词汇提取通过S2中的得到的文本分词序列与S1中目标数据进行训练,提取步骤2文本分词序列的同类型词向量。
5.根据权利要求1所述的一种基于同类型词组的词谱聚类智能生成方法,其特征在于,所述S4中,通过对根据词义相似度计算比对,计算词义词向量与所有已入库的同类型词组中词的相似度距离,并比对上述相似度距离;根据相似度阈值确定词与词的关联关系,利用相似度距离排序规则以完成同类型词组或知识汇集聚合。
CN202011264765.8A 2020-11-12 2020-11-12 一种基于同类型词组的词谱聚类智能生成方法 Pending CN112328811A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011264765.8A CN112328811A (zh) 2020-11-12 2020-11-12 一种基于同类型词组的词谱聚类智能生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011264765.8A CN112328811A (zh) 2020-11-12 2020-11-12 一种基于同类型词组的词谱聚类智能生成方法

Publications (1)

Publication Number Publication Date
CN112328811A true CN112328811A (zh) 2021-02-05

Family

ID=74318482

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011264765.8A Pending CN112328811A (zh) 2020-11-12 2020-11-12 一种基于同类型词组的词谱聚类智能生成方法

Country Status (1)

Country Link
CN (1) CN112328811A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023231331A1 (zh) * 2022-05-31 2023-12-07 浪潮电子信息产业股份有限公司 一种知识抽取方法、系统、设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105677873A (zh) * 2016-01-11 2016-06-15 中国电子科技集团公司第十研究所 基于领域知识模型的文本情报关联聚类汇集处理方法
CN106815293A (zh) * 2016-12-08 2017-06-09 中国电子科技集团公司第三十二研究所 一种面向情报分析的构建知识图谱的系统及方法
US20180267958A1 (en) * 2017-03-16 2018-09-20 Abbyy Development Llc Information extraction from logical document parts using ontology-based micro-models

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105677873A (zh) * 2016-01-11 2016-06-15 中国电子科技集团公司第十研究所 基于领域知识模型的文本情报关联聚类汇集处理方法
CN106815293A (zh) * 2016-12-08 2017-06-09 中国电子科技集团公司第三十二研究所 一种面向情报分析的构建知识图谱的系统及方法
US20180267958A1 (en) * 2017-03-16 2018-09-20 Abbyy Development Llc Information extraction from logical document parts using ontology-based micro-models

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023231331A1 (zh) * 2022-05-31 2023-12-07 浪潮电子信息产业股份有限公司 一种知识抽取方法、系统、设备及存储介质

Similar Documents

Publication Publication Date Title
Argamon et al. A memory-based approach to learning shallow natural language patterns
CN111737496A (zh) 一种电力设备故障知识图谱构建方法
CN107562919B (zh) 一种基于信息检索的多索引集成软件构件检索方法及系统
Navigli et al. An Annotated Dataset for Extracting Definitions and Hypernyms from the Web.
CN102214189B (zh) 基于数据挖掘获取词用法知识的系统及方法
CN111061882A (zh) 一种知识图谱构建方法
CN109614620B (zh) 一种基于HowNet的图模型词义消歧方法和系统
CN108920447B (zh) 一种面向特定领域的中文事件抽取方法
CN113157860B (zh) 一种基于小规模数据的电力设备检修知识图谱构建方法
CN110717045A (zh) 一种基于信访信件概况的信件要素自动提取方法
CN113312922B (zh) 一种改进的篇章级三元组信息抽取方法
KR101396131B1 (ko) 패턴 기반 관계 유사도 측정 장치 및 방법
Argamon-Engelson et al. A memory-based approach to learning shallow natural language patterns
CN116244448A (zh) 基于多源数据信息的知识图谱构建方法、设备及系统
CN111966792A (zh) 一种文本处理方法、装置、电子设备及可读存储介质
Wang et al. Semi-supervised chinese open entity relation extraction
Kessler et al. Extraction of terminology in the field of construction
CN112328811A (zh) 一种基于同类型词组的词谱聚类智能生成方法
CN117313850A (zh) 一种信息抽取及知识图谱构建系统及方法
CN107818078B (zh) 汉语自然语言对话的语义关联与匹配方法
CN114091464B (zh) 一种融合五维特征的高普适性多对多关系三元组抽取方法
CN111949781B (zh) 一种基于自然语句句法分析的智能交互方法及装置
Parveen et al. Clause Boundary Identification using Classifier and Clause Markers in Urdu Language
CN113807102A (zh) 建立语义表示模型的方法、装置、设备和计算机存储介质
Maheswari et al. Rule based morphological variation removable stemming algorithm

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20210205