CN105893551B - 数据的处理方法及装置、知识图谱 - Google Patents

数据的处理方法及装置、知识图谱 Download PDF

Info

Publication number
CN105893551B
CN105893551B CN201610200663.7A CN201610200663A CN105893551B CN 105893551 B CN105893551 B CN 105893551B CN 201610200663 A CN201610200663 A CN 201610200663A CN 105893551 B CN105893551 B CN 105893551B
Authority
CN
China
Prior art keywords
keyword
data
corpus data
keywords
field
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610200663.7A
Other languages
English (en)
Other versions
CN105893551A (zh
Inventor
白杨
刘焱
朱频频
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Zhizhen Intelligent Network Technology Co Ltd
Original Assignee
Shanghai Zhizhen Intelligent Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Zhizhen Intelligent Network Technology Co Ltd filed Critical Shanghai Zhizhen Intelligent Network Technology Co Ltd
Priority to CN201610200663.7A priority Critical patent/CN105893551B/zh
Publication of CN105893551A publication Critical patent/CN105893551A/zh
Application granted granted Critical
Publication of CN105893551B publication Critical patent/CN105893551B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种数据的处理方法及装置、知识图谱。所述方法包括:通过关键词筛选操作从所有领域语料数据对应的词语中筛选出一个或多个第一级关键词,并将每条所述领域语料数据匹配到所述第一级关键词;通过关键词筛选操作从每个第一级关键词对应的领域语料数据中筛选出一个或多个第二级关键词,并将所述领域语料数据匹配到所述第二级关键词;不断重复上述筛选及匹配的过程,直至筛选出第M级关键词,并将所述领域语料数据匹配到所述第M级关键词,M大于或等于2;将所述第M级关键词对应的领域语料数据按照语义进行文本聚类。应用所述方法对数据进行处理,从处理后的数据中可以更加快速、准确地查找到用户需要的内容。

Description

数据的处理方法及装置、知识图谱
技术领域
本发明涉及数据处理领域,具体涉及一种数据的处理方法及装置、知识图谱。
背景技术
数据处理是系统工程和自动控制的基本环节,贯穿于社会生产和社会生活的各个领域,广泛应用于知识图谱以及知识库的建立过程中。数据处理技术的发展及其应用的广度和深度,极大地影响着人类社会发展的进程。
例如,在智能交互领域,通常需要对语料数据进行处理,以形成相应的知识库,进而可以在接收到用户的输入后,根据用户的输入,从知识库中搜索相应的内容并反馈至用户。
然而,采用现有的数据处理方法对数据进行处理时,利用处理后的数据无法快速、准确地查找到用户需要的内容,难以满足用户的需求。
发明内容
本发明解决的是如何对数据进行处理,以从处理后的数据中快速、准确地查找到用户需要的内容。
为解决上述问题,本发明提供一种数据的处理方法,所述方法包括:
获取原始语料数据;对所述原始语料数据执行过滤操作,以得到与目标领域相关的领域语料数据;对所述领域语料数据执行分词操作,以得到与每条领域语料数据对应的一个或多个词语;通过关键词筛选操作从所有领域语料数据对应的词语中筛选出一个或多个第一级关键词,并将每条所述领域语料数据匹配到所述第一级关键词;通过关键词筛选操作从每个第一级关键词对应的领域语料数据中筛选出一个或多个第二级关键词,并将所述领域语料数据匹配到所述第二级关键词;不断重复上述筛选及匹配的过程,直至筛选出第M级关键词,并将所述领域语料数据匹配到所述第M级关键词,M大于或等于2;将所述第M级关键词对应的领域语料数据按照语义进行文本聚类。
可选地,所述过滤操作采用分类器实现。
可选地,所述关键词筛选操作包括采用N种不同方法获取N组关键词,每组中每个关键词对应一个权重值,提取N组关键词的交集,并提取其余关键词中权重值大于预设阈值的关键词,将提取的所有关键词作为筛选出的关键词,N大于或等于1。
可选地,获取关键词的方法包括以下方法中的一种或多种的组合:LDA主题模型分析方法、textrank方法、互信息方法和tfidf方法。
可选地,所述文本聚类包括:计算每个第M级关键词对应的两两领域语料数据之间的语义距离和/或语义相似度,并采用Kmeans聚类方法或/和Canopy聚类方法将每个第M级关键词对应的领域语料数据按照语义相关性进行排列。
可选地,所述方法还包括:根据筛选出的关键词以及文本聚类结果形成知识图谱。
可选地,所述方法还包括:当获取新的语料数据时,对所述新的语料数据执行过滤操作,当所述新的语料数据为与目标领域相关的领域语料数据时,对所述新的语料数据进行分词操作以及关键词筛选操作,以使所述新的语料数据匹配到已有的第M级关键词,并根据语义相关性将所述新的语料数据聚类到合适位置。
本发明实施例还提供了一种知识图谱,所述知识图谱包括M级关键词,每级关键词包括一个或多个关键词,还包括多个语料数据,所述语料数据按照语义相关性匹配在相应的第M级关键词上。
本发明实施例还提供了一种数据的处理装置,所述装置包括:获取单元,适于获取原始语料数据;过滤单元,适于对所述原始语料数据执行过滤操作,以得到与目标领域相关的领域语料数据;分词单元,适于对所述领域语料数据执行分词操作,以得到与每条领域语料数据对应的一个或多个词语;筛选单元,适于通过关键词筛选操作从所有领域语料数据对应的词语中筛选出一个或多个第一级关键词,并将每条所述领域语料数据匹配到所述第一级关键词;以及通过关键词筛选操作从每个所述第一级关键词对应的领域语料数据中筛选出一个或多个第二级关键词,并将所述领域语料数据匹配到所述第二级关键词;不断重复上述筛选及匹配的过程,直至筛选出第M级关键词,并将所述领域语料数据匹配到第M级关键词,M大于或等于2;聚类单元,适于将所述第M级关键词对应的领域语料数据按照语义进行文本聚类。
可选地,所述过滤单元采用分类器实现所述过滤操作。
可选地,所述筛选单元适于采用如下方法执行所述关键词筛选操作:采用N种不同方式获取N组关键词,每组中每个关键词对应一个权重值,提取N组关键词的交集,并提取其余关键词中权重值大于预设阈值的关键词,将提取的所有关键词作为筛选出的关键词,N大于或等于1。
可选地,所述筛选单元获取关键词的方法包括以下方法中的一种或多种的组合:LDA主题模型分析方法、textrank方法、互信息方法和tfidf方法。
可选地,所述聚类单元包括:计算子单元,适于计算每个第M级关键词对应的两两领域语料数据之间的语义距离和/或语义相似度;聚类子单元,适于采用Kmeans聚类方法或/和Canopy聚类方法将每个第M级关键词对应的领域语料数据按照语义相关性进行排列。
可选地,所述装置还包括:知识图谱建立单元,适于根据筛选出的关键词以及文本聚类结果形成知识图谱。
可选地,所述装置还包括:更新单元,适于当所述获取单元获取到新的语料数据时,控制所述过滤单元对所述新的语料数据执行过滤操作;当所述新的语料数据为与目标领域相关的领域语料数据时,分别控制所述分词单元及所述筛选单元对所述新的语料数据进行分词操作以及对关键词筛选操作,以使所述新的语料数据匹配到已有的第M级关键词;并由所述聚类单元根据语义相关性将所述新的语料数据聚类到合适位置。
与现有技术相比,本发明的技术方案具有以下优点:
采用上述数据处理方法,在对领域语料数据进行分词后,通过M轮的关键词筛选及匹配操作,可以将所述领域语料数据分为M个层次。由于M大于或等于2,也就是说,利用上述数据处理方法对获取的数据分层次处理,因此可以更加快速地查找到用户需要的内容。并且,由于每一轮筛选出的关键词更能体现所对应的语料数据的特征,因此经M轮关键词筛选后得到的聚类结果,可以最大限度地使得同知识点的语料数据聚在一起,从而可以提高从处理后的数据中查找到用户需要内容的准确性。
进一步地,采用N种不同方式获取N组关键词,并在每组中每个关键词设置一个权重值,通过提取N组关键词的交集,以及提取其余关键词中权重值大于预设阈值的关键词,并将提取的所有关键词作为筛选出的关键词,可以使得所提取出的关键词更加准确地体现所对应的语料数据的特征,从而可以进一步提高从处理后的数据中查找到用户需要内容的准确性。
而根据筛选出的关键词以及文本聚类的结果形成知识图谱,由于所形成的知识图谱中包含原始语料数据,因此利用该知识图谱可以更加便于对数据进行整理。
附图说明
图1是本发明实施例中一种数据处理方法的流程图;
图2是本发明实施例中一种知识图谱的示意图;
图3是本发明实施例中一种两级关键词下语料数据的示意图;
图4是本发明实施例中一种数据处理装置的结构示意图。
具体实施方式
目前,在对原始语料数据进行处理时,通常先对原始语料数据执行过滤操作,再对过滤操作后的语料数据执行分词操作,然后,对分词操作后的各语料数据分别执行向量化操作,最后根据向量化操作的结果进行文本聚类。
然而,利用上述数据处理方法处理后的数据层次不清晰,在根据用户要求进行查找时,很难快速地查找到所需的内容。并且,常常出现属于同一知识点的语料数据却由于句法不同被聚至不同的类中,聚类结果无法直接体现语料数据的特征,最终导致根据用户要求进行查找时,很难准确地查找到所需的内容。
针对上述问题,本发明实施例提供了一种数据的处理方法,所述方法在对领域语料数据进行分词后,通过M轮的关键词筛选及匹配操作,可以将所述领域语料数据分为M个层次。由于M大于或等于2,也就是说,从利用上述数据处理方法对获取的数据分层次处理,因此可以更加快速地查找到用户需要的内容。另外,由于每一轮筛选出的关键词更能体现所对应的语料数据的特征,因此经M轮关键词筛选后得到的聚类结果,可以最大限度地使得同知识点的语料数据聚在一起,从而可以提高从处理后的数据中查找到用户需要内容的准确性。
为使本发明的上述目的、特征和优点能够更为明显易懂,下面结合附图对本发明的具体实施例作详细地说明。
参照图1,本发明实施例提供了一种数据的处理方法,所述方法可以包括如下步骤:
步骤11,获取原始语料数据。
在具体实施中,可以通过多种方式获取原始语料数据。例如,可以从网页中爬取原始语料数据,也可以将整理后的交互日志作为原始语料数据,还可以将用户提供的数据作为原始语料数据。当然,也可以同时通过上述两种或三种方式获取原始语料数据。
步骤12,对所述原始语料数据执行过滤操作,以得到与目标领域相关的领域语料数据。
在具体实施中,获取原始语料数据后,可以先基于大数据平台如spark平台对所述原始语料数据进行切割,对所述原始语料数据进行初步过滤操作,过滤无用的句子,比如,脏话、未知字符过多以及标点符号过多等句子。然后,可以再利用分类器对切割后的语料数据进行再次过滤,筛选出与目标领域相关的领域语料数据。例如,当所述目标领域为房地产领域时,利用所述分类器可以过滤除如体育领域、游戏领域等房地产领域外的语料数据,最终得到与房地产领域相关的领域语料数据。
步骤13,对所述领域语料数据进行分词操作,以得到与每条领域语料数据对应的一个或多个词语。
在具体实施中,可以采用多种方法对所述领域语料数据进行分词操作。
在本发明的一实施例中,为了提高分词结果的准确性,在对每条领域语料数据进行分词操作时,可以先基于预先获取到的该领域的词语,对该条领域语料数据进行首次分词。接着,可以基于分词结果,对该条领域语料数据执行词性标注操作。然后,可以再对词性标注后的领域语料数据分别执行命名实体识别操作及新词发现操作,最后基于命名实体识别操作及新词发现操作的结果,更新所述预先获取到的该领域的词语,最终基于更新后的所述预先获取到的该领域的词语,对该条领域语料数据重新进行分词,并将重新进行分词的结果作为对该条领域语料数据进行分词后的结果。
对所述领域语料数据中的每条领域数据均按照上述方法进行分词,可以分别获得与每条领域语料数据对应的一个或多个词语。
其中,所述词性标注操作,即确定首次分词后的每个词是名词、动词、形容词或其他词性的操作。所谓命名实体识别操作,即识别领域语料数据中具有特定意义的实体的操作,包括人名、地名、机构名、专有名词等。所谓新词发现操作,即识别超出所述预先获取到的该领域词语范围的词语的操作。
步骤14,基于所有领域语料数据对应的词语,执行第i轮关键词筛选操作,1≤i≤M,M≥2。
在具体实施中,i的初始值为1。在第1轮,可以通过关键词筛选操作从所有领域语料数据对应的词语中筛选出一个或多个第一级关键词,并将每条所述领域语料数据匹配到所述第一级关键词。
在第2轮,可以通过关键词筛选操作从每个第一级关键词对应的领域语料数据中筛选出一个或多个第二级关键词,并将所述领域语料数据匹配到所述第二级关键词。
……
在第i轮,可以通过关键词筛选操作从每个第i-1级关键词对应的领域语料数据中筛选出一个或多个第i级关键词,并将所述领域语料数据匹配到所述第i级关键词。
……
在第M轮,可以通过关键词筛选操作从每个第M-1级关键词对应的领域语料数据中筛选出多个第M级关键词,并将所述领域语料数据匹配到所述第M级关键词。
需要说明的是,在具体实施中,M是预设的层级数目,M的值可以根据实际情况设置,比如,原始语料数据的条数、具体关键词的筛选方法等。可以理解的是,M的值越大,处理后的数据层次越清晰,同一知识点的语料数据聚在一起的可能性也就越大,但数据处理的复杂度也就越高,具体实现的代价也就越大。
在具体实施中,相邻两级的关键词之间存在一定的联系。下一级的关键词可以为相邻的上一级关键词的属性、特征、功能、型号等信息,还可以为相邻的上一级关键词的状态、价格、步骤等信息,当然还可以为其它信息。
例如,如图2所示,在汽车领域,“通用汽车数据集”可以为第一级关键词,“空调”、“车辆”、“补贴”等通用汽车的组成部分及补助政策可以为第二级关键词。从匹配至第二级关键词“补贴”的语料数据中,可以根据补贴的享受对象、发放信息以及具体补贴的月份等,提取到“享受”、“发放”以及“月份”等多个第三级关键词。
在本发明的一实施例中,为了更加准确地筛选出关键词,在执行关键词筛选操作时,可以分别采用N种不同方法对同一目标对象执行关键词筛选操作,获取N组关键词,并令每组中每个关键词对应一个权重值,提取N组关键词的交集,以及提取其余关键词中权重值大于预设阈值的关键词,将提取的所有关键词作为筛选出的关键词,N≥1。
其中,N组关键词的交集是最能体现所对应的领域语料数据特征的关键词,其余关键词中权重值大于预设阈值的关键词是较能体现所对应的领域语料数据特征的关键词。各种方法提取的关键词中,每个关键词对应的权重值可以根据该方法所提取到的关键词的准确性,以及该关键词对该条语料数据的重要性等因素进行设置。所述预设阈值可以根据该关键词对该条语料数据的重要性等因素进行设置。
例如,针对同一条语料数据,利用tfidf方法获得一组关键词A、B及C,利用LDA主题模型分析方法获得另一组关键词A、B、D及E。其中,A和B为利用tfidf方法及LDA主题模型分析方法获得的两组关键词的交集,C、D及E为除交集外的其余关键词。
设置利用tfidf方法获得一组关键词A、B及C的权重值分别为x1、x2及x3,利用LDA主题模型分析方法获得另一组关键词A、B、D及E的权重值分别为y1、y2、y3及y4,预设阈值为a。其中,x1>x2>x3>a,y1>y2>y3>a>y4。采用本发明实施例中的关键词提取方法,最终该语料数据的关键词包括:A、B、C及D。
在具体实施中,获取关键词的方法可以为LDA主题模型分析方法、textrank方法、互信息方法或tfidf方法中的任意一种方法,也可以为上述方法中的两种或两种以上方法的组合。其中,LDA主题模型分析方法主要通过各语料数据之间的语义关联提取关键词;textrank方法通过对语料数据中各词语的位置设置相应的权重,并计算各词语对应的候选值分值来提取关键词;互信息方法主要通过度量两个词语之间的相互性来提取关键词;tfidf方法主要通过评估一字词对所在领域语料数据的重要程度来提取关键词。
步骤15,判断i是否等于M。
也就是说,判断是否获取到第M级关键词。
当i≠M时,执行步骤16,否则执行步骤17。
步骤16,执行下一轮关键词筛选操作,即i++。
也就是说,当i≠M时,执行下一轮关键词筛选操作。
步骤17,将所述第M级关键词对应的领域语料数据按照语义进行文本聚类。
在本发明的一实施例中,获取到第M级关键词后,可以利用每个第M级关键词对应的两两领域语料数据之间的语义相关性进行文本聚类。
具体地,可以通过计算每个第M级关键词对应的两两领域语料数据之间的语义距离或语义相似度,再根据计算结果将每个第M级关键词对应的领域语料数据按照语义相关性进行排列,即语义越相关的数据排列的越近,而语义越不相关的数据则排列的越远。当然,也可以同时计算每个第M级关键词对应的两两领域语料数据之间的语义距离及语义相似度,再根据计算结果将每个第M级关键词对应的领域语料数据按照语义相关性进行排列。
在根据计算结果将每个第M级关键词对应的领域语料数据按照语义相关性进行排列时,可以采用Kmeans聚类方法进行排列,也可以采用Canopy聚类方法进行排列,还可以同时采用上述两种聚类方法进行排列。当然,还可以采用其它聚类方法进行排列,具体不受限制。其中,Kmeans聚类方法以及Canopy聚类方法均是基于距离的聚类方法,Canopy聚类方法是基于Kmeans聚类方法的一种补充聚类方法。
需要说明的是,在具体实施中,同一条语料数据中可以同时包括多个关键词,因此同一条语料数据可以同时匹配多个不同的关键词,最终同一条语料数据可以同时被聚类在不同关键词的不同位置。在具体实施中,所述数据处理方法还可以包括:根据筛选出的关键词以及文本聚类结果形成知识图谱。通过形成知识图谱,可视化地描述及显示所述原始语料数据对应的知识资源之间的相互联系。
需要说明的是,本发明实施例中所述知识图谱的表现形式并不限于图2中示出的表现形式,还可以采用其它表现形式显示所述知识图谱,例如,表格、图形等。
相对于现有技术中的知识图谱,本发明实施例中的知识图谱不仅包括对原始语料数据进行筛选后得到的各级关键词,还包括原始语料数据本身。例如,在图2所示的汽车领域的知识图谱中,第三级关键词“国家”对应的语料数据可以包括“是否有3000元国家节能补贴”,以及“英朗GT享受国家节能补贴”。利用本发明实施中的知识图谱,可以更加便于数据管理人员对数据进行整理,比如构建相应的知识库。
在具体实施中,所述数据处理方法还可以包括:当获取新的语料数据时,对所述新的语料数据执行过滤操作,当所述新的语料数据为与目标领域相关的领域语料数据时,对所述新的语料数据进行分词操作以及关键词筛选操作,以使所述新的语料数据匹配到已有的第M级关键词,并根据语义相关性将所述新的语料数据聚类到合适位置。
参照图3,以所述新的语料数据为“仪表盘亮度如何调节”、M=2为例,分词操作后,可以将该语料数据映射到tfidf模型中,分别得到第一级关键词“仪表”以及第二级关键词“亮度”,进而将该语料数据匹配到仪表-亮度下对应的知识点,再分别计算该语料数据与所匹配的知识点中各语料数据之间的语义距离或语义相似度,再根据计算结果找到该语料数据应属的聚类(如图中灰色背景区域所示),最后将该语料数据归入至所属的聚类。
由上述内容可以看出,本发明实施例中所述数据处理方法,在对领域语料数据进行分词后,通过M轮的关键词筛选及匹配操作,可以将所述领域语料数据分为M个层次,按层次对所述领域数据进行处理,不仅可以更加快速地查找到用户需要的内容,而且可以提高从处理后的数据中查找到用户需要内容的准确性。
参照图2,本发明实施例还提供了一种知识图谱,所述知识图谱可以包括M级关键词,每级关键词包括一个或多个关键词。除此之外,所述知识图谱还可以包括多个语料数据,所述语料数据按照语义相关性匹配在相应的第M级关键词上。
为了便于理解和实施本发明的实施例,下面对上述数据处理方法对应的装置进行详细介绍。
参照图4,本发明实施例提供了一种数据的处理装置40,所述装置40可以包括:获取单元41,过滤单元42,分词单元43,筛选单元44以及聚类单元45。其中:
所述获取单元41,适于获取原始语料数据;
所述过滤单元42,适于对所述原始语料数据执行过滤操作,以得到与目标领域相关的领域语料数据;
所述分词单元43,适于对所述领域语料数据执行分词操作,以得到与每条领域语料数据对应的一个或多个词语;
所述筛选单元44,适于通过关键词筛选操作从所有领域语料数据对应的词语中筛选出一个或多个第一级关键词,并将每条所述领域语料数据匹配到所述第一级关键词;以及通过关键词筛选操作从每个所述第一级关键词对应的领域语料数据中筛选出一个或多个第二级关键词,并将所述领域语料数据匹配到所述第二级关键词;不断重复上述筛选及匹配的过程,直至筛选出第M级关键词,并将所述领域语料数据匹配到第M级关键词,M大于或等于2;
所述聚类单元45,适于将所述第M级关键词对应的领域语料数据按照语义进行文本聚类。
在具体实施中,所述过滤单元42可以采用分类器实现所述过滤操作。
在具体实施中,所述筛选单元44适于采用如下方法执行所述关键词筛选操作:采用N种不同方式获取N组关键词,每组中每个关键词对应一个权重值,提取N组关键词的交集,并提取其余关键词中权重值大于预设阈值的关键词,将提取的所有关键词作为筛选出的关键词,N大于或等于1。
在具体实施中,所述筛选单元44获取关键词的方法包括以下方法中的一种或多种的组合:LDA主题模型分析方法、textrank方法、互信息方法和tfidf方法。
在具体实施中,所述聚类单元45可以包括:计算子单元451以及聚类子单元452。其中:
所述计算子单元451,适于计算每个第M级关键词对应的两两领域语料数据之间的语义距离和/或语义相似度;
所述聚类子单元452,适于采用Kmeans聚类方法或/和Canopy聚类方法将每个第M级关键词对应的领域语料数据按照语义相关性进行排列。
在具体实施中,所述装置还可以包括:知识图谱建立单元46,适于根据筛选出的关键词以及文本聚类结果形成知识图谱。
在具体实施中,所述装置还可以包括:更新单元47,适于当所述获取单元41获取到新的语料数据时,控制所述过滤单元42对所述新的语料数据执行过滤操作,当所述新的语料数据为与目标领域相关的领域语料数据时,分别控制所述分词单元43及所述筛选单元44对所述新的语料数据进行分词操作以及对关键词筛选操作,以使所述新的语料数据匹配到已有的第M级关键词,并由所述聚类单元45根据语义相关性将所述新的语料数据聚类到合适位置。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:ROM、RAM、磁盘或光盘等。
虽然本发明披露如上,但本发明并非限定于此。任何本领域技术人员,在不脱离本发明的精神和范围内,均可作各种更动与修改,因此本发明的保护范围应当以权利要求所限定的范围为准。

Claims (14)

1.一种数据的处理方法,其特征在于,包括:
获取原始语料数据;
对所述原始语料数据执行过滤操作,以得到与目标领域相关的领域语料数据;
对所述领域语料数据执行分词操作,以得到与每条领域语料数据对应的一个或多个词语;
通过关键词筛选操作从所有领域语料数据对应的词语中筛选出一个或多个第一级关键词,并将每条所述领域语料数据匹配到所述第一级关键词;
通过关键词筛选操作从每个第一级关键词对应的领域语料数据中筛选出一个或多个第二级关键词,并将所述领域语料数据匹配到所述第二级关键词;
不断重复上述筛选及匹配的过程,直至筛选出第M级关键词,并将所述领域语料数据匹配到所述第M级关键词,M大于或等于2;
将所述第M级关键词对应的领域语料数据按照语义进行文本聚类。
2.如权利要求1所述的数据的处理方法,其特征在于,所述过滤操作采用分类器实现。
3.如权利要求1所述的数据的处理方法,其特征在于,所述关键词筛选操作包括采用N种不同方法获取N组关键词,每组中每个关键词对应一个权重值,提取N组关键词的交集,并提取其余关键词中权重值大于预设阈值的关键词,将提取的所有关键词作为筛选出的关键词,N大于或等于1。
4.如权利要求3所述的数据的处理方法,其特征在于,获取关键词的方法包括以下方法中的一种或多种的组合:LDA主题模型分析方法、textrank方法、互信息方法和tfidf方法。
5.如权利要求1所述的数据的处理方法,其特征在于,所述文本聚类包括:计算每个第M级关键词对应的两两领域语料数据之间的语义距离和/或语义相似度,并采用Kmeans聚类方法或/和Canopy聚类方法将每个第M级关键词对应的领域语料数据按照语义相关性进行排列。
6.如权利要求1所述的数据的处理方法,其特征在于,还包括:根据筛选出的关键词以及文本聚类结果形成知识图谱。
7.如权利要求1所述的数据的处理方法,其特征在于,还包括:当获取新的语料数据时,对所述新的语料数据执行过滤操作,当所述新的语料数据为与目标领域相关的领域语料数据时,对所述新的语料数据进行分词操作以及关键词筛选操作,以使所述新的语料数据匹配到已有的第M级关键词,并根据语义相关性将所述新的语料数据聚类到合适位置。
8.一种数据的处理装置,其特征在于,包括:
获取单元,适于获取原始语料数据;
过滤单元,适于对所述原始语料数据执行过滤操作,以得到与目标领域相关的领域语料数据;
分词单元,适于对所述领域语料数据执行分词操作,以得到与每条领域语料数据对应的一个或多个词语;
筛选单元,适于通过关键词筛选操作从所有领域语料数据对应的词语中筛选出一个或多个第一级关键词,并将每条所述领域语料数据匹配到所述第一级关键词;以及通过关键词筛选操作从每个所述第一级关键词对应的领域语料数据中筛选出一个或多个第二级关键词,并将所述领域语料数据匹配到所述第二级关键词;不断重复上述筛选及匹配的过程,直至筛选出第M级关键词,并将所述领域语料数据匹配到第M级关键词,M大于或等于2;
聚类单元,适于将所述第M级关键词对应的领域语料数据按照语义进行文本聚类。
9.如权利要求8所述的数据的处理装置,其特征在于,所述过滤单元采用分类器实现所述过滤操作。
10.如权利要求8所述的数据的处理装置,其特征在于,所述筛选单元适于采用如下方法执行所述关键词筛选操作:采用N种不同方式获取N组关键词,每组中每个关键词对应一个权重值,提取N组关键词的交集,并提取其余关键词中权重值大于预设阈值的关键词,将提取的所有关键词作为筛选出的关键词,N大于或等于1。
11.如权利要求10所述的数据的处理装置,其特征在于,所述筛选单元获取关键词的方法包括以下方法中的一种或多种的组合:LDA主题模型分析方法、textrank方法、互信息方法和tfidf方法。
12.如权利要求8所述的数据的处理装置,其特征在于,所述聚类单元包括:
计算子单元,适于计算每个第M级关键词对应的两两领域语料数据之间的语义距离和/或语义相似度;
聚类子单元,适于采用Kmeans聚类方法或/和Canopy聚类方法将每个第M级关键词对应的领域语料数据按照语义相关性进行排列。
13.如权利要求8所述的数据的处理装置,其特征在于,还包括:
知识图谱建立单元,适于根据筛选出的关键词以及文本聚类结果形成知识图谱。
14.如权利要求8所述的数据的处理装置,其特征在于,还包括:
更新单元,适于当所述获取单元获取到新的语料数据时,控制所述过滤单元对所述新的语料数据执行过滤操作;当所述新的语料数据为与目标领域相关的领域语料数据时,分别控制所述分词单元及所述筛选单元对所述新的语料数据进行分词操作以及对关键词筛选操作,以使所述新的语料数据匹配到已有的第M级关键词;并由所述聚类单元根据语义相关性将所述新的语料数据聚类到合适位置。
CN201610200663.7A 2016-03-31 2016-03-31 数据的处理方法及装置、知识图谱 Active CN105893551B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610200663.7A CN105893551B (zh) 2016-03-31 2016-03-31 数据的处理方法及装置、知识图谱

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610200663.7A CN105893551B (zh) 2016-03-31 2016-03-31 数据的处理方法及装置、知识图谱

Publications (2)

Publication Number Publication Date
CN105893551A CN105893551A (zh) 2016-08-24
CN105893551B true CN105893551B (zh) 2019-03-05

Family

ID=57011775

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610200663.7A Active CN105893551B (zh) 2016-03-31 2016-03-31 数据的处理方法及装置、知识图谱

Country Status (1)

Country Link
CN (1) CN105893551B (zh)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106502984B (zh) * 2016-10-19 2019-05-24 上海智臻智能网络科技股份有限公司 一种领域新词发现的方法及装置
CN106569989A (zh) * 2016-10-20 2017-04-19 北京智能管家科技有限公司 一种用于短文本的去重方法及装置
CN108694177B (zh) * 2017-04-06 2022-02-18 北大方正集团有限公司 知识图谱构建方法及系统
CN107133283A (zh) * 2017-04-17 2017-09-05 北京科技大学 一种法律本体知识库自动构建方法
CN107122444A (zh) * 2017-04-24 2017-09-01 北京科技大学 一种法律知识图谱自动构建方法
CN107918644B (zh) * 2017-10-31 2020-12-08 北京锐思爱特咨询股份有限公司 声誉管理框架内的新闻议题分析方法和实施系统
CN108062306A (zh) * 2017-12-29 2018-05-22 国信优易数据有限公司 一种营商环境评价的指标体系构建系统及方法
CN108549626B (zh) * 2018-03-02 2020-11-20 广东技术师范学院 一种慕课的关键词提取方法
CN108563773B (zh) * 2018-04-20 2021-03-30 武汉工程大学 基于知识图谱的法律条文精准搜索排序方法
CN110674287A (zh) * 2018-06-07 2020-01-10 阿里巴巴集团控股有限公司 层级意图体系的建立方法及装置
CN109389321B (zh) * 2018-10-30 2021-08-06 北京筑龙信息技术有限责任公司 一种项目清单的分类方法及装置
CN109726298B (zh) * 2019-01-08 2020-12-29 上海市研发公共服务平台管理中心 适用于科技文献的知识图谱构建方法、系统、终端及介质
CN110598002A (zh) * 2019-08-14 2019-12-20 广州视源电子科技股份有限公司 知识图库构建方法、装置、计算机存储介质和电子设备
CN111401056A (zh) * 2020-04-07 2020-07-10 上海创蓝文化传播有限公司 一种从多类文本中提取关键词的方法
CN113688269B (zh) * 2021-07-21 2023-05-02 北京三快在线科技有限公司 图文匹配结果确定方法、装置、电子设备及可读存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101059805A (zh) * 2007-03-29 2007-10-24 复旦大学 基于网络流和分层知识库的动态文本聚类方法
CN104391942A (zh) * 2014-11-25 2015-03-04 中国科学院自动化研究所 基于语义图谱的短文本特征扩展方法
CN105183869A (zh) * 2015-09-16 2015-12-23 分众(中国)信息技术有限公司 楼宇知识图谱数据库及其构建方法
CN105404660A (zh) * 2015-11-05 2016-03-16 上海智臻智能网络科技股份有限公司 多级数据存储方法及装置、多级数据结构、信息检索方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008134588A1 (en) * 2007-04-25 2008-11-06 Counsyl, Inc. Methods and systems of automatic ontology population

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101059805A (zh) * 2007-03-29 2007-10-24 复旦大学 基于网络流和分层知识库的动态文本聚类方法
CN104391942A (zh) * 2014-11-25 2015-03-04 中国科学院自动化研究所 基于语义图谱的短文本特征扩展方法
CN105183869A (zh) * 2015-09-16 2015-12-23 分众(中国)信息技术有限公司 楼宇知识图谱数据库及其构建方法
CN105404660A (zh) * 2015-11-05 2016-03-16 上海智臻智能网络科技股份有限公司 多级数据存储方法及装置、多级数据结构、信息检索方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
知识图谱构建技术综述;刘峤 等;《计算机研究与发展》;20160315;全文

Also Published As

Publication number Publication date
CN105893551A (zh) 2016-08-24

Similar Documents

Publication Publication Date Title
CN105893551B (zh) 数据的处理方法及装置、知识图谱
CN111339774B (zh) 文本的实体关系抽取方法和模型训练方法
CN111291210B (zh) 图像素材库生成方法、图像素材推荐方法及相关装置
KR102094934B1 (ko) 자연어 질의 응답 시스템 및 방법
CN104102723B (zh) 搜索内容提供方法和搜索引擎
CN110147436A (zh) 一种基于教育知识图谱与文本的混合自动问答方法
CN108345686B (zh) 一种基于搜索引擎技术的数据分析方法及系统
AU2015203818B2 (en) Providing contextual information associated with a source document using information from external reference documents
CN104484411B (zh) 一种基于词典的语义知识库的构建方法
WO2017092622A1 (zh) 法律条文的搜索方法及装置
CN109376352B (zh) 一种基于word2vec和语义相似度的专利文本建模方法
CN104809142A (zh) 商标查询系统和方法
CN109376251A (zh) 一种基于词向量学习模型的微博中文情感词典构建方法
CN108536708A (zh) 一种自动问答处理方法及自动问答系统
CN104217008B (zh) 互联网人物视频交互式标注方法及系统
CN106446018B (zh) 基于人工智能的查询信息处理方法和装置
CN106897559A (zh) 一种面向多数据源的症状体征类实体识别方法及装置
CN107180084A (zh) 词库更新方法及装置
CN108520038B (zh) 一种基于排序学习算法的生物医学文献检索方法
CN103092966A (zh) 一种挖掘词汇的方法及装置
CN102890701A (zh) 情感数据使用的系统和方法
CN104035955B (zh) 搜索方法和装置
CN107463703A (zh) 基于信息增益的英文社交媒体账号分类方法
CN107480137A (zh) 用语义迭代提取网络突发事件并识别外延事件关系的方法
CN108875034A (zh) 一种基于层次化长短期记忆网络的中文文本分类方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
PE01 Entry into force of the registration of the contract for pledge of patent right
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: Data processing method, device and knowledge map

Effective date of registration: 20220211

Granted publication date: 20190305

Pledgee: Bank of Shanghai Limited by Share Ltd. Pudong branch

Pledgor: SHANGHAI XIAOI ROBOT TECHNOLOGY Co.,Ltd.

Registration number: Y2022310000021