CN114741508A - 概念挖掘方法及装置、电子设备及可读存储介质 - Google Patents

概念挖掘方法及装置、电子设备及可读存储介质 Download PDF

Info

Publication number
CN114741508A
CN114741508A CN202210320584.5A CN202210320584A CN114741508A CN 114741508 A CN114741508 A CN 114741508A CN 202210320584 A CN202210320584 A CN 202210320584A CN 114741508 A CN114741508 A CN 114741508A
Authority
CN
China
Prior art keywords
concept
candidate
concepts
text
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210320584.5A
Other languages
English (en)
Other versions
CN114741508B (zh
Inventor
付俊杰
王宗宇
谢睿
武威
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sankuai Online Technology Co Ltd
Original Assignee
Beijing Sankuai Online Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sankuai Online Technology Co Ltd filed Critical Beijing Sankuai Online Technology Co Ltd
Priority to CN202210320584.5A priority Critical patent/CN114741508B/zh
Publication of CN114741508A publication Critical patent/CN114741508A/zh
Application granted granted Critical
Publication of CN114741508B publication Critical patent/CN114741508B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种概念挖掘方法及装置、电子设备及可读存储介质。其中,该方法包括:获取目标文本对应的候选概念;通过预先训练完成的概念判别模型,根据目标文本的文本特征以及候选概念的概念特征,确定候选概念是否为合理候选概念;候选概念为合理候选概念,则根据预设概念清洗规则对候选概念进行数据清洗,以得到目标文本对应的目标概念;否则,丢弃候选概念。本发明解决了由于相关技术中对用户搜索词以及自然语言表达的概念等泛化能力较差,而导致概念数据的质量较低的技术问题。

Description

概念挖掘方法及装置、电子设备及可读存储介质
技术领域
本发明涉及数据挖掘技术领域,具体而言,涉及一种概念挖掘方法及装置、电子设备及可读存储介质。
背景技术
机器智能化建立在大量的知识之上,而现有的知识大部分是零散的,更深层次的人工智能需要成体系的、结构化的知识。知识图谱(Knowledge Graph)从早年的语义网络(Semantic Network)发展至今,已成为自然语言处理领域非常热门的研究领域,它能建立零散知识之间的联系,形成新的知识,具有知识共享的能力。
在构建知识图谱的过程中,需要从大量零散的文本数据中挖掘结构化的数据,首要的一步就是识别文本中的概念,然后建立概念之间的各种关系,这些概念可以是实体、短语等等,根据实际应用场景的不同,对概念的定义会有所不同。通常涉及到实体识别、短语挖掘、概念识别等自然语言处理任务中的子领域。
申请人在实现本发明的过程中,发现相关技术中至少存在以下技术问题。
1.现有技术中缺少针对生活服务领域的大规模常识性知识图谱数据,而对于Query的可理解必须借助于知识,把用户搜索的Query能够进行拆分,借助知识理解不同的语义单元表述的意图,这样才能做基于知识的搜索引擎。
2.现有少数方案虽然区分原子概念、复合概念,但是模型对低频、偏用户自然语言表达的概念泛化能力较差,对整个文档进行编码容易带来大量冗余信息。
3.之前的候选概念的生成方法往往只能产生连续的字符串,而在具体地应用场景下,用户搜索Query是一个重要的概念挖掘来源,用户在搜索Query中表达的很多概念可能在文本上并不连续,现有候选数据生成方法难以覆盖,如用户搜索“适合晚上蹦迪放松的酒吧”,采用序列标注模型或者短语挖掘模型都不能生成“蹦迪酒吧”这样的候选概念。
可见,相关技术中针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种概念挖掘方法及装置、电子设备及可读存储介质,以至少解决由于相关技术中对用户搜索词以及自然语言表达的概念等泛化能力较差,而导致概念数据的质量较低的技术问题。
根据本发明实施例的一个方面,提供了一种概念挖掘方法,包括:获取目标文本对应的候选概念;通过预先训练完成的概念判别模型,根据所述目标文本的文本特征以及所述候选概念的概念特征,确定所述候选概念是否为合理候选概念;所述候选概念为合理候选概念,则根据预设概念清洗规则对所述候选概念进行数据清洗,以得到所述目标文本对应的目标概念;否则,丢弃所述候选概念。
进一步地,获取目标文本对应的候选概念,包括以下至少之一:从预设数据库中存储的候选短语中获取所述候选概念;或,对预设平台中的用户搜索词进行分词,以得到所述候选概念;或,通过预先训练完成的短语挖掘模型,从所述预设平台的用户生成数据中获取所述候选概念。
进一步地,所述概念判别模型包括统计模型子网络、文本识别子网络以及图向量子网络,其中,所述通过预先训练完成的概念判别模型,根据所述目标文本的文本特征以及所述候选概念的概念特征,确定所述候选概念是否为合理候选概念,包括:通过所述统计模型子网络,根据所述目标文本对应的统计特征,确定所述目标文本对应的第一向量表示;通过所述文本识别子网络,确定所述文本特征对应的第二向量表示;通过所述图向量子网络,确定所述概念特征对应的第三向量表示;根据所述第一向量表示、所述第二向量表示以及所述第三向量表示对所述候选概念进行打分,并根据所述候选概念的分数确定所述候选概念是否为合理候选概念。
进一步地,所述通过所述图向量子网络,确定所述概念特征对应的第三向量表示,包括:通过所述图向量子网络中的图向量层,确定所述概念特征对应的图向量;通过所述图向量子网络中的编码层,对所述图向量进行编码,以得到所述第三向量表示。
进一步地,若所述候选概念为合理候选概念,则根据预设概念清洗规则对所述候选概念进行数据清洗,包括以下之一:根据预先训练完成的紧密度模型对所述候选概念进行数据清洗,以得到原子概念数据;或,对所述候选概念进行实例数据清洗;或,对所述候选概念进行校错。
根据本发明实施例的另一方面,还提供了一种概念挖掘装置,包括:获取模块,用于获取目标文本对应的候选概念;确定模块,用于通过预先训练完成的概念判别模型,根据所述目标文本的文本特征以及所述候选概念的概念特征,确定所述候选概念是否为合理候选概念;处理模块,用于若所述候选概念为合理候选概念,则根据预设概念清洗规则对所述候选概念进行数据清洗,以得到所述目标文本对应的目标概念;若所述候选概念不是合理候选概念,丢弃所述候选概念。
进一步地,所述获取模块包括以下至少之一:第一获取子模块,用于从预设数据库中存储的候选短语中获取所述候选概念;或,第一处理子模块,用于对预设平台中的用户搜索词进行分词,以得到所述候选概念;或,第二获取子模块,用于通过预先训练完成的短语挖掘模型,从所述预设平台的用户生成数据中获取所述候选概念。
进一步地,所述概念判别模型包括统计模型子网络、文本识别子网络以及图向量子网络,其中,所述确定模块包括:第一确定子模块,用于通过所述统计模型子网络,根据所述目标文本对应的统计特征,确定所述目标文本对应的第一向量表示;第二确定子模块,用于通过所述文本识别子网络,确定所述文本特征对应的第二向量表示;第三确定子模块,用于通过所述图向量子网络,确定所述概念特征对应的第三向量表示;第四确定子模块,用于根据所述第一向量表示、所述第二向量表示以及所述第三向量表示对所述候选概念进行打分,并根据所述候选概念的分数确定所述候选概念是否为合理候选概念。
进一步地,所述第三确定子模块包括:确定单元,用于通过所述图向量子网络中的图向量层,确定所述概念特征对应的图向量;编码单元,用于通过所述图向量子网络中的编码层,对所述图向量进行编码,以得到所述第三向量表示。
进一步地,所述处理模块包括以下之一:第二处理子模块,用于根据预先训练完成的紧密度模型对所述候选概念进行数据清洗,以得到原子概念数据;或,第三处理子模块,用于对所述候选概念进行实例数据清洗;或,校正子模块,用于对所述候选概念进行校错。
根据本发明实施例的另一方面,还提供了一种电子设备,其特征在于,包括处理器,存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如上所述的概念挖掘方法的步骤。
根据本发明实施例的另一方面,还提供了一种可读存储介质,其特征在于,所述可读存储介质上存储程序或指令,所述程序或指令被处理器执行时实现如上所述的概念挖掘方法的步骤。
在本发明实施例中,获取目标文本对应的候选概念;通过预先训练完成的概念判别模型,根据目标文本的文本特征以及候选概念的概念特征,确定候选概念是否为合理候选概念;候选概念为合理候选概念,则根据预设概念清洗规则对候选概念进行数据清洗,以得到目标文本对应的目标概念;否则,丢弃候选概念,达到了对自然语言文本进行概念挖掘,提高基于自然语言文本的泛化能力,在确定候选概念为合理候选概念后,对候选概念进行数据清洗,从而实现了提高概念数据质量的技术效果,进而解决了由于相关技术中对用户搜索词以及自然语言表达的概念等泛化能力较差,而导致概念数据的质量较低的技术问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的一种可选的概念挖掘方法的流程示意图;
图2是根据本发明实施例的一种可选的概念判别模型的结构示意图;
图3是根据本发明实施例的一种可选的概念挖掘装置的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
实施例1
根据本发明实施例,提供了一种概念挖掘方法,如图1所示,该方法包括:
S102,获取目标文本对应的候选概念;
在实际的应用场景中,一个概念可以看成是一个个体的集合,即一个概念就是确定一个分类。在本实施例中,概念包括原子概念以及复合概念,其中,原子概念为粒度最小的概念;复合概念由两个或多个原子概念组成。
在本实施例中,目标文本包括但不限于自然语言文本,本实施例中不对目标文本的语种等做任何限定,例如目标文本可以是汉语、英语、日语等。目标文本可以是用户在预设平台中输入的搜索词Query、用户评论,以及,预设数据库中存储的候选短语、候选词等文本。
通过对目标文本进行分词或者词语提取,以得到对应的候选概念,例如对目标文本“好吃的张亮麻辣烫”进行概念提取,可以得到概念“麻辣烫”、“张亮麻辣烫”。
而在实际应用场景中的概念挖掘过程中,不管是序列标注模型还是短语挖掘模型,其产生的候选概念都是在文本上连续的概念,而在一些线上购物平台的场景下,用户搜索Query是一个重要的概念挖掘来源,用户搜索Query中经常会将一个概念口语化的表述出来,这样的候选概念不具有文本上的连续性,所以现有技术中的概念挖掘方法不能直接挖掘出来质量较高的概念,如用户搜索“适合晚上蹦迪放松的酒吧”,这里面蕴含的“蹦迪酒吧”的概念候选就不能生成,
因此,在本实施例中,获取目标文本对应的候选概念,包括以下至少之一:
1)从预设数据库中存储的候选短语中获取候选概念;
具体地,例如获取百科、“大辞林”(百科辞典)、预设文库或其他预设数据库中存储的文本,然后从文本中获取候选短语或者候选词汇。在一般场景中,百科、“大辞林”等数据库中的文本大多数都会对概念进行了大致的分类,因此可以从预设数据库的候选短语中获取候选概念。
2)对预设平台中的用户搜索词进行分词,以得到候选概念;
在一些预设平台中,例如购物平台、团购平台以及商家平台中,用户可以在预设平台的输入栏输入搜索词,然后预设平台根据用户输入的搜索词召回相应的商家、产品或服务等。然后,将用户搜索词Query存储至预设平台的数据库中。
然而,用户搜索词都是不规律的,可以是单个词汇、短语或者由不相关的词汇组合而成。因此,在本实施例中,对预设平台中的用户搜索词进行分词,然后得到候选概念。例如,在用户搜索Query中获取分词数据,并对分词数据分别进行组合后,得到二元和三元的概念组合。
作为一种优选地实施例,对用户搜索词进行分词包括但不限于通过预先训练完成的多元N-gram模型对用户搜索词进行依存分析,并在依存路径上获得候选概念,打破概念在文本上的连续性。
在一个例子中,用户搜索词为“香甜的小卡车蛋糕”,获取该用户搜索词的分词数据,则可以得到“香甜”、“小卡车”以及“蛋糕”,对其进行组合后得到二个候选概念:“香甜蛋糕”以及“小卡车蛋糕”。
3)通过预先训练完成的短语挖掘模型,从预设平台的用户生成数据中获取候选概念。
在本实施例中,预设平台的用户生成数据包括但不限于用户的评论内容、商家的营销广告等。通过预先训练完成的短语挖掘模型在用户生成数据UGC中获取候选概念。其中,短语挖掘模型包括但不限于AutoPhrase模型,或,长短期记忆以及条件随机场BiLSTM模型。短语挖掘模型用于获取输入文本中的短语。
通过上述示例,获取目标文本对应的候选概念,能够充分挖掘目标文本中的候选概念。
S104,通过预先训练完成的概念判别模型,根据目标文本的文本特征以及候选概念的概念特征,确定候选概念是否为合理候选概念;
接下来,将目标文本的文本特征、候选概念的概念特征输入至预先训练完成的概念判别模型,由概念判别模型根据文本特征以及概念特征为所述候选概念进行打分,根据候选概念的得分情况来判断候选概念是否为合理候选概念。
本实施例具体实施时,首先需要训练概念判别模型。
在一些实施例中,根据用户在预设平台中输入的用户生成数据UGC以及对应的候选概念,构建训练样本集,其中训练样本集中的训练样本中的每条训练样本包括:目标文本、候选概念以及目标文本对应的其他信息,其中,其他信息包括但不限于统计信息。
首先,获取预设平台中的用户生成数据UGC。通常,用户在预设平台中每一次查询行为都会生成一条查询记录,每一次评论行为都会生成一条评论记录。预设平台中的查询记录以及评论记录至少包括以下信息:目标文本、目标文本对应的统计数据等。
然后,基于目标文本、目标文本对应的候选概念以及统计数据构建训练样本。在一些实施例中,通过对上述数据进行处理,可以得到训练样本。本实施例中将每一个训练样本表示为一个四元组,包括<目标文本,候选概念,统计数据,得分>,基于训练样本构建训练样本集。
接下来,基于构建的训练样本集训练概念判别模型,以目标文本的问文本特征、候选概念的概念特征以及目标文本对应的统计特征作为模型输入,以候选概念的得分作为模型目标,训练概念判别模型。
可选地,在本实施例中,概念判别模型包括统计模型子网络、文本识别子网络以及图向量子网络,其中,通过预先训练完成的概念判别模型,根据目标文本的文本特征以及候选概念的概念特征,确定候选概念是否为合理候选概念,包括但不限于:通过统计模型子网络,根据目标文本对应的统计特征,确定目标文本对应的第一向量表示;通过文本识别子网络,确定文本特征对应的第二向量表示;通过图向量子网络,确定概念特征对应的第三向量表示;根据第一向量表示、第二向量表示以及第三向量表示对候选概念进行打分,以确定候选概念的得分。
需要说明的是,本实施例中的统计特征由目标文本的统计数据得到,目标文本的统计数据包括但不限于目标文本的PMI(Pointwise Mutual Information,点互信息)、词性、实体NER类型以及候选数据来源等。其中,PMI用于表示由目标文本得到的二元概念或三元概念之间的关联性或相关性;词性,用于表示词汇为动词、形容词或名词等词性;NER类型用于表示目标文本中实例或实体的类型。
本实施例中的文本特征为目标文本对应的自然语言文本的文本向量,候选概念的概念特征为候选概念对应的文本向量。由目标文本获取文本特征以及由候选概念挖掘概念特征,为现有技术中已经成熟的技术手段,本实施例中对此不做赘述。
在本实施例中,概念判别模型中的文本识别子网络包括但不限于BERT(Bidirectional Encoder Representations from Transformers)模型,图向量子网络由Graph Embedding模型以及长短期记忆BiLSTM模型构成,用于获取原子概念的向量表示。
具体地,如图2所示,为本实施例中一种可选的概念判别模型的结构图,概念判别模型20包括统计模型子网络200、文本识别子网络202以及图向量子网络204。将统计特征输入至统计模型子网络200,以得到第一向量表示;将目标文本对应的文本特征输入至文本识别子网络202,以得到第二向量表示;以及将候选概念的概念特征输入至图向量子网络,以得到第三向量表示。然后,对第一向量表示、第二向量表示以及第三向量表示经过全连接层处理后,进行向量拼接处理后进行打分,然后确定候选概念对应的得分SCORE。
需要说明的是,在文本是识别子网络中,利用句子级的信息检查概念在句子中的完整性和合理性。将组合的词汇在用户搜索词query或UGC数据中进行句子的匹配,并用BERT模型编码句子特征,获得其中组合词汇的向量,从而使组合词汇的特征具有整个句子的上下文信息,使得概念判别时,能考虑到词汇在句子中的完整性和合理性。
在实际的应用场景中,目标文本包括一个或多个候选概念,因此可以设定一个预设分数阈值,然后基于预设分数阈值判断候选概念是否为合理候选概念。而在另一个例子中,目标文本包括一个或多个候选概念,在根据概念判别模型确定目标文本的候选概念的得分后,基于目标文本的多个候选概念的得分进行排序,然后根据预设规则筛选得到目标文本对应的合理候选概念。
可选地,在本实施例中,通过图向量子网络,确定概念特征对应的第三向量表示,包括但不限于:通过图向量子网络中的图向量层,确定概念特征对应的图向量;通过图向量子网络中的编码层,对图向量进行编码,以得到第三向量表示。
具体地,以下对图向量子网络确定概念特征对应的第三向量表示的过程进行介绍:
1)利用图向量(Graph Embedding)模型获得原子概念的向量表示。图向量模型能为每一个原子概念获取与其进行组合词汇的上下文信息,图向量中包括不同的节点,每个节点对应一个原子概念。
另外,不同的节点之间还会通过图进行信息的传递,而部分实例数据可能在图中是比较孤立的节点,在图上传递的信息很少,因此能避免在概念识别中引入实例数据;而其他的一些自由度更高的词汇,在途中链接的节点更多,节点传递的信息更多,更容易和其他词进行合理的泛化,从而产生一些低频的合理概念。
2)对于候选概念中的组合的词汇,获得图向量表示后,利用BiLSTM进一步对组合词汇的向量进行编码,获得候选概念组合后的特征,即第三向量表示。
在上述示例中,通过预先训练完成的概念判别模型,根据目标文本的文本特征以及候选概念的概念特征,确定候选概念是否为合理候选概念,以实现对候选概念的准确地筛选。
S106,若候选概念为合理候选概念,则根据预设概念清洗规则对候选概念进行数据清洗,以得到目标文本对应的目标概念;否则,丢弃候选概念。
具体地,为进一步提升概念数据的质量,对模型判别的概念结果进行抽样分析,对其中的不合理概念做进一步的分类,并针对各类问题进行进一步的规则清晰。若候选概念为合理候选概念,则根据预设概念清晰规则对候选概念进行数据清洗,来得到目标文本对应的目标概念。在候选概念不是合理候选概念时,丢弃该不合理的候选概念。数据清洗包括但不限于对包含实例的数据进行数据清洗,对存在语病或错别字的校正。
可选地,在本实施例中,若候选概念为合理候选概念,则根据预设概念清洗规则对候选概念进行数据清洗,包括以下之一:
1)根据预先训练完成的紧密度模型对候选概念进行数据清洗,以得到原子概念数据;
具体地,候选概念对应的词汇由多个原子概念构成,但是构成的词汇语义上应该是一个原子概念,通过预先训练完成的紧密度模型进行概念的清洗,并补充到原子概念数据中。例如可以通过紧密度模型进行数据清洗得到如“密室逃脱”、“深水炸弹”等词汇对应的概念;
2)对候选概念进行实例数据清洗;
具体地,对由实例或个体等构成的候选概念,其并非原子概念,因此需要对实体或实例组合而成的复合词汇进行实例数据清洗。
例如“辽宁温泉排行”,更合理的概念应该是“温泉排行”,对于地址类的组合词汇并无实际使用意义;
此外,还包括对实例的概念数据,例如对商户名等实例数据清洗。
3)对候选概念进行校错。
具体地,对数据进行分词和错别字的检查,此外,还可以是对于一些具有并列关系的名词组合词汇,并不能无歧义的表达词汇的信息,例如“杭帮菜南京菜”、“按摩SPA”等,因此利用规则进行进一步过滤。
通过本实施例,获取目标文本对应的候选概念;通过预先训练完成的概念判别模型,根据目标文本的文本特征以及候选概念的概念特征,确定候选概念是否为合理候选概念;候选概念为合理候选概念,则根据预设概念清洗规则对候选概念进行数据清洗,以得到目标文本对应的目标概念;否则,丢弃候选概念,达到了对自然语言文本进行概念挖掘,提高基于自然语言文本的泛化能力,在确定候选概念为合理候选概念后,对候选概念进行数据清洗,从而实现了提高概念数据质量的技术效果,进而解决了由于相关技术中对用户搜索词以及自然语言表达的概念等泛化能力较差,而导致概念数据的质量较低的技术问题。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
实施例2
根据本发明实施例,还提供了一种用于实施上述概念挖掘方法的概念挖掘装置,如图3所示,该装置包括:
1)获取模块30,用于获取目标文本对应的候选概念;
2)确定模块32,用于通过预先训练完成的概念判别模型,根据所述目标文本的文本特征以及所述候选概念的概念特征,确定所述候选概念是否为合理候选概念;
3)处理模块34,用于若所述候选概念为合理候选概念,则根据预设概念清洗规则对所述候选概念进行数据清洗,以得到所述目标文本对应的目标概念;若所述候选概念不是合理候选概念,丢弃所述候选概念。
可选地,在本实施例中,所述获取模块30包括以下至少之一:
1)第一获取子模块,用于从预设数据库中存储的候选短语中获取所述候选概念;或,
2)第一处理子模块,用于对预设平台中的用户搜索词进行分词,以得到所述候选概念;或,
3)第二获取子模块,用于通过预先训练完成的短语挖掘模型,从所述预设平台的用户生成数据中获取所述候选概念。
可选地,在本实施例中,所述概念判别模型包括统计模型子网络、文本识别子网络以及图向量子网络,其中,所述确定模块32包括:
1)第一确定子模块,用于通过所述统计模型子网络,根据所述目标文本对应的统计特征,确定所述目标文本对应的第一向量表示;
2)第二确定子模块,用于通过所述文本识别子网络,确定所述文本特征对应的第二向量表示;
3)第三确定子模块,用于通过所述图向量子网络,确定所述概念特征对应的第三向量表示;
4)第四确定子模块,用于根据所述第一向量表示、所述第二向量表示以及所述第三向量表示对所述候选概念进行打分,并根据所述候选概念的分数确定所述候选概念是否为合理候选概念。
可选地,在本实施例中,所述第三确定子模块包括:
1)确定单元,用于通过所述图向量子网络中的图向量层,确定所述概念特征对应的图向量;
2)编码单元,用于通过所述图向量子网络中的编码层,对所述图向量进行编码,以得到所述第三向量表示。
可选地,在本实施例中,所述处理模块34包括以下之一:
1)第二处理子模块,用于根据预先训练完成的紧密度模型对所述候选概念进行数据清洗,以得到原子概念数据;或,
2)第三处理子模块,用于对所述候选概念进行实例数据清洗;或,
3)校正子模块,用于对所述候选概念进行校错。
通过本实施例,获取目标文本对应的候选概念;通过预先训练完成的概念判别模型,根据目标文本的文本特征以及候选概念的概念特征,确定候选概念是否为合理候选概念;候选概念为合理候选概念,则根据预设概念清洗规则对候选概念进行数据清洗,以得到目标文本对应的目标概念;否则,丢弃候选概念,达到了对自然语言文本进行概念挖掘,提高基于自然语言文本的泛化能力,在确定候选概念为合理候选概念后,对候选概念进行数据清洗,从而实现了提高概念数据质量的技术效果,进而解决了由于相关技术中对用户搜索词以及自然语言表达的概念等泛化能力较差,而导致概念数据的质量较低的技术问题。
实施例3
根据本发明实施例,还提供了一种电子设备,包括处理器,存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如上所述的概念挖掘方法的步骤。
可选地,在本实施例中,存储器被设置为存储用于执行以下步骤的程序代码:
S1,获取目标文本对应的候选概念;
S2,通过预先训练完成的概念判别模型,根据所述目标文本的文本特征以及所述候选概念的概念特征,确定所述候选概念是否为合理候选概念;
S3,若所述候选概念为合理候选概念,则根据预设概念清洗规则对所述候选概念进行数据清洗,以得到所述目标文本对应的目标概念;否则,丢弃所述候选概念。
可选地,本实施例中的具体示例可以参考上述实施例1中所描述的示例,本实施例在此不再赘述。
实施例4
本发明的实施例还提供了一种可读存储介质,所述可读存储介质上存储程序或指令,所述程序或指令被处理器执行时实现如上所述的概念挖掘方法的步骤。
可选地,在本实施例中,可读存储介质被设置为存储用于执行以下步骤的程序代码:
S1,获取目标文本对应的候选概念;
S2,通过预先训练完成的概念判别模型,根据所述目标文本的文本特征以及所述候选概念的概念特征,确定所述候选概念是否为合理候选概念;
S3,若所述候选概念为合理候选概念,则根据预设概念清洗规则对所述候选概念进行数据清洗,以得到所述目标文本对应的目标概念;否则,丢弃所述候选概念。
可选地,存储介质还被设置为存储用于执行上述实施例1中的方法中所包括的步骤的程序代码,本实施例中对此不再赘述。
可选地,在本实施例中,上述存储介质可以包括但不限于:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
可选地,本实施例中的具体示例可以参考上述实施例1中所描述的示例,本实施例在此不再赘述。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在上述计算机可读取的存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在存储介质中,包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的客户端,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (12)

1.一种概念挖掘方法,其特征在于,包括:
获取目标文本对应的候选概念;
通过预先训练完成的概念判别模型,根据所述目标文本的文本特征以及所述候选概念的概念特征,确定所述候选概念是否为合理候选概念;
若所述候选概念为合理候选概念,则根据预设概念清洗规则对所述候选概念进行数据清洗,以得到所述目标文本对应的目标概念;否则,丢弃所述候选概念。
2.根据权利要求1所述的方法,其特征在于,获取目标文本对应的候选概念,包括以下至少之一:
从预设数据库中存储的候选短语中获取所述候选概念;或,对预设平台中的用户搜索词进行分词,以得到所述候选概念;或,
通过预先训练完成的短语挖掘模型,从所述预设平台的用户生成数据中获取所述候选概念。
3.根据权利要求1所述的方法,其特征在于,所述概念判别模型包括统计模型子网络、文本识别子网络以及图向量子网络,其中,
所述通过预先训练完成的概念判别模型,根据所述目标文本的文本特征以及所述候选概念的概念特征,确定所述候选概念是否为合理候选概念,包括:
通过所述统计模型子网络,根据所述目标文本对应的统计特征,确定所述目标文本对应的第一向量表示;
通过所述文本识别子网络,确定所述文本特征对应的第二向量表示;
通过所述图向量子网络,确定所述概念特征对应的第三向量表示;
根据所述第一向量表示、所述第二向量表示以及所述第三向量表示对所述候选概念进行打分,并根据所述候选概念的分数确定所述候选概念是否为合理候选概念。
4.根据权利要求3所述的方法,其特征在于,所述通过所述图向量子网络,确定所述概念特征对应的第三向量表示,包括:
通过所述图向量子网络中的图向量层,确定所述概念特征对应的图向量;
通过所述图向量子网络中的编码层,对所述图向量进行编码,以得到所述第三向量表示。
5.根据权利要求1所述的方法,其特征在于,若所述候选概念为合理候选概念,则根据预设概念清洗规则对所述候选概念进行数据清洗,包括以下之一:
根据预先训练完成的紧密度模型对所述候选概念进行数据清洗,以得到原子概念数据;或,
对所述候选概念进行实例数据清洗;或,
对所述候选概念进行校错。
6.一种概念挖掘装置,其特征在于,包括:
获取模块,用于获取目标文本对应的候选概念;
确定模块,用于通过预先训练完成的概念判别模型,根据所述目标文本的文本特征以及所述候选概念的概念特征,确定所述候选概念是否为合理候选概念;
处理模块,用于若所述候选概念为合理候选概念,则根据预设概念清洗规则对所述候选概念进行数据清洗,以得到所述目标文本对应的目标概念;若所述候选概念不是合理候选概念,丢弃所述候选概念。
7.根据权利要求6所述的装置,其特征在于,所述获取模块包括以下至少之一:
第一获取子模块,用于从预设数据库中存储的候选短语中获取所述候选概念;或,
第一处理子模块,用于对预设平台中的用户搜索词进行分词,以得到所述候选概念;或,
第二获取子模块,用于通过预先训练完成的短语挖掘模型,从所述预设平台的用户生成数据中获取所述候选概念。
8.根据权利要求6所述的装置,其特征在于,所述概念判别模型包括统计模型子网络、文本识别子网络以及图向量子网络,其中,所述确定模块包括:
第一确定子模块,用于通过所述统计模型子网络,根据所述目标文本对应的统计特征,确定所述目标文本对应的第一向量表示;
第二确定子模块,用于通过所述文本识别子网络,确定所述文本特征对应的第二向量表示;
第三确定子模块,用于通过所述图向量子网络,确定所述概念特征对应的第三向量表示;
第四确定子模块,用于根据所述第一向量表示、所述第二向量表示以及所述第三向量表示对所述候选概念进行打分,并根据所述候选概念的分数确定所述候选概念是否为合理候选概念。
9.根据权利要求8所述的装置,其特征在于,所述第三确定子模块包括:
确定单元,用于通过所述图向量子网络中的图向量层,确定所述概念特征对应的图向量;
编码单元,用于通过所述图向量子网络中的编码层,对所述图向量进行编码,以得到所述第三向量表示。
10.根据权利要求6所述的装置,其特征在于,所述处理模块包括以下之一:
第二处理子模块,用于根据预先训练完成的紧密度模型对所述候选概念进行数据清洗,以得到原子概念数据;或,
第三处理子模块,用于对所述候选概念进行实例数据清洗;或,
校正子模块,用于对所述候选概念进行校错。
11.一种电子设备,其特征在于,包括处理器,存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如权利要求1-5所述的概念挖掘方法的步骤。
12.一种可读存储介质,其特征在于,所述可读存储介质上存储程序或指令,所述程序或指令被处理器执行时实现如权利要求1-5所述的概念挖掘方法的步骤。
CN202210320584.5A 2022-03-29 2022-03-29 概念挖掘方法及装置、电子设备及可读存储介质 Active CN114741508B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210320584.5A CN114741508B (zh) 2022-03-29 2022-03-29 概念挖掘方法及装置、电子设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210320584.5A CN114741508B (zh) 2022-03-29 2022-03-29 概念挖掘方法及装置、电子设备及可读存储介质

Publications (2)

Publication Number Publication Date
CN114741508A true CN114741508A (zh) 2022-07-12
CN114741508B CN114741508B (zh) 2023-05-30

Family

ID=82276327

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210320584.5A Active CN114741508B (zh) 2022-03-29 2022-03-29 概念挖掘方法及装置、电子设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN114741508B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111563149A (zh) * 2020-04-24 2020-08-21 西北工业大学 一种用于中文知识图谱问答系统的实体链接方法
CN112148882A (zh) * 2020-11-27 2020-12-29 北京惠及智医科技有限公司 病历文本处理方法、装置、电子设备及存储介质
CN112257446A (zh) * 2020-10-20 2021-01-22 平安科技(深圳)有限公司 命名实体识别方法、装置、计算机设备及可读存储介质
CN112395391A (zh) * 2020-11-17 2021-02-23 中国平安人寿保险股份有限公司 概念图谱构建方法、装置、计算机设备及存储介质
CN112527977A (zh) * 2020-11-09 2021-03-19 清华大学 概念抽取方法、装置、电子设备及存储介质
US20210209139A1 (en) * 2020-01-02 2021-07-08 International Business Machines Corporation Natural question generation via reinforcement learning based graph-to-sequence model
CN113204968A (zh) * 2021-05-28 2021-08-03 平安科技(深圳)有限公司 医学实体的概念识别方法、装置、设备及存储介质
CN114168819A (zh) * 2022-02-14 2022-03-11 北京大学 一种基于图神经网络的岗位匹配方法及装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210209139A1 (en) * 2020-01-02 2021-07-08 International Business Machines Corporation Natural question generation via reinforcement learning based graph-to-sequence model
CN111563149A (zh) * 2020-04-24 2020-08-21 西北工业大学 一种用于中文知识图谱问答系统的实体链接方法
CN112257446A (zh) * 2020-10-20 2021-01-22 平安科技(深圳)有限公司 命名实体识别方法、装置、计算机设备及可读存储介质
CN112527977A (zh) * 2020-11-09 2021-03-19 清华大学 概念抽取方法、装置、电子设备及存储介质
CN112395391A (zh) * 2020-11-17 2021-02-23 中国平安人寿保险股份有限公司 概念图谱构建方法、装置、计算机设备及存储介质
CN112148882A (zh) * 2020-11-27 2020-12-29 北京惠及智医科技有限公司 病历文本处理方法、装置、电子设备及存储介质
CN113204968A (zh) * 2021-05-28 2021-08-03 平安科技(深圳)有限公司 医学实体的概念识别方法、装置、设备及存储介质
CN114168819A (zh) * 2022-02-14 2022-03-11 北京大学 一种基于图神经网络的岗位匹配方法及装置

Also Published As

Publication number Publication date
CN114741508B (zh) 2023-05-30

Similar Documents

Publication Publication Date Title
Arora et al. Character level embedding with deep convolutional neural network for text normalization of unstructured data for Twitter sentiment analysis
CN109189942B (zh) 一种专利数据知识图谱的构建方法及装置
CN109657054B (zh) 摘要生成方法、装置、服务器及存储介质
US9317498B2 (en) Systems and methods for generating summaries of documents
CA2484410C (en) System for identifying paraphrases using machine translation techniques
CN110276071B (zh) 一种文本匹配方法、装置、计算机设备及存储介质
CN112800170A (zh) 问题的匹配方法及装置、问题的回复方法及装置
CN111291195B (zh) 一种数据处理方法、装置、终端及可读存储介质
CN110929038A (zh) 基于知识图谱的实体链接方法、装置、设备和存储介质
CN114580382A (zh) 文本纠错方法以及装置
CN109271524B (zh) 知识库问答系统中的实体链接方法
US11170169B2 (en) System and method for language-independent contextual embedding
CN113282711B (zh) 一种车联网文本匹配方法、装置、电子设备及存储介质
WO2015084404A1 (en) Matching of an input document to documents in a document collection
CN112989208A (zh) 一种信息推荐方法、装置、电子设备及存储介质
CN113821605A (zh) 一种事件抽取方法
CN111325018A (zh) 一种基于web检索和新词发现的领域词典构建方法
Fischbach et al. Fine-grained causality extraction from natural language requirements using recursive neural tensor networks
Schaback et al. Multi-level feature extraction for spelling correction
CN112711666B (zh) 期货标签抽取方法及装置
CN115203206A (zh) 数据内容搜索方法、装置、计算机设备及可读存储介质
CN114154496A (zh) 基于深度学习bert模型的煤监类案对比方法及装置
CN114741508A (zh) 概念挖掘方法及装置、电子设备及可读存储介质
WO2020026229A2 (en) Proposition identification in natural language and usage thereof
CN111401070A (zh) 词义相似度确定方法及装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant