CN110377748A - 实体关注点挖掘方法、装置、计算机设备及存储介质 - Google Patents
实体关注点挖掘方法、装置、计算机设备及存储介质 Download PDFInfo
- Publication number
- CN110377748A CN110377748A CN201910509440.2A CN201910509440A CN110377748A CN 110377748 A CN110377748 A CN 110377748A CN 201910509440 A CN201910509440 A CN 201910509440A CN 110377748 A CN110377748 A CN 110377748A
- Authority
- CN
- China
- Prior art keywords
- focus
- entity
- kernel
- result
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了实体关注点挖掘方法、装置、计算机设备及存储介质,其中方法包括:从待处理的文本中提取出能够反映文本所描述主题的核心实体;从文本中提取出关注点;将提取出的关注点与核心实体进行组合,得到实体关注点;对实体关注点进行筛选,将筛选出的实体关注点作为挖掘出的实体关注点。应用本发明所述方案,能够提高处理结果的准确性等。
Description
【技术领域】
本发明涉及计算机应用技术,特别涉及实体关注点挖掘方法、装置、计算机设备及存储介质。
【背景技术】
实体关注点挖掘能够从文本中提取出能够反映文本所描述主题的核心实体以及围绕核心实体进行描述的实体属性、实体侧面等关注点信息,从而能够帮助用户更好的理解文本内容或根据用户的意图及关注点推送更符合用户需求的文本资源等。
目前,还没有比较好实体关注点挖掘方法,主要是通过文本分类以及关键词提取等技术进行文本信息标注。但是,提取的关键词以及文本分类信息并不能很好的对实体关注点信息进行覆盖,准确性较差。
【发明内容】
有鉴于此,本发明提供了实体关注点挖掘方法、装置、计算机设备及存储介质。
具体技术方案如下:
一种实体关注点挖掘方法,包括:
从待处理的文本中提取出能够反映文本所描述主题的核心实体;
从所述文本中提取出关注点;
将所述关注点与所述核心实体进行组合,得到实体关注点;
对所述实体关注点进行筛选,将筛选出的实体关注点作为挖掘出的实体关注点。
根据本发明一优选实施例,所述从所述文本中提取出关注点包括:
若确定预先构建的实体-关注点知识图谱中记录的任一关注点及所述关注点对应的实体均记载在所述文本中,则将所述关注点作为提取出的关注点。
根据本发明一优选实施例,所述从所述文本中提取出关注点包括:
采用预先构建的至少一个多分类模型对所述文本进行多分类,从所述至少一个多分类模型的分类结果中选出部分分类结果作为提取出的关注点。
根据本发明一优选实施例,所述将所述关注点与所述核心实体进行组合包括:
针对提取出的每个关注点,分别将所述关注点与每个核心实体进行组合。
根据本发明一优选实施例,所述对所述实体关注点进行筛选,将筛选出的实体关注点作为挖掘出的实体关注点包括:
针对每个实体关注点,分别采用至少一种判别方式确定所述实体关注点中的核心实体与关注点是否相匹配,综合所述至少一种判别方式的判别结果,确定出是否保留所述实体关注点,若是,则将所述实体关注点作为挖掘出的实体关注点。
根据本发明一优选实施例,所述判别方式包括:
基于预先构建的实体与关注点语义依存关系模板,确定出所述实体关注点中的核心实体与关注点是否符合语义依存关系;
若是,则确定所述实体关注点中的核心实体与关注点相匹配,否则,确定所述实体关注点中的核心实体与关注点不匹配。
根据本发明一优选实施例,所述判别方式包括:
利用预先构建的分类模型对所述实体关注点进行判别,判别结果包括第一结果和第二结果;
若判别结果为所述第一结果,则确定所述实体关注点中的核心实体与关注点相匹配,若判别结果为所述第二结果,则确定所述实体关注点中的核心实体与关注点不匹配。
根据本发明一优选实施例,所述判别方式包括:
确定所述实体关注点中的核心实体与关注点是否均记录在预先构建的实体-关注点知识图谱中,且所述实体-关注点知识图谱中记录的所述核心实体对应的关注点中包括所述实体关注点中的关注点;
若是,则确定所述实体关注点中的核心实体与关注点相匹配,否则,确定所述实体关注点中的核心实体与关注点不匹配。
一种实体关注点挖掘装置,包括:提取单元、组合单元以及筛选单元;
所述提取单元,用于从待处理的文本中提取出能够反映文本所描述主题的核心实体,并从所述文本中提取出关注点;
所述组合单元,用于将所述关注点与所述核心实体进行组合,得到实体关注点;
所述筛选单元,用于对所述实体关注点进行筛选,将筛选出的实体关注点作为挖掘出的实体关注点。
根据本发明一优选实施例,所述提取单元确定预先构建的实体-关注点知识图谱中记录的任一关注点及所述关注点对应的实体均记载在所述文本中,则将所述关注点作为提取出的关注点。
根据本发明一优选实施例,所述提取单元采用预先构建的至少一个多分类模型对所述文本进行多分类,从所述至少一个多分类模型的分类结果中选出部分分类结果作为提取出的关注点。
根据本发明一优选实施例,所述组合单元针对提取出的每个关注点,分别将所述关注点与每个核心实体进行组合。
根据本发明一优选实施例,所述筛选单元针对每个实体关注点,分别采用至少一种判别方式确定所述实体关注点中的核心实体与关注点是否相匹配,综合所述至少一种判别方式的判别结果,确定出是否保留所述实体关注点,若是,则将所述实体关注点作为挖掘出的实体关注点。
根据本发明一优选实施例,所述筛选单元针对每个实体关注点,基于预先构建的实体与关注点语义依存关系模板,确定出所述实体关注点中的核心实体与关注点是否符合语义依存关系,若是,则确定所述实体关注点中的核心实体与关注点相匹配,否则,确定所述实体关注点中的核心实体与关注点不匹配。
根据本发明一优选实施例,所述筛选单元针对每个实体关注点,利用预先构建的分类模型对所述实体关注点进行判别,判别结果包括第一结果和第二结果,若判别结果为所述第一结果,则确定所述实体关注点中的核心实体与关注点相匹配,若判别结果为所述第二结果,则确定所述实体关注点中的核心实体与关注点不匹配。
根据本发明一优选实施例,所述筛选单元针对每个实体关注点,确定所述实体关注点中的核心实体与关注点是否均记录在预先构建的实体-关注点知识图谱中,且所述实体-关注点知识图谱中记录的所述核心实体对应的关注点中包括所述实体关注点中的关注点,若是,则确定所述实体关注点中的核心实体与关注点相匹配,否则,确定所述实体关注点中的核心实体与关注点不匹配。
一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现如以上所述的方法。
一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现如以上所述的方法。
基于上述介绍可以看出,采用本发明所述方案,可从待处理的文本中提取出能够反映文本所描述主题的核心实体,并可从文本中提取出关注点,进而可将提取出的关注点与核心实体进行组合,从而得到实体关注点,进而可对实体关注点进行筛选,将筛选出的实体关注点作为挖掘出的实体关注点,不同于现有方式中的简单的文本分类以及关键词提取,本发明所述方案中可结合提取出的核心实体以及关注点进行实体关注点的组合和分析等,从而提高了处理结果的准确性等。
【附图说明】
图1为本发明所述实体关注点挖掘方法实施例的流程图。
图2为本发明所述实体关注点挖掘装置实施例的组成结构示意图。
图3示出了适于用来实现本发明实施方式的示例性计算机系统/服务器12的框图。
【具体实施方式】
为了使本发明的技术方案更加清楚、明白,以下参照附图并举实施例,对本发明所述方案进行进一步说明。
显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
另外,应理解,本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
图1为本发明所述实体关注点挖掘方法实施例的流程图。如图1所示,包括以下具体实现方式。
在101中,从待处理的文本中提取出能够反映文本所描述主题的核心实体。
在102中,从文本中提取出关注点。
在103中,将提取出的关注点与核心实体进行组合,得到实体关注点。
在104中,对实体关注点进行筛选,将筛选出的实体关注点作为挖掘出的实体关注点。
完整的文本可包括标题和正文等信息,本实施例中,对于标题或正文缺失的文本,同样可适用。
针对待处理的文本,可从中提取出能够反映文本所描述主题的核心实体,即提取出文本所主要描述的实体。如何进行核心实体的提取不作限制,比如,可通过关键词提取和分析,确定出核心实体,或者,也可利用训练得到的深度学习模型进行核心实体的提取等。
另外,可从文本中提取出关注点,关注点是指所关注的实体的属性、侧面等。从文本中提取出关注点的方式包括但不限于以下两种。
1)显式匹配
若确定预先构建的实体-关注点知识图谱中记录的一关注点及该关注点对应的实体均记载在文本中,则可将该关注点作为提取出的关注点。
可预先构建实体-关注点知识图谱,其中可记录有不同的实体及其分别对应的关注点信息。可通过将实体-关注点知识图谱与文本进行显式匹配,从文本中提取出显式关注点。
2)隐式预测
采用预先构建的至少一个多分类模型对文本进行多分类,从所述至少一个多分类模型的分类结果中选出部分分类结果作为提取出的关注点。
优选地,可采用两种多分类模型相结合的方式来进行关注点的隐式预测,如基于N元模型(N-gram)和层次Softmax的多分类模型以及基于双向长短时记忆网络(Bi-LSTM,Bi-directional Long Short Term Memory Network)的多分类模型,可利用两种多分类模型分别对文本进行多分类,并可综合两个多分类模型的分类结果,选出部分分类结果作为提取出的隐式关注点。
可通过线性加权或投票等方式选出作为提取出的关注点的分类结果。按照现有方式,每个多分类模型对文本进行多分类,每个分类结果会分别对应一个置信度评分,即属于该分类的概率。这样,针对一分类结果,若其在两个多分类模型的分类结果中的置信度评分分别为a和b,那么可将a和b分别乘以对应的加权系数后相加,不同的多分类模型可对应不同的加权系数,将相加之和作为该分类结果的综合评分,可选出综合评分大于预定阈值的分类结果,作为提取出的关注点。再比如,针对一分类结果,若其在两个多分类模型的分类结果中的置信度评分分别为a和b,a和b均大于预先设定的阈值,那么则可将该分类结果作为提取出的关注点。
无论采用何种方式提取关注点,针对提取出的每个关注点,可分别将该关注点与每个核心实体进行组合。提取出的核心实体数可能为一,也可能大于一。
假设提取出的核心实体数为三,分别为第一核心实体、第二核心实体和第三核心实体,假设提取出的关注点数也为三,分别为第一关注点、第二关注点和第三关注点,那么可将第一关注点分别与第一核心实体、第二核心实体以及第三核心实体进行组合,将第二关注点分别与第一核心实体、第二核心实体以及第三核心实体进行组合,将第三关注点分别与第一核心实体、第二核心实体以及第三核心实体进行组合,从而共得到九个实体关注点,即第一核心实体+第一关注点、第一核心实体+第二关注点、第一核心实体+第三关注点、第二核心实体+第一关注点、第二核心实体+第二关注点、第二核心实体+第三关注点、第三核心实体+第一关注点、第三核心实体+第二关注点以及第三核心实体+第三关注点。
对于得到的实体关注点,可进一步对其进行筛选,从而将筛选出的实体关注点作为最终所需的挖掘出的实体关注点。
具体地,针对每个实体关注点,可分别采用至少一种判别方式确定该实体关注点中的核心实体与关注点是否相匹配,综合所述至少一种判别方式的判别结果,确定出是否保留该实体关注点,若是,则可将该实体关注点作为挖掘出的实体关注点。所述判别方式包括但不限于以下三种。
1)规则模板
针对任一实体关注点,可基于预先构建的实体与关注点语义依存关系模板,确定出该实体关注点中的核心实体与关注点是否符合语义依存关系,若是,则可确定该实体关注点中的核心实体与关注点相匹配,否则,可确定该实体关注点中的核心实体与关注点不匹配。
可预先构建多个实体与关注点语义依存关系模板,如[实体]手机的[关注点],将实体关注点中的核心实体和关注点分别代入每个模板中,对于任一模板,若代入后的模板内容在文本中出现,则可认为该实体关注点中的核心实体与关注点相匹配。
2)模型
针对任一实体关注点,可利用预先构建的分类模型对该实体关注点进行判别,判别结果包括第一结果和第二结果,若判别结果为第一结果,则可确定该实体关注点中的核心实体与关注点相匹配,若判别结果为第二结果,则可确定该实体关注点中的核心实体与关注点不匹配。
可通过构建有监督的实体关注点pair分类模型来进行判别,优选地,采用的模型为基于极端梯度提升(XGBoost,eXtreme Gradient Boosting)的分类模型,该分类模型为一个二分类模型,输出结果包括第一结果和第二结果,如1和0,若输出为1,则可确定实体关注点中的核心实体与关注点相匹配,若输出为0,则可确定实体关注点中的核心实体与关注点不匹配,该分类模型的输入可为待判别的实体关注点以及文本。
3)推理
针对任一实体关注点,确定该实体关注点中的核心实体与关注点是否均记录在预先构建的实体-关注点知识图谱中,且实体-关注点知识图谱中记录的该核心实体对应的关注点中包括该实体关注点中的关注点,若是,则可确定该实体关注点中的核心实体与关注点相匹配,否则,可确定该实体关注点中的核心实体与关注点不匹配。
优选地,针对任一实体关注点,可分别按照上述三种方式进行判别,并可综合三种判别方式的判别结果,确定出是否保留该实体关注点,若是,则可将该实体关注点作为挖掘出的实体关注点。
如何综合三种判别方式的判别结果确定出是否保留该实体关注点不作限制。比如,针对一实体关注点,若三种判别方式的判别结果均为该实体关注点中的核心实体与关注点相匹配,那么则可保留该实体关注点,进而可将该实体关注点作为挖掘出的实体关注点。再比如,针对一实体关注点,若三种判别结果中有两种判别结果均为该实体关注点中的核心实体与关注点相匹配,另一种判别结果为该实体关注点中的核心实体与关注点不匹配,那么则可按照少数服从多数的原则,保留该实体关注点,进而可将该实体关注点作为挖掘出的实体关注点。
举例说明:对于一介绍美食节目的文本(文章),从中提取出三个核心实体,分别为A(节目名称)、B(明星一)、C(明星二),最终挖掘出的实体关注点可为B厨艺、C厨艺。
需要说明的是,对于前述的方法实施例,为了简单描述,将其表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
总之,不同于现有方式中的简单的文本分类以及关键词提取,本发明方法实施例所述方案中可结合提取出的核心实体以及关注点进行实体关注点的组合和分析等,从而提高了处理结果的准确性。
而且,本发明方法实施例所述方案可适用于不同业务场景下的实体关注点挖掘,具有广泛适用性。
另外,本发明方法实施例所述方案中所用到的各种模型,能够在少量训练样本的情况下即得到较好的效果,便于构建训练样本,简化了处理。
以上是关于方法实施例的介绍,以下通过装置实施例,对本发明所述方案进行进一步说明。
图2为本发明所述实体关注点挖掘装置实施例的组成结构示意图。如图2所示,包括:提取单元201、组合单元202以及筛选单元203。
提取单元201,用于从待处理的文本中提取出能够反映文本所描述主题的核心实体,并从文本中提取出关注点。
组合单元202,用于将提取出的关注点与核心实体进行组合,得到实体关注点。
筛选单元203,用于对实体关注点进行筛选,将筛选出的实体关注点作为挖掘出的实体关注点。
完整的文本可包括标题和正文等信息,本实施例中,对于标题或正文缺失的文本,同样可适用。
针对待处理的文本,提取单元201可从中提取出能够反映文本所描述主题的核心实体,即提取出文本所主要描述的实体。如何进行核心实体的提取不作限制,比如,可通过关键词提取和分析,确定出核心实体,或者,也可利用训练得到的深度学习模型进行核心实体的提取等。
另外,提取单元201可从文本中提取出关注点,关注点是指所关注的实体的属性、侧面等。从文本中提取出关注点的方式包括但不限于以下两种。
1)若确定预先构建的实体-关注点知识图谱中记录的一关注点及该关注点对应的实体均记载在文本中,则可将该关注点作为提取出的关注点。
可预先构建实体-关注点知识图谱,其中可记录有不同的实体及其分别对应的关注点信息。可通过将实体-关注点知识图谱与文本进行显式匹配,从文本中提取出显式关注点。
2)采用预先构建的至少一个多分类模型对文本进行多分类,从所述至少一个多分类模型的分类结果中选出部分分类结果作为提取出的关注点。
优选地,可采用两种多分类模型相结合的方式来进行关注点的隐式预测,如基于N-gram和层次Softmax的多分类模型以及基于Bi-LSTM的多分类模型,可利用两种多分类模型分别对文本进行多分类,并可综合两个多分类模型的分类结果,选出部分分类结果作为提取出的隐式关注点。
无论采用何种方式提取关注点,针对提取出的每个关注点,组合单元202可分别将该关注点与每个核心实体进行组合。提取出的核心实体数可能为一,也可能大于一。
对于得到的实体关注点,筛选单元203可进一步对其进行筛选,从而将筛选出的实体关注点作为最终所需的挖掘出的实体关注点。
具体地,针对每个实体关注点,筛选单元203可分别采用至少一种判别方式确定该实体关注点中的核心实体与关注点是否相匹配,并综合所述至少一种判别方式的判别结果,确定出是否保留该实体关注点,若是,则可将该实体关注点作为挖掘出的实体关注点。所述判别方式包括但不限于以下三种。
1)针对任一实体关注点,可基于预先构建的实体与关注点语义依存关系模板,确定出该实体关注点中的核心实体与关注点是否符合语义依存关系,若是,则可确定该实体关注点中的核心实体与关注点相匹配,否则,可确定该实体关注点中的核心实体与关注点不匹配。
2)针对任一实体关注点,可利用预先构建的分类模型对该实体关注点进行判别,判别结果包括第一结果和第二结果,若判别结果为第一结果,则可确定该实体关注点中的核心实体与关注点相匹配,若判别结果为第二结果,则可确定该实体关注点中的核心实体与关注点不匹配。优选地,所述分类模型为基于XGBoost的分类模型。
3)针对任一实体关注点,确定该实体关注点中的核心实体与关注点是否均记录在预先构建的实体-关注点知识图谱中,且实体-关注点知识图谱中记录的该核心实体对应的关注点中包括该实体关注点中的关注点,若是,则可确定该实体关注点中的核心实体与关注点相匹配,否则,可确定该实体关注点中的核心实体与关注点不匹配。
优选地,针对任一实体关注点,筛选单元203可分别按照上述三种方式进行判别,并可综合三种判别方式的判别结果,确定出是否保留该实体关注点,若是,则可将该实体关注点作为挖掘出的实体关注点。
图2所示装置实施例的具体工作流程请参照前述方法实施例中的相关说明,不再赘述。
总之,本发明装置实施例所述方案中可结合提取出的核心实体以及关注点进行实体关注点的组合和分析等,从而提高了处理结果的准确性。
而且,本发明装置实施例所述方案可适用于不同业务场景下的实体关注点挖掘,具有广泛适用性。
另外,本发明装置实施例所述方案中所用到的各种模型,能够在少量训练样本的情况下即得到较好的效果,便于构建训练样本,简化了处理。
图3示出了适于用来实现本发明实施方式的示例性计算机系统/服务器12的框图。图3显示的计算机系统/服务器12仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图3所示,计算机系统/服务器12以通用计算设备的形式表现。计算机系统/服务器12的组件可以包括但不限于:一个或者多个处理器(处理单元)16,存储器28,连接不同系统组件(包括存储器28和处理器16)的总线18。
总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。
计算机系统/服务器12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机系统/服务器12访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
存储器28可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)30和/或高速缓存存储器32。计算机系统/服务器12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统34可以用于读写不可移动的、非易失性磁介质(图3未显示,通常称为“硬盘驱动器”)。尽管图3中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序模块42的程序/实用工具40,可以存储在例如存储器28中,这样的程序模块42包括——但不限于——操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。
计算机系统/服务器12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信,还可与一个或者多个使得用户能与该计算机系统/服务器12交互的设备通信,和/或与使得该计算机系统/服务器12能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且,计算机系统/服务器12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图3所示,网络适配器20通过总线18与计算机系统/服务器12的其它模块通信。应当明白,尽管图中未示出,可以结合计算机系统/服务器12使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
处理器16通过运行存储在存储器28中的程序,从而执行各种功能应用以及数据处理,例如实现图1所示实施例中的方法。
本发明同时公开了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时将实现如图1所示实施例中的方法。
可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于——无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如”C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法等,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。
Claims (18)
1.一种实体关注点挖掘方法,其特征在于,包括:
从待处理的文本中提取出能够反映文本所描述主题的核心实体;
从所述文本中提取出关注点;
将所述关注点与所述核心实体进行组合,得到实体关注点;
对所述实体关注点进行筛选,将筛选出的实体关注点作为挖掘出的实体关注点。
2.根据权利要求1所述的方法,其特征在于,
所述从所述文本中提取出关注点包括:
若确定预先构建的实体-关注点知识图谱中记录的一关注点及所述关注点对应的实体均记载在所述文本中,则将所述关注点作为提取出的关注点。
3.根据权利要求1所述的方法,其特征在于,
所述从所述文本中提取出关注点包括:
采用预先构建的至少一个多分类模型对所述文本进行多分类,从所述至少一个多分类模型的分类结果中选出部分分类结果作为提取出的关注点。
4.根据权利要求1所述的方法,其特征在于,
所述将所述关注点与所述核心实体进行组合包括:
针对提取出的每个关注点,分别将所述关注点与每个核心实体进行组合。
5.根据权利要求4所述的方法,其特征在于,
所述对所述实体关注点进行筛选,将筛选出的实体关注点作为挖掘出的实体关注点包括:
针对每个实体关注点,分别采用至少一种判别方式确定所述实体关注点中的核心实体与关注点是否相匹配,综合所述至少一种判别方式的判别结果,确定出是否保留所述实体关注点,若是,则将所述实体关注点作为挖掘出的实体关注点。
6.根据权利要求5所述的方法,其特征在于,
所述判别方式包括:
基于预先构建的实体与关注点语义依存关系模板,确定出所述实体关注点中的核心实体与关注点是否符合语义依存关系;
若是,则确定所述实体关注点中的核心实体与关注点相匹配,否则,确定所述实体关注点中的核心实体与关注点不匹配。
7.根据权利要求5所述的方法,其特征在于,
所述判别方式包括:
利用预先构建的分类模型对所述实体关注点进行判别,判别结果包括第一结果和第二结果;
若判别结果为所述第一结果,则确定所述实体关注点中的核心实体与关注点相匹配,若判别结果为所述第二结果,则确定所述实体关注点中的核心实体与关注点不匹配。
8.根据权利要求5所述的方法,其特征在于,
所述判别方式包括:
确定所述实体关注点中的核心实体与关注点是否均记录在预先构建的实体-关注点知识图谱中,且所述实体-关注点知识图谱中记录的所述核心实体对应的关注点中包括所述实体关注点中的关注点;
若是,则确定所述实体关注点中的核心实体与关注点相匹配,否则,确定所述实体关注点中的核心实体与关注点不匹配。
9.一种实体关注点挖掘装置,其特征在于,包括:提取单元、组合单元以及筛选单元;
所述提取单元,用于从待处理的文本中提取出能够反映文本所描述主题的核心实体,并从所述文本中提取出关注点;
所述组合单元,用于将所述关注点与所述核心实体进行组合,得到实体关注点;
所述筛选单元,用于对所述实体关注点进行筛选,将筛选出的实体关注点作为挖掘出的实体关注点。
10.根据权利要求9所述的装置,其特征在于,
所述提取单元确定预先构建的实体-关注点知识图谱中记录的一关注点及所述关注点对应的实体均记载在所述文本中,则将所述关注点作为提取出的关注点。
11.根据权利要求9所述的装置,其特征在于,
所述提取单元采用预先构建的至少一个多分类模型对所述文本进行多分类,从所述至少一个多分类模型的分类结果中选出部分分类结果作为提取出的关注点。
12.根据权利要求9所述的装置,其特征在于,
所述组合单元针对提取出的每个关注点,分别将所述关注点与每个核心实体进行组合。
13.根据权利要求12所述的装置,其特征在于,
所述筛选单元针对每个实体关注点,分别采用至少一种判别方式确定所述实体关注点中的核心实体与关注点是否相匹配,综合所述至少一种判别方式的判别结果,确定出是否保留所述实体关注点,若是,则将所述实体关注点作为挖掘出的实体关注点。
14.根据权利要求13所述的装置,其特征在于,
所述筛选单元针对每个实体关注点,基于预先构建的实体与关注点语义依存关系模板,确定出所述实体关注点中的核心实体与关注点是否符合语义依存关系,若是,则确定所述实体关注点中的核心实体与关注点相匹配,否则,确定所述实体关注点中的核心实体与关注点不匹配。
15.根据权利要求13所述的装置,其特征在于,
所述筛选单元针对每个实体关注点,利用预先构建的分类模型对所述实体关注点进行判别,判别结果包括第一结果和第二结果,若判别结果为所述第一结果,则确定所述实体关注点中的核心实体与关注点相匹配,若判别结果为所述第二结果,则确定所述实体关注点中的核心实体与关注点不匹配。
16.根据权利要求13所述的装置,其特征在于,
所述筛选单元针对每个实体关注点,确定所述实体关注点中的核心实体与关注点是否均记录在预先构建的实体-关注点知识图谱中,且所述实体-关注点知识图谱中记录的所述核心实体对应的关注点中包括所述实体关注点中的关注点,若是,则确定所述实体关注点中的核心实体与关注点相匹配,否则,确定所述实体关注点中的核心实体与关注点不匹配。
17.一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1~8中任一项所述的方法。
18.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1~8中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910509440.2A CN110377748A (zh) | 2019-06-13 | 2019-06-13 | 实体关注点挖掘方法、装置、计算机设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910509440.2A CN110377748A (zh) | 2019-06-13 | 2019-06-13 | 实体关注点挖掘方法、装置、计算机设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110377748A true CN110377748A (zh) | 2019-10-25 |
Family
ID=68250216
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910509440.2A Pending CN110377748A (zh) | 2019-06-13 | 2019-06-13 | 实体关注点挖掘方法、装置、计算机设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110377748A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111125438A (zh) * | 2019-12-25 | 2020-05-08 | 北京百度网讯科技有限公司 | 实体信息提取方法、装置、电子设备及存储介质 |
CN111274815A (zh) * | 2020-01-15 | 2020-06-12 | 北京百度网讯科技有限公司 | 用于挖掘文本中的实体关注点的方法和装置 |
CN111639234A (zh) * | 2020-05-29 | 2020-09-08 | 北京百度网讯科技有限公司 | 用于挖掘核心实体关注点的方法和装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180285461A1 (en) * | 2017-03-31 | 2018-10-04 | Facebook, Inc. | Systems and Methods for Providing Diverse Content |
CN109241530A (zh) * | 2018-08-29 | 2019-01-18 | 昆明理工大学 | 一种基于N-gram向量和卷积神经网络的中文文本多分类方法 |
CN109299457A (zh) * | 2018-09-06 | 2019-02-01 | 北京奇艺世纪科技有限公司 | 一种观点挖掘方法、装置及设备 |
CN109471938A (zh) * | 2018-10-11 | 2019-03-15 | 平安科技(深圳)有限公司 | 一种文本分类方法及终端 |
CN109597891A (zh) * | 2018-11-26 | 2019-04-09 | 重庆邮电大学 | 基于双向长短时记忆神经网络的文本情感分析方法 |
-
2019
- 2019-06-13 CN CN201910509440.2A patent/CN110377748A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180285461A1 (en) * | 2017-03-31 | 2018-10-04 | Facebook, Inc. | Systems and Methods for Providing Diverse Content |
CN109241530A (zh) * | 2018-08-29 | 2019-01-18 | 昆明理工大学 | 一种基于N-gram向量和卷积神经网络的中文文本多分类方法 |
CN109299457A (zh) * | 2018-09-06 | 2019-02-01 | 北京奇艺世纪科技有限公司 | 一种观点挖掘方法、装置及设备 |
CN109471938A (zh) * | 2018-10-11 | 2019-03-15 | 平安科技(深圳)有限公司 | 一种文本分类方法及终端 |
CN109597891A (zh) * | 2018-11-26 | 2019-04-09 | 重庆邮电大学 | 基于双向长短时记忆神经网络的文本情感分析方法 |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111125438A (zh) * | 2019-12-25 | 2020-05-08 | 北京百度网讯科技有限公司 | 实体信息提取方法、装置、电子设备及存储介质 |
CN111125438B (zh) * | 2019-12-25 | 2023-06-27 | 北京百度网讯科技有限公司 | 实体信息提取方法、装置、电子设备及存储介质 |
CN111274815A (zh) * | 2020-01-15 | 2020-06-12 | 北京百度网讯科技有限公司 | 用于挖掘文本中的实体关注点的方法和装置 |
EP3852002A1 (en) * | 2020-01-15 | 2021-07-21 | Beijing Baidu Netcom Science And Technology Co. Ltd. | Method and apparatus for mining entity focus in text |
KR20210092147A (ko) * | 2020-01-15 | 2021-07-23 | 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. | 텍스트의 엔티티 포커스의 마이닝 방법 및 장치 |
KR102554121B1 (ko) * | 2020-01-15 | 2023-07-10 | 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. | 텍스트의 엔티티 포커스의 마이닝 방법 및 장치 |
US11775761B2 (en) | 2020-01-15 | 2023-10-03 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Method and apparatus for mining entity focus in text |
CN111274815B (zh) * | 2020-01-15 | 2024-04-12 | 北京百度网讯科技有限公司 | 用于挖掘文本中的实体关注点的方法和装置 |
CN111639234A (zh) * | 2020-05-29 | 2020-09-08 | 北京百度网讯科技有限公司 | 用于挖掘核心实体关注点的方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107992596B (zh) | 一种文本聚类方法、装置、服务器和存储介质 | |
US7853582B2 (en) | Method and system for providing information services related to multimodal inputs | |
CN1677388B (zh) | 根据分数将输入语义结构翻译成输出语义结构的方法和系统 | |
CN110245348A (zh) | 一种意图识别方法及系统 | |
CN111767366B (zh) | 问答资源挖掘方法、装置、计算机设备及存储介质 | |
CN109947909A (zh) | 智能客服应答方法、设备、存储介质及装置 | |
JP2020528705A (ja) | 認知的洞察を使用したビデオ・シーンの移動 | |
CN110276023B (zh) | Poi变迁事件发现方法、装置、计算设备和介质 | |
CN110377748A (zh) | 实体关注点挖掘方法、装置、计算机设备及存储介质 | |
CN108319720A (zh) | 基于人工智能的人机交互方法、装置及计算机设备 | |
TW200842614A (en) | Automatic disambiguation based on a reference resource | |
CN109271542A (zh) | 封面确定方法、装置、设备及可读存储介质 | |
CN110390054A (zh) | 兴趣点召回方法、装置、服务器和存储介质 | |
CN110232340A (zh) | 建立视频分类模型以及视频分类的方法、装置 | |
CN109933269A (zh) | 小程序推荐的方法、设备和计算机存储介质 | |
US20130057583A1 (en) | Providing information services related to multimodal inputs | |
CN109446907A (zh) | 一种视频聊天的方法、装置、设备和计算机存储介质 | |
CN109214417A (zh) | 用户意图的挖掘方法及装置、计算机设备及可读介质 | |
CN110325987A (zh) | 语境语音驱动深度书签 | |
CN112015928A (zh) | 多媒体资源的信息提取方法、装置、电子设备及存储介质 | |
CN111931488A (zh) | 用于验证判断结果准确性的方法、装置、电子设备及介质 | |
CN115712657A (zh) | 基于元宇宙的用户需求挖掘方法及系统 | |
CN111310065A (zh) | 一种社交推荐方法、装置、服务器及存储介质 | |
CN110378396A (zh) | 样本数据标注方法、装置、计算机设备及存储介质 | |
CN108268602A (zh) | 分析文本话题点的方法、装置、设备和计算机存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |